Self-Taught/Project_ECC

ECC 프로젝트) 5차 회의 회의록

CC_flavor.철근 2025. 2. 22. 05:07

2/8 토요일 회의록

 

* 텍스트분석 팀
문장단위 분석- 클러스터링 X 감성 분석 진행 (문장별 & 전체 감성 분석)
 문장별의 감성 분석을 먼저 진행
(목표)
 1. 리뷰 문장별로 추출해서 데이터셋 새로 만들기 (별점 고려 X)
 1.5. 문장 쪼개기 + 전처리 + 피처벡터화
 2. 리뷰에 대한 감성 분석 진행 -> 점수화
 3. 리뷰 전체/문장별 점수 기준으로 텍스트 분석 재진행


* 회귀 모델(평점 예측) 팀
 릿지 LGMB -> 별점 예측을 회귀로 하면 소수점이 나오는 문제 -> 로지스틱으로 분류 모델 생성 시도 => 실패
 소수점 내림으로 값을 처리 (릿지+LGMB)
 ... 자세한 내용은 서아님 정리본을 참고

 


- 별점 예측을 회귀로 하면 소수점이 나오는 문제..
=> 이를 해결하기 위해 로지스틱으로 분류 모델 생성 시도

[로지스틱 회귀]
1. 별점이 1,2점 -> 0 (부정)
            4,5점 -> 1 (긍정)
2. 이 데이터로 로지스틱 회귀 분류 돌리기
=> 텍스트 데이터를 TF-IDF 벡터화한 결과가 희소행렬이라 이를 
로지스틱에서 돌렸을 때 오류 발생!
==> 따라서 이 모델은 실패함.

[릿지+LGBM 모델 수정]
어떻게 별점(1,2,3,4,5점으로 결정되어야 함) 예측? -> 소수점 버리기
1. Ridge 모델 수정
1-1. 릿지의 y_pred값을 내림하는 식으로 수정함
1-2. LGBM도 같은 방식으로 수정

** GridSearch 무한 로딩 문제
릿지의 최적 파라미터(alpha) 값은 이미 찾았고, LGBM의 최적 파라미터들을 찾기 위해 GridSearch를 진행하려 했으나 계속 출력중으로만 뜨고 10분이 지나도 결과가 출력되지 않는 문제 발생
-> 데이터의 값이 너무 커서 그런가 싶어서 X_train_over, y_train_over의 1%만 추출한 샘플 데이터로 다시 돌려보았으나 여러번 시도하여도 출력값이 나오지 않음 ㅠㅠ

!다음 회의 전까지 이 문제 해결하여 두 모델 합칠 예정!

 




다음주 목요일까지 할 일 
 문장 단위로 쪼개기 -> 현경
 문장 전체에 대한 감성 분석 -> 은서
 GridSearch 무한 로딩 문제 해결 -> 서아, 정윤