Self-Taught/Project_ECC

ECC 프로젝트) 3차 회의 회의록

CC_flavor.철근 2025. 2. 22. 05:04

2025.02.01 회의록

 

[회의 안건지]

https://docs.google.com/document/d/1rPotMdCWAan3A_yOKK8vqUawUnVd5PKhgC66jEVsfcQ/edit?tab=t.0

1) 피처벡터화 : BOW와 TF-IDF로 피처벡터화한 후 성능비교
=> 서아 (월요일 오후 4~5시까지)
2) 오버샘플링 : 적은 데이터를 지닌 별점리뷰들을 오버샘플링
=> 현경 (월요일 밤까지)
3) 모델링 (** 목요일 회의 전까지)
3.1. 회귀 모델 (평점 예측) -> 서아, 정윤
   -- Ridge, LightGBM 각각 모델 생성, 성능 비교
3.2. 텍스트 분석 (앱 문제점 분석) -> 현경, 은서
   -- 키워드 추출 및 빈도 분석

1** 클론하는 법: Git bash에 명령어 입력
2** 깃허브 이용 중 어려운 점은 chat gpt 이용하거나 단톡방에 질문하기!

 

+++) 

라벨 데이터가 따로 없기에 성능 비교를 상위 30개의 단어를 추출하는 간접적인 방식으로 해보았는데 BoW와 TF-IDF 추출결과의 차이가 크지 않은 것 같아서 TF-IDF로 진행.