Self-Taught/Project_ECC

ECC 프로젝트 ) 2차 회의 회의록

CC_flavor.철근 2025. 2. 22. 05:02

2025.01.30 회의록

1. 데이터 선택
현경, 서아
: 데이터 갯수도 둘 다 많고, 고른 분포를 가짐. 많은 사람들이 이용하고 있는 아마존, 알리 익스프레스 중에서 골라도 좋을 것 같다. 
추천 시스템까지 고려한다면 두 데이터 세트의 크기가 비슷하기 때문에 이 둘 중에 골라서 이용하는 것도 좋아 보임

은서 : myntra와 mesho의 경우에 리뷰 점수가 1점과 5점에 에 치중돼 있는 경우가 많아서, 아마존과 알리 익스프레스를 사용할 거라면 점수가 치중이 돼 있는지를 확인하기 

정윤 : 추천 시스템을 고려한다면 앱의 갯수가 여러 개인 게 좋지 않을까?
3만~5만 크기의 앱이 6개 정도가 되니 이 중에서 가장 크기가 큰  daraz와 Lazada 중에 골라 이용해서 진행하는 게 좋아 보인다.

현경 : 5만 개가 넘어가면 충분히 유의한 결과를 낼 수 있다고 알고 있어서 daraz와 Lazada 중에 리뷰 점수가 더 고른 데이터를 이용해서 진행하자! 

은서 : 리뷰 분포를 확인해보니 고른 분포를 가진 것을 선택하는 게 좋을 것 같다!

서아 : 무의미한 5점을 선택할 수 있을 것 같다.
--> 1점이 가장 많고 감소하는 방향이 된다  --> 근데 갑자기 5점에서 많아져서 무의미하게 5점을 선택한 사람들이 있는 것 아닐까?

 

현경 : 다른 데이터들도 살펴보니 1점과 5점이 두드러지는 경향은 동일하게 나타남
--> 왜도를 조절하는 방식의 전처리를 시행하는 것도 괜찮을 것 같다.
---> 다른 데이터들에도 1점과 5점이 특이하게 많은 경향이 나타나는 중. 리뷰 데이터가 더 고른 것을 고르는 건 무의미할 것으로 보임.
------> daraz와 Lazada 중에서 thumbsUpCount의 구간을 고려할 때, 구간 별 데이터 갯수가 비슷한게 좋을 것 같아서 daraz로 진행하면 어떨까??

2. 칼럼 전처리

현경:
reviewId는 없애도 될듯! 중복 데이터가 없었으니까!
content --> 전처리 및 피처 벡터화!! 
score --> 냅둬도 될 듯
thumbsUpCount --> 등급 매기기
replyContent  --> 대답이 2개밖에 없음. 없애도 될 듯
repliedAt   --> 없애도 될 듯
appName  --> 없애면 안 됨! 
at --> 없애도 될 듯

현경 : 깃허브에 메인 브랜치 / 개인 브랜치를 이용하고, 병합하는 방법이 있음
해당 내용을 토요일까지 공부해와서 깃허브에서 작업 진행하는 것으로 결정 

 

전처리 _ 손현경 담당 --> 토요일까지 작업 후 깃허브에 업로드하는 방향으로 진행
다른 팀원 : 전처리 후에 어떤 식으로 진행할 지 생각