목록분류 전체보기 (30)
철솜_STUDY
[2025. 2. 20 (목) 프로젝트 회의] 1. 회귀분석 팀 (정윤, 서아) * 지난 회의까진 릿지+LGBM 혼합모델에 감성분석 합침 * 하지만 데이터 자체에 텍스트 데이터가 들어있어 감성분석을 넣어도 무의미함을 느낌. * 성능을 높이기 위해 Lasso 를 돌려보았으나 성능 변화가 크게 없어 기존 모델인 Ridge+LGBM 혼합 앙상블 모델로 프로젝트 마무리를 하기로 함. 2. 텍스트 분석 팀 (현경, 은서) 2.1. 현경님 * 감성 분석 이후로 문장 단위로 먼저 감성 분석. * 리뷰단위/문장단위 같이 보는 게 좋을 것 같다고 판단. -> 평균 감성 점수와 점수의 간극이 커서 문장 단위가 아닌 리뷰 단위로 감성분석 점수를 내기로 함. * 별점과 리뷰 내용이 다르기 때문에 별점의 객관성이 낮다고 생각하..
2/15 회의 ]1. 은서님 리뷰별 감성 분석 코드 가져와 추가함. 2. 감성분석 점수 sentiment_score가 -1~1까지의 범위 -> -1~-0.5, -0.5~-0.2, -0.2~0.2, 0.2~0.5, 0.5~1 까지로 범위를 나눠서 점수를 1,2,3,4,5로 변환한 senti_model_score 열을 추가함. 3. Ridge와 LGBM - fit 대상 데이터를 X_train_tfidf - predict 대상 데이터를 X_test_tfidf 로 변경 - 감성분석 점수와 동일한 인덱스를 공유하기 위해 TF-IDF 피처벡터화 변환 시에 X_train, X_test의 인덱스를 따로 저장함. 4. 최종 점수 도출 - Ridge+LGBM 혼합 모델 점수를 mix_model_score로 저장하고 da..
02.13 회의 회의록 문장 단위로 리뷰 쪼개기 --> 문장 단위로 쪼개고, 어떤 리뷰에서 왔는지에 대한 original_row 칼럼, 기존 데이터셋의 score 칼럼으로 새로운 데이터 세트 만듦 --> 전처리, 피처벡터화 완료 & 전처리 과정에서 불용어로 추가되는 단어 업데이트 (무의미한 단어들이 많이 나와서 업데이트 진행) --> 감성 분석 진행 : 감성 분석 점수 분포를 확인하고 어떻게 클러스터링 기준을 세울 것인지 확인해야 할 것 같음 ==>토요일까지 진행 #LightGBM 모델 hyperopt로 최적화 릿지+GBM가 오히려 성능이 더 떨어짐. 스태킹 rmse: 1.1067 혼합 rmse: 1.6433, mae: 0.9912 lightgmb rmse: 1.5848, mae: 0.9635 r..
2/8 토요일 회의록 * 텍스트분석 팀 문장단위 분석- 클러스터링 X 감성 분석 진행 (문장별 & 전체 감성 분석) 문장별의 감성 분석을 먼저 진행 (목표) 1. 리뷰 문장별로 추출해서 데이터셋 새로 만들기 (별점 고려 X) 1.5. 문장 쪼개기 + 전처리 + 피처벡터화 2. 리뷰에 대한 감성 분석 진행 -> 점수화 3. 리뷰 전체/문장별 점수 기준으로 텍스트 분석 재진행 * 회귀 모델(평점 예측) 팀 릿지 LGMB -> 별점 예측을 회귀로 하면 소수점이 나오는 문제 -> 로지스틱으로 분류 모델 생성 시도 => 실패 소수점 내림으로 값을 처리 (릿지+LGMB) ... 자세한 내용은 서아님 정리본을 참고 - 별점 예측을 회귀로 하면 소수점이 나오는 문제..=> 이를 해결하기 위해 로지스틱으로..
ECC 회의록(2.6) 현경, 은서-키워드 분석, 빈도 관련 내용 정윤, 서아-회귀 모델 릿지, LightGBM 은서-키워드 추출 1. 부정적 리뷰만 뽑아서 상위 20개 추출 2. 워드클라우드 추출한 결과 3. LDA 적용->토픽 모델링 진행 토픽1: 주문, 서비스 관련 토픽2: 제품의 퀄리티, 오래 걸린다 토픽3: 앱 업데이트 시의 문제 토픽4: 앱 자체의 오류. 주문 오류, 시간 지연 등의 불만 토픽5: 배달비, 배달 시간, 현금 결제 문제 ##상의할 것 리뷰 텍스트 내에 포함된 장점+단점 문장들 클러스터링하는 데 신경써야 했다...리뷰 텍스트를 문장 단위로 진행하는 건 어떨지... ex) 좋은 내용 중에서도 안 좋은 내용을 부각되게 해서 1점을 주는 경우... =>추가 의견 서아-텍스트 분석 하고 ..
2025.02.01 회의록 [회의 안건지]https://docs.google.com/document/d/1rPotMdCWAan3A_yOKK8vqUawUnVd5PKhgC66jEVsfcQ/edit?tab=t.0 1) 피처벡터화 : BOW와 TF-IDF로 피처벡터화한 후 성능비교 => 서아 (월요일 오후 4~5시까지) 2) 오버샘플링 : 적은 데이터를 지닌 별점리뷰들을 오버샘플링 => 현경 (월요일 밤까지) 3) 모델링 (** 목요일 회의 전까지) 3.1. 회귀 모델 (평점 예측) -> 서아, 정윤 -- Ridge, LightGBM 각각 모델 생성, 성능 비교 3.2. 텍스트 분석 (앱 문제점 분석) -> 현경, 은서 -- 키워드 추출 및 빈도 분석 1** 클론하는 법: Git bash에 명령어 입..
2025.01.30 회의록 1. 데이터 선택 현경, 서아 : 데이터 갯수도 둘 다 많고, 고른 분포를 가짐. 많은 사람들이 이용하고 있는 아마존, 알리 익스프레스 중에서 골라도 좋을 것 같다. 추천 시스템까지 고려한다면 두 데이터 세트의 크기가 비슷하기 때문에 이 둘 중에 골라서 이용하는 것도 좋아 보임 은서 : myntra와 mesho의 경우에 리뷰 점수가 1점과 5점에 에 치중돼 있는 경우가 많아서, 아마존과 알리 익스프레스를 사용할 거라면 점수가 치중이 돼 있는지를 확인하기 정윤 : 추천 시스템을 고려한다면 앱의 갯수가 여러 개인 게 좋지 않을까? 3만~5만 크기의 앱이 6개 정도가 되니 이 중에서 가장 크기가 큰 daraz와 Lazada 중에 골라 이용해서 진행하는 게 좋아 보인다. 현경 :..
2025.01.25 회의록 [ 주 회의 내용 ] 1. 프로젝트 방향성 2. 칼럼에 대한 논의 (전처리 방법 등) 1. 프로젝트 방향성 - 추천 시스템에 대한 이야기 => 상품에 관련된 내용이 없어서 무리 - 알리익스프레스 알리바바 등은 비슷한 상품들을 파는 사이트 => 쇼핑몰의 장단점, 키워드 뽑아서 여유가 된다면 쇼핑몰 추천 시스템으로 이어져도 괜찮을듯! =>> 결론 : 별점 예측 하는 정도 + 앱의 문제점 분석 정도 (+ 추후 여유 시 쇼핑몰 추천 시스템 추가) 2. 칼럼에 대한 논의 1) 리뷰ID칼럼 없애기? (문자열 처리 어려움?) - 한 앱에 대해 한 사람이 여러번 리뷰를 남길 수 있는지 확인 (EDA 과정에서) 2) thumbsupcount => 최소값 0 최대값 10000 =>..