목록전체 글 (30)
철솜_STUDY
[2025. 2. 20 (목) 프로젝트 회의] 1. 회귀분석 팀 (정윤, 서아) * 지난 회의까진 릿지+LGBM 혼합모델에 감성분석 합침 * 하지만 데이터 자체에 텍스트 데이터가 들어있어 감성분석을 넣어도 무의미함을 느낌. * 성능을 높이기 위해 Lasso 를 돌려보았으나 성능 변화가 크게 없어 기존 모델인 Ridge+LGBM 혼합 앙상블 모델로 프로젝트 마무리를 하기로 함. 2. 텍스트 분석 팀 (현경, 은서) 2.1. 현경님 * 감성 분석 이후로 문장 단위로 먼저 감성 분석. * 리뷰단위/문장단위 같이 보는 게 좋을 것 같다고 판단. -> 평균 감성 점수와 점수의 간극이 커서 문장 단위가 아닌 리뷰 단위로 감성분석 점수를 내기로 함. * 별점과 리뷰 내용이 다르기 때문에 별점의 객관성이 낮다고 생각하..
2/15 회의 ]1. 은서님 리뷰별 감성 분석 코드 가져와 추가함. 2. 감성분석 점수 sentiment_score가 -1~1까지의 범위 -> -1~-0.5, -0.5~-0.2, -0.2~0.2, 0.2~0.5, 0.5~1 까지로 범위를 나눠서 점수를 1,2,3,4,5로 변환한 senti_model_score 열을 추가함. 3. Ridge와 LGBM - fit 대상 데이터를 X_train_tfidf - predict 대상 데이터를 X_test_tfidf 로 변경 - 감성분석 점수와 동일한 인덱스를 공유하기 위해 TF-IDF 피처벡터화 변환 시에 X_train, X_test의 인덱스를 따로 저장함. 4. 최종 점수 도출 - Ridge+LGBM 혼합 모델 점수를 mix_model_score로 저장하고 da..
02.13 회의 회의록 문장 단위로 리뷰 쪼개기 --> 문장 단위로 쪼개고, 어떤 리뷰에서 왔는지에 대한 original_row 칼럼, 기존 데이터셋의 score 칼럼으로 새로운 데이터 세트 만듦 --> 전처리, 피처벡터화 완료 & 전처리 과정에서 불용어로 추가되는 단어 업데이트 (무의미한 단어들이 많이 나와서 업데이트 진행) --> 감성 분석 진행 : 감성 분석 점수 분포를 확인하고 어떻게 클러스터링 기준을 세울 것인지 확인해야 할 것 같음 ==>토요일까지 진행 #LightGBM 모델 hyperopt로 최적화 릿지+GBM가 오히려 성능이 더 떨어짐. 스태킹 rmse: 1.1067 혼합 rmse: 1.6433, mae: 0.9912 lightgmb rmse: 1.5848, mae: 0.9635 r..
2/8 토요일 회의록 * 텍스트분석 팀 문장단위 분석- 클러스터링 X 감성 분석 진행 (문장별 & 전체 감성 분석) 문장별의 감성 분석을 먼저 진행 (목표) 1. 리뷰 문장별로 추출해서 데이터셋 새로 만들기 (별점 고려 X) 1.5. 문장 쪼개기 + 전처리 + 피처벡터화 2. 리뷰에 대한 감성 분석 진행 -> 점수화 3. 리뷰 전체/문장별 점수 기준으로 텍스트 분석 재진행 * 회귀 모델(평점 예측) 팀 릿지 LGMB -> 별점 예측을 회귀로 하면 소수점이 나오는 문제 -> 로지스틱으로 분류 모델 생성 시도 => 실패 소수점 내림으로 값을 처리 (릿지+LGMB) ... 자세한 내용은 서아님 정리본을 참고 - 별점 예측을 회귀로 하면 소수점이 나오는 문제..=> 이를 해결하기 위해 로지스틱으로..
ECC 회의록(2.6) 현경, 은서-키워드 분석, 빈도 관련 내용 정윤, 서아-회귀 모델 릿지, LightGBM 은서-키워드 추출 1. 부정적 리뷰만 뽑아서 상위 20개 추출 2. 워드클라우드 추출한 결과 3. LDA 적용->토픽 모델링 진행 토픽1: 주문, 서비스 관련 토픽2: 제품의 퀄리티, 오래 걸린다 토픽3: 앱 업데이트 시의 문제 토픽4: 앱 자체의 오류. 주문 오류, 시간 지연 등의 불만 토픽5: 배달비, 배달 시간, 현금 결제 문제 ##상의할 것 리뷰 텍스트 내에 포함된 장점+단점 문장들 클러스터링하는 데 신경써야 했다...리뷰 텍스트를 문장 단위로 진행하는 건 어떨지... ex) 좋은 내용 중에서도 안 좋은 내용을 부각되게 해서 1점을 주는 경우... =>추가 의견 서아-텍스트 분석 하고 ..
2025.02.01 회의록 [회의 안건지]https://docs.google.com/document/d/1rPotMdCWAan3A_yOKK8vqUawUnVd5PKhgC66jEVsfcQ/edit?tab=t.0 1) 피처벡터화 : BOW와 TF-IDF로 피처벡터화한 후 성능비교 => 서아 (월요일 오후 4~5시까지) 2) 오버샘플링 : 적은 데이터를 지닌 별점리뷰들을 오버샘플링 => 현경 (월요일 밤까지) 3) 모델링 (** 목요일 회의 전까지) 3.1. 회귀 모델 (평점 예측) -> 서아, 정윤 -- Ridge, LightGBM 각각 모델 생성, 성능 비교 3.2. 텍스트 분석 (앱 문제점 분석) -> 현경, 은서 -- 키워드 추출 및 빈도 분석 1** 클론하는 법: Git bash에 명령어 입..
2025.01.30 회의록 1. 데이터 선택 현경, 서아 : 데이터 갯수도 둘 다 많고, 고른 분포를 가짐. 많은 사람들이 이용하고 있는 아마존, 알리 익스프레스 중에서 골라도 좋을 것 같다. 추천 시스템까지 고려한다면 두 데이터 세트의 크기가 비슷하기 때문에 이 둘 중에 골라서 이용하는 것도 좋아 보임 은서 : myntra와 mesho의 경우에 리뷰 점수가 1점과 5점에 에 치중돼 있는 경우가 많아서, 아마존과 알리 익스프레스를 사용할 거라면 점수가 치중이 돼 있는지를 확인하기 정윤 : 추천 시스템을 고려한다면 앱의 갯수가 여러 개인 게 좋지 않을까? 3만~5만 크기의 앱이 6개 정도가 되니 이 중에서 가장 크기가 큰 daraz와 Lazada 중에 골라 이용해서 진행하는 게 좋아 보인다. 현경 :..
2025.01.25 회의록 [ 주 회의 내용 ] 1. 프로젝트 방향성 2. 칼럼에 대한 논의 (전처리 방법 등) 1. 프로젝트 방향성 - 추천 시스템에 대한 이야기 => 상품에 관련된 내용이 없어서 무리 - 알리익스프레스 알리바바 등은 비슷한 상품들을 파는 사이트 => 쇼핑몰의 장단점, 키워드 뽑아서 여유가 된다면 쇼핑몰 추천 시스템으로 이어져도 괜찮을듯! =>> 결론 : 별점 예측 하는 정도 + 앱의 문제점 분석 정도 (+ 추후 여유 시 쇼핑몰 추천 시스템 추가) 2. 칼럼에 대한 논의 1) 리뷰ID칼럼 없애기? (문자열 처리 어려움?) - 한 앱에 대해 한 사람이 여러번 리뷰를 남길 수 있는지 확인 (EDA 과정에서) 2) thumbsupcount => 최소값 0 최대값 10000 =>..
1/30 회의 진행 #alibaba, aliexpress, amazon 중복 리뷰 아이디 확인 reviewId275f465b-a58b-439e-ae7c-f9f6dcf2634d 143557460-4735-4da4-a9d1-1109567cca5b 1b0cb358c-1683-4f2c-945c-3aeb9db8bd63 12330300c-c952-42ec-9159-598916e798bb 1cfba701a-e4fe-4897-a10f-a401095f4d19 1 ..aff20cdb-7797-4f06-a5ca-de854b85416c 199d6cd4f-d9a8-480a-9425-ff7f52244431 17b62ef9c..
1/25 진행 회의주제처음에 생각했던 거는 각 쇼핑몰 별 상품 리뷰 텍스트 분석을 해서 평점을 예측하는 프로젝트였는데 세부적으로 확인하니까 각 쇼핑몰 앱에 대한 리뷰 + 평점이더라고요... 그래서 처음 생각한 주제에 맞는 데이터 세트를 캐글에서 찾아봤는데 너무 예전 데이터 셋이거나 부적절해 보여서 지금 데이터 셋으로 진행하는 게 나을 거 같다고 생각했습니다..! 혹시 비슷한 주제로 다른 데이터 세트를 사용하고 싶으시면 더 찾아보고 진행해도 괜찮을 것 같아요..! 꼼꼼하게 확인하지 못 해서 죄송합니다 ㅠ칼럼에 대한 설명reviewId : 이 칼럼은 없애도 될 것 같습니다. 어차피 행 구분용 칼럼이어서 큰 의미도 없고, 문자열이어서 처리도 번거로울 것 같아요!content : 이 칼럼은 실제 리뷰에 대한 내..

CH.9.1_ 추천 시스템의 개요와 배경 추천 시스템의 중요성아마존과 같은 전자상거래 업체부터 넷플릭스, 유튜브 등 콘텐츠 포털까지 활용하고 있음사용자의 취향을 이해하고 맞춤 상품과 콘텐츠를 제공해 조금이라도 오래동안 자기 사이트에 고객을 머무르게 하기 위해 전력을 기울이고 있음정교한 추천시스템은 사용자에게 높은 신뢰도를 주고 사용자가 의존하게 만듦추천 시스템 방식콘텐츠 기반 필터링 (Content Based Filtering)협업 필터링 (Collaborative Filtering)하이브리드 (콘텐츠 기반 + 협업 필터링)CH.9.2_컨텐츠 기반 필터링사용자가 특정한 아이템을 매우 선호하는 경우, 그 아이템과 비슷한 콘텐츠를 가진 다른 아이템을 추천하는 방식일반적인 프로세스컨텐츠 기반 필터링 구현 프로..

CH.8.6 _ 토픽 모델링Topic Modeling : 숨어있는 중요 주제를 효과적으로 찾아낼 수 있는 모델을 만드는 과정중심단어를 함축적으로 추출 Topic Modeling에 자주 사용되는 기법은 LSA(Latent Sematic Analysis)와 LDA(Latent Dirichlet Allocation)from sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.decomposition import LatentDirichletAllocation# 모토사이클, 야구, 그래픽스, 윈도우, 중동, 기독교, 전자공학, 의학 8개의 주제를 추출하기 위한 c..