목록분류 전체보기 (30)
철솜_STUDY
1/30 회의 진행 #alibaba, aliexpress, amazon 중복 리뷰 아이디 확인 reviewId275f465b-a58b-439e-ae7c-f9f6dcf2634d 143557460-4735-4da4-a9d1-1109567cca5b 1b0cb358c-1683-4f2c-945c-3aeb9db8bd63 12330300c-c952-42ec-9159-598916e798bb 1cfba701a-e4fe-4897-a10f-a401095f4d19 1 ..aff20cdb-7797-4f06-a5ca-de854b85416c 199d6cd4f-d9a8-480a-9425-ff7f52244431 17b62ef9c..
1/25 진행 회의주제처음에 생각했던 거는 각 쇼핑몰 별 상품 리뷰 텍스트 분석을 해서 평점을 예측하는 프로젝트였는데 세부적으로 확인하니까 각 쇼핑몰 앱에 대한 리뷰 + 평점이더라고요... 그래서 처음 생각한 주제에 맞는 데이터 세트를 캐글에서 찾아봤는데 너무 예전 데이터 셋이거나 부적절해 보여서 지금 데이터 셋으로 진행하는 게 나을 거 같다고 생각했습니다..! 혹시 비슷한 주제로 다른 데이터 세트를 사용하고 싶으시면 더 찾아보고 진행해도 괜찮을 것 같아요..! 꼼꼼하게 확인하지 못 해서 죄송합니다 ㅠ칼럼에 대한 설명reviewId : 이 칼럼은 없애도 될 것 같습니다. 어차피 행 구분용 칼럼이어서 큰 의미도 없고, 문자열이어서 처리도 번거로울 것 같아요!content : 이 칼럼은 실제 리뷰에 대한 내..

CH.9.1_ 추천 시스템의 개요와 배경 추천 시스템의 중요성아마존과 같은 전자상거래 업체부터 넷플릭스, 유튜브 등 콘텐츠 포털까지 활용하고 있음사용자의 취향을 이해하고 맞춤 상품과 콘텐츠를 제공해 조금이라도 오래동안 자기 사이트에 고객을 머무르게 하기 위해 전력을 기울이고 있음정교한 추천시스템은 사용자에게 높은 신뢰도를 주고 사용자가 의존하게 만듦추천 시스템 방식콘텐츠 기반 필터링 (Content Based Filtering)협업 필터링 (Collaborative Filtering)하이브리드 (콘텐츠 기반 + 협업 필터링)CH.9.2_컨텐츠 기반 필터링사용자가 특정한 아이템을 매우 선호하는 경우, 그 아이템과 비슷한 콘텐츠를 가진 다른 아이템을 추천하는 방식일반적인 프로세스컨텐츠 기반 필터링 구현 프로..

CH.8.6 _ 토픽 모델링Topic Modeling : 숨어있는 중요 주제를 효과적으로 찾아낼 수 있는 모델을 만드는 과정중심단어를 함축적으로 추출 Topic Modeling에 자주 사용되는 기법은 LSA(Latent Sematic Analysis)와 LDA(Latent Dirichlet Allocation)from sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.decomposition import LatentDirichletAllocation# 모토사이클, 야구, 그래픽스, 윈도우, 중동, 기독교, 전자공학, 의학 8개의 주제를 추출하기 위한 c..

CH.6.1 _K-평균 알고리즘 이해K-평균 : 군집화에서 가장 일반적으로 사용하는 알고리즘군집 중심점(centroid)라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법K 평균의 동작 원리군집화의 기준이 되는 중심을 구성하려는 군집화 개수만큼 임의의 위치에 놓음. 전체 데이터를 2개로 군집화한다면, 2개의 중심을 임의의 위치에 가져다 놓는 것각 데이터는 가장 가까운 곳에 속한 중심점에 소속됨.소속이 결정되면 군집 중심점을 소속된 데이터의 평균 중심으로 이동시킴.중심점이 이동했기에 각 데이터는 기존에 속한 중심점보다 더 가까운 중심점이 존재한다면, 해당 중심점으로 다시 소속을 변경함.다시 중심을 소속된 데이터의 평균 중심으로 이동함. 위 그림에서는 데이터 C가 중심..

CH.6.1 _ 차원 축소 개요차원 축소는 고차원의 데이터 세트가 저차원의 데이터 세트에 비해 예측 신뢰도가 떨어진다는 단점을 해결하기 위한 개념이다.피처의 수가 많을 수록 예측 신뢰도가 떨어지고, 개별 피처 간의 상관관계가 높다는 점을 이용해 피처의 수를 줄인다 차원 축소 방법은 크게 두 가지로 나뉜다.타 피처에 대한 종속성이 높은 피처를 제거하는 '피처 선택' 방법과, 기존 피처를 저차원으로 압축하는 '피처 추출' 방식이다.후자 피처 추출 방식의 경우, 단순히 피처를 저차원으로 줄이는 것이 아니라, 해당 데이터 세트를 더 잘 설명할 수 있는 잠재요소 'Latent factor'를 추출한다는 점에서 유의미하다. 이러한 차원 축소의 개념을 구현하는 방법이 차원 축소 알고리즘으로 PCA, LDA, SVD,..

CH.5.1 _ 회귀 소개회귀는 현대 통계학의 주요 기둥이다. 사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙을 밝혀낸 영국의 통계학자 갈톤이 수행한 연구에서 유래했다. 회귀 분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법이다. 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 의미한다. 식을 쓰면 Y = W1*X1 + W2*X2 + W3*X3 +... 와 같다여기서 Y는 종속변수, X는 독립변수, W는 독립변수의 값에 영향을 미치는 회귀계수이다.머신러닝 관점에서 보면 X는 피처, Y는 결정 값이다. 회귀분석의 핵심은 주어진 피처와 결정 값 데이터에 기반으로 학습을 통해 최적의 회귀 계수를 찾아내는 것이다. 회귀는 회귀 계..

CH.4.7 _ LightGBMLightGBM는 XgBoost보다 가볍다. 둘의 예측 성능은 다르지 않으나 걸리는 시간은 짧다. 그 이유는 일반 GBM 계열의 트리 분할 방법과 다르게 Leaf Wise 방식을 사용하기 때문이다.대부분의 트리 기반 알고리즘은 Level Wise 방식을 사용한다.Level Wise 방식의 경우 최대한 균형 잡힌 트리를 유지하면서 분할하게 되는데Leaf Wise 방식의 경우 트리의 균형 보다는 최대 손실 값을 가지는 Leaf node를 지속적으로 분할하게 되면서 비대칭적인 규칙 트리가 생성된다.균형 잡힌 트리의 경우 과적합 상황에 더 잘 대응하게 되는데, LightGBM의 경우 비대칭적인 트리를 만드는 방식으로 분할 되기 때문에, 자료 수가 1000개 이하인 데이터 세트에서는..