철솜_STUDY
ECC 프로젝트) 2차 회의용 _ 데이터 분석 내용 본문
1/30 회의 진행
#alibaba, aliexpress, amazon 중복 리뷰 아이디 확인
reviewId
275f465b-a58b-439e-ae7c-f9f6dcf2634d 1
43557460-4735-4da4-a9d1-1109567cca5b 1
b0cb358c-1683-4f2c-945c-3aeb9db8bd63 1
2330300c-c952-42ec-9159-598916e798bb 1
cfba701a-e4fe-4897-a10f-a401095f4d19 1
..
aff20cdb-7797-4f06-a5ca-de854b85416c 1
99d6cd4f-d9a8-480a-9425-ff7f52244431 1
7b62ef9c-92e9-4552-8fa4-88cf922f4fe8 1
b61b9c90-f7c0-4578-8e2a-7a928eed5f1c 1
ea2a1eb4-aa3b-44da-b41c-3971b23058e9 1
Name: count, Length: 94500, dtype: int64
duplicate_only_alibaba = dup_counts_alibaba[dup_counts_alibaba > 1]
print(duplicate_only_alibaba)
Series([], Name: count, dtype: int64)
- alibaba에는 같은 사람이 중복해서 리뷰를 남긴 경우는 없는 것으로 보임!
Series([], Name: count, dtype: int64)
Series([], Name: count, dtype: int64)
- aliexpress, amazon 모두 같은 사람이 여러번 리뷰를 남긴 경우는 없는 것으로 보인다!
## thumbsUpCount 분포
1. alibaba
10 이하 갯수 : 87223
10 초과 50 이하 갯수 : 4701
50 초과 100 이하 갯수 : 3085
100 초과 갯수 : 1555
2. aliexpress
10 이하 갯수 : 122560
10 초과 20 이하 갯수 : 1264
20 초과 50 이하 갯수 : 924
50 초과 갯수 : 1252
3. amazon
10 이하 갯수 : 93022
10 초과 50 이하 갯수 : 3808
50 초과 100 이하 갯수 : 772
100 초과 갯수 : 1398
### 결론
Alibaba, amazon, AliExpress 모두 중복 리뷰 아이디는 없었다.
thumbsUpCount 분포를 고려했을 때 alibaba나 amazon 데이터를 이용하는게 좋아 보인다.
갯수가 많은 것 중에서 고르는게 좋을 것 같음
Alibaba, AliExpress, amazon가 가장 데이터가 큼.
가장 적절하고, 갯수가 더 많은 amazon 데이터를 이용하는게 좋아 보인다.
++ replyContent는 중복 답변으로 2개 밖에 없어서 해당 칼럼은 드랍해도 괜찮을 것 같습니다!
'Self-Taught > Machine Learning' 카테고리의 다른 글
ECC 프로젝트) 1차 회의용 _ 데이터 분석 내용 (0) | 2025.01.22 |
---|---|
머신러닝 완벽 가이드 _ CH.8 : 텍스트 분석 (2) (2) | 2024.12.26 |
머신러닝 완벽 가이드 _ CH.7 : 군집화 (0) | 2024.11.30 |
파이썬 머신러닝 완벽 가이드 _CH.6 (0) | 2024.11.23 |
파이썬 머신러닝 완벽 가이드 _CH.5 (0) | 2024.11.16 |