Notice
Recent Posts
Recent Comments
Link
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Tags
more
Archives
Today
Total
관리 메뉴

철솜_STUDY

ECC 프로젝트) 2차 회의용 _ 데이터 분석 내용 본문

Self-Taught/Machine Learning

ECC 프로젝트) 2차 회의용 _ 데이터 분석 내용

CC_flavor.철근 2025. 1. 30. 19:10

1/30 회의 진행 

 

#alibaba, aliexpress, amazon 중복 리뷰 아이디 확인 

reviewId
275f465b-a58b-439e-ae7c-f9f6dcf2634d    1
43557460-4735-4da4-a9d1-1109567cca5b    1
b0cb358c-1683-4f2c-945c-3aeb9db8bd63    1
2330300c-c952-42ec-9159-598916e798bb    1
cfba701a-e4fe-4897-a10f-a401095f4d19    1
                                       ..
aff20cdb-7797-4f06-a5ca-de854b85416c    1
99d6cd4f-d9a8-480a-9425-ff7f52244431    1
7b62ef9c-92e9-4552-8fa4-88cf922f4fe8    1
b61b9c90-f7c0-4578-8e2a-7a928eed5f1c    1
ea2a1eb4-aa3b-44da-b41c-3971b23058e9    1
Name: count, Length: 94500, dtype: int64
duplicate_only_alibaba = dup_counts_alibaba[dup_counts_alibaba > 1]
print(duplicate_only_alibaba)

Series([], Name: count, dtype: int64)

- alibaba에는 같은 사람이 중복해서 리뷰를 남긴 경우는 없는 것으로 보임! 

 

Series([], Name: count, dtype: int64)
Series([], Name: count, dtype: int64)

- aliexpress, amazon 모두 같은 사람이 여러번 리뷰를 남긴 경우는 없는 것으로 보인다!

 

## thumbsUpCount 분포

 

1. alibaba

10 이하 갯수 :  87223
10 초과 50 이하 갯수 :  4701
50 초과 100 이하 갯수 :  3085
100 초과 갯수 :  1555

 

2. aliexpress

10 이하 갯수 :  122560
10 초과 20 이하 갯수 :  1264
20 초과 50 이하 갯수 :  924
50 초과 갯수 :  1252

 

3. amazon

10 이하 갯수 :  93022
10 초과 50 이하 갯수 :  3808
50 초과 100 이하 갯수 :  772
100 초과 갯수 :  1398

 

 

 

### 결론
Alibaba, amazon, AliExpress 모두 중복 리뷰 아이디는 없었다.

thumbsUpCount 분포를 고려했을 때 alibaba나 amazon 데이터를 이용하는게 좋아 보인다.

갯수가 많은 것 중에서 고르는게 좋을 것 같음
Alibaba, AliExpress, amazon가 가장 데이터가 큼.

가장 적절하고, 갯수가 더 많은 amazon 데이터를 이용하는게 좋아 보인다.
++ replyContent는 중복 답변으로 2개 밖에 없어서 해당 칼럼은 드랍해도 괜찮을 것 같습니다!