본문 바로가기

Self-Taught/Data Analysis

데이터 분석가가 반드시 알아야 할 모든 것 _ CH.8

CH.8_ 분석 프로젝트 준비 및 기획

데이터 분석의 전체적인 프로세스와 비즈니스 문제 정의, 분석 목적 도출 방법

 

1. 데이터 분석의 전체 프로세스

데이터 분석은 크게 설계 > 분석 및 모델링 > 구축 및 활용 으로 나뉜다.

 

각 단계에서 해야 하는 세부적인 내용들을 설명하겠다.설계 단계에서는 무엇을 하고자 하는지 명확히 정의하는 것에서 시작한다. 그 후에는 프로젝트를 수행할 인력을 구성하게 되는데, 데이터를 직접 관리하고 분석하는 사람이 다르기 때문에 실무자와 분석가가 원활하게 소통할 수 있는 체계를 세워야 한다.

 

분석 및 모델링 단계에서는 데이터 추출, 검토, 가공, 모델링 및 성능 평가 등의 절차를 부분 반복하게 된다.특히 성능 평가 단계에서 다양한 방법론*을 이용하게 된다. *KDD 분석 방법론, CRISP-DM 방법론, SEMMA 방법론 

 

구축 및 활용 단계에서는 최종 선정 모델을 적용하고 실제 성과를 측정한다. 

 

#CRISP-DM 방법론

출처 : https://velog.io/@choiyy0523/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-01.-CRISP-DM-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%A2%85%EB%A5%98

 

 

#SAS SEMMA 방법론

출처 : https://eunbin00.tistory.com/25

2. 비즈니스 문제 정의 & 분석 목적 도출 

비즈니스 이해 및 문제 정의를 잘못했을 경우, 시작부터 잘못됐기 때문에 최종 인사이트 도출, 솔루션 적용 단계에서 제대로 된 효과를 보기 힘들다. 그러므로 비즈니스 문제를 올바르게 정의하기 위한 MECE 라는 방법을 사용하게 된다.

 

MSCE = mutually exclusive collectively exhaustive

 

집합의 분할과 같은 개념이라고 생각하면 된다. 하나의 문제를 여러 개의 세부 정의로 나누는데, 이 세부 정의들이 서로 겹치지 않으며, 모두 합쳤을 때 전체를 이루게 된다.이 세부 정의들을 정리하게 위해 로직 트리를 활용한다. 

출처 : https://wfcareer.tistory.com/92

 

 

데이터 분석은 결국 문제를 정의하고 해당 문제를 해결하기 위한 인사이트를 도출한다는 목적이기 때문에, 명확한 문제 정의, 이에 따른 분석 시나리오가 이뤄지지 않는다면 제대로 된 데이터 분석이 이뤄지지 않는다.

 

 

비즈니스 문제는 명확하고 직관적인 한 문장으로 정리할 수 있어야 하며,

현상에 대한 설명으로 끝나는 것이 아니라 본질적인 문제점이 함께 전달돼야 한다. 

 

 

Ex) 통신 : 약정기간이 끝난 고객들이 타 통신사로 이탈하여 회사의 수익이 감소하고 있다.>> 이탈 현상으로 인해 수익이 감소 = 비즈니스 문제즉, 이탈 예상 고객에게 프로모션을 진행해 이탈 방지 > 이탈 고객 예측 모델 필요

 

 

3. 분석 목적의 전환

데이터 분석을 진행하다가 원 목적과 다른 방향으로 프로젝트가 진행돼야 할 수 있다.그렇기 때문에 실무자들 간의 커뮤니케이션 및 협력이 매우 중요하다. 이런 협력을 얻기 위해서는 초기 데이터 탐색을 통해 도출할 수 있는 간단한 상관관계나 데이터 특성, 시각화를 잘 활용해 실무자들과 신뢰를 쌓아야 한다.

 

4. 도메인 지식

도메인 지식 = 해당되는 분야의 업에 대한 이해도. 데이터를 분석함에 있어 비즈니스 도메인에 대한 지식이 있을 경우 큰 도움이 된다. 캐글에서는 도메인 전문가들이 변수들을 정의 및 정리해주고 관련 정보를 제공해주기 때문에 이미 어느 정도 도메인 지식을 가지고 데이터 분석이 진행된 상태라고 할 수 있다.

 

그러므로 실무자들과의 미팅을 통한 적극적인 질문 및 자료 요청 & 관련 논문 참고해 지식 습득 (유사한 주제의 논문에서 사용됐던 방법론 위주로) & 현장에 방문해 데이터가 만들어지는 과정 보기 (제조 공정 분석 프로젝트에서 유효)

 

 

5. 외부 데이터 수집과 크롤링

 

외부 데이터를 수집하는 방법은 크게 3가지이다.전문 데이터 판매 회사에서 데이터를 구매하는 것 & 오픈 데이터를 수집하는 것 & 웹 데이터 크롤링

 

오픈 데이터의 경우 모든 사람에게 개방된 데이터이기 때문에 큰 가치를 가진 데이터는 적은 편이라고 할 수 있다.웹 크롤링 데이터의 경우 원하는 데이터를 자유롭게 수집할 수 있으나, 수집을 위한 프로그래밍이 필요하고 웹페이지 리뉴얼시 수집 코드도 수정해야 한다는 단점이 있다.