CH.8_ 분석 프로젝트 준비 및 기획
데이터 분석의 전체적인 프로세스와 비즈니스 문제 정의, 분석 목적 도출 방법
1. 데이터 분석의 전체 프로세스
데이터 분석은 크게 설계 > 분석 및 모델링 > 구축 및 활용 으로 나뉜다.
각 단계에서 해야 하는 세부적인 내용들을 설명하겠다.설계 단계에서는 무엇을 하고자 하는지 명확히 정의하는 것에서 시작한다. 그 후에는 프로젝트를 수행할 인력을 구성하게 되는데, 데이터를 직접 관리하고 분석하는 사람이 다르기 때문에 실무자와 분석가가 원활하게 소통할 수 있는 체계를 세워야 한다.
분석 및 모델링 단계에서는 데이터 추출, 검토, 가공, 모델링 및 성능 평가 등의 절차를 부분 반복하게 된다.특히 성능 평가 단계에서 다양한 방법론*을 이용하게 된다. *KDD 분석 방법론, CRISP-DM 방법론, SEMMA 방법론
구축 및 활용 단계에서는 최종 선정 모델을 적용하고 실제 성과를 측정한다.
#CRISP-DM 방법론
#SAS SEMMA 방법론
2. 비즈니스 문제 정의 & 분석 목적 도출
비즈니스 이해 및 문제 정의를 잘못했을 경우, 시작부터 잘못됐기 때문에 최종 인사이트 도출, 솔루션 적용 단계에서 제대로 된 효과를 보기 힘들다. 그러므로 비즈니스 문제를 올바르게 정의하기 위한 MECE 라는 방법을 사용하게 된다.
MSCE = mutually exclusive collectively exhaustive
집합의 분할과 같은 개념이라고 생각하면 된다. 하나의 문제를 여러 개의 세부 정의로 나누는데, 이 세부 정의들이 서로 겹치지 않으며, 모두 합쳤을 때 전체를 이루게 된다.이 세부 정의들을 정리하게 위해 로직 트리를 활용한다.
데이터 분석은 결국 문제를 정의하고 해당 문제를 해결하기 위한 인사이트를 도출한다는 목적이기 때문에, 명확한 문제 정의, 이에 따른 분석 시나리오가 이뤄지지 않는다면 제대로 된 데이터 분석이 이뤄지지 않는다.
비즈니스 문제는 명확하고 직관적인 한 문장으로 정리할 수 있어야 하며,
현상에 대한 설명으로 끝나는 것이 아니라 본질적인 문제점이 함께 전달돼야 한다.
Ex) 통신 : 약정기간이 끝난 고객들이 타 통신사로 이탈하여 회사의 수익이 감소하고 있다.>> 이탈 현상으로 인해 수익이 감소 = 비즈니스 문제즉, 이탈 예상 고객에게 프로모션을 진행해 이탈 방지 > 이탈 고객 예측 모델 필요
3. 분석 목적의 전환
데이터 분석을 진행하다가 원 목적과 다른 방향으로 프로젝트가 진행돼야 할 수 있다.그렇기 때문에 실무자들 간의 커뮤니케이션 및 협력이 매우 중요하다. 이런 협력을 얻기 위해서는 초기 데이터 탐색을 통해 도출할 수 있는 간단한 상관관계나 데이터 특성, 시각화를 잘 활용해 실무자들과 신뢰를 쌓아야 한다.
4. 도메인 지식
도메인 지식 = 해당되는 분야의 업에 대한 이해도. 데이터를 분석함에 있어 비즈니스 도메인에 대한 지식이 있을 경우 큰 도움이 된다. 캐글에서는 도메인 전문가들이 변수들을 정의 및 정리해주고 관련 정보를 제공해주기 때문에 이미 어느 정도 도메인 지식을 가지고 데이터 분석이 진행된 상태라고 할 수 있다.
그러므로 실무자들과의 미팅을 통한 적극적인 질문 및 자료 요청 & 관련 논문 참고해 지식 습득 (유사한 주제의 논문에서 사용됐던 방법론 위주로) & 현장에 방문해 데이터가 만들어지는 과정 보기 (제조 공정 분석 프로젝트에서 유효)
5. 외부 데이터 수집과 크롤링
외부 데이터를 수집하는 방법은 크게 3가지이다.전문 데이터 판매 회사에서 데이터를 구매하는 것 & 오픈 데이터를 수집하는 것 & 웹 데이터 크롤링
오픈 데이터의 경우 모든 사람에게 개방된 데이터이기 때문에 큰 가치를 가진 데이터는 적은 편이라고 할 수 있다.웹 크롤링 데이터의 경우 원하는 데이터를 자유롭게 수집할 수 있으나, 수집을 위한 프로그래밍이 필요하고 웹페이지 리뉴얼시 수집 코드도 수정해야 한다는 단점이 있다.
'Self-Taught > Data Analysis' 카테고리의 다른 글
데이터 분석가가 반드시 알아야 할 모든 것_CH.10_(1) (1) | 2024.09.29 |
---|---|
데이터 분석가가 반드시 알아야 할 모든 것_ CH.9 (0) | 2024.09.29 |