데이터 분석 준전문가 ADsP 한 권으로 끝내기
http://book.naver.com/bookdb/book_detail.nhn?bid=13773681
* 위 참고도서를 직접 구입해 개인적으로
공부한 내용을 공유합니다.
ADsP를 준비하시는 많은 비전공자 분들에게 도움이 되었으면 합니다 :)
* 이 포스팅은 PC 버전에 최적화되어 있습니다
기출 빈도 상 중 하
1. 분석 기획 방향성 도출
1) 분석 기획의 특징
- 분석 기획 : 어떤 목표(What)을 달성하기 위하여 어떤 데이터를 가지고 어떤 방식(How)를 수행할지에 대한 일련의 계획을 수립하는 작업
- 비즈니스 분석능력과 통계학적 지식을 활용한 분석 역량 및 분석의 도구인 프로그래밍 기술 역량 또한 균형 있게 갖추고 있어야 함
(1) 분석 주제 유형
분석 주제 유형 |
분석의 대상(What) |
||
Known |
Un-Known |
||
분석의 방법(How) |
Known |
최적화(Optimization) |
통찰(Insight) |
Un-Known |
솔루션(Solution) |
발견(Discovery) |
(2) 목표 시점별 분석 기획 방안
시점별 분석 기획 |
과제 단위 (당면한 분석 주제의 해결) |
마스터플랜 단위 (지속적 분석 문화 내재화) |
1차목표 |
Speed & Test |
Accuracy & Deploy |
과제의 유형 |
Quick-Win |
Long Term View |
접근 방식 |
Problem Solving |
Problem Definition |
2) 분석 기획 시 고려 사항
(1) 가용한 데이터 : 데이터 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석
이 선행적으로 이루어져야 함. 예) 정형, 비정형, 반정형 데이터
(2) 적절한 유스케이스(Proper Use-Case) 탐색 : 유사 분석 시나리오 및 솔루션을 최대한 활용
(3) 장애 요소들에 대한 사전 계획 수립이 필요 : 정확도를 올리기 위해 기간과 투입 리소스가 늘어날 수 있음으
로 사전에 많은 고려가 필요함
2. 분석 방법론
1) 분석 방법론 개요
: 계층적 프로세스 모델의 형태로 구성
Phase(단계별 완료 보고서) - Task(단계를 구성하는 단위 활동) - Step(입력자료, 처리 및 도구, 출력 자료구성)
2) KDD(Knowledge Discovery in Database) 분석 방법론
[출처] https://nocodewebscraping.com/difference-data-mining-kdd/
Difference between Data Mining and KDD - Simplified Web Scraping
Data mining is one among the steps of Knowledge Discovery in Databases(KDD).It is the pattern extraction phase of KDD process.
nocodewebscraping.com
(1) 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
(2) 데이터셋(연구, 교육, 서비스 개발에 활용 가능하게 수집, 제작한 데이터) 선택
(3) 데이터 전처리 : 잡음, 이상값, 결측치를 식별하고 필요시 제거
(4) 데이터 변환 : 분석 목적에 맞는 변수를 선택하거나 데이터의 차원 축소
(5) 데이터 마이닝 : 분석 목적에 맞는 데이터 마이닝 기법을 선택하여 특정 패턴 파악, 혹은 데이터 분류 및 예측
(6) 데이터 마이닝 결과 평가
3) CRISP-DM(Cross Industry Standard For Data Mining) 방법론
[출처] https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
(1) 업무 이해(Business Understanding) : 업무 목적 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
(2) 데이터 이해(Data Understanding) : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
(3) 데이터 준비(Data Preparation) : 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
(4) 모델링(Modeling) : 모델링 기법과 알고리즘 선택, 파라미터 최적화, 모델 과적합 문제 발견 및 해결
* 모델 과적합 : 훈련 데이터 집합만 가지고 있는 특징, 즉 불필요한 부분까지 기계학습 알고리즘이 학습함.
(5) 평가(Evauation) : 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
(6) 전개(Deployment) : 실제 업무 적용하기 위한 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 리뷰
* KDD와 CROSS-DM 비교
KDD |
CROSS-DM |
분석 대상 비즈니스 이해 |
업무이해 |
데이터셋 선택 |
데이터 이해 |
데이터 전처리 |
|
데이터 변환 |
데이터 준비 |
데이터 마이닝 |
모델링 |
데이터 결과 평가 |
평가 |
데이터 마이닝 활용 |
전개 |
4) 빅데이터 분석 방법론
Step 1. |
Step 2. |
Step 3. |
Step. 4 |
분석 기획 (Planning) |
비즈니스 이해 및 범위설정 - SOW 작성 (Statement of Work) |
프로젝트 정의 및 계획 수립 - 목표 및 KPI 구체화 - 프로젝트 수행 계획서 작성 - WBS 작성 (Work breakdown structure) |
프로젝트 위험 계획 수립 - 위험의 영향도, 빈도, 발생가능성 등 평가 - 위험 대응 계획 수립 (회피, 전이, 완화, 수용) |
데이터 준비 (Preparing) |
필요 데이터 정의 - 데이터 정의서 작성 - 메타데이터, EDR (구조화된 데이터들의 관계 도식화 그림) - 데이터 획득 방안 수립 |
데이터 스토어 설계 - 정형 : 관계형 데이터베이스 사용(RDBMS) - 비정형 : 하둡,NoSQL 이용 |
데이터 수집 및 정합성 점검 - ETL(Extract Transform Load) 툴 사용하여 DW와 DM에 데이터 적제 - 크롤링, 스크레핑 - 데이터 품질 점검 |
데이터 분석 (Analyzing) |
분석용 데이터셋 준비 및 텍스트 분석 - 정형, 비정형 데이터 추출 및 텍스트를 통해 분석 목적에 맞는 모델 구축 |
탐색적 분석 - 다양한 관점별 기초 통계량 산출 - 데이터 시각화를 통해 데이터 분포 및 변수 간의 관계, 데이터 통계적 특성 파악 |
모델링 - 데이터를 훈련/테스트용으로 분할 - 기계학습 등 다양한 모델링 - 운영 시스템 적용을 위한 상세 알고리즘 작성 모델 평가 및 검증 |
시스템 구현 (Developing) |
시스템 분석 및 설계 - 가동중인 시스템 분석하여 상세 알고리즘에 근거 응용 시스템 구축 설계 |
시스템 구현 - BI 패키지 활용 또는 새롭게 시스템을 구축, 가동중인 시스템 커스터마이징 |
시스템 테스트 및 운영 - 검증을 위한 단위/통합/시스템 테스트 실시 - 사용자 대상 교육 실시 - 시스템 운영 계획 수립 |
평가 및 전개 (Deploying) |
모델 발전 계획 수립 - 지속적인 운영과 기능 향상을 위한 발전 계획 수립 |
프로젝트 평가 보고 - 정량적, 정성적 평가 실시, 프로젝트 진행 과정에서 산출된 지식, 프로세스, 출력 자료를 지식 자산화 |
3. 분석 과제 발굴
- 분석과제를 도출하기 위한 방식은 상향식 접근 방법과 하향식 접근 방법이 혼용되어 사용되며,
최적의 의사결정을 위해서는 두 가지 접근 방식이 상호보완 관계에 있을 때 가능
1) 하향식 접근 방식(Top Down Approach)
Problem Discovery 비즈니스 모델 기반/ 외부 사례 기반 문제 탐색 |
Problem Definition 데이터 분석 문제 변환 |
Solution Search 해결 방안 탐색 수행 옵션 도출 |
Feasibility Study 타당성 평가 분석 과제 도출 |
(1) 문제탐색(Problem Discovery)
a. 비즈니스 모델 기반 문제 탐색 : 업무, 제품, 고객 단위로 문제 발굴, 규제와 감사 및 지원 인프라 영역 탐색
b. 분석 기회 발굴의 범위 확장 : 비즈니스 모델 기반 문제는 단기 과제로 도출될 가능성이 높음.
- 거시적 관심의 요인 : STEEP(Social, Technological, Economic, Enviroment, Political)
- 경쟁자 확대 관점 : 직접 경쟁사, 제품 서비스의 대체재 영역, 신규 진입자 영역
- 시장의 니즈 탐색
- 역량의 재해석
c. 외부 참조 모델 기반 문제 탐색 : 유사 사례 벤치마킹을 통한 분석 기회 발굴
d. 분석 유스 케이스 : 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결 했을 때 발생하는 효과를 함께
명시함으로써 데이터 분석 문제로의 전환 및 적합성 평가에 활용
(2) 문제 정의(Problem Definition)
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의, 데이터 분석 문제로의 변환
예) '고객 이탈의 증대' → '고객의 이탈에 영향을 미치는 요인을 식별하고 이탈 가능성을 예측'
(3) 해결 방안 탐색(Solution Search)
- 데이터 분석 방법에 따라 예산이 다르므로 인력과 분석 기법 및 시스템에 따라 다각도로 분석
|
분석 역량(who) |
||
확보 |
미확보 |
||
분석 기법 및 시스템 |
기존 시스템 |
기존 시스템 개선 활용 |
교육 및 채용을 통한 역량 확보 |
신규 도입 |
시스템 고도화 |
전문업체(Sourcing) |
(4) 타당성 검토(Feasibility Study)
- 경제적 타당도 및 데이터/기술적 타당도
2) 상향식 접근 방식(Bottom Up Approach)
(1) 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고
이를 지속적으로 개선하는 방식.
(2) 일반적으로 비지도 학습 방법에 의해 수행, 인과관계 분석과 더불어 상관관계 분석 또는 연관분석
* 지도 학습(Supervised Learning) : 명확한 Input/output이 존재, 분류와 예측
* 비지도 학습(Unsupervised Learning) : 컴퓨터에게 답을 알려주지 않음. 군집화
(3) 다양한 데이터 분석을 통해서 '왜' 그러한 일이 발생하는 지 역으로 추적하면서 문제를 도출하거나 재정의할
수 있는 것이 상향식 접근 방법
3) 분석 과제 정의
- 향후 프로젝트 수행 계획의 입력물로 사용
4. 분석 프로젝트 관리 방안
1) 분석 프로젝트의 특성
: 도출된 결과의 재해석을 통해 지속적인 반복 및 정교화가 수행됨. 프로토타이핑에서 애자일 관리 방식 필요
* 프로토타이핑 접근법 : 사용자의 요구 사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악
하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해나가는 방법
* 애자일 모델 : 일정한 주기를 가지고 끊임없이 프로토타입을 만들어내며 필요할 때마다 요구 사항을 더하고 수
정하여 커다란 소프트웨어를 개발해 나가는 방식
* 분석 과제의 주요 5가지 특성 관리 영역
Data Size |
데이터 양을 고려한 관리 방안 수립 필요 |
Data Complexity |
다양한 유형의 데이터가 있을 경우 해당 데이터에 잘 적용될 수 있는 분석 모델 선정 고려 |
Speed |
배치 형태인지 실시간 분석의 형태인지 고려 |
Analytic Complexity |
분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재함으로 이에 대한 기준점을 사전에 정의해야 함 |
Accuracy & Precision |
Accuracy : 모델과 실제값 사이의 차이를 표현 Precision : 모델 반복 시 편차 수준을 표현 |
2) 분석 프로젝트 관리 방안
: 프로젝트 관리 체계는 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통으로 분류됨
'데이터분석 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
ADsP 대비 Part3.R기초와 데이터 마트 (1) | 2019.05.13 |
---|---|
ADsP 대비 Part2.분석 마스터플랜 (0) | 2019.05.13 |
ADsP 대비 Part1.가치창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2019.04.04 |
ADsP 대비 Part1.데이터의 가치와 미래 (0) | 2019.04.03 |
ADsP 대비 Part1.데이터의 이해 (0) | 2019.03.11 |
댓글