데이터 분석 준전문가 ADsP 한 권으로 끝내기
http://book.naver.com/bookdb/book_detail.nhn?bid=13773681
* 위 참고도서를 직접 구입해 개인적으로
공부한 내용을 공유합니다.
ADsP를 준비하시는 많은 비전공자 분들에게 도움이 되었으면 합니다 :)
* 이 포스팅은 PC 버전에 최적화되어 있습니다
기출 빈도 상 중 하
1. 빅데이터의 이해
1) 빅데이터의 정의
[출처] 빅데이터의 속성 https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=&subject_sid=1202
- 가트너 그룹 더그래니가 언급한 빅데이터의 정의
(1) Volume(데이터의 크기, 규모) : 생성되는 모든 데이터를 수집
(2) Variety(데이터의 다양성) : 정형화된 데이터를 넘어 텍스트, 음성, 영상 등 모든 유형의 데이터를 분석
(3) Velocity(데이터의 속도) : 사용자가 원하는 시간 내에 데이터 분석 결과를 제공, 데이터의 업데이트 속도가 매우 빨리 짐을 의미
2) 빅데이터의 출현 배경
- 디지털 경제의 확산으로 우리 주변에는 규모를 가늠할 수 없을 정도로 많은 정보와 데이터가 생산되는 '빅데이터(Big Data)' 환경이 도래, PC와 인터넷, 모바일 기기 이용의 생활화, 사물지능통신(M2M)의 확산 등
3) 빅데이터의 기능
(1) 빅데이터는 산업혁명의 석탄, 철에 비유
: 새로운 시대의 자원
(2) 빅데이터는 원유에 비유
: '정보'를 제공함으로써 생산성 향상
(3) 빅데이터는 렌즈에 비유
: '현미경이 생물하게 미쳤던 영향', 세상을 관찰할 도구
(4) 빅데이터는 플랫폼에 비유
: '공동 활용의 목적으로 구축된 유무형의 구조물'
4) 빅데이터가 만들어내는 본질적인 변화
(1) 사전처리에서 사후처리 시대로 : 가능한 한 많은 데이터 모은 뒤 그 데이터를 다양한 방식으로 조합해 숨은
정보를 찾아냄
(2) 표본조사에서 전수조사로 : 표본조사가 주지 못하는 패턴이나 정보를 제공
(3) 질보다 양으로 : 구글의 자동번역 시스템, 데이터 수가 증가함에 따라 몇 개의 오류 데이터가 대세에 영향을
주지 못하는 경향이 늘어남
(4) 인과관계에서 상관관계로 : 데이터를 수집하고 분석하는 비용이 과거에 비해 저렴해짐
2. 빅데이터의 가치와 영향
1) 빅데이터의 가치
- 빅데이터 가치 산정이 어려운 이유
(1) 데이터의 활용 방식 : 특정 데이터를 언제, 누가, 어디서 활용할 지 알 수 없음
(2) 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 가치 측정이 어려움
(3) 분석 기술의 발달 : 지금 가치없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들 수 있음
2) 빅데이터의 영향
- 기업 : 혁신, 경쟁력 제고, 생산성 향상
- 정부 : 환경탐색, 상황 분석, 미래 대응
- 개인 : 목적에 따라 활용
3. 비즈니스 모델
1) 빅데이터 활용 사례
[출처] http://motivitylabs.com/blog
- 구글의 검색엔진, 월마트의 구매패턴 분석, IBM의 왓슨 의료분야에 활용
- 정부의 실시간 교통 정보 활용, 정치인의 사회관계망 분석을 통한 유세 등
2) 빅데이터 활용 테크닉
(1) 연관규칙학습(Association rule learning)
: 어떤 변수 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법. 예) 우유와 기저귀를 함께 진열
(2) 유형분석(Classfication tree analysis)
: "사용자가 어떤 특성을 가진 집단에 속하는가?"와 같은 문제 해결 시 사용. 예) 수강생 특성 따라 분류
(3) 유전 알고리즘(Genetic algorithms)
: 최적화의 메커니즘을 찾아가는 방법
예) "시청률을 높이려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가"
(4) 기계학습(Machine learning)
: 훈련 데이터로부터 학습한 정보를 바탕으로 일어날 일을 예측하는 방법
예) 넷플릭스 영화 추천 시스템
(5) 회귀분석(Regression analysis)
: 변수들 간의 관계를 분석하여 독립변수에 따른 종속변수의 변화를 예측하는 방법
예) "나이에 따른 자동차 구매 예산 분석"
(6) 감정분석(Sentiment analysis)
: 고객군들의 의견 분석 시 활용. 예) 새로운 환불 정책에 대한 고객의 평가
(7) 소셜네트워크분석(Social network analysis) = 사회관계망분석(SNA)
: 고객들 간 소셜 관계 파악
4. 위기 요인과 통제 방안
1) 위기 요인 및 통제 방안
|
사생활 침해 |
책임 원칙의 훼손 |
데이터의 오용 |
위기요인 |
우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있으며 다른 목적으로 활용될 가능성이 증가 |
분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 높아짐. 따라서 잠재 위험 사항까지 책임을 추궁하는 사회로 변질될 가능성이 있음 |
주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있음 |
통제방안 |
동의에서 책임으로 - 개인이 매번 동의하는 것이 아니라 개인정보 사용자에게 책임을 지게 함 |
기존의 책임 원칙을 강화 |
데이터 알고리즘에 대한 접근권 허용 및 객관적 인증 방안을 도입 |
5. 미래의 빅데이터
- 빅데이터 활용 3요소 : 데이터(재활용되면서 가치를 재창출), 기술(알고리즘 진화), 인력
'데이터분석 > 데이터분석준전문가(ADsP)' 카테고리의 다른 글
ADsP 대비 Part3.R기초와 데이터 마트 (1) | 2019.05.13 |
---|---|
ADsP 대비 Part2.분석 마스터플랜 (0) | 2019.05.13 |
ADsP 대비 Part2.데이터 분석 기획의 이해 (0) | 2019.05.12 |
ADsP 대비 Part1.가치창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2019.04.04 |
ADsP 대비 Part1.데이터의 이해 (0) | 2019.03.11 |
댓글