본문 바로가기
데이터분석/데이터분석준전문가(ADsP)

ADsP 대비 Part1.데이터의 가치와 미래

by Bookohol 2019. 4. 3.

 

 

데이터 분석 준전문가 ADsP 한 권으로 끝내기

http://book.naver.com/bookdb/book_detail.nhn?bid=13773681

 

* 위 참고도서를 직접 구입해 개인적으로

공부한 내용을 공유합니다.

ADsP를 준비하시는 많은 비전공자 분들에게 도움이 되었으면 합니다 :)

* 이 포스팅은 PC 버전에 최적화되어 있습니다

기출 빈도

1. 빅데이터의 이해

 

1) 빅데이터의 정의

[출처] 빅데이터의 속성 https://smart.science.go.kr/scienceSubject/bigdata/view.action?menuCd=&subject_sid=1202

 

- 가트너 그룹 더그래니가 언급한 빅데이터의 정의

 

(1) Volume(데이터의 크기, 규모) : 생성되는 모든 데이터를 수집

(2) Variety(데이터의 다양성) : 정형화된 데이터를 넘어 텍스트, 음성, 영상 등 모든 유형의 데이터를 분석

(3) Velocity(데이터의 속도) : 사용자가 원하는 시간 내에 데이터 분석 결과를 제공, 데이터의 업데이트 속도가 매우 빨리 짐을 의미

2) 빅데이터의 출현 배경

 

- 디지털 경제의 확산으로 우리 주변에는 규모를 가늠할 수 없을 정도로 많은 정보와 데이터가 생산되는 '빅데이터(Big Data)' 환경이 도래, PC와 인터넷, 모바일 기기 이용의 생활화, 사물지능통신(M2M)의 확산 등

3) 빅데이터의 기능

(1) 빅데이터는 산업혁명의 석탄, 철에 비유

: 새로운 시대의 자원

(2) 빅데이터는 원유에 비유

: '정보'를 제공함으로써 생산성 향상

(3) 빅데이터는 렌즈에 비유

: '현미경이 생물하게 미쳤던 영향', 세상을 관찰할 도구

(4) 빅데이터는 플랫폼에 비유

: '공동 활용의 목적으로 구축된 유무형의 구조물'

4) 빅데이터가 만들어내는 본질적인 변화

(1) 사전처리에서 사후처리 시대로 : 가능한 한 많은 데이터 모은 뒤 그 데이터를 다양한 방식으로 조합해 숨은

정보를 찾아냄

(2) 표본조사에서 전수조사로 : 표본조사가 주지 못하는 패턴이나 정보를 제공

(3) 질보다 양으로 : 구글의 자동번역 시스템, 데이터 수가 증가함에 따라 몇 개의 오류 데이터가 대세에 영향을

주지 못하는 경향이 늘어남

(4) 인과관계에서 상관관계로 : 데이터를 수집하고 분석하는 비용이 과거에 비해 저렴해짐

2. 빅데이터의 가치와 영향

 

1) 빅데이터의 가치

- 빅데이터 가치 산정이 어려운 이유

(1) 데이터의 활용 방식 : 특정 데이터를 언제, 누가, 어디서 활용할 지 알 수 없음

(2) 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 가치 측정이 어려움

(3) 분석 기술의 발달 : 지금 가치없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들 수 있음

 

2) 빅데이터의 영향

- 기업 : 혁신, 경쟁력 제고, 생산성 향상

- 정부 : 환경탐색, 상황 분석, 미래 대응

- 개인 : 목적에 따라 활용

 

3. 비즈니스 모델

1) 빅데이터 활용 사례

[출처] http://motivitylabs.com/blog

- 구글의 검색엔진, 월마트의 구매패턴 분석, IBM의 왓슨 의료분야에 활용

- 정부의 실시간 교통 정보 활용, 정치인의 사회관계망 분석을 통한 유세 등

2) 빅데이터 활용 테크닉

 

(1) 연관규칙학습(Association rule learning)

: 어떤 변수 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법. 예) 우유와 기저귀를 함께 진열

(2) 유형분석(Classfication tree analysis)

: "사용자가 어떤 특성을 가진 집단에 속하는가?"와 같은 문제 해결 시 사용. 예) 수강생 특성 따라 분류

(3) 유전 알고리즘(Genetic algorithms)

: 최적화의 메커니즘을 찾아가는 방법

예) "시청률을 높이려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가"

(4) 기계학습(Machine learning)

: 훈련 데이터로부터 학습한 정보를 바탕으로 일어날 일을 예측하는 방법

예) 넷플릭스 영화 추천 시스템

(5) 회귀분석(Regression analysis)

: 변수들 간의 관계를 분석하여 독립변수에 따른 종속변수의 변화를 예측하는 방법

예) "나이에 따른 자동차 구매 예산 분석"

(6) 감정분석(Sentiment analysis)

: 고객군들의 의견 분석 시 활용. 예) 새로운 환불 정책에 대한 고객의 평가

(7) 소셜네트워크분석(Social network analysis) = 사회관계망분석(SNA)

: 고객들 간 소셜 관계 파악

4. 위기 요인과 통제 방안

 

1) 위기 요인 및 통제 방안

 

사생활 침해

책임 원칙의 훼손

데이터의 오용

위기요인

우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있으며 다른 목적으로 활용될 가능성이 증가

분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 높아짐. 따라서 잠재 위험 사항까지 책임을 추궁하는 사회로 변질될 가능성이 있음

주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있음

통제방안

동의에서 책임으로 - 개인이 매번 동의하는 것이 아니라 개인정보 사용자에게 책임을 지게 함

기존의 책임 원칙을 강화

데이터 알고리즘에 대한 접근권 허용 및 객관적 인증 방안을 도입

 

5. 미래의 빅데이터

 

- 빅데이터 활용 3요소 : 데이터(재활용되면서 가치를 재창출), 기술(알고리즘 진화), 인력

 

댓글