본문 바로가기
데이터분석/데이터분석준전문가(ADsP)

ADsP 대비 Part1.데이터의 이해

by Bookohol 2019. 3. 11.

 

 

* 위 참고도서를 직접 구입해 개인적으로 공부한 내용을 공유합니다.

ADsP를 준비하시는 많은 비전공자 분들에게 도움이 되었으면 합니다 :)

* 이 포스팅은 PC 버전에 최적화되어 있습니다

 

 

 

 

 

기출 빈도

 

1. 데이터와 정보

1) 데이터의 정의

(1) 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실

(2) 다른 객체와의 상호 관계 속에서 가치를 가짐

 

2) 데이터의 유형

(1) 정성적 데이터 : 자료의 성질, 특성을 표현. 언어, 비정형 데이터, 요약, 주관적 결론

예) 고객 만족도 및 선호도

(2) 정량적 데이터 : 자료를 수치화하여 표현. 정형 데이터, 통계분석, 객관적 결론

예) 나이, 몸무게, 주가 등

3) 지식경영 핵심 이슈

- 데이터는 지식 경영에서 암묵지와 형식지의 상호작용 역할을 함

* 암묵지 : 학습과 체험을 통해 개인에게 습득되지만 겉으로 드러나지 않는 상태의 지식

예) 관찰, 모방, 현장 작업과 같은 경험을 통해 획득하는 지식

* 형식지 : 여러 사람이 공유할 수 있도록 암묵지가 문서화되어 외부로 표출된 지식

예) 책, 설계도 등 체계회된 재료 등을 통해서 획득할 수 있는 지식

- 지식경영 : 공동화 - 표출화 - 연결화 - 내면화되는 지식 나선활동을 기반으로 한 기업의 경영 형태

SECI 모델(Socialization-Externalization-Combination-Internalization Model)

[출처] 지식경영 : 전사적 지식의 네트워크 http://www.seehint.com/print.asp?no=12100

4) 데이터와 정보와의 관계

- DIKW 피라미드(Data-Information-knowledge-Wisdom)

 

 

 

* Data : 다른 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호

예) A마트 연필 가격은 100원, B마트 연필 가격은 200원

* Information : 데이터의 가공 및 상관관계에 대한 이해를 통해 특정 패턴을 인식하고 의미를 부여함

예) A마트 연필이 더 저렴하다

* Knowledge : 연결된 정보의 특정 패턴을 이해한 뒤 이를 토대로 예측한 결과물

예) 상대적으로 저렴한 A마트에서 연필을 사야겠다

* Wisdom : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어

예) A마트의 다른 상품들도 B마트보다 저렴할 것이라고 판단

 

 

2. 데이터베이스 정의와 특징

 

1) 용어의 연혁

- 1950년대, 미국 정부가 자국 군대의 군비 상황을 집중 관리하기 위해 컴퓨터 기술로 구현한 도서관 설립에서

비롯됨. 이 때 수집된 자료를 일컫는 '데이터(data)', '기지(base)'라는 뜻으로 데이터베이스 탄생

- 1960년대, 미국 SDC(System Development Corporation)가 개최한 심포지엄에서 데이터베이스라는

용어가 공식적으로 사용

 

 

2) 데이터베이스 정의

- 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합을 말한다. 자료항목의 중복을

없애고 자료를 구조화하여 저장함으로써 자료 검색과 갱신의 효율을 높인다. *두산백과 정의

3) 데이터베이스 특징

(1) 통합된 데이터(intergrated data) : 데이터베이스에서 동일한 내용의 데이터가 중복되어 있지 않다는 것

(2) 저장된 데이터(stored data) : 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 의미

(3) 공용 데이터(shared data) : 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동 이용

(4) 변화되는 데이터 : 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의

정확한 데이터를 유지해야하는 것을 의미

4) 데이터베이스 특성

(1) 정보의 축적 및 전달 측면 : 대량의 정보를 기계가 읽고 쓸수 있는 기계 가독성, 필요한 정보를 검색할 수 있는

검색가능성, 원거리에서도 온라인으로 이용할 수 있는 원격 조작성을 가짐

(2) 정보 이용 측면 : 사용자의 정보 요구에 따라 다양한 정보를 신속히, 경제적으로 제공

(3) 정보 관리 측면 : 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이

(4) 정보기술발전 측면 : 정보처리, 검색, 관리 소프트웨어 등 네트워크 발전 기술 견인

(5) 경제, 산업적 측면 : 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고

국민의 편의를 증진하는 수단으로 의미를 가짐

3. 데이터베이스 활용

1) 기업 내부 데이터 베이스

- 주요 특징

 

 

 

구분

주요 특징

1980년대

- OLTP(On-line Transaction Processing) 온라인 거래처리 : 주 컴퓨터에서 처리하여 그 결과를 즉석에서 사용자에게 되돌려보내 주는 처리 형태. 단기간 온라인 데이터 프로세싱을 진행하는 전형적인 데이터베이스 시스템으로, 최신 데이터를 주로 다룸

- OLAP(On-line Analytical Processing) 온라인 분석처리 : 다차원으로 이루어진 데이터로 부터 통계적인 요약 정보를 제공할 수 있는 기술. 데이터 웨어하우스 환경에서 주로 사용되며 데이터를 효과적으로 분석하는 것이 목적. 주로 오래된 데이터 채굴에 사용

* OLTP vs. OLAP 차이점

1. 목적 : OLTP - 비지니스 작업 제어 및 실행/OLAP -의사결정 지원, 계획 및 문제해결

2. 데이터 의미 : OLTP - 진행 중인 비즈니스 프로세스/

OLAP - 모든 유형의 비즈니스 활동을 다차원적으로 보여줌

2000년대

- CRM(Customer Relationship Management) : 선별된 고객으로부터 수익을 창출하고 장기적인 고객 관계를 가능케 함으로써 보다 높은 이익을 창출할 수 있는 솔루션

- SCM(Supply Chain Management : 제조, 물류, 유통업체 등 유통공급망에 참여하는

모든 업체들이 협력을 바탕으로 정보기술을 활용, 재고를 최적화하기 위한 솔루션

 

 

[출처]데이터베이스의 종류 https://blog.naver.com/imperva-korea/221196865551

 

 

2) 분야별 기업 내부 데이터 베이스

- 주요 솔루션

분야

주요 솔루션

제조

- DW(Data Warehouse) : 정보검색을 목적으로 구축된 데이터 베이스, 전사적인 규모의

시스템. 데이터 마트는 사업부 단위의 소규모 데이터 웨어하우스

* DW 4대 특성 : 데이터 주제 지향성/데이터 통합/데이터의 시계열성/데이터의 비휘발성

- ERP(Enterprise Resource Planning) : 제조업을 포함한 다양한 비즈니스 분야에서 생산,

구매, 재고, 주문, 공급자와의 거래, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모

듈로 구성된 통합 애플리케이션 소프트웨어 패키지를 의미함 (좁은 의미)

- BI(Business Intelligence) : 기업의 DW에 저장된 데이터에 접근해 경영 의사결정에 필요

한 정보를 획득하고 이를 경영활동에 활용하는 것을 의미함

* BI와 BA(Business Analytics) 차이점

1. 목적 : BI - 과거의 성과를 측정하고 향후 비즈니스 계획

BA - 데이터와 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점

2. 응용 : BI - 데이터 기반의 의사결정 / BA - 사전에 예측하고 최적화하기 위함

- CRM(Customer Relationship Management) : 선별된 고객으로부터 수익을 창출하고

장기적인 고객 관계를 가능케 함으로써 보다 높은 이익을 창출할 수 있는 솔루션

금융

- EAI(Enterprise Architecture Integration) : 기업 내 ERP(전사적자원관리), CRM(고객

관계관리), SCM(공급망계획) 시스템이나 인트라 넷 등의 시스템간에 상호 연동이 가능하

도록 통합하는 솔루션

- EDW(Enterprise Data Warehouse) : 기존 DW를 전사적으로 확장한 모델. 기업 리소스

의 유기적 통합, 다원화된 관리 체계 정비, 데이터의 중복 방지 등을 위해 시스템 재설계

- Blockchain : 데이터 분산 처리 기술. 네트워크에 참여하는 모든 사용자가 모든 거래 내역

등의 데이터를 분산, 저장하는 기술을 말함

유통

- KMS(Knowledge Management System) : 조직 내 지식을 체계적으로 관리하는 시스템

- RFID(Radio Frequency Identification) : 무선주파수를 이용하여 물건, 사람을 식별할 수

있는 기술. 각 RF 태그에 사용 목적에 알맞는 정보를 저장하여 적용대상에 부착한 후 RFID

리더기로 정보를 인식함

3) 사회 기반 구조로서의 데이터베이스

- EDI(Electronic Data Intelligence) : 표준화된 상거래 서식 또는 공공서식을 서로 합의된 표준에 따라 전자문서

를 만들어 컴퓨터 및 통신을 매개로 상호 교환하는 것을 의미

- CALS(Commerce At Lighted Speed) : 각종 기술 자료를 디지털화해 관련 데이터를 통합 운영하는 업무 환경

4) 분야별 사회기반 구조로서의 데이터베이스

 

- 주요 솔루션

분야

주요 솔루션

물류

- 종합물류정보망 : '실시간차량추적', 운행 중인 차량의 위치 및 상태를 실시간으로 파악하여 운송회사 및 화주 등 서비스 가입자의 합리적인 의사결정을 지원하는 시스템

- VAN(Value Added Network) : 통신회선을 소유 또는 임차하여 구성한 네트워크에 단순

한 전송 기능 이상의 부가가치를 첨가하여 정보를 축적, 가공, 변환 처리하여 음성 또는 데이

터 정보를 제공해주는 광범위하고도 복합적인 통신 서비스의 집합

지리

- 국가지리정보체계(NGIS), PS, GPS

교통

- 지능형교통시스템(ITS)

의료

- 의료 EDI

교육

- 교육행정정보시스템(NEIS)

 

 

 

 

댓글