1과목 · 데이터 이해·1장
데이터 개념
데이터의 정의와 종류(정성·정량, 정형·반정형·비정형), DIKW 계층, 데이터베이스와 DBMS, 데이터 웨어하우스/마트의 차이를 정리합니다.
1. 데이터란 무엇인가
데이터(Data) 는 관찰·측정·수집을 통해 얻어진 가공되지 않은 사실(fact) 과 자료(material) 를 말합니다. 아직 해석되지 않은 상태로, 그 자체로는 의미를 가지기 어렵지만 조합·가공을 통해 정보(information) 와 지식(knowledge) 으로 변환됩니다.
데이터의 속성
- 객관성: 관찰·측정된 사실에 기반
- 중복 가능성: 같은 사실을 여러 형태로 저장 가능
- 가공의 여지: 다른 데이터와 결합해 새로운 가치 창출 가능
2. 데이터의 유형
2-1. 성질에 따른 분류
| 구분 | 설명 | 예시 |
|---|---|---|
| 정성적 데이터 (Qualitative) | 언어·문자 형태로 기술, 저장·검색·분석에 비용이 큼 | 설문 서술, 고객 리뷰, SNS 게시물 |
| 정량적 데이터 (Quantitative) | 수치·도형·기호로 표현, 저장·분석 용이 | 매출액, 온도, 클릭 수 |
2-2. 구조에 따른 분류
| 구분 | 설명 | 예시 |
|---|---|---|
| 정형(Structured) | 미리 정의된 스키마·데이터 모델이 있음 | 관계형 DB 테이블, CSV |
| 반정형(Semi-Structured) | 스키마가 유연, 태그·키로 구조 표현 | JSON, XML, 로그 파일 |
| 비정형(Unstructured) | 정해진 구조 없음 | 텍스트, 이미지, 영상, 음성 |
빅데이터 시대의 80% 이상이 비정형 데이터로 추정됩니다. ADsP는 비정형 비중 증가가 왜 중요한지 자주 물어봅니다.
3. DIKW 피라미드
데이터가 의사결정에 이르기까지의 계층입니다.
Wisdom ← 지혜: 축적된 지식의 창의적 응용, "왜 그렇게 해야 하는가"
Knowledge ← 지식: 정보를 체계화한 결과, "어떻게"
Information ← 정보: 맥락을 가진 데이터, "무엇"
Data ← 데이터: 객관적 사실
| 단계 | 설명 | 예시 |
|---|---|---|
| Data | 가공되지 않은 사실 | "A마트 우유 2500원, B마트 우유 2700원" |
| Information | 의미를 부여한 데이터 | "A마트가 B마트보다 우유가 싸다" |
| Knowledge | 의사결정에 활용할 일반화 | "A마트가 B마트보다 대체로 저렴하다" |
| Wisdom | 근본 원리에 대한 통찰 | "다른 상품도 A마트가 쌀 것이니 A마트에서 산다" |
4. 데이터베이스와 DBMS
데이터베이스(Database)
- 특정 조직의 공유 데이터 집합
- 통합성·저장성·공용성·변화성을 갖춘 구조화된 데이터의 모음
- 중복을 최소화하면서 여러 응용이 동시에 사용할 수 있어야 함
DBMS(DataBase Management System)
- 데이터베이스를 관리·운영하는 소프트웨어
- 대표 예: Oracle, MySQL, PostgreSQL, SQL Server, MongoDB
DBMS의 주요 기능
- 정의 기능 — 데이터 구조(스키마) 정의
- 조작 기능 — CRUD(Create/Read/Update/Delete)
- 제어 기능 — 보안·무결성·동시성·회복
5. 데이터 웨어하우스 vs 데이터 마트
| 구분 | 데이터 웨어하우스(DW) | 데이터 마트(DM) |
|---|---|---|
| 범위 | 전사 통합 | 부서·주제별 |
| 규모 | 대규모 | 소규모 |
| 주체 | IT·경영진 | 특정 업무 부서 |
| 구축 기간 | 길다 | 짧다 |
- 데이터 레이크(Data Lake): 원본 형태 그대로 대량의 정형·비정형 데이터를 저장하는 저장소. DW가 사전 정제·스키마 적용 중심이라면, 데이터 레이크는 "일단 저장하고 나중에 해석"하는 방식.
6. OLTP vs OLAP
| 구분 | OLTP | OLAP |
|---|---|---|
| 목적 | 일상 거래 처리 | 분석·의사결정 |
| 데이터 | 현재·상세 | 과거·집계 |
| 연산 | INSERT/UPDATE 많음 | SELECT·집계 위주 |
| 예시 | 주문 시스템 | 매출 분석 대시보드 |
7. 출제 포인트
- DIKW 단계의 순서와 정의를 묻는 문제가 단골
- 정형/반정형/비정형 데이터의 예시 구분
- DBMS의 기능은 정의·조작·제어 3가지로 구분
- DW와 DM의 규모·범위 차이
- 비정형 데이터 비중 증가가 빅데이터 대두의 배경
요약 체크리스트
- 데이터 · 정보 · 지식 · 지혜의 예시를 하나씩 들 수 있다
- 정형/반정형/비정형 데이터를 3가지씩 예시 구분할 수 있다
- DBMS 3대 기능을 한 줄로 설명할 수 있다
- DW와 DM의 차이를 3줄로 말할 수 있다
- OLTP와 OLAP의 용도를 구분할 수 있다