← 일백제ADsP 개념서
1과목 · 데이터 이해·1

데이터 개념

데이터의 정의와 종류(정성·정량, 정형·반정형·비정형), DIKW 계층, 데이터베이스와 DBMS, 데이터 웨어하우스/마트의 차이를 정리합니다.

1. 데이터란 무엇인가

데이터(Data) 는 관찰·측정·수집을 통해 얻어진 가공되지 않은 사실(fact)자료(material) 를 말합니다. 아직 해석되지 않은 상태로, 그 자체로는 의미를 가지기 어렵지만 조합·가공을 통해 정보(information)지식(knowledge) 으로 변환됩니다.

데이터의 속성

  • 객관성: 관찰·측정된 사실에 기반
  • 중복 가능성: 같은 사실을 여러 형태로 저장 가능
  • 가공의 여지: 다른 데이터와 결합해 새로운 가치 창출 가능

2. 데이터의 유형

2-1. 성질에 따른 분류

구분 설명 예시
정성적 데이터 (Qualitative) 언어·문자 형태로 기술, 저장·검색·분석에 비용이 큼 설문 서술, 고객 리뷰, SNS 게시물
정량적 데이터 (Quantitative) 수치·도형·기호로 표현, 저장·분석 용이 매출액, 온도, 클릭 수

2-2. 구조에 따른 분류

구분 설명 예시
정형(Structured) 미리 정의된 스키마·데이터 모델이 있음 관계형 DB 테이블, CSV
반정형(Semi-Structured) 스키마가 유연, 태그·키로 구조 표현 JSON, XML, 로그 파일
비정형(Unstructured) 정해진 구조 없음 텍스트, 이미지, 영상, 음성

빅데이터 시대의 80% 이상이 비정형 데이터로 추정됩니다. ADsP는 비정형 비중 증가가 왜 중요한지 자주 물어봅니다.

3. DIKW 피라미드

데이터가 의사결정에 이르기까지의 계층입니다.

         Wisdom    ← 지혜: 축적된 지식의 창의적 응용, "왜 그렇게 해야 하는가"
       Knowledge   ← 지식: 정보를 체계화한 결과, "어떻게"
     Information   ← 정보: 맥락을 가진 데이터, "무엇"
       Data        ← 데이터: 객관적 사실
단계 설명 예시
Data 가공되지 않은 사실 "A마트 우유 2500원, B마트 우유 2700원"
Information 의미를 부여한 데이터 "A마트가 B마트보다 우유가 싸다"
Knowledge 의사결정에 활용할 일반화 "A마트가 B마트보다 대체로 저렴하다"
Wisdom 근본 원리에 대한 통찰 "다른 상품도 A마트가 쌀 것이니 A마트에서 산다"

4. 데이터베이스와 DBMS

데이터베이스(Database)

  • 특정 조직의 공유 데이터 집합
  • 통합성·저장성·공용성·변화성을 갖춘 구조화된 데이터의 모음
  • 중복을 최소화하면서 여러 응용이 동시에 사용할 수 있어야 함

DBMS(DataBase Management System)

  • 데이터베이스를 관리·운영하는 소프트웨어
  • 대표 예: Oracle, MySQL, PostgreSQL, SQL Server, MongoDB

DBMS의 주요 기능

  1. 정의 기능 — 데이터 구조(스키마) 정의
  2. 조작 기능 — CRUD(Create/Read/Update/Delete)
  3. 제어 기능 — 보안·무결성·동시성·회복

5. 데이터 웨어하우스 vs 데이터 마트

구분 데이터 웨어하우스(DW) 데이터 마트(DM)
범위 전사 통합 부서·주제별
규모 대규모 소규모
주체 IT·경영진 특정 업무 부서
구축 기간 길다 짧다
  • 데이터 레이크(Data Lake): 원본 형태 그대로 대량의 정형·비정형 데이터를 저장하는 저장소. DW가 사전 정제·스키마 적용 중심이라면, 데이터 레이크는 "일단 저장하고 나중에 해석"하는 방식.

6. OLTP vs OLAP

구분 OLTP OLAP
목적 일상 거래 처리 분석·의사결정
데이터 현재·상세 과거·집계
연산 INSERT/UPDATE 많음 SELECT·집계 위주
예시 주문 시스템 매출 분석 대시보드

7. 출제 포인트

  • DIKW 단계의 순서와 정의를 묻는 문제가 단골
  • 정형/반정형/비정형 데이터의 예시 구분
  • DBMS의 기능은 정의·조작·제어 3가지로 구분
  • DW와 DM의 규모·범위 차이
  • 비정형 데이터 비중 증가가 빅데이터 대두의 배경

요약 체크리스트

  • 데이터 · 정보 · 지식 · 지혜의 예시를 하나씩 들 수 있다
  • 정형/반정형/비정형 데이터를 3가지씩 예시 구분할 수 있다
  • DBMS 3대 기능을 한 줄로 설명할 수 있다
  • DW와 DM의 차이를 3줄로 말할 수 있다
  • OLTP와 OLAP의 용도를 구분할 수 있다