← 일백제ADsP 개념서
← 개념서태블릿/PC 버전
1과목 · 데이터 이해·5

데이터 사이언스

데이터 사이언스의 정의, 구성 요소, 데이터 과학자 역할과 역량, 분석 유형과 접근법을 정리합니다.

1. 데이터 사이언스란

데이터 사이언스(Data Science) 는 정형·비정형 데이터로부터 의미 있는 통찰(insight)과 가치(value) 를 추출하는 학제간 분야입니다.

  • 통계학, 컴퓨터 과학, 도메인 지식이 결합
  • 단순 분석을 넘어 모델링·예측·최적화까지 포함

2. 데이터 사이언스의 3요소

흔히 벤 다이어그램으로 표현됩니다.

   [Hacking Skills]       [Math & Stats]
        ↘                   ↙
           [Data Science]
                ↑
         [Domain Knowledge]
요소 설명
해킹 기술(Hacking) 데이터 수집·가공·코딩 능력
수학·통계(Math/Stats) 모델링·검증 이론적 기반
도메인 지식(Domain) 해당 업무·산업 이해

세 영역이 모두 충족돼야 진정한 가치 창출이 가능합니다.

3. 데이터 과학자의 역할

3-1. 핵심 역할

  • 비즈니스 문제를 분석 문제로 번역
  • 데이터 수집·정제·탐색
  • 통계·ML 모델링 및 평가
  • 결과 해석·시각화
  • 의사결정자 설득

3-2. 요구 역량

세부
하드 스킬 프로그래밍(Python/R/SQL), 통계, ML, 데이터 엔지니어링
소프트 스킬 커뮤니케이션, 스토리텔링, 도메인 이해, 호기심·집요함

3-3. 인접 직군과의 차이

직군 초점
Data Analyst 기술 통계·대시보드 중심
Data Engineer 파이프라인·인프라 구축
Data Scientist 예측 모델·알고리즘 개발
ML Engineer 모델 배포·서비스화

4. 분석의 유형

과거             현재            미래             규범
─────────────────────────────────────────────────────────
Descriptive → Diagnostic → Predictive → Prescriptive
  무엇이          왜 그랬나       무엇이 될까      뭘 해야 하나
유형 질문
기술(Descriptive) 무엇이 일어났나? 월별 매출 집계
진단(Diagnostic) 왜 그랬나? 매출 하락 원인
예측(Predictive) 무엇이 일어날까? 다음 달 매출 예상
처방(Prescriptive) 무엇을 해야 하나? 가격 최적화

위로 갈수록 난이도·가치가 올라갑니다.

5. 분석 접근법

5-1. 전통 통계 vs 데이터 사이언스

구분 전통 통계 데이터 사이언스
데이터 표본 중심, 작다 전수 중심, 크다
가설 사전 가설 검정 탐색적 패턴 발견
도구 SAS, SPSS Python, Spark
목표 원인 추론 예측·최적화

5-2. 가설 연역 vs 데이터 주도

  • 가설 연역적: "이럴 것이다" → 실험/분석 → 검증
  • 데이터 주도적: 데이터 탐색 → 패턴 발견 → 가설 수립

빅데이터 시대에는 후자의 비중이 커졌습니다.

6. 데이터 사이언스 프로젝트 흐름

1. 문제 정의
2. 데이터 수집
3. 데이터 탐색·정제(EDA)
4. 특성 공학(Feature Engineering)
5. 모델링
6. 평가·검증
7. 배포·모니터링
8. 피드백·개선

7. 데이터 사이언스의 미래 이슈

  • 데이터 윤리 — 알고리즘 편향, 차별 방지
  • 설명 가능성(XAI) — 블랙박스 모델의 해석
  • 데이터 보안·프라이버시 — 차등정보 보호, 연합학습
  • AutoML — 자동화된 모델 생성·선택
  • 생성형 AI — LLM 등 새로운 분석 도구

8. 출제 포인트

  • 데이터 사이언스 3요소(해킹/수통계/도메인)
  • 4가지 분석 유형(Descriptive/Diagnostic/Predictive/Prescriptive) 순서와 의미
  • 데이터 과학자·분석가·엔지니어 역할 구분
  • 가설 연역적 vs 데이터 주도적 분석 비교
  • 프로젝트 흐름 단계

요약 체크리스트

  • 데이터 사이언스 3요소를 벤다이어그램으로 그릴 수 있다
  • 4가지 분석 유형을 순서대로 나열
  • 데이터 과학자의 하드/소프트 스킬을 구분
  • 전통 통계와 데이터 사이언스의 차이를 비교