2과목 · 데이터 분석 기획·3장
분석 방법론
KDD, CRISP-DM, SEMMA 방법론의 단계와 특징 비교, 빅데이터 분석 절차(문제정의→결과 활용)까지 정리합니다.
1. 분석 방법론 개요
분석 방법론은 분석 프로젝트를 체계적으로 수행하기 위한 절차와 산출물의 표준입니다.
대표 3가지:
- KDD(Knowledge Discovery in Databases)
- CRISP-DM(Cross-Industry Standard Process for Data Mining)
- SEMMA(Sample, Explore, Modify, Model, Assess — SAS)
2. KDD 방법론
5단계:
1. 데이터셋 선택(Selection)
2. 데이터 전처리(Preprocessing)
3. 데이터 변환(Transformation)
4. 데이터 마이닝(Data Mining)
5. 해석과 평가(Interpretation/Evaluation)
| 단계 | 핵심 활동 |
|---|---|
| 선택 | 목표와 관련된 데이터 추출 |
| 전처리 | 결측치·이상치·중복 제거 |
| 변환 | 차원 축소·스케일링·파생 변수 |
| 마이닝 | 알고리즘 적용·패턴 발견 |
| 해석 | 결과 검증·도메인 관점 해석 |
3. CRISP-DM 방법론
6단계 반복 구조가 특징. 업계 표준.
[Business Understanding] ⇄ [Data Understanding]
↓
[Data Preparation]
↓
[Modeling]
↓
[Evaluation] → 필요 시 Business 재정의
↓
[Deployment]
| 단계 | 내용 |
|---|---|
| 1. 비즈니스 이해 | 목표·성공 기준 설정 |
| 2. 데이터 이해 | EDA·품질 점검 |
| 3. 데이터 준비 | 정제·변환·통합 |
| 4. 모델링 | 알고리즘 선택·튜닝 |
| 5. 평가 | 목표 부합 여부·다음 단계 결정 |
| 6. 전개(Deployment) | 배포·모니터링 |
특징
- 단계 간 반복 가능
- 비즈니스 관점 강조
- 현업에서 가장 널리 사용
4. SEMMA 방법론
SAS가 제안, 5단계
| 단계 | 활동 |
|---|---|
| Sample | 분석 표본 추출 |
| Explore | 탐색·이상치 확인 |
| Modify | 변수 선택·변환 |
| Model | 모델 적합 |
| Assess | 모델 성능 평가 |
기술·통계 중심, 비즈니스 단계가 없는 것이 특징.
5. 방법론 비교
| 구분 | KDD | CRISP-DM | SEMMA |
|---|---|---|---|
| 단계 수 | 5 | 6 | 5 |
| 비즈니스 단계 | × | ○ | × |
| 반복 | 약함 | 강함 | 약함 |
| 배포 단계 | × | ○ | × |
| 주도 | 학계 | 업계 표준 | SAS |
ADsP에서는 CRISP-DM의 6단계 순서와 특징이 자주 출제됩니다.
6. 빅데이터 분석 방법론(KDB 한국판)
국내 출제기준상 5단계:
- 분석 기획
- 데이터 준비
- 데이터 분석
- 시스템 구현
- 평가 및 전개
각 단계가 산출물 단위로 정의됨.
7. 계층적 프로세스 모델
- 단계(Phase): 큰 묶음
- 태스크(Task): 단계 내 세부 작업
- 스텝(Step): 태스크 내 실행 단위
예: 분석 기획(Phase) → 현황 진단(Task) → 설문 배포·수집(Step)
8. 방법론의 역할
- 일관성 — 팀이 같은 언어·절차 공유
- 재현성 — 누가 해도 비슷한 결과
- 리스크 감소 — 누락 단계 방지
- 소통 — 경영진·이해관계자에 진행 공유
9. 출제 포인트
- CRISP-DM 6단계 순서
- 방법론별 단계 수 비교
- KDD와 CRISP-DM 단계 이름 매칭
- 빅데이터 분석 방법론 5단계(한국판)
- 계층 구조(Phase·Task·Step)
요약 체크리스트
- KDD 5단계를 순서대로 나열
- CRISP-DM 6단계를 순서대로 나열
- SEMMA 5단계를 단계별 활동과 함께 정리
- CRISP-DM이 가장 널리 쓰이는 이유를 설명