← 일백제ADsP 개념서
2과목 · 데이터 분석 기획·3

분석 방법론

KDD, CRISP-DM, SEMMA 방법론의 단계와 특징 비교, 빅데이터 분석 절차(문제정의→결과 활용)까지 정리합니다.

1. 분석 방법론 개요

분석 방법론은 분석 프로젝트를 체계적으로 수행하기 위한 절차와 산출물의 표준입니다.

대표 3가지:

  • KDD(Knowledge Discovery in Databases)
  • CRISP-DM(Cross-Industry Standard Process for Data Mining)
  • SEMMA(Sample, Explore, Modify, Model, Assess — SAS)

2. KDD 방법론

5단계:

1. 데이터셋 선택(Selection)
2. 데이터 전처리(Preprocessing)
3. 데이터 변환(Transformation)
4. 데이터 마이닝(Data Mining)
5. 해석과 평가(Interpretation/Evaluation)
단계 핵심 활동
선택 목표와 관련된 데이터 추출
전처리 결측치·이상치·중복 제거
변환 차원 축소·스케일링·파생 변수
마이닝 알고리즘 적용·패턴 발견
해석 결과 검증·도메인 관점 해석

3. CRISP-DM 방법론

6단계 반복 구조가 특징. 업계 표준.

[Business Understanding] ⇄ [Data Understanding]
          ↓
   [Data Preparation]
          ↓
      [Modeling]
          ↓
     [Evaluation] → 필요 시 Business 재정의
          ↓
     [Deployment]
단계 내용
1. 비즈니스 이해 목표·성공 기준 설정
2. 데이터 이해 EDA·품질 점검
3. 데이터 준비 정제·변환·통합
4. 모델링 알고리즘 선택·튜닝
5. 평가 목표 부합 여부·다음 단계 결정
6. 전개(Deployment) 배포·모니터링

특징

  • 단계 간 반복 가능
  • 비즈니스 관점 강조
  • 현업에서 가장 널리 사용

4. SEMMA 방법론

SAS가 제안, 5단계

단계 활동
Sample 분석 표본 추출
Explore 탐색·이상치 확인
Modify 변수 선택·변환
Model 모델 적합
Assess 모델 성능 평가

기술·통계 중심, 비즈니스 단계가 없는 것이 특징.

5. 방법론 비교

구분 KDD CRISP-DM SEMMA
단계 수 5 6 5
비즈니스 단계 × ×
반복 약함 강함 약함
배포 단계 × ×
주도 학계 업계 표준 SAS

ADsP에서는 CRISP-DM의 6단계 순서와 특징이 자주 출제됩니다.

6. 빅데이터 분석 방법론(KDB 한국판)

국내 출제기준상 5단계:

  1. 분석 기획
  2. 데이터 준비
  3. 데이터 분석
  4. 시스템 구현
  5. 평가 및 전개

각 단계가 산출물 단위로 정의됨.

7. 계층적 프로세스 모델

  • 단계(Phase): 큰 묶음
  • 태스크(Task): 단계 내 세부 작업
  • 스텝(Step): 태스크 내 실행 단위

예: 분석 기획(Phase) → 현황 진단(Task) → 설문 배포·수집(Step)

8. 방법론의 역할

  • 일관성 — 팀이 같은 언어·절차 공유
  • 재현성 — 누가 해도 비슷한 결과
  • 리스크 감소 — 누락 단계 방지
  • 소통 — 경영진·이해관계자에 진행 공유

9. 출제 포인트

  • CRISP-DM 6단계 순서
  • 방법론별 단계 수 비교
  • KDD와 CRISP-DM 단계 이름 매칭
  • 빅데이터 분석 방법론 5단계(한국판)
  • 계층 구조(Phase·Task·Step)

요약 체크리스트

  • KDD 5단계를 순서대로 나열
  • CRISP-DM 6단계를 순서대로 나열
  • SEMMA 5단계를 단계별 활동과 함께 정리
  • CRISP-DM이 가장 널리 쓰이는 이유를 설명