← 일백제ADsP 개념서
← 개념서모바일 버전
3과목 · 데이터 분석·12

데이터 마이닝

데이터 마이닝의 정의와 목적, 분류·군집·연관·예측 4대 기법, 프로세스(SEMMA/CRISP-DM), 성과 평가 지표를 정리합니다.

1. 데이터 마이닝이란

데이터 마이닝(Data Mining) 은 대량의 데이터에서 유용한 패턴·지식을 추출하는 과정.

  • 단순 조회가 아닌 발견 중심
  • 통계·머신러닝·DB·시각화의 결합
  • 비즈니스 인텔리전스의 핵심 기술

2. 데이터 마이닝 목적

내용
예측(Prediction) 미래 값·이벤트 추정
기술(Description) 데이터의 숨은 구조·패턴 설명

3. 주요 기법 4가지

3-1. 분류(Classification)

  • 지도학습, 범주 예측
  • 신용 평가, 질병 진단

3-2. 군집(Clustering)

  • 비지도학습, 유사 그룹화
  • 고객 세분화

3-3. 연관 규칙(Association)

  • 함께 나타나는 항목 패턴
  • 장바구니 분석

3-4. 예측(Prediction/Regression)

  • 연속값 예측
  • 매출·수요 예측

4. 데이터 마이닝 프로세스

4-1. SEMMA

단계 활동
Sample 표본 추출
Explore 탐색
Modify 변형·파생
Model 모델링
Assess 평가

4-2. CRISP-DM

  1. 비즈니스 이해
  2. 데이터 이해
  3. 데이터 준비
  4. 모델링
  5. 평가
  6. 전개

(앞 장 참고)

5. 탐색적 데이터 분석(EDA)

  • 기초 통계 요약
  • 시각화(히스토그램, 산점도, 박스플롯)
  • 결측·이상치 탐지
  • 변수 간 관계 초기 확인

6. 특성 공학

  • 결측 처리
  • 스케일링·정규화
  • 변환(로그·제곱근)
  • 범주형 인코딩
  • 구간화·파생 변수

7. 성과 평가 지표

분류

  • 정확도, 정밀도, 재현율, F1, ROC·AUC

회귀

  • RMSE, MAE, MAPE, R²

군집

  • Silhouette, DB 지수

연관 규칙

  • 지지도, 신뢰도, 향상도(lift)

8. 데이터 마이닝 성공 조건

  • 명확한 비즈니스 질문
  • 품질 좋은 데이터
  • 도메인 전문가 협력
  • 반복적 개선
  • 배포·모니터링

9. 한계와 주의

  • 상관 ≠ 인과
  • 과적합 — 샘플에 맞는 패턴이 일반화 안 됨
  • 데이터 편향 — 학습 데이터가 편향되면 결과도 편향
  • 윤리·개인정보 이슈

10. 실제 응용 예

분야 기법
유통 장바구니 분석, 추천
통신 이탈 예측, 타겟 마케팅
의료 진단 지원, 약물 상호작용
보안 이상거래·침입 탐지
제조 품질 예측, 설비 정비

11. 출제 포인트

  • 데이터 마이닝 2대 목적(예측·기술)
  • 4대 기법(분류·군집·연관·예측)
  • SEMMA와 CRISP-DM 단계 수
  • 지지도·신뢰도·향상도 정의
  • 과적합과 편향 주의

요약 체크리스트

  • 데이터 마이닝 4대 기법 구분
  • SEMMA 5단계 순서
  • EDA에서 하는 일 3가지
  • 연관 규칙 3지표 정의