3과목 · 데이터 분석·12장
데이터 마이닝
데이터 마이닝의 정의와 목적, 분류·군집·연관·예측 4대 기법, 프로세스(SEMMA/CRISP-DM), 성과 평가 지표를 정리합니다.
1. 데이터 마이닝이란
데이터 마이닝(Data Mining) 은 대량의 데이터에서 유용한 패턴·지식을 추출하는 과정.
- 단순 조회가 아닌 발견 중심
- 통계·머신러닝·DB·시각화의 결합
- 비즈니스 인텔리전스의 핵심 기술
2. 데이터 마이닝 목적
| 축 | 내용 |
|---|---|
| 예측(Prediction) | 미래 값·이벤트 추정 |
| 기술(Description) | 데이터의 숨은 구조·패턴 설명 |
3. 주요 기법 4가지
3-1. 분류(Classification)
- 지도학습, 범주 예측
- 신용 평가, 질병 진단
3-2. 군집(Clustering)
- 비지도학습, 유사 그룹화
- 고객 세분화
3-3. 연관 규칙(Association)
- 함께 나타나는 항목 패턴
- 장바구니 분석
3-4. 예측(Prediction/Regression)
- 연속값 예측
- 매출·수요 예측
4. 데이터 마이닝 프로세스
4-1. SEMMA
| 단계 | 활동 |
|---|---|
| Sample | 표본 추출 |
| Explore | 탐색 |
| Modify | 변형·파생 |
| Model | 모델링 |
| Assess | 평가 |
4-2. CRISP-DM
- 비즈니스 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
(앞 장 참고)
5. 탐색적 데이터 분석(EDA)
- 기초 통계 요약
- 시각화(히스토그램, 산점도, 박스플롯)
- 결측·이상치 탐지
- 변수 간 관계 초기 확인
6. 특성 공학
- 결측 처리
- 스케일링·정규화
- 변환(로그·제곱근)
- 범주형 인코딩
- 구간화·파생 변수
7. 성과 평가 지표
분류
- 정확도, 정밀도, 재현율, F1, ROC·AUC
회귀
- RMSE, MAE, MAPE, R²
군집
- Silhouette, DB 지수
연관 규칙
- 지지도, 신뢰도, 향상도(lift)
8. 데이터 마이닝 성공 조건
- 명확한 비즈니스 질문
- 품질 좋은 데이터
- 도메인 전문가 협력
- 반복적 개선
- 배포·모니터링
9. 한계와 주의
- 상관 ≠ 인과
- 과적합 — 샘플에 맞는 패턴이 일반화 안 됨
- 데이터 편향 — 학습 데이터가 편향되면 결과도 편향
- 윤리·개인정보 이슈
10. 실제 응용 예
| 분야 | 기법 |
|---|---|
| 유통 | 장바구니 분석, 추천 |
| 통신 | 이탈 예측, 타겟 마케팅 |
| 의료 | 진단 지원, 약물 상호작용 |
| 보안 | 이상거래·침입 탐지 |
| 제조 | 품질 예측, 설비 정비 |
11. 출제 포인트
- 데이터 마이닝 2대 목적(예측·기술)
- 4대 기법(분류·군집·연관·예측)
- SEMMA와 CRISP-DM 단계 수
- 지지도·신뢰도·향상도 정의
- 과적합과 편향 주의
요약 체크리스트
- 데이터 마이닝 4대 기법 구분
- SEMMA 5단계 순서
- EDA에서 하는 일 3가지
- 연관 규칙 3지표 정의