← 일백제ADsP 개념서

← 개념서태블릿/PC 버전

3과목 · 데이터 분석·12장

데이터 마이닝

데이터 마이닝의 정의와 목적, 분류·군집·연관·예측 4대 기법, 프로세스(SEMMA/CRISP-DM), 성과 평가 지표를 정리합니다.

1. 데이터 마이닝이란

데이터 마이닝(Data Mining) 은 대량의 데이터에서 유용한 패턴·지식을 추출하는 과정.

단순 조회가 아닌 발견 중심
통계·머신러닝·DB·시각화의 결합
비즈니스 인텔리전스의 핵심 기술

2. 데이터 마이닝 목적

축	내용
예측(Prediction)	미래 값·이벤트 추정
기술(Description)	데이터의 숨은 구조·패턴 설명

3. 주요 기법 4가지

3-1. 분류(Classification)

지도학습, 범주 예측
신용 평가, 질병 진단

3-2. 군집(Clustering)

비지도학습, 유사 그룹화
고객 세분화

3-3. 연관 규칙(Association)

함께 나타나는 항목 패턴
장바구니 분석

3-4. 예측(Prediction/Regression)

연속값 예측
매출·수요 예측

4. 데이터 마이닝 프로세스

4-1. SEMMA

단계	활동
Sample	표본 추출
Explore	탐색
Modify	변형·파생
Model	모델링
Assess	평가

4-2. CRISP-DM

비즈니스 이해
데이터 이해
데이터 준비
모델링
평가
전개

(앞 장 참고)

5. 탐색적 데이터 분석(EDA)

기초 통계 요약
시각화(히스토그램, 산점도, 박스플롯)
결측·이상치 탐지
변수 간 관계 초기 확인

6. 특성 공학

결측 처리
스케일링·정규화
변환(로그·제곱근)
범주형 인코딩
구간화·파생 변수

7. 성과 평가 지표

분류

정확도, 정밀도, 재현율, F1, ROC·AUC

회귀

RMSE, MAE, MAPE, R²

군집

Silhouette, DB 지수

연관 규칙

지지도, 신뢰도, 향상도(lift)

8. 데이터 마이닝 성공 조건

명확한 비즈니스 질문
품질 좋은 데이터
도메인 전문가 협력
반복적 개선
배포·모니터링

9. 한계와 주의

상관 ≠ 인과
과적합 — 샘플에 맞는 패턴이 일반화 안 됨
데이터 편향 — 학습 데이터가 편향되면 결과도 편향
윤리·개인정보 이슈

10. 실제 응용 예

분야	기법
유통	장바구니 분석, 추천
통신	이탈 예측, 타겟 마케팅
의료	진단 지원, 약물 상호작용
보안	이상거래·침입 탐지
제조	품질 예측, 설비 정비

11. 출제 포인트

데이터 마이닝 2대 목적(예측·기술)
4대 기법(분류·군집·연관·예측)
SEMMA와 CRISP-DM 단계 수
지지도·신뢰도·향상도 정의
과적합과 편향 주의

요약 체크리스트

데이터 마이닝 4대 기법 구분
SEMMA 5단계 순서
EDA에서 하는 일 3가지
연관 규칙 3지표 정의