← 일백제ADsP 개념서

← 개념서모바일 버전

3과목 · 데이터 분석·6장

분류

분류의 정의, 대표 알고리즘(로지스틱·의사결정나무·KNN·SVM·나이브베이즈), 성능 평가 지표(Confusion Matrix·ROC·AUC)를 정리합니다.

1. 분류란

분류(Classification) 는 입력 데이터를 미리 정의된 범주 중 하나로 할당하는 지도학습 기법.

이진 분류: 스팸/정상, 양성/음성
다중 분류: 이미지 내 객체 종류, 뉴스 카테고리

2. 대표 알고리즘

2-1. 로지스틱 회귀

이진 분류 기본
해석 가능(계수·오즈비)

2-2. 의사결정나무

If-Then 규칙 트리
해석 쉬움, 과적합 주의

2-3. K-최근접이웃(KNN)

새 점 근처 K개의 다수결
훈련 없음, 예측 시 계산 큼
K 선택이 중요

2-4. 서포트 벡터 머신(SVM)

마진 최대화 초평면
커널로 비선형 확장
고차원·작은 표본 강함

2-5. 나이브 베이즈(Naive Bayes)

특성 독립 가정
빠르고 텍스트 분류에 강함

2-6. 앙상블

랜덤 포레스트, 그래디언트 부스팅
성능 우수, 해석 어려움 (후속 장 참고)

2-7. 신경망

복잡한 패턴 학습
데이터 대량, 하이퍼파라미터 튜닝

3. Confusion Matrix (혼동행렬)

이진 분류 결과 표:

실제 \ 예측	Positive(예)	Negative(아니)
Positive	TP	FN
Negative	FP	TN

4. 성능 지표

지표	공식	의미
정확도(Accuracy)	(TP+TN)/전체	전체 맞춘 비율
정밀도(Precision)	TP/(TP+FP)	"Positive라고 한 것 중 실제 Positive"
재현율(Recall, Sensitivity)	TP/(TP+FN)	"실제 Positive 중 잡아낸 비율"
특이도(Specificity)	TN/(TN+FP)	실제 Negative 중 맞춘 비율
F1 점수	2·P·R/(P+R)	정밀도·재현율 조화평균

불균형 데이터

예: 100명 중 암 환자 1명
모두 "정상"이라 해도 정확도 99%
→ 재현율·F1이 더 의미 있음

5. ROC 곡선과 AUC

ROC(Receiver Operating Characteristic): TPR(재현율) vs FPR(1-특이도)
AUC(Area Under Curve): ROC 아래 면적
- 0.5: 무작위
- 0.7~0.8: 수용 가능
- 0.9+: 우수

이상적 모델

좌상단에 가까운 곡선
AUC → 1.0

6. 임계값 조정

로지스틱 회귀·확률 모델은 임계값(threshold) 으로 양/음 결정.

임계값 ↓ → Recall ↑, Precision ↓
도메인에 따라 trade-off 조정
- 암 검진: Recall 우선
- 스팸 필터: Precision 우선

7. 학습·검증·테스트 분할

[Train]  →  모델 학습
[Validation]  →  하이퍼파라미터 튜닝
[Test]  →  최종 성능 보고 (한 번만)

교차검증(Cross-Validation)

K-Fold: 데이터 K등분, 번갈아 검증
작은 데이터에서 신뢰도 확보

8. 과적합과 일반화

과적합(Overfitting): 훈련 성능 ↑ 테스트 ↓
방지:
- 데이터 증가
- 정규화
- 드롭아웃(신경망)
- 가지치기(트리)

9. 실제 분류 문제 예

문제	알고리즘 후보
스팸 필터	나이브베이즈, 로지스틱
이미지 분류	CNN
질병 진단	로지스틱, 앙상블
이탈 예측	로지스틱, 랜덤포레스트, XGBoost
신용 승인	로지스틱, GBM

10. 출제 포인트

Confusion Matrix 4칸의 의미
정밀도·재현율·F1 계산
ROC·AUC 해석
불균형 데이터 평가 지표
주요 알고리즘의 특징·예시

요약 체크리스트

TP/FP/FN/TN를 구분
정밀도·재현율을 계산
F1 점수의 의미 설명
ROC 곡선과 AUC의 해석
주요 분류 알고리즘 5개 특징 구분