3과목 · 데이터 분석·6장
분류
분류의 정의, 대표 알고리즘(로지스틱·의사결정나무·KNN·SVM·나이브베이즈), 성능 평가 지표(Confusion Matrix·ROC·AUC)를 정리합니다.
1. 분류란
분류(Classification) 는 입력 데이터를 미리 정의된 범주 중 하나로 할당하는 지도학습 기법.
- 이진 분류: 스팸/정상, 양성/음성
- 다중 분류: 이미지 내 객체 종류, 뉴스 카테고리
2. 대표 알고리즘
2-1. 로지스틱 회귀
- 이진 분류 기본
- 해석 가능(계수·오즈비)
2-2. 의사결정나무
- If-Then 규칙 트리
- 해석 쉬움, 과적합 주의
2-3. K-최근접이웃(KNN)
- 새 점 근처 K개의 다수결
- 훈련 없음, 예측 시 계산 큼
- K 선택이 중요
2-4. 서포트 벡터 머신(SVM)
- 마진 최대화 초평면
- 커널로 비선형 확장
- 고차원·작은 표본 강함
2-5. 나이브 베이즈(Naive Bayes)
- 특성 독립 가정
- 빠르고 텍스트 분류에 강함
2-6. 앙상블
- 랜덤 포레스트, 그래디언트 부스팅
- 성능 우수, 해석 어려움 (후속 장 참고)
2-7. 신경망
- 복잡한 패턴 학습
- 데이터 대량, 하이퍼파라미터 튜닝
3. Confusion Matrix (혼동행렬)
이진 분류 결과 표:
| 실제 \ 예측 | Positive(예) | Negative(아니) |
|---|---|---|
| Positive | TP | FN |
| Negative | FP | TN |
4. 성능 지표
| 지표 | 공식 | 의미 |
|---|---|---|
| 정확도(Accuracy) | (TP+TN)/전체 | 전체 맞춘 비율 |
| 정밀도(Precision) | TP/(TP+FP) | "Positive라고 한 것 중 실제 Positive" |
| 재현율(Recall, Sensitivity) | TP/(TP+FN) | "실제 Positive 중 잡아낸 비율" |
| 특이도(Specificity) | TN/(TN+FP) | 실제 Negative 중 맞춘 비율 |
| F1 점수 | 2·P·R/(P+R) | 정밀도·재현율 조화평균 |
불균형 데이터
- 예: 100명 중 암 환자 1명
- 모두 "정상"이라 해도 정확도 99%
- → 재현율·F1이 더 의미 있음
5. ROC 곡선과 AUC
- ROC(Receiver Operating Characteristic): TPR(재현율) vs FPR(1-특이도)
- AUC(Area Under Curve): ROC 아래 면적
- 0.5: 무작위
- 0.7~0.8: 수용 가능
- 0.9+: 우수
이상적 모델
- 좌상단에 가까운 곡선
- AUC → 1.0
6. 임계값 조정
로지스틱 회귀·확률 모델은 임계값(threshold) 으로 양/음 결정.
- 임계값 ↓ → Recall ↑, Precision ↓
- 도메인에 따라 trade-off 조정
- 암 검진: Recall 우선
- 스팸 필터: Precision 우선
7. 학습·검증·테스트 분할
[Train] → 모델 학습
[Validation] → 하이퍼파라미터 튜닝
[Test] → 최종 성능 보고 (한 번만)
교차검증(Cross-Validation)
- K-Fold: 데이터 K등분, 번갈아 검증
- 작은 데이터에서 신뢰도 확보
8. 과적합과 일반화
- 과적합(Overfitting): 훈련 성능 ↑ 테스트 ↓
- 방지:
- 데이터 증가
- 정규화
- 드롭아웃(신경망)
- 가지치기(트리)
9. 실제 분류 문제 예
| 문제 | 알고리즘 후보 |
|---|---|
| 스팸 필터 | 나이브베이즈, 로지스틱 |
| 이미지 분류 | CNN |
| 질병 진단 | 로지스틱, 앙상블 |
| 이탈 예측 | 로지스틱, 랜덤포레스트, XGBoost |
| 신용 승인 | 로지스틱, GBM |
10. 출제 포인트
- Confusion Matrix 4칸의 의미
- 정밀도·재현율·F1 계산
- ROC·AUC 해석
- 불균형 데이터 평가 지표
- 주요 알고리즘의 특징·예시
요약 체크리스트
- TP/FP/FN/TN를 구분
- 정밀도·재현율을 계산
- F1 점수의 의미 설명
- ROC 곡선과 AUC의 해석
- 주요 분류 알고리즘 5개 특징 구분