← 일백제ADsP 개념서
← 개념서태블릿/PC 버전
3과목 · 데이터 분석·6

분류

분류의 정의, 대표 알고리즘(로지스틱·의사결정나무·KNN·SVM·나이브베이즈), 성능 평가 지표(Confusion Matrix·ROC·AUC)를 정리합니다.

1. 분류란

분류(Classification) 는 입력 데이터를 미리 정의된 범주 중 하나로 할당하는 지도학습 기법.

  • 이진 분류: 스팸/정상, 양성/음성
  • 다중 분류: 이미지 내 객체 종류, 뉴스 카테고리

2. 대표 알고리즘

2-1. 로지스틱 회귀

  • 이진 분류 기본
  • 해석 가능(계수·오즈비)

2-2. 의사결정나무

  • If-Then 규칙 트리
  • 해석 쉬움, 과적합 주의

2-3. K-최근접이웃(KNN)

  • 새 점 근처 K개의 다수결
  • 훈련 없음, 예측 시 계산 큼
  • K 선택이 중요

2-4. 서포트 벡터 머신(SVM)

  • 마진 최대화 초평면
  • 커널로 비선형 확장
  • 고차원·작은 표본 강함

2-5. 나이브 베이즈(Naive Bayes)

  • 특성 독립 가정
  • 빠르고 텍스트 분류에 강함

2-6. 앙상블

  • 랜덤 포레스트, 그래디언트 부스팅
  • 성능 우수, 해석 어려움 (후속 장 참고)

2-7. 신경망

  • 복잡한 패턴 학습
  • 데이터 대량, 하이퍼파라미터 튜닝

3. Confusion Matrix (혼동행렬)

이진 분류 결과 표:

실제 \ 예측 Positive(예) Negative(아니)
Positive TP FN
Negative FP TN

4. 성능 지표

지표 공식 의미
정확도(Accuracy) (TP+TN)/전체 전체 맞춘 비율
정밀도(Precision) TP/(TP+FP) "Positive라고 한 것 중 실제 Positive"
재현율(Recall, Sensitivity) TP/(TP+FN) "실제 Positive 중 잡아낸 비율"
특이도(Specificity) TN/(TN+FP) 실제 Negative 중 맞춘 비율
F1 점수 2·P·R/(P+R) 정밀도·재현율 조화평균

불균형 데이터

  • 예: 100명 중 암 환자 1명
  • 모두 "정상"이라 해도 정확도 99%
  • 재현율·F1이 더 의미 있음

5. ROC 곡선과 AUC

  • ROC(Receiver Operating Characteristic): TPR(재현율) vs FPR(1-특이도)
  • AUC(Area Under Curve): ROC 아래 면적
    • 0.5: 무작위
    • 0.7~0.8: 수용 가능
    • 0.9+: 우수

이상적 모델

  • 좌상단에 가까운 곡선
  • AUC → 1.0

6. 임계값 조정

로지스틱 회귀·확률 모델은 임계값(threshold) 으로 양/음 결정.

  • 임계값 ↓ → Recall ↑, Precision ↓
  • 도메인에 따라 trade-off 조정
    • 암 검진: Recall 우선
    • 스팸 필터: Precision 우선

7. 학습·검증·테스트 분할

[Train]  →  모델 학습
[Validation]  →  하이퍼파라미터 튜닝
[Test]  →  최종 성능 보고 (한 번만)

교차검증(Cross-Validation)

  • K-Fold: 데이터 K등분, 번갈아 검증
  • 작은 데이터에서 신뢰도 확보

8. 과적합과 일반화

  • 과적합(Overfitting): 훈련 성능 ↑ 테스트 ↓
  • 방지:
    • 데이터 증가
    • 정규화
    • 드롭아웃(신경망)
    • 가지치기(트리)

9. 실제 분류 문제 예

문제 알고리즘 후보
스팸 필터 나이브베이즈, 로지스틱
이미지 분류 CNN
질병 진단 로지스틱, 앙상블
이탈 예측 로지스틱, 랜덤포레스트, XGBoost
신용 승인 로지스틱, GBM

10. 출제 포인트

  • Confusion Matrix 4칸의 의미
  • 정밀도·재현율·F1 계산
  • ROC·AUC 해석
  • 불균형 데이터 평가 지표
  • 주요 알고리즘의 특징·예시

요약 체크리스트

  • TP/FP/FN/TN를 구분
  • 정밀도·재현율을 계산
  • F1 점수의 의미 설명
  • ROC 곡선과 AUC의 해석
  • 주요 분류 알고리즘 5개 특징 구분