3과목 · 데이터 분석·7장
군집 분석
비지도학습의 대표 기법 군집 분석의 원리, 계층적·분할적 방법, K-means와 DBSCAN, 군집 평가 지표를 정리합니다.
1. 군집 분석이란
군집 분석(Clustering) 은 레이블 없는 데이터를 유사성 기준으로 그룹화하는 비지도학습.
- 마케팅 세분화
- 고객 프로파일링
- 이상치 탐지
- 이미지·문서 분류 전처리
2. 거리 측정(Distance)
군집의 유사성은 거리로 정의.
| 거리 | 공식 | 특징 |
|---|---|---|
| 유클리디안 | $\sqrt{\sum (x_i - y_i)^2}$ | 가장 일반적 |
| 맨해튼 | $\sum | x_i - y_i |
| 민코프스키 | $(\sum | x_i-y_i |
| 코사인 유사도 | $\cos \theta$ | 방향 중심 (텍스트·추천) |
| 마할라노비스 | 공분산 고려 | 스케일·상관 보정 |
거리 측정 전에는 반드시 스케일링(표준화/정규화) 필요.
3. 계층적 군집화(Hierarchical)
병합적(bottom-up)·분할적(top-down) 방식이 있음.
3-1. 병합적 (Agglomerative)
- 각 개체를 독자 군집
- 가장 가까운 두 군집 병합
- 원하는 수에 도달할 때까지 반복
3-2. 덴드로그램
- 계층 구조 시각화
- 가로선으로 잘라 군집 수 결정
3-3. 연결 기준(Linkage)
| 방법 | 거리 |
|---|---|
| 단일 연결(Single) | 가장 가까운 두 점 |
| 완전 연결(Complete) | 가장 먼 두 점 |
| 평균 연결(Average) | 평균 거리 |
| 중심 연결(Centroid) | 군집 중심 간 거리 |
| Ward | 분산 증가 최소화 |
4. K-means
4-1. 알고리즘
- K개의 중심(centroid) 무작위 초기화
- 각 점을 가장 가까운 중심에 배정
- 각 군집의 중심 재계산
- 수렴 시까지 2-3 반복
4-2. 특징
- 빠르고 간단
- K를 미리 지정해야 함
- 구형 군집에 강함, 비구형·다양한 크기에 약함
- 초기 중심에 민감 → K-means++ 로 완화
4-3. 최적 K — 엘보 기법
SSE(내부 제곱합)을 K별로 계산 → 급격히 꺾이는 K 선택
5. DBSCAN (Density-Based)
밀도 기반 군집화.
- eps: 이웃 반경
- minPts: 이웃 최소 점 수
핵심 개념
- Core point: eps 내 minPts 이상
- Border point: eps 내 Core 있으나 자기 minPts 미만
- Noise: 둘 다 아님
장점
- K 지정 불필요
- 임의 형태 군집 탐지
- 이상치 자동 분리
단점
- 밀도 차이 큰 데이터 약함
- 고차원에서 파라미터 어려움
6. 혼합 가우시안(GMM)
- 각 군집이 가우시안 분포라고 가정
- EM 알고리즘으로 추정
- 확률적 배정 가능 — "70% A, 30% B"
7. 군집 평가 지표
레이블이 없어 평가 어려움. 내재 지표 사용.
| 지표 | 의미 | 방향 |
|---|---|---|
| Silhouette | 응집·분리 균형 | -1~1, 1에 가까울수록 좋음 |
| Davies-Bouldin | 군집 간 유사성 | 낮을수록 좋음 |
| Calinski-Harabasz | 분산 비율 | 높을수록 좋음 |
| SSE | 내부 제곱합 | K-means 엘보 |
8. 전처리 팁
- 스케일링: 모든 변수 유사 스케일
- 이상치 제거: 평균 기반 기법에 큰 영향
- 차원 축소: PCA 후 군집화 → 시각화·속도
- 범주형: 원-핫 또는 Gower 거리
9. 적용 예
- 고객 세분화: 구매액·빈도·카테고리
- 문서 군집: TF-IDF + 코사인 + K-means
- 이상거래 탐지: DBSCAN 이상치
- 유전체 분석: 계층적 군집
10. 출제 포인트
- 계층적 vs K-means 차이
- 연결 기준 5종 이름과 거리
- 엘보 기법으로 K 결정
- DBSCAN의 Core/Border/Noise
- 군집 평가 — Silhouette 의미
요약 체크리스트
- 거리 측정법 3가지 이상
- K-means 4단계 설명
- DBSCAN 3가지 점 유형
- 엘보 방법으로 K를 선택
- Silhouette 값의 범위와 해석