← 일백제ADsP 개념서
← 개념서태블릿/PC 버전
3과목 · 데이터 분석·7

군집 분석

비지도학습의 대표 기법 군집 분석의 원리, 계층적·분할적 방법, K-means와 DBSCAN, 군집 평가 지표를 정리합니다.

1. 군집 분석이란

군집 분석(Clustering)레이블 없는 데이터를 유사성 기준으로 그룹화하는 비지도학습.

  • 마케팅 세분화
  • 고객 프로파일링
  • 이상치 탐지
  • 이미지·문서 분류 전처리

2. 거리 측정(Distance)

군집의 유사성은 거리로 정의.

거리 공식 특징
유클리디안 $\sqrt{\sum (x_i - y_i)^2}$ 가장 일반적
맨해튼 $\sum x_i - y_i
민코프스키 $(\sum x_i-y_i
코사인 유사도 $\cos \theta$ 방향 중심 (텍스트·추천)
마할라노비스 공분산 고려 스케일·상관 보정

거리 측정 전에는 반드시 스케일링(표준화/정규화) 필요.

3. 계층적 군집화(Hierarchical)

병합적(bottom-up)·분할적(top-down) 방식이 있음.

3-1. 병합적 (Agglomerative)

  1. 각 개체를 독자 군집
  2. 가장 가까운 두 군집 병합
  3. 원하는 수에 도달할 때까지 반복

3-2. 덴드로그램

  • 계층 구조 시각화
  • 가로선으로 잘라 군집 수 결정

3-3. 연결 기준(Linkage)

방법 거리
단일 연결(Single) 가장 가까운 두 점
완전 연결(Complete) 가장 먼 두 점
평균 연결(Average) 평균 거리
중심 연결(Centroid) 군집 중심 간 거리
Ward 분산 증가 최소화

4. K-means

4-1. 알고리즘

  1. K개의 중심(centroid) 무작위 초기화
  2. 각 점을 가장 가까운 중심에 배정
  3. 각 군집의 중심 재계산
  4. 수렴 시까지 2-3 반복

4-2. 특징

  • 빠르고 간단
  • K를 미리 지정해야 함
  • 구형 군집에 강함, 비구형·다양한 크기에 약함
  • 초기 중심에 민감 → K-means++ 로 완화

4-3. 최적 K — 엘보 기법

SSE(내부 제곱합)을 K별로 계산 → 급격히 꺾이는 K 선택

5. DBSCAN (Density-Based)

밀도 기반 군집화.

  • eps: 이웃 반경
  • minPts: 이웃 최소 점 수

핵심 개념

  • Core point: eps 내 minPts 이상
  • Border point: eps 내 Core 있으나 자기 minPts 미만
  • Noise: 둘 다 아님

장점

  • K 지정 불필요
  • 임의 형태 군집 탐지
  • 이상치 자동 분리

단점

  • 밀도 차이 큰 데이터 약함
  • 고차원에서 파라미터 어려움

6. 혼합 가우시안(GMM)

  • 각 군집이 가우시안 분포라고 가정
  • EM 알고리즘으로 추정
  • 확률적 배정 가능 — "70% A, 30% B"

7. 군집 평가 지표

레이블이 없어 평가 어려움. 내재 지표 사용.

지표 의미 방향
Silhouette 응집·분리 균형 -1~1, 1에 가까울수록 좋음
Davies-Bouldin 군집 간 유사성 낮을수록 좋음
Calinski-Harabasz 분산 비율 높을수록 좋음
SSE 내부 제곱합 K-means 엘보

8. 전처리 팁

  • 스케일링: 모든 변수 유사 스케일
  • 이상치 제거: 평균 기반 기법에 큰 영향
  • 차원 축소: PCA 후 군집화 → 시각화·속도
  • 범주형: 원-핫 또는 Gower 거리

9. 적용 예

  • 고객 세분화: 구매액·빈도·카테고리
  • 문서 군집: TF-IDF + 코사인 + K-means
  • 이상거래 탐지: DBSCAN 이상치
  • 유전체 분석: 계층적 군집

10. 출제 포인트

  • 계층적 vs K-means 차이
  • 연결 기준 5종 이름과 거리
  • 엘보 기법으로 K 결정
  • DBSCAN의 Core/Border/Noise
  • 군집 평가 — Silhouette 의미

요약 체크리스트

  • 거리 측정법 3가지 이상
  • K-means 4단계 설명
  • DBSCAN 3가지 점 유형
  • 엘보 방법으로 K를 선택
  • Silhouette 값의 범위와 해석