3과목 · 데이터 분석·13장
연관 분석
연관 규칙의 개념과 지지도·신뢰도·향상도, Apriori와 FP-Growth 알고리즘, 장바구니 분석 적용 예를 정리합니다.
1. 연관 분석이란
연관 분석(Association Rule Learning) 은 항목들 사이의 함께 발생하는 패턴을 찾는 기법.
- 대표 적용: 장바구니 분석(Market Basket Analysis)
- 예: "기저귀 사는 사람은 맥주도 산다"
2. 용어
2-1. 규칙 표현
{A, B} → {C}
- 전건(LHS): {A, B}
- 후건(RHS): {C}
- 의미: A와 B를 사면 C도 산다
2-2. 거래 데이터 예
| 거래ID | 상품 |
|---|---|
| T1 | 빵, 우유 |
| T2 | 빵, 우유, 버터 |
| T3 | 빵, 버터 |
| T4 | 우유, 버터 |
3. 3대 평가 지표
3-1. 지지도(Support)
규칙이 전체에서 차지하는 비율. $$Support(A \to B) = P(A \cap B) = \dfrac{|T: A \cup B \subseteq T|}{N}$$
3-2. 신뢰도(Confidence)
A를 샀을 때 B도 살 확률. $$Confidence(A \to B) = P(B|A) = \dfrac{Support(A \cap B)}{Support(A)}$$
3-3. 향상도(Lift)
우연(독립)과 비교. $$Lift(A \to B) = \dfrac{Confidence(A \to B)}{Support(B)} = \dfrac{P(A \cap B)}{P(A) \cdot P(B)}$$
| Lift 값 | 해석 |
|---|---|
| > 1 | 양의 연관 |
| = 1 | 독립 |
| < 1 | 음의 연관 |
예제
- $P(빵) = 0.75$, $P(우유) = 0.5$, $P(빵 \cap 우유) = 0.5$
- $Support(빵 \to 우유) = 0.5$
- $Confidence = 0.5/0.75 = 0.67$
- $Lift = 0.67/0.5 = 1.33$ → 양의 연관
4. Apriori 알고리즘
4-1. 원리
- Apriori 성질: 빈발 항목집합의 부분집합도 빈발
- 최소 지지도 이하인 것은 조기 제거 → 탐색 공간 축소
4-2. 단계
- 1-itemset 중 빈발 항목 추출
- 조합으로 2-itemset 생성
- 최소 지지도 이상만 남김
- 3-, 4- itemset으로 확장 반복
- 빈발 집합에서 규칙 도출
4-3. 단점
- 데이터셋을 여러 번 스캔
- 조합 폭발 → 대용량에 느림
5. FP-Growth
FP-Tree 자료구조로 Apriori 단점 극복.
- 전체 데이터 2번만 스캔
- 트리에 빈발 정보 압축
- Apriori보다 빠름
6. 연관 분석 활용 예
| 분야 | 예 |
|---|---|
| 유통 | 추천 상품, 매대 배치 |
| 웹 | 클릭 패턴, 페이지 추천 |
| 의료 | 증상-질병 연관 |
| 통신 | 부가 서비스 교차 판매 |
7. 고려 사항
- 희귀 규칙 문제: 지지도 낮지만 중요한 규칙(예: 사기 패턴) → 별도 임계값
- 허위 규칙: Lift가 높지만 실제 인과 없음
- 시간 요소 무시 — 순차 규칙 분석이 필요할 수도
- 거래 데이터 포맷: 희소 행렬로 저장
8. 순차 패턴 분석
- 구매 순서까지 반영
- 예: "A 구매 → 한 달 뒤 B 구매"
- 알고리즘: GSP, PrefixSpan
9. 파이썬 예
from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd
# 거래 데이터: 희소 one-hot
freq = apriori(df, min_support=0.05, use_colnames=True)
rules = association_rules(freq, metric='lift', min_threshold=1.1)
print(rules[['antecedents','consequents','support','confidence','lift']].head())
10. 출제 포인트
- 지지도·신뢰도·향상도 공식·의미
- Lift 해석(>1, =1, <1)
- Apriori 성질과 단점
- FP-Growth 장점
- 장바구니 분석 적용 예
요약 체크리스트
- 3지표 공식을 쓸 수 있다
- Lift 값에 따른 해석을 말할 수 있다
- Apriori와 FP-Growth 차이
- 연관 분석 활용 예 3가지