← 일백제ADsP 개념서
← 개념서모바일 버전
3과목 · 데이터 분석·13

연관 분석

연관 규칙의 개념과 지지도·신뢰도·향상도, Apriori와 FP-Growth 알고리즘, 장바구니 분석 적용 예를 정리합니다.

1. 연관 분석이란

연관 분석(Association Rule Learning) 은 항목들 사이의 함께 발생하는 패턴을 찾는 기법.

  • 대표 적용: 장바구니 분석(Market Basket Analysis)
  • 예: "기저귀 사는 사람은 맥주도 산다"

2. 용어

2-1. 규칙 표현

{A, B} → {C}
  • 전건(LHS): {A, B}
  • 후건(RHS): {C}
  • 의미: A와 B를 사면 C도 산다

2-2. 거래 데이터 예

거래ID 상품
T1 빵, 우유
T2 빵, 우유, 버터
T3 빵, 버터
T4 우유, 버터

3. 3대 평가 지표

3-1. 지지도(Support)

규칙이 전체에서 차지하는 비율. $$Support(A \to B) = P(A \cap B) = \dfrac{|T: A \cup B \subseteq T|}{N}$$

3-2. 신뢰도(Confidence)

A를 샀을 때 B도 살 확률. $$Confidence(A \to B) = P(B|A) = \dfrac{Support(A \cap B)}{Support(A)}$$

3-3. 향상도(Lift)

우연(독립)과 비교. $$Lift(A \to B) = \dfrac{Confidence(A \to B)}{Support(B)} = \dfrac{P(A \cap B)}{P(A) \cdot P(B)}$$

Lift 값 해석
> 1 양의 연관
= 1 독립
< 1 음의 연관

예제

  • $P(빵) = 0.75$, $P(우유) = 0.5$, $P(빵 \cap 우유) = 0.5$
  • $Support(빵 \to 우유) = 0.5$
  • $Confidence = 0.5/0.75 = 0.67$
  • $Lift = 0.67/0.5 = 1.33$ → 양의 연관

4. Apriori 알고리즘

4-1. 원리

  • Apriori 성질: 빈발 항목집합의 부분집합도 빈발
  • 최소 지지도 이하인 것은 조기 제거 → 탐색 공간 축소

4-2. 단계

  1. 1-itemset 중 빈발 항목 추출
  2. 조합으로 2-itemset 생성
  3. 최소 지지도 이상만 남김
  4. 3-, 4- itemset으로 확장 반복
  5. 빈발 집합에서 규칙 도출

4-3. 단점

  • 데이터셋을 여러 번 스캔
  • 조합 폭발 → 대용량에 느림

5. FP-Growth

FP-Tree 자료구조로 Apriori 단점 극복.

  • 전체 데이터 2번만 스캔
  • 트리에 빈발 정보 압축
  • Apriori보다 빠름

6. 연관 분석 활용 예

분야
유통 추천 상품, 매대 배치
클릭 패턴, 페이지 추천
의료 증상-질병 연관
통신 부가 서비스 교차 판매

7. 고려 사항

  • 희귀 규칙 문제: 지지도 낮지만 중요한 규칙(예: 사기 패턴) → 별도 임계값
  • 허위 규칙: Lift가 높지만 실제 인과 없음
  • 시간 요소 무시 — 순차 규칙 분석이 필요할 수도
  • 거래 데이터 포맷: 희소 행렬로 저장

8. 순차 패턴 분석

  • 구매 순서까지 반영
  • 예: "A 구매 → 한 달 뒤 B 구매"
  • 알고리즘: GSP, PrefixSpan

9. 파이썬 예

from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd

# 거래 데이터: 희소 one-hot
freq = apriori(df, min_support=0.05, use_colnames=True)
rules = association_rules(freq, metric='lift', min_threshold=1.1)
print(rules[['antecedents','consequents','support','confidence','lift']].head())

10. 출제 포인트

  • 지지도·신뢰도·향상도 공식·의미
  • Lift 해석(>1, =1, <1)
  • Apriori 성질과 단점
  • FP-Growth 장점
  • 장바구니 분석 적용 예

요약 체크리스트

  • 3지표 공식을 쓸 수 있다
  • Lift 값에 따른 해석을 말할 수 있다
  • Apriori와 FP-Growth 차이
  • 연관 분석 활용 예 3가지