3과목 · 데이터 분석·5장
회귀분석
단순·다중 회귀, 최소제곱법, 회귀 가정, 결정계수와 조정 R², 다중공선성, 로지스틱 회귀까지 정리합니다.
1. 회귀분석이란
회귀분석(Regression) 은 독립변수(X)가 종속변수(Y)에 미치는 영향을 수식으로 표현하는 기법입니다.
- 예측: 새로운 X로 Y 추정
- 설명: 어떤 X가 Y에 얼마나 영향 주나
- 관계의 방향·크기 파악
2. 단순 선형 회귀
2-1. 모형
$$Y = \beta_0 + \beta_1 X + \varepsilon$$
- $\beta_0$: 절편
- $\beta_1$: 기울기(X가 1 증가할 때 Y 변화)
- $\varepsilon$: 오차항
2-2. 최소제곱법(OLS)
잔차 제곱합 $\sum (y_i - \hat{y}_i)^2$ 을 최소화하는 $\beta$를 추정.
3. 다중 회귀
여러 독립변수 사용: $$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon$$
4. 회귀의 기본 가정 (GGQZ)
| 가정 | 설명 | 위반 시 대응 |
|---|---|---|
| 선형성(Linearity) | X와 Y 관계가 선형 | 변환·다항회귀 |
| 독립성(Independence) | 오차 간 독립 | 시계열 고려·자기상관 |
| 등분산성(Homoscedasticity) | 오차 분산 일정 | 가중회귀·변환 |
| 정규성(Normality) | 오차 정규분포 | 큰 표본엔 큰 문제 아님 |
추가로 다중공선성 없음도 다중회귀에서 중요.
5. 모형 평가 지표
5-1. 결정계수(R²)
$$R^2 = \dfrac{SSR}{SST} = 1 - \dfrac{SSE}{SST}$$
- 0~1, 1에 가까울수록 설명력 높음
- SSR: 회귀로 설명되는 제곱합
- SSE: 잔차 제곱합
- SST: 전체 제곱합
5-2. 조정 R² (Adjusted R²)
- 변수 개수 증가로 R² 무조건 오르는 것 보정
- 다중 회귀에서 모델 비교에 더 적합
5-3. 기타
- RMSE: 예측 오차 평균
- MAE: 절대 오차 평균
- AIC·BIC: 모델 복잡도 고려
6. 다중공선성(Multicollinearity)
독립변수들 사이에 강한 상관이 있으면 계수 추정 불안정.
진단
- 상관계수 > 0.8
- VIF(Variance Inflation Factor) > 10
대응
- 변수 제거
- 차원 축소(PCA)
- Ridge·Lasso 정규화
7. 변수 선택
7-1. 전진선택(Forward)
- 가장 기여 큰 변수부터 추가
7-2. 후진제거(Backward)
- 기여 작은 변수부터 제거
7-3. 단계별(Stepwise)
- 전진·후진 결합
7-4. 정규화 기법
- Ridge: L2 페널티, 계수 축소
- Lasso: L1 페널티, 변수 선택 효과
- Elastic Net: L1 + L2
8. 로지스틱 회귀
이진 분류 문제에 사용.
$$\log\dfrac{p}{1-p} = \beta_0 + \beta_1 X_1 + \cdots$$
- 좌변을 로짓(logit)
- $p$: 사건 발생 확률
- Odds Ratio: 오즈의 비율, 해석 쉬움
활용
- 이탈 예측(유/무)
- 질병 진단(양/음)
- 부정거래 탐지
9. 회귀 진단
- 잔차 산점도: 등분산·선형성 체크
- Q-Q plot: 정규성 확인
- Cook's distance: 영향점 검출
- Leverage: 독립변수 공간에서 이상점
10. R 예시
# 단순 회귀
model <- lm(Sales ~ AdSpend, data = df)
summary(model)
# 다중 회귀
model2 <- lm(Sales ~ AdSpend + Price + Season, data = df)
# 예측
pred <- predict(model2, newdata = new_df)
# 로지스틱 회귀
logit <- glm(Churn ~ ., data = df, family = "binomial")
11. 출제 포인트
- 회귀의 4가지 가정
- 결정계수 vs 조정 R² 차이
- 다중공선성 진단과 대응
- Ridge/Lasso 차이
- 로지스틱 회귀의 로짓·오즈
요약 체크리스트
- 단순·다중 회귀 수식을 쓸 수 있다
- R²의 의미와 한계를 설명
- VIF의 임계값을 안다
- 로지스틱 회귀의 출력이 확률임을 이해