← 일백제ADsP 개념서
3과목 · 데이터 분석·5

회귀분석

단순·다중 회귀, 최소제곱법, 회귀 가정, 결정계수와 조정 R², 다중공선성, 로지스틱 회귀까지 정리합니다.

1. 회귀분석이란

회귀분석(Regression) 은 독립변수(X)가 종속변수(Y)에 미치는 영향을 수식으로 표현하는 기법입니다.

  • 예측: 새로운 X로 Y 추정
  • 설명: 어떤 X가 Y에 얼마나 영향 주나
  • 관계의 방향·크기 파악

2. 단순 선형 회귀

2-1. 모형

$$Y = \beta_0 + \beta_1 X + \varepsilon$$

  • $\beta_0$: 절편
  • $\beta_1$: 기울기(X가 1 증가할 때 Y 변화)
  • $\varepsilon$: 오차항

2-2. 최소제곱법(OLS)

잔차 제곱합 $\sum (y_i - \hat{y}_i)^2$ 을 최소화하는 $\beta$를 추정.

3. 다중 회귀

여러 독립변수 사용: $$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon$$

4. 회귀의 기본 가정 (GGQZ)

가정 설명 위반 시 대응
선형성(Linearity) X와 Y 관계가 선형 변환·다항회귀
독립성(Independence) 오차 간 독립 시계열 고려·자기상관
등분산성(Homoscedasticity) 오차 분산 일정 가중회귀·변환
정규성(Normality) 오차 정규분포 큰 표본엔 큰 문제 아님

추가로 다중공선성 없음도 다중회귀에서 중요.

5. 모형 평가 지표

5-1. 결정계수(R²)

$$R^2 = \dfrac{SSR}{SST} = 1 - \dfrac{SSE}{SST}$$

  • 0~1, 1에 가까울수록 설명력 높음
  • SSR: 회귀로 설명되는 제곱합
  • SSE: 잔차 제곱합
  • SST: 전체 제곱합

5-2. 조정 R² (Adjusted R²)

  • 변수 개수 증가로 R² 무조건 오르는 것 보정
  • 다중 회귀에서 모델 비교에 더 적합

5-3. 기타

  • RMSE: 예측 오차 평균
  • MAE: 절대 오차 평균
  • AIC·BIC: 모델 복잡도 고려

6. 다중공선성(Multicollinearity)

독립변수들 사이에 강한 상관이 있으면 계수 추정 불안정.

진단

  • 상관계수 > 0.8
  • VIF(Variance Inflation Factor) > 10

대응

  • 변수 제거
  • 차원 축소(PCA)
  • Ridge·Lasso 정규화

7. 변수 선택

7-1. 전진선택(Forward)

  • 가장 기여 큰 변수부터 추가

7-2. 후진제거(Backward)

  • 기여 작은 변수부터 제거

7-3. 단계별(Stepwise)

  • 전진·후진 결합

7-4. 정규화 기법

  • Ridge: L2 페널티, 계수 축소
  • Lasso: L1 페널티, 변수 선택 효과
  • Elastic Net: L1 + L2

8. 로지스틱 회귀

이진 분류 문제에 사용.

$$\log\dfrac{p}{1-p} = \beta_0 + \beta_1 X_1 + \cdots$$

  • 좌변을 로짓(logit)
  • $p$: 사건 발생 확률
  • Odds Ratio: 오즈의 비율, 해석 쉬움

활용

  • 이탈 예측(유/무)
  • 질병 진단(양/음)
  • 부정거래 탐지

9. 회귀 진단

  • 잔차 산점도: 등분산·선형성 체크
  • Q-Q plot: 정규성 확인
  • Cook's distance: 영향점 검출
  • Leverage: 독립변수 공간에서 이상점

10. R 예시

# 단순 회귀
model <- lm(Sales ~ AdSpend, data = df)
summary(model)

# 다중 회귀
model2 <- lm(Sales ~ AdSpend + Price + Season, data = df)

# 예측
pred <- predict(model2, newdata = new_df)

# 로지스틱 회귀
logit <- glm(Churn ~ ., data = df, family = "binomial")

11. 출제 포인트

  • 회귀의 4가지 가정
  • 결정계수 vs 조정 R² 차이
  • 다중공선성 진단과 대응
  • Ridge/Lasso 차이
  • 로지스틱 회귀의 로짓·오즈

요약 체크리스트

  • 단순·다중 회귀 수식을 쓸 수 있다
  • R²의 의미와 한계를 설명
  • VIF의 임계값을 안다
  • 로지스틱 회귀의 출력이 확률임을 이해