3과목 · 데이터 분석·3장

가설 검정

귀무가설·대립가설, 1·2종 오류, 유의수준과 p-value, 양측·단측 검정과 대표 검정 기법(t·카이제곱·ANOVA)을 정리합니다.

1. 가설 검정의 개요

가설 검정(Hypothesis Testing) 은 표본 데이터를 바탕으로 모집단의 가설을 검증하는 통계적 절차입니다.

기본 흐름

가설 설정(귀무·대립)
유의수준 α 결정 (보통 0.05)
검정통계량 계산
p-value 또는 임계값 비교
결론 — 귀무가설 기각 or 채택

2. 가설의 종류

구분	의미	예
귀무가설 H₀	차이 없음, 효과 없음 (기본 가정)	새 약과 기존 약 효과 같다
대립가설 H₁	주장하려는 내용	새 약이 더 효과적이다

검정은 "귀무가설을 기각할 수 있는가"를 따지는 것.

3. 1종 오류 vs 2종 오류

실제 \ 판정	H₀ 채택	H₀ 기각
H₀ 참	올바름	1종 오류(α)
H₀ 거짓	2종 오류(β)	올바름(1-β, 검정력)

1종 오류: "효과 없는데 있다고 판정" — 위험성 크게 다룸
2종 오류: "효과 있는데 없다고 판정"
검정력(Power): $1 - \beta$

4. 유의수준과 p-value

유의수준 α

1종 오류 허용 수준
보통 0.05, 0.01

p-value

귀무가설이 참일 때 관측된 검정통계량보다 극단적인 값이 나올 확률
p < α이면 귀무가설 기각

p-value	의미
≤ 0.01	매우 강한 증거
≤ 0.05	유의함
≤ 0.10	경계 수준
> 0.10	유의하지 않음

5. 양측검정 vs 단측검정

구분	H₁	예
양측	$\mu \neq \mu_0$	차이가 있다
우측 단측	$\mu > \mu_0$	더 크다
좌측 단측	$\mu < \mu_0$	더 작다

단측이 검정력은 높지만, 방향이 명확할 때만 사용.

6. 대표 검정 기법

6-1. t 검정(t-test)

모집단 분산 모를 때 평균 검정
독립표본 t: 두 집단 평균 비교
쌍체 t: 같은 대상 사전·사후 비교

6-2. Z 검정

모분산을 알거나 표본이 매우 큰 경우

6-3. 카이제곱 검정(χ²)

범주형 데이터의 독립성·적합도
예: 성별 × 구매 여부의 관련성

6-4. 분산분석(ANOVA)

3집단 이상 평균 비교
일원분산분석, 이원분산분석

6-5. F 검정

두 집단 분산 동일성 검정
ANOVA의 기본 도구

7. 검정 절차 예시 — 두 집단 평균 비교

H₀: 평균차 = 0
H₁: 평균차 ≠ 0

유의수준 α = 0.05
검정통계량 t = (x̄₁ - x̄₂) / SE
자유도 df 계산
p-value 산출

p < 0.05 → H₀ 기각 → "평균에 유의한 차이 있다"
p ≥ 0.05 → H₀ 채택 → "유의한 차이 없다"

8. 효과 크기와 신뢰구간

p-value만으로 부족할 수 있음.

효과 크기(Effect Size): 차이의 크기 (예: Cohen's d)
신뢰구간(CI): 추정치의 구간 표현, 95% CI가 관용

"통계적으로 유의" ≠ "실무적으로 의미 있음"

9. 다중 검정 문제

여러 검정을 반복하면 1종 오류 누적.

보정 방법

Bonferroni: $\alpha / n$
Holm-Bonferroni, FDR(BH)

10. 출제 포인트

1종·2종 오류 구분
p-value 해석
t 검정·카이제곱·ANOVA 용도 매칭
양측·단측 선택 기준
효과 크기 vs 통계적 유의성

요약 체크리스트

귀무·대립가설을 구분
1·2종 오류를 예시로 설명
t 검정과 ANOVA 차이를 말함
p-value와 유의수준 관계 설명