3과목 · 데이터 분석·4장
표본조사
모집단·표본, 표집 방법(확률·비확률), 표본 크기 결정, 편향과 오차, 추정량의 특성을 정리합니다.
1. 표본조사란
전체(모집단) 대신 일부(표본) 를 조사해 모집단 특성을 추정하는 방법.
장점
- 시간·비용 절약
- 전수조사 불가능한 경우 대안
- 빠른 의사결정 가능
단점
- 표본오차 발생
- 표본 대표성 확보 필요
2. 확률 표집(Probability Sampling)
각 요소가 표본에 포함될 확률을 정확히 알 수 있는 방법.
2-1. 단순 무작위 표집(Simple Random)
- 모든 요소가 동일한 확률
- 예: 난수표, 컴퓨터 난수
2-2. 계통 표집(Systematic)
- 첫 요소 무작위 선택 후 일정 간격으로 추출
- 예: 10명마다 1명
2-3. 층화 표집(Stratified)
- 모집단을 층(예: 성별·지역)으로 나눈 후 각 층에서 추출
- 집단 내 동질성·집단 간 이질성 확보
2-4. 군집 표집(Cluster)
- 모집단을 군집(자연 집단, 예: 학교)으로 나눠 일부 군집 전체 조사
- 조사 비용 절감, 정확도 낮음
2-5. 다단계 표집(Multi-stage)
- 군집 표집 + 단순 무작위 등을 결합
3. 비확률 표집(Non-probability Sampling)
3-1. 편의 표집(Convenience)
- 접근 쉬운 대상 — 길거리 설문
- 편향 크다
3-2. 판단 표집(Judgmental)
- 조사자의 판단으로 선정
- 전문가 인터뷰
3-3. 할당 표집(Quota)
- 성별·연령 비율을 정해 목표 수만큼 수집
3-4. 눈덩이 표집(Snowball)
- 초기 응답자의 소개로 확장
- 희귀 대상(예: 불법 체류자)에 적합
4. 표본 크기 결정
영향 요소:
- 원하는 정밀도(신뢰수준, margin of error)
- 모집단 분산
- 조사 예산·시간
대략 공식: $$n = \left(\dfrac{z \cdot \sigma}{E}\right)^2$$
- z: 신뢰수준(95% → 1.96)
- σ: 추정 표준편차
- E: 허용 오차
5. 편향(Bias)과 오차(Error)
5-1. 표본 오차(Sampling Error)
- 표본 무작위성에서 오는 오차
- 표본 크기 ↑ → 오차 ↓
5-2. 비표본 오차(Non-sampling Error)
- 측정 오차, 응답 편향, 미응답 편향, 처리 오차
- 표본 크기와 무관
5-3. 편향 유형
| 유형 | 설명 |
|---|---|
| 선택 편향 | 표본이 모집단을 대표 못 함 |
| 자발적 응답 편향 | 특정 의견 응답자만 과대 대표 |
| 응답 거부 편향 | 특정 그룹이 답하지 않음 |
| 측정 편향 | 측정 도구·설문 설계 문제 |
6. 좋은 추정량의 성질
| 성질 | 의미 |
|---|---|
| 불편성(Unbiasedness) | 기댓값 = 모수 |
| 효율성(Efficiency) | 분산이 작음 |
| 일치성(Consistency) | 표본 ↑ → 모수 수렴 |
| 충분성(Sufficiency) | 표본이 모수 정보 충분히 담음 |
7. 신뢰구간
모수 추정의 불확실성을 구간으로 표현.
$$\text{신뢰구간} = \hat{\theta} \pm z_{\alpha/2} \cdot SE$$
- 95% CI: "이 절차를 반복하면 95%가 모수 포함"
- 표본 크기 ↑, 신뢰수준 ↓ → 구간 좁아짐
8. 설문 설계 원칙
- 중립성: 유도 질문 금지
- 단일성: 한 문항에 한 개념
- 명료성: 이해하기 쉬운 언어
- 일관성: 척도 동일
- 순서: 일반적 → 구체적
9. 출제 포인트
- 확률·비확률 표집 방법 구분과 예시
- 층화 vs 군집 차이
- 표본 오차 vs 비표본 오차
- 신뢰구간의 해석
- 추정량 4성질
요약 체크리스트
- 확률 표집 5종을 구분
- 비확률 표집 4종을 설명
- 층화와 군집 표집의 차이
- 좋은 추정량의 4성질 나열