1. 통계학의 분류
1-1. 기술통계(Descriptive Statistics)
- 수집된 데이터를 요약·서술
- 평균, 중앙값, 표준편차, 그래프, 빈도표
1-2. 추론통계(Inferential Statistics)
- 표본에서 모집단의 특성을 추정
- 가설 검정, 신뢰구간, 회귀 분석
2. 모집단과 표본
| 구분 |
정의 |
모수 vs 통계량 |
| 모집단(Population) |
조사 대상 전체 |
모평균 μ, 모분산 σ² |
| 표본(Sample) |
모집단에서 뽑은 부분 |
표본평균 x̄, 표본분산 s² |
표본이 모집단을 대표해야 추론이 신뢰 가능.
3. 데이터의 척도(Scale)
| 척도 |
의미 |
예 |
| 명목(Nominal) |
구분만 |
성별, 혈액형 |
| 서열(Ordinal) |
순서 있음, 간격 의미 없음 |
학년, 선호도 |
| 등간(Interval) |
간격 의미 있음, 절대 0 없음 |
온도(℃) |
| 비율(Ratio) |
절대 0 있음 |
키, 몸무게, 매출 |
4. 중심경향 지표
4-1. 평균(Mean)
- 산술평균: $\bar{x} = \frac{1}{n}\sum x_i$
- 가중평균, 기하평균(비율 데이터), 조화평균(속도 데이터)
4-2. 중앙값(Median)
- 정렬 후 가운데 값
- 이상치에 강건(robust)
4-3. 최빈값(Mode)
| 데이터 성격 |
추천 중심값 |
| 대칭·이상치 적음 |
평균 |
| 이상치 많음 |
중앙값 |
| 범주형 |
최빈값 |
5. 산포(Spread) 지표
| 지표 |
정의 |
특징 |
| 범위(Range) |
최대 − 최소 |
이상치 민감 |
| 사분위 범위(IQR) |
Q3 − Q1 |
이상치 강건 |
| 분산(Variance) |
편차² 평균 |
제곱 단위 |
| 표준편차(Std) |
√분산 |
원래 단위 |
| 변동계수(CV) |
표준편차/평균 |
단위 차 데이터 비교 |
6. 분포의 형태
6-1. 왜도(Skewness)
- 우측 왜도(양): 오른쪽 꼬리 긴 분포, 평균 > 중앙값
- 좌측 왜도(음): 왼쪽 꼬리 긴 분포, 평균 < 중앙값
6-2. 첨도(Kurtosis)
- 분포의 뾰족함·꼬리 두께
- 정규분포 기준 3(또는 0, 초과 정의)
7. 주요 확률분포
| 분포 |
특징 |
예 |
| 정규분포 |
좌우대칭, 평균·표준편차로 결정 |
키, 성적 |
| 표준정규 |
평균 0, 표준편차 1 |
Z 통계량 |
| t 분포 |
정규보다 꼬리 두꺼움, 소표본 |
평균 추론 |
| 카이제곱 |
분산·독립성 검정 |
범주형 |
| F 분포 |
분산비 검정 |
ANOVA |
| 이항분포 |
시행 n, 성공확률 p |
동전 던지기 |
| 포아송분포 |
일정 구간 사건 수 |
콜센터 콜 수 |
8. 중심극한정리(CLT)
표본의 평균은 모집단 분포와 무관하게 정규분포에 근사한다.
- 표본 크기가 클수록(보통 n ≥ 30)
- 통계적 추론의 근간
9. 기댓값과 분산의 성질
- $E[aX + b] = aE[X] + b$
- $Var(aX + b) = a^2 Var(X)$
- 독립일 때 $Var(X + Y) = Var(X) + Var(Y)$
10. 출제 포인트
- 척도 4종(명목/서열/등간/비율) 구분
- 중심경향 vs 산포 지표
- 왜도·첨도의 의미
- 정규·t·카이제곱·F 분포 용도
- 중심극한정리 요약
요약 체크리스트