← 일백제ADsP 개념서
← 개념서모바일 버전
3과목 · 데이터 분석·1

통계 기초

기술통계·추론통계 개념, 중심·산포 지표, 표본과 모집단, 분포와 기댓값·분산의 의미를 정리합니다.

1. 통계학의 분류

1-1. 기술통계(Descriptive Statistics)

  • 수집된 데이터를 요약·서술
  • 평균, 중앙값, 표준편차, 그래프, 빈도표

1-2. 추론통계(Inferential Statistics)

  • 표본에서 모집단의 특성을 추정
  • 가설 검정, 신뢰구간, 회귀 분석

2. 모집단과 표본

구분 정의 모수 vs 통계량
모집단(Population) 조사 대상 전체 모평균 μ, 모분산 σ²
표본(Sample) 모집단에서 뽑은 부분 표본평균 x̄, 표본분산 s²

표본이 모집단을 대표해야 추론이 신뢰 가능.

3. 데이터의 척도(Scale)

척도 의미
명목(Nominal) 구분만 성별, 혈액형
서열(Ordinal) 순서 있음, 간격 의미 없음 학년, 선호도
등간(Interval) 간격 의미 있음, 절대 0 없음 온도(℃)
비율(Ratio) 절대 0 있음 키, 몸무게, 매출

4. 중심경향 지표

4-1. 평균(Mean)

  • 산술평균: $\bar{x} = \frac{1}{n}\sum x_i$
  • 가중평균, 기하평균(비율 데이터), 조화평균(속도 데이터)

4-2. 중앙값(Median)

  • 정렬 후 가운데 값
  • 이상치에 강건(robust)

4-3. 최빈값(Mode)

  • 가장 자주 나오는 값
  • 범주형 데이터 대표값
데이터 성격 추천 중심값
대칭·이상치 적음 평균
이상치 많음 중앙값
범주형 최빈값

5. 산포(Spread) 지표

지표 정의 특징
범위(Range) 최대 − 최소 이상치 민감
사분위 범위(IQR) Q3 − Q1 이상치 강건
분산(Variance) 편차² 평균 제곱 단위
표준편차(Std) √분산 원래 단위
변동계수(CV) 표준편차/평균 단위 차 데이터 비교

6. 분포의 형태

6-1. 왜도(Skewness)

  • 우측 왜도(양): 오른쪽 꼬리 긴 분포, 평균 > 중앙값
  • 좌측 왜도(음): 왼쪽 꼬리 긴 분포, 평균 < 중앙값

6-2. 첨도(Kurtosis)

  • 분포의 뾰족함·꼬리 두께
  • 정규분포 기준 3(또는 0, 초과 정의)

7. 주요 확률분포

분포 특징
정규분포 좌우대칭, 평균·표준편차로 결정 키, 성적
표준정규 평균 0, 표준편차 1 Z 통계량
t 분포 정규보다 꼬리 두꺼움, 소표본 평균 추론
카이제곱 분산·독립성 검정 범주형
F 분포 분산비 검정 ANOVA
이항분포 시행 n, 성공확률 p 동전 던지기
포아송분포 일정 구간 사건 수 콜센터 콜 수

8. 중심극한정리(CLT)

표본의 평균은 모집단 분포와 무관하게 정규분포에 근사한다.

  • 표본 크기가 클수록(보통 n ≥ 30)
  • 통계적 추론의 근간

9. 기댓값과 분산의 성질

  • $E[aX + b] = aE[X] + b$
  • $Var(aX + b) = a^2 Var(X)$
  • 독립일 때 $Var(X + Y) = Var(X) + Var(Y)$

10. 출제 포인트

  • 척도 4종(명목/서열/등간/비율) 구분
  • 중심경향 vs 산포 지표
  • 왜도·첨도의 의미
  • 정규·t·카이제곱·F 분포 용도
  • 중심극한정리 요약

요약 체크리스트

  • 기술통계와 추론통계의 차이 설명
  • 척도 4종의 예시 매칭
  • 이상치에 강건한 중심값·산포값을 구분
  • 정규분포의 68-95-99.7 규칙을 안다