예제
어느 국가에서 갑자기 발생한 전염병의 감염율을 조사하기 위하셔 표본을 뽑고자 한다. 표본 추출은 단순 임의 추출로 한다고 할때 표본으로부터 얻어진 감염율이 참값과의 차이가 95% 의 확률 내에서 d=0.01 이내가 되기 위해서는 대략 몇개의 표본을 뽑아야 할 것인가?
풀이
어떤 특정 모집단에서 얻어진 $n$ 개의 자료를 $X_1, \cdots, X_n$ 이라고 할때 이 자료로부터 얻어지는 표본 평균 $\bar{X}_n$은 근사적으로 정규분포를 따릅니다. 이것이 그 유명한 중심극한 정리(central limit theorem)입니다. 본 예제에서는 $X_i$ 는 감염률이 $p$ 인 베르누이 분포에서 $n$ 개를 관측한 것으로 볼수 있으므로 평균이 $E(\bar{X}_n)=p$ 이고 분산이 $V(\bar{X}_n)=p(1-p)/n$ 인 정규분포를 따르게 될 것입니다.
따라서 을 이용하여서 $n$ 값을 구하면 으로써 즉 이 되는데 우항의 최대값이 $p=1/2$에서 위치하므로 대략적으로 $n > d^{-2}$으로 계산되어 $d=0.01$인 경우에는 $n=10,000$ 명의 표본이 필요하게 되는 것입니다.
토론
-
어떤 특정 모집단에서 얻어진 $n$ 개의 자료를 $X_1, \cdots, X_n$ 이라고 할때 이 자료로부터 얻어지는 특정 통계량 $Y=u(X_1, \cdots, X_n)$과 관련된 통계적 성질에 더 관심이 많을 경우가 있습니다. 이때 얻어지는 통계량 $Y$의 확률 분포를 표본 분포(sampling distribution)이라고 부릅니다. 즉, 통계량 $Y$의 표본 분포는 자료 $(X_1, \cdots, X_n)$의 확률분포로 부터 유도되는 것입니다.
-
중심 극한 정리는 자료의 확률 분포에 대한 법칙이 아니라 통계량의 표본 분포에 대한 법칙입니다. 표본 수가 증가한다고 모집단의 확률 분포는 변하지 않습니다. 적절한 조건 하에서 자료에서 얻어지는 통계량의 표본 분포가 정규 분포로 근사될수 있다는 것이 표본 분포(sampling distribution)의 정규 근사(normal approximation)의 핵심 내용입니다.
-
자료의 확률 분포를 아는 경우 통계량의 표본 분포를 찾는 방법은 몬테 카를로 시뮬레이션을 통해서 이해할수 있습니다. 주어진 확률 분포로부터 자료를 발생시킨후 통계량을 발생시키는 것을 반복하면 통계량에 대한 히스토그램을 그릴수 있는데 이 히스토그램이 그 통계량의 표본 분포에 대한 근사(approximation)가 되는 것입니다. 문제는 자료의 확률 분포를 정확히 모른다는 것이지요. 위의 예에서 베르누이 분포의 모수값 p 를 모르기에 몬테 카를로 시뮬레이션으로 자료를 발생시키지 못합니다. 하지만 표본 평균으로 p 를 추정하여 자료의 확률 분포가 Bernoulli $(\hat{p})$ 인 것으로 간주하여 시뮬레이션을 하는 것을 생각할 수 있는데 이것이 바로 parametric bootstrap 의 개념입니다. 즉, 중심극한 정리를 이용하지 않고 통계량의 표본 분포를 계산하는 방법으로 parametric bootstrap 을 이용할 수 있습니다.
-
위의 예에서 d 는 보통 신뢰구간의 길이로써 오차 한계(margin of errors) 라고도 부릅니다. 여론 조사에서 오차 한계가 3% 이다 라고 이야기 하는 것은 대부분 표본수가 $(0.03)^{-2} \doteq 1,000$ 이라는 이야기를 좀더 포장하여 표현하는 것입니다. 실제로는 여론 조사 자체에서 발생하는 여러가지 편향 때문에 실제 오차는 종종 이보다 더 크게 나타납니다.
. .