예제
어느 마을에 4개의 농장이 있고 그 농장에서 생산하는 곡물의 올해 생산량을 알고 싶다고 합시다. 편의상 다음과 같은 값을 가진다고 합시다.
ID | 농지 면적 | 생산량 (톤) |
---|---|---|
1 | 4 | 1 |
2 | 6 | 3 |
3 | 6 | 5 |
4 | 20 | 15 |
위의 테이블에서 볼수 있듯이 농지 전체 면적은 36 이고 생산량은 24톤 될 것입니다. (농지 면적은 알고 있지만 생산량은 방문 조사하기 전까지는 알지 못한다고 합시다.) 그런데 예산상의 이유로 이 농장 4군데를 다 방문해서 생산량을 조사하지 못하고 2개의 농장 만을 조사해야 한다고 합시다. 이를 위해서 이 마을의 이장님은 농가 면적이 중간에 해당되는 농장 2와 농장 3을 방문해서 조사하려고 하였습니다. 그러나 그 마을에 사는 어느 통계학자는 그래서는 안되고 {1,2,3,4} 중에서 2개를 같은 확률로 램덤하게 뽑아서 그것에 해당되는 농장을 방문해야 한다고 주장했습니다. 왜 그래야 할까요?
풀이
위의 문제는 전형적인 샘플링 문제입니다. 통계학에서 검증된 샘플링 방법은 확률 표집법(probability sampling)입니다. 오늘은 이것을 공부해 보려고 합니다.
먼저 4개에서 2개를 뽑는 것은 다음과 같은 6가지 경우의 수가 있습니다.
Case | 표본 ID | 표본 평균 | 오차 |
---|---|---|---|
1 | 1,2 | 2 | -4 |
2 | 1,3 | 3 | -3 |
3 | 1,4 | 8 | 2 |
4 | 2,3 | 4 | -2 |
5 | 2,4 | 9 | 3 |
6 | 3,4 | 10 | 4 |
여기서 오차라는 것은 표본 평균이 모집단 평균(여기서는 24/4=6임)을 추정하고자 할때 발생하는 오차로써 표본 평균과 모평균의 차이를 나타냅니다. 위의 표에서 볼수 있듯이 어느 경우에도 오차는 발생하게 됩니다.
먼저 이장님이 생각한 표본 추출법은 위의 6가지 경우에서 한개를 주관적으로 결정하는 방법으로써 비확률 표집법(non-probability sampling)이라고 할수 있습니다.
반면 확률 추출법은 가능한 표본의 집합에 확률을 부여한후 그 확률에 따라 랜덤하게 뽑는 방법입니다. 위의 통계학자가 제안한 방법은 단순임의추출(simple random sampling)이라고 불리는 방법으로써 가장 단순한 형태의 확률추출법입니다. 이 방법은 모든 가능한 표본의 집합에 다음처럼 동일한 확률을 부여하는 것입니다.
Case | 표본 ID | 표본 평균 | 추출 확률 |
---|---|---|---|
1 | 1,2 | 2 | 1/6 |
2 | 1,3 | 3 | 1/6 |
3 | 1,4 | 8 | 1/6 |
4 | 2,3 | 4 | 1/6 |
5 | 2,4 | 9 | 1/6 |
6 | 3,4 | 10 | 1/6 |
이렇게 추출확률을 부여하고 나서 그에 따라 표본을 뽑는 방법이 확률표본입니다. 예를 들어, 위의 단순임의추출 방법에서는 주사위를 굴려 1이 나오면 농가 1과 농가 2를 표본으로 뽑고 주사위 눈이 2가 나오면 농가 {1,3}이 표본 농가가 되는 것입니다. 이러한 표본의 확률 분포로부터 통계량의 확률분포가 유도될수 있는데 이를 표본 분포(sampling distribution)라고 합니다. 즉, 표본 평균이라는 통계량 $\hat{\theta}$ 의 확률 구조가 위의 표본 추출법으로부터 결정됩니다.
위의 테이블에서 볼수 있듯이 표본평균은 {2,3,4,8,9,10} 에서 하나를 각각 1/6의 확률로 그 값을 갖는 이산형 확률변수가 됩니다. 따라서 으로 되어서 모평균과 동일해 짐을 확인할수 있습니다. 여기서 기대값의 의미는 위의 sampling 을 여러번 반복했을때 얻어지게 되는 통계량 값들의 평균의 극한값으로 이해할수 있습니다.
또한 분산도 다음과 계산할수 있습니다. 이렇게 확률 표본법은 가능한 표본에 추출확률을 부여하여 통계량의 표본 분포를 얻어냄으로써 기대값이나 분산과 같은 통계학적 계산을 가능하게 한다는 장점이 있습니다.
토론
-
위의 사례는 확률 표본의 가장 간단한 예입니다. 확률 표본은 위의 예처럼 각 경우에 확률이 부여되어야 하고 각 원소가 뽑힐 확률이 0 보다 커야 합니다. 확률 표본은 비편향 추정 (unbiased estimation)을 구현할 수 있다는 대표적 장점이 있습니다. 확률 표본은 비편향 추정의 충분 조건입니다.
-
모수 $\theta$의 추정량 $\hat{\theta}$ 의 오차(error)는 아래와 같이 나눌수 있습니다. \begin{eqnarray} \hat{\theta}-\theta &=& { \hat{\theta}-E( \hat{\theta} ) } + { E ( \hat{\theta} )- \theta } \ &=& \mbox{variation} + \mbox{bias } \end{eqnarray} 그러면 확률 표본의 경우 bias 가 0 이 되도록 추정량을 결정할수 있고 따라서 이 경우 variation 만 낮추어 주면 추정량의 정확성이 보장되는 것입니다. 한편 variation 을 낮추어 주는 가장 확실한 방법은 표본수를 증가시켜 주는 것입니다.
-
게다가 확률 표본의 추가적 장점은 대수의 법칙이나 중심 극한 정리와 같은 중요한 통계학적 성질이 잘 규명되어 있다는 것입니다. 즉, 통계학 분야에서는 확률 표본에 대해서 많은 연구가 진행되었기 때문에 신뢰구간 건설이나 가설검정과 같은 통계적 추론들이 확률표본으로부터는 가능해 집니다.
-
위의 단순 임의 추출은 확률 표본의 하나의 특수한 경우입니다. 아래와 같은 sampling design 도 또다른 형태의 확률 표본입니다.
표본 ID | 표본값 | 추정량 | 추출 확률 |
---|---|---|---|
1,4 | 1,15 | 4.5 | 1/3 |
2,4 | 3,15 | 6 | 1/3 |
3,4 | 5,15 | 7.5 | 1/3 |
이 경우에는 평균의 추정량이 {4,5, 6, 7.5}의 값을 각각 1/3 의 확률로 갖는 확률변수가 됩니다. 이러한 경우 그 기대값은 6 으로 모집단 평균과 동일해지며 (unbiased 추정) 분산은 $(1/3)*{ (1.5)^2 + 0^2 + (1.5)^2 } = 1.5$ 가 되어 simple random sampling 에서의 분산값인 9.67 보다 현저하게 작아집니다. 따라서 이 sampling design 이 더 효율적인 표본 설계가 되는 것입니다. (이 표본 설계는 층화 추출의 일종입니다. 이에 대해서는 다음 기회에 설명하도록 하겠습니다.)
.