예제

매년 각국 학생들의 수학 및 과학, 독해력 등의 성취도를 측정하는 PISA (Programme for International Student Assessment) 프로그램에서는 각 나라별로 수천명 이상의 학생을 랜덤하게 뽑아서 표본으로 뽑힌 학생들에게 표준화된 시험을 보게 하여 학생들의 평균 학업 능력을 측정하여 발표합니다. 이런 PISA 프로그램을 한국에서 실시하고자 할때 학생 표본을 10,000 명을 뽑기로 하였다고 합니다. 이때 20개의 학교를 랜덤하게 뽑고 그 학교에서 학생을 500 명씩 뽑는 방법 (A 방법) 과 10 개의 학교를 랜덤하게 뽑고 그 학교에서 학생을 1,000 명씩 뽑는 방법 (B 방법)을 고려하고 있다고 합시다. 두 방법 모두 10,000 명을 뽑는 것인데 통계학 적으로 무슨 차이가 있을까요? 만약 차이가 있다면 어떤 방법이 더 좋은 것일까요?

풀이

표본수는 추정의 정확성에 영향을 미칩니다. 추정의 정확성을 신뢰구간의 길이로 표현한다고 하면 정확성은 표본수의 제곱근에 비례한다고 이야기 할수 있습니다. 그러나 이때 말하는 표본수라는 것은 엄밀하게 말하면 simple random sampling (SRS)으로 얻어진 자료로 가정했을때의 표본수, 즉 유효표본수(effective sample size)를 지칭하는 것입니다. 위의 예에서는 일단 표본 학교를 먼저 뽑고 그 학교에서부터 학생을 뽑는 집락 추출 (cluster sampling)을 사용했으므로 표본 자료는 집락내에서 양의 상관관계를 가집니다. 즉, $y_{ij}$를 학교 $i$ 내의 $j$-번째 학생의 성적이라고 하면 $y_{ij} = \mu+ a_i + e_{ij}$으로 표현되어서 $\mu$는 전체 평균, $a_i\sim (0, \sigma_a^2)$ 는 학교로 인한 차이, $e_{ij}\sim (0, \sigma_e^2)$는 개인별 차이로 설명될수 있습니다. 따라서 $\rho \equiv Corr (y_{ij}, y_{ij'}) = \frac{ \sigma_a^2}{ \sigma_e^2 + \sigma_a^2} , \ \ \ \mbox{ for } j \neq j'$ 으로써 양의 상관관계를 갖게 됩니다. 만약 학교별 평균 성적 차이가 크면 $\sigma_a^2$ 값은 커지게 되고 그 경우 $\rho$의 값도 커지게 됩니다.

문제는 이러한 경우 추정치의 정확성을 저해한다는 것입니다. 왜냐하면 위의 모형 하에서 표본평균 $\bar{y}$ 의 분산은 대략 $V( \bar{y})= \left\{ 1+ ( m-1) \rho \right\} \sigma_y^2 /N$ 으로 표현되는데 여기서 $N$은 총 표본수이고 $m$는 학교 내의 표본 학생수가 됩니다. 따라서 SRS 를 했을때의 분산값인 $\sigma_y^2/N$ 보다 $\{ 1+ ( m-1) \rho \}$ 만큼 분산이 증가하게 됩니다. 이때 이 증가분 ${ 1+ ( m-1) \rho }$은 집락 추출을 사용함으로써 발생되는 분산의 증가분을 나타내는 것으로써 표본 설계 효과 (design effect) 라고도 불립니다. 따라서 학교내에 표본 학생수가 적을수록 design effect 는 작아지게 되므로 B 방법 보다는 A 방법이 추정량의 더 분산이 작게 나오는 방법으로 표본수 자체는 같지만 더 효율적이 되는 것입니다.

토론

위의 예에서 $\rho$는 집락내 상관계수 (intracluster correlation)이라고 불리우는데 같은 집락 내의 동질성의 척도입니다. 집락내 상관 계수가 낮더라도 집락 크기($m$)가 크면 표본 설계 효과는 크게 되고 따라서 유효표본수는 작아집니다. 예를 들어 $\rho = 0.1$ 이라고 한다면 $m=1,000$인 경우에는 표본 설계 효과는 $1+ (1000-1)*0.1 \doteq 100$ 이 됩니다. 실제 표본수가 10,000 이라도 유효 표본수는 실제 표본수를 표본 설계 효과로 나누어 주기에 100 밖에 되지 않는 것입니다. 이러한 자료로부터 $t$-test 를 하고자 할때 유효 표본수를 사용하지 않고 그냥 실제 표본수를 사용하여 분석을 하면 분산을 너무 작게 추정하는 오류를 범하게 되는 것입니다.
빅데이터를 마치 표본 자료처럼 분석하고자 할때에도 위와 같은 오류를 범하기 쉽습니다. 자료들간의 상관관계를 무시하고 마치 독립된 자료인 것으로 간주하고 분석을 하면 분산을 과소추정하여 치명적인 오류인 일종오류를 범하게 됩니다. 자료의 구조가 통계 모형에 제대로 반영되어야 유효표본수를 계산해 낼수 있고 그로부터 통계학적으로 근거를 가지는 분석을 해낼수 있는 것입니다. 사이즈가 큰 자료를 가지고 통계 분석하고자 할때에는 반드시 체크해야 하는 사항입니다.

. .

예제

풀이

토론

Share on: