예제
어느 수입농산물 관리업체에서는 수입농산물의 품질을 매달 측정하고 그에 대한 통계를 생산해서 관리하는 시스템을 구축하려고 합니다. 그런데 그에 대한 테스트가 A,B 방법 두가지 종류가 있는데 A 방법은 싸지만 정확성이 떨어지고 B방법은 비용은 비싸지만 매우 정확한 방법이라고 합니다. 이러한 경우 제한된 예산 하에서 어떤 식으로 샘플을 뽑아야 비용 대비 정확성이 높은 조사 방법이 될수 있을까요? 예를들어 A 방법은 1만원이 들고 B 방법은 10만원이 든다고 할때 전체 예산 1천만원하에서 어떻게 효율적인 통계생산 시스템을 만들수 있을까요?
풀이
세가지 방법을 생각할수 있습니다. 하나는 1,000개의 샘플에 A 방법을 적용하는 것입니다. 그 방법은 현실적으로 적절하지 않습니다. 왜냐하면 A 방법 자체의 부정확성 때문에 생산되는 통계가 편향의 위험이 있기 때문입니다. 다른 하나는 그냥 100개의 샘플에 B 방법을 적용하는 것입니다. 이것은 조사에 따른 편향은 없지만 샘플수가 적어서 통계량의 분산이 커지고 통계의 대표성이 떨어질수 있습니다.
마지막 방법은 Two-phase sampling 이라고 불리우는 것입니다. 이 방법은 위의 두 방법의 절충인데 예를 들어 500개의 샘플을 먼저 뽑아서 방법 A 를 적용하고 그 중에서 50개를 랜덤하게 뽑아서 방법 B 를 적용한후 50개의 최종표본으로부터 통계적 모형을 이용하여 A 방법의 편향을 추정한후 첫번째 표본 500 개의 편향을 보정한 예측값의 평균을 사용하는 방법입니다.
좀더 자세히 설명하기 위해서 A방법으로 측정된 값을 $X$ 라고 하고 B 방법으로 측정된 값을 $Y$라고 하고 이 두 변수간에 다음의 모형을 세울수 있다고 합시다. 이때 $E(e)=0$ 으로 가정합니다. 이러한 경우 $E(Y \mid X)= \beta_0 + \beta_1 X$ 는 $X$의 편향을 제거한 값이 됩니다. 따라서 50개의 최종 샘플로부터 그 추정치 $\hat{\beta}_0$와 $\hat{\beta}_1$를 구하게 되면 $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$를 사용하여 500개의 전체 표본에서 편향이 제거된 $Y$의 예측치를 구할수 있습니다. 이를 이용해서 500개의 원자료에서 $\hat{Y}_i$값을 계산한후 그값의 평균으로 통계를 생산하는 방법이 Two-phase sampling 을 사용한 추정 방법이 됩니다.
이러한 two-phase sampling 추정법은 $X$와 $Y$의 상관관계가 높을수록 그 효과가 큽니다. 이 상관관계를 $\rho$라고 표현하면 two-phase sampling 추정량의 분산은 \begin{equation} \frac{1}{500} \sigma_y^2 \rho^2 + \frac{1}{50} \sigma_y^2 ( 1- \rho^2) \end{equation} 으로 얻어집니다. 위의 식에서 $\rho^2$이 1에 가까울수록 위의 분산은 작아지게 됩니다. 예를들어 $\rho^2=0.8$라고 하면 위의 분산은 $0.0056 \sigma_y^2$으로서 두번째 방법을 사용했을 경우 표본수 178개를 사용하는 것과 같은 효과를 얻습니다. 조사 비용이 1,780만원이 드는 조사를 1,000만원으로 줄이는 방법이 되는 것입니다.
토론
-
위의 내용을 좀더 일반화하면 다음과 같습니다. 먼저 개의 샘플에 A방법을 적용하여 $X$값을 측정하고 그 중에서 일부를 뽑아 개의 표본을 얻어 그 샘플에서 $Y$값을 측정하는 경우 two-phase sampling 추정량의 분산은 \begin{equation} V= \frac{1}{n_1} \sigma_y^2 \rho^2 + \frac{1}{n_2} \sigma_y^2 ( 1- \rho^2) \end{equation} 으로 표현합니다. 그런데 전체 비용은 $C_1 n_1 + C_2 n_2 =1000$ 만원으로 계산할수 있는데 여기서 $C_1$은 A 방법을 사용할 때 드는 비용 (1만원), $C_2$는 B 방법을 사용할때 드는 비용(10만원)이 됩니다. 이 제약조건 하에서 위의 $V$를 최소화하는 최적화 문제를 생각할수 있습니다. 그 해는 코쉬 부등식을 사용하여 풀면 그 최적해는 \begin{equation} \frac{n_1}{n_2} = \sqrt{\frac{1-\rho^2}{\rho^2} \times \frac{C_1}{C_2}} \end{equation} 으로 구해집니다. 이를 $C_1 n_1 + C_2 n_2=1000$만원에 대입하면 최적 배분이 얻어집니다.
-
위의 예제에서처럼 $\rho^2=0.8$이라고 하면 그 최적값은 $n_1=390$, $n_2=61$이 되어서 그 분산이 $0.00533\sigma_y^2$으로 되고 따라서 위의 두번째 방법을 사용했을때의 표본수 188개를 사용하는 것과 같은 효과를 갖습니다. 표본수가 188개를 사용하면 1,880만원을 들어야 하는데 1,000만원으로 동일한 효과를 얻게 되는 것입니다. 이렇게 two-phase sampling 은 비용을 줄이고 최대의 효과를 보이는데 유용한 통계학적 방법입니다. 만약 매달 이 통계를 생산한다면 1년에 880*12 = 10,560만원을 절약하는 것입니다.
-
이러한 two-phase sampling 으로는 $X$값은 다 관측되지만 일부 표본에서 $Y$값이 결측이 되는 자료 구조를 얻습니다. 이렇게 표본 설계 단계에서 고의로 결측자료를 생성하여 비용을 줄이고 효율을 높힐수 있는데 이러한 방법을 계획결측(planned missingness) 이라고도 부릅니다. 보건 통계에서는 질병 유무를 나타내는 변수인 $Y$를 먼저 관측하고 그에 따라 일부 표본에서 $X$를 관측하는 방식인 case control study 가 많이 사용되는데 이 역시 계획결측의 일종입니다.
. .