예제

어느 수입농산물 관리업체에서는 수입농산물의 품질을 매달 측정하고 그에 대한 통계를 생산해서 관리하는 시스템을 구축하려고 합니다. 그런데 그에 대한 테스트가 A,B 방법 두가지 종류가 있는데 A 방법은 싸지만 정확성이 떨어지고 B방법은 비용은 비싸지만 매우 정확한 방법이라고 합니다. 이러한 경우 제한된 예산 하에서 어떤 식으로 샘플을 뽑아야 비용 대비 정확성이 높은 조사 방법이 될수 있을까요? 예를들어 A 방법은 1만원이 들고 B 방법은 10만원이 든다고 할때 전체 예산 1천만원하에서 어떻게 효율적인 통계생산 시스템을 만들수 있을까요?

풀이

세가지 방법을 생각할수 있습니다. 하나는 1,000개의 샘플에 A 방법을 적용하는 것입니다. 그 방법은 현실적으로 적절하지 않습니다. 왜냐하면 A 방법 자체의 부정확성 때문에 생산되는 통계가 편향의 위험이 있기 때문입니다. 다른 하나는 그냥 100개의 샘플에 B 방법을 적용하는 것입니다. 이것은 조사에 따른 편향은 없지만 샘플수가 적어서 통계량의 분산이 커지고 통계의 대표성이 떨어질수 있습니다.

마지막 방법은 Two-phase sampling 이라고 불리우는 것입니다. 이 방법은 위의 두 방법의 절충인데 예를 들어 500개의 샘플을 먼저 뽑아서 방법 A 를 적용하고 그 중에서 50개를 랜덤하게 뽑아서 방법 B 를 적용한후 50개의 최종표본으로부터 통계적 모형을 이용하여 A 방법의 편향을 추정한후 첫번째 표본 500 개의 편향을 보정한 예측값의 평균을 사용하는 방법입니다.

좀더 자세히 설명하기 위해서 A방법으로 측정된 값을 $X$ 라고 하고 B 방법으로 측정된 값을 $Y$라고 하고 이 두 변수간에 다음의 모형을 세울수 있다고 합시다. 이때 $E(e)=0$ 으로 가정합니다. 이러한 경우 $E(Y \mid X)= \beta_0 + \beta_1 X$ 는 $X$의 편향을 제거한 값이 됩니다. 따라서 50개의 최종 샘플로부터 그 추정치 $\hat{\beta}_0$와 $\hat{\beta}_1$를 구하게 되면 $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$를 사용하여 500개의 전체 표본에서 편향이 제거된 $Y$의 예측치를 구할수 있습니다. 이를 이용해서 500개의 원자료에서 $\hat{Y}_i$값을 계산한후 그값의 평균으로 통계를 생산하는 방법이 Two-phase sampling 을 사용한 추정 방법이 됩니다.

이러한 two-phase sampling 추정법은 $X$와 $Y$의 상관관계가 높을수록 그 효과가 큽니다. 이 상관관계를 $\rho$라고 표현하면 two-phase sampling 추정량의 분산은 \begin{equation} \frac{1}{500} \sigma_y^2 \rho^2 + \frac{1}{50} \sigma_y^2 ( 1- \rho^2) \end{equation} 으로 얻어집니다. 위의 식에서 $\rho^2$이 1에 가까울수록 위의 분산은 작아지게 됩니다. 예를들어 $\rho^2=0.8$라고 하면 위의 분산은 $0.0056 \sigma_y^2$으로서 두번째 방법을 사용했을 경우 표본수 178개를 사용하는 것과 같은 효과를 얻습니다. 조사 비용이 1,780만원이 드는 조사를 1,000만원으로 줄이는 방법이 되는 것입니다.

토론

  1. 위의 내용을 좀더 일반화하면 다음과 같습니다. 먼저 개의 샘플에 A방법을 적용하여 $X$값을 측정하고 그 중에서 일부를 뽑아 개의 표본을 얻어 그 샘플에서 $Y$값을 측정하는 경우 two-phase sampling 추정량의 분산은 \begin{equation} V= \frac{1}{n_1} \sigma_y^2 \rho^2 + \frac{1}{n_2} \sigma_y^2 ( 1- \rho^2) \end{equation} 으로 표현합니다. 그런데 전체 비용은 $C_1 n_1 + C_2 n_2 =1000$ 만원으로 계산할수 있는데 여기서 $C_1$은 A 방법을 사용할 때 드는 비용 (1만원), $C_2$는 B 방법을 사용할때 드는 비용(10만원)이 됩니다. 이 제약조건 하에서 위의 $V$를 최소화하는 최적화 문제를 생각할수 있습니다. 그 해는 코쉬 부등식을 사용하여 풀면 그 최적해는 \begin{equation} \frac{n_1}{n_2} = \sqrt{\frac{1-\rho^2}{\rho^2} \times \frac{C_1}{C_2}} \end{equation} 으로 구해집니다. 이를 $C_1 n_1 + C_2 n_2=1000$만원에 대입하면 최적 배분이 얻어집니다.

  2. 위의 예제에서처럼 $\rho^2=0.8$이라고 하면 그 최적값은 $n_1=390$, $n_2=61$이 되어서 그 분산이 $0.00533\sigma_y^2$으로 되고 따라서 위의 두번째 방법을 사용했을때의 표본수 188개를 사용하는 것과 같은 효과를 갖습니다. 표본수가 188개를 사용하면 1,880만원을 들어야 하는데 1,000만원으로 동일한 효과를 얻게 되는 것입니다. 이렇게 two-phase sampling 은 비용을 줄이고 최대의 효과를 보이는데 유용한 통계학적 방법입니다. 만약 매달 이 통계를 생산한다면 1년에 880*12 = 10,560만원을 절약하는 것입니다.

  3. 이러한 two-phase sampling 으로는 $X$값은 다 관측되지만 일부 표본에서 $Y$값이 결측이 되는 자료 구조를 얻습니다. 이렇게 표본 설계 단계에서 고의로 결측자료를 생성하여 비용을 줄이고 효율을 높힐수 있는데 이러한 방법을 계획결측(planned missingness) 이라고도 부릅니다. 보건 통계에서는 질병 유무를 나타내는 변수인 $Y$를 먼저 관측하고 그에 따라 일부 표본에서 $X$를 관측하는 방식인 case control study 가 많이 사용되는데 이 역시 계획결측의 일종입니다.

. .