예제
1936년 미국에서는 민주당의 루즈벨트 대통령과 공화당의 랜든 후보가 대선 후보로 지명되어 열띤 선거전을 했었습니다. 그 당시 미국은 대공황을 겪었고 루즈벨트 대통령은 뉴딜 정책으로 경제를 살려보려고 했었고 경기가 조금씩 회복하는 분위기여서 대부분의 신문사들은 루즈벨트 대통령의 재선을 낙관했었다고 합니다.
그러나 그 당시 Literacy Digest 라는 잡지사에서는 루즈벨트 대통령이 전체 유권자의 43% 의 득표밖에 받지 못해서 재선에 실패할 것 이라고 예측치를 내어 놓았는데 이 예측치는 대략 천만명으로 구성된 샘플에게 우편 설문지를 보내 그 중에서 응답한 2백 40만명을 바탕으로 해서 얻어진 값이었습니다. (이 천만명의 주소는 전화번호부와 여러 클럽 회원 명부에서 얻었다고 합니다) 그 당시 Literacy Digest 지는 1916년부터 대선 예측을 다 맞추었고 240만명이라는 엄청난 크기의 자료를 통해 (아마 최초의 빅데이터?) 예측을 했기에 이 예측 결과는 정치계에 큰 충격을 주었다고 합니다.
이때 조지 갤럽이라는 젊은 여론 조사 학자는 그당시 2백 40만명의 응답을 취합하는데 몇달이 걸리므로 자신은 이중 일부만 샘플링을 통해서 미리 추정을 하고 (44%가 될것이라고 예측했음) 그와는 별도로 5만명의 랜덤 샘플을 통해 루즈벨트가 56% 을 득표할 것이라고 예측하여 루즈벨트 대통령이 재선에 성공할 것을 맞추었습니다. (실제 루즈벨트 대통령의 대선 특표율은 62%였다고 합니다.) 240만명을 바탕으로 얻어진 Literacy Digest 예측이 단지 5만명을 바탕으로 얻어진 갤럽의 예측보다 훨씬 부정확했던 것입니다. 왜 그런 일이 생겼을까요?
풀이
위의 사건은 여론조사 분야에서 매우 유명한 사건입니다. 모집단이 ${y_1, \cdots, y_N}$으로 구성되었다고 하고 이중 일부를 표본으로 뽑아서 이 표본 평균으로 추정한다고 할때 모수는 $\theta=N^{-1} \sum_{i=1}^N y_i=\bar{Y}$으로 표현될수 있고 표본 평균은 $\hat{\theta}= (\sum_{i=1}^N \delta_i y_i )/ (\sum_{i=1}^N \delta_i )$으로 표현될수 있는데 이때 $\delta_i$는 원소 $i$가 표본에 뽑히면 1 아니면 0 을 갖는 지시변수입니다.
이때 추정량 $\hat{\theta}$의 모수 $\theta$에 대한 편향은 $Bias(\hat{\theta})= E( \hat{\theta})- \theta$으로 정의될수 있는데 $\delta_i \sim Bernoulli(\pi_i)$ 이라 가정하면
\begin{eqnarray}
Bias( \hat{\theta}) &\doteq & \frac{\sum_{i=1}^N \pi_i (y_i -\theta) }{\sum_{i=1}^N \pi_i}
&= & Corr( \pi, Y) \times CV(\pi) \times CV(Y) \times \theta
\end{eqnarray}
으로 계산되는데 여기서
이고 (여기서 $\bar{\pi}=\sum_{i=1}^N \pi_i/N$)
이다. 따라서 $\pi_i$들의 상대 변동이 작거나 (표본 포함 확률이 거의 비슷하거나), Y 들의 상대 변동이 작거나 (Y들이 대체적으로 동질적이거나) 하면 표본 평균을 사용한 추정이 편향이 작아지게 됩니다. 그러나 이보다 더 중요한 것은
으로 정의되는 $\pi$와 $Y$ 의 상관 계수로써 이 상관계수가 0 이 아니면 편향이 발생하게 되는 것이다. 즉, 표본의 대표성 문제 (표본 평균의 편향 문제)는 결국 추출 확률이 관심변수와 상관관계가 있다는 데에서 연유합니다.
위의 예제에서는 표본이 그 당시 집에 전화가 있는 사람들 위주로 추출되었기에 부자들이 체계적으로 더 많이 뽑혔고 전통적으로 부자들은 공화당을 지지하므로 위의 correlation 값이 음수를 갖게 됩니다. 따라서 Bias 역시 음의 값을 가지는 결과를 가져온 것입니다.
토론
-
모집단의 개체들이 표본으로 뽑힐 확률이 체계적으로 다른 경우 발생되는 추정량의 편향 문제를 선택 편향 (selection bias)라고 합니다. 확률 표본 설계를 통해 얻어지는 자료가 아닌 자발적 참여를 통해 얻어지는 자료의 경우에는 이러한 selection bias 가 큰 문제가 될수 있습니다. 예를 들어 어떤 교육 프로그램에 참여하는 사람과 그렇지 않은 사람들 간의 평균 성취도의 차이가 교육 프로그램 자체의 효과로 인한 것인지 아니면 프로그램 참여라는 선택에 미치는 잠재 변수의 차이로 인한 것인지 알아낼 수가 없기 때문입니다. 그래서 이런 selection bias 를 줄여주기 위해 선택에 대한 모형을 이용하여 보정해주는 연구가 계량경제학을 위시로 하여 (Heckman 모형) 아직도 활발히 연구되는 분야입니다.
-
위의 Bias 공식에서 중요한 포인트는 Bias 가 표본수에 의존하지 않는다는 것입니다. 즉, 아무리 샘플수를 늘려도 Bias 는 줄어들지 않는다는 것입니다. 이 Bias 때문에 선택편향이 있는 자료에서는 대수의 법칙(law of large numbers)이 성립하지 않게 되는 것입니다. 그래서 Literacy Digest 지의 추정은 240만명의 샘플을 사용했지만 단지 5만명의 샘플을 사용한 갤럽의 조사보다도 더 부정확한 결과를 가져온 것입니다. 일반적으로 추정량의 정확성은 오차제곱 평균 (Mean squared error; MSE)이 라는 것으로 평가될수 있는데 으로 표현됩니다. 여기서 분산 $Var( \hat{\theta})$은 표본의 크기가 클수록 그 값이 줄어들게 되지만 ${ Bias( \hat{\theta}) }^2$은 표본수와는 관계없고 $r=Corr( \pi, Y)$에 관계 있으므로 Literacy Digest 의 표본처럼 선택 편향이 있는 자료에서는 결국 $Bias$의 제곱값이 줄어들지 않고 남아있어서 $r=0$이 되도록 샘플링을 한 갤럽의 예측치보다 (훨씬 많은 표본수에도 불구하고) MSE 가 더 커지게 되는 결과를 가져온 것입니다.
-
위의 표본 포함 확률 $\pi_i$를 아는 확률 표본 추출의 경우에는 표본 평균을 사용하지 않고 $\pi_i$의 역수를 가중치로 하는 추정량을 사용하면 추정량의 편향이 사라지게 됩니다. 이를 Horvitz-Thompson 추정량이라고 하는데 표본 조사론 분야에서는 많이 사용되는 방법입니다. 자발적 선택으로 표본이 얻어진 경우에는 $\pi_i$를 알지는 못하고 이에 대한 모형을 써서 그 추정치를 가중치로 사용할수 있습니다. 이를 Propensity score weighting 이라고도 합니다. . .
. .