서론
오일러의 등식이라고 들어보셨나요? \begin{equation} e^{i \pi} + 1 = 0 \end{equation} 으로 표현되는 등식은 종종 수학에서 가장 아름다운 수식이라고도 불리우는데요 여기에는 5가지 아주 중요한 숫자가 나옵니다. 이는 바로 의 다섯개 숫자입니다. 이 다섯개의 숫자는 수학에서 아주 중요한 의미를 갖는 수인데요 이 다섯개가 모두 사용되어서 하나의 식을 만들어 내고 있으니 수학도들에게 큰 매력을 주는 수식입니다.
자, 통계학에서도 위의 오일러의 등식에 해당되는 수식이 있다면 그건 무엇일까? 그렇다면 그 다섯가지 숫자에 해당되는 다섯가지 주요 개념은 무엇일까요?
풀이
하버드 대학의 Meng 교수는 작년 12월 상하이에서 열린 ICSA 학회 기조연설에서 수학의 오일러 공식에 대응되는 공식으로 다음과 같은 수식을 사용할 것을 제안했습니다.
\begin{equation}
\hat{\mu} - \mu = \rho \sigma \sqrt{ \frac{ N-n}{n}} \ \ \ \ \ (1)
\end{equation}
이 수식 하나에 통계학의 가장 중요한 기호 5가지가 나온다는 것입니다. 첫째는 $\mu$ 입니다. 평균에 해당되는 기호입니다. (그 앞의 $\hat{\mu}$은 $\mu$에 대한 추정량을 의미합니다.) 두번째는 $\sigma$ 입니다. 표준 편차에 해당되는 기호입니다. 다음으로는 $\rho$입니다. 그 기호는 상관계수를 나타내는 기호입니다. 여기서는 y와 관측확률과의 상관계수를 지칭합니다.
네번째로는 $n$입니다. 표본 크기를 나타냅니다. 마지막으로 등장하는 기호가 $N$입니다. 표본이 뽑힌 모집단의 크기를 나타내는 기호입니다. 이렇게 5개의 주요 기호가 합쳐져서 하나의 수식을 나타내니 이것이 오일러의 등식에 해당된다는 이야기입니다.
토론
-
위의 수식에 대한 좀더 자세한 설명은 다음과 같습니다. 현실 세계에 존재하는 모집단은 유한 모집단이므로 이를 ${x_1, x_2, \cdots, x_N}$이라 표현하고 관심 모수를 $\mu_g = N^{-1} \sum_{i=1}^N g( x_i)$라고 한다면 이 관심모수를 얻어진 자료의 단순 평균으로 을 사용하여 $\mu_g$를 추정하는 문제를 생각할수 있다. 이때 $R_i$는 모집단 원소 $i$가 샘플에 포함되어 $x_i$값을 관측하게 될수 있을때 1의 값을 갖고 그렇지 않을때 0의 값을 갖는 지시변수를 의미한다. 이러한 경우 Uniform 의 분포를 갖는 확률변수 $I$라는 것을 생각하면 다음 식이 유도된다. \begin{equation} \hat{\mu}_g - \mu_g = \frac{E_I [ R_I g(x_I) ] }{E_I (R_I)}- E_I [ g (x_I) ] = \frac{ Cov_I [ R_I, g(x_I)]}{E_I (R_I)} = Corr_I [R_I, g(x_I)] \times
\sqrt{V_I [ g(x_I)]} \times \frac{ \sqrt{V_I (R_I)}}{E_I(R_I)} \end{equation} 여기서 이고 이므로 이를 간단히 표현하면 으로 표현되는데 이로써 식 (1)이 얻어진다. -
위의 논리를 좀더 발전시키면 다음과 같은 식이 얻어집니다. \begin{equation} E[ \hat{\mu}_g - \mu_g]^2 = D_I \times D_O \times D_U. \end{equation} 여기서 으로 표현되는데 Defect index 라고 불리우는데 Data quality 를 나타내는 지표이고, 로써 Dropout Odds 라고 부를수 있는데 Data quantity 를 나타내는 지표이고, 은 Data uncertainty 라고 부를수 있는데 이는 problem difficulty 를 나타내는 지표라고 이해할수 있습니다. 통계의 핵심은 결국 data quality, data quantity, and data uncertainty 로 요약될수 있습니다.
-
위의 공식을 바탕으로 빅데이터의 유효표본수를 구할수 있습니다. 즉, 현재 주어진 빅데이터의 표본수와 동일한 MSE (평균오차제곱)을 구현하는 단순임의표본의 표본수는 얼마인가를 계산하는 것입니다. (유효표본수와 관련된 설명은 저의 이전 포스팅 “유효표본수”를 참고하시기 바랍니다.) 공식은 다음과 같습니다. (여기서 입니다) \begin{equation} n_{eff} = \frac{n }{1+ (1-f) [ (N-1) D_I-1] } \cong \frac{f}{1-f} \frac{1}{D_I} \end{equation} 따라서 라고 한다면 (약 5%의 선택편향이 있다면) 일 경우 을 얻게 됩니다. 즉, 5% 정도의 약한 선택편향이 있는 경우, 모집단의 반이 응답을 선택하였더라도 이때 얻어지는 추정의 정확성은 제대로된 확률표본 $400$명을 추출한 것과 동일하다는 것입니다. 예를들어서, 이러한 자발적 표본은 서울시 인구의 반인 500만명이 응답을 했더라도 실제 정확도는 400명의 확률표본을 얻어내 조사한 것과 마찬가지입니다. 이 경우 5%의 선택편향이 미치는 영향은 자료의 99.99%를 소용없게 만드는 것입니다.
-
따라서 우리가 표본수가 크면 클수록 정확할 것 같지만 선택편향이 있는 경우에는 이를 무시한 신뢰구간이 참값을 벗어갈 확률이 1에 가깝게 수렴하기에 표본이 크면 클수록 신뢰구간이 더 참값에서 멀어진다는 것입니다. Meng 교수는 이를 두고 Big data paradox 라고 불렀습니다.
. .