layout: post title: “기대값의 의미” author: “JKKim” date: “August 26, 2016”
comments: true share: true
예제
회사원 홍길동 씨는 두달후에 있을 여행을 위해 비행기표를 구입했습니다. 예를들어 백만원짜리 비행기표라고 합시다. 그런데 이 비행기 표가 non-refundable 이라서 갑자기 부득이한 사정이 생겨서 비행기를 타지 못하는 상황이 되어도 환불을 받지 못하고 그냥 돈 백만원을 날리게 된다는 것입니다. 이러한 상황을 대비해서 보험을 들고자 해서 알아봤더니 5만원을 내야 한다고 합니다. 이때 홍길동씨는 5만원을 내고 보험을 드는 것이 더 나을까요? 여기서 보험금 5만원은 어떤 의미일까요?
풀이
보험금 5만원은 기대 손실(expected loss)에 대한 가격에 보험회사의 수수료 및 이윤이 추가된 금액입니다. 홍길동씨가 두달후에 있을 비행기 출발 시점에 비행기를 타지 못할 확률을 $p$ 라고 할때 다음과 같은 손실 함수를 가지게 됩니다.
즉, 홍길동씨의 손실 함수 $L$ 은 두 개의 값을 가지는 확률 변수 (random variable) 이 되는 것입니다. 이러한 손실 함수에 대한 기대값은 다음과 같이 계산될 것입니다.
따라서 홍길동씨 입장에서는 자신이 비행기를 못타게 될 확률이 5\% 보다 더 크다고 생각이 든다면 이 보험을 드는 것이 더 합리적인 행동인 것입니다.
토론
-
위의 예제에서 $L$ 은 두개의 값을 가지는 확률변수입니다. 이렇게 셀수 있는 갯수의 (countable한) 값을 가지는 확률 변수를 범주형 (discrete) 확률변수라고 하고 몸무게나 소득처럼 연속적인 값을 가지는 확률 변수를 연속형 (continuous) 확률 변수라고 합니다. 범주형 확률 변수의 기대값은 위의 예제에서처럼 의 형태로 나타나고 연속형 확률 변수의 기대값은 적분을 사용해서 계산합니다.
-
보험회사 입장에서는 확률 $p$ 를 좀더 정교하게 계산하는 것이 중요할 것입니다. 이 확률을 모든 사람에게 동일하다고 가정하는 것보다는 연령대와 성별 등에 따라 다르게 계산하는 경우를 생각해 볼수 있는데 이때의 확률은 조건부 확률이라고 부르고 $p(x)$ 로 표시할수 있을 것입니다. 여기서 $x$ 는 성별이나 연령대 같은 조건값이 되겠습니다. 조건부 확률을 사용하여 계산된 기대값을 조건부 기대값(conditional expectation)이라고 합니다.
-
보험회사 입장에서는 이러한 조건부 확률을 정확하게 추정하는 것이 매우 중요합니다. 조건부 확률을 지나치게 크게 추정하면 보험 상품이 비싸져서 보험이 안팔리게 되니 매출이 낮아지고 조건부 확률을 지나치게 낮게 추정하면 보험 상품은 싸지겠지만 보험금 지불액이 예상보다 높아지므로 손실이 커지게 됩니다. 따라서 보험회사에서는 이러한 조건부 확률을 좀더 정확하게 추정하기 위해서 양질의 데이터를 구입하여 분석하고자 하는 욕구가 생기는 것입니다.
-
조건부 확률을 자료로부터 얻어내는 작업을 통계학에서는 추정 (estimation) 이라고 하고 전산과학 쪽에서는 학습 (learning)이라고도 부릅니다. 결국 특정 사건이 일어날 확률에 대한 지식을 데이터를 통해서 알아내는 것이 통계학의 기본 작업입니다. 이런 사례는 무궁무진 합니다. 은행에서 대출신청을 받아서 대출 여부 및 이자율을 결정할때에도 조건부 파산 확률을 계산해서 결정해야 하고 정부에서 곡물 생산량을 미리 추정해서 곡물값이 폭등하거나 폭등하지 않도록 수출/수입을 통제하는 것도 결국은 이러한 추정 작업을 통해서 결정하게 됩니다. 즉, 통계학은 정확한 조건부 확률을 계산하여 최선의 결정을 내리고자 하는 학문입니다.
-
만약 위의 손실함수에서 특정 손실값이 무한대에 가까우면 그 확률이 아무리 낮더라도 기대값 역시 무한대 입니다. 무한대 곱하기 $p(>0)$ 는 무한대이기 때문입니다. 원자력 발전소 건설 같은 것이 그러한 예가 될 것입니다. 원자력 발전소가 고장나거나 폭파 되는 경우가 그 확률이 매우 낮지만 그 확률이 0 이 아닌 이상 기대 손실에 반영됩니다. 원자력 발전소가 폭파되어서 수백만의 생명이 죽는다는 것은 무한대의 값을 가지는 손실이라고 볼수 있습니다. 그래서 이러한 원자력 발전소 건설에 대한 기대손실은 무한대 입니다. 하지만 기대 이익은 유한합니다. 따라서 통계학적 상식으로는 원자력 발전을 하지 않는것이 합리적인 결정입니다.