
확률과 관련된 유명한 역설이 ‘심슨의 패러독스(Simpson’s paradox)’다. 심슨의 패러독스란 ‘부분’에서 성립한 대소 관계가 그 부분들을 모은 ‘전체’에 대해서는 성립하지 않는 모순적인 경우를 말한다. 심슨의 패러독스는 1951년 이 현상을 설명한 에드워드 심슨의 이름을 따서 만든 용어로 ‘합병 패러독스’라고도 한다.
심슨의 패러독스는 1973년 미국의 명문대인 UC버클리 대학원에 지원한 학생들의 성별 합격률을 통해 널리 알려지게 되었다. 대학원에 지원한 남녀 학생들의 합격률을 학과별로 보면 대부분의 과에서 여학생의 합격률이 남학생보다 높았다. 하지만 전체 합격률에서는 남학생이 훨씬 높아지는 현상이 나타나면서 이 패러독스가 주목 받게 되었다.
야구 선수의 타율이 뒤집히다
심슨의 패러독스는 우리 주변에서도 찾아 볼 수 있다. 미국 메이저리그 야구 선수인 데이비드 저스티스와 데릭 지터의 1995년과 1996년의 타율을 비교해보면 심슨의 패러독스가 나타난다. 왼쪽 표에서 보듯이 데이비드 저스티스의 1995년과 1996년도 타율은 데릭 지터의 타율보다 높지만, 2년을 종합한 타율에서는 데릭 지터가 더 높다.
어떻게 된 것일까? 두 선수의 기록을 다시 한번 살펴보면 분모 값들의 차이가 큰 것을 확인할 수 있다. 이는 주로 활동한 연도가 다르다고 해석할 수 있다. 데이비드 저스티스는 주로 1995년에 활동한 반면, 데릭 지터는 1996년에 활발하게 출전했다. 이렇게 서로 다른 연도에 편중된 경기기록 때문에 두 해를 합했을 때 타율이 역전되는 현상이 나타난 것이다.

그 원인을 생각해보자. 이 실험 이전에 의사들은 일반적으로 방법A가 더 효과적이라고 판단하고 있었기 때문에 환자의 상태가 조금 더 심각한 큰 결석에 대해서는 방법A를 주로 동원했고, 병세가 가벼운 작은 결석에 대해서는 방법B를 집중적으로 적용했다. 즉, 치료 방법과 결석의 크기에 따른 네 가지 경우 중에서 적용 사례는 ❷와 ❸에 집중되어 있다. 그래서 방법B로 치료된 작은 결석환자들(❷)의 절대 수가 크며(234명), 이 값이 방법A와 B를 전체적으로 비교할 때 B의 치료율을 높이는 효과를 준 것이다. 이와 같이 특정 사례가 유난히 많을 때 심슨의 패러독스가 나타날 수 있다.
뺑소니 사고 목격자의 진술은 믿을 만할까?
확률과 관련해 우리의 직관과 반대인 결과를 경험하게 되는 또 다른 예가 ‘기본비율무시 오류’다. 기본비율무시 오류란 어떤 상황과 관련된 비율이 주어진 상태에서 확률을 구할 때, 그 상황의 비율을 고려하지 않는 경향을 말한다. 대표적인 예로 뺑소니 택시의 색깔과 관련된 다음 상황을 생각해보자.



이 도시에서 운행되고 있는 검은색 택시의 비율이 10%이므로, 100대의 택시가 있다고 가정할 때 검은색 택시는 10대이다. 목격자가 색깔을 정확하게 말할 확률이 80%이므로 검은색 택시 10대 중 80%인 8대는 검은색으로 올바르게 말한다. 그리고 목격자가 색깔을 잘못 말한 확률이 20%이므로 주황색 택시 90대 중 20%인 18대는 검은색으로 틀리게 진술한다. 이 두 가지 사실을 종합하면 목격자가 검은색이라고 증언했을 때 뺑소니 택시가 검은색일 확률은 26대 중 8대인 8/26=31%가 된다.
위의 상황에서 주어진 정보는 ‘색깔에 따른 택시의 비율’과 ‘목격자가 정확하게 색을 말할 확률’의 두 가지이다. 그렇지만 판단을 할 때에는 택시의 색깔 분포라는 기본 비율은 무시한 채 목격자 진술의 정확성이라는 한 가지 측면에 치중하기 때문에 뺑소니 차량이 검은색 택시일 확률이 높다고 생각하는 경향이 있다. 여기서 잠깐, ‘기본비율무시 오류’에 빠지지 말고 다음 퀴즈에 도전해보자.
