d라이브러리









확률과 통계의 함정

심슨의 역설, 외삽의 오류, 오즈비의 덫

‘ARS 여론조사 결과 이번 선거에서 A 후보가 당선될 확률은 53.2%에 이르는 것으로 나타났습니다….’, ‘비만 남성의 경우 정상체중인 남성보다 암으로 숨질 확률이 60% 이상 높다는 연구결과가 나왔습니다….’

TV 뉴스나 신문에 심심찮게 등장하는 확률과 통계는 사건을 객관적으로 분석했다는 믿음을 줄 뿐만 아니라 수치비교로 여러 가지 해석을 가능하게 해준다. 하지만 이 값들은 전체를 요약한 값에 지나지 않기 때문에 ‘장님 코끼리 만지기’ 식으로 전체의 모습을 제대로 보여주지 못하는 경우도 있다.

프로야구에서 좌완 투수가 마운드에 올랐을 때, 상대팀 감독이 좌완 투수를 상대로 한 타율을 고려치 않고 오로지 평균 타율만 높은 선수를 기용했다가는 팀을 승리로 이끌 수 없다. 이렇듯 확률과 통계가 일상생활에 파 놓은 함정은 미처 생각지 못한 곳에서 우리를 곤경에 빠뜨린다. 몇 가지 사례를 중심으로 ‘확률과 통계의 함정’을 피하는 방법을 살펴보자.



남성차별이 여성차별로 둔갑?


사례1>;>; 김 씨는 대학을 졸업하고 A회사에 사무직 입사 지원을 했지만 떨어지고 말았다. 아쉬운마음에합격자통계를보다가김씨는이상한점을발견했다. 사무직에지원한남성의합격률 (70%)이 여성(80%)보다 훨씬 낮았던것. 생산직도 마찬가지였다. 남성지원자의 합격률(20%) 이 여성 지원자의 합격률(40%)보다 낮았다.

김씨는이자료를 토대로 채용에 남녀차별이 있었다며 회사에 항의했다. 하지만 회사에서 공개한 사무직과 생산직 전체 평균 합격률은 남성(65%)이 여성(48%)보다 오히려 높았다.

각 부분의 합격률과 전체의 합격률의 경향이 다를 수 있을까? A회사의 실제 합격자 수를 조사해보면 의문이 풀린다.



 


A회사는 생산직에 남성이 10명, 사무직에 90명이 지원했다. 따라서 남성의 전체 합격률에 생산직 합격자 수가 미치는 영향은 미미하다. 생산직에 지원한 10명 모두 합격해도 전체 지원자 100명의 10%에 지나지 않기 때문이다.

반대로 여성은 생산직에 지원한 사람의 수(80명)가 사무직에 지원한 사람 수(20명)보다 훨씬 많기 때문에 여성 전체 평균 합격률에 생산직 합격자의 수가 큰 영향을 끼친다.

이처럼 부분의 가중치가 다를 때 부분과 전체를 분석한 결과가 일치하지 않는 경우가 생길 수 있다. 이런 경우를 1951년 이 현상을 처음 설명한 영국의 수학자 에드워드 심슨의 이름을 따 ‘심슨의 역설’이라고 부른다. 이를 수식을 이용해


 

를 보장하지는 않는다”고 간단히 표현할 수 있다.



152년 뒤 100m 달리기에서 여성이 남성 앞선다?


영국옥스퍼드대 유행병학 전문가 앤드루 테이텀 교수 연구팀은 네이처 2004년 10월호에 발표한 논문에서‘152년 후인 2156년 올림픽 육상100m 달리기에선 여성이 처음으로 남성을 앞설것’이라고 주장했다.

연구팀은 지난100년간 올림픽 육상 100m 우승 기록을 분석한 결과 여성의 기록 향상속도가 남성보다 빨랐으며 이 추세가 유지될 경우 2156년에 남자 100m 우승 기록이 8.098초인 반면 여자는 8.079초가 될것으로전망했다. (동아일보 2004년 9월 30일 자)

여성이 남성보다 정말 더 빨리 달릴 수 있을까. 보도대로라면 150여 년 뒤에는 올림픽 100m 달리기 종목에 남녀 구분이 없어질지도 모른다. 어떻게 이런 분석이 나왔는지 살펴보자.

1900년 올림픽 남성 100m 우승 기록은 11초00이고, 여성의 올림픽 100m 우승 첫 공식기록은 1928년 12초20이다.

2004년 올림픽에서는 남성과 여성이 각각 9초85와 10초93이라는 기록을 남겼다. 이 사이의 모든 기록을 그래프로 나타내면 대략 직선의 형태로 나타난다. 이를 100m 기록(y)과 시간(x)의 1차 함수로 표현하면, 각각 y남자=11.00+α(x-1900) y여자=12.20+β(x-1928)이다. 당시 논문은 이 방정식으로 지난 2008년 베이징 올림픽 남녀 100m 달리기 우승기록을 예측했는데, 남녀 각각 9초586~9초874, 여성이 10초34~10초80이었다.

놀랍게도 지난 8월에 열린 베이징올림픽의 실제 100m 우승 기록(남자 9초 69, 여자 10.78)은 이 범위에 들었다. 이처럼 일정한 기간 동안 어떤 현상이 보인 규칙성을 바탕으로 이후의 현상을 예측하는 방법을 외삽이라고 한다.

하지만 귀납법의 일종인 외삽은 잘못된 결론을 이끌 수도 있다. 이 함수대로라면 여성 기록의 기울기(β)가 남성 기록의 기울기(α)보다 더 가파르기 때문에 2156년 쯤 두 직선은 교차한다. 하지만 같은 방식으로 추론한다면 2900년쯤에는 100m 기록이 0초가 되는 이상한 결론이 나온다.

이런 오류는 미래가 현재와 같은 추세로 기록이 단축된다는 잘못된 가정을 하고 있기 때문이다. 또한 100m 기록을 11초에서 10초로 줄이는 일과 10초에서 9초로 줄이는 일은 실제로 매우 다르다는 경험을 외삽의 조건에 넣지 않은 점도 문제다. 이처럼 외삽의 결과를 받아들일 때는 감춰진 가정을 주의 깊게 살펴보는 일이 중요하다.

흡연을 하면 암이 발생할 확률이 커진다는 사실은 상식이다. 그런데 구체적으로 암 발생률이 몇 배 커지는지는 어떻게 계산하는 걸까.


흡연을 했을 경우 암이 발생할 ‘상대위험도’는 *조건부 확률식으로 정의할 수 있다.



상대위험도 값이 3이라는 얘기는 흡연자의 폐암 발생률이 비흡연자의 폐암 발생율의 3배라는 뜻이다. 이 값을 구하기 위해서는 임상실험으로 흡연과 암, 둘 사이만의 관계를 알아내야 한다.

예를 들어 암이 발생하는데 유전적 효과에 대한 차이를 없애기 위해 일란성 쌍둥이를 모집해 두 그룹으로 나눈 다음, 한쪽 그룹만 계속 담배를 피게 한 뒤 암이 발생하는지 지켜봐야 한다. 하지만 일란성 쌍둥이의 수가 충분치 않을 뿐만 아니라 연구기간이 너무 길어 이런 실험은 현실적으로 불가능하다. 무엇보다 사람을 대상으로 한 실험이기 때문에 비윤리적이다. 연구자들은 이런 어려움을 피하기 위해 상대위험도 대신 ‘오즈비’(odds ratio, 대응위험도)라는 값을 구해 위험도를 파악한다.



여기서 분자에 해당하는 값은 ‘흡연자 가운데 정상인 1명당 암환자 비율’이고, 분모에 해당하는 값은 ‘비흡연자 가운데 정상인 1명당 암환자 비율’이다. 따라서 이 값이 1보다 많이 크면 ‘암 발생에 대해 흡연은 의학적으로 위험하다’라고 해석한다.


상대위험도 대신 오즈비를 사용하는 이유는 위의 식이 몇 번의 계산과정을 거치면



과 같아지기 때문이다. 식을 자세히 살펴보면 P(암발생|흡연), P(암발생|비흡연) 값 대신 P(흡연|암발생), P(흡연|정상)이 사용된 사실을 알 수 있다. 즉 실험 대상에게 담배를 피우게 한 뒤 암이 발생했는지 여부를 조사하는 대신, 거꾸로 암이 발생한 사람들의 흡연 여부를 조사하면 된다는 뜻이다.

이렇듯 오즈비는 실험을 하지 않고도 특정 요인의 위험도를 구할 수 있기 때문에 의학 연구에 널리 쓰인다. 하지만 오즈비를 상대위험도로 오해하면 그릇된 결론이 나올 수도 있다. 병의 발생률이 매우 작은 경우에는 상대위험도와 오즈비 값이 비슷하기 때문에 둘을 같은 의미로 해석해도 큰 차이가 없지만, 발생률이 크면 두 값의 차이도 커지기 때문이다.

예를 들어 , P(비만|암발생)=0.8, P(정상|암발생)=0.1인 연구결과가 있다고 하자. 이 경우 오즈비는 (0.8/0.2)/(0.1/0.9)=36이다. 하지만 이를 흡연이 암을 일으킬 확률을 36배 높인다고 해석하면 안 된다. 위에서 언급한 상대위험도를 실제로 구하면 8배 정도 밖에 되지 않기 때문이다. 따라서 특정 질병에 대한 위험도를 다룬 뉴스를 접할 때는 둘을 항상 구별해야 한다.



남성차별이 여성차별로 둔갑?
김 씨는 대학을 졸업하고 A회사에 사무직 입사 지원을 했지만 떨어지고 말았다. 아쉬운 마음에 합격자 통계를 보다가 김 씨는 이상한 점을 발견했다. 사무직에 지원한 남성의 합격률(70%)이 여성(80%)보다 훨씬 낮았던 것. 생산직도 마찬가지였다. 남성지원자의 합격률(20%)이 여성 지원자의 합격률(40%)보다 낮았다.

김 씨는 이 자료를 토대로 채용에 남녀차별이 있었다며 회사에 항의했다. 하지만 회사에서 공개한 사무직과 생산직 전체 평균 합격률은 남성(65%)이 여성(48%)보다 오히려 높았다.

 


152년 뒤 100m 달리기에서 여성이 남성 앞선다?
영국 옥스퍼드대 유행병학 전문가 앤드루 테이텀 교수 연구팀은 네이처 2004년 10월호에 발표한 논문에서 ‘152년 후인 2156년 올림픽 육상 100m 달리기에선 여성이 처음으로 남성을 앞설 것’이라고 주장했다.

연구팀은 지난 100년간 올림픽 육상 100m 우승 기록을 분석한 결과 여성의 기록 향상 속도가 남성보다 빨랐으며 이 추세가 유지될 경우 2156년에 남자 100m 우승 기록이 8.098초인 반면 여자는 8.079초가 될 것으로 전망했다. (동아일보 2004년 9월 30일 자)

 


암 발생률 8배에서 36배로 ‘뻥튀기’ 될 수도?
“30년 동안 흡연을 하면 폐암 발생률이 3배 이상 높다는 연구결과가 나왔습니다. 게다가 비만인 남성의 경우 암에 걸릴 확률이 자그만치 36배나 높다는 연구결과도 나왔습니다.”

조건부 확률*
B라는 사건이 일어났다는 정보가 주어졌을 때, A라는 사건이 일어날 확률을 P(A|B)로 표시하고, 이를 B가 주어졌을 때 A의 ‘조건부 확률’이라 부른다.


이우주 >;
서울대 물리학과를 졸업하고, 현재 동대학 통계학과 박사과정에 재학 중이다. 실생활에 연관된 통계 문제에 대해 확률모형을 만들고 최적화를 통한 추론 방법을 연구하는 것에 관심이 많다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2008년 09월 과학동아 정보

  • 이우주 서울대 통계학과 박사과정 기자

🎓️ 진로 추천

  • 통계학
  • 수학
  • 물리학
이 기사를 읽은 분이 본
다른 인기기사는?