d라이브러리









통계적 분석을 할 때 표본을 어떻게 수집하느냐에 따라 결론이 달라질 수 있다. 전체를 대표하지 못하는 표본을 모은다면 ‘표본 선택 편의’라는 오류에 빠진다.

지난 7월 4일 미국 항공우주국(NASA)은 우주왕복선 디스커버리호를 성공적으로 발사했다. 기상 악화로 발사를 두 차례 연기한 가운데 연료탱크에서 단열재 균열을 발견했지만 문제가 없다는 판단에 따라 이날 발사를 강행했다. 우주왕복선은 발사 전에 문제가 나타날 수 있다. 그래도 발사해야 하는지는 중요한 판단이지만 매번 그 판단이 옳은 것은 아니다.

1986년 1월 28일에는 우주왕복선 챌린저호가 폭발하는 참사가 일어났다. 챌린저호가 이륙한 뒤 곧바로 공중에서 폭발하는 처참한 광경은 TV를 통해 전세계로 생중계됐으며 탑승자 가족은 물론 전세계인에게 큰 충격을 줬다.

사건이 일어난 뒤 당시 미국의 대통령이었던 로널드 레이건은 사건의 진상을 밝히기 위해 고위 관료와 저명한 과학자로 조사팀을 구성했다. 그들이 규명해낸 참사의 원인은 바로 발사할 때 사용되는 고체로켓 모터의 접합부위 이상이었다. 그리고 이 사건 뒤에는 ‘표본 선택 편의’라는 통계적 오류가 숨어있었다.
 

은행에서 개인의 신용도를 예측하는 경우는 보통 신용카드를 발급받을 때 자격심사를 거쳐 통과한 사람(왼쪽)과 분석하지만, 사실 신용카드 발급이 거절된 사람까지 포함해야 한다.


기온 낮을수록 로켓 이상 감소?

비극적인 재앙이 일어난 전날 밤 케네디우주센터에서는 열띤 논쟁이 벌어졌다. 일부 관계자들은 우주왕복선 발사를 연기해야 한다고 주장했다. 그들은 사건의 원인이 된 고체로켓 모터의 접합부위를 염려했다.

우주왕복선이 이륙하기 위해서는 두 개의 고체로켓 모터가 필요하다. 로켓 모터를 각각 네 부분으로 분해해 케네디우주센터로 옮긴 뒤 다시 조립해 로켓 동체에 연결했다. 발사를 연기하자는 관계자들은 발사 당일의 날씨를 지적했다. 발사 당일의 기온은 영하 0.56℃로 과거 기록상 최저 기온이었던 11.7℃보다 무려 12℃ 이상 낮았다. 이들은 낮은 온도 때문에 로켓 모터와 동체의 접합에 이상이 발생할지 모른다고 우려했다. 실제 1985년 1월 24일에 발사된 우주왕복선 자료를 근거로 자신들의 주장을 뒷받침했다. 과거 기록상 최저 기온(11.7℃)이었던 이날의 발사는 비록 성공적이었지만 기록상 가장 많은 3곳에서 접합 이상이 발견됐던 것이다.

반면 발사를 강행하자고 주장한 사람들은 과거에 발견된 접합 이상의 수와 기온을 나타낸 그래프를 제시했다. 하지만 이 그래프는 기온과 접합 이상 사이의 관계를 명확하게 보여주지 못하고 있었다. 특히 문제가 되는 1985년 1월 24일의 발사 자료를 빼고 본다면 오히려 기온이 낮을수록 접합 이상은 감소하는 것처럼 보였다. 1985년 1월 24일에 발견된 3곳의 이상을 기온 때문이라고 규정짓기 힘들다는 것이 그들의 주장이었다. 결국 3시간 동안 뜨거운 논쟁을 벌인 끝에 발사를 예정대로 강행하기로 결론을 내렸다.

하지만 다음날의 재앙은 발사 강행을 주장한 이들의 예측이 크게 빗나간 것임을 보여줬다. 논쟁에 참여한 이들은 중요한 사실을 간과하고 결과를 예측했다. 접합 이상이 전혀 발견되지 않았던 발사자료를 포함해야 한다는 사실이었다. 이 자료를 포함해 접합 이상의 수와 기온의 관계를 그래프로 나타내면 명확한 추세를 발견할 수 있다. 즉 온도가 낮아지면 접합이상이 증가한다는 상관관계가 나타나는 것이다. 비극의 원인은 바로 여기 숨어있었다.
 

1986년 1월 28일 우주왕복선 챌린저호는 이륙 직후 바로 폭발했다.


신용평가나 희귀병 진단에서도 나타나

우주왕복선 챌린저호 참사가 우리에게 시사하는 바는 무엇일까. 성급함 때문에 충분히 보고 알 수 있는 사실마저 간과해버리고 말았다는 점이다. 통계학에서 ‘표본 선택 편의’(sample selection bias)는 이와 같은 실수를 말한다. 즉 ‘표본 선택 편의’는 전체를 아우르지 못하는 표본을 선정해 발생하는 잘못된 결과를 가리키는 통계학 용어다.

표본 선택 편의의 대표적 예가 은행에서 하는 개인 신용평가다. 은행에서는 개인에게 돈을 대출할 때 이 사람이 나중에 대출금을 갚을지, 아니면 파산할지를 판단해야 한다. 즉 개인의 신용도가 중요하다. 개인별로 신용도를 0~ 100점 사이로 예측하는데, 은행에서는 이미 신용카드를 발급할 때 자격심사를 거쳐 통과한 사람들만의 데이터를 분석한다. 신용카드 발급이 거절된 사람까지 포함해 신용도를 평가해야 하는데 말이다.

희귀병에 걸린 환자가 병원에서 병을 제대로 진단받을 확률을 예측하는 예에서도 표본 선택 편의가 나타난다. 일반병원 의사를 찾아간 환자들만 조사해 분석한 경우와 그 병에 전문인 의사를 찾아간 경우까지 구분해 분석한 경우는 분명 다른 결과가 나올 것이다.
 

기온에 따른 우주왕복선의 접합 이상 수


전체 대표하는 표본을 택해야

에이즈 환자들의 특성을 분석해 신약을 개발하고자 에이즈 바이러스(HIV)에 걸린 사람들을 대상으로 설문조사를 하는 사례를 보자. 어떤 사람에게 설문할까 고민하다가 국립의료원에 다닌 사람들을 우편으로 설문조사했다. 이 경우 HIV에 걸렸으면서 국립의료원에 가지 않은 사람과, 우편설문을 의뢰받았으면서도 개인정보 노출을 꺼려 응답하지 않은 사람은 제외된다. 결국 설문 결과는 HIV에 걸린 사람 전체를 대표하지 못하는 실수를 범하게 된다.

어떤 집단의 데이터를 보고 통계적 결론을 내릴 때, 전체 집단(가령 우리나라 사람 전체)을 조사하려면 비용이 많이 든다. 챌린저호의 예처럼 발사 때 기온별로 실험을 해 그때마다 접합 이상이 생긴 수를 미리 조사하기엔 비용부담이 크다. 실제 우주왕복선 발사 때 보고된 접합 이상 사례도 많지 않았다. 자료는 당시까지 나타난 접합 이상의 수와 그때의 기온뿐이었다.

이런 현실적 문제를 해결하기 위해 연구된 방법이 있다. 전체를 대표하는 표본(sample)을 수집해 그 표본 데이터를 갖고 전체의 특성을 통계적으로 발견하는 샘플링(sampling, 표본추출)이 그것이다. 샘플링 이론은 품질 관리, 신상품에 대한 소비자 선호도 조사 등에서 매우 유용하게 쓰이고 있다.

문제는 표본을 어떻게 수집하느냐에 달려있다. 표본에 따라 결론이 달라질 수 있기 때문이다. 즉 우리가 분석하려는 전체 집합(예를 들어 우리나라 전체 소비자)을 대표하지 못하는 표본만 수집한다면 문제가 발생한다.

모든 일이 그렇겠지만 특히 예측과 통계적 분석에서 성급함은 잘못된 결과를 부르는 지름길이다. 분석을 위해 정보를 모으고 표본을 선택하는데 간과한 것은 없는지 재차 확인하는 일이야말로 신뢰할 수 있는 예측의 밑바탕이 된다. 전체를 대표하는 표본을 잘 선정했는지 다시 한번 확인해야 한다.

최근에는 표본 선택 편의 문제를 해결하는 방법이 금융, 통계, 계량경제 분야에서 많이 연구되고 있다. 예를 들어 은행이 신용조사를 할 때 우리나라 사람 전체를 조사하는 일은 비용이 많이 들고 조사에 응한 사람이 모두 정확한 대답을 할 것이라 기대하기도 힘들다. 어쩔 수 없이 표본 선택 편의가 나타난다. 그래서 이런 경우 표본 선택 편의를 미리 감안해 보정하는 수학모델을 만들어 예측에 활용한다.
 

지난 7월 4일 우주왕복선 디스커버리호는 비록 연료탱크 단열재에 문제가 있었지만 성공적으로 발사됐다.
 

2006년 08월 과학동아 정보

  • 차경천 박사
  • 박성호 박사과정
  • 진행

    임혜경

🎓️ 진로 추천

  • 통계학
  • 경제학
  • 컴퓨터공학
이 기사를 읽은 분이 본
다른 인기기사는?