d라이브러리









[News & Issue] 과학인가 사기인가 연구신뢰 흔드는 재현성 논란(上)


 
과학 분야에 ‘재현성 논쟁’이 뜨겁다. 과학 전반의 신뢰성을 떨어뜨릴 수 있는 문제로, 쉽게 볼 수 없다. 원인은 여러 가지가 있지만, 최근 특히 통계 기법의 허점을 악용한 부적격 연구가 문제가 되고 있기 때문이다. 이 문제를 2회에 걸쳐 전문가의 칼럼으로 짚어본다. 첫 회는 논쟁의 핵심인 유의확률(p-value)과 영가설 검증을 소개한다.

‘열린과학협력체(OSC)’라는 단체는 그 누구도 시도하지 않았던 야심찬 계획을 최근 몇 년 동안 실천에 옮겼다. 심리학 연구의 ‘재현성’을 직접 측정하겠다는 것. 재현성이란 과학 연구가 서로 다른 시간과 장소에서 서로 다른 과학자들에 의해 독립적으로 수행됐을 때, 동일한 결과가 나오는 정도를 말한다. 당연히, 높은 재현성은 좋은 과학 연구의 필수 조건이다. OSC는 가장 권위 있는 유명 학술지 세 개에 실린 100여 개의 심리학 연구들을 재현해 봤고, 그 결과를 지난해 8월 ‘사이언스’에 발표했다. 결과는 충격적이었다. 절반 이상이 동일한 결과를 얻는 데 실패한 것이다. 통계적으로 유의미한 결과를 보고한 97개의 연구 중 35개(36.1%)만이 재현 시도에서도 같은 결과를 냈다.

사실 재현성 문제는 심리학에 한정된 문제도 아니고, 갑자기 등장한 이슈도 아니다. 오래전부터 다양한 과학 분야에서 많은 과학자들이 재현성 문제에 관해 우려를 나타냈다. 미국 스탠퍼드대 의대 존 이오안니디스 교수는 2005년 ‘왜 출간된 연구 결과들은 대부분 거짓인가?’ 라는 제목의 논문에서 “의학과 생물학 등의 분야에서 학술지에 출간된 연구들 중 상당수가 재현 불가능하다”고 주장했다. 재현 불가능한 연구 결과들이 학술지 지면을 차지하게 되면 많은 부작용들이 생긴다. 연구의 결론을 신뢰할 수 없게 되고 해당 연구에 투입된 인력과 시간, 자원이 무의미해진다. 그 연구를 인용한 다른 연구들의 신뢰성도 위협받고, 궁극적으로는 과학 자체에 대한 불신이 높아질 수 있다.
 

잘못된 자료 분석이 ‘사고’낸다

재현성 문제의 원인은 다양하다. 최근 주로 지적되는 것은 잘못된 자료 분석 관행이다. ‘영가설 유의성 검정(Null Hypothesis Significance Testing, NHST)’으로 알려진 이 절차는, 그동안 과학자들이 가설의 진위 여부를 검증하는 데 가장 널리 사용해 온 통계 방법이다. 이 절차를 통해 자신의 연구가설을 입증하고자 하는 과학자는 먼저 ‘영가설’을 세운다. 영가설은 연구자의 가설이 틀렸다는, 일종의 허수아비 가설이다. 그리고 연구자는 이것의 진위 여부를 검증하기 위해 데이터를 이용해 ‘유의확률(p-value)’이라는 지표를 계산한다.

약간 어렵지만, 과학을 연구하거나 과학 기사를 읽을 때 알아두면 좋으니 조금만 더 설명해 보자. 유의확률의 정확한 정의는 ‘영가설이 참이라고 가정했을 때, 관측된 자료와 동등하거나 더 극단적인 자료가 관측될 확률’이다. 여기서 유의확률이 작을수록 데이터가 영가설을 지지하지 않는 것으로 해석한다. 유의확률이 사전에 정한 어떤 값보다 작으면, 연구자는 이를 영가설이 틀렸다는 증거로 간주하고 자신이 세운 원래 가설이 옳다고 결론 내린다. 이 때 그 어떤 값(문턱값)으로는 0.05 또는 0.01을 사용한다.

예를 들어보자. 어떤 두 사람이 동전 던지기 내기를 하는데, 그 중 한 사람(A)이 “동전이 공평하지 않다”고 주장하고 있다. 영가설 유의성검증 방식에 따라 이 가설을 검증하려면 우선 영가설을 세워야 한다. 이 경우에는 영가설은 A가 주장하는 바가 옳지 않다는 것, 즉 ‘동전이 공평하다’ 라는 것이다. 그리고 실제로 동전을 네 번 던져봤는, 네 번 모두 앞면이 나왔다고 가정해 보자. 이제 유의확률을 계산할 차례다. 앞서 정의한 내용에 따라, 유의확률은 ‘영가설이 참이라고 가정했을 때, 관측된 데이터와 동등하거나 더 극단적인 결과가 나올 확률’이다. 영가설이 참이라고(동전이 공평하다고) 가정했을 때, 관측된 데이터, 즉 ‘동전을  네 번 던졌을 때 네 번 모두 앞면이 나왔다’ 라는 사건과 동등하거나 더 극단적인’ 결과는


만약 이 사람들이 사전에 p=0.05를 영가설이 틀렸다고 간주하는 문턱값으로 결정했다면, 0.125는 0.05보다 큰 값이기 때문에, 영가설을 기각할 수 없다. 다시 말해 그들은 동전이 불공평하다는 결론에 도달할 수 없다. 혹시 어렵더라도 실망하지는 말자. 유의확률 개념은 과학 연구자들에게도 이해하기 어려운 개념으로 소문이 나 있으니까.

영가설 유의성 검정 절차는 지난 수십 년간 과학자들이 과학 이론 및 가설을 검증하는 수단으로 널리 활용돼 왔다. 대학에서 듣는 통계학 수업은 결국 영가설 유의성 검정 절차를 적용하는 방법을 배우는 과정이다. 즉 유의확률을 얻는 방법을 배우는 것이다. 그런데 최근 여기에 문제가 있다는 지적이 끊이지 않고 있다. 이렇게 널리 이용되는 절차에 무슨 문제가 있는 걸까. 다음 호에서 영가설 검증과 유의확률의 허점에 대해 알아본다.

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2016년 04월 과학동아 정보

  • 박준석 심리학자
  • 에디터

    윤신영 기자

🎓️ 진로 추천

  • 심리학
  • 통계학
  • 의학
이 기사를 읽은 분이 본
다른 인기기사는?