
과학 분야에 ‘재현성 논쟁’이 뜨겁다. 과학 전반의 신뢰성을 떨어뜨릴 수 있는 문제로 결코 쉽게 볼 일이 아니다. 원인은 여러 가지가 있지만, 최근 특히 통계 기법의 허점을 악용한 부적격 연구가 문제가 되고 있다. 이 문제를 2회에 걸쳐 전문가의 칼럼으로 짚어본다. 이번 화에서는 영가설 검정의 문제를 살펴보고 이와 관련한 새로운 논의를 살펴본다.
미국 코넬대 심리학과 대릴 벰 교수팀은 2011년, 초능력의 일종인 ‘초감각적 지각(ESP)’이 가능하다는 주장이 실린 논문을, 사회심리학 분야 최고 학술지 ‘성격 및 사회심리학(JPSP)’에 발표해 파문을 일으켰다.
연구팀은 참가자들을 연구실에 앉혀 놓고, 그들이 직접 볼 수 없는 컴퓨터 화면에 야한 그림을 포함한 여러 가지 그림 중 하나를 무작위로 띄워 놓은 뒤 참가자들에게 어떤 그림인지 맞히라고 했다. 참가자들은 50%를 약간 웃도는 정답률을 보였는데, 연구팀은 유의확률이 0.05보다 작다는 것을 근거로 실험 결과가 우연이 아니며 인간에게 초감각적 지각능력이 있다고 주장했다. 짐작하듯, 이 논문은 출간직후부터 동료 과학자들의 거센 반발에 부딪혔고 논란의 대상이 됐다.
무엇이 문제였을까. 지난 화에서 유의확률(p-value)과 영가설 검정의 개념을 알아봤다. 수십 년 동안 과학계에서 이론과 가설을 검정하는 수단으로 널리 이용됐지만, 최근 이에 대한 의문을 표시하는 과학자들이 늘고 있다고 했다. 이 초능력 연구는 그 극단적인 사례 중 하나다.
초능력을 뒷받침하는 이상한 검정법
많은 사람들이 믿는 것과 달리, 유의확률은 영가설 또는 ‘연구자의 가설이 거짓일 확률’에 대해 말해주지 않는다. 유의확률은 ‘특정 자료가 관측될 확률’에 관한 진술이지, 가설 자체에 대한 진술이 아니기 때문이다. 그런데도 불구하고 많은 연구자들이 유의확률을 특정 가설이 참/거짓일 확률로 잘못 해석한다.
연구자가 유의확률에 영향력을 행사해 연구가설을 지지하는 결과로 만들 수 있다는 점도 문제다. 두 가지 방법이 가능하다. 유의확률이 충분히 작아질 때까지 실험을 계속하는 방법과(실험 데이터를 계속 모으면 0에 가까워진다), 통계적으로 유의미한 문턱 값, 즉 0.05보다 작은 유의확률이 나올 때까지 계속 서로 다른 영가설 유의성 검정 절차를 수행하는 방법이다. 가설을 지지하는 결론이 나올 때까지 데이터를 ‘고문’한다고 할까. 이런 전략은 ‘유의확률 해킹(p-hacking)’이라고 부르며, 지난 3월 생물학 학술지‘플로스 바이올로지’에서 실태를 다루기도 했다.
2014년 2월, ‘네이처’가 유의확률 문제에 대한 논문을 실었다. 2015년 초에는 심리학 학술지 ‘기초 및 응용 사회심리학’이 유의확률 사용을 완전히 금지한다고 발표했다. 이 급진적인 조치는 격렬한 논쟁을 불러일으켰고, 급기야 올해 3월에는 미국통계학회에서 이 문제에 대해 정식으로 성명서를 발표하기에 이르렀다. 성명서는 유의확률의 해석과 사용에 관해 여섯 가지 원칙들을 제시했는데, 통계학자들 역시 영가설 유의성 검정 절차가 과학연구 현장에서 일으키는 문제들에 대해 심각하게 받아들이고 있음을 잘 보여준다.

새로운 검정 방법을 시도하다
대안은 없을까. 유의확률에만 의존하지 않고 다양한 통계자료들을 함께 사용해 가설을 검정하자는 주장이 있다. 미국심리과학회(APS)는 ‘새로운 통계학’이라는 정책을 내놨다. 2014년 초에 ‘심리과학’지를 통해 발표된 이 정책은 과학적 가설검정 과정에서 유의확률과 함께 효과크기, 신뢰구간 등의 다양한 통계치들을 함께 사용할 것을 권장하고 있다. 이 권고사항들은 점점 학계의 표준으로 자리잡아가고 있다.
일부 연구자들은 아예 영가설 유의성 검정 절차와는 다른 새로운 통계분석 방법을 도입할 것을 주장한다. 최근 과학자들은 ‘베이지언 통계학’으로 알려진 새로운 통계적 추론방식에 주목하고 있다. 아직 과학계에 널리 보급된 것은 아니지만, 베이지언 통계방법론은 영가설 유의성 검정의 문제를 해결할 수 있는 보완재 내지 대안으로 점점 각광받고 있다.
데이터분석 관행이 바뀌어야 한다는 데에는 과학자들 사이에 큰 이견이 없어 보인다. 과학연구의 재현성과 신뢰성을 향상시키기 위해 꼭 필요한 작업이기 때문이다. 재현성 위기는 과학계에 닥친 큰 시련이지만, 동시에 과학이 자정 능력을 갖고 있음을 보여줄 수 있는 절호의 기회이기도 하다. 과학의 건전성을 스스로 증명하기 위해, 과학자들은 오늘도 노력하고 있다.
