
똑같은 도구와 똑같은 방법으로 실험하면 누가 하든 똑같은 결과가 나와야 합니다. 그래야 과학적이라고 할 수 있지요. 그런데 최근 생명과학과 의학, 사회과학, 심리학에서 많은 실험이 재현되지 않아 문제가 되고 있습니다. 그 원인으로 P-value가 지목되면서 몇몇 극단주의 성향의 과학자들은 연구에서 아예 사용하지 말자고 주장하고 있습니다. 대체 P-value가 무엇이기에 과학자를 사기꾼으로 만든다고 주장하는지 지금부터 알아봅시다.
지난 2014년 학술지 <;사이언스>;와 <;네이처>;, 미국립보건원 주관으로 논문 심사와 출판에 관한 지침을 마련하는 행사가 열렸습니다. 생명과학과 의학에서 재현성 논란이 일었기 때문입니다. 이에 권위 있는 학술지 30여 개의 편집자들과 과학계 지도자, 연구비 지원 기관 사람들이 한 자리에 모여 논문을 어떻게 심사하고 출판할 것인지에 대해 이야기를 나눴습니다.
지침에 따르면 학술지는 연구자에게 해당 연구에 쓰인 통계가 정확한지 확인하기 위해 어떻게 심사할 건지 알려줘야 합니다. 원고 분량에는 제한을 두지 말아야 합니다. 분량이 정해져 있으면 실험에 대해서 자세히 설명할 수 없어 자칫 실험을 재현하는 데 필요한 정보를 빠뜨릴 수 있기 때문입니다. 또 누구라도 실험을 검증할 수 있도록 실험데이터를 공개할 수 있는 공간을 마련해야 합니다. 대신 연구자는 실험에 대해 최대한 자세히 소개해야 합니다.
다시 해도 똑같은 연구는 11%뿐
대체 재현성 문제가 얼마나 심각하기에 이렇게까지 하는 걸까요? 2012년 미국의 생명과학자 글렌 베글리가 <;네이처>;에 쓴 글을 보면 깜짝 놀랄 수밖에 없습니다. 지난 10년간 발표된 암 관련 주요 연구 53건 중에서 단 6개만이 재현에 성공했기 때문입니다. 베글리는 당시 암 치료제를 개발하는 얌젠의 수석 과학자로, 약을 개발하기 전에 관련된 연구를 재현하는 일을 했습니다. 그런데 단 11%의 연구만이 재현된 것이지요.
한편 2005년 존 이오아니디스 미국 스탠포드대 의학 교수는 의학연구의 대부분이 거짓이며, 참인 결과도 그 효과가 과장됐다고 주장한 연구를 발표해 의학계에 파장을 일으켰습니다. 그 근거로 허술한 실험 설계와 지나치게 적은 실험 대상을 꼬집었지요. 이 논문은 지금까지 3600번 인용될 정도로 유명합니다.


재현성 문제의 원인은 여러 가지입니다. 수십 번 실험한 뒤 한 번 성공한 것을 논문으로 썼을 수도 있고,
의미 있는 결과를 내기 위해 입맛에 맞게 데이터를 변형했을 수도 있지요. 그 중 연구자가 잘 몰라서 문제
를 일으키는 원인이 ‘P-value’입니다.
연구자들은 실험이 얼마나 의미가 있는지 수치로 나타내기 위해서 통계를 사용합니다. 사실 실험을 설
명할 수 있는 통계적인 방법은 여러 가지가 있습니다. 하지만 연구자들 모두가 통계전문가가 아니기 때
문에 가장 쉬우면서도 유용한 방법을 써왔지요. 그게 바로 ‘P-value’입니다.
P-value를 구하기 위해서는 가장 먼저 ‘귀무가설’과 ‘대립가설’을 세워야 합니다. 일반적으로 귀무가
설은 연구에 의미가 없다는 식의 가정입니다. 반대로 대립가설은 연구에 의미가 있다는 가정이지요. 그래서 연구자들은 귀무가설을 기각해 연구에 의미가 있다고 주장하고 싶어 합니다.
데이터 많으면 오류의 횟수도 많다!
P-value는 귀무가설이 참이라는 가정 아래 얻은 통계량★이 귀무가설을 얼마나 지지하는지를 나타낸 확
률입니다. 대개 P-value가 0.05 이하로 매우 작으면 귀무가설을 기각하지요. 하지만 이 값은 어디까지나
확률이기 때문에 100번 중에 5번은 틀립니다.
그렇다면 0.05에 특별한 의미가 있냐고요? 그건아닙니다. P-value를 만든 영국의 통계학자 로널드피셔가 다른 통계학자들과 정한 기준이에요. 어차피 100% 확실한 방법은 없으니 적당한 수준에서 정한 것이지요. 이 때문에 과학 연구에서 문제가 생기고 있습니다.
유전체 연구를 예로 들어볼까요. 어떤 유전자가 암을 일으키는지 알아내기 위해 유전자 10만 개와 암의
연관성을 따집니다. 문제는 5% 확률로 잘못된 결과를 내놓기 때문에 10만의 5%, 즉 5000개의 유전자가
암과의 연관성이 전혀 없으면서도 관련이 있다고 나오게 됩니다(제1종 오류). 그래서 유전학자들은 0.05를 10만으로 나눈 값을 기준으로 삼자고 제안했습니다. 그렇게 하면 오류가 발생할 확률이 훨씬 더 작아
지니까요.

그런데 이렇게 했더니 암과 관련된 유전자라고 밝혀지는 게 하나도 없었습니다. 이 경우는 제1종 오류와 반대로 특정 유전자가 암과 관련성이 있는데도 없다고 오류(제2종 오류)를 일으키는 것이지요. 유전학자는 대개 막대한 비용을 투자받아서 연구하는데 연구 성과가 없으니 매우 난감했지요. 그래서 최근에는 ‘FDR’이라고 하는 방법을 많이 사용하고 있습니다. 문제는 이 역시 기준이 엄격하지 않아 잘못된 결과를 많이 이끌어 낸다는 겁니다.
연구의 중요성과 상관 없어
흔히 P-value를 연구의 효과가 얼마나 큰지 나타내는 척도로 생각합니다. 예를 들어 귀무가설은 ‘신약이 치료에 효과가 없다’고, 대립가설은 ‘신약이 치료에 효과가 있다’예요. P-value는 0.02가 나왔어요. 그러면 사람들은 귀무가설을 지지하는 확률이 2%밖에 안 되니까 대립가설을 지지하는 확률이 98%나 된다고 생각합니다. 즉 신약이 치료에 효과가 있을 확률이 98%라고 여기지요.
하지만 이는 틀린 해석입니다. P-value는 귀무가설이 옳다는 가정 아래 구한 값으로, 단지 실험데이터를 대표하는 통계량이 귀무가설과 매우 다르다는 것뿐이에요. 법정에서 무죄 추정의 원칙에 따라 실제로 죄를 지었어도 증거가 부족하면 소송을 기각하지요. 마찬가지로 P-value가 0.05보다 작은 값으로 나타나면 귀무가설을 지지하는 증거가 부족해 효과가 없다는 가정을 기각합니다. 그럼에도 대립가설이 옳다거나 연구에 효과가 크다거나 하는 말은 할 수 없어요.


지난 3월 7일 미국통계학회(이하 ASA)는 P-value를 제대로 알고 사용하자는 의미를 담은 성명서를 발표했습니다. 론 바서스타인 ASA 회장은 “P-value를 잘못 사용하는 사례가 많아지면서 통계학 전체를 의심하는 사람들이 많아지고 있다”며, “P-value는 통계적으로 유용한 방법으로 제대로 알고 사용하면 많은 문제를 해결할 수 있다”고 밝혔습니다.
사실 P-value에 관한 문제는 이를 개발한 로널드 피셔도 알고 있었습니다. 하지만 이를 해결할 방법이 밝혀지기도 전에 쉽다는 이유로 많은 사람들이 쓰기 시작했지요. 사실 P-value를 대신할 통계적 방법이 개발돼 있는 분야도 있습니다. 하지만 이해하기가 어려워 많이 쓰이고 있지 않습니다. 계속해서 의미 있는 결과가 나올 확률을 구하는 방법인 ‘재현성 측도’도 개발됐지만, 이 역시 그 내용이 어려워서 얼마나 사용될지 아직 모릅니다.
이런 와중에 몇몇 통계학자들은 P-value의 대안으로 비교적 쉬운 베이즈 방법론이나 의사결정 모델링 같은 방법을 사용하자고 이야기합니다. 하지만 ASA에서는 이 역시 매우 위험다고 지적하고 있습니다. P-value보다 더 많은 가정을 필요로 하기 때문입니다. 따라서 P-value만큼 유용하면서 오류 걱정도 없고 사용하기도 쉬운 방법이 개발되기 전까지는 P-value를 제대로 알고 올바르게 사용해야 한다는 게 ASA의 입장입니다.
과학 연구를 대하는 우리의 자세
지금 당장 재현성 문제가 해결되지는 않을 겁니다. 이미 2년 전부터 저명한 학술지에서는 재현성 문제를
해결하기 위해 여러 지침을 만들어 운영하고 있지만 아직 이렇다 할 변화가 일어나고 있지는 않습니다. 작은 학술지에서는 이런 지침을 따르기가 쉽지 않기 때문입니다. 실험데이터를 모두 공개하려면 이를 올
릴 인터넷 공간이 필요한데 그러려면 비용이 많이 들지요. 아직 완벽하게 연구를 설명할 쉽고 유용한 통
계적 방법도 없고요. 하지만 과학자들이 노력하고 있으니 이 문제는 점차 좋아지겠지요.
그러면 우리는 어떻게 해야 할까요? ‘매일 통밀빵 20개 먹으면 암 예방한다’, ‘아스피린, 하루 2알 먹으
면 암 예방한다’와 같은 기사를 본 적이 있을 겁니다.

사실 통밀빵을 20개나 먹는 사람은 건강을 위해서 꾸준히 운동하고 몸에 해로운 음식을 먹지 않는 등 다른 노력을 했을 겁니다. 또 통밀빵이 암을 예방하는 데 효과가 있다고 해도 그 차이는 매우 사소할 거예요. 따라서 P-value만 믿고 마치 통밀빵 20개만 먹으면 암을 예방할 수 있는 것처럼 이야기해서는 안 됩니
다. 연구 결과를 볼 때 이런 문제점은 없는지 한 번 살펴보세요. 연구가 과장되지는 않았는지, 이런 결과를 가져온 다른 이유가 있는 건 아닌지 꼼꼼히 따져보길 바랍니다.


