12월 대통령선거를 앞두고 언론은 대권 주자들의 지지율 조사 결과를 앞 다퉈 발표하고 있다. 후보들은 여론조사 결과를 바탕으로 선거 전략을 짜고, 유권자 역시 어느 후보를 뽑을지 미리 마음을 정하기도 한다. 그렇다면 여론조사는 충분히 믿을만할까. 여론조사가 이뤄지는 과정을 알고 결과를 분석할 수 있다면 마치 규칙을 알고 스포츠 경기를 관람하는 것처럼 흥미로울 것이다.
선거 여론조사는 통계학의 한 분야인 표본조사를 활용한다. 일부의 ‘표본’만으로 ‘모집단’(전체 유권자)의 특성을 알아낼 수 있다. 국의 간을 맞출 때 국을 전부 먹어보는 대신 한두 숟가락만 떠먹어보면 전체의 맛을 알 수 있는 것과 비슷하다. 더 지혜로운 사람이라면 ‘한 숟가락’이라는 표본이 ‘전체 국물’이라는 모집단을 잘 대표하도록 국을 맛보기 전 국자로 휘저어 골고루 섞이게 할 것이다.
그러나 표본조사에는 어쩔 수 없이 오차가 생긴다. 어떤 집단이 표본에 포함되느냐에 따라 결과가 달라질 수도 있다는 얘기다. 오차에는 표본오차와 비표본오차가 있다. 무작위로 표본을 추출했기 때문에 생기는 표본오차는 객관적으로 계산할 수 있는 값으로 표본의 수가 증가할수록 줄어든다.
반면 비표본오차는 정확하지 않은 표본 설계나 조사원의 부주의로 생긴다. 여론조사의 예측이 빗나가는 경우 원인은 대부분 비표본오차에서 발생한다.
믿을만한 표본조사 결과는 표본추출방법과 신뢰수준, 오차범위를 함께 발표한다. 예컨대 ‘95%의 신뢰수준, 오차범위 ±2%’는 ‘표본조사 결과에서 오차가 2%를 초과하는 경우가 100번 중 5번 정도 생길 수 있다’는 뜻이다.
1936년 미국 대통령선거를 놓고 예측이 분분했다. 시사주간지 ‘리터러리 다이제스트’는 사상 최대 규모인 1000만명에게 설문조사를 해 공화당의 후보였던 알프 랜든의 승리를 점쳤다.
그러나 시장조사 전문가였던 조지 갤럽은 5만명의 표본조사만으로 민주당 프랭클린 루스벨트의 당선을 예측했다.
결과는 갤럽의 승리. 비밀은 표본추출에 있었다. ‘리터러리 다이제스트’가 잡지 구독자와 자동차 등록부, 전화번호부에서 표본을 대충 골라 조사한 것과 달리 갤럽은 전체 인구에서 무작위로 선거인을 선정했다. 잡지를 정기구독하거나 전화기조차 살 여유가 없었던 빈곤층은 ‘리터러리 다이제스트’의 사각에 놓여있었던 셈이다.
게다가 설문방식이 우편 조사였기 때문에 응답률은 20%에 불과했다. 결국 비표본오차를 무시했던 ‘리터러리 다이제스트’는 ‘큰 코’ 다쳤다.
이 사건을 계기로 표본조사의 효용성이 널리 알려지기 시작해 요즘은 2000명 정도로도 정확한 예측을 할 수 있다. 우리나라의 경우 역대 대통령선거에서는 적중률이 높았지만 국회의원을 뽑는 총선에서는 여전히 문제점이 많다.
2000년 4·13 총선 때 지상파 방송사의 여론조사는 20여개 지역구에서 당선자 예측이 빗나갔을 뿐만 아니라 원내 제 1당도 맞히지 못했다. 2004년 4·15 총선에서도 여론조사와 출구조사 결과가 크게 어긋나 선거방송심의위원회의 징계를 받았다.
대통령선거보다 표본의 수는 많았지만 응답률이 저조하거나 조사원의 부주의로 비표본오차가 생겼기 때문이다. 또 지지율 차이가 오차범위보다 작을 때도 그 결과를 단정적으로 보도하는 언론의 태도에도 문제가 있다.
여론조사는 과학적인 표본 추출을 통해 수많은 생각을 질서정연한 숫자로 보여준다. 다가오는 대통령선거에서도 여론조사의 예측력이 용하다는 점쟁이의 ‘신기’를 누르며 ‘통계의 예술’을 보여주길 기대해본다.
▼관련기사를 계속 보시려면?
2007 대한민국 수학 부활 프로젝트
PART1 당신의 '수학 혈액형'
PART2 세상을 디자인하는 논리의 힘
암호를 부탁해
통계로 2008년 대선 잡는다
수학의 날개를 단 '김연아'
PART3 수학의 봄날 올까?