d라이브러리












1920년 미국의 유명잡지 ‘리터러리 다이제스트’는 대통령 선거를 앞두고 6개 주(州)의 거주자에게 엽서를 보냈다. 공화당 후보와 민주당 후보 가운데 누구에게 투표할 것인지 물었다. 이 잡지는 1924년, 1928년, 1932년까지 대통령 당선인을 정확히 맞췄다. 그러나 1936년 선거에서 문제가 발생했다.

1936년 리터러리 다이제스트는 1000만 명에게 투표용지를 발송해 236만7230장을 회수했다. 공화당 후보인 알프레드 랜던은 57%의 지지를 얻어 민주당 후보인 프랭클린 루스벨트(43%)를 크게 앞설 것으로 예측됐다. 그러나 정작 투표함을 열자 루스벨트는 62.5%를 득표해 37.5%에 그친 랜던에게 압승했다.

리터러리 다이제스트는 1000만 장의 투표용지를 보냈는데, 이 숫자는 당시 3가구당 1집 꼴로 보낸 것이다. 어마어마한 양이다. 반면 갤럽여론조사소는 훨씬 적은 1500명을 조사해 루스벨스 55%, 랜던 44%의 득표를 예측했다. 표본수는 훨씬 적었지만 오히려 실제 득표율에 근접했다.

왜 리터러리 다이제스트는 여론조사에서 실패했을까. 대규모 표본을 얻고도 모집단의 의견을 제대로 반영하지 못했기 때문이다. 여론조사의 목적은 소수에게 의견을 묻더라도 집단의 모든 구성원에게 물었을 때와 똑같은 결과를 얻는 데 있다. 성별과 나이, 지지 정당, 소득, 학력, 직업 등과 상관없이 표본으로 뽑힐 확률이 누구나 같아야 한다는 얘기다.

그러나 이 잡지는 전화번호부와 자동차 등록부에서 추출한 표본, 즉 상대적으로 부유한 사람 중심으로 표본을 뽑았다. 된장국의 간을 볼 때 먼저 숟가락으로 국솥을 휘저어 균일하게 만든 다음 맛을 봐야 하는데, 리터러리 다이제스트는 식어버린 국솥의 윗부분만 많이 떠먹은 셈이다. 이 사건은 실패한 여론조사의 대표적인 사례로 알려져 있다.




한국에서 선거 예측조사는 1987년 제13대 대선에서 처음 등장했다. 당시 민주정의당 노태우 후보 36.6%, 통일민주당 김영삼 후보 28.0%, 평화민주당 김대중 후보 27.1%, 신민주공화당 김종필 후보 8.1%의 득표율을 기록했다. 이때 여론조사를 한 한국갤럽의 예측치는 노태우 후보 35.3%, 김영삼 후보 28.4%, 김대중 후보 27.5%, 김종필 후보 8.3%로 각 후보의 순위와 득표율을 거의 정확히 맞췄다.

한국갤럽은 3일에 걸쳐 면접원이 가정집을 방문해 개별면접을 실시했다. 응답자가 솔직하게 응답할 수 있도록 해당 지역 사투리를 쓰는 면접원을 투입하고, 농촌 지역에는 여성 면접원이 진한 매니큐어를 바르거나 미니스커트를 입지 않도록 했다.

1980년대는 민주화에 대한 정치적 탄압이 컸던 때라 정치적 견해를 밝히는 일이 쉽지 않았다. 이를 반영하듯 1987년 대선에서 노태우 후보의 지지자들은 ‘모르겠다/무응답’의 비율이 높았다. 야당 후보를 지지하는 젊은 계층은 적극 응답하는 데 비해 여당 후보자를 지지하는 나이 많은 계층이나 저소득층은 분명한 표현을 하지 않았던 것이다.

실제로 한국갤럽의 최종 여론조사에서 노태우 후보는 27.8%, 김영삼 후보는 26.0%, 김대중 후보는 25.1%, 김종필 후보는 7.9%, 기타 후보는 0.2%였고, 모르겠다/무응답이 13.1%였다. 이 결과만 놓고 보면 누가 당선될지 알 수 없다.

정확한 예측을 위해 한국갤럽은 ‘판별분석’을 실시했다. 판별분석이란 성, 나이, 교육수준, 직업, 거주지역 등을 고려해 특정 후보의 지지성향을 추출해 내고 ‘모르겠다/무응답’ 집단이 어느 후보를 지지할 것인지 예측하는 분석기법이다. 가령, 아버지 고향이 대구인 60대 여성이 지지정당으로 민주정의당을 선택했다면 노태우 지지자로 분류하는 방식이다.

대다수 가정에 집전화가 보급된 1997년 제15대 대선부터는 면접조사를 대신해 전화조사가 시작됐다. 당시 김대중 후보는 40.3%를 얻어 이회창 후보(38.7%)를 역대 대선사상 최소인 1.6%p차로 제치고 대통령에 선출됐다. 이때 한국갤럽은 김대중 후보 39.9%, 이회창 후보 38.9%로 선거결과를 정확히 예측했다.






여론조사에서 가장 고민되는 점은 ‘모르겠다/무응답자’의 비율을 줄이는 것이다. 여론조사 기관들은 이를 위해 각각 한국인의 정서를 고려한 질문지를 개발하고 있다. 미국이나 프랑스처럼 “이번 대통령 선거에서 어느 후보에게 투표하시겠습니까?”라고 직설적으로 물으면 솔직한 응답을 얻기 어렵기 때문이다.

한국갤럽도 우회적으로 묻는 질문을 개발했다. “이번 대통령 선거에 민주자유당 후보로 김영삼 씨, 민주당 후보로 김대중 씨, 통일국민당 후보로 정주영 씨 등이 출마합니다. 선생님께서는 이 중 누가 대통령이 되는 것이 조금이라도 더 좋다고 생각하십니까?”처럼 완곡한 어법을 사용하는 것이다. 이런 질문을 사용하면 ‘모르겠다/무응답’의 비율이 줄어든다. 이처럼 여론조사는 한국인의 심리를 고려한 질문지 개발이 중요하다. 이 때문에 여론조사기관에는 대학에서 심리학을 전공한 사람들이 많이 일하고 있다.


2002년 제16대 대선에서 한국갤럽은 처음으로 당선인 예측에 실패했다. 선거 전날 예측치는 이회창 신한국당 후보 46.4%, 노무현 민주당 후보 48.2%로, 실제 결과인 이회창 후보 46.6%, 노무현 후보 48.9%와 매우 비슷한 수치였다.

그러나 선거 전날 정몽준 국민통합21 대표가 노무현 후보에 대한 지지를 철회함으로써 12월 초부터 추적해 왔던 조사데이터가 무의미해졌다. 지지철회로 정몽준 지지자들의 표심이 이회창과 노무현 중 어디로 향할지 가늠할 판별분석의 근거가 사라진 것이다.

결국 선거 당일 투표를 마친 응답자를 대상으로 실시한 전화조사 결과를 예측수단으로 사용했다.

오후 2시 30분. 한국갤럽은 전화조사를 조기에 마감하는 실수를 저질렀다. 투표 당일 오후부터 인터넷과 휴대전화를 통해 노무현 후보에 대한 투표 독려가 이뤄지면서 시간대별 투표성향이 달라졌다. 이회창 지지자들은 오전에, 노무현 지지자들은 오후에 투표가 몰린 것이다. 이로 인해 한국갤럽은 이회창 후보의 당선을 예측했지만 결과는 노무현 후보의 승리였다. 이때의 실패를 교훈 삼아 한국갤럽은 시간대별로 응답속도를 조절해 표본의 대표성이 훼손되지 않도록 하고 있다.

가령, 평일 오후 6시 이전에 조사를 종료하면 직장에서 귀가할 여성, 고학력자, 화이트칼라 계층에 속하는 사람들의 목소리가 반영될 수 없다. 따라서 사회 여론조사는 평일 오후 4~9시 사이에 20~30대 젊은 층의 응답이 충분히 포함되도록 해야 한다.




2007년 제17대 대선에선 많은 조사기관들이 오차범위를 벗어난 예측 결과를 쏟아냈다. 당시 한나라당 이명박 후보와 대통합민주신당 정동영 후보는 격차가 컸는데 이때 제3후보 지지자들의 성향을 제대로 파악하지 못했던 것이다. 많은 조사기관들이 판별분석에 실패하면서 3위를 기록한 무소속 이회창 후보의 득표율을 실제보다 낮게 예측했다.

대다수 조사기관들은 이명박 후보가 지지율 50%를 넘을 것으로 내다봤다. 하지만 실제 결과는 이명박 후보 48.7%, 정동영 후보 26.1%, 이회창 후보 15.1%로 나타났다. 당시 YTN에서 의뢰한 한국리서치의 조사 결과는 이명박 후보가 49.0%를 얻을 것으로 예측해 실제 결과와 가장 근접한 수치를 기록했다(정동영 후보 25.3%, 이회창 후보 12.7%).

한국리서치는 한 차례 집전화 조사에 응답한 사람들에게, 계속해서 전화조사에 답할 것인지 동의를 구한 뒤, 여러 시기에 걸쳐 의견을 묻는 ‘패널조사’를 실시했다. 패널조사에 동의한 응답자는 그렇지 않은 응답자에 비해 지지하는 정당이나 후보를 적극적으로 밝히는 경우가 많다. 현재 야당 지지자들의 응답이 타 기관에 비해 많을 수밖에 없고 덕분에 이명박 후보의 지지율이 50%를 넘지 않게 예측됐다. 이 때문에 결과적으로 예측에 성공한 것이다.

지난해 18대 대선에서 보수세력은 새누리당으로, 진보세력은 민주당으로 최대한 결집한 양강구도였다. 나머지 후보들의 예상득표율은 1% 미만으로 낮았고, 무응답자의 비율은 예년 대비 크게 줄었다. 이때는 판별분석이 큰 역할을 하지 못했다.

최 종 투표율은 75.8%로 17대 대선(63.0%)보다 12.8%p 늘어났다. 패널조사에서 지지하는 정당이나 후보를 적극적으로 밝히지 않은 여당 지지자들이 투표소로 집결한 것이다. 이로 인해 한국리서치(YTN)는 5000명이라는 적지 않은 표본을 추출해 패널조사를 했지만 5년 만에 달라진 선거 환경에서 1, 2 위 가 뒤바뀐 예측을 했다.






2010년 6월 지방선거를 기점으로 전화조사는 큰 전환기를 맞는다. YTN은 오세훈 후보가 52.1%로 한명숙 후보(41.6%)보다 10.5%p 압승하는 결과를 예측보도했다. MBN의 보도에선 두 후보 간 격차가 21%p(오세훈 후보 57.4%, 한명숙 후보 36.4%)까지 벌어졌다. 실제 개표결과는 오세훈 후보 47.4%, 민주당 한명숙 후보 46.8%로 격차는 0.6%p에 불과했다.

여당 지지율이 과다 예측된 이유는 전화번호부 때문이었다. 여론조사 회사들이 사용하는 KT 전화번호부에 등재된 사람들은 여당 지지자가 많다. 아무래도 한 지역에 오래 살고 있거나 자기 집을 갖고 있는 고연령층의 보수성향자들이 많은 것이다. 이들에서 표본을 추출하면 여당 지지율이 실제보다 더 높게 나오게 된다.

KT 전화번호부가 모집단(유권자)을 대표할 수 없다는 인식이 이뤄지면서 지난해부터 RDD 방식이 적극 도입됐다. RDD 방식이란, 지역번호와 지역별 국번을 제외하고 나머지 번호를 0부터 9까지 무작위로 입력해 만든 전화번호를 사용하는 조사방식이다. 컴퓨터가 미리 결번 전화번호를 확인한다. 기존의 KT 전화번호부는 모집단의 40% 정도만 대표하지만 RDD 번호를 생성하면 이 비율이 80%이상으로 늘어난다.

최근에는 혼자 사는 인구가 늘면서 집전화를 쓰지 않고 휴대전화만 이용하는 가구가 증가하는 추세다. 또 젊은 층이나 직장인의 경우 여론조사가 실시되는 시간에는 주로 집 밖에서 활동한다. 그래서 RDD 방식의 휴대전화번호를 추가해 집전화번호와 섞는 조사방식이 도입됐다. 휴대전화와 집전화를 어떻게 섞어야 하는지 아직 황금비는 없다. 다만 경험적으로 각각 절반씩 섞었을 때 가장 비슷한 결과를 얻는 것으로 알려져 있다.




면접원이 질문 내용을 직접 불러주는 전화조사 이외에 녹음한 질문 내용을 들려주고 번호를 누르게 하는 ARS(자동응답시스템) 방식도 있다. 이번 대선에서 리얼미터가 사용한 방식이다. 이 회사는 RDD 집전화와 RDD 휴대전화의 비율을 50%씩 섞어 박근혜 후보 49.6%, 문재인 후보 49.4%의 초박빙 승부를 예상했다.

ARS 방식은 응답자가 통화음이 연결되면 곧바로 끊어버리는 경우가 많아 응답률이 5%미만으로 알려져 있다. 일반 전화조사의 응답률이 20~30%인 것과 비교하면 몹시 저조하다. 그만큼 특정 후보에 대한 충성도가 높은 지지층에선 응답률을 높여 한 쪽에 치우친 결과를 가져올 가능성이 크다. 또한 상대적으로 응답자가 적은 20~30대로 나이를 속이고, 지지후보를 선택하면 여론을 조작할 수 있다. 이 때문에 2011년 한국통계학회는 “현 시점에서는 ARS 조사방법의 과학성을 인정할 수 없다”는 입장을 발표했다.

이번 대선에서 한국갤럽은 RDD 집전화와 RDD 휴대전화를 50%씩 섞어 조사원이 2000명에게 전화면접을 하는 방식을 사용했다. 이를 통해 선거 전날인 18일 박근혜 후보 51.5%, 문재인 후보 47.8%로 실제 투표와 거의 일치하는 결과를 얻었다. 그러나 선거 당일 투표율이 75.8%로 예전보다 치솟자 20~30대의 투표율이 증가할 것으로 내다봤다. 이를 반영해 젊은 층의 지지표에 가중치를 준 결과 박근혜 후보 50.2%, 문재인 후보 49.4%로 예측했다. 결국 전날 예측보다 실제결과에 못 미치는 아쉬움을 남겼다.

이번에는 한국갤럽이 유권자의 간을 제대로 보았지만, 5년 뒤에도 똑같은 결과가 나온다고 장담할 수는 없다. 이번에 틀렸던 한국리서치(YTN)는 지난 대선에서는 오히려 가장 정확했다. 여론조사에서 가장 중요한 것은 모집단에 가장 가까운 표본을 추출하는 것, 그리고 솔직한 마음이 나오도록 세심하게 조사하는 것이다. 그러나 시대가 달라지면 이전에 정확했던 방식이 어긋나게 된다. 그래서 실패를 많이 경험한 여론조사 기관이 다음번 선거에서 무엇을 해야 하는지 잘 알게 된다. 여론조사는 실패를 통해 발전하는 과학이다.

 

2013년 02월 과학동아 정보

  • 에디터 김상연 | 글 서금영 기자

🎓️ 진로 추천

  • 통계학
  • 정치외교학
  • 심리학
이 기사를 읽은 분이 본
다른 인기기사는?