d라이브러리









수학은 킹메이커!

 

우리나라는 5년마다 국가 원수를 직접 뽑는 대통령 선거를 치른다. 대한민국의 미래를 좌지우지할 중대한 행사여서 선거철이면 모두의 관심이 선거 관련 소식에 쏠린다. 그런데 선거와 같은 정치 문제에도 수학의 예측력이 눈에 띄게 발휘된다. 

 

버락 오바마 미국 전 대통령은 이 사실을 알고 있었는지 대선 전략에 수학을 톡톡히 이용했다. 2008년 아프리카계 미국인 최초로 미국 대통령이 된 그는 재임을 위해 2012년에도 대선 후보로 나섰다. 당시 그의 선거 캠프는 수학이나 통계학 학위를 가진 사람을 찾아다녔다.

 

파키스탄 출신 데이터과학자 라이드 가니를 주축으로 오바마 선거 캠프의 데이터 분석팀이 꾸려졌다. 가니는 상품 판매, 의료, 금융 등 다방면에서 데이터 분석 경험이 풍부했다. 데이터 분석팀은 방대한 유권자 데이터를 이용해 효과적인 홍보 전략을 짰는데, 가니는 SNS를 분석해 유권자에게 보내는 메시지를 미세 조정하는 알고리듬을 개발했다.

 

전략의 핵심은 ‘마이크로 타겟팅’이었다. 누구에게나 똑같은 공약을 홍보하는 게 아니라 개개인에게 꼭 맞는 정책을 알려주는 것이다. 예를 들어 ‘10대 자녀를 키우는 30, 40대 직장인 여성’은 정부가 청소년을 위해 어떤 일을 할지 궁금할 테니, 교육 정책을 강조해서 소개하는 식이다.

 

이를 위해 오바마 캠프는 유권자를 여러 그룹으로 나눈 뒤 각 그룹의 ‘오바마 지지 가능성’ 공식을 만들었다. 이 공식이 공식적으로 공개된 적은 없지만, 오바마의 대선 전략을 다룬 책 <;빅데이터 승리의 과학>;에서는 *회귀 분석을 통해 산출한 공식이 아래와 같은 변수로 이뤄졌을 것으로 추정했다. 

 

 

오바마는 탄탄한 데이터 분석을 기반으로 한 선거 전략으로 재선에서 승리할 수 있었다. 개개인의 생각과 복잡한 사회 작용을 수학으로 이해할 수 있다는 게 놀라울 따름이다.

 

여론조사 100% 확신하지 마라!

 

선거철에 뉴스를 보면 여론조사 결과 A 후보가 B 후보를 몇 % 차로 이기고 있다는 소식을 종종 접한다. 여론조사는 선거 전에 여러 사람이 지지하는 당과 후보를 알 수 있어 선거 정보를 얻거나 선거 운동을 하는 데 도움이 된다.

 

한국의 유권자는 약 4,400만 명이지만, 여론조사 대상은 1,000~2,000명 정도다. 이런 통계 조사 방법을 ‘표본조사’라고 하는데, ‘모집단’이라고 하는 전체 집단에서 이 집단을 대표할 ‘표본’을 뽑아 조사하는 방식이다. 여론조사의 경우 전체 유권자가 모집단, 여론조사 대상으로 뽑힌 일부가 표본이 된다.

 

완벽하게 무작위로 표본을 뽑으면 1,000명만 조사해도 그 결과를 신뢰할 수 있다. 그 이유는 ‘큰 수의 법칙’ 때문이다. 큰 수의 법칙은 이론적으로 발생할 확률이 p인 어떤 사건에 대해 시행 횟수를 늘릴수록 그 사건이 실제로 발생하는 비율이 p에 가까워진다는 이론이다. 셀 수 없이 많이 동전을 던졌을 때 특정 면이 나오는 비율이 이론적 확률인 0.5에 가까워지는 것이 대표적인 예다.

 

이 덕분에 여론조사를 통해 소수의 의견으로 전체 경향을 알아볼 수 있지만, 완벽하지는 않다. 표본을 무작위로 뽑기가 어렵기 때문이다. 이때 ‘베이즈 정리’로 여론조사 결과를 보정하면 그 오차를 줄일 수 있다. 이는 과거의 투표 결과를 조사 자료에 반영하는 방법이다. 왜냐하면 직전 선거에서 특정 정당에 투표한 사람은 다음에도 같은 선택을 할 가능성이 크기 때문이다.  

 

김재광 KAIST 수리과학과 교수가 계산한 2014년 제6회 전국동시지방선거의 예측 결과를 보면 베이즈 정리의 효과가 드러난다. 김 교수는 당시 JTBC 여론조사 결과에 2012년 대선에서 그 지역의 당별 투표율을 반영해 선거 결과를 예측했다. 예측 결과 기존의 방식대로 진행한 여론조사 결과는 평균 7% 오차를 보였지만, 베이즈 정리로 보정하면 평균 2% 오차였다.

 

 

여론조사 결과 우세해도 안심은 금물!

 

유권자는 각종 여론조사 결과에서 지지하는 후보가 유리하다고 나오면 안심한다. 반대로 불리하다고 나오면 낙담한다. 하지만 선거는 끝날 때까지 끝난 게 아니다. ‘지지층 결집’으로 인해 오히려 사전 지지율이 낮은 후보가 뽑히는 반전이 일어날 수 있기 때문이다. 지지층 결집은 어느 한쪽의 지지층이 똘똘 뭉치는 현상을 말한다. 

 

수학적으로 이 사실을 보여 준 수학자가 있다. 2021년 미국 수학자 스티븐 스트로가츠가 이끄는 연구팀은 투표해도 그만, 안 해도 그만이라고 생각하는 사람이 있을 때 투표 결과가 어떻게 나타나는지를 수학 모형으로 만들어 분석했다.

 

연구팀은 간단한 가정에 따라 수학 모형을 만들었다. 각 유권자는 자신과 가까운 유권자가 누구를 지지하는지 알고 있고, 투표를 안 해도 이길 수 있다고 생각하거나 투표를 해도 진다고 생각하는 경우에는 투표하지 않는다고 가정했다. 이 가정에 따르면 주변 사람들이 자신과 똑같은 후보를 지지할 경우 안심하고 투표하지 않으며, 주변 사람들이 자신과 다른 후보를 지지할 경우 포기하고 투표하지 않는다.

 

이를 바탕으로 지지 성향의 분포와 구조를 바꿔 가며 다양한 유권자 네트워크 구조를 만든 뒤 수학 모형에 적용했다. 그러자 지지율에서 밀리던 후보가 최종 당선되는 뜻밖의 결과가 자주 나왔다. 특히 지지율이 낮은 후보의 지지자가 승부를 박빙으로 생각하고, 지지율이 높은 후보의 지지자가 승리를 낙관할 때 이런 결과가 나오기 쉬웠다. 그러므로 원하는 후보를 당선시키고 싶다면 투표에 적극적으로 참여하는 것이 중요하다.

 

 

전염병 모형으로도 선거 예측

 

Chapter 2에서 살펴봤던 전염병의 확산을 설명하는 수학 모형을 선거 예측에도 이용할 수 있다. 2020년 미국 노스웨스턴대학교와 캘리포니아대학교 로스앤젤레스(UCLA) 등으로 이뤄진 공동연구팀은 전염병 모형 중 하나인 ‘SIS 모형’을 활용해 새로운 선거 예측 모형을 만들었다. 

 

이 모형에서 전체 인구는 전염병에 걸리지 않은 취약군(S)과 전염병에 걸린 감염군(I)으로 나뉘며, 감염군(I)이 회복하면 다시 감염될 수 있는 취약군(S)으로 돌아간다. 이때 시간의 흐름에 따라 각 집단에 속한 사람의 수가 어떻게 변화하는지를 예측할 수 있다.

 

미국 대통령 선거는 두 거대 정당이 대결하는 형태다. 그래서 연구팀은 선거 예측 모형에서 감염을 일으킬 수 있는 병원체가 두 종류라고 가정했다. 즉 민주당(D)과 공화당(R), 그리고 취약군에 해당하는 부동층(U)이 상호 작용하며 판세가 변화하는 것이다. 이때 특정 정당 지지자는 부동층을 설득할 수 있지만, 부동층은 아무에게도 영향을 끼치지 않는다고 가정했다. 부동층은 상호 작용을 통해 어느 한쪽 지지자가 될 수도 있고, 다시 부동층으로 돌아올 수도 있다.

 

 

연구팀이 이 모형을 미국의 상원 의원과 대통령 선거에 적용한 결과 90% 이상의 높은 적중률을 보였다. 특히 버락 오바마 민주당 후보와 밋 롬니 공화당 후보가 맞붙은 2012년 미국 대통령 선거의 적중률은 100%였다. 미국은 *간접 선거제이므로, 어떤 주에서 어느 후보가 승리할지 모두 맞혔다는 뜻이다. 

 

가장 최근에 있었던 2020년 미국 대통령 선거에서도 조 바이든 민주당 후보가 도널드 트럼프 공화당 후보를 꺾을 확률이 89%라고 예측했고, 실제로 바이든 후보가 당선했다.

 

 

용어 설명

*회귀 분석 : 어떤 변수가 다른 변수에 의해 설명된다고 보고, 그 함수 관계를 조사하는 통계적 분석 기법이다.

*간접 선거제 : 유권자가 직접 선거 후보에게 투표하는 것이 아니라 먼저 선거인단을 뽑고 그들이 선거 후보에게 투표해서 당선자를 선출하는 방식이다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2024년 04월 수학동아 정보

  • 수학동아 편집부
이 기사를 읽은 분이 본
다른 인기기사는?