대통령이 되고 싶나요? 선거에서 이기려면 좋은 정책과 훌륭한 후보 외에 한 가지가 더 필요합니다. 바로 전략이죠. 이기고 싶다면 저, 대통령 메이커를 따라오세요. 동물적 감각이 아니라 이성적인 수학으로 선거에서 승리하는 법을 알려드립니다.
오바마 캠프 데이터 분석팀의 수석 과학자 라이드 가니.
캠프에 합류하기 전 소비자의 구매 이유를 분석하는 ‘장바구니 분석’ 기법을 한 단계 발전시켰던 장본인이다.
2012년 미국 대통령 선거에서는 수학이 대세였습니다. 당시 후보였던 버락 오바마의 선거 캠프가 수학이나 통계학 학위를 가진 사람을 찾아다녔죠. 그렇게 꾸린 데이터 분석팀은 방대한 유권자 데이터를 이용해 효과적인 홍보 전략을 짰습니다. 여기에 수학이 크게 기여했기 때문에 오바마가 승리할 수 있었어요.
전략의 핵심은 ‘마이크로 타겟팅’입니다. 누구에게나 똑같은 공약을 홍보하는 게 아니라 개개인에게 꼭 맞는 정책을 알려주는 거죠. ‘10대 자녀를 키우는 30대 직장인 여성’은 정부가 청소년을 위해 어떤 일을 할지 궁금할 테니, 교육 정책을 강조해서 소개합니다.
오바마 캠프는 유권자를 여러 그룹으로 나눈 뒤 각 그룹의 ‘오바마 지지 가능성’ 공식을 만들었습니다. 고한석 빅토리랩 대표는 자신의 책 ‘빅데이터 승리의 과학’에서 이 공식이 아래처럼 다양한 변수로 이뤄졌을 것으로 추정했습니다.
전략의 핵심은 ‘마이크로 타겟팅’입니다. 누구에게나 똑같은 공약을 홍보하는 게 아니라 개개인에게 꼭 맞는 정책을 알려주는 거죠. ‘10대 자녀를 키우는 30대 직장인 여성’은 정부가 청소년을 위해 어떤 일을 할지 궁금할 테니, 교육 정책을 강조해서 소개합니다.
오바마 캠프는 유권자를 여러 그룹으로 나눈 뒤 각 그룹의 ‘오바마 지지 가능성’ 공식을 만들었습니다. 고한석 빅토리랩 대표는 자신의 책 ‘빅데이터 승리의 과학’에서 이 공식이 아래처럼 다양한 변수로 이뤄졌을 것으로 추정했습니다.
성별과 인종 같은 변수가 지지 가능성 변수에 얼마나 영향을 끼치는지 보이시죠. 이 공식을 만드는 과정을 회귀분석★이라고 해요. 공식이 더 복잡해지면 어떤 공약을 홍보해야 지지 가능성을 크게 높일 수 있는지도 알 수 있습니다.
회귀분석★ 어떤 변수가 다른 변수에 의해 설명된다고 보고 그 함수 관계를 조사하는 통계적 해석 기법.
물론 전문가들은 우리나라에서 이런 마이크로 타겟팅 전략이 쉽지 않다고 말합니다. 미국만큼 데이터 과학자가 많지 않고 개인 정보에 대한 규제도 강하기 때문이죠. 그렇다 하더라도 우리나라에서 적용할 수 있는 필승 전략은 얼마든지 있습니다. 너무 많아서 고르기 힘들 정도로요.
유리한 정치적 위치를 찾아라!
우리나라 대통령 선거는 표를 가장 많이 얻는 사람이 이기는 다수결 투표제입니다. 20세기 경제학자 앤서니 다운스는 통계학자 해럴드 호텔링의 공간모형★을 응용해 다수결 투표제에서 후보가 어떤 정치적 입장을 취해야 유리한지 계산했습니다. 이를 호텔링-다운스 모형이라고 하죠.
호텔링의 공간모형★ 기업 혹은 가게의 위치에 따라 상품의 가격이 어떻게 결정되는지 설명하는 모형.
모형은 정치적 입장을 선분으로 표현합니다. 각 후보자가 선분 위 한 점을 자신의 입장으로 택하는데, 왼쪽일수록 진보성이 강하고 오른쪽일수록 보수성이 강해요. 점을 옮겨도 당선 가능성이 높아지는 후보가 없는 상황을 ‘균형’이라 합니다. 누구도 정치적 입장을 바꿀 이유가 없지요.
다운스는 아래과 같이 가정해 두 명이 대결할 때 균형을 계산했습니다. 그림➊처럼 후보자 나진보가 0.2, 나보수가 0.6에 있으면 0~0.4 위의 유권자는 나진보와 가깝고 나머지는 나보수와 가깝기 때문에 나보수가 60% 득표율로 이깁니다. 나진보는 표를 더 얻기 위해 오른쪽으로 가고, 나보수는 이에 질세라 왼쪽으로 오겠죠. 그러다 두 후보가 50%씩 득표하면 균형을 이룹니다. 두 후보 모두 중도적 정책을 내는 게 유리한 거죠.
두 명이 대결할 때 정책 차이가 없어 보이는 건 이 때문입니다. 보수 후보는 경제적 불평등을 해결하겠다는 진보적 공약을, 진보 후보는 안보를 강화하겠다는 보수적 공약을 내죠. 투표 결과도 50% 내외에서 큰 차이 없이 나타납니다.
후보자가 홀수일 때는 외톨이가 돼야
세 명이 대결할 때는 균형이 여럿입니다. 그림➋처럼 선분을 이등분해 나진보는 왼쪽, 나보수와 장보수는 오른쪽에 있다고 해봅시다. 나보수는 나진보와 장보수 사이에서 움직여봐야 득표율이 그대로고, 나진보의 왼쪽이나 장보수의 오른쪽으로 움직이면 오히려 득표율이 떨어집니다. 당선이 목표인 나진보와 장보수도 움직일 이유가 없으므로 균형을 이룹니다. 반대로 왼쪽 선분에 두 명, 오른쪽 선분에 한 명이 있어도 균형이지요.
이처럼 삼자대결일 때는 혼자 진보 후보이거나, 혼자 보수 후보여야 이길 수 있어요. 그래서 2012년 대통령 선거에서 진보적 유권자들이 문재인 당시 후보와 안철수 당시 후보 중 한 명이 포기해야 한다고 했던 겁니다. 둘 다 왼쪽에 있었기 때문에 박근혜 당시 후보가 이길 게 뻔했거든요.
4월 20일 현재 가장 최근에 실시된 리얼미터의 여론조사에 따르면 지지율 3%를 넘는 주요 후보가 다섯 명입니다. 이때도 균형은 여러 개입니다. 그중 하나가 두 명은 중도진보, 한 명은 중도, 두 명은 중도보수인 경우죠.
하지만 김성현 이화여자대학교 경제학과 교수는 “지금은 양자대결 모형으로 해석하는 게 정확하다”고 말합니다. 심상정 후보와 유승민 후보, 홍준표 후보의 목표가 당선이 아니라 지지층을 다지는 데 있는 것으로 보여 점이 고정돼 있기 때문입니다. 후보자의 목표가 당선이어야 하는 호텔링-다운스 모형의 가정을 만족하지 않는 거죠. 그러니 고정점은 빼고 양자대결로 해석해야 합니다.
여론의 왜곡을 저지하라!
여론조사의 정확성은 민감한 문제입니다. 이번에도 KBS와 연합뉴스가 의뢰해 코리아리서치가 4월 8~9일 진행한 여론조사가 표본을 제대로 뽑지 못했다고 지적받았죠. 조사 결과가 유권자의 마음에 영향을 미칠 수 있어서 후보들은 항상 여론조사가 정확한지 경계합니다.
한국의 유권자는 약 4000만 명이지만 여론조사는 1000명 정도를 대상으로 합니다. 이때 전체 유권자를 모집단, 여론조사 대상으로 뽑힌 일부를 표본이라 부릅니다. 완벽하게 무작위적으로 표본을 뽑으면 1000명만 조사해도 꽤 믿을 만한 결과가 나와요. 국을 끓일 때 양념이 고루 배어 있다면 한 숟가락만 떠서 간을 봐도 전체 맛을 알 수 있는 것과 마찬가지 원리죠.
하지만 실제로는 무작위로 뽑기가 어렵습니다. 전화 여론조사의 경우 전화를 받기 힘들 정도로 바쁜 사람과 정치적 의견을 밝히기 꺼리는 사람의 의견도 충분히 들어야 하는데, 그러려면 짧게는 3~4일, 길게는 일주일 가량이 걸립니다. 하지만 우리나라 전화 여론조사는 비용과 시간 문제로 보통 1~2일만에 완료되죠. 응답률이 낮다는 비판도 이런 문제와 관련 있습니다.
베이즈 정리★로 조사 결과를 보정하면 비슷한 비용으로도 오차를 줄일 수 있습니다. 과거의 투표 결과를 조사 자료에 반영하는 겁니다. 직전 선거에서 특정 정당에 투표한 사람은 다음에도 같은 선택을 할 가능성이 높으니까요. 선거 예측을 잘하기로 유명한 미국 통계학자 네이트 실버도 일종의 베이즈 정리를 사용합니다.
베이즈 정리★ 두 확률 변수의 사전 확률과 사후 확률에 대한 정리로, 통계학자 토마스 베이즈가 처음 서술했다.
베이즈 정리★ 두 확률 변수의 사전 확률과 사후 확률에 대한 정리로, 통계학자 토마스 베이즈가 처음 서술했다.
김재광 KAIST 수리과학과 교수와 임종호 아이오와주립대학교 통계학과 박사후연구원이 계산한 선거예측 결과를 보면 베이즈 정리의 효과가 드러납니다. 기존의 방식대로 진행한 여론조사 결과는 평균 7% 오차를 보이는데, 보정하면 평균 2%의 오차를 보입니다.
가짜뉴스를 없애고 투표율을 높여라!
2016년 미국 대통령 선거에서 가짜뉴스가 논란이 됐습니다. “클린턴 후보가 이슬람 국가에 무기를 판매했다”는 거짓말이 진짜 뉴스보다도 널리 퍼진 거죠. 후보에 불리한 소식이 많아지면 지지자는 마음을 돌리거나 투표를 포기해버립니다. 가짜뉴스를 걸러내는 방법을 찾아야겠죠.
이건 쉬운 일이 아닙니다. 지금은 수없이 많은 뉴스가 인터넷으로 퍼져 사람의 손으로 일일이 거짓을 걸러내기엔 한계가 있어요. 그래서 과학자와 수학자들이 컴퓨터가 자동으로 진짜와 가짜를 알아볼 수 있도록 아이디어를 내고 있습니다.
‘생각 조종자들’의 저자 엘리 프레이저가 만든 구글 문서 ‘미디어 리디자인’은 이런 아이디어를 모으고 있습니다. 누구나 글을 쓸 수 있는 이 문서는 현재 200쪽에 달합니다. 구글의 검색 알고리즘을 응용해 웹페이지의 기록 데이터로 뉴스의 신뢰도를 따지자는 의견이 여기서 나왔죠.
2017년 1월 차미영 KAIST 문화기술대학원 교수가 만들어 플로스원 저널에 실은 소문 판별 알고리즘도 대안이 될 수 있습니다. 차 교수는 거짓 소문과 진실에서 자주 나타나는 단어의 종류와 각각이 인터넷에서 퍼지는 양상이 서로 다르다는 걸 이용했어요. 소문이 발생한 초기에는 단어의 차이가, 나중에는 퍼지는 양상의 차이가 크다는 것도 소문 판별 알고리즘에 반영했습니다.
가짜뉴스를 없앨 완벽한 방법은 아직 없지만 수학계와 과학계의 노력은 진행 중입니다. 선거가 정정당당하게 치러져야 저, 대통령 메이커도 승리를 안기는 보람이 있으니까요.
가짜뉴스를 없애고 투표율을 높여라!
2016년 미국 대통령 선거에서 가짜뉴스가 논란이 됐습니다. “클린턴 후보가 이슬람 국가에 무기를 판매했다”는 거짓말이 진짜 뉴스보다도 널리 퍼진 거죠. 후보에 불리한 소식이 많아지면 지지자는 마음을 돌리거나 투표를 포기해버립니다. 가짜뉴스를 걸러내는 방법을 찾아야겠죠.
이건 쉬운 일이 아닙니다. 지금은 수없이 많은 뉴스가 인터넷으로 퍼져 사람의 손으로 일일이 거짓을 걸러내기엔 한계가 있어요. 그래서 과학자와 수학자들이 컴퓨터가 자동으로 진짜와 가짜를 알아볼 수 있도록 아이디어를 내고 있습니다.
‘생각 조종자들’의 저자 엘리 프레이저가 만든 구글 문서 ‘미디어 리디자인’은 이런 아이디어를 모으고 있습니다. 누구나 글을 쓸 수 있는 이 문서는 현재 200쪽에 달합니다. 구글의 검색 알고리즘을 응용해 웹페이지의 기록 데이터로 뉴스의 신뢰도를 따지자는 의견이 여기서 나왔죠.
2017년 1월 차미영 KAIST 문화기술대학원 교수가 만들어 플로스원 저널에 실은 소문 판별 알고리즘도 대안이 될 수 있습니다. 차 교수는 거짓 소문과 진실에서 자주 나타나는 단어의 종류와 각각이 인터넷에서 퍼지는 양상이 서로 다르다는 걸 이용했어요. 소문이 발생한 초기에는 단어의 차이가, 나중에는 퍼지는 양상의 차이가 크다는 것도 소문 판별 알고리즘에 반영했습니다.
가짜뉴스를 없앨 완벽한 방법은 아직 없지만 수학계와 과학계의 노력은 진행 중입니다. 선거가 정정당당하게 치러져야 저, 대통령 메이커도 승리를 안기는 보람이 있으니까요.