카타르 월드컵 개막이 코앞으로 다가왔다. 태극전사들이 이번엔 16강에 진출할 수 있을까? 선수와 팀에 대한 각종 데이터를 학습한 인공지능(AI)을 활용하면 경기 결과를 예측할 수 있다. 과학동아도 직접 예측 모델을 만들어봤다.
누구나 이해할 수 있는 쉬운 모델이니 함께 따라해보자.
치킨을 뜯으며 축구 경기를 기다리는 시간을 더 두근두근하게 해줄 것이다. 한국 팀의 본선 성적을 맞춘 사람에겐 상품이 기다린다.
4년마다 돌아오는 전 세계인의 축제, 2022년 카타르 월드컵이 11월 20일 시작된다. 월드컵 역사상 최초로 아랍 지역에서 열리는 이번 월드컵에서 한국은 다시 한번 16강을 정조준한다. 한국은 우루과이, 가나, 포르투갈과 함께 본선(32강) H조에 포함돼 있다. 11월 24일 우루과이를 시작으로 11월 28일 가나, 12월 3일(한국시간) 포르투갈과 차례로 맞붙는다.
한국은 2010년 남아공 월드컵에서 16강에 진출한 뒤 계속 16강 도전에 실패했다. 최근 12년간 16강 진출에 실패한 적 없는 우루과이는 루이스 수아레스, 에딘손 카바니 등 전설로 불리는 선수들을 중심으로 한국과 맞붙는다. 때문에 해외 게임배팅 회사에서 공개한 배당금엔 큰 차이가 있다. 영국의 게임배팅 회사 ‘bet365’는 우루과이 승, 무승부, 한국 승에 차례로 1.75, 3.50, 4.75의 배당률을 공개했다. 한국이 우루과이에게 이길 확률이 낮다고 판단해 배당률을 높인 것이다.
한국 축구 대표팀에 박한 평가를 내린 게 이들뿐만은 아니다. 축구통계전문 매체 ‘디애널리스트’가 과학동아에만 알려준 한국의 카타르 월드컵 우승 확률(10월 15일 기준)은 0.16%에 불과하다.
이런 확률은 어떻게 나온 걸까. 그 속을 까보면 이번 월드컵을 두 배로 즐길 수 있지 않을까. 그래서 과학동아도 직접 만들어봤다. 카타르 월드컵 16강 진출 확률을 예측하는 인공지능(AI) 모델! 전문가들의 예측모델만큼 정교하진 않지만 독자들도 직접 참여할 수 있는 간단하고 직관적인 모델을 구축하는 데 주안점을 뒀다.
예측 모델을 만드는 과정에는 석주영 카이스트 전산학부 4학년 학생과 조수연, 김시온 이화여대 컴퓨터공학과 2학년 학생이 함께했다. 이들은 열렬한 축구 팬으로 이번 프로젝트에 지원했다. 프로젝트는 9월 27일부터 10월 12일까지 약 2주 동안 진행됐다.
STEP 1. 영양가 좋은 밥 짓기: 데이터 특징 추출
AI가 상용화되면서 스포츠 예측 모델은 과거 통계 기반에서 현재 신경망 기반으로 패러다임이 바뀌었다. 하지만 AI를 활용한다고 반드시 전통적인 통계기법보다 더 좋은 결괏값이 나오는 건 아니다. 승부 예측에 미치는 영향력이 높은 요소를 분석하고 추출해 이를 기계에 학습시켜야만 성능이 좋은 모델을 만들어 낼 수 있다.
영향력 있는 특징이 무엇인지 찾는 과정이 시작됐다. “FIFA 랭킹은 반드시 들어가야해요. FIFA 랭킹은 팀의 전력과 성적을 대변하는 숫자니까요.” “연봉은 프로 스포츠 선수들의 기량을 대표하는 데이터니 활용할 수 있을 것 같아요.” “최근 경기에 중점을 두고 학습시킬 필요가 있어요.”
논의를 통해 다양한 데이터가 공개돼 있는 온라인 사이트 ‘캐글’에서 기초가 될 데이터셋을 찾았다. 1993년부터 2022년 6월까지 열린 모든 국제 경기 결과가 정리된 데이터셋과, 전 세계 국가의 FIFA 랭킹이 나와 있는 데이터셋 등이다.
똑똑한 모델을 만들고 싶다면 승부 예측에 영향을 크게 미치는 요소를 뽑아내 가르쳐야 한다. 이를 특징추출이라 부른다. 캐글에서 찾은 데이터셋에서 총 6개의 특징을 추출했다. 최근 5경기 승리 개수, 팀별 FIFA 랭킹 변화, 평균 FIFA 랭킹, FIFA 포인트 차이, 골 득실, 친선경기 여부다.
친선경기를 컵대회와 구분해야 한다는 조언은 김보찬 대한축구협회 국가대표팀 전력분석관이 했다. 김 전력분석관은 “축구 국가대표팀을 분석할 때는 경기의 중요도가 큰 변수”라고 말했다. 월드컵 경기 결과와 친선경기 결과를 같은 선상에서 놓고 살펴봐서는 안 된다는 것이다.
같은 친선경기라고 해도 월드컵 본선 직전의 경기와 이후의 경기의 중요도 역시 다르다. 이 때문에 김 전력분석관은 경기의 성격을 정성적으로 구분해 데이터를 취급해야 한다고 설명했다. 우리는 월드컵 직전 경기인 최근 5경기 승리 개수를 추출해 이 점을 모델에 학습시켰다.
STEP 2. 데이터를 꼭꼭 씹어먹은 모델, 내놓은 답은?
머신러닝에는 다양한 알고리즘이 있다. 데이터와 함께 우리가 원하는 결괏값(이번 프로젝트에서는 경기 결과 예측)이 무엇인지를 알려주면 각각의 알고리즘은 자신들만의 방식으로 데이터를 분석해 그 답을 내놓는다.
알고리즘의 정확도는 얼마나 될까. 머신러닝 지도학습 분야의 대표적인 알고리즘 8개를 활용해 모델을 만들고 각각의 예측 정확도를 확인해봤다. 예측 정확도는 과거의 경기 결과를 통해 알 수 있다. 모델이 내놓은 예측값과 실제 승·패 여부를 비교하는 것이다. 알고리즘은 최고 68.28% 최저 53.46%의 정확도를 보였다. 우리는 각각 68.28%, 68.25%, 67.96%의 정확도를 보이는 세 개의 알고리즘을 활용해 과학동아 예측 모델을 구축했다.
마지막으로 모델이 내놓은 승리 확률을 16강 진출 확률로 변환했다. 이를 위해 3승, 2승 1무, 2승 1패 예측값이 나올 때 16강에 진출한다고 가정했다. 물론 2승 1패를 하더라도 16강에 탈락하는 사례가 있었지만 이는 1승 2무로 16강에 승선하는 경우와 상쇄시켰다.
0.3949488599110874
과학동아가 만든 카타르 월드컵 머신러닝 예측 모델이 내놓은 한국 16강 진출 확률이다. 반올림을 하면 40%의 확률로 16강에 진출할 수 있다는 예측이 나왔다. 같은 H조의 포르투갈은 70%, 우루과이는 60%, 가나는 23%의 확률로 16강에 진출할 것으로 예측됐다.
한편 개최국인 카타르의 16강 진출 확률은 25%로 예측됐다. 이번 월드컵 우승 후보로 꼽히는 프랑스, 브라질, 스페인은 각각 70%, 75%, 65%로 높은 16강 진출 확률을 보였다.
간절함이 만드는 월드컵,
숫자는 숫자일 뿐 연연하지 말자!
“공은 둥글다.” 1954년 스위스 월드컵에서 독일을 우승으로 이끌었던 제프 헤르베르거 감독이 남긴 이 명언은 축구 경기의 예측불가능성을 단적으로 보여준다.
4년 전에 열린 2018년 러시아 월드컵에서 한국은 세계 최강이라는 독일 대표팀을 상대로 2:0 승리를 거뒀다. 하지만 볼 점유율과 패스 성공률, 유효슈팅 비율 등 축구 경기력을 나타내는 지표를 살펴보면 처음부터 끝까지 독일이 지배한 경기였다. 이 때문에 러시아 월드컵 독일전은 ‘간절함’이 승부의 외적 변인으로 작용한 사례로 꼽히기도 한다. 이제 한 달이 채 남지 않은 카타르 월드컵에서도 간절함이 기적을 만들길 기대해 본다.