d라이브러리











‘야구는 투수놀음’이라는 속설이 있다. 투수가 차지하는 비중, 즉 투수력을 중요하게 여겨 이르는 말이다. 투수력이 팀의 승패에 결정적인 영향을 끼친다고 보는 사람이 많기 때문이다. 그런데 90년대 이후에는 객관적으로 선수를 평가하고 경기를 판단하겠다는 취지로 수학 이론과 데이터를 수치화한 통계 자료를 적극 활용하기 시작했다.

수학을 이용해 야구를 논리적으로 분석하고 전략도 세울 수 있다면 야구는 결국 수학 놀음인 걸까?

야구 속 ‘통계
 
2014년 8월 29일 LA다저스와 샌디에이고 경기의 12회말 1사 만루 2:2 동점 상황에서 재미있는 장면이 나왔다. 1루와 2루 사이에 ‘다저스벽’이 생겼다! LA다저스의 감독 돈 매팅 리는 상식적인 수비 위치와 다르게 중견수와 유격수를 1루수와 2루수 사이로 보내 4명의 수비수로 벽을 만들었다. 2루와 3루 사이의 내야는 3루수 한 명에게 맡겨버렸다. 이게 대체 무슨 일일까?

수비 시프트가 걸린 것이다. 수비 시프트는 타자의 타구 방향 정보에 따라 수비수의 위치를 조정하는 수비전략이다. 물론 위의 상황은 극단적이지만, 미국 야구에서 수비 시프트는 이제 흔히 볼 수 있는 전략이다.

타석에 나온 선수는 샌디에이고의 세스 스미스다. 스미스선수의 평균 타율은 2할 5푼 내외이고 한 해 홈런 개수도 10개 내외다. 위력적인 선수는 아니지만 1점도 내줄 수 없는 상황에서 어떻게든 막아야한다. 어떻게 해야 스미스를 막을 수 있는 확률을 높일 수 있을까?

지금 중요한 것은 평균값이 아닌 ‘최빈값’의 데이터다. 선수의 타구 방향을 분석해 공이 가장 많이 가는 위치를 찾는 것이다. 공이 지나가는 위치의 평균을 구하는 것이 아니다. 세스 스미스의 타구를 분석하자 내야에 떨어지는 공의 대부분이 1루와 2루 사이로 지나가는 경우가 압도적으로 많았다. 그래서 LA다저스는 1루와 2루 사이를 막아버리는 극단적인 시프트를 시도했던 것이다.
 

평균만 대푯값이 아니다.

이런 전략을 세우는 데 사용한 최빈값은 대푯값 중 하나다. 어떤 집단의 속성을 알아 보기 위해 쓰는 대푯값은 다양하다. 가장 흔하게 쓰는 평균은 정확하게 말하면 산술평균으로 집단 내 모든 값의 합을 집단의 개수로 나눠 구한다. 최빈값은 집단에서 가장 많이 관측되는 값을 뜻한다. 작은 값부터 순서대로 나열했을 때 중앙에 있는 값을 일컫는 중앙값도 있다. 이처럼 대푯값은 기준에 따라 달라진다. 예를 들어 1, 4, 5, 5, 5, 6, 8, 9, 9, 9, 12가 있을 때 평균은 6.64, 중앙값은 6, 최빈값은 5와 9가 된다.

결과는 어떻게 됐을까? 스미스의 타구는 역시나 우측 내야로 향했다. 그리고 3루 주자를 포스아웃★ (주자가 있을 경우, 다음 타자가 공을 쳤다면 주자는 무조건 진루해야 한다. 이때 주자가 다음 베이스에 도착하기 전에 아웃되는 것을 포스아웃이라 한다.)시켜 만루상황은 지속됐지만, 아웃카운트를 잡아냈다.

하지만 스미스를 막아낸 다저스는 다음 타자에게 끝내기 안타를 맞고 2:3으로 결국 패했다.

[포스아웃★ 주자가 있을 경우, 다음 타자가 공을 쳤다면 주자는 무조건 진루해야 한다. 이때 주자가 다음 베이스에 도착하기 전에 아웃되는 것을 포스아웃이라 한다.]




야구 속 ‘게임이론

수비수가 1루와 2루 사이에 몰려 있다면, 왜 수비수가 한 명밖에 없는 3루 쪽으로 밀어치지 않는 것일까? 아니면 번트를 댈 생각은 하지 않았는지 의문이 든다.

보스턴 레드삭스의 좌타자 데이비드 오티즈는 극단적으로 당겨 치는 타자로 유명하다. 타자의 시선에서 우측으로 가는 타구가 압도적으로 많다. 그래서 오티즈는 수비시프트에 자주 걸린다. 이 때 수비수와 공격수는 각자 전략을 세운다.

수비수는 원래 수비 위치를 유지해 낮은 확률로 좌측으로 오는 공을 막아낼지, 아니면 우측으로 시프트를 해 높은 확률로 우측으로 오는 공만 수비할 것인지 전략을 세운다.

공격수인 오티즈도 마찬가지로 전략을 세운다. 수비수가 시프트를 건다면 번트를 댈지 아니면 원래 타격에 맞게 당겨서 안타를 만들어 내야할지를 결정해야 한다. 이렇게 전략은 동시에 짜여진다. 그리고 이것을 게임이론으로 설명할 수 있다.



게임이론은 결국 균형으로

게임이론의 가장 유명한 사례인 ‘죄수의 딜레마’는 상대의 전략을 모르는 상황에서 동시에 행동을 한다. 그런데 수비 배치를 눈으로 확인할 수 있는 타자는 이미 상대의 행동을 알고 있는데, 게임이론으로 설명이 어떻게 될까?

게임이론에서는 행동과 전략을 구분해야 한다. 행동은 동시에 이뤄질 수도 있고 순차적으로 이뤄질 수도 있지만 전략은 항상 동시에 세운다는 것이 게임이론의 핵심이다. 전략과 행동이 모두 동시에 이뤄지는 게임을 ‘동시적 게임’이라고 한다. 전략은 동시에 이뤄지지만 행동에는 순서가 있는 게임은 ‘순차적 게임’이라고 한다.
 

순차적 게임은 두 명이 게임에 참가했다고 했을 때 한 명이 먼저 선택을 하면 그 행동에 따라 다른 참가자가 선택을 뒤잇는 것이다. 체스나 바둑이 이에 해당한다. 그래서 순차적 게임은 역방향으로 추론하는 것이 중요하다. 수비 시프트의 경우에는 타자가 상대의 행동을 보고 선택하므로 순차적 게임에 해당한다.

이렇듯 순차적 게임도 행동에만 순서가 있을 뿐 전략은 동시에 세운다. 또한, 전략을 세울 때는 성공률과 실패율뿐 아니라 행동에 따르는 보상의 크기도 생각한다. 10번 중 8번의 타구를 오른쪽으로 안타를 만들어 내는 타자에게 시프트가 걸렸다면, 수비수가 없는 쪽으로 번트를 대서 베이스 하나를 가져갈지, 아니면 장타로 수비수를 다 넘겨 버릴지 결정해야 한다.

보통 타격밸런스의 문제와 보상 때문에 장타자는 수비 시프트가 걸려도 번트보다는 타격을 선호한다. 매번 타격을 할 것 같은 선수가 종종 번트를 대는 장면이 나오는데, 이렇게 여러 가지 전략을 조합해서 쓰는 것은 ‘혼합전략’이라고 한다. 타자가 혼합전략을 효과적으로 쓸수록 수비수는 다시 더 나은 전략을 구상한다. 그리고 결국 반대 방향을 노리거나 번트를 댈 때의 성공률과 시프트를 무시하고 하던 대로 했을 때 성공률이 균형을 이루게 될 것이다.

야구 속 ‘확률


지난 3월 수학동아에서는 올 시즌 한국 프로야구 순위를 예측했다. 이 때 사용한 지표는 빌 제임스가 고안한 피타고리안 승률이다. 피타고리안 승률은 야구에서 핵심적인 이론적 근거다. 수많은 시즌의 누적된 기록을 이용해 야구에 대한 객관적 지식을 찾고자하는 세이버매트릭스의 핵심 지표이기 때문이다. 하지만 아쉽게도 1위팀 삼성 라이온즈와 2위팀 NC 다이노스를 제외하고는 순위가 모두 빗나갔다. 승률은 롯데 자이언츠만 비슷하다. (수학동아 3월호 ‘수학을 알면야구가 보인다’ 참조)


















피타고리안 승률의 한계

피타고리안 승률은 수십 년간 쌓인 기록을 토대로 득점과 실점만으로 승률을 예측하는 지표다.
꽤 정확한 지표라는 평가도 있지만 벗어나는 경우도 있는데, 잘 맞지 않는 팀의 특징은 조금만 생각해보면 알 수 있다. 피타고리안 승률은 득점의 제곱을 득점의 제곱과 실점의 제곱의 합으로 나눈 값이다. 실점이 많을수록 분모가 커져 승률이 낮아진다. 그런데 실점이 많아도 득점을 많이 해 매번 승리를 가져가는 팀이라면 피타고리안 승률이 실제 승률보다 낮게 측정될 것이다. 또 불펜이 강한 팀에서도 실제 승률이 높게 나올 가능성이 많은데, 일단 리드하면 득점이 적어도 실점을 하지 않으면서 승리를 지킬 수 있기 때문이다.

데이터가 더 필요해!

미국 메이저리그는 피타고리안 승률이 실제 승률과 거의 비슷하다는 평가도 있다. 야구통계를 다루는 학회 SABR★가 있을 정도로 미국 야구에서는 수학과 통계학을 이용한 데이터 분석을 중요하게 생각하고, 경기 전략에 활발하게 사용하기 때문이다. 그에 비해 30년이 조금 넘은 수준의 한국 프로야구 데이터는 미비하다. 역사가 짧은 만큼 지표 분석에는 한계가 있을 수밖에 없다.

메이저리그에서는 피타고리안 승률에 득점과 실점의 지수를 처음에는 2를 사용하다가 현재는 1.83을 사용한다. 3월 수학동아에서는 이 지수를 1.87로 설정했다. 이장택 단국대 응용통계학과 교수는 한국데이터정보과학회지에 발표한 논문에서 한국 프로야구 원년부터 2005년까지의 데이터를 이용하면 지수가 1.87이 가장 잘 맞아떨어졌으나, 2013년까지의 데이터를 이용한 경우에서는 지수가 1.82여야 잘 맞는다고 말했다. 한국프로야구의 지표도 데이터가 점점 누적될수록 미국 메이저리그의 지표값과 비슷해지고있는 것이다.

물론 아무리 야구가 수학 놀음이라고 해도 항상 결과가 원하는 대로 나오는 건 아니다. 모든 상황이 예상대로 흘러가지 않는 것이 스포츠를 보는 이유일 것이다. 미국 메이저리그에서 107년간 우승을 하지 못한 시카고 컵스가 올해는 우승할 수 있을지, 한국은 모두가 예상하듯 삼성 라이온즈가 또 다시 우승을 할 수 있을지 궁금해진다. 지난 9월 타계한 전 뉴욕 양키즈 포수 요기 베라는 말했다. 끝날 때까지 끝난 게 아니다.

[SABR★ 미국야구통계학회의 약자로 세이버매트릭스(SABeRmetrics)는 이것에서 유래됐다. 빌 제임스가 처음 고안해낸 세이버매트릭스는 야구 데이터를 통계·수학적으로 분석하는 방법론이다. 이제는 단순한 개인의 취미 차원을 넘어서 야구 전반에서 쓰이고 있을 만큼 널리 퍼져 있다.]

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2015년 11월 수학동아 정보

  • 조혜인 기자
  • 이응석, 김윤재
  • 김성현 이화여대 경제학과 교수
  • 기타

    논문 및 참고자료 : ‘Measuring the accuracy of the Pythagorean

🎓️ 진로 추천

  • 수학
  • 통계학
  • 컴퓨터공학
이 기사를 읽은 분이 본
다른 인기기사는?