그런데 이게 뭐지? 선수 기록을 가져다 달라니까 이상한 그림을 가지고 오면 어떡해?!
잠시만요! 야구 기록, 그림으로 볼게요~
하루도 빼놓지 않고 통계와 마주할 정도로 통계는 우리 생활 깊숙이 파고들어 있다. 우리가 인터넷 포털사이트에서 특정 단어를 검색을 하면 그 기록은 포털사이트의 통계 데이터로 남게 된다. 실시간 검색어나 연관검색어는 통계를 활용한 대표적인 예다.
이렇듯 통계가 생활 곳곳에서 활용되면서 데이터를 활용하는 일이 중요시 되고 있다. 그런데 데이터가 많지 않을 때는 쉽게 데이터의 숨은 의미를 찾을 수 있지만, 100개만 넘어도 데이터만 보고 중요한 정보를 얻기가 어렵다. 따라서 정보를 한눈에 찾아내려면 자료를 시각화 하는 것이 가장 좋은 방법이다. 이건 스포츠에서도 마찬가지다.
실제로 아래의 야구 데이터를 살펴보자. 어느 팀이 가장 승률이 높은지, 타율이 높은지, 홈런을 가장 많이 치는지 표만 보고는 단번에 알기가 어렵다. 물론 일일이 따져서 보면 그 답을 쉽게 알 수 있다. 그러나 이런 데이터가 100개, 1000개가 된다면 결코 쉬운 일이 아니다. 이럴 땐 데이터를 시각화 하면 금세 원하는 정보를 파악할 수 있다.
여기서는 2013 프로야구 팀별 기록을 스타차트로 나타내 보았다. 스타차트는 한 점을 기준으로 변수의 개수만큼 축을 그리고, 변수 사이를 이어 만든 그래프다. 그 결과 승률이 높은 팀은 삼성과 LG, 두산이고, 타율은 두산, 홈런은 넥센이라는 걸 바로 알 수 있다.
추신수와 류현진은 쌍둥이? 체르노프 얼굴
데이터를 한눈에 알아볼 수 있게 하기 위해 수치를 시각화 한다는 말이구나. 그렇다면 아까 보여 준 그 그림은 뭐야? 류현진 선수와 하나도 안 닮은 그 그림말이야? 설마 이게 류현진 선수의 기록은 아니겠지?
야구나 축구 선수의 기록은 변수가 많아 한 선수를 다른 선수와 비교하기가 쉽지 않다. 이럴 때 사용하는 그래프가 바로 ‘체르노프 얼굴’이다. 체르노프 얼굴이란, 다양한 변수를 사람의 얼굴 모양으로 나타낸 것이다. 즉 얼굴의 윤곽, 입 모양, 귀 높이 등 얼굴의 구성 요소를 각각의 변수에 대입해 표현한 것이다. 변수는 최대 15개까지 나타낼 수 있는데 데이터 값이 크면 큰 머리 모양이나, 큰 눈을 갖는다. 반대로 데이터 값이 작으면 작은 이목구비로 표현된다. 단, 얼굴 색깔은 경기 데이터와 무관하다.
1973년 미국의 수학자 허먼 체르노프는 사람들이 얼굴 생김새를 쉽게 구분하는 것에서 착안해 체르노프 얼굴을 고안했다. 통계 데이터를 얼굴로 나타내면 미세한 차이도 금세 알아차릴 것이라고 생각한 것이다.
하지만 체르노프 얼굴은 다른 그래프와 달리 정확한 비율에 따라 그려지지 않는다. 또 익숙하지 않은 사람에게는 숫자 데이터보다도 더 의미를 파악하기 어렵기 때문에 통계 분야에서 자주 사용하는 그래프는 아니다. 그럼에도 불구하고 통계 자료를 그래프로 나타내는 재미가 있어 많은 통계학자들이 활용하고 있다.
여기서는 2013 프로야구에서 활약하고 있는 선수 개개인의 기록을 비교하여 살펴보기 위해 타자와 투수로 나눠 체르노프 얼굴을 그려 봤다. 먼저 타자는 타율이 높은 상위 14명을 대상으로 타율과 안타, 타점 등 15개 변수를 체르노프 얼굴로 나타냈다. 투수는 평균 자책점이 낮은 상위 15명을 대상으로 평균 자책점, 승리한 수, 세이브 수 등 15개 변수를 이용해 그렸다.
그 결과, 타율에서 상위권을 달리고 있는 손아섭, 박용택, 박병호 선수는 얼굴 길이가 길고, 홈런에서 상위권인 박병호, 최정, 최형우 선수는 사각턱으로 나타났다. 도루에서 1위를 달리고 있는 김종호 선수는 환하게 웃고 있는 모습이고, 꼴찌인 이범호 선수는 입 꼬리가 축 쳐진 모양으로 표현됐다.
야구 용어★
타율 : 안타나 홈런을 칠 확률.
루타 : 타자가 안타나 홈런을 쳐서 밟은 루의 수.
멀티히트 : 한 경기에서 안타를 두 번 이상 친 것
WHIP : 피안타 수와 사사구 수를 더한 값을 투구 이닝 수로 나눈 값.
OPS : 장타율과 출루율을 더한 수치.
QS : 퀄리티 스타트로 불리며, 선발 등판한 투수가 6이닝 동안 3점 이하의 자책점을 기록한 경우.
투수들의 기록을 살펴보면 평균 자책점이 낮은 봉중근, 오승환, 신용운 선수는 얼굴 길이가 짧고, 승리한 수가 많은 유먼과 배영수, 세든 선수의 얼굴은 너비가 넓다.
눈치 빠른 사람이라면 알겠지만, 대체로 마무리 투수의 얼굴은 크기가 작고 이목구비도 오밀조밀하다. 반대로 선발 투수의 얼굴은 크기가 크고, 이목구비가 큼직하다. 이는 선발 투수와 마무리 투수의 투구 횟수 때문이다. 선발 투수의 경우 적어도 2000번 이상의 투구를 했지만, 마무리 투수의 경우에는 많아야 800번 정도 공을 던졌다. 당연히 투구 횟수가 적으면 피홈런이나 피안타 수 등의 경기 기록이 선발 투수보다 낮아지게 된다. 따라서 선발 투수와 마무리 투수를 나눠 비교하는 것이 바람직하다.
승리 투수가 많은 팀, 트리맵으로 찾는다!
승리 투수가 많은 팀이 어느 팀인지도 궁금한데, 알 방법이 없을까? 아예 팀을 정해 놓고 그 팀에서 잠재력이 뛰어난 선수를 영입해 오려고. 선수들의 기록을 팀별로 일일이 헤아리려면 시간이 너무 많이 걸린다구. 쉽고 간편하고 알아볼 수 있는 방법 좀 알려 줘~.
1990년 미국의 컴퓨터과학자 벤 슈나이더만은 항상 꽉 차 있는 자신의 하드디스크에 어떤 파일이 들어 있는지 궁금했다. 그는 다양한 방법으로 하드디스크의 상태를 나타낼 방법을 찾았고, 결국 ‘트리맵’을 고안했다.
트리맵이란 사각형의 크기로 데이터를 나타낸 것으로, 큰 사각형을 대분류, 그 안에 여러 개의 사각형을 소분류 형태로 표현한다. 따라서 전체 뉴스 안에 스포츠 뉴스, 그 안에 프로야구 뉴스가 있는 것처럼 상위 개념과 하위 개념이 있는 데이터를 시각화 할 때 유용하게 쓰인다.
여기서는 승리를 많이 거둔 투수가 많이 속해 있는 팀을 알아보기 위해 트리맵을 이용했다. 경기 데이터는 2013 프로야구에서 1승이라도 거둔 투수 100명을 대상으로 했다. 대분류는 각 팀이고, 소분류는 각 팀의 승리 투수 수, 사각형의 색상은 승리한 수다. 예를 들어 5명의 투수가 있을 때, 한 명은 10승, 다른 두 명은 5승, 나머지 두 명은 3승을 거뒀다고 가정하자. 그러면 10승을 거둔 선수의 기록은 연두색으로 가장 작은 사각형에 그려지고, 5승과 3승을 거둔 선수의 기록은 같은 크기의 사각형에 각각 초록색과 짙은 초록색으로 나타난다.
홈런 타자는 사사구도 많다?! 버블차트
오호라~, 이거 정말 신기한데…. 그렇다면 홈런과 사사구(볼넷+사구+고의 사구)의 관계도 밝힐 수 있어? 왜 홈런 타자한테는 투수가 일부러 몸에 맞는 공을 던지거나 볼넷을 많이 던진다는 속설이 있잖아. 실제로 홈런 부분 1위인 박병호 선수가 사사구 수도 1위 더라구.
세 변수를 한 번에 비교해 볼 수 있는 그래프로는 버블차트가 있다. 한 변수는 $x$축, 다른 변수는 $y$축, 나머지 변수는 버블의 면적으로 표시할 수 있다. 버블차트에서는 버블의 크기를 주의 깊게 살펴봐야 한다. 많은 사람들이 데이터 수치를 표현할 때 원의 반지름을 기준으로 나타낸다고 여기지만, 사실은 그렇지 않기 때문이다. 통계에서 이용하는 모든 그래프는 ‘원의 넓이’를 기준으로 데이터 값을 나타낸다.
예를 들어 한 선수는 5개의 홈런을 쳤고, 다른 선수는 10개의 홈런을 쳤다고 가정하자. 그리고 이것을 하나는 원의 넓이를 기준으로, 다른 하나는 반지름을 기준으로 버블로 나타내 보자. 그러면 오른쪽 그림과 같이 나타난다.
그림에서 살펴본 것처럼 기준을 어떻게 세우느냐에 결과는 매우 다르게 나타난다. 따라서 버블차트를 그리고 읽을 때에는 이 점에 주의해야 한다.
한편 홈런을 친 선수 상위 44명을 대상으로 $x$축은 홈런 수, $y$축은 사사구 수, 버블은 고의 사구로 가정한 뒤 버블차트로 나타내면 버블이 대각선 방향으로 늘어선다. 즉, 투수가 홈런을 잘 치는 타자에게 사사구를 많이 던지는 것으로 해석할 수 있다. 하지만 홈런의 수가 많아진다고 버블의 크기가 커지는 것은 아니기 때문에, 투수가 일부러 홈런 타자에게 공을 맞히는 건 아니라고 볼 수 있다.
도전! 체르노프 얼굴 만들기
나도 직접 체르노프 얼굴을 그리고 싶은데, 방법이 없을까? 추신수 선수와 류현진 선수가 진짜 쌍둥이처럼 나오는지 내 눈으로 확인하기 전까지는 믿지 못하겠거든.