d라이브러리









프로야구 시즌이 시작되면 각 경기 기록은 KBO 홈페이지에 매일 업데이트 된다. 그러나 어느 팀이 가장 승률이 높은지, 타율이 높은지 등을 표만 보고 단번에 알기가 어렵다. 이땐 데이터를 시각화하면 원하는 정보를 한눈에 파악할 수 있다.

 

2023시즌 KBO 구단별 기록을 스타 차트로 만들어봤다. 스타 차트는 한 점을 기준으로 변수의 개수만큼 축을 그리고, 변수 사이를 이어 만든 그래프다. 

 

 

기록이 쌍둥이인 선수를 찾아라! 체르노프의 얼굴

 

야구 기록은 지표가 많아 한 선수를 다른 선수와 비교하기 쉽지 않다. 이럴 때 사용하는 그래프가 바로 ‘체르노프 얼굴’이다. 1973년 미국 수학자 허먼 체르노프는 사람들이 얼굴 생김새를 쉽게 구분하는 것에서 착안해 다양한 지표를 사람의 얼굴 모양으로 나타냈다. 얼굴의 윤곽, 입 모양, 귀의 크기 등 얼굴의 구성 요소를 각각의 지표에 대입해 데이터를 시각화한 것이다. 변수는 최대 15개까지 나타낼 수 있는데, 각 변수에 해당하는 데이터 값이 크면 뭐든지 크게 표현된다. 반대로 데이터 값이 작으면 작은 이목구비로 표현된다. 얼굴 색깔은 경기 데이터와 무관하다. 

 

여기서는 타자와 투수를 체르노프 얼굴로 그려 봤다. 먼저 타자는 안타 수가 많은 상위 20명을 대상으로 안타, 홈런, 타율 등 타자 지표를 체르노프 얼굴로 나타냈다. 투수는 승수가 많은 상위 20명을 대상으로 승수, ERA, WAR 등 투수 지표를 이용해 그렸다.

 

그 결과 타자는 타율에서 상위권을 달리고 있는 구자욱, 손아섭 선수의 눈이 크고, 홈런에서 상위권인 노시환, 최정, 최형우 선수는 코가 넓은 것으로 나타났다. 투수는 승수가 많은 에릭 페디, 웨스 벤자민, 라울 알칸타라 선수의 얼굴이 길었고, 삼진을 많이 잡은 페디, 안우진, 이의리 선수는 입이 컸다. 

 

 

승리 투수가 많은 팀, 트리맵으로 알아보기

 

승리를 많이 거둔 투수가 많이 속해 있는 팀을 알아보기 위해 ‘트리맵’으로 데이터 시각화를 할 수 있다. 트리맵이란 데이터를 사각형의 크기로 나타낸 것으로, 큰 사각형을 대분류, 그 안에 여러 개의 사각형을 소분류 형태로 표현한다. 예를 들어 전체 뉴스 안에 스포츠 뉴스, 그 안에 프로야구 뉴스가 있는 것처럼 상위 개념과 하위 개념이 있는 데이터를 시각화할 때 유용하다.

 

트리맵은 1990년 미국 컴퓨터과학자 벤 슈나이더만이 항상 꽉 차 있는 자신의 하드디스크에 어떤 파일이 들어 있는지 궁금해 다양한 방법으로 하드디스크의 상태를 나타낼 방법을 찾다가 고안한 것이다. 

 

여기서는 2023시즌 KBO에서 1승이라도 거둔 투수 156명을 대상으로 트리맵을 만들었다. 대분류는 각 팀이고, 소분류는 각 팀의 승리 투수다. 사각형의 색상과 크기는 승수에 따라 다르게 나타난다. 승수가 많을수록 옅은 녹색이며사각형 크기가 크고, 승수가 적을수록 짙은 녹색이며 사각형의 크기가 작다. 

 

예를 들어 5명의 투수가 있을 때, 한 명은 10승, 다른 두 명은 5승, 나머지 두 명은 3승을 거뒀다고 가정하자. 그러면 10승을 거둔 선수의 기록은 연두색사각형으로 가장 크게 그려지고, 5승인 선수들의 기록이 그 다음 크기의 사각형에 초록색으로 3승을 거둔 선수들의 기록은 가장 작은 사각형에 짙은 초록색으로 나타난다.

 

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

이 기사를 읽은 분이 본
다른 인기기사는?