요즘은 우리가 만드는 정보가 모두 데이터가 된다고 할 수 있는 시대다. 가깝게는 매일 SNS에 수없이 올라오는 사진과 글, 영상부터 스마트워치 같은 웨어러블 기기에서 모이는 신체 데이터, 범죄자를 밝히는 데 유용하게 활용할 수 있는 CCTV 데이터 까지 아주 다양하다. 또, 그 양이 엄청나다. 그래서 ‘빅데이터’라고 한다.
하지만 제대로 분석할 수 없다면, 빅데이터는 쓸모없이 창고 속에서 먼지만 쌓여가는 짐일 뿐이다. 빅데이터의 진정한 가치는 수많은 데이터 사이의 연결고리를 찾아낼 때 드러난다. 여기에는 참신한 아이디어가 중요하다. 관련이 있어 보이는 데이터 사이의 관계는 물론, 관련이 없어 보이는 데이터 사이에서 의미 있는 결과를 찾는 아이디어가 필요한 것이다.
예를 들어 데이터 분석 회사 다음소프트 데이터 분석팀은 치킨과 행복의 관계를 찾아냈다. 치킨이 SNS에 많이 언급될수록 사람들이 행복했을 거라고 보고, SNS 치킨 언급량과 날씨, 경제적인 지표를 활용해 알고리즘을 짜서 ‘치킨지수’라는 척도를 만든 것이다. 분석 결과, 치킨과 행복은 유의미한 관계가 있었다. ‘치킨’이라는 데이터에서 ‘행복’이라는 의미를 찾은 것으로, 관련이 없어 보이는 두 데이터 사이에서 의미를 찾은 통찰력 덕에 가능한 일이었다.
이런 창의적인 아이디어를 실현하기 위해서는 통계학적으로 사고하는 능력이 반드시 필요하다. 통계학은 정리한 데이터를 분석해 의미 있는 결과가 무엇인지 알려주고, 합리적인 의사결정을 할 수 있도록 해준다.
이처럼 통계학에 대한 지식이 점점 더 중요해지면서 통계청에서는 1998년부터 전국의 학생을 대상으로 전국학생통계활용대회를 열고 있다. 올해로 20회를 맞는 이 대회에 참여하기 위해서는 ‘통계포스터’를 제작해야 한다. 직접 주제를 정하고, 자료를 수집해 분석한 뒤, 그 결과를 한 장의 포스터에 담아야 한다.
전국학생통계활용대회에 참여하기 위해 만들어야하는 통계포스터는 주제를 선정한 동기부터 분석
과정, 분석 결과, 논의 사항, 결론까지 한눈에 들어오도록 정리한 포스터다. 탐구 보고서와 비슷해 보이지만, 통계를 반드시 활용해야 한다는 점과 단한 장에 모든 내용을 정리해야 한다는 점이 다르다. 무엇보다 내용이 논리적으로 흐를 수 있도록 시각적으로 잘 표현해야 한다.
통계포스터에서 가장 중요한 건 주제 정하기다. 주제가 참신하고 창의적일수록 좋다. 그렇다고 어렵게 생각할 필요는 없다. 참신한 주제는 우리 생활 속에서 나오는 경우가 많기 때문이다. 작년 출품작 중 ‘SNS를 활용하여 작심삼일 이겨내기’ 같은 통계포스터를 예로 들 수 있다. 학생들이 많은 관심을 갖고 있는 SNS에 스스로 세운 목표와 그 진행 과정을 게시함으로써 작심삼일을 이겨낼 수 있는지 통계적으로 분석해 본 것이다. 실생활뿐만 아니라 과학, 환경 등 다양한 분야에서 사람들이 흥미를 가질만한 재미있는 주제를 선정해 보자.
주제를 정했으면 구체적으로 계획을 세우고 관련자료를 수집해야 한다. 직접 설문 조사나 실험을 하거나, 통계청 및 국가 기관에서 제공하는 데이터를 활용하면 된다. 자료가 모이면 직접 손으로 분석하거나 컴퓨터 프로그램을 이용해 분석한 뒤, 표와 그래프 등으로 요약해 시각화한다. 마지막으로 통계적으로 의미 있는 결론을 낸다. 자료에서 나타날 수 있는 문제점과 해결방안 및 새롭게 발견한 사실이나 시사점을 포스터에 밝혀야 한다는 점을 잊지 말자.
도전! 통계활용대회의 주인공
우수작으로 선정되려면 어떻게 해야 할까? 학교에서 배우지 않는 회귀 분석이나 고급 통계 분석법을 활용하면 되지 않을까? 절대 그렇지 않다.
통계학 지식은 학교에서 공부하는 내용만으로 충분하다. 통계활용대회에서 주로 보는 것은 참신함과 창의성이다. 아래 보이는 2017년 제19회 전국학생통계활용대회 포스터 수상작을 한번 살펴보면 무슨 말인지 이해가 될 것이다.
통계활용대회는 평소에 교과서에서만 보던 통계를 직접 활용해 볼 수 있는 기회다. 또, 평소에 호기심을 갖고 있던 것들을 직접 해결해 궁금증을 해소해 볼 수도 있다. 나만의 통통 튀는 아이디어를 선보일 수 있는 통계포스터를 제작해 제20회 전국학생통계활용대회의 주인공이 돼보자!