d라이브러리









눈을 크게 뜨고 봐야 하는 통계

“통계청에 따르면 현재 우리나라 인구는 4888만 명이다”와 같은 발표를 들어 봤을 거예요. 통계가 뭐기에 통계만 담당하는 정부기관이 있는 걸까요? 이 말은 우리 생활에 통계가 중요하다는 뜻이겠죠. 과연 통계란 무엇일까요? 우리나라에는 여자가 많을까, 남자가 많을까? 10년 뒤 우리나라 인구는 얼마나 될까? 등 생활 속의 궁금증에 대해, 자료를 조사해 답을 주고 나아가 미래도 예측하는 것을 통계라고 합니다. 즉 어떤 현상을 한눈에 볼 수 있도록 규칙에 따라 수량으로 나타낸 거죠. 이번시간에 선생님과 함께 통계를 공부하면서 통계를 바르게 사용하는 방법도 알아봐요.

자료를 대표하는 여러 값
 

1950년대 초등학교 통지표에는 과목별로 점수가 나와 있었다.


선생님 : 우리 친구들이 가장 많이 쓰는 통계는 평균일 텐데요. 평균은 시험 성적에서도 볼 수 있답니다.
기쁨 : 저는 평균 이야기만 들어도 우울해요. 1학기 기말고사 때 사회 점수 때문에 평균 점수를 많이 까먹었거든요.
선생님 : 그때 기쁨이의 평균 점수는 몇 점이었나요?
기쁨 : 국어 100점, 수학 96점, 과학 100점, 영어 92점, 사회 44점을 받았어요. 그래서 다섯 과목 점수를 모두 더한 다음 5로 나눠서 평균 점수를 구했어요. 총 432점을 5로 나누니까 86.4점이 나왔죠.
선생님 : 시험 성적에 평균 점수가 왜 필요한 걸까요?
소망 : 평균을 알면 다른 학생과 비교해서 내 위치가 어느 정도 되는지 쉽게 알 수 있으니까 쓰는 게 아닐까요?
선생님 : 맞아요. 그런데 성적을 대표하는 값을 구하는 방법에는 평균만 있는 게 아니랍니다. 아까 기쁨이의 평균 점수가 86.4점이라고 했죠?
기쁨 : 네, 그런데 평균 점수만 보면 국어도 86.4점, 과학도 86.4점인 것 같아서 속상해요. 100점 받은 과목이 둘이나 있는 게 하나도 표가 나질 않아요.
선생님 : 여기에 기말고사 성적의 대푯값을 100점으로 만드는 방법이 있답니다.
기쁨 : 우와~, 어떻게요?
선생님 : 지금부터 선생님과 성적을 대표할 수 있는 세 가지 방법에 대해 알아보도록 해요.
기쁨이의 성적에서 빈도수가 가장 많은 점수는 무엇인가요?

100, 96, 100, 92, 44

사랑 : 빈도수라면 횟수를 말하는 거죠? 100점이 2번 있으니까 100점이 가장 빈도수가
많은 점수예요.
선생님 : 잘했어요. 빈도수를 기준으로 하면 100점이 기쁨이의 기말고사 성적의 대푯값이 된답니다. 이렇게 빈도수가 가장 많은 대푯값을 최빈값이라고 해요.
기쁨 : 기분 좋아요. 늘 최빈값으로 성적을 계산하면 얼마나 좋을까요?
선생님 : 하하, 그런데 만일 기쁨이가 두 과목은 100점 받았는데 세 과목이 44점이면 기말고사 성적의 대푯값은 44점이 될 수도 있어요.
기쁨 : 헉, 그럴 바에는 차라리 평균을 쓰는 게 낫겠어요.
사랑 : 그런데 최빈값은 뭔가 정확하지 않은 거 같아요.
선생님 : 그럼 대푯값을 또 다른 방법으로 구해보기로 해요. 기쁨이의 성적을 점수가 낮은 과목에서 높은 과목 순서로 늘어놓아 볼게요.

44, 92, 96, 100, 100

선생님 : 가장 가운데 있는 점수가 몇 점이죠?
소망 : 96점이요.
선생님 : 이렇게 모든 값을 크기 순서로 늘어놓았을 때 가운데 있는 값을 중앙값이라고 해요. 중앙값 역시 대푯값 중 하나죠.
기쁨 : 중앙값도 맘에 들어요. 44점의 기억을 지울 수 있다면 무조건 좋아요.
사랑 : 그런데 대푯값이라면 44점이든 100점이든 골고루 반영해야 하지 않을까요? 모든 점수를 다 반영하는 건 평균밖에 없네요. 전 평균이 가장 좋은 대푯값 같아요.
선생님 : 맞아요. 많은 경우에 평균이 가장 유용하죠.

평균의 함정

선생님 : 자~, 그럼 지금부터 평균이 정말 완벽한 대푯값인지 생각해 보도록 해요.
사랑이와 소망이는 한 달 용돈이 얼마인가요?
사랑 : 1만 원이요.
소망 : 저는 2만 원이에요.
선생님 : 선생님의 한 달 용돈은 60만 원이에요. 누군가 우리의 한 달 평균 용돈을 묻는다면 (60+1+2)÷3=21만 원이 되겠지요.
소망 : 21만 원이면 거의 1년치 용돈인데 선생님 때문에 제 한 달 용돈처럼 돼 버렸네요.
선생님 : 이런 예가 실제로 있었어요. 어느 바닷가에 10가구가 살았어요. 물고기와 조개를 잡으며 힘들게 생활했죠. 그런데 큰 부자가 이 마을의 경치에 반해서 이사를 왔어요. 그러던 어느 날 정부는 마을의 평균소득을 조사해 가난한 마을에 경제적인 지원을 하겠다고 발표했어요. 이 마을의 평균소득은 어떻게 나왔을까요?
기쁨 : 엄청나게 높았겠지요.
선생님 : 그래요. 전국에서 평균소득이 가장 높은 부자마을이 돼 버렸답니다.
사랑 : 어렵게 사는 원래 주민들이 경제적인 지원을 못 받았겠군요.
선생님 : 평균에는 이러한 함정이 있답니다. 그래서 평균을 너무 믿어선 안 되지요.

일부만 조사할 때도 조심해서
 

일부만 조사할 때도 조심해서


선생님 : 통계에서는 전체를 다 조사하기 어려울 때, 일부만 뽑아 표본조사를 해요.
기쁨 : 선생님, 표본이 뭐예요?
선생님 : 전체를 대표하는 일부분을 말해요. 시청률 조사가 좋은 예가 되겠네요. 최근에 ‘제빵왕 김탁구’의 시청률이 40%를 넘었다는 기사가 있었어요. 우리나라 전체 가구의 40%가 이 시간에 이 드라마를 봤다는 이야기인데, TV를 가진 가구를 모두 조사해서 나온 결과일까요?
사랑 : 아니요. 한 시간 안에 모두 조사하긴 힘들겠죠.
선생님 : 그렇죠. 꼭 불가능한 건 아니겠지만 조사하려면 시간과 비용이 아주 많이 필요할 거예요. 그래서 시청률 조사는 전국 각 지역에서 2000여 가구를 표본으로 정해 조사를 한 뒤 전체를 예측한답니다.
기쁨 : 저희 집은 드라마를 밤에 보지 않고 케이블 방송이나 인터넷으로 주말에 몰아서 봐요. 제 주변에도 이런 집이 많은데, 시청률을 조사할 때 고려해야 할 것 같아요.
선생님 : 기쁨이가 아주 중요한 점을 꼬집어 줬네요. 표본조사에서 가장 신경을 써야할 부분이 전체를 대표할 표본을 고르는 방법에 관한 것이랍니다. 표본을 잘못 골라 생긴 이야기를 들려줄게요.

1936년 미국 대통령 선거 때 있었던 일이에요. 당시 대통령 후보는 랜든과 루즈벨트였어요. 보수 성향의 랜든 후보는 잘 사는 계층에게 인기가 있었고, 개혁적인 루즈벨트는 어렵게 사는 사람에게 인기가 많았어요. 선거를 앞두고 한 잡지에서 전화번호부와 자동차를 등록한 명단에 나온 사람들에게 여론조사를 했어요. 그 결과 랜든 후보가 370표, 루즈벨트 후보가 161표로 나왔어요. 이 잡지는 당연히 랜든 후보가 당선될 거라고 예언했지요. 그런데 투표 결과는 정반대였답니다. 랜든이 36.5%, 루즈벨트가 60.8%를 얻어 루즈벨트가 대통령에 당선됐어요.

선생님 : 과연 무엇이 잘못된 걸까요?
사랑 : 투표하는 사람들의 마음이 중간에 바뀐 게 아닐까요?
선생님 : 그렇다고 하기에는 결과의 차이가 너무 커요. 문제는 표본조사에 있어요.
소망 : 표본이요? 전화번호부와 자동차 등록 명단이 큰 문제가 되나요?
선생님 : 만일 요즘이었다면 문제가 없었을 거예요. 하지만 선거는 1936년이었죠. 당시 전화와 자동차는 대부분 부자들이 가지고 있었어요. 조사를 한 사람들 중에 부자가 많을 수밖에 없었으니 표본이 전체를 대표하긴 어려웠겠죠.
사랑 : 아~, 그렇군요. 표본을 어떻게 정하느냐가 통계에 정말 큰 영향을 미치네요.
선생님 : 오늘 살펴 본 것처럼 통계에는 많은 함정이 있답니다. 앞으로 통계를 보면 통계치가 말하는 진실이 무엇인지 한 번 더 생각하는 습관을 기르도록 해요.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2010년 09월 수학동아 정보

  • 최성이 교사

🎓️ 진로 추천

  • 통계학
  • 경제학
  • 사회학
이 기사를 읽은 분이 본
다른 인기기사는?