d라이브러리 1995년 06월 과학동아

통계는 많은 정보를 간단한 숫자나 진술로 압축해줌으로써 인간에게 도움을 준다. 그러나 통계를 잘못 활용하면 엉뚱한 결과를 얻을 수도 있다. 통계에 속지 않고 통계를 이용하는 길은?

통계학계에서 고전이 되다시피한 인용구 중 디즈레일리의 것이 있다.

"거짓에는 세가지가 있다. 거짓, 새빨간 거짓, 그리고 통계"라는 말이 그것이다. 그만큼 통계에는 일반인은 물론이고 통계학자 스스로도 속아 넘어갈 수 있는 소지가 많이 있다는 말인 듯하다.

새빨간 거짓말보다도 더 거짓스럽다는 통계란 과연 무엇일까. 또 이렇게 거짓투성이인 통계에 그토록 많은 사람들이 매달리는 이유는 무얼까.

송인섭(숙명여대 교육심리학과) 교수에 따르면 통계란 간단하게 말해 사실과 숫자를 뜻한다. 미국의 사회심리학자 더렐 허프는 통계를 '표본을 써서 얻어낸 결론'이라 말한다. 범죄율 출산율 평균수입 평균강설량 등 매스컴을 통해 우리가 늘상 만나는 용어들이 바로 통계용어다.

사실과 숫자를 해석·조직

통계학은 사실과 숫자를 해석하고 조직하는 일련의 방법과 규칙이다. 모아진 자료로부터 얻은 많은 정보를 간단한 숫자나 진술로 압축해 주는 것이다. 가령 서울의 1월 평균 강설량은 다년간에 걸친 관찰을 통해 알 수 있다. 그러나 지난 50년간 매일의 강설량을 완전히 기록한 자료를 보고 싶어하는 사람은 거의 없을 것이다. 거의 대부분 평균에 대한 의미를 이해하고 그것으로 만족스러워 한다.

불확실성 속에서 가능한 최선의 판단을 내릴 수 있게 하는 방법을 통계가 제공하는 것이다.

통계는 언뜻 드러나지 않는 환경현상을 단순화하고 체계화하여 우리의 과학지식중 일부를 형성한다. 이러한 의미에서 통계방법은 과학의 도구라 말할 수 있다. 가령 우주왕복선에서 지구상으로 보내오는 어마어마한 양의 과학적 관찰결과는 원래 상태 그대로로는 아무 소용이 없다. 많은 과학자들이 통계적으로 그 자료를 분류하기 위해 수개월의 작업을 거치고 해석을 해낸다. 이렇듯 통계방법은 자료를 해석하고 조직하여 과학적 연구를 도와준다.

또 통계는 국가 정책결정의 전제조건이 되고 있다. 통계조사를 근거로 정책이 입안되고 법안이 형성되는 것이다. 인구나 토지를 대상으로 한 숫자조사는 고대에도 있었다. 이에 반해 근대의 통계는 물가 경제수치나 사건에 대한 수치 뿐만 아니라 인간의 정서와 생각 등 갖가지 불확실한 사회현상까지도 '셀 수 있는 것'으로 만들어낸다. 일단 이들이 통계를 거쳐 수치로 표현되면 과학적이고 객관적인 것으로 간주돼 권위를 갖게 된다. 그래서 '통계는 권력의 원천'이라 말해지기도 한다.

통계방법에는 두가지 주요한 형태가 있다. 그 하나는 기술통계로 자료를 단순화하고 체계화하는 데 사용된다. 자료들은 대부분 분포라 부르는 일련의 숫자로 구성된다. 그 예로 지능 지수, 나이, 정답수, 혈중 알코올 추정치 등을 들 수 있다.

기술통계의 목적은 한 표본의 양상을 기술하는 데 있으며 분포로부터 원점수를 취해 다루기 쉬운 형태로 자료들을 요약한다. 가장 많이 쓰이는 기법은 평균을 계산하는 것이다. 두번째 형태는 추리통계다. 표본에서 얻은 통계치로부터 모집단의 일반성을 추리하는 기법이다. '추출한 표본이 이러하다면 그 모집단의 나머지도 마찬가지일 것'이라는 추측을 해내는 것이다.

경험적으로 드러난 어떤 자료가 어떤 이론적 가설과 부합하는가 그렇지 않은가를 결정하는 과학은 주로 추리통계학에 의존한다. 이정모(성균관대학교 산업심리학과) 교수에 따르면 이를 위해서는 몇가지 기본전제와 가정들이 필요하다고 한다.

첫째 자연현상이 모든 공간과 시간에서 보편적이고 불변적이며 균일하게 일어난다는 가정, 둘째 자연현상은 정형적으로 기술·설명할 수 있고 수량화할 수 있다는 가정, 셋째 인간이 특정한 시공간에서 관찰하는 부분적 자연현상들이 그 모집단 전체를 대표할 수 있다는 가정, 넷째 경험적 연구에서 연구자가 조작하거나 통제하지 않은 변인들은 관찰현상에 아무 영향을 주지 않는다는 가정, 다섯째 인간 인지기능의 제한성 또는 유보성이 극복될 수 있다는 가정들이 그것이다.

경험적 증거들은 자체로는 절대적인 진리를 제공하지 않는다. 수많은 가정들 위에서 편파적으로 얻어진 매우 불안한 지식만을 줄 뿐이다. 그래서 경험적 증거를 통해 얻어지는 과학적 지식은 '반증가능성'을 담보한다. 그리고 이 '반증가능성'이 바로 과학적 지식이 진보하는 힘이 된다.

굳이 과학의 진보를 논하지 않더라도 우리 주변에서 통계적 방법, 통계적 용어는 사회나 경제의 동향, 기업의 경영상태, 여론조사, 국세 조사 등 방대한 데이터를 기록하는데 없어서는 안되는 용어들이 됐다. 통계학에서 다루어지는 평균 상관관계 경향 그래프 등은 물적증거가 제일인 세상에서 대단한 호소력을 가진다.

그러나 통계는 본래부터 그 '사실 자체'일 수는 없다는 한계를 가진다.

통계에 왜 모두가 속아 넘어가기 쉬운지 알아 보도록 하자. 통계는 표본을 써서 얻어낸 결론이다. 그러므로 통계를 위해서는 어떤 종류의 데이터를 어떻게 수집할 것인가를 사전에 계획하고 이에 근거한 수집과정을 거쳐야 한다. 즉 통계는 피동적 관찰이 아니라 대상물에 대한 계획된 의도적 개입인 것이다.

통계는 사실과 숫자를 해석하고 조직함으로써 복잡하고 단편적인 세상사를 이해하기 쉽게 해준다.

의도적 개입 피할 수 없어

이 과정에서 어떤 범위 안에서 조작이나 왜곡이 가능해진다. 통계학자들은 때로는 어떤 사실을 표시하는데 있어 자기 주관에 호소하여 자기에게 알맞는 방법을 찾아내지 않으면 안된다.

이렇게 하여 얻은 결과는 눈에 보이는 대로 진실을 나타내는 것이 아닌 경우가 많다. 사물을 크게 과장하거나 혼란시키거나 극도로 단순화시킬 수 있는 것이다. 즉 통계의 남용이 일어나는 것이다.

이 과정을 좀더 자세히 살펴보자. 통계는 표본추출에서부터 시작된다. 표본추출이란 통계조사를 할 때 조사대상을 체계적으로 선정해내는 절차다. 통계에서 가장 중요한 것은 표본이 전체를 대표하는 것이어야 한다는 점이다. 왜곡의 원인이 되는 것을 모두 제거하고 난 뒤의 표본이라야 한다. 그러나 표본에는 언제나 왜곡의 경향이 있다.

표본추출법 중 가장 대표적인 것은 단순 무작위추출법이다. 이 경우 표본의 질은 대개 목록이 모집단을 얼마나 정확히 포괄하고 있는가에 달려 있다. 이때 왜곡이 심하거나 모집단이 너무 작으면 문제가 된다. 무작위 표본추출에서는 표본의 크기가 클수록 오차율은 작아진다.

완전히 임의추출된 표본에 의할 때만 통계이론은 전폭적으로 신뢰할 만하다. 그러나 이러한 표본은 얻기도 힘들고 비용이 너무 많이 든다는 문제점이 있다. 그래서 여론조사나 시장조사 등에서는 경제적 대용품으로 층별 임의추출법(할당추출법)이 사용되기도 한다.

모집단을 전부터 알고 있는 비율에 따라 여러 갈래의 그룹으로 나누어 표본을 추출하는 것이다. 그러나 이 방법은 그룹으로 분류하는 과정에서 주관이 개입하거나 오류가 일어날 확률이 상대적으로 크다.

너무 적은 표본을 쓰면 통계 결과는 엉터리가 되기 쉽다. 가령 평균의 법칙이 성립되려면 시행횟수가 커야 한다.

동전을 던져 앞면이 나올 확률은 이론적으로 50%다. 그러나 실제 10번 동전을 던져 앞면이 5번 나오는 경우는 흔치 않다. 실제로 10번 동전을 던져 8번 앞면이 나왔다고 해서 '동전을 던져 앞면이 나오는 확률이 80%'라고 자신있게 단정한다면 누구나 오류라고 할 것이다. 그러나 실제 통계의 현장에서는 이와 유사한 일들이 자주 일어나고 있다.

평균치라는 말에도 속을 여지가 적지 않다. 연간 평균소득이 1만5천달러라는 어떤 마을이 있다. 그런데 이 마을에서 세율을 낮춰달라는 청원을 할 때 연간평균소득은 3천5백달러에 불과하다고 신고했다.

이 두 숫자는 모두 합법적인 평균치로 정당한 계산결과 얻어진 것들이다. 양쪽 모두 동일한 데이터, 동일한 인원과 동일한 소득을 기초로 계산한 것이다. 그런데 왜 이렇게 차이가 날까. 이같은 거짓말이 가능한 비결도 통계에 있다.

평균치에는 산술평균치와 중앙치, 최빈치라는 세가지 종류가 있다. 앞의 1만5천달러는 산술평균치로 그 근방 모든 가구의 소득의 산술평균이다. 모든 가구의 소득을 합쳐 그 합을 가구수로 나눈 것이다.

뒤의 3천5백달러는 중앙치로서 전체 가구의 반은 3천5백달러 이상의 소득을 가지며 나머지 반은 3천5백달러 이하의 소득을 가진다는 것을 의미한다.

평균을 나타내는 또하나의 수치는 최빈치인데, 이는 가장 많은 가구가 보이는 소득치를 뜻한다. 연소득 5천달러인 가구가 가장 많으면 그 값이 최빈치인 것이다.

평균치로 '눈가리고 아옹'

몇년 전 우리나라의 과반수 이상의 국민이 스스로를 중산층이라고 믿고 있다는 여론조사결과가 발표됐다. 이는 객관적인 의미에서의 '중산층'이 아니라 국민들이 주관적으로 내리는 판단이라는 점에서 그 허위성이 지적된 바 있다. 그러나 당시의 결과는 정부와 언론에서 많은 반복과 선전용 자료로 이용되곤 했다.

통계가 혹세무민하는 경우는 여론조사 결과에서 가장 흔하게 드러난다. 몇년 전 국내 모잡지사에서 새여성지 창간을 준비하며 시장조사를 했다. 이 조사결과에 따르면 독자들은 광고가 많고 선정성 위주로 흐르는 기존 여성지에 염증을 느끼고 있으며 품위 있고 고급스런 교양지를 원한다는 것이었다. 그러나 여론조사 결과에 입각해 창간된 여성지는 독자의 반향을 얻지 못했다. 독자들이 머리 속으로 생각하는 이상형과 실제로 돈을 주고 사보는 잡지는 달랐던 것이다.

이러한 사례는 미국에도 있다. 각종 잡지의 독자조사를 위해 가정방문을 한 뒤 결과를 분석했다. 많은 사람이 지식층을 구매자로 하는 종합잡지인 '하퍼즈'를 읽기를 좋아했으며 대중적 오락잡지인 '트루 스토리'를 읽는 사람은 그리 많지 않은 것으로 나타났다.

그러나 당시의 판매부수를 보면 '트루 스토리'는 수백만부 이상인데 '하퍼즈'는 수십만부에 불과했다. 표본을 잘못 선택했다고 판단할 수도 있으나 이 조사는 전국의 모든 주거지역에 행해진 것이었다. 결론은 회답자중 상당히 많은 사람이 진실을 이야기하지 않았다는 것이다.

여론조사에는 두개의 흐름이 있다. 그 하나는 학문적 연구에 종사하는 사람들의 관점이다. 기술(記述)적 혹은 사실진단적 측면에 역점을 두어야 한다는 흐름이다. 둘째는 정치나 언론 종사자의 관심사로, 일반사람들이 왜 그렇게 생각하는가에 대한 이유를 추적하는 것이다.

정치여론조사의 경우도 뜬구름을 잡고 진실이라고 우길 확률이 큰 분야다. 미국에서 있었던 대통령선거와 관련한 여론조사의 실패담을 되돌아보자.

미국의 '리터러리 다이제스트'라는 잡지사는 1929년부터 10년간 대통령 선거 때마다 지상투표식 여론조사를 실시, 꽤 성공을 거두었다. 이들의 조사방법은 전화번호부와 자동차 소유자 명부에 실린 사람에게 엽서조사표를 보내는 것이었다.

1936년 공화당의 랜던과 민주당의 루즈벨트가 대결했을 때 이들은 1932년 대통령 선거 때 결과를 정확하게 예측케 해준 표본들의 명부 중에서 전화를 소유하였거나 잡지를 구독하는 사람 1천만명을 표본으로 여론 조사를 했다. 이 표본수는 당시 미국 가구수의 3분의 1에 해당하는 것이었다. 조사결과는 랜던의 압도적 승리로 나타났다. 그런데 실제 투표를 마치고 뚜껑을 열어보자 결과는 정반대였다. 민주당 루즈벨트가 예상을 깨고 승리를 거둔 것이다.

이같은 실패의 원인은 바로 표본의 왜곡 때문이었다. 당시 미국에서 전화나 자동차를 가진 사람은 경제적 여유가 있는 계층도 보수파가 많았던 것이다. 극빈자까지도 포함하는 전국민을 대상으로 한 투표결과는 여론조사결과와는 판이하게 나올 수밖에 없었다.

당시 새로운 추출기법을 실험하던 조지 갤럽은 이같은 오류를 미리 지적, 단 3천명의 표본으로 '리터러리 다이제스트'와 같은 결과를 내보였다. 그리고 그는 새 추출기법으로 독자적인 여론조사를 실시, 루즈벨트 승리를 예언했다. 그의 기법이 대통령 선거뒤 크게 주목받았음은 말할 나위도 없다.

정치적 여론조사에는 이같이 인기도를 측정하거나 선거결과를 예측하기 위한 것도 있는 반면 현재 직면하고 있는 중대한 문제에 대해 여론을 측정하여 그 경향을 자세히 밝히려는 의도를 가진 것도 있다.

이같은 여론조사는 민주주의 발전에 도움이 된다. 조사를 통해 후보자는 유권자가 가장 절실하게 느끼고 있는 문제를 알 수 있기 때문이다. 목소리가 큰 일부 사람들의 요구만이 아니고 일반인 모두의 요구가 무엇인지 잘 이해할 수 있다. 그러나 때로 정치적 여론조사를 유세와 혼동하는 후보자도 있다.

1936년의 낙농업 생산량이 1860년보다 세배로 늘었다는 사실을 표현하기 위해 이렇게 그렸다면 맞는 것일까? 독자들은 젖소의 키가 세배라고 증가량도 세배로 보이는가?

통계에는 확률 오차가 따른다

흔히 접할 수 있는 통계의 허상으로 'IQ 신화'를 들 수 있다. 일반적으로 IQ는 머리의 좋고 나쁨을 분석적으로 판가름하는 척도로 여겨진다. 일반인들의 IQ에 대한 믿음은 맹신에 가깝다. 그러나 IQ는 일부 교육학자와 심리학자에게 한정된 공간에서 의미를 가질 뿐이다. IQ 또한 통계이며 그것도 매우 불확실한 통계이기 때문이다.

지능검사가 측정하는 내용이 지능이 아니라는 점은 논외로 하더라도, IQ가 의도하고 있는 것은 지능에 관한 표본추출이다. 그러므로 IQ 역시 확률적 오차를 포함하는 숫자이다. 가장 유명한 '스탠포드 비네'식 지능검사법의 확률 오차는 3%라 알려지고 있다. 그렇다면 IQ가 101인 학생이나 IQ 98인 학생의 순위가 뒤바뀔 수도 있다. 정확하게 표현하면 IQ 101은 IQ 101±3, IQ 98은 IQ 98±3이 되기 때문이다.

더 간단한 통계의 속임수로 '시각적' 효과를 이용한 속임수가 있다. 독자들은 어떠한 재미없는 수치의 반복이라도 그림이나 그래프로 표시되면 신뢰감을 갖는다. 시각적이고 감각적인 것을 선호하는 요즘 세대일수록 이러한 경향은 더욱 강하다.

이러한 경험을 이용, 과장된 그림이나 그래프가 만들어지곤 한다. 가령 세배로 늘어난 낙농량을 표현하기 위해 오른쪽 위 그림을 그렸다면 이는 과장이 작용한 것이다. 젖소의 길이는 세배에 불과하지만 그림을 통해 독자가 받는 실제 인상은 그 체적이므로 27배가 되는 것이다. 그래프의 경우는 부분만을 잘라내거나 가로 세로 비율을 바꿈으로써 별 것 아닌 변화를 엄청난 것처럼 보이게 할 수 있다.

통계적으로 '사실'이지만 서로 무의미한 상관관계를 가진 것들이 엮이는 경우도 많은 사람들을 햇갈리게 만든다. 가령 한 지역에서 같은 기간에 냉장고 보급대수와 암발병량이 비례적으로 증가했다는 통계결과가 있다고 하자.

여기서 냉장고보급이 암발병을 늘렸다는 결론을 이끌어 낸다면 억지춘향이다. 단지 시간의 흐름에 따라 서로 무관하게 존재해온 두가지 사실이 있을 뿐이다. 이렇게 명백한 통계적 사실이라도 무의미하고 엉터리인 상관관계를 가지는 경우를 아전인수격으로 해석, 실수를 범하는 사례가 수없이 일어날 수 있다. 그래서 추론통계에서 보이지 않는 많은 변인들을 고려할 때는 연구자의 상식이나 경험 등에 의존해야 하는 경우가 적지 않다.

이밖에 통계를 통해 거짓된 사실을 만들어낼 수있는 사례는 무궁무진하게 많다. 통계의 원천자료가 수미일관치 않아 왜곡돼 있는 경우, 전후인과의 오류(시간의 순서에 따라 인과율을 설명하려는 논리적 오류)를 범하는 경우 등을 들 수 있다.

통계에 속아 넘어가지 않으면서 통계를 현명하게 활용하는 길은 무얼까. 더렐 허프는 다섯가지 방법을 제안한다. 첫째 통계의 출처를 캐어보는 일, 둘째 조사방법을 알아보는 일, 셋째 숨겨진 자료를 확인하는 일, 넷째 쟁점이 뒤바뀌지 않았는가를 확인하는 일, 다섯째 통계숫자에 제대로의 뜻이 들어있는가를 확인하는 일이 그것들이다.

우리나라에서도 요즘 각종 여론조사가 부쩍 늘고 있다. 국민의식을 묻는 여론조사로부터 각 언론사의 순위를 매기는 여론조사, 시청률 조사, 연예인이나 정치인의 인기도 조사, 새상품을 내기 위한 시장조사 등 많은 조사가 다양한 목적으로 실시되고 한다. 민주주의와 현대 사회 자체가 여론조사를 통해 만들어지는 듯한 착각마저 들 정도다.

그러나 이들 여론조사가 얼마나 과학적인 사전조사와 방법을 가지고 수행되는지에 대해서는 미지수다. 그 결과가 어떻게 정확하게 일반인들에게 전달되는가에 대해서도 큰 신뢰를 갖기 어렵다. 대개 오차범위는 눈에 띄지 않는다는 이유로 빠지기 십상이다.

정확한 통계이기 위해서는 통계숫자와 더불어 분포폭이나 유의도 등의 숫자가 병기되어야 한다. 독자의 입장에서는 전면에 드러난 수치에 현혹돼 여론조사결과를 절대적인 것으로 여길 것이 아니라 믿을 수 있는 추측치로 간주할 것이 요구된다. 이면을 궤뚫어보려는 노력이 필요한 것이다.

사무엘 존슨은 "어림수는 항상 속임수"라는 말로 통계의 함정을 요약하고 있다.

표본추출방법따라 결과 180도 달라지는 통계의 속임수