d라이브러리 1989년 07월 과학동아

거짓말 위에 새빨간 거짓말, 그 위에 통계가 있다는 말이 있다. 정보화시대에서 매일 접하는 통계숫자를 바로 보려면···

현대인의 일상 대화에는 각종 숫자가 들어가지 않은 것이 드물다. 예를들면 전화번호 주민등록번호 주소에서와 같이 식별을 위한 숫자가 있다. 또 키 몸무게 가옥의 면적등과 같이 양(量)의 측정치도 포함된다. 물가지수나 여론조사의 결과와 같이 사회 경제현상의 파악이나 정책등의 지지도를 파악히가 위한 통계숫자가 있을뿐 아니라 일기예보의 비올 확률과 같은 숫자도 있다. 이와 같이 우리생활에는 숫자로 표현된 것이 엄청나게 많은데, 미래의 정보화 시대에는 숫자의 역할이 더욱 커질 전망이다.

이렇게 많은 숫자들 중에는 측정과 관련된 것도 허다하다. 측정기술의 발달은 한 나라의 과학기술의 수준을 가늠할 수 있을 정도로 중요한 역할을 하고 있다. 선진국에서는 국민총생산(GNP)의 6%정도가 측정에 관련된 비용으로 쓰인다. 뿐만아니라 일국의 첨단기술 수준은 곧 측정능력과 비례한다고 할 정도로 측정능력은 과학기술의 필수 전제조건이기도 하다.

흔히 우리가 주변에서 보는 숫자는 단위가 있는 것도 있고 없는 것도 있다. 예컨대 길이 무게 온도 전압 광도 시간 등은 국제적 협약으로 잘 정의된 단위가 있는 숫자다. 반면 경제현상을 나타내는 물가지수 실험률 등과 같이 현황파악이나 비교및 추정을 위한 통계숫자도 있다.

체르노프 통계^컴퓨터를 이용, 복잡한 데이터를 사람의 얼굴로 재구성한다.

통계를 이용한 거짓말

유명한 영국의 물리학자 켈빈경(원래 이름은 윌리엄 톰슨)은 말하기를 "우리는 측정이 가능하다고 숫자로 나타낼 수 있을 때, 무엇을 안다고 할 수 있다. 그렇지 못할 때의 지식은 미약하고 만족스럽지 못한 것이 된다'라고 하였다.

이같은 자연과학의 숫자화 경향이 어느덧 사회과학이나 일상생활에까지 깊숙이 침투해있다. 사회현상이나 추상적 개념까지도 숫자로 표현하려고 시도한다. 우리는 알게 모르게 모든 것이 숫자로 표현되어야 직성이 풀리는, 즉 숫자정보시대에 익숙한 인간유형으로 변해간다. 사람의 지능을 IQ로, 경제현상은 GNP로 심지어는 날씨의 불쾌지수와 같이 우리의 느낌마저 숫자로 나타내고 싶어한다.

그러나 물리적 측정과는 달리 사회현상이나 우리의 인식을 숫자화하는데는 많은 어려움이 따른다. 길이나 무게와 같이 그 단위를 모든 국가에서 표준제도로 수용, 공통적으로 쓰면 문제는 간단하다. 하지만 사회나 경제현상은 그럴 수 없다.

한나라의 실업률, 생활의 만족도, 개인의 정신건강도, 정치인의 인기도 등을 나타내는 숫자도 넒은 의미에서는 측정치라 볼 수 있다. 그럼에도 이 경우 모든 사람이 동의하고 같은 의미로 받아들이는 단위를 정의하는 것은 매우 어렵다.

측정이란 이것이 사회현상이든 물리 화학적인 것이든 간에 몇가지 중요한 조건을 만족할 때에 참 의미가 있다. 무엇보다 측정은 주어진 절차가 객관적이어야 한다. 반복했을 때 누구나 같은 결과를 얻을 수 있는 객관성이 보장되어야 하는 것이다.

과학적 측정에서는 이러한 측정절차와 정의가 수 많은 반복실험의 결과, 잘 정착되었다. 반면에 흔히 우리가 통계라고 부르는 측정행위엔 그렇지 못한 경우가 많다. 많은 사람들이 허위통계 또는 통계를 이용한 거짓말 이라고 단정, 불신하는 이면에는 이러한 과학적 측정의 기본이 갖추어져 있지 않기 때문이다.

그러면 여기서 통계가 지녀야 할 특성과 이들이 지켜지지 않을 때 생기는 무리를 하나씩 예를 들어 설명해 보자.

특성을 정의내릴 수 있어야

측정이란 사물의 어떤 특성을 숫자로 나타내는 것이다. 따라서 측정하고자 하는 특성은 개관적으로 정의될 수 있어야 한다. 뿐만 아니라 같은 특성을 측정하려면 이들이 서로 비교될 수 있어야 한다.

예를 들어 A나라의 실업률이 3%, B나라의 실업률이 5%라고 해보자 이때 흔히 B나라의 실업률이 상대적으로 높은 것으로 단정하는데 속단은 금물이다. 실제 실업률은 A나라의 경우가 더 높을 수도 있다. 왜냐하면 A나라에서는 일주일에 하루 이상 고용되면 통계처리할 때 취업자로 간주하고 있는데 B나라에서는 실업자로 취급할 수도 있기 때문이다. 이렇게 상식적인 통계치도 정의에 따라 크게 차이가 나므로 나라별 실업률 비교는 상당히 조심해야 할 것이다.

서울시의 인구가 지난 40여년동안 20배나 증가했다고 흔히들 말한다. 그러나 서울시는 그동안 주변의 많은 도시를 특별시로 편입하였기 때문에 지역의 면적이 크게 늘어난 것도 사실이다. 따라서 정확한 비교를 하려면 현재 서울특별시롤 포함되어 있는 모든 지역의 40년전 인구를 합한 것과 현재 인구가 비교되어야 마땅할 것이다.

우리나라의 교통사고율이 세계에서 으뜸간다는 통계에서 우리는 놀라지 않을 수 없다. 물론 교통사고가 많다는 것에는 수긍이 간다. 그러나 선진국과의 비교에서는 사고율의 정의를 잘 살펴볼 필요가 있다. 선진국의 사고율은 자동차 한대당 일년동안의 평균 사고건수를 말하고 있는데, 우리나라의 경우와 직접 비교하는 것은 조금 무리다.

왜냐하면 우리 나라의 승용차 경우를 보면 자동차의 소유자가 직접 운전하디 않고 운전기사를 고용, 대신 운전케 하는 경우가 많다. 이럴 경우 자동차 한대당 일일주행거리는 선진국의 경우보다 몇배나 크다, 즉 우리나라의 사고율은 주행거리당 평균사고율을 사용하여야 외국의 경우와 적절한 비교가 될 것이다.

나라와 나라간의 비교나 시기적인 변화의 비교를 할 때에는 이들 통계가 같은 의미를 갖는지를 반드시 확인할 필요가 있다. 또한 모호한 정의에 따른 통계도 경계하여야 한다.

어느 조사에서 우라나라의 중산층이 60%가 넘는다고 발표한 바 있다. 물론 자기가 중산층에 속한다고 느끼는 국민은 그 정도일지도 모른다. 그러나 중산층이 차지하는 비율을 비교하기 위한 것이라면, 먼저 중상층의 정의가 반드시 객관적으로 표현될 수 있어야 할 것이다. '중상층이란 누구인가'가 잘 정의되지 않으면 이에 따른 논리도 무의미한 것이 된다.

대표값은 만능이 아니다

한 집단의 어떤 특성을 하나의 숫자로 나타내는 경우가 많다. 흔히 쓰는 방법으로는 산술평균을 들 수 있다. 즉 그 집단에 속한 모든 구성원의 측정치를 합산. 이를 전체 숫자로 나눈 것이다. 물론 어느 지역의 경제수준을 평균소득으로, 어느 학교의 학업수행정도를 학생들의 평균적으로 나타낼 수 있다.

그러나 평균의 의미가 정상이라는 의미는 아니다. 수년전 영국의 보건부 장관이 국민학교 학생의 평균몸무게때문에 망신을 당한 적이 있다. 그는 영국의 국민학교 어린이의 절반이 평균미달의 몸무게를 갖고 있다고 자신있게 말했다. 마치 이들이 건강하지 않은 것으로 이야기한 것이다. 하지만 그 어린이들의 건강은 극히 정상이었다. 이때 평균이란 전체 어린이들의 분포가 대칭일 때에는 분포의 가운데에 있게 되고 따라서 절반은 평균이상, 나머지 절반은 평균이하가 되기 때문이다. 이 경우 평균은 국민학교 어린이 집단을 나타내는 하나의 숫자일 뿐이지 바람직한 정상수준을 말해주지는 않는다.

이러한 산술평균이 무의미할 때도 많다. 예를 들어 어떤 사람이 오토바이를 시속 40km로 언덕의 꼭대기에 올랐다고 하자. 이 사람은 얼마나 빠른 속도로 내려오면 왕복 평균속도가 80km가 될까? 얼핏 생각하면 1백20km의 속도면 될듯 하다. 그러나 이경우에는 아무리 빠른 속도로 내려와도 평균 속도가 80km가 될 수는 없다.

언덕까지 올라가는 거리를 D로 하면 내려오는 거리도D이다 평균이 80km 되게 하는 속도를 Xkm라 하면 다음 등식이 성립한다. 80=$\frac{2D}{\frac{D}{40}+\frac{D}{X}}$

여기서 속도는 거리/시간이다. 오르는 데 걸리는 시간 D/40와 내려오는데 걸리는 시간 D/X를 합하면 왕복하는데 걸리는 시간이다. 왕복 거리는 2D이므로 이를 왕복하는데 걸리는 시간(D/40+D/X)로 나누면 왕복 평균시속인 80과 같아야 한다. 이를 정리해보면 1=$\frac{X}{X+40}$

즉 아무리 큰 숫자를 X로 하여도 답은 존재하지 않는다. 올라갈 때 걸린 시간이 너무 많기 때문에 아무리 빨리 내려와도 원하는 평균시속은 얻을 수가 없음을 알 수 있다. 이런 경우에 쓰이는 평균을 조화평균이라고 한다.

평균에는 산술평균 조화평균 이외에도 기하평균이 있는데 이들은 적절히 사용되어야 한다. 예컨대 경제성장률의 평균과 같이 율(率)의 변화를 나타내는 평균은 기하평균이 되어야 한다. 또 물가지수와 같은 것은 가중평균을 산출한다. 물가지수에 포함되는 모든 물품이 동일하게 반영되는 게 아니고 식료품비와 같이 생활비에 많이 들어가는 것의 비중을 높게 반영하는 방법이다. 이처럼 사안에 따라 적절한 대표값을 사용하여야 합리적인 통계수치를 얻을 수 있다.

평균이 사람잡는다.

평균은 전체적 모양을 나타내는 좋은 방법이다. 그러나 평균만으로는 전체를 나타낼 수 없는 경우가 많다. 집단의 평균은 집단내의 구성원들이 어떻게 서로 다른지를 보여주지 못한다. 또 서로 어느 정도 흩어져 있는지를 말해주지 못한다. 예컨대 어느 농촌의 평균소득이 연간 6백만원이라 하고, 또 다른 동네의 평균이 역시 6백만원이라고 가정해 보자. 이때 평균소득이 같다고 해서 이 두동네의 수입정도가 꼭 동일하다고 할 수는 없다. 첫번째 동네는 모두 소득이 비슷한데 두번째 동네는 부유한 지주와 가난한 소작인 들이 섞여 산다고 한다면, 평균소득은 이런 경우를 설명해 줄 수가 없다. 이 때에는 분산이라고 하는 흩어진 정도를 나타내는 통계가 활약해야 한다.

다소 과장되지만 우스운 예가 있다. 한사람이 왼 손은 -30˚C의 냉동실에 넣고, 오른 손은 70˚C나 되는 뜨거운 오븐속에 집어 넣었다고 상상해 보자. 이때 이 사람이 아주 편안한 기분을 유지하고 있다고 한다면 (평균이 20˚C라고 해서) 우리는 뭔가 '비정상' 이라고 생각할 것이다.

또다른 예는 평균이 생사람을 잡은 경우다. 1920년대 중국은 내전으로 전운이 감돌고 있었다. 이때 병사들을 이끌고 적진을 향해 진격하고자 한 한 장수가 눈 앞에 큰 강을 만나게 된다. 장수는 참모에게 강의 평균 수심이 얼마냐고 묻는다. 참모의 답변은 평균수심이 1m40cm라고 한다. 장수는 평균수심이 1m40cm이고 병사의 평균 키가 1m65cm이므로 걸어서 행군이 가능하다고 판단, 진격을 명한다. 그러나 강의 가운데의 수심은 병사의 키보다 훨씬 깊어서 모두 물에 빠져버렸다는 이야기도 있다. 강을 건너는 데는 평균수심이 아닌 가장 깊은 곳의 수심이 문제가 된다.

위의 예에서 보듯이 평균만으로는 전체적인 양상을 파악하기 어렵다. 따라서 분산이나 표준편차가 중요한 역할을 하는 보조적인 통계가 된다.

부적적한 비교

통계는 많은 목적중의 하나는 비교에 있다. 두 집단간의 비교, 두가지 방법의 비교, 10년전과 현재의 비교, 환자와 정상인의 비교 등 우리는 선택이나 의사결정에서 비교하는 방법을 흔히 쓴다. 두 가지를 비교하기 위해서는 이들은 반드시 동일한 조건하에서 측정되어야 한다.

어느 제약회사의 광고에서 새로 개발된 감기약이 부적절하게 소개되는 것을 본 적이 있다. 임상실험결과 이 약을 복용한후 60%의 사람이 일주일 이내에 감기가 치유됐다고 주장한 것이다. 얼핏 듣기에는 아주 효험이 좋은 새로운 감기약으로 생각된다. 그러나 자세히 관찰해 보면 '명약'이 아니라는 것을 알 수 있다. 즉 보통 사람의 경우 감기에는 치료약이 없을 뿐 아니라 가만히 있어도 비슷한 쾌유율을 얻는다는 것을 알면 새로운 약이 별 것이 아님을 알 수 있다. 이 경우에는 환자를 두 그룹으로 나누고 한쪽에는 새로운 약을, 다른 한쪽은 재래식으로 치료한 다음, 이 두 집단의 쾌유율을 비교했어야 옳았을 것이다.

유명한 뉴욕의 센트럴파크는 심야에 범죄가 성행하는 것으로 널리 알려져 있다. 그런데 여기서도 통계에 의한 거짓이 그럴듯하게 들릴 수 있다. 통계에 의하면 66%의 살인사건은 평소에 지면이 있거나 친구 친척간에 일어난다고 한다.

그러나 안방에 앉아서 텔리비전을 보는 것보다 심야에 센트럴파크에 가면 아는 사람이 전혀 없어 더욱 안전하다고 한다면 누구나 뭔가 잘못되었다고 생각할 것이다. 우리는 일상생활에 아는 사람들과 만나는 경우가 거의 대부분이며 초면인 사람과 만나는 일은 극히 드물다.

지면이 있는 사람에 의한 살인사건 발생률과 그렇지 않은 사람에 의한 살인사건 발생률을 비교하려면 무엇보다 모르는 사람과 만나는 빈도를 고려하야 한다.

요컨대 모든 비교는 같은 조건으로 관찰했을 때 의미가 있다. 즉 비율을 비교하려면 비율을 구성하는 분모가 같은 의미를 가져야 한다.

뉴욕타임즈의 기사에 의하면 결혼한 사람 중 알콜중독자가 되는 비율은 미혼자의 경우보다 두배라고 한다. 마치 이 기사는 결혼생활이 알콜중독에 빠지게 하는 원인이 되는 것처럼 이야기하고 있다. 하지만 여기서 모순을 발견할 수 있다. 술을 소비하는 20세 이상의 사람중 75%가 기혼자이므로, 사실은 기혼자의 알콜중독률이 미혼자의 알콜중독률보다 더 작다. 이 경우 기혼자와 미혼자의 수가 다름에도 불구하고 알콜중독자 중의 기혼자 비율만 가지고 기사화, 잘못된 결론을 얻은 것이다.

성급한 결론은 금물이다.

어느 대학에서 가정이 빈곤한 학생에게 주는 장학금을 받는 학생들의 평균수입을 조사 하였더니 이들 부모들의 평균소득이 전국민의 평균 소득보다 높은 것으로 나타났다. 그래서 이 결과를 높고 학생들은 학교당국에 항의한 적이 있다. 가난한 학생에게 혜택이 가지 않고 부유한 가정출신 학생에게 혜택이 돌아갔다고 결론지었기 때문이다.

그러나 이 경우 곰곰히 생각해보면 성급하고 잘못된 결론이었음이 드러난다. 대학에갈 나이의 자녀를 둔 부모라면 이들의 나이는 마흔이 훨씬 넘었을 것이다. 또 이들은 각기 자기 직장에서 중견이상의 지위를 가지고 있으며 평균보다 훨씬 높은 보수를 받고 있는 것을 쉽게 알 수 있다. 따라서 전국민의 평균소득과의 비교는 무리다. 장학생 가정의 평균소득과 대학에 갈 나이의 자녀를 가진 부모들의 평균소득을 비교했어야 옳았을 것이다.

해방이후 우리나라의 냉장고 보급률과 위함환자의 수는 서로 큰 상관을 갖고 있음을 볼 수 있다(그림참조).

(그림)

위의 그림표에서 냉장고의 보급이 많을수록 위암환자의 수가 늘어남을 볼 수 있다. 따라서 냉장고에 든 음식을 섭취하는 것이 위암의 원인이라고 속단할 수도 있을 것이다. 그러나 냉장고의 숫자나 암환자의 숫자가 매년 증가추세에 있는 것이지, 냉장고가 위암의 원인이라고 속단할 수는 없다.

시간의 흐름이라는 또하나의 변수가 작용하기 때문이다. 시간이 지남에 따라 냉장고 숫자도 늘고, 암환자도 늘어난 것이지, 양자(兩者)의 상관계수가 높다고 해서 냉장고가 암의 원인이라고 결론지을 수는 없는 것이다. 물론 의학적 연구로 이 주장은 쉽게 판가름 날 수 있다. 그러나 이러한 통계는 원인과 결과를 증명해 줄 수 없다.

대답하기 곤란한 질문을 캐낸다

우리나라의 고등학교에서 학생들의 흡연경향이 높아졌다고 모두들 걱정하고 있다. 도대체 몇 퍼센트의 학생이 흡연경험이 있을까? 가령 학급의 담임선생님이 학생들에게 흡연경험이 있으면 손들어 보라고 했다고 하자.

그러면 보나마나 아무도 손 들지 않을 것이다. 그러나 이 학급에는 흡연하는 학생이 없다고 단언하기는 어렵다. 흡연했다고 손을 들면 분명히 처벌등 불이익을 당하게 되는 것을 알면서 자진해서 손을 들 학생은 없을 것이기 때문이다. 그렇다면 이런 경유에 흡연율을 어떻게 알 수 있을까?

우리는 모든 사람이 정직하게 세금을 낸다고 믿지 않는다. 그러면 탈세는 몇 퍼센트 정도 하고 있을까? 마약중독자의 비율은 얼마나 될까? 학교에서 시험중 부정행위는 몇 퍼센트나 하고 있을까?

이렇게 개인의 사생활이나 부끄러운 일, 또는 법으로 금지된 일을 하고 있는 경우는 통계조사는 보통 방법으로는 불가능할 것이다. 공포의 독재체제 하에서 행한 여론조사에 의하면 90%가 독재자를 지지하고 있는 것으로 나타난다. 여론조사할 때 독재반대를 이야기 했다가는 혼줄이 날 것을 다 알고 있기 때문에 정확하고 편견없는 조사가 되지 않는 것이다.

사회학자 워너(Warner)는 이렇게 대답하기 곤란한 질문에 대한 답을 구하는 조사방법을 고안해냈다. 즉 답하는 사람이 어떻게 대답한지를 모르게 비밀을 보장해 주는 방법을 생각한 것이다.

시험장에서 부정행위하는 경우를 예로 생각해 보자. 모든 학생에게 각자 동전을 던지게 한다. 그러면 각 학생은 앞면 아니면 뒷면을 얻게 된다. 이어 앞면이 나온 학생은 갑의 질문에 답하고, 뒷면이 나오면 을의 질문에 답하게 한다.

갑의 질문 : 아버지의 나이가 짝수입니까? 예( ), 아니오( ).
을의 질문 : 시험에 부정행위를 한 적이 있습니까? 예( ), 아니오( ).
그리고 조사 학생들에게 '예'와 '아니오'를 종이에 답하게 한다. 그러면 그의 아버지의 나이가 짝수여서 '예'를 했는지 알 수가 없게 된다. 즉 갑의 질문으로 개인의 비밀을 완전히 보장되는 것이다. 만일 1백명의 학생중 40명이 '예'라고 답했다고 하면 아래와 같은 계산이 가능하다.

가정은 ①과 ③의 합이 40명이라는 얘기이므로 '예'의 비율을 구할 수 있다. '예'의 비율=$\frac{40}{100}$=(①의 경우) + (③의 경우)=($\frac{1}{2}$)×($\frac{1}{2}$)+($\frac{1}{2}$)×P이다. 따라서 0.4=0.25+0.5P가 된다. 결국 0.5=0.15이므로 P=($\frac{0.15}{0.5}$)=0.30.

즉 부정행위의 비율은 30%로 추정할 수 있다. 물론 복잡한 조사의 경우는 위의 원칙을 활용, 더욱 복잡한 설계로 대답하기 곤란한 질문에 답하게 할 수 있다.

무색 무미 무취

통계도 많은 공업제품과 같이 생산과정을 거치게 된다. 그러나 연필이나 자동차의 경우와 같이 품질검사에 의해 품질을 판가름할 수 없다. 왜냐하면 통계라는 숫자는 빛깔도 없고 맛을 볼 수도 없으며, 품질관리에 쓰는 검사기구에 넣고 강도를 측정할 수도 없기 때문이다.

그렇다면 통계의 질은 어떻게 판단할 수 있을까? 통계를 생산하는 각 단계에서 원칙이 지켰는지를 놓고 판단할 수 밖에 없다.

생산된 통계는 그 신뢰도로 질을 나타내게 된다. 따라서 통계를 작성하는 과정의 모든 단계는 공개적으로 돼야 한다. 또 각 단계에서 합리적이며 적당한 방법으로 통계가 구해져야 한다. 통계의 불신해소는 합리적이고 그리고 논리적이며 타당한 방법으로 통계가 이용될 때 가능하다.

복잡한 통계는 일반인이 이해하지 못한다고 생각하고, 논리의 비약이나 부적절한 비교로 자기의 주장을 합리화하려 한다면 통계에 대한 불신은 커질 수 밖에 없다. 또한 이런 불순한 의도는 통계의 유용성을 부정하는 것으로 과학도의 양심을 스스로 타락시키는 결과가 될 것이다. 우리 모두가 합리적이고 논리적으로 활용해야만 통계는 과학기술의 발전과 사회발전에 크게 이바지할 수 있을 것이다.

d라이브러리

통계의 함정 숫자놀음이 많다