d라이브러리









[생활] 명탐정 셜록 홈즈의 추리 비결은? 통계적 추정

통계이야기 [중3] 통계


셜록홈즈는 한 학생으로부터 엄마가 이야기하는 ‘엄친아’가 누군지 찾아달라는 요청을 받는다.
그 친구는 정말 대단해요. 하나를 알면 열을 알고, 어떤 문제든 논리적으로 해결해 낸대요.
음…, 날 말하는 건가? 왓슨, 이 학생의 어머니가 어떻게 날 알아냈을까? 내가 엄친아로 그렇게 유명한 거야?
농담은 그만 하고, 누가 엄친아인지 어머니들을 대상으로 설문조사를 해 보면 어때?


추정이란 무엇일까?


셜록 홈즈는 어떤 사람이 사용한 물건의 형태만 보고, 그 사람의 성격이나 있었던 일을 추리하곤 합니다. 홈즈의 추리 비결은 과연 무엇일까요? 바로 예리한 관찰력과 정확한 자료를 바탕으로 한 ‘추정’이에요.

그는 추리를 할 때 절대 추측은 하지 않아요. 추측한 내용에 맞게 사건을 조작할 수가 있기 때문이에요. 따라서 홈즈는 사건 현장을 꼼꼼히 관찰해 증거를 모은 뒤 가설을 세웁니다. 그리고 이 가설이 맞는지 확인하는 추리를 합니다.

특히 유별난 관찰력으로 다른 사람들이 눈치채지 못하는 것까지 발견해 증거를 확보하죠. 결정적인 단서가 되는 일부 증거만 보면 사건 전체를 파악할 수 있거든요.

그런데 이런 홈즈의 추리 방법은 통계에서 사용하는 ‘추정’과 유사합니다. 일부분만 보고 전체를 파악하는 것이 바로 통계적 추정의 원리거든요. 통계에서 추정이란, 알고 싶은 대상 전체를 조사할 수 없을 때 일부분만 조사하고 분석해 전체의 모습을 그려내는 일을 뜻합니다.

같은 정보라도 사람마다 그 속에서 얻는 정보가 다르다는 점도 비슷해요. 사건 현장에서 다른 사람들은 미처 발견하지 못한 증거를 홈즈가 발견하는 것처럼, 통계학자들도 여러 수치 더미에서 의미 있는 결과를 도출해 냅니다.

논리적인 사람은 바다를 보거나 폭포 소리를 듣지 않고도 한 방울의 물에서 대서양이나 나이아가라 폭포의 가능성을 추리해 낼 수 있다. 따라서 인생 전체는 사슬이고, 우리는 그 사슬의 일부를 보고 전체를 알 수 있는 것이다.

… 중략 …

상대방의 손톱, 코트 소매, 구두, 바지 무릎, 엄지와 검지에 박힌 못, 표정, 셔츠 소매…. 이러한 것들을 유심히 살펴보면 상대의 직업을 쉽게 알 수 있다. 뛰어난 관찰자가 이 모든 정보를 가지고 추리에 실패한다는 것은 거의 생각할 수 없는 일이다.
_<;주홍색 연구>;에서 셜록 홈즈의 논문 중
 

표본은 어떻게 추출할까?

추정을 하려면 먼저 전체에서 일부 집단을 뽑아야 합니다. 대개 뽑힐 확률을 동일하게 하기 위해 무작위로 뽑아서 조사하죠. 그런데 무작위 추출 방법에도 여러 가지가 있어요. 상황에 따라 좀 더 효과적으로 표본을 선정하기 위해 다양한 방법이 고안된 거예요.

예를 들어 전 국민을 대상으로 한 조사에서 무작위로 표본을 뽑으면, 뽑힌 사람들이 전국 방방 곳곳에 널리 퍼져 있어 조사비용이 너무 많이 들어요. 그리고 가게에 들어오는 손님이나 특정 장소에 모인 사람을 대상으로 조사할 때는 아무런 규칙 없이 무작위로 뽑는 것이 매우 어려워요. 이처럼 여러 상황에서 나타날 수 있는 단점을 보완하기 위해 세 가지 표본 추출방법이 고안됐어요.


1. 일정한 간격을 두고 뽑아요! 계통추출법

전체 집단을 대상으로 무작위로 뽑는다는 건 쉬운 일이 아니에요. 예를 들어 전화번호부에 등록된 대상이 전체 집단이고 여기서 무작위로 표본을 뽑고자 한다면, 먼저 차례대로 일련번호를 붙여야 해요. 그리고 무작위로 뽑힌 번호의 사람을 일일이 찾아야 하죠.

그런데 무작위로 한 명을 뽑은 뒤 이 사람을 기준으로 k번째인 사람을 선정하고, 또 다시 이 사람을 기준으로 k번째인 사람을 뽑으면, 좀 더 간편하게 표본을 선정할 수 있어요. 일일이 번호를 매기지 않아도 되거든요. 이처럼 무작위로 하나를 뽑은 뒤, 일정한 간격을 두고 표본을 뽑는 것이 계통추출법이에요.

이 방법은 야구장에서 응원하는 사람을 대상으로 조사할 때 매우 효과적이에요. 농작물을 조사할 때도 농지를 일정구역으로 나눈 뒤 계통추출하면 손쉽게 표본을 선정할 수 있어요.
 

2. 집단별로 뽑아요! 층화추출법

전국의 집값을 조사하려고 해요. 이때 그냥 무작위로 표본을 뽑으면 아파트나 단독주택 등 주택 유형이나 지역별 집값을 알 수 없다는 단점이 있어요. 그런데 집단별로 나눠 무작위로 추출하면 집단별 추정값을 구할 수 있어요. 그래서 조사 대상의 특성에 따라 몇 개의 집단으로 나눠 표본을 뽑는 방법이 개발되었어요. 바로 층화추출법!

성별, 연령별, 지역별 등 유형별로 집단을 구분한 뒤 그 안에서 무작위로 뽑는 방법이에요. 이때 전체 집단에서 아파트의 비율이 30%라면 표본에서의 비율도 30%로 맞춰 뽑아야 합니다.
 

3. 조사 구역을 묶어서 뽑아요! 집락추출법

집락추출법은 서로 가까운 조사 지역을 묶은 다음, 무작위로 조사 구역을 선정하고 이 구역 내에서 다시 무작위로 뽑는 방법이에요. 예를 들어 경기도 중학생의 사교육비를 조사한다고 가정해 봐요. 무작위로 조사 대상을 선정하면 표본이 경기도 전체에 고루 분포되어 있어 조사를 위한 이동거리가 길어져요. 그러면 시간과 비용이 많이 들어요. 이럴 땐 경기도의 중학교를 무작위로 몇 군데 선정하고, 그 학교 학생을 대상으로 조사하는 것이 효과적이에요. 실제로 통계청에서는 ‘조사구’라는 단위를 설정해 이 단위 내에서 집락추출법을 사용한답니다.
 

제품의 품질을 높이는 추정 방법!

표본을 선정하고 나면 전체 집단의 특성이 어떤 것이지 알아내는 추정을 해요. 추정을 하는 방법은 여러 가지가 있는데, 여기서는 제품의 품질을 추정하는 방법을 소개할게요.

기업에서는 제조한 제품 중에서 불량품이 어느 정도나 되는지 아는 것이 중요합니다. 많다면 불량품의 개수를 줄이는 노력이 필요하기 때문이죠. 그런데 생산한 제품을 일일이 조사해 불량품을 찾는 것은 불가능합니다. 그래서 표본을 뽑아 추정을 해요.

제조한 제품에서 표본을 뽑을 때는 계통추출법을 이용하는 것이 효과적이에요. 100번째 생산되는 제품마다 검사를 하거나, 30분마다 또는 시간당 특정 개수의 제품을 골라 조사하면 시간을 절약할 수 있거든요.

이런 방법으로 표본을 뽑고 나면 제품의 성능, 디자인 등을 점수로 매기고 평균과 표준편차를 구합니다. 여기서 표준편차란, 제품의 점수가 평균으로부터 얼마나 떨어져 있는지를 나타내는 값이에요. 즉 집단의 점수가 얼마나 골고루 퍼져 있는지를 나타내는 값으로, 표준편차가 크면 불량품이 많다는 걸 의미해요. 따라서 기업에서는 표준편차를 줄이기 위해 노력하죠.
 

평균과 표준편차를 구하는 이유는 또 있어요. 이 값을 알면 전체 제품의 상태를 추정할 수 있기 때문이에요. 신기하게도 표본의 개수가 50개 이상이면, 그래프가 항상 평균을 기준으로 좌우대칭인 종 모양의 정규분포로 나타나거든요. 평균과 표준편차의 값에 따라 홀쭉할 수도 있고 뚱뚱할 수도 있지만, 언제나 좌우가 대칭인 종 모양이랍니다.

그런데 이런 정규분포의 면적은 전체 집단이 여기에 속할 확률을 의미해요. 즉, 전체 제품의 점수가 μ에서 1σ 사이 값일 확률은 34.1%인 거예요. 여기서 μ는 평균이고, σ는 표준편차를 뜻해요.

그렇다면 불량률은 어떻게 낮출까요? 기업에서는 6시그마 방법을 이용하고 있어요. 6시그마란 불량품이 나올 확률이 정규분포에서 ±6σ 밖의 면적일 때(100만 개당 3.4개의 불량품)를 추구한다는 의미예요. 여러 가지 공정 상황에서 발생할 수 있는 불량품의 원인을 제거하는 방법이에요.

6시그마 방법 중 하나로 ‘DMAIC’라는 것이 있어요. 정의, 측정, 분석, 개선, 관리 이렇게 총 5단계를 통해 불량품이 생기는 원인을 밝히고 불량률을 줄이는 방법이에요. 현재는 대부분의 기업에서 이 방법으로 불량품을 낮추고 있어요. 이 방법은 제품의 품질뿐만 아니라 성적, 운동 능력 향상 등 어떤 점을 개선할 때도 효과적이랍니다.

일부분을 통해서 전체를 파악하는 추정은 우리 생활에서 아주 많이 활용되고 있어요. 신약이나 수술법이 안전한지 판단할 때는 물론, 내년 경제 전망을 예측하는 데까지 쓰이지요. 여러분들도 실생활 속에서 간단한 추정을 해 보세요. 통계에 대한 이해력은 물론, 셜록 홈즈를 능가하는 추리력을 키울 수 있을 거예요.

6시그마 방법으로 성적 올리기

정의
개선해야 할 목표를 설정한다.

중간고사에서 평균 점수 90점 이상이라고 설정한다.

측정
문제 요인을 알아내기 위해 다양한 측정을 한다.

스마트폰 사용시간, 게임하는 시간, 공부하는 시간, 학습 능력 등을 측정한다.

분석
현재 상태를 파악하고 문제 요인을 밝혀낸다.

스마트폰 사용 시간이 길다.

개선
목표를 달성하기 위해 필요한 개선사항을 정한다.

스마트 폰을 하루에 1시간만 사용한다.

관리
개선된 상황이 꾸준히 유지되도록 관리한다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2013년 09월 수학동아 정보

  • 김영진 부장
  • 사진

    동아일보
  • 사진

    포토파크닷컴

🎓️ 진로 추천

  • 통계학
  • 수학
  • 경영학
이 기사를 읽은 분이 본
다른 인기기사는?