d라이브러리









[생활] 통계로 생각을 바꾸면 과학이 보인다!


나는야 뛰어난 천체물리학자! 피노키오의 코를 이용해서 지구와 달 사이의 거리를 계산하는 방법을 떠올렸지. 어떻게 이런 생각을 했냐고? 최근 몇 개월에 걸친 실험 끝에 피노키오의 코가 거짓말의 횟수에 비례해 길이가 늘어난다는 것을 알아냈거든. 즉 피노키오의 코가 달에 닿는 순간까지 거짓말의 횟수를 재면 지구와 달 사이의 거리를 잴 수 있지. 어때? 통계를 이용한 나의 방법이! 으하하!


과학적 사고인 귀납적 추론은 통계와 닮은꼴!

인간은 호기심이 아주 많아요. 그래서 주변에 일어나고 있는 일에 대해서 항상 궁금해 해요. 즉 모르는 물건이 있으면 어디에 쓰는 물건인지, 왜 이런 모양인지 호기심을 갖죠. 이렇게 인간의 알고 싶은 욕구에서 탄생한 학문이 과학이에요.

그렇다면 과학이란 무엇일까요? 한 마디로 표현하면 ‘우리를 둘러싸고 있는 사물들을 이해하는 것’이에요. 곤충과 식물, 동물, 행성, 별, 암석층 등 다양한 대상의 성질과 법칙을 찾아 이해하는 것이죠.

과학은 고대 그리스시대부터 시작됐어요. 이후 계속해서 발전을 거듭하다가 중세시대(9세기~16세기)에 이르러 침체기에 접어듭니다. 중세시대에는 신을 섬기는 것을 최고로 여겨 과학의 발전에는 크게 신경 쓰지 않았거든요. 그러다 16세기에 들어서면서 그리스 문화를 부활시키자는 르네상스 운동이 일어났어요. 이때 과학자들을 중심으로 그리스 과학도 부활시키자는 움직임이 일었죠. 그들은 그리스 과학에 대해 연구하면서 비판도 했는데, 이런 과정을 거치면서 그리스 과학을 뛰어넘는 새로운 과학을 하게 됩니다. 이를 ‘과학혁명’이라고 불러요.

과학혁명의 큰 특징은 과학의 내용이나 지식을 얻는 방식이 그 전과 크게 달라졌다는 점이에요. 지금은 실험이나 귀납적 추론이 일반화되어 있지만, 과학혁명 전까지는 관찰에만 의존했어요. 자연을 관찰하고 기록한 것이 전부였죠. 그래서 영국의 철학자 프랜시스 베이컨은 제대로 된 과학을 하기 위해선 ‘실험적 방법’과 ‘귀납 추론’을 해야 한다고 주장했어요.

또한 그는 3단 논법과 같이 연역적인 방법으로 과학적인 문제를 해결하는 것을 반대했어요. 질문의 답을 정해 놓고 그 답에 맞춰 연구하는 것은 오류를 범할 가능성이 크다고 생각했거든요. 그래서 실험을 통해 자료를 얻고 그 자료를 분석해 일반적인 지식을 얻는 귀납 추론을 해야 한다고 주장했어요.

그런데 귀납 추론은 수집된 자료를 정리하고 그 내용을 수치로 표현하는 통계와 매우 닮아 있어요. 그래서일까요? 과학에서 수치를 근거로 귀납적 추론을 하면 ‘통계적 귀납 추론’이라고 해요. 실제로 과학과 통계는 서로 영향을 주며 함께 발전했어요.


천문학 연구로 발견된 최소제곱법

1801년에 이탈리아의 수학자이자 천문학자인 주세페 피아치는 이탈리아 팔레르모 천문대에서 새로운 천체를 발견했어요. 처음에는 고정된 항성★이라고 생각했지만, 곧 이동한다는 걸 발견해 새로운 소행성★이라는 걸 알아차렸죠. 이를 ‘세레스’라고 명명하고, 41일 동안 22개의 관찰 자료를 만들었어요. 그러나 얼마 후 세레스는 시야에서 사라져서 더 이상 관찰할 수 없게 되었어요. 당시 천문학자들과 수학자들은 세레스의 궤도를 계산해서 출현 위치를 먼저 알아내고자 서로 경쟁했어요. 독일의 수학자 카를 프리드리히 가우스도 그 중 한 사람이었어요.

항성★ 태양처럼 스스로 빛과 열을 내며, 한 자리에 머물러 있어서 움직이지 않는 것처럼 보이는 별.
소행성★ 태양 주위를 도는 작은 행성. 행성은 스스로 빛을 내지 못하고, 중심이 되는 별 주위를 돈다.

가우스는 피아치가 남긴 22개의 관찰 자료와, 자신이 고안한 최소제곱법을 이용해 세레스의 위치를 예측하고 세레스의 궤도까지 계산했어요. 여기서 최소제곱법이란, 다수의 관측값으로부터 실제와 가장 가까운 값을 구하는 방법이에요. 실제 해와 근사적으로 구하려는 해의 차이를 제곱해 그 합이 최소가 되는 해를 구하죠.
 
최소제곱법을 사용하기 위해서는 먼저 관측된 값을 그래프에 표시해요. 그리고 이 값들과 가장 가까운 직선 또는 곡선을 그립니다. 여기서는 직선을 그리는 방법을 설명할게요. 먼저 직선을 $y=ax+b$라고 둬요. 우리는 관측값과 가장 가까운 $y=ax+b$를 알아내야 해요.

이제 관측값 ($x$₁, $y$₁)에 대해서 계산을 할 거예요. 우선 $y$₁에서 직선의 방정식에 $x$₁을 대입한 $ax$₁+$b$를 빼요. 이렇게 구한 값을 제곱해요. 관측값 ($x$₂, $y$₂)에 대해서도 같은 방법으로 값을 구해 제곱해요. 이렇게 모든 값을 구한 뒤, 제곱해서 더한 합이 최솟값이 되도록 $a$와 $b$의 값을 결정하면 됩니다. 그러면 관측값의 분포를 가장 잘 설명하는 직선의 방정식이 구해지고, 알고 싶은 시점의 결과값을 구할 수 있어요.

최소제곱법은 현재까지 통계학에서 중요한 분석 방법 중 하나예요. 천문학 연구에서 고안됐지만, 두 학문 모두의 발전에 큰 영향을 끼쳤답니다.


유전학자가 발견한 회귀분석

아빠와 엄마의 키의 평균이 170cm라면 자식의 키는 170cm를 넘을까요? 아니면 이보다 작을까요? 영국의 유전학자인 프랜시스 골턴도 이 질문에 대해 궁금증을 가지고 있었어요. 그래서 그는 부모와 자식 간의 키를 조사했죠.

그 결과 키가 큰 부모의 자식들은 키가 컸지만, 그들의 키는 부모만큼 크지 않다는 것을 발견했어요. 물론 예외는 있지만, 대부분의 사람들의 키는 일반적인 평균 신장에 맞춰진다는 것을 알아냈어요. 즉 부모의 키와 자식의 키에는 서로 관계가 있고, 키가 계속 커지거나 작아지는 것이 아니라 전체 키 평균으로 돌아가려는 경향이 있다는 걸 알아낸 것이죠.

그는 이것을 ‘평균으로의 회귀’라고 부르고, 분석하는 방법을 ‘회귀분석’이라고 불렀어요. 회귀란 본래의 자리로 다시 돌아온다는 뜻을 가지고 있거든요.

사실 사람들의 키가 평균으로 맞춰지지 않으면 큰 일이 벌어질 거예요. 키가 큰 사람들의 자식들은 점차 키가 더 커지고 작은 사람의 자식들은 더 작아져서, 오랜 시간이 지나면 거인과 난장이가 사는 세상이 될 테니까요.

회귀분석이라는 말을 처음 사용한 건 골턴이었지만, 이것을 지금의 통계적 표현으로 나타낸 건 영국의 수학자이자 통계학자인 칼 피어슨이에요. 피어슨은 골턴이 조사한 결과를 바탕으로 부모와 자식의 키가 어떤 관계를 이루고 있는지 분석했어요.

그러자 부모와 자식의 키는 정비례 즉, 양의 상관관계가 있었어요. 그는 이를 토대로 부모의 키와 자식의 키를 변수로 함수식을 만들고, 앞으로 자식의 키가 어떻게 변하는지 예측했죠. 그 결과 부모의 키를 알면 자식의 키를 알 수 있다는 것이 밝혀졌어요. 이처럼 여러 변수 사이에 상관관계를 조사하고, 상관관계가 높은 것을 변수로 선택해 함수로 나타낸 뒤 미래를 예측하는 것이 회귀분석이에요.

회귀분석은 인과관계를 알 수 있고, 미래 예측을 할 수 있어 가장 많이 사용하는 통계 분석법 중 하나예요. 예를 들어 기업에서 물건의 판매에 영향을 주는 요인을 알고 싶거나, 여름철 기온에 따른 아이스크림 판매량을 알고 싶을 때 회귀분석을 이용한답니다.


통계를 통해 알게 된 질병의 과학

여름철 대표 전염병하면 콜레라를 빼놓을 수 없어요. 지금은 의학이 발달해 콜레라로 인한 사망자가 많지 않지만, 19세기에는 많은 사람의 목숨을 앗아가는 공포의 대상이었어요. 콜레라는 콜레라균에 의해 심한 설사를 하고 체액과 염분이 과다하게 손실되는 질병이에요. 콜레라균은 대개 오염된 물이나 음식에 포함되어 입을 통해 체내로 들어와 소장을 덮은 점막에 감염을 일으키죠.

1829년 콜레라가 전 세계적으로 대유행을 했어요. 인도와 파키스탄에서 시작된 콜레라는 프랑스와 영국, 독일까지 유럽 전 지역을 휩쓸었어요. 콜레라는 잠시 주춤했다가 1853년부터 약 2년간 다시 유행했는데, 이때 프랑스에서만 14만 명, 영국에서 2만 명의 생명을 앗아갔어요.

그 당시 사람들은 콜레라가 나쁜 공기나 구름에 의해 전염되는 것으로 생각했어요. 그래서 오염된 물건을 멀리 떨어진 강에 버리곤 했어요. 당시에는 파스퇴르가 세균설을 주장하기 전이라 미생물에 대한 개념뿐 아니라, 오염된 물이나 음식이 질병을 옮길 수 있다는 것조차 몰랐거든요.

그런데 이것이 잘못됐다는 것을 알아낸 사람이 영국의 의사 존 스노우예요. 그는 환자와 사망자가 발생한 장소를 지도에 표시했어요. 그랬더니 특정지역의 환자와 사망자 모두가 브로드 40가의 한 우물에서 물을 길어다 먹은 걸 알 수 있었어요. 그는 이 사실로부터 콜레라가 물에 의해 전염된다는 것을 알아냈고, 질병의 진원지인 우물을 폐쇄해 콜레라의 확산을 막았어요.
 
또 콜레라에 의한 환자와 사망자 수를 물 공급회사와 비교해, 특정 업체에서 제공하는 물이 오염되었다는 것을 증명했어요. 그리고 그 회사에게 그 지역의 물을 사용하지 말라고 지시했죠.

스노우가 사용한 점지도는 오늘날까지 전염병 연구에 널리 쓰이고 있어요. 특히 이 사례를 계기로 통계를 이용해 전염병을 조사하는 학문이 발전했어요. 현재에는 식중독, 신종플루와 같은 전염병이 시간에 따라 어떤 특성을 갖고 유행하는지를 알아내는 ‘유행곡선’을 만드는 단계까지 발전했어요. 유행곡선을 이용하면 질병유행의 원인과 전파 방법, 질병의 잠복기 등 다양한 정보를 알아낼 수 있어요.

한편 백의의 천사로 유명한 영국의 간호사 플로란스 나이팅게일도 통계와 관련이 있어요. 그녀가 통계를 이용한 덕택에 많은 군인을 살릴 수 있었거든요.

1854년 나이팅게일은 터키 이스탄불의 영국군 야전 병원에서 부상병을 치료할 것을 부탁받았어요. 그런데 나이팅게일이 야전 병원에 도착해 보니, 병원은 벌레가 들끓고 악취가 진동하고 있었어요. 부상자수, 환자의 질병 내역 등의 병원 기록도 제도로 관리되고 있지 않았어요.

나이팅게일은 병원의 위생을 개선하기 위해 먼저 청소를 하고 병원 기록을 작성하기 시작했어요. 이 자료를 바탕으로 질병 원인별 사망률이 매달 어떻게 변하는지 통계를 작성했어요. 그 결과 병원의 위생상태가 개선될수록 사망자수가 줄어든다는 것을 알아냈어요. 그녀는 사람들이 통계를 이해하기 쉽도록 질병의 원인별 사망률을 그래프로 그리고 병원 환경 개선을 주장했어요. 실제로 병원 위생이 개선되자, 병원의 사망률이 42%에서 2%로 급격히 떨어졌어요.

이처럼 통계는 과학과 함께 발전했어요. 앞으로도 과학의 발전 속도에 맞춰 빠른 속도로 통계도 발전할 거예요. 만약 과학자나 수학자가 꿈이라면 다양한 곳에 통계를 적용해 보세요. 머지않아 제 2의 나이팅게일이나 존 스노우, 프랜시스 골턴, 가우스가 될 수 있을 거예요.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2013년 04월 수학동아 정보

  • 김영진 부장
  • 사진

    동아일보
  • 사진

    포토파크닷컴
  • 사진

    위키미디어

🎓️ 진로 추천

  • 통계학
  • 천문학
  • 의학
이 기사를 읽은 분이 본
다른 인기기사는?