d라이브러리









여름에만 아이스크림을 먹는다는 그런 케케묵은 발상은 꽁꽁 얼려버려라! 추위가 훌쩍 다가온 지금, 제가 준비한 것은 따뜻한 온기가 아닌 매섭도록 차가운 철판 아이스크림입니다. 추위를 추위로 맞서는 홈메이드 철판 아이스크림을 돌돌 말아 먹어봅시다! 

 

자, 그럼 완성된 아이스크림을 먹으며 간단한 퀴즈를 내보겠습니다. 아이스크림이 가장 잘 팔리는 계절은 언제일까~요? 당연히 ‘여름’이지 뭘 묻냐고요? 맞습니다. 아이스크림의 판매량은 날씨가 더워질수록 올라가지요. 


그런데 조금 전 여러분이 제 질문에 자신 있게 ‘여름!’이라고 대답할 수 있었던 근거는 무엇일까요? 우리는 특별히 자료를 보지 않아도 당연히 더운 날 아이스크림이 잘 팔릴 거라고 쉽게 짐작하고 있죠. 하지만 이것은 정말 합리적인 추론일까요? 혹시 우연의 결과는 아닐까요? 이 당연하다고 여겼던 현상의 배경에는 바로 통계가 자리잡고 있답니다!

 

 

아이스크림과 더위의 상관관계


통계에서 ‘상관관계’는 모든 조사의 기본입니다. 상관관계란 두 변수가 서로 관련성이 있다고 추측되는 관계를 말하죠. 이때 관련성이 있다는 건 한 변수가 바뀔 때 다른 변수에 영향을 준다는 뜻입니다. 아이스크림과 더위는 상관관계를 설명할 대표적인 사례고요. 그럼 직관적인 짐작이 아닌 수치로 어떻게 상관관계를 확인할 수 있는지 실제 아이스크림 판매량 데이터를 가지고 살펴보겠습니다. 


위 표는 영국 한 아이스크림 회사가 공개한 기온별 판매량이에요. 수를 보면 대략 평균 기온이 높을 때 판매량이 좀 더 크다는 느낌이 들죠? 이제 이 정보를 가지고 그래프를 그려 본격적인 상관계수 구하는 법을 알아보죠! 


하지만 이 정도로는 ‘서로 관계가 있는 것 같다’고 추측할 수는 있어도 구체적으로 두 변수가 얼마나 밀접하게 상호 의존하고 있는지 알기는 어렵습니다. 


이 그래프보다 훨씬 듬성듬성하고 멀게 점을 찍더라도 어느 정도 증가 추세가 있으면 선형 상관관계라고 볼 수도 있으니까요. 따라서 상관관계를 따질 때는 경향성만을 보지 말고 얼마나 유의미하게 두 변수가 상호작용하는지를 알 필요가 있습니다. 이때 사용하는 것이 상관관계의 정도를 파악하는 ‘상관계수’이며, 대표적으로 ‘피어슨 상관계수’가 널리 쓰입니다. 

 

 


변수가 3개 이상일 땐 거리 다변이

 


이처럼 피어슨 상관계수는 막연한 데이터 간의 구체적인 관계를 수치화하는데 매우 유용한 도구입니다. 그러나 상관계수가 높다고 해서 반드시 상관관계가 있는 것은 아니라는 점과, 선형 관계를 띄는 변수들의 관계만 측정할 수 있다는 점에서 한계가 있습니다.


특히 복잡한 관계로 얽혀 있는 3개 이상의 고차원 변수 사이의 상관관계를 파악하는 것은 몹시 어려워 주로 컴퓨터를 이용해 계산해야 했습니다. 그런데 최근 비선형관계에 있는 고차원 변수들 사이의 상호의존도를 훨씬 쉽게 계산하는 방법이 개발됐습니다. 

 


르네 실링 독일 드레스덴공과대학교 수학과 교수는 ‘거리 다변이’라는 새로운 방법을 통해 3개 이상의 고차원 변수들 사이의 상호의존도를 측정했습니다. 변수 자체의 값뿐만 아니라 변수들끼리의 상호 거리도 계산했고, 이를 통해 일반적인 상관계수를 구할 때는 무시되는 관계까지 잡아낼 수 있게 된 겁니다. 


실링 교수와 함께 논문을 쓴 마틴 러셀 수리추계학과 교수는 “우리의 방법은 생물정보학처럼 방대한 데이터의 집합에서 변수 사이 관계를 분석하는 데 적용될 수 있을 것”이라고 말했죠. 이번 연구 결과를 계기로 그동안 놓쳤을 수도 있는 새로운 과학적 발견이 가능하게 될지 기대가 됩니다. 
이 새로운 방법은 무료 통계 프로그램인 ‘R’에 공개돼 누구든 쓸 수 있으니 통계학에 관심이 있는 친구라면 R 홈페이지에 접속해 데이터 분석의 재미를 느껴보세요! 

 

 

참고자료

Rene L. Schilling ‘Distance Multivariance: 
New Dependence Measures For Random Vectors’, Newcastle University Lecture Notes 
‘Correlation and lenear regression’  

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2019년 11월 수학동아 정보

  • 박현선 기자 기자

🎓️ 진로 추천

  • 통계학
  • 수학
  • 컴퓨터공학
이 기사를 읽은 분이 본
다른 인기기사는?