d라이브러리 2013년 03월 수학동아

금 나와라, 뚝딱! 은 나와라, 뚝딱! 말하는 대로 금은보화가 쏟아지는 도깨비 방망이~! 금 나와라, 뚝딱! 은 나와라, 뚝딱!

엥, 뭐야?! 방망이를 잘못 두드린 건가? 동생은 보물이 나오는데, 왜 난 요상한 동그라미 모양의 판만 나오는 거야?
아이고, 무식하기 짝이 없구먼. CD 안에 얼마나 많은 보물이 숨겨져 있는데.... 그 사실도 모르고 디지털 방망이를 사용하다니! 그 방망이 차라리 날 주라고, 날!

당신의 모든 행동이 기록된다! 라이프 로그시대

범인이 감옥에서 탈출했어요. 범인은 경찰에게 잡히지 않기 위해 필사적으로 도망치고 있죠. 그런데 어디로 도망갔는지 도통 알 수가 없어요. 만약 여러분이 경찰이라면 이런 상황에서 범인을 잡기 위해서 무엇을 할까요?

사실 우리가 원하는 것과 알고 싶은 것은 마치 경찰이 범인을 잡는 것과 비슷합니다. 어디로 가면 찾을 수 있는지. 어떻게 하면 찾을 수 있는지는 모르지만 여러 단서를 통해서 추적을 하는 것이죠. 그렇다면 단서는 어떻게 찾을까요? 도망자를 다룬 여화를 보면 범인을 추적하기 위해 사냥개를 이용합니다. 사람의 체취를 통해서 이 사람이 이곳을 지나갔는지, 아닌지를 판단할 수 있기 때문이에요.

이처럼 사람은 흔적을 남기는데, 21세기에 들어서면서 사람들의 흔적은 점점 더 많아지고 있어요. 스마트 폰, 카드 등 똑똑한 제품들이 우리가 무엇을 하는지 다 기록하고 있거든요. 특히 최근에는 범죄 발생을 줄이고자 골목이나 건물 안에 CCTV를 많이 설치해, 우리가 몇 시에 어느 곳에 갔는지도 알 수 있어요. 또 물건을 사거나 대중교통을 이용할 때 카드를 이용하면 우리의 생활 패턴도 알 수 있죠. 즉 우리 삶의 모든 것이 기록되는 '라이프 로그(life log)'의 시대에 접어든 것입니다.

사실 과거에도 사람들은 흔적을 남겼지만, 그때는 이런 자료를 담아두거나 분석할 기술이 없어 자료가 생김과 동시에 대부분 폐기됐어요. 하지만 정보기술이 발달하면서 대용량의 데이터를 저장하고 분석할 수 있게 됐어요. 따라서 자연히 이런 대규모의 데이터 속에서 유용한 정보를 찾아내는 기술이 각광받기 시작한 것입니다.

그렇다면 현재 생산되는 데이터의 양은 얼마나 될까요? 2011년 한 해 동안 만들어진 디지털 정보의 양은 1.8제타바이트(ZB)*, 즉 1조 9791억 기가바이트(GB)가 넘어요. 2012년에는 2조 7000억 기가바이트, 2020년에는 35조 기가바이트에 도달할 것으로 전망되고 있어요. 1메가바이트(MB)가 모래 한 숟가락 정도라면 35조 기가바이트(GB)는 25평(82.5㎡) 아파트 35채에 모래가 10㎝ 깊이로 쌓인 정도의 데이터예요. 정말 어마어마하죠?

일상생활에서 보물을 찾는다!

최근 들어 신문이나 방송 뉴스에 '빅 데이터'라는 말이 많이 등장하고 있어요. 빅 데이터는 문자와 영상, 수치 데이터를 다 포함하는 말로, 많은 자료 속에서 의미 있는 정보를 찾아내 그 결과를 분석하는 기술을 말해요.

오늘날 빅 데이터는 산업혁명 시기의 석탄과 석유처럼 새로운 산업을 일으킬 수 있는 자원으로 여겨지고 있어요. 석탄과 석유를 통해 기계를 움직이고 전기를 생산하여 새로운 산업을 일으킨 것처럼, 빅 데이터로 그런 역할을 할 것으로 보고 있는 것이죠.

그렇게 생각하는 이유 중 하나는 사람들은 자신이 선호하는 행동을 반복적으로 하기 때문이에요. 여러분도 항상 비슷한 시간에 일어나서 학교에 가고, 밥을 먹죠? 마찬가지로 자신이 좋아하는 음식을 파는 식당에 더 자주 가고, 그곳에서 좋아하는 음식을 주문합니다. 또한 자신이 관심 있는 분야에 대해 인터넷 검색을 하죠. 따라서 이런 데이터를 분석하면 자연스럽게 그 사람이 좋아하는 것이나 필요로 하는 것에 대해서 알 수 있어요. 흔히 이것을 '생활 패턴'이라고 하는데, 이를 알면 고객 맞춤 서비스를 제골할 수 있어 다른 기업보다 경쟁력을 갖추게 되는 거죠.

데이터로부터 어떤 정보를 얻어 낼 수 있는지 예를 통해 알아볼까요? 여러분은 와인의 맛에 대해 평가하는 사람에 대해서 들어 본 적이 있을 거예요. 그만큼 와인의 종류가 다양하고 맛도 천차만별이라는 뜻이죠. 따라서 잘 훈련된 전문가만이 와인의 맛을 평가할 수 있었어요. 그런데 미국의 경제학자 올리 아센펠터는 무엇이 훌륭한 와인과 그저 그런 와인을 결정하는지에 대해서 알고 싶어 했어요. 그래서 그는 와인과 관련된 여러 데이터를 모은 뒤, 통계기법을 이용해 와인의 어떤 특성이 와인의 가격을 높이는지를 분석했어요. 좋은 와인일수록 가격이 비싸다고 가정을 하고 분석한 것이죠. 그 결과 와인의 맛을 결정하는 방정식을 개발할 수 있었어요.

와인의 맛을 결정하는 방정식
와인의 맛=12.145+(0.00117×겨울 강수량)+(0.0614×재배 기간의 평균 기온)-(0.00386×수확기간 강수량)

와인의 맛을 결정하는 방정식을 보면 수확 기간의 강수량이 적고, 반대로 재배 기간의 기온은 높고 겨울철 강수량은 많아야 맛 좋은 와인이 만들어진다는 것을 알 수가 있어요. 실제로 와인을 생산하는 곳에서 이 공식을 유용하게 사용하고 있어요.

또 다른 예를 살펴볼게요. 현재 미국에서는 독감이 유행해 사망자수가 100명을 넘어섰어요(2월 기준). 따라서 독감 예방에 비상이 걸렸죠. 그런데 독감이 유행할 거라는 사실을 미국질병통제예방센터보다 먼저 알아 낸 곳이 있어요. 바로 검색 사이트로 유명한 구글이에요.

구글은 어떻게 독감이 유행할 걸 알아 냈을까요? 그 방법은 특정지역에 사는 사람들이 독감과 관련된 검색어를 입력하는 횟수가 많아지면, 그 지역에 독감이 유행할 가능성이 높아질 것이라는 아주 간단한 생각에서 출발했어요. 자신이나 주변에서 독감에 걸린 사람이 있으면 자연히 독감에 대해서 알아보고자 검색할 것이기 때문이에요. 구글은 독감과 관련된 주제를 검색하는 사람의 수와 독감 증상이 있는 사람 수 간에는 밀접한 관계가 있다는 사실을 연구해 과학전문 저널 네이처에 발표했어요.

실제로 구글에서 독감 유행을 예측한 결과를 살펴보면, 미국질병통제예방센터가 예측한 것과 거의 똑같은 것을 알 수 있어요. 이런 예측자료는 독감의 출현을 조기에 발견하여 감염자 수를 줄일 수 있는 방법을 고안하는 데에 아주 유용해요.

빅 데이터 시대, 텍스트 분석이 뜬다!

이제 여러 자료에서 보물과도 같은 정보를 찾아낼 수 있다는 것을 알았어요. 그렇다면 어떤 분식기법이 가장 인기가 있을까요?

사실 통계 분석을 할 때 가장 많이 사용되는 것이 그래프예요. 정보를 한눈에 살펴볼 수 있거든요. 따라서 앞으로도 그래프는 다방면에서 활용될 예정이에요. 그런체 최근 들어 텍스트 분석의 인기가 대단해요. 선거와 맞춤형 광고, 추천 상품 표시, 경기 전략 짜기 등 다방면에서 호라용되고 있거든요.

텍스트 분석은 말 그대로 문서에서 정보를 추출하는 기술이에요. 일반적으로 통계 프로그램을 이용해 자주 사용하는 단어나 문장을 찾아내고, 그들 사이의 관계가 얼마나 밀접한지 상관관계를 알아 냅니다. 그러면 문서 간의 패턴이나 관계, 글의 의도를 파악할 수 있어요.

텍스트 분석은 크게 텍스트 마이닝, 콘텐츠 분류, 감성 분석, 소셜 네트워크 분석으로 나눠요. 먼저 텍스트 마이닝은 문서 간의 연관성을 파악하는 분석이에요. 문서에서 자주 사용하는 단어를 찾아내고, 그 단어들 사이에 어떤 관련성이 있는지 알아 내는 거죠. 이 같은 분석을 하면 글쓴이의 의도를 파악할 수 있어요.

두 번째는 문서 형태로 된 정보들을 재구성할 때 활용되는 콘텐츠 분류예요. 매우 긴 문장을 요약하거나 중복 문서를 확인할 수도 있어요. 또한 정치와 경제, 사회, 문화 섹션으로 문서를 자동 분류하거나, 선거 과정에서 소셜 네트워크에 올라온 유권자들의 수많은 의견들을 다양한 관점에서 분석하여 선거 판세를 예측하는 데 활용되죠. 실제로 미국에선 이 방법을 이용해 대통령 선거를 예측해요.

감성 분석은 블로그와 홈페이지, 소셜 네트워크 등 다양한 공간에 쓴 글에서 글쓴이의 감정을 파악하는 분석 기법이에요. 글쓴이의 감정을 특정한 기준에 따라 분류할 수 있죠.

예를 들어 어떤 주제에 대해서 긍정하거나 부정하는지, 또는 중립적인 입장인지 분류하는 거예요. 공공기관에서 국가 정책에 대한 국민들의 반응을 알아볼 때나, 기업에서 제품이나 브랜드 이미지에 대해서 고객들의 생각이 궁금할 때 유용하게 활용하죠.

마지막으로 소셜 네트워크 분석이 있어요. 트위터나 페이스북 등에서 서로 연결된 사람들 간의 관계성을 찾아내어 중요한 정보를 알아 내는 방법이에요. 공공기관이나 기업에서는 보유한 개인 정보, 즉 이름, 주소, 전화번호 등을 비요하여 특정한 사람과 관련이 있는 또 다른 사람을 찾아내는 데 활용해요.

예를 들어 특정 고객이 이탈하는 데에 영향을 미친 사람이 누구인지를 확인하고, 이를 통해 상호 간에 영향을 주는 고객과 영향을 받는 고객이 누구인지 파악하죠.

앞으로 데이터는 IT기술의 발달과 함께 더 많이 쏟아져 나올 거예요. 당연히 데이터 속에서 필요한 정보를 찾고 분석하여 원하는 정보를 얻는 일은 점점 더 중요해질 전망이랍니다. 즉, 데이터를 분석할 수 있는 능력이 가장 큰 경쟁력이 될 거예요. 여러분도 실생활 속에서 얻은 자료를 보기 좋게 그래프로 정리하고 의미 있는 정보를 찾아내는 습관을 길러보는 건 어떨까요?

숨은 보물단지를 찾아라! 빅 데이터