d라이브러리









Part 1. 데이터 과학, '소셜'을 분석하다

범인 찾고 도시 설계하고



 
 


수학자이자 사회네트워크 분석가인 발디스 크렙스는 테러 역사에서 가장 유명한 인물 중 하나다. 테러를 저질러서가 아니라 테러범을 분석했기 때문이다. 현재 악명 높은 테러범이나 테러 혐의자 중 그보다 유명한 사람은 오사마 빈 라덴 정도다. 크랩스는 1985년 캘리포니아에 있는 자신의 마을에서 차고 하나를 개조해 사회 분석회사를 차렸다. 근근히 살아가던 그가 갑자기 유명해진 것은 2001년 테러가 일어나고 며칠 뒤 공개한 9.11 테러범 조직도 때문이다(아래 그림). 19명에 달하는 범죄자들이 서로 어떻게 공모했으며 핵심인물은 누구였는지를 정확히 표시한 지도였다. 이때까지 범인들이 서로 공모를 한 정황은 있었지만 누구도 크렙스만큼 한눈에 들어오게 분석해 낸 적은 없었다. 언론은 이 지도를 대서특필했고, 덩달아 그가 하던 사회네트워크분석 기법도 큰 주목을 받았다. 크렙스가 이후 먹고 살 걱정은 하지 않게 된 것은 물론이다.



크렙스가 사용한 ‘사회네트워크분석(SNA)’은 완전히 새로운 기술은 아니었다. 사회과학에서 사람들 사이의 관계를 파악하기 위해 수십 년 동안 사용하던 분석 기법이기 때문이다. 범죄 영화를 떠올리면 쉽다. 범인이 누구인지 모를 때 영화 속의 형사들은 용의자 얼굴이 찍힌 사진을 칠판에 이리 붙였다 저리 붙였다 하며 서로의 관계를 표시한다. 그리고 칠판 가운데에 있는 얼굴을 의미심장한 표정으로 쳐다보며 외친다. “이 사람이야!” 주변 모든 용의자들의 화살표를 한몸에 받은 그 인물이 범인임은 물론이다.



크렙스가 다른 사람과 달랐던 점은 신문에 공개된 데이터를 활용했다는 점이다. 사건이 일어나고 1주일이 채 안 된 시간에 여러 언론사에서 용의자들에 대해 말하기 시작했다. 그는 수사관이 아니었기 때문에 다른 방법으로 정보를 얻을 수는 없었다. 하지만 신문에서 반복적으로 말하는 수사 결과 데이터만으로도 충분했다. 그는 확실한 정보와 덜 확실한 정보, 그리고 불확실한 정보를 분류해 컴퓨터로 연결도를 그리기 시작했다. 며칠 지나지 않아 그가 지도를 완성했을 때, 한가운데에는 주변인의 화살표를 한몸에 받는 핵심인물을 구분할 수 있게 됐다.



이 방법은 오늘날에도 범죄 연구에 활용되고 있다. 사회네트워크분석 전문업체인 ‘사이람’의 김강민 이사는 “오늘날 대부분의 범죄는 여러 명이 공모한다”며 “금융이나 보험 사기를 적발하는 데 이 기법을 활용하고 있다”고 말했다. 네트워크 분석은 오늘날에도 방법이 크게 변하지 않았다. 다만 데이터의 양이 폭발적으로 늘어서 컴퓨터의 도움이 필수가 됐다는 점, 그리고 물리학자와 수학자의 참여가 늘었다는 점이 달라졌다. 크렙스처럼 분석에 그치지 않고 모델링 작업을 통해 미래를 ‘예측’하는 데 쓰이는 것도 차이점이다.

 
 
 
 
 
 
 


 
 
물리학자와 수학자를 매료시킨 국회의원들

지난해 여름, 미국 상원의원들은 불 꺼진 방에서 남몰래 도서관 홈페이지에 접속했을지도 모른다. ‘미국공공과학도서관회지’에 자신들의 ‘속마음’이 담긴 과학 논문이 발표됐다는 소문 때문이다. 정하웅 KAIST 물리학과 교수팀이 발표한 미국 상원의원 100명의 네트워크 지도가 그것. 지도에는 2006년 5월 미국 상원의 상황이 마치 X선 사진처럼 고스란히 담겨 있다.



지도를 보면 존 케리 민주당 의원과 존 매케인 공화당 의원이 각각 다른 세력의 중심 인물로 등장한다. 두 의원과 직접 친하지 않은 의원도 대부분 ‘한 다리만 건너면’ 둘 중 한 명과 연결된다. 재미있는 것은 존 케리 민주당 의원 주위에 꽤 많은 공화당 의원이 등장한다는 사실이다. 이는 당시 상원에 진출한 민주당 의원이 공화당보다 적어 존 캐리 의원이 공화당 의원과 협력해야 할 일이 많았기 때문이다. 정 교수는 2006년 11월 상원의원 선거 뒤의 상황을 날짜 별로 분석했다. 당시 선거에서 민주당이 크게 승리했는데, 설상가상으로 매케인 의원이 이라크 전쟁에 관해 실언을 하면서 공화당 의원들 다수가 매케인 의원을 떠나 케리 의원 쪽에 붙었다. 네트워크 지도는 바로 이 상황까지 생생하게 포착해 냈다.



정 교수는 이 네트워크 지도를 오로지 검색엔진인 구글을 이용해서 얻었다. 컴퓨터 프로그램을 이용해 구글에 ‘존 매케인’, ‘존 케리’, ‘상원의원’을 쳤을 때 나타나는 웹페이지 정보를 모았다. 그런 뒤 이 자료(웹페이지 수)를 통계 처리했다. 물리학자가 이용할 만한 방법이나 데이터가 아닐 것 같지만, 실제로 이 방법을 쓰면 일정한 패턴이 나타나 네트워크 지도를 얻을 수 있다.



미국 의회에 관심을 가진 과학자는 정 교수가 처음이 아니다. 미국 하원의원들의 네트워크를 그린 수학자가 있다. 얀 장 미국 캘리포니아공대 교수와 제임스 폴러 샌디에고 캘리포니아대 교수팀은 2006년과 2008년, 두 번에 걸쳐 하원의원들의 친밀도를 분석해 물리학 저널인 ‘피지카A’에 발표했다. 2006년에는 2003~2004년도 의원을, 2008년에는 1995~1996년도 의원을 대상으로 했다. 이 때 장 교수가 사용한 자료는 의원들이 법안을 발의할 때 동의를 표한 흔적. 미국 하원에서는 다른 의원이 낸 법안에 동의하면 자신 이름을 적을 수 있다. 동의했다는 사실을 공개적으로 말하거나 반대로 다른 의원에게 동의를 구하는 일도 비일비재하다. 이렇게 발의를 도운 의원은 서로 안면이 있거나 정치적으로 비슷한 성향이라고 결론지을 수 있다. 얀 장 교수의 분석 결과도 이를 뒷받침하고 있다.
 


국내 정치인을 대상으로 한 연구도 있다. 박한우 영남대 언론정보학과 교수는 트위터에서 정치인들이 서로 상대방을 구독(팔로)하는 경우 이들 사이에 관계가 있다고 보고 서로 연결(링크)하는 방식으로 네트워크 지도를 만들었다(그림 ➌). 이 지도를 보면 인터넷 공간에서도 현재 여당과 야당 의원들이 완전히 편이 갈린다는 사실을 알 수 있다. 그림에서 푸른색으로 표시된 부분은 여당인 한나라당, 붉은색은 나머지 야당과 무소속 의원이다. 두 색이 거의 섞이지 않았다. 예외로 보이는 ‘파란’ 지역 속의 빨간 점은 야당보다는 여당과 성향이 비슷한 송영선 미래희망연대 의원과 한나라당에서 탈퇴한 무소속 강용석 의원, 이인제 의원 등이다. 이 지도는 미국에서 2004년 정치 블로그를 대상으로 작성한 네트워크 지도와 대단히 비슷하다. 이 블로그 지도는 인터넷 공간을 대상으로 정치 분석을 한 사례로 2009년 ‘사이언스’에 인용되기도 했다.



박 교수는 “인터넷 안에서 발굴한 자료만으로도 다양한 관계를 파악할 수 있다”며 “정당별 대표 정치인들을 팔로우하거나 이들이 팔로잉하는 사람들끼리 얼마나 많이 겹치는지를 봐도 성향 차이가 분명히 드러난다”고 밝혔다.(그림 ➋)



정하웅 교수가 과학동아에 단독 공개한 지도(그림 ➊)는 미국 상원의원을 분석한 것과 비슷한 방법으로 국내 국회의원의 네트워크를 분석한 자료다. 어떤 정치인이 정치인 네트워크에서 강력한 ‘허브’를 형성하고 있는지, 야당과 여당은 어떻게 다른 그룹을 이루고 있는지가 일목요연하게 드러난다. 여당은 여당끼리, 야당은 야당끼리 네트워크를 형성하고 있는 모습은 박 교수의 트위터 지도와 비슷하다. 야당보다는 여당과 정치적 성향이 비슷한 미래희망연대와 자유선진당은 한나라당과, 민주노동당과 진보신당 등 진보정당은 민주당과 더 강한 네트워크를 형성하고 있는 점도 눈에 띈다. 서로 다른 성향의 정치인이 연결된 경우는 지역구가 같거나 같은 위원회에서 활동을 하는 경우, 함께 연루된 사건이 있는 경우 등으로 해석할 수 있다. 정 교수는 “서로 앙숙인 경우에도 아무 관계가 없는 것보다 연관관계가 높기 때문에 네트워크를 형성한 것으로 나타난다”며 “누적 기사를 바탕으로 작성했기 때문에 다선의원이 초선의원보다 부각된다는 점은 감안해서 해석해야 한다”고 말했다.













트위터의 구독(팔로워/팔로잉) 관계를 바탕으로 작성한 정치인 네트워크 지도. 트위터를 운영하는 국회의원과 유력 정치인 192명 중 자료 추적이 가능한 189명 전원의 관계를 표현했다. 여당은 파란색, 야당과 무소속 의원은 빩간색으로 표시됐다. 두 진영이 뚜렷이 분리된다.





 
 


위성으로 찍은 지구의 밤풍경을 보면 도시의 위치를 알 수 있다. 이들이 지닌 네트워크 모양은 여러 가지 물리 법칙을 낳고 있다.





도시를 지배하는 물리법칙?

물리학자들은 도시를 움직이는 법칙을 찾기 위해 데이터와 모델링 기법을 활용한다. 그림 ➊은 정하웅 KAIST 교수가 미국의 인구밀도를 바탕으로 공립학교 위치를 예측한 지도(아래). 위의 학교가 있는 실제 위치(위)와 거의 비슷하다.









아태이론물리센터 권오규 연구원이 고속버스 차편 수를 분석해 그린 지도. 대도시를 중심으로 거미줄 같은 그림이 그려진다. 실제 고속도로와 차이가 난다.



스타벅스 위치는 물리학이 결정한다?

평범한 풍경이 갑자기 다르게 보이는 순간이 있다. 권오규 아태이론물리센터 연구원에게는 고속도로가 그랬다. 우리나라는 전국의 고속도로망이 바둑판처럼 잘 정비된 나라다. 미국도 주를 가로지르는 고속도로가 마치 지도의 위선과 경선처럼 가지런하다. 잭 케루악의 소설 ‘길 위에서’의 주인공은 네 차례에 걸쳐 미국 전역을 여행하는데, 고속도로를 따라 이동했기 때문에 그의 여행 궤적 역시 자로 그은 듯 반듯한 바둑판 모양이다.



“하지만 전국의 고속버스 시간표를 모아 데이터 분석을 해 보니 전혀 얘기가 달라지더군요.”

도시를 점으로 표시하고 그 사이를 운행하는 버스를 선으로 표현해 보면 인구가 많은 도시 주위에는 문어발처럼 많은 선이 굵게 그어진다. 따라서 차편 수를 기준으로 교통 지도를 다시 그리면 바둑판 모양의 고속도로 지도와는 전혀 다른 지도가 나온다(그림 ➋). 고속버스가 전체 교통량을 반영한다고 보면 대도시 부근에 교통량이 몰릴 것을 예상할 수 있다. 뻥 뚫렸던 고속도로가 서울 근처만 가면 막히는 데는 다 이유가 있었던 것이다.



권 연구원의 연구는 도시계획을 세울 때 고려해야 할 조건이 의외로 단순할 수 있다는 사실을 말해 준다. 바로 인구다. 최근 이 같은 사실을 뒷받침해주는 연구 결과가 속속 발표되고 있다. 사람들이 아무 생각 없이 세운상가와 공공기관의 위치를 물리학 공식으로 예측할 수 있다는 연구 결과가 나온 것이다. 정하웅 교수와 김범준 성균관대 교수는 2009년 공공기관과 상점의 위치를 인구밀도로 예측하는 아주 간단한 공식을 만들었다. 이어 한국과 미국의 실제 공공기관 및 상점의 위치와 비교했다. 그 결과 공식을 통해 예측한 위치와 실제 위치가 거의 정확하게 일치했다. 예를 들어 사설 병원이나 학교가 어디에 있을지 공식을 이용해 구했더니 실제 위치와 거의 똑같았다(그림 ❶). 공공기관과 상점은 서로 공식이 달랐는데, 공공기관은 전체적인 사회비용을, 상점은 점포의 이익을 우선시하는 경향이 뚜렷하게 나타났다.



1년 뒤인 2010년에는 더 대담한 연구 결과가 발표됐다. 죠프리 웨스트 미국 센타페이 연구소 박사와 루이스 베텐코트 박사가 지난해 10월 ‘네이처’에 발표한 ‘도시 생활의 통일이론’이라는 글이다.



이들은 미국 내 360개 도시를 뽑아 인구, 도로포장율, 수입, 범죄율 등 가능한 한 많은 자료를 구했다. 그런 뒤 각 항목대로 1위부터 360위까지 순서대로 도시를 늘어놓았다. 모든 항목에서 순위가 같지는 않았다. 하지만 모든 항목에 공통된 패턴이 있었다. 인구가 많은 도시일수록 효율성이 높아진 것이다. 게다가 어느 도시를 뽑아서 비교해도 그 비율이 일정했다. 인구수가 두 배 큰 도시는 작은 쪽보다 도로 포장 면적이나 하수 정비 구간 길이 등 기반시설의 효율이 15%씩 증가했다. 도시의 생활 지표들도 15%씩 높아졌다. GDP, 특허출원 수, 임금, 교육기관 수, 연구소 수 등 성장과 관련한 수치는 물론, 범죄율, 교통체증, 질병 전파 속도 등 좋지 않은 부분도 공평하게 15%씩 높았다. 재미있는 사실은 사람들의 걸음 속도 역시 15%씩 증가했다는 점이다. 결과도 놀랍지만 이런 자료까지 구해서 연구한 웨스트 박사가 더 놀랍다.

이런 일은 왜 일어났을까. 먼저 일종의 ‘압축’이 일어났다. 사람이 늘면 도로나 전깃줄 등 기반 시설을 좀 더 압축해서 사용하고자 하는 경향이 나타난다. 벌집이나 개미굴도 개체 수가 두 배가 되면 약 20% 정도 압축이 일어난다. 두 번째는 복잡계 네트워크 특유의 증폭 현상이다. 도시 속의 네트워크를 구성하는 사람들 개개인은 서로 교류를 늘려나가며 영향을 주고 받는다. 그 결과 도시 생활의 결과들이 증폭한다. 마치 분자 사이의 거리가 조밀할수록 물질의 에너지가 더 높아지는 것과 비슷하다. 웨스트 박사는 생물과 도시로 연구 주제를 계속 바꿔왔지만, 결국 에너지 물리학자의 관점을 끝까지 버리지 않은 셈이다.



단어만 보면 의외로 ‘뻔한’ 사람

“정말 이상했습니다. 당장 먹고 살기도 힘든 사람들이 어떤 제품을 원하느냐는 질문에 계속 ‘멋있는(cool)’ 이라는 말을 남발하는 거예요.”



사회네트워크분석 전문회사 ‘트리움’의 김도훈 대표는 지난해 남아프리카공화국에서 있었던 일을 이렇게 회상했다. 김 대표는 한 휴대전화 회사의 요청을 받고 잠재적 시장인 아프리카에서 소비자의 마음을 네트워크 분석을 통해 연구하고 있었다.



“그런데 ‘의미 분석’을 해 본 뒤에야 그 진짜 뜻을 알 수 있었지요. 그 사람들이 진짜 하고 싶었던 말은 ‘가격 대비 좋은 물건’이라는 것을요.”



사정은 이렇다. 돈이 별로 없는 남아프리카공화국 사람들은 속으로는 자신의 주머니 사정이 허락하는 물건을 구입할 수밖에 없다. 하지만 외지인에게 그런 마음을 들키고 싶지 않았다. 물론 정말 좋은(cool) 제품을 사고 싶은 마음도 있었다. 그래서 묻는 질문에 자신도 모르게 시도 때도 없이 ‘멋진’, ‘좋은’이라는 말이 들어갔다. 하지만 사람을 속일 수는 있어도 네트워크 분석까지 속일 수는 없었다.



“단어가 쓰인 맥락을 분석해 봤습니다. ‘cool’이라는 단어가 문장에서 어떤 단어들과 연결되는지, 그리고 연결된 단어는 또 어떤 말을 가리키고 있는지를 알아봤지요. 그 단어는 바로 ‘가격대비 좋은(price affordable)’이라는 말과 ‘내 이름(my name)’이었어요.”



김 대표의 분석을 들은 휴대전화 회사는 싸지만 튼튼하고 개성 있는 단순한 디자인의 제품을 만들어 출시했다. 결과는 대박이었다.



김 대표가 이용한 방법은 녹음한 자료에서 단어를 추출한 뒤 문장 안에서 다른 단어와 어떻게 결합했는지 패턴을 파악하는 방법이다. 이 방법으로 네트워크 지도를 그리면 사람들이 진짜 하고 싶었던 말을 찾아낼 수 있다.



 



박한우 교수도 지난해 9월 계산사회과학 저널 ‘사회과학컴퓨터리뷰’에 발표한 논문에서 ‘싸이월드’ 방명록의 단어를 분석해 유력 정치인 10명의 네트워크 지도를 밝혔다. 전현직대통령의 연설문을 분석해 두 대통령의 성향이 약간 다르다는 사실을 밝힌 연구도 있다(위 그림). 박 교수는 “같은 단어를 쓰는 사람은 인지심리학적으로 비슷한 정서를 공유한다”며 “웹 공간에 쌓여 있는 글을 활용하면 이전에는 볼 수 없던 네트워크 정보를 알 수 있다”고 말했다.



과학자들은 방대한 양의 단어를 수집해 빈도 수와 패턴을 분석하는 연구에 관심이 많다. 언어학자인 스티븐 핑커 미국 하버드 의대 교수와 마틴 노바크 수학과 교수팀은 1800년부터 2000년까지 나온 책 중 전자책으로 만든 약 520만 권의 단어를 분석한 결과를 지난해 12월 ‘사이언스’에 발표했다. 이들이 모은 단어는 모두 5000억 개. 연구팀은 단어가 등장하는 빈도수를 분석해 당시 어떤 학문, 문화, 인물이 인기를 끌었는지, 그리고 그 패턴은 시간과 공간에 따라 어떻게 변하는지를 연구했다. 그 결과 다른 데이터 과학과 마찬가지로 일정한 패턴이 발견됐다.



패턴이 중요한 이유는 앞으로 유행할 문화가 무엇인지 예측할 수 있게 해 주기 때문이다. 불규칙해 보이는 주가 그래프 속에서 패턴을 찾으면 앞으로의 주가를 예측할 수 있듯, 단어가 언제 처음 등장하고 얼마나 자주 쓰이는지 찾으면 된다. 예를 들어 유명인들은 무명 시기를 거쳐 어느 순간 갑자기 인기가 치솟는다. 이후 75년 정도 인기가 유지되다 천천히 잊혀지는 패턴을 보인다. 현재 유명인인 안젤리나 졸리도 이런 운명에서 크게 벗어나지 않을 것을 예상할 수 있다(단, 모든 데이터 과학의 연구 결과는 평균값이므로 개개인에 그대로 적용할 수는 없다). 정 교수는 “그래프가 그리는 ‘피크’의 모양을 보면 가능하다”며 “우리나라 과학논문을 이용해 비슷한 연구를 수행할 예정”이라고 밝혔다.







단어로 질병 확산을 예측하는 연구도 있다. 2009년 초, 미국 애틀랜타 질병통제 및 예방센터의 린네트 브라머 박사와 구글의 레리 브릴리언트 연구원팀은 구글 인터넷 검색어로 언제 어느 지역에 인플루엔자가 발생할지를 예측한 연구 결과를 ‘네이처’에 공개했다. 사람들은 인플루엔자 같은 감기 증세가 나타나면 먼저 인터넷을 통해 관련 정보를 찾는 습관이 있다. 감기가 걸릴 것 같아서 목이 간질간질했던 기억을 되살려 보자. 주변에 물을 사람이 없었다면 인터넷을 통해 ‘인플루엔자’ 또는 ‘인플루엔자 증세’ 등의 단어를 검색했을 것이다. 이런 습관은 전세계 수억 구글 사용자에게서 동일하게 나타난다. 만약 검색어 입력과 감기 발병이 어느 정도 일정한 간격으로 일어난다면 감기를 예측할 수 있다.

 
 
 


연구팀이 실제로 2003년 9월부터 2007년 3월까지의 검색어 수십억 개를 분석한 결과 예상은 맞아떨어졌다. 검색어가 몰리는 지역에서는 며칠 뒤 어김없이 인플루엔자나 감기, 사스(SARS) 등 유사 증세가 발병했다. 더구나 기존의 방법보다 1~2주 정도 예측 속도가 빨랐다. 현재 구글은 이 예측 서비스를 홈페이지를 통해 제공하고 있다.



데이터 과학은 정말 ‘소셜’ 사이언스가 될 수 있을까

수학자 존 내쉬의 삶을 다룬 영화 ‘뷰티풀마인드’에는 학생시절의 내쉬가 무질서한 비둘기의 움직임을 노트에 기록해 동료들의 비웃음을 사는 대목이 나온다. 하지만 내쉬의 친구들이 지금도 살아 있다면 크게 놀랄지도 모른다. 비둘기도 아니고 사람을 대상으로 비슷한 연구가 이뤄지고 있기 때문이다.

앨버트-라즐로 바라바시 미국 노스이스턴대 물리학과 교수는 1000만 명의 휴대전화 사용자 통화 기록을 입수해 이 중 5만 명의 움직임을 추적하는 연구를 하고 있다. 2008년과 2010년 각각 ‘네이처’와 ‘사이언스’에 발표한 논문에서는 사람들이 대체로 예측이 쉬운 일정한 경로로 움직인다는 사실을 밝혔다. 자유롭게 움직일 것 같지만, 의외로 대부분 학교 또는 직장과 집을 오가는 단순하고 한정된 움직임을 보인다는 뜻이었다. 이 말은 사람의 움직임 역시 어느 정도 패턴이 있고, 이를 물리학적으로 분석하고 예측할 가능성이 있다는 뜻이다.

현실적으로 바라바시 교수와 같은 대규모 실험은 쉽지 않다. 개인정보를 다뤄야 하기 때문에 프라이버시 문제도 생길 수 있다. 이럴 때 가장 좋은 대상은 인터넷 속의 자료다. 방대한 디지털 자료 속에는 사람들의 웹 속 행적인 ‘디지털 로그’가 고스란히 남아 있다. 김승환 포스텍 물리학과 교수는 “특히 소셜네트워크서비스는 거대한 가상 실험실”이라고 말했다. 데이터 과학자들이 인터넷 속의 데이터에 관심을 가지는 이유다.



미래를 예측하는 일은 아직 꿈 같은 얘기다. 하지만 데이터 과학은 날로 정교해지고 있다. 과학이 정말 사회의 몰랐던 부분을 밝혀내고 앞날을 예상할 수 있는 ‘소셜’ 사이언스가 될 날도 금세 다가오지 않을까.


▼관련기사를 계속 보시려면?

Intro. 국회의원 인맥 찾아내는 소셜 사이언스
Part 1. 데이터 과학, '소셜'을 분석하다
Part 2. 세포 구조 모방하는 미래 인터넷

2011년 02월 과학동아 정보

  • 윤신영 기자

🎓️ 진로 추천

  • 수학
  • 컴퓨터공학
  • 사회학
이 기사를 읽은 분이 본
다른 인기기사는?