누가 주동자? 사회네트워크 분석(SNA)으로 찾는다!
지난 2001년 9월 11일 새벽 미국에서 이슬람테러단체가 4대의 민간 항공기를 연이어 납치했다. 납치된 항공기는 6시 3분을 시작으로 뉴욕 세계무역센터와 워싱턴의 국방부 건물인 펜타곤을 연이어 들이박았다. 이 일로 2977명이 사망했고 6291명 이상이 다쳐 최악의 테러로 역사에 남게 됐다. 이에 미국 당국은 누가 이 테러의 핵심인물인지 알아내기 위해 백방으로 노력했다. 이때 혜성처럼 나타난 사람이 수학자이자 사회네트워크 분석가인 발디스 크렙스다.
그는 언론을 통해 공개된 데이터를 활용해 사회네트워크 분석을 했다. 그 결과 연결망 지도를 만들어 19명에 달하는 테러리스트가 어떻게 공모했고 핵심인물이 누구인지를 알아냈다. 이때까지만 해도 누가 범인인지 정황만 있었지 누가 테러를 주도했고, 서로 누구와 연락했는지 정확하게 알려지지 않았기 때문에 그의 분석 결과는 화제가 됐다.
사회네트워크 분석이란 개인이나 단체, 정보가 서로 어떤 관계에 있는지 알아내기 위해 점과 선으로 연결망을 그리는 것이다. 이때 그래프 이론이나 선행대수, 확률통계를 이용해 연결망의 구조를 분석한다. 그러면 핵심인물과 조직 규모 등을 알 수 있다.
그렇다면 크렙스는 테러리스트 조직도를 어떻게 만들었을까? 먼저 그는 방송 뉴스와 신문에 나온 데이터 중에서 확실한 정보와 불확실한 정보를 나누는 작업을 했다. 그리고 용의자들이 어떤 비행기에 탔는지, 서로 누구와 연락을 했는지 점과 선으로 나타냈다. 여기서 점은 테러리스트 개개인이다. 납치된 항공기 중 어느 편을 탔는지에 따라 다른 색으로 나타냈다. 그리고 서로 누구와 연락했는지를 선으로 연결했다.
그 결과 모하메드 아타, 하나 한주르, 나와후 알하즈미, 살렘 알하즈미, 지아드 자라, 마르완 알쉐리가 핵심인물이고, 그중에서도 모하메드 아타가 9·11 테러 기획의 중심에 있다는 것을 알 수 있었다. 만약 이 사실을 미리 알고 모하메드 아타를 잘 감시했다면 사전에 9·11 테러를 막을 수 있었을 것이다. 그래서 최근에는 미국 중앙정보국(CIA)과 연방수사국(FBI)은 테러리스트의 연결 관계를 계속 관찰하고 있다. 서로 연락이 많아지거나 수상한 낌새가 있으면 바로 대응하기 위해서다.
실제로 사회네트워크 분석으로 테러리스트를 잡은 사례가 있다. 사담 후세인과 빈 라덴이 대표적이다. 숨어 있는 빈 라덴을 잡기 위해선 그 주변인물을 탐문하고 미행해야 한다. 그런데 이때 너무 많은 사람을 탐문하거나 엉뚱한 질문을 여기저기 하고 다니면 수사관들이 움직이고 있다는 소식이 금세 빈 라덴의 귀에 들어갈 수가 있다. 그래서 먼저 사회네트워크 분석을 통해 조직원들이 누구와 연락하는지 파악했다. 그리고 탐문하고 있다는 사실이 알려지지 않도록 특정 조직원들만 탐문하고, 질문도 나눠서 했다. 결국 수사하고 있다는 사실을 들키지 않으면서 필요한 정보를 수집해 빈 라덴의 위치를 알 수 있었다.
아무리 숨어도 빅데이터 앞에선 무용지물
“흰색 야구 모자를 쓴 남자가 등에 메는 검정색 가방을 바닥에 내려놓고 사라졌어요. 밝은 색 모자 달린 티 위에 검정 잠바를 입었어요. 키는 180cm이상인 것 같아요.”
2013년 4월 15일 월요일, 미국 보스턴에서는 마라톤 대회가 열렸다. 행사는 계획대로 척척 진행됐고 테러 조짐도 없었다. 하지만 2시 50분경 결승선 직전인 코플리 광장 근처에서 두 개의 폭탄이 170m 간격을 두고 연이어 터졌다. 마침 마라톤 완주자가 속속 들어오고 있던 터라 피해가 컸다. 이 일로 5명이 숨졌고, 280여 명이 부상을 당했다.
당시 여론은 빠른 시일 내에 범인을 잡는 것이 어렵다고 예상했다. 하지만 불과 4일 만에 테러리스트가 붙잡혔다. 어떻게 이것이 가능했을까? 바로 빅데이터 분석 덕분이다.
FBI는 보스턴 마라톤 폭탄 테러를 일으킨 범인을 잡기 위해 통화 기록과 목격자들이 제공한 사진과 동영상, SNS 기록, 인근 지역 600개에 이르는 CCTV 영상을 10TB 분량 가까이 모았다. 그리고 ‘데이터 마이닝’을 이용해 범인을 찾기 시작했다. 그 결과 목격자 진술과 일치하는 행색의 남자가 사고 현장에 폭탄이 든 것으로 추정되는 가방을 놓고 가는 영상을 발견했다.
데이터 마이닝이란 통계분석 중 하나로, 대규모 데이터에서 새로운 정보를 얻어내는 작업이다. 그중에서 가장 많이 사용하는 기법은 ‘분류’다. 데이터가 어디에 속하는지 결정하는 규칙을 만드는 것이다. 보스턴 폭탄 테러의 경우에는 목격자 진술을 바탕으로 흰색 야구 모자를 쓴 사람만 분류해 낸 뒤 이 중에서 검정색 잠바를 입은 사람을 분류해 냈다.
그런데 컴퓨터는 무엇을 보고 흰 모자를 쓴 사람인지 아닌지를 구분할 수 있을까?
컴퓨터는 모든 데이터를 숫자로 인식하기 때문에 분류의 기준을 함수로 만들어 줘야 한다. 예를 들어 연어와 농어를 분류해 보자. 먼저 무게, 눈동자 밝기, 배의 색깔, 길이처럼 연어와 농어를 구분할 수 있는 여러 특징 중에서 두개씩 짝을 지어 ‘회귀분석’을 한다. 회귀분석이란 두 변수가 어떤 상관관계를 가지는지 함수로 표현하는 방법이다. 연어와 농어의 경우 눈동자 밝기를 독립변수($x$), 무게를 종속변수($y$)로 두고 회귀분석을 하면 둘을 구분 짓는 직선의 방정식 $y=-x$+3이 생긴다. 따라서 이 방정식을 기준으로 $y≤-x$+3이면 연어, $y>-x$+3이면 농어로 구분할 수 있다.
한편 빅데이터 분석은 범인 검거뿐만 아니라 테러를 예측하고 테러 자금을 찾아내는 데도 쓰인다. 싱가포르 정부는 국가안전관리시스템을 만들어 국가에 위험이 되는 데이터를 모두 수집한 뒤 테러 위험이 어느 정도나 되는지 측정하고 있다. 미국에서는 9·11테러 이후 국토안보부를 중심으로 빅데이터를 활용해 테러를 예측하는 동시에 금융 거래를 감시해 테러 자금도 찾고 있다.
데이터 마이닝의 5가지 기법
➊ 분류 : 정의를 통해 특정한 집단으로 나누는 것이다.
(예) 고양와 개를 구분, 엑소 사진 찾기.
➋ 군집화 : 구체적인 특성을 공유하는 집단으로 나누는 것이다. 분석을 통해 집단의 특성을 정한다는 점이 분류와 다르다.
(예) 성인 남성의 옷 사이즈를 몇 개로 나눌 수 있는지.
➌ 연관성 : 동시에 발생한 사건의 관계를 밝히는 것이다.
(예) 마트에서 두 제품을 나란히 팔 때 무엇이 좋은지.
➍ 연속성 : 특정 기간에 걸쳐 발생하는 관계를 규명하는 것이다. 기간의 특성을 제외하면 연관성 분석과 비슷하다.
(예) 특정 물품을 자주 사는 사람이 몇 년 뒤에는 어떤 물품을 사게 될지 예측할 때.
➎ 예측 : 대용량 데이터에서 수학적인 패턴을 찾아 미래를 예측하는 방법이다.
(예) 테러 가능성 예측, 주가 예측.
▼관련기사를 계속 보시려면?
Intro. 테러 예측하고 테러리스트 잡는다! 테러 막는 수학수사대
Part 1. 테러도 공식을 따른다!
Part 2. 테러리스트 검거, 데이터 분석이 책임진다
Part 3. 총성 없는 전쟁, 사이버테러