‘아시아 최초 페이스북 데이터 사이언스팀 초빙교수’, ‘최초의 IBS 여성 CI’, ‘최초의 젊은정보과학자상 여성 수상자’ 등 많은 최초의 타이틀을 가진 인물이 있습니다. 바로 데이터 과학으로 사회 문제를 해결하는 차미영 기초과학연구원(IBS) 수리 및 계산과학 연구단 데이터 사이언스 그룹 CI(Chief Investigator)입니다. ‘가짜뉴스 탐지’ 같은 우리 삶과 밀접한 사회현상을 인공지능을 이용해 새롭게 분석하는 차 CI는 “마음을 강하게 이끄는 흥미로운 연구 주제를 선택해 최선을 다하다 보니 새로운 길을 최초로 걸어올 수 있던 것 같다”라고 말했습니다. 미래를 두려워하지 않고 끊임없이 도전하는 차 CI의 이야기를 들어볼까요?
Q 처음 수학에 관심 가졌던 때를 기억하시나요?
어릴 때 춘천에서 친구들과 뛰놀며 지냈어요. 과학고에 들어가서야 제대로 된 수학을 접하게 됐죠. 저와 달리 과학고에 입학한 친구들은 수학 진도가 빨랐어요. 그래서인지 처음 수업엔 무슨 말을 하는지 알아들을 수 없었어요. 그러다 일 주, 이 주가 지나니 어느새 고개가 끄덕여졌던 것 같아요. 이때 수학도 언어와 같다는 생각이 들었고 수학이란 학문에 흥미를 느끼기 시작했습니다. 주변에 똑똑한 친구들이 많아서 첫 수학 시험에서 꼴찌를 하기도 했지만, 열심히 공부하니 점차 실력이 늘더라고요. 또 수학 공부를 다른 친구보다 늦게 시작해서인지 배우는 모든 것이 재미있고 신기해 수학 공부를 열심히 했습니다.
Q 어떻게 전산학을 연구하게 되셨나요?
핵물리학을 전공하신 아버지에게서 초신성폭발, 중성자별, 펄스에 관한 얘기를 자주 들었어요. 너무 흥미로운 분야로 여겨져 천체물리학을 공부하고 싶다는 꿈을 갖게 됐죠. 그러던 중 과학고에서 2학년 때 조기 졸업을 해 KAIST에 진학하게 됐어요. 2학년때 학과를 정하려 보니 그제서야 KAIST에 천문학과가 없다는 사실을 알게 된 거예요. 전공 선택을 놓고 고민하던 제게 아버지께서 전산학을 공부하면 나중에 다양한 분야로 나갈 수 있다고 말씀해주시며 전산학과를 권하셨어요. 지금 와서 보니 차선책이라 생각했던 전산학이 지금 제가 연구하는 데이터 과학으로 이어져 딱 맞는 선택이었다고 생각합니다.
Q 데이터 과학이란 무엇인가요?
데이터 과학은 컴퓨터 과학과 수학의 융합 분야로, 데이터를 살피는 과정의 추상적이고 근본적인 원리를 연구하는 학문입니다. 지금은 사람의 눈으로 이해할 수 있는 수준을 넘어선 어마어마한 양의 데이터를 깊이 있게 분석할 수 있도록 해주는 모든 기술을 일컫죠. 최근 가장 큰 관심을 받는 응용 학문이자 현대 사회의 핵심 학문 중 하나라고 볼 수 있습니다. 세계적인 기업인 구글, 페이스북 등의 플랫폼은 물론이고 로봇에서 사용될 정도로 데이터 과학이 쓰이지 않는 곳이 없답니다.
Q 가장 기억에 남는 연구가 있다면 무엇인가요?
박사과정 시절 당시 곽해운 싱가포르경영대학교 컴퓨터정보시스템학부 교수, 미국 인디애나대학교 안용열 교수와 함께 진행한 유튜브 동영상의 멱법칙 분포 분석을 다룬 연구가 기억에 남습니다. 일반적인 멱법칙 분포도에서는 ‘꼬리’ 부분이 긴 형태로 유지돼야 하지만, 유튜브 동영상을 특정 부분이 가파르게 꺾여 있었습니다. 이 원인을 분석했더니 접근성이 떨어지는 페이지로 인해 나타나는 것으로 보였어요. 사용자의 취향에 맞춰 영상을 추천하는 개인화 알고리듬을 다듬어 접근성이 떨어지는 페이지를 줄이니 꼬리가 다시 완만하게 떨어지고, 조회 수를 40%까지 높일 수 있다는 것을 발견했죠. 이 연구는 데이터 수집, 분석, 집필, 탈고까지 저의 모든 열정을 쏟아부은 연구입니다. 이 연구가 미국 컴퓨터 협회(ACM텮ssociation for Computing Machinery)에서 최우수 논문상을 받으며 유튜브 빅데이터 분석에 관한 첫 연구로 기록됐습니다.
Q 사회와 밀접한 연구를 많이 하시는 이유가 있나요?
제가 재미있다고 생각하는 연구, 아무도 하지 않은 연구에 도전하는 게 즐거워요. 그러다 보니 사회와 밀접하게 관련 있는 연구를 많이 하게 된 것 같습니다. 2010년에는 소셜미디어로 관심을 넓혀 ‘백만 팔로워의 오류(The Million Follower Fallacy)’라는 논문을 미국 인공지능협회(AAAI텮ssociation for the Advancement of Artificial Intelligence)의 국제 소셜웹 학술대회(ICWSM텶nternational Conference on Web and Social Media)에 게재했어요. 5400만 명의 트위터 사용자 정보와 20억 개의 소셜 팔로우 링크, 17억 개의 트위터 메시지를 분석한 결과 단순히 팔로워 수가 많다고 영향력이 크지 않다는 걸 보인 연구였죠. 당시에 전산학에서 사회학 문제를 왜 연구하냐는 질문을 많이 받았습니다. 그런데 저는 소셜 플랫폼을 통해 사회를 이해하고 나아가 인간을 이해하는데 큰 도움이 될 것이라는 믿음을 갖고 있었어요. 그래서 이 연구의 가치를 믿고 나아갔던 것 같아요. 이 논문은 바로 하버드 비즈니스 리뷰 온라인판에 소개됐고, 현재까지 4000번 넘게 피인용 됐습니다. 2020년에는 지난 10년간 학계에 꾸준히 영향을 준 연구로 선정돼 AAAI의 ICWSM에서 테스트 오브 타임 어워드(Test of Time Award)를 수상했습니다.
Q 현재 어떤 연구를 진행 중이신가요?
IBS에 합류한 뒤 2020년부터는 전산학자, 경제학자, 지리학자 분들과 함께 범 지구적 차원의 빈곤문제를 다루기 위해 고해상도 인공위성인 ‘센티넬-2’의 영상 데이터를 분석하는 융합 연구를 새로 시작했습니다. 이 연구를 통해 위성영상을 분석하는 인공지능 딥러닝 알고리듬을 개발했고, 이러한 첨단 과학의 응용 분야는 무궁무진해요. 지난 6월엔 정우성 포스텍 산업경영공학과 교수, 원동희 미국 뉴저지공과대학교 교수 등과 공동연구를 통해 위성 영상 빅데이터로 도시의 녹지 면적을 계산하는 방법을 개발했어요. 이를 통해 도시 녹지 면적이 넓을수록 시민 행복도가 높아지는 경향이 있다는 결과를 밝혀냈습니다. 지금은 이번에 개발한 도구를 기후학자 등과 교류하며 이산화탄소 배출량이나 해양 쓰레기 배출량, 기후 변화로 인한 영향 등 다양한 사회 문제에 적용해볼 계획입니다. 인공지능 모델이 이렇게 다양한 분야의 협업을 가능하게 해 신납니다.
Q 교수님께 수학이란 무엇인가요?
수학은 ‘간결한 비밀’이라 표현하고 싶습니다. 사회과학의 난제는 문제를 잘 정의하고, 또 어떤 요소가 연결됐는지 데이터로 밝히는 과정을 통해 해결의 실마리를 찾을 수 있어요. 그런데 사회과학 문제는 간결하게 정의하기도 어렵고 참과 거짓으로 구분하기도 힘들죠. 하지만 수학은 사회 문제를 단 한 줄의 수식으로도 나타낼 수 있습니다. 인공지능 기술을 활용해 복잡한 사회현상을 분석하기 위해서는 수리 모델의 목적함수를 간결하게 정의해야 하는 것처럼 말이죠.
[수학자의 연구노트]
데이터 과학
세상을 수학으로 보다
글에 앞서 필자는 순수 수학이 아닌, 수학을 기반으로 만들어진 알고리듬과 인공지능으로 사회과학 문제를 푸는 데이터 과학자임을 밝힙니다. 데이터 과학은 현실의 난제를 푸는 ‘행동하는 기초과학’으로, 어떤 데이터 과학 분야를 연구하며 수학을 적용했는지 소개합니다.
KAIST 대학원에서 나의 첫 연구 주제는 큰 용량의 비디오 영상을 실시간으로 효율적이고 빠르게 보내는 방법을 찾는 것이었다. 네트워크상에서 실시간 영상을 주고받으려면 통신장비인 라우터가 오작동하거나 실수로 네트워크가 끊길 때 손실된 패킷(데이터가 전송되는 기본 단위)을 포착해 빠르게 다시 보내도록 해주는 알고리듬이 필요했다.
국제학회에서 얻은 인턴십 기회
이 문제를 잘 풀어보기 위해, 홍콩에서 열린 미국전기전자공학회 컴퓨터통신학술대회(IEEE INFOCOM)에 무료로 참석하고 공부할 기회를 얻었다. 강연 사이의 휴식 시간, 레게머리를 한 사람이 내게 인사를 건넸고, 나는 자연스레 어떤 문제에 관심이 있는지 그에게 설명했다. 다음 강연이 시작돼 일어나려는데, 그 사람이 냅킨에 이름과 이메일 주소를 적어주었다. 그리고 자신을 미국 럿거스대학교에서 이산 수학 및 전산 이론 센터 책임교수이자 통신회사인 AT&T 연구원이라고 소개했다. 놀라운 일이 바로 뒤에 일어났다. 그가 항공편과 숙소를 지원해줄 테니 연구소에서 인턴십을 해보는 게 어떠냐고 제안해준 것이다.
우연한 기회에 방문한 AT&T 연구소는 인터넷망으로 TV 영상과 정보를 송출하는 이른바 IPTV(Internet Protocol Television)의 통신망을 디자인하고 있었다. 나는 IPTV의 네트워크 구성에 필요한 요건을 파악해 TV 영상을 끊이지 않게 전송할 알고리듬을 궁리했다. 그러다 문득 그래프 채색 문제가 떠올랐다. 그래프 채색 문제란 그래프에서 연결된 점이 서로 다른 색을 갖도록 최소의 색으로 색칠하는 문제다. 이 문제를 네트워크 오류가 생길 때 가능한 최적의 이동 경로를 찾는데 사용했다.
이 아이디어를 점검하기 위해 가상 데이터로 자체 개발한 모델을 수없이 실행했다. 그리고 컴퓨터 모델에 실제 데이터를 넣어 비용을 크게 낮출 수 있다는 결과가 나왔던 순간은 그 어느 때보다 짜릿했던 기억으로 남아있다. 인턴십이 끝날 무렵 수많은 실험을 거쳐 제시한 모델은 AT&T 연구소가 개발한 모델보다 20% 정도 비용을 줄일 수 있고 각종 사고에서도 더 안정적이라는 평가를 받았다. 귀국 전, AT&T 연구소의 대가들 앞에서 연구 결과를 발표하는 자리가 있었다. 이때 연구자들이 조언해 준 이야기들은 내게 나이와 인종, 성별을 넘어서 영감을 주었고, 이후 데이터 과학 연구에 더 깊이 빠져들 수 있었다.
유럽으로 가 동영상 공유 플랫폼을 분석하다
이후 존 크로크로프트 영국 케임브리지대학교 교수님 연구실과 스페인의 최대 통신회사이자 남아메리카에서 가장 큰 인터넷 사업회사인 텔레포니카(Telefonica)의 인턴십에 초청됐다. 특히 텔레포니카는 이미 IPTV를 구축해놓았기에, AT&T 연구소에서 기초 지식을 쌓은 나에게 실제 IPTV를 통해 오가는 데이터를 볼 수 있는 꿈 같은 기회였다.
IPTV는 사용자가 채널을 바꿀 때마다 라우터에 채널 요청 정보가 전송되고 그 결과를 다시 받는 방식으로 운영된다. 그래서 라우터에 정보를 수집하는 기술을 구현할 수 있다면 전 국민의 TV 시청 패턴을 알 수 있다. 나는 영국과 스페인을 오가며 데이터 수집과 모델 분석을 병행했다. 그렇게 라우터에서 시청 데이터를 저장하는 모듈을 구현했고 세계 최초로 수십만 가구 규모의 TV 시청 패턴을 연구할 수 있었다. 미국 닐슨 같은 시청률 조사 회사는 계약된 일부 가구에 모니터링 장비를 설치하기 때문에, 이렇게 얻은 데이터는 다큐멘터리 시청 비중이 높은 것으로 알려져 있다. 반면 내 연구에서 제시한 IPTV 데이터는 편향이 없는 더욱 보편적인 행동 패턴을 모델링하게 해주는 중요한 의미를 가진다. 후에 크로크로프트 교수님이 컴퓨터 시스템 분야의 세계 최고 학회인 시그콤(SIGCOMM)에서 2009년 상을 받으며, 이 연구를 기억에 남는 연구 중 하나로 언급해주신 것은 지금까지도 영광이다.
이처럼 데이터 과학은 다방면을 넘나든다. TV 시청 기록만으로도 해당 가구에 어린이가 있는지, 퇴근을 언제쯤 하는지, 언제 채널을 돌리고, 어떤 광고가 효과적인지 가늠할 수 있다. 이를 인간이 어떻게 행동하는지 모델링하는 문제로 접근할 수도 있고, 정부나 기업 등이 개인을 파악하는 응용문제로 다룰 수도 있다. 이것이 데이터 과학의 큰 매력이라고 생각한다. 또 나는 연구를 통해 다양한 사람들을 만날 수 있었다. 데이터가 모이는 핵심 라우터의 위치를 알기 위해 스페인 현지의 엔지니어와 손짓과 발짓을 모두 섞어가며 소통했고, 한국-스페인 수교 후 57년 만인 2007년에 열린 한국-스페인 정상회담에 초대되어 후안 카를로스 국왕과 고(故) 노무현 전 대통령을 만날 수 있었다. 인턴십을 통해 공학자, 연구자, 법무팀 등 다양한 분야의 전문가를 만나며 내 시야도 넓어지고 있었다.
또 2006년 당시 스타트업이었던 유튜브가 구글에 약 1조 6000억 원에 매각되던 때, 수백억 개에 달하는 유튜브 동영상 채널 수는 IPTV의 200여 개 채널을 분석하던 내게 새로운 도전으로 다가왔다. 나는 곧바로 데이터를 수집하는 크롤링 스크립트를 작성해 유튜브 동영상의 인기를 가늠하는 지표들을 수집했다. 가장 인기 있는 동영상부터 아무도 보지 않는 동영상까지 그 순위를 가로축에 나열하고 세로축에는 해당 동영상의 조회 수를 표시했다. 그런 뒤 가로, 세로축의 값을 로그함수로 바꿔 그래프를 그려 멱 법칙이 존재하는지 살폈다.
멱 법칙은 한 수를 다른 수의 거듭제곱으로 나타낼 수 있는 함수 관계로, 도시별 인구수나 사용되는 단어의 빈도 등 자연 현상을 설명하는데 사용된다. 이때 x축 방향으로 갈수록 그래프의 꼬리가 꾸준히 유지되는지, 빨리 떨어지는지 등을 보고 경영 전략을 세울 수 있다. 멱 법칙 분포를 기반으로 수리 모형실험을 했더니 꼬리가 긴, 즉 사람들이 꾸준히 보는 동영상을 개인에 맞게 추천할 때, 조회 수와 이를 통한 광고소득이 얼마나 오를지 볼 수 있었다. 이 연구를 통해 박사과정 마지막 해에 열렸던 미국 컴퓨터 협회(ACM)에서 최우수 논문상을 받았으며, 독일 막스 플랑크 연구소에서 박사후연구원을 제안받았다.
더 큰 네트워크의 세계로
데이터 과학은 내게 매혹적인 퍼즐 같았다. 복잡하고 정제되지 않은 데이터를 차근차근 분석하면 그 상황에서 새로운 법칙들을 찾을 수 있었기 때문이다. 그래서 나는 더 큰 데이터를 다루고 싶다는 욕심이 생겼는데 마침 기회를 얻을 수 있었다. 박사학위를 받은 뒤 독일 막스 플랑크 연구소, 유엔 글로벌 펄스(UN Global Pulse), 세계관세기구(WCO) 등과 계속 협업을 하게 된 것이다. 그중 미국 실리콘밸리의 페이스북에서 일한 경험은 특별한 기억으로 남는다. 페이스북 사용자인 30억 인구의 데이터를 분석할 수 있는 곳이기 때문이다.
알고리듬은 더는 이론으로 존재하는 것이 아닌, 누군가에게 어떤 정보를 노출할지를 결정하는 중요한 역할을 한다. 따라서 뉴스, 구직정보, 오랜 친구의 소식이나 인터넷에서 시작된 유행인 밈(meme)까지 사용자의 마음을 읽듯 알고리듬을 통해 데이터가 정렬돼 있어야 한다. 반복된 콘텐츠나 헤어진 연인의 소식이 잘못 뜨기라도 하면 이용자가 서비스를 떠날 수 있기에 사용자에 대한 배려가 필요하다.
여기 다시금 수학적 사고의 중요성이 강조된다. 수십억 인구의 대화가 담긴 데이터에서 개인이 무엇을 원할지 예측하는 데 인공지능이 사용되는데 그 핵심에는 수학 모델링이 있다. 계산량이 많은 경우에는 목적함수*를 잘 정의해주어야 의미 있는 결과를 얻을 수 있다. 이 과정은 절대 단순하지 않다. 사회과학 문제에는 여러 목적과 조건들이 있기 때문이다. 한 예로 검색 사이트가 단지 클릭 수를 높이는 목적함수를 설정한다면 자극적인 낚시성 기사나 가짜뉴스가 많이 추천될 것이다. 따라서 검증되지 않은 정보의 노출을 줄이고 이로운 정보를 늘리는 ‘사회적 가치’를 수식으로 만들어야 한다. 이 전반의 과정을 페이스북에서 데이터 과학자로 일하며 경험할 수 있었다.
지금은 수학을 기반으로 만들어진 다양한 알고리듬과 인공지능으로 사회 난제 해결의 실마리를 찾고 있다. SNS에서 가짜뉴스가 어떻게 전파되고 이를 빠르게 막을 수 있는지, 개발도상국의 경제지표를 딥러닝 기반의 인공위성 데이터에 적용해 유추하고, 우범화물선별 알고리듬으로 세관의 세수 확보를 증가시키며, 스마트워치에서 수집된 데이터를 분석해 불면증의 패턴을 찾아낸다. IBS와 KAIST는 공익 목적의 협업 연구와 혁신적인 모델 방법론을 제시하는 기초과학도 함께 추구하기에 이러한 연구를 하기에 이상적이다. 그래서 경제학자, 정신과 전문의, 경제학자, 지리학자, 세관원, 기자, 기후학자를 비롯해 다양한 분야의 열정적인 전문가들과 교류하며, 데이터 과학 연구를 선도하고 있다.
용어정리
* 목적함수 : 예측값과 실제값의 오차를 최소화하거나 최대화하는 목적의 식.