“내 시야를 항상 SOTA(State Of The Art)로 만드세요.”
인공지능(AI) 전문가답게 AI 분야에서 ‘현재 최고 수준’을 뜻할 때 많이 사용하는 SOTA라는 단어가 흘러나왔다. 항상 최신의 경향, 최고의 기술을 주시하라는 뜻이다. 지난 10월 전 세계 최대 데이터 사이언스 및 머신러닝 경진대회 경쟁 플랫폼 ‘캐글(Kaggle)’에서 상위 0.1% 그랜드마스터에 등극한 주인공을 한국원자력연구원에서 만났다.
“제가 말이 길죠. 오랜만에 사람이랑 얘기해서 저도 모르게 신이 난 거 같아요. 하하.”
인터뷰 전날에도 코딩하느라 거의 밤을 새웠다는 이유한 한국원자력연구원 선임연구원의 초췌했던 얼굴은 다행히 캐글 이야기를 할수록 점점 환해졌다. 캐글은 2017년 구글이 인수한 데이터 사이언스 및 머신러닝 경진대회 플랫폼이다. 이 플랫폼에서 일어나는 일을 간단히 말하자면, 세계 굴지의 기업들이 필요로 하는 기술을 문제로 내고, 전문가들이 그에 대한 알고리즘을 만들어 답지로 낸다.
구글, 마이크로소프트(MS), 페이스북, 아마존 같은 IT 기업뿐만 아니라, 미국 전기제품 제조 기업인 제너럴일렉트릭(GE), 신종 코로나바이러스 감염증(코로나19) 백신을 개발하고 있는 미국 제약사 모더나 등 다양한 분야의 기업들이 출제자다. 경진대회는 기업들이 원할 때 언제든 열 수 있다. 채점도 주최 측에서 한다.
캐글에는 전 세계 500만 명이 넘는 사람들이 가입해 있는데, 이들은 대회가 열리면 혼자 또는 팀을 이뤄 원하는 대회에 참가한다. 대회가 한 번 열리면 보통 1000~2000개 팀이 참여한다. 지난해에는 8800여 개 팀이 참가한 대회도 있었다.
금메달은 보통 10등까지 주어지는데, 정확한 개수는 참가팀 수에 따라 달라진다. 대략 수천 개 팀 중 13~15등 내에 들어야 금메달을 받을 수 있다. 대회 성적은 포인트로 적립돼 캐글에서 이뤄진 경진대회에 대한 전체 등수가 매겨진다. 이 선임연구원은 등수가 매겨져 있는 약 15만 명 중 62등이다.
금메달을 하나에 은메달을 두 개 따면 마스터, 금메달을 5개 모으면 그랜드마스터라는 호칭도 얻게 된다. 여기에 그랜드마스터는 개인으로 참가해 획득한 금메달이 1개 이상 포함돼야 한다. 이 선임연구원은 10월 8일 그랜드마스터에 등록됐다. 한국인 중 그랜드마스터에 오른 사람은 그를 포함해 단 4명이다( 11월 19일 기준).
알파고 충격의 수혜자
“일하는 것 말고 하는 건 운동과 캐글뿐이에요.”
그는 스스로를 ‘캐글 중독자’라 칭했다. 하지만 그가 어렸을 때부터 AI를 공부한 건 아니었다. 그의 대학 전공은 화학생명공학이었다. 2016년 3월 구글 딥마인드가 개발한 인공지능 바둑 프로그램 알파고(AlphaGo)가 이세돌 9단과 세기의 대결을 펼치기 전까지는 인공지능에 대한 이해도가 순수한 백지 상태였다.
하지만 그는 알파고 충격의 수혜자가 됐다. 이 선임연구원은 “알파고와 이세돌 9단이 대결을 펼친 이후, AI가 아닌 다른 분야의 연구자 중에서도 AI 공부를 할지 말지 고민하는 사람이 많았고 나 역시 그중 하나였다”며 “당시 나는 대학원생이었는데, 화학생명공학 분야에도 AI를 이용한 연구결과들이 속속 나오는 걸 보고 공부할 만한 가치가 있다고 생각했다”고 말했다.
그렇게 코딩이라는 걸 처음 접하게 됐고, 2017년 캐글에 입문했다. ‘일단 부딪쳐 보는 스타일’이라는 이 선임연구원은 코딩 입문자였지만, 고수들이 즐비한 경연장에 스스로를 내던졌다. 조금 과장을 보태면 식음을 전폐하고 매진했다. “3년 만에 비로소 빛을 보는 것 같다”고 말하는 그가 지금까지 참가한 대회의 수는 무려 44개다. 1년에 평균 15개 대회에 참가해 우수한 성과를 거둔 셈이다.
“알고리즘 개발에 고집은 통하지 않는다”
그중에서도 가장 기억에 남는 대회는 지난해 5월부터 8월까지 영국 연구 프로그램 ‘위상 공간에서의 화학 및 수학(CHAMPS)’이 주최한 ‘분자 특성 예측’ 대회다. 이 선임연구원은 이 대회에서 2749개 팀 중 3등에 오르면서 첫 금메달을 품에 안았다.
대회 문제는 분자에 자기력이 가해졌을 때 분자 내 전자의 움직임이 어떻게 변하는지 이론적으로 알아내는 알고리즘을 만드는 것이었다. 이런 알고리즘은 유해 가스를 검출하는 센서나, 질환을 치료하는 약물을 개발하는 데 적용할 수 있다.
이 선임연구원은 4명의 국내 AI 전문가와 팀을 이뤘다. 당시 대학원생이던 그는 친하게 지내던 최성환 한국과학기술정보연구원(KISTI) 선임연구원, 국내 세 번째로 그랜드마스터에 오른 AI 스타트업 업스테이지 소속 김상훈 씨(당시 이베이코리아 AI팀 소속) 등과 의기투합했다.
알고리즘 개발에서의 팀원 간 협업은 다른 연구와는 조금 다른 방식으로 이뤄진다. 보통은 하나의 연구결과를 내기 위해 여러 연구자들이 서로의 전문 분야에 맞게 연구를 분담해 진행한다. 하지만 알고리즘 개발에서의 협업은 팀 내 경쟁과 같다. 이 선임연구원은 “팀원들이 각자 알고리즘을 만들어 오면, 그중 어떤 알고리즘이 가장 좋은 결과를 내는지 토론한 다음 그 알고리즘 위주로 개발한다”고 말했다.
같은 배를 탄 팀원들이지만, 내가 개발한 알고리즘의 성능이 다른 팀원의 알고리즘에 비해 떨어진다는 결과가 나오면 못내 씁쓸하다. 분자 특성 예측 대회에서 실제로 이 선임연구원에게 이런 일이 생겼다. 분자 특성을 분석하는 알고리즘이라면 으레 그래프 인공신경망(GNN)을 기반으로 둔 알고리즘을 개발한다. 분자의 구조가 그래프 데이터로 나타내기에 적합하기 때문이다. 화학을 전공해 이를 잘 알던 이 선임연구원은 GNN 기반 알고리즘을 준비했다.
반면에 직전 자연어 처리 대회에서 2등을 하는 등 좋은 성적을 내고 있던 김상훈 씨는 트랜스포머 기반 알고리즘을 만들어왔다. GNN이 분자를 그래프 데이터로 변환해 인공지능을 학습시킨다면, 트랜스포머는 분자를 임의의 문자들로 표현하고 알고리즘이 스스로 중요한 부분만 특정해 학습하도록 만든다. 김 씨가 가져온 알고리즘은 팀 내에서 가장 좋은 결과를 냈다.
처음엔 분자 구조를 임의의 문자들로 표현한다는 것이 잘 받아들여지지 않았다. 하지만 이 선임연구원은 그동안 개발했던 알고리즘을 모두 내려놓고 트랜스포머 기반 알고리즘을 같이 개발하기로 마음 먹었다. 새롭게 개발한 알고리즘은 분석하고자 하는 분자 특성을 학습하는 데 2일, 그 뒤 분자 하나를 분석하는 데 1μs(마이크로초·1μs는 100만분의 1초)도 걸리지 않았다. 보통의 컴퓨터 시뮬레이션으로는 분자 하나를 분석하는 데 수일이 걸린다.
그가 더 놀랐던 부분은 대회에서 1, 2, 3등을 차지한 팀이 제출한 알고리즘이 모두 트랜스포머 기반이었다는 사실이다. 이 선임연구원은 “내 알고리즘의 성능이 뒤처진다는 게 개발자로서 속상했지만, 한편으로는 오기도 생겼다”면서도 “이 대회를 통해 고집을 부리면 안 된다는 교훈을 얻었다”고 말했다.
원자력 연구기관에 AI 전문가가 있는 이유
이 선임연구원은 캐글 중독자답게(?) 커뮤니티도 운영하고 있다. 국내 AI 관련 커뮤니티는 대부분 소셜네트워크서비스(SNS)인 페이스북에 마련돼 있다. 국내에서 가장 유명한 AI 커뮤니티인 ‘텐서플로우 코리아’와 ‘AI 코리아’ 역시 페이스북에 자리하고 있다.
이 선임연구원이 운영하는 캐글 코리아에서는 1만 1000명의 멤버들이 AI와 관련된 정보들을 나눈다. 속칭 인플루언서 반열에 있는 유명 AI 전문가들도 이런 커뮤니티를 통해 만날 수 있다. 이 선임연구원은 “지난해 분자 특성 예측 대회에 함께한 팀원 중에는 커뮤니티를 통해 처음 알게 된 사람들도 있다”며 “다양한 분야에서 AI를 연구하는 사람들을 만날 수 있는 공간”이라고 말했다.
사실 AI 전문가라고 하면 정보통신(IT) 기업에 소속된 사람을 떠올리기 쉽다. 에너지 연구기관인 한국원자력연구원과는 조금 거리가 있어 보인다. 실제로 그가 가장 많이 받는 질문 중 하나도 ‘도대체 원자력 연구기관에서 어떤 AI를 연구하는가’다. 기자도 같은 질문을 해버리고 말았다. 그러자 “AI 연구는 분야가 중요하지 않다. 데이터가 있는 곳이라면 어디든 AI를 적용할 수 있기 때문”이라는 우문현답이 돌아왔다. 그리고 담담히 덧붙였다.
“이제는 ‘너희가 왜 AI를 연구해?’라는 질문은 옳지 않은 것 같아요. 모든 분야에서 해야 하는 것이라고 생각합니다. 기존에는 다른 방식으로 풀던 것을 AI로 풀어 보는 거죠. 물론 다 잘 되진 않겠지만, 더 진보할 수 있는 것들이 많기 때문에 수많은 시도가 이뤄지고 있다고 봅니다.”