※편집자 주. 과학 연구는 다양합니다. 우주와 자연의 근본을 밝히는 연구도 있고, 생각의 지평을 넓히는 연구도 있습니다. 모두 중요하고 의미있죠. 그런데 사람들의 삶을 개선해 부를 가져오는 연구도 있습니다. 과학동아는 이번 호부터 기술 창업에 성공해 사업가로 변신한 연구자들의 이야기를 연재합니다.
100만 요리 유튜브 채널 ‘1분요리 뚝딱이형’, 게임 플레이 유튜브 채널 ‘야옹해 바바’. 모두 타입캐스트에서 만든 인공지능(AI) 성우들의 목소리다. 글로 된 대본을 넣고, 캐릭터를 선택하면 5분 만에 영상이 제작된다. 감정표현이 가능해 진짜 사람의 목소리로 깜빡 속을 정도니, 인기 유튜버를 비롯해 기업에서도 애용한다. 여기에는 오랜시간 쌓아온 음성 분석 기술이 녹아있다.
AI 성우 ‘타입캐스트’를 만든 김태수 네오사피엔스 대표는 연구자 출신이다. KAIST에서 음원 분리와 합성을 연구하던 그는 다양한 소리가 섞여있는 환경에서 특정 음원을 분리하는 알고리즘을 개발한 내용으로 박사학위를 받았다. doi: 10.1109/TASL.2006.872618
김 대표의 연구는 현재 아마존의 AI 비서 ‘알렉사’, 네이버의 AI 음성기록 서비스 ‘클로바 노트’ 등에 흔히 쓰이는 기술의 시초라고 할 수 있다. 박사학위를 받은 뒤 LG전자에 입사한 그는 통화 시 주변 소음이 들리지 않도록 하는 기술을 연구했는데, 이때 세계 최초로 휴대폰에 마이크를 두 개 달아 음원을 분리하는 기술을 개발했다. 여러명이 참여한 녹음을 화자별로 분리해 텍스트로 변환해주는 네이버의 클로바도 이 음원 분리 기술에서 시작된 셈이다.
이후 퀄컴으로 자리를 옮긴 뒤 그는 기계를 부르면 비서가 나와서 응대해주는 서비스를 개발했다. 기계가 특정 자극에 반응해 깨어날 수 있는 알고리즘을 개발한 것이다. 알렉사의 초기모델이었다.
알렉사, 클로바 실현 기술에 초석이 된 연구
현재 일상에서 음성 인식, 합성 기술은 필수다. 6월 시장조사 업체 마켓앤마켓츠가 발표한 ‘음성 인식 및 발화 시장’ 보고서에 따르면 전 세계 음성 인식 시장 규모가 2026년까지 연평균 21.6% 성장할 것으로 예측됐다. AI 기술 발전, 스마트 기기 사용 등으로 적용 범위가 확대되면서, 이를 이용한 서비스가 시장 성장을 이끌 것으로 보인다.
그러나 김 대표가 처음부터 미래를 내다보고 음원 연구를 한 것은 아니다. 보다 현실적인 이유가 있었다. “성적이 안 됐어요. 제가 대학원 진학 당시 통신 쪽이 가장 ‘핫한’ 분야였어요. 음성 분야에서 박사학위를 받으면, 밥 먹고 살기 힘들 것 같다는 의견이 팽배했죠.”
실제로 김 대표가 박사학위를 받던 2007년에는 음성 관련 연구를 하는 기업이 거의 없었다. 1980년대 잠시 컴퓨터공학 붐이 있었지만, 반짝 인기가 끝난 다음엔 더 이상 비전이 없는 분야로 여겨졌다. LG전자에 입사했던 이유도 음성 관련 연구 부서가 있는 사실상 유일한 기업이었기 때문이다.
2010년대 중반, AI가 이용된 기술이 여러 분야에서 잇따라 실용화됐다. 카메라 얼굴이나 물체 인식 기술 발전, 고흐의 화풍을 따라 그리는 기술 등이 ‘사용할 수 있는 수준으로’ 구현되기 시작했다. “머신러닝 분야에서 소위 퀀텀 점프(대도약)가 일어난 시기였어요. 특히 알파고가 등장한 뒤에는 머신러닝을 기반으로 한 AI 분야가 급속도로 발전했죠.”
창업 4년만에 가입자 120만명 달성
그러던 2016년 돌연 건강에 적신호가 들어왔다. 그간 걸어온길을 돌아봤다. 그리고 생각했다. ‘죽으면 묘비명에 무엇을 남기고 싶을까’. 그때까지 미국에 등록한 특허가 40개, 논문은 20편, 논문 인용 횟수는 2400건. 그간 업적을 돌아본 그는 세상에 더 의미있는 일을 하고자 창업을 결심했다. “세상이 바뀌는 것을 보고 싶었습니다. 혁신적인 기술이 등장하면, 곧 거대한 파도가 일듯 사람들의 일상 생활이 그 기술과 연동해서 다 바뀌었어요. 그 파도를 제가 일으키고 싶었어요.”
그렇게 동료 몇 명과 창업을 준비했다. 베테랑 연구자지만 초보 창업자이기에 우여곡절도 있었다. 창업은 연구 잘 하고, 기술이 뛰어나다고 성공하는 것이 아니었다. 시장에서 차별성이 있어야 하고, 소비자들이 원하는 ‘팔리는’ 것을 내놔야 했다. “더빙 앱이나, 유명인의 외국어 더빙 영상을 만들어 사람들 반응을 봤죠. 사람들이 원하는 것을 찾아야 했어요.”
실제로 카메라로 텍스트를 인식하면 번역해주는 기술, 얼굴이나 사물을 인식해 식별하는 기술 등이 기술적으로 완성형이 돼 시장에 출시됐다. “저는 내 목소리와 똑같도록 내가 말하지 못하는 외국어 음성을 합성하면 어떨까 생각했습니다. 세계적으로 아무도 시도하지 않았던 주제기도 해서 뛰어들었죠.”
김 대표는 도널드 트럼프 미국 전 대통령이 한국말을 하는 영상을 만들어 레딧에 올렸다. 반응은 폭발적이었다. 이 기세로 목소리 좋은 AI 성우에 대한 수요도 확인했다. 그렇게 영상 제작자들에게 성우의 목소리를 빌려주는 서비스를 개발하기로 했다. 대본만 넣으면 AI 성우가 알아서 말해주는 타입캐스트가 탄생한 것이다.
첫 이용자 수 300명. 이후 회원 수가 매달 2배가량 늘었다. 현재 총 가입자는 120만 명이다. 매출에도 큰 변화가 있었다. 2018년 첫 매출 2000만 원을 기록한 이후 매년 꾸준히 4~5배씩 성장을 거듭했다. 현재는 2018년 대비 100배 이상 늘었다. 올해 2월에는 이런 기술의 가치를 인정받아 시리즈B 규모의 투자를 받는 데도 성공했다. 256억 규모다. 김 대표는 “앞으로도 매년 꾸준히 3~4배씩 성장시킬 계획”이라며 “이를 위해 다양한 서비스를 구상해 출시할 예정”이라고 밝혔다.
굉장히 실망했지만 꾹꾹 참으며 말하는 인공지능?
타입캐스트 기술이 다른 AI 성우와 가진 차별점은 ‘감정 표현이 가능하다는 점’이다. 똑같은 말도 드라마 대본처럼 ‘슬프게’, ‘기쁘게’ 등의 표현이 가능하다. “단순 감정 표현을 넘어 ‘굉장히 실망했지만 꾹꾹 참으면서 말하는 것’까지도 가능해요. 감정을 설명하면 이를 반영한 음성을 생성하는 서비스도 곧 세계 최초로 내놓을 예정이죠. 대본을 넣으면 그에 맞는 애드립이 가능한 서비스까지 만들어 보일 계획입니다.”
이런 기능은 유튜브를 비롯해 기업이나 기관에서 만드는 교육 영상 프로그램, 인터넷 강의, 키오스크, 고객상담실 등 다양한 분야에서 유용하게 쓰일 수 있다.
다양한 감정 표현, 여러가지 억양과 어조, 사투리는 물론 이제는 애드립도 가능하다니. 사용자가 원하는 모든 말투를 구현하는 기술이 가능한 비결이 궁금했다. 김 대표는 “(대학과 대학원, 기업 연구원으로 20년가량 쌓아온) 경험과 데이터가 기술의 핵심”이라고 말했다.
그는 “타입캐스트는 오랜 시간 열심히 연구한 결과물의 집합체”라며 “남들이 관심없을 때부터 수십년간 꾸준히 해온 연구와 쌓아온 노하우가 빛을 발하게 된 것”이라고 말했다. 지난한 세월의 결과가 남들이 쉽게 좇을 수 없는 독보적인 기술력을 만든 셈이다.
늘 세상에 없던 것을 만들려는 김 대표의 궁극적인 목표는 무엇일까. “과거에는 펜으로 글을 썼는데, 컴퓨터가 보편화되고는 워드, 한글 등을 이용해 글을 쓰기 시작했어요. 마찬가지로 AI 기술을 이용해 창작하는 환경이 완전히 새롭게 바뀔 것으로 전망합니다. AI 기술을 이용한 창작으로 전 세계에서 선도하는 기업으로 성장시킬 예정입니다. 가까운 미래에 전 세계 사람들의 생활에 큰 영향을 주는 기업이 될 수 있다고 생각합니다.”
김 대표는 자신의 인생경험을 바탕으로 독자들에게 꼭 하고 싶은 말이 있다고 전했다. “유행 따라갈 필요 없다는 거예요. 관심 있고, 잘할 수 있는 것을 하세요. 일단 열심히 쭉 하다 보면 10~20년 안에 한 번씩 기회는 반드시 오는 것 같습니다. 남모르게 꾸준히 개발한 저희 기술이 현재 대세인 유튜버들의 필수품이 된 것처럼요.”