주메뉴바로가기 본문바로가기

목소리로 컴퓨터와 대화하는 시대 꿈꾼다

음성 언어 연구실

멋진 여자가 자동차를 몰고 가는 중에 갑자기“우리~집”이라고 외친다. 그러자 휴대전화가 연결되면서 그녀의 집 쪽에서 전화를 받고 어머니 목소리가 들린다. 자동차 옆자리에서 그녀가 전화로 통화하는 모습을 지켜보던 남자가 이를 보고 무척 놀라워한다.

몇년 전 한 이동통신회사의 광고내용이다. 여기 나오는 소위 우리집 기능은 단순한 단어를 음성으로 인식하는 기술을 휴대전화에 접목시킨 것이다. 현재 이런 기술은 음성연구의 한분야인 음성인식기술 중에서도 초보적인 수준에 해당한다.

한국어 음성인식기술 최고

인간의 의사소통수단으로서 가장 편리한 방법이 음성이다. 음성언어연구실에서는 음성을 통해 인간이 컴퓨터와 자유롭게 대화할 수 있는 시스템을 구현하는데 궁극적인 연구목표를 두고 있다. 주된 연구분야는 음성인식, 잡음처리, 음성합성, 음성코딩, 음성변환, 대화처리, 언어식별 등이다. 그야말로 음성언어에 관한 모든 분야를 연구한다고 해도 과언이 아니다.

음성언어연구실에서 가장 앞선 기술은 음성인식 분야 중에서도 연속음성인식 시스템이다. 연속음성인식시스템은 단순히 단어만을 인식하는 것이 아니라 문장 전체를 인식하는 기술이다. 놀랍게도 음성언어연구실에서 개발한 연속음성인식 시스템은 3천64단어에 1만5천개 문장으로 이뤄진 음성 데이터베이스를 어떤 사람이 말하든 96.7%의 정확도로 인식한다. 이 음성 데이터베이스는 국내 최대 크기로, 무역거래에 많이 사용되는 대화를 모은 것이다.

문법화하기 어렵고 품사위치가 일정치 않기 때문에 기술적으로 인식하기 힘든 한국어에 대해 이 정도의 인식률을 갖는다는 것은 세계 최고 수준이다. 실제로 일반 펜티엄급 컴퓨터에서 10초짜리 문장을읽을경우3초만에인식한다. 컴퓨터가 인간과 대화하는 일이 현실로 다가온다면 이것은 인간의 목소리를실시간으로인식하는정도다. 이런 음성인식기술은 부산 LG 청소년과학관에 활용됐다. 다름아닌‘사이버 강아지 초롱이’코너. 초롱이는 모니터상에서 구현되는 사이버 강아지로, 청중이 둘러싼 시끄러운 상황 속에서 도우미의 말만을 분별해 들을 수 있을 정도로 똑똑하다. 이것이 가능한 이유는 인식해야 할 음성이 여러 종류의 잡음과 섞여 있을 때 잡음을 처리하는 기술과, 지시하는 핵심어를 인식하는 기술이 뛰어나기 때문이다. 1999년에는 국내 처음으로 자체 개발한 이런 핵심어인식시스템을 중국 하이얼그룹에 8천만원에 수출하는 개가를 올리기도 했다.


문서음성변환시스템이 구현된 화면. 최근 인터넷에서 만날 수 있다.문서음성변환시스템이 구현된 화면. 최근 인터넷에서 만날 수 있다.


꿈의 기술 자동통역전화

화자인식은 음성인식기술과 동전의 양면처럼 또다른 기술이다. 음성인식은 누가‘안녕하세요’라고 말하든지 똑같은 말로 인식해야 하는 기술인 반면, 화자인식은‘안녕하세요’라는 같은 말이 과연 누구의 말인가를 구별해야 하는 기술이기 때문이다. 화자인식은 목소리를 통해 유괴범이 누구인지를 식별하는 기술과 전화나 인터넷상에서 목소리로 당사자를 확인하는 기술을 포함한다.

요즘 인터넷 뉴스를 보면 문장을 읽어주는 기능이 부가된 경우를 볼 수 있다. 이것도 음성합성이라는 음성기술의 한 응용분야다. 문서음성변환 시스템(TTS)라고 불리는 이 기술은 임의의 문장을 입력시키면 컴퓨터가 목소리를 합성해 문장을 읽어주는 기술이다. 음성연구실에서는 프로그램의 크기가 작으면서도 좋은 음성을 만드는데 힘을 모으고 있다.

음성기술에서 앞으로 주목받을 분야는 음성변환과 언어식별 기술이다. 음성변환은 원래 목소리를 원하는 사람의 목소리로 바꿔주는 기술이다. 이를 응용해 애니메이션 영화에 성우의 목소리를 더빙할 때 특정 성우의 목소리로 여러 사람의 목소리를 연출할 수 있다. 성우 목소리로 들려주는 동화를 어머니의 목소리로 바꿔준다면 동화를 듣는 어린이는 얼마나 좋을까. 결코 꿈같은 얘기가 아니다.

국제전화 사용시 어떤 외국어를 듣고 적절한 교환원과 연결시켜주려면 그것이 어떤 나라 언어인지를 판단해야 한다. 이는 언어식별이라는 기술이 응용될 수 있는 분야다. 현재 음성연구실에서는 영어, 중국어, 일어, 불어, 스페인어, 러시아어를 식별하는 시스템을 개발중에 있다.

음성언어연구실의 오영환교수(전산학과)는 음성연구라는 분야에서 20년 동안 한 우물만을 판 국내 음성분야 1호 박사이자 이 분야의 국내 최고의 권위자이기도 하다. 오교수는“현재는 문법에 맞는 문장만을 인식하는 수준이지만 앞으로는 사람의 대화음성(구어)을 인식하는 기술을 개발하는 것이 중요하다”고 강조하고, 한국인과 미국인이 전화통화를 할 때 실시간으로 한국어와 영어를 상호 통역해주는“자동통역전화가 앞으로 구현될 수 있는 꿈의 기술”이라고 언급했다.

음성언어연구실에서는 실시간으로 음성의 속도를 변화시켜주는 장치를 비롯한 10가지의 특허를 출원 또는 등록했다. 오교수는 이런 음성언어 원천기술을 기반으로 지난해 8월 벤처기업인 보이스피아(www.voicepia.co.kr)를 창업하기도 했다. 현재 연구실에는 박사후과정 2명, 박사과정 12명, 석사과정 5명으로 비교적 많은 학생들이 독특한 우리언어의 음성을 연구하고 있다.


연속음성인식시스템을 시현하고 있는 모습. 음성언어연구실에서 가장 앞선 기술이다.연속음성인식시스템을 시현하고 있는 모습. 음성언어연구실에서 가장 앞선 기술이다.

글 : 이충환 cosmos@donga.co

과학동아 2001년 02호

태그