d라이브러리









말로폰 아직 걸음마 수준

대화형 컴퓨터는 2010년에나 등장할 듯

전화 700-3000번. 이 번호는 한국통신이 개발한 음성인식 시스템을 이용해 증권정보를 안내해주는 전화다. 아직 운영상의 문제점을 점검하는 시험서비스 중이지만 머지않아 상용화될 것으로 보인다. 이 서비스는 사람의 손을 통하지 않고 순전히 기계가 문의자의 말을 인식하고 이에 답하는 획기적인 생각을 실현하고 있는 중이다.

이용자가 종합주가지수! ㅇㅇ건설! 등 원하는 정보를 말하면 자동으로 그날의 시세와 거래현황을 알려준다. 매번 안내에 따라 번호를 누르면서 신경써야 하는 기존의 기계식 안내 시스템의 약점을 획기적으로 개선한 것이다.

소위 음성인식기능을 장착한 제품들이 서서히 우리주변에 선보이면서 우리 생활을 바꾸어가고 있다. 국내 가전사들은 작년 하반기부터 음성인식기능을 장착해 전화번호를 누르지 않고 말로거는 '말로폰'을 시판해 소비자의 호응을 기다리고 있다.
 

말로폰


전화기가 상전

그러나 현재 이들 제품에 대한 소비자들의 만족도는 그리 높지 않다. 문제는 아직 음성에 대한 인식률이 낮고 사용상의 제한이 너무 많다는 것.

음성인식 휴대폰이 나오자 마자 구입했다는 이계화씨(43세)는 한마디로 말해서 마음놓고 사용하는 기계가 아니라, 사람이 전화기의 기호에 맞춰 말해야 하는 그야말로 '상전'이라고 씁쓸해 했다.

아이들은 아이들대로 '작은집' '우리집' 등을 연발하며 신기해 하지만, 기계는 그들이 원하는 곳에 곧바로 연결해주지 않는다. 기계가 아직 정해진 목소리 외에 여러 음성을 인식할 수준이 못되기 때문이다.

또 음성인식기능을 수행할 수 있는 소프트웨어를 설치한 컴퓨터를 사용하는 집에서는 아이들이 '켜져라' '꺼져라'고 소리치는 통에 오히려 시끄럽기만 하다는 불만도 모두 인식률이 낮기 때문에 나오는 것이다.

증권정보 안내 시스템에서도 '한국전력' '한전' 등 우리가 흔히 쓰는 단어는 인식되지 못하고, 다만 '한국전력공사'라고 말해야 한전의 주식시세를 알려준다. 시스템에서는 '자연스럽게, 약간의 악센트를 줘, 소리가 적당히 크게 할 것'을 권하고 있지만, 도중에 '에--' '저--' 등 잡소리가 들어가거나 주위에 소음이 있는 공중전화에서라면 곧잘 엉뚱한 회사의 주식값이 나오고 만다. 또 이용자가 정확히 발음하겠다고 또박또박 천천히 말하면 오히려 엉뚱한 곳이 나오고 만다.

한마디로 기계가 알아듣기 편한대로 말하지 않으면 사람의 말에 제대로 대답해주지 않는 것이다. 이쯤 되면 사람 편하자고 만든 기계가 오히려 받들어 모셔야하는 상전으로바뀌어 버리는 것이다.
 

음성인식 자동안애 시스템을 이용하면 주식시장에서 시세를 확인하는 번거로움을 덜 수 있다.


잡음 많으면 인식 못해

음성인식기술에서 가장 큰 문제는 정확한 인식을 위해서 과다한 계산량을 요한다는 것과 잡음에 대해 취약하다는 점이다. 누가 말하더라도 모두 알아들을 수 있으려면 엄청난 양의 데이터를 처리해서 인식할 수밖에 없는데 그렇게 하려면 대용량 초고속의 컴퓨터가 필요하다. 또 여러소리가 겹치는 상태에서는 어떤 소리를 인식해야하는지 분간되지 않아 제대로 작동되지 않는다.

현재 사람이 자유자재로 늘어놓는 말을 다 알아 들을 수 있는 음성인식 기술은 불가능하다. 그러나 생각을 바꾸면 세상이 바뀐다. 한 가지의 불편을 감수하고 열 가지의 편리함을 얻는다면 그것도 좋은 일일 것이다. 방법은 음성인식기의 성격을 아는 것이다.

음성인식기능이 장착된 최첨단의 자동차라 할지라도 제한된 명령어와 문법을 사용해야 정확도를 높일 수 있다. 이러한 제한 조건만 잘 지킨다면 '라디오 켜, 안전벨트, 출발, 속도 시속100km, 실내온도 18도, 횡단보도 지나서 좌회전' 등 다양한 기능을 말한마디로 조정할 수 있다.

음성인식기술은 전체적으로 우리의 생활에 조금씩 가까이 오고 있다. 사용영역을 특화하고 사용언어를 제한할 경우 많은 부분에서 음성인식기술의 덕을 볼 수 있다. LG종합기술원 유하진 박사에 따르면, 가전제품을 비교적 간단한 명령어들로 통제하는 시스템을 만들기는 지금의 기술수준으로도 얼마든지 가능하다고 한다.

기능을 제한해서 인식률을 높이면 음성으로 작동되는 완구, 학습교재. 자동차 도난방지장치, 문잠금장치, 호텔예약시스템, 승차권예약 등 우리 주변에 응용할 곳이 무궁무진하다는 얘기.
 

국제회의에서 사용할 자동통역시스템과 전화번호 자동안내시스템이 음성인식기술을 채용해 개발되고 있다.


미국에서 사용되는 받아쓰기 컴퓨터의 경우 분당 1백40개의 영어단어를 음성으로 입력해 타이핑해내는 능력을 발휘하고 있다. 물론 오타도 눈에 띄지만 속도상으로만 보자면 직접 치는 것보다 3배정도 빠르게 문서작성이 가능하다는 얘기다.

작년에 IBM에서는 음성으로 문서작성을 할 수 있는 음성인식 워드프로그램을 개발해 시판에 들어갔다. 우리나라에서도 음성인식 소프트웨어가 속속 개발되고 이를 장착한 응용 소프트웨어들이 개발되고 있는 실정이다. 여기에는 프로그램실행, 키보드 제어, 전화걸기, 삐삐 호출, 인터넷 북마크 제어기능 등 비교적 간단하고 명료한 명령으로 수행되는 부분의 음성인식기능을 갖추고 있다.

그러나 현재의 기술수준은 세계 최고 컴퓨터가 3천단어 정도를 자유롭게 인식하는 수준이니 사람의 일상 대화를 알아듣는 것은 아직 요원한 실정이다. 전문가들은 컴퓨터가 대화형 언어를 알아듣는 것은 빨라야 2010년정도에나 가능할 것으로 내다보고 있다.
 

1998년 03월 과학동아 정보

  • 전용훈 기자

🎓️ 진로 추천

  • 컴퓨터공학
  • 정보·통신공학
  • 소프트웨어공학
이 기사를 읽은 분이 본
다른 인기기사는?