d라이브러리 1994년 11월 과학동아

'완벽한' 문서인식·음성인식 시스템이 사람에게 안겨줄 편리함과 실제적 이득은 굳이 설명을 필요로 하지 않는다. 하지만 그 편리함을 구가하기 위해 넘어야 할 장벽도 적지 않은 것이 현실.

현대 컴퓨터 역사의 초창기 위대한 이론가로 불리는 알랜 튜링(사실은 수학자)의 목표는 인간 두뇌처럼 움직이는, '생각하는 기계'를 만드려는 것이었다. 하지만 컴퓨터가 20세기 기술 혁명을 이끌어 온 것으로 평가되는 현실 속에서도 아직 사람 만한 능력의 컴퓨터가 등장했다는 소식은 어디에서도 들리지 않는다.

컴퓨터의 기억 연산 입력 출력 등 제반 장치가 인간의 대뇌와 신경망, 감각기관에 대응되는 것이라 해도 그 기능과 역할은 사람의 각 기관에 비하면 매우 제한적인 것이 현실이다. 그리고 이 제한은 어쩌면 영원히 극복하기 힘들지 모른다는 '비관론'도 수그러들지 않고 있다. 물론 '50년 내에 생각하는 기계가 출현 할 것'이라던 튜링의 예언과는 거리가 있긴 하지만 인공지능 분야에는 인간의 두뇌가 어떤식으로 움직이는지를 배우려는 연구자들이 몰려 있긴 하다.

사람과 기계가 가진 차이점은 관점에 따라 여러가지로 지적될 수 있다. 그 가운데 컴퓨터를 통한 인간 지능의 구현을 목표로 삼는 인공 지능 분야는 그 확연한 차이점을 '인식 문제'에서 찾곤 한다. 이는 인공지능이 다루고 있는 분야가 전문가시스템 지식표현 자연어처리 신경망 퍼지 등등 다양하지만 무릇 그 활용은 인식문제로 집약된다는 의미이기도 하다.

사전적 의미로 보자면 인식이란 사물을 분명히 아는 것 뿐만 아니라 기억하고 상상하고 판단하고 추리하는 것을 모두 포함하는, 넓은 의미의 '지적작용'이라 정의할 수 있다. 하지만 이같은 '인간의 기준'을 기계에 까지 확대해 적용하는 것은 현실적으로 무리가 아닐 수 없다. 걷지도 못하는 아이에게 뛰어다닐 것을 요구할 수는 없는 노릇. 인공지능 연구자들이 관심을 갖고 있는 인식분야는 자연스럽게 컴퓨터란 '기계'가 자신의 한계 내에서 인간의 감각을 가장 잘 흉내낼 것으로 믿어지는 부분, 그러나 커뮤니케이션의 핵심 영역인 문자와 음성으로 귀착된다.

펜 컴퓨터를 기반으로 한 모토롤라의 무선정보기기 '엔보이'. 펜 컴퓨터는 기보드 없는 컴퓨터의 대안으로, 인공지능의 중요한 연구분야이다.

문자인식

우리 주변에 셀 수 없을 만큼 많은 문자정보들이 다양한 형태로 흘러 다닌다. 이는 달리 말해 문자가 사람이 정보를 교환하기 위해 고안한 최상의 방법이란 것을 알려주는 것이기도 하다. 문제는 이를 어떤 방법으로 검색과 가공이 간편한 디지털 정보로 변환시키는가 인데, 그 최적의 방법을 찾는 것이 문자인식 기술이다.

즉 종이에 인쇄된 상태로 방치된 문자를 빠른 시간에 컴퓨터에 입력하거나, 현재 주입력 장치로 사용되고 있는 키보드를 효과적으로 대신할 시스템이 등장한다면 지금까지 인류가 쌓아놓은 방대한 정보를 체계화하는데 획기적인 방법이 될 것이다.

문자 인식 시스템을 사용하면 대량의 문서나 서적을 컴퓨터에 저장할때 많은 인력과 시간, 경비가 소요됐던 기존 키보드 작업이 거의 필요 없어진다. 따라서 관공서나 도서관 대학 등 대규모 데이터베이스 작업이 필요한 곳에서 다량의 문서를 데이터로 저장할 때 일일이 문자입력을 하지 않아도 돼 시간과 인원절감 등의 효과를 얻을 수 있다.

현재 논의되고 있는 문자 인식 기술은 입력 방법에 따라 동적 입력의 온라인 인식방법과 정적 입력의 오프라인으로 구분된다.

키보드 없는 컴퓨터의 대안이기도 한 온라인 방식은 쉽게 생각해 펜 컴퓨터를 연상하면 되는데, 마우스나 스타일러스 등을 통해 입력된 대상을 실시간에 인식하는 것을 목표로 한다. 이에 비해 오프라인은 입력할 문서를 스캐너로 읽어들여 이를 다시 텍스트 파일로 전환, 필요한 영역에 활용하기 위한 것이다. 온라인 인식은 오프라인에 비해 글자의 골격 정보를 얻기는 어려워도 획의 정보를 얻을 수 있고 시간 정보를 이용할 수 있다는 이점이 있다.

그러나 오프라인 분야, 특히 한글 인식은 온라인보다 더 연구 성과가 뒤진 것으로 평가된다. 한글은 로마자와 달리 모아쓰기에 의해 글자 하나 하나가 구성되기 때문에 입력된 글자가 한글의 어느 음절에 해당되는가를 인식하는 것이 더욱 힘들어진다. 이미 국내에 상품으로 나와 있는 PC급 문자인식 시스템 (95-97%)이 영문 전용 인식 시스템(98% 이상)과 비교해 인식률이 뒤지는 이유가 여기에 있다.

국내에서 온라인 문서인식 분야 연구는 KAIST 김진형 박사(전산학과)가 가장 앞서 있는 것으로 평가된다. 김박사는 지난 8월 한국 정보과학회, 대한 전자공학회, 한국 통신학회 등 3개 학회가 공동 주최한 제 2회 문자인식 워크숍에서 "은닉 마르코프 모델에 문자스포팅 기술 및 통계적, 구조적 방법에서 얻은 노하우를 결합시켜 한글과 영문이 혼용된 문서를 한꺼번에 인식할 수 있는 등 4년 동안의 온라인 필기 인식 연구 결과 인식률과 속도를 높인 새로운 시스템을 개발했다"고 발표한 바 있다.

수년전 일본에서 개발해 시제품으로 선보인 일본어-영어 번역시스템. 문서인식기술의 발전은 자동번역 시스템의 개발로 이어진다.

한글문자인식 시스템의 등장

한편 어떤 방법을 통해 문자를 인식할 것인가에 대해서는 문자 인식을 원형 정합 방법, 통계적 방법, 구조적 방법, 신경망 방법 등 크게 네가지로 나누어 설명할 수 있다. 이중 최근 주목받고 있는 것은 신경망 회로를 이용한 방법. 신경회로망 방법은 확률론에 근거한 다른 방법들과는 다른 방식을 취한다. 즉 신경소자와 연결장치가 하드웨어로 구현돼 사용자가 신경망 회로에 입력 내용과 원하는 결과를 자세히 제시해주고 반복 자동 학습시킴으로써 문자를 인식케 한다는 것.

현재 국내에 나와 있는 대표적인 오프라인 방식의 문자 인식 시스템 제품으로는 시스템공학연구소 인공지능연구부 오원근 박사팀이 개발한 르네상스 OCR(원도즈용), 이인동 박사가 설립한 한국인식기술의 '하이아트 글눈' 등과 최근 경북대 패턴인식연구실 진성일 교수(전자공학)와 삼홍시스템이 개발한 오프라인 인식시스템 뉴로OCR 2.0(도스용) 등을 들 수 있다.

이들 제품은 구성상 차이점은 있지만 문자를 인식하는 과정면에서는 크게 다르지 않다. 역시 지난 8월의 문자인식 워크숍에서 '다중 가정을 이용한 신경망에 따른 한글 및 영문 OCR시스템' 이란 논문을 발표한 진성일 교수의 설명.

먼저 스캐너가 전자빔을 이용해 각종 문서를 읽어들이면 이를 일단 그림형태(pcx나 tif 등)로 컴퓨터에 저장한다. 한글을 자음과 모음의 결합, 받침의 유무등에 따라 6개로 나누고, 다시 영문 숫자 특수기호를 한 가지 형태로 묶어 총 7개의 망으로 구성된 형태별 망을 통해 각 패턴에 따라 이미 학습시킨 글꼴로 조합한 뒤 문서에서 진짜 그림과 문자를 분리하는 문자인식작업을 수행한다. 이때 인식된 문자는 다시 워드프로세서로 불러들일수 있도록 아스키 문자로 변환된다. 다시 말해 문자영상-특징추출-문자인식-문자코드 출력의 과정을 통해 정보 변환이 이루어져 변환된 아스키 문자는 맞춤법 검사기 등을 통해 교정함으로써 '죽어있는 정보'에 '생명'을 불어 넣는다는 것이다.

이들 제품은 개선된 알고리즘을 장착해 내년부터 본격적인 시장진출을 노리고 있는데, 한글 문자 인식시스템이 제구실을 하기 위해서는 풀어야 할 과제가 적지 않다는 지적이다. 오프라인 인식 시스템의 경우 앞서 말한대로 로마자 전용 인식 시스템에 비해 낮은 인식률을 높여야 한다는 것이 가장 먼저 풀어야 할 과제. 이와 함께 고딕체와 명조체에 한정된 인식 인쇄체 글꼴의 갯수도 사용되는 글꼴의 다양화로 인해 늘어나야 하는데, 이는 필연적으로 시스템의 가격 상승을 불러오기 때문에 대중화의 걸림돌로 작용한다. 또한 초보단계에 머물고 있는 맞춤법 검사기능을 더욱 강화해야 안심하고 향후 자동 문서 입력 시스템으로의 응용이 가능할 것이라고 전문가들은 지적 한다.

'당신의 PC와 대화를 나누세요.' 을 봄 컴텍스 쇼에 선보인 드레곤 시스템의 음성인식 시스템

음성인식

사람이 자신의 의사를 가장 편안하게 전달하는 매체는 말, 즉 음성이다. 그러나 음성은 사람과 사람의 커뮤니케이션 수단이었지 사람과 기계 사이의 그것은 아니다. 음성인식이란 바로 이 일을 가능케 하는 기술이라 할 수 있다.

인간의 음성을 컴퓨터가 받아들여 처리하는 음성인식은 비교적 인공지능 분야에서도 긴 역사를 갖고 있으면서 여전히 어려운 분야로 알려져 있다. 지금까지 음성 인식 연구가 수 없이 수행됐으면서도 연구실을 벗어나 온전한 상용 제품이 등장하지 않는 것은 그 만큼 이 분야 연구가 쉽지 않다는 것을 잘 말해준다. 현재 음성 인식기술을 응용해 적용하고 있는 분야는 전화번호 안내나 말하는 전자사전, 장난감 등과 같은 비교적 처리가 간단한 분야에 제한돼 있는 형편.

이같이 연구가 지지부진한 것에는 나름의 이유가 있다. 제일 먼저 꼽을 수 있는 것은 이른바 음성의 '화자 독립성'. 음성인식을 위해 추출하는 음성의 특징은 화자에 종속되는 성격이 있기 때문에 대부분의 인식 시스템은 특정한 화자(話者) 전용으로 사용될 때 높은 인식률을 보이지만 불특정 화자의 경우에는 인식률이 떨어진다. 즉 사람 음성이 가지는 다양성을 제대로 표현할 수 있는 알고리즘의 개발이 쉽지 않은 것이다.

또한 보다 근본적인 문제로 아직 인간이 음성을 이해하는 메커니즘이 규명되지 않았고, 말이 글과 달리 항상 일정한 문법을 따라 구사되지 않는다거나 상대방과의 대화에서 음성만으로 그 뜻을 해석하지 않는다는 '비문법성'도 음성인식 연구의 제약요인으로 꼽힌다.

연구자들은 사용자가 불편 없이(잡음 등과 같은 환경 변수를 고려해) 이 기술로 원하는 작업을 처리하기 위해서는 최종 음성 인식률이 대략 98%는 돼야 한다고 한다. 물론 인식률 자체보다는 어떤 분야에 어떤 용도로 사용 할 것인가가 더욱 중요하다는 의견도 있지만, 높은 인식률이 상업화를 앞당길 것만큼은 확실하다.

한국 통신 소프트웨어 연구소의 구명완 박사(자동통역연구)는 "음성인식 시스템은 입력음성이 고립단어인지 연결단어인지, 혹은 연속음성인지와 화자의 독립성 여부, 그리고 훈련된 어휘량에 따라 인식률이 차이가 나는데, 예를 들어 IBM의 보이스코맨드와 같은 화자종속고립단어 인식에 64개의 단어수를 가진 시스템에서는 대략 95-98%의 인식률을 보이지만 화자 독립의 연속음성 1천 단어수를 가진 링컨연구소의 음성인식시스템은 87% 정도의 인식률에 머무르고 있다"고 설명한다.

음성인식 시스템은 음성으로부터 단어나 음소 등 음성 패턴의 특징을 추출해 기준 음성 패턴을 만드는 '훈련과정'과 미지의 음성이 입력되면 저장된 기준음성 패턴의 특징과 비교해 가장 유사한 기준 음성 패턴을 찾아내는 '인식과정'으로 나뉜다. 여기에는 DTW(Dynamic Time Warping) HMM(Hidden Markov Model)과 신경망 등의 알고리즘이 주로 사용되는데, 각각의 방법은 적용 범위도 다르고 인식률 차이가 나기도 한다.

현재 음성인식 연구는 잠재된 가능성으로 인해 관심이 날로 커지고 있다. 올해 4월 미국 미니애폴리스에서 열린 음성 인식 시스템 전시회를 둘러본 참가자들은 음성인식 기술이 아직 컴퓨터 자판을 대치할 만큼은 못돼도 이전과 비교해 뚜렷한 기술 혁신을 보인 것으로 평가했다. 그리고 이런 추세라면 음성 인식 시스템이 조만간 실용화될 것이라고도 전망했다. 국내에서도 한국통신 전자통신연구소 삼성전자 금성사 등의 연구소와 KAIST 서울대 연세대 등에서 이 분야 연구가 진행되고, 일정한 성과물이 나타나고 있다.

구명완 박사는 "미국과 일본 유럽을 중심으로 활발히 전개되고 있는 이 분야 연구로 자동통역 전화시스템과 같은 대형 프로젝트도 상당히 진척된 상태"라고 밝히고 "우리가 기술력 인력 연구비 등 모든 분야에서 뒤져 있는 것은 사실이지만 한국어 음성인식 시스템은 한국인에 의해 이루어져야 한다는 사명감에서라도 투자와 지원이 절실하다"고 말했다.

2. 자동통역 시스템 실현 멀지 않다