d라이브러리 1988년 04월 과학동아

키보드를 두들겨 정보를 하나하나 입력시킨다는 것은 매우 짜증나는 일. 여기서 해방되는 방법은…

산업혁명 이후 인간이 만들어낸 수많은 기계중에서 언어(기계어, 프로그래밍언어)를 소유하는 기계가 있으니 이것이 곧 컴퓨터인 것이다. 컴퓨터가 언어를 소유하기 때문에 인간은 언어로 작업을 지시할 수 있어서 지시 내용이 다양하고 복잡하여도 과거의 다른 기계들과는 달리 척척 동작을 잘해준다.

초창기의 컴퓨터들은 속도가 늦을뿐만 아니라 기억용량도 적어서 데이타의 양이 비교적 적은 수치계산에만 이용되었으나 반도체 기술의 계속된 발전으로 기억용량이 증가하고 속도도 빨라지면서 수치계산은 물론 워드프로세서와 같이 방대한 양의 문자정보처리가 가능하게 되었으며 영상정보의 처리도 가능해졌고 이제는 인공지능을 도입하려는 단계에 접어들고 있다.

인공지능의 한 분야라 할 수 있는 문서 인식시스팀의 성공은 사람과 컴퓨터가 시각 정보의 한 부분인 인쇄매체를 공유할 수 있다는 뜻이다.

장님을 눈뜨게 하다

그러나 이와같은 컴퓨터의 존재는 인간을 위한 것이며 컴퓨터 그 자신을 위한것이 결코 아니기 때문에 인간사회로부터 필요한 정보를 받아들이며 처리결과 또한 인간사회에 출력해야만 하는 구조를 갖추어야 한다.

이 목적을 위하여 컴퓨터에는 입출력 장치가 마련되어 있으나 미흡하기 짝이 없다. 현재 컴퓨터와 컴퓨터 상호간의 정보교환은 컴퓨터통신망을 이용하여 대단히 빠르게 진행되므로 만족하다고 말할 수 있지만 인간과의 정보교환에서는 미흡하기 짝이 없는 수준인 것이다.

이론적으로 인간과의 정보교환방식은 인체의 5각이 기본이 된다. 현 단계의 컴퓨터기술 수준에서 볼때 시각은 으뜸되는 수단이며 로봇의 경우라면 청각과 촉각도 중요한 수단이 될 수 있다. 이들중 촉각은 뒤로 미루고 청각의 경우 발성기관에 해당하는 음성합성장치들이 상당히 발전하여 자동응답시스팀 등에서 어느정도 실용화가 이루어지고 있으나 컴퓨터의 귀에 해당하는 음성인식장치는 아직 연구가 계속중이며 특수목적의 국부적 응용 이외에는 사용하는 경우가 없다.

시각의 경우 컴퓨터는 프린터를 이용하여 각종 문자를 훌륭하게 인쇄할 수 있는 능력을 가지고 있다는 것은 너무나 명백한 사실이다. 그러나 컴퓨터의 눈에 해당하는 문자인식 시스팀이 개발되지 않아서 현재의 컴퓨터들은 문맹자이거나 장님이라고 해야할 형편이다.

이상의 청각 및 시각적 입장에서 볼때 현재의 컴퓨터는 내부의 정보를 외부로 내놓는 출력장치의 경우는 상당한 능력을 보유하고 있으나 외부로부터 정보를 받아들이는 입력장치의 경우에는 키보드가 주축을 이루고 있는 정도이므로 마치 장님이 촉감으로 정보를 얻는듯한 인상을 주고 있다. 다시 말해서 인간사회에서 흔히 쓰이는 청각 및 시각정보를 컴퓨터가 이해하지 못하기 때문에 상당히 많은 인력이 입력장치에 매달려 힘들게 일을 한다는 느낌이 들 때가 있다.

오백여년전 세종대왕께서 우리나라의 말이 중국의 그것과 서로 달라 우리백성들이 뜻을 제대로 나타내지 못함을 애석하게 여기셔서 훈민정음을 반포하셨던 일을 다시한번 생각해 볼 때 현대사회의 필수요소인 컴퓨터가 문자를 스스로 읽을 줄 모르기 때문에 많은 인력이 키보드에 매달려 데이타를 입력하느라고 애쓰는 모습은 컴퓨터 과학자들에게 무거운 짐이 아닐 수 없었다.

따라서 컴퓨터의 지능도를 향상시켜 한글을 비롯한 문자들을 스스로 읽을 수 있도록하여 인간과 컴퓨터가 시각정보를 공유할 수 있는 길을 마련하고 문서정보 입력시에는 키보드로부터 해방되어 대량 정보의 자동입력을 가능케해야 할 것이다.

컴퓨터비전의 한분야로

사람이 쓴 글씨(위)를 컴퓨터가 읽어 인식한 것(아래). 처음에는 필기체 인식을 목표하지 않았으나 또박또박 작성된 필기체는 인식할 수 있게 되었다.

컴퓨터에 의한 문서의 자동판독을 위해서는 문서의 기본요소가 되는 문자인식이 가능해야한다. 문자인식에 관한 연구는 컴퓨터의 시각정보를 다루는 컴퓨터비전 분야의 중요한 한 부분으로서 많은 학자들이 각 나라들의 문자인식을 위하여 오랫동안 연구를 계속해왔다. 이와 관련된 연구는 1960년대 후반부터 시작하여 1970년대에 상당한 활기를 띠었으나 쉬운문제가 아니므로 실용화에 접근하기 시작한 것은 최근의 일이다.

이 세상에서 쓰여지고 있는 대부분의 문자들은 여러개의 획으로 구성이 되어 있으며 문자인식문제는 문자영상으로부터 획들을 분리해 내고 이들 획이 가지고 있는 기하학적 관계들을 분석해 냄으로써 해결될 수 있다. 따라서 문자의 수효와 문자당 획의 수효가 많아질수록 문자인식문제는 어렵게 된다.

그 예로서 영문의 경우는 26개 알파벳에, 한 알파벳당 획의 수효도 4획을 넘지 않고 있어 문자인식이 비교적 용이하여 일부 실용화 단계까지 접어들고 있다.

여기서 일부 실용화 되었다는 뜻은 인쇄의 질이 불량하여 희미하거나 너무 진하여 번진경우 인식이 곤란할 수 있으며 흘림필기체 등의 경우에도 인식이 힘들다는 것을 뜻한다.

한편 문자의 수효가 수천이 넘으며 한문자당 획의 수효 또한 10을 넘는 경우가 많은 한자의 경우는 인식문제가 용이하지 않음이 많은 학자들에 의하여 지적되고 있으며 아직 상용화단계에 이르지 못하고 있다.

한글의 경우는 24개 기본문자에 획의 수효도 한개 기본문자당 4를 넘지 않아 영문의 경우와 견줄 수 있으나 조합방법이 영문의 일차원적인 직선배열과는 달리 수직 및 수평의 이차원 배열로 조합되며 기본문자의 기하학적인 크기 및 형태 역시 조합문자를 형성하고있는 기본 문자들의 종류나 수효에 따라 달라지며 서로 접촉하고있는 경우도 많아서 문자 인식문제를 어렵게 만들고 있다.

이론적으로 한글의 조합상태는 초성자음 19가지, 모음 21가지, 종성자음 28가지가 있을 수 있으므로 모두 1만1천1백72(19 X 21 X 28)개의 방대한 수효가 되어 문제의 어려움을 가늠할 수 있다.

문자의 복잡성과는 관계없이 문자인식에서는 문자영상이 광학렌즈로 받아들여져 수 많은 점들로 분해되어 컴퓨터의 기억장치에 영상정보로서 저장된다. 이때 영상정보는 한 글자당 ‘수십 X 수십’개의 점들로 형성되며 A4 크기의 한면은 8백만개 이상의 무수한 점들의 집합이 되며 각각의 점은 흑백의 값을 표시하게 된다.

이들 영상정보들은 소프트웨어에 의하여 분석되어 인식목적을 달성할 수 있으며 수많은 점들의 상호관계들을 분석하는 과정에서 CPU(중앙처리장치)에 대단한 부담을 주게 마련이며 이 때문에 문자인식이나 기타의 영상정보를 처리하는 시스팀은 대용량의 기억장치와 고성능의 CPU를 필요로 한다.

일반적으로 소프트웨어를 작성하기 위해서는 프로그래밍 언어가 필요하다는 것은 이미 알고 있는 바이며 흔히 COBOL, FORTRAN, PASCAL, PL/1, C등 여러가지가 알려져 사용되고 있으나, 보통의 데이타 처리에는 적합하지만 문자를 구성하고 있는 획들과 이들의 상호관계 등을 분석하여 문자를 인식하기에는 적합한 언어가 아니기 때문에 PDL(Picture Description Language), Tree Grammar, Web Grammar, Plex Grammar, Shape Grammar, Stochastic Grammar 등과 같은 문자인식 또는 패턴인식을 위한 전문적인 프로그래밍언어들이 연구개발돼, 발표되고 있다. 그러나 필자의 입장에서는 한글 모아쓰기와 같은 특이한 구조의 조합문자를 인식하는데 적합한 것을 찾을 수 없었다.

필기체도 가능

한글인식을 위한 연구는 1970년대부터 학계를 중심으로 연구가 진행되어 왔으나 아직 실용화와는 거리감이 있었다. 필자는 한글 모아쓰기와 같은 특이한 구조의 조합문자를 해석하는데 적합한 프로그래밍 언어를 개발하려고 노력하던 중 문자를 구성하는 기본성분이 획이라는 점에 근거하여 문자인식을 위한 프로그램을 용이하게 작성할 수 있으면서 처리속도를 향상시킬 수 있는 문자인식 전용의 ADRPG(Attribute Dependent Regular Programmed Grammar)라고 이름을 붙인 일종의 프로그래밍언어를 개발하였다.

ADRPG는 한글의 초성, 중성 및 종성 자모들이 서로 조합되고 접촉되는 관계들을 용이하게 서술할 수 있었기 때문에 이것을 한글의 인식에 적용하였으며 실험실 규모로서는 좋은 결과를 얻어 실용화까지 기대할 수 있게 되었다.

한글의 조합방법이 이론상 1만1천1백72가지나 되어 문자인식을 위한 소프트웨어가 단순한 방법으로 확정될 수가 없어서 ADRPG를 이용한 문자인식 실험은 두 단계로 나누어 진행했다.

첫 단계는 설계된 한글인식용 ADRPG 소프트웨어의 훈련단계로서 훈련에 사용한 한글은 어린이 동화책 한권의 4천2백6자로서 활자영상에 결함이 없는 것으로 선택했다. 영상이 양호한 한글 4천2백6자를 ADRPG가 인식하도록 하고 오류가 나타나는 즉시 ADRPG의 조건검사함수 및 생성규칙들을 수정 보완하여 오류를 교정토록 하였다. 이 방법은 ADRPG소프트웨어가 훈련을 통하여 한글인식능력을 점차로 향상시킬수 있도록 하였으며 이 결과로 78개의 조건검사함수와 3백77개의 생성규칙으로 4천2백6자에 대한 1백%정인식이 가능하였다.

두번째 단계에서는 첫번째의 훈련단계에서는 완성된 생성규칙을 수정, 보완없이 그대로 이용하여 고품질의 영상을 갖는 24본 활자2천3백31자와 획의 연결 및 접촉 부분의 영상에 다소 손상이 포함된 일반 한글문서 3천92자를 인식하였다. 그결과 고품질 영상의 경우 98%의 인식률을 얻을수 있었으며 고품질영상이 아닌 경우는 95.1%의 인식률을 얻을수 있었다. 처리속도는 분당 80자였다.

필기체의 인식은 처음에는 목표하지 않았으나 또박 또박 작성된 필기체는 인식할 수 있었다. 여기에서 나타난 오인식 문자의 경우도 ADRPG소프트웨어를 계속 수정 보완하면 정인식이 가능한 것으로 판단되며, 2%도 실용화가 가능한 수준으로 평가할 수 있다.

인식결과는 한글 워드프로세서의 파일폼(file form)과 동일하게 출력되어 2%~3%의 오류는 한글 워드프로세서로 쉽게 수정 또는 편집할 수 있도록 설계되어 있다.

한글인식 시스팀의 실험실 규모를 벗어나서 실용화하기위한 한 단계로서, 현재 모든 도서의 목록카드에 기록된 정보를 컴퓨터에 수록하여 도서검색을 전산화하고 있는 인하대학교 도서관에, 본 한글문서 자동판독 시스팀을 이용하여 한글 및 영문도서의 차례 및 초록을 컴퓨터에 자동입력하여 도서검색에 보다 풍부한 정보를 제공하고자 계획하고 있다

이와같은 한글에서의 성공경험은 보다더 복잡한 한자의 인식에도 적용 가능성을 보여준다고 생각할 수 있다.

아직은 실험실을 크게 벗어나지 못했지만

현재 실험실 규모로 성공한 한글문서 자동판독 시스팀의 기능을 보강하여 인식속도를 분당 1천2백자 이상으로 향상시키고 일반 인쇄체의 인식률도 99.5%이상의 수준으로 향상시키면 응용범위가 매우 넓어질 것으로 기대된다. 인식속도와 인식률을 계속 향상시킬 경우 앞에서 말한 도서검색의 전산화이외에도 다음과 같은 활용을 생각할 수 있다.

가) 도서발행시 기존도서의 일부내용을 발췌 수정 편집할 경우
나) 현재 연구가 활발히 진행중인 번역기의 입력을 자동화
다) 음성합성기와 연결하여 책을 자동으로 읽어줄수 있는 독서기(맹인용)
라) 기존도서를 이용하여 맹인용 점자도서 발행
마) 각종 전표, 수표의 자동입력
바) 우편번호의 인식에 따른 우편물의 행선지별 자동분류
사) 기타의 문서정보의 자동입력

이상의 사항들을 한마디로 표현한다면 사람과 컴퓨터가 시각정보의 한 부분인 인쇄매체를 공유할 수 있다는 것으로 집약할 수 있다. 한글문서 자동판독 시스팀은 앞으로 1년 이내에 상품화될 가능성이 있으며 곧 이어 한자의 인식문제도 우리 손으로 연구를 해야 할 차례이다. 현재의 문자인식 시스팀은 국민학교1년생과 같이 낱자를 한자, 한자 읽을 수 있을 뿐이며 문장의 문맥흐름까지 파악할 수 있는 높은 지능의 인식 시스팀 개발이 앞으로의 과제이다.

동화책부터 훈련 컴퓨터도 한글을 읽을 수 있다