d라이브러리 1990년 08월 과학동아

그동안 컴퓨터분야는 외국기술을 따라가기에 급급했다. 그러나 최근 컴퓨터과학자들 사이에서 한글문화에 맞게 컴퓨터기술을 개조하려는 움직임이 일고 있다.

'왕립 집현전은 새로운 글자체제인 한글을 창제했다고 10월 9일 발표했다. 왕폐하께서 친히 연구 개발을 지휘하여 온 한글은 사람이 낼 수 있는 모든 발음을 표기할 수 있어, 우리나라말을 모두 소리나는 대로 표기할 수 있을 뿐만 아니라, 외국의 모든 말에도 적용이 가능한 글자 체제이다.

지금까지 통용되어온 한자는 배우기 어렵고, 글자를 쓰는 속도도 느린 단점이 있었다. 한글은 단지 36개의 자음과 모음 부호 만으로 이루어져 있어, 외우기 쉬우므로, 우선 국민 모두가 손쉽게 쓸 수 있다는 장점이 있다. 한자는 각글자가 만들어진 원인인 뜻에 따라 또는 필요에 따라 만들어지므로 그 수가 뜻과 필요만큼 많은 단점이 있었다.

반면에 한글은 기본적인 발음을 위한 기호와 그 조합원리에 기반을 두고 있다. 즉 한글의 각 글자의 단위는 초성(자음) 중성(모음) 종성(자음)으로 조합되고, 글자꼴도 자음+모음+자음으로 이루어진다. 이에 따라 한글 인쇄의 기계화에도 혁신적인 기여를 할 수 있다는 장점이 있다.

한글의 창제로 말미암아 모든 국민이 쉽게 익히고 쓸 수 있는 길이 열리게 되었다. 우리나라의 문화와 정보가 일부 지식계층의 독점에서 모든 국민이 쉽게 참여할 수 있게 된 것이다. 집현전 측은 한글이 완성된 날은 지난 7월4일이었으나, 3개월여 동안 실제 상황에서 적용실험을 하여 한글의 완벽함을 입증하였다고 한다.'

지금으로부터 5백48년전인 1442년, 당시 신문이 있었다면 세종대왕의 한글 창제에 따른 담화문과 함께, 위와 같은 기사가 발표되었을 것이다.

한자와 알파벳도 포함

한글공학이란 무엇인가. 이미 한글 창제 당시부터 고려 대상이었고, 한글 창제의 원인이기도 한 '모든 발음을 표기하고, 쓰기 쉬운 글자'인 한글에 대한 기계화 또는 컴퓨터화를 위한 공학적 연구를 하는 분야이다. 그러면 우리가 현재 쓰고 있는 한자나 알파벳 등의 다른 글자 체제는 논외로 할 것인가. 그렇지 않다. 한글은 모든 발음을 표기할 수 있으므로, 한자나 영어는 한글의 입장에서 그 쓰는 방법을 정리할 필요가 있다.

한글공학의 대상이 되는 것은 한글을 컴퓨터에서 어떻게 다룰 것인가이므로 컴퓨터를 쓰는 수단 또는 방법, 컴퓨터 내부에서의 처리방법과 처리된 결과의 인식 방법 및 그에 필요한 장치로 나누어 생각할수 있다. 일반적으로 컴퓨터 장치를 크게 입력 처리 출력으로 나누고 있으므로, 한글을 위한 컴퓨터를 생각할 때 위의 분류를 기준으로 하면 한글입력 한글처리 한글출력을 위한 장치로 나눠진다.

인간공학적 접근이 필요

한글에 관련된 기계로서 먼저 떠오르는 것은 한글 타자기일 것이다. 이미 한글 타자기는 수십년간 사용되어 왔고, 그 입력 방식에 따라 여러 형이 나와 있다. 그러나 어느 형이 좋은 것인가에 대해서는 논란의 불길이 아직 타오르고 있는 실정이다.

타자기의 구성을 보면 한글을 손으로 치기 위한 글자판과 인쇄를 위한 부분으로 나누어져 있다. 즉 글자판이 한글 입력장치이며, 인쇄를 위한 부분이 한글 출력장치이다. 각 글자판 위에는 한글의 자소(字素)인 자음과 모음이 단추 마다 배열되어 있다. 단추를 하나씩 누를 때마다 인쇄부분은 어떤 경우에는 한 자리씩 이동하여 글자를 찍는 경우도 있고, 어떤 경우에는 이동하지 않을 때도 있다. 이와 같은 것이 한글처리 방법의 한 예라고 볼 수 있다.

보다 원척적인 문제로서 글자판을 어떻게 만들 것인가 생각해보자. 이 문제는 두가지로 나누어 생각할 수 있다. 즉 글자판의 형태와 글자판의 배열이다.

자판의 형태는 어떻게 만들어야 쓰기 쉬운 것일까, 사람의 위치와 자판의 형태가 어떻게 되어야 사람의 피로도를 최소한으로 줄일 것인가, 물론 사람의 피로가 적다면 타자의 속도도 더 빨라질 것임은 자명하다. 자판의 배열문제는, 왼쪽과 오른쪽 손의 열 손가락의 역할과 관계가 깊다. 현재 우리가 쓰고 있는 한글 자소는 24개이지만 표준자판은 24개 외에 복모음 'ㅐ ㅒ ㅔ ㅔ'를 위한 단추 두 개를 더하고 있다. 그 이유는 위의 4개의 모음이 자주 쓰이므로 추가한 것이다. 그렇지만 'ㄹ'과 같은 자음보다는 그 빈도가 낮으므로 오른손의 새끼 손가락과 넷째 손가락으로 치도록 하고 있다. 즉 둘째나 셋째 손가락보다는 새끼 손가락의 힘이 약하다는 데 착안한 것이다. 만일 자주 쓰이는 자소를 새끼손가락의 위치에 배열한다면 사람의 피로감이 빨리 올 뿐더러, 타자의 속도도 느려질 것이다.

이와 같은 글자판의 형태는 인간공학적인 접근으로, 과연 한글을 입력하기 위해 글자판이 어떤 모양이 되어야 하며, 어떤 단추가 필요한 것인지가 먼저 선행되어야 한다.

글자판의 배열을 위하여 왼손과 오른손 각각의 손가락이 어느 정도의 힘이 있는지를 결정하는 최적부하율의 연구가 필요하다. 이러한 분야를 특히 인간공학 혹은 인지공학이라고 한다. 곧 손가락의 부하율에 따라 자소를 배열하여야 한다. 지금까지 우리나라에서 발간된 문서나 책을 바탕으로, 과연 어느 자소의 빈도가 높고 어느 자소의 빈도가 낮은가를 조사한 결과인 자소별 출현빈도가 필요하다. 또 어느 자소와 어느 자소가 같이 나올 수 있는 확률이 높은 것인가를 조사한 자소들의 연관 출현빈도가 필요하다. 연관 출현빈도가 필요한 이유는 어느 손가락과 어느 손가락이 서로 순서가 혼동되지 않고 빨리 움직일수 있는가에 따라, 연관빈도가 높은 두 자소를 각각의 손가락 위치에 있는 글자판 단추에 배열할 것이기 때문이다.

표준 글자판은 24개의 자소 외에 4개의 복모음과 4개의 쌍자음인 'ㄲ ㄸ ㅉ'을 더하여 32개의 자소를 기본자소로 선택했다. 그리고 초성과 종성을 따로 구분하지 않고 그 구별은 처리과정으로 미루었다. 만일 초성과 종성을 따로 구분한다면 사람이 타자를 할 때 할 일이 많아진다고 볼 수 있다. 표준글자판은 모음과 자음만으로 자소를 구분하였다고 하여, 2벌식이라 한다. 초성 중성 종성을 완전히 구분하여 글자판배열을 하는 방식은 3벌식이다.

과연 2벌식이 3벌식보다 사람에게는 더 효율적인 것인가는 아직 더 연구하여야 할 문제다. 이를 위하여서는 심리학 또는 인지공학적인 실험과 비교검증 단계를 꼭 거쳐야 한다. 처음 한글 글자판을 쓰고자 하는 사람이 배우기 쉬워야 하므로 학습효율성을 위한 실험이 필요하며, 타자에 익숙한 사람의 타자능률 비교실험을 해보아야다.

우리가 다시 글자판의 형태와 단추의 수부터 고려하여 새로운 글자판를 만든다면 위의 여러 연구를 종합한 다음 현장 실험을 해야한다. 실험실 연구에서 생각하지 못했던 문제를 현장 실험을 통해 고칠 수 있기 때문이다.

필기체도 판독한다.

기존의 인쇄된 문서를 대량 입력하기 위해, 일일이 글자판을 손가락으로 치는 방법으로는 시간이 대단히 많이 걸릴 뿐더러 오류도 많이 발생한다.

스캐너는 복사기와 같이 문서를 광학적으로 읽고 그 이미지를 분석하여 어느 글자인가를 판독하는 방법이다. 필기체 입력은 사람이 종이에 글자를 쓰듯이 특수한 입력장치에 연필로 글자를 쓴 다음, 그 글자가 무엇인지 컴퓨터로 판독하는 방법이다. 음성입력은 글자를 읽으면 그 소리의 패턴을 분석하여 어느 글자인가를 판독하는 방법이다. 스캐너 입력은 상용화되어 곧 보편화될 것이지만 필기체입력과 음성입력은 아직 미숙한 상태다.

과학기술원에서 개발한 문자인식시스템. 일일이 글자를 입력하지 않아도 컴퓨터가 스스로 신문 내용을 이해한다.

보기 좋은 글자꼴은?

컴퓨터 내부에서 한글을 처리하기 위해 가장 기본적인 요소는 한글 코드다. 컴퓨터의 기억 수단은 2진법이고, 그 자릿수는 8자리의 단위인 바이트다. 영어는 한 바이트만으로 표시가 가능하지만, 우리나라의 경우는 한글 한자를 표시해야 하므로 한 바이트 만으로는 부족하다. 즉 한 바이트는 8자리의 2진수이므로 10진법으로는 2백56개의 글자만을 수용할 수 있다. 따라서 두 바이트 또는 그 이상의 바이트로 한글코드를 표시할 수 밖에 없다.

우리나라의 현행 표준 한글코드는 2 바이트 완성형이다. 완성형이라 함은 한글의 글자빈도를 조사하여 가장 빈도가 높은 것 중에서 2천5백여자를 골라 일련번호를 붙인 것이다. 현재 논란의 대상이 되는 것은, 한글 자소의 조합은 1만여 자 인데 2천5백자만을 쓰도록 했다고 하여, 2 바이트 조합형 혹은 3바이트 4바이트 코드로 바꾸자는 주장이 나오고 있기 때문이다.

글자는 남에게 나의 생각을 정리한 글을 보이기 위한 수단으로 쓰인다. 즉 통신수단이다. 반면에 글자를 통해 나의 생각을 정리한다는 측면도 있다. 이 때의 글자는 처리수단이다. 과연 이 두가지 측면을 모두 만족할 수 있는 코드를 한 가지 원칙 하에서 만들 수 있을 것인가는 더 연구하여야 할 것이다.

한글의 글자꼴, 즉 문자형태는 어떻게 되어야 사람이 읽기 쉬운가. 명조체 고딕체 샘물체 등이 현재 사용되고 있지만 문자 형태를 사람이 지각하여 다른 글자로 혼동하지 않도록 설계가 되어야 한다. 이를 위해 인지공학 심리학 미학적인 연구가 선행되어야 한다.

전자출판의 근간이 되는 다양한 서체개발이 무엇보다 중요하다.

전자사전개발 시급

시스템 소프트웨어의 예로서는 도스(MS-DOS) 유닉스(UNIX)의 기본 명령어 혹은 유틸리티에서의 한글처리 문제다. 현재 한글도스 혹은 한글 유닉스가 판매되고 있지만, 과연 모든 명령어와 유틸리티에서 한글이 제대로 작동하고 있는가를 생각해야 한다. 작동한다고 하더라도 편집기나 워드프로세서 정도라고 봐도 과언이 아니다.

예를 들면 통신 소프트웨어에서도 한글이 제대로 작동되려면 더욱 연구개발이 이루어져야 한다. 따라서 진정한 한글을 위한 컴퓨터를 만들어야 할 필요성이 있다. 어떤 우회적 편법에 의한 한글처리가 아닌, 한글이 어느 응용 소프트웨어에서도 작동하기 위한 컴퓨터를 만들어야 한다. 현재의 컴퓨터는 알파벳을 원칙으로 하고 한글을 그 다음으로 하는 개념이지만, 거꾸로 한글을 원칙으로 하고 알파벳도 쓸 수 있는 개념으로 바꾸어야한다.

영어 워드프로세서에는 거의 모두 철자법 검사 기능이 있다. 게다가 유닉스에는 기본 유틸리티로서 문장스타일검사프로그램이 내장되어 있다. 그런데 왜 한글 워드프로세서에는 그러한 기능이 없는가. 이에 필요한 기초적 연구가 미흡하다는데 그 원인이 있다. 한국어의 문장구성을 어떻게 처리할 것인가에 관한 문제는 인공지능의 자연언어처리 분야에서 해결되어야한다.

한국어에 대한 전자사전은 아직 개발되지 않았다. 전자사전이란 사람이 보기위한 사전이 아니라, 컴퓨터가 보기 위한 사전이다. 사람이 보기 위한 사전이라면 그 설명이 한국어로 되어 있겠지만, 컴퓨터가 보기 위한 전자사전에는 한국어를 처리하기 위한 부호로 되어있다. 사전은 한두 사람의 힘 만으로 해결될 성질도 아니고 사전편찬학이란 학문 영역이 엄연히 존재한다.

다른 학문의 도움이 필수적

요즘 유행하고 있는 데이콤의 천리안 등의 정보 서비스는 주로 한글로 된 문서에 대해 정보서비스를 하고 있다. 이때 필수불가결한 요소가 '한글 문서를 어떻게 처리할 것인가'이다. 즉 한글 문서에서 색인을 만드는 방법이다.

영어 등의 구미 언어는 각 단어마다 띄어쓰기를 하기 때문에 별문제가 없지만 한국어의 경우는 띄어쓰기 법칙이 영어의 경우보다 어렵다. 명사와 조사는 붙여 쓰므로 색인을 만들 경우 어디부터 어디까지가 명사이고 조사인지를 컴퓨터가 알아내야 하고, 복합명사의 경우는 띄어쓰기가 되어 있더라고 한단어로 인식해야 한다. 예를 들면, '마이크로 프로세서'는 '마이크(명사)+로(조사)+프로세서(명사)'가 아닌 한 단어로 파악되어야 한다. 이의 해결을 위해서는 위에서 언급한 한국어의 문장구성법과 전자사전이 필수적으로 필요하다.

한글공학은 한글을 컴퓨터로 다루고자 하는 모든 문제를 대상으로 한다. 글자 문장 글자꼴을 다루기 위해 어떤 이론이 필요하고, 어떻게 하여야 한국인에 맞는 컴퓨터가 될 것인가를 다루는 분야다.

한글의 코드 글자판 글자꼴은 표준연구소에서 그 표준화를 추진하고 있다. 그러나 표준은 좀더 나은 방향을 위한 하나의 디딤돌이므로 이에 관한 연구는 계속 돼야한다.

한글 문장의 맞춤법, 띄어쓰기 교정과 문장구성법 및 스타일 검사프로그램에 관한 연구는 한국과학기술원 전산학과와 인공지능연구센터, 서울대학교 컴퓨터공학과를 중심으로 실용화 단계에 들어가 있다. 이에 관한 소프트웨어는 누구나 쓸 수 있도록 정부와 기업체가 합심하여 노력해야 할 것이다.

한글공학의 연구는 전산학만으로는 해결되지 않는다. 언어학 국어학 심리학 사전편찬학 도서관학 등 광범위한 분야의 공동 노력이 필요하다.

컴퓨터 과학자들의 새로운 관심 「한글공학」