d라이브러리









정보화시대 앞서가는 한글의 과학성

영어보다 자연어 검색에 유리한 특성

한국어는 급변하는 정보 환경 속에서 세계적인 언어로 거듭날 준비를 하고 있다.첨단정보산업 시대에 영어보다 막강한 힘을 과시할 '비밀'이 숨어 있는 것일까.10월 9일 한글날을 맞아 정보화시대에 걸맞은 한글의 과학성을 짚어보자.

나말미 듕귁에 달아 문와로 서르 디 아니ㅣ’로 시작하는 훈민정음 서문은 우리에게 너무나 친숙하다. 한글 창제의 동기는 국어 교과서에서 쉽게 만날 수 있는 이 서문에 잘 나타나 있다. 세종은 자신의 의사를 제대로 표현하지 못하는 백성들의 불편함을 몹시 안타깝게 여겼고, 이것이 한글을 창제한 가장 큰 이유가 됐다. 백성들이 자신의 뜻을 잘 표현하지 못한다는 것은 무엇을 말하는 것일까. 한자는 너무 많은 글자를 갖고 있기 때문에 각 글자들의 용법을 전부 알기가 너무나 어렵다. 때문에 모든 백성이 한자를 배우고, 이를 통해 의사소통을 한다는 것이 현실적으로 불가능했다. 하지만 한글은 소리나는 대로 쓸 수 있어 소리를 구성하는 글자의 기본 원리만 알면 무엇이든지 표현할 수 있다. 세종은 일상 용어를 소리나는 대로 표현하면 누구나 쉽게 쓰고 읽을 수 있을 것이라고 판단한 것이다.

컴퓨터 음성합성에 유리

세종의 창제 의지가 반영된 한글의 과학성은 글자 하나하나를 만들어내는 과정에서부터 시작된다. 한글을 구성하는 기본 글자인 ‘ㄱ, ㄴ, ㅁ, ㅅ, ㅇ’은 각각 ‘어금니, 혀, 입술, 앞니, 목구멍’에서 나는 소리를 대표한다. 각 기본 글자의 모양은 그 글자를 발음할 때의 혀나 입의 구조를 나타낸다. 즉 한글의 기본 글자는 발음 기관을 본떠 만들어졌으며, 여기에 획을 더해 새로운 글자가 만들어진다. ‘ㄱ’과 ‘ㅋ’의 예를 들어 생각해보면 ‘ㄱ’에 획을 더해 ‘ㅋ’을 만든 것이다. 따라서 ‘ㄱ’과 ‘ㅋ’의 발음은 비슷하다. 비슷한 소리는 비슷한 글자로 표기됨을 쉽게 알 수 있다. 결국 한글은 체계적인 음성 분류에 따라 조직된 것이다.

로마자의 경우는 어떨까. 영어를 예로 들어 생각해보자. 영어는 각각의 낱말이 소리나는 대로 이뤄지지 않고, 뜻을 나타내는 대로 이뤄졌다. 따라서 배우지 않은 낱말을 소리만 듣고나서 글자로 적는 것은 쉽지 않다. ‘a’의 경우만 보더라도 ‘에이, 아, 애, 어, 에’ 등의 다양한 발음으로 읽는다. 이런 차이 때문에 한글은 정보화시대에 걸맞는 언어체계라는 ‘칭찬’을 받고 있다.

예를 들어 컴퓨터가 ‘사과’를 읽을 경우 단어에 대한 사전 정보가 없더라도 그대로 받아들여 쓸 수 있지만, ‘apple’을 읽을 경우에는 소리가 유일하지 않기 때문에 어떻게 써야 할지 애매하다는 것이다. 다시 말해 컴퓨터가 ‘apple’을 ‘애플’이라고 읽는다는 것을 알고 있다면 문제가 없겠지만, 모르는 상태에서는 ‘애플’인지 ‘에이플’인지 알 수 없다. 따라서 컴퓨터에 입력된 단어를 음성으로 바꿀 경우 로마자로 입력된 문자보다 한글로 입력된 문자들의 작업이 더 쉽고 편리하다. 정보화시대를 대표하는 컴퓨터 음성합성 분야에 한글 문서가 유리하다고 하는 것은 이 때문이다. 한글은 한 글자에 한 소리만 대응되므로 단어에 따라 다르게 발음되는 영어 단어를 읽는 것보다 신속하고 빠르게 정보를 관리할 수 있다.

‘음절모아쓰기’가 정보처리 효율 높인다

인터넷에 공개된 수많은 정보를 활용하기 위해서는 원하는 정보를 찾기 위한 고차원의 정보검색 방법이 필요하다. 만약 컴퓨터가 사용자들이 찾는 정보가 무엇인지 이해한 후 검색한다면 정확한 결과를 보다 빠르게 찾을 수 있을 것이다. 예를 들어 사용자가 그리스 신화나 로마 신화에 관련된 정보를 찾고 싶어 ‘신화’라는 단어를 검색했는데, 댄스가수 ‘신화’의 정보만 나열된다면 매우 황당할 것이다. 이런 일은 검색을 해본 사람이라면 누구나 경험해봤음직하다.

한글의 특징인 ‘음절모아쓰기’(예를들어 ‘행복’이라는 단어는 음절 ‘행’과 ‘복’이 모아져 이뤄졌다)는 앞서 예를 들었듯 의미를 알아야 정보를 처리할 수 있는 ‘자연어검색’에 효과적으로 이용될 수 있다.

영어의 ‘unhappy’를 생각해보자. ‘un’을 분석하기 위해서는 두글자를 위한 두번의 탐색작업을 거친다. 이에 비해 한글의 경우 ‘불행’이라는 단어는 한번의 분리작업으로 끝난다. ‘불’은 세음소(더 이상 작게 나눌 수 없는 음운론상의 최소 단위, ‘불’의 경우 음소는 ‘ㅂ, ㅜ, ㄹ’)로 이뤄져 있지만, 한음절(단어의 일부를 이루는 음의 단위)로 구성됐기 때문에 각 음소들을 낱낱이 분석할 필요가 없다.

또한 한국어는 문장의 시제가 보통 한단어, 한음절로 구성돼 있기 때문에 음절만으로 문장 형태까지 파악할 수 있다. 예를 들어 ‘잡히겠다’라는 단어는 ‘히, 겠, 다’라는 각각의 음절을 보고 ‘피동형, 미래형, 평서문’이라는 것을 쉽게 알 수 있다. 하지만 영어의 경우 ‘will be arrested’와 같이 세단어를 전부 탐색해야 세부 정보를 알 수 있다. 한글의 음절모아쓰기와 문자구성 원리를 잘 연구하면 한국어의 자연어처리가 어떤 언어보다 앞설 수 있다는 것을 증명해낼 수 있을 것이다. 우리는 이 점에서 한글의 과학성을 다시 한번 느낄 수 있다.


정보처리가 핵심산업이 될 것으로 예상되는 21세기의 지식정보사회에서 한글의 중요성은 더욱 증대될 것으로 기대된다.
 

정보화시대 더욱 빛날 한글
 

세종의 한글창제 동기는 국어 교과서에서 쉽게 만날 수 있는 훈민정음 서문에 잘 나타나 있다.


세종은 소리나는 대로 쓸 수 있는 쉬운 글자를 사용하면 백성들의 불편함 뿐만 아니라 관리들의 문서조작과 같은 사회적인 비리도 없앨 수 있다고 믿었다.

오늘날과 같은 지식정보사회에서는 공개된 정보를 누가 더 빠르고 정확하게 검색하고 사용하느냐가 가장 중요한 문제다. 한문 일색인 15세기에 한글과 같은 음성문자 사용의 필요성을 절감한 세종은 확실히 정보전달의 필요성을 깨달은 시대를 앞선 인물이었다. 이제 우리는 지식정보사회의 새로운 장을 열고 있다. 인터넷의 급속한 확산으로 우리의 정보 생활이 빠르게 변화하기 때문이다. 인터넷에 수많은 정보가 폭주하고 있으며, 이에 따라 유용한 정보만 찾으려는 검색 요구도 증가하고 있다. 또한 언어 사이의 장벽을 넘어 국제적 교류를 확대하고자 하는 요구까지 증대되고 있다.

다행스럽게도 한글을 사용하는 한국의 환경은 한자를 사용해야 하는 중국이나 일본보다는 유리한 입장에 있다.앞서 설명한 대로 한글은 음소 단위와 음절 단위가 복합돼 있어 정보처리를 위한 전략 수립이 쉽기 때문이다.20세기 후반 컴퓨터에서 음절모아쓰기가 자동처리되면서 한글기계화와 정보처리는 급속히 신장됐다.이는 우리가 바로 지식정보사회에서 주요 선진국이 될 수 있다는 가능성을 보여준다.정보처리가 핵심산업이 될 것으로 예상되는 21세기의 지식정보사회에서 한글의 중요성은 더욱 증대될 것으로 기대된다.

2000년 10월 과학동아 정보

  • 고창수 교수

🎓️ 진로 추천

  • 컴퓨터공학
  • 문헌정보학
  • 국어국문·한국학
이 기사를 읽은 분이 본
다른 인기기사는?