d라이브러리









컴퓨터 자동번역 시스템 언어장벽이 무너진다

인간고유의 영역으로 인식되어져 있던 언어번역, 이 고정관념도 이제 서서히 깨져나가고 있다. 주머니속에 조그만 자동통역기계를 넣고 자신있게 세계 방방곡곡을 여행할 날도 멀지 않았다.


미국에 보내야할 서류를 작성하기 위해 컴퓨터단말기 앞에 앉은 K씨는 서류의 내용을 한글로 입력하기 시작했다. 입력이 끝난후 컴퓨터자동번역프로그램을 작동시키자, 방금 입력한 서류의 내용이 영어로 번역되어 화면에 나타났다. K씨는 화면상으로 번역된 서류내용을 확인하후, 프린터를 사용하여 출력시켰다.
 

이것은 컴퓨터자동번역시스템이 사용되고 있는 사무실의 한 표정을 상상해본 것이다. 학교 다니며 영어숙제를 할때마다 누구나가 한번쯤은 '영어를 한국어로 번역해주는 기계는 없을까'하고 생각해본적이 있을것이다. 이같은 꿈을 실현해나가고 있는것이 바로 컴퓨터 자동번역이다.

종래 수치계산이나 도형처리 등에나 사용되는 것으로 생각해왔던 컴퓨터가 번역에 적용되기 시작한 것은 컴퓨터의 탄생과 그 역사를 같이 한다. 1946년 '위버'(W.Weaver)씨에 의해 컴퓨터를 사용한 번역의 가능성이 시사된 이후, 1954년에는 미국의 '조지타운'대학에서 러시어어를 영어로 번역하는 실험이 행해졌다. 이것이 최초의 컴퓨터 자동번역시스템이다.
 

이후 1960년대 중반까지 전세계적으로 연구가 활성화되며 전성기를 맞이하는 듯 했으나 1966년에 컴퓨터자동번역의 실용성에 대한 비관적인 결론을 내린 미국의 ALPAC보고서의 영향으로 잠시 정체기를 맞기도했다.
 

그러나 컴퓨터하드웨어의 급속한 발달과 컴퓨터를 사용한 언어처리연구의 발달에 힘입어 1975년을 전후하여 다시금 연구가 활기를 띠기 시작했으며, 1980년대 들어서서는 부분적으로 실용화가 이루어져 상품화된 제품들이 등장하기에 이르렀다.

 

인간은 어떻게 번역할까?


번역이라고 하면 아직도 인간고유의 영역이라고 인식되어지고 있는바 이같은 번역을 컴퓨터를 사용하여 처리하기 위해서는 어떻게 해야만 할까?
 

이것을 설명하기 전에 이해를 돕기위해 우리가 영어문장을 읽고 번역하는 과정을 잠시 살펴보기로 하자. 우리는 일반적으로 중학교때 부터 영어를 배워왔다. "1형식문장은 'S+V'이고…"에서 부터 시작하는 기본문법과 함께 수많은 단어와 숙어를 열심히도 외웠다. 이러한 문법적, 어휘적 언어기반을 토대로 우리는 영어문장을 접하게 되는 것이다.
 

대상이 되는 영어문장을 대충 읽으며, 우리는 머리속에서 문법실력을 총동원하여 그 문장의 문법적분석(주어, 동사 등의 문장형식 파악)을 한다. 이와함께 기억하고 있는 영어단어를 열심히 동원하여 그 문장의 뜻을 파악하려고 애쓴다.
 

만일 이때 모르는 단어가 있으면 얼른 사전을 뒤져 그 뜻을 알아보기도 한다. 이렇게해서 문장의 전체적인 뜻이 파악되고나면 원문의 뜻에 최대한 충실한 한국어문장을 만들어 옮겨적는다. 이때에는 한국어에 대한 정확한 문법력과 어휘력이 요구된다. 이렇게해서 비로소 번역의 한 과정이 끝나게 되는 것이다. 이같은 번역의 과정을 현재 컴퓨터에서 번역을 수행하기 위해 취하고 있는 과정과 비교하여 표시한것이(그림1)이다.
 

(그림1) 인간과 컴퓨터의 번역과정 비교도


이 그림을 보면 컴퓨터에 의한 번역 과정은 인간의 번역과정을 그대로 옮겨 놓은 것이라는 점을 느낄수 있을 것이다.
 

단지 이들 각 과정이 인간의 머리속에서는 특정 구분없이 병렬적으로 일어나는데 반해 컴퓨터에서는 아직은 순차적으로 밖에는 처리할 수 없다는 점이 다르다.

 

단어를 구분하는 능력부터


그러면 컴퓨터에서 처리되는 각 과정에 대하여 설명하기로 한다. 컴퓨터는 키보드나 이미 전자화된 전자파일(예를들면 마그네틱테이프나
디스크 등)로 부터 번역대상문을 읽어들인다.
 

읽혀진 번역대상문은 각 문장의 끝에 나타나는 피리어드 '.'를 해당문장의 끝으로 인식하여 문장단위로 구분되어 처리되어진다. 이렇게 구분된 문장은 우선 '형태소 분석'을 하게된다. '형태소'란 문장에서 의미를 갖는 최소단위를 일컫는 것으로서, 영어의 경우에는 각 단어단위로 구분된 것이라고 생각하면 된다. 형태소 분석을 위해서는 형태소분석용 규칙과 사전이 필요하다. 형태소분석이 끝나면 그 결과를 토대로 구문해석을 하게된다. '구문해석'은 문장의 문법적인 구조를 파악하기 위하여 형태소분석이 완료된 문장에 문법규칙이나 단어사전을 적용하여 분석하는 것을 말한다.


(그림2) 형태소분석과 구문해석의 예


이 과정에 의해 생성되는 결과는 일반적으로 (그림2)에서와 같은 트리(tree)구조로써 표현되며, 이것을 '구문해석'이라고 부른다. 따라서 '문법규칙'과 '단어사서'가 완비되어 있으면 구문해석은 일단 실행될 수 있다.
 

그러나 여기서 문제시 되는것이 '문법규칙'이다. 컴퓨터에서 사용하기 위한 문법에는 여러가지가 있으나 인간의 언어현상에서 나타나는 문장구조를 모두 표현할 수 있는 문법이론이 아직은 없기 때문이다. 따라서 현재의 번역시스템에서는 이들 문법규칙에 지식처리 등을 사용하여 보강하고 있다.
 

그럼에도 불구하고 구문해석 시에는 복수개의 결과를 만들어 내는 경우가 자주 있다. 이것을 '구문해석의 모호성'이라고 부른다. 이것은 (그림2)에서와 같이 한개의 단어가 복수개의 품사로 쓰일 경우 나타날 수 있는 문장구조를 모두 나타냄으로써 발생한다.
 

이와같이 복수개와 나타난 문장구조중에서 의미적으로 알맞는것을 판별하기 위하여 사용되는 것이 '의미해석'이다.
 

(그림2)의 예문에 있어서도 time이 형용사로 쓰일때 'time flies'라는 단어의 의미상 적합성여부와 time이 동사로 쓰였을때의 목적어로서 flies가 있는가 하는 점을 파악하여 구문해석결과 중 ②와 ③이 의미상 적합하지 않음을 알 수 있으므로 ①만을 구문해석 결과로서 택하게 된다.
 

이같은 현재의 의미해석은 사전에 등록되어진 단어와 단어의 연결관계 및 수식관계의 제한 등에 의해 구문해석용 문법에서 처리하지 못하는 부분에 대한 처리를 시도하는 것이 일반적인 추세이다.
 

그러나 최근에는 보다 원활하고 폭넓은 의미해석을 위하여 '의미관계표'와 '개념구조'등의 인공지능적 연구결과의 도입 등이 활발히 진행되고 있으며, 특히 동음이의어의 처리를 위해서는 의미해석이 매우 중요한 위치를 차지하고 있다.
 

이와함께 보다 정확한 번역을 위해서는 화제의 흐름을 전체적으로 파악할 수 있는 문맥의 해석이 요구되는 경우도 있다. 그러나 이와같이 번역과 연계된 '문맥해석'의 연구는 아직 얼마되지 않으며 앞으로 연구해야할 연구과제 중의 하나인 것이다.

언어문화권의 차이를 어떻게 극복하나


이같은 흐름에 의해 '해석'이 이루어진 문장은 목적하는 언어로의 번역을 위해 변환과정을 거치게 된다. '변환'과정은 단어변환과 문구조변환으로 크게 구분할 수 있다. 이때 단어변환은 거의가 구문해석시에 함께 이루어지므로 여기서 말하는 '변환'은 문구조의 변환을 일컫는다. 또한 이 변환방식에 의해 번역시스템의 번역방식을 구분하기도 한다. 한국어와 일본어 또는 영어와 불어와 같이 그 문법적인 구조가 거의 같은 경우에는 특별한 문구조의 변환없이 단어의 1:1대응관계에 의해서만도 어느정도 번역이 가능하다. 이러한 것을 '디렉트(direct)방식'이라고 하며, 아래에 그 예문을 나타냈다. 이 방식은 가장 원시적인 방법이기는 하지만, 아래 예문과 같이 양측언어의 문구조가 거의 완전하게 1:1대응이 이루어지는 경우에는 가장 효율적인 방법이기도 하다.
 

한국어 일어 변환

나는 학교에서 집으로 갑니다.

私は 学校から 家 へ 行きます.
 

영어 불어 변환

It is a Photograph of Port of Marseille.

C' est une photo du port de Marseille.
 

한국어와 영어와 같이 문구조자체가 근본적으로 다른 경우에는 이 방식의 적용은 불가능하다. 따라서 이같은 경우의 번역을 위해서는 '트랜스퍼(transfer)'방식이 적용된다. 이것은 구문해석에 의해 얻어진 트리형태의 구문해석목을 중간매체로 삼아 목적하는 언어의 구문구조로 그 형태를 변환하는 방식을 말한다. 이를 위해서는 변환을 위한 규칙과 사전이 별도로 작성되어 있어야 한다. (그림3)의 예문에서와 같이 영문의 구문해석결과를 토대로 한국어의 구문구조로 바꾸어 놓음으로서 '디렉트 방식'에 비해 보다 폭넓은 범위에서의 번역을 가능하게 하였다. '트렌스퍼 방식'이 문구조에 의존하고 있는데 비해, 의미해석이나 문맥해석 등을 철저하게 실행하여 얻어지는 '개별적 언어에 구애받지 않는 보편적인 의미표현(이것은 pivot이라고 함)'으로 변환한 후 번역을 실행하고자 하는 것이 '피벗(pivot)방식'이다.
 

(그림3) 영어문장을 한국어문장으로 번역하는 과정


이러한 피벗방식은 인간이 다른 언어를 학습할 수 있는 것으로 미루어보아 '인류공통의 의미표현'이 존재할 것이라는 가정하에서 발생한 것이다. 따라서 '피벗'을 이용할 경우 각 언어와 피벗언어간의 해석과 생성프로그램만 작성되어 있으면 각 언어별로 별도의 변환프로그램작성이 필요없이 다언어간 번역이 가능하다는 장점이 있다.
 

그러나 현실적으로 이 '피벗'이 과연 어떠한 것인지에 대하여 조차 명확하지 않으므로 이것에 대한 규명은 아직 요원한 실정이다. 단지 일부 외국 업체에서는 자신들이 개발한 번역방식에 이 피벗이라는 말을 쓰고는 있으나 그것이 공인된 것만은 아니다.

이같은 변환방식을 정리하면 (그림4)와 같다.
 

(그림4) 변환방식에 따른 번역방식


이같은 변환과정을 거치면 마지막으로 목적언어의 '생성'과정을 거치게 된다
 

'생성'은 해석, 변환과정을 거친 입력문의 변환결과를 최종적으로 목적언어문장으로 만들어 내는 과정이다. 변환결과 출력된 목적언어의 중간표현에 목적언어의 문법규칙 등 생성용 규칙과 생성용 사전이 작용되어 목적언어의 구문과 형태소를 생성시킴으로써 완전한 목적어 문장이 이루어지게 되는것이다.
 

지금까지 설명한 각 과정을 도표로 정리하면 (그림5)와 같다.
 

(그림5) 컴퓨터 자동번역의 번역과정

 

보다 인간다운 컴퓨터


컴퓨터자동번역에 관한 기술은 '보다 인간다운 컴퓨터'의 실현을 위해 매우 중요한 기술이다. 지금까지는 인간이 컴퓨터를 접하기위해서는 '코볼'이나 '포트란'과 같은 컴퓨터언어를 익혀야만 했다. 이같이 인간이 특수한 목적을 위해 만든언어를 인공언어(Artifitial Language)라고 부르고, 우리가 일반적으로 쓰는 언어인 자연언어(Natural Language)로 부터 구분하고 있다. 따라서 컴퓨터에서 이러한 자연언어를 그대로 사용할 수 있도록 하기위한 연구가 '자연언어처리연구'이다. 이같은 자연언어처리연구는 음성의 인식, 합성기술과 함께 궁극적으로는 인간과 대화하는 컴퓨터를 목표로 인공지능연구의 중요한 한 분야를 차지하고 있다. 이와같은 자연언어처리기술의 핵심을 이루고 있는 부분이 바로 컴퓨터자동번역이다. 이 분야의 기술이 확보되어야만 비로소 컴퓨터에 입력한 자연언어문의 이해와 그에따른 응답이 역시 자연언어문으로생성되어 출력될 수 있기 때문이다.
 

컴퓨터자동번역이 국내에서 한국어를 대상으로 본격적으로 이루어지기 시작한 것은불과 4~5년 전의 일이다. 1983년에 한국과학기술원(KAIST)과 일본의 '후지츠'가 공동으로 '일-한 기계번역시스템공동연구'를 착수하여 3년간에 걸친 연구를 수행, 금년 봄의 실용화를 목표로 현재 평가 및 개량작업을 추진 중에 있다.
 

(그림6) 음성인식및 음성학성기술과 결합된 자동통역시스템


앞에서도 설명한 바와 같이 한국어와 일본어의 경우는 기본적인 문법구조가 거의 일치하므로 그 번역자체는 큰 하중이 걸리지 않는다. 그러나 한국어와 일본어의 조사의 대응관계및 어미변화의 대응관계 등 세부적인 부분에서 발생하는 문제는 오히려 문구조가 전혀다른 한국어와 영어의 번역같은 경우보다도 훨씬 어려운 문제를 포함하고 있다. 현재 KAIST에서 개발한 일-한기계번역시스템은 FACOM의 M-시리즈 하에서 가동하고 있으며 약 5만여 단어를 가지고 있다.
 

번역성공률은 약 95%로 해외에서 발표된 번역시스템들의 번역률이 80%내외인데 비해 매우 높은 수치를 보이고 있다. 이것은 앞에서도 기술한 바와 같이 한국어와 일본어의 어학적 유사성이 크게 작용하였기 때문이다.
 

이밖에도 KAIST에서는 금년부터 영어와 한국어간의 컴퓨터자동번역에 관한 연구에도 착수하고 있으며, 서울대학교와 인하대학교 등에서도 연구중심의 소형시스템에 대한 연구가 진행되고 있다. 더우기 금년에는 KAIST와 서울대가 공동으로 인공지능측면에서의 한국어자연언어처리에 관한 연구도 시작되어 자연언어처리 측면에서의 한국어의 연구가 활발해질 것이 예상된다.

 

불완전성을 극복하는 방법


그러나 이와같은 각종 연구 및 개발 등에 앞서 정확히 알고 넘어가야 할 것이 있다. 그것은 컴퓨터자동번역시스템과 같은 보다 인간적인(?)소프트웨어의 출현에 의해 지금까지 우리가 생각하고 있던 컴퓨터에 대한 기존개념을 바꾸어야만 하기 때문이다. 바꾸어말하면 불완전한 결과를 내는 시스템의 상품화시대가 도래한 것이다.
 

컴퓨터자동번역시스템의 경우 앞에서 설명한 바와 같이 그 시스템에 적용되는 이론자체가 불완전하기 때문에 1백%의 번역이이란 생각할 수 없다. 시스템에 따라서는 입력된 원문에 수정을 가하여 컴퓨터에서 보다 쉽게 처리할 수 있도록하는 방법(전처리:pre-editing)과 번역후의 번역결과를 원문과 비교하여 보다 정확히 수정하는 방법(후편집:post-editing) 등이 사용된다. 이것은 현재의 컴퓨터를 이용한 번역에서는 필수적인 요소이다. 왜냐하면 '컴퓨터번역' 그 자체가 완전할 수 없기 때문이다. 따라서 종래와 같이 컴퓨터에서 정확한 답의 출력만을 요구하는 태도로서는 곤란하다.
 

인간과 컴퓨터가 서로 협동하여 무엇인가를 창출하는 시스템, 그것이 바로 인간적인 소프트웨어의 출현인 것이다. 처음에는 번역실패가 많은 컴퓨터번역시스템도 사용자에 의해 사전이 다듬어지고, 사용자가 많이 사용하는 숙어 등이 많이 등록되면 훨씬 그 효율이 높아지게 된다. 마치 인간의 아이큐가 학습에 의해 진보하는 것과 마찬가지로…

 

더이상 공상과학이 아니다.


그러면 컴퓨터자동번역의 미래는 과연 어떠할까?
 

언젠가 '스타워즈'라는 영화가 유행한 적이 있었다. 이 영화가 탄생시킨 스타중의 하나가 바로 꼬마로보트 'R-2'이다. 마치 달걀에 발달린 모습을 한 이 R-2는 사람과 마찬가지로 '말'로 자기의 의사표현을 한다. 이같이 기계와 사람이 말로써 대화를 하는것은 공상과학소설의 한부분에 불과했었다. 그러나 현재 이같은 일이 점차 사실로서 나타나고 있는 것이다. 음성인식기술은 음성에 의해 작동하는 타이프라이터나 워드프로세서를 만들어내기에 이르렀고, 음성합성기술은 전화의 자동안내에서도 쓰여질 만큼 보편화 되었다. 이같은 음성인식 및 합성기술과 컴퓨터자동번역의 문장해석 및 생성기술이 결합될 때 컴퓨터와의 음성대화는 그다지 먼 장래의 일은 아닌 것이다.
 

이와함께 자동통역전화의 출현은 이분야의 꽃이라고 할 수 있을 것이다. 내가 미국에 전화를 걸어 '여보세요'라고 말하면 컴퓨터에 의해 자동적으로 통역이 되어 미국에 있는 사람에게는 'Hello!'하고 들린다.
 

이같은 시스템에 대한 연구는 이미 일본전기에 의해 소규모 실험용시스템이 선을 보인적이 있으며, 작년에 일본에서는 우정성과 NTT, 일본전기 등의 참여하에 '자동번역전화연구소'를 설립하고 본격적인 연구에 착수하였다.
 

인간의 언어현상을 모두 컴퓨터가 처리 할 수 있도록 하기에는 아직도 많은 문제점을 안고있는 불완전한 시스템으로서의 컴퓨터자동번역시스템. 그러나 우리모두가 꾸준히 연구하고 도전하면 언젠가는 주머니속에 조그만 자동통역기계를 넣고 자신있게 전세계의 방방곡곡을 활보할 수 있는 날이 올것이다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

1987년 02월 과학동아 정보

  • 이기식

🎓️ 진로 추천

  • 컴퓨터공학
  • 언어학
  • 정보·통신공학
이 기사를 읽은 분이 본
다른 인기기사는?