d라이브러리









컴퓨터 속의 통역사 자동번역기

기계번역의 한계는 85%

현대를 사는 한국인에게 영어는 너무나 큰 스트레스다.또한 인터넷의 발달로 영어로 된 정보가 많아지면서 영어의 필요성은 더욱 커지고 있다.영어문서를 한국어로 번역해주는 자동번역기가 필요한 이유가 여기에 있다.번역기는 과연 얼마만큼 번역을 잘 할 수 있을까


인터넷 번역기는 영어로 된 홈페이지를 한글로 번역해 보여준다.


인터넷의 발달로 영어의 중요성이 날로 커지고 있다. 현재 인터넷을 통해 움직이는 정보의 70% 이상이 영어라고 한다. 그래서 ‘영어 못하면 컴맹 된다’는 이야기도 나오고, 아예 영어를 ‘제2 공용어’로 삼자는 과격한 주장까지 나오고 있다. 하지만 한편에서는 영어는 더 이상 정보화의 장벽이 될 수 없다고 주장한다. 영어문서를 한글로 읽고, 영어권 사람들과 한글로 채팅을 하고, 영어 이메일을 한글로 읽는 시대. 많은 사람들은 자동번역기가 이런 신세계를 열어줄 것이라고 기대하고 있다.

번역의 한계는 85%

현재 우리 주변에는 영한번역기 외에 다양한 번역기들이 개발 중에 있다. 일한, 중한, 한영, 한일 번역기 등 외국어를 한글로 바꾸어주는 것은 물론 한글을 외국어로 바꾸어 주는 번역기도 활발하게 연구되고 있다. 전자통신연구소는 아예 음성인식기능까지 갖춰 동시통역까지 할 수 있는 번역기를 목표로 연구에 매달리고 있다.

하지만 외국도 마찬가지지만 우리나라 자동번역기 기술은 아직 갈 길이 먼 것이 사실이다. 전문가들은 현재 우리나라에서 사용되고 있는 최고 수준의 영한 번역기의 번역률을 70% 정도로 보고 있다. 60% 이하는 본문의 뜻을 거의 이해시키지 못하고 단어를 기계적으로 변환해준 정도에 불과하다. 번역률 70%는 ‘어느 정도의 의미전달이 가능한’ 수치를 나타낸다. 때문에 쉬운 문장은 대부분 번역할 수 있는 수준이며, 조금 어려운 복합구문이나 문장 부호 등도 어느 정도 인식할 수 있다.

세가지 번역 방식


가장 초보적인 번역기라 할 수 있는 전자사전.


자동번역기에서 번역률 100%는 없다. 엘엔아이소프트 채흥석 개발실장은 “인공지능이 아닌 이상 기계 번역의 한계는 85%”라고 말한다. 문화적 맥락이 다른 두 개의 언어를 서로 완전하게 뜻이 통하도록 100% 번역하는 일은 번역의 달인이라 할지라도 불가능한 일이다. 미국인들이 지시하는 ‘tree’라는 말이 한국인들이 지시하는 ‘나무’라는 말에 완전하게 대응한다고 할 수 없기 때문이다. 번역기에 매달리는 사람들은 하나의 문서를 번역했을 때 전체적인 뜻이 통할 수 있고 번역문을 통해 원문의 중심내용을 이해할 수 있다면 그것으로 기계번역은 역할을 다하는 것으로 본다. 그래서 번역률 85%는 미묘한 뉘앙스 차이까지 잡아내는 수준은 아니지만, 문장자체의 표면적인 의미전달은 거의 완전해지는 수준이다.

언어과학(주) 최운호 개발부장에 따르면, 현재까지 연구되고 있는 번역기는 크게 3가지 방식으로 분류된다. 첫째는 ‘직접번역방식’으로 흔히 ‘워드 체인지 방식’으로 불린다. 이는 사전을 만드는 것과 별반 차이가 없다. 하나의 낱말을 대응되는 다른 언어의 낱말로 기계적으로 바꾸어주는 것이다. 그리고 이들 낱말들 사이의 일부분만 어순을 조정해준다. 이는 복잡한 문장을 번역하기는 어렵지만 어떤 분야의 용어나 부품이름 등 간단한 설명을 요하는 곳에서는 매우 유용하게 쓰일 수 있다.

두번째는 ‘문법변환방식’이다. 현재 우리나라에서 개발되고 있는 대부분의 번역기들이 이 방식을 따르고 있다. 먼저 원어 문장을 보고 문법구조를 분석해 이를 한국어 문법으로 변환하고, 다시 이 구조에다 조사나 연결어구를 붙여서 우리말로 문장을 생성해내는 방식이다. 예를 들어 영어문장이 주어-동사-목적어의 3형식 구문으로 돼 있는 경우, 우리말의 주어-목적어-동사의 형태로 문법을 변환하고, 각 단어의 뜻을 취해서 주어에는 ‘주격조사(이, 가, 은, 는, 께서)’를, 목적에는 ‘목적격조사(을, 를)’를, 동사에는 ‘동사형 어미(하다, 한다)’를 붙여서 문장을 생성해내는 것이다.

세번째는 ‘중간언어방식’이다. 이는 대상언어를 분석해서 중간논리단계의 새로운 언어를 설정하고 이것을 다시 최종 목적언어로 변환해내는 것이다. 이 방식은 컴퓨터의 언어체계와 유사하다. 일반언어(대상언어)를 컴퓨터 언어(중간언어)로 쓰고 이것을 기계어(목적언어)로 변환해내는 것으로 생각하면 된다. 중간언어는 가상적인 언어이기 때문에 특정한 현실언어일 필요는 없다.

이 방식은 한 언어를 다양한 언어로 동시에 번역하는 경우에 매우 유용할 수 있다. 예를 들어 국제회의 등에서 영어 연설을 독일어, 프랑스어, 이탈리아어, 스페인어 등으로 다양하게 번역해야 하는데, 중간언어방식의 번역기가 있다면 영어를 분석해서 중간언어를 만든 다음 한꺼번에 여러 종류의 언어로 생성해내는 것이다. 유럽의 언어처럼 유사성이 많은 언어들에서는 매우 유용하기 때문에 유럽연합에서는 이런 방식의 번역기 개발이 상당한 수준에 이르렀다고 한다. 하지만 이런 방식을 유럽어와 언어체계가 다른 한글에 적용하기는 힘들다.

현재 우리나라에서 개발되는 대부분의 번역기는 ‘문법변환방식’을 채택하고 있다. 하지만 이런 문법변환방식의 번역기들은 현재 수준인 70% 정도에서 단어나 쉬운 문장 번역에는 큰 문제가 없으나, 번역률을 계속 높여가기가 어렵다. 이는 영어와 우리말의 차이에서 기인한 여러가지 문제 때문이다.

좋아지지 않는 번역률

첫번째 문제는 문법변환방식을 적용하려면 각기 다른 형태의 구문을 번역기에 데이터베이스로 구축해 놓아야 하는데, 영어 구문의 패턴이 말할 수 없이 다양하다는 것이다. 어순이 도치된 경우, 몇 단어가 조를 이루는 숙어, 동사구, 절 등을 일일이 등록을 해주고 문장 속에서 이것을 파악할 수 있도록 프로그램 한다는 것이 만만치 않은 일이다. 또한 단어가 지닌 뜻이 한가지가 아니기 때문에 각 단어가 상황에 따라 달리 쓰이는 구문을 구분해서 미리 기억시켜주어야 한다. ‘dream’처럼 동사(꿈꾸다)이면서 명사(꿈, 이상)인 경우 문장 속에서 품사를 고정하는 문제도 매우 어렵다.

무엇보다도 어려운 문제는 콤마, 줄표, 콜론, 세미콜론 등 문장 중간에 특수한 문장부호가 들어가는데, 이들 문장부호의 위치에 따라 앞뒤 낱말들과의 관계가 달라진다. 때문에 이에 해당하는 수없이 다양한 패턴을 미리 기억시켜 주어야 하는데, 그 수는 거의 무한대에 이른다.

결국 이러한 난점으로 인해 문법변화방식의 번역기는 번역률을 높여갈수록 복잡도가 기하급수적으로 심해진다. 번역률을 1% 높이기 위해서 엄청나게 많은 새로운 문법패턴을 기억시켜야 하는 것이다. 수년 전에 나온 제품이 계속해서 성능이 올라가지 못하고 답보상태를 보이고 있는 것이 이러한 이유 때문이다. 그리고 데이터 양이 많아지더라도 번역률에서 크게 개선되지 않자 많은 사람들이 개발을 중도에 포기해버린다.

단어 스스로 의미 찾기

그런데 최근 엘엔아이소프트에서는 번역기의 뼈대는 문법변환방식을 적용하면서도 새로운 개념을 도입해 기존 번역기의 한계에 도전하고 있어 관심을 끌고 있다. 핵심은 문장 내에 쓰일 수 있는 단어 각각을 프로그램화 해서 이들이 서로의 관계 속에서 뜻을 만들고 가장 근사한 번역문을 생성해내도록 하는 것이다. 예를 들어 ‘I am a boy.’라는 문장이 있을 때 ‘I’라는 단어는 다른 단어들과의 관계를 보고 이것이 ‘알파벳 I’인지 ‘나’를 나타내는 ‘대명사 I’인지를 결정할 수 있다. 즉 뒤의 ‘boy’가 사람을 나타내는 단어이기 때문에 이를 보고 ‘I’가 ‘대명사 I’일 확률이 높다고 판단할 수 있다.

이러한 방식은 한 단어가 문장 속에서 다른 단어를 만났을 때 어떤 의미를 생성해야 할지를 프로그램화 하는 것이므로 등록된 단어가 많아질수록 기억용량이 상당히 많아진다. 또한 방대한 데이터베이스를 필요로 하므로 속도가 기존의 번역기들보다 떨어지는 단점이 있다. 하지만 앞뒤 단어들과의 관계 속에서 단어의 의미를 컴퓨터가 스스로 규정할 수 있기 때문에 상당히 정확한 의미추적이 가능하다. 예를 들어 ‘I had a cup of coffee.’를 coffee와 cup이라는 단어와의 관계 속에서 had를 ‘가졌다’나 ‘먹었다’가 아닌 ‘마셨다’고 파악하고 ‘나는 커피 한잔을 마셨다.’라는 상당히 정확한 번역문을 만들 수 있게 된다.

이 방식은 프로그램화 단계에서 각 단어들과의 관계를 논리적으로 설정해놓았기 때문에 논리적으로 정확하고 표현이 무미건조한 공학계열 문서의 번역률이 매우 좋은 편이다. 제품의 사용설명서 등 비교적 문장이 간단하고 정확하게 이해시키기 위해 쓰여진 글들도 번역이 거의 완벽하다. 또한 기존의 번역기들이 좋은 번역을 얻기 위해 거의 무한대의 문법패턴을 기억시켜야 했다면, 오히려 이 방식은 지금 당장은 속도가 느리더라도 계속해서 업그레이드가 가능하고, 프로그램화된 단어의 개수가 늘수록 번역률이 계속해서 좋아지는 장점이 있다. 엘엔아이소프트의 채흥석 개발실장은 지금 작업 중인 60만여 가지의 단어 프로그램을 모두 완성하게 되면 1-2년 내에 약 85%의 목표번역률에 도달할 것으로 내다보고 있다.
 

엘엔아이소프트에서 개발한 자동번역기 인가이드와 성경전문번역기인 바울.번역기를 실행시키면 웹화면과 똑같은 방식으로 작업을 수행할 수 있다.


논리에 어긋나면 엉뚱한 번역

하지만 여기에도 약점은 있다. 번역기가 단어들 사이의 논리적인 관계를 설정해 프로그램 된 것이기 때문에 특히 문법적으로 완전하지 않은 문장이나 문학적이고 비유적인 표현이 많은 경우 전혀 엉뚱한 번역이 나오기도 한다. 예를 들면 ‘How curious!’는 ‘얼마나 신기한가!’라는 감탄문으로 번역돼야 하지만, 주어와 동사가 생략된 완전하지 않은 문장이기 때문에 결과는 ‘어떻게 기이하다!’로 번역돼버린다.

또한 ‘The train ran to the Sun.’이라는 문장은 ‘기차가 태양으로 날아갔다.’로 번역돼야 할 것이다. 그런데 번역기는 우주선은 태양에 갈 수 있지만 ‘기차(train)는 태양(Sun)으로 갈 수 없다.’는 논리적인 생각을 하고, train과 ran의 관계 속에서 Sun을 ‘일요일’로 유추하고 만다. 결과는 ‘그 기차는 일요일에 운행하였습니다.’라는 전혀 엉뚱한 번역이 나오게 된다.

현재 번역기가 가지는 여러가지 한계 때문에 사용해본 사람들의 의견은 크게 갈리고 있다. 한편에서는 엉뚱하고 틀린 번역이 너무 많아 번역기를 쓰느니 차라리 자신이 직접 번역하겠다고 하고, 다른 한편에서는 그래도 쓸만하다는 사람들도 많다. 내용이 아주 전문적이며 문장이 난해한 고급 인문학분야에서는 욕구를 거의 충족시키지 못하는 반면, 외국 제품을 수입해 국내에 공급하는 중소기업에서 제품설명서를 빠르게 한글로 번역하는 경우 매우 유용하다. 또한 이공계의 원서들은 매우 근사한 번역을 얻을 수 있기 때문에 번역문을 훑어보고 전체의 주제를 파악하기에 매우 효율적이라는 평가도 많다.

무엇보다도 주부나 고령자로 인터넷 인구가 확대되면서 번역기에 대한 욕구가 크게 증가되면서 번역기 개발에 힘을 실어주고 있다. 번역기가 주는 번역문이 통역사가 주는 번역문만큼 완전하지는 못하지만, 컴퓨터 프로그램 하나를 클릭해서 원문의 주제를 간단히 파악할 수 있고, 특히 영어로 된 인터넷 홈페이지의 메뉴들을 한글로 볼 수 있다는 것은 대단한 매력이 아닐 수 없다. 번역기 개발이 개발자의 경제적 이득뿐만 아니라 인터넷 정보민주화로 가는 초석이라고 말하는 것도 이 때문이다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2000년 06월 과학동아 정보

  • 사진

    최문갑 기자
  • 전용훈 기자

🎓️ 진로 추천

  • 컴퓨터공학
  • 언어학
  • 소프트웨어공학
이 기사를 읽은 분이 본
다른 인기기사는?