d라이브러리









Part 2. 수학이 새로운 언어마저 만들었다?


여러 인공신경망 번역기 중에서도 구글 번역은 특별하다. 새로운 언어를 추가해도 따로 알고리즘을 만들지 않아도 된다. 구글은 알고리즘 하나에 한국어, 영어, 일본어 등 8개 언어를 모두 학습시켰다. 이를 ‘다중언어모델’이라 한다.

이쯤에서 구글 개발팀은 궁금한 게 생겼다. 번역 알고리즘 하나로 여러 언어를 번역할 수 있다면, 직접 배우지 않은 언어도 번역할 수 있을까? 즉, 영어와 한국어, 영어와 일본어를 번역하는 법을 각각 배운다면 한국어와 일본어도 번역할 수 있을까? 컴퓨터는 추론 능력이 떨어지기 때문에 보통 번역 알고리즘에서는 불가능하다.

구글은 직접 해보기로 했다. 자신의 번역 알고리즘에 한국어-영어 자료와 일본어-영어 자료를 각각 학습시켰다. 그리고는 한국어를 일본어로 번역하라고 주문했다. 그랬더니 직접 학습한 언어쌍만큼은 아니어도 꽤 높은 정확도를 보였다. 이런 방법을 ‘제로-샷’ 번역이라 한다.

개발팀은 인공신경망이 영어와 한국어, 영어와 일본어를 번역하는 법을 각각 배우면서 각 언어를 연결하는 중간언어가 저절로 생긴 것 같다고 말했다. 그 중간언어가 한국어와 일본어도 연결했다는 것이다. 중간언어를 거쳐 번역하면 되기 때문에 직접 배우지 않아도 번역이 가능하다. 구글은 이 중간언어에 ‘인터링구아’라는 이름을 붙였다.

수학이 만든 언어 ‘인터링구아’
이처럼 중간언어를 활용하는 자동 번역은 수학자와 철학자가 꿈꾸던 방식이다. 17세기 수학자이자 철학자인 라이프니츠와 데카르트는 전 세계 모든 언어를 중간언어를 거쳐 번역하고 싶었다. 그래서 숫자를 활용해 모든 언어에 적용되는 사전을 만드는 방법을 처음으로 제시했다.

이 아이디어를 바탕으로 1970년 미국의 컴퓨터 과학자 요릭 윌크스는 중간언어를 활용한 자동번역 시스템을 최초로 만들었다. 인터링구아가 활약한다면 번역은 훨씬 쉬워질 것이다. 직접 학습하지 않은 언어쌍도 학습한 언어쌍만큼 정확도가 높아진다면, 적은 데이터로도 좋은 번역기를 만들 수 있기 때문이다.

지금은 8개 언어를 서로 번역하려면 아래 그림처럼 28개 번역쌍을 컴퓨터가 배워야 한다. 반면 인터링구아가 있다면 8개로도 충분하다. 한국어와 영어를 번역하는 법과 일본어와 영어를 번역하는 법을 배우면 한국어와 일본어를 번역하는 법은 배우지 않아도 되기 때문이다.

 

 


▼관련기사를 계속 보시려면?

Intro. 인공신경망 번역 수학이 다 알아서 한다
Part 1. 구글이 ‘영잘알’된 비결
Part 2. 수학이 새로운 언어마저 만들었다?
Part 3. 인공신경망 번역기술이 그리는 미래
 

 

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2017년 02호 수학동아 정보

  • 이다솔 기자
  • 도움

    이창기 교수
  • 도움

    조성배 교수
  • 도움

    황영숙 매니저
  • 도움

    후망 로드리게스 최고분석책임자
  • 도움

    서정연 교수
  • 기타

    [참고자료] 용후이 우 외 3명 ‘Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation’, 멜빈 존슨 외 4명 ‘Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation’
  • 일러스트

    달상

🎓️ 진로 추천

  • 컴퓨터공학
  • 언어학
  • 수학
이 기사를 읽은 분이 본
다른 인기기사는?