주메뉴바로가기 본문바로가기

[Tech & Fun] 물리학자, 언어의 특징을 밝히다


언어를 번역할 때 한 단어를 다른 언어의 단어로 직역할 수 있는 경우는 굉장히 드물다. 단어가 표현하는 의미는 여럿이고 언어마다 다르기 때문이다. 언어를 통해 그 사람들의 ‘세상을 보는 눈’을 알 수 있다고 하는 이유다. 그렇다면 각 나라의 언어는 어떻게, 얼마나 다를까. 이런 차이는 어떻게 생겨났을까.





기본적으로 모든 언어가 ‘불(fire)’이라는 단어를 가지고 있다. 불을 표현하는 단어는 또 다른 개념을 내포하기도 하는데 열기(heat), 빛(light), 화(anger), 화재(conflagration) 등이 대표적이다. 재밌는 건 이런 단어의 의미 그룹을 대륙별로 세분화해 보면 조금씩 차이가 있다는 점이다. 아프리카 대륙의 언어에서 불은 열기, 빛, 화, 화재 외에도 불꽃(flame), 장작(firewood)의 의미를 가지고 있다. 반면 유라시아 대륙에서는 장작이라는 뜻 대신 발열(fever), 발포(gunfire), 활활 타다(blaze), 열정(passion)의 의미로 쓰인다. 아메리카 대륙에서는 불이 성냥(match), 시급한 사안(burning), 유성(meteor)이라는 뜻도 된다.

이런 차이는 나라별, 언어별로도 세분화된다. 윤혜진 영국 옥스퍼드대 수학과 연구원팀은 전세계 81개 언어에서 의미가 나뉘고 합쳐지는 관계를 파악할 수 있는 ‘의미망 네트워크’를 만들고, 비교 결과를 ‘미국국립과학원회보(PNAS)’ 2월 1일자에 발표했다.

연구팀은 해, 달, 별(이상 천체), 산, 호수, 강(이상 지리), 돌, 재, 모래(이상 재료) 등 모든 언어에 공통적으로 있는 단어 22개를 골라서 의미망 네트워크를 만들었다. 하나의 영어 단어를 81개 외국어로 번역하고, 다시 영단어로 재번역했다. 예를 들어 달(moon)이라는 단어를 캐나다 브리티시컬럼비아 주 해안 지대
에 사는 아메리카 인디언 침샨족의 언어로 번역해 보면 세 가지 단어가 된다(gyemgmáatk, gooypah, gyemk). 이것들을 영어로 다시 번역했다(moon, month, heat, sun). 그 결과 81개 언어마다 제각각 다른 의미망 네트워크가 만들어졌다(hyoun.me/language/index.html). 불이라는 하나의 단어를 굉장히 다양한 의미로 쓰는 나라가 있는 반면(주로 아메리카 대륙의 언어) 다섯 개 미만의 단순한 의미로 사용하는 나라도 있었다(주로 아프리카 대륙의 언어).



그렇다면 세 가지 문제를 내보겠다. ‘바다(sea)’와 ‘소금(salt)’, ‘바다’와 ‘태양(sun)’ 의미적으로 더 가까운 경우는 전자일까 후자일까. ‘물(water)’과 ‘달(moon)’ 중에서 유사한 의미의 단어를 더 많이 가지고 있는 것은 무엇일까. ‘하늘(sky)’과 ‘천국(heaven)’, ‘바다’와 ‘파도(wave)’ 두 가지 연관 단어 중에 사람들에게 더 많이 쓰이는 것은 무엇일까. 나라마다 언어마다 다르지 않겠냐고 묻는 사람도 있겠지만 거의 다르지 않다. 답은 ‘바다와 소금’, ‘물’, ‘하늘과 천국’이다.

윤 연구원팀은 앞서 구한 81개 각 나라의 의미망 네트워크를 비교해 몇 가지 경향성을 찾아냈다. 우선 의미 네트워크 상에서 가까운 위치에 있는(의미적으로 가까운) ‘바다와 소금’은 다른 언어의 의미 네트워크 상에서도 가까이 있는 것으로 확인됐다. 모든 언어의 의미 네트워크에서 ‘바다와 태양’은 그보다 멀
리 떨어져 있었다. 윤 연구원은 이에 대해 “두 단어들 간의 거리가 어느 정도로 유지되고 있는가가 지리적 문화적 조건과는 관계없이 나라마다 유사하게 나타난다”며 “의미 네트워크가 보편성을 가지고 있다”고 설명했다.



물이라는 단어를 달보다 다양한 뜻으로 사용하고, 하늘과 천국을 연결 짓는 현상도 언어마다 같았다. 바다나 강과 인접한 나라에서 물과 관련된 단어가 특히 많을 것이라는 추측이 틀린 것이다. 또 기독교 문화가 중심인 나라이든 아니든 하늘과 천국과 같은 사후세계 개념은 가깝게 쓰였다. 윤 연구원은 “이누이트족 언어에 ‘눈’을 표현하는 단어가 수백 개라고 하는 주장이 사실이 아니라는 것은 이미 밝혀져 있다”며 “언어 전체를 비교했을 때 차이가(눈을 표현하는 단어 수가 많은 정도) 의미 있는 수준이 아니다”고 설명했다.

연구팀은 이것을 확인하기 위해 81개 언어의 의미 네트워크 결과를 모두 더했다.(148~149쪽 네트워크 그림) ‘달-해’의 연결고리가 스페인어에도 등장하고 일본어에도 등장한다면 ‘달-해’ 링크(연결선)의 가중치를 2라고 지정하고 네트워크의 연결선을 2배로 굵게 그렸다. 관련된 의미가 많은 단어(전이성이 큰 단어)
는 노드(점)의 크기를 그 수와 비례해 크게 그렸다. 통합된 의미 네트워크는 전세계 모든 언어에서 개념이 어떻게 분할되는지 정량화해 보여줬다. ‘물’이라는 단어의 노드의 크기는 ‘달’보다 모든 언어에서 크게 나타났다. ‘하늘과 천국’의 링크는 여러 언어에서 공통적으로 나타났기에 굵게 그려졌다.

연구팀은 각 언어의 의미 네트워크가 유사성을 띤다는 것을 통계적으로 증명했다. 먼저 임의의 두 언어를 뽑아 의미 네트워크의 유사성 정도를 측정한 결과와, 두 네트워크의 연결망을 무작위로 바꾼 뒤 유사성 정도를 측정한 결과를 비교했다. 네트워크의 연결망을 바꾼 뒤 네트워크의 유사성이 더 작아지는 것이 확인됐다. 연결망을 바꾸기 이전의 원래 두 네트워크가 유사성이 더 높았다는 의미다.

다음으로 그 두 언어 사이의 유사성과, 81개 언어 중 무작위로 고른 두 언어의 유사성 정도를 서로 비교한 결과 유의미한 차이가 없었다. 지리나 문화적 조건에 따라 특별히 더 유사한 의미망 네트워크 그리는 법
달, 태양 같은 하나의 개념을 다른 언어로 번역하고(단어 레벨), 이것을 영어로 재번역한다(의미 레벨). 윤혜진 영국 옥스퍼드대 연구원팀은 22개 개념을 81개 언어로 번역-재번역 해 81가지 언어별 의미망 네트워크를 만들었다. 언어가 없다는 뜻이다. “이유는 여러 가지가 논의되고 있습니다. 하나의 가설이지만 만약 인류가 아프리카에서 분화되기 이전에 이미 언어 인식방식이 결정돼 있었고 그 이후로 진화하지 않았다면, 지금처럼 대륙과 상관없이 언어의 인식방식이 유사하게 나올 수 있겠죠.” 윤 연구원은 덧붙였다.

그동안 ‘언어심리학’, ‘인지언어학’, ‘인류언어학’ 등의 분야에서 일부 언어 사이의 유사성을 연구한 사례는 있었지만, 전세계 모든 언어를 대상으로 한 건 이번이 처음이다. 과거에는 백인의 교육받은, 부유하고 민주주의적인 몇 개의 국가, 문화를 대상으로 편중돼 연구가 이뤄져왔다. 이를 ‘WEIRD(White, Educated, Industrial, Rich, Democratic) 소사이어티’라고 부르기도 한다.



영어의 ‘아버지(father)’라는 단어는 라틴어로는 ‘pater’로 번역된다. 또 영어에서 ‘발(foot)’은 라틴어에서는 ‘ped’다. 이처럼 인도 유럽어족에서 진화한 영어와 라틴어를 보면 일정한 규칙이 있다. 보통 영어의 ‘f’ 소리가 라틴어에서는 ‘p’로 대체된다. 이런 현상은 시베리아와 중앙아시아, 중국 북부 등 넓은 지역에서 진화한 투르크어에서도 찾아볼 수 있다. 러시아 하카스 공화국의 언어인 하카스어로 ‘머리(pas)’라는 단어는 터키어로 ‘baš’, ‘이(pel-)’라는 단어는 ‘bil-’ 또는 ‘bel-’로 번역된다. 즉 ‘p’ 소리가 ‘b’소리로 바뀌는 것이다.

미국 산타페연구소 탄모이 바타챠르야 교수팀은 이렇게 하나의 소리가 다른 소리로 넘어가는 현상이 언어의 진화 과정에서 동시다발적으로 발생한다는 데 착안했다. 연구팀은 컴퓨터를 이용해 2000년의 역사를 가진 투르크어가 35개 세부 언어로 발전하는 과정을 ‘트리 구조(tree structure)’로 만들었다. 그 결과 70가지가 넘는 특징적인 소리 변화를 찾아냈다. 이 결과는 ‘커런트 바이올로지’ 2015년 1월 5일자에 실렸다(doi:10.1016/j.cub.2014.10.064).

바타챠르야 교수는 당시 보도자료를 통해 “여러 가지 단어의 소리 변화는 마치 DNA의 분화처럼 독립적이지 않다(not independent)”고 설명했다. 소리가 일정한 규칙을 가지고 진화한다는 뜻이다. 간단하게(?) 모든 영어와 라틴어 단어에서 소리변화를 네트워크로 구조화한다면 f에서 p로의 변화가 f에서 v로의 변화보다 많은지 적은지 한 눈에 알아볼 수 있다.

네트워크의 통계적인 분석은 언어의 진화뿐 아니라 다양한 사회, 문화적 현상을 분석하는 데도 유용하게 쓰인다. 올해 초에도 네트워크를 이용해 여러 나라의 도시별 경제 패턴이 얼마나 유사한지를 밝힌 윤 연구원의 논문이 영국 왕립학회 학술지 ‘로열소사이어티인터페이스(Journal of Royal Society Interface)’에 실렸다. 윤 연구원은 “네트워크가 지닌 독특한 특성 때문”이라고 설명했다. 네트워크는 많은 데이터 점들 가운데 연결구조에 집중한다는 것. 그는 “한 개념과 다른 개념의 가까운 정도가 얼마나 다른지를 알아낼 때 적합한 도구”라며 물리학적 접근의 필요성을 강조했다.


 
글 : 이영혜 과학동아
이미지 출처 : GIB

과학동아 2016년 06호
과학동아 2016년 06호 다른추천기사