d라이브러리









고대인의 DNA에서 우리 조상을 어떻게 찾을까요? 바이오인포매틱스 연구자들이 해결합니다. 바이오인포매틱스는 생명현상을 수학, 논리학, 전산학을 이용해 파악하는 학문입니다. 수학 알고리듬이 입력된 슈퍼컴퓨터가 수천 개의 게놈 데이터를 동시에 계산할 수 있어 데이터 속에 숨은 정보를 찾아냅니다.


DNA는 생물체의 유전 정보를 알려주는 물질입니다. 이중나선 구조로 쌍을 이루고 있는 DNA 분자는 A, G, C, T 4개의 염기로 이뤄집니다. 4가지 염기 중 3개가 만나 AGC, GAT, CAT, ACG처럼 배열을 이룹니다. 4가지 염기 중 3개를 늘어놓는 경우의 수는 43이니 모두 64가지를 만들 수 있는 것이지요. 그리고 DNA 가닥의 염기 배열 순서가 바로 유전 정보가 됩니다.

이때 염기를 순서대로 나열해 놓은 것을 염기서열이라고 합니다. 아무렇게나 뽑은 두 사람의 DNA 염기서열을 분석해 보면 평균적으로 1000개 중 한 개 정도 차이가 있습니다. 침팬지랑 사람은 1000개 중 적어도 20개가 다르고요. 유전학과 수학이 힘을 합쳐 알게 된 사실이지요.

이런 차이는 어떻게 생기는 걸까요? DNA의 네 염기 중 A는 T와, G는 C와 상호보완적으로결합합니다. 그래서 만약 TGCA라는 염기 배열이 있으면 그 옆에 ACGT라는 염기 배열이 붙게 되지요. 그런데 DNA 복제 과정에서 돌연변이가 생기기도 합니다. 이를 테면 T 옆에 A가 오지 않고 C가 오게 되는 경우지요. 그 결과 DNA 염기서열이 바뀝니다. 자손이 부모의 유전자를 물려 받을 때 같은 유전자를 물려받지만 일부는 바뀌기도 하는 것이지요. 이 때문에 사람마다 DNA가 비슷한 듯 다르게 되는 것입니다.

 
표준게놈과 얼마나 겹칠까
 
고대인의 새로운 DNA를 발견했을 때 우리의 조상인지 아닌지, 우리와 얼마나 유사한지 아닌지 어떻게 알 수 있을까요? 먼저 ‘표준게놈’이있어야 합니다. 표준게놈은 유전체 분석의 지침이 되는 염기서열입니다. 종을 대표하는 유전체라고 봐도 무방합니다. 동일한 종이어도 변이가 있을 수 있기 때문에 한 명이 아닌 여러 명의 것을 합성해 재구성합니다.

모든 염색체가 필요하지는 않습니다. 예를 들어 혈액형은 염색체 A, B, O형의 염기서열이 각각 필요한 게 아닙니다. 정확한 O형의 염기서열 하나만 제시하면, 이것으로 다른 사람이 A형인지 B형인지를 비교해 판단할 수 있습니다. 물론 매우 적은 확률로 등장하는 희귀한 변이는 가능한 포함시키지 않습니다.

이제 고대인의 DNA를 현대인과 어떻게 비교 하는지 알아봅시다. 먼저 고대인의 DNA를 잘게 토막 낸 후 염기서열을 분석합니다. 현재 기술로는 30억 염기서열을 수백 개의 조각으로 토막토막 잘라낼 수 있습니다. 그리고 이 자료를 컴퓨터에 입력하면 표준게놈과 서로 겹치는 부분을 찾을 수 있습니다.
 


악마문 동굴인 게놈 분석에 참여한 UNIST 게놈연구소 연구진의 모습. 왼쪽부터 김학민, 전성원, 박영준, 조윤성 연구원.
 

최적의 경우를 찾는 문제

이런 과정을 ‘재조립’이라고 합니다. 재조립을 통해 현대인과 고대인의 유전자가 어디서 유사한지, 어느 부분에서 다른지 알 수 있게 됩니다.

조금 더 수학적으로 살펴봅시다. 그림을 보세요. 효소로 절단한 염기조각 f1,…,f6 이 있을 때 모든 조각을 포함하는 가장 짧은 염기를 찾으면 S는 TAATATTATA입니다. 여섯 개 조각의 순서는 어떻게 찾을까요? 겹치는 부분을 찾아 맞추어 가는 겁니다. 이 과정에서 조합할 수 있는 경우의 수는 무수히 많습니다.

수학에서는 이런 조합 문제를 ‘NP-완전’ 문제라고 하는데, 매우 어려운 문제입니다. 수많은 조합을 찾아내야 하는데, 규칙이 따로 없으니까요. 염기 조각을 이용해 만들 수 있는 가장 짧은 염기서열을 구하는 것도 NP-완전 문제입니다.
 
대부분의 NP 문제들이 그러하듯 이 문제 또 한 푸는 방식에 특별한 규칙이 없습니다. 염기서열끼리 겹치는 부분이 큰 순서대로 배열해서 찾는 수밖에 없습니다. 그래서 수학 알고리듬이 짜여진 슈퍼컴퓨터가 필요한 것이지요.

조합 문제는 종을 분류할 때도 쓰입니다. 인간과 영장류가 어떤 지점에서 나뉘는지는 오래된 문제였는데, 다양한 경우의 수를 따져 최적의 계통수를 찾는 연구를 했습니다. 계통수란 생물 진화의 결과를 유전적 특징과 유사성에 따라 나타낸 수형도입니다.

그리고 마침내 20세기 후반에 인간과 유인원의 관계도 드러났습니다. 영장류에는 사람과로 분류되는 인간과 유인원 가족인 침팬지, 보노보, 고릴라, 그리고 오랑우탄이 있습니다. 그 결과 오랑우탄이 인간의 특징을 가장 적게 갖고 있고, 보노보와 침팬지의 DNA는 98% 이상이 우리와 같았습니다.

이런 연구를 통해 과학자들은 인류가 어떻게 나뉘었는지 알 수 있게 됐습니다. 인류 집단의 이동도 알게 된 것이지요.

지난 7월 13일에는 박테리아의 게놈에 영상을 넣고, 재생한 조지 처치 미국 하버드대학교 의학과 교수의 연구가 네이처에 실리기도 했었죠. 이 또한 정보를 읽고 쓰는 것을 수학적 이론에 기반한 기술로 구현한 것입니다. 게놈 자체가 일종의 컴퓨터이고, 메모리이기도 하기 때문이지요.

이렇게 유전학 문제를 해결하기 위해 수학이 많이 쓰이고 있는데요, 유전학과 수학이 앞으로 이뤄낼 성과가 더욱 기대됩니다.
 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2017년 08호 수학동아 정보

  • 조혜인 기자 heynism@donga.com
  • 도움

    김동섭 (KAIST 바이오 및 뇌공학과 교수), 박종화 (UNIST 게놈산업기술센터 박사)
  • 기타

    [참고자료] ‘Genome-wide data from two early Neolithic East Asian individuals dating to 7700 years ago’, ‘introduction to computaional biology’ ‘inferring phylogenies’, ‘Mapping Human Genetic Diversity in Asia’
  • 일러스트

    달상

🎓️ 진로 추천

  • 생명과학·생명공학
  • 컴퓨터공학
  • 수학
이 기사를 읽은 분이 본
다른 인기기사는?