d라이브러리









Ⅳ. 수학적 사고가 미래 생물학을 지배한다

유전정보처리의 귀재 생물정보학

게놈 연구결과가 계속 보고되면서, 우리는 개별적인 생체부품뿐 아니라 생명체의 전체적인 윤곽을 볼 수 있게 됐다. 생물의 모든 유전정보가 체계적으로 모이고 정리됐기 때문이다. 유전정보에 대한 접근과 기능의 해석이 가능했던 것은 생물정보학(bioinformatics)의 역할에 크게 힙입었다. 즉 유전정보를 체계적으로 집대성하고, 종합적인 비교분석이 가능하게 됐다. 이제 전산분석시스템이 없다면 생명과학의 연구현장에 접근할 수 없다고 말해도 무리가 아니다. 컴퓨터는 생명과학의 공통적이고 보편적인 연구수단으로 발전한 것이다. DNA칩의 경우를 예로 들어 살펴보자.

노년기 고혈압 걸릴 확률 예측

고혈압의 유전적 원인을 알기 위해 다음과 같은 실험을 구상해보자. 10만명의 60세 이상 고혈압 환자로부터 DNA를 추출하고, 이를 칩과 반응시킨다. 또 10만명의 60세 이상 고혈압이 없는 환자로부터 같은 실험을 실시한다.

우선 20만개의 시료와 이에 수반되는 다양한 정보들을 다루기 위해서는, 단순히 데이터를 얻는 과정 그 자체에서도 컴퓨터가 중요한 역할을 할 것이다. 그러나 컴퓨터의 진정한 파워는 그 다음부터 발휘된다. 이렇게 대량의 데이터가 있을 경우 컴퓨터 기술은 이들이 공통적으로 가지는 성질을 반영하는 모델을 만들 수 있다. 이 모델은 물론 사람이 들여다보아도 이해할 수 있는 형태가 아니다. 즉 이 모델이 만들어졌다고 해서 우리가 고혈압이 발생하는 메커니즘을 이해할 수 있거나, 고혈압에 관련되는 유전자들을 정확히 집어낼 수 있는 것은 아니다. 단지 컴퓨터 내부에 복잡한 네트워크 형태의 구조로 존재하는 것일 뿐이다. 그렇다면 도대체 이 모델이 무슨 소용이 있을 것인가?

직접적이고 실용적인 소용이 있다. 고혈압 환자와 그렇지 않은 사람 각기 10만명의 데이터에 대해서 별도의 모델을 만든다. 일단 두가지 모델들이 만들어진 다음에는 어떤 알려지지 않은 시료가 어느 모델에 더 잘 들어맞는지를 컴퓨터가 계산해낼 수 있다. 즉 일반적인 경우 아직 고혈압과는 거리가 먼 30대(또는 20대)로부터 DNA를 추출해 모델과 맞추어보는 작업을 하면, 그 사람이 장차 고혈압으로 고통받게 될 확률이 얼마나 되는지를 미리 알려주어 40대쯤부터는 여러가지 예방 정책을 쓸 수 있게 해주는 것이다. 이처럼 사전에 질병을 예측하는 진단법은 앞으로 커다란 시장을 형성할 것이다.

70년대 초반부터 서서히 태동하기 시작한 생물정보학은 오랫동안 별로 눈에 띄지 않는 분야로 남아오다가 최근 들어 갑자기 큰 붐을 이루고 있다. 생물체와 이들이 이루는 생물계는 다른 무생물적인 대상에 비해 훨씬 더 '정보적'이다.

하나의 생물체를 볼 때 DNA 속에 담겨진 정보에 의해서 다수의 단백질들이 만들어지고, 이 단백질(물론 다른 종류의 생체분자도 포함하여)들은 그 자체의 구조에 대한 정보와 함께 어떤 조건에서 무엇이 어떤 식으로 상호작용을 할 것인가에 대한 정보를 가지게 된다. 다시 다세포 생물의 세포, 조직, 기관들 사이의 상호작용에서 시작해, 개체 사이의 상호작용, 환경과의 상호작용, 집단과 집단과의 상호작용, 그리고 진화에 이르기까지 다양한 계층의 정보를 가지게 된다. 이에 수반되는 정보의 양은 실로 막대하며, 그 복잡한 정도는 인간이 지금까지 다루어온 그 어떤 것보다 크다. 이 복잡한 정보를 다룰 수 있는 현재 인간이 가진 도구는 당연히 컴퓨터다. 생물정보학은 바로 컴퓨터를 이용해 생명체가 가지는 정보를 처리하고 이용할 수 있도록 하는 학문분야다.

그렇다면 생물정보학은 왜 최근에 각광을 받고 있을까. 인간게놈프로젝트 때문이다. 애초에 사람과 몇가지 모델동물들의 DNA 염기서열을 모두 밝히는 것이 출발점이던 인체게놈프로젝트는 여러가지 파급효과를 가져왔다.

이 가운데 하나는 다양한 방식으로 대규모 정보를 생물체로부터 얻는 일들을 수행하려는 움직임이다. 예를 들어 생물체가 가지는 모든 단백질들에 대한 3차 구조를 인체게놈프로젝트와 유사한 형태로 체계적으로 모두 얻는 일, 수백만명에 대한 개개인의 유전적인 차이를 데이터베이스로 만드는 일, 인간의 외모와 유전정보와의 관계를 데이터베이스로 만드는 일, 다양한 종류의 인간 암세포에 대한 대규모의 정보를 얻는 일, 환경오염물질에 대한 개인별 차이를 대규모 데이터베이스로 만드는 일 등 다양한 시도들의 리스트는 계속 증가하는 추세다.


DNA치벵서 얻은 유전자 염기서열 정보를 컴퓨터가 분석하고 있는 모습.


수학자가 유리

컴퓨터로 처리할 대량의 정보를 얻기 위해서는 당연히 이를 얻어낼 수 있는 도구의 발전도 따라주어야 한다. 전자공학, 로보틱스, 미세기술 등의 발전이 컴퓨터 자체의 발전과 함께 이러한 추세의 또다른 원동력이다. 전산학적인 도구, 그리고 이를 사용해 데이터를 대규모로 얻어낼 수 있는 로보트화된 도구들의 사용이 앞으로 점점 생물학 연구의 일부가 될 것이다.

이러한 급변하는 추세는 한가지 자명한 결과를 낳는다. 즉 새로운 형태의 생물학자를 양성하는 일이다. 수학이나 전산학과 가장 멀리 떨어질 수 있는 분야였기에, 생물학 분야는 일종의 수학혐오자들의 도피처였던 면이 있었다. 그런데 갑자기 수학과 전산학이 절실하게 필요한 분야로 변한 것이다. 유전자를 하나씩 자세하게 들여다보는 것이 주업이었던 분야가 갑자기 정보학적인 처리가 핵심이 되는 분야로 바뀌어가기 때문에 생긴 일이다.

미국의 경우 생물정보학 분야의 전문가를 키우기 위해 흥미로운 정책을 세우고 있다. 기존의 생물학에 싫증을 느낀 많은 수의 젊은 생물학도들이, 이제 막 발견된 아직 사람이 거의 살지 않는 신대륙인 생물정보학을 향해 절호의 탈출의 기회로 삼아 대거 이동을 시도하고 있다. 그러나 미국의 정책은 이를 전혀 추천하지도, 부추기지도 않고 있다. 오히려 단념시키려 하는 것 같다. 왜 그럴까.

'수학적 사고방식'이 이미 오랫동안 두뇌에서 떠나 있던 사람에게 다시 이를 주입하는 것보다, 이미 수학적으로 단련된 사람에게 생물학적 지식을 가르치는 것이 훨씬 효율적이라 판단하기 때문이다. 즉 새로운 형태의 생물학은 기존의 생물학 교육을 이미 다 받은 사람에게 몇가지 새로운 기술을 습득하게 하면 되는 것이 아니라, 가능한 한 어린 시절부터 사고 체계 자체를 완전히 다른 형태로 쌓아 올라와야만 하는 것이다. 앞으로 수학과 전산학으로 무장한 이러한 새로운 생물학자들이 대거 등장하게 됐을 때 생물학 분야 전체에 커다란 혼란이 일어날지 모를 일이다.

1999년 12월 과학동아 정보

  • 이영완 연구원

🎓️ 진로 추천

  • 생명과학·생명공학
  • 컴퓨터공학
  • 통계학
이 기사를 읽은 분이 본
다른 인기기사는?