d라이브러리









1. 생명체는 정보의 집합체다

바이오인포매틱스가 주목받는 4가지 이유

인간이 가진 유전정보의 총합인 게 놈은 생명현상을 이해하는데 필요 한 기초 자료일 뿐이다. 암호를 풀 어 구체적으로 활용하는 일이 앞으로 해결해야 할 숙제다.


2001년 2월 12일 전세계 언론은 인간의 달착륙에 비견할만한 역사적 사건이 일어났다고 일제히 보도했다. 인간게놈프로젝트 국제컨소시엄(Human Genome Project)과 미국의 셀레라 지노믹스사가 인간이 가진 유전정보의 총합인 게놈을 대부분 밝혀냈다며, 그동안의 연구성과를 공동으로 발표한 것이다.

스포트라이트를 받으며 등장한 과학자들이 인간이란 생명체의 모든 신비가 담겨져 있다며 공개한 자료는 A, G, C, T라는 네개의 문자로만 돼 있었다. 그런데 1천쪽짜리 전화번호부 1천권에 해당할 정도로 길이가 엄청나게 길었다. 사실 단순해보이는 문자의 끊임없는 나열 어디에 생명의 신비가 담겨있다는 것인지 보통 사람이 이해하기 쉽지 않다.

과학자들이 현재 당면한 상황도 일반인과 크게 다르지 않다. 엄청난 양의 데이터에 구체적으로 어떤 중요한 의미가 들어있는지, 그리고 이를 어떻게 활용할 수 있는지 정확히 알지 못하고 있다는 얘기다. 이 때문에 게놈에 담겨있는 생명의 의미를 밝히는 일은 현재 과학자들이 해결해야 할 가장 중대한 과제가 되고 있다.

게놈정보 앞에 막막한 과학자들

인간게놈프로젝트 때문에 게놈연구가 온 국민의 관심사가 됐지만, 그 이전부터 게놈정보는 쏟아지고 있었다. 컴퓨터, 전자, 로봇공학의 발전은 다중효소중합연쇄반응기(PCR)나 DNA서열분석기와 같은 실험기자재의 발달을 가져왔다. 작은 양의 DNA를 PCR을 통해 수를 엄청나게 늘려 DNA서열분석기를 사용하면서 대규모 게놈 서열정보를 짧은 시간 동안 밝혀내는 일이 가능해진 것이다.

게놈분석기술의 발전은 1996년 인풀루엔자 세균에서 시작해, 효모·선충 등의 미생물, 애기장대·벼 등의 식물, 그리고 인간을 비롯한 동물까지 다양한 생명체가 지진 엄청난 양의 게놈정보를 속속 알려주고 있다. 최근 생명공학계에 쏟아지는 정보의 양에 대해 셀레라사의 바이오인포매틱스 담당자 진 마이어스는 “정보의 홍수를 넘어 해일이 되고 있다”고 표현할 정도다.

엄청난 양의 게놈정보는 DNA를 분석해 얻은 것이다. DNA는 이중나선으로 된 상당히 긴 분자로 인산, 당, 염기로 구성돼 있다. 이 중 염기는 아데닌(A), 구아닌(G), 시토신(C), 티민(T) 네 종류가 있어 무작위로 나열돼 있다. DNA의 염기서열은 RNA를 통해 단백질을 만드는 유전자라는 부분이 들어있어 중요한 의미를 지닌다. 단백질이 실제 생체에서 생명현상을 주도하는 물질이기 때문이다.

따라서 실제 생명현상을 이해하기 위해서는 게놈정보에서 유전자가 어떤 부위이고 어떻게 단백질을 만드는지, 즉 유전자의 기능을 제대로 알아야 한다. 아직 논란중이지만 인간은 적게 잡아도 3만-4만개의 유전자를 갖고 있다고 추정된다. 단순하게 이들 유전자가 단백질을 만들거나 만들지 않는 모든 상황을 떠올려보자. 총 경우의 수는 230000=109030이다. 전 우주에 있는 모든 입자의 수가 1080개 정도라는 사실을 고려하면 얼마나 광범위한 수치인지 짐작할 수 있다. 아무런 정보 없이 무작정 뛰어들기에 정보의 규모가 상상을 초월한다는 얘기다. 그러나 인간은 엄청난 양의 정보를 처리할 수 있는 유용한 도구를 갖고 있다. 바로 컴퓨터다.

1만9천개의 진공관으로 무장한 최초의 컴퓨터 에니악(ENIAC)이 1945년 처음 등장했을 때만 해도 컴퓨터는 엄청난 크기의 기계 덩어리에 불과했다. 그런데 불과 50여년이 지난 현재 이 기계 덩어리는 인류의 문명을 변모시키며 사회전체의 필수품으로 자리잡았다. 과학기술분야에서 컴퓨터의 중요성은 말할 필요조차 없다. 컴퓨터가 이처럼 성공을 거둔 이유는 복잡한 문제를 0과 1이라는 디지털 데이터로 바꾼 후 알고리듬을 이용한 체계적인 접근을 통해 빠른 속도로 해답을 구할 수 있기 때문이다(그림 1).


그런데 생명체의 게놈서열을 이루는 A, G, C, T는 서로 정확히 구별되는 컴퓨터의 디지털 데이터와 비슷하다. 아날로그적으로 보이는 생명체는 근본적으로 복잡한 생명현상을 총괄하기 위해서 애매모호한 점이 없이 정밀한 디지털 코드를 선택할 수밖에 없었던 셈이다. 나아가 디지털 데이터를 효과적으로 처리해 생명현상을 일으키는 생명체 자체가 컴퓨터와 똑같은 일을 한다는 생각까지 가능하다. 즉 전혀 동떨어져 보이는 생명체와 컴퓨터가 근본적으로 비슷한 속성을 갖고 있다. 이 점은 서로 다른 길을 걸어오던 생명과학과 정보과학이 반드시 만날 수밖에 없었으며, 그 만남이 성공적일 것이라는 사실을 시사한다.

이제 바이오인포매틱스가 최근 각광을 받는 첫번째 이유를 이해할 수 있다. 정보과학의 도입은 게놈정보 앞에서 막막하기만 했던 과학자들에게 유용한 해결책을 제시해주기 때문이다. 엄청난 양의 게놈정보는 바이오인포매틱스를 통해 가공돼 진정한 가치를 가질 수 있다. 더욱이 게놈정보는 근본적으로 컴퓨터로 처리하기 알맞은 성질을 갖고 있다. 사실 게놈정보는 워낙 방대하기 때문에 컴퓨터의 도움 없이는 가공은 커녕 다른데로 옮기는 일도 쉽지 않다.
 

(그림 1) 정보 홍수 해결하는 바이오인포매틱스


게놈에서 피지옴까지

최근 바이오인포매틱스가 눈에 두드러지고, 기업이나 연구소에서 관련 인력 확보에 나선 이유는 쏟아지는 게놈 데이터를 분석하기 위해서다. 그러나 여기서 반드시 짚고 넘어가야 하는 점은 바이오인포매틱스의 관심사는 게놈 한가지에 얽매이지 않는다는 사실이다.

게놈분석을 성공적으로 마친 과학자들은 이제 게놈프로젝트의 다음 단계를 말하고 있다. 포스트게놈시대에서는 단백질이 선두주자로 떠오르고 있다. 유전(gene)정보의 총합을 게놈(genome)이라고 한 것처럼 단백질(protein)정보의 총합을 프로테옴(proteome)이라 한다. 생명관련 정보에 전체를 뜻하는 -ome이라는 말을 붙인 것이다. 프로테옴을 밝히는 연구가 바로 요즘 한창 주가를 올리고 있는 프로테오믹스(proteomics)다.

프로테옴은 유전정보의 총합인 게놈보다 한층 복잡하리라 예상된다. 유전자는 겨우 4문자로 돼 있지만 단백질은 아미노산이라는 20가지 문자를 사용하고 있다. 더욱이 아미노산의 서열은 복잡하게 얽히면서 3차원 구조를 이루는데, 단백질이 하는 일을 이해하려면 서열뿐만 아니라 구조까지 정확히 알아야 한다. 이런 복잡한 데이터를 해석하는데는 바이오인포매틱스 이외에 해결책이 없다.

한편 게놈에 담긴 유전정보에서 단백질이 만들어지기 위해서는 중간에 RNA를 거쳐야 한다. DNA에서 유전정보가 전달되는 이 과정을 전사(transcription)라 하는데, 전사를 담당하는 모든 RNA의 총합을 트랜스크립톰(transcriptome)이라 한다. 유전자와 단백질의 중간고리인 트랜스크립톰 역시 생명현상을 이해하기 위해서는 반드시 필요한 정보이고 게놈과 프로테옴처럼 엄청난 분량이다.

마찬가지로 생체에서 만들어지는 모든 물질(metabolite)정보의 총합을 메타볼롬(metabolome)이라 한다. 최근에는 실제 살아있는 세포, 장기, 개체에서 일어나는 생리현상(physiology)의 총합인 피지옴(physiome)이라는 개념까지 등장했다. 이처럼 생명체 내에는 정보과학의 도움 없이는 해결이 불가능한 엄청난 양의 정보가 널려있다. 바이오인포매틱스가 뜨게 된 두번째 이유는 포스트게놈시대를 맞아 생명체가 갖고 있는 다양한 데이터를 모두 유용하게 사용할 수 있기 때문이다.

신약개발에 유용한 도구

바이오인포매틱스가 생명공학계의 최대 화두가 되고 있는 것은 무엇보다도 실제 활용과 연결되는 학문이기 때문이다. 바로 생명체의 정보에서 금맥을 찾는 일이 바이오인포매틱스를 통해 가능하다는 얘기다. 사실 엄청난 양의 정보를 고생고생하며 분석해 얻은 결과가 경제적인 가치를 지니지 않으면 맥이 빠질 수밖에 없다. 예를 들어 생각해보자.

골다공증은 중년을 넘긴 여성을 괴롭히는 대표적인 질병 중 하나다. 뼈에서 칼슘이 빠져나가면서 스펀지처럼 작은 구멍이 생기는 질병인데, 뼈가 무르기 때문에 넘어지기만 해도 부러질 수 있다. 평소에 운동을 하고 칼슘을 섭취하면 예방에 도움이 된다고는 하지만, 특별한 증상이나 뚜렷한 치료법이 없어 골칫거리가 되고 있다. 골다공증을 치료하는 신약을 개발한다고 생각해보자. 우선 병의 원인을 알아야 치료제를 만들 수 있다. 따라서 골다공증에 걸린 사람들의 몸에서 단서를 찾아야 한다. 그러나 사람의 몸 속에 존재하는 수많은 단백질에서 골다공증을 일으킨 범인을 찾아내는 일은 상당히 어렵다. 인간은 단백질에 대해 일부분의 정보만 갖고 있기 때문이다. 그러나 유전물질의 경우에는 상황이 다르다. 세포에 들어있는 유전물질은 염기서열분석기술로 손쉽게 밝혀낼 수 있다.

골다공증에 걸린 사람들의 염기서열을 밝혀낸 후부터 본격적으로 바이오인포매틱스가 사용된다. 염기서열들은 컴퓨터 프로그램을 이용해 서로 비교할 수 있다. 서열 비교를 해봤는데 골다공증에 걸린 사람들만 공통적으로 갖고 있는 특정 염기서열이 있다면 의심의 눈초리를 보낼 수밖에 없다.

실제 과학자들은 골다공증 환자에게서만 과다하게 발현되는 특정 유전자들 찾았다. 이 유전자는 기존에 밝혀진 염기서열과 유사점이 없는지 게놈 데이터베이스에서 검색했다. 그 결과 유전자에서 만들어지는 단백질은 카텝신-K라는 기존에 알려져있던 효소와 일치했다. 카텝신-K가 뼈를 녹이는 수소이온을 방출해 뼈의 결합단백질인 콜라겐을 분해하는, 즉 골다공증의 중요한 유발요인이라는 사실이 밝혀진 것은 시간이 흐른 뒤 일이다.

과학자들이 염기서열 분석 결과를 통해 카텝신-K를 발굴하는데까지 걸린 시간은 수일에 불과했다. 다양한 화학물질을 넣어 골다공증에 어떤 변화가 있는지 관찰해 찾아내는 기존의 연구방법을 통해서는 수년이 걸려도 불가능한 일이다. 현재 제약회사들은 카텝신-K의 기능을 억제하는 물질을 대상으로 임상시험을 진행중이다.

골다공증 치료제는 신약개발에서 바이오인포매틱스의 위력을 보여주는 한 예다. 사실 게놈과 프로테옴 정보를 제대로 이해하지 못하고 있는 현재 상황에서 질병과 관련된 염기서열을 찾아내 바로 표적단백질을 알아내는데는 운도 많이 작용했다. 그러나 생명정보가 갖춰질수록, 컴퓨터를 이용해 신약을 찾는데 걸리는 엄청난 시간과 비용이 획기적으로 줄어든다는 것은 분명한 사실이다.

바이오인포매틱스가 주목받는 세번째 이유는 생명체에서 엄청난 부가가치를 발굴하는 가장 효과적인 수단이 되기 때문이다. 바이오인포매틱스의 연구결과는 인류가 당면한 가장 큰 골칫거리인 질병과 식량, 환경문제를 해결하는데 유용하게 사용될 전망이다.

생명에 대한 새로운 접근법
 

(그림 3) 환원적 접근법 vs 통합적 접근법


바이오인포매틱스는 생명체의 속성상 필연적으로 등장할 수밖에 없었던 학문으로 생명과학에 근본적인 관점의 변화를 일으키고 있다. 생명이란 무엇인지 생각해보자. 인류의 가장 오랜 화두 중 하나로 생명과학이 탄생하게 된 근본적인 질문이다. 그러나 작은 박테리아에서 인간에 이르기까지 다양한 생명체의 본질이 무엇인지 대답하기는 결코 쉽지 않다.

이 질문에 해답을 얻기 위해 지금까지 생명과학자들은 온갖 생명체를 해부해 무엇으로 구성돼 있는지, 어떻게 생리작용을 하는지 밝혀냈다. 과학기술이 발전하면서 단백질을 비롯해 DNA나 RNA와 같은 다양한 생리물질이 밝혀졌다. 과학자들은 생명현상을 이해하기 위해 좀더 근원적인 수준으로 내려가 생리물질을 집중적으로 연구하기 시작했다.

그러나 개개의 구성 요소를 이해함으로써 전체를 파악하려는 환원적 접근법(reductionistic approach)은 생명과학에서 그리 성공적이지 못했다. 생명체에 대한 환원적 접근이 무의미하다는 얘기는 결코 아니다. 게놈프로젝트의 결과 유전정보를 알아도 생명체를 이해하지 못하는 현 상황에서는 환원적 접근은 시야를 제한하고 생명현상을 부분적으로 보여주는데 그친다.

세포나 조직, 기관에서 일어나는 다양한 생명현상은 우연히 일어나는 일이 아니다. 유전자와 단백질에서 생리현상까지 다양한 인자가 복잡하게 네트워크를 이뤄 서로 영향을 주고받으면서 실제 생명현상이 일어난다. 생명체를 이해하기 위해서는 근본적으로 생명체를 움직이는 정보를 이해해야 한다. 이 때문에 생명체를 전체 시스템으로 이해하는 통합적 접근법(synthetic approach)이 필요하다(그림 3).


바이오인포매틱스는 근본적으로 통합적 접근법을 추구하는 데이터 중심의 새로운 학문이다. 생명과학에 새로운 인식틀을 안겨주는 철학으로 불리는 이유며, 바이오인포매틱스를 주목하는 네번째 이유다.

예를 들어 암이란 불치병을 이해하기 위해서 이전까지 연구는 암을 일으키는 염기서열의 돌연변이를 찾아 직접 관련된 유전자를 탐색하는데 주력했다. 그러나 바이오인포매틱스는 세포가 갖고 있는 유전자 전체를 밝혀내, 이들이 암이 발생하는데 어떻게 관여하는지 시스템 전체를 관찰한다. 실제 절대 예측할 수 없는 유전자가 암의 발생 단계에서 중요한 역할을 수행할 수 있다. 기존의 방법이 단순히 범죄를 일으킨 범인찾기에 만족했다면, 바이오인포매틱스는 범죄가 발생하는 사회 구조까지 이해하려는 셈이다.

이 때문에 바이오인포매틱스는 20세기초 물리학에 새로운 인식틀을 준 양자역학이나 상대성이론에 비견되고 있다. 그러나 이보다 더 큰 변화를 몰고 오리라 예상된다. 생명과학 전분야가 결국 바이오인포매틱스로 변화할 것이라 보는 시각까지 나오고 있다.
 

단백질을 비롯한 생리물질에 대한 연구는 게놈과 차원이 다른 복잡 성을 예고하고 있다. 이 때문에 바 이오인포매틱스가 더욱 각광받을 전망이다.


분자생물학과 바이오인포매틱스

과학자들은 바이오인포매틱스를 설명할 때 흔히 분자생물학에 비유한다. 왜 그런 것일까.

분자생물학은 1953년 제임스 왓슨과 프란시스 크릭이 DNA의 이중나선 구조를 밝히면서 주목받기 시작한 생물학의 한 분야다. 화학과 물리학에 바탕을 둔 분석방법을 사용해 분자구조의 특성을 밝혀 생명현상을 설명하기 때문에, 그 이전에 주류를 차지하던 생리를 중심으로 한 생물학과는 연구방법부터 구별된다. 현재 분자생물학은 거의 모든 생명과학 분야에서 가장 중요한 기본 연구수단으로 사용되고 있다.

분자생물학과 바이오인포매틱스의 공통 분모를 생각해보자. 우선 바이오인포매틱스는 생명과학 대상을 연구할 때, 분자생물학이 화학·물리학 연구방법을 도입한 것처럼, 전산·통계학이라는 새로운 연구방법을 도입하고 있다. DNA 이중나선 규명과 인간게놈프로젝트라는 생물학계의 기념비적인 양대 사건 뒤에 활발해지고 있다는 점도 비슷하다. 또 바이오인포매틱스는 분자생물학처럼 생명체를 연구하는 효과적인 방법을 제시해준다. 이 때문에 바이오인포매틱스는 분자생물학처럼 성공을 거둘 것으로 예견되고 있으며, 그래서 분자생물학의 미래를 이끌 생명과학의 차세대 주자로 평가하기도 한다.

한편 1990년 힘찬 발걸음을 시작해 내년에 대단원의 막을 내릴 인간게놈프로젝트는 분자생물학과 바이오인포매틱스의 만남이 있었기에 가능했다. 인간게놈을 구성하는 30억쌍에 달하는 염기가 구체적으로 무엇인지 밝히는데는 분자생물학이, 분석한 결과를 서열로 짜맞추는데는 바이오인포매틱스가 역할을 담당한 것이다.

특히 인간게놈프로젝트 연구에서 국제컨소시엄보다 8년이 늦은 1998년 설립된 셀레라 지노믹스사가 치열한 경쟁을 펼쳤다는 사실을 주목할 필요가 있다. 셀레라는 DNA를 수천만개의 조각으로 무작위로 나눈 뒤 염기서열을 읽어 조합하는 샷건이라는 새로운 방법을 사용했다. 이를 위해서 독자적인 알고리듬을 개발해 슈퍼컴퓨터에 적용시켰다. 바이오인포매틱스의 효과적인 사용으로 시간을 대폭 줄인 것이다. 인간게놈프로젝트는 바이오인포매틱스의 능력을 국제사회에 널리 알린 무대였던 셈이다. 분자생물학과 바이오인포매틱스라는 황금 콤비를 통해 2002년 10월 현재 인간은 게놈의 92.5%에 대한 완성본과 5.8%에대한 초안, 합쳐서 98.3%의 정보를 알고 있다.

2002년 12월 과학동아 정보

  • 김홍재 기자
  • 진행

    박현정
  • 만화

    박찬영

🎓️ 진로 추천

  • 생명과학·생명공학
  • 컴퓨터공학
  • 화학·화학공학
이 기사를 읽은 분이 본
다른 인기기사는?