최근 주목받고 있는 생물정보학의 뿌리는 1960년대에 발달한 컴퓨터계산생물학에서 찾을 수 있다. 분자생물학과 컴퓨터기술이 합쳐져 컴퓨터계산생물학이 탄생한 후 생물정보학이 지나온 역사를 살펴보자.
생물정보학의 뿌리를 인간유전체사업이 시작된 1990년대 이후라고 생각하기 쉽다. 물론 분자생물학자들이 슈퍼컴퓨터의 도움으로 대규모 분석 작업을 벌이면서 생물정보학이 각광받기 시작한 것은 이때부터다. 그런데 유전체 연구의 기본인 DNA 염기서열분석도 가능하기 이전에 컴퓨터가 분자생물학의 중요한 방법으로 부각됐다는 사실을 알고 있는가. 생물정보학이란 용어도 없었던 1960년대 초에 등장한 ‘컴퓨터계산생물학’(computational biology)이란 분야다. 이 분야의 개척자들은 이미 분자생물학과 컴퓨터기술, 수학의 협동작업으로 생명과학 분야의 많은 과제들을 해결할 수 있다고 생각했다.
이 외에도 현재의 생물정보학이 탄생하기까지 디딤돌을 놓은 연구는 한둘이 아니다. 분자생물학과 컴퓨터기술이 어떻게 결합했는지, 생물정보학이 지난 역사 속에서 걸어온 길을 살펴보자.
프로그램 언어 포트란의 활약
1960년대 초에 왜 컴퓨터계산생물학이 출현했을까. 당시 단백질을 이루는 아미노산의 배열순서에 대한 정보가 축적되면서 생물학자들은 더이상 그들의 머리에만 의존하기 어려워졌다. 컴퓨터의 정확하고도 빠른 정보처리 능력이 부각됐다는 얘기다. 더욱이 제2차 세계대전 중 무기연구프로그램으로 개발된 디지털 컴퓨터들이 이 시기에 대학의 생물학자들에게 공급되기 시작했다.
그런데 초기 단백질을 연구하던 생화학자들이 모두 컴퓨터를 환영한 것은 아니다. 사실 당시의 컴퓨터는 현재 컴퓨터에 비해 덩치가 몇배였어도 성능은 상당히 떨어졌다. 실제 작업을 위해 프로그램을 작성하는 일도 보통 어려운 것이 아니었다. 그래서 컴퓨터를 연구작업에 사용하지 않고 썩혀두는 경우도 있었다. 그러나 1955년 영국 케임브리지대의 프레드릭 생거가 인슐린의 아미노산 배열순서를 밝힌 후 보고되는 단백질의 수가 늘어나 아미노산에 관한 데이터가 엄청나게 증가하면서 컴퓨터가 데이터 처리에 점점 많이 이용되기 시작했다.
1960년대 초 대학의 연구자들에게 컴퓨터가 보급된 실태를 살펴보자. 미국 대학의 경우 15% 정도의 연구자들이 컴퓨터를 갖고 있었는데, 한 대학에는 적어도 한대 이상의 컴퓨터가 보급됐다고 한다. 이 당시 연구중심의 대학들이 갖고 있던 컴퓨터들은 진공관 대신 트랜지스터를 장착한 제2세대 컴퓨터다. 한편 1957년 미국 IBM사는 최초의 고수준 프로그램 언어인 포트란(FORTRAN)을 도입했다. 포트란은 과학연구에 적합한 프로그램 언어였는데, 프로그램을 작성하는데 복잡한 컴퓨터구조를 알 필요도 없기 때문에 배우기도 쉬었다. 포트란의 등장은 컴퓨터계산생물학의 성장을 자극하는 커다란 전기가 됐다.
범세계적 데이터베이스 만들어지다
미국 정부기관과 컴퓨터 회사들이 대학에서 컴퓨터계산생물학 연구를 하도록 적극 장려한 일도 컴퓨터계산생물학 발전에 한몫 거들었다. 미 국립생의학연구재단(NBRF)의 마가렛 데이홉은 미 국립보건원, 미 과학재단, 미 항공우주국, IBM의 연구비 지원으로 아미노산 데이터를 수학적으로 분석하는 시도를 했다.
그녀는 단백질 분자를 구성하는 아미노산의 배열순서를 결정하는 포트란 프로그램을 만들었다. 이 프로그램은 단백질을 분해해 얻은 펩티드 조각의 데이터를 입력하면, 이를 짜맞춰서 모든 가능한 아미노산의 배열순서를 찾아준다. 그녀는 이 프로그램으로 RNA분해효소와 같은 작은 단백질의 정확한 배열순서를 수분 내에 알아낼 수 있었다. 당시로서는 획기적인 사건이 아닐 수 없었다.
또 데이홉은 다른 학자들이 이용할 수 있도록 아미노산배열순서의 데이터베이스를 만드는 일도 했다. 그녀는 당시 알려졌던 모든 아미노산배열순서를 목록으로 정리해 ‘단백질 서열과 구조 지도’(Atlas of Protein Sequence and Structure)를 출판했다. 이 자료는 최초의 분자생물학 데이터베이스라고 할 수 있는데, 초기 컴퓨터계산생물학 연구에서 반드시 필요한 자료가 됐다.
데이홉의 데이터베이스는 1983년 온라인 데이터베이스인 ‘단백질정보자원’(PIR)으로 성장했다. 이후 NBRF에 의해 PIR 데이터베이스는 꾸준히 성장하다가, 1988년에 뮌헨 단백질배열센터(MIPS), 일본 국립단백질정보데이터베이스(JIPID)의 협력으로 ‘PIR-국제 단백질서열데이터베이스’가 탄생한다. 전세계 어디서라도 컴퓨터를 통해 원하는 단백질의 배열정보를 찾을 수 있는 시대가 열린 것이다.
한편 월터 피치와 엠마누엘 마르골리아쉬는 시토크롬c라는 단백질 분석에 컴퓨터를 이용했다. 그들은 생물종마다 다른 시토크롬 단백질이 공동조상에서 비롯됐다고 가정하고, 아미노산 배열순서의 비슷한 정도를 계산해 단백질의 계통을 찾으려고 노력했다. 이후 새로운 아미노산 서열이 나오면 어느 계통에 속하는지 찾아내 구체적인 배열순서를 정렬하는 알고리듬이 개발됐다. 피치의 접근법은 사울 니들맨과 크리스찬 운쉬에 의해 발전돼 현재 쓰고 있는 배열순서 정렬방법의 전형이 됐다.
1970년까지 컴퓨터계산생물학자들이 개발한 여러 기술은 주로 단백질을 구성하는 아미노산의 배열순서 분석을 위해 고안됐다. 그런데 많은 기술이 DNA를 구성하는 염기배열을 분석하는데도 이용될 수 있었다. 어떤 기술은 원래의 단점을 보완해 더욱 정교한 기술로 새로 태어났다. 현대 생물정보학의 최신 기술은 대규모 유전체 사업에서 컴퓨터 네트워크, 거대한 데이터베이스, 슈퍼컴퓨터를 이용하고 있지만, 그 뿌리는 컴퓨터시대 초기 학자가 세웠던 이론적, 기술적 토대 위에 서있다는 얘기다.
웹을 통한 인터페이스 등장
DNA 염기서열 데이터베이스가 만들어지기 시작한 1980년대부터 생물학 데이터는 눈에 띄게 증가하기 시작했다. 1982년 최초의 DNA 염기서열 데이터베이스가 독일 하이델베르크에 있는 유럽분자생물학연구실(EMBL)에 의해 만들어졌다. 이후 미 국립생물정보센터(NCBI) 밑에 있는 GenBank와 일본 DNA정보은행(DBJ)도 데이터를 축적했다.
1990년대 인간유전체사업이 본격화된 후 GenBank에 수록된 정보의 양은 해마다 폭발적으로 증가했다. 이와 같은 놀라운 정보의 증가에는 1990년대에 도입된 로봇 공학, DNA자동서열분석기, 컴퓨터를 이용한 대량의 염기서열 분석 등이 크게 공헌했다. 민간 기업들도 자체 데이터베이스를 구축했는데, 한 예로 2001년 2월 인간유전체 초안을 발표했던 셀레라 지노믹스사는 50TB(1terabyte=1012bytes) 이상의 정보를 갖고 있다고 한다.
인터넷이 발달하면서 탄생한 웹페이지는 엄청난 양의 정보에 대한 접근을 손쉽도록 도와줬다. GenBank의 경우 ENTREZ와 같이 웹을 통한 인터페이스를 개발했는데, ENTREZ는 이용자들이 직접 검색과정을 선택하고 원하는 질문에 일치되는 정보를 확률순으로 얻을 수 있도록 도와준다.
현재 마련된 국제 데이터베이스의 모습을 살펴보자. 예를 들어 대장균과 효모와 같은 생물에서 유전자와 단백질의 기능이 밝혀졌다고 가정하자. 연구에서 밝혀진 DNA 염기서열순서와 아미노산배열순서는 국제 데이터베이스에 바로 저장된다. 그러면 다른 연구자들이 새로운 생물에서 유전자와 단백질을 연구하는데 도움을 준다.
만약 어떤 유전자와 단백질의 배열순서가 국제 데이터베이스 안에 저장돼 있는 다른 생물의 유전자와 단백질의 배열순서와 비슷하면, 새로운 유전자와 단백질이 이와 비슷한 기능을 할 것이라고 예측할 수 있다. 알고 가는 길이 편한 것처럼, 연구원은 효율적으로 새로운 유전자와 단백질의 기능을 밝힐 수 있다. 전세계에 퍼져있는 연구자들은 국제 데이터베이스를 통해 서로 정보를 공유하고 있는 셈이다. 서로 비슷한 유전자와 단백질을 찾기 위한 검색은 1988년 빌 피어슨과 데이빗 리프맨에 의해 개발된 FASTA와 1990년에 개발된 BLAST와 같은 프로그램에 의해 매우 빠르게 진행된다.
진화하는 분석 프로그램들
1980년대부터 대용량의 컴퓨터에서 개인용 컴퓨터까지 쓸 수 있는 배열순서 분석 프로그램들이 개발됐다. 미국 위스콘신대에서 시작된 GCG는 현재 상업화돼 있다. 비상업적인 목적으로 미국 워싱턴대에서 개발된 PHRED, PHRAP와 같은 프로그램도 있다. 한편 비슷한 배열순서 쌍을 차례로 넣어서 전체 배열순서를 정렬하는 프로그램 PILEUP과 CLUSTALW도 등장해 널리 이용되고 있다.
이런 분석 프로그램들은 현재 여러 웹사이트에서 제공하고 있는데, 학문발전을 위해 학술적인 목적인 경우에는 무료로 사용할 수 있는 것들이 대부분이다. 상업적인 목적인 경우에는 비교적 값싸게 사용할 수 있다. 이 밖에 유전체에서 유전자들의 위치를 확인하는 프로그램이나 단백질 이차구조를 예측하기 위해 배열순서가 비슷한 정도를 계산해 단백질무리를 만들고 통계 처리하는 프로그램 개발이 진행되고 있다. 또 DNA칩과 단백질체학에서 나오는 정보를 분석해 질병의 원인이 되는 유전자와 단백질을 찾거나 특정 세포현상을 분석하는 프로그램들도 현재 개발되고 있다.
한편 셀레라 지노믹스사를 설립한 크레이그 벤터가 주도하는 TIGR에 의해 인플루엔자(Haemophilus influenzae)의 완전한 유전체 염기배열이 1995년에 발표됐다. TIGR은 인플루엔자 유전체를 많은 수의 조각으로 만든 후에 DNA 염기배열을 해독하는 방법을 사용했다. 이렇게 얻어진 정보는 데이터베이스에 입력돼 컴퓨터 프로그램에 의해 서로 겹치는 조각들이 맞춰줘 완전한 유전체 지도가 완성된다. TIGR이 사용한 분석법은 기존에 쓰였던 방법을 시간적으로나 경제적으로 능가했다고 평가된다. 이후 여러 생물의 유전체 사업이 시작돼, 현재 쥐와 물고기에서 진행되고 있고 침팬지 등에서 진행될 예정이다.
프로그램 개발해 큰 회사로 변모
현재는 아미노산배열순서와 DNA 염기배열 정보뿐만 아니라 DNA칩, 단백질체학 정보, 단백질의 상호작용, 그리고 DNA와 단백질의 상호작용에 관한 정보 등 다양하고 다량의 생물정보들이 쏟아지고 있다. 생물정보학은 이를 가공하고 분석해 생물학적 의미를 추출하고 약물을 탐색하는 종합적인 과학분야가 됐다.
미국의 대학에는 생물정보학자를 양성하는 학과는 아직 없고 몇개 학과가 공동운영하는 협동과정 프로그램이 여러 대학에서 운영되고 있다. 그리고 생물정보학 기업들이 생명공학기업과 제약회사에 프로그램과 기술을 제공하고 있고 IBM과 같은 거대컴퓨터회사들이 생물정보학 하드웨어를 개발중이다. 또한 다국적 제약회사들은 회사 내부에 고정부서로 생물정보학부를 운영하고 있는데, 여러 분야의 전문가들의 협동연구가 조직적으로 이뤄지고 있다.
필자가 머물렀던 예일대 근처에서 벤처기업으로 출발한 큐라젠사는 생물정보팀을 적극적으로 운영해 자체 개발한 프로그램 덕분에 큰 회사로 변모한 것은 생물정보학의 가능성을 보여주는 좋은 예다. 그러나 미국의 회사나 대학의 수요를 만족시킬 정도의 전문인력이 부족해 기업에서 높은 보수를 제공하면서 전문인력을 찾고 있지만 인력난이 심각한 상황이다.
우리나라는 현재 진행되고 있는 유전체사업에서 생물정보를 분석할 생물정보학 전문가들이 요구되고 있다. 이런 사업의 수가 늘고 규모가 커지면 그 필요성은 더욱 절실할 것이다. 따라서 대학과 연구소에서 적극적으로 선진국에서 공부한 전문가를 충원해야 하고 생물정보학 관련 교육프로그램을 적극 신설해 차세대 전문인을 양성해야 한다. 또한 정부에서는 생물정보학에 관심을 갖고 재정적 지원을 아끼지 말아야 한다. 그렇게 하는 것이 곧 찾아올 생물정보 전쟁에서 우리나라가 승리하는 길이다.