d라이브러리









2. 복잡한 생명현상 파헤친다

바이오인포매틱스의 핵심 과제들

새로운 생명공학인 바이오인포매틱스는 현재 개념을 정립하면서 본격적인 출항을 준비하는 단계다. 바이오인포매틱스가 보여주리라 예상되는 앞으로의 역량에 비해 초기적인 수준에 머물고 있다는 얘기다. 현재 바이오인포매틱스 연구자들이 구체적으로 어떤 일을 진행하고 있는지 살펴보자.
 

복잡한 생명현상 파헤친다


기본 데이터 모으기

생명관련 데이터에서 금맥을 발굴하는 근사한 바이오인포매틱스를 하기 위해서는 우선 연구대상이 되는 데이터들이 필요하다. 현재는 몇몇 생물의 게놈 염기서열 정보는 전세계적인 데이터베이스(DB)를 통해 공개돼 있다. 그러나 공개된 데이터를 가공해야 알 수 있는 정보나, 유전자 찾기에 유용한 EST(발현된 염기서열조각)를 갖고 있는 STACKDB처럼 독자적인 정보를 갖고 있는 데이터베이스는 상당한 비용을 지불해야 볼 수 있다.

따라서 구체적인 연구를 진행하기 위해서는 자신에 맞는 형태로 통합·정리된 데이터베이스를 구축해야 한다. 최근 우리나라에서 바이오인포매틱스를 시작한 한국생명공학연구원, 한국전자통신연구원(ETRI), 한국과학기술정보연구원(KISTI), KAIST, 숭실대, 서울대 등이 데이터베이스 구축에 힘쓰는 이유다.

가장 유명한 생명정보 데이터베이스는 세계 3대 게놈 데이터베이스로 불리는 미국 NCBI의 GenBank, 유럽생물정보연구소(EBI)의 EMBL, 일본국립유전학연구소의 DDBJ(DNA Database of Japan)다. 이들은 상호 협조해 자료를 확충하고 갱신하고 있다(그림 1). 단백질의 아미노산서열 데이터베이스로는 EBI의 TIGF MICROBIAL, EBI와 스위스 제노바대의 SWISS-FROT과 TrEMBI, 미국 조지타운대(NBRF)의 PIR 등이 있다. 이 외에도 특성화된 데이터베이스들이 등장해 빠르게 성장하고 있다.

데이터베이스로 모아질 개별 데이터는 일반적으로 염기서열분석기, 마이크로어레이, DNA칩과 같은 자동화된 실험장치를 통해서 얻어진다. 실험장치는 상당한 양의 결과를 쏟아내기 때문에 컴퓨터로 옮기는 작업부터 컴퓨터 프로그램이 사용된다. 바이오인포매틱스가 사용되는 시작점이다.

데이터를 모으는 프로그램은 어떤 형식의 데이터를 모을지를 고려해 만들어야 한다. 인간게놈프로젝트의 경우처럼 염기서열 데이터만 모으는 경우는 별고민 없이 염기서열분석기가 쏟아내는 데이터를 모으면 된다. 그러나 프로테옴의 경우처럼 아미노산서열뿐 아니라 단백질의 구조나 생화학반응까지 데이터가 될 때는 난감할 수밖에 없다.

바이오인포매틱스가 발전하면서 이런 경우는 더욱 증가할 것으로 예상된다. 현재 이에 대해 국제적으로 통용되는 기준이 만들어져 있지 않다. 이 때문에 과학자들은 자신에게는 필요하지 않은 정보까지 뒤져야하는 상황도 벌어진다. 생명 데이터를 체계적으로 디지털화하는 일이 과제가 되고 있는 것이다.

현재 미국은 1천5백만달러(약 2백억원)를 들여 단백질 데이터베이스의 통합을 추진중이다. 미국립인간게놈연구소(NHGRI)와 미국립보건원(NIH)을 중심으로 3대 단백질 데이터베이스인 SWISS-PROT, TrEMBL, PIR을 통합해 2005년까지 UniProt이라는 데이터베이스를 만든다는 내용이다. 서로 다른 기준으로 만들어진 데이터베이스의 통합을 통해 만들어질 UniProt은 고급 단백질 정보원으로 전세계 과학자들에게 무료로 공개될 예정이다.

데이터가 모아진 후 이를 보관·관리하는 일 역시 컴퓨터가 담당해야 한다. 게놈정보를 모아놓은 미국의 GenBank와 같은 주요 데이터베이스에서는 수집된 데이터를 보관·관리하는데 자체적인 데이터베이스 제어시스템(DBMS, DataBase Management System)을 사용하고 있다. DBMS는 데이터를 관리하는 파일 관리자인 셈인데, 데이터의 전체 구조에 따라 체계적으로 자료를 축적한다. 인터넷을 통해 관련 정보를 검색해 필요한 데이터를 추가시키는 기능까지 갖고 있다. 또한 엄청난 양인 데이터베이스에서 필요한 데이터를 손쉽게 추출하는 방법(데어터 마이닝)을 제공해 데이터에 대한 접근을 쉽게 할 수 있도록 도와준다.

최근에는 데이터를 표현하는 방법에 대한 연구도 활발히 진행되고 있다. 생명정보는 기존의 정보과학분야에서 사용되는 그래프나 다이어그램으로 표현하는데 한계가 있다. 이 때문에 영상을 통해 컴퓨터에서 데이터를 효과적으로 나타내는 인터페이스 개발이 추진되고 있다. 한국과학기술정보연구원 바이오인포매틱스센터(KISTI CCBB)에서 올해 초 개발한 DummyAnalyzer가 좋은 사례다.
 

(그림 1) 게놈 데이터의 폭발적인 증가^세계 3대 게놈 데이터베이스는 서로 정보를 교환해 자료를 갱신하고 있다. 2002년 9월 현 재 1천8백19만7천여개 서열을 이루는 2백26억1천7백만여개의 염기에 대한 정보가 공개돼 있다. 데이터베이스의 자료량이 증가하고 있다는 사실은 동시에 정보 사이의 복잡성이 증가하고 있다는 의미다.


가치를 높이는 데이터 해석

시간이 지나면서 컴퓨터에 생명관련 데이터가 차곡차곡 쌓여지고 있다. 그러나 저장된 데이터는 데이터 그 이상 그 이하의 의미도 지니지 않는다. 실제 바이오인포매틱스에서는 기본 데이터들을 처리·분석함으로써 가려져 있던 복잡한 인과관계를 밝혀 유용한 정보를 끌어내는 일에 목적을 두고 있다.

현재 전세계적으로 데이터의 처리·분석은 게놈의 염기서열을 대상으로 활발히 진행되고 있다. 사실 게놈프로젝트의 연구결과만큼 바이오인포매틱스를 이용해 처리할 좋은 자료가 아직 갖춰져 있지 않기 때문이다. 염기서열 데이터분석에서는 DNA에서 유전자를 찾는 연구가 가장 주목받고 있다.

유전자가 발현하기 위해서는 프로모터 등의 부분이 필요하다. 프로모터 영역은 전사를 개시하는 효소가 붙는 TATA 박스와 같은 특징적인 부분을 갖고 있다. 이 외에도 서열이 반복되는 부분, 그리고 직접 드러나 있지 않은 주기성 등이 유전자와 관련되리라 예측되고 있다. 따라서 이런 정보를 바탕으로 염기서열에서 유전자를 찾는 프로그램의 개발이 진행되고 있다.

현재 개발된 대표적인 프로그램은 Genescan인데, 유전자 인식에 가장 뛰어나다는 평을 들으면서도 정확도가 80%에 미치지 못하고 있다. 따라서 인공지능(artificial intelligence) 기술 등을 도입해 탐색효율을 높이는 연구가 진행되고 있다. 우리나라에서도 벤처 바이오인포매틱스(주) 등이 유전자 탐색프로그램을 개발했는데, 이미 알려진 유전자를 찾아보는 알고리듬 트레이닝을 통해 성능을 향상시키고 있다.

게놈염기서열에서 유전자를 발굴한 후에는 실제로 어떤 기능을 하는지 밝혀야 한다. 바이오인포매틱스에서는 유전자의 기능(function)이 서열(sequence)과 구조(structure)와 관련된다는 사실을 바탕으로 접근하고 있다. 좀더 구체적으로 살펴보자.

특정 서열이 유전자로 밝혀지면 제일 먼저 이미 기능을 알고 있는 서열 중 비슷하거나 동일한 것이 있는지 찾는다. 이는 인터넷의 야후와 같은 검색프로그램과 비슷하다. 우리가 모르는 것을 찾을 때 검색어와 관련된 정보들이 이해에 도움을 준다. 마찬가지로 유사한 염기서열은 비슷한 기능을 가질 수 있기 때문에, 기능을 이해하는 단서를 제공해 시간을 단축시킨다. 현재 상동성 검색 프로그램으로는 BLAST, FASTA, SW(Smith-Waterman)-search가 개발돼 있다. BLAST는 부분적으로 높은 유사성을 갖는 서열을 검색하는데 알맞으며 고속으로 데이터를 처리하기 때문에 대량의 데이터를 한꺼번에 처리하는데 좋다. FASTA는 BLAST보다 감도가 높아서 유사성이 낮은 서열의 상동성 검색에 유용하지만 시간이 느리다는 단점을 갖고 있다. SW-search는 가장 근접하는 유사성을 가진 한쌍을 정렬시킨다. 상동성 검색용 도구 중에서 가장 감도가 높고 엄밀한 검색을 할 수 있지만 속도가 가장 느리다.

염기서열 이외의 정보를 검색할 때는 NCBI의 Entrez, EMBL의 SRS 등과 같은 검색도구를 사용한다. 이들은 여러 데이터베이스를 서로 연결해 보여주는 검색프로그램인데, 키워드 검색을 통해 염기서열뿐 아니라 단백질의 입체구조, 그리고 의학분야에서 세계 최대의 논문 데이터베이스인 MEDLINE의 논문 정보까지 찾아 보여준다.

복잡한 네트워크 이해

유전자가 밝혀진 후에는 이제 그 유전자가 만드는 단백질을 이해해야 한다. 생체의 일꾼 단백질은 유전자의 명령에 따라 20개의 아미노산으로 만들어진다. 그런데 아미노산 서열은 복잡하게 접히면서 3차원 구조를 이룬다. 단백질의 기능은 이 구조에 따라 좌우된다. 즉 아미노산 서열을 통해 단백질 3차구조를 예측할 수 있고, 3차구조를 알아내면 결국 그 기능을 알 수 있다.

이 연결고리는 단백질을 연구할 바이오인포매틱스에 중요한 길을 제시하고 있다. 그러나 아미노산이 모여 가능한 천문학적 가짓수의 모양 중에서 어떻게 하나의 독특한 구조로 결정되는지는 아직 수수께끼에 쌓여있다. 더욱이 단백질은 염기서열의 상동성을 검색하는 것처럼 서로 비교하기도 쉽지 않다.

현재 단백질을 연구하는 가장 주목받는 방법은 모티프(motif)를 사용하는 것이다. 모티프란 단백질의 아미노산서열 중 독특한 기능을 수행하는 부위를 말하는데, 이것이 하나의 입체적인 구조를 구성할 때는 도메인(domain)이라고 부른다. 따라서 단백질에서 특정 모티프가 발견되면 그 기능을 예측할 수 있다. 궁극적으로는 생명체가 가진 모든 모티프 정보를 알게 되면, 생리현상과 관련된 단백질의 모든 정보를 갖게 되는 셈이다. 이는 신약 개발에서도 가장 효과적인 정보로 활용할 수 있다.

단백질을 밝혀낸 후 바이오인포매틱스는 실제 생리현상을 대상으로 진행돼야 한다. 그러나 이 부분은 아직 구체적인 밑그림을 그리기가 힘들다. 단지 게놈에서 피지옴까지 모든 생명정보를 밝혀내 서로의 네트워크까지 규명하는 어려운 작업이 될 것이라는 전망이다. 이는 생명체에 대한 본질적인 이해를 가져오며, 궁극적으로 컴퓨터로 생명체를 구현하는 일까지 가능하게 만든다. 먼 훗날의 이야기지만 바이오인포매틱스의 완성은 실제와 똑같은 가상 인간(virtual human)의 탄생과 맥을 같이 한다.

현재 초보적인 단계의 가상세포(virtual cell)와 가상장기(virtual organ)가 등장해 관심을 끌고 있다. 유럽에서는 수천만개의 가상세포가 연결된 심장 장기를 위해 유럽에서 가장 큰 슈퍼컴퓨터를 사용하고 있고, 일본에서는 세포의 모든 생명현상을 컴퓨터로 구현하는 E-cell 프로젝트를 진행중이다. 우리나라에서는 지난해 KAIST 이상엽 교수팀은 바이오인포매틱스(주) 등과 공동으로 맨하이머 55E라는 미생물에 대한 가상세포 시스템을 만드는데 성공했다.

가상세포와 가상장기는 다양한 생명현상을 컴퓨터 시뮬레이션을 가능하게 한다. 가상공간에서 진행되는 실험은 시간과 비용을 크게 절약해 신속한 연구개발을 돕는다. 결국 컴퓨터시스템내 생물학(in silico Biology)으로 변화가 예견되고 있다.

전세계적인 바이오인포매틱스 붐은 질병정복을 향한 인류의 강한 의지와 함께, 세계 최대 시장으로 불리는 제약시장의 요구에 따른 것이다. 한 예로 기적의 백혈병치료제로 불리며 최근 가장 주목받은 신약인 노바티스사의 글리벡이 탄생하는데 바이오인포매틱스는 결정적인 공헌을 했다. 바이오인포매틱스를 이용해 백혈병의 원인이 되는 단백질인 티로신키나제를 저해하는 활성을 지닌 신약후보를 발굴하고, 최적화된 활성을 지닌 구조를 찾았기 때문이다.

현재 노바티스, 스미스클라인과 화이자 등 거대 제약회사들은, 수많은 바이오인포매틱스 관련 BT벤처들을 거느리고 본격적으로 신약을 탐색하고 있다. IBM과 컴팩 등 거대 IT업체들도 바이오인포매틱스 연구에 필요한 서버에서 통합솔루션, 소프트웨어시스템까지 포함하는 제품을 내놓고 시장을 공략하고 있다. 이 외에도 거대 화학, 농약, 식품 회사들도 바이오인포매틱스의 흐름에 동참하고 있다.

우리나라에서는 연구소와 대학, 벤처기업을 중심으로 바이오인포매틱스 소프트웨어 개발에 땀흘리고 있다. 과학기술부와 보건복지부, 정보통신부 등 정부 관련부처도 예산을 편성해 연구를 촉진하고 있다. 그러나 바이오인포매틱스 자체가 매우 복합적인 학문이어서 그 발전은 여러 전문분야에 대한 장기간의 연구가 긴밀한 협력을 통해 종합돼야 한다. 우리나라에서도 이 부분에 대한 이해가 확산되고 있는데, 앞으로 세계적인 수준에 경쟁할 만한 종합적인 인프라의 등장이 기대되고 있다.

생명과학자들은 바이오인포매틱스라는 훌륭한 도구를 얻었다. 그러나 그 도구는 이제 시작단계이고 앞으로 해결해야 할 문제는 한두가지가 아니다. 그러나 조급해할 필요는 없다. 컴퓨터라는 도구가 오늘날 정보화 사회를 만들기까지는 수십년의 시간이 필요했다. 바이오인포매틱스가 말뿐인 허망한 바벨탑이 되지 않기 위해서는 지금부터가 중요하다. 생명과학계에 쏟아지는 정보의 해일이 어떻게 정복될지 바이오인포매틱스의 행보를 주목해보자.

컴퓨터계산생물학의 출현

폴란드 태생의 슈타니슬라우 울람은 폰 노이만의 초청으로 미국으로 건너가 원자폭탄 제조계획인 맨해튼 프로젝트에 중심적으로 참여한 수학자다. 또 그는 수소폭탄을 구상하고 컴퓨터를 사용해 그 가능성을 입증한 수소폭탄의 선구자이기도 하다.

1960년대 울람은 DNA에 들어있는 염기서열 정보에 대해 행렬을 이용해 해석을 시도했다. 그가 DNA를 대상으로 행한 수학적 분석은 컴퓨터가 염기서열 분석에 유용하게 이용할 수 있다는 사실을 보여준 최초의 사례다. 이후 전산학자들은 생명체를 컴퓨터로 연구할 수 있다는 사실을 깨달았다.

1955년 영국 케임브리지대의 프레드릭 생거는 인슐린이란 단백질의 아미노산 서열순서를 밝히는데 성공했다. 이와 함께 크로마토그래피나 전기영동과 같은 시험법이 등장해 아미노산 순서를 밝히는 연구가 주목받기 시작했다.

1960년대가 되자 자동화된 아미노산 서열결정기계(sequenator)가 개발됐다. 이를 바탕으로 다양한 단백질의 아미노산 배열순서를 밝히는 연구가 활발히 진행됐다. 아미노산 데이터가 크게 증가하면서, 단백질생화학자들은 이 데이터를 다룰 도구가 필요해졌다.

한편 항원·항체반응에 관한 이론으로 노벨상을 수상한 물리화학자 라이너스 폴링은 단백질과 핵산의 배열순서에 진화역사의 정보가 기록돼 있다고 보았다. 여러 종의 상동단백질을 비교분석해 종과 단백질의 계통을 추정할 수 있다는 분자시계(molecular clock) 개념이다. 그는 분자진화의 증거를 발견하기 위해서 복잡한 자료를 비교할 수 있는 도구가 필요했다.

1960년대 초 전산학, 단백질생화학, 진화생물학 분야에서 진행된 이와 같은 연구들은 생명과학에 전산·통계적인 방법의 도입을 가져왔다. 바로 컴퓨터계산생물학(computational biology)의 탄생이다. 오늘날 바이오인포매틱스의 기원으로 이해할 수 있다.

그러나 당시에는 오늘날의 게놈처럼 전체를 연구한다는 개념이 없었기 때문에 컴퓨터계산생물학의 관심사는 아미노산에 한정돼 있었다.

기자가 만난 국내 바이오인포매틱스 대표주자들

우리나라에서 땀흘리고 있는 바이오인포매틱스 전문가는 수가 그리 많지 않다. 이 때문에 관련 세미나가 열리면 단골로 볼 수 있는 과학자가 상당수 된다. 기자는 널리 알려진 전문가를 중심으로 만나 바이오인포매틱스의 개념을 정립해 나갔다.

생명공학연구원 유전체연구센터 김상수 박사는 생명공학연구원 인간유전체사업단에서 바이오인포매틱스 관련 연구를 주도하고 있다. 주관심사는 DNA조각들을 칩 위에 얹어서 유전자를 대규모로 탐색할 수 있도록 고도로 집적해놓은 장치인 DNA칩이다. 현재 DNA칩을 이용해 대규모의 유전자 발현을 분석하는 프로그램을 개발했고, 이를 이용해 다량의 유전자를 발굴하고 있다.

숭실대 생명정보학과 노경태 교수는 우리나라에서 최초로 개설된 바이오인포매틱스 대학교육프로그램을 이끌며 인력을 양성하고 있다. 연구는 유전자와 단백질의 기능에 관여하는 저분자 유기물질을 대상으로 진행하고 있다. 이 저분자 유기물질은 유전자의 기능을 밝히는데 도움이 될 뿐만 아니라 약과 비슷하게 작용하는 종류가 상당수이기 때문에 신약후보물질로 기대되고 있다. 한편 노 교수가 이끄는 분자설계연구센터가 지난 6월 산업자원부 산하의 사단법인 분자설계기술혁신센터로 출범했다. 노 교수는 “바이오인포매틱스와 분자설계 분야의 전문가 30명이 연구를 진행하고 있다”면서 “전세계적으로도 드문 큰 규모로, 외국 제약회사들이 벌써부터 센터에 관심을 보이고 있다”고 말했다.

생명정보연구소 원세연 소장은 바이오인포매틱스 인력 양성으로 이름을 날리고 있는 경우다. KAIST에서 바이오인포매틱스로 처음 박사 학위를 받았으며 해박한 전문지식을 자랑한다. 원 소장은 “바이오인포매틱스는 양자역학처럼 일반인이 이해하기 어려운 분야인 것이 사실”이라면서 “이에 대한 기대가 커지면서 많은 학생이 잘못된 지식을 갖고 몰리고 있다”고 우려를 표했다. 원 소장은 현재 기업이나 대학의 생물학, 전산학 전공자 등을 대상으로 하는 교육프로그램을 운영중이다.

한국정보통신대(ICU) 이관수 교수는 외국기업에서 활동하다가 올해 초 정보통신부가 설립한 ICU에 바이오인포매틱스트랙이 생기면서 합류한 과학자다. 국제사회에서 활동할 수 있는 전문인력의 양성을 위해 학부와 대학원과정을 연계한 바이오인포매틱스 교육과정의 밑그림을 그리고 있다. 이 교수는 “툴이나 알고리듬의 개발뿐 아니라 새로운 생물학적 발견을 노리는 바이오인포매틱스의 양방향 연구를 진행하고 있다”면서 “우리의 발전된 IT기술을 최대로 활용해야 한다”고 밝혔다. 이 교수는 현재 바이오 그리드, 마이크로어레이·SNP 분석, 바이오타깃 선택을 위한 솔루션 개발을 위한 국가 프로젝트에 참여하고 있다.

바이오인포매틱스(주)의 인용호 연구소장은 소프트웨어 기반의 상업화 모델을 갖고 바이오인포매틱스 시장을 개척하는 벤처회사의 연구팀을 성공적으로 이끌고 있으며, 한양대와 숙명여대 겸임교수로서 관련 교육과정 개발에도 참여하고 있다. 연구소는 이미 바이오인포매틱스 관련 솔루션 5가지를 개발해 출시했으며, 이 중 게놈서열 자동 주석시스템은 일본 국립동경농공대에 수출하는데 성공하기도 했다.

서울대 생명과학부 생물정보학 협동과정 천종식 교수는 대학원과정에서 우수한 인력 양성에 힘쓰고 있다. 대학시절부터 컴퓨터계산생물학에 빠져들었던 그가 요즘 주로 하는 연구는 생명체의 진화를 밝히는 일이다. 이를 위해 바이오인포매틱스 방법으로 바이러스, 세균 등 여러 생명체의 게놈서열울 분석·비교해 진화적인 유연관계를 밝히는 연구를 진행중이다.

|EST(Expressed Sequence Tag)|
DNA에서 발현돼 만들어진 mRNA를 이용해 거꾸로 만든 DNA 염기서열조각. 발현된 부분이기 때문에 유전자이거나 그 일부일 가능성이 높다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2002년 12월 과학동아 정보

  • 진행

    박현정
  • 만화

    박찬영
  • 김홍재 기자

🎓️ 진로 추천

  • 생명과학·생명공학
  • 컴퓨터공학
  • 화학·화학공학
이 기사를 읽은 분이 본
다른 인기기사는?