d라이브러리










컴퓨터의 진보는 유전공학 발전에 결정적으로 기여하고 있다. DNA크기를 컴퓨터 분석에 의해 결정한다.


휴먼게놈프로젝트를 수행해나가는 데 있어서 빼놓을 수 없는 것이 컴퓨터. 전산기술의 발달이 없었다면 지금까지의 연구성과는 나올 수 없었다. 프로젝트를 밀어주는 생물정보학의 오늘을 살펴보자.

'약 30억개의 염기로 이루어진 인체 게놈의 DNA 배열을 전부 결정, 데이터베이스를 구축하는 것'이 인체게놈연구의 직접적인 목적이다. 이 연구의 시작은 지난 20년간 눈부시게 발전해오고 있는 생명공학 혁명의 중간결과로 볼 수 있다.
게놈연구 및 관련 과학기술의 발전은 유전자 구조분석 및 활용취급 분야에 엄청난 영향력을 발휘할 것이며, 특히 막대한 양의 유전정보를 저장하고 활용하는 정보기술을 크게 발전시킬 것이다.

이는 인간 건강과 직결되는 생명공학과 우리나라 경제의 기반이 되는 정보과학이 조화롭게 융합하여, 광의의 '생명정보과학'이라고 하는 거대한 과학분야가 탄생한 것을 의미 한다.

인체게놈연구에서 말하는 정보학(genome-informatics)을 구체적으로 설명하자면, 게놈연구에서 생산되는 유전자지도 및 염기서열을 수집하고 그 저장 배포 분석 및 관리를 위하여 컴퓨터를 활용하는 학문 및 기술을 말한다. 이러한 게놈정보학은 현재의 생명공학과 의학연구를 극적으로 변화시킬 것이다.

휴먼게놈 프로젝트는 현재 접근방식에 따라 2개의 큰 흐름으로 나눌 수 있다. 하나는 종래와 같이 염색체 지도로부터 YAC(인공 효모염색체)에 의한 클론지도와 코스미드에 의한 보다 짧은 클론의 물리적 지도를 작성하여 염기서열을 결정하는 흐름이다. 이 경우, 유전자로 코드되어 있지 않은 대량의 의미불명의 DNA영역 배열도 결정된다. 이는 특정 유전병의 원인이 되는 유전자 탐색 등에 매우 유용한 연구 방법이다.

또다른 하나의 흐름은 'cDNA 배열결정 프로젝트'. 유전자가 발현하는 DNA영역만을 mRNA로부터 cDNA를 작성하여, 그 배열을 결정하는 것이다. 이때 이 유전자의 발현 여부는 장기 및 조직에 따라 특이성이 있으므로, 각각의 다양한 장기 및 조직에 관한 cDNA 라이브러리를 만들어야만 한다.

cDNA 염기결정은 정확도가 낮은 반면에, 하루에 약 1천개 이상의 cDNA배열을 결정 할 수 있으므로 많은 정보를 확보할 수 있다. 1개가 약 1천-2천 염기로 이루어진 cDNA라 하더라도, 그 전체 길이에 걸쳐서 정확할 수는 없고 EST(Expressed Sequence Tag)라고 하는 약 1백염기에서 5백염기 정도 부분만의 배열을 결정할 수 있다. 또한 PCR을 단 1회만 하므로 정확도가 낮다.

'유전자 지도제작(mapping)으로부터 염기배열 결정'과 'cDNA 배열결정'의 2개의 큰 흐름은 인체게놈프로젝트에서 똑같이 중요하다. 특히 cDNA 특허문제와 관련하여 'cDNA 배열결정 프로젝트'는 급속하게 확대되고 있다.

인체게놈연구에서 게놈정보학의 역할


필름에 기록돼 나온 DNA 염기배열. 해독에는 컴퓨터가 필수적이다.


인체게놈연구의 성공적인 수행을 위한 게놈정보학의 역할은 데이터베이스, 커뮤니케이션, 분석 도구 등 세가지 부분으로 크게 대별할 수 있다. 개발과정에서는 각 부분이 기술적인 독립성을 가지나 시스템 개발은 세가지가 모두 연결되어 이루어지는 추세다.

데이터베이스는 사용자가 자료를 효율적으로 수집 저장 수정하고 이를 활용하기 위해 검색할 수 있도록 조직화된 가장 보편적인 형태다. 이는 이용자의 목적과 데이터 자체의 성질에 따라 구조와 처리방법 및 기능이 달라진다.

생물학에서도 역시 자료처리를 위한 일반적인 방법으로 데이터베이스를 구성하고 검색 시스템을 구축하여 여러 용도로 활용하고 있다. 생물정보처리(Bioinformatics)라는 분야가 출현한 것이다. 생물학 분야에서 몇가지 데이터베이스가 구성되기 시작한 것은 대략 1970년대부터다.

특히 분자생물학이 발전되기 시작한 이후 형성된 분자 단위 자료, 즉 단백질 1차구조, 핵산 1차구조, 제한효소자리, 단백질 3차구조 등의 핵심적 자료들은 양적으로 방대할 뿐 아니라 급속도로 생성되고 있다. 이를 활용하기 위해 일찍부터 이들 자료에 대한 데이터베이스시스템이 구성되고 있다.

분자생물학 분야에서는 LiMB(Listing of Molecular Biology Database)라는 데이터베이스를 구성하여 세계적으로 공용화된 분자생물학관련 데이터베이스에 대한 정보를 관리하고 있다. 현재 LiMB에 등록돼 있는 데이터베이스는 총 1백20종류에 이른다.

그중에서도 가장 일반적이고 필수적인 데이터베이스는 PIR/SwissProt, GenBank/EMBL같은 단백질 1차구조 및 핵산 1차구조 등에 관한 것이다. 컴퓨터 사용이 보편화된 선진 과학국들은 대부분 독자적으로, 흑은 공동으로 이러한 데이터베이스를 구축하고 있다.

단백질 3차구조(PDB), 제한효소정보(RED), RNA 유전자염기서열, AIDS, 독물학, 문헌정보(MEDLINE), 균주정보 등도 데이터베이스화돼 있으며, 지역별로 데이터베이스통합도 이루어지고 있다. 특히 인체게놈연구가 시작되면서 이러한 데이터베이스 개발과 연구는 거의 전 분야에 걸쳐 대량화/세부화/통합화가 동시에 진전되고 있다. 이러한 추세는 필연적인 것으로 보인다.

대상 조직에 대한 유전자 지도제작과 유전자염기서열 결정 자체뿐 아니라 기존 분자생물학을 통해 얻은 방대한 자료와 산물을 효율적으로 관리하고 분석하기 위해 기존 생물정보학에서 개발돼온 이론과 기술이 총체적으로 동원되고, 최신 계산처리기술이 분석 시스템 구성을 위해 도입되고 있다.

분석도구 개발 분야에서는 선진국, 특히 미국의 NCBI, 유럽의 EMBL 등 일부국가의 몇몇 단체에서 개발한 소프트웨어가 여러 나라의 생물자들에게 애용되고 있다. 현재 세계적으로 보편화되어 있는 분석 소프트웨어는 대부분 인체게놈연구와 관련하여 개발된 것들이다.

그 예로 미국의 NIH의 NCBI에서 개발된 분자염기서열 검색시스템이 있다. 핵산 및 단백질의 서열정보와 문헌정보 중 발표된 염기서열과 연관된 문헌을 검색할 수 있게 해주는 ENTREZ, 핵산 및 단백질의 염기서열과 많은 데이터베이스 염기서열 사이의 상동성을 다양한 방법으로 검색하게 해주는 BLAST와 FASTA, 사용자의 염기서열에서 발표된 표지 염기서열과의 상동성을 찾는 일반적인 상동성 검색 프로그램인 SIGNAL SCAN, ORF 분석 소프트웨어로서 척추동물의 게놈 DNA를 분석하고 엑손과 유전자 구조를 예측 하게 하는 GenelD, 대장균 또는 그와 연관된 종의 단백질 코딩 지역을 예측하게 하는 Genmark, 인간 DNA 염기서열의 단백질 코딩 지역을 예측하게 하는 GRAIL 등이 있다.

또한 다양한 메일 서버를 운영하고 있어서 사용자가 인터네트를 통해 원하는 서비스를 받을 수 있게 하고 있다.

1980년부터 여러 기관에 이전되어 오면서 1992년부터 NIH의 NCBI에 의해 관리되고 있는 GenBank등을 대표로 전세계 생물학 데이터베이스의 절대 다수가 미국 기관의 프로젝트에 의해 구성되고 있다. GenBank 데이터는 폭발적으로 증가하고 있는데, 1995년 2월 기준으로 2억4천8백50만개의 염기, 26만9천5백 염기배열을 보유하고 있다. 생물종에 따른 데이터양은 (표1)에 나타나 있듯 인체에 관한 정보가 가장 많은 비중을 차지한다.
 

생물종에 따른 유전정보 양


인체게놈연구에서 생물정보학의 역할이 결정되고 그 분야가 세분화되면서 개별적으로 이루어져 오던 프로젝트의 결과가 NCBI를 중심으로 표준화 및 통합화되고 있다. 또한 인체유전자 외에도 여러 모델 조직(쥐, 대장균, 초파리 등)의 데이터베이스도 활발히 구성되고 있다.

유럽은 EMBL을 중심으로 1982년경부터 EMBL DB 등을 운영하면서, 각 국가별로 데이터베이스 구성과 분석 소프트웨어 개발 위주로 진행되고 있다. 전산망 구성에서는 미국에 비해 많이 뒤지는 실정이다. 1990년대에 EMBNet 프로젝트 등의 시작과 함께 분석 소프트웨어를 집결하여 운영하기 위한 컴퓨터 센터가 여러 곳에 구성되고 EMBL을 중심으로 각 지역별로 데이터베이스와 소프트웨어를 교환하고 있다.

생물정보의 표준화·통합화


전체적으로 생물정보처리체계가 유럽 차원에서 조직화되어 있다기보다는 각 나라별로 활발히 진행되고 있는 편이다. 최근 생물정보학에 대한 지속적인 재정지원과 연구 능률향상을 위해 EC로부터 재정지원을 받고 EMBL로부터 독립된 생물정보학 전용 연구소 EBI(European Bioinformatics Institute)를 영국 케임브리지에 설립했다.

일본은 국립유전학연구소(NIG)를 중심으로 1987년경부터 시작된 DDBJ를 비롯하여, 세계적으로 대표적인 생물학 데이터베이스의 아시아 지역 지부를 표방하면서 독자적인 데이터베이스를 구축해오고 있다. 1990년대부터 독자적인 인체게놈연구를 시작하면서 NIG를 중심으로 도쿄대, 교토대 등에서 프로젝트를 수행하고 있다.

1992년부터는 EMBL 및 NCBI와 공동연구 차원에서 국제 데이터베이스 개념으로 GenBank/EMBL/DDBJ를 양식을 달리한 실제적인 하나의 데이터베이스로서 운용해오고 있다.

NIG의 진화이론 생물학자들을 중심으로 진행된 기초연구가 일본 생물정보학의 근간을 이룬다. 최근의 생물정보학은 NIG에 집결한 유전자 라이브러리팀과 데이터분석팀을 중심으로 몇몇 대학과 기업체 등에서 진행되고 있다.

히타치사와 같은 기업에서 DNASIS와 같은 상용 소프트웨어가 전반적인 생물정보학 연구층에 비해 매우 빠른 시기에 등장했는데, 이는 최근에도 활발히 진행되고 있는 기업체와 연구소의 공동연구의 효과를 보여주는 것이다. 특히 후지쓰, 히타치 등은 생물정보학의 분석 프로그램 제작을 위해 여러 그룹과 공동연구를 실시하여 최신 전산처리 이론과 생물학 연구자들이 취약한 계산 이론을 보조해주고 있다.

NIG를 중심으로 한 일본 자국내의 이러한 노력은 최근 몇년간 급속한 발전을 보이고 있으며, 연구인력이 증가하면서 미국이나 유럽 수준에 육박하고 있다.

국내에서는 유전공학연구소를 중심으로 몇개의 독자적인 데이터베이스와 검색시스템, 분석 모듈을 개발하고 있으나 국내 전반적으로 생물정보처리 시스템 구성을 위한 이론연구나 장비보급, 전문인력 양성이 선진국에 비하여 열악한 상황이다.

유전공학연구소에서는 국내 연구전산망(KREONet) 개통과 함께 1989년부터 인터네트를 통해 외국의 생물정보처리 정보를 활용하고 있다. 주전산기와 전산망 GERINet가 개통되면서 본격적으로 국내 생물공학 전산화 센터로서의 역할을 수행하기 위한 하드웨어 장비를 갖추기 시작하고 있다.

현재 국내 전산망에 연결되어 원활하게 운용되고 있는 곳은 유전공학연구소와 과학기술원, 포항공대 및 몇개 대학과 연구소이다. 대부분의 대학에서는 학교 전체의 전산망을 생물학 관련 분야에서 활용하고 있지 못한 형편이다.

1994년부터 'Biotech 2000' 프로그램의 일환으로 우리나라에서도 인체게놈연구가 공식적으로 시작됐다. 이에 따라 독자적인 분석 소프트웨어 개발 및 게놈연구전용 네트워크 GenomeNet를 설치 운용할 예정이며, 현재 분석소프트웨어 및 관련 데이터베이스를 설치중이다.

또한 외국 생물정보학 추이에 대한 정보조사와 최신 분석 이론에 대한 습득, 그리고 시스템 구현을 위한 UNIX 프로그래밍, GUI구성을 위한 X 프로그래밍, PostScript 프로그래밍 등의 기술을 도입함과 동시에 기본 데이터베이스 검색 모듈 개발과 분석 알고리듬 구현 등의 연구를 수행하고 있다.

그러나 적절한 연구인력 확보와 예산 부족으로 인한 문제가 산적해 있는 상태다. 앞으로 대용량 유전지도작성 및 염기배열 결정을 지원하기 위한 효율적인 소프트웨어 및 데이터베이스 개발이 필요하다. 최신 물리지도, 유전지도, 염기서열정보를 쉽게 사용할 수 있는 데이터베이스 도구의 제작, 게놈지도의 고속분석을 위한 병렬처리형 컴퓨터용 소프트웨어 개발 등에 집중적인 노력이 필요할 것이다.

1995년 04월 과학동아 정보

    🎓️ 진로 추천

    • 생명과학·생명공학
    • 컴퓨터공학
    • 문헌정보학
    이 기사를 읽은 분이 본
    다른 인기기사는?