d라이브러리









① 인간게놈 정보의 해일에서 진주찾기

DNA에 수록된 33억 염기쌍과의 대결

최근 다양한 생물에 대한 게놈프로젝트가 수행되면서 엄청난 양의 데이터가 생산되고 있다. 이 데이터를 분석하기 위해서는 컴퓨터와 생물학이 조화된 생물정보학이 필요하다. 다양한 유전체학 연구의 최전선에서 생물정보학은 어떻게 이용되고 있을까.

생물체의 유전정보는 DNA에 수록돼 있다. 영어는 26개의 알파벳을 사용해 의미를 전달하는데 비해 유전정보는 ACGT라는 4개 글자만을 사용한다. A(아데닌), C(시토신), G(구아닌), T(티민) 4가지 염기가 인간의 경우 약 33억쌍이 염기서열을 이루고 있다. 이렇게 커다란 염기서열에는 실제 단백질을 생산하는 유전자 부위가 숨어 있다.

최근 보고된 인간게놈프로젝트의 초안에서는 인간의 유전자 수를 3-4만개로 추측하고 있다. 33억쌍의 염기서열 중 유전자를 찾기 위해서는 우선 지금까지 알려진 유전자의 염기서열이 갖고 있는 특징적인 패턴을 데이터베이스화하는 일이 필요하다. 이 데이터베이스를 바탕으로 염기서열을 서로 비교해 어느 부분이 유전자인지를 밝히는 것이다.

인간의 전체 염기서열 정보만을 저장하더라도 약 3GB(1GB=109byte)의 메모리가 필요하다. 3GB는 신문 19만6천2백장의 정보를 저장할 수 있는 크기다. 염기서열 안에 숨어있는 패턴을 데이터베이스화하고, 비교 검색하는 지루한 작업을 효율적으로 수행하기 위해서는 대용량의 컴퓨터가 필요하다. 또 검색 작업을 위한 알고리듬과 함께 전산시스템과 데이터베이스를 관리하는 일도 필요하다. 이와 같이 생물학과 전산학, 그리고 정보기술이 하나로 합쳐진 학문이 바로 ‘생물정보학’(bioinformatics)이다. 생물정보학은 바이오인포매틱스나 생명정보학이라고도 불리는데, 최근 생명공학의 핵심 분야로 각광받고 있다. 생물정보학의 포괄적인 연구방법을 통해 흥미로운 사실들이 새롭게 속속 밝혀지고 있기 때문이다. 유전자를 탐색하는 유전체학(genomics) 연구에서 활약하고 있는 생물정보학을 만나보자.

인간게놈프로젝트의 밑거름
 

인간게놈 정보는 33억 쌍의 염기서열로, 약 3GB 에 해당하는 엄청난 양이다. 이를 검색하고 분석하기 위 해서는 대용량의 컴퓨터가 필요하다.


최근 다양한 생물체에 대한 게놈프로젝트가 수행되면서 엄청난 양의 염기서열 데이터가 생산되고 있다. 이런 방대한 데이터를 저장하고 검색하려면, 지금보다 훨씬 발달된 전산시스템과 함께 필요한 데이터를 찾아내는 ‘데이터 마이닝’(data mining) 기술이 중요하다.

유전체학 연구에서 생물정보학은 포괄적인 접근을 가능케 한다. 과거처럼 한사람이 하나의 유전자를 연구하던 방법에서, 이제는 하나의 생물 전체게놈을 대상으로 연구하면서 생명과 질병에 대한 새로운 지식을 얻고 있다. 이 외에도 데이터 마이닝 기법을 통해 유사한 유전자를 찾아 서로 비교해 기능이나 구조에 대한 가설을 세울 수 있다. 즉 질병 관련 유전자의 기능을 비슷한 유전자의 연구를 통해 밝힐 수 있다. 한걸음 더 나아가, 이런 정보를 활용해 계통이나 진화의 패턴도 찾을 수 있다.

생물정보학이 유전체학 연구에 어떻게 사용되는지 이 분야의 대표적인 연구인 ‘인간게놈프로젝트’ 수행 과정을 통해 살펴보자. ‘인간게놈프로젝트 국제 컨소시엄’(Human Genome Project, 이하 HGP)이 인간 유전체(게놈이라고도 한다)의 전체 염기서열을 밝히기 위해 제일 먼저 한 일은 24개의 염색체에 나뉘어 있는 33억 염기쌍을 BAC(Bacterial Artificial Chromosome) 클론이라는 조각으로 나누는 일이었다. 하나의 BAC 클론은 평균 크기가 약 15만 염기쌍 정도로 작기 때문에 실험실에서 다루기 쉽다. 이론적으로는 2만2천개의 BAC 클론이 있으면 인간 유전체를 전부 넣을 수 있는데, 실제로는 약 3만개의 BAC 클론을 겹치게 사용했다.

게놈지도에 앞서 공개된 ‘물리지도’는 이 BAC 클론들이 몇번 염색체의 어느 부분에 있는지를 보여주는 지도다. BAC 클론에 대한 실험 정보를 정리하고 데이터베이스화를 통해 일목요연한 물리지도를 만드는 일은 생물정보학의 커다란 성과였다.

짜깁기 통해 염기서열 재구성

하나의 BAC 클론의 염기서열을 처음부터 끝까지 한번에 읽으면 좋겠지만, 요즘 사용하고 있는 자동염기서열분석장치는 한번에 읽을 수 있는 염기의 수가 약 5백개 정도다. 따라서 BAC 클론을 다시 여럿으로 나눠 읽을 수밖에 없다. BAC 클론을 무작위로 자른 뒤, 1천개보다 큰 조각을 수집해 그 조각의 염기서열 앞뒤로 각각 5백 염기 정도를 염기서열분석장치로 읽는다. 이 정보들을 모아서 원래의 서열을 ‘짜깁기하는 작업’(contig assembly)을 수행한다. 짜깁기 작업은 서열 정보들을 서로 비교하면서 겹치는 것을 찾아내서 이들을 연결해 하나의 긴 서열을 재구성하는 작업이다.

HGP에서는 전부 5백80만번에 걸쳐 염기서열분석장치로 읽었는데, 염기 수로 2백31억개를 읽은 셈이다. 이는 인간 유전체의 8배에 해당하는 양인데, 짜깁기 작업의 정확성을 위해 중복해서 읽었기 때문이다. 짜깁기 작업은 각 BAC 클론별로 대용량 메모리를 갖춘 컴퓨터가 수행했다. 요즘 펜티엄 컴퓨터도 상당히 빨라져서 수천개 수준의 짜깁기 작업은 수분 안에 처리할 수 있다.

짜깁기 작업을 해보면 불행히도 전체가 하나의 서열로 얻어지는 것이 아니고, 수십개의 단편으로 얻어지게 된다. 이 상태가 ‘초안’이라는 것이다. 이들 단편들을 서로 연결해 원래의 상태로 재구축하는 작업을 ‘완성작업’(finish)이라고 한다.

2001년 2월 ‘네이처’에 발표된 논문에 따르면 HGP의 초안은 40만개의 단편으로 구성돼 있다. 2003년까지 단편들 사이에 존재하는 틈새를 없애고 전체 24개의 염색체로 재구성하는 작업을 모두 마칠 예정이다. 2001년 7월말 현재, 전체의 47%가 완성됐고, 51%는 초안 상태에 있기 때문에 이를 합쳐보면 인간 유전체의 98%에 대한 정보를 갖고 있는 셈이다.

HGP와 경쟁적으로 인간 유전체 서열 정보를 규명한 셀레라사가 사용한 방법은 약간 다르다. 이들은 BAC 클론을 사용하는 대신, 전체 유전체를 수천만개의 조각으로 무작위로 잘랐다. 그리고 이들 조각의 염기서열을 읽은 후, 짜깁기 작업을 했다. BAC 클론을 자르고 찾는 과정이 없어서 실험적으로는 훨씬 간편하다. 그러나 수천개의 염기정보를 상호 비교하는 것이 아니고, 수천만개의 정보를 비교하게 되기 때문에 컴퓨터 작업 양은 제곱으로 늘게 된다. 이를 효율적으로 수행하기 위해 셀레라사는 독창적인 생물정보학 알고리듬을 개발했으며, 컴팩사와 공동으로 구축한 슈퍼컴퓨팅 시설을 활용해 비교적 짧은 시간 안에 HGP와 대등한 결과를 얻을 수 있었다.

HGP에서 얻은 염기서열 정보는 버뮤다선언에 따라 24시간 안에 국제 데이터베이스에 기탁돼 전 세계 누구나 활용할 수 있다. 미국의 GenBank(www.ncbi.nlm.nih .gov/Genbank), 유럽의 EMBL(www.ebi.ac.uk/ embl), 일본의 DDBJ(www.ddbj.nig.ac.jp)에서 데이터베이스를 운영하고 있다. 서로 매일밤 데이터를 교환하기 때문에, 어느 곳의 정보를 이용해도 상관이 없다.

컴퓨터가 유전자 후보 선별
 

현재 인간 유전체 중 생물학적 의미를 지니는 부분을 찾아 ‘주석’을 다는 작업이 한창이 다. 이 작업은 Genscan이라 는 컴퓨터 프로그램을 이용한다.


현재 인간 유전체의 33억 염기쌍 중 생물학적 의미를 지니고 있는 부분을 찾아서 설명을 다는 ‘주석 작업’이 이뤄지고 있다. 생물정보학에 의해 ACGT로 이뤄진 문자정보가 비로소 유용한 정보로 환골탈태하는 것이다.

영국의 유럽생물정보학연구소(EBI)와 생거 연구소에서 주관하는 Ensembl 프로젝트에서 주석 작업을 수행하고 있는데, 현재 거의 3만개에 이르는 유전자에 대해 주석을 달았다. 이 프로젝트에서 중점을 두고 있는 것 중의 하나는 자동으로 주석을 달 수 있도록 컴퓨터 프로그램 시스템을 구축하는 일이다. 인간 유전체에 주석을 달면서 구축한 시스템은 쥐 유전체에도 그대로 활용되고 있다.

33억 염기쌍 중에서 유전자 정보를 담고 있는 부분을 찾기 위해 Genscan이라는 컴퓨터 프로그램을 사용해 유전자 후보를 예측한다. 이에 대해서 별도의 과정을 통해 유전자라는 증거를 찾는다. 이미 예전부터 알고 있던 유전자인지 확인하고, 아니더라도 EST(발현된 염기서열 조각, Expressed Sequence Tags) 서열정보와 비교해 일치하는 것이 있는지를 확인한다. EST는 단백질을 부분적으로 만드는 염기서열 조각을 말한다. 현재 인간의 EST는 2백80만개 이상 알려져 있다.

Genscan으로 예측된 유전자 후보 중에서 EST정보와 일치할 경우 실제 유전자일 가능성이 매우 높은 것으로 분류한다. 그리고 이 후보가 가진 정보를 통해 아미노산(단백질의 기본 단위) 서열을 도출하고, 이것이 이미 알려져 있는 단백질과 서열상 유사한지 검증한다. 이미 기능이 잘 알려져 있는 단백질과 아미노산 서열이 비슷하다면, 유사한 기능을 갖고 있다고 추측할 수 있다.

특히 단백질의 기능을 결정짓는데 중요한 역할을 하는 부분들이 알려져 있는데, 이러한 부분들은 특정한 염기서열 패턴을 갖고 있다. 이것을 ‘모티프’라고 부르는데, 이 모티프를 통해 유전자의 생화학적 기능을 추정할 수 있다.

Genscan으로 얻은 유전자 후보 중에서 EST 서열과 일치하는 것이 없더라도 이미 알려진 단백질과 유사성이 인정될 경우 실제 유전자일 가능성이 높은 것으로 분류할 수 있다. 그 외에도 다른 실험 정보들을 활용해 실제로 발현되는 유전자를 수집해 정리한 결과를 Ensembl (www.ensembl.org)에서 얻을 수 있다.

개인간 차이 밝힌다

HGP는 주로 BAC 클론을 활용해 서열정보를 얻었지만, 일부는 셀레라사처럼 여러 기증자로부터 채취한 혈액에서 추출한 DNA를 무작위로 절단해 서열을 분석했다. 그 결과 약 5백77만건의 서열 정보를 얻어서 BAC 클론으로부터 얻은 서열과 비교했을 때, 차이가 나는 곳이 많이 나왔다. 약 1천 염기에 하나 꼴로 변이가 발견됐는데, 인간 유전체 전체로는 약 1백40만 곳에 차이가 있을 것으로 추정됐다. 이는 개인과 개인을 비교했을 때, 특정 부위에서 변이가 관찰되는 것으로 SNP(단일염기다형성, Single Nucleotide Polymorphism)라 불린다.

SNP 패턴의 차이에 의해서 각 사람의 신체적 특성이 결정되고, 특정 질병에 걸리기 쉽거나 어려운 것이 결정될 것으로 예상되고 있다. SNP가 발견되는 위치 정보를 얻기 위한 노력이 SNP 컨소시엄에 의해 이뤄지고 있으며, 그 결과는 데이터베이스에 저장되고 있다. 현재 3백만건이 수록돼 있으며, 이 중에서 중복된 것을 제외하면 1백80만건이 된다. Ensembl에는 이들 SNP가 인간 유전체 염색체의 어느 곳에 위치하는지 표시돼 있다. 유전자의 활성이나 발현에 영향을 주는 곳에 SNP가 있으면 이는 기능적으로 매우 중요한 역할을 할 것이다. 따라서 특정 질병과 관련된 유전자의 SNP 프로파일을 환자와 정상인에 대해 조사하고 상관관계를 유추하는 것은 매우 의미있는 일이다. SNP 분석 분야에서도 생물정보학의 역할은 아무리 강조해도 지나치지 않다.

DNA 칩이 여는 미래

생명현상의 모든 것이 DNA 서열로부터 출발한다고 보면, 그동안 생물정보학이 서열 정보 분석에 많은 노력을 기울인 것이 당연하다. 그런데 서열 분석에 동원된 다양한 분석 알고리듬, 통계 기법, 데이터베이스와 전산 시스템이 최근 ‘DNA 칩’ 분야에 적극 활용되고 있다. DNA 칩은 서열을 알고 있는 수천 내지 수만개의 유전자 조각을 정해진 자리에 고정시켜 놓은 후, 미지의 샘플에 있는 유전자들이 상보적 조각을 찾아가서 짝을 이루도록 유도하는 장치다. 짝이 이뤄진 것은 형광반응을 통해서 확인이 가능하며, 이 세기를 비교해 질병 샘플과 정상 샘플 사이에 발현 차이를 보이는 유전자를 밝힐 수 있다.

이런 실험의 경우 통계적으로 의미있는 결과를 도출하기 위해 보통 수십 샘플 이상을 수집해 실험한다. 1만개의 유전자를 이용해 실험을 했다면, 여기서 얻어진 데이터만도 1백만개를 넘는다. 이와 같은 대량의 데이터를 통계적으로 처리하고 생물학적인 의미를 도출하기 위해서는 역시 효율적인 생물정보학 시스템이 필요하다. 여기에 사용되는 데이터 마이닝 기법은 크게 2가지 부류로 나눌 수 있다.

암 조직에서 얻은 샘플과 정상 조직을 비교해 암 조직의 특이적 유전자를 발굴한다고 가정하자.

첫번째 방법은 우리가 알고 있는 샘플에 대한 정보와 상관관계가 가장 높은 유전자를 찾는 것이다. 즉 암 조직에서 정상조직에 비해 발현이 증가되는 유전자 또는 반대로 발현이 억제되는 유전자를 찾는다. 이 방법을 사용하면, 질병을 진단할 기준이 되는 물질을 찾는데 도움이 된다. 그런데 만일 겉모습은 정상 조직이지만 내부에서는 이미 유전적 변화가 진행된 샘플이 섞여있으면 효과적이지 못하다.

두번째 방법은 샘플에 대해서 아무런 가정을 하지 않고, 즉 질병과 정상 샘플을 구분하지 않고 발현 패턴의 유사성에 따른 분류를 시도하는 것이다. 이상적인 경우라면, 암 조직의 발현 패턴들은 서로 비슷하면서 정상 조직의 패턴과는 달라야 한다. 경우에 따라서는 암 조직의 패턴도 몇가지의 하위 집단으로 나뉠 수 있으며 이와 같은 분류 지표가 되는 유전자들의 역할로부터 질병의 발병과 진행에 대한 많은 정보를 얻을 수 있다.


가설 없이 데이터 중심의 학문으로

앞으로의 생물학은 가설 을 세우지 않고, 대량의 데이 터를 수집하고 분석해 결론 을 유추하는 데이터 중심의 학문으로 바뀔 것이다.


지금까지의 생물학은 다른 과학과 마찬가지로, 가설을 세우고 그것을 검증하기 위한 실험을 실행해 데이터를 분석하고 가설을 수정하는 단계를 거치면서 이론을 정립해 왔다.
앞으로의 생물학은 가설을 세우지 않고, 대량의 데이터를 수집하고 이것을 분석해 결론을 유추하는 데이터 중심의 학문으로 바뀔 것이다.
모든 데이터가 컴퓨터에 수록되고 다양한 기법으로 필요한 정보를 찾으며 새로운 생물학적 지식을 발견하게 되면 이를 검증할 수 있는 실험을 디자인하는 소위‘디지털 생물학’(in silico biology) 시대가 오고 있다. 그렇게 되면 유전자 사이의 네트워크가 밝혀지고, 컴퓨터에서 세포나 조직, 기관, 생체를 시뮬레이션할 수 있는 길이 열릴 것으로 기대된다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2001년 09월 과학동아 정보

  • 김상수 유전체정보센터 책임연구원

🎓️ 진로 추천

  • 생명과학·생명공학
  • 컴퓨터공학
  • 통계학
이 기사를 읽은 분이 본
다른 인기기사는?