인간게놈지도 완성. 인간이라는 생명에 담겨있는 모든 유전정보가 한권의 책으로 편찬된 것에 비유될 수 있다. 인간게놈프로젝트에 의해 밝혀진 새로운 사실에는 무엇이 있을까. 그리고 그 사실들은 우리에게 어떤 의미를 던지고 있을까.
2001년 2월 12일. 인간의 달착륙에 비견할만한 또 하나의 역사적 사건이 일어났다. 6개국(미국, 영국, 프랑스, 독일, 일본, 중국)으로 구성된 국제컨소시엄인 인간게놈지도작성팀(HGP, Human Genome Project 이하 다국적팀)과 미국 벤처기업인 셀레라 지노믹스사(이하 셀레라)가 각각 독립적으로 수행한 연구를 통해 인간게놈의 염기서열을 약 99% 정도 밝혀낸 것이다.
한마디로 이번에 발표된 연구결과는 인간이라는 생명의 유전정보가 담긴 한권의 책을 편찬한 것에 비유될 수 있다. 향후 계속적인 연구를 통해 이 책 속의 유전정보들은 생명의 신비를 풀어줄 수 있는 도서관으로서의 제 기능을 발휘할 수 있을 것으로 기대된다. 물론 여전히 채워야 할 1% 정도의 공백이 남아있기는 하지만 말이다.
현재 발표된 인간게놈의 지도작성이 왜 놀랄만한 화제가 되고 있는지 그리고 이것이 우리 인류에게 주는 메시지는 과연 무엇인지에 대해 알아보자.
1 인간 자존심에 상처 입혔다?
초파리 2배 정도의 유전자수
인간 유전자의 정확한 개수는 더 많은 실험을 통해 결정돼야 하겠지만, 현재 다국적팀과 셀레라는 대략 3만-3만5천개 정도가 게놈에 존재한다고 예상하고 있다. 이 새로운 추정치에 따르면, 인간은 선충이나 초파리에 비해 단지 2배 정도 많은 유전자를 가지고 있을 뿐이다. 만물의 영장이라는 인간의 자존심이 상처를 입을 만큼 적은 수치다. 그렇다면 이렇게 적은 수의 유전자로 어떻게 인간의 생물학적 복잡성을 설명할 수 있을까.
분명 유전자의 수적인 측면에서 인간은 매우 검약정신이 강한 생물체다. 게놈에서 실제 발현된염기서열조각(EST, expressed sequence tags)을 연구한 결과에 따르면, 인간의 경우 하나의 유전자에서 하나의 단백질을 생성하는 것이 아니라 평균 3개의 서로 다른 단백질을 만든다고 예측되기 때문이다.
다시 말해 인간과 다른 생물 종 사이에 존재하는 생물학적 복잡성의 차이가 그들의 유전자 숫자와 큰 관계가 없다는 얘기는 인간이 유전자들을 활용할 수 있는 어떤 ‘내부혁명’을 통해 더 복잡한 일을 성공적으로 수행하고 있다고 추정해볼 수 있게 한다. 즉 인간, 선충, 그리고 초파리 등의 한 유전자에서 단백질을 암호화하는 부위의 크기는 비록 같다고 하더라도, 인간 유전자는 유전정보를 담고 있는 엑손(exon) 부위를 다양하게 조합하고 정교한 세포 내 편집과정을 통해 다른 생물보다 평균 3배 정도 많은 단백질을 생산할 수 있다는 말이다.
그러나 여기서 한가지 짚고 넘어가야 할 문제는 게놈연구에서 추정된 인간 유전자 수는 여전히 논란의 여지가 있다는 점이다. 이것은 게놈연구에서 사용된 유전자 예상 프로그램의 한계 때문이다. 이 프로그램은 이미 잘 알려진 유전자의 구조를 바탕으로 새로운 유전자의 존재 가능성을 분석한다. 따라서 유전자 발현정도가 매우 낮아 현재의 유전자 선별기법으로는 검증되지 못하는 유전자들은 제외될 수밖에 없다는 말이다.
그러므로 인간의 생물학적 복잡성은 단순히 유전자 개수로 설명할 수 있는 사안이 아니다. 유전정보를 담고 있는 유전자의 암호를 풀어 단백질을 만들어내는 과정인 유전자 발현에서 설명되는 것이 더 설득력이 있다고 생각된다.
2 유전자는 밀집된 도시를 이룬다
무척추생물과 구분되는 불규칙 분포
인간 염색체상의 유전자 분포는 매우 놀랍다. 즉 인간의 염색체 안에는 많은 유전자들이 서로 가까운 거리에 위치해 마치 밀집된 도심과 같은 형태를 이루고 있다는 말이다. 그리고 전체 게놈 중 약 95%정도를 차지하는 ‘JunkDNA’들은 마치 거대한 사막지대처럼 펼쳐져 있다.
이와 같이 인간 유전자의 불규칙한 분포는 애기장대, 선충 또는 초파리와 같이 유전자들이 상대적으로 게놈 위에 고르게 분포하고 있는 무척추생물과 뚜렷이 구분되는 점이다. 그러므로 왜 인간의 유전자들은 모여 있으며, Junk DNA의 존재가 정확히 무엇을 뜻하는지 새롭게 주목해야 할 것이다.
또 인간게놈의 약 40-48% 정도는 특정 염기서열이 반복돼 있는 반복염기서열(repetitive sequence)로 이뤄져 있다. 가장 일반적인 형태의 반복구조를 Alu라고 하는데 전체 게놈 중에서 대략 10% 정도나 차지하고 있다. 그리고 계통학적으로 더 오래된 Alu일수록 유전자들이 많이 밀집돼 있는 부위에 위치하고 있다. 이 사실은 Alu 염기서열이 어떤 의미를 가지고 게놈에 함유돼 있음을 시사한다.
일반적으로 알려진 반복염기서열, 즉 염색체의 끝부분에 해당하는 텔로미어(telomere, 말단소립)와 염색체 중앙의 동원체(centromere) 부위에 존재하는 반복염기서열은 염색체보호나 세포분열이라는 특정 기능을 담당하고 있다. 이런 반복염기서열과는 구별되는 특정 반복염기서열들이 왜 인간에 더 많이 축적돼 있는지에 대해서는 아직까지 정확한 이유를 알 수 없다.
하지만 Alu와 같은 반복염기서열이 한 유전자로부터 여러 단백질을 생성하는데 필요한 메커니즘을 제공한다고 추정될 수는 있다. 즉 유전자의 수적 측면에서 인간은 선충에 비해 겨우 30% 정도 많음에도 불구하고 훨씬 복잡한 고등생물이라는 점에 이런 반복염기서열이 기여하고 있다고 추측해보는 것이다.
3 유전자 보호하는 반복염기서열
5천만년 전 활동 중단
우리 인간은 애기장대(11%), 선충(7%) 또는 초파리(3%)보다 훨씬 많은 50% 정도의 반복염기서열을 가진다. 또한 놀랍게도 과거 5천만년 전에 인간게놈의 반복염기서열의 활성이 급격하게 감소했다고 추정된다. 즉 인간이 5천만년 전에 반복염기서열 DNA를 수집하는 일을 그만뒀다는 말이다.
반면 설치류에서는 그런 반복염기서열의 감소현상을 발견할 수 없었다. 이와 같은 연구결과는 반복염기서열 DNA의 새로운 역할에 대해 조명할 수 있는 좋은 기회를 제공한다. 앞에서도 말했듯이 반복염기서열 DNA는 유전자가 많이 포함된 장소에 밀집해 있으면서 유전자의 재배열을 통해 한 유전자로부터 여러 단백질이 만들어질 수 있는 기반을 제공할 수 있다. 더 나아가 이런 반복염기서열 DNA는 전체 게놈에 존재함으로써 유전정보를 담고 있는 엑손이라는 부위의 DNA가 환경유해인자로부터 손상을 입을 가능성을 상대적으로 감소시키는 역할을 할 수도 있다.
설치류에서 반복염기서열 DNA의 축적이 계속되고 있는 것은 인간에 비해 DNA 염기서열상의 손상을 원상 회복시키는 메커니즘의 효율이 상대적으로 낮기 때문에 세포분열과정 동안 인간보다 훨씬 많은 돌연변이가 축적되는 현상으로 생각할 수 있다. 만일 반복염기서열 DNA가 유전암호부위인 엑손에 발생하는 손상을 보호하는 역할을 한다면, 설치류는 더 많은 반복염기서열 DNA를 모으는 것이 생존을 위해 필요하다.
4 바이러스 닮은 유전물질 운반책
반복염기서열의 불가사의한 분포
일반적으로 반복염기서열의 요소(repeat elements)들은 게놈 상에서 AT염기서열은 풍부하지만, GC 염기서열은 상대적으로 적은 황량한 사막과 같은 구역에 자리잡고 있다. 그러나 SINE(short interspersed elements) 요소라고 부르는 반복염기서열 종류는 게놈 내에서도 GC 염기서열이 풍부한 지역에 터를 잡고 있다. 과거 생물학자들에게는 SINE 요소가 기생충 같은 불쾌한 존재로 여겨져 왔으나, 현재는 생명체에서 유익한 공생체로 작용할 가능성이 높다고 예상되는 이유다.
과연 반복염기서열의 분포가 의미하는 바는 무엇일까. 현재의 생물학적 분석기술 수준으로 반복염기서열요소가 수행하는 정확한 역할을 예상하거나 분석하는 일은 매우 어려운 과제인 것은 분명하다.
SINE는 3백개 정도의 염기로 구성된 반복염기서열 요소로서 LINE(long interspersed elements)와 함께 바이러스와는 구별되는 레트로트랜스포존(retrotransposon, RNA를 청사진으로 하여 유전물질을 운반하는 바이러스 같은 존재)의 하나로 알려져 있다. 이 SINE는 보통 포유동물 종 사이에는 50-60% 정도, 그리고 단일 종 내에서는 80% 정도 유사성을 갖는 반복염기서열이다. SINE는 게놈 내에서 여기저기로 옮겨 다닐 수 있기 때문에 유전물질의 운반수단으로 알려져 있으며 특히 어떤 경우에는 질병의 원인이 된다고도 밝혀져 있다.
인간 게놈에서 발견되는 가장 보편적인 SINE는 AluI이라는 제한효소에 의해 인식되는 특이 염기서열을 가지고 있어 Alu 염기서열이라고도 부른다. 이들의 생체 내 역할은 정확하게 밝혀진 것은 없지만 현재 생명체내에서 새로운 유전자를 만드는 수단으로 사용될 가능성이 높게 점쳐지고 있다.
이와 관련돼 셀레라는 적어도 97개의 암호화 부위(conding region)가 반복염기서열 요소들에 의해 게놈상의 다른 곳으로 운반됐을 가능성을 제시했다. 게놈 속에서 반복염기서열의 재배열을 통해 완전히 새로운 유전자를 창조하거나 기존의 유전자를 변형시킴으로써 새로운 모습의 게놈으로 탈바꿈할 수 있게 했을 지도 모른다는 얘기다.
5 세균으로부터 유전물질 전달받다
박테리아 유전자 2백개 발견
인간게놈 연구결과 박테리아의 유전자와 비슷한 인간유전자가 2백개 정도 존재하고 있다는 사실이 새로 발견됐다. 더욱이 이 유전자들은 선충이나 효모같은 무척추생물에서도 발견되지 않는 종류다. 박테리아의 유전자와 비슷한 인간 유전자들은 진화적으로 척추동물이 탄생했던 시기보다 최근에 획득된 것으로 추정된다. 이는 인간게놈으로 전달된 유전자들이 서로 다른 세균으로부터 독립적으로 전달됐다는 점을 시사한다.
이와 같은 유전자 획득은 세균 종류에서는 쉽게 발견되는 현상이다. 한예로 질병을 유발하는 세균의 경우, 항생제에 대해 저항성을 갖는 유전자를 다른 종으로부터 쉽게 획득하기도 한다.
따라서 유전자의 획득이 인간과 같은 척추동물과 무척추생물을 구분짓는 주요 인자로 간주하기에는 다소 무리가 따른다. 왜냐하면 무척추동물도 인간과 같은 척추동물에 존재하지 않는 유전자를 공생세균들로부터 획득했을 가능성이 높기 때문이다. 그러므로, 이 세균유래 유전자에 대한 의미부여는 좀더 체계적인 연구를 통해 가까운 미래에 가능할 것으로 생각된다.
6 남성 유전자가 여성보다 돌연변이 많다
진화과정 단서 제공하는 Y염색체
반복염기서열이 특징인 우리 인간의 Junk DNA는 과거 진화과정을 추적할 수 있는 좋은 화석기록에 비견될 수 있다. 다국적팀과 셀레라는 3백만개 이상의 반복염기서열을 사용해 DNA의 연대를 매기고 있다. 이를 통해 그들이 언제, 어디서 왔는지를 정확히 밝혀서 반복염기서열의 가계도를 그리고 있다. 연구팀들은 약 3백만개의 반복염기서열의 나이를 추정했다.
그런데 남성의 Y 염색체에 산재하는 반복염기서열의 패턴이 흥미롭다. 남성과 여성의 생식세포가 될 부분(germ line)에서 상대적인 돌연변이빈도를 측정해본 결과, 남성이 여성에 비해 2배 정도 높은 돌연변이를 보였다. 남성이 유전자적으로 취약하고 여성은 잘 견뎌낸다는 말이다. 이는 난자형성보다 정자형성에서 세포분열의 횟수가 많기 때문에 남성에게 상대적으로 많은 돌연변이가 축적됐다고 추정된다.
한편 남성 유전자는 돌연변이 빈도는 높지만 대부분 염기 한두개가 바뀌는 점돌연변이가 많다. 반면 여성 유전자는 잘 바뀌지 않는 대신 한번 바뀌면 수십개가 없어지거나 삽입되는 형태의 돌연변이다.
7 맞춤의약의 학문적 기초 제공
단일염기다형성(SNP) 지도작성
인간게놈지도의 완성과 함께 얻어진 또 한가지의 성과로는 그 동안 과학자들이 연구해 온 게놈상의 약 1백4십만개에 달하는 방대한 수의 단일염기다형성(SNP, single nucleotide polymorphism)이 밝혀졌다는 것이다.
앞으로 이 SNP를 게놈지도상에 정확하게 표시할 수 있게 됐으며, 이러한 SNP 지도는 향후 질병지도를 작성하고 인류의 기원을 추적하는데 지대한 공헌을 할 것으로 기대되고 있다. 따라서 게놈상의 SNP 지도가 제공할 수 있는 잠재적 활용가치에 대해 주목할 필요가 있다.
SNP란 인간 개체별로 게놈상의 염기서열이 동일하지 않은 것이 약 1천개의 염기 중 1개 정도의 빈도로 나타나는 현상이다. 따라서 특정 유전질환의 원인이 되는 유전정보상의 변이는 개인별로 다를 것이므로 질병의 예방과 치료를 위해서는 개인의 유전 특성에 맞는 약을 개발해 제공할 수 있다고 기대되는 것이다. 또한 이 결과는 모든 질병의 유전적 기초를 밝히는데 중요한 실마리가 될 것이다. 소위 말하는 개인별 맞춤의약의 현실화는 바로 이 SNP 연구로부터 가능할 것이며, 따라서 제약회사들은 SNP를 이용해 신약의 특이성을 높이는데 필요한 성과를 얻어낼 수 있을 것으로 기대된다.
그러나 그동안 연구된 암호화 부위에 해당하는 SNP 지도로는 각 개인에 따라 질병에 걸릴 확률의 차이를 설명하는데 매우 미흡한 실정이었다. 유전자 발현에 영향을 미치는 프로모터나 유전자상의 비암호화 부위인 인트론(intron) 염기서열의 변이 등에 대한 정보의 축적이 필수적이라는 얘기다. 우리 게놈상의 염기서열변이 중 기능적으로 중요성을 지니는 부위를 찾는 작업은 향후 과학자들에게 주요 도전과제로 남아 있다. 물론 SNP 지도가 작성되더라도 모든 인간이 혜택을 누리지는 못할 지도 모른다. 중요한 문제는 각 개인별 SNP 지도를 작성하고 개별 맞춤형 신약을 선별해 조제하는데 드는 시간과 비용이 될 것이다.
8 예상보다 복잡한 단백질 상호작용
적은 수로 창조적 활동 수행
많은 과학자들은 게놈이 만드는 산물, 즉 단백질 전체를 의미하는 프로테옴(proteome)의 경우 인간이 무척추생물보다 훨씬 복잡하다고 예상하고 있다. 예를 들어 인간을 비롯한 척추동물은 원래 존재하는 단백질의 기능부위, 즉 도메인(domain)만을 고쳐서 새로운 단백질을 만들 수 있다. 다시 말해 인간은 더 복잡한 단백질 생산을 위해 새로운 전략을 수립하기보다는 다른 생물에서 이미 검증돼 있는 단백질을 받아들이고 재배열해서 새로운 혁명을 이룩할 수 있었다는 것이다.
게놈 안에 포함될 수 있는 모든 단백질 구조를 분석한 결과, 인간이 다른 동물에 비해 특별히 많은 종류의 도메인을 갖고 있지는 않았다. 따라서 이런 도메인을 보다 창조적으로 사용함으로써 상대적으로 훨씬 복잡한 생명체로 진화할 수 있었지 않았나 추정해볼 수 있다. 셀레라는 이런 가설을 뒷받침하는 특정부류의 단백질집단을 발견했는데, 바로 액틴세포골격에 포함되는 구조 단백질과 신호전달과 면역기능에 관련된 단백질들이다.
인간의 게놈지도 작성이후의 생물학 연구는 프로테오믹스(Proteomics)라고 불리는 대단위의 단백질 연구에 초점이 맞춰질 것이다. 그런데 이런 단백질 연구가 과거에는 존재하지 않던 전혀 새로운 분야는 아니다. 단지 그동안 가내공장 식으로 진행해 오던 단백질의 구조·기능분석 연구들이 마이크로어레이(microarray)와 같은 고용량 자동화처리기법을 통해 그리고 완성된 게놈 정보를 바탕으로 체계적으로 진행될 수 있게 됐다는 사실을 의미한다.
앞으로 이런 대단위의 단백질 연구는 게놈 분석과 마찬가지로 인간이란 생명의 정체를 밝히는데 결정적으로 공헌할 것으로 기대된다. 그러나 한가지 분명한 사실은 단백질의 구조와 기능을 연구하는 일에는 이전의 다른 어떠한 분야보다 훨씬 복잡하고 많은 시간이 요구된다는 점이다. 특히 예상보다 훨씬 적은 수의 인간 유전자가 발견됐다는 사실은 특정 생명현상에서 작용하는 여러 단백질들 사이의 상호관계가 예상보다 훨씬 복잡하다는 사실을 암시한다.