48년전 왓슨과 크릭은 DNA의 이중나선구조를 밝혔다. 그들의 연구 성과는 분자생물학을 여는 계기가 됐다. 이번에 발표한 인간게놈 연구 결과는 21세기 과학의 최대 사건으로 기억될 가능성이 매우 높다. 그렇다면 이번 성과는 또 어떤 미지 세계로 떠나는 출발점이 될까.
1953년 제임스 왓슨과 프랜시스 크릭은 DNA이중나선구조와 그 의미를 밝힌 두페이지짜리 짤막한 논문을 ‘네이처’지에 실었다. 그로부터 48년이 지난 올해 같은 저널 2월 15일자에는 전세계 20곳의 연구실에서 11년 간 공동연구를 통해 밝혀낸 인간게놈에 대한 연구 결과가 62페이지에 걸쳐 소개됐다. 연구자들은 자신들의 작업이 왓슨과 크릭의 업적에는 못 미친다고 겸손해하지만 이번 연구 결과가 21세기 과학의 최대 사건으로 기억될 것이다.
왓슨과 크릭의 업적이 분자생물학을 여는 계기가 됐듯,이번 연구 또한 ‘포스트게놈연구’라는 미지의 세계로 떠나는 모험의 출발점이라는 의미가 크다. 이번에 완성된 인간 게놈지도가 전세계 수많은 과학자들이 앞으로 수십년 동안 각종 연구를 수행하는데 기초자료가 되기 때문이다.
염기서열 완성은 2003년쯤에나
이번에 발표된 게놈지도를 자세히 들여다보면 아직까지 완성되지 못한 부분들이 군데군데 눈에 띈다. 벌써부터 게놈 정보를 이용한 포스트게놈연구가 시작되고 있지만 이와는 별도로 게놈지도 자체의 완성도를 높이는 연구가 계속되고 있다. 게놈지도가 생의학 연구의 기초로 쓰이려면 남아 있는 공백을 메꾸고 애매한 부분을 명백하게 해야 하기 때문이다.
첫단계로 현재 DNA 염기 서열의 99% 정도가 결정된 진정염색질(euchromatin, 염색체에서 유전자를 많이 갖고 있는 부분)의 나머지 부분을 끝내야 한다. 이 작업은 상당히 진행돼 있어 올해 중반에는 모든 염기서열이 결정될 예정이고, 99.99%의 정확도로 작업을 끝낼 계획이다.
다음으로 진정염색질 이외 영역의 공백을 메꾸는 작업을 한다. 이미 21번과 22번 염색체는 이 작업이 끝난 상태이다. 7번, 14번, 20번과 Y 염색체도 몇달 안에 완성될 전망이다. 모든 염색체에 대해서 늦어도 2003년까지는 끝낼 계획이다.
염기서열이 완전히 밝혀진 21번과 22번 염색체의 연구를 통해 알 수 있듯이 염기서열만으로는 유전자를 완전히 확인하기 어렵다는 사실이 밝혀졌다. 게놈지도가 완성된 상태에서도 유전자수를 2만6천개에서 4만개 사이로 추측하는 것도 이 때문이다. 따라서 서로 다른 종 간의 염기서열을 비교해 유전자에 대한 정보를 얻어내는 작업이 필요하다.
최근 밝혀지고 있는 복어의 염기서열은 사람의 유전자를 찾는데 유용하게 쓰이고 있다. 특히 올해 4월에 미국 셀레라사에서 발표할 예정인 쥐의 게놈은 이런 작업에 결정적인 도움을 줄 것이다. 지금까지의 연구 결과 사람과 쥐의 유전자는 서로 95-97% 동일하고 유전자의 발현을 조절하는 부분도 상당수가 비슷한 것으로 추측되기 때문이다.
유전자를 찾는 더 확실한 방법은 cDNA를 얻어 게놈지도 상에서 해당하는 부분을 역추적하는 작업이다. cDNA란 mRNA로부터 거꾸로 얻어낸 DNA 가닥으로 유전자에서 실제 엑손부분에 해당하기 때문에 어느 부분이 유전자인지 확실히 알 수 있다. 내년까지는 사람에게서 1만-1만5천개의 완전한 길이의 cDNA가 얻어질 전망이다.
맞춤의학 가능케 하는 SNP
현재까지의 연구 결과 사람의 게놈에서 단일염기다형성(SNP)이 있는 곳 1백40만 군데 이상을 확인했다. 단일염기다형성이란 유전자 속의 DNA염기 중 하나가 바뀐 부분이다. 염기 3개당 아미노산 하나가 대응하기 때문에 염기 중 하나가 바뀔 경우 아미노산이 바뀌게 된다.
단백질은 수십개 또는 수백개의 아미노산 사슬이 아미노산의 특징에 맞게 입체적으로 엉킨 고분자다. 따라서 중간의 아미노산 하나가 바뀌면 단백질 구조 전체가 바뀐다. 만일 이 단백질이 생체반응을 촉매하는 효소라면 그 구조의 변화는 효소활성의 변화로 이어진다. 이때 효소활성이 지나치게 줄어들거나 커지면 질병이 유발될 수도 있다. 따라서 SNP 연구는 유전자 관련 질병을 이해하고 약을 개발하는데 중요한 실마리를 제공한다.
많은 연구자들이 특정 질환을 가진 환자들의 게놈에 존재한다고 생각하는 특이한 SNP를 찾는 작업을 본격적으로 시작했다. 질병이 SNP로 인한 효소 활성의 변화와 관계가 있는 것으로 밝혀지면 그 효소의 작용을 정상화시키는 치료제를 디자인하면 되기 때문이다.
오늘날 하나의 신약이 개발돼 나오는데는 보통 15년 정도가 걸린다. 수만가지 약물의 합성과 수차례의 임상시험을 거쳐 안전성을 확인해야 하기 때문이다. 이 과정에서 탁월한 약효를 지닌 신물질이 부작용 때문에 빛을 보지 못하는 경우도 흔하고 일부 집단에게만 약효가 있어 상품화에 이르지 못하는 예도 있다.
SNP 연구는 이런 약물들 상당수를 구제할 전망이다. 약물에 대한 부작용이나 효과 없음은 특정 유전자의 SNP에 따른 결과인 경우가 많기 때문이다. 지금까지는 개인의 유전자에 대한 정보 없이 임의로 대상자를 선정해 임상시험을 해왔기 때문에 유전자가 다른 모든 사람들을 만족시키는 제약산업은 운이 큰 변수로 작용해 온 것이 사실이다.
지금까지 연구결과 실제로 많은 약이 SNP 때문에 인구의 30-50%에게만 효과가 있는 것으로 밝혀졌고, 심지어는 한 사람에게는 효과가 있는 약물이 다른 사람에게는 독이 되는 경우도 발견됐다. 개인의 체질에 따라 처방을 달리하는 동양의 사상의학처럼 앞으로는 어떤 병에 걸렸을 경우 먼저 그 질병과 관련된 유전자의 SNP를 확인한 뒤 적당한 약물을 고르는 맞춤 의학 시대가 열릴 것이다.
실제 공사현장으로 관심 이동
DNA가 건축설계사무소에 보관돼 있는 건물 전체의 설계도라면 mRNA는 실제 공사현장에서 해야할 작업을 알려주는 지침서라고 할 수 있다. DNA는 세포핵 안에 남아 있고 유전자 정보를 지닌 mRNA가 세포핵을 빠져나가 세포질 안에서 단백질을 만들기 때문이다.
유전자수가 3만여개로 예상보다 훨씬 적은 것에서도 알 수 있듯이 유전자·mRNA·단백질이 일대일 대응을 하는 것만은 아닌 것으로 보인다. 하나의 유전자가 여러가지 방식으로 짜집기돼 여러 종류의 mRNA가 만들어지고 그에 따라 기능이 서로 다른 단백질이 만들어지는 것이다. 따라서 인간 게놈의 DNA 서열은 세포에서 어떤 일이 일어나고 있는지에 대해 작은 부분만을 얘기해줄 뿐이다.
결국 어떤 조직의 세포에서 발견되는 전사체(세포에서 만들어지는 mRNA의 총체)와 프로테옴(mRNA에 의해 만들어지는 모든 단백질)을 분석해야 생명현상을 제대로 이해할 수 있다. 특히 암세포 등 생리활성이 정상세포와 다른 경우 전사체와 프로테옴을 분석함으로써 다른 세포에는 영향을 주지 않으면서 병적인 세포만 공격하는 약물을 디자인할 수 있다.
지금까지 나온 약의 목표로 확인된 단백질은 4백여개. 그나마 나중에 연구를 통해 알게 된 경우가 대부분이다. 아직까지 수많은 약물 분자가 인체에서 어떻게 행동하는지 정확히 모르는 경우가 많다. 연구자들은 수십년 내 약물의 목표가 되는 단백질의 수가 1만개에 이를 것으로 예상하고 있다. 앞으로는 병리조직에서 발현되는 단백질을 목표로 약물의 구조를 디자인할 것이기 때문이다.
단백질이 약물의 주된 목표로 생각되자 단백질의 구조와 특성을 알아내는 연구가 본격적으로 진행되고 있다. 이런 작업을 총체적으로 프로테오믹스(proteomics)라고 부른다. 단백질은 종류가 너무 많아 아직까지 완전히 연구가 되지 않은 상태. 기능이 알려지지 않은 단백질도 상당수이지만 발현되는 양이 너무 적어 존재 자체가 확인되지 않은 단백질도 꽤 있을 것이다.
앞으로는 프로테오믹스 시대
단백질은 아미노산 사슬이 입체적으로 구성된 고분자이기 때문에 그 기능을 완전히 이해하려면 단백질의 모양과 구조를 알아야 한다. 가장 확실한 방법은 단백질 결정을 만들어 X선 회절법으로 입체 구조를 밝히는 일이다. 특히 정상 단백질과 이상 단백질의 입체 구조의 차이를 규명하면 이상 단백질을 만들어 내는 세포만을 공격하는 약을 설계하는데 결정적인 도움을 준다.
현재 많은 연구자들은 단백질 결정을 키우고 구조를 분석하는 작업을 더 빠르고 싸게 하는 방법을 찾는 연구에 매달리고 있다. 지금까지 입체 구조가 밝혀진 단백질은 전체의 약 1% 정도일 것으로 추측되고 있다.
사실 단백질에 대한 연구는 많은 비용과 시간이 소요된다. 따라서 많은 연구자들은 게놈 정보를 이용해 해당 단백질의 구조와 기능을 추측하는 연구를 병행하고 있다. 즉 유전자의 DNA 염기 서열 정보로부터 아미노산 사슬의 정보를 얻고 이로부터 해당 단백질의 구조를 만들어 약물을 설계한다는 것이다. 지금까지 입체 구조가 알려진 수많은 단백질에 대한 정보를 담고 있는 데이터베이스를 활용하면 새로 밝혀진 단백질의 구조를 어느 정도 짐작할 수 있기 때문이다. 특히 그동안 많은 연구가 축적돼 있는 박테리아, 효모, 초파리 등의 단백질 정보는 사람의 단백질을 분석하는데 결정적인 도움을 주고 있다.
이런 일이 가능하려면 새로 얻은 DNA 정보와 유사한 부분을 엄청난 용량의 데이터베이스에서 찾고 이를 통해 해당 단백질의 유형을 찾아줄 수 있어야 한다. 이런 작업이 더 정확하고 효율적으로 이루어질 수 있게 해주는 분야가 바로 바이오인포매틱스(bioinformatics)다.
정보의 해일이 밀려온다
30억개 염기쌍으로 이루어진 인간 게놈 정보는 디스켓 2천장에 해당하는 분량이다. 그러나 이것은 정보홍수의 시작일 뿐이다. 현재 전세계적으로 분석돼 데이터베이스화되고 있는 DNA 염기쌍의 수는 줄잡아 매일 2천만개 이상씩 늘어나고 있다. 또 염기 서열 분석을 통해 수많은 유전자 목록이 더해지고 있다. 또 유전자가 발현됐을 때 만들어지는 단백질에 대한 정보와 단백질 상호간의 작용과 질병과의 상관관계에 대한 연구 결과들이 더해지면서 ‘정보의 해일’이 밀려들고 있다.
지난 10년간 염기서열 하나를 결정하는데 드는 비용이 1백분의 1로 줄었다. 마치 반도체 가격 하락과 비슷한 모습을 보이고 있다. 따라서 이제는 마음만 먹으면 누구나 엄청난 양의 정보를 만들어낼 수 있다. 결국 엄청난 데이터 더미에서 누가 최선의 것을 끄집어내는가가 경쟁력을 좌우할 것이다. 데이터를 모아 저장하고, 데이터베이스를 구축해 데이터를 해석하고 가공해 정보를 파는 바이오인포매틱스 회사들도 속속 등장하고 있다. 이런 정보들은 통상적인 신약개발이나 임상시험에 따르는 시행착오로 인한 비용과 시간을 줄여 줄수 있기 때문이다.
포스트게놈시대는 유전자의 발현과 그 결과물인 단백질의 기능과 상호작용을 이해하는 프로테오믹스와 이런 연구가 가능케 하는 방법을 제시하는 바이오인포매틱스 에 대해 연구가 집중되고 있다. 머지않아 놀라운 약효를 갖는 수많은 신약이 쏟아져 나올 전망이다.