분자생물학에는 70여년이 넘도록 해결되지 않고 있는 최대 난제가 있다. 바로 단백질 구조형성 문제다. 하지만 최근에는 컴퓨터와 수학, 전산학의 다양한 분석 도구를 이용해 해결의 실마리를 서서히 찾고 있다. 현재 전세계 연구자는 이 문제 해결을 위해 단백질체학 연구를 공동 진행중이다.
생물학 역사상 가장 많은 수확을 거둘 수 있는 시대가 도래하고 있다. 세계 각지의 많은 생명과학자가 인간게놈프로젝트에 매달려 수만개의 인간유전자를 발견하며 해독하고 있다. 대부분의 유전자는 단백질을 만들기 위한 ‘지침’을 갖고 있는데, 유전자 해독기술을 사용해 과학자들은 하루 1백여개의 단백질을 발견하고 있다.
하지만 이는 단순한 기계적 발견일 뿐이다. 유전자 해독기술을 이용해 얻어지는 것은 아미노산 서열일 뿐이지 단백질의 생김새는 알 수 없기 때문이다. 단백질 하나의 생김새를 알아내기 위해서는 보다 전문적인 기술과 고가의 장비를 사용해야 하며 시간도 수개월 이상 걸린다.
생명현상의 키워드 단백질 3차 구조
단백질의 생김새, 즉 분자 구조를 안다는 것은 그 단백질을 이해하기 위한 첫 단계다. 지난 2월 인간게놈프로젝트의 결과로 밝혀졌듯이, 인간의 유전자수는 약 3만개 정도다. 현재까지 알려진 인간의 단백질 종류가 10만여개임을 감안하면 예상보다 훨씬 적은 수다. 이는 유전자 하나가 단백질 하나로 일대일 대응하지 않는다는 것을 말한다. 즉 하나의 유전자가 여러가지 방식으로 짜깁기돼 기능이 서로 다른 단백질을 만드는 것이다. 따라서 인간 게놈의 DNA 서열은 세포에서 어떤 일이 일어나고 있는지에 대해 작은 부분만을 얘기해줄 뿐이다.
결국 생명현상을 제대로 이해하려면 어떤 조직의 세포에서 발견되는 전사체(세포에서 만들어지는 mRNA의 총체)와 프로테옴(mRNA에 의해 만들어지는 모든 단백질)을 분석해야 한다. 우리 몸 거의 대부분의 생명현상은 바로 단백질에 의해 이뤄지고 있다. 단백질은 우선 mRNA의 정보에 따라 결정된 아미노산의 순서로 1차구조를 이룬다. 이는 곧 아미노산 특성에 따라 특정 2차구조를 거쳐 최종적으로 3차원 입체구조를 이룬다. 인체에 존재하는 단백질은 모두 3차원 입체구조를 이루고 있다.
단백질의 입체구조가 얼마나 중요한지는 겸상 적혈구성 빈혈(sickle cell anemia)의 예에서 쉽게 알 수 있다. 이 병은 아프리카 흑인 사이에서 많이 발생하는데, 헤모글로빈의 이상으로 산소운반 능력이 떨어져 빈혈증세를 보이는 유전병이다. 일반인의 적혈구는 헤모글로빈으로 인해 도넛모양으로 생겨 산소를 정상적으로 운반할 수 있다. 하지만 겸상 적혈구성 빈혈 환자의 헤모글로빈은 낫모양으로 찌그러져 적혈구의 산소 운반능력이 떨어진다.
이처럼 단백질의 3차원 입체구조는 그 기능과 밀접히 연관돼 있기 때문에 모양에 조금이라도 변화가 생기면 바로 생체기능에 이상이 생긴다.
이 밖에도 혈당량을 조절하는 인슐린, 근육을 이루는 미오신과 액틴, 다당류를 분해하는 아밀라아제, 지방을 분해하는 리파아제 등 우리 몸 대부분 생명현상을 유지하는 물질은 입체구조를 이루는 단백질이다. 따라서 단백질의 3차구조를 밝히는 것은 생물체의 주요 기능을 이해할 수 있는 가장 빠른 지름길이다. 즉 단백질의 구조가 밝혀지면 그 구조로부터 단백질이 하는 일을 알 수 있거나 적어도 추측이 가능하고, 나아가 생물체의 어디에서 그 기능을 발휘할지에 대한 실마리를 얻을 수 있다. 이것이 바로 많은 생명공학자가 단백질 구조연구에 매달리는 이유다.
부작용 없는 약물 디자인 가능
생명현상을 이해하고 단백질의 구조와 특성을 밝히려는 연구는 최근 들어 단백질체학(프로테오믹스, proteomics)이라는 이름의 최첨단 방법으로 진행되고 있다. 이는 우리 몸의 설계도에 해당되는 유전자를 발견하고 그 기능을 알아내기 위한 유전체학(genomics)과 함께 생물정보학(bioinformatics)의 쌍두마차다. 단백질체학은 생명현상 연구에 필요한 다양한 전산학·통계학·수학적 도구를 이용하는 생물정보학의 한 분야다.
만일 단백질 모양을 빠르고 자동적인 방법으로 알아낼 수 있다면, 과학자는 아직 확인이 안된 많은 생화학적인 메커니즘을 분자 수준에서 더 자세히 살펴볼 수 있는 것이다. 나아가 단백질의 기능을 촉진하거나 방해하는 약물분자의 개발 과정에 응용할 수 있다. 어떤 연구자는 컴퓨터 계산에 의한 방법으로 특정 단백질에만 작용하는 고성능 약물분자를 개발해낼 수 있는 날이 올 것이라고 예상한다.
인체 내 수많은 단백질 중 지금까지 약의 목표가 되는 단백질로 밝혀진 것은 약 4백여개다. 질병을 일으키는 단백질의 정확한 입체 구조를 몰라 이를 치유할 수 있는 약물개발이 늦어지고 있다. 단백질체학의 발전으로 입체 구조가 밝혀지면 새로운 약을 설계하기도 보다 쉬울 것이다. 연구자들은 수십년 내 약물의 목표가 되는 단백질의 수가 1만여개에 이를 것으로 예상하고 있다. 이렇게 정확히 설계된 약품은 적어도 이론적으로 볼 때 기존의 방법으로 개발된 약보다 부작용이 적고 더 강한 약효를 갖게 될 것이다.
3세대 지나도록 해결되지 않는 최대 암호
단백질체학은 단백질의 3차원 형태에 대한 방대한 데이터를 컴퓨터와 수학적 알고리듬을 이용해 처리하는 학문이다. 이를 이용하면 우선 1차원적 아미노산 서열로부터 3차원적 단백질을 예측할 수 있고 단백질의 3차원 형태를 상호 비교할 수 있다. 또한 두개의 단백질이 입체적으로 어떻게 상호작용을 하는지 알아낼 수 있다. 특히 1차원의 단백질 아미노산 서열이 어떻게 입체의 3차 구조로 바뀌는가의 ‘단백질 구조형성 문제’(protein folding problem)는 단백질체학의 중요한 주제 중 하나다. 단백질 구조형성 문제는 1935년 처음으로 제기된 후 3세대가 지나도록 해결되지 않고 있는 분자생물학 분야의 최대 난제다.
단백질 분자가 이루고 있는 3차원 입체구조 연구는 단백질체학의 출현 이전부터 구조생물학이라는 이름으로 행해지고 있었다. 단백질체학 이전에는 단백질의 구조를 파악하기 위해 핵자기공명법(NMR)이나 X선 회절법 등의 방법을 이용했다. 우선 세포에서 원하는 단백질만을 분리한 뒤 이를 결정으로 만들고, 핵자기공명법이나 X선 회절법 등으로 결정 구조를 파악해 그 단백질의 구조를 알아내는 방식이다.
그러나 이 방법은 너무 많은 시간이 걸릴 뿐더러 여러가지 제약이 있었다. 세포 내에서 원하는 단백질만 순수하게 분리해내는 과정이 무척 까다롭고, 원하는 크기만큼 결정을 키우기도 쉽지 않기 때문이다. 따라서 헤모글로빈이나 인슐린 같은 고분자 단백질의 3차원 입체구조를 밝혀내면 커다란 화제와 관심사가 됐다.
하지만 최근 과학자들은 최첨단 컴퓨터공학과 전산학적 도구를 이용해 보다 쉽게 단백질의 구조형성 문제를 풀고 있다. 사실 단백질에 대한 연구는 많은 비용과 시간이 소요된다. 따라서 많은 연구자는 게놈 정보를 이용해 해당 단백질의 구조와 기능을 추측하는 연구를 병행하고 있다. 즉 유전자의 DNA 염기서열 정보로부터 해당 단백질의 구조를 만들어가는 방법이다.
아미노산서열만 알고 구조를 모르는 단백질의 경우, 지금까지 입체구조가 알려진 수많은 단백질 데이터베이스에서 비슷한 아미노산서열을 가지는 단백질을 찾는다. 아미노산서열이 비슷하면 구조도 어느 정도 비슷하기 때문이다. 즉 단백질 데이터베이스를 활용해 새로운 단백질의 구조를 어느 정도 짐작하는 것이다. 이때 컴퓨터공학과 전산학적 도구는 필수적이다. 수많은 데이터베이스를 일일이 사람이 검색, 비교할 수 없기 때문이다.
그동안 많은 연구가 축적돼 있는 박테리아, 효모, 초파리 등의 단백질 정보는 사람의 단백질을 분석하는데 결정적인 도움을 주고 있다. 이들의 게놈크기는 사람에 비해 작기 때문에 많은 미생물의 염기서열이 해독돼 있고 단백질 구조도 많이 알려져 있다. 이 정보는 사람 단백질 구조를 밝히는 데 유용하게 이용된다. 그런데 이런 일이 가능하려면 새로 얻은 DNA 정보와 유사한 부분을 엄청난 용량의 데이터베이스에서 찾고 이를 통해 단백질의 유형을 발견할 수 있어야 한다. 이런 작업이 더 정확하고 효율적으로 이뤄질수 있게 해주는 분야가 생물정보학이다.
무한대에 가까운 3차 구조 수
한편, 최근에 많은 과학자는 단백질 구조형성 과정을 단백질의 에너지 상태 개념으로부터 풀고 있다. 대부분의 단백질은 전체적으로 보아 둥글게 뭉쳐진 공 모양의 형태로 구조를 만들어간다. 표면에는 물을 좋아하는 아미노산이, 내부로는 물을 싫어하는, 즉 기름을 좋아하는 아미노산이 배치된다. 이때 각각의 아미노산은 비틀리거나 꺾이거나 또는 휘어지며 에너지적으로 가장 안정된 상태를 취한다. 따라서 단백질 구조형성 문제를 해결하려는 또다른 방법은 아미노산으로 이뤄진 긴 사슬의 최소에너지 상태를 찾는 것이다.
이런 방법으로 얻어진 모양을 ‘자연구조’(native conformation)라 부르고 단백질의 원래의 모양(natural shape)과 똑같을 것이라고 생각한다. 바로 이 과정에서도 최첨단 컴퓨터가 동원된 생물정보학이 주된 역할을 수행한다. 자연계의 모든 단백질은 3차원 입체상태로 존재한다. 입체구조 내에서 어느 특정부분은 매우 단단한 구조를 형성하기도 하는데, 이를 단백질의 2차구조라 한다. 실제로 가능한 2차구조는 나선구조(helix), 평면상태(sheet), 꺾인 모양(turn) 등이 있다. 2차구조는 매우 규칙적이고 반복적인 구조를 가지고 있다.
이런 특징은 아미노산 사슬을 이루고 있는 원소들 사이의 회전각도(phi, psi)를 보면 쉽게 알 수 있는데 이를 2차 평면에 도식화한 것을 라마찬드란 지도(Ramachandran map)라고 한다. 라마찬드란은 이 패턴을 고안한 인도과학자의 이름이다. 단백질의 3차구조는 다양한 2차구조들이 조합된 결과다. 2차구조의 조합 결과로 생기는 3차구조는 거의 무한대에 가까운 수를 생성해낼 수 있다.
많은 연구자들은 무수히 많은 단백질 3차구조를 빠르고 자동적으로 계산하기 위해 컴퓨터를 사용한다. 컴퓨터는 단백질이 어떤 모양인지 모르지만 화학의 기본규칙인 정전기적 상호작용과 수소 결합, 중성 분자간의 약한 인력 등을 적용해 단백질 구조형성 과정을 흉내낼 수 있다(simulation).
이러한 단백질 3차원 구조의 시뮬레이션을 위해 컴팩, IBM, 오라클 같은 대형 컴퓨터 회사들은 천문학적 단위의 개발비를 투자하고 있다. 특히 IBM은 단백질체학에 이용될 ‘블루진’(Blue Gene)이라는 초고속 슈퍼컴퓨터 개발에 1억달러를 투자하고 있다. 소프트웨어 업체인 오라클도 최근 10만개로 추정되는 인체 내 단백질 목록을 만드는 새 프로젝트의 모든 정보를 저장할 수 있는 데이터베이스를 만들겠다고 발표했다.
2년마다 인터넷 경진대회 개최
2000년 5월부터 9월까지 제4차 CASP라는 대회가 인터넷을 통해 전세계적으로 열렸다. CASP(Critical Assessment of Techniques for Protein Structure Prediction)란 단백질 구조형성 문제를 과학자들이 공동으로 연구하고 나아갈 바를 함께 고민하자는 취지의 대회다.
매 2년마다 열리는 이 대회는 아직 구조가 밝혀지지 않은 단백질을 문제로 두고 전세계 과학자들이 구조를 예측하는 전세계적 실험이다. 인간게놈프로젝트를 주도하고 있는 영국의 생거 센터(Sanger Centre)와 미국의 로렌스 리버모어 국립연구소(Lawrence Livermore National Laboratory) 주최로 열리는 이 실험은 인터넷상에서 이뤄지는데, 세계 각국의 단백질 구조예측 연구팀이 모두 참가한다.
2000년 CASP 대회에는 23개국 1백63개팀이 참가했다. 대회 결과 아미노산 서열의 상동성(homology)이 높은 단백질의 경우에는 예측구조와 실제구조를 비교했을 때 평균오차거리가 4Å(1Å=10-10m) 이내로 매우 작았고, 상동성이 낮은 구조의 경우는 10-20Å의 비교적 큰 평균오차거리를 가짐을 알 수 있었다.
아직 우리는 단백질 구조형성 문제를 해결할 수 있는 정확하고 효과적인 방법을 찾지 못하고 있다. 하지만 현 단계에서 머무르고 있지는 않을 것이다. 보다 밝고 넓은 시야를 갖고 새로운 생각과 새로운 방법을 찾고 있다. 단백질체학이라는 강력한 무기와 밤을 낮삼아 연구에 매진하는 전세계 과학자가 있는 한 멀지 않은 미래에‘단백질 구조형성 문제’에 적절한 해답을 찾을 수 있으리라 믿는다.