d라이브러리









3. 인간게놈프로젝트가 남긴 미스터리

사이버 세포가 단서 제공할듯

인간게놈프로젝트의 성과가 발표됐지만 지금까지도 유전자를 예측하는 가장 기본적인 문제가 해결되지 못하고 있다. 분석된 유전자 정보를 질환 치료와 같이 실질적인 인간 생활에 적용하려는 연구도 그리 성공하고 있는 것으로 보이지는 않는다. 포스트 게놈시대에 생명과학자가 풀어야할 남겨진 문제를 살펴보자.

 

인간의 게놈정보는 23쌍의 염색체에 들어있다. 이를 통해 모든 생명현상을 설명할 수 있다는 생각으로 시작된 것이 인 간게놈프로젝트다.



코난 도일의 소설에 나오는 셜록 홈즈는 복잡한 사건을 해결하기 위해 ‘환원적 추리’라는 독특한 방식을 사용한다. 어떤 사건에서 가능할 수 있는 모든 기본 사실들을 나열하고 각각의 타당성 여부를 비교 검토한다. 이를 통해 복합적인 사건을 설명하는 가설을 세워 조사와 관찰이라는 수단으로 입증하는 것이다.

복잡한 생명현상을 이해하기 위해 지금까지 생명과학자들이 견지해 왔던 접근법도 홈즈의 환원적 추리와 크게 다르지 않다. 모든 생물 현상을 유전자라는 기본 단위를 통해 밝힐 수 있다는 생각을 바탕으로 생물체에 존재하는 모든 유전 정보를 획득하려는 다소 무모해 보이는 시도를 하게 됐다. 이런 노력의 정점으로 나타난 것이 2001년 초에 게놈지도 초안을 발표한 인간게놈프로젝트다.

사회 전 분야에서 거대한 반향을 일으키며 많은 관심을 불러 일으켰던 인간게놈의 초안이 발표된 지도 벌써 1년 6개월에 가까운 시간이 흘렀다. 그러나 모든 사건을 척척 해결했던 홈즈와 달리 비슷한 전략을 채택한 현재의 생명과학은 해석한 게놈 정보를 질환 치료 등 실질적인 측면에 적용하는데 그렇게 성공적이지 못한 것으로 보인다. 도대체 무엇이 문제인 것일까.


갈피를 잡지 못하는 유전자 수

인간게놈지도 초안이 발표된 이후 가장 많은 관심을 끌었던 주제 중 하나는 인간의 게놈에는 과연 몇개의 유전자가 있을까 하는 문제다. A, G, C, T라는 네가지 염기가 다양한 방식으로 배열돼 일정한 구조를 이루는 유전자를 예측하기 위해 지금까지 생명과학자들은 다양한 방식들을 적용했다. 그런데 방법에 따라 예측된 유전자의 수는 3만개에서부터 15만개에 이르기까지 다양하게 보고되고 있다. 아직까지 어떤 방법이 가장 합리적인지에 대한 기준조차 정하지 못하고 있는 상황이다. 그 이유를 추적해 보자.

DNA 염기서열에서 유전자 수를 예측하는 가장 초보적이고도 중요한 방법은 통계적인 방법이다. 즉 컴퓨터 프로그램을 이용해 유전자를 찾아내는 것이다. 이를 위해서는 유전자를 구성하는 프로모터, 엑손, 그리고 인트론 등의 염기서열상의 특징에 대한 정보를 입력하고, 미지의 염기서열에 이들 구조가 있는지를 검색해 그 부위에 유전자가 포함돼 있는지를 판단한다.

이 접근법의 성공여부는 입력된 정보의 정확성에 전적으로 달려있다. 그런데 말라리아 게놈을 대상으로 한 최근 연구에 의하면, 유전자 예측 가능성은 40% 정도에 불과하다. 이는 유전자에 따라 구조적 특징이 조금씩 다른데, 아직까지는 이용되는 데이터가 이를 고려할 만큼 충분하지 못하기 때문이다. 따라서 데이터가 완전히 갖춰지기 전에 컴퓨터 프로그램으로 정확하게 유전자를 예측하는 일은 한계를 가질 수밖에 없다. 아울러 데이터를 좀더 정교하게 구성하기 위해서는 그만큼 더 많은 유전자 정보가 필요하다. 결국 이 방법은 유전자의 존재를 확인하는 다른 접근법의 도움을 받아야 한다는 얘기다.

그래서 유전자 수를 예측하기 위해 표본 게놈 부위를 이용한 비교학적인 방법이 시도되고 있다. 이것은 이미 분석이 끝난 특정 염색체에서 유전자를 예측하고, 전체 게놈에서 그 염색체가 차지하는 비율을 고려해 한 생물체의 유전자 총합을 산출하는 방법이다. 이 방법의 기본 전제는 유전자의 수는 염색체의 길이에 비례한다는 것이다. 그러나 인간게놈지도 초안에 보고된 결과를 보더라도 유전자는 염색체 전체에 걸쳐 고르게 분포하지 않으며, 또한 염색체마다 유전자 빈도가 다르다. 따라서 비교 대상으로 선정한 염색체의 조건에 따라 유전자 수가 지나치게 많은 것으로 평가되거나 낮게 평가될 수 있다는 문제점을 지닌다.

유전자 수를 예측하는 최근 방법은 발현된 염기서열조각(EST, Expressed Sequenced Tag) 정보를 이용한다. 유전자는 mRNA로 전사되고, 이 mRNA의 정보를 바탕으로 직접적인 기능을 담당하는 단백질이 합성된다. 기능적인 면에서 볼 때 유전자의 가장 큰 특징은 RNA로 전사된다는 것이며, 전혀 전사되지 않는 염색체 부분은 유전자가 아니라고 볼 수 있다. 따라서 특정한 생물체에서 얻은 EST 정보의 총합은 곧 유전자의 총합이 된다.


발현되지 않는 유전자

EST를 통해 유전자 수를 예측하는 방법은 합리적이고 정확한 것일까. 불행하게도 반드시 그렇지는 않다. 우선 총체적인 EST 정보를 수집하는 일 자체가 상당한 시간적, 경제적 부담이 된다. 또 mRNA는 아주 불안정한 분자이기 때문에 실험실에서 회수하는 과정에 파괴되는 부분이 많고, 유전자에 따라 양이 아주 적은 경우도 있어 분석과정에서 누락될 수 있다.

좀더 근본적인 단점도 눈에 띈다. 기존에 생명과학자들은 유전자가 있으면 반드시 그 유전자는 발현이 되고 특정한 역할을 수행할 것으로 생각했다. 그러나 최근 몇년간 연구된 결과들을 보면 유전자의 존재가 곧 발현과 직결되는 것이 아님을 알 수 있다. 따라서 EST 분석에 의한 유전자 수 예측은 대부분의 상황에서 발현되지 않는 유전자를 누락시키게 된다. 이 외에도 유전자는 발생 단계에 따라 정교하게 조절돼 발현하기 때문에 모든 발생 단계에서 필요한 EST 정보를 수집하는 것은 사실상 불가능하다.

최근에는 유전자 개념 자체에 대한 의문도 제시되고 있다. 이는 기존에 널리 받아들여지고 있던 ‘한 유전자 = 한 폴리펩타이드’라는 개념에 위배되는, 즉 단백질 합성과는 전혀 관계없이 ‘전사된 RNA’ 자체로서 기능을 수행하는 유전자들이 계속 발견되고 있기 때문이다. 물론 기존에도 리보솜을 구성하는 rRNA나 단백질 합성시 아미노산을 전달하는데 관여하는 tRNA 등과 같이 RNA 자체로서 특정 기능을 수행하는 몇몇 유전자들이 알려져 있었는데 크게 주목받지 못했다.

최근 전사된 RNA가 염색체와 결합해 그 부분에 존재하는 유전자들의 전사를 억제하는 것이 발견됐다. 뿐만 아니라 전사된 RNA의 일부 조각이 다른 유전자의 끝부분에 결합해 mRNA 파괴를 유도함으로써 단백질 발현을 조절하는 마이크로 RNA라는 것도 발견됐다. 단백질 합성과는 무관한 이런 유전자들을 기존의 유전자(coding gene)와 구별해 비부호 유전자(non-coding gene)라고 부르는데, 이들의 특징에 대해서는 많이 알려져 있지 않다.

이렇듯 특정 생물의 게놈정보만 갖고 유전자의 존재나 기능을 예측하는 일은 쉽지 않다. 최근에는 유사한 진화 단계에 있는 다른 생물체의 게놈을 분석하고 이들을 서로 비교함으로써 게놈을 분석하는 새로운 방법들이 적극적으로 모색되고 있다. 흔히 비교유전체학(comparative genomics)이라고 하는데, 벼와 애기장대풀, 사람과 생쥐 또는 침팬지의 게놈을 비교하려는 시도들이 그것이다.

비교유전체학에 의해 유전자의 존재나 기능을 예측하는 일은 유전자들이 잘 보존돼 있을 경우에는 아주 효율적이다. 그러나 유전자의 진화가 빠르게 진행됐거나, 비부호 유전자들이 많을 경우에는 적용하기가 어렵다. 한 예로써 올해 초안이 발표된 벼와 애기장대풀의 게놈을 비교한 결과를 보면, 애기장대풀의 유전자는 80%가 벼에 상동유전자(homologs)를 갖고 있는 반면, 벼 유전자의 50%만이 애기장대풀에 상동유전자가 있다. 이는 좀더 진화된 단계에 있는 벼가 새로운 유전자들을 많이 획득했기 때문으로 볼 수도 있지만, 전위인자(transposable element)들이 빠르게 진화함으로써 마치 새로운 유전자처럼 인식됐을 수도 있다.
 

최근 DNA에서 염기서열을 예측하는 방법 자체가 근본적 으로 잘못돼 있다는 의견이 제기되고 있다.



세포 환경에 따라 단백질 합성 달라져

인간게놈지도 초안이 발표된 이후, 유전자의 수에 대한 관심 못지 않게 주의를 끈 것은 특정 행동이나 질환을 결정하는 유전자를 규명해 인간의 행동을 설명하거나 치료 목적에 이용하는 일이다. 이를 위해 SNP를 단백질 기능과 직접 관련시키거나, DNA 칩을 이용해 암과 같은 특정 질환에서 전체 유전자 발현 양상의 변화를 확인함으로써 여러 생명현상을 설명하려는 시도들에 많은 시간과 노력이 투자되고 있다. 수년에 걸친 이런 노력의 결과 엄청난 양의 SNP 정보와 특정 질환과 관련된 유전자에 대한 정보가 축적됐다. 그러나 아직까지 정확성이나 현실적인 적용 면에서 볼 때 만족할 만한 수준에 도달하고 있지 못하다. 이것은 접근 방법상의 문제 등으로 인해 아직 확실한 원인 유전자 또는 원인 염기 변형을 규명하지 못했기 때문으로 해석될 수 있다. 그런데 최근에 새로이 나타난 게놈 연구의 방향을 고려해 보면 문제는 전혀 다른 곳에서 찾아야 할 것으로 보인다.

사람의 게놈은 서로 다른 23개의 염색체로 이뤄져 있다. 이들 염색체는 각각 쌍으로 존재하며, 세포 분열과 같은 특정한 단계를 제외하고는 대부분 염색사(chromatin)라고 하는 느슨하게 풀어진 실타래 같은 모양을 하고 있다. 기존에는 이들 염색사가 핵 속에 임의로 분포돼 있을 것으로 생각했다. 그러나 최근 연구들은 염색사가 핵 속에서 일정한 위치를 점유하고 있으며, 핵 속에서의 위치에 따라 유전자 발현 여부가 달라짐을 보여주고 있다. 예를 들어 정상적인 경우 유전자 발현이 억제되는 말단체(telomere) 부분은 핵막 가까이 위치하고 있으며, 말단체의 끝부분은 핵막에 고정돼 있다. 그러나 말단체의 구조가 파괴되거나 변형돼 핵 속에서 좀더 안쪽으로 위치하면 억제됐던 유전자가 다시 발현되는 것이다.

유전자 발현은 유전자 주변의 환경에 의해서도 영향을 받는다. 전위인자와 같은 반복 염기서열들이 유전자 주변으로 끼어 들면 DNA를 구성하는 시토신에 메틸기가 부착되는 메틸화 현상이 유도되면서 유전자의 발현이 억제된다. 즉 전위인자가 유전자 근처에 위치하면 주변에 존재하는 유전자의 발현 조절양상이 변한다는 연구결과들이다.

이런 연구들이 관심을 끄는 이유는 세포 내에서 전체 단백질 풀에 변화가 일어나면, 단백질들 간의 상호 작용에 의해 나타나는 여러 현상들을 변화시킬 수 있기 때문이다. 거의 모든 생명현상은 단일 단백질에 의해 결정되는 것이 아니다. 수개에서 수백개의 단백질들이 서로 협동으로 또는 순차적으로 관여해 결정하는데, 이때 관여하는 단백질 풀들의 각 성분의 양은 정교하게 조절되는 것으로 생각된다. 따라서 특정 단백질이 필요 이상으로 많이 합성되거나 전혀 합성되지 않는다면 결과는 전혀 다른 방향으로 진행될 수 있다.


SNP, 질환의 직접적인 이유인가

특정한 유전자에 유도된 염기서열 변화가 특정한 질환과 관련돼 있기 때문에 이 유전자의 이상을 바로잡음으로써 질환을 치유할 수 있다는 믿음에도 의문이 제기되고 있다. 즉 질환을 야기하는 유전자에서의 염기변화를 발견하고, 유전자 도입 등의 방법에 의해 이 오류를 바로 잡음으로써 질환을 치료하려는 시도들이 크게 성공을 거두고 있지 못하고 있는 것이다. 이것은 유전자 도입 과정에서 오는 어려움 때문도 있지만 좀더 근본적인 원인은 단일 유전자에서의 변화가 특정한 질환과 직결된다는 생각에서 찾아야 할 것으로 보인다.

최근 큰 관심을 끌고 있는 분야 중 하나인 SNP 분석의 예를 살펴보자. SNP가 발견된 유전자 부위가 단백질의 기능에 결정적으로 영향을 미치는 곳이라면 문제는 간단하다. 그러나 그렇지 않은 경우 그 영향을 예측하거나 관측하기는 쉽지 않다. 더욱이 세포 내에서 일어나는 거의 모든 메커니즘에는 대체경로가 존재하기 때문에 특정한 단백질이 SNP에 의해 기능변화가 유도됐다고 하더라도 대체경로에 이상이 없으면 그 변화는 가시적인 결과를 가져오지 않는 경우가 대부분이다. 따라서 SNP에 의해 특정한 질환을 설명하려면 복잡한 전체 단백질 풀의 작용경로에 대한 이해가 선행돼야 하며, 이들 관련 단백질 풀에 유도된 SNP의 총합에 대한 정보가 있어야 한다. 그러나 이것은 게놈 구조를 결정하거나 유전자를 예측하는 것보다 훨씬 어렵고 방대한 일이다.

따라서 최근에는 SNP에 대한 정보가 특정한 현상을 설명하는 직접적인 이유로 제시되기보다는 관련성이 있는 표지자(linkage marker)로 더 많이 이용되고 있다. 결국 SNP를 이용하려는 시도들이 초기 예상과는 달리 크게 효과적이지 못하면서 정확한 유전자의 예측 외에도 이들 유전자들의 상호작용에 대한 연구가 동시에 진행돼야 하는 필요성이 강하게 대두되고 있다.

이미 전체 게놈지도가 완성되고 존재하는 유전자의 예측도 끝난 효모의 경우 하나의 세포에 두개의 유전자를 동시에 도입해 이들의 결합여부를 관찰하는 방법으로 각 유전자들이 합성하는 단백질의 상호작용을 이해하려는 시도들이 수년 전부터 진행되고 있다. 그러나 이는 엄청난 시간이 소요되며, 세가지 이상의 단백질들이 동시에 또는 순차적으로 작용하는 과정에 대한 정보를 얻기에는 아직도 요원하다. 그리고 5배에서 20배까지의 유전자가 더 존재할 경우에 이 시도가 과연 지금과 같은 방법으로 시도될 수 있을지 의문이다.


홈즈에게서 배우는 성공 전략

환원적 추리의 성공여부는 크게 두가지 수준에 의해 결정된다. 즉 얼마나 충실하고도 객관적으로 초기의 기본 단위 현상들을 도출할 수 있는가와 도출된 기본 사실들을 얼마나 객관적으로 복합적인 사건 설명에 적용할 수 있는가 하는 문제다. 홈즈의 경우는 이 두가지 면에서 모두 성공을 거둬서 비록 소설 속의 가공 인물이지만 역사상 가장 훌륭한 탐정으로 인정될 수 있었다.

비슷한 전략을 채택한 생물학도 인간게놈지도 초안이 발표될 때까지는 이 전략이 아주 성공적인 것으로 보였다. 그러나 상황은 그렇게 낙관적이지 않다. 사람들이 게놈에 존재하는 유전자의 수와 기능에 가장 큰 관심을 기울이는 것은 아마도 이들 유전자의 존재와 이상이 질환이나 특정한 행동양식을 결정하는데 결정적으로 관여할 것이라는 믿음 때문일 것이다. 그러나 현재까지 축적된 유전자에 대한 정보만으로는 유전자의 존재를 예측하는 것이 용이하지 않다. 그리고 좀더 중요한 사실은 ‘유전자의 존재 = 형태학적인 또는 행동학적인 형태 결정’이라는 기존의 도그마가 깨지고 있다는 것이다.

즉 유전자가 존재하더라도 그 유전자의 존재에 의해 아무런 결과가 나타나지 않을 수도 있다. 그리고 생물계에 존재하는 전체 유전자 풀을 고려할 때 단백질의 기능이 알려진 유전자가 극히 일부분에 지나지 않기 때문에 비록 여러 방법에 의해 정확하게 유전자의 존재와 구조를 밝혔다고 하더라도 그 기능을 확인하는 것은 역시 어려운 일이다. 또 개별 단백질의 기능이 알려진 후에도 전체 단백질 풀에서 각각의 단백질들이 관여하는 정확한 상호작용 메커니즘에 대한 이해가 있어야 한다.

최근 이 문제를 해결하기 위해 컴퓨터를 이용한 전혀 새로운 방향의 연구가 진행되고 있다. 1천6백개 유전자에 대한 모든 정보가 수집 완료된 미코플라스마(Mycoplasma) 연구에서 유전정보를 입력하고 외부에서 다양한 자극을 준 후 전체 단백질 풀의 변화를 관찰하는 사이버 세포(cyber cell)를 활용한 것이다. 비록 이 기술은 아직 초보적인 수준을 벗어나지 못하고 있지만, 포스트게놈 시대에 지향해 나가야할 새로운 연구방향을 제시해 주고 있다는 점에서 의미가 있다.

지금까지의 게놈연구에서 남겨진 문제를 해결하기 위해서는 각 접근법들이 갖고 있는 한계를 극복할 수 있는 새로운 방법론을 정립하는 일과 함께 분할에서 통합으로의 방향 전환이 이뤄져야 한다. 생물계에서 부분의 합은 항상 산술적인 합 이상의 결과를 나타낸다. 따라서 다양한 방법들에 의해 도출된 단위 현상들을 유기적으로 결합해 복잡한 상황에 적용하는 방향의 연구가 절실하게 요구되고 있다. 이를 위해서는 인간게놈지도 초안을 마련하는데 걸렸던 것보다 몇십배 이상의 노력과 시간이 소요될 것으로전망된다.

2002년 08월 과학동아 정보

  • 배영안 박사후 연구원

🎓️ 진로 추천

  • 생명과학·생명공학
  • 화학·화학공학
  • 컴퓨터공학
이 기사를 읽은 분이 본
다른 인기기사는?