게놈프로젝트를 통해 인간을 비롯한 여러 생물의 유전정보가 속속 밝혀지면서 과학자들은 새로운 딜레마에 빠졌다.별다른 쓸모가 없어 보이는 DNA가 게놈의 대부분을 차지하고 있기 때문이다.고등생물일수록 더 큰 비중을 차지하는 '쓸모 없어 보이는'DNA.과연 이 DNA는 용도 폐기된 것일까.아니면 또다른 비밀이라도 간직하고 있는 것일까.
게놈의 크기는 보통 염기쌍의 크기로 표시된다. 대표적인 원핵생물(세포 안에 핵이 따로 없는 하등생물)인 대장균은 4백60만쌍, 진핵생물(원핵생물과 달리 핵막으로 둘러싸인 핵을 가진 생물)인 효모는 1천2백10만쌍, 초파리는 1억4천만쌍, 사람은 30억쌍의 염기로 구성돼 있다. 따라서 지구상에 각 생물종이 출현하는 단계별로, 즉 원핵생물(단세포)-원시진핵생물(단세포)-하등진핵생물(다세포)-고등진핵생물(다세포)의 순으로 게놈의 크기가 증가돼 왔음을 알 수 있다.
고등생물일수록 쓸모 없는 DNA 많아
또 게놈 중에서도 단백질 생산에 직접 사용되는 부분을 유전자라 부르는데, 이 역시 생물의 진화단계에 따라 늘어난 것으로 밝혀졌다. 즉 현존하는 원핵생물 중 가장 작은 게놈 크기를 보유한 미코프라스마의 게놈으로부터 4백70개의 유전자, 대장균과 고초균의 경우 4천2백88개 및 4천1백개의 유전자가 밝혀졌다. 물론 진핵생물은 더 많은 유전자를 가지고 있다. 효모, 초파리, 선충의 경우 6천2백41개, 1만3천6백1개, 1만8천4백24개의 유전자가 확인됐다.
그런데 고등생물일수록 게놈에서 유전자가 듬성듬성 존재한다. 원핵생물인 미코플라스마, 대장균 및 고초균의 경우에 게놈의 크기와 유전자 수를 비교해 보면 대략 1천개의 염기쌍 마다 하나의 유전자가 나타남을 알 수 있다. 이에 비해 인간은 약 3만개의 염기쌍에 1개의 유전자가 있는 꼴이다. 고등생물에서 유전자보다는 다른 부분이 더 커졌기 때문에 전체 게놈이 늘었다는 말이다.
이처럼 게놈의 양이 진화 정도나 유전자 수의 증가와 정비례하지 않는 사실을 유전학에서는 C 패러독스(C-value paradox. C는 DNA의 양을 의미한다)라고 한다. 과연 게놈과 유전자 사이에는 어떤 비밀이 숨겨져 있을까?
인간의 경우 총 30억쌍의 염기 중에서 9천만쌍(3%)만이 실제로 단백질을 합성하는 ‘유전자’(엑손)다. 나머지 97%는 별다른 역할 없이 동일한 염기서열이 반복되는 ‘반복 DNA’(repetitive DNA)이다. 결국 진핵생물에서 게놈 크기의 폭발적인 증가는 유전자와는 별 상관없는 반복 DNA와 같은 비유전자 DNA (noncoding DNA)가 늘어난 것으로 추정된다. 이점에서 어떤 개구리가 인간보다 25배가 큰 게놈을 가지고 있다고 해서 인간보다 더 많은 유전자를 가진 것은 아님을 알 수 있다.
그렇다면 왜 비유전자 DNA나 반복 DNA가 이렇게 늘어났을까. 지구의 역사를 통해 갑작스런 두번에 걸친 게놈과 유전자의 폭발적인 증가가 있었다. 첫번째는 14억년 전 무렵 원핵생물로부터 원시 진핵생물이 탄생하는 시기로, 이때 수천개 유전자를 보유한 원핵생물로부터 1만개에 가까운 유전자를 지닌 원시 진핵생물이 탄생했다. 두번째는 캄브리아 말기 이후 원시 척추동물이 출현하던 시기로, 당시의 원시 척추동물은 적어도 5만개의 유전자를 보유하고 있었을 것으로 추정된다. 그 이유는 현재 지구상에 서식하는 척추동물들이 보유한 유전자수 중에서 5만개가 가장 적은 수이기 때문이다.
어떻게 이런 일이 가능했을까. 우선 게놈 전체를 복제하는 방법이 있다. 이 방법은 가장 빠르게 유전자 수가 증가될 수 있는 방법으로서 식물체의 게놈 크기를 크게 증대시킨 주 요인으로 분석되고 있다. 동물의 경우 발생과정에서 정자와 난자로부터 같은 양의 게놈을 받는다(n+n=2n). 이에 비해 식물의 발생에서는 중복수정을 통해 서로 다른 양의 게놈이 결합된다(n+2n=3n, 이후 분열을 거듭하여 4n, 5n도 가능하다). 그래서 식물의 게놈이 동물에 비해 훨씬 커졌다.
다음으로 생각할 수 있는 방법은 게놈 중에서도 염색체 하나를 복제하는 것이다. 하지만 이 방법은 실현될 가능성이 낮다. 왜냐하면 사람의 경우 한 세포에 세개의 염색체(trisomy)를 가질 경우, 죽거나 다운증후군 같은 유전적 질환을 야기할 수 있기 때문이다. 즉 염색체가 늘어나는 것이 불가능한 것은 아니지만, 곧 도태돼 버린다는 말이다.
그렇다면 남은 길은 염색체 안의 유전자를 복제하는 방법이다. 게놈프로젝트가 완료된 효모, 선충, 초파리의 게놈에서, 그리고 한참 진행중인 인간게놈에서 살펴보면, 이 방법으로 새로운 유전자를 획득했다는 구체적인 증거들이 제시되고 있다. A라는 유전자를 포함하고 있는 DNA 영역이 복제돼 게놈 내에 두개의 A유전자가 만들어졌다고 하자. 이 두개의 A유전자는 처음에 같은 유전자였으나 시간이 흐름에 따라 각 유전자에서 독립적인 변화(돌연변이 등)가 축적됨으로써 염기서열의 일부가 약간씩 달라질 수 있다. 그 결과 A유전자로부터 A’, A’’, A’’’…의 새로운 유전자가 발생하게 된다.
이들 유전자는 염기서열이 부분적으로 다르다 하더라도 세포 내에서는 유사한 기능을 유지하기도 하며, 때로는 유전자의 기능을 잃어버리기도 한다(유사유전자, pseudogene). 이것이유전자 복제를 통해 유전자의 기능을 잃어버린 DNA들이 생겨나는 이유다. 게놈프로젝트의 결과, 효모게놈의 6천2백41개 유전자 중 1천8백58개가 이런 식으로 복제된 유전자로 밝혀졌으며, 선충게놈의 경우 1만8천4백24개 유전자 중 8천9백71개, 초파리게놈의 경우 1만3천6백1개 유전자 중 5천5백36개가 복제된 유전자라는 사실이 밝혀졌다.
혈액 단백질의 비밀
인간의 경우에도 유전자 복제를 통한 게놈진화를 설명할 수 있는 증거들이 많이 제시되고 있다. 가장 명확한 예는 글로빈(globin)유전자 그룹이다. 글로빈은 혈액의 구성성분으로서 4개의 글로빈 분자가 모여 헤모글로빈을 만들게 된다. 이때 4개의 분자중 2개는 ‘알파-글로빈’(α-globin)이고 다른 2개는 ‘베타-글로빈’(β-globin)이다. 알파, 베타 글로빈은 서로 다른 염색체에서 유사한 유전자들과 함께 그룹을 이루고 있다. 그런데 염기서열을 분석해보면 같은 그룹의 글로빈 유전자라 해도 매우 유사하긴 하지만 정확하게 일치하지는 않았다. 예를 들어 베타-글로빈 유전자 그룹의 베타-글로빈과 입실론-글로빈(ε-globin)은 79.1%만이 동일하였다.
같은 유전자 그룹 내의 여러 유전자들이 염기서열에서 조금씩 차이를 보인다는 사실은 게놈 진화의 증거가 된다. 우선 입실론-글로빈은 사람의 초기 배발생 시기(embryo gene)에 작동하고, G 감마-글로빈과 A 감마-글로빈은 태아 발생(fetus gene)시기에, 그리고 알파-글로빈과 베타-글로빈은 태어난 후 작동한다(adult gene). 즉 발생과정을 따라 각 유전자가 역할을 분담한다고 볼 수 있다. 이것은 염기서열을 토대로 유전자가 유전자 복제에 의해 분화하는 시기를 추정해 본 결과와 일치했다. 먼저 약 8억년 전 하나의 조상 유전자에서 복제에 의해, 근육세포에서 기능을 발휘하는 미오글로빈 유전자와 글로빈 유전자가 갈라졌다. 글로빈 유전자는 다시 복제에 의해 원시 알파- 및 베타-글로빈 유전자로 갈라지는데, 이때가 약 5억년 전으로 추산된다. 이후 알파-글로빈 유전자 그룹과 베타-글로빈 유전자 그룹 안에서 유전자 복제 등을 거쳐 오늘날의 게놈구조를 형성하게 된 것이다.
게놈 진화의 또다른 증거는 반복체(repeti-tive elements)에서 찾을 수 있다. 반복체는 반복 DNA 중에서도 기능이나 형태 면에서 특이한 부분을 일컫는다. 단백질을 합성하는 유전자 DNA의 경우 기능에 따라 유전자마다 서로 다른 염기서열을 가지는데 반해, 이 반복체들은 모두 같은 염기서열을 가진다. 그러나 반복체 염기서열에서 가장 중요한 점은 마치 유전자처럼 단백질을 만들어내는 부분이 있다는 사실이다. 반복체는 종류에 따라 하나에서 세개까지의 단백질 유전자를 가지고 있는데, 이들 단백질은 에이즈바이러스와 같은 레트로바이러스(retrovirus)의 단백질과 동일하거나 유사한 기능을 하고 있다. 그럼에도 불구하고 여전히 반복체를 유전자 DNA라 부르지 않는 이유는, 반복체가 만드는 단백질이 신체 활동과는 무관한, 오직 유전자 반복 부위의 생존과 증식에만 필요한 것으로 보이기 때문이다. 반복체는 게놈 내에서 끊임없이 스스로를 복제하고 다른 장소로 이동한다. 그 결과 같은 반복체가 급격히 증가한다.
진핵생물의 게놈에서 많게는 50% 이상을 차지하고 있는 반복체의 기원을 설명하기 위한 많은 노력이 있었지만 아직까지 확실한 해답을 찾지 못하고 있다. 단지 이들의 구조뿐만 아니라 합성하는 단백질과 게놈 속으로 끼어 들어가는 과정이 레트로바이러스와 아주 유사하기 때문에, 현재로서는 레트로바이러스와 관련해 이들의 기원을 설명하려는 시도들이 주로 이루어지고 있다. 간단히 말해 레트로바이러스와 진핵생물의 반복체는 같은 초기 원시 게놈에서 진화해온 것이다. 레트로바이러스가 막단백질을 생산해 초기 조상 게놈에서 독립해 독자적으로 진화한데 비해, 진핵생물의 반복체는 독립하지 않고 초기 원시 게놈의 진화를 따라 내부에 정착했다는 점이 다르다.
인간과 침팬지 차이는 1.5%
반복체는 생명체 진화와는 무슨 관계가 있을까. 진핵생물에서는 반복체가 게놈의 가장 큰 부분을 차지하고 있지만, 진핵생물의 조상으로 생각되는 원핵생물에서는 거의 발견되지 않고 있다. 그러므로 반복체가 진화 과정에서 생성된 후 폭발적으로 증가함에 따라 복잡한 진핵생물의 게놈이 발달했다고 생각할 수 있다.
같은 영장류인 사람과 침팬지의 유전자 DNA 염기서열 차이는 1.5% 정도로 아주 낮다. 반면 유전자 DNA를 제외하면 그 차이가 3%로 더 늘어난다. 그렇다면 유전자 DNA를 뺀 나머지 게놈 대부분이 반복체이므로, 이 차이가 사람과 침팬지를 다르게 만든 것으로도 생각할 수 있지 않을까.
지금까지 생물학자들은 이제껏 DNA에 대해 단백질을 합성하는 유전자 기능만을 중심으로 생각했다. 그러나 생물 진화를 게놈의 진화와 연결시키면서 DNA에 대한 더욱 폭넓은 이해를 할 수 있게 됐다. 즉 개별적인 특정 유전자보다는 역동적인 게놈 전체의 구조에 보다 많은 관심을 갖기 시작한 것이다. 아직까지는 전체 게놈 구조를 완전하게 파악하고 있는 생물체가 20여종 밖에 없지만, 게놈분석기술의 발달로 국제적으로 진행되고 있는 게놈프로젝트가 가까운 미래에 많은 정보를 제공해 줄 것이다. 그때가 되면 진화정도에 따른 여러 생물체간의 비교연구를 통해 인간 DNA의 기원과 진화에 대한 보다 많은 비밀들이 풀리게 될 것으로 기대된다.
반복체, 산모 면역세포로부터 태아 보호
반복체는 생명을 유지하는데 필요한 단백질을 만들지 못하기 때문에 아무런 기능을 수행하지 않는 쓸모 없는 DNA 조각처럼 보인다. 그래서 생물학자들도 이에 대해 별다른 연구를 하지 않았다. 그러나 최근 게놈 분석을 통한 연구가 활발하게 이루어지면서, 이들이 세포 내에서 수행하는 역할이 많이 알려졌다.
우선 염색체나 유전자의 구조와 관련해 아주 중요한 역할을 하고 있다. 염색체의 구조적 성분인 동원체(centromere)나 종말체(telomere)가 바로 이러한 반복체로 이루어져 있다. 최근에는 유전자 DNA의 발현을 조절하는 인트론도 반복체로 이루어져 있다는 연구 결과도 나왔다.
또 반복체의 일종으로 내인성 레트로바이러스(endogeneous retrovirus)라는 것이 있는데, 최근 이들의 놀라운 역할이 알려졌다. 사람의 임신기간 중 수정란이 착상을 하여 태반을 형성하면, 태아와 산모에서 각각 유래된 세포가 서로 융합해 합포체성 영양세포막(syncytio-trophoblast)을 형성한다. 합포체성 영양세포막을 통해 태아는 산모로부터 필요한 여러 가지 영양분을 얻는다. 그런데 내인성 레트로바이러스가 합성하는 막단백질(envelope protein)이 이러한 영양세포막을 형성하기 위한 세포 융합을 일어나게 한다는 사실이 밝혀진 것이다. 게다가 이 막단백질은 산모의 항체가 태아를 이물질로 인식해 공격하는 것을 막는 면역억제력도 가지고 있다.