d라이브러리 2001년 12월 과학동아

세포 내에서 이뤄지는 화학반응을 이용한 DNA컴퓨터가 기존 컴퓨터의 한계를 극복할 대안으로 떠오르고 있다. 실리콘 기반의 기존 컴퓨터로는 도저히 따라올 수없는 크기와 성능을 자랑하는 DNA컴퓨터. 그 원리는 무엇이며 어디까지 개발 됐는지 알아보자.

‘컴퓨터’ 하면 우리는 대부분 키보드와 모니터, 그리고 본체라고 불리는 네모난 상자를 떠올린다. 또 ROM, RAM, 기가바이트, 메가헤르쯔 같은 어려운 용어도 떠올려야 한다. 우리는 이미 실리콘 소재로 만든 마이크로칩 기반의 컴퓨터에 익숙해져 있는 것이다. 하지만 컴퓨터가 꼭 그래야 할 필요가 있을까.

지금까지 컴퓨터 발전의 역사는 ‘보다 빠르게, 보다 작게’라는 구호 아래 숨가쁘게 달려왔다. 하지만 기존의 마이크로칩은 결국 속도와 크기 경쟁에서 곧 한계에 도달할 것이다. 지금도 세계 유수의 반도체칩 연구원은 컴퓨터의 속도를 더욱 향상시킬 새로운 물질을 간절히 찾고 있다.

컴퓨터 학자가 떠올린 아이디어

마이크로프로세서의 차세대 선두 주자로 가장 각광받고 있는 재료는 바로 DNA다. DNA는 우리 몸 속의 유전자를 이루고 있는 나선 형태의 긴 고분자물질이다. 그런데 이 DNA 분자가 현존하는 가장 강력한 컴퓨터보다 최소 수백배 이상의 빠른 계산 능력이 있음을 밝히는 논문이 발표됐다. 지난 1994년 11월, 사이언스지에 발표된 ‘분자컴퓨팅을 이용한 조합문제 해결’이란 논문이 그것이다. 논문의 결론에 따르면 현재 인간을 포함한 우리 주위의 생명체에는 수백억에 달하는 ‘자연산 슈퍼컴퓨터’가 존재하는 셈이다.

논문의 저자는 미국 남캘리포니아대(USC)의 레오나르도 아들만(Leonardo M. Adleman) 교수다. 수학자이자 컴퓨터 과학자인 그가 DNA컴퓨터를 생각한 것은 1993년의 일이다. 당시 그는 컴퓨터 과학자로서 AIDS 연구에 참여하고 있었는데, 생물학에 대해서는 문외한이나 다름없는 그로서는 다른 연구자들과 의사소통을 하는데 어려움이 많았다. 그래서 그는 생물학, 특히 분자생물학에 대해서 깊이 공부하기 시작했다. 공부를 통해 그는 분자생물학이란 DNA 속에 저장된 정보와 그 정보가 세포 속에서 행하는 형질전환을 연구하는 학문이라는 것을 깨달았다. 그리고 DNA는 아데닌(A), 구아닌(G), 시토신(C), 티민(T)이라는 네가지 문자로 구성된 사슬이라는 점을 알았다.

어느날 아들만은 침대에 누워 DNA 이중나선 구조를 발견한 제임스 왓슨이 직접 쓴 분자생물학 교재를 읽고 있었다. 그때 문득 DNA와 컴퓨터 계산 개념의 연관성에 대한 착상이 떠올랐다. 그가 읽고 있던 부분은 DNA 중합효소(polymerase)에 대한 내용이었다.

DNA 중합효소와 튜링기계

DNA 중합효소는 DNA를 합성하는 역할을 하는 효소다. 적절한 조건에서 단일사슬의 DNA 가닥이 주어지면, DNA 중합효소는 왓슨-크릭의 상보성의 원리를 바탕으로 A와 T, C와 G를 각각 연결시켜 단일사슬의 반대편 사슬을 합성한다. 이런 규칙에 따라 단일사슬의 DNA 가닥은 그것과 상보적인 DNA 가닥을 ‘짝’으로 얻게 된다. 즉 DNA 중합효소는 세포 내에서 주어진 입력값에 따라 DNA를 합성하는 일종의 ‘나노기계’다. 예를 들어 GTCATC라는 DNA 배열을 포함한 분자가 있다고 하자. 이 DNA 분자를 만났을 때, DNA 중합효소는 CAGTAG라는 DNA 배열을 갖는 분자를 만들어낸다. 이런 DNA 중합효소의 특징을 흥미롭게 읽은 아들만은 곧 ‘튜링기계’(Turing machine)를 떠올렸다. 컴퓨터 과학자인 아들만에게 어쩌면 당연한 연상이었는지 모른다.

튜링 기계는 20세기 영국의 위대한 수학자 가운데 한 사람인 앨런 튜링(Alan Turing)이 고안한 가상의 개념이다. 튜링은 컴퓨터가 등장하기 10년 전인 1936년 발표한 논문에서 ‘계산 가능성의 개념’을 순수한 이론적 작업을 통해 확립했다. 이런 목적에 부응하도록 튜링 기계는 입·출력 테이프와 헤드, 제어장치로 간단히 구성된다. 제어장치는 제한된 제어 기능을 수행하며 테이프를 통해 입력된 정보를 계산, 기록(기억)하고 최종 결과를 출력한다.

이런 개념을 바탕으로 입력 테이프에 기록된 A, G, C, T 기호의 연속체를 읽고 왓슨-크릭의 상보성의 원리에 따라 입력된 염기의 상보적 가닥을 출력 테이프에 기록하는 프로그램을 쉽게 작성할 수 있다. 이런 사실을 연상한 아들만은 DNA컴퓨터의 개념을 착안했다.

DNA를 구성하는 네염기는 각각 주어진 자신의 짝하고만 반응한다. A는 T, 그리고 C는 G하고만 결 합한다. 이를 DNA의 상보성 원리 라고 한다.

슈퍼컴 해결 못한 ‘외판원 문제’

아들만이 착안한 DNA컴퓨터의 개념은 충분히 가능해보였다. 남은 문제는 그 가능성을 실제로 확인하는 것이다. 이를 위해 아들만이 선택한 것은 이른바 ‘해밀턴 경로문제’라고 불리는 것이었다. 해밀턴 경로문제는 19세기 중엽 스코틀랜드의 궁정 천문학자인 윌리엄 해밀턴이 제시한 ‘해밀턴 게임’을 변형한 것이다. 원래 해밀턴 게임은 정십이면체의 한 꼭지점에서 출발해 변을 따라 차례로 남아 있는 19개의 꼭지점을 단 한번만 통과해 처음 꼭지점으로 돌아오는 경로를 찾는 게임이다.

해밀턴 경로문제는 ‘외판원 문제’(traveling salesman problem)로 더 잘 알려져 있다. 정다면체의 꼭지점을 외판원이 들러야 하는 도시로 간주해, 가능한 모든 경로를 계산한 다음 최소거리를 여행하는 경로를 찾아내는 것이다. 많은 과학자들이 외판원 문제를 해결하기 위해 애를 썼지만 효과적인 알고리듬이 아직 발견되지 않았다.

오늘날 가장 효과적인 알고리듬과 가장 좋은 컴퓨터를 사용한다고 해도, 꼭지점 수가 1백개 미만인 해밀턴 경로를 확인하는데 수억년 이상 걸린다. 꼭지점의 수, 즉 도시의 수가 증가할수록 컴퓨터가 계산해야 할 정보량은 무궁무진하게 증가하기 때문이다. 하지만 아들만은 DNA를 이용해 해밀턴 경로문제를 효과적으로 해결했다. DNA를 이용한 컴퓨팅의 가능성을 제시한 것이다.

꼭지점과 변에 DNA 배치

아들만은 6개의 꼭지점이 있는 해밀턴 경로문제를 실험했다. 물론 꼭지점이 6개라면 일반 컴퓨터로도 쉽게 계산이 가능하다. 하지만 아들만의 실험은 DNA 컴퓨팅의 가능성을 제시했다는데 큰 의의를 가진다. 아들만의 실험에 사용된 원리를 확장하면 꼭지점이 1백개가 넘더라도 가능한 경로를 찾아내는 것은 그리 어렵지 않기 때문이다.

먼저 그는 각 꼭지점에 20개의 염기로 구성된 임의의 DNA 단일나선을 할당했다. 다음은 한 꼭지점에서 인접한 꼭지점으로 연결되는 변에도 DNA 단일나선을 부여했다. 이 사슬도 20개의 염기로 구성했다. 그런데 각 변의 염기사슬을 구성하는 방법은 조금 복잡하다. 변의 염기사슬 처음 10개는 출발하는 꼭지점의 뒷부분 염기 10개로, 변의 나머지 10개 염기는 도착하는 꼭지점의 처음 10개 염기로 구성했다. 다소 복잡해 보이지만 그는 이런 식으로 모든 가능성 있는 변의 염기서열을 합성했다. 그런 다음 가능한 모든 조합을 시험관에 넣고 섞었다. 물론 이 시험관 안에는 각 꼭지점을 잇는 가능한 모든 경로가 합성될 것이다. 시험관 안에서 합성된 가능한 경로 중 해밀턴 경로를 만족시키는 DNA 조각만 가려내면 정답을 알 수 있다.

1초도 안돼 풀어낸 해밀턴 경로문제

이 설명만 듣고서는 그가 어떤 원리로 실험을 했는지 이해하기 힘들다. 이해를 돕기 위해 간단한 예를 들어보자. 먼저 각 꼭지점을 도시로 대치해, 도시와 도시를 순회하는 외판원 문제로 생각하자. 다음은 변을 치환해야 한다. 인접한 두 꼭지점을 잇는 변은 각 도시 사이를 운행하는 버스라고 가정하자. 아들만은 꼭지점과 변을 구성하는 염기사슬을 20개로 치환했지만, 설명을 간편히 하기 위해 4개의 염기만 사용하자. 또한 6개의 꼭지점을 서울, 대전, 대구, 부산의 4도시로 대신하자.

이제 사전 준비가 끝났으면 본격적인 실험을 할 차례다. 먼저 각 도시에 염기배열을 부여한다. 예를 들어 서울에는 AGTG, 대전은 GACT, 대구는 TAGC, 부산에는 CGAT를 부여한다. 그 다음, 버스편에도 DNA 배열을 할당하자. 여기서 버스편은 아들만의 실험에서 각 꼭지점을 잇는 변에 해당한다는 사실을 상기하자. 아들만의 규칙에 따라 변의 처음 두염기는 출발하는 도시의 뒷부분 두염기로, 나머지 두염기는 도착하는 도시의 처음 두염기로 구성한다. 따라서 서울에서 대전으로 가는 버스편의 DNA배열은, 서울의 뒷부분 두염기인 TG와 대전의 앞부분 두염기인 GA로 구성된 TGGA가 된다.

다시 상기해야 할 점은 모든 DNA 가닥은 왓슨-크릭의 상보성의 원리에 따라 상보적 짝을 갖는다는 사실이다. 그러므로 각 도시마다 상보적 DNA가 있고, 버스편의 번호도 상보적 DNA 번호를 가진다. 예를 들어 서울의 상보적 DNA 이름은 TCAC이다.

기호를 부여하는 작업을 끝내고, 아들만은 도시들의 상보적 DNA와 버스편의 DNA 조각을 3×1013 개씩 합성했다. 이 분자를 모아 하나의 시험관에 넣고 반응시켰다. 순조로운 반응을 위해 세포 내 물질을 포함한 용액을 부어 시험관을 세포 내부와 비슷한 조건으로 만들었다. 이제 모든 준비가 끝났다. 가만히 기다리기만 하면 DNA 컴퓨터가 해밀턴 경로를 찾아낼 것이다. 얼마나 걸릴까. 이 문제를 계산하는 데는 단 1초도 안 걸린다.

도시와 버스의 상보적 결합

1초도 안되는 시간이지만 시험관 속에서는 어떤 일이 벌어졌을까. 예를 들어, 서울발 대전행 버스편의 번호(TGGA)와 대전의 상보적 이름(CTGA)이 우연히 만났을 것이다. 전자의 DNA 배열은 GA로 끝나고, 후자의 DNA 배열은 CT로 시작된다. 그런데 이들은 서로 상보적이므로 우연히 마주치면 서로 결합할 것이다. 이렇게 해서 만들어진 DNA 복합체가 대전발 대구행 버스(CTTA)를 만나면, 또 다시 결합해 복합체를 만들 것이다. 왜냐하면 DNA 복합체의 후반부(GA)가 버스편 번호의 전반부(CT)와 상보적이기 때문이다. 이런 방식으로 상보적인 도시명과 버스편 번호가 결합해 DNA 복합체의 길이는 점차 길어질 것이다.

이제 시험관 속에는 여러 도시들을 통과하는 무작위 경로의 DNA 조각들이 가득 차있을 것이다. 시험관 속에는 수백조개의 DNA 분자가 들어 있으므로 해밀턴 경로를 알려주는 DNA 복합체가 들어 있을 가능성이 매우 높다. 이제 남은 것은 정답 DNA 분자를 찾아내는 것이다. 물론 시험관 속에는 단 하나의 해밀턴 경로가 존재한다. 서울에서 출발해 대전과 대구를 순서대로 지나서 부산에 도착하는 길이다. 그러므로 이 답을 포함하고 있는 DNA 복합체는

TGGA (서울→대전 버스)
CTGA (대전의 상보적 DNA)
CTTA (대전→대구 버스)
ATCG (대구의 상보적 DNA)
GCCG (대구→부산 버스)다.

정답 DNA 선별하는 방법

정답 DNA 선별하는 방법

수백조개의 DNA 분자 중 정답 DNA만 가려내는 방법으로 아들만은 PCR과 전기영동 방법을 이용했다. PCR은 DNA 중합효소의 연쇄 반응을 이용해 작은 DNA 조각을 무수히 증폭시키는 방법이다. DNA 조각을 PCR 기계에 넣고 반응시키면, DNA 중합효소는 ‘프라이머’(primer)라는 짧은 DNA 조각을 이용해 연쇄반응을 일으킨다. 프라이머는 DNA 중합효소가 복제할 DNA 주형을 알려주는 일종의 ‘지침서’다. 위 예의 경우, 서울에서 출발하는 경로를 찾아야 하므로 서울→대전 버스에 해당하는 프라이머를 넣어준다. 그러면 나머지 다른 경우에 해당하는 DNA 조각은 DNA 중합효소가 인식을 못해 복제를 못하고, 서울로 시작하는 DNA 조각만 증폭된다. 이런 식으로 일단 서울에서 출발하는 모든 경로를 가려낼 수 있다.

다음은 전기영동 방법을 이용해 정답이 아닌 경로를 추려낸다. 전기영동은 DNA가 띠고 있는 전하의 성질을 이용해, 길이에 따라 DNA를 분류할 수 있는 방법이다. DNA는 분자 구조상 외부에 음전하를 띠고 있다. 그런데 DNA 길이가 길어질수록 음전하의 양이 많아지기 때문에 이를 전기장이 걸린 겔 상에 올려놓으면 길이에 따라 양전하 쪽으로 이동하는 거리가 달라진다. 이를 이용하면 길이에 따라서 DNA 조각을 분류할 수 있다.

아들만의 실험에서 시험관 속에 있는 수백조의 DNA 분자는 그 길이가 각각 다를 것이다. 어떤 것은 필요 이상의 많은 DNA 조각이 반응해 그 길이가 정답에 비해 길 것이고, 어떤 것은 짧을 것이다. PCR로 서울에서 출발하는 경로만 추출한 뒤, 이를 전기영동 방법에 적용시키면 원하는 해밀턴 경로를 찾을 수 있다.

DNA컴퓨터는 연산에 필요한 입 력값을 지정한 뒤 이를 시험관 튜 브에서 섞어주면 모든 계산이 끝난다. 이때 시험관에 넣어주는 모든 재료는 물 한방울 정도의 양 이다.

크기와 속도면에서 단연 탁월

아들만은 비록 6개의 꼭지점에 불과한 해밀턴 경로문제를 해결했지만, 이 실험이 의미하는 바는 매우 크다. 많은 특징 중 과학자들이 가장 주목하고 있는 DNA컴퓨터의 특징은 속도다. 실리콘 기반의 컴퓨터는 0과 1의 두가지 코드를 갖고 모든 정보를 일괄적으로 처리한다. 해밀턴 경로문제를 일반 컴퓨터로 해결하려면, 일단 모든 경로를 0과 1의 코드로 바꾼 뒤, 가능한 모든 경우에 대해 일일이 하나씩 비교해야 한다. 모든 경우의 수를 직렬방식으로 계산하기 때문이다.

하지만 DNA컴퓨터는 정보를 A, T, C, G의 네 문자로 바꾼 뒤, 모든 경우의 수를 한꺼번에 처리한다. 엄청난 양의 데이터를 병렬로 처리하는 DNA컴퓨터에게 이론상 속도의 한계는 없어보인다. 현존하는 슈퍼컴퓨터는 1초당 1012개의 정보를 처리할 수 있지만, DNA컴퓨터는 이보다 약 1천배 가량 빠른 정보처리 속도를 낸다. 이와 같은 특징 때문에, DNA컴퓨터는 암호 해독 분야에 활발히 이용될 전망이다. 실제로 남캘리포니아대 아들만의 연구소에는 미 국립암호센터(DES)가 슈퍼컴퓨터로도 해결하지 못한 난해한 암호들이 해독되기만을 기다리며 산적해 있다. 이 연구소에서 아들만은 분자생물학자인 굿맨과 함께 DNA컴퓨터를 상용화시키기 위한 연구를 진행중이다.

에너지 효율면에서도 DNA컴퓨터는 단연 돋보인다. 세포 내 효소 반응을 이용하는 DNA컴퓨터는, 전력을 이용하는 일반 컴퓨터에 비해 훨씬 작은 에너지를 소비한다. 슈퍼컴퓨터는 1J의 에너지로 1010개의 정보를 처리하지만, DNA컴퓨터는 2×1019개의 계산을 할 수 있다. 또한 크기면에서 DNA컴퓨터는 큰 매력을 가진다. 나노미터(10-9m) 크기의 DNA 분자와 중합효소, 반응액 등을 모두 합쳐도 컴퓨터의 핵심부품인 반도체보다 수천배 작다. 더욱이 그 저장용량은 기존 메모리 소자에 비해 1012 배나 된다. 1비트의 정보를 저장하기 위해 기존 메모리 소자는 1012나노미터의 정육면체 공간을 필요로 한다. 이에 비해 DNA 컴퓨터는 1나노미터의 공간만 있으면 같은 정보량을 저장할 수 있다.

물론 DNA컴퓨터에도 해결해야 할 많은 문제점이 있다. 아들만이 제시한 DNA컴퓨터는 개념 수준일 뿐, 구체적 형태가 아니었다. 또한 입력과 출력을 모두 인간이 조작해야 한다. 단지 계산과 제어과정이 시험관에서 자동으로 이뤄질 뿐이다. 분자생물학과 컴퓨터의 전문가가 아니고선 도저히 이용할 수 없을 정도다.

현재의 컴퓨터처럼 모든 사람이 쉽고 편하게 자신이 원하는 정보를 가공할 수 있는 DNA컴퓨터는 아직까지 요원해보인다. 이는 세계 곳곳에서 오늘도 DNA컴퓨터의 현실화를 위해 연구에 매진하고 있는 수많은 과학자의 몫일 것이다.

Ⅰ 디지털 르네상스 주도할 쌍두마차 : ② 몸에 존재하는 자연산 슈퍼컴 DNA컴퓨터