d라이브러리









3. 정보의 홍수로부터 해방 인간게놈프로젝트

질병 단백질 비밀 밝히는 블루 진

최근의 눈부신 생명공학의 발전은 미래 인간에게 새로운 삶을 제공해줄 것이다.그러나 생명과 관련된 문제는 매우 복잡해서 이를 해결하려면 방대한 자료가 필요하다.
 

요즘의 생물학자에게 실험복 못지 않게 종요한 것이 컴퓨터다.그것도 강력한 고성능 슈퍼컴퓨터가  필요하다.그 이유는 무엇일까.


지난 6월 게놈프로젝트가 발표했고, 수많은 대중 매체들이 이에 대해 보도하면서 세상은 한창 떠들썩했다. 이 발표는 2005년이라는 당초 예정보다 무려 5년이나 빨리 이뤄진 것인데, 그 공로의 주인공 중 하나가 다름 아닌 슈퍼컴퓨터였다. 과거 생물학하면 컴퓨터와 먼 학문이었지만, 요즘은 다르다.

뿐만 아니라 지난 1997년 체스 세계챔피언인 카스파로프를 물리친 슈퍼컴퓨터 ‘딥 블루’보다도 1천배나 강력한 슈퍼컴퓨터가 생물학에서 필요하다. 그 이유는 무엇일까.

인간게놈프로젝트는 인간게놈을 구성하는 약 30억쌍의 DNA 염기서열을 밝히고자 하는 사업이다. 이를 위해 먼저 DNA를 염기서열을 결정할 수 있는 정도의 크기로 자른다. DNA 조각들의 염기서열을 초고속 자동염기서열분석기로 결정하고, 컴퓨터 상에서 조각들 사이의 중첩되는 부분의 염기서열들을 찾아 이어 붙여 DNA 조각들을 배열해 나가는 과정을 거친다.

이 과정에서의 문제는 인간게놈이 한 개인의 염기서열을 1초에 하나씩 읽는다 해도 읽는 데만도 1백년이 걸릴 정도로 거대한 데이터라는데 있다. 그리고 보통 유전자(단백질을 만들어내는 부분) 하나가 35MB 정도의 데이터인데 인간게놈은 8-10만개의 유전자를 가지고 있다.

신문지 2백km 분량의 정보

게놈프로젝트가 발표되기 전 미국 정부의 연구팀과 셀레라지노믹스사의 슈퍼컴퓨터에는 매일 15-20GB의 정보가 쌓이고, 1년이면 8만GB가 축적됐다. 축적된 방대한 데이터를 비교·정렬해서 염기서열들 사이의 규칙을 찾고 이로부터 의미 있는 정보를 이끌어내는데는 슈퍼컴퓨터의 도움이 꼭 필요하다.

인간게놈 초안의 완성을 놓고 정부의 인간게놈프로젝트 팀과 치열한 경쟁을 벌였던 셀레라지노믹스사의 경우 시간당 2억5천만개의 염기서열 분석이 가능한 초고속 자동염기서열분석기인 ABI3700 3백대로부터 2시간마다 분석결과가 산출됐다. 이 방대한 데이터를 처리하기 위해 초당 1조3천억번을 계산할 수 있는 컴팩의 알파칩 1천2백개를 이용해 병렬로 연결한 1억달러짜리 슈퍼컴퓨터가 사용됐다. 이 슈퍼컴퓨터로 매일 30만회의 유전자 배열을 알아내고 1억5천만개의 염기서열을 결정했다.

셀레라사가 구축한 인간 외에 초파리를 비롯한 수백여종 생물체의 염기서열 데이터베이스는 80TB에 이른다. 이는 펼친 신문지 2백km에 포함된 글자수와 같은 방대한 자료에 해당된다. 이 방대한 자료에서 유전자의 위치를 확인하고 유전자 기능연구를 위해 다른 종간의 염기서열을 비교, DNA 염기서열의 공통점을 찾거나 개인차를 나타내는 부분(단염기다형성)을 검색하기 위해서는 연산속도가 빠른 슈퍼컴퓨터와 해당 소프트웨어 기술이 필수적이다.

단백질 암호화 부위(유전자)와 비암호화 부위의 염기서열의 특징을 조사하고 단백질 서열로부터 3차 구조를 예측하거나 한 걸음 더 나아가 맞춤형 신약 개발을 위한 고밀도 단염기다형성 지도 작성과 이들의 기능 규명을 위해 필요한 정보량은 지금의 슈퍼컴퓨터도 감당하지 못할 정도다.


단백질이 접히는 과정을 밝히는데는 현재 가장 빠른 컴퓨터로도 5백년이나 걸린다.


질병 일으키는 단백질 규명

최근 IBM은 단백질이 접히는 과정을 밝히는데 사용하기 위해 향후 5년간 1억달러를 투자해 초당 1천조번의 연산능력을 가진 슈퍼컴퓨터 ‘블루 진’(blue gene)을 개발한다고 발표했다. 단백질은 생물체 안에서 다양한 기능을 수행하는데, 크로이츠펠트-야콥병을 비롯한 많은 질병이 잘못된 단백질의 기능에서 비롯된다. 각 단백질이 어떤 기능을 가지며 어떻게 잘못된 기능을 수행해서 질병을 일으키는가는 아미노산들로 이뤄진 사슬이 접히는 형태에 달려있다. 따라서 단백질이 접히는 과정을 해명하는 것은 대단히 중요한 일이다.

단백질 사슬 하나는 보통 아미노산 1천개를 가지고 있어 아미노산 사이의 연결부위는 10개의 배열을 가질 수 있으므로,1개 단백질이 취할 수 있는 접힌 헌태의 수는 엄청나다.3백개의 아미노산으로 구성되는 비교적 짧은 단백질이라고 접히는 과정을 원자 단위까지 추적하려면 현재의 가장 빠른 슈퍼컴퓨터로도 5백년이나 걸린다.이것이 IBM이 더 빠른 연산속도를 갖는 '블루 진'을 개발하려는 이유다.

초당 1천조번의 연산능력을 구현하기 위해 ‘블루 진’은 1백만개의 프로세서를 연결해서 제작된다(현재 제일의 슈퍼컴퓨터는 약 9천개의 프로세서 사용). 효율적인 운용을 위해 이중 1개라도 고장나면 자체적으로 수선하는 기능을 갖게 된다. 프로세서와 메모리 사이의 정보교환 속도를 높이기 위해 메모리를 직접 프로세서에 새겨 넣고 캐시를 없앨 예정이며 프로세서 하나가 8개의 명령을 동시에 수행할 수 있게 될 전망이다.

‘블루 진’이 완성돼 단백질의 각 기능의 수행 원리가 규명되면 인체 내에서 수많은 기능을 수행하는 단백질의 비밀이 밝혀진다. 이로써 단백질의 구조 이상으로 초래되는 많은 질병을 치료할 적합한 신약 개발과 에이즈 바이러스의 전파경로 차단이 가능해진다.

한편 우주의 신비를 벗기는 데에도 슈퍼컴퓨터가 활용된다. 1999년 1월부터 시험 가동 중인 하와이 마우나케아 산 정상에 건설된 세계 최고 성능의 망원경인 스바루 망원경에 슈퍼컴퓨터가 연결된 것이 한가지 예.


허블을 능가하는 스바루 망원경의 전경과 CCD(원안).이로부터 얻은 방대한 데이터를 처리하기 위해 슈퍼컴퓨터가 필요하다.


우주 신비 벗기는데도 활용

스바루 망원경은 지름이 8.3m이고 표면의 울퉁불퉁한 정도가 12nm(1nm는 10억분의 1m)밖에 안 되는 매우 정밀한 망원경으로 허블 우주 망원경을 능가할 정도다. 사진건판처럼 빛을 감지하는 망원경의 아랫부분에 설치되는 전하결합소자(CCD)는 1억개의 픽셀로 구성된다. 일반 망원경이 수십억 광년을 관찰할 수 있는데 비해 스바루는 1백50억 광년 떨어진 물체를 볼 수 있다.

때문에 스바루의 CCD가 받는 데이터를 이용해 천문학적 모델을 실행시키기 위해서는 1초에 1천억번을 계산할 수 있는 연산능력과 1백GB의 메모리가 필요하다. 또한 생성된 데이터를 보관하기 위해서는 2.4TB의 디스크와 1백50TB의 테이프가 요구된다. 이 일은 슈퍼컴퓨터가 아니고서는 도저히 처리할 수 없다.

이렇게 슈퍼컴퓨터는 방대한 데이터를 처리하는데 이용되고 있다. 그러나 슈퍼컴퓨터의 성공적인 운용을 위해서는 방대한 데이터를 처리하는 기술 향상도 중요하지만 이와 더불어 여기서 작동되는 소프트웨어가 필수적이다. 슈퍼컴퓨터처럼 특수한 목적을 갖는 컴퓨터는 제조회사가 운영체제뿐 아니라 응용 소프트웨어를 모두 개발해 제공해야 한다. 작년 IBM이 슈퍼컴퓨터에 사용되는 자료 형상화 소프트웨어의 소스코드를 공개한 것도 다양한 슈퍼컴퓨터 소프트웨어 개발을 촉진하려는 전략이다.

국내에서 많은 연구소와 기업들이 슈퍼컴퓨터를 도입해 사용하고 있으나 소프트웨어 개발과 운용 면에서 아직 발전의 여지가 많다. 생물학 분야의 경우 하드웨어 자원과 소프트웨어 기술의 미비, 슈퍼컴퓨터를 이용한 연구개발의 여건 미성숙 등으로 제한된 분야연구에서만 사용되는 실정이다. 포스트 게놈시대의 다양한 유전자 연구와 생명공학 상용화 연구를 지원하기 위해서는 지금부터라도 관련 인력 양성과 기술 개발에 힘써야 할 것이다.

향후 생물학과 신약개발 부분, 우주 탐구 등의 분야에서 거대한 정보량의 처리를 위한 문제는 계속 생겨날 것이다. 이에 따라 슈퍼컴퓨터의 역할은 더욱 증대될 것이며 점점 더 높은 성능의 슈퍼컴퓨터와 소프트웨어 기술을 요구할 것으로 전망된다. 결론적으로 21세기 정보사회에서 막대한 정보 홍수를 벗어나 정보의 금광을 캘 수 있으려면 고성능 슈퍼컴퓨터가 필수적이다.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2000년 09월 과학동아 정보

  • 김대식 교수

🎓️ 진로 추천

  • 생명과학·생명공학
  • 컴퓨터공학
  • 화학·화학공학
이 기사를 읽은 분이 본
다른 인기기사는?