주메뉴바로가기 본문바로가기

[Career] 질병 연구의 ‘내비게이션’을 꿈꾸다

KISTI 연구실 탐방 ➌



최근 의과학 분야 연구자들은 세포 안에서 일어나는 신호 전달과정에 관심이 많다. 세포 내 신호 전달은 단백질에 의해서 일어나는데, 마치 도미노처럼 이어지는 반응에서 단백질 하나가 잘못 작동하기 시작하면 걷잡을 수 없는 문제가 생긴다. 암을 비롯한많은 질병이 세포 내 신호 전달 과정에 문제가 생겨서 발생한다. 연구자들의 목표는 질병을 유발하는 단백질의 이상을 밝혀내고, 그 문제를 해결할 수 있는 물질을 찾아내는 것. 그런데 문제가 있다. 단백질의 수가 아직 알지 못하는 종류까지 포함해 약 8만 개에 달한다는 사실이다. 그중 무엇부터 연구해야 하는지 결정하기도 힘들다.

한국과학기술정보연구원(KISTI) 생명의료HPC연구센터는 빅데이터와 네트워크 분석 기술을 이용해 의과학분야 연구자들의 내비게이션 역할을 톡톡히 하고 있다. 단백질을 이루는 유전체의 염기서열을 비교분석해 돌연변이를 찾아내고, 신호 전달 경로에 있는 단백질들의 네트워크를 분석해 질병을 일으킬 수 있는 단백질 후보군을 추려내 주기 때문이다.

질병 유발 ‘용의자 단백질’ 찾는 법

이민호 KISTI 생명의료HPC연구센터장은 “사람이 수작업으로 유전자를 읽던 시대에서 기계가 고속으로 유전체를 분석하는 시대로 접어들면서 컴퓨팅 시스템의 역할이 중요해졌다”고 말했다. 네 가지 염기(A, G, C, T)의 배열로 이뤄진 사람의 유전체 정보는 화학반응을 통해 구분할 수 있다. 기계가 이 반응을 측정하면 각 염기서열 화학반응은 서로 다른 형태의 이미지로 기록되는데 한번 실행 할때마다 이 데이터 용량이 무려 1TB(테라바이트)에 이른다. 이 이미지 정보를 다시 염기서열문자로 변환해 용량을 수백 GB로 줄인다.

생명의료HPC연구센터에서는 환자에게서 얻은 염기서열 정보를 정상인과 비교해 돌연변이가 일어난 유전자를 찾아낸다. 최근에는 수천 명에서 수만 명 단위로 특정 질병을 가진 환자들의 유전체 정보를 분석하는 연구를 하고 있다. 이 센터장은 “현재 KISTI에서 보유한 유전체 데이터만 800TB로, 올해 저장 용량을 2배에 달하는 1.6PB(페타바이트)로 확장할 것”이라고 말했다. 그는 “최근에는 프로그램과 분산처리 기술 등을 개선해 분석속도를 3배까지 높였다”고 말했다.

하지만 유전체 돌연변이 정보는 일종의 1차 자료로, 이것만으로는 단백질을 찾아내기 어렵다. 텍스트 마이닝과 네트워크 분석작업까지 거쳐야 비로소 ‘용의자’들을 지목할 수 있다. 텍스트 마이닝은 매년 나오는 수많은 논문을 바탕으로 단백질 사이의 관계정보를 추출하는 작업이다. 이같이 추출된 관계 정보는 이후 두 단백질을 점(node)으로 표시한 뒤, 둘 사이에서 일어나는 결합,활성화, 억제, 인산화 등의 상호작용을 연결선 형태로 표시한다. 수많은 단백질들의 관계 정보를 한꺼번에 표시하면 거대한 네트워크를 만들 수 있다. 이 센터장은 “질병과 관련한 단백질 네트워크 모델을 만든 뒤 이를 분석하면 어떤 단백질이 핵심 역할을 하는지 해석할 수 있다”며 “그 단백질을 추천하면 연구자들이 실험해서 질병과의 관계를 검증한다”고 말했다.

질병 유형과 원인 밝히는 정밀의료 필수품

생명의료HPC연구센터 연구팀은 하버드대 의대, 삼성유전체연구소와 함께 피부암의 일종인 흑색종 환자 331명의 유전체를 분석한 결과를 국제학술지 ‘셀’ 2015년 6월 18일자에 발표했다. 흑색종은 유전적으로 총 네 가지 유형으로 나뉜다. BRAF와 NAS, NF1 유전자에 각각 변이가 있는 경우와, 세 유전자 모두에 변이가 없는 경우다. 연구팀은 세 유전자에 변이가 나타나지 않은 흑색종 환자는 유전체 구조 변이가 비교적 많이 일어난다는 사실을 알아냈다. 유전체 변이 발생 원인이 나머지와 다르다는 뜻이다. 연구에 참여한 하버드대 의대 이은정 박사는 “환자 한 명당 평균 200GB에 달하는 데이터가 나오는데, 이를 저장하고 분석하려면 많은 컴퓨팅 자원이 필요하다”며 “KISTI 연구팀의 도움으로 현재 미국의 대표적인 암 유전체 컨소시엄(TCGA)에 참여 중”이라고 말했다.

연구팀은 이정호 KAIST 의과학대학원 교수팀과 함께 치매로 사망한 70명의 뇌 조직 유전체를 이 기술을 적용해 분석하고 있다. 뇌 발달 단계에서 생긴 유전자 변이가 단백질에 문제를 일으키고 치매를 일으켰는지를 알아보기 위해서다. 이 교수는 “앞으로 환자 유전체 데이터의 규모가 기하급수적으로 늘어날 것”이라며 “정밀 의학 분야에서 컴퓨팅 시스템의 역할이 매우 중요하다”고 말했다.
 
글 : 최영준 과학동아
이미지 출처 : GIB, 한국과학기술정보연구원(KISTI)

과학동아 2016년 08호