d라이브러리









단백질 구조 50년 수수께끼 풀었다, 구글 인공지능 알파폴드2

 

구글 딥마인드가 지난해 11월 30일 온라인으로 개최된 ‘제14회 단백질 구조 예측 대회(CASP14)’에서 인공지능(AI) 기술을 이용해 혁신적인 성과를 냈다. 자체 개발한 ‘알파폴드(AlphaFold)2’가 50년 넘게 해결되지 않던 난제인 단백질 구조 예측 문제를 사실상 해결했다고 밝혔다. 2018년 제13회 CASP 대회에서 알파폴드1을 공개하며 단백질 구조 예측 분야에서 AI가 활약할 잠재성을 확인한 구글은 알파폴드2를 통해 정밀도와 속도를 크게 높이면서 생명공학과 의학 분야에 큰 혁신을 가져올 것 이라는 기대를 받고 있다. 제13, 14차 CASP 대회에서 자문위원과 평가위원을 맡았던 필자가 알파폴드2의 정체와 그 가능성을 소개한다.

 

인간 몸 속에는 10만여 종의 단백질이 존재한다. 모든 단백질은 고유한 3차원 구조와 그에 맞는 기능을 가진다. 단백질의 구조를 예측하면 그 기능까지 유추할 수 있어 신약 개발의 속도를 크게 앞당길 수 있다

 

1900년대 초 양자역학의 탄생을 지켜본 물리학자들은 행운아였다. 양자역학의 등장으로 기존의 고전역학으로는 설명할 수 없었던 물질의 신비한 현상들을 새롭고 혁신적인 이론체계로 설명할 수 있게 됐기 때문이다. 분명 동시대의 물리학자들은 말로 표현할 수 없는 짜릿한 쾌감을 느꼈을 것이다.


 그보다 100년 뒤인 2000년대를 살아가는 자연과학자들에게는 이런 기회가 좀처럼 없었다. 단백질처럼 복잡한 생체분자의 세계를 이론적으로 이해하고 그 구조와 기능을 예측하고자 연구하는 필자 역시도 지적으로 흥분되는 혁신을 만날 일이 별로 없었다. 심지어 2013년 복잡한 분자 반응을 예측하는 시뮬레이션 분야 연구자가 노벨 화학상을 받았을 때도 마찬가지였다. 이 방식으로는 풀 수 없는 문제가 너무 많다고 생각했기 때문이다.


 대표적인 예가 바로 단백질 구조 예측 문제였다. 컴퓨터 시뮬레이션을 이용해 구조를 푸는 방법이 시도됐지만, 계산 시간이 너무 많이 들고 무엇보다 시뮬레이션에 필요한 에너지 함수가 부정확해 단백질의 구조를 정확히 예측하기엔 역부족이라는 평이 많았다.


 그런데 단백질 구조 예측 생화학 분야에 양자역학 급의 혁신이 갑자기 눈앞에 펼쳐졌다. 필자는 지난해 11월 30일 온라인으로 개최된 제14회 단백질 구조 예측 대회(CASP14)에서 구글 딥마인드가 개발한 단백질 구조 예측 AI ‘알파폴드2’의 활약을 보며, 100년 전 양자역학의 탄생을 목격하는 물리학자만큼 짜릿한 흥분을 느꼈다. 알파폴드2는 전통적인 자연과학의 방법이 아니라 딥러닝이라는 새로운 방법을 이용해 50년 이상 풀리지 않던 난제를 단숨에 해결했다. 단백질 분자의 구조를 실험을 통해 확인하는 방법보다 훨씬 빠르면서도 실험과 맞먹는 수준으로 정확하게 예측해냈다. 수많은 단백질로 이뤄진 생체 시스템을 종합적으로 연구할 수 있는 길이 열리게 됐다는 평이 나왔다.

 

가깝지만 어려운 단백질 구조 예측의 세계 

 


하나의 단백질은 평균 300여 개의 아미노산으로 이뤄져 있다. 인간의 몸속에는 이런 단백질이 약 10만 종 존재한다. 모든 단백질은 저마다의 3차원(3D) 구조를 가지며, 이에 따라 기능도 천차만별이다. 생화학자들은 이를 이용해, 단백질 구조를 명확히 알아내는 방법으로 기능을 예측하고자 연구해 왔다. 이때 구조를 알아내는 기술의 성능을 평가하려면 예측한 단백질 구조를 ‘모범답안’과 비교해 검증하는 과정이 필요하다. 보통은 구조생물학 커뮤니티(실험그룹)가 실험을 통해 밝힌 구조가 이런 모범답안 역할을 한다.


 CASP 조직위원회는 구조가 밝혀졌지만 아직 공개되지 않은 단백질을 구조생물학 커뮤니티로부터 얻은 다음, 해당 단백질의 아미노산 서열을 대회 참가자들에게 제공해 이를 바탕으로 구조를 예측하는 대회를 개최했다. 참가자는 주어진 시간 내에 아미노산 서열만을 이용해 단백질의 3D 구조를 예측해 제출하고, 제3의 평가위원이 예측 구조가 실험 구조와 얼마나 비슷한지를 평가한다.
 대회가 열리는 해가 되면 5월부터 8월까지 하루에 2~3개씩 총 100여 개의 문제가 이런 방식으로 출제된다. 가장 쉬운 구조 예측 방법은 단백질 정보은행(PDB)에 구조가 등록된 단백질 중에서 문제로 주어진 단백질 서열과 비슷한 것이 있는지를 찾는 것이다. 비슷한 단백질 구조를 템플릿(template)이라 부르며, 이를 활용한 예측기술은 템플릿 기반 구조 예측이라 부른다. 이와 달리 템플릿을 찾을 수 없는 경우를 템플릿 프리(free) 구조 예측이라 부른다.


 수학 문제로 비유하면 템플릿 기반 구조 예측은 비교적 쉬운 문제다. 알려진 유형에 식을 대입해 푸는 수학 문제처럼 이미 알려진 템플릿을 대입해 미지의 단백질의 모습을 찾아가기 때문이다. 반면 템플릿 프리 구조 예측은 고난도 수학 문제와 같다. 이를 풀어내려면 아미노산 서열이 구조를 갖추는 물리학적 원리, 그러니까 구성 원자 사이에 작용하는 힘을 고려해야 한다. 


 2018년 12월 멕시코 칸쿤에서 열린 제13회 CASP 대회에서 처음 등장한 구글 딥마인드의 알파폴드는 템플릿 기반 구조 예측에서는 90개 문제 중 47개를, 템플릿 프리 구조 예측에서는 43개 중 24개를 높은 정확도로 풀어냈다.  


 특히 과거 25~30점에 머물렀던 템플릿 프리 구조 예측 문제의 예측 정확도를 60점가량으로 끌어올려 주목받았다. 당시 단백질 구조 예측 분야에서 알파폴드가 거둔 성과는 딥러닝 기법의 발전과 활용 가능성을 보여준 사건이었다.doi: 10.1038/s41592-020-0779-y

 

 

50여 년 난제까지 푼 진화한 AI, 알파폴드2


알파폴드는 서막에 불과했다. 지난해 CASP14에 참가한 알파폴드2는 지난 60년 가까이 난제로 남아 있던 템플릿 프리 단백질 구조 예측 문제를 완벽에 가깝게 풀어냈다. 단백질 구조 예측 문제가 풀렸다고 할 수 있을 정도로 절대적인 예측 정확도를 보였다.
 템플릿 프리 구조 예측 문제의 경우, 구조 형성 원리에 기반해 전체 구조를 알아내기는 매우 어렵다. 단백질의 구조가 형성되는 원리는 복잡도가 매우 높기 때문이다. 알파폴드는 유사 단백질의 서열 정보로부터 구조 예측을 시도해 부분적으로 성공했다. 알파폴드2는 이 기술의 성능을 더 극대화했다. 이 과정에서 구조 형성 원리보다는 정보의 활용을 강화하는 데 더 집중했다.


 알파폴드2는 현재까지 알려진 내용을 종합해 보면, 알파폴드2는 자연어 처리에 사용되는 새로운 딥러닝 방법인 ‘어텐션(attention) 매커니즘’을 사용하고, 딥러닝 모델을 설계할 때 단백질 구조 형성에 대한 물리학적 직관을 추가해 이 같은 성능 향상을 이뤘다.  어텐션 메커니즘은 입력되는 정보의 값이 길어질 때 사용자가 선정한 구간별로 전체 입력값을 참고해 정확도를 보정하는 기술이다. 해당 구간에서 예측해야 할 값을 더 집중(어텐션)해서 본다는 의미를 담고 있다. 


 그런데 신기하게도 이렇게 학습된 딥러닝 방법은 결과적으로 비슷한 서열이 많지 않은 경우에도 정확한 예측이 가능했다. 이것은 현존하는 데이터(단백질 구조와 서열정보)를 폭넓게 활용한 결과로 추정된다. 결국 엄청난 양의 단백질 서열을 생산할 수 있게 한 DNA 해독기법인 차세대염기서열해독기술(NGS)을 개발한 과학자와 단백질 구조를 실험으로 밝힌 구조생물학자, 단백질 구조 및 서열 분석 방법을 개발한 생명정보학자, 구조형성에 대한 물리학적 직관을 얻어낸 생물물리학 연구자 등 수많은 과학자들의 노력이 알파폴드2의 성공을 이끈 셈이다.

 

 

알파폴드2가 할 수 있는 것, 그리고 할 수 없는 것 


알파폴드2 덕분에 인류는 인간 유전체에 있는 모든 단백질의 구조를 예측할 수 있게 됐다. 아직 실험적으로 구조가 밝혀지지 않은 단백질의 구조를 예측해 단백질의 기능에 대한 단서를 얻을 수 있고, 질병과 관련된 단백질의 경우 신약개발 연구에도 활용할 수 있다.
 여러 단백질 사이의 상호작용을 예측해 단백질의 기능에 대한 이해도를 높일 수도 있다. 필자를 비롯한 전문가들 사이에서는 알파폴드2의 방법을 확장해, 머지않아 강하게 상호작용하는 단백질 사이의 결합 구조를 예측할 수 있을 것이라고 추측하고 있다. 물론 임의의 두 단백질이 결합 가능한지, 결합 강도는 얼마나 강할지 예측하는 것은 구조를 밝히는 것보다 더 어려운 문제다.
 마지막으로 단백질의 아미노산 서열로부터 3D 구조를 예측할 수 있게 됐으므로, 반대로 3D 구조를 가지는 단백질을 가지고 아미노산 서열을 설계하는 ‘단백질 디자인’ 연구도 이전보다 훨씬 활발해질 것이다.


 다만 현재의 알파폴드2에도 한계는 있다. 체내에서 특정한 3D 구조를 형성하는 단백질의 구조를 학습해 예측하는 데에는 높은 성능을 보이지만, 특정한 구조를 형성하지 않고 다른 생체 분자와 만나야만 최적의 구조를 형성하는 단백질의 구조를 예측하는 데에는 당장 적용하기 어렵다. 생체 단백질 중 30% 정도는 이렇게 정의된 구조가 없는 것으로 알려져 있다. 잘 정의된 3D 구조를 가진 단백질 중에도 상호작용하는 생체 분자에 따라 일부분의 구조가 변형되는 경우가 많다. 이런 단백질의 원리와 성질 변화를 성공적으로 예측하는 일은 알파폴드2의 다음 과제로 남아 있다. 


 알파폴드2의 등장이 다른 구조 예측 AI의 출현을 촉진할 것으로 예상한다. 아무도 신대륙을 찾지 못했던 때와 탐험가 크리스토퍼 콜럼버스가 15세기 말 아메리카 대륙을 발견한 이후의 세계는 차원이 다르다. 알파폴드2가 새로운 가능성을 보여준 만큼 우리의 예상보다 빠르게 생체 내 분자를 탐구할 수 있는 훌륭한 성능을 갖춘 AI들이 속속 등장할 것이다. 


 데미스 허사비스 구글 딥마인드 CEO는 CASP14 학술대회에서 “향후 디지털 가상 세포를 구축하고자 한다”고 포부를 밝혔다. 과학소설(SF) 같은 일이 진짜로 실현될 날을 기대해 본다. 

 

 

 

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2021년 01월 과학동아 정보

  • 석차옥 서울대 화학부 교수
  • 에디터

    김진호 기자

🎓️ 진로 추천

  • 생명과학·생명공학
  • 컴퓨터공학
  • 화학·화학공학
이 기사를 읽은 분이 본
다른 인기기사는?