d라이브러리









[수학 THE LOVE] 어디서나 사랑받는 팔방미인

 

"신약의 성능을 시험하기 위해

수학적 모델링으로 구현한

생체시계 모델을 활용했다"

 

 

신약과 수학

 

“컴퓨터 안에 가상의 생명체를 구현해 이를 계산 도구로 활용합니다. 복잡한 생명 시스템을 수학이라는 도구로 쉽게 이해하는 거죠.”


김재경 KAIST 수리과학과 교수는 수학자이자 생물학자다. 대개 수리생물학자라고 부른다. 수학을 이용해 생물학을 연구하기 때문이다. 김 교수는 수리생물학을 ‘가상현실 생물학’이라고 표현했다. 컴퓨터가 계산할 수 있도록 수학적 모델을 설정하고 가상의 생명체를 구현하기 때문이다. 컴퓨터가 사이버 실험실이고, 수학 모델로 탄생한 가상의 생명체는 사이버 실험 표본인 셈이다.

 


 

 

미분방정식으로 생체시계 모델 만들어


김 교수는 국제학술지 ‘몰레큘러 셀’ 2015년 10월 1일자에 생체시계에 관한 논문을 발표했다. doi:10.1016/j.molcel.2015.08.022 
1954년경 학계에 처음 보고된 생체시계는 몸에 시계가 있는 것처럼 생명체의 생명 현상이 24시간을 주기로 나타나는 현상을 말한다. 생체시계는 온도에 상관없이 거의 일정하게 유지되는데, 그 이유는 수십 년 동안 풀리지 않는 미스터리로 남아 있었다. 


김 교수팀은 생체시계의 핵심 단백질인 ‘피리어드(Period)2’의 분해 양상이 독특하다는 점에 착안해 이 미스터리를 해결했다. 일반적으로 단백질은 시간이 지날수록 분해 속도가 빨라진다. 반면 피리어드2는 분해 속도가 빨라졌다가 느려지기를 반복하면서 계단 형태로 감소했다. 


피리어드2처럼 분해 속도가 일정하지 않다면 어떤 분해 과정을 거치는 걸까. 김 교수는 피리어드2가 분해될 때 2가지 과정이 필요하다는 가설을 세웠다. 분해 속도가 다른 만큼 미분방정식을 이용해 수학 모델을 만들었다. 


그 결과 피리어드2는 빨리 분해되는 기작과 느리게 분해되는 기작 2가지를 가지고 있으며, 온도에 따라 이를 조절하는 인산화 스위치가 존재할 것이라는 결과가 나왔다. 김 교수팀의 이 결과는 싱가포르에 있는 듀크-NUS 의학대학원 연구팀의 실험을 통해 사실로 확인됐다. 


김 교수팀은 유전자의 돌연변이를 억제해 암 발생을 막는 단백질 p53이 생체시계에 따라 어떻게 반응하는지도 수학적 모델링으로 밝혀냈다. 김 교수팀의 연구 결과에 따르면 피리어드2는 p53을 세포핵 안으로 끌어들여 유전자를 교정하도록 유도한다. 


김 교수는 현재 세계적인 제약회사인 미국의 화이자와 함께 생체시계를 교정하는 신약을 개발하고 있다. 건강이나 생활습관, 시차 등 여러 요인으로 생활 리듬이 망가졌을 때 생체시계를 교정함으로써 이를 정상화하는 것이다. 김 교수는 “피리어드2를 인산화하면 안정성이 바뀌어 기능이 변한다”며 “피리어드2의 인산화를 억제함으로써 생체시계가 다시 활성화되도록 유도하는 약”이라고 말했다.


이 약을 개발하는 데도 수학이 큰 역할을 했다. 화이자와의 협업도 김 교수가 개발한 생체시계 모델을 제공하면서 시작됐다. 김 교수는 “생체시계는 기작이 복잡해 임상시험만으로 약의 효과를 확인하는 것은 한계가 있다”며 “다양한 조건에서 약의 성능을 시험하기 위해 수학적 모델링으로 구현한 생체시계 모델을 활용했다”고 설명했다. 현재 이 약은 전임상시험(동물을 대상으로 생체 안전성을 검증하는 실험)을 마치고 임상시험을 준비하고 있다.

 

 

美 수학 박사 10%가 수리생물학 전공


수학적 모델은 어떻게 설계하는 것일까. 가장 많이 쓰이는 것이 미분방정식이다. 미지의 함수와 도함수(미분의 결과)들로 이뤄진 미분방정식은 물리학, 공학, 경제학 등 수학 이외의 다양한 분야에 널리 쓰인다. 


김 교수는 “인산화나 유전자 조절 등 생화학 반응을 미분방정식으로 바꾼 뒤 이를 계산한다”며 “미하엘리스-멘텐 식* 등 기존에 알려진 식을 활용하기도 하고, 필요한 경우에는 미분방정식을 직접 만들기도 한다”고 설명했다. 김 교수는 “생화학 반응 외에도 기관의 움직임이나 질병 확산 등 다양한 형태의 생명 활동을 미분방정식을 이용해 계산할 수 있다”고 덧붙였다.


수리생물학의 가장 큰 장점은 시간과 장소의 제약을 받지 않는다는 것이다. 생물학은 생명을 다루는 만큼 실험대상을 키우는 데 일정 시간이 걸린다. 특히 세대가 긴 개체군의 변화를 확인하는 관찰 실험의 경우 수십 년이 필요한 경우도 있다. 실험을 반복하기도 어려워 결과의 정확성을 검증하는 데도 한계가 있다. 반면 수리생물학은 컴퓨터를 이용해 짧은 시간에 실험을 진행할 수 있고 반복 실험도 가능하다. 


윤리적 문제에서도 상대적으로 자유롭다. 김 교수는 “수리생물학은 기존 연구를 토대로 수학적 모델을 설계해 분석하는 만큼 실제 실험보다는 윤리적 문제에서 자유롭다”면서도 “가상 실험이라도 윤리적으로 논란이 되는 실험은 수행하지 않는다”고 밝혔다. 


국내에서는 수리생물학 연구가 많이 이뤄지는 편은 아니다. 정은옥 건국대 수학과 교수가 수학 모델을 이용해 전염병 확산을 연구하고 있고, 정일효 부산대 수학과 교수는 물고기 개체 수를 예측하는 수학적 모델을 연구 중이다. 이창형 울산과학기술원(UNIST) 수리과학과 교수도 전염병 확산 모델을 연구하는 수리생물학자다. 


반면 세계적으로는 수리생물학이 ‘핫’하다. 김 교수는 “현재 미국에서 수학 박사학위를 받은 연구자 중 10% 이상이 수리생물학 전공이며, 통계학은 절반에 가까운 것으로 알고 있다”며 “생물학에 대한 거의 모든 연구는 수리생물학을 통해 컴퓨터라는 가상공간으로 옮길 수 있어 이 분야는 앞으로도 더욱 성장할 것”이라고 강조했다.


김 교수는 수리생물학에 관심 있는 학생들을 위해 조언도 남겼다. 그는 “수학자, 생물학자, 물리학자 등 배경 지식이 다른 연구자들이 하나의 주제에 대해 소통하는 게 중요한 만큼 소통 능력과 열린 사고가 필요하다”며 “수학적인 내용을 생물학자가 이해할 수 있도록 전달하는 능력도 중요하다”고 말했다.

 


 

 

인공지능과 수학

 

“인공지능은 수학이라는 토대 위에 공학이 집을 지은 것과 같습니다. 여기까지 오는 데 수학이 많은 공헌을 했죠. 앞으로 인공지능 발전에도 수학이 매우 중요합니다.”


임성빈 카카오브레인 연구원은 인터뷰 내내 그동안 인공지능의 발전에 수학이 많은 역할을 해왔다고 역설했다. 사람처럼 데이터를 인식하고 반응하는 인공지능을 만들기 위해서는 먼저 수학이라는 뼈대가 튼튼해야 한다는 것이다.

 

AI 기계학습과 미분


인공지능이 처리할 수 있는 데이터에는 두 가지가 있다. 하나는 수치화된 정형 데이터이고, 다른 하나는 영상이나 음성, 자연어 텍스트처럼 정형화돼있지 않은 비정형 데이터다. 사람처럼 보고 듣고 이해하는 인공지능을 만들기 위해서는 비정형 데이터를 처리할 수 있어야 한다.


비정형 데이터는 정보량이 많고 복잡하다. 정형 데이터를 이용하는 인공지능으로는 비정형 데이터를 처리할 수 없다. 현재 전 세계 많은 연구팀이 비정형 데이터에 특화된 인공지능을 개발하기 위해 노력하고 있다. 임 연구원은 “카카오브레인은 비정형 데이터 중에서도 영상 데이터에 관한 연구를 활발히 하고 있다”고 말했다.


비정형 데이터를 처리할 때 가장 큰 문제는 데이터의 크기와 복잡성이다. 영상이나 음성 같은 데이터는 수치 데이터와 비교해 하나의 데이터에 담긴 정보량이 매우 많다. 이 때문에 인공지능은 여러 식과 변수를 동시에 계산할 수 있도록 설계되며, 이를 위한 알고리즘으로 는 행렬 연산을 쓴다. 따라서 인공지능을 만들 때 가장 중요한 부품은 그래픽 처리장치(GPU)다. GPU는 일반적으로 행렬 연산에 특화해 설계돼있다.


지시한 임무를 잘하고 있는지 인공지능에게 명확히 알려주는 것도 중요하다. 인공지능은 처음부터 똑똑한 것이 아니다. 학습을 통해 성능을 개선하기 위해서는 현재 상황을 수치화해 구체적으로 제시해야 한다. 인공지능을 개발할 때 성능 평가가 중요한 이유다. 


인공지능의 성능을 평가한 뒤 개선할 때는 주로 두 가지 방법을 쓴다. 먼저 파라미터(parameter)를 조정하는 방법이다. 예를 들어, 만약 어떤 데이터를 ax2+bx+c라는 이차함수로 표현한다고 가정하자. 여기서 a, b, c 등 계수가 파라미터에 해당한다. 주어진 데이터를 가장 흡사하게 표현할 수 있는 함수를 찾기 위해 계수 값을 조정하면서 적합성을 측정하는 것이다.


그러나 애초에 이런 이차함수로 표현할 수 없는 데이터라면 계수를 아무리 바꿔도 한계가 있다. 이때는 식 자체를 바꿔야 한다. 이 과정이 모델 선택이다. 지금의 인공지능은 고차원 데이터를 처리하기 위해 대부분 많은 연산식을 단계적으로 연결한 모델을 사용한다. 


파라미터와 모델의 가장 큰 차이는 인공지능이 스스로 조정할 수 있는지 여부다. 인공지능은 설정된 모델에서 파라미터를 바꿔가며 데이터에 가장 적합한 계산식을 찾는다. 이런 과정이 인공지능의 학습법을 설명할 때마다 나오는 기계학습(Machine Learning)이다. 이 과정에서는 주로 미분이 쓰인다. 임 연구원은 “일반적으로 손실함수*를 파라미터로 미분해 그 결과를 토대로 계산식을 보정한다”고 설명했다.

 

 

기계학습에서 자동 기계학습으로


하지만 기계학습만으로는 성능을 개선하는 데 한계가 있다. 파라미터 조정을 통한 성능 개선이 한계에 부딪힐 경우, 이때부터는 사람이 직접 개입해 모델을 수정해야 한다. 이 때문에 그동안 인공지능을 개선하는 데는 비교적 오랜 시간이 걸렸다.


이를 해결하는 데 필요한 것이 현재 임 연구원이 연구 중인 ‘자동 기계학습(AutoML)’이다. 자동 기계학습이 기존 기계학습과 다른 점은 모델을 바꾸는 데 개입할 수 있다는 점이다. 자동 기계학습은 파라미터 개선이 한계에 부딪혔을 때 더 알맞은 모델을 탐색하게 한다. 인공지능으로 인공지능을 만드는 셈이다.


최근에는 연산식 간에 계산을 바꾸거나 관계를 조정하는 방식으로 자동 기계학습을 작동시킨다. 이때는 주로 통계학이 빛을 발한다. 임 연구원은 “자동 기계학습은 연산 관계를 조정했을 때 변화의 경향성을 통계학으로 분석해 이를 반영한다”고 설명했다.


현재 카카오브레인은 자동 기계학습 개발을 진행하고 있다. 최근에는 여러 종류의 장기를 판독할 수 있는 의료용 NAS(Neural Archi tecture Search)를 개발하는 데 성공했다. NAS는 인공신경망 설계를 자동화한 것으로 자동 기계학습의 일종이다. 임 연구원은 “하나의 모델로 여러 장기를 처리하는 게 아니라, 장기별로 특화된 모델을 자동으로 찾아주는 시스템”이라며 “이런 방식의 의료용 NAS를 개발한 건 세계 최초”라고 말했다. 


앞으로도 인공지능 개발에서 수학의 역할은 중요하다. 아직 인과적 기계학습(CausalML)이라는 산이 남아 있기 때문이다. 인과적 기계학습은 의사결정에 도움이 되는 인과관계를 분석할 수 있는 인공지능이다. ‘왜?’라는 질문에 답할 수 있는 인공지능이라고 생각하면 된다. 


임 연구원은 “아직 완전히 정립되지 않은 분야라 수학자가 할 일이 많다”며 “수학을 통해 인공지능을 연구하고자 하는 학생들에게 강력히 추천한다”고 말했다. 그는 “어려운 수학을 엔지니어가 쉽게 쓸 수 있도록 만드는, 수학자와 엔지니어의 연결고리가 되고 싶다”는 포부도 밝혔다. 

 

 

 

 

*미하엘리스-멘텐 식
효소 반응의 해석에 쓰이는 기본적인 반응속도식.

*손실함수(loss function)
학습을 통해 얻은 데이터 추정치와 실제 데이터간의 차이를 계산하는 함수.

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2019년 06월 과학동아 정보

  • 글 및 사진

    대전,성남=신용수 기자 기자

🎓️ 진로 추천

  • 수학
  • 생명과학·생명공학
  • 컴퓨터공학
이 기사를 읽은 분이 본
다른 인기기사는?