‘알파고’로 유명한 AI기업 딥마인드가 규칙을 입력하지 않아도 비디오 게임을 스스로 터득해 기존 AI보다 높은 실력을 보이는 ‘뮤제로(MuZero)’를 개발하는 데 성공했습니다.
딥마인드가 2016년 개발한 AI인 알파고는 기보와 규칙을 모두 학습해 이세돌 9단과 바둑 대결을 벌였습니다. 딥마인드는 2017년 규칙만 학습해 바둑을 터득하는 ‘알파고제로’를, 2018년에는 같은 방식으로 체스와 일본식 장기인 쇼기도 할 수 있는 ‘알파제로’를 차례로 내놓았습니다.
일반적으로 AI는 ‘모델 기반 강화 학습’을 통해 다양한 변수를 모두 학습하고 이를 바탕으로 문제를 해결할 계획을 세웁니다. 알파제로는 규칙을 바탕으로 모의실험을 진행해 미래의 상황과 그에 대한 보상을 계산합니다. 그러나 이 방법은 비디오 게임처럼 시각적인 요소가 다양해 변수가 많은 상황에서는 효율이 떨어집니다.
그래서 딥마인드는 결정을 내리는 데 꼭 필요한 상황만을 예측하는 알고리듬을 추가해 뮤제로를 제작했습니다. 뮤제로는 상황이 주어질 때마다 ‘어떤 선택을 할지’, ‘그때의 보상은 얼마인지’, ‘현재 얼마나 유리한 상황인지’ 등 세 가지 요소를 고려해 계속해서 학습합니다.
실험 결과 뮤제로는 체스와 바둑, 장기 등에서는 알파제로와 비슷한 실력을, 미스 팩맨과 같은 비디오 게임에서는 이전의 모든 AI 알고리듬보다 우수한 실력을 발휘했습니다. 이 연구 결과는 국제학술지 ‘네이처’ 2020년 12월 23일자에 실렸습니다.