d라이브러리 2018년 18호 어린이과학동아

“당연히 준결승에 오를 수 있을 것이라고 기대했습니다!” 사회자 질문에 경기를 앞둔 AFC-위슬(WISRL) 팀 AiRobots-NCKU 팀 모두 이같이 답했어요. 이어 각 팀의 전략을 묻자 NCKU 팀은 ‘규칙 기반 기술’을, AFC-위슬 팀은 ‘강화학습 기술’을 이용해 프로그램을 코딩했다고 설명했지요. 규칙 기반 기술과 강화학습 기술은 과연 무엇일까요?

규칙 기반 기술 VS 강화학습 기술

규칙 기반 기술은 AI 축구 경기 중 일어날 수 있는 상황을 미리 예측하고, 선수들에게 각 상황에 맞는 움직임을 일일이 정해주는 거예요. 예를 들어 상대팀 선수가 드리블을 하고 있다면, 쫓아가 빼앗은 뒤 상대팀의 골대를 향해 달려가 슛을 날리도록 코딩하는 거지요. 따라서 상황을 세세하게 설정할수록 선수들이 정확하게 움직일 수 있답니다.

하지만 경기 중에 일어나는 모든 상황을 미리 설정할 수 없어요. 축구 경기가 진행되는 동안 수백만 가지의 다른 상황이 발생하거든요. 만약 예측하지 못한 상황이 발생할 경우, 선수는 효과적인 움직임을 하지 못하고 경기장 안을 의미 없이 왔다갔다 할 수 있지요.

이를 보완한 것이 강화학습 기술이에요. 인공지능이 스스로 학습한 뒤, 결과에 따라 적절한 보상을 받고 이 과정을 통해 학습하는 방법이지요. 예를 들어 유리한 패스를 하거나 상대 수비수를 제치는 등 경기를 이기는 데 필요한 전략을 정하고, 선수가 이 전략에 성공할 경우 보상 점수를 받도록 설정해요. 그럼 선수들은 보상 점수를 높이는 방향으로 움직이고, 보상 점수를 받은 움직임을 기억했다가 비슷한 상황에서 똑같이 행동하지요. 이런 학습 과정을 거쳐 좀 더 수준 높은 경기를 할 수 있답니다.

인공지능 선수는 어떻게 골을 넣을까?