“누워” 하면 자리에 눕고 “걸어 가” 하면 걷기 시작하는, 말 한 마디로 조종이 가능한 로봇의 탄생이 멀지 않았다.
오성회 서울대 전기정보공학부 교수팀은 사람의 말과 행동 간의 관계를 스스로 습득하는 인공신경망인 ‘텍스트투액션(Text2Action) 네트워크’를 개발했다. 이 인공신경망에 사람의 행동을 설명하는 문장을 입력하면, 스스로 언어와 행동 사이의 연관성을 배우는 원리다.
연구팀은 유튜브 영상에서 2만9770쌍의 언어와 행동 데이터를 추출해 텍스트투액션 네트워크를 학습시켰다. 그 결과 텍스트투액션 네트워크는 진짜와 가짜를 판별하는 알고리즘을 보유해 말데이터와 거의 비슷한 행동 데이터를 만들어 냈다. 또 이전에 학습하지 않은 말 데이터를 입력했을 경우 기존 데이터를 이용해 해당 말 데이터에 적합한 행동 데이터를 만들어 냈다.
오 교수는 “언어와 행동의 상관관계를 학습하는 알고리즘은 이전부터 연구돼 왔지만, 유튜브 영상을 이용해 일상 언어와 일상 행동 간의 관계를 학습한 것은 처음”이라며 “이 기술은 향후 인공지능 기반의 가상 캐릭터나 로봇에 적용할 수 있다”고 말했다.