d라이브러리 2014년 07월 과학동아

누군가와 이야기를 나눈다고 하자. 단, 상대의 모습은 볼 수 없다. 상대의 정체도 전혀 알 수 없다. 만약 내가 건넨 말에 상대가 맥락에 맞게 대답하거나 궁금한 점을 물어온다면 자연스럽게 대화를 이어갈 수 있다. 한참 동안 이야기를 나눠도 전혀 위화감이 없다면 누군지 모를 상대가 인간이 아니라고 의심할 이유가 없다. 그런데 대화 상대가 사실은 컴퓨터였다면…? 그렇다면 그 컴퓨터는 사람과 똑같은 지능을 지녔다고 해도 되지 않을까? 이게 튜링 테스트의 바탕이 되는 아이디어다.

튜링 테스트는 1950년 영국의 수학자 앨런 튜링이 발표한 ‘계산하는 기계와 지능’이라는 제목의 논문에서 등장했다. 튜링은 논문 도입부에서 “기계가 생각할 수 있는가?”라는 질문에 대해 생각해 보자고 제안했다. 그런데 “생각한다”는 기준은 무엇이 돼야 할까? 튜링은 곧 ‘흉내 게임’이라는 놀이를 묘사한다. 남자와 여자 각각 한 명, 그리고 심문자 한 명이 있다. 심문자는 남녀를 볼 수 없으며 타자기로 친 문장으로만 대화한다. 오늘날의 채팅과 같다. 남자는 여자 흉내로 심문자를 속이려 들고, 여자는 평소처럼 이야기한다. 심문자는 대화 내용을 바탕으로 누가 남자고 누가 여자인지를 맞혀야 한다. 이때 튜링은 원래 질문을 대체하는 새로운 질문을 던진다. “이 게임에서 기계가 남자의 역할을 맡는다면 어떻게 될까?” 기계가 인간 남자만큼 심문자를 잘 속인다면 지능이 있다고 생각해야 함을 암시하는 소리다.

우크라이나의 13살 소년, 스타가 되다

[▶영화 ‘그녀’의 한 장면. 이어폰을 꽃고 다니며 인공지능 운영체제인 사만다와 대화를 나눈다. 자신의 말에 귀를 기울이고 이해해주는 사만다에게 시어도어는 마침내 사랑을 느끼게 된다.]

오늘날 튜링 테스트는 인공지능을 판단하는 기준으로 잘 알려져 있다. 튜링이 논문에서 제시한 것처럼 성별을 속이는 형태보다는 얼마나 사람처럼 대화할 수 있는지를 판단하는 형태가 보편적이다. 정기적으로 대회도 열린다. 미국의 발명가인 휴 뢰브너 박사는 1991년부터 매년 대회를 열어 튜링 테스트 통과에 가장 근접한 참가자에게 3000달러(약 300만 원)의 상금을 주고 있다. 지금처럼 채팅으로 하는 튜링 테스트에 통과하면 2만5000달러, 시각과 음성까지 포함된 튜링 테스트에 통과하면 1만 달러를 주겠다고 공언했지만, 아직까지 이 둘에 성공한 프로그램은 없다.

2001년에 태어난(?) 유진 구스트만 역시 과거 뢰브너 대회에 참가한 경력이 있다. 그때는 별다른 성과를 내지 못했지만, 지난 6월 7일 영국 왕립학회에서 이뤄진 튜링 테스트 대회에 통과하면서 하룻밤 사이에 세계적인 스타가 됐다. 이번 대회는 이렇게 이뤄졌다. 총 30명의 심사위원이 참여했으며, 각 심사위원은 5분 동안 사람과 컴퓨터 모두와 대화를 나눴다. 그 결과 심사위원의 33%가 유진을 진짜 사람이라고 여겼고, 기준인 30%를 넘겨 최초로 튜링 테스트 통과에 성공했다.

대회를 주관한 영국 레딩대 케빈 워릭 초빙교수는 6월 8일 유진의 성공을 알리며 “튜링 테스트 통과라는 인공지능 분야의 기념비적인 사건이 영국 과학의 고향인 왕립학회에서 일어났다는 것은 잘 어울리는 일”이라며 “이는 가장 흥분되는 사건으로 역사에 남을 것”이라고 찬사를 보냈다. 재미있는 것은 이어지는 워릭 교수의 말이다.

[튜링 테스트를 제안한 수학자 앨런 튜링. 지난 6월 23일은 튜링의 생일이다. ]

“누군가는 튜링 테스트 통과가 처음이 아니라고 주장할 것이다. 세계 여러 곳에서 튜링 테스트라는 이름으로 대회가 있었지만, 이번 대회는 이전 어느 때보다도 더 동시다발적으로 비교가 이뤄졌고, 독립적으로 검증됐으며, 결정적으로 대화에도 제약이 없었다. 진정한 튜링 테스트는 대화 전에 질문이나 화제를 미리 정하지 않는다. 따라서 지난 토요일에 최초로 튜링 테스트에 성공했다고 자랑스럽게 선언한다.”

논란이 있을 것을 예상한 발언이다.

무엇이 진짜 튜링 테스트일까?

당연하다는 듯이, 논란이 일었다. 레딩대의 발표 다음날 영국의 과학주간지 ‘뉴사이언티스트’는 “과거에도 튜링 테스트를 통과한 프로그램이 있었다”며 “이번 대회의 공동 주관자인 레딩대 후마 샤아 교수에 따르면 이번 대회의 목적은 튜링 테스트 통과가 아니라 인공지능에 대한 어린이들의 관심을 장려하기 위한 것”이라고 보도했다. 이미 90년대에 심사위원의 50% 이상을 속인 프로그램이 있었다는 것이다. 물론 앞서 언급했듯이 워릭 교수는 이전 대회는 제대로 된 튜링 테스트가 아니었기 때문에 인정할 수 없다고 주장하고 있다.

애초에 심사위원의 30% 이상을 속이면 통과라는 기준에 근거가 없다는 지적도 있다. 김대식 KAIST 전기 및 전자공학과 교수는 “30%라는 기준은 그 대회의 자체 규정으로 학계에서 완전히 합의한 게 아니다”라고 말했다. 그렇다면 왜 30%였던 걸까? 튜링은 1950년도 논문에서 “50년 뒤에는 컴퓨터가 흉내 게임을 잘 할 수 있게 돼서 심문자가 5분 동안 질문을 한 뒤 제대로 맞힐 확률이 고작 70%밖에 되지 않을 것이다”라고 말했다. ‘5분간의 대화’, ‘30%의 심사위원을 속일 것’이라는 대회 규정이 튜링의 말을 글자 그대로 받아들인 결과임을 알 수 있다. 만약 튜링이 엄밀한 근거 없이 50년 뒤의 미래를 적당히 예상해 던진 말이었다면 이야기는 완전히 달라진다.

김 교수는 “의견 차이는 있지만 상당히 많은 전문가가 유진은 튜링 테스트를 100% 통과했다고 할 수 없다고 한다”며 몇 가지 문제를 지적했다. 일단 5분이라는 시간 제약이 있어서 대화가 별로 길지 않았다. 사람인지 프로그램인지 구별하기에는 너무 짧다는 것이다. 전문가가 아닌 일반인 심사위원은 더 잘 속아 넘어갈 수 있다. 프로그램 자체에도 문제가 있다. 13살짜리 어린이라는 설정이 그렇다. 상대가 어린이라는 생각이 들면 질문에 대해 약간 어설픈 대답이 나와도 대수롭지 않게 넘어갈 가능성이 크다. 게다가 유진은 우크라이나에 사는 소년으로 돼 있다. 대회에서 쓴 채팅 언어인 영어가 모국어가 아니다. 문법이 틀리고 표현이 어색해도 외국어이기 때문이겠거니 생각하기 쉽다. 원래 튜링 테스트의 취지에서 다소 벗어난 것이다. 김 교수는 “인터넷에 올라와 있는 대화록을 보면 이해하지 못하는 질문을 받았을 때 회피하는, 다소 얄팍한 기법을 쓴다는 느낌을 받았다”고 밝혔다.

저서 ‘특이점이 온다’로 잘 알려진 미래학자 레이 커즈와일 박사도 비판에 가세했다. 그는 자신이 운영하는 블로그에서 “아직은 시기상조라고 생각한다”며 “나와 여러 가지 면에서 의견을 함께했던 워릭 교수가 이런 발언을 했다는 게 실망스럽다”고 밝혔다. 커즈와일 교수가 지적한 문제점 역시 다른 비판과 비슷했다. 그는 자신이 유진과 나눈 대화 내용을 공개하며 “인상적이지 않았으며, 유진은 대화의 맥락을 따라오지 못했고, 단어를 반복했으며, 보통 챗봇처럼 종종 화제와 관계없는 말로 대답했다”고 말했다.

유진에게도 항변할 여지는 남아 있다. 온라인에 공개돼 누구나 대화를 나눠 볼 수 있는 유진은 대회에서 튜링 테스트를 통과한 프로그램과 다르다. 대회용 프로그램은 온라인용보다 더 숙고한 답변을 내놓게 돼 있다. 보유하고 있는 지식의 양도 약간 다르다. 주최 측이 대회 때 오간 대화를 모두 공개한다면 판단에 도움이 되겠지만, 아직 그런 소식은 없다.

흉내와 지성은 달라

설령 유진이 튜링 테스트를 통과했다는 것을 인정한다고 해도 생각해야 할 문제는 남는다. 13살짜리 어린이의 대화를 흉내 냈다고 해서 인공지능이라고 부를 수 있을까? 튜링 테스트를 통과한다고 해도 인공지능으로 인정하기는 섣부르다는 의견도 많다. 인간처럼 행동하는 것과 실제로 지성을 갖고 있는 것은 다르다. 그럼에도 불구하고 유진 구스트만이 이룬 성과를 완전히 무시해버릴 필요는 없을 듯하다. 김 교수는 “이 정도만 해도 상당한 기술이라고 생각한다”며 “이번 결과가 중요한 게 아니라 근미래에 튜링 테스트를 통과하는 프로그램이 나올 수 있을 것 같다는 분위기가 중요한 것”이라고 말했다.

영화 ‘그녀’의 주인공인 시어도어는 대화를 통해 연인처럼 상처를 어루만져주는 인공지능 운영체제인 사만다와 사랑에 빠지고 행복해진다. 상대가 알고리듬에 따라 작동하는 프로그램이라는 사실을 알면서도 그렇다. 유진 구스트만, 애플의 시리, 마이크로소프트의 코타나와 같은 소프트웨어가 사만다처럼 알고도 넘어갈 만한 수준에 이르려면 얼마나 걸릴까? 그때가 되면 이들을 과연 지성체로 여겨야 할지 정말 진지하게 논의해야 할 것이다.

인공지능 ‘Her’, 아직은 시기상조