지난 4월호에 나온 음성 인식 AI ‘DJ 성식’의 업그레이드 버전이 바로 나, 미스터 수동이야. DJ 성식 같은 음성 인식 AI는 음성 데이터를 인식해 찾아낸 답을 전자기기의 디스플레이에 보여주지. 나는 상대가 원하는 답을 다시 음성으로 전해줘. 대화형 AI가 어디에서 활약하는지 소개할게.
시리, 빅스비 … 손 안의 친구되다
대화형 AI 비서는 스마트폰에 적용되면서 널리 알려지기 시작했어. 애플이 2011년에 내놓은 AI 비서 ‘시리’나 삼성전자가 2017년에 공개한 AI 비서 ‘빅스비’를 경험한 적 있니? 아마존의 알렉사(2014년), 구글의 어시스턴트(2016년)와 함께 대표적인 AI 비서라고 할 수 있지. 최근에는 대화형 AI의 영역이 스피커나 블루투스 이어폰 같은 음향기기를 넘어 가전제품으로 확대되고 있어.
아직 우리의 대화 능력이 사람과 원할하게 소통할 정도는 아니야. 사람이 시키지 않은 행동을 하는 것도 거의 불가능하지. 게다가 AI 비서가 여러 명이라면 복잡한 상황이 일어날 수밖에 없어.
삼성전자는 2019년 서로 다른 규칙에 따라 각각의 서비스를 제공하는 수만 명의 비서 대신, 모든 일을 한 번에 처리하는 단 한 명의 비서를 개발해야 한다고 강조했어. 이를 위해 사람들이 일상적으로 쓰는 자연어의 문맥을 이해하고 학습하는 능력을 갖춘 AI 플랫폼을 확장할 계획이라고 해.
2020년 10월에는 구글 클라우드 방식을 도입해 빅스비가 음성 인식 데이터를 학습하는 속도를 18배 정도 높이기도 했어.
앞으로 대화형 AI 비서 개발자들의 목표는 AI가 질문에 대답하는 수준을 넘어 사용자 대신 행동하게 만드는 거야. 예를 들면 AI가 인간을 대신해 식당을 예약하거나 꽃을 선물하는 거지. 우리의 끊임없는 변신을 기대해줘!
전문가의 영역 넘본다
듣고 싶은 음악이나 정보를 검색하는 것이 우리가 하는 일의 전부는 아냐. 내 친구들은 법률, 의료, 금융 등 다양한 분야에서 전문가들의 수고를 덜어 주려고 발 빠르게 움직이고 있어. 2019년 8월 서울 서초구 변호사회관에서 열린 AI 변호사 알파로(AlphaLaw)와 인간 변호사의 대결에 대해 들어봤니? 근로계약서의 공정성을 평가하는 문제에서 알파로는 사람의 힘으로만 진행했다면 1시간 이상 걸리는 양의 자료를 단 7초 만에 분석했어. 물론 알파로가 인간 변호사처럼 법정 대결을 펼칠 수준은 아니지만, 명확한 자료에 근거해 법률 답안을 만드는 AI의 능력을 입증한 사례였어. 의료 현장에서 의사가 병을 진단하는 업무를 돕는 AI도 있어. 각종 검사자료를 분석해 의사가 유의해서 진찰할 곳을 알려주기 때문에 오진을 줄일 수 있지. 또 주식이나 부동산 분야에서 쓰이는 AI들은 전문 투자상담사 대신 ‘로봇(robot)이 자문한다(advise)’는 의미로 ‘로보 어드바이저’라는 이름으로 불리고 있어.
언어 치료부터 교육까지!
사회성을 갖춘 소셜네트워크 AI 로봇 개발회사로 알려진 일본의 아카에이아이를 들어봤니?
이 회사는 2020년 5월 특정 상황에서 말을 하지 않는 증상인 ‘선택적 함묵증’을 앓는 아이들의 치료에 대화가 가능한 AI 로봇을 활용해 말을 하게 만드는 데 성공했다고 발표했어. 그런 아카에이아이가 올해 3월에는 “직접 개발한 AI 엔진인 뮤즈를 탑재한 로봇 ‘뮤지오(Musio)’를 서울 노량진초등학교에 설치했다”고 밝혔어. 뮤즈는 대화의 문맥과 상황을 판단하고 사용자와 나눈 대화를 기억하는 방식으로 의사소통하는 AI야. 학생들의 영어 회화 학습과 실력 측정에 쓰일 거라고 해.
AI는 확률 속에서 움직인다!
AI의 학습 알고리듬에는 확률 개념이 적용돼 있다고 해. 왜 그런지 궁금하지? 그 답을 지금 바로 알려줄게!
AI 비서라 불리는 시리나 빅스비, 언어 치료를 돕는 AI 로봇 뮤지오 등 대화형 AI는 음성으로 데이터를 인식해. 이들을 통틀어 음성 인식 AI라고 부르지. 이처럼 어떤 데이터를 인식하느냐에 따라 AI를 구분하기도 해. 이미지 데이터를 처리하면 이미지 인식 AI, 움직이는 영상을 인식해서 처리하면 영상 분석 AI야. 글자를 인식할 수도 있어서 사진과 글자가 섞인 문서를 넣으면 글자만 골라내는 AI도 있어.
AI가 어떤 서비스를 제공하든 그 서비스를 가능하게 하려면 빅데이터를 학습해야 해. 그런데 아무리 많은 데이터를 입력한다고 해도 현실에서 나오는 데이터보다는 양이 적을 수밖에 없어. 그래서 AI가 관측한 데이터는 불확실성(오차)을 갖게 되는 거야.
완전하지 않은 데이터로 세상을 설명하기 위해 수학에서는 모형(모델)을 만들어. AI에 쓰이는 학습 알고리듬도 수학자들이 만든 모형이야. 완전하지 않은 데이터와 수학자가 도입한 여러 가정 등으로 인해 이 모형 역시 불확실성을 가질 수밖에 없지. 결국 데이터와 모형이 가진 불확실성 때문에 AI가 내놓는 답 역시 100% 확실하다고 장담할 수 없는 거야.
수학에서 불확실성을 최소화해 정답에 가장 가까운 답을 내놓도록 돕는 개념이 확률이야. 다양한 변수를 고려해 최적의 결과를 줄 수 있는 기대치를 계산하는 거지. 그럼 AI에서 확률을 어떻게 사용할까? 확률에서는 어떤 사건이 일어날 수 있는 모든 경우의 수를 가진 ‘전체 공간(모집단)’과 일부 경우의 수만 포함하는 ‘표본 공간’을 정의하고 있어. 이런 의미에서 AI가 학습한 데이터의 집합은 현실에서는 전체 공간 중 일부분만 포함된 표본 공간이라고 볼 수 있어. AI가 데이터를 인식하는 단계에서부터 확률의 개념이 쓰이는 거야.
이런 불확실성을 고려하기 위해 확률 모형을 세워야 해. 이 과정에서 관심있는 사건을 풀기 위해 AI가 관측한 데이터를 확률변수 X로 표시해. 데이터에 따라 변하는 값이지. 또 각각의 확률 모형을 설정하기 위한 변수를 Y로 써볼게. AI가 알고리듬에 적용된 확률 모형을 학습한다는 것은 데이터 X를 가장 잘 설명하는 Y를 찾는 과정이라고 할 수 있어.
확률론을 연구하는 학자를 ‘빈도주의자’와 ‘베이즈주의자’로 구분해. 빈도주의자들에게 확률은 특정 사건을 시행할 때 A가 나타날 경우의 수를 이 사건이 일어나는 모든 경우의 수로 나눠 구하는 것을 의미해. 예를 들어 주사위를 던지면 1부터 6까지 여섯 가지 경우의 수가 나오잖아. 이때 1이 나올 경우의 수는 1가지뿐이야. 결국 주사위를 1번 던질 때 1이 나올 확률은 1/6이라고 할 수 있어. 빈도적 확률 개념을 적용한 대화형 AI라면 어떤 상황을 입력해도 주사위를 던져 1이 나올 확률은 1/6이라고 대답할 거야.
반면에 베이즈주의자들은 이와 다르게 보지. 무한히 주사위를 던졌을 때 1이 나올 확률이 1/6인 것은 분명할 거야. 그런데 어떤 사람이 주사위를 10번 던졌는데 경험적으로 1이 7번 나왔다고 주장할 수 있어. 이 사람에게 1이 나올 확률은 7/10인 거지. 만약 주사위를 10번 던진 사람과 20번 던진 사람이 있다면, 이 두 사람은 실제로 경험한 결과에 따라 1이 나올 확률을 다르게 느끼고 있을 꺼야. 교과서에서는 이를 사건 A가 일어났을 때 사건 B가 일어날 확률이라는 의미를 가진 조건부확률의 개념으로 설명하고 있어.
조건부확률은 베이즈 정리나 베이즈 확률 등으로 부르기도 해. 이를 적용하면 사건에 영향을 미칠 수 있는 상황을 최대한 고려할 수 있어. 여러 상황을 가정한 AI의 알고리듬일수록 연산 과정이 복잡해질 수밖에 없지. 이처럼 수학자나 컴퓨터 과학자는 빈도적 확률 개념과 베이즈 확률 개념을 이용해 AI의 기계 학습 알고리듬을 설계하는 중이야.