d라이브러리 2022년 05호 어린이과학동아

아무리 사람과 똑같이 생겼더라도 가상 인간과 제대로 말이 통하지 않는다면 사람처럼 느껴지지 않을 거예요. 음성 대화는 사람의 가장 자연스러운 소통 방식이기 때문이죠. 가상 인간과 실시간 음성 대화를 할 수 있는 기술은 지금도 발전하고 있습니다.

가상 인간의 대답을 듣기까지의 과정은?

가상 인간에 탑재된 인공지능이 사람의 말소리를 이해하기 위해서 먼저 말소리를 글자로 변환하는 과정이 필요합니다. 이 과정을 ‘STT(Speech-to-Text)’라고 하죠. 마이크 같은 센서가 사람의 말소리를 인식하면, 인공지능이 소리의 파형을 분석해 글자와 단어로 옮겨요. 인공지능은 이 글자와 단어들을 기존 언어 데이터와 비교하고 처리해 최종적으로 문장을 재구성하지요. 인공지능이 언어 데이터를 많이 학습할수록 문장이 매끄러워져요.

사람이 어떤 말을 했는지 파악했으니, 이제 가상 인간이 어떻게 대답할지 결정해야 합니다. 인공지능을 활용한 언어 생성 모형은 수많은 대화 예시를 학습해서 사람이 건넨 말에 대한 가장 적절한 대답을 고릅니다. 가상 인간의 성격에 따라 특정한 말투를 사용해 말할 수도 있지요.

가상 인간이 뭐라고 대답할지 결정했다면, 이 문장을 다시 목소리로 바꾸어야 합니다. 이 과정은 글자를 음성으로 변환한다는 뜻에서 ‘TTS(Text-to-Speech)’라고 불러요. 대화할 때 나올 수 있는 모든 문장을 미리 녹음할 수는 없으므로, 어떤 글자가 나오더라도 이를 음성으로 나타낼 수 있는 음성 합성 기술이 필요합니다. 먼저, 여러 가지 문장을 읽어 음성을 녹음한 뒤, 이 음성을 글자, 단어 등의 단위로 쪼개어 저장합니다. 그러면 어떤 문장이라도 저장된 음성 단위를 합쳐서 표현할 수 있죠. 음성 합성 인공지능도 음성 인식과 마찬가지로 다양한 음성 데이터를 학습시킬수록 더 자연스러운 음성을 합성할 수 있습니다. 가상 인간도 목소리를 가지게 된 거죠!

지금 활동하는 가상 인간은 대부분 현실 세계에서 가상 인간을 담당하는 사람이 대신 소통합니다. 축적된 언어 데이터의 규모가 커지고 이를 분석하는 언어 생성 인공지능 기술이 발전하면 다양한 인공지능을 지닌 가상 인간이 사람들과 수다를 떨 수도 있게 될 거예요.

[특집] 듣고 생각하고 말한다 가상 인간의 소통법