d라이브러리









갑자기 똑똑해진 음성인식, 그 비밀은?

“아리야, 오늘 날씨 어때?”

“현재 서울 하늘은 흐리고 오후 늦게 비가 오겠습니다. 호우주의보가 내려졌으니 주의하세요!”

아리? 아리가 누구길래 오늘 날씨를 알려주는 걸까. 아리는 SK텔레콤에서 2016년 출시한 음성인식 스피커 ‘누구’의 이름 중 하나다. 이전에도 음성인식 서비스는 여럿 있었지만, 실제로 이용할 수 있을 만한 수준은 아니었다. 음성인식률이 낮으니 사용이 어려울 수밖에 없었다. 또박또박 말해야 인식할 수 있었기 때문에 사람이 많은 장소에서 이용하기에 눈치 보이기도 했다.

그런데 최근 나오고 있는 음성인식 서비스는 조금 다르다. 실제로 이용할 수 있는 수준까지 올라왔다. 음악 재생부터 일정 관리, 알람, 음식 배달, 택시 부르기 같은 다양한 서비스를 음성으로 이용할 수 있다. 기기의 이름을 부른 뒤 편하게 말로 명령을 내리면 된다.

음성인식의 발달은 언어의 장벽도 허물 수 있다. 음성인식을 결합한 자동통역 서비스 덕분이다. 한국전자통신연구원(ETRI)에서 개발한 ‘지니톡’이 대표적이다. 지니톡은 한국어, 영어, 독일어, 스페인어, 아랍어 등 8개국어를 지원해 2018 평창 올림픽에서 서로 상대방의 언어를 모르더라도 자유롭게 대화할 수 있게 도와줄 예정이다. ETRI 자동통역연구실 프로젝트 리더인 김상훈 박사는 “목에 두르는 스마트 밴드 같은 웨어러블 기기를 활용해 스마트폰에 입을 대고 얘기할 필요 없이 자연스럽게 대화할 수 있게 할 것”이라고 밝혔다.

스마트폰이 상용화되고 ‘터치’ 혁명이 일어난 지 채 10년도 되지 않았는데, 음성인식은 새로운 변화를 불러오고 있다. 이제는 음성으로 기계를 자연스럽게 조작할 날이 머지않았다.
음성인식 자동통역 서비스 지니톡은 다른 언어를 쓰는 사람끼리 자연스럽게 대화할 수 있게 도와준다.
 

음성인식, 스마트해지다

음성은 저마다 특징을 갖고 있다. 소리를 연구하던 과학자들은 소리의 다양한 특징 중 ‘주파수’가 음성을 인식하는 데 요긴하다는 것을 알아냈다. 소리의 특징을 뽑아냈다면 이를 분석하기 위한 모형이 있어야 한다. 입력된 음성과 가장 비슷한 데이터를 찾는 것이다.

또 어떤 단어 뒤에 어떤 단어가 나오는지 각각의 확률도 계산해 정확히 음성을 인식하도록 도와준다. 예를 들어, ‘날씨가’ 뒤에 ‘좋습니다’가 나올 확률이 얼마나 될지, ‘흐립니다’가 나올 확률이 얼마나 되는지가 모형에 들어간다.

음성은 정지해 있지 않고 계속 변한다. 사진이 아니라 동영상이라 생각하면 쉽다. 즉 음성인식은 동영상에 어떤 동작이 나올 때 그 동작이 무엇인지 알아맞히게 하는 것과 같다. 과학자들은 알고리즘을 만들어 이를 분석했지만, 너무 복잡했다.

이를 해결한 것이 ‘은닉 마르코프 모형’이다. 음성분석을 단순하게 만들어 주는 수학 이론으로, 음성인식률을 획기적으로 끌어올렸다. 하지만 어느 순간부터 음성인식률이 더 이상 올라가지 않았다.


이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2017년 04호 수학동아 정보

  • 김경환 기자
  • 도움

    김상훈 프로젝트 리더
  • 도움

    박준 책임연구원
  • 도움

    김승희 책임연구원
  • 도움

    SK텔레콤

🎓️ 진로 추천

  • 컴퓨터공학
  • 정보·통신공학
  • 언어학
이 기사를 읽은 분이 본
다른 인기기사는?