소리를 분리하다
스마트TV의 음성명령이 소란한 환경에서도 정확히 작동할 수 있는 것은 소리를 분리하는 특별한 기술 덕분이다. 우선 주변 소음과 사람 목소리를 분리한다. TV의 소리 패턴을 제거하며, 명령하는 목소리에서 울림을 없애 깨끗한 목소리를 추출해내는 전처리 과정을 거친다. 이게 끝이 아니다. 이렇게 추출된 명령 음성을 미리 학습돼 있는 음성 명령어 데이터베이스와 음소 단위로 비교한다. 그 중 일치율이 높은 단어를 선택, 해당하는 특정 명령을 수행한다. TV를 볼 때 많이 사용되는 ‘채널’, ‘음성’, ‘전원’ 등을 식별한다. 사람의 목소리와 TV 소리 패턴을 분리하는 게 핵심이다.
‘에코 캔슬링’으로 TV소리 제거
사람의 목소리와 TV 소리 패턴을 어떻게 분리할까. 명령으로 인식하는 목소리 외의 TV 소리를 분리하는 데 사용되는 기술은 ‘에코 캔슬링’이다.
음성 반향 제거로 불리는 이 기술은 공간에서 발생하는 반사음인 에코를 정확히 없애준다. TV 스피커에서 나오는 소리가 반사돼 돌아오는 시간과 패턴을 분석하고 걸러 TV 소리를 정확히 제거해 준다.
‘부부젤라’ 소음 막듯 일반 잡음 제거
TV에서 나오는 사람의 음성 외 일반적인 잡음을 제거하는 데는 ‘잡음 억압기(Noise Suppressor)’를 활용했다. 이 기술은 2010년 남아공 월드컵에서 아프리카 축구팬들의 ‘부부젤라’ 소리를 줄이기 위해 사용됐다. 음성 주파수 수신기에서 음성 입력이 없을 때 생기는 큰 잡음을 억제하는 디지털 프로세싱 기술이다. 남아공 월드컵 때는 주위 환경에서 발생하는 소음을 줄이고 아나운서의 중계를 더욱 뚜렷이 하는 역할을 했다. 스마트TV에서는 방문닫는 소리, 식기 부딪치는 소리 등 다양한 잡음을 걸러준다.
휴먼 인터페이스 대중화 촉발
스마트TV 음성 인식과 동작 인식, 얼굴 인식 등 다양한 휴먼 인터페이스는 앞으로 일반화할 것으로 보인다. ‘앵그리버드’와 같은 게임을 스마트TV 화면을 보며 손 동작만으로 즐길 수도 있다. 얼굴 인식을 통한 소셜네트워킹서비스 로그인 등 다양한 응용 서비스들이 봇물처럼 터져 나올 전망이다.
삼성전자 스마트 TV는 전원을 끄거나 켤 때, 또는 TV조작을 처음 시작할 때 미리 등록해 놓은 얼굴 인식이 이뤄져야 작동하는 기능이 들어가 있다.