d라이브러리









목소리는 제2의 주민등록증

성대모사 예리하게 잡아내는 스펙트로그램

최근 사회적으로 관심을 끌었던 ‘김대업 테이프 성문분석’사건이 판독 불능이라는 결론으로 매듭지어졌다. 사람의 목소리는 어떻게 나오고 개인의 특징은 어떻게 나타날까.또 어떤 과정을 통해 비교∙분석하는 것일까. 성문분석의 원리부터 한계와 문제점까지 짚어보자.

우리는 일상 생활에서 의사소통을 하기 위해 목소리를 주로 사용한다. 사람의 목소리를 알아듣고 자연스럽게 말할 수 있도록 하는 음성인식 컴퓨터가 속속 개발되고 있지만, 사람처럼 자연스럽게 듣고 말하기에는 아직 역부족이다. 그만큼 사람의 목소리는 복잡하고 정교한 반면, 음성 합성 기술은 여전히 발음기관이나 청각기관의 기능을 제대로 반영하지 못하고 있다. 사람의 목소리는 어떻게 나오며, 어떤 특징을 갖고 있을까.

봄에 물기가 한껏 오른 버드나무 가지를 꺾은 뒤 껍질을 쏙 빼어서 끝 부분의 거친 부분을 깎아낸 후 불면 소리가 난다. 사람의 목소리도 버들피리의 울림과 같은 원리로 나온다. 버들피리에 입술을 대고 부는 곳이 사람의 ‘성대’에 해당하고, 긴 대롱이 ‘성도’에 해당한다. 즉 사람의 목소리는 크게 성대의 여닫음에 의한 떨림과 입안의 공간인 성도(울림통)의 변화로 분리할 수 있다.
 

목소리는 제 2의 주민등록증


버들피리 울림과 같은 원리
 

(그림 1) 발성기관과 피리의 관계


사람의 옆얼굴 단면을 해부적으로 나타낸 모양과 피리의 모양을 비교해보자(그림1). 사람의 성대는 횡경막과 가슴뼈로 눌려진 허파에서 올라오는 공기 압력에 의해 열리는데, 공기가 이 사이를 빠른 속도로 지나가면 성대막 주위의 기압이 낮아지면서 성대가 서로 붙는다. 이런 현상은 종잇장을 두개 서로 가까이 붙여서 손에 잡은 부분을 약간 벌린 다음 그 사이에 바람을 불어보면 두장의 종이가 붙었다 떨어졌다를 반복하는 것과 같은 이치다.


보통 남자의 성대는 1초에 평균 1백20번 붙었다 떨어지는 동작(1백20Hz)을 되풀이하는데, 이를 기본주파수라고 표현한다. 기본주파수는 성대의 크기와 무게, 그리고 탄성도에 따라 달라진다. 발음할 때 근육을 당겨서 팽팽하게 하면 더 빨리 진동하는데, 이것은 고무줄을 팽팽하게 당겨서 퉁길 때와 약간 늦춰서 퉁길 때의 진동수가 달라지는 것과 같은 원리다.

남자의 성대에 비해 여자나 어린아이의 성대는 작기 때문에 더욱 빠르게 진동한다. 여자의 기본주파수는 평균 2백30Hz, 아이들은 3백Hz 이상이다. 소프라노 가수의 경우에는 1천Hz나 된다. 따라서 사람마다 늘 하던 발음으로 말하면 성대의 크기와 무게 등의 정보가 기본주파수에서 나타난다. 사람의 목소리를 들어보면 아이인지 어른인지, 또 남자인지 여자인지 쉽게 알 수 있는 것도 기본주파수를 판단 기준의 하나로 삼기 때문이다. 그래서 남자 가운데 성대가 작은 사람은 전화로 이야기할 때 여자로 오해를 받는 경우가 종종 있다. 특히 성대의 질병으로 혹이나 암 조직이 생기면 목소리가 탁하고 거친 소음이 많이 섞인다. 규칙적인 음성신호와 불규칙적인 소음의 비율을 구하면 환자와 정상인을 구별할 수도 있다. 기본주파수를 청각적인 측면에서 피치라고 부르기도 한다. 서로 말다툼을 할 때 ‘피치를 올린다’는 표현을 쓰는데, 물리적으로는 성대가 팽팽히 당겨지고 빠르게 진동하는 현상을 말한다. 기본주파수는 감정과 정서상태에 따라 매우 다양하게 변한다.

성대에서 소리의 원음이 생겨난다면 성도에서는 이 음이 성도를 통과하면서 소리의 특징을 만들어내는 역할을 한다. 단어를 발음할 때 입을 자세히 살펴보면 턱이 오르내리기도 하고 혀의 움직임도 눈에 띄게 많다. 이런 움직임은 입안의 공간을 여러가지로 바꾸는 동작이다. 버들피리의 경우엔 크기와 모양이 일정하지만, 사람은 혀나 턱, 그리고 입술과 같은 조음기관을 끊임없이 움직이면서 다양한 크기와 길이로 된 울림통을 겹쳐놓은 모양의 조합을 만든다. 모음을 발음할 때 입안의 모양을 살펴보자. ‘아’일 때는 입을 많이 벌리고 혀가 낮게 깔리며, ‘이’일 때는 입을 거의 다물고 혀의 앞부분을 입천장 쪽으로 가까이 둔다. 이런 크기와 모양으로 된 버들피리를 두개 이어서 불면 사람의 목소리와 똑같은 소리가 난다. 버들피리가 굵을수록, 길이가 길수록 불기 힘들고 매우 낮은 주파수로 진동하듯이 목이 긴 사람일수록 저음이다.

정상적인 사람이라면 누구나 두가지 다른 피리 소리를 들려줄 때 어느 쪽인지 쉽게 선택할 수 있으며, 그 굵기와 길이도 짐작할 수 있다. 머리가 좋은 독자라면 벌써 사람의 목소리에도 이렇게 성대와 성도의 신체적인 특징들이 실려있을 것이라고 짐작했을 것이다. 실제로 우리는 얼굴은 보지 않고 사람의 목소리만 들어도 누구인지 쉽게 알아맞힌다. 하지만 비슷한 길이와 굵기의 버들피리를 들려주면 쉽게 구분하기 힘들 것이다. 마찬가지로 두 사람의 발성기관이 비슷한 경우에는 같은지 다른지 확인하기 힘들다. 이런 경우에는 컴퓨터를 이용한 성문분석 도구를 활용해야 한다.

성문분석의 핵심은 스펙트럼 분석
 

(그림 2) 컴퓨터가 분석한 파형 모습


성문분석에 관한 TV 뉴스보도를 보면 관련 연구자가 컴퓨터 화면에 나타나는 여러가지 무늬의 그림을 차례로 이동시키며 설명하는 모습을 발견할 수 있다. 성문분석이란 소리의 특징을 사람의 손금 보듯이 그림으로 나타내거나 정밀한 숫자 값으로 표현하는 방식이다. 컴퓨터에 소리를 입력하는 과정을 보면, 마이크를 통해 소리의 크기를 컴퓨터의 음성처리 카드가 받아서 숫자로 기록해 저장하고, 녹음 시작 시간을 기준으로 얼마의 시간이 지났는지 함께 기록한다(그림 2).

이렇게 시간마다 변하는 소리의 크기를 그래프로 나타낸 것이 음성 파형이다. 이 파형은 자음과 모음의 지속시간이나 성대의 여닫음을 주기적으로 나타내주지만, 많은 정보가 한꺼번에 뒤섞여 있다. 성문분석을 통해서 이런 각각의 성분들을 하나씩 분리해 나타내야 한다. 최근까지 많이 사용돼온 성문분석의 핵심은 푸리에변환에 의한 스펙트럼 분석이다. 푸리에변환이란 여러개의 성분으로 이뤄진 복합파를 단절된 시간 간격의 창으로 떼어내 수학적인 연산을 통해 각각의 성분음으로 분리하는 기법을 말한다. 예를 들어 모든 색깔의 빛이 합쳐 있는 햇빛을 삼각유리막대로 통과시키면 다양한 색깔의 띠로 분리돼 나타나는데, 사람의 목소리도 이렇게 분리해 나타낼 수 있다는 원리다(그림 3).
 

(그림 3) 스펙트럼 분석과정


푸리에분석은 컴퓨터에 저장된 각 시간점에서 앞뒤의 진폭 값을 다양한 간격으로 곱하거나 누적시키는 연산을 통해 규칙성을 찾아낸다. 마지막 단계에서 제일 기본이 되는 성분음 값(기본주파수가 된다)을 구하고, 이 값의 정수배(1, 2, 3…배)에 해당하는 주파수의 진폭 값을 구해 주파수 값을 x축에, 진폭 값을 y축에 나타내면 스펙트럼이 된다(그림 4).
 

(그림 4) 스펙트럼을 시간축에 농도로 나타내는 과정


이 스펙트럼을 90도 시계반대방향으로 돌린 뒤 이 정보 가운데 진폭 값이 클수록 진하게 나타내고 작을수록 연하게 나타내 각각의 주파수 위치에 연속으로 표시한 것이 스펙트로그램이다. 간단하게 말해 처음 화자가 발음한 음성 파형을 푸리에분석을 통한 스펙트럼 분석을 거쳐 시간-주파수로 표현하면 스펙트로그램을 얻을 수 있다. 스펙트로그램에 나타난 세부 정보를 통해 음성의 특징을 추출할 수 있는 것이다.

필자가 ‘아버지’라고 발음한 음성 파형과 푸리에분석을 하여 x축에 시간, y축에 주파수, 농도에 따른 스펙트럼의 크기라는 세가지 정보를 한꺼번에 나타낸 스펙트로그램을 살펴보자(그림 5). 파형을 푸리에변환을 시켜 성문 분석한 스펙트로그램으로, 파형에서 볼 수 없는 화자의 많은 개인적인 특성을 보여주고 있다. ‘아’ 부분의 y축에 나타낸 주파수의 위치상 제일 아래에 위치하는 노란 점의 띠를 제1포먼트라고 하고 위로 갈수록 차례로 제2포먼트, 제3포먼트라고 표현한다. 포먼트는 소리를 낼 때 턱과 혀 등의 위치를 파악해 특징을 잡아내기 위해 찾는 것으로, 컴퓨터분석 알고리듬에 의해 자동으로 추정해 노란 점으로 표현했다. 여러분도 손거울을 들고 아버지하고 천천히 발음하면서 입 모양의 변화를 관찰해보기 바란다.
 

(그림 5) '아버지'의 파형(위)와 스펙트로그램(아래)^파형을 푸리에 변환시켜 성문을 분석한 스펙트로그램에서는 포먼트(노란점의 띠)가 중요하다. 포먼트는 소리를 낼 때 턱과 혀 등의 위치를 파악해 화자의 개인적인 특징을 잡아내기 위해 찾는 것이다. 이 그림에서 제 1포먼트는 턱, 제 2포먼트는 혀의 모양을 반영한다.


우선 턱의 움직임을 살펴보면 ‘아’ 발음을 하기 위해 입을 많이 벌렸다가 ‘버’와 ‘지’로 가면서 점점 다물며 턱이 위로 올라가는데 스펙트로그램에서 제1포먼트는 높은 데서 낮은 데로 이동하고 있다. 즉 제1포먼트는 대체로 턱의 오르내림을 반영한다. 혀의 움직임을 관찰해보면 혀가 뒤로 간 ‘아’나 ‘버’ 보다는 앞으로 내밀어 올린 ‘지’에서 제2포먼트가 높다. 즉 제2포먼트로 혀의 움직임을 추정할 수 있다. 한마디로 스펙트로그램을 통해 우리는 각 시간대별로 입안의 모양이 어떻게 변하고 있는지를 추정할 수 있다.

또한 ‘버’라고 발음할 때 입을 다물었기 때문에 아무 소리도 기록되지 않는 묵음 구간과 성대가 열리고 규칙적인 진동을 하기 시작하는 지점들이 나타나는데, 이런 정보들도 개인의 특성을 보여준다. 그 위에 그려진 빨간 선들은 성대의 진동을 나타내는 기본주파수값을 나타내준다. 필자의 발음에서는 ‘아’보다는 ‘버’에서 성대의 진동이 더욱 빠르다. 파랑색으로 나타낸 선들은 해당 시간점마다 소리의 강도를 나타내는 것으로 역시 기본주파수가 높은 ‘버’에서 가장 높은데 항상 기본주파수값의 높낮이와 일치하지는 않는다.

또한 ‘버’의 발음시간이 ‘아’보다 길고, ‘지’보다 짧다. 사람들은 기본주파수와 강도를 높게, 발음을 길게 해서 자신이 주장하는 말을 강조하는데, 이것을 초분절음이라고 한다. 분절음은 ‘아, ㅂ, 어, ㅈ, 이’와 같이 자음과 모음으로 분리된 각각의 소리마디를 말하고, 초분절음은 버들피리를 길게 불거나, 세게 또는 약하게 변화를 주듯이, 소리의 높낮이나 길이, 크기 등과 같이 분절음에 덧붙여져 다양한 발음으로 만드는 특징을 가진다. 음성을 분석하는 과정은 이렇게 사람의 목소리를 컴퓨터로 기록해 분절음 정보와 초분절음 정보의 특징을 음향적으로 살펴보고 측정값을 구하는 것이다.

그 측정값들을 이용하면 입안의 혀의 움직임과 이에 따른 입안의 공간 모양을 쉽게 예측할 수 있다. 스펙트로그램을 그려준 데이터는 모두 숫자로 저장돼 있는데, 각 지점마다 농도의 차이가 매우 미세하게 돼있음을 알 수 있다. 화자확인 과정에서는 이렇게 눈으로 확인하는 것에 덧붙여, 정밀한 숫자 값을 통계 처리해 개인마다의 발음 특징을 분석해 일치 여부를 확인한다.


통계적으로 믿을만한 수의 단어를 비교

이렇게 목소리와 입안 모양의 관계를 응용하면 외국어 학습의 성취도를 측정하고, 학습자의 발성에 대한 분석 결과를 보여줌으로써 언어 교정에 활용할 수도 있다. 미국에 이민 온 외국 아이들의 발음에서 측정한 값들이 체재기간이 길수록 미국 아이들의 발음에서 측정한 값 쪽으로 더 가까이 이동했다는 보고가 있다. 또 농아자와 같이 음성을 듣지 못하는 사람을 위해 마이크로 발음한 음성을 컴퓨터로 분석해 이미 연구된 면적함수관계에 따라 자신의 입안의 모양이 어떻게 변하는지를 눈으로 직접 보면서 발음 연습을 할 수 있는 학습 소프트웨어가 외국에서 이미 판매되고 있다. 한편 개인별로 단어를 여러번 발음시켜 일정한 패턴을 모델로 저장한 뒤 나중에 컴퓨터에 입력된 목소리의 특징을 컴퓨터로 분석해 단어로 화면에 타자해주는 음성인식기술도 상당한 발전을 보였다.

그런데 많은 사람들의 경우 거의 비슷한 키와 몸무게를 갖고 입안의 구조도 큰 차이가 없다. 쌍둥이의 말소리나 한 가족 구성원들의 말소리를 들어보면 거의 비슷하게 들리고 쉽게 누가 누군지 가리지 못하는 경우가 많다. 독자 가운데는 멀리 시골에서 걸려온 친구 아버지나 형의 전화 목소리를 친구의 목소리로 잘못 듣고 농담을 건네다가 혼난 적이 종종 있을 것이다.

컴퓨터로 분석한 목소리의 자료에서는 이런 동일한 목소리를 구분해줄 수 있을까. 만일 동일한 발음 구조와 발음 습관을 갖고 있다면 구분하기 어렵다. 따라서 비교할 두 사람의 목소리 가운데 단 한마디만 분석하는 경우 동일한 사람의 목소리로 착각할 수 있다. 그래서 적어도 20개 이상의 동일하게 발음한 단어를 비교한다든지, 통계적으로 확신할 수 있는 많은 데이터를 비교하는 방법을 사용해야 한다.

또 다른 문제점은 화자마다 상황에 따라 목소리가 달라진다는 점이다. 사람은 자신의 귀로 발음된 목소리를 동시에 들으면서 상황에 맞게 조절한다. 우리는 시장이나 파티 장에 가서는 매우 큰 목소리로 또박또박하게 발음해 의사를 전달하려고 한다. 하지만 이런 목소리로 조용한 도서관에서 말하면 주위에서 공부하던 학생들이 모두 쳐다볼 것이다. 동일한 사람이 발음한 같은 단어의 목소리도 발성 환경이 달라지면 성문분석에서도 다르게 나타날 수밖에 없다.

수학적 연산 거친 음성변조
 

(그림 6) 잡음이 섞인 음성의 파형과 스펙트로그램^컴퓨터분석 알고리듬에 의해 자동으로 추정한 포먼트(노란점의 띠)의 양상을 살펴보자. 잡음이 섞이지 않은 경우인 (그림 5)의 양상과 비교했을 때 윤곽은 비슷하지만 잡음 때문에 오류(노란선의 끊김)가 많이 나타난다.


녹음기의 특징도 개인의 특성을 또렷이 보이는데 어려움이 있다. 값싼 소형의 마이크는 주위의 소리를 최대한 수집하도록 설계돼 있기 때문에 목소리는 물론 주위의 잡음도 함께 받아들이게 된다. (그림 6)은 주위에 라디오의 지지직거리는 소음이 나오는 상태에서 필자가 ‘아버지’라고 발음한 음성을 분석한 것이다. 여기서 분석된 값들은 앞서 깨끗하게 녹음한 그림과 윤곽은 비슷하지만 잡음 때문에 컴퓨터 알고리듬으로 추정한 포먼트 값에 오류가 많이 나타난다. 하지만 빨간선으로 나타난 기본주파수의 변화나 파랑선으로 나타난 진폭의 변화는 거의 비슷하다.

최근의 한 국제학회에서는 이런 잡음의 특성을 파악하고 희미하지만 뚜렷하게 나타난 스펙트럼의 특징을 뽑아 재합성한 뒤 깨끗한 음성으로 들려주는 과정을 소개한 발표가 있었다. 먼지와 진흙에 뒤덮인 고대 유물을 깨끗이 세척하고 복원하면 수천년 전의 찬란한 모습이 생생히 드러나듯이, 잡음이 섞인 변형된 음성도 많은 컴퓨터 처리과정을 거치면 깨끗하고 명료한 소리로 어느 정도 복원할 수 있다. 만약 여러번 테이프 복사를 한다든지 주위 잡음이 너무 심하면 특징을 제대로 분석할 수 없게 된다. 음성변조에 대해 생각해보자. 가끔씩 TV에서 유명한 배우의 목소리를 흉내내는 성대모사에 특별한 재능을 보이는 사람을 볼 수 있다. 이들은 몸 동작과 표정까지도 같이 하려고 애쓰지만 어딘가 모르게 다르게 들리는 것을 느낄 수 있다. 만약 음성의 일부를 지우고 비슷한 목소리의 발음을 테이프에 끼워넣어 편집했다면 컴퓨터로 자세히 확대해 음파와 스펙트로그램을 관찰하면 그 지점을 쉽게 찾을 수 있을 것이다.

하지만 반대 경우도 있다. 컴퓨터에 저장된 음성자료는 모두 소숫점 이하 수십자리로 된 정밀한 숫자로 돼있기 때문에 이 숫자 파일을 그림 편집하듯이 마음대로 옮겨가거나 다른 곳에 붙일 수 있다. 매우 엄청난 시간이 걸리겠지만 만일 숫자로 된 자료를 수학적인 연산에 의해 시간적으로 자연스럽고 매끈하게 변화하도록 연결시킨다면 어디를 지우고 새로운 발음을 집어넣었는지 쉽게 알아내지 못할 것이다. 또한 이미 작고한 유명한 억만장자의 목소리의 음성 특징을 모두 분석해 재합성을 통해 억대의 연금을 고스란히 당신에게 드리기로 했다는 유언장을 작성할 수도 있다. 공들여 합성한 음성은 억만장자의 음성과 전혀 차이가 없을 것이다.
 

최근 사회적으로 관심을 끌었던 김대업 테이프.


개인별 특징을 데이터베이스화

목소리에는 여러가지 변수들이 존재하기 때문에 음성분석에는 매우 복잡한 복병이 숨어있다. 따라서 쉽게 동일한 목소리로 판정하기가 어렵다는 결론을 내리는 경우가 많다. 또한 푸리에분석 방식에 의한 스펙트럼 분석은 실험자가 지정한 단절된 구간씩의 신호를 차례로 분석해나가기 때문에 자연스런 조음의 변화를 나타내주지 못하는 단점이 있다. 이런 분석의 한계를 극복하기 위해 음성파형 자체의 통계적인 특징을 관찰하거나 동적인 변화를 단서로 화자확인을 시도하거나 변조할 수 없는 얼굴, 지문, 눈동자와 같은 신체적인 특징을 덧붙여 활용하는 연구도 있다. 우리 나라에서도 나이별, 성별, 그리고 방언별로 다양한 환경에서 수집된 음성을 정밀하게 분석, 데이터베이스화해 개인별로 어떤 특징들이 구별의 단서가 되는지 연구한다면, 성문분석에 의한 화자 확인도 전혀 불가능하지 만은 않을 것이다. 많은 독자들이 사람의 목소리를 연구하는 음성학에 관심을 갖고 세종대왕의 한글 창조에 버금가는 세계적인 연구성과를 밝힐 날이 오기를 기대해본다.

2002년 11월 과학동아 정보

  • 진행

    박현정
  • 양병곤 교수

🎓️ 진로 추천

  • 언어학
  • 컴퓨터공학
  • 심리학
이 기사를 읽은 분이 본
다른 인기기사는?