d라이브러리









[특집] 한눈에 익히는 삼각함수와 음성 인식 AI

삼각함수가 음성 인식 AI에 중요하다는 걸 알았으니 이제 삼각함수를 어떻게 음성 인식에 활용하는지 알아볼 차례야. 우선 삼각함수의 기본 개념부터 삼각함수를 응용한 ‘푸리에 변환’까지 살펴볼게!

 

1 삼각비

 


직각삼각형에서 임의의 각을 만드는 두 변의 길이 사이의 관계를 ‘삼각비’라고 하며 오른쪽과 같습니다. 특히 직각삼각형은 크기가 달라도 직각을 제외한 한 각의 크기가 같으면 AA 닮음으로 세 변의 길이 비가 일정합니다.

 

2 삼각함수 

 


삼각함수는 삼각비를 이용해 각도에 따른 두 변의 길이의 비율을 구하는 함수입니다. 그림처럼 좌표평면에 원점을 중심으로 하고 반지름의 길이가 r인 원의 한 점을 P라고 하면 원점에서 점 P에 그은 선은 ‘동경’이라고 합니다. 이 동경이 x축의 양의 방향과 이루는 각의 크기를 θ라고 할 때 θ에 대한 삼각비가 바로 삼각함수죠.

 

① 사인함수( y=sinθ )

 


원의 반지름의 길이가 1이면 원 위의 점 P는 (cosθ, sinθ)가 됩니다. 그러므로 사인함수는 θ의 변화에 따른 점 P의 y값을 의미합니다. 그리고 y=sinθ로 나타내죠. θ값이 점점 커지면 y값은 점점 증가하다가 90°일 때는 1이 됩니다. 그다음부터는 감소하기 시작해 θ가 270°일 때는 -1이 되죠. 그리고 360°가 되면 0°일 때의 위치로 돌아오므로 사인함수는 360°를 주기로 반복되는 주기함수입니다.

 

② 코사인함수( x=cosθ )

 


마찬가지로 반지름의 길이가 1이면 코사인함수는 θ의 변화에 따른 점 P의 x값을 의미하고 x=cosθ로 나타낼 수 있습니다. θ가 0°일 때 x는 1이고 점점 감소하다가 90°일 때는 0이 됩니다. 코사인함수도 사인함수처럼 360°를 주기로 반복됩니다.

 

③ 탄젠트함수(y=tanθ)

 


탄젠트함수는    됩니다. 그리고  y=tanθ로 나타내죠. 그래서 분모인 cosθ가 0이 되는 θ값 90°에서 값이 무한히 커집니다. 탄젠트함수 역시 반복되는 주기함수이지만 주기가 180°라는 점이 사인함수, 코사인함수와 다릅니다.

 

3 푸리에 급수와 변환 


푸리에 급수는 주기가 있는 파동을 여러 개의 사인과 코사인함수의 합으로 최대한 비슷하게 표현한 것입니다. 푸리에 변환은 신호를 푸리에 급수로 나타낸 뒤 주파수에 따른 신호의 세기를 기준으로 하는 새로운 그래프로 나타내는 과정입니다.

 

 

 

음성 인식 과정

 

삼각함수의 기본 개념을 배웠으니 AI스피커가 어떻게 음성을 인식하는지 차례대로 자세히 알아볼게. 삼각함수의 물결치는 파도 모양으로 음성 신호를 비슷하게 표현할 수 있다는 것만 기억하면 돼. 그럼 이제 시작해 볼게. 자, 어서 말해 봐. “오늘 날씨 어때?”

 

[1단계] 학습하기

 

학습 단계에서 음성 인식 AI는 음향모델, 발음사전, 언어모델을 학습합니다. 음향모델은 각 음소에 대한 음성 신호가 어떻게 생겼는지를 모아놓은 데이터입니다. 예를 들어 ‘ㅏ’라는 음소를 발음할 때 어떤 모양의 음성 신호가 나타나는지를 학습하는 식이죠. 두 번째로는 발음사전을 이용해 음소를 단어로 조립하면서 ‘날씨’ 같은 단어가 어떻게 발음되는지를 학습합니다. 마지막 언어모델은 단어 사이의 관계를 학습한 것으로, 이것을 이용해 말하는 사람이 무슨 말을 하는지 학습합니다.

 

[2단계] 음성 특징 추출하기

 

학습을 마쳤으니 이제 입력된 음성이 어떤 음성인지 알아낼 차례입니다. AI는 분석하기 좋은 형태로 음성 신호를 변환합니다.

 

 

 

 

 

[3단계] 음성 인식하기

 

음성 인식 AI가 음성의 특징을 추출했으니 이제 1단계에서 학습한 음향모델, 발음사전, 언어모델을 이용해 음성 신호가 어떤 말인지 인식할 차례입니다. AI는 입력된 음성 신호를 분석하며 가능한 조합을 따져봅니다. 명확하지 않은 음성이 있어도 그 단어의 앞뒤 단어를 살펴 가장 확률이 높은 것을 선택해 결과를 내놓습니다. 음성이 문장으로 바뀌는 순간이죠. 이 과정을 ‘해독기’를 뜻하는 단어인 ‘디코더’라고 부릅니다.

 

 

[4단계] 음성 이해하기

 

이제 AI는 입력된 음성 신호가 어떤 문장을 말한 것인지 알았습니다. 다음으로 그 문장이 무슨 뜻인지를 이해하는 ‘대화 이해’ 과정을 거칩니다. 그리고 이에 맞는 응답을 만드는 ‘대화 생성’ 과정을 거치죠. 이렇게 만들어진 문장을 음성으로 바꾸는 ‘음성 합성’ 과정을 거쳐 AI는 “오늘 날씨는 구름이 많고 미세먼지 농도는 좋음입니다”라고 답한답니다! 이 단계에 대해서는 5월호에 더 자세히 배우기로 해요~!

 

 

 

 

이 기사의 내용이 궁금하신가요?

기사 전문을 보시려면500(500원)이 필요합니다.

2021년 04월 수학동아 정보

  • 조현영 기자

🎓️ 진로 추천

  • 컴퓨터공학
  • 정보·통신공학
  • 수학
이 기사를 읽은 분이 본
다른 인기기사는?