KR102116014B1

KR102116014B1 - 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템

Info

Publication number: KR102116014B1
Application number: KR1020190043516A
Authority: KR
Inventors: 윤종성; 송민규; 권용대; 이태윤; 조수희; 신유경
Original assignee: 미디어젠(주)
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2020-05-27
Anticipated expiration: 2039-04-15

Abstract

본 발명은 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템에 관한 것으로서, 더욱 상세하게는 화자무관(Speaker-Independent) 음성인식 기술과 특정화자(Specific-Voice) 음성합성 기술을 접목하여 사용자의 음성을 예를 들어, 연예인이나 친숙한 가족의 목소리로 들려주는 특정 화자의 음성으로 바꿔주는 성대모사 시스템(Speech-To-Another-Speech system)을 제공하는 것이다.

Description

음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템{ voice imitation system using recognition engine and TTS engine}

음성인식기술(Speech Recognition)은 마이크로폰을 통해 입력된 사용자의 음성을 컴퓨터가 분석하고 특징을 추출해서 미리 입력된 단어나 문장에 근접한 결과를 명령어로서 인식하고, 인식된 명령어에 해당하는 동작을 수행하도록 하는 기술이다.

특정인(이하 '특정화자'라 함)의 음성을 흉내 내기 위한 기존의 방법으로는 전문 성우가 그 사람의 음성을 흉내내는 방법과, 컴퓨터를 이용하여 특정화자의 음성으로 변환하는 방법이 있다.

위 방법 중 전문 성우를 이용하는 경우에는 목적화자 음성의 특정부분에 대해 운율적인 특징은 어느 정도 모사가 가능하다.

그리고, 컴퓨터를 이용하여 임의의 발화자(이하 '원시화자'라 함)의 음성을 특정화자의 음성으로 변환하는 화자변환 방법의 경우, HMM(Hidden Markov Model)이나 GMM(Gaussian Mixture Model) 그리고 신경망(Neural Network)을 이용하는 방법이 있다.

종래의 HMM과 GMM 및 신경망을 이용하는 방법은 먼저 원시화자와 특정화자의 음성에서 LPC(Linear Prediction Coefficient), LSP(Line Spectral Pair), MFCC(Mel-Frequency Cepstral Coefficient), 및HNM(Harmonic and Noise Model) 특징과 같은 음성의 특징 파라미터를 추출하고, 각각의 화자에 대한 특징 파라미터를 이용하여 HMM이나 GMM 모델을 각각 학습시키고, 각각의 학습된 모델들 간의 변환 함수를 구하여 원시화자의 음성 특징을 특정화자의 음성특징으로 변환하는 방식이다.

또한, 운율의 경우에는 특정화자의 운율을 모델링하여 이를 변환된 음성에 그대로 씌워주는 방법이 주로 사용된다.

특정화자의 운율을 흉내 내기 위한 방법으로는 원시화자와 특정화자의 피치히스토그램을 만들고 그 히스토그램에 매칭되는 여기신호(Excitation Signal)를

사용하는 방법이 있다.

그러나, 임의의 화자에 의해 자신이 원하는 다양한 특정 화자들의 성대모사를 수행할 수 있는 기술은 존재하지 않으며, 미리 설정된 특정 화자에 대해서만 성대모사를 수행하는 것이 불과하였다.

따라서, 다양한 특정 화자들의 리스트를 제공하고, 성대모사를 원하는 임의의 화자가 자신이 원하는 특정 화자를 선택하게 되면 자연스럽게 해당 특정 화자의 음성으로 임의의 화자가 발화한 음성을 변환시켜 출력할 수 있는 시스템이 필요하게 되었다.

(선행문헌) 대한민국공개특허번호 10-2007-0076121호

따라서 본 발명은 상기와 같은 종래 기술의 문제점을 감안하여 제안된 것으로서, 본 발명의 제1 목적은 화자무관(Speaker-Independent) 음성인식 기술과 특정화자(Specific-Voice) 음성합성 기술을 접목하여 사용자의 음성을 연예인이나 친숙한 가족의 목소리로 들려주는 특정 화자의 음성으로 바꿔주는 성대모사 시스템(Speech-To-Another-Speech system)을 제공하고자 한다.

본 발명의 제2 목적은 음성합성 엔진을 딥러닝 기반으로 제작하며, 기본 모델에 소량의 다른 사람 목소리를 추가하여 훈련시킬 경우에 추가된 음성 모델이 생성되기 때문에 짧은 시간에 많은 수의 음성 모델을 확보할 수 있도록 하는데 있다.

본 발명의 제3 목적은 음성인식엔진을 제거하고, 외부단말기로부터 텍스트를 입력받아 다양한 다른 사람의 목소리로 출력하도록 하는데 있다.

본 발명이 해결하고자 하는 과제를 달성하기 위하여, 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템은,

음성인식을 위한 화자의 음성을 획득하기 위한 마이크부(100)와,

음성 모델 리스트 중 성대모사할 음성 모델을 선택하며, 성대모사 음성 출력시, 옵션 정보를 설정하며, 상기 선택된 음성 모델 정보와 설정된 옵션 정보를 음성인식수단(300)으로 제공하기 위한 성대모사음성설정수단(200)과,

상기 마이크부(100)로부터 화자의 음성을 획득하여 노이즈 제거를 수행하고, 노이즈 제거된 화자의 음성을 텍스트로 변환시킨 후, 변환된 텍스트와 성대모사음성설정수단(200)에서 제공한 음성 모델 정보 및 옵션 정보를 성대모사음성합성수단(400)으로 제공하기 위한 음성인식수단(300)과,

음성인식수단(300)에서 제공한 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하며, 추출된 음성 모델의 특징 파라미터와 옵션 정보를 참조하여 화자가 원하는 성대모사 음성으로 변환시킨 후, 변환된 성대모사 음성 정보를 성대모사용음성출력부(500)로 제공하기 위한 성대모사용음성합성수단(400)과,

상기 성대모사용음성합성수단(400)으로부터 변환된 성대모사 음성 정보를 획득하여 음성 출력시키기 위한 성대모사용음성출력부(500)를 포함한다.

이상의 구성 및 작용을 지니는 본 발명에 따른 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템을 통해, 화자무관(Speaker-Independent) 음성인식 기술과 특정화자(Specific-Voice) 음성합성 기술을 접목하여 사용자의 음성을 연예인이나 친숙한 가족의 목소리로 들려주는 특정 화자의 음성으로 바꿔주는 성대모사 시스템(Speech-To-Another-Speech system)을 제공함으로써, 화자가 말을 하면 실시간으로 해당 말 그대로 화자가 설정한 연예인이나 친숙한 가족의 목소리로 들려주는 효과를 제공하게 되어 실제 가변적인 화자의 음성을 인식하고 그래로 다른 사람의 목소리로 출력함으로써, 소비자의 흥미를 끌거나, 제품의 설명, 동화 구연 등 다양한 분야에 활용되는 장점을 발휘하게 된다.

즉, 자신의 평소 목소리로도 특정인들의 성대모사를 실행할 수 있게 된다.

또한, 음성합성 엔진을 딥러닝 기반으로 제작하며, 기본 모델에 소량의 다른 사람 목소리를 추가하여 훈련시킬 경우에 추가된 음성 모델이 생성되기 때문에 짧은 시간에 많은 수의 음성 모델을 확보할 수 있게 되어 사용자는 다양한 성대모사를 수행할 수 있게 된다.

또한, 음성인식엔진을 제거하고, 외부단말기로부터 텍스트를 입력받아 다양한 다른 사람의 목소리로 출력하도록 함으로써, 음성 뿐만 아니라, 문자로도 성대모사가 가능한 장점을 발휘하게 된다.

도 1은 본 발명의 일실시예에 따른 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템을 개략적으로 나타낸 전체 구성도.
도 2는 본 발명의 일실시예에 따른 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템을 개략적으로 나타낸 구조도.
도 3은 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 성대모사음성설정수단(200) 블록도.
도 4는 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 음성인식수단(300) 블록도.
도 5는 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 성대모사용음성합성수단(400) 블록도.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만, 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다.

또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

본 발명을 설명함에 있어서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되지 않을 수 있다.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급되는 경우는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해될 수 있다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

본 명세서에서, 포함하다 또는 구비하다 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로서, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 수 있다.

본 발명의 과제를 해결하기 위한 수단은 하기와 같다.

즉, 본 발명인 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템은,

상기 성대모사용음성합성수단(400)으로부터 변환된 성대모사 음성 정보를 획득하여 음성 출력시키기 위한 성대모사용음성출력부(500)를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 성대모사음성설정수단(200)은,

음성 모델 리스트 중에서 음성합성엔진부(450)에서 출력할 음성 모델 정보를선택하기 위한 음성모델선택부(210);

음성인식엔진부에서 성대모사 음성 출력시, 볼륨, 음질의 옵션 정보를 설정하기 위한 음성출력옵션설정부(220);를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 음성인식수단(300)은,

마이크부(100)로부터 획득된 화자의 음성을 획득하여 저장하고 있는 화자음성저장부(310);

상기 화자음성저장부에 저장된 화자의 음성을 추출하여 노이즈 제거를 수행하기 위한 전처리부(320);

상기 전처리부에서 노이즈 제거된 화자의 음성을 획득하여 텍스트로 변환시켜 음성인식결과제공부로 제공하기 위한 음성인식엔진부(330);

상기 음성인식엔진부로부터 제공된 텍스트로 변환된 음성인식 결과값을 성대모사음성합성수단(400)으로 제공하며, 상기 성대모사음성설정수단(200)의 음성모델선택부(210)에서 선택한 음성 모델 정보와 음성출력옵션설정부(220)에서 설정된 볼륨, 음질의 옵션 정보를 성대모사음성합성수단(400)으로 제공하기 위한 음성인식결과제공부(340);를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 성대모사용음성합성수단(400)은,

음성인식결과제공부(340)에서 제공된 텍스트로 변환된 음성인식 결과값과 음성 모델 정보 및 볼륨, 음질의 옵션 정보를 수신받아 음성합성엔진부(450)로 제공하기 위한 음성합성통신부(410);

성대모사를 위한 음성 모델 리스트와 음성 모델별 특징 파라미터를 저장하고 있는 성대모사음성모델정보저장부(420);

상기 음성합성통신부로부터 제공된 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하여 음성합성엔진부(450)로 제공하기 위한 음성모델정보제공부(430);

상기 음성합성통신부로부터 제공된 볼륨, 음질의 옵션 정보를 참조하여 조정된 볼륨, 음질 정보를 음성합성엔진부로 제공하기 위한 옵션정보조정부(440);

음성인식 결과값인 텍스트를 상기 음성모델정보제공부(430)에서 제공된 음성 모델의 특징 파라미터와 옵션정보조정부(440)에서 제공된 볼륨, 음질 정보를 참조하여 화자가 원하는 성대모사 음성으로 변환시키기 위한 음성합성엔진부(450);를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 음성합성엔진부(450)는,

딥 러닝(deep learning) 모델을 이용하여 추가되는 성대모사용 음성 모델 정보를 생성하는 것을 특징으로 한다.

또한, 상기 음성인식수단(300)은,

외부단말기로부터 텍스트를 획득할 경우에,

텍스트와 성대모사음성설정수단(200)에서 제공한 음성 모델 정보 및 옵션 정보를 성대모사음성합성수단(400)으로 제공하는 것을 특징으로 한다.

이하에서는, 본 발명에 의한 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템의 실시예를 통해 상세히 설명하도록 한다.

도 1은 본 발명의 일실시예에 따른 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템을 개략적으로 나타낸 전체 구성도이다.

도 2는 본 발명의 일실시예에 따른 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템을 개략적으로 나타낸 구조도이다.

도 1 내지 도 2에 도시한 바와 같이, 크게 마이크부(100), 성대모사음성설정수단(200), 음성인식수단(300), 성대모사용음성합성수단(400), 성대모사용음성출력부(500)를 포함하여 구성되게 된다.

구체적으로 설명하면, 상기 마이크부(100)는 음성인식을 위한 화자의 음성을 획득하게 된다.

예를 들어, '안녕하십니까?'라고 화자의 음성을 마이크부에서 획득하게 되는 것이다.

그리고, 상기 성대모사음성설정수단(200)은 음성 모델 리스트 중 성대모사할 음성 모델을 선택하며, 성대모사 음성 출력시, 옵션 정보를 설정하며, 상기 선택된 음성 모델 정보와 설정된 옵션 정보를 음성인식수단(300)으로 제공하기 위한 기능을 수행하게 된다.

예를 들어, 음성 모델 리스트는 '연예인 - 유재석, 강호동, 송강호, 장동건, 황정민, 캐릭터 - 뽀로로, 루피, 패티, 타요, 친척 - 엄마, 아빠, 동생, 누나 등과 같이 성대모사할 유명 연예인, 각종 캐릭터, 친척 등의 성대모사할 음성 모델 목록을 의미하게 된다.

또한, 상기 옵션 정보는 사용자의 요구 사항을 설정할 수 있는 정보로서, 예를 들어, 볼륨, 음질, 샘플링 레이트 등 다양한 옵션 정보를 의미한다.

이때, 사용자 즉, 화자에 의해 성대모사할 음성 모델을 '유재석'으로 설정하고, 옵션 정보로 '볼륨 - 8, 음질 - 320kbps'를 설정하게 되는 것이다.

이후, 상기 선택된 음성 모델 정보와 설정된 옵션 정보를 음성인식수단(300)으로 제공하게 되는 것이다.

그리고, 상기 음성인식수단(300)은 상기 마이크부(100)로부터 화자의 음성을 획득하여 노이즈 제거를 수행하게 된다.

예를 들어, 운전 중이라면, 주행시 발생하는 주변 잡음이 포함되게 되므로 음성 인식 확률이나 정확도를 높이기 위하여 화자의 음성 신호 이외의 주변 잡음 신호를 제거하게 되는 것이다.

이후, 노이즈 제거된 화자의 음성을 텍스트로 변환시킨 후, 변환된 텍스트와 성대모사음성설정수단(200)에서 제공한 음성 모델 정보 및 옵션 정보를 성대모사음성합성수단(400)으로 제공하게 되는 것이다.

즉, 화자의 음성을 텍스트로 변환하게 되는데, 예를 들어, '안녕하십니까?'라는 화자의 음성을 텍스트인 '안녕하십니까'로 변환하게 되는 것이다.

그리고, 상기 성대모사용음성합성수단(400)은 음성인식수단(300)에서 제공한 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하게 되는데, 예를 들어, '유재석'이라는 연예인의 음성 특징 파라미터를 추출하게 되며, 이때, 추출된 음성 모델의 특징 파라미터와 옵션 정보인 '볼륨 - 8, 음질 - 320kbps'를 참조하여 화자가 원하는 '유재석'의 성대모사 음성으로 변환시킨 후, 변환된 성대모사 음성 정보를 성대모사용음성출력부(500)로 제공하게 되는 것이다.

이때, 상기 성대모사용음성출력부(500)는 성대모사용음성합성수단(400)으로부터 변환된 성대모사 음성 정보를 획득하여 음성 출력시키게 되는 것이다.

상기 성대모사용음성출력부(500)는 예를 들어, 개인 단말기일 경우에 단말기의 스피커를 통해 출력될 수 있으며, 통화 중이라면 상대방에게 유재석 목소리로 제공하게 되는 것이다.

상기와 같이, 구성하게 되면, 도 2에 도시한 바와 같이, 화자무관(Speaker-Independent) 음성인식 기술과 특정화자(Specific-Voice) 음성합성 기술을 접목하여 사용자의 음성을 특정 화자의 음성으로 바꿔주는 성대모사 시스템(Speech-To-Another-Speech system)을 제공할 수가 있게 되는 것이다.

하기에서는 상기한 성대모사음성설정수단(200), 음성인식수단(300), 성대모사용음성합성수단(400)에 대하여 도면을 참조하여 구체적으로 설명하도록 한다.

도 3은 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 성대모사음성설정수단(200) 블록도이다.

도 3에 도시한 바와 같이, 상기 성대모사음성설정수단(200)은, 음성모델선택부(210), 음성출력옵션설정부(220)를 포함하여 구성되게 된다.

구체적으로 설명하면, 상기 음성모델선택부(210)는 음성 모델 리스트 중에서 음성합성엔진부(450)에서 출력할 음성 모델 정보를 선택하기 위한 기능을 수행하기 된다.

예를 들어, 음성 모델 리스트로 '연예인 - 유재석, 강호동, 송강호, 장동건, 황정민, 캐릭터 - 뽀로로, 루피, 패티, 타요, 친척 - 엄마, 아빠, 동생, 누나 등과 같이 성대모사할 유명 연예인, 각종 캐릭터, 친척 등의 성대모사할 음성 모델 목록을 화자에게 제공하게 된다.

이때, 화자가 '유재석'을 선택하게 되면, '#ID-010-1234-5678#voice model-유재석#2019/04/01/09:00'라는 정보를 생성하게 된다.

그리고, 상기 음성출력옵션설정부(220)는 음성인식엔진부에서 성대모사 음성 출력시, 볼륨, 음질의 옵션 정보를 설정하기 위한 기능을 수행하게 된다.

이때, 화자에 의해 옵션 정보로 '볼륨 - 8, 음질 - 320kbps'를 설정하게 되면, '#ID-010-1234-5678#volume-8#sound quality-320kbps#2019/04/01/09:00'라는 정보를 생성하게 된다.

이후, 상기 선택된 음성 모델 정보와 설정된 옵션 정보를 매칭시킨 '#ID-010-1234-5678#voice model-유재석#volume-8#sound quality-320kbps#2019/04/01/09:00'를 음성인식수단(300)으로 제공하게 되는 것이다.

도 4는 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 음성인식수단(300) 블록도이다.

도 4에 도시한 바와 같이, 상기 음성인식수단(300)은, 화자음성저장부(310), 전처리부(320), 음성인식엔진부(330), 음성인식결과제공부(340)를 포함하여 구성되게 된다.

구체적으로 설명하면, 상기 화자음성저장부(310)는 마이크부(100)로부터 획득된 화자의 음성을 획득하여 저장하고 있게 된다.

예를 들어, '안녕하십니까?'라는 특정 화자의 음성을 획득하여 저장하는 것이다.

그리고, 상기 전처리부(320)는 상기 화자음성저장부에 저장된 화자의 음성을 추출하여 노이즈 제거를 수행하게 된다.

예를 들어, 운전 중이라면, 주행시 발생하는 주변 잡음이 포함되게 되므로 음성 인식 확률이나 정확도를 높이기 위하여 화자의 음성 신호 이외의 주변 잡음 신호를 제거하게 되는 것이며, 화자의 음성 이외에 주변 노이즈를 제거하는 기술은 일반적인 기술이므로 상세한 설명은 생략하도록 한다.

그리고, 상기 음성인식엔진부(330)는 상기 전처리부에서 노이즈 제거된 화자의 음성을 획득하여 텍스트로 변환시켜 음성인식결과제공부로 제공하게 된다.

도 2에 도시한 바와 같이, 상기 음성인식엔진부는 STT(Speech to Text) 엔진을 의미하며, 노이즈 제거된 화자의 음성을 텍스트로 변환하는 기능을 수행하게 되며, 텍스트 변환된 값은 음성인식 결과값을 의미하게 된다.

예를 들어, 마이크를 통해 획득된 음성이 '안녕하십니까'일 경우에 이를 음성인식엔진부를 통해 STT 변환하게 되면, '안녕하십니까'라는 음성인식 결과값인 텍스트를 생성하게 되는 것이다.

그리고, 상기 음성인식결과제공부(340)는 상기 음성인식엔진부를 통해 제공된 음성인식 결과값을 성대모사음성합성수단(400)으로 제공하게 되는 것이다.

예를 들어, '##ID-010-1234-5678#STT-안녕하십니까'라는 음성인식 결과값을 성대모사음성합성수단(400)으로 제공하게 된다.

그리고, 상기 성대모사음성설정수단(200)의 음성모델선택부(210)에서 선택한 음성 모델 정보와 음성출력옵션설정부(220)에서 설정된 볼륨, 음질의 옵션 정보를 성대모사음성합성수단(400)으로 제공하게 된다.

예를 들어, '#ID-010-1234-5678#voice model-유재석#volume-8#sound quality-320kbps#2019/04/01/09:00'이라는 정보를 제공하게 된다.

이때, 음성인식 결과값과 음성 모델 정보 및 옵션 정보를 각각 제공할 수 있으며, 필요에 따라 매칭시켜 한번에 제공할 수도 있다.

예를 들어, '#ID-010-1234-5678#voice model-유재석#volume-8#sound quality-320kbps#STT-안녕하십니까#2019/04/01/09:00'라는 매칭 정보를 제공할 수도 있다.

도 5는 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 성대모사용음성합성수단(400) 블록도이다.

도 5에 도시한 바와 같이, 상기 성대모사용음성합성수단(400)은, 음성합성통신부(410), 성대모사음성모델정보저장부(420), 음성모델정보제공부(430), 옵션정보조정부(440), 음성합성엔진부(450)를 포함하여 구성되게 된다.

구체적으로 설명하면, 상기 음성합성통신부(410)는 음성인식결과제공부(340)에서 제공된 텍스트로 변환된 음성인식 결과값과 음성 모델 정보 및 볼륨, 음질의 옵션 정보를 수신받아 음성합성엔진부(450)로 제공하기 위한 기능을 수행하게 된다.

예를 들어, 음성인식결과제공부(340)에서 제공된 '#ID-010-1234-5678#voice model-유재석#volume-8#sound quality-320kbps#STT-안녕하십니까#2019/04/01/09:00'라는 텍스트로 변환된 음성인식 결과값과 음성 모델 정보 및 볼륨, 음질의 옵션 정보를 수신받아 음성합성엔진부(450)로 제공하게 되는 것이다.

그리고, 상기 성대모사음성모델정보저장부(420)는 성대모사를 위한 음성 모델 리스트와 음성 모델별 특징 파라미터를 저장하고 있게 된다.

상기 음성 모델 리스트는 전술한 음성모델선택부(210)에서 화자가 성대모사할 음성 모델을 선택하기 위하여 제공되는 음성 모델 리스트를 의미한다.

또한, 상기 음성 모델별 특징 파라미터는, 음성 모델의 고유한 음성 특징에 대하여 정의한 파라미터를 의미하며, 이러한 특징 파라미터를 생성하는 기술은 일반적으로 널리 알려진 기술이므로 상세한 설명은 생략하도록 한다.

상기 음성모델정보제공부(430)는 음성합성통신부로부터 제공된 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하여 음성합성엔진부(450)로 제공하기 위한 기능을 수행하게 된다.

예를 들어, '유재석'이라는 음성 모델의 특징 파라미터를 성대모사음성모델정보저장부(420)에서 추출하여 음성합성엔진부(450)로 제공하게 되는 것이다.

또한, 필요에 따라, 음성 모델별로 여러 음색별 특징 파라미터를 저장하고 있을 수 있으며, 예를 들어, 발화자의 감정 등에 따라 정상 목소리, 당황한 목소리, 긴장한 목소리 등의 감정 상태에 따른 목소리 즉, 특징 파라미터를 저장할 수 있으며, 이를 참조하여 동일한 감정 상태의 특징 파라미터를 추출하도록 할 수 있다.

이를 위하여, 음성인식수단(300)은,

마이크부(100)로부터 획득된 화자의 음성을 추출하여 감정 상태를 분석하고 분석 결과에 따른 감정 상태 특징 파라미터를 추출하여 성대모사용음성합성수단(400)으로 제공하는 감정상태분석부;를 더 포함하여 구성할 수 있다.

상기한 감정 상태 분석은 대한민국등록특허번호 제10-0463706호인 '유무선 네트워크를 통한 음성 인식기반 감정 분석시스템 및 그 방법'에 구체적으로 설명되어 있으므로 이에 대한 설명은 생략하도록 한다.

예를 들어, 상기 화자의 음성을 통해 현재 감정 상태가 당황한 목소리라면 '유재석'이라는 특정 음성 모델 중 당황한 목소리에 해당하는 특징 파라미터를 추출하여 음성합성엔진부(450)로 제공하게 되는 것이다. 이때, 음성합성엔진부(450)는 성대모사 음성 변환 시, 감정 상태 특징 파라미터를 활용하여 화자의 감정 상태가 반영된 성대모사 음성 변환을 수행하게 되는 것이다.

그리고 ,상기 옵션정보조정부(440)는 상기 음성합성통신부로부터 제공된 볼륨, 음질의 옵션 정보를 참조하여 조정된 볼륨, 음질 정보를 음성합성엔진부로 제공하기 위한 기능을 수행하게 된다.

예를 들어, '#ID-010-1234-5678#voice model-유재석#volume-8#sound quality-320kbps#STT-안녕하십니까#2019/04/01/09:00'라는 텍스트로 변환된 음성인식 결과값과 음성 모델 정보 및 볼륨, 음질의 옵션 정보를 수신받아 이중에서 'volume-8#sound quality-320kbps'를 추출하여 이를 음성합성엔진부로 제공한다.

그리고, 상기 음성합성엔진부(450)는 음성인식 결과값인 텍스트를 상기 음성모델정보제공부(430)에서 제공된 음성 모델의 특징 파라미터와 옵션정보조정부(440)에서 제공된 볼륨, 음질 정보를 참조하여 화자가 원하는 성대모사 음성으로 변환시키기 위한 기능을 수행하게 된다.

예를 들어, 음성인식 결과값인 텍스트인 '안녕하십니까'라는 정보를 음성 모델의 특징 파라미터인 '유재석'의 특징 파라미터와 볼륨 및 음질 정보인 volume-8, sound quality-320kbps에 맞추어 유재석의 평상시 목소리로 변환시키는 것이다.

이후, 성대모사용음성합성수단(400)의 음성합성엔진부(450)로부터 변환된 성대모사 음성 정보를 성대모사용음성출력부(500)로 제공하여 유재석의 평상시 목소리로 음성 출력시키는 것이다.

한편, 부가적인 양태에 따라, 상기 성대모사용음성합성수단(400)은,

마이크부로부터 입력된 특정 화자의 음성을 획득하여 특징 파라미터를 추출하고, 추출된 특징 파라미터에 설정된 음성 모델 이름을 매칭시켜 성대모사음성모델정보저장부(420)에 저장 처리하기 위한 특정화자음성모델리스트처리부;를 더 포함하여 구성할 수 있다.

이는 평상시에 친숙한 가족이나 친척들의 음성을 획득하여 이를 음성 모델 리스트화시키기 위한 기능이다.

예를 들어, 어머니의 평상시 음성을 마이크부로부터 획득하여 엄마의 음성의 특징 파라미터를 추출하게 되고, 추출된 특징 파라미터를 성대모사음성모델정보저장부(420)에 저장 처리함으로써, 평상시에도 사용자가 성대모사하기를 원하는 사람들의 음성을 획득하여 음성 모델 리스트에 추가하여 추후 사용시 해당 음성 모델 리스트에 출력되도록 하는 것이다.

그리고, 이를 통해 최소의 정보로 새로운 화자 음성 모델을 추가하게 되는 것이다.

한편, 부가적인 양태에 따라, 상기 음성합성엔진부(450)는,

즉, 딥 러닝 모델을 통해 용이하게 화자 전환이 가능하게 되며, 한층 더 자연스러운 성대모사 음성 출력이 가능하게 된다.

현재, 최첨단 기술의 발전, 하드웨어 기술의 고도화 및 빅 데이터 처리 기술의 발전과 맞물려 딥 네트워크 러닝(Deep Network Learning) 기술이 급속하게 발전하고 있다.

상기 딥 네트워크 러닝 기술(이하, 딥 러닝으로 정의함)은 여러 비선형 변화기법의 조합을 통해 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업 즉, 추상화를 시도하는 기계학습 알고리즘으로 정의되며 넓은 범위에서는 인간의 두뇌를 구성하는 신경세포의 메커니즘을 모방하여 인지, 학습 및 추론 등과 같이 인간의 두뇌활동과 비슷한 기능을 수행할 수 있도록 컴퓨터 프로그램으로 구현한 인공지능 시스템을 말한다.

이러한 딥 러닝 기술은 컴퓨터비전, 음성인식, 자연어처리 또는 신호처리 등의 다양한 분야에서 적용되어 활용되고 있다.

상기 딥 러닝 모델은 여러 비선형 변화기법의 조합을 통해 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업 즉, 추상화를 시도하는 기계학습 알고리즘으로 정의되며 넓은 범위에서는 인간의 두뇌를 구성하는 신경세포의 메커니즘을 모방하여 인지, 학습 및 추론 등과 같이 인간의 두뇌활동과 비슷한 기능을 수행할 수 있도록 컴퓨터 프로그램으로 구현한 인공지능 시스템을 말한다.

상기한 추가되는 성대모사용 음성 모델 정보란, 예를 들어, 주파수 특성 패턴을 생성하는 것을 의미할 수 있는데, 주파수 특성 패턴은 특정 수치(예를 들어, 2진수 또는 16진수 등)를 기반으로 하여 특징 파라미터로 수치화하거나, 또는 그래프화될 수 있으며, 이에 한정하지 않는다.

즉, 상기 주파수 패턴을 표현할 수 있는 방법이면 되면 그 방법에는 제한을 두지 않는다.

따라서, 바람직한 실시예에서의 추가되는 성대모사용 음성 모델 정보는 대상자의 언어 모델 패턴으로 정의할 수 있을 것이다.

또한, 상기 성대모사용 대상자의 음성은 지속적으로 획득하여 대상자 언어 모델 정보를 생성하기 때문에 지속적으로 누적하여 성대모사용 대상자 언어 모델 정보를 업그레이드할 수 있는 것은 자명한 사실이다.

한편, 또 다른 부가적인 양태에 따라, 상기 음성인식수단(300)은,

외부단말기로부터 텍스트를 획득할 경우에,

즉, 마이크부를 통해 음성을 획득하는 방식 이외에 사용자가 특정 단말기를 통해 텍스트를 입력할 경우에 해당 텍스트 정보를 성대모사음성합성수단(400)으로 제공하면서 동시에 성대모사음성설정수단(200)에서 사용자가 설정한 음성 모델 정보와 옵션 정보를 획득하여 이를 음성인식수단으로 제공하게 된다.

이때, 상기 음성인식수단(300)은 해당 텍스트와 음성 모델 정보 및 옵션 정보를 성대모사음성합성수단(400)으로 제공하여 성대모사를 위한 음성 합성을 실시하게 되는 것이다.

이는 다양한 입력 환경 예를 들어, 음성 뿐만 아니라, 텍스트로 입력된 정보도 추가적으로 처리하기 위한 구성인 것이다.

상기한 텍스트는 예를 들어, 섹션, 챕터, 페이지, 단락, 문장 및/또는 (예를 들어, 구두점 및 기타 문법 규칙에 기초한) 그것의 프레그먼트, 또는 단어 또는 문자와 같은 부분들로 파싱될 수 있다.

각각의 부분은 그것이 문맥(예를 들어, 언어적 문맥)을 나타낼 수 있는 하나 이상의 특정 속성을 갖는지를 결정하기 위해 분석될 수 있다.

예를 들어, 텍스트 부분이 들여쓰기인지, 불릿 포인트가 앞에 나오는지, 이탤릭체인지, 굵은 폰트인지, 밑줄이 있는지, 두줄 밑줄이 있는지, 아래첨자인지, 윗첨자인지, 특정 구두점이 없는지, 특정 구두점을 포함하는지, 텍스트 내의 다른 폰트 크기에 비교하여 특정 폰트 크기를 갖는지, 모두 대문자인지, 타이틀 문자인지, 특정 방식으로 자리맞춤된 것인지(예를 들어, 오른쪽 맞춤, 가운데 맞춤, 왼쪽 맞춤 또는 양쪽 맞춤), 머릿말의 적어도 일부분인지, 머릿말 또는 꼬릿말의 적어도 일부분인지, 목록(table of contents; TOC)의 적어도 일부분인지, 각주의 적어도 일부분인지, 다른 속성을 갖는지, 상술된 속성들 중 임의의 조합을 갖는지가 결정될 수 있다.

텍스트 부분을 음성으로 변환하는 것은 예를 들어, 텍스트에 대한 하나 이상의 변환 매개변수 값을 설정함으로써 이러한 속성에 기초하여 제어될 수 있다.

주어진 텍스트 부분에 대하여, 볼륨, 억양 속도, 목소리 액센트, 목소리 파동, 음절 강조, 그 부분 전 및/또는 후에의 잠시멈춤, 다른 매개변수, 및 이것의 임의의 적합한 조합과 같은 변환 매개변수들 중 임의의 것에 대한 값이 설정될 수 있다.

이러한 매개변수들 중 임의의 매개변수에 대한 값이 설정될 수 있고, 이것은 주어진 텍스트 부분과 함께 음성인식수단(300)에 송신된다.

예를 들어, 프로그래밍 콜은 특정 SAPI 매개변수에 대한 값 설정을 포함하여, 각각의 텍스트 부분에 대하여 표준 SAPI(Speech API)에 형성될 수 있다.

텍스트는 사용자에 의해 선택될 수 있고, 예를 들어, 워드 프로세싱(예를 들어, 마이크로소프트® 워드) 문서, 스프레드시트(예를 들어, 엑셀™) 문서, 프리젠테이션(예를 들어, 파워포인트®) 문서, 이메일(예를 들어, 아웃룩®) 메시지 또는 다른 유형의 문서와 같은 디지털 문서 전체일 수 있다.

다르게, 텍스트는 예를 들어, 상술된 것들 중 임의의 것의 일부분과 같은 문서의 일부분일 수 있다.

본 발명에 의하면, 화자무관(Speaker-Independent) 음성인식 기술과 특정화자(Specific-Voice) 음성합성 기술을 접목하여 사용자의 음성을 연예인이나 친숙한 가족의 목소리로 들려주는 특정 화자의 음성으로 바꿔주는 성대모사 시스템(Speech-To-Another-Speech system)을 제공함으로써, 화자가 말을 하면 실시간으로 해당 말 그대로 화자가 설정한 연예인이나 친숙한 가족의 목소리로 들려주는 효과를 제공하게 되어 실제 가변적인 화자의 음성을 인식하고 그래로 다른 사람의 목소리로 출력함으로써, 소비자의 흥미를 끌거나, 제품의 설명, 동화 구연 등 다양한 분야에 활용되는 장점을 발휘하게 된다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100 : 마이크부
200 : 성대모사음성설정수단
300 : 음성인식수단
400 : 성대모사용음성합성수단
500 : 성대모사용음성출력부

Claims

음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템에 있어서,
음성인식을 위한 화자의 음성을 획득하기 위한 마이크부(100)와,
음성 모델 리스트 중 성대모사할 음성 모델을 선택하며, 성대모사 음성 출력시, 옵션 정보를 설정하며, 상기 선택된 음성 모델 정보와 설정된 옵션 정보를 음성인식수단(300)으로 제공하기 위한 성대모사음성설정수단(200)과,
상기 마이크부(100)로부터 화자의 음성을 획득하여 노이즈 제거를 수행하고, 노이즈 제거된 화자의 음성을 텍스트로 변환시키고, 마이크부(100)로부터 획득된 화자 음성의 감정 상태 특징 파라미터를 추출하고, 변환된 텍스트와 성대모사음성설정수단(200)에서 제공한 음성 모델 정보 및 옵션 정보와 추출된 감정 상태 특징 파라미터를 성대모사용음성합성수단(400)으로 제공하기 위한 음성인식수단(300)과,
음성인식수단(300)에서 제공한 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하며, 추출된 음성 모델의 특징 파라미터와 옵션 정보와 감정 상태 특징 파라미터를 참조하여 화자가 원하는 성대모사 음성으로 변환시킨 후, 변환된 성대모사 음성 정보를 성대모사용음성출력부(500)로 제공하기 위한 성대모사용음성합성수단(400)과,
상기 성대모사용음성합성수단(400)으로부터 변환된 성대모사 음성 정보를 획득하여 음성 출력시키기 위한 성대모사용음성출력부(500)를 포함하여 구성되고,

상기 성대모사음성설정수단(200)은,
음성 모델 리스트 중에서 음성합성엔진부(450)에서 출력할 음성 모델 정보를선택하기 위한 음성모델선택부(210);
음성인식엔진부에서 성대모사 음성 출력시, 볼륨, 음질의 옵션 정보를 설정하기 위한 음성출력옵션설정부(220);를 포함하고,

상기 음성인식수단(300)은,
마이크부(100)로부터 획득된 화자의 음성을 획득하여 저장하고 있는 화자음성저장부(310);
상기 화자음성저장부(310)에 저장된 화자의 음성을 추출하여 노이즈 제거를 수행하기 위한 전처리부(320);
상기 전처리부에서 노이즈 제거된 화자의 음성을 획득하여 텍스트로 변환시켜 음성인식결과제공부(340)로 제공하기 위한 음성인식엔진부(330);
상기 음성인식엔진부(330)로부터 제공된 텍스트로 변환된 음성인식 결과값을 성대모사음성합성수단(400)으로 제공하며, 성대모사음성설정수단(200)의 음성모델선택부(210)에서 선택한 음성 모델 정보와 성대모사음성설정수단(200)의 음성출력옵션설정부(220)에서 설정된 볼륨, 음질의 옵션 정보를 성대모사음성합성수단(400)으로 제공하기 위한 음성인식결과제공부(340);
마이크부(100)로부터 획득된 화자의 음성을 추출하여 감정 상태를 분석하고 분석 결과에 따른 감정 상태 특징 파라미터를 추출하여 성대모사용음성합성수단(400)으로 제공하기 위한 감정상태분석부를 포함하여 구성되는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.
삭제
삭제
제 1항에 있어서,
상기 성대모사용음성합성수단(400)은,
음성인식수단(300)에서 제공하는 텍스트로 변환된 음성인식 결과값, 음성 모델 정보, 볼륨 및 음질의 옵션 정보, 감정 상태 특징 파라미터를 수신받아 음성합성엔진부(450)로 제공하기 위한 음성합성통신부(410);
성대모사를 위한 음성 모델 리스트와 음성 모델별 특징 파라미터를 저장하고 있는 성대모사음성모델정보저장부(420);
상기 음성합성통신부로부터 제공된 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하여 음성합성엔진부(450)로 제공하기 위한 음성모델정보제공부(430);
상기 음성합성통신부로부터 제공된 볼륨, 음질의 옵션 정보를 참조하여 조정된 볼륨, 음질 정보를 음성합성엔진부(450)로 제공하기 위한 옵션정보조정부(440);
상기 음성합성통신부(410)에서 제공된 음성인식 결과값인 텍스트를 상기 음성합성통신부(410)에서 제공된 감정 상태 특징 파라미터와 상기 음성모델정보제공부(430)에서 제공된 음성 모델의 특징 파라미터와 상기 옵션정보조정부(440)에서 제공된 볼륨, 음질 정보를 참조하여 화자가 원하는 성대모사 음성으로 변환시키기 위한 음성합성엔진부(450);
마이크부(100)로부터 입력된 특정 화자의 음성을 획득하여 특징 파라미터를 추출하고, 추출된 특징 파라미터에 설정된 음성 모델 이름을 매칭시켜 성대모사음성모델정보저장부(420)에 저장 처리하기 위한 특정화자음성모델리스트처리부를 포함하여 구성되는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.
제 4항에 있어서,
상기 음성합성엔진부(450)는,
딥 러닝(deep learning) 모델을 이용하여 추가되는 성대모사용 음성 모델 정보를 생성하는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.
제 1항에 있어서,
상기 음성인식수단(300)은,
외부단말기로부터 텍스트를 획득할 경우에,
텍스트와 성대모사음성설정수단(200)에서 제공한 음성 모델 정보 및 옵션 정보를 성대모사음성합성수단(400)으로 제공하는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.