KR100351590B1

KR100351590B1 - 음성 변환 방법

Info

Publication number: KR100351590B1
Application number: KR1020000078138A
Authority: KR
Inventors: 전영권
Original assignee: (주)신종
Priority date: 2000-12-19
Filing date: 2000-12-19
Publication date: 2002-09-05
Also published as: KR20020049061A

Abstract

음성신호원(sound source)의 음색을 희망자(target speaker 또는 target singer)의 음색으로 변환하여 합성된 음성 또는 노래를 생성하는 기술에 관한 것으로서, 타겟화자(Target speaker)의 음성을 녹음하여 각각 디지털 신호로 변환하여 소정의 기억장치에 저장하는 데이터 생성과정과, 변환함수를 적용하여 소스화자(source speaker)의 음색(timbre)을 타겟 화자(target speaker)의 음색으로 변환하는 변환학습과정과, 타겟 화자(target speaker)의 음색(timbre)으로 변환된 신호를 소스화자(source speaker)의 장단 및 고저 신호가 포함된 디지털 신호와 합성하여 타겟 화자(target speaker)의 음성으로 변환하는 매핑(mapping)과정을 포함하여 이루어지며, 많은 서비스에서 등장하기 시작한 Text-to-Speech (TtS)와 접목시키면 자동전화 서비스, 인터넷 방송의 앵커, 영화 더빙 등에 응용되어 다양한 목소리를 만들어 낼 수 있어 좀더 생생한 음성기술을 제공할 수 있다.

Description

음성 변환 방법{A method for voice conversion}

본 발명은 음성 인식 기술에 관한 것으로서, 보다 상세하게는 음성신호원(sound source)의 음색을 희망자(target speaker 또는 target singer)의 음색으로 변환하여 합성된 음성 또는 노래를 생성하는 기술에 관한 것이다.

음성은 인간이 가지고 있는 기본적인 능력 중에서 가장 중요한 것 중 하나로서 우리가 속박감을 거의 느끼지 않고 자유롭게 구사할 수 있는 가장 자연스럽고 효과적인 정보교류의 수단이라 할 수 있다. 음성에 의해 표현되는 말은 인간과 인간사이의 의사소통의 수단으로서 뿐만 아니라 논리적으로 사물을 생각하는 경우에 있어서도 중요한 역할을 한다. 이 음성이 인간과 기계와의 통신, 즉, 정보의 교환수단으로도 사용되고 있다.

최근 음성과 자연언어의 기본적인 성질의 이해에 관한 관심도 높아지고 있고 각종 미디어의 발달, 초고속 정보 통신망의 구축과 더불어 멀티미디어 통신을 통한 통신 판매, 물류처리, 제품홍보 등이 폭증하고 있으며 지방자치 시대의 도래와 더불어 관공서의 대민 서비스의 질에 관한 관심도 점점 높아져가고 있다. 이와 더불어 개인용 컴퓨터의 보급에 의한 신호처리기술과 정보처리기술의 급속한 발전과 더불어 음성을 통한 인간과 기계와의 직접적인 커뮤니케이션을 위한 사람과 기계의 의사교환(Man-Machine Interface)의 중요성도 강조되고 있다. 인간과 기계사이 뿐만 아니라 인간과 인간사이에 기계를 넣어 통역을 자동적으로 하고자 하는 연구도 활발히 진행되고 있다.

음성을 대상으로 이루어지는 기술은 다음과 같이 다양한 형태로 이루어지고 있다.

① 음성합성(TTS: Text-to-Speech): 문자(Text)를 입력받아 문법구조를 파악하고 음색, 운율정보를 포함시켜 사람의 육성으로 발음하듯 읽어주는 기술.

② 음성인식: 전화, 휴대폰 또는 마이크등을 통하여 들어온 음성을 컴퓨터에 의해서 특징을 추출하고 분석하여 미리 입력된 인식 목록에서 가장 근접한 결과를 찾아내는 최첨단 소프트웨어 기술.

③ 화자인증(Speaker Identification, Speaker Verification)이란 개개인마다 독특하게 갖고 있는 음성의 특징을 이용하여 음성암호로 본인 여부를 인증할 수 있도록 하는 기술로서 음성을 암호로 사용하여 보안 시스템에 적용하는 기술.

④ 통합메세징시스템(UMS: Unified Message System): 인트라넷과 CTI가 결합된 메시지 시스템으로 전자우편(E-mail: text), 팩스(image mail), 음성메일(voice mail)이 하나로 통합된 시스템.

⑤ VMS(Voice Mailing System): 자동교환, 음성사서함, 착신통보 등 24시간 원활한 전화 응대를 가능케 하여 업무 효율을 향상시켜주는 메시징 시스템.

⑥ IVR (Interactive Voice Response)이란 전화를 통하여 DB에 접근하여 실시간으로 변화하는 정보를 고객에게 제공하는 서비스로 음성녹음으로 고정된 자료만을 제공하는 기존 ARS(Automatic Response System)과는 달리 고객마다 원하는 정보를 음성으로 변환하여 제공하여 주는 진보된 형태의 자동응답 시스템.

⑦ VAD (Voice Activated Dialing)시스템은 핵심기술인 음성인식(ASR: Automatic Speech Recognation)을 이용하여 통화 희망자의 육성을 인식하여 자동으로 전화를 연결시켜주는 자동교환 시스템으로서, 복잡한 전화번호를 암기하여야 하는 불편함이나 전화번호 변경 안내, 전화번호 찾기 등의 번거러움을 동시에 해결해 주어 사내의 대표전화 시스템, 또는 사내 교환 시스템으로 활용도가 특히 높다.

1960년대부터 음성의 발성과 이해에 관해 많은 기초적 연구가 수행되어온 이래 기계에 의한 연속음성인식, 합성에는 아직 많은 과제가 남아있지만 최근 30-40 여 년간 연구결과로 고립단어 인식에 있어서는 많은 발전이 있어 미국, 유럽 일본 등에서는 상용제품도 출현하고 있다. 이들 인식시스템의 대부분은 고립단어, 또는 한정된 태스크 범주의 연속 음성인식 시스템이지만 잡음환경 하에서도 95%이상의 인식률을 가진 것이 많다. 인식시스템의 경우, 성능이 향상하는 것에 비례하여 응용분야도 복잡화 다양화되어가고 있다. 예를 들면 각종 자료의 수정 및 관리, 철도 또는 항공편 안내 및 예약, 통역전화, 자동통역시스템, 여행정보안내 시스템, 관광안내 시스템 등을 개발하여 상품화하고 있으며 국내에서도 음성구동 퍼스널 컴퓨터, 증권정보안내 시스템이 개발되어 상용화가 진행 중에 있고, 미국, 일본 등과 나란히 자동통역시스템 개발사업에도 참여하고 있다. 또 음성 다이얼링 휴대폰도 개발되어 이용되고 있는 등 그 응용 범위는 광범하다. 사람과 사람 사이에서 가장 자연스러운 의사소통 수단이 음성 언어인 것처럼, 사람과 기계사이의 의사소통의 수단으로 음성언어는 매우 자연스럽고, 순응성이 높고, 견고하여야 한다.

그러나 자동응답시스템에서 출력되는 기계에 의한 음성은 의미 전달에는 큰 문제가 없으나 여전히 사람이 내는 음성과는 많은 차이를 가지고 있다. 그 이유는 목소리(음색)(timbre)의 차에 의한 것이며 음색에 차이가 없다면 대화가 단조로워져 주의를 집중하기 어렵게 되고, 어떤 사람이 말하다 다른 사람이 말하는 것을 구별하기 어려워 대화를 이해하기가 매우 어려워질 것이다. 이와 같이 대화에서 음색의 차이는 말의 이해에 중요한 역할을 한다. 또한, 음색은 개인별로 뚜렷한 차이가 있기 때문에 지문만큼이나 정확하게 개인을 식별하는데 사용될 수 있다. 따라서 기계에 의해 출력되는 단조로운 음성을 특정인의 목소리(timbre)로 변환시켜 출력할 수 있는 기술이 필요로 되고 있는 실정이다.

본 발명은 기계에 의해 출력되는 음성을 특정인의 음색에 합성하여 특정인의 음색을 가진 음성을 출력할 수 있는 음성변환 기술을 제공하는 것을 목적으로 한다.

본 발명의 다른 목적은 소스화자(source speaker)의 목소리로 녹음된 음성화일에 타겟화자(target speaker)의 음색(timbre)을 합성하여 타겟화자(target speaker)의 음색으로 변환하여 출력할 수 있는 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 소스싱어(source singer)의 목소리로 부른 노래를 타겟싱어(target singer)의 음색(timbre)으로 변환시킬 수 있는 방법을 제공하는 것이다.

이러한 목적들을 달성하기 위한 본 발명에 따른 음성변환방법은 소스화자(source speaker)와 타겟 화자(Target speaker)의 음성을 각각 디지털 신호로 변환하여 소정의 기억장치에 저장하는 데이터 생성과정과, 변환함수를 적용하여 소스화자의 음색(timbre)을 타겟 화자(target speaker)의 음색으로 변환하는 변환학습과정과, 타겟 화자(target speaker)의 음색(timbre)으로 변환된 신호를 소스화자의 장단 및 고저 신호가 포함된 디지털 신호와 합성하여 타겟 화자(target speaker)의 음성으로 변환하는 매핑(mapping)과정을 포함하는 점을 특징으로 한다.

본 발명에 따른 음성변환방법의 세부적 특징으로는 기계음에 의해 구현되는 음성을 타겟화자의 음성으로 변환하여 출력할 수 있는 점이다.

본 발명에 의해 구현될 수 있는 음성변환 방법의 다른 실시예에 따른 특징은타겟 싱어(target singer)가 부른 노래의 가사 부분과, 소스 싱어(source singer)의 노래중 반주부분과 가사부분을 분리하여 각각 디지털 신호로 변환하여 소정의 기억장치에 저장하는 데이터 생성과정과, 변환함수를 적용하여 소스 싱어(source)의 음색(timbre)을 타겟 싱어(target singer)의 음색으로 변환하는 변환학습과정과, 타겟 싱어(target singer)의 음색(timbre)으로 변환된 신호와 소스 싱어(source singer)가 부른 노래 중 분리되어 저장된 반주부분의 디지털 신호를 합성하여 타겟 싱어(target singer)의 노래로 변환하는 매핑(mapping)과정을 포함하는 점이다.

도 1은 본 발명에 따른 음성 변환 과정을 나타낸 흐름도,

도 2는 본 발명을 노래에 적용한 경우의 동작과정을 나타낸 흐름도,

도 3은 본 발명에 따른 음성 변환의 과정을 도식화한 예시도이다.

이하 첨부된 도면을 참조로 본 발명에 따른 음성 변환 방법의 진행과정을 설명하기로 한다.

도 1은 본 발명에 따른 음성 변환 과정을 나타낸 흐름도이다. 소스화자(source speaker)와 타겟 화자(Target speaker)의 음성을 녹음하여 각각 디지털 신호로 변환하여 소정의 기억장치에 저장하는 데이터 생성과정(S11)과, 변환함수를 적용하여 소스화자의 음색(timbre)을 타겟 화자(target speaker)의 음색으로 변환하는 변환학습과정(S12)과, 타겟 화자(target speaker)의 음색(timbre)으로 변환된 신호를 소스화자의 장단 및 고저 신호가 포함된 디지털 신호와 합성하여 타겟 화자(target speaker)의 음성으로 변환하는 매핑(mapping)과정(S13)으로 이루어진다.

본 예에서는 소스화자의 음성을 타겟화자의 음성으로 변환하는 경우를 예로하고 있으나, 기계에 의해 출력되는 기계음을 녹음하여 이를 타겟화자의 음색으로 변환하여 출력할 수도 있다.

도 2는 본 발명을 노래에 적용한 경우의 동작과정을 나타낸 흐름도이다.

노래에는 가사부분과 반주 부분이 있는데 가사 부분만 음성 변환을 적용시킬 필요가 있다. 소스 데이터와 타겟 데이터에 반주 부분이 섞여 있으면 음성 변환을 위해서 반주부분을 제거해야 하는 불편함이 따른다. 따라서, 소스 싱어(Source singer)의 노래를 가사부분과 반주부분으로 분리하여 디지털 신호의 형태로 저장하고(S21 과정) 타겟 싱어(Target singer)의 가사부분만을 디지털 신호로 저장한다.(S22 과정) 이때, 타겟 싱어(Target singer)의 음성을 용이하게 분석하기 위해 타겟 싱어는 헤드폰을 사용하여 노래 반주를 듣게 되고 이때 부르는 노래의 가사부분만이 마이크를 통해 추출된다.

소스 싱어와 타겟 싱어의 음색을 바꾸기 위한 학습이 수행되는데, 먼저 소스 싱어와 타겟 싱어의 시그널(Signal)을 분석한다.(S23 과정)

변환함수를 학습해내기 위해 분석된 소스와 타겟 시그널을 시간축정합법(Dynamic Time Wrapping)을 사용하여 시간 정렬시킨다. 음성은 크게 문맥과 화자에 종속적인 변이와 지속 시간변이의 시변적인 특성을 지니고 있다. 화자에 따라 다르게 달리 발음되며 문맥에 따라 음성학적 특성이 변하며, 음성의 지속 시간이 달라지는 특성이 있다. 이중에서 음성이 지속시간 변이로 인해 유사도를 측정하려는 두 음성 신호간에는 시간축의 차이가 발생한다. 유사도 측정이 동일 차원의 두 벡터 A, B 간에 이루어지는 것과는 다르게 유사도를 측정하려는 두 벡터간의 차원이 다르게 된다. 즉, 1차원의 벡터 A, B사이의 유사도는 A-B로, 2차원 벡터 A, B의 유사도는로 벡터의 요소끼리 연산한다. 그러나 음성의 경우에는 시간 축에서 비교하는 데이터 개수(프레임 수)가 달라짐으로써

A=(a₀,a₁,a₂,...,a_n), B=(b₀,b₁,b₂,...,b_m), N≠M인 경우가 일반적이다. 따라서 두 음성의 유사도를 측정하기 위해서는 시간 축에서 발생하는 차이를 극복하기 위한 알고리즘이 필요하다. 그 대표적인 알고리즘이 시간축정합법(DTW)과 HMM이다.

시간축정합법은 1970년대 초에 일본에 있어서의 중요한 연구성과의 하나로 Sokoe에 의한 동적계획법(Dynamic Programming: DP)을 이용하여 개발된 기술(일본 DP matching법)이다. 이것은 음성의 시간축의 신축에 대처하면서 2개의 패턴의 유사도(거리)를 계산하는 효율적인 방법이다.

* 제약사항들

① 끝점 제한(Endpoint Constraints) : 입력 음성 패턴의 시작점 T(1)은 기준 패턴의 시작점 R(1)과 일치하고 입력 음성 패턴의 끝점 T(M)은 기준 패턴의 끝점 r(n)과 일치한다.

Beginning point:

Ending point:

② 단조 증가성(Monotonicity) : 최적 경로는 항상 단조 증가해야 한다. 즉 j=w(n)일 때를 만족해야 한다.

③ 국부 경로 제한(Local Path Constraints) : 전역 경로 제한과는 달리 격자상의 한 노드에 도달하기 위한 경로에 제한을 둠으로써 시간 상 지나치게 수축되거나 팽창 되는 것을 막는다.

④ 전역 경로 제한(Global Path Constraints) : 서로 다른 길이를 갖는 입력 음성 패턴과 기준 패턴간의 전 구간에 걸친 허용 가능한 영역을 제한한다. 이때 동일 음성이 발음될 대 지속 시간의 차이가 1/2에서 2배를 넘지 않는 가정에 의해 최적 경로 탐색 범위를 X, Y평면의 모든 노드에서 일정 부분으로 제한함으로써 탐색시간을 줄인다.

⑤ slope weighting : 음성 인식의 정확성에 기여한다. 경로에 1 이외의 기울기(가중치)를 주는 것을 말한다. 시간에 대해 비합리적으로 불연속적으로 변하는 것을 막고, 경로가 급작스럽게 변하는 것을 재분배한다. local continuity and slope weighting은 발견적인 방법이지 분석적으로 증명된 것은 아니다. 그러나 실제 사용함에 있어서 일관성을 보이므로 사용 가능하다.

시간축정합법(DTW)은 기준이 되는 음성신호의 패턴과 입력된 음성 신호간의 유사도(distance)를 동적 프로그래밍(dynamic programming)을 이용해 구하는 방법이다. 시간 축에서 차이를 보상하기 위한 방법이다. 예를 들이 길이가 M인 입력 음성 패턴을 T=T(1),T(2) …, T(M)길이가 N인 기준 패턴을 R=R(1),R(2)…,R(N)라고 하면 두 패턴간의 유사도 D는 다음과 같이 누적거리로 표현된다.

이때 d(R(n),T(w(n)))는 R의 n번째와 T의 w(n)번째의 국부적 유사도(Local Distance)이며, DTW는 두 패턴간의 누적 거리 최적화 하는 (m,n)평면의 최적 경로 m=w(n)를 찾는 방법이다. 이 방법을 이용해 최적 경로를 찾을 대는 음성 신호의 특성을 고려해 최적 경로 탐색에 다음과 같은 제약 조건을 가해 탐색 시간을 줄인다. 그러나 인식 성능에는 영향을 미치지 않는다.

Endpoint 에 의해 Tx, Ty는

(1,1)과(ix, iy)를 연결하는 최소한의 누적거리는

이 제한에 의한 국부 누적거리는

이고, 와 사이의 local distance인 ζ는

이다.

즉, 시작점이 (1,1)이고 끝점이 (Tx, Ty)일 때 Tx, Ty를 통한 최적경로를 찾는 방법은,

1. Initialization:

2. Recursion:이면,

3. Termination:

이와 같이 DTW를 이용하면 두 음성 신호간의 시간의 차이를 보상하여 시간 정렬된 스펙트럴 엔벌로프(Spectral envelope)를 생성할 수 있다.(S24 과정)

이후, 시간 정렬된 소스(source)와 타겟(target) 스펙트럴(Spectral) 엔벌로프(envelope)를 EM(Expectation maximization) 알고리즘에 의해 추정된 GMM(Gaussian Mixture Model)의 파라미터(parameter)를 이용하여 최적화(leastsquare)하게 된다.

어떤 복잡한 현상을 모델링할 때 하나의 모델로 전체 현상을 설명하려는 방법(Global model)과, 부분을 더 잘 설명할 수 있는 부분 모델들을 먼저 만들고 이 부분 모델들을 잘 결합하여 전체 현상을 설명하려는 방법(Local model)이 있다. 음성 현상은 매우 복잡한 현상으로 후자의 방법(Local model)을 사용하여 설명하기로 한다.

가우시안혼합모델(Gaussian Mixture Model)은 로컬모델(Local model)로서 각 구성요소(components)의 모델로 가우시안정규분포(Gaussian Normal distribution)를 사용한다.

소스 스펙트럴 벡터(Source spectral vector)(x)가 관찰될 확률을 GMM으로 모델링하면 음성 현상(phonetic event)(w_j)에 따라

로 나타낼 수 있다.

스펙트럴 벡터를 사용하여 미지 파라미터(Unknown Parameter)(θ)와 믹싱 파라미터(Mixing Parameter)P(w_j)들을 추정한다. 일단 미지 파라미터(θ)와 P(w_j)를 알면 베이어스(Bayes)의 법칙에 의해 어떤 스펙트럴 벡터(spectral vector)(x)가 관찰됐을 때, 거기에 해당되는 음성현상(phonetic event)의 확률은 다음과 같이 구할 수 있다.

여기에서 미지파라미터벡터(θ)와 믹싱 파라미터(Mixing Parameter)P(w_j)는 EM 방법을 통해 구할 수 있다. 혼합밀도(Mixture density)로부터 독립적으로 그려지는 n개의 미표시샘플(unlabelled samples)의 집합 x={x₁,…,x_n}이 주어져 있다고 가정하자. 파라미터벡터(Parameter vector)는 고정(fixed)이지만 알 수 없다. 관찰된 샘플들의 가능성(likelihood)은 연결밀도(joint density)정의에 의한 것이다.

최대 가능성추정값(Maximum likelihood estimate)는를 최대화하는 값이다. 만일,이 θ의 미분함수(differentiable function)라고 추정한다면,에 대한 필수 불가결한 조건을 이끌어 낼 수 있다. ι이 가능성(likelihood)에 대한 대수(logarithm)이라고 하자.

은에 대한 ι의 변화율(gradient)이 된다. 그 때

그리고

만일 i≠j이고, 후가능성은(posteriori probability)

을 논한다면 θ_i와 θ_j의 요소들이 독립적이라고 추정할 것이다.

로그 가능성(Log-likelihood)의 기울기는 재미있는 형태로 쓰여질 수 있다.

기울기는 ι을 최대화시키는 θ_i에서 "0"이 되어야 하며, 최대가능성추정값()은 다음 조건을 만족해야 한다.

반대로,에 대한 이러한 방정식에 대한 해결책들 사이에서 최대가능성 해결방안을 찾을 것이다. 미지량들(Unknown quantities)사이에서 후가능성(a priori probabilities)P(w_i)을 포함하기 위해서 이러한 결과들을 일반화(generalize)한다는 것이 어렵지는 않다. 이러한 경우에의 최대값을 찾는 것은 제약사항

P(w_i)≥0 i=1, 2, …c 과에 대해서 θ와 P(w_i) 문제로 확대된다.는 P(w_i)에 대한 최대 가능성 추정값(maximum likelihood estimate)이다.는 θ_i에 대한 최대 가능성 추정값(maximum likelihood estimate)이다.

만일 가능성함수(likelihood function)가 가변될 수(differentiable)있고 i에 대해서≠0라면,와는일 때,과을 만족해야 한다.

이를 요약하면

과 같이 나타낼 수 있다.

EM을 이용하여 GMM의 모든 미지 파라미터(unknown parameters)를 추정하여P(w_j,x_i)를 계산할 수 있다. 소스(Source) 데이터를 타겟(target) 데이터로 변환해 주는 변환함수를 구해야 한다. 변환함수 F는 다음과 같은 형태를 갖는다고 가정한다.

번환함수 F를 알아내기 위해서는 v_i와 F_i의 값을 알아내야 한다.

v와 Γ는 학습데이터에서 전체 squared conversion error를 최소화하는 값을 선택한다.

(S25 과정)

이후, 학습한 변환함수에 적용하여 스펙트럴 엔벨로프(spectral envelope)를 변환하여 타겟 싱어(target singer)의 음성을 얻을 수 있다. 소스 시그널(source signal)과 타겟 시그널(target signal)을 모두 알고 있고, 가사가 준비되어 있으므로 음소의 범위는 한정되어 있다. 따라서 여기서 필요로 하는 데이터들을 모두 가지고 있다. 그리고 노래라는 특성 상 방언이 없고, 노래의 강세나 운율, 리듬에 싱어(singer)의 음색(timbre)에 의지하므로 각자의 고유한 강세라든가 피치(pitch)등이 대화할 때처럼 그리 두드러지지 않는다. 음소의 길이 또한 소스싱어(sourcesinger)의 길이를 따르므로, 분석된 두 시그널간의 매핑(mapping)을 통해 변환된 음성을 얻을 수 있다.(S26 과정)

타겟싱어(target singer)가 헤드폰을 착용하고 부른 노래의 가사부분과 소스싱어(source singer)가 부른 노래를 가사부분과 반주부분으로 분리하여 각각 디지털 신호로 변환하여 저장한 후에, 변환함수를 이용해서 소스싱어(source singer)의 음색을 타겟싱어(target singer)의 음색으로 바꾸기 위한 학습을 한다. 변환함수를 학습해내기 위해서 소스(source)와 타겟(target) 시그널(signal)을 시간축정합법(DTW)을 사용하여 시간 정렬시킨다. 똑 같은 "아"라는 발음에 대해서도 사람마다 말하는 스타일이 다르기 때문에 그 길이가 다를 수 있다. 소스싱어(Source singer)가 "아"하고 짧게 발음하는 반면, 타겟싱어(target singer)는 "아-"하고 길게 발음할 수 있다. 이렇게 시간 정렬된 소스와 타겟 스펙트럴 엔벨로프(spectral envelope)와 EM 알고리즘(algorithm)에 의해서 추정된 GMM의 파라미터(parameters)를 이용하여 최소제곱법(least square)에 의한 최적화 과정을 필요한 만큼 반복하여 변환함수를 학습한다. 학습한 후 변환함수를 소스싱어(source singer)의 음색에 적용하여 타겟싱어(target singer)의 음색으로 바꾸고, 따로 저장해 두었던 반주 부분을 합성하면 소스싱어(source singer)의 노래를 타겟싱어(target singer)가 부르는 것으로 변환이 이루어진다.

이상에서 설명한 바와 같이, 본 발명에 따른 음성변환 방법은 실제 말하는 사람의 목소리 시그널을 다른 특정인의 목소리 시그널로 변환시킬 수 있다. 요즘 많은 서비스에서 등장하기 시작한 Text-to-Speech (TtS)와 접목시키면 자동전화 서비스, 인터넷 방송의 앵커, 영화 더빙 등에 응용되어 다양한 목소리를 만들어 낼 수 있어 좀 더 생생한 음성기술을 제공할 수 있다.

Claims

소스화자(source speaker)와 타겟화자(Target speaker)의 음성을 각각 디지털 신호로 변환하여 소정의 기억장치에 저장하는 데이터 생성과정과,

변환함수를 적용하여 소스화자(source speaker)의 음색(timbre)을 타겟 화자(target speaker)의 음색으로 변환하는 변환학습과정과,

타겟 화자(target speaker)의 음색(timbre)으로 변환된 신호를 소스 화자(source speaker)의 장단 및 고저 신호가 포함된 디지털 신호와 합성하여 타겟 화자(target speaker)의 음성으로 변환하는 매핑(mapping)과정을 포함하여 이루어지는 음성 변환 방법.
제 1 항에 있어서;

상기 소스화자(source speaker)의 음성은 기계에 의해 구현되는 음성인 것을 특징으로 하는 음성 변환 방법.
타겟 싱어(target singer)가 부른 노래의 가사 부분과, 소스 싱어(source singer)의 노래중 반주부분과 가사부분을 분리하여 각각 디지털 신호로 변환하여 소정의 기억장치에 저장하는 데이터 생성과정과,

변환함수를 적용하여 소스 싱어(source)의 음색(timbre)을 타겟 싱어(target singer)의 음색으로 변환하는 변환학습과정과,

타겟 싱어(target singer)의 음색(timbre)으로 변환된 신호와 소스 싱어(source singer)가 부른 노래 중 분리되어 저장된 반주부분의 디지털 신호를 합성하여 타겟 싱어(target singer)의 노래로 변환하는 매핑(mapping)과정을 포함하는 음성 변환 방법.
제 3 항에 있어서; 상기 변환학습과정은,

데이터 생성과정을 통해 추출된 소스 싱어(source singer)와 타겟 싱어(target singer)의 디지털 신호(Signal)를 분석(Analysis)하여 시간축정합법(Dynamic Time Warping) 알고리즘(Algorithm)을 이용하여 시간정렬된 스펙트럴 엔벌로프(Spectral envelope)를 생성하는 제 1 단계와,

시간정렬된 소스(source)와 타겟(target) 스펙트럴(Spectral) 엔벌로프(envelope)를 EM(Expectation maximization) 알고리즘에 의해 추정된 GMM(Gaussian Mixture Model)의 파라미터(parameter)를 이용하여 최적화(least square)하는 제 2 단계를 포함하여 이루어지는 것을 특징으로 하는 음성 변환 방법.