[go: up one dir, main page]

JP2010014913A - 声質変換音声生成装置および声質変換音声生成システム - Google Patents

声質変換音声生成装置および声質変換音声生成システム Download PDF

Info

Publication number
JP2010014913A
JP2010014913A JP2008174006A JP2008174006A JP2010014913A JP 2010014913 A JP2010014913 A JP 2010014913A JP 2008174006 A JP2008174006 A JP 2008174006A JP 2008174006 A JP2008174006 A JP 2008174006A JP 2010014913 A JP2010014913 A JP 2010014913A
Authority
JP
Japan
Prior art keywords
voice
voice quality
input
unit
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008174006A
Other languages
English (en)
Inventor
Yumiko Kato
弓子 加藤
Yoshifumi Hirose
良文 廣瀬
Takahiro Kamai
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2008174006A priority Critical patent/JP2010014913A/ja
Publication of JP2010014913A publication Critical patent/JP2010014913A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】パラレルコーパスを必要とせず、基本周波数が変化する範囲、パワーが変化する範囲、持続時間あるいは音楽表現に伴って声質が変化する範囲が非常に広い歌唱音声に適用可能な声質変換音声生成装置を提供する。
【解決手段】音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質属性情報付声質パラメータ記憶部110と、各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得し、入力音声の時間軸上の範囲毎に、当該範囲に含まれる入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを取得し、目標音声の声質パラメータと、入力音声の声質パラメータとを用いて、声質パラメータを合成する元歌データ入力部100およびパラメータ変換部120とを備える。
【選択図】図1

Description

本発明は、音声の声質を変換し、声質が変換された音声を生成する声質変換音声生成装置に関する。特に、歌唱パートを含む楽曲の歌唱パートについて、その楽曲の歌手の声質を他の歌手の声質に変換して楽曲を合成して生成する技術に関する。本発明の技術は前記のような元の歌手とは異なる歌手の声質に変換して新しい楽曲の生成を可能にする技術に関し、さらに声質の変換が可能な形式での歌唱パートのデータ構成と、変換目標となる歌手の声質パラメータのデータ構成とに関する。
近年、エンタテインメント市場の拡大に伴い、映像音響コンテンツの制作現場におけるデジタル化や、配信のデジタル化が著しい。特に、音楽コンテンツはネットワーク配信による利用の拡大に伴い、記録メディアによらないビジネスの形態へ急速に移行しつつある。音楽は携帯してパーソナルに楽しむものとなり、楽曲は個々人の嗜好に合わせて自由に選択編集されるようになっている。一部の携帯電話サービスではダウロードした楽曲そのもののリズムを変更したり、演奏楽器を変更したり、ボサノバ風、ヒップホップ調といった曲調を変更するアレンジも行われている。このような個人の嗜好に合わせて選択、編集、変更することへの要求はさらに強まることと思われる。また、楽器や曲調のみならず、楽曲の歌手やコーラスの変更へと要求が高まることが予測される。しかしながら、同一の曲に対して多くの歌手によるバージョンを録音して用意するのは膨大な費用と時間を要し、さらには既に引退あるいは他界した歌手による録音は事実上不可能である。
録音無しに歌手の変更を行うには、歌手の声質と歌い方を模擬した歌唱音声の合成を行う必要がある。歌い方の模擬は曲調の模擬に類する処理であるが、声質の模擬には、歌手ごとの周波数スペクトルの特徴およびその時間変動と、音声の言語的側面である音韻のバリエーションとの分離が困難であるという音声に特有の課題がある。
声質の模擬あるいは変換のためには、分析合成型の音声合成方法が用いられている。この方法は、分析された音声パラメータを変形させることにより、合成音の声質を変換する一連の技術である。しかし、従来の声質変換においては、パラメータ変形のためには、一定量以上の同一の発話内容の変換元と変換の目標となる音声が必要である。
例えば、特許文献1では図42に示すように、カラオケのユーザの歌唱音声が音声データMDとして第1のスペクトラム包絡生成部に入力され、第1のスペクトラム包絡生成部が、ユーザ音声のフォルマントである音声エンベロープデータEDmを生成する。一方で、シーケンサが、楽曲のオリジナル歌手の音声より取得された時々刻々と変化するフォルマントデータFDを、楽曲の進行にあわせて取得し、第2のスペクトラム包絡生成部に入力する。第2のスペクトラム包絡生成部は、目標音声であるオリジナル歌手音声の音声エンベロープデータEDrを生成する。イコライザ制御部は、ユーザ音声の音声エンベロープデータEDmとオリジナル歌手の音声エンベロープデータEDrとを比較する。イコライザ制御部は、比較結果に従い、ユーザ音声の周波数特性がオリジナル歌手音声の周波数特性に近くなるようイコライザを制御して、ユーザの音声をオリジナル歌手の音声に変換する。しかしながら、この方式では逐次的に音声スペクトルの変換を行うために、オリジナル歌手音声とユーザ音声とが旋律としても音韻としても時間的に対応する、パラレルコーパスが必要となる。そのため、カラオケのように目標音声であるオリジナル歌手の音声に変換対象音声であるユーザ音声が合わせる機器においてしか利用できず、故人の音声等のパラレルコーパスを取得できない声に換えることはできない。
一方、パラレルコーパスを必要としない音声変換の方法として、高品質ボコーダであるSTRAIGHTを用い、単独で発声された母音からスペクトルの大局的形状であるフレームワークを抽出し、このフレームワークを変換することで話者変換を行う方法も提案されている(例えば、非特許文献1参照。)。この方法ではスペクトルの時間的変動をフレームワークに貼り付けるテクスチャと捉えることで、スペクトルの微細な時間変動を再現するためのパラレルコーパスを必要としない話者変換を実現している。
特開平9−198091号公報(図8) 吉田有里ら、「ポップス系歌唱音声のSTRAIGHTによる分析とスペクトル変動の統計的性質について」信学技報107巻282号、SP2007−76、2007
しかしながら、前記の母音のみを用いた従来の方法を歌唱音声に適用した場合には、音声品質の劣化や変換音声が目標音声に近づかない等の問題が起こることが非特許文献1で指摘されている。歌唱音声は通常の話し声より基本周波数が変化する範囲、パワーが変化する範囲、持続時間あるいは音楽表現に伴って声質が変化する範囲が非常に広く、単独で発声された母音から取得されたフレームワークでは変換しきれない。すなわち、上記の従来の方法では、歌唱音声のような声質変化の大きい音声については、音韻性、話者性、発声法の特徴が目標音声に近づかない場合がある、あるいは無理な変換のために音声の品質が劣化する場合があるという課題がある。
本発明は、前記従来の課題を解決するもので、パラレルコーパスを必要とせず、基本周波数が変化する範囲、パワーが変化する範囲、持続時間あるいは音楽表現に伴って声質が変化する範囲が非常に広い歌唱音声に適用可能な声質変換音声生成装置を提供することを目的とする。
本発明に係る声質変換音声生成装置は、入力音声の声質を変換する声質変換音声生成装置であって、各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得する入力音声声質パラメータ取得部と、音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質パラメータ記憶部と、前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを前記声質パラメータ記憶部より取得する目標音声声質パラメータ取得部と、前記目標音声声質パラメータ取得部が取得した目標音声の声質パラメータと、前記入力音声声質パラメータ取得部で取得された入力音声の声質パラメータとを用いて、声質パラメータを合成する声質パラメータ合成部と、前記声質パラメータ合成部で合成された前記声質パラメータに基づいて、音声波形を合成する音声合成部とを備える。
好ましくは、前記声質属性情報は、さらに、楽曲構成情報、韻律情報、言語情報、声区、音色種類のうち、少なくとも1つを含む。
この構成によると、入力音声について、声質の変動に影響を与える音韻種類、音域、楽曲構成等の声質属性が共通する目標音声の声質への声質の変換を行うことにより、入力音声に見られた声質変動が、変換後の音声において自然な声質変動として生成されることになる。すなわち歌唱音声や感情表現を含む音声のような声質の変動が大きい音声について、発声中に生じる声質の変動を含めて、声質変換を行うことができ、豊かな音声表現を伴う音声を、自然な音声として声質変換することができる。また、入力音声の声質属性情報は、入力音声の時間軸上の範囲に対応付けられている。このため、入力音声の時間範囲ごとに変換目標となる声質を決定して声質変換することができる。
このため、パラレルコーパスを必要とせず、基本周波数が変化する範囲、パワーが変化する範囲、持続時間あるいは音楽表現に伴って声質が変化する範囲が非常に広い歌唱音声に適用可能な声質変換音声生成装置を提供することができる。
好ましくは、前記入力音声声質パラメータ取得部は、当該声質変換音声生成装置の外部から、前記入力音声の声質属性情報と入力音声の音声波形とを入力として受け付ける入力音声波形入力部と、前記入力音声波形入力部で受け付けられた前記入力音声の音声波形を分析することにより、前記入力音声の声質パラメータを抽出するパラメータ分析部とを含む。
この構成により、声質変換音声生成装置に対して、聴取可能な入力音声の音声波形を入力することができ、別途、分析装置により入力音声の声質パラメータを分析する必要がなくなる。
さらに好ましくは、上記声質変換音声生成装置は、さらに、前記パラメータ分析部により抽出された入力音声の声質パラメータに前記入力音声波形入力部において受け付けられた前記入力音声の声質属性情報を付加することにより、前記入力音声の声質属性情報が付加された前記入力音声の声質パラメータを、前記目標音声の声質属性情報が付加された前記目標音声の声質パラメータとして生成し、前記声質パラメータ記憶部に格納する声質パラメータ生成部を備える。
この構成により、入力音声の声質パラメータを目標音声の声質パラメータとして、他の入力音声の声質パラメータの変換処理に利用することが可能となる。
さらに好ましくは、上記声質変換音声生成装置は、さらに、当該声質変換音声生成装置の外部より、音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを取得し、前記声質パラメータ記憶部に格納する声質パラメータ生成部を備える。
この構成によると、入力音声の声質パラメータと目標音声の声質パラメータとを独立に配布し、また取得することができる。このため、入力音声の声質パラメータと独立に目標音声の声質パラメータを蓄積することができる。つまり、入力音声の声質パラメータと変換音声の声質パラメータとを任意に組み合わせて声質変換がされた音声を生成することができる。
さらに好ましくは、上記声質変換音声生成装置は、さらに、前記声質パラメータ記憶部に記憶された声質パラメータの識別子を表示する表示部と、前記表示部によって表示された識別子のうちのいずれかを指定する入力を受け付ける指定入力部とを備え、前記目標音声声質パラメータ取得部は、前記指定入力部で受け付けられた識別子に対応する声質パラメータを目標音声の声質パラメータとし、前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを前記声質パラメータ記憶部より取得する。
この構成により、ユーザは声質変換音声生成装置を使用して生成しうる音声の声質を知ることができ、生成しうる声質から好みあるいは必要とする声質を選択して音声を生成することができる。
データベースや学習用の大量の音声データあるいはパラレルデータを必要とせず、目標声質パラメータを生成するためのわずかな音声があれば声質変換が可能で、かつ、歌唱音声のように音域や発声法あるいは音楽表現などによって個人内でも声質が大きく変化する場合でも、変換目標とする発声者すなわち歌手の声質の特徴とその変化の仕方を再現することができ、歌手の変化に富んだ声質に変換することができる。引退や他界等の理由で追加録音が不可能な発声者についても、わずかな音声があればその声質に変換することができ、また目標となる声質パラメータを蓄積していくことで生成できる音声のバリエーションが増え、様々な声質の音声を楽しむことができる。
(実施の形態1)
図1は、本発明の実施の形態1における声質変換音声生成装置の機能ブロック図である。図2は、図1のパラメータ変換部の詳細機能ブロック図である。図3から図20は、図1の声質変換音声生成装置の各部の処理を説明するための図である。図21は、図1の声質変換音声生成装置が受け付ける声質属性情報付元歌データの構成の一例を示す図である。図22は、図1の声質属性情報付声質パラメータ記憶部に格納された声質パラメータの構成の一例を示す図である。
まず、上記従来の技術による母音から取得されたフレームワークを用いた方法とは異なる方法による、パラレルコーパスを必要としない声質変換技術を示す。
図1に示されるように、本実施の形態に係る声質変換音声生成装置は、元歌データ入力部100と、声質属性情報付声質パラメータ記憶部110とパラメータ変換部120と、波形生成部130とを備えている。声質変換音声生成装置は、例えば、通常のコンピュータにより構成され、コンピュータのCPU上で声質変換音声生成装置の各処理部を実現するためのプログラムを実行することにより実現される。
元歌データ入力部100は、声質変換される対象となる歌唱音声の波形データと、その波形データの各部に対応する声質を決定する音韻種類、音域、声区、楽曲構成等の情報を音声波形の時間区間に対して記述した声質属性情報付元歌データを入力として受け付ける。
声質属性情報付声質パラメータ記憶部110は、変換目標となる声質を決定する声道パラメータの目標値あるいは目標範囲と音源パラメータの目標値あるいは目標範囲とを、声質属性情報の組み合わせごとに記憶している記憶装置であり、例えば、HDD(Hard Disk Drive)等により構成される。
パラメータ変換部120は、元歌データ入力部100により入力された元歌データの音声波形を分析し、時間系列としてのフィルタパラメータ列と音源パラメータ列とを生成する。さらにパラメータ変換部120は、元歌の歌唱音声波形の時間区間ごとに記述された声質属性情報に従って、声質属性情報付声質パラメータ記憶部110より目標音声の声質パラメータ目標値を取得して、元歌の音声波形より得られた各時間区間のフィルタパラメータと音源パラメータとを、声質属性情報付声質パラメータ記憶部110より取得した当該時間区間の声質属性に対応する目標値にあわせて変形する。
波形生成部130は、パラメータ変換部120で時間区間ごとに変形されたフィルタパラメータ列に基づいて生成されるフィルタを、パラメータ変換部120で時間区間ごとに変形された音源パラメータ列に基づいて生成される音源信号によって駆動することで音声波形を合成する。
図2に示されるように、パラメータ変換部120は、LPC分析部101と、PARCOR算出部102と、フィルタ平滑化部103と、逆フィルタ部104と、音源モデル化部105と、声質パラメータ選択部106と、フィルタ変形部107と、音源変形部108と、変形比率制御部109とから構成されている。
LPC分析部101は、入力された音声を線形予測分析(Linear Prediction Coding analysis)することにより、声道情報を抽出する。PARCOR算出部102は、LPC分析部101により分析された線形予測係数を基にPARCOR係数を算出する。LPC係数とPARCOR係数とは相互に変換可能であり、PARCOR係数も声道情報を表すものである。フィルタ平滑化部103は、PARCOR算出部102により算出されたPARCOR係数を次元ごとに時間方向に平滑化する。
逆フィルタ部104は、フィルタ平滑化部103により平滑化されたPARCOR係数から、逆の周波数振幅応答を有するフィルタ(逆フィルタ)の係数を算出し、係数が算出された逆フィルタを用いて音声を逆フィルタリングすることにより、音源情報を出力する。音源モデル化部105は、逆フィルタ部104により算出された音源情報をモデル化する。声質パラメータ選択部106は、元歌の歌唱音声波形の時間区間ごとに記述された声質属性情報に従って、声質属性情報付声質パラメータ記憶部110より目標音声の声質パラメータ目標値を取得する。
フィルタ変形部107は、フィルタ平滑化部103により平滑化されたPARCOR係数を、声質属性情報付声質パラメータ記憶部110から取得した目標声質のフィルタ情報、および変形比率制御部109より出力される変形比率に基づいて変形することにより、声道情報の変換を行う。音源変形部108は、音源モデル化部105によりモデルパラメータ化された音源情報を声質属性情報付声質パラメータ記憶部110から取得した目標声質の音源情報と変形比率制御部109により入力される変形比率に基づいて変形することにより、音源情報の変換を行う。変形比率制御部109は、入力音声を声質属性情報付声質パラメータ記憶部110から取得した目標声質にどれだけ近づけるかの比率を制御する。つまり、例えば、変形比率が100%の場合には、入力音声の声質を目標声質に置き換えることを意味し、変形比率が0%の場合には、入力音声の声質を置き換えないことを意味し、変形比率が70%の場合には、目標声質と入力音声の声質とを7:3の割合で混合した声質に、入力音声の声質を置き換えることを意味する。
次に、パラメータ変換部120の各構成要素の詳細な動作について説明する。
<LPC分析部101>
LPC分析部101は、入力された音声に対して線形予測分析を行う。線形予測分析は、音声波形のある標本値ynを、それよりも時間的に前のp個の標本値(yn-1,yn-2,yn-3,…,yn-p)から予測するものであり、式1のように表せる。
p個の標本値に対する係数αi(i=1〜p)は、相関法や共分散法などを用いることにより算出できる。算出した係数αiを用いると入力された音声信号S(z)は式2により表すことができる。
ここで、U(z)は、入力された音声信号S(z)を1/A(z)で逆フィルタリングした信号を表す。
<PARCOR算出部102>
一般にLPC分析などに基づき算出された声道情報を変形するためには、スペクトル包絡の特徴点(例えばフォルマント)の対応を抽出し、対応点間の声道情報を補間することにより声道情報の変形を行うことがなされる。
図3は、2つの音声の特徴点の対応付けの例を示したものである。図において、音声Xのスペクトル特徴点として、x1,x2,x3の3点、音声Yのスペクトル特徴点として、y1,y2,y3,y4の4点が抽出されている。
しかしながら、LPC分析などによりスペクトル包絡を取得した場合、スペクトルの特徴点は必ずしもフォルマントには対応せず、比較的弱いピーク値も特徴点(y2)として採用される場合が存在する。以降、このような特徴点を擬似フォルマントと呼ぶことにする。
対応付けを行う際に、フォルマントと擬似フォルマントとを誤って対応付けてしまう場合がある。同図の例では、本来はx1−y1,x2−y3,x3−y4(図中実線で表示)の対応付けがあるべきところを、x1−y1,x2−y2,x3−y3(図中破線で表示)という対応付けになる。
結局、対応点間の声道情報の補間を行ったときに、本来対応しないx3−y3を対応付けたために、声道情報として不適切な値を算出してしまうことになる。
PARCOR算出部102は、LPC分析部101により分析された線形予測係数αiを用いて、PARCOR係数(偏自己相関係数)kiを算出する。算出方法は、Levinson−Durbin−Itakuraアルゴリズムを用いることにより算出することが可能である。なお、PARCOR係数は、次の特徴を保有する。
(1)低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。
(2)高次の係数の変動の影響は平坦に全域にわたる。
PARCOR係数にはこのような特徴があるため、擬似フォルマント(スペクトル包絡の弱いピーク値)として現れていた情報は、PARCOR係数上では高次のパラメータとして表現される。したがって、PARCOR係数上の同一次元での補間は、スペクトル上での特徴点と非常に近い対応付けを行うことが可能となる。このことはフィルタ平滑化部103の説明で実例を示す。
<フィルタ平滑化部103>
図4(a)〜図4(d)に、男性話者が/aeiou/と連続発声した音声を、上述のPARCOR係数(反射係数)で表現した際の1次から4次のPARCOR係数をそれぞれ示す。各グラフにおいて横軸は分析フレーム番号を示し、縦軸はPARCOR係数を示す。なお分析周期は5msecである。
図4に示したPARCOR係数は、本来、声道の形状を表わす声道断面積関数と等価なパラメータであるので、声道の運動の動きと同程度の速さの変動であるべきである。しかし、図4では、各次元のパラメータの時間変動は、本来の声道の運動の動きに比べ速いものとなっていることがわかる。つまり、LPC分析により分析された声道情報は、本来の声道の動きよりも早い動き情報を持っていることを表している。この情報は、音源情報の時間的な揺らぎであると解釈することができる。
フィルタ平滑化部103は、PARCOR算出部102により算出されたPARCOR係数の各次元に対して時間方向での平滑化を行う。
平滑化の方法は特に限定するものではないが、例えば、次元ごとに式3に示すような多項式によるPARCOR係数の近似を行うことにより、PARCOR係数の平滑化を行うことができる。
ここで、
は多項式により近似されたPARCOR係数を示し、aiは多項式の係数を示し、xは時刻を示す。
このとき多項式による近似を適用する時間幅としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までを時間幅とするようにしても良い。なお、以下の説明では、音素区間を平滑化の単位として説明を行う。
図5(a)〜図5(d)に、PARCOR係数を5次の多項式近似を用いて音素単位で時間方向に平滑化した際の1次から4次のPARCOR係数をそれぞれ示す。グラフの縦軸と横軸は図4と同じである。
本実施の形態では、多項式の次数として5次を例に説明しているが、多項式の次数は5次でなくとも良い。なお、多項式による近似以外にも音素単位時間ごとの回帰直線によりPARCOR係数を近似するようにしても良い。
同図において、音素ごとにPARCOR係数は平滑化され滑らかになっていることがわかる。
音素境界では、PARCOR係数に不連続が見られるが、適当な過渡区間を設けてPARCOR係数を補間することにより不連続を防止することが可能である。補間の方法は特に限定するものではないが、例えば線形に補間するようにしても良い。
図6に、過渡区間を設けてPARCOR係数の値を補間する例を示す。同図には、母音/a/と母音/e/との接続境界の反射係数が示されている。同図では、境界時刻(t)において、反射係数が不連続になっている。そこで境界時刻から適当な渡り時間(Δt)を設け、t−Δtとt+Δtとの間の反射係数を線形に補間し、補間後の反射係数51を求めることにより音素境界における反射係数の不連続を防止している。渡り時間としては、例えば20msec程度とすればよい。あるいは、渡り時間を前後の母音継続時間長に応じて変更するようにしても良い。例えば、母音区間が短い場合には、渡り区間も短くする。逆に母音区間が長ければ渡り区間も長くするようにすれば良い。
図7に、/a/と発声された音声を分析し、音源をインパルス音源として音声を合成した際のスペクトログラム(横軸は時間、縦軸は周波数)を示す。図7(a)は、通常の平滑化を行わずにインパルス音源により音声を合成した場合のスペクトルの様子を示し、図7(b)は、上述の平滑化を行った声道情報を用いて、インパルス音源により音声を合成した場合のスペクトルの様子を示す。
同図において符号6aで示した部分には縦縞が現れている。これは、PARCOR係数の速い変動によって生じたものである。一方、平滑化を行った場合の同じ箇所6bでは、縦縞がほぼなくなっていることがわかる。このように、フィルタパラメータを平滑化することにより、声道が本来持っていない情報を除去できることが分かる。
<逆フィルタ部104>
逆フィルタ部104は、フィルタ平滑化部103により平滑化されたPARCOR係数を用いて、その周波数応答の逆特性を持つフィルタを形成し、入力音声をフィルタリングすることにより、入力音声の音源波形を出力する。
<音源モデル化部105>
図8(a)は、逆フィルタ部104に入力される音声の波形の一例を示す図である。図8(b)は、逆フィルタ部104から出力される波形の一例を示す図である。逆フィルタとは、音声から声道(vocal tract)の伝達特性(transfer characteristics)を除去することによって、声帯音源の情報を推定するものである。ここではRosenberg−Klattモデルなどで仮定される微分声門体積流波形(differentiated glottal volume velocity waveform)に類似した時間波形が得られている。図8(b)に示す波形は、Rosenberg−Klattモデルの波形よりも微細な構造を有しているが、これはRosenberg−Klattモデルが単純な関数を用いたモデルであり、個々の声帯波形が持つ時間的な変動や、それ以外の複雑な振動を表現することができないためである。
本発明ではこのようにして推定された声帯音源波形(以下、「音源波形」という。)を次のような方法でモデル化する。
(1)音源波形の声門閉鎖時刻を1ピッチ周期毎に推定する。この推定方法には特許第3576800号公報に開示されている方法などがある。
(2)声門閉鎖時刻を中心に、音源波形のピッチ周期ごとに切り出しを行う。切り出しにはピッチ周期の2倍程度の長さのHanning窓関数を用いる。
(3)切り出された波形を周波数領域(Frequency Domain)の表現に変換する。変換の方法は特に限定されるものではなく、例えば、離散フーリエ変換(Discrete Fourier Transform:以下DFT)または離散コサイン変換(Discrete Cosine Transform)等により、周波数領域に変換する。
(4)DFTの各周波数成分から位相成分を除去することにより振幅スペクトル情報を作る。位相成分を除去するには複素数で表された周波数成分を次の式4によって絶対値に置き換える。
ここでzは絶対値、xは周波数成分の実数部、yは周波数成分の虚数部を表す。
(5)振幅スペクトル情報を一つまたは複数の関数で近似する。音源情報として上記近似関数のパラメータ(係数)が抽出される。
このような方法で1ピッチ周期分の音源情報を抽出し、モデル化を行う。音源波形には時間方向に多数のピッチ周期が連続して存在するので、その全てのピッチ周期に対してこのようなモデル化を行う。ピッチ周期単位でモデル化を行うため、音源情報は声道情報よりも遥かに短い時定数で分析されることとなる。
次に音源の振幅スペクトル情報を関数で近似する方法の詳細について説明する。
<音源の振幅スペクトル情報を関数で近似する方法>
逆フィルタ部104の出力波形(図8(b))をピッチ周期毎にモデル化する方法の詳細について説明する。この波形は音声から声道の伝達特性を除去することによって推定された微分声門体積流波形であるため、フォルマントが除去された比較的単純な振幅スペクトル包絡(amplitude spectral envelope)を有している。そこで、発明者らは振幅スペクトル包絡を低次数の関数で近似することによって音源の情報を効率良く表現することができると考えた。
以降の説明では、逆フィルタ部104の出力波形を音源(voicing source)と呼び、振幅スペクトル(amplitude spectra)を単にスペクトル(spectra)と呼ぶことにする。
図8(c)および図8(d)は、それぞれ音声と音源のスペクトルの一例である。図8(c)に示す音声のスペクトルには、フォルマントによって数個のピークが存在するが、図8(d)に示す音源のスペクトルでは、そのようなピークが除去されており、低域(low frequency area)から高域(high frequency area)にかけて大きさが減少していく形状をしている。したがって、右下がりの直線によって比較的良好に音源のスペクトルを近似することができると考えられる。ただし、低域は直線からは外れる傾向があり、この例では170Hz付近にピークが存在する。これは音源そのものが持つピークであり、音源由来のフォルマントという意味でグロッタルフォルマント(glottal formant)と呼ばれることがある。
図8(b)の波形は複数のピッチ周期を含む連続波形(Continuous Waveform)であるため、図8(d)に示す音源スペクトルは高調波を示すギザギザした形をしている。これに対し、ハニング窓関数(Hanning Window Function)等を用いてピッチ周期の2倍程度の長さで波形を切り出した場合、高調波の影響はなくなり、音源スペクトルは滑らかな形状となる。図9は、連続な音源波形のスペクトルとハニング窓関数で切り出した孤立波形(Isolated Waveform)のスペクトルとを示したものである。同図において破線で示すように、ハニング窓関数で切り出された音源波形のスペクトルは極めて単純な形状になる。
本実施の形態では、音源波形のモデル化を、ピッチ周期の2倍の長さのハニング窓関数で切り出した音源波形(以下、「音源ピッチ波形」と言う)の一つ一つに対して行うこととする。
本願発明者らは聴覚の特性を考慮し、高域になるほど周波数分解能が低くなり、大きさの誤差も聞こえ(perception)に影響しなくなる傾向に注目し、図10に示すように所定の境界周波数(boundary frequency)より上の領域を直線で近似することを考えた。そして、その境界周波数を徐々に下げていくことによって音質が劣化する度合いを主観評価によって測定した。主観評価実験はサンプリング周波数11.025kHzの女性の1発話の音声を分析合成したものを境界周波数によって5種類用意し、原音声との比較によるDMOS(Degradation Mean Opinion Score:劣化平均オピニオン評点)試験によって被験者19人に対して行った(非特許文献:「Method for subjective determination of transmission quality」 ITU−T Recommendation P.800 1996年参照。)。
DMOS試験での5段階の評点と評定語を表1に示す。
図11に実験結果を示す。その結果、この実験に用いた音声では800Hz近辺まで境界周波数を下げてもほとんど音質の劣化は見られず(劣化がわずかに気になるレベル)、500Hz付近から急速に音質が劣化する(劣化が気になるレベル)ことが明らかになった。発明者らはこの劣化が前述のグロッタルフォルマントによるピークが直線近似に影響を与えたために発生したと考えている。この時の境界周波数を下限境界周波数(lower limit of boundary frequency)と呼ぶことにする。
さらに、図12に示すように、上記の境界周波数(800Hz)以下の領域のスペクトルを別の関数で近似することを試みた。この領域にはグロッタルフォルマントによるピークが存在する。したがって、直線での近似は無理であり、2次以上の関数を用いる必要がある。予備実験において2次関数による近似では低域のエネルギが低下する現象が認められた。これは基本波成分(fundamental frequency component)の大きさが再現しきれず、減衰してしまったためと考えられる。そこで、近似関数の次数を増やす実験を行い、概ね4次関数を用いることにより低域のエネルギの低下が解消することが分かった。
しかしながら、次数を増やすことは係数の量子化に対する感度が高まることを意味し、ハードウェアへの実装上の困難が増す。そこで、代替の手法として図13に示すように、この帯域をさらに2分割し、それぞれを低次の関数で近似する実験を行った。グロッタルフォルマントのピークが含まれる帯域に3次関数を割り当て、他方の帯域に2次関数を割り当てる方法を試みた。また、さらに情報を削減するために常に両方の帯域に2次関数を割り当てる方法も試みた。
この実験によれば両方の帯域に2次関数を割り当てることで十分な音質が得られることが分かった。低域を2つの2次関数で近似した様子を図14に示す。図14(a)は低域(800Hz以下)の音源スペクトルを表しており、図14(b)はその低域を2分割した左側のスペクトルと2次関数による近似曲線を表す。図14(c)は同様に右側のスペクトルと近似曲線を表す。グロッタルフォルマントによるピークが良好に近似できている。それに加え、鼻音(nasal sound)のように声道が全極型モデル(all−pole model)に合わないような場合でも非常に精度良く近似できることが分かった。図15のように音源スペクトルのピークが二つ現れる場合も、2つの2次関数により音源スペクトルを精度良く近似できている。
このように、境界周波数より高い周波数の領域を直線で近似し、境界周波数より低い周波数の領域を2分割したそれぞれの領域を2次関数で近似することが音源スペクトルを近似する上で有効であることが分かった。
一方、異なる話者に関しては上述した下限境界周波数が異なることが分かった。ここまでは女性話者の音声を用いた例を示してきたが、男性話者の音声では同じ境界周波数を用いると低域のエネルギが低下する現象が認められた。その理由は、男性は基本周波数が低いため、グロッタルフォルマントの位置(glottal formant frequency)も低いためであると考えられる。実際、境界周波数をさらに下げたところに最適点があることが分かった。
このような結果を踏まえるとともに、連続音声中では同一話者内でもグロッタルフォルマントの位置は変動すると考え、発明者らは境界周波数を音源スペクトルに合わせて動的に設定する方法を考案した。その方法は、あらかじめ複数の周波数(276Hz,551Hz,827Hz,1103Hz,1378Hz,1654Hz)を境界周波数の候補としてテーブルに記憶しておき、それらを順番に選択しながら上記の方法でスペクトルを近似し、二乗誤差(square−error)が最小となるような境界周波数を選択するようにした。
このような方法で設定した最適境界周波数の相対度数分布を図16に示す。図16は、同一発話内容を男女1名ずつが発声した音声を分析し、上記の方法で境界周波数を動的に設定した時の分布を表している。男性話者の方が女性話者よりも低い周波数に分布のピークが存在している。すなわち、分析対象音声に対して動的な境界周波数設定が適応的に作用し、音源スペクトルの近似精度を高める効果があると言える。
このように、音源モデル化部105は、逆フィルタ波形をピッチ周期単位で分析し、高域の1次関数の係数(a1,b1)、低域の帯域Aの2次関数の係数(a2,b2,c2)、低域の帯域Bの2次関数の係数(a3,b3,c3)、境界周波数Fcの情報、それに加えて当該ピッチ周期の時間位置情報を記憶する。
なお、ここでは音源スペクトルとして、DFTの周波数成分の大きさを用いたが、通常、振幅スペクトル表示を行う際にDFTのそれぞれの周波数成分の大きさを対数に置き換えることが行われる。このため、そのような処理を行ってから関数での近似を行ってももちろん構わない。
<声質パラメータ選択部106>
声質パラメータ選択部106は元歌の歌唱音声波形の時間区間ごとに記述された声質属性情報に従って、声質属性情報付声質パラメータ記憶部110よりその時間区間の声質属性情報に対応する目標音声の声質パラメータすなわち声道情報であるフィルタパラメータと音源パラメータの目標値を取得する。
<変形比率制御部109>
変形比率制御部109は入力された音声を声質属性情報付声質パラメータ記憶部110により保持されている目標音声情報へ変換する度合いを変形比率として出力する。変形比率は、元音声と目標音声の中間の声質を生成するために調整される場合もあるが、音素境界や音声の開始点あるいは終了点のように各パラメータが急峻に変化する区間や子音部分のように時間変動情報を正確に再現する必要がある区間等については時間情報を保持した元歌データの比率を高くし、それ以外の部分については目標音声の声質情報を保持した目標音声情報への変換度合いを高くするように変形比率を決定するものである。
<フィルタ変形部107>
フィルタ変形部107は、フィルタ平滑化部103により平滑化されたPARCOR係数の変形(変換)を行う。
変換の単位は特に限定するものではないが、例えば音素を単位として変換する場合について説明する。まず、フィルタ変形部107は、声質属性情報付声質パラメータ記憶部110から変換の対象としている音素に対応するターゲットのPARCOR係数を取得する。例えば、音素カテゴリごとにターゲットとなるPARCOR係数を用意することにより実現することが可能である。
フィルタ変形部107は、ターゲットのPARCOR係数の情報と変形比率制御部109より出力された変形比率に基づいて、入力されたPARCOR係数を変形する。
具体例として、フィルタ平滑化部103で多項式による近似を用いて平滑化した場合を説明する。
まず、変換元パラメータから式5となる多項式の係数aiを求める。この係数aiによりPARCOR係数を生成すると滑らかなPARCOR係数を生成することが可能である。
次に、フィルタ変形部107は、声質属性情報付声質パラメータ記憶部110から目標音声のPARCOR係数より求められた多項式の係数biを取得し、式6を求める。
次に、フィルタ変形部107は、被変換パラメータとターゲットパラメータと変形比率を用いて、変換後のPARCOR係数の多項式の係数ciを式7により求める。
通常、変形比率rは、0≦r≦1の範囲で指定される。しかし、変形比率rがその範囲を超える場合においても、式7により変換することは可能である。変形比率rが1を超える場合は、被変換パラメータ(ai)から目標母音声道情報(bi)との差分を更に強調するような変換になる。一方、変形比率rが負の値の場合は、被変換パラメータ(ai)から目標母音声道情報(bi)との差分を逆方向に適用することになる。
算出した変換後の多項式の係数ciを用いて、フィルタ変形部107は、変換後のフィルタ係数を式8で求める。
以上の変換処理をPARCOR係数の各次元において行なうことにより、指定された変形比率でのターゲットのPARCOR係数への変換が可能になる。
実際に、母音/a/に対して、上記の変換を行った例を図17に示す。同図において、横軸は、正規化された時間を表し、縦軸は、1次元目のPARCOR係数を表す。図中のaは被変換音声を示す男性話者の/a/の発声の係数の推移を示している。正規化された時間とは、母音区間の継続時間長で、時間を正規化することにより、0から1までの時間をとる時刻のことである。これは、被変換音声の母音継続時間と、目標母音情報の継続時間が異なる場合において、時間軸をそろえるための処理である。同様にbは目標母音を示す女性話者の/a/の発声の係数の推移を示している。cは上記変換方法を用いて、男性話者の係数を女性話者の係数に変形比率0.5で変形した際の係数の推移を示している。同図から分かるように、上記の変形方法により、話者間のPARCOR係数を補間できていることがわかる。
音素境界では、PARCOR係数の値が不連続になるのを防止するために、フィルタ平滑化部103と同様に適当な過渡区間を設けて補間処理を行う。
PARCOR係数における補間の妥当性を確認するために、PARCOR係数を、式9を用いて、声道断面積関数に変換し、声道断面積の補間の様子を図18に示す。
ここで、左辺は区間nと区間n+1との声道区間の断面積比を表す。knは、区間nと区間n+1との境界のPARCOR係数を表す。
図18において、(a)は変換元となる男性話者の/a/の中心時刻での声道断面積、(c)は目標となる女性話者の/a/の中心時刻での声道断面積、(b)は変形比率0.5で変換元のPARCOR係数を変換した後のPARCOR係数に対応する、音声の中心時刻での声道断面積を示している。同図において、横軸は、声道の位置を表し、左端が唇を右端が声門を示す。縦軸は、声道断面の半径に相当する。
図18からも明らかなように、変形比率0.5で補間した音声の声道断面積は、男性話者と女性話者との中間の声道の形状を現していることがわかる。したがって、声道の物理的な特徴空間において、男性話者と女性話者との中間のPARCOR係数を補間できていることがわかる。
加えて、声道情報を多項式近似により時間方向に平滑化したことにより、声道情報の変換を極めて簡略な処理で行うことが可能である。
<音源変形部108>
音源変形部108では、音源モデル化部105によりモデル化された音源パラメータを、声質属性情報付声質パラメータ記憶部110により保持されている目標音声情報のうち音源情報にかかわる情報を用いて、変形する。
変形の方法は特に限定するものではないが、例えば、モデル化された音源パラメータの基本周波数、非周期成分境界周波数、有声音源振幅などの平均値を、声質属性情報付声質パラメータ記憶部110に保持されている情報に、変形比率制御部109により入力される変形比率に合わせて変換し、元歌音声の音源スペクトルモデルのパラメータの時間変動を、声質属性情報付声質パラメータ記憶部110に保持されている目標音声の音源スペクトルモデルパラメータの平均値と分散とに合わせこむ処理により実現すればよい。
<音源波形の生成方式>
音源波形の生成方法について、一例について詳細を図19を用いて次に説明する。
図19(a)は前述した方法でモデル化された音源パラメータが振幅スペクトルを近似したものであることを表している。すなわち、境界周波数より下の周波数帯域を2等分し、それぞれの領域を近似された2次関数で表し、境界周波数より上の周波数帯域を近似された1次関数で表している。この情報(それぞれの関数の係数)を元に振幅スペクトルを復元する。その結果、図19(b)のように単純化された振幅スペクトルが得られる。これを図19(c)のようにナイキスト周波数(サンプリング周波数の2分の1)を境に折返し、対象の振幅スペクトルを作成する。
こうして復元された周波数スペクトルをIDFT(Inverse Discrete Fourier Transform)によって時間波形に変換する。このようにして復元された波形は図19(d)のように左右が対称の1ピッチ周期分の波形であるので、これを図19(e)のように所望のピッチ周期になるように重ね合わせて配置することにより一連の音源波形を生成する。
図19(c)の対象スペクトルは位相情報を有していない。これに対し、図19(e)のように、復元された波形を重ね合わせて配置することにより、位相情報を付加することができる。このため、図20に示すように非周期成分境界周波数より上の周波数帯域にランダムな位相を付加することにより有声音源に気息性(breathiness)や柔らかさ(softness)を付加することができる。付加すべき位相情報はナイキスト周波数を境に点対称のものとすればIDFTされた結果は虚数部を持たない時間波形となる。
次に、声質変換可能な歌唱パートとしての声質属性情報付元歌データの構成と、声質変換における変換目標となる声質パラメータデータである声質属性情報付声質パラメータデータの構成について説明する。
<声質属性情報付元歌データ>
図21に元歌データ入力部100が受け付ける、声質属性情報付元歌データの構成例を示す。図21(a)のような楽譜と歌詞に基づいて歌われた歌唱音声の声質属性情報付元歌データは図21(b)のように示される。声質属性情報付元歌データは、元歌の音声波形と、音声波形の時間区間を指定する形式でラベルされた母音種類と、音声波形の時間区間を指定する形式でラベルされた元歌歌手の歌唱音域と、音声波形の時間区間を指定する形式でラベルされた楽曲の構成情報とを含む。音韻カテゴリのラベルは、歌詞が日本語の場合、例えば母音ラベルの/a//i//u//e//o/の5種類とし、音域は例えば低域、中域、高域の3種類に分けるものとし、楽曲構成はコーラス(chorus、日本では俗にサビと呼ばれる)とバース(verse、日本では俗に平歌と呼ばれる)に分けるものとする。
<声質属性情報付声質パラメータデータ>
声質属性情報付声質パラメータ記憶部110では、目標となる声質の声道情報と音源情報を保持する。声道情報としては、声質属性のカテゴリ分類ごとに目標音声のPARCOR係数の時間系列より生成された多項式の係数セットを保持する。声質属性のカテゴリは、少なくとも音韻種類を含み、それ以外に音域(pitch range)、楽曲構成(music structure)、声区(voice register)等の声質あるいは発声法に影響する項目による分類を含むものとし、1つ以上のカテゴリによって分類された声質属性を声質属性区分とする。各声質属性区分に1つの多項式の係数セットを保持する場合には、声質パラメータ選択部106は、該当する声質属性区分に対応する目標関数を取得することができる。
また、各声質属性区分に関して複数の多項式係数セットを保持する場合には、変換元のPARCOR係数に最も適合する目標関数を選択するようにすればよい。選択方法は特に限定するものではなく、例えば特許第4025355号公報に記載されている関数選択方法を用いて選択するようにすれば良い。
目標音源情報としては、変換音声全体の平均的音源パラメータ値を決定するためのデータ、例えば、目標音声の平均的な基本周波数や、平均的な非周期成分境界周波数、平均的な有声音源振幅などを保持すると共に、声質属性区分ごとに音源スペクトル情報、例えば、目標音声の音源モデルパラメータごとの平均値と分散等を保持する。図22に声質属性情報付声質パラメータ記憶部110が保持する、声質属性情報付声質パラメータの構成例を示す。同図に示すとおり、母音種類ごとに音域と楽曲構成情報によって声質属性区分を設定し、この区分ごとに声道情報としてのPARCOR係数の時間変動を正規化時間上で表現した多項式の係数と、音源情報としての音源モデルパラメータの時間平均と分散を保持している。これらのデータは目標歌手あるいは目標歌手類型ごとに記録されており、目標歌手あるいは目標歌手類型ごとに変換音声全体の平均的音源パラメータ値を決定するための、平均的基本周波数、非周期成分情報、有声音源振幅等の情報が記録されている。
また、ここでは声道情報と音源情報を同一の声質属性区分で分類して情報を保持したが、音源情報に対する声質属性区分の分類と、声道情報に対する声質属性区分の分類とは同じである必要はない。音韻による区分は、音韻ごとによって大きく変化するフォルマントを表現している声道情報のみに適用し、音韻による変化が非常に小さい音源情報には適用しない等、声道情報の特性分布、音源情報の特性分布を分割するのにふさわしいカテゴリ分類であれば良い。また、音声の出力部の周波数特性や追随性のような出力端の能力に応じて声質属性の区分を変更することはデータの削減、音声出力時の歪の軽減に有効である。音声出力端の周波数特性に合わせて、音域が広く周波数領域において再現精度の高い出力端であれば音域の区分を細かくするようにしてもよい。逆に、音域が狭い出力端であれば、再現不能な音域の区分のデータを保持せず、再現可能な音域のデータを割り当てる等してもよい。
さらに、ここでは声質属性情報として、母音種類と音域と楽曲構成を用いているが、歌唱音声を対象とする場合には音楽ジャンルによって付加する声質属性を選択することで、声質の再現性が高まる。クラシック音楽を対象とする場合には、パルス、中声区、ファルセットといった声区を声質属性として用い、ポップスやロック、演歌や民謡のような音楽を対象とする場合には、局所的に使われる唸り、鼻音、ファルセット等の特徴的音色を声質属性に加えると効果的である。歌唱音声でなく発話を対象とする場合には、声質に影響する、講演、店頭会話、友人との雑談等の状況、強調の有無、アクセントやポーズ等の韻律情報、係り受けや自立語と付属語といった声を張る状態に影響する言語情報、感情的な音声に見られる「かすれ」や「力み」といった特徴的音色の有無などを声質属性情報として用いることで、声質の再現性が高まる。
つぎに、実際の動作に関して図23に示すフローチャートを用いて説明する。
まず、元歌データ入力部100は声質属性情報付元歌データを受け付け、声質属性情報付元歌データに含まれる音声波形を抽出する(ステップS001)。さらに元歌データ入力部100は、声質属性情報付元歌データに含まれる声質属性情報より当該音声区間に適用する声質属性区分を取得し、声質パラメータ選択部106が、目標音声声質として声質属性情報付声質パラメータ記憶部110より該当する声質属性区分の声質情報を取得する(ステップS002)。パラメータ変換部120は、入力音声の全波形の処理が終了したか否かを判断する(ステップS011)。
未処理の音声波形がある場合(ステップS001でno)、LPC分析部101は、入力された音声の1音素分の音声波形に対してLPC分析を行い、線形予測係数αiを算出する(ステップS003)。
PARCOR算出部102は、LPC分析処理(ステップS003)により算出された1音素分の線形予測係数αiからPARCOR係数kiを算出する(ステップS004)。
フィルタ平滑化部103は、PARCOR係数算出処理(ステップS004)により算出されたPARCOR係数kiの各次元のパラメータ値を時間方向に平滑化する(ステップS005)。この平滑化により、声道情報に残された音源情報の時間的な変動成分を除去することが可能となる。このときの平滑化の方法として、PARCOR係数を多項式により近似したものとして以下の説明を行う。
逆フィルタ部104は、フィルタ平滑化処理(ステップS005)により時間方向に平滑化され、音源情報の時間的な変動が除去された当該音素の声道情報を用いて、その声道情報の逆特性を表す逆フィルタを生成し、入力された音声波形に対して逆フィルタリング処理を施すことにより、従来、声道情報に含まれていた音源情報の時間的な変動を含む当該音素の音源情報を取得することができる(ステップS006)。
次に、音源モデル化部105は、音源情報抽出処理(ステップS006)により取得した当該音素の音源情報をモデル化する(ステップS007)。
フィルタ変形部107は、フィルタ平滑化処理(ステップS005)により算出された多項式関数で近似された当該音素の声道情報を、変形比率制御部109によって決定された変形比率で、ターゲットの声道情報に変形する(ステップS008)。
音源変形部108は、音源モデル化処理(ステップS007)によりモデルパラメータ化された当該音素の音源モデルパラメータを、変形比率制御部109によって決定された変形比率で、ターゲットの音源モデルパラメータに変形する(ステップS009)。音源変形処理(ステップS009)の処理の後、判断処理(ステップS011)へ戻る。
判断処理(ステップS011)から音源変形処理(ステップS009)までの処理を順次行うことにより、音声データ全体の声質変換を行う。
なお、ここでは音声波形の分析から変形までを順次行うものとしたが、まず、LPC分析処理(ステップS003)から音源情報抽出処理(ステップS006)までの処理を順次行うことにより音声データ全体の分析を終了させた後、音源モデル化処理(ステップS007)から音源変形処理(ステップS009)までの処理を順次行って音声データ全体のパラメータ変換を行うものとしても良い。また、ここではLPC分析処理(ステップS003)から音源変形処理(ステップS009)までの処理を音素ごとに行うものとしたが、それ以外の単位、例えば一定時間幅、モーラ単位、音節単位等を処理の単位として各部の処理を行うものとしても良い。
全ての音声波形について処理が終了した後(ステップS001でyes)、波形生成部130は、フィルタ変形処理(ステップS008)により算出された声道情報と、音源変形処理(ステップS009)により算出された音源情報とに基づいて、合成音の音声波形を生成する(ステップS010)。
なお、フィルタ変形処理(ステップS008)は、フィルタ平滑化処理(ステップS005)の直後に実行されるようにしても良い。また、目標音声声質情報取得処理(ステップS002)は、フィルタ変形処理(ステップS008)および音源変形処理(ステップS009)以前であればいつ実行されても良い。
以上説明した処理により、入力された音声に対して、音源情報と声道情報とを精度良く分離することが可能となる。また、精度良く分離された声道情報および音源情報を変形することにより声質を変換した場合においても、音質の劣化が少ない声質変換を行なうことができる。さらには、声質に影響する音韻種類や音域、あるいは楽曲の構成等に基づいて声質属性区分を設け、声質属性区分に従って、目標音声の声道情報と音源情報とを元歌音声の声道情報と音源情報とに適用することにより、元歌音声の声道情報と音源情報とを変換する。これにより、歌唱音声のように、音域、発声法あるいは音楽表現などによって個人内であっても声質が大きく変化して1種類の声質データでは声質変換が十分に行えない場合であっても、変換目標とする発声者すなわち歌手の声質の特徴とその変化の仕方を再現することができ、歌手の変化に富んだ声質に変換することができる。例えば、歌唱音声に見られるファルセットでは、ファルセットではない音声に比べて音声のスペクトル傾斜が急峻であるとされている。スペクトル傾斜の違いはファルセットの「響きが少ない」声質を作る大きな要因である。実験データでは、スペクトル傾斜によってファルセットを再現した音声に対して、80%以上の人が「響きが少ない」音色であると判断しており、同一発声者の音声であってもスペクトル傾斜が緩やかな音声は、80%以上の人が「よく響く」音色であると判断している(非特許文献:インゴ R. ティッツェ著、新美成二監訳「音声生成の科学」医歯薬出版株式会社、p198)。また、上手な歌手では基本周波数の広い範囲で、すなわち広い音域において、意図的にファルセットで歌ったり、それを抑制したりすることができるものである(同上、p195)。すなわち声質の変化は、歌唱表現方法のひとつであり、歌唱音声を生成する際には重要な要素である。本実施の形態により、声質による歌唱表現を保ったまま声質を変換することができ、変換音声に元楽曲の豊かな音楽表現を再現することができる。また、歌唱音声ほどの大きな変化ではないが、発話においても声質の変化はみられ、声区による声質変化(同上、p193)、感情音声にみられる「かすれ」や「力み」のような特徴的音色(特許文献:特許第4085130号公報)の例がある。声質属性を発話用の属性と区分に変更することで、発話音声についても豊かな表現を保ったまま声質を変換することができる。
また、音韻種類が共通する音声の声質間で変換を行うことで、個人ごとの発音の癖、例えば/o/と発音しても/a/に近い発音の人と/u/に近い発音の人のような違いや、大きく口をあいて発音する人の/a/と口をあまり開けないで発音する人の/a/のような発音の仕方による音韻ごとに異なる個人間の声質の差に対応した声質変換を行うことができる。音域が共通する音声の声質間で変換を行うことで、各個人が出しうる声の高さの範囲の中で、相対的な声の高さに対応して変化する喉頭および周辺組織の緊張の違いによって起こる声質の変化に対応した声質変換を行うことができる。楽曲構成上の分類が共通する音声の声質間で変換を行うことで、バース(平歌)とコーラス(サビ)のような声の張り方や発声法が異なることによる声質の差に対応した声質変換を行うことができる。声区が共通する音声の声質間で変換を行うことで、胸声や裏声のような発声法が異なることによる声質の差に対応した声質変換を行うことができる。特定の音色が共通する音声の声質間で変換を行うことで、歌唱表現や、感情や話者の状況の表現として出現する力みあるいは唸りや、ソフトボイスと呼ばれるかすれあるいは気息性の声、しわがれ声やだみ声といった、発声中に起こる音色の変化に対応した声質変換を行うことができる。また、歌唱音声でなく発話である場合にはさらに、韻律的条件が共通する音声の声質間で変換を行うことで、アクセントの位置やフレーズの立ち上がり等、喉頭および周辺組織の緊張の変化や呼気流量の変化によって起こる声質の差に対応した声質変換を行うことができる。言語的条件が共通する音声の声質間で変換を行うことで、自立語と付属語といった品詞の機能や構文によって発音の明瞭さが異なることによって起こる声質の差に対応した声質変換を行うことができる。声質属性として音韻種類を用いることで、発音の個人差に対応し、音域や楽曲構成等を用いることで発声の個人内変動に対応することができる。音韻種類と他の声質属性を併用することで、発音の個人差と発声の個人差の両方に対応し、より正確に目標話者の声質に変換することができる。音韻による音声の特徴量は前後音韻のコンテキストによっても異なるため、音韻ごとの音声の特徴量に着目すると分類すべき音韻種類は膨大なものとなる。しかし、発音の個人差に対応して声質を変換する場合には、音韻ごとの発音の差を明確にすれば、前後音韻の影響による変動は音韻間の補間によって模擬することができるため、前後音韻のコンテキストを考慮することなく、音韻種類とくに母音種類という少数カテゴリへの分類によって発音の個人差に対応することができ、これにより他の声質属性を併用しても、声質パラメータの種類が爆発的に増加することがない。
なお、実施の形態1において、図21に示す声質属性情報付元歌データは音声波形と声質属性情報とを含むものとしたが、音声波形を含まず、実施の形態1の図23に示したLPC分析処理(ステップS003)から音源情報抽出処理(ステップS006)までと同様の処理によりあらかじめ生成された、音源情報と声道情報の時系列データであっても良い。その際には、実施の形態1のパラメータ変換部120は、声質パラメータ選択部106と、フィルタ変形部107と、音源変形部108と、変形比率制御部109とから成り、その動作は、図23に示した実施の形態1に係る声質変換音声生成装置の動作のうち、音声波形・声質属性情報抽出処理(ステップS001)では音声波形に代わって元歌音声の音源情報と声道情報とを抽出し、目標音声声質情報取得処理(ステップS002)で目標音声の声質情報を取得した後に、音源モデル化処理(ステップS007)以降の処理を実行するものとしても良い。
なお、実施の形態1において、図22に示す声質属性情報付声質パラメータは、声質属性区分ごとに、声道情報としての正規化時間軸上のPARCOR係数を多項式近似した多項式係数と、音源情報としての音源スペクトルモデルのパラメータの時間平均および分散とを含むものとしたが、これに限定されるものではない。例えば、声質属性情報付声質パラメータは、声道情報としてPARCOR係数の時系列情報を含むものであっても良いし、音源情報として音源スペクトルモデルパラメータの時系列情報を含むものであっても良い。その際には、声道情報がPARCOR係数の時系列情報である場合は、フィルタ平滑化処理(図23のステップS005)において元歌音声データのみでなく、目標音声のフィルタ平滑化処理をも行うものとする。また、目標音声の音源情報が音源スペクトルモデルパラメータの時系列情報である場合には、音源変形処理(ステップS009)における音源スペクトルのパラメータ変形時に、まず目標音声の音源スペクトルモデルパラメータの時系列情報に対して時間平均と分散を求め、求められた時間平均と分散に従って元歌音声の音源スペクトルパラメータを変形するものとしても良い。
なお、実施の形態1において音声波形から音源パラメータと声道パラメータとを抽出する方式として、LPC分析を用いたが、これ以外の方法、例えば、ARX(Auto−Regressive with eXogenous input)法(非特許文献:Otsuka, T. et al. “An inproved speech analysis−synthesis algorithm based on the autoregressive with exogenous input speech production model,” ICSLP 2000, Beijing, 3:787−790)を用いて、音源パラメータと声道パラメータを抽出するものとしても良い。
(実施の形態1の変形例)
図24は本発明の実施の形態1の変形例における声質変換音声生成装置の機能ブロック図である。図25は、図24の声質属性情報付フレームワーク・テクスチャ記憶部に格納されたフレームワーク・テクスチャの構成の一例を示す図である。図26、図27、図28は実施の形態1の変形例における声質変換音声生成装置の動作と動作の一部を示すフローチャートである。本変形例では、前述の高品質ボコーダであるSTRAIGHTを用いて声質変換を行う。STRAIGHTでは、時間周波数表現の低い空間周波数成分を個人性を表現する音声特徴の概形と見なし、これをフレームワークとし、一方高い空間周波数成分に関連する微細構造を音声の品質に影響するものと見なし、これをテクスチャとする。話者変換を行うために、個人性を表現するフレームワークを変換するものとし、テクスチャは変換元音声のデータを使用する。フレームワークはわずかな音声から生成することが可能であるとされており、5母音から生成する例が「非特許文献:高橋徹ら、“母音情報に基づく話者変換システムの提案−音声テクスチャマッピングの一実装例”電子情報通信学会 技術報告SP2006−162、pp.13−18(2007)」に示されている。
図24に示すように、本変形例における声質変換音声生成装置の構成は、図2に示した実施の形態1に係る声質変換音声生成装置の構成から、声質属性情報付声質パラメータ記憶部110が声質属性情報付フレームワーク・テクスチャ記憶部150に置き換わり、パラメータ変換部120がパラメータ変換部121に置き換わったものである。パラメータ変換部121は、声質属性別母音抽出部151、フレームワーク・テクスチャ生成部152、パラメータ選択部153、フレームワーク変換関数生成部154、フレームワーク変換関数記憶部155、フレームワーク変換部156、テクスチャ変換関数生成部157、テクスチャ変換関数記憶部158、およびテクスチャ変換部159を含む。声質変換音声生成装置は、例えば、通常のコンピュータにより構成され、コンピュータのCPU上で声質変換音声生成装置の各処理部を実現するためのプログラムを実行することにより実現される。
元歌データ入力部100は、実施の形態1と同様に図21に示す声質属性情報付元歌データを受け付ける。声質属性情報付フレームワーク・テクスチャ記憶部150は、変換目標となる音声の各声質属性区分に属する音声の母音を分析して得られたフレームワークとテクスチャのデータを声質属性区分ごとに記憶した記憶装置であり、例えばHDD等により構成される。声質属性情報付フレームワーク・テクスチャ記憶部150は、あわせて目標話者の平均基本周波数をも記憶している。図25に声質属性情報付フレームワーク・テクスチャ記憶部150が保持する声質属性情報付のフレームワークおよびテクスチャの構成例を示す。同図に示すとおり、母音種類ごとに音域と楽曲構成情報によって声質属性区分を設定し、この区分ごとに、フレームワークとしての音声のパワースペクトル・非周期成分の空間周波数成分低域分係数と、テクスチャとしての音声のパワースペクトル・非周期成分の空間周波数成分残差とに加えて、目標話者の平均基本周波数等の情報が記憶されている。
声質属性別母音抽出部151は、元歌データ入力部100によって受け付けられた声質属性情報付元歌データより、音声データの各時間点での声質属性区分を特定し、声質属性区分ごとに音声データから母音部の音声波形を切り出す。フレームワーク・テクスチャ生成部152は、声質属性別母音抽出部151で声質属性区分ごとに切り出された母音の音声波形を、STRAIGHTにより分析して空間周波数成分を求め、低次空間周波数成分を抽出して、声質属性区分ごとに複数音韻種のフレームワークを生成する。さらに、フレームワーク・テクスチャ生成部152は、STRAIGHTによる分析結果から、声質属性区分ごとに高次空間周波数成分を抽出してテクスチャを生成する。
パラメータ選択部153は、声質属性別母音抽出部151で元歌データより抽出された母音の声質属性区分を特定する。パラメータ選択部153は、入力された声質属性情報付元歌データに含まれた母音の音韻種類と声質属性区分を特定して、声質属性情報付フレームワーク・テクスチャ記憶部150より、元歌データから抽出した母音に声質属性情報区分が一致するフレームワークとテクスチャを選択し、取得する。
フレームワーク変換関数生成部154は、フレームワーク・テクスチャ生成部152で生成された元歌音声の母音のフレームワークと、当該母音と声質属性区分の一致する声質属性情報付フレームワーク・テクスチャ記憶部150から取得した目標音声の母音のフレームワークとの低次空間周波数成分の聴覚周波数軸上での差を周波数の関数として表現したものを、各母音のフレームワークの変換関数として生成する。フレームワーク変換関数記憶部155は、フレームワーク変換関数生成部154で生成されたフレームワーク変換関数をその声質属性区分および変換元のフレームワークと共に記憶している記憶装置であり、例えば、メモリ等により構成される。
フレームワーク変換部156は、フレームワーク変換関数記憶部155より、変換対象の音声区間の声質属性区分に応じて、フレームワーク変換関数と、当該関数に対応する変換元のフレームワークとを取得する。フレームワーク変換部156は、当該関数に対応する変換元のフレームワークと元歌音声のフレームワークとの類似度に従って、複数のフレームワーク変換関数を合成することにより、元歌音声の変換対象の音声区間に用いるフレームワーク変換関数を生成する。フレームワーク変換部156は、生成されたフレームワーク変換関数を用いて、元歌音声の平均基本周波数と目標話者の平均基本周波数が同じになるように基本周波数の変換も含めて、元歌音声のフレームワークを変換する。
テクスチャ変換関数生成部157は、フレームワーク・テクスチャ生成部152で生成された元歌音声の母音のテクスチャと、声質属性区分の一致する声質属性情報付フレームワーク・テクスチャ記憶部150から取得した目標音声の母音のテクスチャとの上に、周波数軸上の等価点としての対応点を設定し、2つのテクスチャの時間周波数座標の変換関数を生成する。対応点の設定処理には、例えば第1から第3フォルマントの安定点の時間と周波数とを用いる。テクスチャ変換関数記憶部158は、テクスチャ変換関数生成部157で生成されたテクスチャ変換関数をその声質属性区分および変換元のテクスチャと共に記憶している記憶装置であり、例えば、メモリ等により構成される。
テクスチャ変換部159は、テクスチャ変換関数記憶部158より、変換対象の音声区間の声質属性区分に応じて、テクスチャ変換関数と、当該関数に対応する変換元のテクスチャとを取得する。テクスチャ変換部159は、変換元のテクスチャと元歌音声のテクスチャとの類似度に従って複数のテクスチャ変換関数を合成することにより、元歌音声の変換対象の音声区間に用いるテクスチャ変換関数を生成する。テクスチャ変換部159は、生成されたテクスチャ変換関数を用いて、元歌音声のテクスチャを変換する。
波形生成部130は、フレームワーク変換部156で変換されたフレームワークとテクスチャ変換部159で変換されたテクスチャとに基づいて、音声波形を合成する。音声波形の合成にはSTRAIGHTの合成系を利用する。
次に、本変形例に係る声質変換音声生成装置の動作を図26に従って説明する。
まず、元歌データ入力部100は、声質属性情報付元歌データを受け付け、パラメータ変換部121は、取得された声質属性情報付元歌データと声質属性情報付フレームワーク・テクスチャ記憶部150に記憶されたデータとから、声質属性区分別にフレームワーク変換関数とテクスチャ変換関数とを生成する(ステップS100)。次に、パラメータ変換部121は、変換関数生成処理(ステップS100)で生成された声質属性区分別の変換係数を用いて元歌データ入力部100で受け付けた声質属性情報付元歌データから生成された元歌データのフレームワークとテクスチャとを変換する(ステップS110)。波形生成部130は、パラメータ変換処理(ステップS110)で生成されたフレームワークとテクスチャとに基づいて、音声波形を生成する(ステップS010)。
変換関数生成処理(ステップS100)の詳細を図27に従って説明する。
元歌データ入力部100は、声質属性情報付元歌データを受け付ける(ステップS101)。フレームワーク・テクスチャ生成部152は、受け付けられた声質属性情報付元歌データ(入力データ)中の全母音区間についての処理が終了しているか否かを判断する(ステップS102)。すなわち、フレームワーク・テクスチャ生成部152は、入力音声中にフレームワーク、テクスチャの分析が終了していない母音区間があるか否かを判定する。
未処理の母音区間がある場合(ステップS102でno)、フレームワーク・テクスチャ生成部152は、入力データより母音区間の音声波形と対応する声質属性区分を抽出する(ステップS103)。パラメータ選択部153は、声質属性情報付フレームワーク・テクスチャ記憶部150より、抽出処理(ステップS103)で抽出された声質属性区分と声質属性区分が一致する目標音声のフレームワークとテクスチャを取得する(ステップS104)。さらに、フレームワーク・テクスチャ生成部152は、当該母音区間の音声波形をSTRAIGHTにより分析し、元歌音声の母音のフレームワークとテクスチャを生成する(ステップS105)。
フレームワーク変換関数生成部154は、元音声フレームワーク・テクスチャ生成処理(ステップS105)で生成された元歌音声の母音のフレームワークと、目標音声フレームワーク・テクスチャ取得処理(ステップS104)で取得した目標音声の母音のフレームワークとから、フレームワーク変換関数を生成する。フレームワーク変換関数生成部154は、生成したフレームワーク変換関数を、フレームワーク変換関数記憶部155に声質属性区分と共に記憶する(ステップS106)。
テクスチャ変換関数生成部157は、元音声フレームワーク・テクスチャ生成処理(ステップS105)で生成された元歌音声の母音のテクスチャと、目標音声フレームワーク・テクスチャ取得処理(ステップS104)で取得した目標音声の母音のテクスチャとから、テクスチャ変換関数を生成する。テクスチャ変換関数生成部157は、生成したテクスチャ変換関数を、テクスチャ変換関数記憶部158に声質属性区分と共に記憶する(ステップS107)。テクスチャ変換関数生成処理(ステップS107)の後、判断処理(ステップS102)にもどる。
全ての母音区間についてフレームワーク変換関数およびテクスチャ変換関数の生成が終了した場合には(ステップS102でyes)、フレームワーク変換部156は、フレームワーク変換関数記憶部155内の各声質属性区分において複数個の変換関数より1つを選択する(ステップS108)。選択の方法としては、例えば、声質属性区分内の変換関数の平均関数を求め、その平均関数に最も近い平均関数を当該声質属性区分の代表関数として選択するものである。さらに、フレームワーク変換部156は、テクスチャ変換関数記憶部158に記憶されたテクスチャ変換関数のうち、フレームワーク変換関数記憶部155内の各声質属性区分ごとに選択した代表関数と同一の元歌音声データのテクスチャを用いて生成されたテクスチャ変換関数を、各声質属性区分のテクスチャ変換関数の代表関数として選択する。データ入力処理(ステップS101)から変換関数選択処理(ステップS108)までの処理により、変換関数の生成が行なわれる。
次に、パラメータ変換処理(ステップS110)の詳細について図28に従って説明する。
フレームワーク・テクスチャ生成部152は、入力データの全音声波形について処理が終了したか否かを判断する(ステップS111)。すなわち、フレームワーク・テクスチャ生成部152は、入力音声波形に未処理部分が存在するか否かを判断する。
入力音声波形に未処理部分が存在する場合には(ステップS111でno)、フレームワーク・テクスチャ生成部152は、入力された元歌データより音声波形を処理単位で抽出し、さらに抽出した音声波形に対応する声質属性区分を抽出する(ステップS112)。ついでフレームワーク・テクスチャ生成部152は、当該区間の音声波形を分析してフレームワークとテクスチャを生成する(ステップS113)。
テクスチャ変換部159は、処理区間波形・声質属性区分抽出処理(ステップS112)で抽出された当該区間の声質属性区分と、元音声フレームワーク・テクスチャ生成処理(ステップS113)で生成された当該区間のテクスチャとを取得し、その声質属性区分に基づいてテクスチャ変換関数記憶部158よりテクスチャ変換関数を選択する(ステップS114)。このとき、テクスチャ変換部159は、関数生成時の変換元のテクスチャと当該区間のテクスチャとの類似度に従って複数のテクスチャ変換関数を合成して、元歌音声の変換対象の音声区間に用いるテクスチャ変換関数を生成する。テクスチャ変換部159はテクスチャ変換関数選択処理(ステップS114)で選択、合成した関数を適用し、元歌音声のテクスチャを変換する(ステップS115)。
フレームワーク変換部156は、処理区間波形・声質属性区分抽出処理(ステップS112)で抽出された当該区間の声質属性区分と、元音声フレームワーク・テクスチャ生成処理(ステップS113)で生成された当該区間のフレームワークとを取得し、その声質属性区分に基づいてフレームワーク変換関数記憶部155よりフレームワーク変換関数を選択する(ステップS116)。このとき、フレームワーク変換部156は、関数生成時の変換元のフレームワークと当該区間のフレームワークとの類似度に従って複数のフレームワーク変換関数を合成して、元歌音声の変換対象の音声区間に用いるフレームワーク変換関数を生成する。フレームワーク変換部156は、フレームワーク変換関数選択処理(ステップS116)で選択、合成した関数を適用し、元歌音声のフレームワークを変換する(ステップS117)。判断処理(ステップS111)からフレームワーク変換処理(ステップS117)までの処理により、処理区間のフレームワークおよびテクスチャが変換される。
入力音声波形に未処理部分が存在しない場合には(ステップS111でyes)、パラメータ変換処理(ステップS110)を終了する。
実施の形態1の変形例では、声質属性情報付フレームワーク・テクスチャ記憶部150は、目標音声のフレームワーク・テクスチャを記憶するものとしたが、声質属性区分に対応する音声波形を記憶しておくものとしても良い。その際には、パラメータ選択部153は、声質属性情報付フレームワーク・テクスチャ記憶部150より音声波形を取得して、フレームワーク・テクスチャ生成部152で、目標音声のフレームワーク・テクスチャを生成するものとする。
また、実施の形態1の変形例では、変換関数生成処理(図26のステップS100、図27)でフレームワーク変換関数、テクスチャ変換関数を生成する際に、フレームワーク・テクスチャ生成部152で元歌音声の母音部のフレームワーク・テクスチャを求め、パラメータ変換処理(ステップS110、図28)においても再度処理区間のフレームワーク・テクスチャを求めるものとしたが、変換関数生成処理(ステップS100)で求めたフレームワークとテクスチャを保持しておき、パラメータ変換処理(ステップS110)の変換時に利用するようにしても良い。
さらに、実施の形態1の変形例では、変換関数選択処理(図27のステップS108)において、同一声質属性区分内に複数個の変換関数が存在する場合に、平均関数に最も近い関数を代表関数として選択するものとしたが、平均関数そのものを代表関数とする等の、それ以外の方法で声質属性区分に1つの関数を設定するものとしても良い。
(実施の形態2)
実施の形態2に係る声質変換音声生成装置は、ボーカルデータとしての声質属性情報付音声データと楽器音のデータとを含む楽曲情報から、声質変換を行う際の目標音声の声質情報となる声質属性情報付声質パラメータを抽出して蓄積する機能を備える。また、声質変換音声生成装置は、楽曲情報から元歌音声のパラメータを取得して、目標音声声質に変換する機能をも備えるものである。このような機能を備えることで、音楽の出力装置は、楽曲をオリジナルの声で再生するのみでなく、過去に入手した楽曲に含まれていた別の歌手の声質で生成する機能を有することができる。
図29は、本発明の実施の形態2における声質変換音声生成装置が内蔵されるCDプレーヤの外観図である。図30は、本発明の実施の形態2における声質変換音声生成装置の機能ブロック図である。図31は、本発明の実施の形態2における声質変換音声生成装置のさらに詳細な機能ブロック図である。図32、図33は実施の形態2の声質変換音声生成装置の動作を示すフローチャートである。
図30に示すように、実施の形態2に係る声質変換音声生成装置は、楽曲情報入力部201と、ボーカルデータ楽器音データ分離部202と、楽器音生成部203と、音声波形・声質属性情報抽出部204と、声質属性情報付声質パラメータ生成部207と、発声者情報・声質属性情報付声質パラメータ記憶部208と、発声者リスト表示部209と、発声者指定情報入力部210と、パラメータ分析変換部250と、波形生成部215と、加算器216とを備える。声質変換音声生成装置は、例えば、CDプレーヤに内蔵されたマイクロコンピュータ上で声質変換音声生成装置の各処理部を実現するためのプログラムを実行することにより実現される。
楽曲情報入力部201は、ボーカルデータとしての声質属性情報付音声データと楽器音のデータとを含む楽曲情報の入力を受け付ける。楽曲情報は、CDに記憶されており、楽曲情報201が、楽曲情報を読み込む。つまり、CDには、図30に示すように、音声波形、声質属性情報、発声者情報および楽器音情報を含む楽曲情報が記憶されている。
ボーカルデータ楽器音データ分離部202は、楽曲情報入力部201により入力された楽曲情報のボーカルデータと楽器音データとを分離する。楽器音生成部203は、楽曲情報から抽出された楽器音データより楽器音の波形を生成する。音声波形・声質属性情報抽出部204は、楽曲情報から抽出されたボーカルデータより、音声波形と声質属性情報とをそれぞれ抽出する。
声質属性情報付声質パラメータ生成部207は、音声波形の分析結果と声質属性情報とから実施の形態1の図22に示したような、声質属性区分ごとの声質パラメータデータを生成する。発声者情報・声質属性情報付声質パラメータ記憶部208は、目標音声の声質パラメータを、発声者と声質属性区分ごとに蓄積する記憶装置であり、例えば、HDDにより構成される。
発声者リスト表示部209は、発声者情報・声質属性情報付声質パラメータ記憶部208に蓄積され、声質変換の目標音声として利用可能な発声者のリストをユーザに表示する。発声者指定情報入力部210は、ユーザが声質変換の目標音声として、発声者情報・声質属性情報付声質パラメータ記憶部208に蓄積されている発声者を指定する信号の入力を受け付ける。
パラメータ分析変換部250は、音声波形・声質属性情報抽出部204より出力された音声波形を分析し、声質属性情報に基づいて目標音声の声質情報を生成する。パラメータ分析変換部250は、さらに、音声波形・声質属性情報抽出部204より出力された音声波形を分析し、声質属性情報と発声者指定情報入力部210より出力される発声者指定情報とに基づいて、発声者情報・声質属性情報付声質パラメータ記憶部208より目標音声の声質パラメータを選択して声質変換を行う。
波形生成部215は、パラメータ分析変換部250より出力される音声合成パラメータに基づき、音声波形を生成する。加算器216は、楽器音生成部203から出力される楽器音の波形と波形生成部215から出力される音声波形とを重畳する。
さらに図31に詳細を示すように、パラメータ分析変換部250は、例えば、平滑化フィルタ生成部205、音源モデル化部206、目標声質パラメータ選択部211と、変形比率制御部212と、フィルタ変換部213と、音源変換部214と、波形生成部215とを備えている。
平滑化フィルタ生成部205は、実施の形態1の図2に示すLPC分析部101、PARCOR算出部102およびフィルタ平滑化部103を含むものであり、音声波形の母音部について分析を行い、声道情報である平滑化フィルタを生成する。音源モデル化部206は、実施の形態1の図2に示す逆フィルタ部104および音源モデル化部105を含むものであり、平滑化フィルタ生成部205で生成された平滑化フィルタの逆フィルタを用いて母音部の音声波形から音源波形を抽出し、音源波形をモデル化してパラメータを求める。
目標声質パラメータ選択部211は、声質変換時に音源モデル化部206より出力された時系列情報として表現された音源モデルパラメータと時系列上で対応する子音情報および声質属性情報を取得する。目標声質パラメータ選択部211は、声質属性情報と発声者指定情報入力部210より入力された発声者指定信号とに基づいて、発声者情報・声質属性情報付声質パラメータ記憶部208より声質変換の目標音声の声質パラメータを選択する。
変形比率制御部212は、変換元音声から変換先音声への変換の度合いを変形比率として、その変形比率を制御する。音源変換部214は、音源モデル化部206で生成された音源モデルパラメータ系列を、各時間区間の声質属性区分に対応する目標音源の音源パラメータの平均値と分散に基づき、変形比率制御部212より出力された変形比率に従って変換する。フィルタ変換部213は、平滑化フィルタ生成部205で生成された母音部平滑化フィルタ系列を、変形比率制御部212より出力された変形比率に従って、各時間区間の声質属性区分に対応する目標音声の平滑化フィルタに変換する。波形生成部215は、音源変換部214より出力される音源モデルパラメータ列とフィルタ変換部213より出力されるフィルタ係数列および子音情報とから音声波形を生成する。
次に図32に従って、本実施の形態の声質変換音声生成装置の、楽曲情報から目標音声の声質情報となる声質属性情報付声質パラメータを抽出して蓄積する動作を説明する。
まず、楽曲情報入力部201は、オリジナルとして作成された楽曲で、音声波形、声質属性情報、発声者情報および楽器音情報を分離可能な形式で記録した楽曲情報を入力として受け付ける(ステップS201)。ボーカルデータ楽器音データ分離部202は、楽曲情報入力処理(ステップS201)で入力された楽曲情報を、発声者情報、音声波形および声質属性情報とからなるボーカルデータと、楽器音情報とに分離する。また、音声波形・声質属性情報抽出部204は、分離されたボーカルデータより音声波形と、音声波形と時間軸上で対応する声質属性情報とを抽出する(ステップS202)。パラメータ分析変換部250は、入力音声中の全母音の分析処理が終了したかどうかを判断する(ステップS205)。
入力音声中に未処理の母音がある場合(ステップS205でno)、平滑化フィルタ生成部205は、データ分離処理(ステップS202)で抽出された音声波形の母音部に対してLPC分析を行い、線形予測係数αiを算出する(ステップS003)。平滑化フィルタ生成部205は、LPC分析処理(ステップS003)により算出された線形予測係数αiからPARCOR係数kiを算出する(ステップS004)。平滑化フィルタ生成部205は、PARCOR係数算出処理(ステップS004)により算出されたPARCOR係数kiの各次元のパラメータ値を時間方向に平滑化する(ステップS005)。
音源モデル化部206は、フィルタ平滑化処理(ステップS005)で時間方向に平滑化された声道情報を用いて、その声道情報の逆特性を表す逆フィルタを生成し、入力された音声を逆フィルタリングすることにより、音源情報を取得する(ステップS006)。音源モデル化部206は、音源情報抽出処理(ステップS006)により取得した音源情報をモデル化する(ステップS007)。音源モデル化処理(ステップS007)の後、判断処理(ステップS205)へ戻る。LPC分析処理(ステップS003)から音源モデル化処理(ステップS007)までの動作は、実施の形態1のLPC分析処理(ステップS003)から音源モデル化処理(ステップS007)までの動作と同様である。
判断処理(ステップS205)から音源モデル化処理(ステップS007)までの処理を順次行うことにより、入力音声中の全母音部分に対する分析を行う。
入力音声中に分析が完了していない母音が存在する場合には(ステップS205でyes)、声質属性情報付声質パラメータ生成部207は、音源モデル化処理(ステップS007)でモデル化された音源情報のパラメータの母音区間内の平均と分散を求め、目標音声の音源パラメータとする。また、声質属性情報付声質パラメータ生成部207は、PARCOR係数算出処理(ステップS004)で生成されたPARCOR係数の各次元パラメータの平滑化後の値と分析対象区間に対応する声質属性区分とから、声質属性情報付声質パラメータを生成する(ステップS203)。発声者情報・声質属性情報付声質パラメータ記憶部208は、声質属性情報付声質パラメータデータ生成処理(ステップS203)で生成された声質属性情報付声質パラメータと発声者情報とをあわせて、発声者情報・声質属性情報付声質パラメータ記憶部208に記録する(ステップS204)。
以上の動作によって、オリジナル楽曲データより、歌手の声質パラメータを抽出して蓄積し、他の楽曲のボーカル部分を声質変換する際の目標音声の声質パラメータとして利用可能な状態にすることができる。
次に、図33に従って、楽曲情報から元歌音声のパラメータを取得して、目標音声声質に変換して音楽情報を出力する動作を説明する。
まず、楽曲情報から目標音声の声質情報となる声質属性情報付声質パラメータを抽出する際と同様に、楽曲情報入力部201は、楽曲情報を入力として受け付ける(ステップS201)。ボーカルデータ楽器音データ分離部202は、楽曲情報入力処理(ステップS201)で入力された楽曲情報を、ボーカルデータと楽器音情報とに分離する。また、音声波形・声質属性情報抽出部204は、分離されたボーカルデータより、音声波形と、当該音声波形と時間軸上で対応する声質属性情報とを抽出する(ステップS202)。
発声者リスト表示部209は、発声者情報・声質属性情報付声質パラメータ記憶部208に蓄積されている声質属性情報付声質パラメータの発声者情報に基づき、声質変換目標として設定可能な発声者のリストを表示する(ステップS210)。図34は、発声者のリストの一例を示す図であり、発生者名(A〜D)と、その顔写真とが表示されている。
発声者指定情報入力部210は、発声者リスト表示処理(ステップS210)で表示された発声者のリストより、ユーザが目標音声として選択した発声者を指定する情報を受け付ける(ステップS211)。例えば、発声者のリストがタッチパネル上に表示される場合には、ユーザが所望する発声者の顔写真に指先を触れることにより、発声者を指定することが可能となる。
パラメータ分析変換部250は、入力音声波形のすべてに対して分析および変形の処理が終了したか否かを判断する(ステップS212)。
入力音声波形のうち未処理の音声波形が存在する場合には(ステップS212でno)、平滑化フィルタ生成部205は、楽曲情報から目標音声の声質情報となる声質属性情報付声質パラメータを抽出する際と同様に、データ分離処理(ステップS202)で抽出された音声波形の母音部に対してLPC分析を行い(ステップS003)、PARCOR係数を算出する(ステップS004)。また、平滑化フィルタ生成部205は、PARCOR係数の各次元のパラメータ値を時間方向に平滑化する(ステップS005)。
音源モデル化部206は、フィルタ平滑化処理(ステップS005)で時間方向に平滑化された声道フィルタの逆フィルタを生成し、入力された音声を逆フィルタリングすることにより、音源情報を取得する(ステップS006)。音源モデル化部206は、取得した音源情報をモデル化する(ステップS007)。
目標声質パラメータ選択部211は、発声者指定情報取得処理(ステップS211)で取得した発声者指定情報と、フィルタ平滑化処理(ステップS005)でフィルタを平滑化した音声区間および音源モデル化処理(ステップS007)で音源をモデル化した音声区間に対応する声質属性区分とに基づいて、発声者情報・声質属性情報付声質パラメータ記憶部208より目標音声の声質パラメータを取得する(ステップS213)。
次に、フィルタ変換部213は、フィルタ平滑化処理(ステップS005)で生成された声道情報を、ターゲットの声道情報に対して、変形比率制御部212によって決定された変形比率に従い変形する(ステップS008)。変形比率については、音素境界や音声の開始点あるいは終了点のように各パラメータが急峻に変化する区間や、子音部分のように時間変動情報を正確に再現する必要がある区間等については、時間情報を保持した元歌データの比率を高くし(つまり変形比率を小さくし)、それ以外の部分については、目標音声の声質情報を保持した目標音声情報への変換度合いを高くする(つまり変形比率を大きくする)ように、変形比率を決定するものである。
音源変換部214は、音源モデル化処理(ステップS007)によりモデルパラメータ化された音源モデルパラメータを、変形する(ステップS009)。音源変形処理(ステップS009)の後、判断処理(ステップS212)へ戻る。
元歌音声データの全処理単位に対して上記判断処理(ステップS212)から音源変形処理(ステップS009)までの処理を順次行うことにより、音声データ全体の声質変換を行う。
全ての入力音声波形について処理が終了した場合には(ステップS212でyes)、波形生成部215は、フィルタ変形処理(ステップS008)により算出された声道情報と、音源変形処理(ステップS009)により算出された音源情報とに基づいて、合成音の音声波形を生成する(ステップS010)。子音部分については、目標音声の平均基本周波数に合わせて楽曲全体の音高をシフトする場合に合致するように音高をシフトする以外は、元歌音声波形の子音の波形をそのまま利用するものとする。
楽器音生成部203は、データ分離処理(ステップS202)で分離された楽器音データより楽器音波形を生成する(ステップS214)。加算器216は、合成処理(ステップS010)で生成された音声波形と、楽器音生成処理(ステップS214)で生成された楽器音波形とを重畳して出力する(ステップS215)。
なお、目標音声声質情報取得処理(ステップS213)は、発声者指定情報取得処理(ステップS211)以降で、かつフィルタ変形処理(ステップS008)以前であればいつ実行されても良い。
以上により、入力された楽曲より分離したボーカルの音声波形から、音源情報と声道情報とを精度良く分離して、声道情報および音源情報を変形することにより、音質の劣化が少ない声質変換ができる。その上、声質に影響する音韻種類や音域、あるいは楽曲の構成等に基づいて声質属性区分を設け、声質属性区分に従って目標音声の声道情報と音源情報とを元歌音声(ボーカル)の声道情報と音源情報とに適用して変換している。このため、歌唱音声のように音域、発声法または音楽表現などによって個人内でも声質が大きく変化する場合でも、変換目標とする発声者すなわち歌手の声質の特徴とその変化の仕方を再現することができ、歌手の変化に富んだ声質に変換することができる。
また、入力された楽曲に含まれる音声波形を元歌として使用するのみでなく、声質属性情報付声質パラメータ生成部207により、元歌の音声波形から生成される声質パラメータデータを、目標音声の声質パラメータデータとして蓄積することで、目標音声となる声質を蓄積する。これにより、楽曲を取得することで、新たな楽曲を取得するのみでなく、入れ換え可能な声質のバリエーションをも増やしていくことができ、音楽コンテンツを楽しむ幅を拡大することができる。既存の音声データに声質属性データを付与することにより、既存の音声データから声質パラメータを抽出、蓄積することができ、既に引退あるいは他界した歌手による歌唱音声の声質を他の楽曲に適用することも可能となる。
なお、上記の説明では声質パラメータ蓄積時と声質変換の実行時を分けて説明したが、声質変換の過程におけるLPC分析処理(ステップS003)から音源モデル化処理(ステップS007)までの声質の分析過程は声質パラメータ蓄積時と共通である。このため、声質変換実行時に同時に声質パラメータ蓄積を行っても良い。
なお、上記の構成において、楽曲情報入力部201が取得した楽曲情報をそのまま音楽信号として出力しても良い。
なお、上記の楽曲情報における楽器音データはMIDI(Musical Instrument Digital Interface)データでもよい。その際、楽器音生成部203は、MIDI音源を含むデコーダであり、入力された楽曲情報を変換せずにそのまま出力する際にも楽器音生成部203により楽器音波形を生成する。
なお、実施の形態2の声質変換音声生成装置においては、子音として、基本周波数に基づいて元歌音声の子音の音高をシフトさせたものを利用していたが、別途、子音データベースを用意して、声質変換した母音部との接続コストの小さい子音を選択して利用するものとしても良い。
なお、実施の形態2の声質変換音声生成装置において、楽曲情報は、声質属性情報および音声波形を含むボーカルデータと、楽器音データとを分離可能な状態で記述しているものとしたが、音声変換に必要な情報が抽出できない場合には楽曲情報を分析して必要な情報を生成するものとしても良い。例えば、音声波形と楽器音波形とが分離されていない場合には、同一楽曲のカラオケデータとの差分により音声波形を抽出するようにしてもよい。また、楽曲構成が不明な場合には、音声波形および楽器音波形のパワー、音高のダイナミックレンジ等より楽曲構成タグを生成してもよい。さらに、音韻情報が不明な場合には音声認識により音韻ラベルを生成してもよい。
なお、実施の形態2において、声質属性情報として、母音種類と、音域と、楽曲構成とを用いたが、声質属性情報を、母音種類と、韻律と、言語情報と、発話状況および強調の有無等の発話用の属性および区分とに変更することで、発話音声の豊かな表現を保ったまま声質を変換することができる。これにより、携帯電話にダウンロードした着信音用の音声または設定した呼び出し音用音声の話者を変換したり、電話の留守番電話等での音声メッセージの話者を変換したりする等ができ、激しい表現で面白おかしい音声コンテンツをその音声表現を保ったまま別の話者の声質で楽しむことができる。
なお、実施の形態2のパラメータ分析変換部250は、実施の形態1と同様に声道情報としてPARCOR係数を用い、平滑化フィルタの逆フィルタを用いて抽出した音源波形をモデル化する方式を用いるものとしたが、実施の形態1の変形例のように高品質ボコーダであるSTRAIGHTを利用するものとしても良い。その際には、声質パラメータとして、発声者情報と声質属性情報とをそれぞれ付加したフレームワークとテクスチャとを目標音声のパラメータとして蓄積するものとする。
なお、実施の形態2において、楽曲情報入力部201は、ボーカルデータとしての声質属性情報付音声データと、楽器音のデータとを含む楽曲情報の入力を受け付けるものとし、音声波形・声質属性情報抽出部204は、楽曲情報から抽出されたボーカルデータより、音声波形と声質属性情報とを抽出するものとしたが、声質変換音声生成装置の構成はこれに限定されるものではない。例えば、声質変換音声生成装置は、音声波形から声質属性情報を生成する声質属性情報生成部を備え、楽曲情報入力部201が楽器音データと、声質属性情報が付加されていない音声波形とのみを受け付けるものとしてもよい。声質属性情報生成部は、少なくとも入力された音声波形から母音部分と母音種類とを特定する音声認識部を備え、音声認識部は、入力音声波形の母音区間を決定し、その母音の種類を特定する。声質属性情報生成部は、さらに、基本周波数を分析する基本周波数分析部と音域情報生成部とを備えていてもよい。基本周波数分析部は、音声認識部により決定された母音区間の音声波形の基本周波数を分析し、音域情報生成部は、1曲中の基本周波数の最小値と最大値、平均および分散から高域、中域、低域の境界を求め、母音部の基本周波数の音域を決定する。声質属性情報生成部は、さらに、楽曲構成情報生成部を備えていてもよい。楽曲構成情報生成部は、基本周波数分析部により分析された音声波形の基本周波数から、音声区間ごとに、音高の曲中での相対位置、ならびに音高の変化量および変化の向き等から、バース(平歌)とコーラス(サビ)とを決定する。このような技術は、一般に音楽認識技術、自動採譜技術として知られている。声質属性情報生成部は、さらに、システムが利用する声質属性情報にあわせて、音声波形より声質属性情報を生成するための声質分析部や声区判定部、歌唱音声でなく発話音声を対象とする場合には韻律判定部、構文判定部等を備えるものとしても良い。
(実施の形態3)
実施の形態3に係る声質変換音声生成システムは、配信装置と受信装置とを備えている。配信装置は、楽曲情報より、元歌データと、変換の目標音声となる声質パラメータとを生成して配信する。受信装置は、元歌データと声質パラメータとを受信して、元歌データを目標音声の声質パラメータを用いて変換する。このシステムにより、元歌データと声質データとを独立に取得することができ、楽曲とボーカルの声質とを自由に組み合わせて合成することができるものである。
音楽を聴く場合に、この曲をあの歌手が歌ったらすばらしいだろう、あるいはこの歌手があの歌手の曲を歌ったらどんな風に聞こえるだろう、といったことを考えるのはよくあることである。音楽コンテンツの中にはもともと他の歌手が歌っていた曲を別の歌手が歌う、カバーと呼ばれるものがある。しかし、これは音楽コンテンツを提供する側が曲と歌手を設定し、固定の曲と歌手の組み合わせでのカバー曲を新たな音楽コンテンツとして提供するものである。このため、必ずしも、コンテンツを購入、聴取する人に対して、希望する曲と歌手の組み合わせの楽曲が提供されるわけではなく、コンテンツを購入、聴取する人が、曲と歌手の組み合わせを選択することはできなかった。何曲かがセットされたレコードやCDでなく、楽曲を指定して1曲ずつ購入し、自分の好みの楽曲の組み合わせを作ることができるネットワークによる音楽コンテンツの配信の状況を考えれば、曲と歌手を自由に組み合わせたいという要求は自然なものである。例えば、ネットワークから音楽を取得する際に曲と歌手を指定したい、あるいは楽曲を取得した際には、その曲を別の歌手が歌うバージョンを一緒に入手して聞き比べてみたいという要求がある。実施の形態3は、このような要求を満たすための声質変換音声生成システムの一例を示すものである。
図35は、実施の形態3の声質変換音声生成システムの外観を示す図である。図36は、実施の形態3の声質変換音声生成システムを構成する配信装置の機能ブロック図であり、図37は、実施の形態3の声質変換音声生成システムを構成する受信装置の機能ブロック図である。図38は、実施の形態3の声質変換音声生成システムを構成する配信装置の動作を示したフローチャートであり、図39は、実施の形態3の声質変換音声生成システムを構成する受信装置の動作を示したフローチャートである。図36および図37について、図30に同等な部分については図30に同一の符号を付し、図38および図39について、図32および図33に同等な部分については同一の符号を付して説明を省略する。
図35に示すように、声質変換音声生成システムは、配信装置1000と、配信装置1000にネットワーク3000を介して接続された受信装置2000とから構成される。配信装置1000は、例えば、CDドライブを備えたコンピュータにより構成され、受信装置2000は、例えば、音楽を再生することが可能な携帯型音楽再生装置により構成される。
図36に示すとおり、声質変換音声生成システムの配信装置1000は、楽曲情報入力部201と、ボーカルデータ楽器音データ分離部202と、音声波形・声質属性情報抽出部204と、パラメータ分析部300と、楽器音データ生成部301と、声質属性情報付元歌データ生成部302と、声質属性情報付声質パラメータ生成部303とを備える。配信装置1000は、例えば、コンピュータのCPU上で配信装置1000の各処理部を実現するためのプログラムを実行することにより実現される。
パラメータ分析部300は、入力された音声波形を分析して声質パラメータを生成する。楽器音データ生成部301は、ボーカルデータ楽器音データ分離部202によって分離された楽器音データを配信可能な記述に変更し、配信装置1000に配信する。声質属性情報付元歌データ生成部302は、パラメータ分析部300によって生成された声質パラメータ列を、声質属性情報付元歌データとして配信可能な記述に変更し、配信装置1000に配信する。声質属性情報付声質パラメータ生成部303は、パラメータ分析部300によって生成された声質パラメータ列を、声質属性情報付声質パラメータデータとして配信可能な記述に変更し、配信装置1000に配信する。
図37に示すとおり、声質変換音声生成システムの受信装置2000は、楽器音データ入力部311と、声質属性情報付元歌データ入力部312と、声質属性情報付声質パラメータ入力部313と、パラメータ変換部314と、子音データベース315と、子音選択部316と、発声者情報・声質属性情報付声質パラメータ記憶部208と、発声者リスト表示部209と、発声者指定情報入力部210と、波形生成部215と、楽器音生成部203と、加算器216とを備える。受信装置2000は、例えば、携帯型音楽再生装置に内蔵されたマイクロコンピュータ上で受信装置2000の各処理部を実現するためのプログラムを実行することにより実現される。
楽器音データ入力部311は、配信装置1000から配信される楽器音データを受け付ける。声質属性情報付元歌データ入力部312は、配信装置1000から配信される声質属性情報付元歌データを受け付ける。声質属性情報付声質パラメータ入力部313は、配信装置1000から配信される声質属性情報付声質パラメータデータを受け付ける。パラメータ変換部314は、声質属性情報付元歌データ入力部312より入力された声質属性情報付元歌データの声質パラメータを、声質属性情報付声質パラメータ入力部313より入力された声質属性情報付声質パラメータデータに基づいて変換する。子音データベース315は、子音部の音源パラメータとフィルタパラメータとを記憶している記憶装置であり、例えばHDDにより構成される。子音選択部316は、変換された母音部との接続コストの低い子音を、子音データベース315より選択する。
このように構成された声質変換音声生成システムのうち、まず、配信装置1000の動作を図38に従って説明する。
楽曲情報入力部201は、オリジナルとして作成された楽曲情報であり、かつ音声波形、声質属性情報、発声者情報および楽器音情報が分離可能な形式で記録された楽曲情報を入力として受け付ける(ステップS201)。ボーカルデータ楽器音データ分離部202は、楽曲情報入力処理(ステップS201)で入力された楽曲情報を、発声者情報、音声波形および声質属性情報からなるボーカルデータと、楽器音情報とに分離する。音声波形・声質属性情報抽出部204は、分離されたボーカルデータより、音声波形と、音声波形と時間軸上で対応する声質属性情報とを抽出する(ステップS202)。パラメータ分析部300は、まず、データ分離処理(ステップS202)で抽出された音声波形の基本周波数分析を行う(ステップS301)。さらに、パラメータ分析部300は、音声波形の非周期成分の分析を行う(ステップS302)。パラメータ分析部300は、入力音声の全波形のフィルタと音源の分析処理が終了したか否かを判断する(ステップS303)。
未処理の波形データがある場合には(ステップS303でno)、パラメータ分析部300は、データ分離処理(ステップS202)で抽出された音声波形の母音部に対してLPC分析を行い、線形予測係数αiを算出する(ステップS003)。パラメータ分析部300は、LPC分析処理(ステップS003)により算出された線形予測係数αiからPARCOR係数kiを算出する(ステップS004)。パラメータ分析部300は、PARCOR係数算出処理(ステップS004)により算出されたPARCOR係数kiの各次元のパラメータ値を時間方向に平滑化する(ステップS005)。次に、パラメータ分析部300は、フィルタ平滑化処理(ステップS005)で時間方向に平滑化された声道情報を用いて、その声道情報の逆特性を表す逆フィルタを生成し、入力された音声を逆フィルタリングすることにより、音源情報を取得する(ステップS006)。パラメータ分析部300は、音源情報抽出処理(ステップS006)により取得した音源情報をモデル化してモデルパラメータを生成する(ステップS007)。音源モデル化処理(ステップS007)の後、判断処理(ステップS303)へ戻る。LPC分析処理(ステップS003)から音源モデル化処理(ステップS007)までの動作は、実施の形態1および実施の形態2のLPC分析処理(ステップS003)から音源モデル化処理(ステップS007)までの動作と同様であり、判断処理(ステップS303)から音源モデル化処理(ステップS007)までの処理を順次行うことにより、入力音声データ全体の分析を行う。
未処理の波形データが存在しない場合には(ステップS303でyes)、声質属性情報付元歌データ生成部302は、フィルタ平滑化処理(ステップS005)で生成された平滑化されたPARCOR係数と、音源モデル化処理(ステップS007)で生成された音源モデルパラメータとを時系列上で対応させ、さらに子音情報を含む声質属性情報を時系列上で対応させて声質属性情報付元歌データを生成し、受信装置2000に配信する(ステップS304)。本実施の形態の声質属性情報付元歌データは、実施の形態1の図21に示した声質属性情報付元歌データの音声波形が、音源モデルパラメータ列とPARCOR係数の各次元の平滑化後のパラメータ列に置き換わった形式である。
声質属性情報付声質パラメータ生成部303は、基本周波数分析処理(ステップS301)で分析した音声波形の基本周波数の平均値を求め、非周期成分分析処理(ステップS302)で分析した非周期成分の境界周波数の平均値を求めて、両平均値を全体パラメータとする。また、声質属性情報付声質パラメータ生成部303は、音源モデル化処理(ステップS007)でモデル化された音源情報のパラメータの母音区間内の平均と分散を求め、目標音声の音源パラメータとする。さらに、声質属性情報付声質パラメータ生成部303は、PARCOR係数算出処理(ステップS004)で生成されたPARCOR係数の各次元パラメータの平滑化後の値と、分析対象区間に対応する声質属性区分とにあわせ、音源パラメータと、全体パラメータと、発声者情報とから、声質属性情報付声質パラメータを生成し、受信装置2000に配信する(ステップS305)。
楽器音データ生成部301は、データ分離処理(ステップS202)で楽曲情報より分離した楽器音データを、音声波形との時間同期が可能な形式に変更することにより、楽器音データを生成し、受信装置2000に配信する(ステップS306)。
以上の動作によって、オリジナル楽曲データより、歌手の歌った旋律すなわち時間変動情報としての元歌データ、すなわち声質を付加して歌唱音声にする元歌データとして利用可能なデータを配信可能とし、楽曲のボーカル部分を声質変換する際の目標音声の声質パラメータとして利用可能な歌手の声質パラメータを配信することができる。さらに、元歌データと時間同期することのできる楽器音データを配信することができる。
次に、図39に従って、声質変換音声生成システムの受信装置2000が、声質属性情報付元歌データを取得して、元歌データの声質を目標音声声質に変換した音楽情報を生成し、その音楽情報を出力する動作を説明する。
まず、楽器音データ入力部311は、上記の配信装置1000による楽器音データ生成処理(図38のステップS306)で生成された楽器音データを取得する。また、声質属性情報付元歌データ入力部312は、上記の配信装置1000による声質属性情報付元歌データ生成処理(図38のステップS304)で生成された声質属性情報付元歌データを取得する(ステップS311)。
発声者リスト表示部209は発声者情報・声質属性情報付声質パラメータ記憶部208に蓄積されている声質属性情報付声質パラメータの発声者情報に基づき、声質変換目標として設定可能な発声者のリストを表示する(ステップS210)。発声者指定情報入力部210は、発声者リスト表示処理(ステップS210)で表示された発声者のリストよりユーザが目標音声として選択した発声者を指定する情報を受け付ける(ステップS211)。
パラメータ変換部314は、発声者指定情報取得処理(ステップS211)で取得された発声者指定情報と、元歌データ・楽器音データ入力処理(ステップS311)で取得した声質属性情報付元歌データに含まれる声質属性情報に基づいて、発声者情報・声質属性情報付声質パラメータ記憶部208より目標音声の声質パラメータを取得する(ステップS312)。
パラメータ変換部314は、元歌データ・楽器音データ入力処理(ステップS311)で入力された元歌データの全処理単位についての処理が終了したか否かを判断する(ステップS313)。
元歌データに未処理の部分がある場合には(ステップS313でno)、パラメータ変換部314は、元歌データ・楽器音データ入力処理(ステップS311)で取得された声質パラメータのうち、フィルタパラメータすなわちPARCOR係数の平滑化後の値を、目標音声声質情報取得処理(ステップS312)で取得された目標音声のパラメータとの間で補間することにより変形する(ステップS008)。変形比率については、音素境界や音声の開始点あるいは終了点のように各パラメータが急峻に変化する区間や、子音部分のように時間変動情報を正確に再現する必要がある区間等については、時間情報を保持した元歌データの比率を高くし(つまり変形比率を小さくし)、それ以外の部分については、目標音声の声質情報を保持した目標音声情報への変換度合いを高くする(つまり変形比率を大きくする)ように、変形比率を決定する。パラメータ変換部314は、元歌データ・楽器音データ入力処理(ステップS311)で取得された元歌データに含まれる音源モデルパラメータの平均と分散が、目標音声声質情報取得処理(ステップS312)で取得された目標音声の音源パラメータの平均と分散に一致するように変形する(ステップS009)。音源変形処理(ステップS009)の後、判断処理(ステップS313)へ戻る。元歌音声データの全処理単位に対して、上記判断処理(ステップS313)から音源変形処理(ステップS009)までの処理を順次行うことにより、音声データ全体の声質変換を行う。
元歌データに未処理の部分がない場合には(ステップS313でyes)、子音選択部316は、元歌データ・楽器音データ入力処理(ステップS311)で取得された声質属性情報付元歌データに含まれる子音情報と、フィルタ変形処理(ステップS008)で変換されたフィルタパラメータのうち、子音に隣接する部分のフィルタパラメータに基づいて、音韻が一致し、変換済み母音との接続コストが低い子音の音声合成パラメータを子音データベース315より取得する(ステップS314)。
波形生成部215は、フィルタ変形処理(ステップS008)で変形された声道情報(フィルタパラメータ)と、音源変形処理(ステップS009)で変形された音源情報(音源モデルパラメータ)と、子音生成処理(ステップS314)で取得された子音の音声合成パラメータとに基づいて、合成音の音声波形を生成する(ステップS315)。
楽器音生成部203は、元歌データ・楽器音データ入力処理(ステップS311)で取得された楽器音データより楽器音波形を生成する(ステップS214)。加算器216はステップS315で生成された音声波形とステップS214で生成された楽器音波形とを重畳して出力する(ステップS215)。
なお、目標音声声質情報取得処理(ステップS312)は、判断処理(ステップS313)から音源変形処理(ステップS009)のループ中のいずれかで、処理区間ごとに実行されても良い。
一方、楽曲の生成とは独立して、声質属性情報付声質パラメータ入力部313は、前記配信装置1000の声質属性情報付声質パラメータデータ生成処理(ステップS305)で生成された声質属性情報付声質パラメータデータを取得し、発声者情報・声質属性情報付声質パラメータ記憶部208に蓄積する。声質属性情報付声質パラメータデータの蓄積動作は楽曲生成以前であればいつでも良い。
以上の動作により、入力された声質属性情報付元歌データを、あらかじめ記憶した声質パラメータに基づいて変換することにより、新たな声質による歌唱音声を含む楽曲が生成される。
以上により、音源情報と声道情報とを精度良く分離して、声道情報および音源情報を変形することにより、音質の劣化が少ない声質変換ができる。その上、声質に影響する音韻種類や音域、あるいは楽曲の構成等に基づいて声質属性区分を設け、声質属性区分に従って目標音声の声道情報と音源情報とを元歌音声の声道情報と音源情報とに適用して変換している。このため、歌唱音声のように音域、発声法または音楽表現などによって個人内でも声質が大きく変化する場合でも、変換目標とする発声者すなわち歌手の声質の特徴とその変化の仕方を再現することができ、歌手の変化に富んだ声質に変換することができる。
また、歌唱音声の旋律等の時間変動情報を持つ元歌データと目標音声の声質情報とを完全に独立に配信することにより、ユーザが自由な組み合わせで曲目と声質とを組み合わせることができ、音楽鑑賞の楽しみが拡大される。また、既存の音声データに声質属性データを付与することにより、既存の音声データから声質パラメータを抽出、蓄積することができ、既に引退あるいは他界した歌手による歌唱音声の声質を配信することも可能となる。ユーザは、音楽コンテンツを取得する際に、完成された楽曲を選ぶだけでなく、曲目と歌手の組み合わせを選ぶことにより、好みの曲を好みの歌手の声質で聴くことができるようになり、1つの曲目に対して複数の歌手を指定することで、声質による楽曲の違いを聴き比べることもできる。このため、最新の曲を往年の歌手の声質で聞くというような録音では困難なことも可能になる。
なお、上記の楽曲情報における楽器音データはMIDIデータでもよい。その際は、楽器音生成部203は、MIDI音源を含むデコーダである。
なお、実施の形態3の声質変換音声生成システムの受信装置2000において子音の合成パラメータは子音データベース315より選択するものとしたが、元歌データに子音の合成パラメータをも記述し、実施の形態2と同様に、基本周波数に基づいて元歌音声の子音の合成パラメータを、音高をシフトさせて使用することで、子音部分の音声波形を生成するものとしても良い。
なお、図36および図37において、楽器音データ、声質属性情報付元歌データ、声質属性情報付声質パラメータデータの配信はネットワークを介して行うものとしたが、データは、記録媒体の配布により配信されるものであっても良いし、放送によって配信されるものであっても良い。
なお、実施の形態3の配信装置1000および受信装置2000は、音楽コンテンツの配信および受信をそれぞれ行うものとし、配信および受信される声質属性情報として母音種類と、音域と、楽曲構成とを用いた。しかし、声質属性情報を、母音種類と、韻律と、言語情報と、発話状況および強調の有無等の発話用の属性および区分とに変更することで、発話音声の豊かな表現を保ったまま声質を変換することができる。これにより、携帯電話にダウンロードする着信音用のメッセージや、電話の留守番電話等でのメッセージを、メッセージ内容と話者をそれぞれに指定して取得することができる他、詩や小説と、朗読する俳優やナレータとを、ユーザのイメージで組み合わせることにより指定し、イメージ通りの朗読コンテンツを取得することもできる。アニメーションの音声や外国の映画やドラマの吹き替えのように、人物あるいはキャラクタと音声とが製作者によって組み合わされているコンテンツについても、ユーザが登場人物やキャラクタごとにイメージする声優や俳優を指定して、イメージ通りの映像コンテンツを取得することもできる。また、俳優や声優あるいは芸人の激しい表現や豊かな情感を表す音声コンテンツを、その音声表現を保ったまま別の話者で楽しむことができる。
(実施の形態3の変形例)
図40は、実施の形態3の変形例による声質変換音声生成システムを構成する配信装置の機能ブロック図であり、図41は実施の形態3の変形例による声質変換音声生成システムを構成する受信装置の機能ブロック図である。
図40に示す配信装置1002は、図36に示す配信装置1000のパラメータ分析部300がフレームワーク・テクスチャ生成部400に、声質属性情報付元歌データ生成部302が元歌用声質属性情報付フレームワーク・テクスチャ生成部401に、声質属性情報付声質パラメータ生成部303が目標音声用声質属性情報付フレームワーク・テクスチャ生成部402にそれぞれ置き換えられた以外は、図36と同じである。配信装置1002は、例えば、コンピュータのCPU上で配信装置1002の各処理部を実現するためのプログラムを実行することにより実現される。
図41に示す受信装置2002は、図37に示す受信装置2000の声質属性情報付元歌データ入力部312が元歌用声質属性情報付フレームワーク・テクスチャデータ入力部411に、声質属性情報付声質パラメータ入力部313が目標音声用声質属性情報付フレームワーク・テクスチャデータ入力部412に、発声者情報・声質属性情報付声質パラメータ記憶部208が発声者情報・声質属性情報付フレームワーク・テクスチャ記憶部413に、パラメータ変換部314がフレームワーク・テクスチャ変換部414にそれぞれ置き換えられ、子音データベース315と子音選択部316とが削除された以外は図37と同じである。受信装置2002は、例えば、携帯型音楽再生装置に内蔵されたマイクロコンピュータ上で受信装置2002の各処理部を実現するためのプログラムを実行することにより実現される。
図40に示す構成の声質変換音声生成システムの配信装置1002において、楽曲情報入力部201は、入力された楽曲情報を受け付ける。ボーカルデータ楽器音データ分離部202は、楽曲情報入力部201で受け付けられた楽曲情報より、ボーカルデータを抽出する。フレームワーク・テクスチャ生成部400は、実施の形態1の変形例と同様に、音声波形をSTRAIGHTにより分析して空間周波数成分を求め、低次空間周波数成分を抽出してフレームワークを生成し、高次空間周波数成分を抽出してテクスチャを生成する。元歌用声質属性情報付フレームワーク・テクスチャ生成部401は、フレームワーク・テクスチャ生成部400で生成されたフレームワークとテクスチャを時系列データとし、時間区間に対応付けて声質属性区分を記述した元歌用声質属性情報付フレームワーク・テクスチャデータを生成する。
目標音声用声質属性情報付フレームワーク・テクスチャ生成部402は、フレームワーク・テクスチャ生成部400で生成されたフレームワークとテクスチャを声質属性区分ごとにまとめ、同一声質属性区分に1つの代表データを求め、声質属性区分ごとのフレームワークとテクスチャを記述したデータに発声者情報を加えたものを目標音声用声質属性情報付フレームワーク・テクスチャデータとして生成する。代表データは、例えば、同一声質属性区分に属するフレームワークおよびテクスチャについて各パラメータの平均値との差分の総和が最も小さいデータセットである。
図41に示す構成の声質変換音声生成システムの受信装置2002において、元歌用声質属性情報付フレームワーク・テクスチャデータ入力部411は、元歌用声質属性情報付フレームワーク・テクスチャデータを受け付ける。フレームワーク・テクスチャ変換部414は、元歌用フレームワークと発声者情報・声質属性情報付フレームワーク・テクスチャ記憶部413から抽出した同一の声質属性区分の目標音声のフレームワークとの差分より変換関数を生成する。また、フレームワーク・テクスチャ変換部414は、元歌用テクスチャと発声者情報・声質属性情報付フレームワーク・テクスチャ記憶部413から抽出した同一の声質属性区分の目標音声のテクスチャとからテクスチャ変換関数を生成する。フレームワーク・テクスチャ変換部414は、各声質属性区分において複数個のフレームワーク変換関数より1つを選択する。選択の方法としては、例えば、声質属性区分内の変換関数の平均関数を求め、その平均関数に最も近い変換関数を当該声質属性区分のフレームワーク変換関数の代表関数として選択する。さらに、フレームワーク・テクスチャ変換部414は、フレームワーク変換関数の代表関数として選択された関数生成時に用いた元歌フレームワークに時系列上で対応するテクスチャを用いて作成したテクスチャ変換関数を、各声質属性区分のテクスチャ変換関数の代表関数として選択する。このようにして声質属性区分ごとに作成した変換関数を用いて、フレームワーク・テクスチャ変換部414は、元歌用声質属性情報付フレームワーク・テクスチャデータ入力部411から入力された元歌用フレームワークとテクスチャを時間区間ごとに対応付けられた声質属性区分ごとに変換関数を選択して変換を行う。
本発明にかかる声質変換音声生成装置と声質変換音声生成システムは、記録媒体あるいはネットワークにより配布される音楽の記述方式の変換装置および再生装置として有用であり、カラオケでの声質変換や、携帯端末やネットワーク端末での音楽鑑賞や、着信メロディ利用時の音楽アレンジ装置として有用である。さらには新たな音楽作品としてのボーカルパートの生成装置等としても有用である。また、本発明にかかる声質変換音声生成装置または声質変換音声生成システムを音声合成装置に組み合わせれば、任意の発声内容を任意の声質で生成する音声合成装置としても有用である。
本発明の実施の形態1における声質変換音声生成装置のブロック図 本発明の実施の形態1における声質変換音声生成装置のブロック図 従来の声質変換におけるスペクトル包絡の対応付けを示す図 LPC分析に基づくPARCOR係数の例を示す図 多項式関数によるLPC分析に基づくPARCOR係数の近似による平滑化の結果を示す図 音素境界の過渡区間の補間の方法を示す図 フィルタ平滑化部による平滑化した場合の合成音のスペクトルを示す図 音声波形と音源波形および音声スペクトルと音源スペクトルの例を示す図 連続音源波形のスペクトルと孤立音源波形のスペクトルの比較を示す図 音源スペクトルの高域の近似方法の概念図 境界周波数とDMOS値の関係を示す図 音源スペクトルの低域の近似方法の概念図 音源スペクトルの低域の近似方法の概念図 音源スペクトルを近似した例を示す図 音源スペクトルを近似した例を示す図 境界周波数の分布を示す図 多項式関数により近似されたPARCOR係数を補間した結果を示す図 PARCOR係数を補間した際の声道断面積を示す図 音源波形生成の概略を説明する図 音源スペクトルに付加される位相特性の例を示す図 声質属性情報付元歌データの構成例 声質属性情報付声質パラメータのデータ構成例 本発明の実施の形態1における声質変換音声生成装置の動作を示すフローチャート 本発明の実施の形態1の変形例における声質変換音声生成装置のブロック図 本発明の実施の形態1の変形例における声質属性情報付フレームワーク・テクスチャ記憶部に格納されたフレームワーク・テクスチャの構成の一例を示す図 本発明の実施の形態1の変形例における声質変換音声生成装置の動作を示すフローチャート 本発明の実施の形態1の変形例における声質変換音声生成装置の動作の一部を示すフローチャート 本発明の実施の形態1の変形例における声質変換音声生成装置の動作の一部を示すフローチャート 本発明の実施の形態2における声質変換音声生成装置が内蔵されるCDプレーヤの外観図 本発明の実施の形態2における声質変換音声生成装置のブロック図 本発明の実施の形態2における声質変換音声生成装置のブロック図 本発明の実施の形態2における声質変換音声生成装置の動作の一部を示すフローチャート 本発明の実施の形態2における声質変換音声生成装置の動作の一部を示すフローチャート 本発明の実施の形態2における発声者のリストの一例を示す図 本発明の実施の形態3における声質変換音声生成システムの外観を示す図 本発明の実施の形態3における声質変換音声生成システムの配信装置のブロック図 本発明の実施の形態3における声質変換音声生成システムの受信装置のブロック図 本発明の実施の形態3における声質変換音声生成システムの配信装置の動作を示すフローチャート 本発明の実施の形態3における声質変換音声生成システムの受信装置の動作を示すフローチャート 本発明の実施の形態3の変形例における声質変換音声生成システムの配信装置のブロック図 本発明の実施の形態3の変形例における声質変換音声生成システムの受信装置のブロック図 特開平9−198091号公報の図8に示された従来の声質変換カラオケのブロック図
符号の説明
100 元歌データ入力部
101 LPC分析部
102 PARCOR算出部
103 フィルタ平滑化部
104 逆フィルタ部
105 音源モデル化部
106 声質パラメータ選択部
107 フィルタ変形部
108 音源変形部
109、212 変形比率制御部
110 声質属性情報付声質パラメータ記憶部
120、121、314 パラメータ変換部
130、215 波形生成部
150 声質属性情報付フレームワーク・テクスチャ記憶部
151 声質属性別母音抽出部
152、400 フレームワーク・テクスチャ生成部
153 パラメータ選択部
154 フレームワーク変換関数生成部
155 フレームワーク変換関数記憶部
156 フレームワーク変換部
157 テクスチャ変換関数生成部
158 テクスチャ変換関数記憶部
159 テクスチャ変換部
201 楽曲情報入力部
202 ボーカルデータ楽器音データ分離部
203 楽器音生成部
204 音声波形・声質属性情報抽出部
205 平滑化フィルタ生成部
206 音源モデル化部
207、303 声質属性情報付声質パラメータ生成部
208 発声者情報・声質属性情報付声質パラメータ記憶部
209 発声者リスト表示部
210 発声者指定情報入力部
211 目標声質パラメータ選択部
213 フィルタ変換部
214 音源変換部
216 加算器
250 パラメータ分析変換部
300 パラメータ分析部
301 楽器音データ生成部
302 声質属性情報付元歌データ生成部
311 楽器音データ入力部
312 声質属性情報付元歌データ入力部
313 声質属性情報付声質パラメータ入力部
315 子音データベース
316 子音選択部
401 元歌用声質属性情報付フレームワーク・テクスチャ生成部
402 目標音声用声質属性情報付フレームワーク・テクスチャ生成部
411 元歌用声質属性情報付フレームワーク・テクスチャデータ入力部
412 目標音声用声質属性情報付フレームワーク・テクスチャデータ入力部
413 発声者情報・声質属性情報付フレームワーク・テクスチャ記憶部
414 フレームワーク・テクスチャ変換部

Claims (15)

  1. 入力音声の声質を変換する声質変換音声生成装置であって、
    各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得する入力音声声質パラメータ取得部と、
    音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質パラメータ記憶部と、
    前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを前記声質パラメータ記憶部より取得する目標音声声質パラメータ取得部と、
    前記目標音声声質パラメータ取得部が取得した目標音声の声質パラメータと、前記入力音声声質パラメータ取得部で取得された入力音声の声質パラメータとを用いて、声質パラメータを合成する声質パラメータ合成部と、
    前記声質パラメータ合成部で合成された前記声質パラメータに基づいて、音声波形を合成する音声合成部と
    を備える声質変換音声生成装置。
  2. 前記声質属性情報は、さらに、楽曲構成情報、韻律情報、言語情報、声区、音色種類のうち、少なくとも1つを含む
    請求項1記載の声質変換音声生成装置。
  3. 前記入力音声声質パラメータ取得部は、当該声質変換音声生成装置の外部から、前記入力音声の声質属性情報と前記入力音声の声質パラメータとを入力として受け付ける入力音声声質パラメータ入力部を含む
    請求項1記載の声質変換音声生成装置。
  4. 前記入力音声声質パラメータ取得部は、
    当該声質変換音声生成装置の外部から、前記入力音声の声質属性情報と入力音声の音声波形とを入力として受け付ける入力音声波形入力部と、
    前記入力音声波形入力部で受け付けられた前記入力音声の音声波形を分析することにより、前記入力音声の声質パラメータを抽出するパラメータ分析部とを含む
    請求項1記載の声質変換音声生成装置。
  5. さらに、前記パラメータ分析部により抽出された入力音声の声質パラメータに前記入力音声波形入力部において受け付けられた前記入力音声の声質属性情報を付加することにより、前記入力音声の声質属性情報が付加された前記入力音声の声質パラメータを、前記目標音声の声質属性情報が付加された前記目標音声の声質パラメータとして生成し、前記声質パラメータ記憶部に格納する声質パラメータ生成部を備える
    請求項4記載の声質変換音声生成装置。
  6. さらに、当該声質変換音声生成装置の外部より、音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを取得し、前記声質パラメータ記憶部に格納する声質パラメータ生成部を備える
    請求項1記載の声質変換音声生成装置。
  7. 前記目標音声声質パラメータ取得部は、前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを、前記声質パラメータ生成部により新たな目標音声の声質パラメータが格納された前記声質パラメータ記憶部より取得する
    請求項5または6記載の声質変換音声生成装置。
  8. さらに、
    前記声質パラメータ記憶部に記憶された声質パラメータの識別子を表示する表示部と、
    前記表示部によって表示された識別子のうちのいずれかを指定する入力を受け付ける指定入力部とを備え、
    前記目標音声声質パラメータ取得部は、前記指定入力部で受け付けられた識別子に対応する声質パラメータを目標音声の声質パラメータとし、前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを前記声質パラメータ記憶部より取得する
    請求項1〜7のいずれか1項に記載の声質変換音声生成装置。
  9. 入力音声の声質を変換する声質変換音声生成システムであって、
    入力音声の声質を示す声質パラメータと、目標音声の声質を示す声質パラメータとを配信する配信装置と、
    前記配信装置より前記入力音声および前記目標音声の声質パラメータを受信し、受信した前記入力音声および前記目標音声の声質パラメータを用いて、音声を生成する受信装置と
    を備え、
    前記配信装置は、
    各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得し、前記受信装置に配信する入力音声声質パラメータ取得部を含み、
    前記受信装置は、
    前記配信装置より配信される前記入力音声の声質属性情報と前記入力音声の声質パラメータとを入力として受け付ける入力音声声質パラメータ入力部と、
    音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質パラメータ記憶部と、
    前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを前記声質パラメータ記憶部より取得する目標音声声質パラメータ取得部と、
    前記目標音声声質パラメータ取得部が取得した目標音声の声質パラメータと、前記入力音声の声質パラメータとを用いて、声質パラメータを合成する声質パラメータ合成部と、
    前記声質パラメータ合成部で合成された前記声質パラメータに基づいて、音声波形を合成する音声合成部とを含む
    声質変換音声生成システム。
  10. 前記配信装置は、さらに、
    各々が目標音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む目標音声の声質属性情報と、目標音声の声質を示す声質パラメータとを取得し、前記受信装置に配信する目標音声声質パラメータ取得部を含み、
    前記受信装置は、さらに、
    前記配信装置より配信される前記目標音声の声質属性情報と前記目標音声の声質パラメータとを入力として受け付ける目標音声声質パラメータ入力部と、
    前記目標音声の声質属性情報が付加された前記目標音声の声質パラメータを生成し、前記声質パラメータ記憶部に格納する声質パラメータ生成部とを備える
    請求項9記載の声質変換音声生成システム。
  11. 前記入力音声声質パラメータ取得部は、さらに、前記入力音声の声質属性情報および声質パラメータと対応付けられた楽器音を示す楽器音データを取得し、前記受信装置に配信し、
    前記入力音声声質パラメータ入力部は、さらに、前記配信装置より配信される前記楽器音データを入力として受け付け、
    前記音声合成部は、さらに、合成された音声波形に前記楽器音データで示される楽器音の波形を重畳させて出力する
    請求項9または10記載の声質変換音声生成システム。
  12. 各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得する入力音声声質パラメータ取得部と、
    前記入力音声声質パラメータ取得部で取得された前記入力音声の声質属性情報および声質パラメータを、ネットワークを介して受信装置に配信する配信部と
    を備える配信装置。
  13. ネットワークを介して配信装置より配信される入力音声の声質属性情報と入力音声の声質パラメータとを入力として受け付ける入力音声声質パラメータ入力部と、
    音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質パラメータ記憶部と、
    前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを前記声質パラメータ記憶部より取得する目標音声声質パラメータ取得部と、
    前記目標音声声質パラメータ取得部が取得した目標音声の声質パラメータと、前記入力音声の声質パラメータとを用いて、声質パラメータを合成する声質パラメータ合成部と、
    声質パラメータ合成部で合成された前記声質パラメータに基づいて、音声波形を合成する音声合成部と
    を備える受信装置。
  14. 入力音声の声質を変換する声質変換音声生成方法であって、
    各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得する入力音声声質パラメータ取得ステップと、
    前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを、音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質パラメータ記憶装置より取得する目標音声声質パラメータ取得ステップと、
    前記目標音声声質パラメータ取得ステップにおいて取得された目標音声の声質パラメータと、前記入力音声声質パラメータ取得ステップにおいて取得された入力音声の声質パラメータとを用いて、声質パラメータを合成する声質パラメータ合成ステップと、
    前記声質パラメータ合成ステップにおいて合成された前記声質パラメータに基づいて、音声波形を合成する音声合成ステップと
    を含む声質変換音声生成方法。
  15. 入力音声の声質を変換するコンピュータ実行可能なプログラムであって、
    各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得する入力音声声質パラメータ取得ステップと、
    前記入力音声の時間軸上の範囲毎に、当該範囲に含まれる前記入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを、音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質パラメータ記憶装置より取得する目標音声声質パラメータ取得ステップと、
    前記目標音声声質パラメータ取得ステップにおいて取得された目標音声の声質パラメータと、前記入力音声声質パラメータ取得ステップにおいて取得された入力音声の声質パラメータとを用いて、声質パラメータを合成する声質パラメータ合成ステップと、
    前記声質パラメータ合成ステップにおいて合成された前記声質パラメータに基づいて、音声波形を合成する音声合成ステップと
    をコンピュータに実行させるプログラム。
JP2008174006A 2008-07-02 2008-07-02 声質変換音声生成装置および声質変換音声生成システム Pending JP2010014913A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008174006A JP2010014913A (ja) 2008-07-02 2008-07-02 声質変換音声生成装置および声質変換音声生成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008174006A JP2010014913A (ja) 2008-07-02 2008-07-02 声質変換音声生成装置および声質変換音声生成システム

Publications (1)

Publication Number Publication Date
JP2010014913A true JP2010014913A (ja) 2010-01-21

Family

ID=41701087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008174006A Pending JP2010014913A (ja) 2008-07-02 2008-07-02 声質変換音声生成装置および声質変換音声生成システム

Country Status (1)

Country Link
JP (1) JP2010014913A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011151956A1 (ja) * 2010-06-04 2011-12-08 パナソニック株式会社 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
KR101233628B1 (ko) * 2010-12-14 2013-02-14 유비벨록스(주) 목소리 변환 방법 및 그를 적용한 단말 장치
JP2014157261A (ja) * 2013-02-15 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
WO2017056640A1 (ja) * 2015-09-29 2017-04-06 ヤマハ株式会社 音信号処理方法及び音信号処理装置
WO2017146073A1 (ja) * 2016-02-23 2017-08-31 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム
KR20190084783A (ko) * 2018-01-09 2019-07-17 주식회사 엘지유플러스 언어 학습을 위한 장치 및 그 제어방법
CN112150997A (zh) * 2020-09-24 2020-12-29 腾讯音乐娱乐科技(深圳)有限公司 确定合唱歌词分配信息的方法、装置、设备及存储介质
JP7503870B1 (ja) 2023-10-12 2024-06-21 ギャラクシー・ネット株式会社 楽曲制作支援プログラム、楽曲制作支援装置、楽曲制作支援方法、及び音楽再生装置
JP7581548B1 (ja) 2024-01-24 2024-11-12 株式会社ドワンゴ 再生装置、再生方法、プログラム、および再生システム
JP7608243B2 (ja) 2021-03-31 2025-01-06 株式会社バンダイナムコエンターテインメント コンテンツ再生制御システム及びプログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011151956A1 (ja) * 2010-06-04 2011-12-08 パナソニック株式会社 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JP5039865B2 (ja) * 2010-06-04 2012-10-03 パナソニック株式会社 声質変換装置及びその方法
KR101233628B1 (ko) * 2010-12-14 2013-02-14 유비벨록스(주) 목소리 변환 방법 및 그를 적용한 단말 장치
JP2014157261A (ja) * 2013-02-15 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
WO2017056640A1 (ja) * 2015-09-29 2017-04-06 ヤマハ株式会社 音信号処理方法及び音信号処理装置
US10354631B2 (en) 2015-09-29 2019-07-16 Yamaha Corporation Sound signal processing method and sound signal processing apparatus
US10311888B2 (en) 2016-02-23 2019-06-04 The University Of Electro-Communications Voice quality conversion device, voice quality conversion method and program
WO2017146073A1 (ja) * 2016-02-23 2017-08-31 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム
KR20190084783A (ko) * 2018-01-09 2019-07-17 주식회사 엘지유플러스 언어 학습을 위한 장치 및 그 제어방법
KR102025903B1 (ko) 2018-01-09 2019-09-26 주식회사 엘지유플러스 언어 학습을 위한 장치 및 그 제어방법
CN112150997A (zh) * 2020-09-24 2020-12-29 腾讯音乐娱乐科技(深圳)有限公司 确定合唱歌词分配信息的方法、装置、设备及存储介质
JP7608243B2 (ja) 2021-03-31 2025-01-06 株式会社バンダイナムコエンターテインメント コンテンツ再生制御システム及びプログラム
JP7503870B1 (ja) 2023-10-12 2024-06-21 ギャラクシー・ネット株式会社 楽曲制作支援プログラム、楽曲制作支援装置、楽曲制作支援方法、及び音楽再生装置
JP7581548B1 (ja) 2024-01-24 2024-11-12 株式会社ドワンゴ 再生装置、再生方法、プログラム、および再生システム

Similar Documents

Publication Publication Date Title
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
JP4296231B2 (ja) 声質編集装置および声質編集方法
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
CN101111884B (zh) 用于声学特征的同步修改的方法和装置
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP5039865B2 (ja) 声質変換装置及びその方法
WO2013018294A1 (ja) 音声合成装置および音声合成方法
Ardaillon Synthesis and expressive transformation of singing voice
Wilson et al. Robot, alien and cartoon voices: Implications for speech-enabled systems
JP6821970B2 (ja) 音声合成装置および音声合成方法
US20200402525A1 (en) Sound processing method, sound processing apparatus, and recording medium
JP2018077283A (ja) 音声合成方法
Pfitzinger Unsupervised speech morphing between utterances of any speakers
Drioli et al. Speaker adaptive voice source modeling with applications to speech coding and processing
JP2023013684A (ja) 歌唱声質変換プログラム及び歌唱声質変換装置
JP6834370B2 (ja) 音声合成方法
Wang et al. Beijing opera synthesis based on straight algorithm and deep learning
JP6163454B2 (ja) 音声合成装置、その方法及びプログラム
Bous A neural voice transformation framework for modification of pitch and intensity
JP2005181998A (ja) 音声合成装置および音声合成方法
JP6191094B2 (ja) 音声素片切出装置
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム