[go: up one dir, main page]

JP4533255B2 - 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 - Google Patents

音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP4533255B2
JP4533255B2 JP2005186454A JP2005186454A JP4533255B2 JP 4533255 B2 JP4533255 B2 JP 4533255B2 JP 2005186454 A JP2005186454 A JP 2005186454A JP 2005186454 A JP2005186454 A JP 2005186454A JP 4533255 B2 JP4533255 B2 JP 4533255B2
Authority
JP
Japan
Prior art keywords
information
speech
pattern
voice
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005186454A
Other languages
English (en)
Other versions
JP2007004011A (ja
Inventor
光昭 磯貝
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005186454A priority Critical patent/JP4533255B2/ja
Publication of JP2007004011A publication Critical patent/JP2007004011A/ja
Application granted granted Critical
Publication of JP4533255B2 publication Critical patent/JP4533255B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、テキストを入力し、そのテキストに対応した音声を出力する音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体に関し、より詳しくは、音声波形データを選択して接続することで音声合成する波形接続型の音声合成技術に関する。
近年の音声合成技術では、数十分から数十時間の大量の肉声データから音声波形データベースを構成し、入力されたテキストに応じて、適切な基準で音声波形データベースから適切な長さの音声波形を選択し、それらを接続して合成音声を作成する波形接続型音声合成方法が提案されている(特許文献1参照)。
このような波形接続型音声合成方法における音声合成装置の構成例を図1に示す。
音声合成装置(1)は、ハードディスクなどの外部記憶装置(2)、テキスト解析部(10)、韻律生成部(11)、音声波形選択部(12)、音声合成部(13)から構成されている。
より詳細に叙述する。音声合成装置(1)は、テキストを入力とし、合成音声を出力する音声合成装置である。外部記憶装置(2)は、音声波形データベース(3)および音声情報データベース(4)を記憶している。音声波形データベース(3)は、単語や文章を読み上げた音声データに対して公知のA/D変換を行い、合成音声を組み立てる上で適切な合成単位(例えば音素)で切出したもの(音声波形素片としての音声波形データ)の集合であり、外部記憶装置(2)の記憶領域に格納される。
音声情報データベース(4)は、例えば図2のように、合成音声を組み立てる上で適切な単位(合成単位)を音素として、これに諸情報が対応付けられたエントリーからなるデータ構造(テーブル)となっており、外部記憶装置(2)の記憶領域に格納される。図2に示す音声情報データベース(4)の各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、音素区間の平均パワーを正規化して得たパワー情報、音素の音高の時間推移を表したFパターン情報、音声波形データベース(3)の中での音声波形データの位置を示す情報(以下、音声波形データ位置情報という。)から構成される。
音声情報データベース(4)のエントリーと音声波形データベース(3)における(音声波形素片としての)各音声波形データとは、音声情報データベース(4)における音声波形データ位置情報によって対応付けられる。
各エントリーのFパターン微細情報は、肉声の有するFパターンの微細変動をそのまま保持したFパターンを表している。
テキスト解析部(10)は、入力されたテキストを形態素解析し、入力されたテキストに対応した音素列とアクセント型を出力する。
韻律生成部(11)は、テキスト解析部(10)が出力した情報を入力として、音素ごとの音声のFパターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)を推定し、これを出力する。ここで、「推定」とは、音声合成のために必要となる情報(Fパターン、音素継続時間長、パワー情報)として、ある特定のものに決定することを意味する。
音声波形選択部(12)は、テキスト解析部(10)が出力した音素列の並びに従い、韻律生成部(11)で出力した、音素ごとの音声のFパターン、音素継続時間長、パワー情報をターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ(最適音声波形素片列)を、音声情報データベース(4)から選択して、最適音声波形素片列の各音声波形素片番号(テキスト解析部(10)が出力した音素列の並びに対応している。)を出力する。最適音声波形素片列の決定には動的計画法などを用いる。
音声合成部(13)は、音声波形選択部(12)で選択された最適音声波形素片列の各音声波形素片番号を入力として、この最適音声波形素片列の各音声波形素片番号に対応した音声波形データを(音声波形データ位置情報を参照して)音声波形データベース(3)から読み込み、それら音声波形データを順次接続して連続した音声を生成し、これを合成音声として出力する。
特許2761552号公報
音声波形データベースに格納された音声波形データは肉声である。肉声のFパターンは微細な変動をし、図3に示した模式図のように、特に子音部分(図3では/R/の部分に相当する。)においてFパターン(図3の符号101で示す。)が落ち込むような微細な構造を有することが多い。
一方、上記韻律生成部で求められるターゲットのFパターンは、肉声のFパターンにおける微細変動を反映したものではないため、音声波形選択部12における音声波形素片の選択過程において、ターゲットのFパターン(肉声のFパターンにおける微細変動を反映したものではない。)と選択された音声波形素片のFパターン(肉声のFパターンにおける微細変動を反映している。)との間に不一致が生じうる。
そのためイントネーションの不自然さや音声波形素片間の接続箇所におけるFパターンのギャップ等に起因する音質劣化を引き起こし、聴感上適したイントネーションを有する合成音声が生成されないという問題があった。
この典型的な例を、模式図である図4および図5を参照して説明する。図4および図5において符号102はターゲットのFパターンである。ここでは図4に示すような、連続性のあるFパターンを有する音声波形素片(符号103a、103b、103c)が選択されるのが望ましい。なぜなら、接続ギャップが無く滑らか、かつ、肉声に則した微細な構造を有するFパターンを再現した、自然なイントネーションを有する音声が合成可能だと考えられるからである。しかしながら、従来的な音声合成手法によると、ターゲットのFパターンは、肉声のFパターンにおける微細変動を反映したものではないため、子音部分での(肉声の)Fパターンとの距離が大きくなるため、図5に示すような、Fパターンの歪みが小さい反面、Fパターンが不連続な音声波形素片(符号104a、104b、104c)が選択されてしまう。
上記の問題に鑑みて、本発明は、自然なイントネーションを有する合成音声を得る波形接続型の音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体を提供することを目的とする。
上記課題を解決するために、本発明は、音声波形データを集めた音声波形データベースおよび、音声のFパターン情報(肉声のFパターンの微細変動を保持したFパターン微細情報と、Fパターン微細情報における微細変動部分を補正したFパターン概形情報とから構成される。)を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶手段に記憶しておき、入力されたテキストを解析して音韻系列を生成し、この音韻系列から合成単位ごとの音声のFパターン情報を含む韻律情報Aを生成し、次いで、音韻系列に従って、韻律情報Aと音声情報データベースにおけるエントリーの韻律情報Bとの距離尺度(コスト)を演算し(韻律情報AにおけるFパターン情報と、韻律情報BにおけるFパターン概形情報とのコストの演算を含む。)、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択し、この選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成するものとする。
また、予めFパターン概形情報を生成しておくのではなく、テキストから合成音声を生成する音声合成処理のたびに、Fパターン概形情報を生成するようにしてもよい。
さらには、韻律情報Aと韻律情報Bとのコストに加え、各エントリー間のコストを演算し(各エントリー間のコストの演算には、少なくとも各エントリーにおけるFパターン微細情報間のコストの演算を含む。)、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するとしてもよい。
本発明の音声合成装置をコンピュータ上で機能させる音声合成プログラムによって、コンピュータを音声合成装置として作動処理させることができる。そして、この音声合成プログラムを記録した、コンピュータ読み取り可能なプログラム記録媒体によって、他のコンピュータを音声合成装置として機能させることや、音声合成プログラムを流通させることなどが可能になる。
本発明によれば、テキスト解析で得られた音韻系列から生成された韻律情報Aと音声情報データベースにおけるエントリーの韻律情報Bとの距離尺度(コスト)の演算において、韻律情報AにおけるFパターン情報と、韻律情報BにおけるFパターン概形情報とのコストの演算を含むことによって、ターゲットのFパターンと選択される音声波形素片のFパターンとの間のFパターン形状のミスマッチを避けることができるので、イントネーション、特にアクセント型の不自然さに起因する音質劣化が低減された、自然なイントネーションを有する合成音声を得ることが可能となる。
また、韻律情報Aと韻律情報Bとのコストに加え、各エントリー間のコストを演算し、この各エントリー間のコストの演算において、各エントリーにおけるFパターン微細情報間のコストの演算を含めることで、音声波形素片間の接続箇所のFギャップを避けることができるため、Fパターンの不連続に起因する音質劣化が低減された、自然なイントネーションを有する合成音声を得ることが可能となる。
<第1実施形態>
以下、本発明である音声合成装置・方法等の第1実施形態を説明する。
図6は、第1実施形態に係わる音声合成装置のハードウェア構成を例示したハードウェア構成図である。
図7は、第1実施形態に係わる音声合成装置の機能構成を例示した機能構成図である。
図8は、第1実施形態に係わる音声合成の処理フローを示す図である。
図9は、第1実施形態に係わる音声情報データベースのデータ構成を示す図である。
図10は、Fパターン概形情報の生成方法の一例を示す図(その1)である。
図11は、Fパターン概形情報の生成方法の一例を示す図(その2)である。
図12は、Fパターン概形情報の生成方法の一例を示す図(その3)である。
図6に例示するように、音声合成装置(500)は、キーボードなどが接続可能な入力部(51)、液晶ディスプレイなどが接続可能な出力部(52)、音声合成装置(500)外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部(53)、CPU(Central Processing Unit)(54)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(55)、ROM(56)やハードディスクである外部記憶装置(57)並びにこれらの入力部(51)、出力部(52)、通信部(53)、CPU(54)、RAM(55)、ROM(56)、外部記憶装置(57)間のデータのやり取りが可能なように接続するバス(58)を有している。また必要に応じて、音声合成装置(500)に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
音声合成装置(500)に入力されるテキストは、入力部(51)から入力されるものとしてもよいが、この実施形態では、予めテキストが外部記憶装置(57)に記憶されているものとする。また、本発明においてテキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。
音声合成装置(500)の外部記憶装置(57)には、音声合成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に保存記憶される。
より具体的に説明すると、外部記憶装置(57)の所定の記憶領域には、プログラムの処理において必要となるデータとして、合成単位(この実施形態では音素とする。その他、例えば音声のピッチやCV音節などを単位とすることも可能である。)ごとの音声波形データを集めた音声波形データベース(571)および、音素ごとの音声のFパターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベース(572)が記憶されている。
音声波形データベース(571)における(音声波形素片としての)音声波形データは、単語や文章を読み上げた肉声の音声データに対して公知のA/D変換を行い、適宜に窓関数をかけることなどによって音素単位で切出したものである。
音声情報データベース(572)は、例えば図9のように、音素を単位として諸情報が対応付けられたエントリーからなるデータ構造(テーブル)となっている。図9に示す音声情報データベース(572)における各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、当該音素区間の平均パワーを正規化して得たパワー情報、音素の音高(周波数)の時間推移を表したFパターン情報、音声波形データベース(571)の中での音声波形データの位置を示す情報(以下、音声波形データ位置情報という。)から構成されている。音声情報データベース(572)のエントリーと音声波形データベース(571)における(音声波形素片としての)各音声波形データとは、音声情報データベース(572)における音声波形データ位置情報によって対応付けられる。
音声情報データベース(572)における各エントリーのFパターン情報は、Fパターン微細情報およびFパターン概形情報から構成される。Fパターン微細情報は、肉声の有するFパターンの微細変動をそのまま保持したFパターンを表す。一方、Fパターン概形情報は、Fパターン微細情報におけるFパターンの微細変動部分を補正したFパターンを表す。
ここで、Fパターン概形情報の生成方法の一例を図10、11、12を参照して説明する。Fパターン概形情報は、Fパターン微細情報におけるFパターンの微細変動部分を補正して生成するが、より具体的には、Fパターン微細情報におけるFパターンの子音に関わるFパターンの微細変動部分を補正することによって生成する。
以下に、一例として、子音区間(ここでは/R/の区間)のFパターンの変微細動を除去することによって、Fパターン概形情報におけるFパターンを得る処理について説明する。図10の符号201は、ある音声の音素/A//R//U/のFパターンを示している。
まず、子音区間の両側の各母音区間(ここでは/A/および/U/の区間)内で最も高いFパターンの値を示すピーク点を求める。このピーク点は、エントリーにおけるFパターン微細情報および音素継続時間長を参照することによって求めることができる。図11において、/A/の区間では符号202に示す点が、/U/の区間では符号203に示す点が、各母音区間で最も高いFパターンの値のピーク点である。
次に、各母音区間で求めたピーク点とピーク点との間の直線補間を行う。この例では、図11の符号204に示す破線が、直線補間を行うことによって得られるFパターンを示している。なお、補正方法を直線補間としたが、これに限定することなく、例えばスプライン補間などによって補正するものでもよい。以上の処理によって、図12に示すようなFパターン(符号205a、205b、205c)を得ることができる。ここで得られたFパターン(符号205a、205b、205c)が、それぞれの音素のFパターン概形情報である。
なお、以上の説明からも明らかなとおり、補正されるFパターンは、子音部分のFパターンだけなのではなく、母音部分のFパターンの一部(上記例で云えば、/A/のピーク点から終点にかけてのFパターン部分、/U/の始点からピーク点にかけてのFパターン部分)も補正される場合があることに留意しなければならない。
また、音声合成装置(1)の外部記憶装置(57)には、入力されたテキストを解析して音韻系列を生成するテキスト解析部を実現するためのプログラム、音韻系列から、少なくとも音素ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成部を実現するためのプログラム、韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから順次選択する音声波形選択部を実現するためのプログラム、順次選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成部を実現するためのプログラムなどが保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。
第1実施形態に係る音声合成装置(500)では、外部記憶装置(57)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(55)に読み込まれて、CPU(54)で解釈実行・処理される。その結果、CPU(54)が所定の機能(テキスト解析部、韻律生成部、音声波形選択部、音声合成部)を実現することで、音声合成が実現される。
そこで次に、図7、図8を参照して、音声合成装置(500)における音声合成の流れを順次説明する。
第1実施形態の音声合成装置(500)は、テキスト解析部(541)、韻律生成部(542)、音声波形選択部(543)、音声合成部(544)から構成される(図7参照)。
まず、テキスト解析部(541)は、外部記憶装置(57)に記憶されるテキストを読み込み、この読み込んだテキストを形態素解析して、テキストに対応した音素列、アクセント型、呼気段落(フレーズ)位置などを表す音韻系列を出力する(ステップS1)。
形態素解析の概要について説明すると、テキスト解析部(541)は、単語モデル、漢字かな変換モデル、かな音素変換モデルなど(これらも必要に応じて外部記憶装置(57)に記憶しておく。)を参照して、テキストを音素列に変換する。また、テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則(アクセント結合規則)をデータとして例えば外部記憶装置(57)に記憶しておき、テキスト解析部(541)は、このアクセント結合規則に従って、テキストのアクセント型を決定する。さらに、テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが1つ付く特徴的傾向があるので、予めこれらの規則(フレーズ規則)をデータとして例えば外部記憶装置(57)に記憶しておき、テキスト解析部(541)は、このフレーズ規則に従って、アクセントの1つ付いたまとまりがいくつか接続したものを呼気段落として決定する。
なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができるが、これらは公知技術によって達成されるので、その詳細を省略する。
韻律生成部(542)は、テキスト解析部(541)が出力した情報(音韻系列)を入力として、音素ごとの音声のFパターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)を推定し、これを出力する(ステップS2)。音素継続時間長およびパワー情報は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定する。また、Fパターンについては、いわゆる藤崎モデルなどによって求める。なお、「推定」とは既述のとおり、音声合成のために必要となる情報(Fパターン、音素継続時間長、パワー情報)として、ある特定のものに決定することを意味する。本発明の音声合成装置・方法では、韻律情報の生成には、公知の韻律情報生成手法を用いることができるので、その詳細を省略する。
音声波形選択部(543)は、テキスト解析部(541)が出力した音素列の並び順に従って、韻律生成部(542)によって出力された、音素ごとの音声のFパターン、音素継続時間長、パワー情報をターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片同士を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ(最適音声波形素片列)を、音声情報データベース(572)から選択し、最適音声波形素片列の各音声波形番号(テキスト解析部(541)が出力した音素列の並び順に対応している。)を出力する(ステップS3)。以下、歪みから定義される距離尺度をコストと呼ぶ。コスト最小の最適音声波形素片列の決定には動的計画法などを用いる。
音声波形選択部(543)における最適音声波形素片列の選択について、更に詳細を説明する。ここでは、音素単位で最適音声波形素片列の選択をする場合について説明する。また、音声波形選択部(543)には、テキスト解析部(541)によって出力された(テキストに対する)音素列全てではなく、1つの呼気段落に対応する音素列ごとに入力していくとする。これは、ある呼気段落の終点音素と、この呼気段落に接続する次の呼気段落の始点音素との間の接続を考えなくてよいからである。勿論、テキストの長さなどによっては、テキスト解析部(541)によって出力された(テキストに対する)音素列全てを、音声波形選択部(543)の入力としてもよい。
以下、音声波形選択部(543)に入力される音素列(以下、これをターゲット音素列と呼ぶ。)のうち、i番目のターゲット音素をtと表し、音声情報データベース(572)から読み込んだエントリーの音声波形素片列(以下、これを候補素片列と呼ぶ。)のうち、i番目の候補素片をuと表す。なお、音声情報データベース(572)から読み込む候補素片uは、音声情報データベース(572)の音素ラベルの項目を参照して、ターゲット音素tの音素と同じ音素を有するものとする。
音声波形選択部(543)は、1つの呼気段落全体で、前記ターゲット音素列と候補素片列との歪みおよび接続する候補素片同士での接続歪みが最小になるような候補素片の組み合わせ(最適候補素片列)を決定するために、音素ごとに、ターゲット音素tと候補素片uの歪みを表す距離尺度をコストC(t,u)として求める。
一例として、コストC(t,u)を、後述する各種サブコストの重みつき和として、C(t,u)=Wtf・Stf(t,u)+Wtdur・Stdur(t,u)+Wtpow・Stpow(t,u)+Wcf・Scf(ui−1,u)+Wcpow・Scpow(ui−1,u)+Wcenv・Scenv(ui−1,u)・・・(1)と定義する。
Stf(t,u)はターゲット音素tのFパターンおよび候補素片uのFパターン概形情報におけるFパターン間の歪みを表し、tのFパターンをFt(t)、uの(Fパターン概形情報における)FパターンをFu(u)としたとき、Ft(t)とFu(u)の差の二乗Stf(t,u)={Ft(t)−Fu(u)}とする。以下これを、ターゲットFサブコストと呼ぶ。
なお、従来においては、Fu(u)は、uのFパターン微細情報におけるFパターンであり、本発明では、uのFパターン概形情報におけるFパターンであることに留意する。
Stdur(t,u)はターゲット音素tと候補素片uの間での継続時間長の歪みを表し、tの継続時間長をDURt(t)、uの継続時間長をDURu(u)としたとき、DURt(t)とDURu(u)の差の二乗Stdur(t,u)={DURt(t)−DURu(u)}とする。以下これを、ターゲット継続時間長サブコストと呼ぶ。
Stpow(t,u)はターゲット音素tと候補素片uの間でのパワーの歪みを表し、tのパワーをPOWt(t)、uのパワーをPOWu(u)としたとき、POWt(t)とPOWu(u)の差の二乗Stpow(t,u)={POWt(t)−POWu(u)}とする。以下これを、ターゲットパワーサブコストと呼ぶ。
Scf(ui−1,u)は候補素片uと先行する候補素片ui−1との接続点での(それぞれFパターン微細情報における)Fパターンの歪みを表し、uの始点のFパターンの値をFSu(u)、ui−1の終点のFパターンの値をFEu(ui−1)としたとき、FSu(u)とFEu(ui−1)の差の二乗Scf(ui−1,u)={FSu(u)−FEu(ui−1)}とする。以下これを、接続Fサブコストと呼ぶ。
なお、この接続FサブコストにおけるFパターンは、Fパターン微細情報におけるFパターンであることに留意する。
Scpow(ui−1,u)は候補素片uと、先行する候補素片ui−1の接続点でのパワーの歪みを表し、uの始点のパワーをPOWSu(u)、ui−1の終点のパワーをPOWEu(ui−1)としたとき、POWSu(u)とPOWEu(ui−1)の差の二乗Scpow(ui−1,u)={POWSu(ui)−POWEu(ui−1)}とする。以下これを、接続パワーサブコストと呼ぶ。
Scenv(ui−1,u)は候補素片uと、先行する候補素片ui−1の音素環境の違いを表し、uの先行音素とui−1の後続音素との音響的類似度(例えばスペクトルの類似度)から定義される。以下これを、接続音素環境サブコストと呼ぶ。例えば、uの先行音素とui−1の後続音素とが一致すれば、Scenv(ui−1,u)=0である。例えば、これらの値は音響的類似度データベースとして予め規則化しておき、必要に応じて、この音響的類似度データベースから、uの先行音素とui−1の後続音素との音響的類似度に対応した値を読み込むようにしておく。
また、WtfはStf(t,u)に対する重み、WtdurはStdur(t,u)に対する重み、WtpowはStpow(t,u)に対する重み、WcfはScf(ui−1,u)に対する重み、WcpowはScpow(ui−1,u)に対する重み、WcenvはScenv(ui−1,u)に対する重みである。
上記各サブコストのうち、Stf(t,u)、Stdur(t,u)、Stpow(t,u)が、韻律生成部(542)で求めたターゲット情報(Fパターン、音素継続時間長、パワー情報)と、候補素片uの有するFパターン、音素継続時間長、パワー情報との差から求められるサブコストである。
また、Scf(ui−1,u)、Scpow(ui−1,u)、Scenv(ui−1,u)が、候補素片間でのFパターン、パワー情報、音素環境の違いから求められるサブコストである。
上記各サブコストの計算に必要な候補素片uのFパターン、継続時間長、パワー情報は、音声情報データベース(572)から得ることができる。そして、1つの呼気段落全体の音素列に対するコストCを式(2)によって求める。ここで、Nは1つの呼気段落の音素数を表す。
Figure 0004533255
音声波形選択部(543)は、Cが最小となる最適候補素片列を動的計画法などの手法により求めることで、1つの呼気段落のターゲットに対して最適な音声波形素片列を選択し、この最適な音声波形素片列の各音声波形素片番号(音声波形選択部(543)に入力される音素列の並び順に対応している。)を得る。そして、音声波形選択部(543)は、全ての呼気段落(即ち、テキストに対する全ての音素列)について同様の処理を行い、全ての音素列に対応する最適な音声波形素片列(最適音声波形素片列)の各音声波形素片番号を出力する。
音声合成部(544)は、音声波形選択部(543)で選択された最適音声波形素片列の音声波形素片番号列を入力として、この各番号に対応した音声波形データを(各番号で特定されるエントリーの音声波形データ位置情報を参照して)音声波形データベース(571)から読み込み、それら音声波形データを順次接続して連続した音声を生成し、これを合成音声として出力する(ステップS)。音声合成部(544)における音声合成方法は、例えば波形重畳法などの公知技術によって実現される。
音声波形選択部(543)によるコスト演算のターゲットFサブコストに、候補素片のFパターン概形情報におけるFパターンを用いることによって、図13および図14の模式図に示すように、ターゲットのFパターン(図13の符号301)に近いFパターン概形情報におけるFパターン(図14の符号302a、302b、302c)を有する音声波形素片が選択されやすくなる。
また、この実施形態のように、サブコストに応じてFパターン情報の種別を使い分ける(つまり、ターゲットFサブコストにはFパターン概形情報におけるFパターンを用い、接続FサブコストにはFパターン微細情報のFパターンを用いる。)ことの利点を、図15および図16を用いて説明する。図15と図16は、それぞれ、同一のターゲットのFパターンに対する音声波形素片の候補を表示したものである。また、図15、図16共に、401はターゲットのFパターンを示す。
図15において符号402a、402b、402cは、ある音声波形素片のFパターン微細情報におけるFパターンであり、符号403a、403b、403cは、それぞれ、符号402a、402b、402cのFパターン概形情報におけるFパターンである。また、図16において符号404a、404b、404cはある音声波形素片のFパターン微細情報におけるFパターンであり、符号405a、405b、405cは、それぞれ、符号404a、404b、404cのFパターン概形情報におけるFパターンである。
接続FサブコストにFパターン微細情報におけるFパターンを用いた場合は、符号402a、402b、402c、404a、404b、404cに示すFパターンがサブコストの計算に用いられる。一方、接続FサブコストにFパターン概形情報におけるFパターンを用いた場合は、符号403a、403b、403c、405a、405b、405cに示すFパターンがサブコストの演算に用いられることになる。
この例ではFパターン概形情報におけるFパターンを用いて接続Fサブコストを求めた場合(図15では符号403aと符号403bとの接続点、および、符号403bと符号403cとの接続点。図16では符号405aと符号405bとの接続点、および、符号405bと符号405cとの接続点。)、図15、図16からわかるように、その値は同程度であるが、/U/部分のターゲットに対するFパターンの歪みは図15に示した音声波形素片の方が小さいため、図15に示したFパターン(符号403a、403b、403c)の音声波形素片が選択されてしまう可能性が高い。
そうすると、音声合成部は、符号403a、403b、403cのFパターン(これは、Fパターン概形情報におけるFパターンである。)をFパターン情報に有するエントリーに対応した音声波形データを読み込んで接続することになる。ところが、これら音声波形データは、符号402a、402b、402cのFパターン(これは、Fパターン微細情報におけるFパターンである。)に対応した性質を有するところ、/A/および/R/の音素の間で著しい接続歪みが有り、このような音声波形データで合成された合成音声は、滑らかさを失った不自然なものとなってしまう。つまり、この場合、図16に示した音声波形素片を選択した方が肉声のFパターンの接続点での差が小さいため、合成音声の品質(聴感上の滑らかさや自然さ)が高くなると考えられる。
従って、合成音声の聴感上の滑らかさや自然さを失わないようにするために、接続Fサブコストには、Fパターン微細情報におけるFパターンを用いることとするのである。
<第2実施形態>
第1実施形態では、Fパターン概形情報は、予め音声情報データベース(572)の構成要素として記憶されているとした。これに対し、第2実施形態では、外部記憶装置の記憶容量を節約するなどの観点から、予めFパターン概形情報を生成しておくのではなく、テキストから合成音声を生成する音声合成処理のたびにFパターン概形情報を生成する。
第1実施形態と同じ機能・処理については同一の符号を当てて説明を省略し、第1実施形態と異なる点についてのみ説明を加える。
第2実施形態の音声情報データベース(672)における各エントリーのFパターン情報は、第1実施形態で説明したFパターン微細情報である。第2実施形態においては、第1実施形態で説明したFパターン概形情報は、各エントリーのFパターン情報の構成要素となっていない。即ち、第2実施形態の音声情報データベース(672)は、図2に示すようなデータ構成になっている。
第2実施形態に係わる音声合成装置(600)の外部記憶装置(57)には、第1実施形態で説明したプログラムに加え、各エントリーのFパターン微細情報におけるFパターンから、Fパターン概形情報を得るためのプログラムも保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。
音声合成装置(600)では、外部記憶装置(57)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(55)に読み込まれて、CPU(54)で解釈実行・処理される。その結果、CPU(54)が所定の機能(テキスト解析部、韻律生成部、概形情報生成部、音声波形選択部、音声合成部)を実現することで、音声合成が実現される。
そこで次に、図17〜図19を参照して、音声合成装置(600)における音声合成の流れを順次説明する。
図17は、第2実施形態に係わる音声合成装置の機能構成を例示した機能構成図である。
図18は、第2実施形態に係わる音声合成の処理フローを示す図である。
図19は、Fパターン概形情報を生成する処理フローを示す図である。
第1実施形態の音声合成装置(600)は、テキスト解析部(541)、韻律生成部(542)、概形情報生成部(645)、音声波形選択部(543)、音声合成部(544)から構成される(図17参照)。
ステップS1およびステップS2の処理は第1実施形態と同様であるから説明を省略する。
ステップS2の処理の後、概形情報生成部(645)が、音声情報データベース(672)のエントリーのFパターン情報(Fパターン微細情報)を読み込んで、このFパターン微細情報からFパターン概形情報を生成する(ステップS2a)。Fパターン概形情報の生成は、第1実施形態において説明したとおりであるから、それに即して説明する(図10、図11、図12参照)。
パターン概形情報は、Fパターン微細情報におけるFパターンの微細変動部分を補正して生成するが、より具体的には、Fパターン微細情報におけるFパターンの子音に関わるFパターンの微細変動部分を補正することによって生成する。そこで一例として、子音区間(/R/の区間)のFパターンの変微細動を除去することによって、Fパターン概形情報におけるFパターンを得る処理について説明する。
まず、子音区間(/R/の区間)の両側の各母音区間(/A/および/U/の区間)内で最も高いFパターンの値を示すピーク点を求める(ステップS2a1)。このピーク点は、エントリーにおけるFパターン微細情報および音素継続時間長を参照することによって求めることができる。図11において、/A/の区間では符号202に示す点が、/U/の区間では符号203に示す点が、各母音区間で最も高いFパターンの値のピーク点である。
次に、求めた各母音区間それぞれのピーク点間の直線補間を行う(ステップS2a2)。なお、補正方法は直線補間に限定することなく、例えばスプライン補間などによって補正するものでもよい。図11における符号204の破線は、各母音区間それぞれのピーク点間で、直線補間を行うことで得られるFパターンを示している。以上の処理によって、図12に示すようなFパターン(符号205a、205b、205c)を得ることができる。ここで得られたFパターン(符号205a、205b、205c)が、それぞれの音素のFパターン概形情報である。
なお、以上の説明からも明らかなとおり、補正される(Fパターン微細情報における)Fパターンは、子音部分のFパターンだけなのではなく、母音部分のFパターンの一部(上記例で云えば、/A/のピーク点から終点にかけてのFパターン部分、/U/の始点からピーク点にかけてのFパターン部分)も補正される場合があることに留意しなければならない。
概形情報生成部(645)は、生成したFパターン概形情報を、該当する音素のエントリーのFパターン情報に追加して記憶する(ステップS2a3)。
つまりこの時点で、エントリーのFパターン情報には、Fパターン微細情報およびFパターン概形情報が含まれることになる(図9参照)。
なお、全てのエントリーのFパターン情報(Fパターン微細情報)を読み込み、各エントリーについてFパターン微細情報からFパターン概形情報を生成するのであっては冗漫の場合もある。そこで、概形情報生成部(645)は、テキスト解析部(541)によって生成された音素列に含まれる音素について、音声情報データベース(572)の音素ラベルの項目を参照して、そのエントリーのFパターン情報(Fパターン微細情報)を読み込み、各音素についてFパターン概形情報を生成するようにしてもよい。
ステップS3およびステップS4の処理は第1実施形態と同様であるから説明を省略する。
本発明である音声合成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、音声波形選択部によるコスト演算におけるサブコストとして、ターゲットのFパターンと候補素片のFパターンとの傾きの一致度を示すサブコストも導入し(式(1)の右辺に加算する。)、そのサブコストの計算にFパターン概形情報におけるFパターンを用いるようにしてもよい。また、上記音声合成装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記音声合成装置における処理機能をコンピュータによって実現する場合、音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声合成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声合成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明の音声合成装置・方法は、テキスト音声変換に有用である。
従来的な音声合成装置の機能構成例を示す図。 音声情報データベースの一例を示す図。 パターン微細情報の一例を示す図。 音声波形素片選択結果のFパターンの一例を示す図。 音声波形素片選択結果のFパターンの一例を示す図。 第1実施形態に係わる音声合成装置のハードウェア構成を例示したハードウェア構成図。 第1実施形態に係わる音声合成装置の機能構成を例示した機能構成図。 第1実施形態に係わる音声合成の処理フローを示す図。 第1実施形態に係わる音声情報データベースのデータ構成を示す図。 パターン概形情報の生成方法の一例を示す図(その1)。 パターン概形情報の生成方法の一例を示す図(その2)。 パターン概形情報の生成方法の一例を示す図(その3)。 ターゲットのFパターンの一例を示す図。 音声波形素片選択結果のFパターンの一例を示す図。 ターゲットのFパターンと音声波形素片選択結果のFパターンとの関係を示す図(その1)。 ターゲットのFパターンと音声波形素片選択結果のFパターンとの関係を示す図(その2)。 第2実施形態に係わる音声合成装置の機能構成を例示した機能構成図。 第2実施形態に係わる音声合成の処理フローを示す図。 パターン概形情報を生成する処理フローを示す図。
符号の説明
101 音声波形素片のFパターン(Fパターン微細情報)
102 ターゲットのFパターン
103a 音声波形素片のFパターン(Fパターン微細情報)
103b 音声波形素片のFパターン(Fパターン微細情報)
103c 音声波形素片のFパターン(Fパターン微細情報)
104a 音声波形素片のFパターン(Fパターン微細情報)
104b 音声波形素片のFパターン(Fパターン微細情報)
104c 音声波形素片のFパターン(Fパターン微細情報)
201 音声波形素片のFパターン(Fパターン微細情報)
201 Fパターン概形情報の生成方法の一例における、母音区間内でFパターンの値が最も高いピーク点
203 Fパターン概形情報の生成方法の一例における、母音区間内でFパターンの値が最も高いピーク点
204 Fパターン概形情報の生成方法の一例における直線補間結果
205a 生成された音声波形素片のFパターン(Fパターン概形情報)
205b 生成された音声波形素片のFパターン(Fパターン概形情報)
205c 生成された音声波形素片のFパターン(Fパターン概形情報)
301 ターゲットのFパターン
302a 音声波形素片のFパターン(Fパターン概形情報)
302b 音声波形素片のFパターン(Fパターン概形情報)
302c 音声演形素片のFパターン(Fパターン概形情報)
401 ターゲットのFパターン
402a 音声波形素片のFパターン(Fパターン微細情報)
402b 音声波形素片のFパターン(Fパターン微細情報)
402c 音声波形素片のFパターン(Fパターン微細情報)
403a 音声波形素片のFパターン(Fパターン概形情報)
403b 音声波形素片のFパターン(Fパターン概形情報)
403c 音声波形素片のFパターン(Fパターン概形情報)
404a 音声波形素片のFパターン(Fパターン微細情報)
404b 音声波形素片のFパターン(Fパターン微細情報)
404c 音声波形素片のFパターン(Fパターン微細情報)
405a 音声波形素片のFパターン(Fパターン概形情報)
405b 音声波形素片のFパターン(Fパターン概形情報)
405c 音声波形素片のFパターン(Fパターン概形情報)
500 音声合成装置
541 テキスト解析部
542 韻律生成部
543 音声波形選択部
544 音声合成部
571 音声波形データベース
572 音声情報データベース
600 音声合成装置
645 概形情報生成部
672 音声情報データベース

Claims (8)

  1. 入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成装置であって、
    入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析手段と、
    テキスト解析手段によって生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成手段と、
    合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶する記憶手段と、
    テキスト解析手段によって生成された音韻系列に従い、少なくとも、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択手段と、
    音声波形選択手段によって選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成手段と
    を備え、
    音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン情報は、
    肉声のFパターンの微細変動を保持したFパターン微細情報および、Fパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによって生成したFパターン概形情報から構成され、
    音声波形選択手段におけるコストの演算には、少なくとも、韻律生成手段によって生成された韻律情報におけるFパターン情報と、音声情報データベースのエントリーにおけるFパターン概形情報とのコストの演算を含む
    ことを特徴とする音声合成装置。
  2. 入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成装置であって、
    入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析手段と、
    テキスト解析手段によって生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成手段と、
    合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン微細情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶する記憶手段と、
    音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによってF パターン概形情報を生成する概形情報生成手段と、
    テキスト解析手段によって生成された音韻系列に従い、少なくとも、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択手段と、
    音声波形選択手段によって選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成手段と
    を備え、
    音声波形選択手段におけるコストの演算には、少なくとも、韻律生成手段によって生成された韻律情報におけるFパターン情報と、概形情報生成手段によって生成されたFパターン概形情報とのコストの演算を含む
    ことを特徴とする音声合成装置。
  3. 音声波形選択手段は、
    テキスト解析手段によって生成された音韻系列に従い、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)および各エントリー間のコストを演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するものであり、
    各エントリー間のコストの演算には、少なくとも各エントリーにおけるFパターン微細情報間のコストの演算を含む
    ことを特徴とする請求項1または2に記載の音声合成装置。
  4. 入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成方法であって、
    記憶手段には、合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶し、
    テキスト解析手段が、入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析ステップと、
    韻律生成手段が、テキスト解析ステップにおいて生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成ステップと、
    音声波形選択手段が、テキスト解析ステップにおいて生成された音韻系列に従い、少なくとも、韻律生成ステップにおいて生成された韻律情報と、記憶手段に記憶される音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを記憶手段に記憶される音声情報データベースから選択する音声波形選択ステップと、
    音声合成手段が、音声波形選択ステップにおいて選択されたエントリーに従って記憶手段に記憶される音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成ステップと
    を有し、
    記憶手段に記憶される音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン情報は、
    肉声のFパターンの微細変動を保持したFパターン微細情報および、Fパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによって生成したFパターン概形情報から構成され、
    音声波形選択ステップにおけるコストの演算には、少なくとも、韻律生成ステップにおいて生成された韻律情報におけるFパターン情報と、音声情報データベースのエントリーにおけるFパターン概形情報とのコストの演算を含む
    ことを特徴とする音声合成方法。
  5. 入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位(合成単位)で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成方法であって、
    記憶手段が、合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のFパターン微細情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶し、
    テキスト解析手段が、入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析ステップと、
    韻律生成手段が、テキスト解析ステップにおいて生成された音韻系列から、少なくとも合成単位ごとの音声のFパターン情報を含む韻律情報を生成する韻律生成ステップと、
    概形情報生成手段が、記憶手段に記憶される音声情報データベースのエントリーにおける合成単位ごとの音声のFパターン微細情報における子音部分を挟む両側の母音部分それぞれのF パターン微細情報の最大値を示すピーク点間を補間することによってF パターン概形情報を生成する概形情報生成ステップと、
    音声波形選択手段が、テキスト解析ステップにおいて生成された音韻系列に従い、少なくとも、韻律生成ステップにおいて生成された韻律情報と、記憶手段に記憶される音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択ステップと、
    音声合成手段が、音声波形選択ステップにおいて選択されたエントリーに従って記憶手段に記憶される音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成ステップと
    を有し、
    音声波形選択ステップにおけるコストの演算には、少なくとも、韻律生成ステップにおいて生成された韻律情報におけるFパターン情報と、概形情報生成ステップにおいて生成されたFパターン概形情報とのコストの演算を含む
    ことを特徴とする音声合成方法。
  6. 音声波形選択ステップは、
    テキスト解析ステップにおいて生成された音韻系列に従い、韻律生成ステップにおいて生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度(コスト)および各エントリー間のコストを演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するものであり、
    各エントリー間のコストの演算には、少なくとも各エントリーにおけるFパターン微細情報間のコストの演算を含む
    ことを特徴とする請求項4または5に記載の音声合成方法。
  7. 請求項1から請求項3のいずれかに記載された音声合成装置としてコンピュータを機能させるための音声合成プログラム。
  8. 請求項7に記載の音声合成プログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体。
JP2005186454A 2005-06-27 2005-06-27 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 Expired - Fee Related JP4533255B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005186454A JP4533255B2 (ja) 2005-06-27 2005-06-27 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005186454A JP4533255B2 (ja) 2005-06-27 2005-06-27 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2007004011A JP2007004011A (ja) 2007-01-11
JP4533255B2 true JP4533255B2 (ja) 2010-09-01

Family

ID=37689677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005186454A Expired - Fee Related JP4533255B2 (ja) 2005-06-27 2005-06-27 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4533255B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
JP5366919B2 (ja) * 2010-12-07 2013-12-11 日本電信電話株式会社 音声合成方法、装置、及びプログラム
JP5411845B2 (ja) * 2010-12-28 2014-02-12 日本電信電話株式会社 音声合成方法、音声合成装置及び音声合成プログラム
CN113539239B (zh) * 2021-07-12 2024-05-28 网易(杭州)网络有限公司 语音转换方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097291A (ja) * 1996-09-20 1998-04-14 Matsushita Electric Ind Co Ltd Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP2000066695A (ja) * 1998-08-18 2000-03-03 Ntt Data Corp 素片辞書、音声合成方法及び装置
JP2002189489A (ja) * 2000-02-18 2002-07-05 Victor Co Of Japan Ltd 音声合成装置
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004126205A (ja) * 2002-10-02 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び音声合成装置、音声合成プログラム
JP2005091551A (ja) * 2003-09-16 2005-04-07 Advanced Telecommunication Research Institute International 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097291A (ja) * 1996-09-20 1998-04-14 Matsushita Electric Ind Co Ltd Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP2000066695A (ja) * 1998-08-18 2000-03-03 Ntt Data Corp 素片辞書、音声合成方法及び装置
JP2002189489A (ja) * 2000-02-18 2002-07-05 Victor Co Of Japan Ltd 音声合成装置
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004126205A (ja) * 2002-10-02 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び音声合成装置、音声合成プログラム
JP2005091551A (ja) * 2003-09-16 2005-04-07 Advanced Telecommunication Research Institute International 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
JP2007004011A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
US8338687B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
EP2270773B1 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
US8315871B2 (en) Hidden Markov model based text to speech systems employing rope-jumping algorithm
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5512597B2 (ja) 音声合成装置とその方法とプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP3109778B2 (ja) 音声規則合成装置
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4167084B2 (ja) 音声合成方法及び装置、並びに音声合成プログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
EP1589524B1 (en) Method and device for speech synthesis
EP1640968A1 (en) Method and device for speech synthesis
JPH1097268A (ja) 音声合成装置
JP2007079019A (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100611

R150 Certificate of patent or registration of utility model

Ref document number: 4533255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140618

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees