[go: up one dir, main page]

JP3706112B2 - Speech synthesizer and computer program - Google Patents

Speech synthesizer and computer program Download PDF

Info

Publication number
JP3706112B2
JP3706112B2 JP2003066521A JP2003066521A JP3706112B2 JP 3706112 B2 JP3706112 B2 JP 3706112B2 JP 2003066521 A JP2003066521 A JP 2003066521A JP 2003066521 A JP2003066521 A JP 2003066521A JP 3706112 B2 JP3706112 B2 JP 3706112B2
Authority
JP
Japan
Prior art keywords
speech
voice
utterance
spontaneous
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003066521A
Other languages
Japanese (ja)
Other versions
JP2004279436A (en
Inventor
ニック キャンベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, ATR Advanced Telecommunications Research Institute International, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2003066521A priority Critical patent/JP3706112B2/en
Publication of JP2004279436A publication Critical patent/JP2004279436A/en
Application granted granted Critical
Publication of JP3706112B2 publication Critical patent/JP3706112B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は音声合成技術に関し、特に、自然発話の音声データベースから、自然に聞こえる音声を合成するための技術に関する。
【0002】
【従来の技術】
音声合成とは、もともと自然なものという事はできない。しかし、自然に聞こえる音声を合成する技術に関する需要は存在する。たとえば何らかの原因で発話を行なう事ができない人のためのコミュニケーションの補助、音声から音声への自動翻訳、電話を介した音声による情報提供、又は顧客からの電話による問合せに対する対応などにおいてそうした音声合成技術が必要とされる。
【0003】
自然に聞こえる音声を合成しようとする場合、話の内容に従って異なるトーンの音声を使い分ける必要がある。そのためには、音声合成に使用される音声を要素に細分し、それぞれにその要素がどの様な場合に用いられる音声であるかを表すラベルを付ける必要がある。
【0004】
現在のところ、そうした自然に聞こえる音声合成を行なうために使用可能と思われる、大規模な自然発話音声のコーパスがいくつか存在する。しかし、コーパスに含まれる音声を分割して各々にラベル付けを行なう作業は膨大なものとなる。また、自然発話の音響的特徴をモデル化する事に関連してまだ解決されていない多くの問題が存在する。
【0005】
一方、音素バランス文を読上げた音声からなる音声データベース(以下これを「バランス文音声DB」と呼ぶ。)では、そうしたラベル付けは比較的容易である。バランス文音声DBは、全ての音素及び全ての韻律をデータベース化している。
【0006】
従来、バランス文音声DBを用いた音声合成技術として、たとえば非特許文献1また非特許文献2で紹介されたCHATRと呼ばれる、音素を選択して連結するものが存在する。
【0007】
音素を連結する事による音声合成の標準的な方法は、非特許文献1又は非特許文献2に記載された様に2段階を経る。第1の段階では、合成すべきテキスト(ターゲット)に従った音素上の及び韻律上の制約を反映した目的コスト関数を用いて、音声の各区間ごとに適切な候補をいくつかのコーパスから選択する。第2の段階では、合成後の音声をできるだけ滑らかにする様に、連結のためのコストを最小化する様、各区間の候補の中から一つずつを選択し、それらを連結して音声合成を行なう。
【0008】
このプロセスのターゲットは、通常は、所望の出力音声を音素的に及び韻律的に表した、予め知られた記号表現(アルファ−ニューメリック)である。
【0009】
【非特許文献1】
キャンベル、W.N.、ブラック、A.W.、「CHATR 多言語音声再配列合成システム、IEICE技報 SP96−7,45−52,1996(Campbell,W.N.”CHATR a multilingual speech re−sequencing synthesis system”、Technical Report of IEICE SP96−7,45−52,1996)
【非特許文献2】
キャンベル、W.N.、「CHATR合成のための音声コーパスの処理」、音声処理に関する国際会議予稿集 183−186,1997(Campbell,W.N.,”Processing a Speech Corpus for CHATR Synthesis”,Proceedings of the International Conference on SpeechProcessing 183−186,1997)
【非特許文献3】
P.アルク及びE.ヴィルクマン、「逆フィルタリングにより推定した、声門容積速度波形のキャラクタリゼーションのための振幅ドメイン指数」、Speech Comm.,第18巻、第2号、pp.131−138,1996(P.Alku and E.Vilkman,”Amplitude domainquotient for characterization of the glottal velocity waveform estimated by inverse filtering”,Speech Comm.,vol.18、no.2、pp.131−138、1996)
【非特許文献4】
P.アルク、T.ベックストローム、及びE.ヴィルクマン、「声門気流のパラメータ化のための正規化振幅指数」、J.Acoust.Soc.Am.,vol.112,no.2,pp.701−710,2002(P.Alku、T.Baeckstroem、and E.Vilkman、”Normalized amplitude quotient for parametrization of the glottal flow”、J.Acoust.Soc.Am.,vol.112,no.2,pp.701−710,2002)
【発明が解決しようとする課題】
今日まで「コーパスベースの」音声合成として行なわれてきた研究の大部分は、実際は「データベースの」音声合成についてのものであったといわれている。その相違は、発話スタイルをどの程度カバーしているか、どの様な種類の発話スタイルに関するものであるか、という点である。
【0010】
「コーパス」とは、ある言語を多少とも代表するテキスト又は音声の集合であり、ある言語に関する言語学的説明のための出発点又はある言語についての仮説を検証するための手段として使用できるものの事をいう。この場合、実際に使用されている言語の真正の実例についてのシステマチックな研究のためには、その集合が、ある言語の状態又は変化を特徴付ける様に選ばれた、自然発生的な言語(すなわちテキスト又は音声)の集まりである事が重要である。
【0011】
ある特定の言語学的特徴を示す目的のために書いたテキストは、通常は言語学的研究のための真のコーパスに含ませるべきではないと考えられる。なぜならそれらは、「真正の」ものという基準を満たさず、従って「自然発生的なもの」でもないためである。
【0012】
しかし、今までのところ、音声合成の研究に使用されてきたデータベースの大多数は、特定の目的のために設計されたものであり、通常は職業的なアナウンサが注意をはらって読んだものをスタジオ録音したものからなっている。それらは「使用されている音声」を代表するものではなく、常日頃経験する、言葉を用いた生活で出会う様な自然な発話スタイル及び発話状況に応じた変化形を含んでいるものでもない。
【0013】
バランス音声DBは、詳細にラベル付けを行なう事が可能である。しかしバランス音声DBに含まれる音声は、話し言葉のフォーマルな言語学的特徴の多くの例を含んではいるが、話し言葉による社会的、相互作用的な機能という局面での特徴についてはほとんど含んでいない。バランス音声DBを用いて音声合成を行なった場合、その結果得られる合成音声は硬い発音となり、自然な音声として聞こえるものではない。
【0014】
もしも音声合成をより自然な形で行なう方向で発展させるのであれば、話し言葉による相互作用の全ての局面を表す事ができるコーパスであって、かつ話者の状態、態度、及び意図など、話し言葉をその意図に沿って解釈するための手掛かりを提供する非言語的情報をも含んだコーパスに基づいた研究を行なう事が必要である。
【0015】
これを解決するために、自然発話DBを用いる事が考えられる。しかし自然発話DBを音声合成に用いようとすると、前述した通りラベル付けの作業が膨大となり、さらにラベル付けのための音響的な特徴をモデル化する事も困難であるという問題がある。そのため、従来は、自然発話音声DBを用いて自然に聞こえる音声合成を行なう事が困難であるという問題点があった。
【0016】
本発明はこの様な問題を解決するためになされたものであって、自然発話音声DBを用いて自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事を目的とする。
【0017】
この発明の他の目的は、自然発話音声DBのラベル付けを行なう事なく、自然発話音声DBを用いて自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事である。
【0018】
この発明のさらに他の目的は、最初のターゲットから何らかの手段で音響的ターゲットを生成し、この音響ターゲットに類似した音声を自然発話音声DBから抽出する事により、自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事である。
【0019】
この発明の別の目的は、ターゲットの非言語的、パラ言語的特徴に沿った発話スタイルで、自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事である。
【0020】
【課題を解決するための手段】
本発明の第1の局面に係る音声合成装置は、予め言語情報についてのラベル付けがされた朗読音声データからなる朗読音声データベースと、自然発話音声データからなる自然発話音声データベースと、非言語情報が予め付与されたテキスト情報を受け、朗読音声データベースからテキスト情報に付与された非言語情報と合致する言語情報が付与された音声データを抽出する事により、テキスト情報に対応する音声信号を合成するための音声合成手段と、自然発話音声データベースから音声信号の各部分について、各部分との間に定義される距離の小さいものから順番に自然発話音声データを複数個選択するための候補選択手段と、音声信号の各部分について、自然発話音声データベースから、候補選択手段により選択された複数個の自然発話データの各々について予め定められた韻律的特徴を算出し、テキスト情報に付与されている非言語情報と合致するものを選択するためのフィルタ手段と、フィルタ手段により選択された自然発話データに基づいて音声信号を合成するための手段とを含む。
【0021】
好ましくは、テキスト情報に予め付与されている非言語情報は、予め定められた韻律的特徴を示す特徴ベクトルであり、フィルタ手段は、候補選択手段により選択された複数個の自然発話データの各々について予め定められた韻律的特徴を示す特徴ベクトルを算出し、テキスト情報に予め付与されている特徴ベクトルとの類似度が最も高いものを選択するための手段を含む。
【0022】
さらに好ましくは、予め定められた韻律的特徴は、正規化振幅指数、音声信号のパワー、音声信号の持続時間、及び基本周波数のうち少なくとも一つを含む。
【0023】
候補選択手段は、音声信号の各部分について、自然発話音声データベースから、各部分との間でDP(Dynamic Programming)マッチングにより算出されるDP距離が予め定められたしきい値より小さなものを選択するための手段を含んでもよい。
【0024】
候補選択手段は、音声信号の各部分について、自然発話音声データベースから、各部分との間でDPマッチングにより算出されるDP距離の小さなものから順番に予め定められた複数個だけ選択するための手段を含んでもよい。
【0025】
本願発明の第2の局面は、コンピュータにより実行されると、当該コンピュータを上記したいずれかの音声合成装置として動作させるコンピュータプログラムに関する。
【0026】
【発明の実施の形態】
−自然発話の特徴を表す声質について−
スタジオ録音された音声と、日頃親しんでいる音声との間の最も大きな相違は、日頃親しんでいる音声で経験する発話スタイルが非常に大きな範囲にわたっているという点である。これは、話者が、発話時にその状況における発話のフォーマルさを示すために、喉頭部の設定を種々に変化させるためと思われる。
【0027】
出願人において作成した音声コーパスの話者の一人について、100時間以上の録音を行なって得た音声データを、発話サイズのチャンク(かたまり)に分割した。これらチャンクについてさらに、発話スタイルの特徴を3段階で示す様にラベル付けした。ラベルは以下の3種類である。
【0028】
(a) 話者の状態(感情及び態度)
(b) 話のスタイル(友好的、丁寧、柔らか、ためらいがち、など)
(c) 各発話の間の話者の声の調子(ブレシー、暖か、緊張気味など)
なおここでブレシー(breathy)とは気息性という事を意味し、典型的には丁寧でやさしく話すときの話し方の特徴である。この逆はプレスト(pressed)という。
【0029】
これら3つのラベルからなるベクトルを、音声から抽出した音響的特徴(ピッチ、パワー、話す速度、気息性の度合いなど)と組合せた。さらに、この結果得られる多次元空間の複雑さを軽減するために主成分分析(PCA)を行なった。PCA分析の第1次元は話者と相手との間の関係(仲のよさ)によく対応し、第2次元は発話内容(誠実さ)によく対応し、第3次元は話者の態度(熱意)によく対応した。
【0030】
これは、相手との関係及び対話の目的に応じて、話者がその声の質、ピッチの幅、及びその表現を変化させているためだと思われる。別の人には別の話し方で話すというのは常識に適っている。しかし、音声関連の分野では、家族、友人、仕事上の知人、他人、及び機械などに対して人が話すときの発話スタイル及び音声の特徴がどの様に相違するかについては、ほとんどデータが蓄積されてこなかった。
【0031】
実施の形態の説明をする前に、その背景となる上記した発話スタイル及び音声の特徴の相違について説明する。図1に、二人の話者(FIA及びFAN)についての正規化振幅指数(Normalised Amplitude Quotient:NAQ)の分布を示す。NAQとは、振幅係数(AmplitudeQuotient:AQ)を基本周波数f0で正規化したものである。
【0032】
AQとは、非特許文献3においてアルク(Alku)により示されているものであって、音声信号から声道の影響を除去するために、最適化した、時間的に変化するフォルマントを用いて音声を逆フィルタリングする事により得られる声門(声帯)気流の波形の微分の推定値であり、その波形のピークツーピークの振幅の最大値を、波形の微分のサイクルツーサイクルの振幅の最小値で除したものである。AQは声門の発音のモード(「声の質」)を示す。
【0033】
AQは、そのままでは発話波形の基本周期と弱い相関を持つが、基本周波数f0で除する事によりその影響を削減できる。その結果得られるのがNAQである。
【0034】
図1の下半分に示すのは、二人の日本人の女性話者(FIA,FAN)の発話について測定したNAQのヒストグラムである。図1の上半分には、非特許文献4でAlkuらにより、5人の男性話者および5人の女性話者について報告された「プレスト」、「地声(通常)」、及び「ブレシー(気息性)」に関する測度測度と比較したものである。図1から、個人により多少の変動はあるが、分布全体の形状は類似したものである事、及びそれが前記文献に記載された「プレスト」、「地声(通常)」、及び「ブレシー(気息性)」という範囲に当てはまる事が分かる。話者FANのデータに見られる歪みは、以下に説明する様によりくだけた(プレストな)発話スタイルが優勢である事により説明できる。
【0035】
以下、この変動がランダムなものではない事、この変動が発話の非言語的特徴、たとえば対話相手との関係、発言の意図、及び発話スタイルなどとの相関により最もよく説明できる事、ならびにそのためこの変動を韻律的パラメータとして考えるべき事を示す。
【0036】
出願人は、約250時間の音声データを収集し、聞き取りによりテキスト入力を行った。そのうち約100時間分について発話スタイルと発話とその目的との間の関係という特徴に関するラベル付けを行なった。音声の音響的測定を行ない、知覚上の属性と物理的属性との間の相関に関する分析を行なった。
【0037】
以下の説明では、一人の日本人女性話者から得られたデータについての検討をする。この女性は、頭部に装着した高性能なマイクを用いて毎日の会話を録音した。分析はこの女性の発話に対してのみ行なわれたが、ときには相手の発言もラベル付けを行なう作業者に聞き取れた。
【0038】
データは、音響的及び知覚的なラベルを適切に付す事ができた13,604発話からなる。「発話」とは、文書化の担当者にとっては、知覚できる切れ目のない音声部分の事をいい、おそらくは「イントネーションフレーズ」に対応するものである。その長さは単一シラブルから35シラブルまでにわたっている。
【0039】
データはCRANのパブリックドメインの統計ソフトウェアパッケージ「R」を用いて分析された。相手(「誰に」)、発話スタイル(「どの様に」)、及び発話活動(「何のために」)からなる特徴集合を生成し、NAQと音声の基本周波数f0という測度と照合する事により何らかの相関があるかどうかについて検討した。
【0040】
対話の相手は次の表1に記載の様にグループ分けした。
【0041】
【表1】

Figure 0003706112
発話スタイルについては本実施の形態では簡略化し、「家族」、「友人」及び「他人」、さらに自分に対する発話という分類の各々について「丁寧」、「親しい」、及び「くだけた」というグループに分けた。全部で24の発話カテゴリがあったが、ここではそのうちの次の5つについて論じる。すなわち「情報の提供」、「あいづち」、「情報の要求」、「つぶやき」、及び「繰返しの要求」である。
【0042】
−発話の韻律とNAQ−
正規化前には、AQ基本周波数f0とr=−0.406の相関を有していた。正規化(NAQ=log(AQ)+log(f0))により得られたNAQは基本周波数f0とr=0.182の相関を有していた。
【0043】
図2は、家族に対する発話についてのNAQと基本周波数f0とを示す。図2において、m1、m2、m3、m4、m5、m6、及びm8は、それぞれ母、父、娘、夫、姉、姉の子、及び叔母を示す。図2から、いくつか興味ある傾向がわかる。すなわち、話者(女性)の娘(1歳)に対する発話が、基本周波数f0及び気息性のいずれにおいても最も高い値を示している。気息性から、家族の序列が次の様に定まる。すなわち、娘>姉の子>父>母=姉>叔母>夫という順序である。この順序が、家族内での対話において、「気配り」をされている程度を示すという事が可能かも知れない。ラベル付け作業者も、この結果は発話を聞いているときの印象と一致している事を確認した。
【0044】
図3は、対話の相手によるNAQと基本周波数f0とを示す。図3において「f」は友人を示す。「m」は家族、「t」は他人を示す。興味深いのは、友人に対する「a」(注意深い発話)に関するNAQの値は高く「b」(親しい会話)及び「c」(くだけた会話)の間では違いが見られないのに対して、家族間の会話ではこの関係が逆転している事である。すなわち、注意深い会話と親しい会話との間では違いが見られないのに対して、くだけた会話ではNAQの値はかなり低くなっている。他人との会話については、くだけた会話はないが、注意深い会話及び親しい会話は予想した通りのNAQの相違を示した。
【0045】
図4は、発話とその目的についての相違について論ずる。既に述べた事から、注意深い会話においては、より「手ごろな」会話と比較してNAQの値が高くなる事が予測される。図4は、この予想が正しい事を示す。図4は5つのカテゴリ(つぶやき(「?」)、間投詞(「I」)、情報の提供(「e」)、情報の要求(「re」)、及び繰返しの要求(「rz」))についてのNAQと基本周波数f0とを示す。
【0046】
図4を参照して、情報の提供のNAQの値は、情報の要求についての値よりもかなり低い。また、繰返しの要求のNAQの値が最も高い。「つぶやき」については他とは別カテゴリであると考えられるが、それは図4によっても裏打ちされる。すなわち、つぶやきについてはf0がきわだって低く、気息性(高NAQ値)の声質を示している。
【0047】
以上から、NAQにより測定した声質が、会話の相手、発話スタイル、及び発話の目的と大きな相関を持っている事が分かる。NAQは、会話においてはらう「注意」の程度によって一定の変化をし、基本周波数とは独立に変化する。従って、この声質を、基本周波数f0、発話の長さ、及び振幅とともに韻律的特徴と考える事ができ、意味上の非言語的な相違を示すために音声合成において制御すべきものと考える。
【0048】
−音声合成装置の構成−
上に述べた考え方に従い、NAQにより測定した声質を制御することにより、意味上の非言語的な相違が反映された音声合成を行なう音声合成装置の実施の形態について以下説明する。
【0049】
図5に、この一実施の形態に係る音声合成装置のブロック図を示す。図5を参照して、この音声合成装置は、入力される音声合成の対象となるテキスト及び非言語情報を表す属性などを含む入力XML(Extended Mark−UpLanguage)文30を前処理し、音声合成のターゲットとなるテキストを作成する前処理部32と、予め準備された特定の話者のバランス文音声DB34と、前処理部32により生成されたターゲットテキストに対し、バランス文音声DBから適切な音素列を選択し連結する事により、入力XML30に対する音声波形データを生成するための波形生成部36と、波形生成部36により生成された音声波形データに基づいて音声信号を合成するための音声信号合成部38とを含む。
【0050】
波形生成部36及び音声信号合成部38にはいずれも従来の音声合成技術を用いる事ができる。バランス文音声DB34の音声は自然な音声ではないので、生成される音声は生硬で、自然とはいえない音声となる。ただし、バランス文音声DB34に含まれる各音素については、音素バランス文の朗読文から得られたものなので、適切にラベル付けをする事が可能である。その結果、音声信号合成部38から出力される音声信号は、生硬ではあるが、入力XML30で指定された非言語情報に比較的よくあった音声信号となる。
【0051】
本実施の形態に係る装置は、この様に音声信号合成部38の出力として得られた音声信号を、自然な音声合成のための音響的ターゲット40としてさらに自然発話音声データを用いて音声合成を行ない、自然な発話に近い合成音声信号54を得る点にある。そのために本実施の形態の装置は、上記した各構成要素に加えて、バランス文音声DB34の話者と同じ話者(又はよく似た声を出す人)の自然な発話を集める事により予め準備された自然発話音声DB42を用いる。自然発話音声DB42は、上記した話者の自然発話を収集する事により得られたもので、様々な状況での音声データを集めてある。ただし、この自然発話音声DB42内の音声データには、上記した非言語情報に合わせて音声を抽出するためのラベル付けなどはしていない。自然発話についてそうしたラベル付けをする事が、従来の技術の説明で述べた様に困難だからである。
【0052】
この装置はさらに、音響的ターゲット40の各時間期間について、DPマッチングによって自然発話音声DB42の中から比較的近い(DP距離が小さい、すなわち類似度が高い)音声データを音声合成のための候補として複数個選択し、候補列46として出力するための候補選択部44と、候補列46内の各候補について所定の韻律的属性を求め、その部分について入力XML30で指定された非言語的情報と合致した韻律的属性を示すもののみを選択するためのフィルタ部48とを含む。ここで使用される時間期間は、可変長である。
【0053】
フィルタ部48が各候補列から求める韻律的属性としては、よく知られている基本周波数f0、音声データのパワー、発話の長さに加えて、上記したNAQを含む。たとえばこれら各要素について、入力XML30では各発話単位(たとえば文)について予め特徴ベクトル(又は特徴ベクトルを計算するための情報)が非言語情報として付与されている。各候補についてもこれらの情報を計算する事ができ、比較のための特徴ベクトルを作成する事ができる。フィルタ部48は、各候補について計算された特徴ベクトルと、入力XML30でその発話単位について付与されていた特徴ベクトルとの間の距離を計算し、最も小さな距離を示した候補であって、かつ連結したときになめらかに連結できる様な候補を選択する。フィルタ部48は、この様にして最終的に音声合成をするための最終音声データ列50を出力する。
【0054】
この装置はさらに、最終音声データ列50に基づいて波形生成を行なうための波形生成部52を含む。波形生成部52が出力する合成音声信号54は、自然発話音声DB42から抽出した音声データに基づいて合成されており、かつその各発話単位は入力XML30においてその発話単位に付与されていた非言語情報によく合致したものとなる。従って、合成音声信号54は、自然に聞こえる音声であって、かつ指定された発話モードによく合致したものとなる。
【0055】
−音声合成装置の動作−
この装置は以下の様に動作する。入力XML30が前処理部32に与えられると、前処理部32は音声合成すべきテキストを各発話単位で作成し、かつ入力XML30において各発話単位に付与されていた非言語情報を抽出する。波形生成部36は、バランス文を朗読した音声から作成した朗読音声データベースであるバランス文音声DB34から、前処理部32によって与えられたテキストを合成するための音声データをバランス文音声DB34から抽出する。波形生成部36はこの際、前処理部32から与えられた非言語情報と一致するラベルが付された音声データを抽出する。波形生成部36はさらに、抽出した音声データを従来の技術に従ってなめらかに連結し、音声信号合成部38に与える。
【0056】
音声信号合成部38は、この音声データ列に基づいて、従来の技術に従って音声合成を行ない、自然発話音声合成のための音響的ターゲット40を出力し候補選択部44に与える。この音響的ターゲット40の例を図6に示す。図6に示す例では、音響的ターゲット40は時間期間92,94,96及び98を含む。この期間は可変長である。またこれらの時間期間は互いに一部重複していてもよい
図5を参照して、候補選択部44は、図6に示す各区間92,94,96及び98について、自然発話音声DB42からDPマッチングにより音響的ターゲット40の波形と類似した音声データ候補列112,114,116,118をそれぞれ抽出する。音声データ候補列112、114,116,118の各々は複数の音声データ候補を含む。本実施の形態では、候補選択部44は、DP距離の小さなものから順番に所定の複数個を候補として選択する。候補選択部44はこれら音声データ候補列112、114、116、118を図5に示す候補列46としてフィルタ部48に与える。
【0057】
フィルタ部48は、たとえば図6に示す時間期間92について、音声データ候補列112に含まれる各候補の特徴ベクトルを算出する。そしてこの特徴ベクトルと、入力XML30において付与されていた特徴ベクトルとを比較して、その間で計算されるコサイン尺度(すなわち類似度)が小さなものであって、かつ連続する期間の音声データと滑らかに連結できる様な候補132を選択する。同様にフィルタ部48は、時間期間94,96,98等についても複数の候補から候補134、136、138を抽出する。これらが図5に示す最終音声データ列50となる。
【0058】
波形生成部52はこれら最終音声データ列50を滑らかに連結した合成音声信号54を出力する。
【0059】
以上説明した本実施の形態の装置によれば、一旦バランス文音声DB34を用いて音響的ターゲット40を生成し、この音響的ターゲット40に近く、かつ入力XML30に付与されていた非言語的特徴と一致した韻律的特徴を示す音声データを自然発話音声DB42から抽出する事ができる。この音声データ列から合成した合成音声信号54を得る事ができる。そのため、合成音声信号54は、自然に聞こえる音声であってかつ最初に指定された非言語的特徴によく合致したものとなる。また、自然発話音声DB42からの抽出のために、自然発話音声DB42中の音声データに予めラベル付けをしておく必要はない。バランス文音声DB34のラベル付けだけをしておけばよく、これは容易に行なう事ができる。
【0060】
上記した実施の形態では、候補選択部44は、DP距離の小さなものから順番に所定の複数個を選択する。しかし本発明はその様な実施の形態には限定されない。たとえば、候補選択部44は、DP距離が所定のしきい値より小さなもののみを候補として選択する様にしてもよい。また、DP距離の小さなものから順番に、かつ所定のしきい値より小さなもののみを選択する様にしてもよい。
【0061】
なお、ここに説明した実施の形態の装置は1又は複数のコンピュータ及び当該1又は複数のコンピュータ上で実行されるソフトウェアにより実現する事ができる。そのソフトウェアの制御構造は、図5に示したブロック図とよく対応している。そのため、ここではその詳細は説明しない。当業者であれば、上記した説明からソフトウェアをどの様に構成すればよいかは明らかであろう。
【0062】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【図1】 本発明の一実施の形態の装置の原理を説明するための図である。
【図2】 家族に対するNAQと基本周波数f0とを示すための図である。
【図3】 相手の種類によるNAQと基本周波数f0とを示すための図である。
【図4】 発話の目的によるNAQと基本周波数f0とを示すための図である。
【図5】 本発明の一実施の形態の装置のブロック図である。
【図6】 本発明の一実施の形態の装置の動作を説明するための図である。
【符号の説明】
30 入力XML、32 前処理部、34 バランス文音声DB、36 波形生成部、38 音声信号合成部、40 音響的ターゲット、42 自然発話音声DB、44 候補選択部、46 候補列、48 フィルタ部、50 最終音声データ列、52 波形生成部、54 合成音声信号[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesis technique, and more particularly to a technique for synthesizing a naturally audible speech from a speech database of natural utterances.
[0002]
[Prior art]
Speech synthesis cannot be natural in nature. However, there is a need for technology that synthesizes sounds that sound natural. For example, speech synthesis technology for assisting communication for people who cannot speak for some reason, automatic translation from speech to speech, providing information by speech via phone, or responding to inquiries from customers by phone Is needed.
[0003]
When synthesizing sounds that sound natural, it is necessary to use different tones according to the content of the story. For that purpose, it is necessary to subdivide the speech used for speech synthesis into elements, and attach labels that indicate when the elements are used for speech.
[0004]
Currently, there are several large corpuses of spontaneously spoken speech that could be used to perform such naturally sounding speech synthesis. However, the work of dividing the speech included in the corpus and labeling each of them is enormous. There are also many problems that have not yet been solved in relation to modeling the acoustic features of spontaneous speech.
[0005]
On the other hand, in a speech database (hereinafter referred to as “balance sentence speech DB”) composed of speech obtained by reading out phoneme balance sentences, such labeling is relatively easy. The balance sentence speech DB is a database of all phonemes and all prosody.
[0006]
Conventionally, as a speech synthesis technique using a balanced sentence speech DB, for example, there is a technique called CHATR introduced in Non-Patent Document 1 or Non-Patent Document 2 to select and connect phonemes.
[0007]
The standard method of speech synthesis by connecting phonemes goes through two stages as described in Non-Patent Document 1 or Non-Patent Document 2. In the first stage, an appropriate candidate is selected from several corpora for each segment of speech using an objective cost function that reflects phoneme and prosodic constraints according to the text (target) to be synthesized. To do. In the second stage, one of the candidates of each section is selected and speech synthesis is performed by concatenating them so that the synthesized speech is as smooth as possible and the cost for connection is minimized. To do.
[0008]
The target of this process is usually a previously known symbolic representation (alpha-numeric) that represents the phonetic and prosodic representation of the desired output speech.
[0009]
[Non-Patent Document 1]
Campbell, W. N. , Black, A. W. "CHATR multilingual speech rearrangement synthesis system, IEICE technical report SP96-7, 45-52, 1996 (Campbell, WN." 45-52, 1996)
[Non-Patent Document 2]
Campbell, W. N. , "Processing of speech corpus for CHATR synthesis", Proceedings of International Conference on Speech Processing 183-186, 1997 (Campbell, WN, "Processing a Speech Corps CHATR Synthesis", Proceedings of the Conference) 183-186, 1997)
[Non-Patent Document 3]
P. ALC and E.I. Wilkman, “Amplitude Domain Index for Characterization of Glottal Volume Velocity Waveform Estimated by Inverse Filtering”, Speech Comm. , Vol. 18, No. 2, pp. 131-138, 1996 (P. Alku and E. Vilkman, “Amplitude domain-oriented for charac- terization of the global velocities of p. 38, p.
[Non-Patent Document 4]
P. Ark, T.W. Bextrom, and E.E. Wilkman, “Normalized amplitude index for parameterization of glottic airflow”, J. Am. Acoustic. Soc. Am. , Vol. 112, no. 2, pp. 701-710, 2002 (P. Alku, T. Baeckstrom, and E. Vilkman, “Normalized amplified fortralization of the global flow,” J. Aust.p.o. 701-710, 2002)
[Problems to be solved by the invention]
It is said that most of the research done to date as “corpus-based” speech synthesis was actually about “database” speech synthesis. The difference is how much the utterance style is covered and what kind of utterance style it is.
[0010]
A “corpus” is a collection of text or speech that is somewhat representative of a language that can be used as a starting point for linguistic explanations about a language or as a means of verifying a hypothesis about a language. Say. In this case, for a systematic study of authentic examples of the language actually used, a naturally occurring language (i.e. a set of which has been chosen to characterize a language state or change) It is important to be a collection of text or audio.
[0011]
Text written for the purpose of showing certain linguistic features should not normally be included in a true corpus for linguistic research. This is because they do not meet the criteria of “authentic” and are therefore not “naturally occurring”.
[0012]
But so far, the vast majority of databases used in speech synthesis research have been designed for specific purposes and are usually read carefully by professional announcers. It consists of a studio recording. They are not representative of “speech used”, nor do they include natural utterance styles encountered in everyday life and variations depending on utterance situations.
[0013]
The balance voice DB can be labeled in detail. However, the speech included in the balanced speech DB includes many examples of formal linguistic features of spoken language, but hardly includes features in terms of social and interactive functions by spoken language. When speech synthesis is performed using the balanced speech DB, the synthesized speech obtained as a result is a hard pronunciation and cannot be heard as a natural speech.
[0014]
If speech synthesis is to be developed in a more natural way, it is a corpus that can represent all aspects of spoken language interaction, and the spoken language, such as the state, attitude and intention of the speaker It is necessary to conduct research based on a corpus that also contains non-linguistic information that provides clues to interpret in line with that intent.
[0015]
In order to solve this, it is conceivable to use a natural utterance DB. However, if the natural utterance DB is used for speech synthesis, the labeling work becomes enormous as described above, and it is difficult to model acoustic features for labeling. Therefore, conventionally, there has been a problem that it is difficult to synthesize a sound that can be heard naturally using a naturally uttered speech DB.
[0016]
The present invention has been made to solve such a problem, and an object of the present invention is to provide a speech synthesizer capable of performing speech synthesis that can be naturally heard using a natural speech DB.
[0017]
Another object of the present invention is to provide a speech synthesizer that can synthesize naturally audible speech using a naturally uttered speech DB without labeling the naturally uttered speech DB.
[0018]
Still another object of the present invention is to generate an acoustic target by some means from the first target, and extract speech similar to the acoustic target from the natural utterance speech DB, thereby performing speech synthesis that can be heard naturally. It is to provide a speech synthesizer that can.
[0019]
Another object of the present invention is to provide a speech synthesizer that can synthesize speech that can be heard naturally in an utterance style that matches the non-verbal and paralinguistic features of a target.
[0020]
[Means for Solving the Problems]
The speech synthesizer according to the first aspect of the present invention includes a recitation speech database composed of recitation speech data pre-labeled with linguistic information, a natural utterance speech database composed of spontaneous utterance speech data, and non-language information. To synthesize speech signals corresponding to text information by receiving text information assigned in advance and extracting speech data to which linguistic information that matches non-linguistic information attached to the text information is extracted from the reading speech database Voice selection means for selecting a plurality of spontaneously uttered voice data in order from the smallest defined distance between each part of the speech signal from the spontaneously uttered voice database, For each part of the speech signal, a plurality of spontaneous utterances selected by the candidate selection means from the natural utterance speech database Filter means for calculating a predetermined prosodic feature for each of the data and selecting the one that matches the non-linguistic information given to the text information, and based on the natural utterance data selected by the filter means Means for synthesizing the audio signal.
[0021]
Preferably, the non-linguistic information given in advance to the text information is a feature vector indicating a predetermined prosodic feature, and the filtering unit is configured to select a plurality of spontaneous utterance data selected by the candidate selecting unit. Means for calculating a feature vector indicating a predetermined prosodic feature and selecting the one having the highest degree of similarity with the feature vector previously assigned to the text information is included.
[0022]
More preferably, the predetermined prosodic feature includes at least one of a normalized amplitude index, a power of the speech signal, a duration of the speech signal, and a fundamental frequency.
[0023]
The candidate selecting means selects, for each part of the audio signal, a natural utterance voice database from which a DP distance calculated by DP (Dynamic Programming) matching with each part is smaller than a predetermined threshold value. Means may be included.
[0024]
Candidate selection means is means for selecting, for each part of the audio signal, a plurality of predetermined numbers in order from those having a small DP distance calculated from the natural utterance voice database by DP matching with each part. May be included.
[0025]
A second aspect of the present invention relates to a computer program that, when executed by a computer, causes the computer to operate as any of the speech synthesizers described above.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
  -Voice quality that expresses the characteristics of natural utterances-
  The biggest difference between studio-recorded audio and everyday familiar audio is that the utterance style experienced with everyday audio is very large. This seems to be because the speaker changes the laryngeal settings variously to show the formality of the utterance in that situation when speaking.
[0027]
For one speaker of a speech corpus created by the applicant, speech data obtained by recording for over 100 hours was divided into chunks of speech size. These chunks were further labeled to show the utterance style characteristics in three stages. There are the following three types of labels.
[0028]
(A) Speaker status (emotion and attitude)
(B) Talk style (friendly, polite, soft, hesitant, etc.)
(C) The tone of the speaker during each utterance (Blessy, warm, nervous, etc.)
Here, breathy means breathability and is typically a characteristic of how to speak when speaking politely and gently. The reverse is called pressed.
[0029]
The vector consisting of these three labels was combined with the acoustic features (pitch, power, speaking speed, degree of breathing, etc.) extracted from the speech. Furthermore, principal component analysis (PCA) was performed to reduce the complexity of the resulting multidimensional space. The first dimension of PCA analysis corresponds well to the relationship between the speaker and the other party (good friendship), the second dimension corresponds well to the utterance content (honesty), and the third dimension corresponds to the speaker's attitude (enthusiasm) ) Well supported.
[0030]
This seems to be because the speaker changes the quality of the voice, the width of the pitch, and the expression depending on the relationship with the other party and the purpose of the dialogue. It is common sense to speak to another person in a different way. However, in the voice-related field, almost all data is accumulated on how speech styles and voice characteristics differ when people talk to family members, friends, business acquaintances, other people, and machines. It has never been done.
[0031]
Before the description of the embodiment, the difference between the above-described speech style and voice characteristics as the background will be described. FIG. 1 shows the distribution of normalized amplitude index (NAQ) for two speakers (FIA and FAN). NAQ is obtained by normalizing an amplitude coefficient (AQ) with the fundamental frequency f0.
[0032]
AQ is indicated by Alku in Non-Patent Document 3 and uses an optimized time-varying formant to remove the influence of the vocal tract from the speech signal. Is the estimated derivative of the waveform of the glottal (glottal) airflow obtained by inverse filtering the waveform, and the maximum peak-to-peak amplitude of the waveform is divided by the minimum cycle-to-cycle amplitude of the waveform differentiation. It is a thing. AQ indicates the mode of glottal pronunciation ("voice quality").
[0033]
AQ has a weak correlation with the fundamental period of the speech waveform as it is, but its influence can be reduced by dividing by the fundamental frequency f0. The result is NAQ.
[0034]
The lower half of FIG. 1 shows a histogram of NAQ measured for the speech of two Japanese female speakers (FIA, FAN). In the upper half of FIG. 1, “Presto”, “Early voice (normal)”, and “Blessy ( This is a comparison with the measure for “breathing”. From FIG. 1, although there are some variations depending on individuals, the shape of the entire distribution is similar, and that is described in the above-mentioned document, “Presto”, “Earth (normal)”, and “Blessy ( It can be seen that it falls within the range of “breathing”. The distortion seen in the speaker FAN data can be explained by the predominance of the utterance style (presto), which is more prevalent as explained below.
[0035]
In the following, the fact that this variation is not random, and that this variation can best be explained by correlation with non-linguistic features of speech, such as the relationship with the conversation partner, intention of speech, and speech style, and therefore Indicates that fluctuation should be considered as a prosodic parameter.
[0036]
The applicant collected voice data for about 250 hours and entered text by listening. About 100 hours of them were labeled with respect to the characteristics of the relationship between utterance style and utterance and its purpose. We performed acoustic measurements of speech and analyzed the correlation between perceptual and physical attributes.
[0037]
In the following discussion, we will examine the data obtained from a Japanese female speaker. The woman recorded a daily conversation using a high-performance microphone attached to her head. Analysis was done only on this woman's utterance, but sometimes the other's utterance was also heard by the labeling worker.
[0038]
The data consists of 13,604 utterances that could be properly labeled with acoustic and perceptual labels. “Speech” means a sound part that can be perceived by a person in charge of documentation without a break, and probably corresponds to an “intonation phrase”. Its length ranges from a single syllable to 35 syllables.
[0039]
Data were analyzed using CRAN's public domain statistical software package “R”. Generate a feature set consisting of the other party ("who"), utterance style ("how"), and utterance activity ("for what"), and collate it with the measure of NAQ and the fundamental frequency f0 of speech We examined whether there was any correlation.
[0040]
Dialogue partners were grouped as shown in Table 1 below.
[0041]
[Table 1]
Figure 0003706112
In this embodiment, the utterance style is simplified and divided into groups of “family”, “friend” and “others”, and “speech”, “familiarity”, and “kakuta” for each of the utterances to oneself. It was. There were a total of 24 utterance categories, of which the next five are discussed here. That is, “Provision of information”, “Aizuchi”, “Request for information”, “Mutter”, and “Repetition request”.
[0042]
  -Prosody of speech and NAQ-
  Before normalization, AQIsThere was a correlation between the fundamental frequency f0 and r = −0.406. The NAQ obtained by normalization (NAQ = log (AQ) + log (f0)) had a correlation between the fundamental frequency f0 and r = 0.182.
[0043]
FIG. 2 shows the NAQ and fundamental frequency f0 for utterances to the family. In FIG. 2, m1, m2, m3, m4, m5, m6, and m8 represent a mother, a father, a daughter, a husband, an older sister, an older sister, and an aunt, respectively. FIG. 2 shows some interesting trends. That is, the utterance of the speaker (female) to the daughter (1 year old) shows the highest value in both the fundamental frequency f0 and the breathability. From the breathability, the family order is determined as follows. That is, the order of daughter> sister child> father> mother = sister> aunt> husband. It may be possible for this order to indicate the degree of “attentiveness” in the conversation within the family. The labeler also confirmed that the results were consistent with the impression they were hearing.
[0044]
FIG. 3 shows the NAQ and the fundamental frequency f0 by the conversation partner. In FIG. 3, “f” indicates a friend. “M” represents a family and “t” represents another person. Interestingly, the NAQ value for “a” (attentive utterance) to friends is high, and no difference is seen between “b” (close conversation) and “c” (complex conversation), but between families This is the reverse of this relationship. That is, there is no difference between a careful conversation and a close conversation, whereas the NAQ value is considerably low in a loose conversation. Regarding conversations with others, there were no tedious conversations, but careful and intimate conversations showed NAQ differences as expected.
[0045]
FIG. 4 discusses the difference between speech and its purpose. From what has already been stated, it is predicted that in a careful conversation, the NAQ value will be higher than in a more “fair” conversation. FIG. 4 shows that this prediction is correct. FIG. 4 shows five categories (tweet (“?”), Interjection (“I”), information provision (“e”), information request (“re”), and repetition request (“rz”)). NAQ and fundamental frequency f0.
[0046]
Referring to FIG. 4, the NAQ value for providing information is significantly lower than the value for requesting information. Further, the NAQ value of the repeated request is the highest. “Mutter” is considered to be a different category from the others, but it is also supported by FIG. In other words, for tweet, f0 is extremely low, indicating a breathable (high NAQ value) voice quality.
[0047]
From the above, it can be seen that the voice quality measured by NAQ has a large correlation with the conversation partner, the speech style, and the purpose of the speech. The NAQ changes depending on the degree of “attention” received in conversation, and changes independently from the fundamental frequency. Therefore, this voice quality can be considered as a prosodic feature together with the fundamental frequency f0, the length of speech, and the amplitude, and should be controlled in speech synthesis in order to show semantic non-verbal differences.
[0048]
-Configuration of speech synthesizer-
An embodiment of a speech synthesizer that performs speech synthesis reflecting semantic non-linguistic differences by controlling voice quality measured by NAQ in accordance with the above-described concept will be described below.
[0049]
FIG. 5 shows a block diagram of the speech synthesizer according to this embodiment. Referring to FIG. 5, the speech synthesizer preprocesses an input XML (Extended Mark-Up Language) sentence 30 including an input text synthesis target attribute and attributes representing non-language information, and performs speech synthesis. For the target text generated by the pre-processing unit 32 for creating the target text, the balance sentence speech DB 34 of a specific speaker prepared in advance, and the pre-processing unit 32, an appropriate phoneme is obtained from the balance sentence speech DB. By selecting and connecting columns, a waveform generation unit 36 for generating audio waveform data for the input XML 30 and an audio signal synthesis for synthesizing an audio signal based on the audio waveform data generated by the waveform generation unit 36 Part 38.
[0050]
A conventional speech synthesis technique can be used for both the waveform generation unit 36 and the speech signal synthesis unit 38. Since the voice of the balance sentence voice DB 34 is not a natural voice, the generated voice is hard and cannot be said to be a natural voice. However, since each phoneme included in the balance sentence speech DB 34 is obtained from the reading of the phoneme balance sentence, it can be appropriately labeled. As a result, the audio signal output from the audio signal synthesizer 38 is a raw audio signal that is relatively hard to the non-language information specified by the input XML 30 although it is uncured.
[0051]
The apparatus according to the present embodiment further synthesizes the speech signal obtained as the output of the speech signal synthesizer 38 by using the natural speech speech data as the acoustic target 40 for natural speech synthesis. In other words, the synthesized speech signal 54 close to natural speech is obtained. Therefore, in addition to each component described above, the apparatus according to the present embodiment is prepared in advance by collecting natural utterances of the same speaker (or a person who makes a similar voice) as the speaker of the balanced sentence speech DB 34. The natural utterance voice DB 42 thus used is used. The natural utterance voice DB 42 is obtained by collecting the natural utterances of the above-described speakers, and collects voice data in various situations. However, the voice data in the spontaneously uttered voice DB 42 is not labeled for extracting voice in accordance with the non-language information described above. This is because it is difficult to label such utterances as described in the explanation of the conventional technology.
[0052]
In addition, for each time period of the acoustic target 40, this apparatus uses, as a candidate for speech synthesis, speech data that is relatively close to the natural speech DB 42 by DP matching (DP distance is small, that is, similarity is high). A candidate selection unit 44 for selecting a plurality of candidates and outputting them as candidate strings 46, and obtaining a predetermined prosodic attribute for each candidate in the candidate string 46, and matching that part with the non-linguistic information specified by the input XML 30 And a filter unit 48 for selecting only those showing the prosodic attributes. The time period used here is of variable length.
[0053]
The prosodic attributes that the filter unit 48 obtains from each candidate string includes the NAQ described above in addition to the well-known fundamental frequency f0, power of speech data, and length of speech. For example, for each of these elements, in the input XML 30, a feature vector (or information for calculating the feature vector) is assigned as non-language information in advance for each utterance unit (for example, sentence). Such information can be calculated for each candidate, and a feature vector for comparison can be created. The filter unit 48 calculates the distance between the feature vector calculated for each candidate and the feature vector assigned to the utterance unit in the input XML 30, and is the candidate indicating the smallest distance and connected Select a candidate that can be smoothly connected. In this way, the filter unit 48 outputs a final audio data string 50 for final speech synthesis.
[0054]
The apparatus further includes a waveform generation unit 52 for generating a waveform based on the final audio data string 50. The synthesized speech signal 54 output from the waveform generation unit 52 is synthesized based on the speech data extracted from the natural speech speech DB 42, and each speech unit is non-linguistic information given to the speech unit in the input XML 30. It will match well. Therefore, the synthesized speech signal 54 is a sound that can be heard naturally and closely matches the designated speech mode.
[0055]
-Operation of speech synthesizer-
This device operates as follows. When the input XML 30 is given to the pre-processing unit 32, the pre-processing unit 32 creates a text to be speech synthesized for each utterance unit, and extracts the non-linguistic information given to each utterance unit in the input XML 30. The waveform generation unit 36 extracts voice data for synthesizing the text given by the preprocessing unit 32 from the balance sentence voice DB 34 from the balance sentence voice DB 34 that is a reading voice database created from the voice that has read the balance sentence. . At this time, the waveform generator 36 extracts voice data with a label that matches the non-language information given from the preprocessor 32. Further, the waveform generation unit 36 smoothly connects the extracted audio data according to the conventional technique, and supplies it to the audio signal synthesis unit 38.
[0056]
  The speech signal synthesizer 38 performs speech synthesis according to the conventional technique based on this speech data string, outputs an acoustic target 40 for natural speech synthesis, and provides it to the candidate selector 44. An example of this acoustic target 40 is shown in FIG. In the example shown in FIG. 6, the acoustic target 40 includes time periods 92, 94, 96 and 98. This period is variable length. These time periods may partially overlap each other..
  Referring to FIG. 5, candidate selection unit 44 performs speech data candidate sequence 112 similar to the waveform of acoustic target 40 by DP matching from natural utterance speech DB 42 for each section 92, 94, 96 and 98 shown in FIG. 6. , 114, 116, and 118 are extracted. Each of the audio data candidate columns 112, 114, 116, and 118 includes a plurality of audio data candidates. In the present embodiment, the candidate selection unit 44 selects a predetermined plurality as candidates from the one having the smallest DP distance. The candidate selection unit 44 gives these speech data candidate sequences 112, 114, 116, and 118 to the filter unit 48 as the candidate sequence 46 shown in FIG.
[0057]
For example, for the time period 92 shown in FIG. 6, the filter unit 48 calculates the feature vector of each candidate included in the speech data candidate string 112. Then, the feature vector is compared with the feature vector assigned in the input XML 30, and the cosine scale (that is, the similarity) calculated between them is small. A candidate 132 that can be connected is selected. Similarly, the filter unit 48 extracts candidates 134, 136, and 138 from a plurality of candidates for the time periods 94, 96, 98, and the like. These are the final audio data string 50 shown in FIG.
[0058]
The waveform generator 52 outputs a synthesized voice signal 54 in which these final voice data strings 50 are smoothly connected.
[0059]
According to the apparatus of the present embodiment described above, the acoustic target 40 is generated once using the balance sentence speech DB 34, and the non-linguistic features that are close to the acoustic target 40 and are assigned to the input XML 30 The voice data indicating the matched prosodic features can be extracted from the spontaneous speech DB 42. A synthesized voice signal 54 synthesized from this voice data string can be obtained. Therefore, the synthesized speech signal 54 is a sound that can be heard naturally and well matches the non-linguistic feature that was initially specified. Further, it is not necessary to label the voice data in the natural utterance voice DB 42 in advance for extraction from the natural utterance voice DB 42. It is only necessary to label the balance sentence speech DB 34, and this can be easily performed.
[0060]
In the above-described embodiment, the candidate selection unit 44 selects a predetermined plurality in order from the smallest DP distance. However, the present invention is not limited to such an embodiment. For example, the candidate selection unit 44 may select only candidates whose DP distance is smaller than a predetermined threshold. Alternatively, only those having a smaller DP distance may be selected in order from the smallest DP distance and smaller than a predetermined threshold value.
[0061]
Note that the apparatus according to the embodiment described herein can be realized by one or more computers and software executed on the one or more computers. The control structure of the software corresponds well with the block diagram shown in FIG. Therefore, the details are not described here. It will be clear to those skilled in the art how to configure the software from the above description.
[0062]
The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining the principle of an apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram for showing a NAQ and a fundamental frequency f0 for a family.
FIG. 3 is a diagram for showing a NAQ and a fundamental frequency f0 according to the type of the other party.
FIG. 4 is a diagram illustrating NAQ and fundamental frequency f0 depending on the purpose of speech.
FIG. 5 is a block diagram of an apparatus according to an embodiment of the present invention.
FIG. 6 is a diagram for explaining the operation of the apparatus according to the embodiment of the present invention.
[Explanation of symbols]
30 input XML, 32 preprocessing unit, 34 balance sentence speech DB, 36 waveform generation unit, 38 speech signal synthesis unit, 40 acoustic target, 42 spontaneous speech DB, 44 candidate selection unit, 46 candidate string, 48 filter unit, 50 final audio data string, 52 waveform generator, 54 synthesized audio signal

Claims (6)

予め言語情報についてのラベル付けがされた朗読音声データからなる朗読音声データベースと、
自然発話音声データからなる自然発話音声データベースと、
非言語情報が予め付与されたテキスト情報を受け、前記朗読音声データベースから前記テキスト情報に付与された非言語情報と合致する言語情報が付与された音声データを抽出する事により、前記テキスト情報に対応する音声信号を合成するための音声合成手段と、
前記自然発話音声データベースから前記音声信号の各部分について、前記各部分との間に定義される距離の小さいものから順番に自然発話音声データを複数個選択するための候補選択手段と、
前記音声信号の各部分について、前記自然発話音声データベースから、前記候補選択手段により選択された複数個の自然発話データの各々について予め定められた韻律的特徴を算出し、前記テキスト情報に付与されている前記非言語情報と合致するものを選択するためのフィルタ手段と、
前記フィルタ手段により選択された自然発話データに基づいて音声信号を合成するための手段とを含む、音声合成装置。
A reading speech database consisting of reading speech data that is pre-labeled with language information,
A spontaneous speech database consisting of spontaneous speech data;
Corresponding to the text information by receiving text information pre-assigned non-linguistic information and extracting speech data with linguistic information matching the non-linguistic information attached to the text information from the reading speech database Voice synthesis means for synthesizing a voice signal to be transmitted;
Candidate selection means for selecting a plurality of pieces of spontaneous utterance voice data in order from ones having a small distance defined between each part of the voice signal from the spontaneous utterance voice database;
For each part of the speech signal, a prosodic feature predetermined for each of the plurality of spontaneous utterance data selected by the candidate selection unit is calculated from the spontaneous utterance speech database, and is added to the text information. Filter means for selecting those that match the non-linguistic information;
Means for synthesizing a speech signal based on the natural speech data selected by the filter means.
前記テキスト情報に予め付与されている非言語情報は、前記予め定められた韻律的特徴を示す特徴ベクトルであり、
前記フィルタ手段は、前記候補選択手段により選択された複数個の自然発話データの各々について前記予め定められた韻律的特徴を示す特徴ベクトルを算出し、前記テキスト情報に予め付与されている特徴ベクトルとの間の類似度が最も高いものを選択するための手段を含む、請求項1に記載の音声合成装置。
The non-linguistic information given in advance to the text information is a feature vector indicating the predetermined prosodic feature,
The filter means calculates a feature vector indicating the predetermined prosodic feature for each of a plurality of natural utterance data selected by the candidate selection means, and a feature vector pre-assigned to the text information; The speech synthesizer according to claim 1, comprising means for selecting the one having the highest similarity between the two.
前記予め定められた韻律的特徴は、正規化振幅指数、音声信号のパワー、音声信号の持続時間、及び基本周波数のうち少なくとも一つを含む、請求項2に記載の音声合成装置。The speech synthesis apparatus according to claim 2, wherein the predetermined prosodic feature includes at least one of a normalized amplitude index, a power of the speech signal, a duration of the speech signal, and a fundamental frequency. 前記候補選択手段は、前記音声信号の各部分について、前記自然発話音声データベースから、前記各部分との間でDP(Dynamic Programming)マッチングにより算出されるDP距離が予め定められたしきい値より小さなものを選択するための手段を含む、請求項1〜請求項3のいずれかに記載の音声合成装置。The candidate selecting means, for each part of the speech signal, a DP distance calculated by DP (Dynamic Programming) matching with each part from the spontaneous speech database is smaller than a predetermined threshold value. 4. A speech synthesizer according to any one of claims 1 to 3, comprising means for selecting one. 前記候補選択手段は、前記音声信号の各部分について、前記自然発話音声データベースから、前記各部分との間でDP(Dynamic Programming)マッチングにより算出されるDP距離の小さなものから順番に予め定められた複数個だけ選択するための手段を含む、請求項1〜請求項3のいずれかに記載の音声合成装置。The candidate selecting means is predetermined for each part of the voice signal in order from a smallest DP distance calculated by DP (Dynamic Programming) matching with each part from the spontaneous speech database. The speech synthesizer according to any one of claims 1 to 3, comprising means for selecting only a plurality. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項5のいずれかに記載の音声合成装置として動作させる、コンピュータプログラム。A computer program that, when executed by a computer, causes the computer to operate as the speech synthesizer according to any one of claims 1 to 5.
JP2003066521A 2003-03-12 2003-03-12 Speech synthesizer and computer program Expired - Fee Related JP3706112B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003066521A JP3706112B2 (en) 2003-03-12 2003-03-12 Speech synthesizer and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003066521A JP3706112B2 (en) 2003-03-12 2003-03-12 Speech synthesizer and computer program

Publications (2)

Publication Number Publication Date
JP2004279436A JP2004279436A (en) 2004-10-07
JP3706112B2 true JP3706112B2 (en) 2005-10-12

Family

ID=33284395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003066521A Expired - Fee Related JP3706112B2 (en) 2003-03-12 2003-03-12 Speech synthesizer and computer program

Country Status (1)

Country Link
JP (1) JP3706112B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4025355B2 (en) * 2004-10-13 2007-12-19 松下電器産業株式会社 Speech synthesis apparatus and speech synthesis method
JP4125362B2 (en) 2005-05-18 2008-07-30 松下電器産業株式会社 Speech synthesizer
CN101346758B (en) 2006-06-23 2011-07-27 松下电器产业株式会社 Emotion recognizer
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8311831B2 (en) 2007-10-01 2012-11-13 Panasonic Corporation Voice emphasizing device and voice emphasizing method
JP2011258130A (en) * 2010-06-11 2011-12-22 Namco Bandai Games Inc Program, information storage medium, and image generation system
CN112885326B (en) * 2019-11-29 2025-02-28 阿里巴巴集团控股有限公司 Personalized speech synthesis model creation, speech synthesis and testing method and device

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2987089B2 (en) * 1995-08-30 1999-12-06 松下電器産業株式会社 Speech unit creation method, speech synthesis method and apparatus therefor
JP3233544B2 (en) * 1995-02-28 2001-11-26 松下電器産業株式会社 Speech synthesis method for connecting VCV chain waveforms and apparatus therefor
JP3281266B2 (en) * 1996-03-12 2002-05-13 株式会社東芝 Speech synthesis method and apparatus
JP3050832B2 (en) * 1996-05-15 2000-06-12 株式会社エイ・ティ・アール音声翻訳通信研究所 Speech synthesizer with spontaneous speech waveform signal connection
JP3587048B2 (en) * 1998-03-02 2004-11-10 株式会社日立製作所 Prosody control method and speech synthesizer
JP2975586B2 (en) * 1998-03-04 1999-11-10 株式会社エイ・ティ・アール音声翻訳通信研究所 Speech synthesis system
JPH11259083A (en) * 1998-03-09 1999-09-24 Canon Inc Voice synthesis device and method
JP2000056788A (en) * 1998-08-03 2000-02-25 Hitachi Ltd Prosody control method for speech synthesizer

Also Published As

Publication number Publication date
JP2004279436A (en) 2004-10-07

Similar Documents

Publication Publication Date Title
Takamichi et al. JVS corpus: free Japanese multi-speaker voice corpus
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
JP4125362B2 (en) Speech synthesizer
US7472065B2 (en) Generating paralinguistic phenomena via markup in text-to-speech synthesis
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
Yamagishi et al. Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora
JP2006098993A (en) Audio processing apparatus and computer program therefor
JP5148026B1 (en) Speech synthesis apparatus and speech synthesis method
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
Campbell Developments in corpus-based speech synthesis: Approaching natural conversational speech
Kons et al. Neural TTS voice conversion
JP2011186143A (en) Speech synthesizer, speech synthesis method for learning user's behavior, and program
JP2016151736A (en) Speech processing device and program
JP3706112B2 (en) Speech synthesizer and computer program
JP2014062970A (en) Voice synthesis, device, and program
Schötz Linguistic & Paralinguistic Phonetic Variation
Mamatov et al. Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems
CN118571229B (en) Voice labeling method and device for voice feature description
JP2005181998A (en) Speech synthesizer and speech synthesizing method
Azmy et al. The creation of emotional effects for an Arabic speech synthesis system
Azmy et al. Arabic unit selection emotional speech synthesis using blending data approach
Ito et al. Speaker Pseudonymization for Japanese Speech Using Duration Embeddings
Ravi et al. Text-to-speech synthesis system for Kannada language
Rautenberg et al. Speech Synthesis along Perceptual Voice Quality Dimensions

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050727

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080805

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090805

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100805

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees