JP3588302B2 - 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 - Google Patents
連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 Download PDFInfo
- Publication number
- JP3588302B2 JP3588302B2 JP2000065106A JP2000065106A JP3588302B2 JP 3588302 B2 JP3588302 B2 JP 3588302B2 JP 2000065106 A JP2000065106 A JP 2000065106A JP 2000065106 A JP2000065106 A JP 2000065106A JP 3588302 B2 JP3588302 B2 JP 3588302B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- vowel
- statistical model
- state transition
- series data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
【発明の属する技術分野】
本発明は、本発明は連結型(concatenative)音声を合成するシステムに関する。より詳しくは、本発明は、連結した音声単位(音声ユニット:speech unit)について適切なエッジ境界領域を識別するためのシステムおよび方法に関する。システムは、音声単位モデルを用いて設けられた音声単位データベースを利用する。
【0002】
【従来の技術】
連結型音声の合成は、今日、数多くの様々な形態で世の中に存在しており、それは、どのように連結音声単位が格納され、処理されるかに依存している。これらの形態は、時間領域波形表現や、(例えば、フォルマント線形予測コーディングLPC表現などの)周波数領域表現、またはこれらの組み合わせを含む。
【0003】
音声単位の形態にかかわらず、連結型音声の合成は、各単位(ユニット:unit)のエッジで適切な境界領域を識別することにより行われる。ここで、単位は滑らかに重複され、それにより語や句を含む新たな音声単位に合成される。連結型音声合成システムにおける音声単位は、典型的には2音(diphones)または半音節(demisyllables)である。この場合には、境界重複領域は音素内にある(phoneme−medial)。したがって、例えば、「tool」という語は、「tooth」および「fool」という語から導き出された単位「tu」および「ul」により組み立てられる。決定すべきは、どの程度の量のソース語が音声単位にセーブされるかであり、また一緒に置かれたときにどの程度重複するべきかである。
【0004】
連結型テキスト−音声(text−to−speech : TTS)システムに関する従来の研究では、重複領域を判定するのに多くの方法が利用されてきた。このようなシステムを設計するに際しては、3つの因子が考慮される。すなわち、
・シームレスな連結:音声単位の重複により、ある単位とテキストとの間は十分滑らかに遷移し、急激な変化は聞こえないようにすべきである。リスナーには、音声片から組み立てられた音声を聞いているとはわからないようする必要がある。
【0005】
・歪みのない遷移:音声単位の重複により、それ自身の歪みを生じてはならない。単位は、非重複音声との識別ができないように混在する必要がある。
【0006】
・最小のシステム負荷:音声合成部における計算に必要な要件および/または記憶容量の要件は、できるだけ小さくする必要がある。
【0007】
【発明が解決しようとする課題】
現在のシステムではこれらの3つの目標の間にはトレードオフが存在し、3つのすべてに関して最適なシステムは存在していない。現在のアプローチは、一般的に3つの目標のバランスをとった、2つの選択に基づいてグループ化できる。第1の選択は、短い重複領域を用いるか、長い重複領域を用いるかである。短い重複領域を用いると、単一の声門パルスと同じ程度に早くできる。一方、長い重複領域を用いると、全音素の大部分を含むことができる。第2の選択は、重複領域は前後関係が整合しているか、または変化してもよいかである。前者の場合には、各音声単位の対応する部分は、先行する単位および後続の単位がどのような単位であるかにかかわらず重複している。後者の場合には、その単位が用いられる度に、隣接する単位に依存して、用いられる部分が変化する。
【0008】
重複が長いと、単位間の遷移がよりシームレスになるという利点がある。その理由は、それらの間の微妙な相違が取り除かれる機会が多いからである。しかし、重複が長いと歪みを生じやすい。信号と異なり、混合すると歪みが生じる。
【0009】
重複が短いと、歪みを最小にできるという利点がある。重複を短くすると、重複部分を十分に一致させることが簡単かつ確実にできる。短い重複領域は、(動的変化状態とは異なり)ほぼその瞬間の状態の特徴を表すと考えられる。しかし重複を短くすると、重複が長いシステムで実現できるシームレスな連結が犠牲になる。
【0010】
重複が長い場合でシームレスが実現できることが望ましく、重複が短い場合に歪みを少なくできることが望ましいが、現在までのところ、これを達成できるシステムは存在しない。最新のシステムの中には、重複が長い場合の利点を保持しながら歪みを最小にするという目的で、可変重複領域を用いる実験が行われているものがある。しかし、このようなシステムは、計算負荷が高い処理に非常に大きく頼っているために、多くの用途には非実用的である。
【0011】
本発明の目的は、シームレスで、かつ歪みのない重複を与える音声単位の領域を識別する方法、および連結型音声を合成する方法を提供することである。
【0012】
【課題を解決するための手段】
本発明の連結型音声合成のための単位重複領域の識別方法は、音声の時変特性を表す統計モデルを画定するステップと、同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、前記繰り返しシーケンスを用いて、連結型音声合成のための単位重複領域を定めるステップとからなり、それにより上記目的が達成される。
【0013】
前記統計モデルは隠れマルコフモデルであってもよい。
【0014】
前記統計モデルはリカレントニューラルネットワークであってもよい。
【0015】
前記音声信号パラメータは音声フォルマントを含んでいてもよい。
【0016】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有していてもよい。
【0017】
統計モデルを学習する前記ステップは、埋め込み再評価により行われ、前記時系列データによって表される全データセットにわたって整列のために収束したモデルを生成してもよい。
【0018】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心軌線領域に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含んでいてもよい。
【0019】
本発明による連結型音声合成方法は、音声の時変特性を表す統計モデルを画定するステップと、同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、前記繰り返しシーケンスを用いて、連結型音声合成のための単位重複領域を定めるステップと、前記音声単位の各単位重複領域に基づいて、2つの異なる前記音声単位からの前記時系列データを重複させ、マージすることにより、新たな音声単位を連結して合成するステップとからなり、それにより上記目的が達成される。
【0020】
前記合成するステップを行う前に、前記単位重複領域の少なくとも1つの継続時間を選択的に変化させて、前記単位重複領域の他方の継続時間に一致させるステップをさらに含んでいてもよい。
【0021】
前記統計モデルは隠れマルコフモデルであってもよい。
【0022】
前記統計モデルはリカレントニューラルネットワークであってもよい。
【0023】
前記音声信号パラメータは音声フォルマントを含んでいてもよい。
【0024】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有していてもよい。
【0025】
統計モデルを学習する前記ステップは、埋め込み再評価により行われ、前記時系列データによって表される全データセットにわたって整列のために収束したモデルを生成してもよい。
【0026】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心の核をなす状態遷移部に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含んでいてもよい。
【0027】
本発明は統計的モデル化技術を利用することにより、音声単位内で中心軌跡領域を識別する。これらの領域は最適な重複境界を識別するのに用いられる。好ましい本実施の形態では、時系列データが、隠れマルコフモデルを用いて統計的にモデル化される。隠れマルコフモデルは、各音声単位の音素領域上に構築され、学習または埋め込み(embedded)再評価を経て整列(align)される。
【0028】
好ましい実施の形態では、各音声単位の最初と最後の音素は3要素からなると考えられる。すなわち中心の核をなす状態遷移部(中心軌跡:nuclear trajectory)、中心の核をなす状態遷移部に先行する遷移部および中心の核をなす状態遷移部に後続する遷移部である。モデル化プロセスはこれらの3要素を最適に識別し、それにより中心の核をなす状態遷移部は問題となる音素のすべてのインスタンスに対して、相対的な整合を維持する。
【0029】
識別された中心の核をなす状態遷移部を用いると、中心の核をなす状態遷移部の先頭境界および終端境界は重複領域を画定する。重複領域はその後、連結合成に用いられる。
【0030】
好ましい本実施の形態では、母音の中心の核をなす状態遷移部、中心の核をなす状態遷移部に先行する第1の遷移部、および中心の核をなす状態遷移部に後続する第2の遷移部を別個にモデル化するためのデータ構造を有する統計的モデルを利用する。データ構造は、音声単位データの一部分を破棄にするのに用いられる。音声単位データの一部分のデータは、連結プロセスの間には用いられない音声単位の部分に対応する。
【0031】
本発明には多数の利点および使用法が存在するが、本発明は、連結型音声合成システムに用いられる音声単位データベースの自動構築の基礎として用いることができる。自動化技術は、導き出された合成音声の品質を向上し、データベース収集プロセスにおける労力を大幅に削減することができる。
【0032】
音声信号パラメータは、同じ母音を含む、異なる音声単位に対応する時系列データから抽出される。抽出されたパラメータは、隠れマルコフモデルといった統計的モデルを学習するのに用いられる。統計的モデルは、母音の中心の核をなす状態遷移部と、その周りの遷移部とを別々にモデル化するデータ構造を有する。このモデルは、埋め込み再評価を経て学習され、中心の核をなす状態遷移部を識別する最適に整列されたモデルを決定する。中心の核をなす状態遷移部の境界は、後の音声単位との連結のために重複領域を定めるよう機能する。
【0033】
【発明の実施の形態】
本発明は、以下の添付の図面を参照して説明される。
【0034】
本発明により利用される技術をもっともよく理解するためには、連結合成の基本的な理解が必要である。図1は、例を通した連結合成プロセスを示す。この例では、異なる2つの語からの音声単位(この場合は音節)が連結され、第3の語を形成する。より具体的には、「suffice」および「tight」という語からの音声単位が組み合わされ、新たな「fight」という語が合成される。
【0035】
図1を参照して、「suffice」および「tight」という語からの時系列データが、好ましくは音節の境界で抽出され、音声単位10、12を規定する。この場合、音声単位10は14においてさらに細分割され、連結に必要な関連部分を分離する。
【0036】
その後、音声単位は16で整列され、それにより各部分18および20により規定される重複領域が作られる。整列後、時系列データがマージされ、新たな語22が合成される。
【0037】
本発明は特に、重複領域16と最適部分18、20に関連し、ある音声単位から別の音声単位までの遷移をシームレスで、かつ歪みがないようにする。
【0038】
本発明は、自動化された手順を経てこの最適な重複を実現する。この手順では、母音内で中心の核をなす(中心軌跡:nuclear trajectory)領域が探し出される(なお、「中心軌跡」の「軌跡」とは、本明細書において、目標周波数に向かって変化する概念を表すのに用いられる)。ここで母音内で「中心の核をなす」領域とは、母音の中心にある、安定した領域をいう。音声波形は、それを構成するフォーマット周波数によって表すことができる。これらの周波数は、ある音節が次の音節に融和して発音されると一定の変化を生じる。伝統的には、発声は、安定した目標周波数に向かって変化するこれらのフォーマット周波数を利用して、典型的には母音を利用してなされている。このとき周波数の波形は、直ちにより安定した波形になる。本明細書で母音内で「中心の核をなす」とは、母音によって占められる、中心にある安定した領域をいう。音声信号は、動的ではあるが同じ音素の異なる例に対しては相対的に変化がない動的パターンに続く。母音の境界領域は、隣接する子音によって影響を受けるが、中心にある安定した領域は強く影響を受けない。
【0039】
これらの最適な重複領域を改良するための手順が、図2に示される。まず、音声単位のデータベース30が提供されている。データベース30は時系列データを含んでおり、時系列データは、連結合成システムを構成する異なる音声単位に対応する。好ましい本実施の形態では、音声単位は発声された語の例の中から抽出される。発声された語の例は、後に音節境界でさらに分割される。図2では、図解的に音声単位32,34が描かれている。音声単位32は「tight」という語から抽出され、音声単位34は「suffice」という語から抽出されている。
【0040】
データベース30に格納されている時系列データはまず、36においてパラメータ化される。概して、音声単位は任意の方法論を用いてパラメータ化できる。好ましい本実施の形態では、各音声単位内で音素領域をフォルマント解析してパラメータ化を行う。フォルマント解析は、必然的に音声フォルマント周波数の抽出を伴う。本実施の形態ではフォルマント周波数F1、F2およびF3が抽出される。必要であれば、RMS信号レベルもまたパラメータ化できる。
【0041】
現在のところはフォルマント解析が好ましいが、パラメータ化の他の形態もまた利用できる。例えば、音声の特徴抽出は線形予測コーディング(Linear Predictive Coding:LPC)などの手順を用いて行い、適切な特徴パラメータを識別し、抽出できる。
【0042】
適切なパラメータが抽出され、各音声単位の音素領域が表されると、38で示されるようにモデルが構築され、各単位の音素領域が表される。好ましい本実施の形態はこの目的のために隠れマルコフモデルを用いる。しかし、概して時変または動的挙動を表す、適切な任意の統計的モデルを用いることができる。例えば、リカレントニューラルネットワークモデルを利用できる。
【0043】
好ましい本実施の形態は、音素領域を3つの異なる中間領域に分割してモデル化する。これらの領域は40で示されており、中心の核をなす状態遷移部(中心の核をなす領域)42と、中心の核をなす状態遷移部42に先行する状態遷移部(先行状態遷移領域)44と、中心の核をなす状態遷移部42に後続する状態遷移部(後続状態遷移領域)46とを含む。好ましい実施の形態では、これらの3領域の各々について別々の隠れマルコフモデルを用いる。先行および後続の状態遷移部44、46には、3状態モデルが用いられる。一方、中心の核をなす状態遷移部42には4または5状態モデルが用いられる。図2には5状態モデルが示されている。より大きな状態数を中心の核をなす状態遷移部42に用いると、後の手順は、整合のある非ヌル中心軌線に収束する。
【0044】
まず、音声モデル40が平均的な初期値で設けられる。その後、48で示されたこれらのモデルに関して、埋め込み(embedded)再評価が行われる。再評価とは、実質的には学習プロセスを継続することである。学習プロセスによりモデルは最適化されて、時系列データ内でもっともよい繰り返しシーケンスを表す。繰り返しシーケンスとは、母音内で中心にある安定した領域に関連する時系列データが呈する、より規則的な反復パターンのシーケンスをいう。これは、音声データが時系列データとして表されたときに、子音に対応する音声部分が規則性をもって反復しない非常に無秩序なパターンを呈しやすいこととは対照的である。したがって、母音が発生される度に繰り返して生じやすい時系列データ内のパターンは、母音領域内で識別できる。時系列データの繰り返しシーケンスは、識別されて所与の母音に対応する発声部分の識別手段として用いられる。例えば、音節「ya」の終端における母音音声は、音節「a」の統計的パターンと非常に関連のある統計的パターンを呈する。同じ統計的パターンは、例えば、音節「ka」、「ma」、「ha」内の安定領域において見出すことができる。対照的に、安定的な母音領域に先行する音節部分では、統計的な関連がない場合が多く、したがって識別可能な繰り返しパターンも存在しない。さらなる例示のために、時系列データが統計モデルを学習するのに用いられ、各モデルがパラメータの組を規定すると仮定する。モデルを学習させた後、母音音声「a」はパラメータ番号のシーケンス:4−5−3.1−6に対応する。母音が存在するたびに同一の番号のパターンが発生しているとすると、そのパターンは、その母音が存在することを示すのに信頼性高く利用できる繰り返しシーケンスを構成する。本発明では、子音、または安定的な母音に融和する音声などの他の音声は、非常に繰り返しのあるシーケンスを生成することが統計的に存在しないと判断する。したがって、発せられた音声内に安定した母音領域があることを検出する手段として、非常によく反復するシーケンス(繰り返しシーケンス)を見つけ出す。
【0045】
中心の核をなす状態遷移部42、先行および後続の状態遷移部44,46は、データベース30を介して供給される現実のデータに基づいて、学習プロセスにより各音素領域に整合するモデルが構築されるよう設計される。この点に関して、中心の核をなす部分42は母音の核心を表し、先行および後続の状態遷移部44,46は、現在の音素および現在の音素に先行するおよび後続する音声に固有の母音の相を表す。例えば、「tight」という語から抽出された音声単位32では、先行する遷移部は、前にある子音字「t」により母音「ay」の音声に与えられた音調(coloration)を表す。
【0046】
整合プロセスは本来、最適な整列モデルに収束する。どのようしてそのようになるのかを理解するために、音声単位30のデータベースが、少なくとも2つ、好ましくは多数の各母音の音声の例を含むとする。例えば図2には、「tight」および「suffice」の双方に見受けられる母音の音声「ay」が、音声単位32、34により表されている。埋め込み再評価プロセスまたは学習プロセスは、音声「ay」のこのような複数のインスタンスを用いて初期音声モデル40の学習を行い、それにより最適に整列された音声モデル50を生成する。音声「ay」の例のすべてにわたって整合のある時系列データの部分は、中核、または中心の核をなす領域を表す。50で図示されるように、システムは、先行および後続の状態遷移部を別々に学習する。これらは、母音に先行するおよび後続する音声に依存して当然に異なっている。
【0047】
一旦モデルが学習され、最適に整列されたモデルを生成すると、中心の核をなす領域42の両側の境界が確定し、連結合成のための重複領域の位置が決定される。そのため、ステップ52では最適に整列されたモデルが重複境界を決定するのに用いられる。図2は、重複境界AおよびBを示す。重複境界AおよびBは、「suffice」および「tight」という語から導かれた音声単位に対するフォルマント周波数データに重ね合わされている。
【0048】
パラメータデータ(この場合はフォルマント周波数データ)で識別された重複境界により、システムはステップ54において時系列データを分類して時系列データ内の重複境界を定める。必要であれば、分類されたデータは連結型音声合成について後に使用するために、データベース30に格納してもよい。
【0049】
図示の関係上、オーバレイテンプレート56として模式的に示されている重複境界領域が、「suffice」という語の時系列データの模式的表現に重ね合わされて示されている。具体的には、テンプレート56は、後半の音節「...fice」内で括弧58によって示すように整列されている。この音声単位が連結音声に用いられると、先行領域62は破棄され、境界AおよびBにより定められている中心の核をなす領域64は、クロスフェード領域または連結領域として働く。
【0050】
ある実施形態では、連結合成を行うために、重複領域の継続時間を調整する必要がある。このプロセスが図3に示される。入力テキスト70が解析され、ステップ72に示されるようにデータベース30から適切な音声単位が選択される。例えば、「fight」という語が入力テキストとして与えられると、システムは「tight」および「suffice」という語から抽出した、あらかじめ格納してある音声単位を選択する。
【0051】
各音声単位の中心の核をなす領域は必ずしも同じ時間にわたっている必要はない。そのためステップ74では、各中心の核をなす領域の継続時間が伸張または短縮され、それにより継続時間を一致させる。図3では、中心の核をなす領域64aが領域64bに伸張される。音声単位Bも同様に変更される。図3は中心の核をなす領域64cが領域64dに圧縮され、それにより2つの単位の各領域が同じ継続時間を持つことになる。
【0052】
一旦継続時間が調整されて一致すると、ステップ76において、音声単位からのデータがマージされて、78で示される新しく連結された単語を形成する。
【0053】
【発明の効果】
これまでの説明によれば、本発明は連結型音声合成システムに用いられる音声単位データベースを構築する自動化手段を提供することが理解される。中心の核をなす領域を分離することによって、このシステムは、シームレスで、かつ歪みのない重複を与える。有利なのは、重複領域は共通の固定サイズに伸張または圧縮され、連結プロセスを簡単化できることである。統計的モデル化プロセスを用いることで、中心の核をなす領域は音声信号の1部分を表すことができる。ここでは、音響学上の音声特性は、同じ音素の異なる例に対しては相対的に変化がない動的パターンを生じる結果となる。変化がないことにより、シームレスで、かつ歪みのない遷移が可能になる。
【0054】
本発明の原理により生成された音声単位は、コンピュータ処理システムにかける負担を最小にして、後の抽出および連結に用いるデータベースに容易に格納できる。したがって、このシステムは、処理能力が制限されている合成音声に関する製品および応用の開発には理想的といえる。さらに、音声単位を生成する自動化プロセスは、目的が特化された音声単位データベースを構築するのに必要な時間と労力を大幅に減少させる。例えば音声単位を生成する自動化プロセスは、専門的なボキャブラリに対して、または多言語音声合成システムの開発に対して必要とされるであろう。
【0055】
現時点での好ましい形態で本発明を説明してきたが、当業者であれば、特許請求の範囲に記載された本発明の精神から逸脱することなく本システムを修正できる。
【図面の簡単な説明】
【図1】連結型音声を合成する技術の理解に有用なブロック図である。
【図2】本発明による、音声単位が構築される手順を示すフローチャートである。
【図3】本発明の音声単位データベースを用いた、連結型音声を合成するプロセスを示すブロック図である。
【符号の説明】
40 音声モデル
42 中心の核をなす状態遷移部
44 先行状態遷移部
46 後続状態遷移部
50 音声モデル
56 オーバレイテンプレート
62 先行領域
64 中心の核をなす領域
Claims (13)
- 音声の時変特性を表す統計モデルを画定するステップと、
同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、
前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、
学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、
前記繰り返しシーケンスを用いて、前記音声単位の少なくとも1つに対する連結型音声合成のための単位重複領域を定めるステップとを含み、前記単位重複領域は、前記繰り返しシーケンスの直前の時系列データ又は直後の時系列データであることを特徴とする、連結型音声合成のための単位重複領域の識別方法。 - 前記統計モデルは隠れマルコフモデルである、請求項1に記載の方法。
- 前記統計モデルはリカレントニューラルネットワークである、請求項1に記載の方法。
- 前記音声信号パラメータは音声フォルマントを含む、請求項1に記載の方法。
- 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有する、請求項1に記載の方法。
- 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心の核をなす状態遷移部に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、
前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含む、請求項1に記載の方法。 - 音声の時変特性を表す統計モデルを画定するステップと、
同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、
前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、
学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、
前記繰り返しシーケンスを用いて、連結型音声合成のための単位重複領域を定めるステップとを含み、前記単位重複領域は、前記繰り返しシーケンスの直前の時系列データ又は直後の時系列データであり、
前記音声単位の各単位重複領域に基づいて、2つの異なる前記音声単位からの前記時系列データを重複させ、マージすることにより、新たな音声単位を連結して合成するステップとを含むことを特徴とする、連結型音声合成方法。 - 前記合成するステップを行う前に、前記単位重複領域の少なくとも1つの継続時間を選択的に変化させて、前記単位重複領域の他方の継続時間に一致させるステップをさらに含む、請求項7に記載の方法。
- 前記統計モデルは隠れマルコフモデルである、請求項7に記載の方法。
- 前記統計モデルはリカレントニューラルネットワークである、請求項7に記載の方法。
- 前記音声信号パラメータは音声フォルマントを含む、請求項7に記載の方法。
- 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有する、請求項7に記載の方法。
- 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心の核をなす状態遷移部に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、
前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含む、請求項7に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/264981 | 1999-03-09 | ||
US09/264,981 US6202049B1 (en) | 1999-03-09 | 1999-03-09 | Identification of unit overlap regions for concatenative speech synthesis system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000310997A JP2000310997A (ja) | 2000-11-07 |
JP3588302B2 true JP3588302B2 (ja) | 2004-11-10 |
Family
ID=23008465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000065106A Expired - Fee Related JP3588302B2 (ja) | 1999-03-09 | 2000-03-09 | 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6202049B1 (ja) |
EP (1) | EP1035537B1 (ja) |
JP (1) | JP3588302B2 (ja) |
CN (1) | CN1158641C (ja) |
DE (1) | DE60004420T2 (ja) |
ES (1) | ES2204455T3 (ja) |
TW (1) | TW466470B (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
EP1860646A3 (en) * | 2002-03-29 | 2008-09-03 | AT&T Corp. | Automatic segmentaion in speech synthesis |
US7266497B2 (en) | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
JP4510631B2 (ja) * | 2002-09-17 | 2010-07-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声波形の連結を用いる音声合成 |
US7280967B2 (en) * | 2003-07-30 | 2007-10-09 | International Business Machines Corporation | Method for detecting misaligned phonetic units for a concatenative text-to-speech voice |
US8583439B1 (en) * | 2004-01-12 | 2013-11-12 | Verizon Services Corp. | Enhanced interface for use with speech recognition |
US20070219799A1 (en) * | 2005-12-30 | 2007-09-20 | Inci Ozkaragoz | Text to speech synthesis system using syllables as concatenative units |
US9053753B2 (en) * | 2006-11-09 | 2015-06-09 | Broadcom Corporation | Method and system for a flexible multiplexer and mixer |
CN101178896B (zh) * | 2007-12-06 | 2012-03-28 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
CN102047321A (zh) * | 2008-05-30 | 2011-05-04 | 诺基亚公司 | 用于提供改进的语音合成的方法、设备和计算机程序产品 |
US8315871B2 (en) * | 2009-06-04 | 2012-11-20 | Microsoft Corporation | Hidden Markov model based text to speech systems employing rope-jumping algorithm |
US8438122B1 (en) | 2010-05-14 | 2013-05-07 | Google Inc. | Predictive analytic modeling platform |
US8473431B1 (en) | 2010-05-14 | 2013-06-25 | Google Inc. | Predictive analytic modeling platform |
JP5699496B2 (ja) * | 2010-09-06 | 2015-04-08 | ヤマハ株式会社 | 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム |
US8533222B2 (en) * | 2011-01-26 | 2013-09-10 | Google Inc. | Updateable predictive analytical modeling |
US8595154B2 (en) | 2011-01-26 | 2013-11-26 | Google Inc. | Dynamic predictive modeling platform |
US8533224B2 (en) | 2011-05-04 | 2013-09-10 | Google Inc. | Assessing accuracy of trained predictive models |
US8489632B1 (en) * | 2011-06-28 | 2013-07-16 | Google Inc. | Predictive model training management |
JP5888013B2 (ja) | 2012-01-25 | 2016-03-16 | 富士通株式会社 | ニューラルネットワーク設計方法、プログラム及びデジタルアナログフィッティング方法 |
JP6524674B2 (ja) * | 2015-01-22 | 2019-06-05 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
KR102284238B1 (ko) * | 2015-05-28 | 2021-07-30 | 미쓰비시덴키 가부시키가이샤 | 입력 표시 장치, 입력 표시 방법, 및 프로그램 |
CN106611604B (zh) * | 2015-10-23 | 2020-04-14 | 中国科学院声学研究所 | 一种基于深度神经网络的自动语音叠音检测方法 |
KR102313028B1 (ko) * | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
JP6480644B1 (ja) | 2016-03-23 | 2019-03-13 | グーグル エルエルシー | マルチチャネル音声認識のための適応的オーディオ強化 |
EP3436989A4 (en) | 2016-03-31 | 2019-11-20 | Maluuba Inc. | METHOD AND SYSTEM FOR PROCESSING AN INQUIRY INQUIRY |
CA3098447A1 (en) | 2018-05-14 | 2019-11-21 | Quantum-Si Incorporated | Systems and methods for unifying statistical models for different data modalities |
US11967436B2 (en) | 2018-05-30 | 2024-04-23 | Quantum-Si Incorporated | Methods and apparatus for making biological predictions using a trained multi-modal statistical model |
US11971963B2 (en) | 2018-05-30 | 2024-04-30 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
CA3100065A1 (en) * | 2018-05-30 | 2019-12-05 | Quantum-Si Incorporated | Methods and apparatus for multi-modal prediction using a trained statistical model |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5400434A (en) * | 1990-09-04 | 1995-03-21 | Matsushita Electric Industrial Co., Ltd. | Voice source for synthetic speech system |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
US5751907A (en) | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
-
1999
- 1999-03-09 US US09/264,981 patent/US6202049B1/en not_active Expired - Lifetime
-
2000
- 2000-02-29 ES ES00301625T patent/ES2204455T3/es not_active Expired - Lifetime
- 2000-02-29 EP EP00301625A patent/EP1035537B1/en not_active Expired - Lifetime
- 2000-02-29 DE DE60004420T patent/DE60004420T2/de not_active Expired - Fee Related
- 2000-03-09 JP JP2000065106A patent/JP3588302B2/ja not_active Expired - Fee Related
- 2000-03-09 CN CNB001037595A patent/CN1158641C/zh not_active Expired - Fee Related
- 2000-04-10 TW TW089104179A patent/TW466470B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CN1266257A (zh) | 2000-09-13 |
US6202049B1 (en) | 2001-03-13 |
CN1158641C (zh) | 2004-07-21 |
DE60004420D1 (de) | 2003-09-18 |
ES2204455T3 (es) | 2004-05-01 |
JP2000310997A (ja) | 2000-11-07 |
EP1035537A2 (en) | 2000-09-13 |
EP1035537A3 (en) | 2002-04-17 |
DE60004420T2 (de) | 2004-06-09 |
TW466470B (en) | 2001-12-01 |
EP1035537B1 (en) | 2003-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3588302B2 (ja) | 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 | |
US6144939A (en) | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
US7953600B2 (en) | System and method for hybrid speech synthesis | |
Huang et al. | Recent improvements on Microsoft's trainable text-to-speech system-Whistler | |
JP3667950B2 (ja) | ピッチパターン生成方法 | |
US20200365137A1 (en) | Text-to-speech (tts) processing | |
JPH031200A (ja) | 規則型音声合成装置 | |
CN111223474A (zh) | 一种基于多神经网络的语音克隆方法和系统 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP2577372B2 (ja) | 音声合成装置および方法 | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
JP2024111781A (ja) | 音声合成システム及び音声合成方法 | |
Juergen | Text-to-Speech (TTS) Synthesis | |
EP1638080B1 (en) | A text-to-speech system and method | |
JPH11327594A (ja) | 音声合成辞書作成システム | |
JPH09244680A (ja) | 韻律制御装置及び方法 | |
Lutfi et al. | Adding Emotions to Malay Synthesized Speech Using Diphone-based templates | |
SAMSUDIN et al. | Adjacency analysis for unit selection speech model using MOMEL/INTSINT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040812 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070820 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090820 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |