JP3910628B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents
音声合成装置、音声合成方法およびプログラム Download PDFInfo
- Publication number
- JP3910628B2 JP3910628B2 JP2006521338A JP2006521338A JP3910628B2 JP 3910628 B2 JP3910628 B2 JP 3910628B2 JP 2006521338 A JP2006521338 A JP 2006521338A JP 2006521338 A JP2006521338 A JP 2006521338A JP 3910628 B2 JP3910628 B2 JP 3910628B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- parameter
- target
- target parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 34
- 238000003786 synthesis reaction Methods 0.000 title claims description 34
- 238000001308 synthesis method Methods 0.000 title claims description 12
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000008451 emotion Effects 0.000 claims description 27
- 230000010354 integration Effects 0.000 claims description 20
- 238000013179 statistical model Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000002996 emotional effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 59
- 238000000034 method Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000005284 excitation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
・{先行、当該、後続}音素
・当該音素のアクセント句内でのモーラ位置
・{先行、当該,後続}の品詞,活用形,活用型
・{先行,当該、後続}アクセント句のモーラ長,アクセント型
・当該アクセント句の位置,前後のポーズの有無
・{先行,当該,後続}呼気段落のモーラ長
・当該呼気段落の位置
・文のモーラ長
このようなHMMは、コンテキスト依存HMMと呼ばれる。
図4は、本発明の実施の形態1における音声合成装置の構成図である。
図13は、本発明の実施の形態2の音声合成装置の構成図である。図13において、図4と同じ構成要素については同じ符号を用い、説明を省略する。
・基本周波数とスペクトル情報と揺らぎ情報
・基本周波数と音源スペクトル情報と声道スペクトル情報と音源揺らぎ情報
2 制御部
3 音声素片読み出し部
4 音声素片DB
5 音声素片読み出し部
6 音声素片DB
7 混合部
8 振幅制御部
9 出力部
10 個人情報DB
11 合成音声素片チャンネル
12 自然音清素片チャンネル
41 目標パラメータを使用する領域
42 実音声パラメータを使用する領域
43 実音声パラメータを使用する領域
44 実音声パラメータを使用する領域
45 目標パラメータを使用する領域
100 学習部
200 音声合成部
101 言語解析部
102 目標パラメータ生成部
103 音声素片DB
104 素片選択部
105 コスト算出部
105a ターゲットコスト判定部
105b 連続性コスト判定部
106 混合パラメータ判定部
107 パラメータ統合部
108 波形生成部
201 韻律生成部
202 音声素片DB
203 波形接続部
301 コンテキスト依存HMMファイル
302 文章HMM作成部
303 合成フィルタ
401 励振源スペクトルパラメータ抽出部
402 スペクトルパラメータ抽出部
403 HMMの学習部
404 HMMからのパラメータ生成部
405 励振源生成部
601 実音声パラメータを使用する素片の領域
602 目標パラメータを使用する素片の領域
603 実音声パラメータを使用する素片の領域
604 目標パラメータを使用する素片の領域
801 目標パラメータパターン生成部
802 組み合わせ判定部
1101 標準音声DB
1102 感情音声DB
1501 パターンA1により選択された素片
1502 パターンC2により選択された素片
Claims (10)
- 少なくとも発音記号を含む情報から、音声を合成することが可能なパラメータ群である目標パラメータを素片単位で生成する目標パラメータ生成部と、
予め録音された音声を、前記目標パラメータと同じ形式のパラメータ群からなる音声素片として素片単位で記憶している音声素片データベースと、
前記目標パラメータに類似するパラメータ群を有する音声素片を前記音声素片データベースより選択する素片選択部と、
素片単位で、前記目標パラメータと前記音声素片との類似性を次元ごとに求め、次元ごとに前記類似性に基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータのパラメータ群および前記音声素片のパラメータ群を統合してパラメータ群を合成するパラメータ群合成部と、
合成された前記パラメータ群に基づいて、合成音波形を生成する波形生成部とを備える
ことを特徴とする音声合成装置。 - 前記パラメータ群合成部は、
前記素片選択部により選択された音声素片の部分集合と当該音声素片の部分集合に対応する前記目標パラメータの部分集合とに基づいて、前記目標パラメータと前記音声素片との非類似性を示すコストを算出するコスト算出部と、
前記コスト算出部により算出されたコストに基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータと前記音声素片との最適なパラメータの組み合わせを、素片単位で判定する混合パラメータ判定部と、
前記混合パラメータ判定部により判定された組み合わせに基づいて、前記目標パラメータと前記音声素片とを統合することによりパラメータ群を合成するパラメータ統合部とを有する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記コスト算出部は、
前記素片選択部により選択された音声素片の部分集合と当該音声素片の部分集合に対応する前記目標パラメータの部分集合との非類似性を示すコストを算出するターゲットコスト判定部を有する
ことを特徴とする請求項2に記載の音声合成装置。 - 前記コスト算出部は、さらに、
前記素片選択部により選択された音声素片の部分集合を当該音声素片の部分集合に対応する前記目標パラメータの部分集合に置き換えた音声素片に基づいて、時間的に連続する音声素片同士の不連続性を示すコストを算出する連続性判定部を有し、
前記混合パラメータ判定部は、前記ターゲットコスト判定部で算出された前記非類似性を示すコストと前記連続性判定部で算出された前記不連続性を示すコストとの和が最小となるような前記目標パラメータと前記音声素片との最適なパラメータの組み合わせを、ビタビアルゴリズムを用いて求める
ことを特徴とする請求項3に記載の音声合成装置。 - 前記音声素片データベースは、
標準的な感情を有する音声素片を記憶している標準音声データベースと、
特殊な感情を有する音声素片を記憶している感情音声データベースとを有し、
前記音声合成装置は、さらに、前記標準的な感情を有する音声素片および前記特殊な感情を有する音声素片に基づいて、特殊な感情を有する音声の統計モデルを作成する統計モデル作成手段を備え、
前記目標パラメータ生成部は、前記特殊な感情を有する音声の統計モデルに基づいて、目標パラメータを素片単位で生成し、
前記素片選択部は、前記目標パラメータに類似するパラメータ群を有する音声素片を前記感情音声データベースより選択する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記音声合成装置は、さらに、前記目標パラメータ生成部により生成された目標パラメータを、少なくとも1つ以上の部分集合に分割することによって得られるパラメータパターンを少なくとも1つ以上生成する目標パラメータパターン生成部を備え、
前記素片選択部は、前記目標パラメータパターン生成部により生成された前記目標パラメータの部分集合ごとに、当該部分集合に類似するパラメータ群を有する音声素片を前記音声素片データベースより選択し、
前記パラメータ群合成部は、
前記素片選択部により選択された音声素片の部分集合と当該音声素片の部分集合に対応する前記目標パラメータの部分集合とに基づいて、前記目標パラメータと前記音声素片との非類似性を示すコストを算出するコスト算出部と、
前記コスト算出部により算出されたコストに基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータの部分集合の最適な組み合わせを、素片ごとに判定する組み合わせ判定部と、
前記組み合わせ判定部により判定された組み合わせに基づいて、前記素片選択部により選択された前記音声素片の部分集合を統合することによりパラメータ群を合成するパラメータ統合部とを有する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記組み合わせ判定部は、前記音声素片の部分集合を組み合わせる際に、部分集合同士に重なりが生じる場合には、重なりが生じたパラメータに関しては平均値を当該パラメータの値として、最適な組み合わせを判定する
ことを特徴とする請求項6に記載の音声合成装置。 - 前記組み合わせ判定部は、前記音声素片の部分集合を組み合わせる際に、パラメータの欠落が生じる場合には、欠落したパラメータを目標パラメータにより代用して、最適な組み合わせを判定する
ことを特徴とする請求項6に記載の音声合成装置。 - 目標パラメータ生成部と、素片選択部と、パラメータ群合成部と、波形生成部とを備える音声合成装置による音声合成方法であって、
目標パラメータ生成部が、少なくとも発音記号を含む情報から、音声を合成することが可能なパラメータ群である目標パラメータを素片単位で生成するステップと、
素片選択部が、前記目標パラメータに類似するパラメータ群を有する音声素片を、予め録音された音声を前記目標パラメータと同じ形式のパラメータ群からなる音声素片として素片単位で記憶している音声素片データベースより選択するステップと、
パラメータ群合成部が、素片単位で、前記目標パラメータと前記音声素片との類似性を次元ごとに求め、次元ごとに前記類似性に基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータのパラメータ群および前記音声素片のパラメータ群を統合してパラメータ群を合成するステップと、
波形生成部が、合成された前記パラメータ群に基づいて、合成音波形を生成するステップとを含む
ことを特徴とする音声合成方法。 - 少なくとも発音記号を含む情報から、音声を合成することが可能なパラメータ群である目標パラメータを素片単位で生成するステップと、
前記目標パラメータに類似するパラメータ群を有する音声素片を、予め録音された音声を前記目標パラメータと同じ形式のパラメータ群からなる音声素片として素片単位で記憶している音声素片データベースより選択するステップと、
素片単位で、前記目標パラメータと前記音声素片との類似性を次元ごとに求め、次元ごとに前記類似性に基づいて、前記目標パラメータが前記音声素片に類似していると判断される場合には前記音声素片を選択し、前記目標パラメータが前記音声素片に類似していないと判断される場合には前記目標パラメータを選択することにより、前記目標パラメータのパラメータ群および前記音声素片のパラメータ群を統合してパラメータ群を合成するステップと、
合成された前記パラメータ群に基づいて、合成音波形を生成するステップとをコンピュータに実行させる
ことを特徴とするプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005176974 | 2005-06-16 | ||
JP2005176974 | 2005-06-16 | ||
PCT/JP2006/309288 WO2006134736A1 (ja) | 2005-06-16 | 2006-05-09 | 音声合成装置、音声合成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3910628B2 true JP3910628B2 (ja) | 2007-04-25 |
JPWO2006134736A1 JPWO2006134736A1 (ja) | 2009-01-08 |
Family
ID=37532103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006521338A Expired - Fee Related JP3910628B2 (ja) | 2005-06-16 | 2006-05-09 | 音声合成装置、音声合成方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7454343B2 (ja) |
JP (1) | JP3910628B2 (ja) |
WO (1) | WO2006134736A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080027725A1 (en) * | 2006-07-26 | 2008-01-31 | Microsoft Corporation | Automatic Accent Detection With Limited Manually Labeled Data |
JP4878538B2 (ja) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
JP4773988B2 (ja) * | 2007-02-06 | 2011-09-14 | 日本電信電話株式会社 | ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体 |
JP4246792B2 (ja) * | 2007-05-14 | 2009-04-02 | パナソニック株式会社 | 声質変換装置および声質変換方法 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US8301447B2 (en) * | 2008-10-10 | 2012-10-30 | Avaya Inc. | Associating source information with phonetic indices |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
GB0920480D0 (en) * | 2009-11-24 | 2010-01-06 | Yu Kai | Speech processing and learning |
CN102203853B (zh) * | 2010-01-04 | 2013-02-27 | 株式会社东芝 | 合成语音的方法和装置 |
US8781835B2 (en) * | 2010-04-30 | 2014-07-15 | Nokia Corporation | Methods and apparatuses for facilitating speech synthesis |
US9564120B2 (en) * | 2010-05-14 | 2017-02-07 | General Motors Llc | Speech adaptation in speech synthesis |
US8731932B2 (en) | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
US9570066B2 (en) * | 2012-07-16 | 2017-02-14 | General Motors Llc | Sender-responsive text-to-speech processing |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
JP6821970B2 (ja) | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0561498A (ja) * | 1991-06-25 | 1993-03-12 | Ricoh Co Ltd | 音声出力装置 |
JPH0516498A (ja) | 1991-07-17 | 1993-01-26 | Nec Corp | 印字異常診断機能付プリンタ装置 |
JP3060276B2 (ja) * | 1994-08-19 | 2000-07-10 | 富士通株式会社 | 音声合成装置 |
JP2987089B2 (ja) | 1995-08-30 | 1999-12-06 | 松下電器産業株式会社 | 音声素片作成方法および音声合成方法とその装置 |
JP3091426B2 (ja) | 1997-03-04 | 2000-09-25 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 自然発話音声波形信号接続型音声合成装置 |
DE69940747D1 (de) * | 1998-11-13 | 2009-05-28 | Lernout & Hauspie Speechprod | Sprachsynthese mittels Verknüpfung von Sprachwellenformen |
JP4056647B2 (ja) * | 1998-12-16 | 2008-03-05 | トヨタ自動車株式会社 | 波形接続型音声合成装置および方法 |
JP2002268660A (ja) | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
JP2003295880A (ja) * | 2002-03-28 | 2003-10-15 | Fujitsu Ltd | 録音音声と合成音声を接続する音声合成システム |
-
2006
- 2006-05-09 WO PCT/JP2006/309288 patent/WO2006134736A1/ja active Application Filing
- 2006-05-09 JP JP2006521338A patent/JP3910628B2/ja not_active Expired - Fee Related
-
2007
- 2007-04-12 US US11/783,855 patent/US7454343B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7454343B2 (en) | 2008-11-18 |
JPWO2006134736A1 (ja) | 2009-01-08 |
US20070203702A1 (en) | 2007-08-30 |
WO2006134736A1 (ja) | 2006-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
JP2014062970A (ja) | 音声合成方法、装置、及びプログラム | |
JP3346671B2 (ja) | 音声素片選択方法および音声合成装置 | |
JP5574344B2 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
JP2011197542A (ja) | 韻律パターン生成装置 | |
JP2004354644A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
JP4414864B2 (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
JP3571925B2 (ja) | 音声情報処理装置 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP2005292433A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
Demenko et al. | The design of polish speech corpus for unit selection speech synthesis | |
Demenko et al. | Implementation of Polish speech synthesis for the BOSS system | |
Boidin et al. | Generating intonation from a mixed CART-HMM model for speech synthesis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3910628 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100202 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140202 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |