JP6523423B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents
音声合成装置、音声合成方法およびプログラム Download PDFInfo
- Publication number
- JP6523423B2 JP6523423B2 JP2017241425A JP2017241425A JP6523423B2 JP 6523423 B2 JP6523423 B2 JP 6523423B2 JP 2017241425 A JP2017241425 A JP 2017241425A JP 2017241425 A JP2017241425 A JP 2017241425A JP 6523423 B2 JP6523423 B2 JP 6523423B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- level
- target speaker
- target
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 101
- 238000003786 synthesis reaction Methods 0.000 claims description 101
- 230000006978 adaptation Effects 0.000 claims description 77
- 238000000034 method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000009826 distribution Methods 0.000 description 27
- 230000003595 spectral effect Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000003066 decision tree Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 238000000605 extraction Methods 0.000 description 8
- 238000012417 linear regression Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 238000013216 cat model Methods 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000665848 Isca Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
図1は、本実施形態の音声合成辞書生成装置100の構成例を示すブロック図である。図1に示すように、本実施形態の音声合成辞書生成装置100は、音声分析部101と、話者適応部102と、対象話者レベル指定部103と、目標話者レベル指定部104と、決定部105とを備える。音声合成辞書生成装置100は、辞書生成の対象となる任意の対象話者の録音音声10とその読み上げ内容に対応したテキスト20(以下、「録音テキスト」と呼ぶ)が入力されると、その対象話者の声質・話し方をモデル化した対象話者のモデルを含む音声合成辞書30を生成する。
(参考文献1)J.Yamagishi and T.Kobayashi,“Average−Voice−Based Speech Synthesis Using HSMM−Based Speaker Adaptation and Adaptive Training”,IEICE Trans.Information and Systems,Vol.No.2,pp.533−543(2007−2)
第1の実施形態においては、対象話者レベルは対象話者本人などのユーザにより指定される、あるいは予め固定の想定値を設定するものとした。しかし、録音音声10での実際の発話スキルやネイティブ度に合った適切な対象話者レベルを指定・設定するのは非常に難しい。そこで、本実施形態では、音声分析部101による対象話者の音声データの分析結果を基に対象話者レベルを推定し、指定された目標話者レベルと、推定した対象話者レベルとの関係に応じて、話者性再現の忠実度に関わるパラメータの値を決定する。
(参考文献2)特開2006−201491
この参考文献2に記載されている技術では、HMMモデルを教師データとし、これを使って話者の音声をアラインメントした結果得られる確率値から、その話者の発音レベルに関する評定値を算出する。このような既存の技術のいずれかを用いてもよい。
ユーザが指定する目標話者レベルは、生成される音声合成辞書30(対象話者のモデル)の発話レベルやネイティブ度に影響するだけでなく、実際には対象話者の類似度とのトレードオフを調整することになる。すなわち、対象話者の発話レベルやネイティブ度よりも高い目標話者レベルを設定すると、対象話者の話者性の類似度は多少犠牲にすることになる。しかしながら、第1、第2の実施形態においては、ユーザは目標話者レベルを指定するだけのため、最終的にどういった音声合成辞書30が生成されるかをイメージすることが難しい。また、そうしたトレードオフが実際に調整可能な範囲は、録音音声10の発話レベルやネイティブ度によってある程度制限されることになるが、これについてもユーザは事前に把握できないまま目標話者レベルを設定する必要がある。
第1〜第3の実施形態では、HMM音声合成での一般的な話者適応方式を用いる例を説明したが、話者性再現の忠実度に関わるパラメータを持つものであれば、第1〜第3の実施形態とは異なる話者適応方式を用いてもよい。
(参考文献3)K.Yanagisawa,J.Latorre,V.Wan,M.Gales and S.King,“Noise Robustness in HMM−TTS Speaker Adaptation” Proc.of 8th ISCA Speech Synthesis Workshop,pp.119−124,2013−9
第1〜第4の実施形態は、HMM音声合成のための音声合成辞書30を生成する例を説明したが、音声合成の方式はHMM音声合成に限らず、素片選択型の音声合成など、異なる音声合成方式であってもよい。例えば、素片選択型の音声合成においても、下記の参考文献4に開示されているような話者適応方法がある。
(参考文献4)特開2007−193139号公報
話せない言語の音声合成辞書30を生成する場合など、話者のネイティブ度が低い場合は、その言語での音声の録音が非常に難しくなることが予想される。例えば、音声録音ツールにおいて、中国語の分からない日本人話者に対して、中国語のテキストのまま表示して読ませることは困難である。そこで、本実施形態では、テキストの読みの情報を対象話者が通常使用する言語の読み表記に変換して対象話者に提示しながら、音声の録音を行い、かつ、提示する情報を対象話者のネイティブ度に応じて切り換える。
20 録音テキスト
30 音声合成辞書
100 音声合成辞書生成装置
101 音声分析部
102 話者適応部
103 対象話者レベル指定部
104 目標話者レベル指定部
105 決定部
110 音声データベース(音声DB)
120 話者適応用ベースモデル
200 音声合成辞書生成装置
201 対象話者レベル推定部
300 音声合成辞書生成装置
301 目標話者レベル提示・指定部
400 音声合成辞書生成装置
401 音声録音・提示部
Claims (12)
- 任意の対象話者の音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析部と、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応部と、
話者の発話スキルと音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定部と、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定部と、
前記パラメータの値に従って音声波形を生成する音声合成部と、を備える音声合成装置。 - 前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定する、請求項1に記載の音声合成装置。
- 前記対象話者レベルの指定を受け付ける対象話者レベル指定部をさらに備え、
前記決定部は、指定された前記目標話者レベルと、指定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1または2に記載の音声合成装置。 - 前記音声データベースの少なくとも一部のデータを基に、前記対象話者レベルを自動推定する対象話者レベル推定部をさらに備え、
前記決定部は、指定された前記目標話者レベルと、推定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1または2に記載の音声合成装置。 - 前記目標話者レベル指定部は、前記対象話者レベルを基に、前記目標話者レベルと、生成される前記対象話者のモデルで想定される話者性の類似度との関係、および、前記目標話者レベルの指定可能な範囲を表示し、表示した範囲の中から前記目標話者レベルを指定する操作を受け付けることを特徴とする請求項1〜4のいずれか一項に記載の音声合成装置。
- 前記話者適応部は、前記話者レベルが高い話者をモデル化した平均声モデルを前記ベースモデルとして用いることを特徴とする請求項1〜5のいずれか一項に記載の音声合成装置。
- 前記パラメータは、前記話者適応において前記ベースモデルの変換に使用する変換行列の数を定めるパラメータであり、前記変換行列の数が少ないほど前記忠実度が低くなることを特徴とする請求項1〜6のいずれか一項に記載の音声合成装置。
- 前記話者適応部は、前記話者レベルが異なる複数の話者のデータからクラスタ適応学習によって学習された、複数クラスタの重み付き和で表されるモデルを前記ベースモデルとして用い、複数クラスタの重みの一式である重みベクトルを前記対象話者に合わせ込むことで前記話者適応を行い、
前記重みベクトルは、前記対象話者にとっての最適重みベクトルと、前記複数の話者のうち前記話者レベルが高い1話者の最適重みベクトルとを補間することで求められ、
前記パラメータは、前記重みベクトルを求める際の補間比率であることを特徴とする請求項1〜5のいずれか一項に記載の音声合成装置。 - 前記対象話者のモデルは、韻律モデルと音響モデルとを含み、
前記パラメータは、前記韻律モデルの生成に用いる第1パラメータと、前記音響モデルの生成に用いる第2パラメータとを含み、
前記決定部は、前記忠実度が低くなるように前記パラメータの値を決定する際に、前記忠実度が高くなるデフォルト値に対する前記第1パラメータの変更度合いを、前記デフォルト値に対する前記第2パラメータの変更度合いよりも大きくすることを特徴とする請求項2〜8のいずれか一項に記載の音声合成装置。 - 前記音声データを録音するための録音部をさらに備え、
前記録音部は、読み上げる単位ごとに少なくとも読み上げる文章の読みの情報を前記対象話者に提示しながら前記音声データを録音し、
前記読みの情報は、読み上げ対象の言語での読み表記ではなく、前記対象話者が通常用いる言語の読み表記に変換されたものであり、少なくとも前記対象話者のネイティブ度が所定の値よりも低い場合は、アクセントや声調など抑揚に関わる記号を含まないことを特徴とする請求項1〜9のいずれか一項に記載の音声合成装置。 - 任意の対象話者の音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、
前記パラメータの値に従って音声波形を生成する音声合成ステップと、を含む音声合成方法。 - コンピュータに、
任意の対象話者の音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、
前記パラメータの値に従って音声波形を生成する音声合成ステップと、を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241425A JP6523423B2 (ja) | 2017-12-18 | 2017-12-18 | 音声合成装置、音声合成方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241425A JP6523423B2 (ja) | 2017-12-18 | 2017-12-18 | 音声合成装置、音声合成方法およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014023617A Division JP6266372B2 (ja) | 2014-02-10 | 2014-02-10 | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018041116A JP2018041116A (ja) | 2018-03-15 |
JP6523423B2 true JP6523423B2 (ja) | 2019-05-29 |
Family
ID=61626111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017241425A Active JP6523423B2 (ja) | 2017-12-18 | 2017-12-18 | 音声合成装置、音声合成方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6523423B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634866B (zh) * | 2020-12-24 | 2024-05-14 | 北京猎户星空科技有限公司 | 语音合成模型训练和语音合成方法、装置、设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
US7571099B2 (en) * | 2004-01-27 | 2009-08-04 | Panasonic Corporation | Voice synthesis device |
US7912719B2 (en) * | 2004-05-11 | 2011-03-22 | Panasonic Corporation | Speech synthesis device and speech synthesis method for changing a voice characteristic |
JP4753412B2 (ja) * | 2005-01-20 | 2011-08-24 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
JP2010014913A (ja) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | 声質変換音声生成装置および声質変換音声生成システム |
JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
-
2017
- 2017-12-18 JP JP2017241425A patent/JP6523423B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018041116A (ja) | 2018-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US7603278B2 (en) | Segment set creating method and apparatus | |
Black | CLUSTERGEN: a statistical parametric synthesizer using trajectory modeling. | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP4125362B2 (ja) | 音声合成装置 | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
Liu et al. | High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
JPWO2015092936A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Erro et al. | Emotion conversion based on prosodic unit selection | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2006293026A (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
Cahyaningtyas et al. | Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN | |
Sharma et al. | Polyglot speech synthesis: a review | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
Sajini et al. | Speaker independent text to speech for Malayalam |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190425 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6523423 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |