JP6266372B2 - 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム - Google Patents
音声合成辞書生成装置、音声合成辞書生成方法およびプログラム Download PDFInfo
- Publication number
- JP6266372B2 JP6266372B2 JP2014023617A JP2014023617A JP6266372B2 JP 6266372 B2 JP6266372 B2 JP 6266372B2 JP 2014023617 A JP2014023617 A JP 2014023617A JP 2014023617 A JP2014023617 A JP 2014023617A JP 6266372 B2 JP6266372 B2 JP 6266372B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- level
- target speaker
- target
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 121
- 238000003786 synthesis reaction Methods 0.000 title claims description 121
- 238000000034 method Methods 0.000 title claims description 55
- 230000006978 adaptation Effects 0.000 claims description 82
- 239000013598 vector Substances 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims 1
- 238000009826 distribution Methods 0.000 description 27
- 238000006243 chemical reaction Methods 0.000 description 17
- 238000003066 decision tree Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 9
- 238000012417 linear regression Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000013216 cat model Methods 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000665848 Isca Species 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本実施形態の音声合成辞書生成装置100の構成例を示すブロック図である。図1に示すように、本実施形態の音声合成辞書生成装置100は、音声分析部101と、話者適応部102と、対象話者レベル指定部103と、目標話者レベル指定部104と、決定部105とを備える。音声合成辞書生成装置100は、辞書生成の対象となる任意の対象話者の録音音声10とその読み上げ内容に対応したテキスト20(以下、「録音テキスト」と呼ぶ)が入力されると、その対象話者の声質・話し方をモデル化した対象話者のモデルを含む音声合成辞書30を生成する。
(参考文献1)J.Yamagishi and T.Kobayashi,“Average−Voice−Based Speech Synthesis Using HSMM−Based Speaker Adaptation and Adaptive Training”,IEICE Trans.Information and Systems,Vol.No.2,pp.533−543(2007−2)
第1の実施形態においては、対象話者レベルは対象話者本人などのユーザにより指定される、あるいは予め固定の想定値を設定するものとした。しかし、録音音声10での実際の発話スキルやネイティブ度に合った適切な対象話者レベルを指定・設定するのは非常に難しい。そこで、本実施形態では、音声分析部101による対象話者の音声データの分析結果を基に対象話者レベルを推定し、指定された目標話者レベルと、推定した対象話者レベルとの関係に応じて、話者性再現の忠実度に関わるパラメータの値を決定する。
(参考文献2)特開2006−201491
この参考文献2に記載されている技術では、HMMモデルを教師データとし、これを使って話者の音声をアラインメントした結果得られる確率値から、その話者の発音レベルに関する評定値を算出する。このような既存の技術のいずれかを用いてもよい。
ユーザが指定する目標話者レベルは、生成される音声合成辞書30(対象話者のモデル)の発話レベルやネイティブ度に影響するだけでなく、実際には対象話者の類似度とのトレードオフを調整することになる。すなわち、対象話者の発話レベルやネイティブ度よりも高い目標話者レベルを設定すると、対象話者の話者性の類似度は多少犠牲にすることになる。しかしながら、第1、第2の実施形態においては、ユーザは目標話者レベルを指定するだけのため、最終的にどういった音声合成辞書30が生成されるかをイメージすることが難しい。また、そうしたトレードオフが実際に調整可能な範囲は、録音音声10の発話レベルやネイティブ度によってある程度制限されることになるが、これについてもユーザは事前に把握できないまま目標話者レベルを設定する必要がある。
第1〜第3の実施形態では、HMM音声合成での一般的な話者適応方式を用いる例を説明したが、話者性再現の忠実度に関わるパラメータを持つものであれば、第1〜第3の実施形態とは異なる話者適応方式を用いてもよい。
(参考文献3)K.Yanagisawa,J.Latorre,V.Wan,M.Gales and S.King,“Noise Robustness in HMM−TTS Speaker Adaptation” Proc.of 8th ISCA Speech Synthesis Workshop,pp.119−124,2013−9
第1〜第4の実施形態は、HMM音声合成のための音声合成辞書30を生成する例を説明したが、音声合成の方式はHMM音声合成に限らず、素片選択型の音声合成など、異なる音声合成方式であってもよい。例えば、素片選択型の音声合成においても、下記の参考文献4に開示されているような話者適応方法がある。
(参考文献4)特開2007−193139号公報
話せない言語の音声合成辞書30を生成する場合など、話者のネイティブ度が低い場合は、その言語での音声の録音が非常に難しくなることが予想される。例えば、音声録音ツールにおいて、中国語の分からない日本人話者に対して、中国語のテキストのまま表示して読ませることは困難である。そこで、本実施形態では、テキストの読みの情報を対象話者が通常使用する言語の読み表記に変換して対象話者に提示しながら、音声の録音を行い、かつ、提示する情報を対象話者のネイティブ度に応じて切り換える。
20 録音テキスト
30 音声合成辞書
100 音声合成辞書生成装置
101 音声分析部
102 話者適応部
103 対象話者レベル指定部
104 目標話者レベル指定部
105 決定部
110 音声データベース(音声DB)
120 話者適応用ベースモデル
200 音声合成辞書生成装置
201 対象話者レベル推定部
300 音声合成辞書生成装置
301 目標話者レベル提示・指定部
400 音声合成辞書生成装置
401 音声録音・提示部
Claims (11)
- 任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置であって、
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析部と、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応部と、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定部と、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定部と、を備え、
前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応部は、前記決定部が決定した前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成装置。 - 前記対象話者レベルの指定を受け付ける対象話者レベル指定部をさらに備え、
前記決定部は、指定された前記目標話者レベルと、指定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1に記載の音声合成辞書生成装置。 - 前記音声データベースの少なくとも一部のデータを基に、前記対象話者レベルを自動推定する対象話者レベル推定部をさらに備え、
前記決定部は、指定された前記目標話者レベルと、推定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項1に記載の音声合成辞書生成装置。 - 前記目標話者レベル指定部は、前記対象話者レベルを基に、前記目標話者レベルと、生成される前記対象話者のモデルで想定される話者性の類似度との関係、および、前記目標話者レベルの指定可能な範囲を表示し、表示した範囲の中から前記目標話者レベルを指定する操作を受け付けることを特徴とする請求項1〜3のいずれか一項に記載の音声合成辞書生成装置。
- 前記話者適応部は、前記話者レベルが高い話者をモデル化した平均声モデルを前記ベースモデルとして用いることを特徴とする請求項1〜4のいずれか一項に記載の音声合成辞書生成装置。
- 前記パラメータは、前記話者適応において前記ベースモデルの変換に使用する変換行列の数を定めるパラメータであり、前記変換行列の数が少ないほど前記忠実度が低くなることを特徴とする請求項1〜5のいずれか一項に記載の音声合成辞書生成装置。
- 前記話者適応部は、前記話者レベルが異なる複数の話者のデータからクラスタ適応学習によって学習された、複数クラスタの重み付き和で表されるモデルを前記ベースモデルとして用い、複数クラスタの重みの一式である重みベクトルを前記対象話者に合わせ込むことで前記話者適応を行い、
前記重みベクトルは、前記対象話者にとっての最適重みベクトルと、前記複数の話者のうち前記話者レベルが高い1話者の最適重みベクトルとを補間することで求められ、
前記パラメータは、前記重みベクトルを求める際の補間比率であることを特徴とする請求項1〜4のいずれか一項に記載の音声合成辞書生成装置。 - 前記対象話者のモデルは、韻律モデルと音響モデルとを含み、
前記パラメータは、前記韻律モデルの生成に用いる第1パラメータと、前記音響モデルの生成に用いる第2パラメータとを含み、
前記決定部は、前記忠実度が低くなるように前記パラメータの値を決定する際に、前記忠実度が高くなるデフォルト値に対する前記第1パラメータの変更度合いを、前記デフォルト値に対する前記第2パラメータの変更度合いよりも大きくすることを特徴とする請求項1〜7のいずれか一項に記載の音声合成辞書生成装置。 - 前記音声データを録音するための録音部をさらに備え、
前記録音部は、読み上げる単位ごとに少なくとも読み上げる文章の読みの情報を前記対象話者に提示しながら前記音声データを録音し、
前記読みの情報は、読み上げ対象の言語での読み表記ではなく、前記対象話者が通常用いる言語の読み表記に変換されたものであり、少なくとも前記対象話者のネイティブ度が所定の値よりも低い場合は、アクセントや声調など抑揚に関わる記号を含まないことを特徴とする請求項1〜8のいずれか一項に記載の音声合成辞書生成装置。 - 任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置により実行される音声合成辞書生成方法であって、
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を含み、
前記決定ステップでは、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成方法。 - 任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する機能をコンピュータに実現させるためのプログラムであって、
コンピュータに、
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を実行させ、
前記決定ステップでは、指定された前記目標話者レベルが前記話者レベルより高い場合は、指定された前記目標話者レベルが前記話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014023617A JP6266372B2 (ja) | 2014-02-10 | 2014-02-10 | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム |
US14/606,089 US9484012B2 (en) | 2014-02-10 | 2015-01-27 | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product |
CN201510058451.5A CN104835493A (zh) | 2014-02-10 | 2015-02-04 | 语音合成字典生成装置和语音合成字典生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014023617A JP6266372B2 (ja) | 2014-02-10 | 2014-02-10 | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017241425A Division JP6523423B2 (ja) | 2017-12-18 | 2017-12-18 | 音声合成装置、音声合成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015152630A JP2015152630A (ja) | 2015-08-24 |
JP6266372B2 true JP6266372B2 (ja) | 2018-01-24 |
Family
ID=53775452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014023617A Expired - Fee Related JP6266372B2 (ja) | 2014-02-10 | 2014-02-10 | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9484012B2 (ja) |
JP (1) | JP6266372B2 (ja) |
CN (1) | CN104835493A (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633649B2 (en) * | 2014-05-02 | 2017-04-25 | At&T Intellectual Property I, L.P. | System and method for creating voice profiles for specific demographics |
EP3193328B1 (en) | 2015-01-16 | 2022-11-23 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
CN105225658B (zh) * | 2015-10-21 | 2018-10-19 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
GB2546981B (en) * | 2016-02-02 | 2019-06-19 | Toshiba Res Europe Limited | Noise compensation in speaker-adaptive systems |
US10586527B2 (en) * | 2016-10-25 | 2020-03-10 | Third Pillar, Llc | Text-to-speech process capable of interspersing recorded words and phrases |
US10896678B2 (en) * | 2017-08-10 | 2021-01-19 | Facet Labs, Llc | Oral communication device and computing systems for processing data and outputting oral feedback, and related methods |
JP7013172B2 (ja) * | 2017-08-29 | 2022-01-31 | 株式会社東芝 | 音声合成辞書配信装置、音声合成配信システムおよびプログラム |
CN107967912B (zh) * | 2017-11-28 | 2022-02-25 | 广州势必可赢网络科技有限公司 | 一种人声分割方法及装置 |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
CN110010136B (zh) * | 2019-04-04 | 2021-07-20 | 北京地平线机器人技术研发有限公司 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
EP3737115A1 (en) * | 2019-05-06 | 2020-11-11 | GN Hearing A/S | A hearing apparatus with bone conduction sensor |
CN114303186A (zh) * | 2019-08-21 | 2022-04-08 | 杜比实验室特许公司 | 用于在语音合成中适配人类说话者嵌入的系统和方法 |
CN113327574B (zh) * | 2021-05-31 | 2024-03-01 | 广州虎牙科技有限公司 | 一种语音合成方法、装置、计算机设备和存储介质 |
US20230112096A1 (en) * | 2021-10-13 | 2023-04-13 | SparkCognition, Inc. | Diverse clustering of a data set |
WO2023215132A1 (en) * | 2022-05-04 | 2023-11-09 | Cerence Operating Company | Interactive modification of speaking style of synthesized speech |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2975586B2 (ja) | 1998-03-04 | 1999-11-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声合成システム |
US6343270B1 (en) * | 1998-12-09 | 2002-01-29 | International Business Machines Corporation | Method for increasing dialect precision and usability in speech recognition and text-to-speech systems |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
DE19963812A1 (de) * | 1999-12-30 | 2001-07-05 | Nokia Mobile Phones Ltd | Verfahren zum Erkennen einer Sprache und zum Steuern einer Sprachsyntheseeinheit sowie Kommunikationsvorrichtung |
GB0004097D0 (en) * | 2000-02-22 | 2000-04-12 | Ibm | Management of speech technology modules in an interactive voice response system |
JP2001282096A (ja) | 2000-03-31 | 2001-10-12 | Sanyo Electric Co Ltd | 外国語発音評価装置 |
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
US7496511B2 (en) * | 2003-01-14 | 2009-02-24 | Oracle International Corporation | Method and apparatus for using locale-specific grammars for speech recognition |
US7571099B2 (en) * | 2004-01-27 | 2009-08-04 | Panasonic Corporation | Voice synthesis device |
US7912719B2 (en) * | 2004-05-11 | 2011-03-22 | Panasonic Corporation | Speech synthesis device and speech synthesis method for changing a voice characteristic |
US7412387B2 (en) * | 2005-01-18 | 2008-08-12 | International Business Machines Corporation | Automatic improvement of spoken language |
JP4753412B2 (ja) * | 2005-01-20 | 2011-08-24 | 株式会社国際電気通信基礎技術研究所 | 発音評定装置、およびプログラム |
US7472061B1 (en) | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
JP2010014913A (ja) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | 声質変換音声生成装置および声質変換音声生成システム |
JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
JP2013072903A (ja) | 2011-09-26 | 2013-04-22 | Toshiba Corp | 合成辞書作成装置および合成辞書作成方法 |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
-
2014
- 2014-02-10 JP JP2014023617A patent/JP6266372B2/ja not_active Expired - Fee Related
-
2015
- 2015-01-27 US US14/606,089 patent/US9484012B2/en not_active Expired - Fee Related
- 2015-02-04 CN CN201510058451.5A patent/CN104835493A/zh not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2015152630A (ja) | 2015-08-24 |
CN104835493A (zh) | 2015-08-12 |
US9484012B2 (en) | 2016-11-01 |
US20150228271A1 (en) | 2015-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
US7603278B2 (en) | Segment set creating method and apparatus | |
US10347237B2 (en) | Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
JP2012141354A (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Sawada et al. | The NITech text-to-speech system for the blizzard challenge 2016 | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
Huckvale | 14 An Introduction to Phonetic Technology | |
JPH10247097A (ja) | 自然発話音声波形信号接続型音声合成装置 | |
Sajini et al. | Speaker independent text to speech for Malayalam | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
Moberg et al. | Comparing CART and Fujisaki intonation models for synthesis of US-English names | |
JP2015194781A (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171121 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6266372 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |