JP4025355B2 - 音声合成装置及び音声合成方法 - Google Patents
音声合成装置及び音声合成方法 Download PDFInfo
- Publication number
- JP4025355B2 JP4025355B2 JP2006540860A JP2006540860A JP4025355B2 JP 4025355 B2 JP4025355 B2 JP 4025355B2 JP 2006540860 A JP2006540860 A JP 2006540860A JP 2006540860 A JP2006540860 A JP 2006540860A JP 4025355 B2 JP4025355 B2 JP 4025355B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- voice quality
- function
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 43
- 238000003786 synthesis reaction Methods 0.000 title claims description 43
- 238000001308 synthesis method Methods 0.000 title claims description 9
- 230000006870 function Effects 0.000 claims description 493
- 238000006243 chemical reaction Methods 0.000 claims description 456
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000009795 derivation Methods 0.000 claims description 13
- 230000003068 static effect Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 56
- 238000001228 spectrum Methods 0.000 description 53
- 238000012986 modification Methods 0.000 description 23
- 230000004048 modification Effects 0.000 description 23
- 230000010354 integration Effects 0.000 description 19
- 238000000034 method Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 238000002372 labelling Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 239000000470 constituent Substances 0.000 description 6
- 230000008451 emotion Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Description
また、まず韻律情報に応じた音声素片が選択されて、その音声素片に対して変換関数が類似度に基づいて選択されるため、例えば、素片格納手段に格納されている音声素片の数が少なくても、関数格納手段に格納されている変換関数の数が多ければ、声質を適切に変換することができる。また、ユーザから指定された声質に変換するための変換関数が選択されるため、所望の声質に適切に変換することができる。
図4は、本発明の第1の実施の形態における音声合成装置の構成を示す構成図である。
上記実施の形態1の音声合成装置は、指定された1つの声質に基づいて、音声素片系列U及び変換関数系列F(音声素片及び変換関数)を選択した。
図15は、本発明の第2の実施の形態における音声合成装置の構成を示す構成図である。
図19は、本発明の第3の実施の形態における音声合成装置の構成を示す構成図である。
以下、本発明の第4の実施の形態について図面を用いて詳細に説明する。
上記実施の形態の手法では声質変換を音素単位で行ったが、単語単位・アクセント句単位等のより長い単位で行ってもよい。特に韻律を決定付ける基本周波数や継続長の情報は音素単位の変形のみで処理を完結させることが難しいため、変換目標の声質で文全体についての韻律情報を決定し、変換元の声質での韻律情報との差し替えやモーフィングを行うことで変形を行っても良い。
以上の手法では、各音素の中心位置において基点を定義することで各音素の音響的特徴を安定的に表現しようとしているが、音素内での各フォルマント周波数の平均値や、音素内での周波数帯域ごとのスペクトル強度の平均値や、これらの値の分散値等として基点を定義しても良い。即ち、音声認識技術で一般的に用いられるHMM音響モデルの形式で基点を定義しておき、素片側のモデルの各状態変数と、変換関数側のモデルの各状態変数の間の距離を計算することによって、最適な関数を選択するようにしてもよい。
本実施の形態はテキストデータ501を入力として受け取って音声を出力する音声合成装置に声質変換機能を組み合わせたものであるが、音声を入力として受け取り、入力音声の自動ラベリングによってラベル情報を生成し、各音素中心でのスペクトルピーク点を抽出することで基点情報を自動で生成してもよい。これにより、本発明の技術をボイスチェンジャ装置として使用することも可能である。
102 素片記憶部
103 選択部
104 関数記憶部
105 適合度判定部
106 声質変換部
107 声質指定部
108 波形合成部
201 素片ラティス特定部
202 関数ラティス特定部
203 素片コスト判定部
204 コスト統合部
205 探索部
501 テキストデータ
502 テキスト解析部
503 韻律生成部
504 素片接続部
505 素片選択部
506 A音声データ
507 変換率指定部
508 変換済音声データ
509 関数適用部
510 A素片データベース
511 A基点データベース
512 B基点データベース
513 関数抽出部
514 変換関数データベース
515 関数選択部
516 変換関数データ
517 第1バッファ
518 第2バッファ
519 第3バッファ
803,804 フォルマント軌跡
805,806 音素中心位置
807,808 基点
601 A韻律生成部
602 B韻律生成部
603 中間韻律生成部
701 A入力音声波形データ
702 ラベリング部
703 音響特徴分析部
704 ラベリング用音響モデル
705 マイク
Claims (13)
- 声質を変換するように音声素片を用いて音声を合成する音声合成装置であって、
複数の音声素片を格納している素片格納手段と、
音声素片の声質を変換するための複数の変換関数を格納している関数格納手段と、
ユーザから指定された声質情報を取得する声質指定手段と、
入力されたテキストから韻律情報を生成する韻律生成手段と、
前記素片格納手段に格納されている音声素片の示す音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴とを比較して類似度を導出する類似度導出手段と、
前記韻律生成手段によって生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択し、選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を前記類似度導出手段に対して導出させ、導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する選択手段と、
選択された前記変換関数を、選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換手段と
を備えることを特徴とする音声合成装置。 - 前記類似度導出手段は、
前記素片格納手段に格納されている音声素片の音的特徴と、前記変換関数を作成する際に使用した音声素片の音的特徴とが類似するほど高い類似度を導出し、
前記選択手段は、
選択された前記音声素片に対して、前記類似度の最も高い音声素片を使用して作成された変換関数を選択する
ことを特徴とする請求項1記載の音声合成装置。 - 前記類似度導出手段は、
選択された前記音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴と、前記変換関数を作成する際に使用した音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴との類似度に基づいて、動的な前記類似度を導出する
ことを特徴とする請求項2記載の音声合成装置。 - 前記類似度導出手段は、
選択された前記音声素片の音響的特徴と、前記変換関数を作成する際に使用した音声素片の音響的特徴との類似度に基づいて、静的な前記類似度を導出する
ことを特徴とする請求項2記載の音声合成装置。 - 前記選択手段は、
選択された前記音声素片に対して、前記類似度が所定のしきい値以上となるような音声素片を使用して作成された変換関数を選択する
ことを特徴とする請求項1記載の音声合成装置。 - 前記素片格納手段は、第1声質の音声を構成する複数の音声素片を格納しており、
前記関数格納手段は、第1声質の音声の音声素片ごとに、当該音声素片、当該音声素片の音響的特徴を示す基準代表値、および前記基準代表値に対する変換関数を、それぞれ関連付けて格納しており、
前記音声合成装置は、さらに、
前記素片格納手段に格納されている第1声質の音声の音声素片ごとに、当該音声素片の音響的特徴を示す代表値を特定する代表値特定手段を備え、
前記類似度導出手段は、
前記素片格納手段に格納されている音声素片の示す前記代表値と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の前記基準代表値とを比較して類似度を導出し、
前記選択手段は、
選択された前記音声素片に対して、当該音声素片と同一の音声素片に関連付けて前記関数格納手段に格納されている変換関数のうち、当該音声素片の代表値と最も類似度の高い基準代表値に関連付けられた変換関数を選択し、
前記変換手段は、
前記選択手段によって選択された前記音声素片に対して、選択された変換関数を適用することにより、前記第1声質の音声を第2声質の音声に変換する
ことを特徴とする請求項1記載の音声合成装置。 - 前記音声合成装置は、さらに、
テキストデータを取得し、前記テキストデータと同一の内容を示す前記複数の音声素片を生成して前記素片格納手段に格納する音声合成手段を備える
ことを特徴とする請求項6記載の音声合成装置。 - 前記音声合成手段は、
前記第1声質の音声を構成する各音声素片と、前記各音声素片の音響的特徴を示す代表値とを関連付けて記憶している素片代表値記憶手段と、
前記テキストデータを取得して解析する解析手段と、
前記解析手段による解析結果に基づいて、前記テキストデータに応じた音声素片を前記素片代表値記憶手段から選択して、選択した音声素片と、当該音声素片の代表値とを前記素片格納手段に関連付けて格納する選択格納手段とを備え、
前記代表値特定手段は、
前記素片格納手段に格納されている音声素片ごとに、当該音声素片に関連付けて格納されている代表値を特定する
ことを特徴とする請求項7記載の音声合成装置。 - 前記音声合成装置は、さらに、
前記第1声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す基準代表値とを記憶している基準代表値記憶手段と、
前記第2声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す目標代表値とを記憶している目標代表値記憶手段と、
前記基準代表値記憶手段および目標代表値記憶手段に記憶されている同一の音声素片に対応する基準代表値および目標代表値に基づいて、前記基準代表値に対する前記変換関数を生成する変換関数生成手段とを備える
ことを特徴とする請求項8記載の音声合成装置。 - 前記音声素片は音素であって、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素の時間中心におけるフォルマント周波数の値である
ことを特徴とする請求項9記載の音声合成装置。 - 前記音声素片は音素であって、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素のフォルマント周波数の平均値である
ことを特徴とする請求項9記載の音声合成装置。 - 声質を変換するように音声素片を用いて音声を合成する音声合成方法であって、
素片格納手段は複数の音声素片を格納しており、関数格納手段は音声素片の声質を変換するための複数の変換関数を格納しており、
前記音声合成方法は、
ユーザから指定された声質情報を取得する声質指定ステップと、
入力されたテキストから韻律情報を生成する韻律生成ステップと、
前記韻律生成ステップで生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択する素片選択ステップと、
前記素片選択ステップで選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を導出 する類似度導出ステップと、
前記類似度導出ステップで導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する関数選択ステップと、
前記関数選択ステップで選択された前記変換関数を、前記素片選択ステップで選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換ステップと
を含むことを特徴とする音声合成方法。 - 声質を変換するように音声素片を用いて音声を合成するためのプログラムであって、
素片格納手段は複数の音声素片を格納しており、関数格納手段は音声素片の声質を変換するための複数の変換関数を格納しており、
前記プログラムは、
ユーザから指定された声質情報を取得する声質指定ステップと、
入力されたテキストから韻律情報を生成する韻律生成ステップと、
前記韻律生成ステップで生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択する素片選択ステップと、
前記素片選択ステップで選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を導出する類似度導出ステップと、
前記類似度導出ステップで導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する関数選択ステップと、
前記関数選択ステップで選択された前記変換関数を、前記素片選択ステップで選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換ステップと
をコンピュータに実行させることを特徴とするプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004299365 | 2004-10-13 | ||
JP2004299365 | 2004-10-13 | ||
JP2005198926 | 2005-07-07 | ||
JP2005198926 | 2005-07-07 | ||
PCT/JP2005/017285 WO2006040908A1 (ja) | 2004-10-13 | 2005-09-20 | 音声合成装置及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4025355B2 true JP4025355B2 (ja) | 2007-12-19 |
JPWO2006040908A1 JPWO2006040908A1 (ja) | 2008-05-15 |
Family
ID=36148207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006540860A Expired - Fee Related JP4025355B2 (ja) | 2004-10-13 | 2005-09-20 | 音声合成装置及び音声合成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7349847B2 (ja) |
JP (1) | JP4025355B2 (ja) |
CN (1) | CN1842702B (ja) |
WO (1) | WO2006040908A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8255222B2 (en) | 2007-08-10 | 2012-08-28 | Panasonic Corporation | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus |
JP5300975B2 (ja) * | 2009-04-15 | 2013-09-25 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
Families Citing this family (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8947347B2 (en) | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
US7783061B2 (en) | 2003-08-27 | 2010-08-24 | Sony Computer Entertainment Inc. | Methods and apparatus for the targeted sound detection |
US7809145B2 (en) * | 2006-05-04 | 2010-10-05 | Sony Computer Entertainment Inc. | Ultra small microphone array |
US8073157B2 (en) * | 2003-08-27 | 2011-12-06 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
US8160269B2 (en) | 2003-08-27 | 2012-04-17 | Sony Computer Entertainment Inc. | Methods and apparatuses for adjusting a listening area for capturing sounds |
US8139793B2 (en) * | 2003-08-27 | 2012-03-20 | Sony Computer Entertainment Inc. | Methods and apparatus for capturing audio signals based on a visual image |
US9174119B2 (en) | 2002-07-27 | 2015-11-03 | Sony Computer Entertainement America, LLC | Controller for providing inputs to control execution of a program when inputs are combined |
US7803050B2 (en) | 2002-07-27 | 2010-09-28 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
US8233642B2 (en) | 2003-08-27 | 2012-07-31 | Sony Computer Entertainment Inc. | Methods and apparatuses for capturing an audio signal based on a location of the signal |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20110014981A1 (en) * | 2006-05-08 | 2011-01-20 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
US20100030557A1 (en) | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
GB2443027B (en) * | 2006-10-19 | 2009-04-01 | Sony Comp Entertainment Europe | Apparatus and method of audio processing |
US20080120115A1 (en) * | 2006-11-16 | 2008-05-22 | Xiao Dong Mao | Methods and apparatuses for dynamically adjusting an audio signal based on a parameter |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US8583438B2 (en) * | 2007-09-20 | 2013-11-12 | Microsoft Corporation | Unnatural prosody detection in speech synthesis |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
JP5282469B2 (ja) * | 2008-07-25 | 2013-09-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100066742A1 (en) * | 2008-09-18 | 2010-03-18 | Microsoft Corporation | Stylized prosody for speech synthesis-based applications |
US8332225B2 (en) * | 2009-06-04 | 2012-12-11 | Microsoft Corporation | Techniques to create a custom voice font |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5301376B2 (ja) * | 2009-07-03 | 2013-09-25 | 日本放送協会 | 音声合成装置およびプログラム |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US10747963B2 (en) * | 2010-10-31 | 2020-08-18 | Speech Morphing Systems, Inc. | Speech morphing communication system |
JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012160767A1 (ja) * | 2011-05-25 | 2012-11-29 | 日本電気株式会社 | 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
JP2013003470A (ja) * | 2011-06-20 | 2013-01-07 | Toshiba Corp | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
FR2993088B1 (fr) * | 2012-07-06 | 2014-07-18 | Continental Automotive France | Procede et systeme de synthese vocale |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
JP6433063B2 (ja) * | 2014-11-27 | 2018-12-05 | 日本放送協会 | 音声加工装置、及びプログラム |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
JP6821970B2 (ja) * | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
JP6747489B2 (ja) * | 2018-11-06 | 2020-08-26 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
US11410642B2 (en) * | 2019-08-16 | 2022-08-09 | Soundhound, Inc. | Method and system using phoneme embedding |
KR102637341B1 (ko) * | 2019-10-15 | 2024-02-16 | 삼성전자주식회사 | 음성 생성 방법 및 장치 |
CN112786018B (zh) * | 2020-12-31 | 2024-04-30 | 中国科学技术大学 | 语音转换及相关模型的训练方法、电子设备和存储装置 |
US11699430B2 (en) * | 2021-04-30 | 2023-07-11 | International Business Machines Corporation | Using speech to text data in training text to speech models |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319495A (ja) * | 1994-05-26 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置のための合成単位データ生成方式及び方法 |
JP3536996B2 (ja) * | 1994-09-13 | 2004-06-14 | ソニー株式会社 | パラメータ変換方法及び音声合成方法 |
JP2898568B2 (ja) * | 1995-03-10 | 1999-06-02 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 声質変換音声合成装置 |
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
JP2912579B2 (ja) * | 1996-03-22 | 1999-06-28 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 声質変換音声合成装置 |
JPH1097267A (ja) * | 1996-09-24 | 1998-04-14 | Hitachi Ltd | 声質変換方法および装置 |
JPH1185194A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 声質変換音声合成装置 |
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
EP1045372A3 (en) * | 1999-04-16 | 2001-08-29 | Matsushita Electric Industrial Co., Ltd. | Speech sound communication system |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP3646060B2 (ja) * | 2000-12-15 | 2005-05-11 | シャープ株式会社 | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 |
JP3703394B2 (ja) | 2001-01-16 | 2005-10-05 | シャープ株式会社 | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
JP3662195B2 (ja) * | 2001-01-16 | 2005-06-22 | シャープ株式会社 | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
JP4408596B2 (ja) | 2001-08-30 | 2010-02-03 | シャープ株式会社 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
CN1397651A (zh) * | 2002-08-08 | 2003-02-19 | 王云龙 | 冷固含碳球团海绵铁生产方法及装置 |
JP3706112B2 (ja) * | 2003-03-12 | 2005-10-12 | 独立行政法人科学技術振興機構 | 音声合成装置及びコンピュータプログラム |
JP4130190B2 (ja) * | 2003-04-28 | 2008-08-06 | 富士通株式会社 | 音声合成システム |
FR2861491B1 (fr) * | 2003-10-24 | 2006-01-06 | Thales Sa | Procede de selection d'unites de synthese |
JP4080989B2 (ja) * | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
-
2005
- 2005-09-20 JP JP2006540860A patent/JP4025355B2/ja not_active Expired - Fee Related
- 2005-09-20 WO PCT/JP2005/017285 patent/WO2006040908A1/ja active Application Filing
- 2005-09-20 CN CN200580000891XA patent/CN1842702B/zh not_active Expired - Fee Related
-
2006
- 2006-02-13 US US11/352,380 patent/US7349847B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8255222B2 (en) | 2007-08-10 | 2012-08-28 | Panasonic Corporation | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus |
JP5300975B2 (ja) * | 2009-04-15 | 2013-09-25 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN1842702A (zh) | 2006-10-04 |
CN1842702B (zh) | 2010-05-05 |
US20060136213A1 (en) | 2006-06-22 |
JPWO2006040908A1 (ja) | 2008-05-15 |
US7349847B2 (en) | 2008-03-25 |
WO2006040908A1 (ja) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4025355B2 (ja) | 音声合成装置及び音声合成方法 | |
US7603278B2 (en) | Segment set creating method and apparatus | |
JP3913770B2 (ja) | 音声合成装置および方法 | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
US20060229874A1 (en) | Speech synthesizer, speech synthesizing method, and computer program | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2001265375A (ja) | 規則音声合成装置 | |
JP2006227589A (ja) | 音声合成装置および音声合成方法 | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
Wen et al. | Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model. | |
JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JPH10247097A (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JP5301376B2 (ja) | 音声合成装置およびプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP5449022B2 (ja) | 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070911 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4025355 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |