JP3587048B2 - 韻律制御方法及び音声合成装置 - Google Patents
韻律制御方法及び音声合成装置 Download PDFInfo
- Publication number
- JP3587048B2 JP3587048B2 JP04916198A JP4916198A JP3587048B2 JP 3587048 B2 JP3587048 B2 JP 3587048B2 JP 04916198 A JP04916198 A JP 04916198A JP 4916198 A JP4916198 A JP 4916198A JP 3587048 B2 JP3587048 B2 JP 3587048B2
- Authority
- JP
- Japan
- Prior art keywords
- text data
- prosody
- speech
- data
- control method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000012545 processing Methods 0.000 claims description 29
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000004148 unit process Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 22
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001417093 Moridae Species 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002789 length control Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、テキストから音声を合成するテキスト音声合成技術に関し、特に、文の抑揚や時間長を制御する韻律制御方法に関する。
【0002】
【従来の技術】
テキスト音声合成は、入力されたテキストに対して言語処理を行い、中間的な発音記号列を生成した後、発音記号から基本周波数パタンや音素継続時間長などの韻律パラメータと、同時に発音記号から各音素の声道パラメータを求め、これらのパラメータから音声を合成する方法が一般的である。例えば、文献「音声合成技術:広瀬啓吉(音声処理技術とその応用、情報処理、pp.984−991、1997年11月)」にはこの方式を利用した音声合成装置が記載されている。
【0003】
上記の方法を利用した場合、韻律パラメータは音声の抑揚やリズム、なめらかさといった全体にかかわる自然性としての特徴を決め、声道パラメータは単語や文を構成する個々の音節の明瞭性としての特徴を決定する。
【0004】
韻律パラメータのうち、基本周波数パタンのパラメータ生成方法の代表的なものとして「重畳型モデル」が挙げられる。この基本周波数パラメータの生成モデルは、句などに対応して基本周波数が緩やかに下降するフレーズ成分に、文節単位のアクセント型に対応する基本周波数の上昇・下降であるアクセント成分を重畳するものである。重畳型モデルは、人間の発声機構を模擬したモデルであるため、直感的に理解しやすく、現実の音声現象とも良く合致しているが、モデルの性能を発揮するためには高度な言語処理が必要であるという問題があった。
【0005】
韻律パラメータのうち、音節(音素)継続時間長は、音節(音素)が置かれるコンテキストをはじめとする種々の要因によって変化する。継続時間長に影響を与える要因として、調音上の制約、タイミング、単語の重要度、発話区分境界の明示、発話区分内のテンポ、全体のテンポ、構文意味内容等の言語的制約がある。継続時間長制御においては、実際に観測される継続時間長データに対して、上に挙げた要因に関する影響度を統計的に分析し、その結果得られる規則を利用する方法が一般的である。そのため、多様なコンテキストにおける継続時間長モデルを構築しようとすると大規模なデータベースが必要となるという問題がある。
【0006】
このような韻律パラメータの他、パワーに関するパラメータなど各種制御モデルが考案されているが、いずれのモデルも各韻律パラメータ独立のモデルであり、これら単独の制御モデルの性能向上だけでは、自然性向上に限界がある。また、文音声発声には、規則によるモデル化が困難な韻律現象があることも指摘されている。
【0007】
そのため、肉声から抽出した韻律パラメータをデータベースとして記憶し、データベースを利用して韻律パラメータを生成する韻律パラメータ計算モデルが提案されている。例えば、片江ら「文型−韻律データベースを用いた定型文音声合成システム、音講論、pp.275−276、平成8年3月」や、斎藤ら「付属語連鎖単位を音声合成単位とする規則合成音声、音講論、pp.317−318、平成6年10月」である。しかしながら、これらは基本周波数パターンのみを韻律パラメータとするものであり、なお文音声発声の自然性を高めるには不十分なものであった。
【0008】
【発明が解決しようとする課題】
本発明では、肉声の各種の韻律パラメータ(基本周波数パターン、音節継続時間長等)を相互に保存したまま編集・加工することにより、さらに自然性の高い音声を合成する音声合成装置を実現するものである。
【0009】
そこで本発明では、文音声、その韻律パラメータ、形態素・構文解析データなどからなる音声コーパスを備え、音声コーパスを検索して入力文との類似度が最も大きいデータを抽出し、抽出されたデータに対して韻律パラメータの加工・修正を行うことにより韻律パラメータを生成することで、従来の方法と比較して自然性の高い音声を合成するテキスト音声合成装置を提供する。
【0010】
【発明の実施の形態】
図1は、本発明の音声合成装置の一実施態様の構成を示すブロック図である。6は汎用メモリ、4は韻律パラメータ計算部、5は波形合成部である。韻律パラメータ計算部4は、音声コーパスメモリ1、音声コーパス検索部2、韻律パラメータ加工部3を含む。
【0011】
図2に汎用メモリ6の内容を示す。汎用メモリ6には、テキストデータ10、韻律パラメータ11、合成波形データ12、音声コーパス検索部検索結果13、及び計算処理途中のデータ14が記憶される。
【0012】
図3に、本発明の音声合成処理の流れを示す。音声コーパス検索部2は、入力されたテキストデータ21の解析を行って、音声コーパスメモリ1より韻律が類似しているデータを検索する。検索結果24は韻律パラメータ加工部3に入力される。なお、音声コーパスメモリ1に、テキストデータ21と韻律が類似するデータが存在しない場合には、韻律の類似するデータが存在していないことを検索結果24として出力する。韻律パラメータ加工部3では、検索結果24とテキストデータ21から、韻律パラメータ26を計算する。波形合成部5では、韻律パラメータ26を利用して合成波形データ28を生成する。
【0013】
以下、「渋谷まで渋滞しています。」というテキストデータを例として、本発明によるテキストデータから合成波形への変換方法を図を用いて説明する。
【0014】
図4は、音声コーパス検索部2における処理の流れである。まず、テキストデータ31「渋谷まで渋滞しています。」を、汎用メモリ6のテキストデータ10より読み出す(ステップ101)。読み出されたテキストデータ31は、単語に分割され、単語毎に表記、読み、品詞、及びアクセント情報から構成される構造化データ列33に変換する(形態素分割処理102)。構造化データ列33は、汎用メモリ6の計算処理途中データ14として記憶する。テキストデータを単語に分割する方法としては、清水ら「隣接単語間の結合関係に着目したテキスト音声変換用形態素解析処理、日本音響学会誌、51巻、1号、pp.3−13、1995」に記載の処理が利用できる。単語毎の読み及びアクセント情報は、辞書に登録されているデータを設定する。
【0015】
構造化データ列について図6を参照して説明する。40は1つの単語の構造化データであり、単語の表記42、読み43、品詞44、アクセント情報45を含む。テキストデータ31は例えば、「渋谷/まで/渋滞/し/て/い/ます/。」と単語分割されるので、形態素分析結果は、各単語の構造化データの列33のとおりとなる。
【0016】
次に、音声コーパスメモリ1から一のデータセットを読み出す(ステップ103)。図7に音声コーパスメモリ1のデータ構造を示す。音声コーパスメモリ1は、複数のデータセット401、402・・・から構成される。各データセットは、図8に示すように、文字表記データ501、文字表記データ501を発声した音声波形データ502、音声波形データ502の基本周波数パタンデータ503、音声波形データ502の継続時間長データ504から構成される。なお、データセットには、パワーなどの韻律パラメータやケプストラムなどの音響パラメータさらに、文字表記データ501の形態素分割結果を含んでも良い。
【0017】
音声コーパスメモリのデータセットについて、図9を参照して文字表記データ601が「新宿まで運転しています。」という文であった場合を例に説明する。基本周波数パタンデータ603は、音節の始終端における基本周波数の列として記憶されている。例えば、文字表記データ601の先頭の音節「し」の始端周波数605は「214」であり、終端周波数606は「190」である。また、先頭の音節「し」の継続時間長データ604は、音節のミリ秒の単位で記憶され、子音の時間長607は「101」であり、母音の時間長608は「75」である。
【0018】
次に、音声コーパス検索部2では、一のデータセット600の文字表記データ601を読み出し(ステップ104)、図10に示すように、形態素分割を行って形態素分割結果703を汎用メモリ6の計算途中のデータ14に記憶する(ステップ105)。なお、データセット600に形態素分割結果が含まれている場合には、本処理は不要である。
【0019】
次に、汎用メモリ6より、テキストデータ31から求めた形態素解析結果33と、一のデータセット600の文字表記データ601の形態素分割結果703を読み出し、類似度の計算を行う(ステップ106)。
【0020】
以下、図11を用いて類似度計算の例を示す。最初に、形態素解析結果33と形態素分割結果703との構造化データ数を比較する(ステップ800)。ここでは、33と703の構造化データ数はともに「8」であり、一致する。構造化データ数が一致すれば次の判定に進み(ステップ801)、一致しなければ類似度「0」と判定し、類似度計算106の処理を終了する(ステップ802、803)。
【0021】
次に構造化データ数が一致した場合には、構造化データのそれぞれについて品詞及びアクセント型の比較を行う(ステップ804)。形態素解析結果33から各構造化データDi(i=1〜n)と、形態素解析結果703から各構造化データD’i(i=1〜n)とを比較する。例えば、D1「渋谷」とD’1「新宿」とでは、ともに品詞は「地名名詞」、アクセント型は「平板型」であり一致する。このように、全てのDiとD’iについて品詞とアクセント型の比較を行って、全て一致すれば、類似度を「1」として類似度計算を終了する(ステップ808)。また、1つでも一致しない構造化データがあれば、類似度を「0」として類似度計算を終了する(ステップ807)。出力された類似度は、汎用メモリ6の計算途中のデータ14に記憶される。
【0022】
次に、汎用メモリ6の計算途中のデータ14から類似度を読み出し、予め設定したしきい値(基準類似度)との比較を行い(ステップ107)、検索結果を出力する(ステップ108)。図11に記載の類似計算の場合では、予め設定したしきい値を「1」とし、類似度計算106により計算された類似度が1であれば、比較結果として「一致」を出力し、類似度が0であれば「不一致」を出力する。検索結果の出力108では、類似度比較の結果が「不一致」であれば(109)、音声コーパスメモリ1に記憶されているデータセットを順次読み出し(ステップ103)、データセットがなくなるまで類似度の計算を行う。類似度比較の結果が「一致」であれば、一致したデータセット600を汎用メモリ6の音声コーパス検索部結果13に出力する。
【0023】
もし、音声コーパスメモリ1の全てのデータセットに対して上記の類似度計算処理を行った結果、基準類似度を満たすデータセットが存在しない場合には、その旨を示すデータフラグ(「類似データなしフラグ」と呼ぶ)を、汎用メモリ6の音声コーパス検索結果13に出力する。上記の処理を経て、1つ以上の類似するデータセット、あるいは、類似データなしフラグが汎用メモリ6の音声コーパス検索部13に出力される。
【0024】
図12は、韻律パラメータ加工部3における処理の流れである。まず、テキストデータ31を読み出し、発音記号列を生成する(ステップ1001)。テキストデータから発音記号列へ変換する方法は、匂坂ら「日本語単語連鎖のアクセント規則、電子情報通信学会論文誌、J66−D、No.7、pp.849−856、1983」を用いることができる。図13に発音記号列の例を示す。発音記号列901には、読みの情報のほかに、文節の区切れ904、文末記号905、母音の無声化記号903、アクセント記号902などが含まれている。なお、発音記号列901の生成には、汎用メモリ6に記憶されているテキストデータ31の形態素分割結果33を利用することができる。
【0025】
次に、汎用メモリ6の音声コーパス検索部検索結果13から、類似度計算処理の結果を読み出す(ステップ1002)。類似度計算処理の結果は、(1)1つ以上のデータセットである場合(1003)と、(2)類似データなしフラグである場合(1004)のいずれかである。
【0026】
類似するデータセットが存在すれば、1つのデータセットを選択する。このデータセットを「選択データセット」とよぶ。テキストデータ31「渋谷まで渋滞しています」に対して、データセット600「新宿まで運転しています」(図9)が選択データセットの例となる。選択データセットは、テキストデータ31と韻律が近いデータである。なぜなら、図5及び図10に示すように両者の形態素分割結果は、「渋谷」32及び「新宿」702に対応する構造化データと、「渋滞」38及び「運転」708に対応する構造化データ以外は、全て同一の構造化データあり、また、異なる構造化データに関しても、品詞及びアクセント型が等しいからである。
【0027】
そこで、テキストデータ31の韻律パラメータを計算するために、選択データセット600の韻律パラメータである基本周波数パタンデータ603及び継続時間長データ604を利用すれば、肉声の韻律パラメータと近い韻律パラメータが得られ、自然性が格段に向上する。韻律パラメータ計算の方法を、図14を用いて説明する。
【0028】
まず、テキストデータの形態素分割結果1101(先の例では形態素分割結果33)と選択データセット1102(先の例では形態素分割結果701)に対して、一致部と不一致部の分離(ステップ1103)を行う。1104は分離した結果を模式的に表したものであり、構造化データ1105及び1106は一致した構造化データを、構造化データ1107及び1108は一致しなかった構造化データを示す(先の例では、構造化データ32及び702、または構造化データ38及び708である)。
【0029】
次に、テキストデータ31「渋谷まで渋滞しています。」の音節数から成るデータ列を生成し、分離結果1104に基づき、一致部の韻律パラメータをコピーする(ステップ1109)。一致部の韻律パラメータは、選択データセット1102(先の例ではデータセット600)の韻律パラメータをそのまま用いる。基本周波数パタンデータ1110、継続時間長データ1111は、テキストデータ31の韻律パラメータであり、網掛けの部分は一致した構造化データに対応する音節の韻律パラメータが、空白の部分が不一致の構造化データに対応する音節の韻律パラメータが格納されている。
【0030】
次に、不一致部の音節について韻律パラメータを計算する(ステップ1112)。基本周波数パタンは、単語のモーラ数とアクセント型で1つの基本周波数パタンデータを記憶する単語基本周波数パタンテーブルを用意して、この単語基本周波数パタンテーブルから検索することで、単語基本周波数パタンを求めることができる。また、単語継続時間長は、匂坂ら「規則による音声合成のための音韻時間長制御、信学論、Vol.J67−A、No.7、pp.629−636、1984」を利用して求めることができる。これら公知の方法により、不一致部の単語基本周波数パタンデータ1113(1115)、不一致部の継続時間長データ1114(1116)を求めることができる。
【0031】
最後に、不一致部の韻律パラメータを、一致部の韻律パラメータと滑らかに接続するように、不一致部の韻律パラメータを変形・統合する(ステップ1117)。基本周波数パタンデータに関しては、始端周波数1120及び終端周波数1121の基本周波数が、選択データセット1102(先の例ではデータセット600)における相当する基本周波数の値と一致するように、単語基本周波数パタンデータを線形に変形する。また、継続時間長に関しては、選択データセット1102における相当する単語の継続時間長をモーラ数で除した値(1モーラあたりの時間長L)を利用して、1114及び1116における1モーラあたりの時間長がLと等しくなるように、1114及び1116の継続時間長を線形伸縮する。このようにして、テキストデータ31の韻律パラメータとして、基本周波数パタンデータ1118及び継続時間長データ1119が計算される。
【0032】
なお、音声コーパス検索部2から類似データなしフラグが出力された場合には、音声コーパスの韻律データを利用して韻律パラメータを計算することができない。従って、発音記号列901より、従来の方法に従って韻律パラメータを計算する(ステップ1006)。なお、この場合は音声コーパスを利用して合成した音声より自然性が劣るため、任意文を合成するために音声コーパスは大容量の記憶媒体に記憶させることが望ましく、例えば、磁気記憶媒体、光記憶媒体、光磁気記憶媒体、フラッシュメモリなどに記憶させることができる。また、音声コーパスと通信線を介した接続することで、複数の音声合成装置で共有することも有効である。
【0033】
求められた韻律パラメータ1007は、汎用メモリ6の韻律パラメータ11に記憶する。
【0034】
このように、韻律パラメータ計算部3により計算された基本周波数パタン及び該継続時間長を汎用メモリ6の韻律パラメータ11より読み出し、波形合成部5において、出力音声波形を合成する。合成された波形データは、汎用メモリ6の合成波形データ12に記憶される。
【0035】
【発明の効果】
本発明により、抑揚やリズムが自然で肉声に近い合成音を生成することができる。
【図面の簡単な説明】
【図1】本発明の音声合成装置のブロック図である。
【図2】音声合成装置の汎用メモリに記憶される内容の図である。
【図3】本発明の音声合成装置における処理の流れ図である。
【図4】音声コーパス検索部における処理例である。
【図5】テキストデータから形態素分割結果への変換例である。
【図6】形態素分割結果の構造化データ列である。
【図7】音声コーパスのデータ構造例である。
【図8】音声コーパスのデータセットのデータ構造例である。
【図9】データセット例である。
【図10】データセットの文字表記データから形態素分割結果への変換例である。
【図11】類似度計算処理例である。
【図12】韻律パラメータ計算部における処理例である。
【図13】発音記号列の例である。
【図14】音声コーパスのデータを利用した韻律パラメータ計算例である。
【符号の説明】
1…音声コーパスメモリ、2…音声コーパス検索部、3…韻律パラメータ加工部、4…韻律パラメータ計算部、5…波形合成部、6…汎用メモリ。
Claims (8)
- テキストデータの韻律パラメータを計算し、上記計算された韻律パラメータより合成波形を生成する音声合成装置における韻律制御方法において、
上記音声合成装置は、複数のテキストデータについて、各テキストデータの人間の発声に基づく複数種の韻律パラメータを記憶する音声コーパスを備え、
上記入力テキストデータと上記音声コーパスに記憶されたテキストデータとを順次比較し、少なくともその一部が一致するテキストデータを上記音声コーパスより選択し、
上記選択されたテキストデータと上記入力テキストデータとの不一致部分についての上記複数種の韻律パラメータを求め、
上記選択されたテキストデータと上記入力テキストデータとの一致部分について記憶される上記各韻律パラメータと上記不一致部分について求められた上記各韻律パラメータとを結合し、上記入力テキストデータの韻律を求めることを特徴とする韻律制御方法。 - 請求項1記載の韻律制御方法において、
上記複数の韻律パラメータとして、基本周波数パターンと継続時間長とを含むことを特徴とする韻律制御方法。 - 請求項1記載の韻律制御方法において、
上記入力テキストデータについて形態素分割を行い、各形態素Di(i=1〜n)についてその品詞とアクセント型を求め、
上記音声コーパスに記憶されたテキストデータのうち、その形態素数が一致するテキストデータの各形態素D’j(j=1〜n)についてそれぞれ上記Diと品詞及びアクセント型を比較することにより、上記音声コーパスに記憶されたテキストデータから少なくとも1つのテキストデータを選択することを特徴とする韻律制御方法。 - 請求項3の韻律制御方法において、
上記音声合成装置は、単語のモーラ数及びアクセント型の組み合わせに対して1つ以上の基本周波数パタンを記憶する単語基本周波数パタンテーブルを備え、
上記選択されたテキストデータと上記入力テキストデータとの不一致部分について、上記単語基本周波数パタンテーブルを索表することにより上記不一致部分の基本周波数パタンを計算することを特徴とする韻律制御方法。 - 複数のテキストデータと該テキストデータの人間の発声に基づく複数種の韻律パラメータを記憶する音声コーパスメモリと、
入力されたテキストデータを解析し、上記音声コーパスメモリから上記テキストデータと韻律が類似するテキストデータを検索する音声コーパス検索部と、
上記検索されたテキストデータと上記入力されたテキストデータの不一致部分の韻律パラメータを計算し、上記検索されたテキストデータと上記入力されたテキストデータの一致部分について上記音声コーパスメモリに記憶される上記韻律パラメータと上記不一致部分について計算された韻律パラメータとを統合する韻律パラメータ加工部と、
上記韻律パラメータ加工部で求められた韻律パラメータを利用して合成波形データを生成する波形合成部と、を有することを特徴とする音声合成装置。 - 上記音声コーパス検索部は、上記入力されたテキストデータを単語に分割し、該単語毎に表記、読み、品詞、アクセント情報から構成される構造化データ列を得る形態素分割処理を行うことを特徴とする請求項5記載の音声合成装置。
- 上記音声コーパス検索部は、上記形態素分割処理の結果と1の上記テキストデータのセットの構造化データの数、品詞及びアクセント型について比較して類似度を計算することを特徴とする請求項6に記載の音声合成装置。
- 上記韻律パラメータの加工部は、上記入力されたテキストデータから生成した発音記号列を用いて、上記検索された韻律パラメータを加工することを特徴とする請求項5乃至7の何れかに記載の音声合成装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04916198A JP3587048B2 (ja) | 1998-03-02 | 1998-03-02 | 韻律制御方法及び音声合成装置 |
US09/259,333 US6477495B1 (en) | 1998-03-02 | 1999-03-01 | Speech synthesis system and prosodic control method in the speech synthesis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04916198A JP3587048B2 (ja) | 1998-03-02 | 1998-03-02 | 韻律制御方法及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11249677A JPH11249677A (ja) | 1999-09-17 |
JP3587048B2 true JP3587048B2 (ja) | 2004-11-10 |
Family
ID=12823378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04916198A Expired - Fee Related JP3587048B2 (ja) | 1998-03-02 | 1998-03-02 | 韻律制御方法及び音声合成装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6477495B1 (ja) |
JP (1) | JP3587048B2 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996529B1 (en) * | 1999-03-15 | 2006-02-07 | British Telecommunications Public Limited Company | Speech synthesis with prosodic phrase boundary information |
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP2002366186A (ja) | 2001-06-11 | 2002-12-20 | Hitachi Ltd | 音声合成方法及びそれを実施する音声合成装置 |
KR100463655B1 (ko) * | 2002-11-15 | 2004-12-29 | 삼성전자주식회사 | 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 |
JP4407305B2 (ja) * | 2003-02-17 | 2010-02-03 | 株式会社ケンウッド | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム |
JP3706112B2 (ja) * | 2003-03-12 | 2005-10-12 | 独立行政法人科学技術振興機構 | 音声合成装置及びコンピュータプログラム |
JP4264030B2 (ja) * | 2003-06-04 | 2009-05-13 | 株式会社ケンウッド | 音声データ選択装置、音声データ選択方法及びプログラム |
EP1726005A4 (en) * | 2004-03-05 | 2007-06-20 | Lessac Technologies Inc | CODES FOR THE SYNTHESIS OF TEXT SPEECH, USE OF THEM IN COMPUTERIZED SPEECH SYSTEMS |
JP4878538B2 (ja) | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
US8898062B2 (en) * | 2007-02-19 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program |
US7844457B2 (en) * | 2007-02-20 | 2010-11-30 | Microsoft Corporation | Unsupervised labeling of sentence level accent |
JP4964695B2 (ja) * | 2007-07-11 | 2012-07-04 | 日立オートモティブシステムズ株式会社 | 音声合成装置及び音声合成方法並びにプログラム |
JP4327241B2 (ja) * | 2007-10-01 | 2009-09-09 | パナソニック株式会社 | 音声強調装置および音声強調方法 |
JP5393546B2 (ja) * | 2010-03-15 | 2014-01-22 | 三菱電機株式会社 | 韻律作成装置及び韻律作成方法 |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
CN102651217A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
JP6221301B2 (ja) * | 2013-03-28 | 2017-11-01 | 富士通株式会社 | 音声処理装置、音声処理システムおよび音声処理方法 |
JP6234134B2 (ja) * | 2013-09-25 | 2017-11-22 | 三菱電機株式会社 | 音声合成装置 |
JP6728755B2 (ja) * | 2015-03-25 | 2020-07-22 | ヤマハ株式会社 | 歌唱音発音装置 |
KR102615154B1 (ko) * | 2019-02-28 | 2023-12-18 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11282497B2 (en) * | 2019-11-12 | 2022-03-22 | International Business Machines Corporation | Dynamic text reader for a text document, emotion, and speaker |
CN113327614B (zh) * | 2021-08-02 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4771385A (en) * | 1984-11-21 | 1988-09-13 | Nec Corporation | Word recognition processing time reduction system using word length and hash technique involving head letters |
US4931936A (en) * | 1987-10-26 | 1990-06-05 | Sharp Kabushiki Kaisha | Language translation system with means to distinguish between phrases and sentence and number discrminating means |
JPH0573100A (ja) * | 1991-09-11 | 1993-03-26 | Canon Inc | 音声合成方法及びその装置 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JPH08328590A (ja) * | 1995-05-29 | 1996-12-13 | Sanyo Electric Co Ltd | 音声合成装置 |
JPH1039895A (ja) * | 1996-07-25 | 1998-02-13 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
-
1998
- 1998-03-02 JP JP04916198A patent/JP3587048B2/ja not_active Expired - Fee Related
-
1999
- 1999-03-01 US US09/259,333 patent/US6477495B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH11249677A (ja) | 1999-09-17 |
US6477495B1 (en) | 2002-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US7565291B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JPH1039895A (ja) | 音声合成方法および装置 | |
KR100373329B1 (ko) | 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법 | |
JPH0887297A (ja) | 音声合成システム | |
KR0146549B1 (ko) | 한국어 텍스트/음성 변환 방법 | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
Ng | Survey of data-driven approaches to Speech Synthesis | |
Narupiyakul et al. | A stochastic knowledge-based Thai text-to-speech system | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2000056788A (ja) | 音声合成装置の韻律制御方法 | |
JPH09292897A (ja) | 音声合成装置 | |
Khalifa et al. | SMaTalk: Standard malay text to speech talk system | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
Chowdhury | Concatenative Text-to-speech synthesis: A study on standard colloquial bengali | |
Deng et al. | Speech Synthesis | |
Othman et al. | SMaTTS: Standard malay text to speech system | |
JPH08328578A (ja) | テキスト音声合成装置 | |
Yeh et al. | The research and implementation of acoustic module based Mandarin TTS | |
Morris | Speech Generation | |
JP2003308084A (ja) | 音声合成方法および音声合成装置 | |
Li et al. | Text-to-Speech Synthesis for Mandarin Chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040720 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040802 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070820 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090820 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100820 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100820 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110820 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120820 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |