JP4559950B2 - 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム - Google Patents
韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム Download PDFInfo
- Publication number
- JP4559950B2 JP4559950B2 JP2005306086A JP2005306086A JP4559950B2 JP 4559950 B2 JP4559950 B2 JP 4559950B2 JP 2005306086 A JP2005306086 A JP 2005306086A JP 2005306086 A JP2005306086 A JP 2005306086A JP 4559950 B2 JP4559950 B2 JP 4559950B2
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- prosodic
- language units
- language
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
図1は、本発明の第1の実施形態に係る、音声合成のための韻律制御規則生成装置の構成例を示すブロック図である。
…(3)
ここで、a0、a1、a2は、第1〜第3の句読点生起率のそれぞれに対応する1次線形係数であり、a0=a1=a2=1/3でも良いし、最良のパフォーマンスを出すために最適化された値をそれぞれ用いても良い。
日本語音声合成の基本周波数制御方式では、例えば、特開平11−95783号公報で開示されたような、アクセント句単位の基本周波数代表パターンから文章全体の基本周波数軌跡を生成する方式がある。この方式は、各アクセント句の属性に基づいてアクセント句の基本周波数代表パターンと基本周波数代表パターンに対する変形規則とを選択して、各アクセント句の基本周波数代表パターンを変形して繋げることで、文章全体の基本周波数軌跡を出力する方式である。この方式で利用することができる、代表パターン選択規則を生成する場合を、以下説明する。
当該アクセント句の末尾境界における接続強度;
当該アクセント句の前のアクセント句の主要品詞;
当該アクセント句の主要品詞;
当該アクセント句の次のアクセント句の主要品詞;
当該アクセント句に対応する最適な代表パターンの番号。
ここで、「28.8」は「を」と「すべて」との境界に対して計算された接続強度であり、「36.2」は「すべて」と「自分」との境界に対して計算された接続強度である。「36.2」の次にある「名詞」は前のアクセント句である「現実を」の主要品詞であり、その次の「副詞」は当該アクセント句の主要品詞であり、さらにその次の2個目の「名詞」は次のアクセント句である「自分の」の主要品詞である。最後の「2」は「すべて」というアクセント句に対して、事前に付けられた基本周波数の最適な代表パターンの番号である。
and (当該アクセント句の主要品詞 = 副詞)
and (先頭境界における接続強度 < 30)
and (末尾境界における接続強度 > 30)
then 代表パターン番号 = 2」
この代表パターンの選択規則は、「主要品詞が「副詞」であるアクセント句では、当該アクセント句の前に、主要品詞が「名詞」であるアクセント句が存在し、当該アクセント句と当該前のアクセント句との間の接続強度が「30」より小さく、しかも、当該アクセント句とその次のアクセント句との間の接続強度が「30」より大きい場合には、当該アクセント句に対応する最適な代表パターンの番号は「2」である」、というものである。
音声データベースに記憶されている各音声に含まれる音韻継続時間長の分布特性に基づいて事前にいくつかの音韻継続時間長に分類しておくことにより、上記同様にして、音韻継続時間長を推定する規則を生成することができる。
形態素境界にポーズを挿入するかどうかを推定するための規則を生成する場合、学習データの入力情報には、例えばある形態素について、少なくともその直前(あるいは直後)の形態素との間の接続強度が含まれる。また、当該学習データの出力情報には、当該形態素の直前(あるいは直後)の他の形態素との間にポーズがあるか否かを示す情報が含まれている。
図6は、本発明の第2の実施形態に係る、音声合成のための韻律制御規則生成装置の構成例を示すブロック図である。
「現実を」
「すべて」
「自分の方へ」
「ねじ曲げたのだ」
この5つの韻律語の境界を韻律語境界という。また、韻律フレーズは次の3つになる。
「すべて自分の方へ」
「ねじ曲げたのだ」
この3つの韻律フレーズの境界を韻律フレーズ境界という。韻律フレーズは韻律語を含むことから、韻律フレーズ境界は必ず韻律語境界であることになる。また、呼気段落は次の2つになる。
「すべて自分の方へねじ曲げたのだ」
この2つの呼気段落の境界を呼気段落境界という。呼気段落は韻律フレーズと韻律語を含むことから、呼気段落境界は必ず韻律フレーズ境界であり、韻律語境界であることになる。
ここでは、ある形態素について、その直前の形態素境界が韻律語境界であるか否かを判定するための推定規則を、音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースに記憶されている音声に対応する読み上げ用のテキストに対して、当該テキスト中の形態素境界が韻律語境界であるかどうかは人間の主観評価などによって決定される。音声データベースには、各読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であれば、例えば「1」、韻律境界でなければ「0」をつけて、音声データベースに記憶されていることとする。
当該形態素の直前の形態素の品詞;
当該形態素の品詞;
当該形態素の直後の形態素の品詞;
当該形態素と、その直前の形態素との境界が韻律語境界であるか場合には「Yes」、当該境界が韻律語境界でない場合には「No」。
ここで、「28.8」は「を」と「すべて」との境界に対して計算される接続強度である。「28.8」の次にある1個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある2個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Yes」により、このような場合に、形態素「すべて」の直前の境界は韻律語境界であることを示している。
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 < 50)
then 韻律語境界判定 = Yes」
この韻律語境界推定規則は、「品詞が「副詞」である形態素では、その直前に品詞が「名詞」である形態素が存在し、当該「名詞」の形態素との間の接続強度が「50」より小さい場合には、当該形態素と、その直前の形態素との間は韻律語境界である」というものである。
ここでは、ある韻律語について、その直前の境界が韻律フレーズ境界であるか否かを判定するための推定規則を音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースには、当該音声データベースに記憶されている音声に対応する読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であるか否かを示す記号とともに、韻律語境界の場合には、それが韻律フレーズ境界であるか否かを示す記号が記憶されている。例えば、ある形態素境界が韻律語境界でない場合には「0」、韻律語境界であるが、韻律フレーズ境界でない場合には「1」、韻律語境界であり、かつ韻律フレーズ境界である場合には「2」が記憶されている。
当該形態素の直前の形態素の品詞;
当該形態素の品詞;
当該形態素の直後の形態素の品詞;
当該形態素と、その直前の形態素との境界が韻律フレーズ境界である場合には「Yes」、当該境界が韻律フレーズ境界でない場合には「No」。
ここで、「28.8」は「を」と「すべて」との境界に対して計算される接続強度である。「28.8」の次にある1個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある2個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Yes」により、このような場合に、形態素「すべて」の直前の境界は韻律フレーズ境界であることを示している。
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 < 40)
then 韻律フレーズ境界判定 = Yes」
これらの韻律フレーズ境界推定規則を韻律境界推定規則データベース206に格納する。
ここでは、ある韻律フレーズについて、その直前の境界が呼気段落境界であるか否かを判定するための推定規則を音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースには、当該音声データベースに記憶されている音声に対応する読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であるか否かを示す記号とともに、韻律語境界の場合には、それが韻律フレーズ境界であるか否かを示す記号が記憶されている。さらに、韻律語フレーズ境界の場合には、それが呼気段落境界であるか否かを示す記号が記憶されている。例えば、ある形態素境界が韻律語境界でない場合には「0」、韻律語境界であるが、韻律フレーズ境界でない場合には「1」、韻律語境界であり、かつ韻律フレーズ境界である場合には「2」、韻律語境界かつ韻律フレーズ境界であり、さらに呼気段落境界である場合には「3」が記憶されている。
当該形態素の直前の形態素の品詞;
当該形態素の品詞;
当該形態素の直後の形態素の品詞;
当該形態素と、その直前の形態素との境界が呼気段落境界である場合には「Yes」、当該境界が呼気段落境界でない場合には「No」。
ここで、「28.8」は「を」と「すべて」との境界に対して計算される接続強度である。「28.8」の次にある1個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある2個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Yes」により、このような場合に、形態素「すべて」の直前の境界は呼気段落境界であることを示している。
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 < 30)
then 呼気段落境界判定 = Yes」
これらの呼気段落境界推定規則を韻律境界推定規則データベース206に格納する。
当該音韻を含む形態素と、その直後の形態素との境界における韻律境界の種類(例えば、「呼気段落境界」と、「韻律フレーズ境界」と、「韻律語境界」と、「一般境界」とのうちのいずれか1つ);
当該音韻と、その直前の呼気段落境界との間のモーラ数;
当該音韻と、その直後の呼気段落境界との間のモーラ数;
当該音韻と、その直前の韻律フレーズ境界との間のモーラ数;
当該音韻と、その直後の韻律フレーズ境界との間のモーラ数;
当該音韻と、その直前の韻律語境界との間のモーラ数;
当該音韻と、その直後の韻律語境界との間のモーラ数;
「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「を」の音韻に対しては、次のような学習データが作れる。
4, 0, 300ms」
ここで、「一般境界」は、「を」とその直前の形態素との境界における韻律境界の種類であり、「呼気段落境界」は、「を」とその直後の形態素との境界における韻律境界の種類である。次の「8」は、「を」と、その直前の呼気段落境界との間のモーラ数であって、上記入力テキストの場合は、文頭からのモーラ数になる。次の「0」は、「を」と、その直後の呼気段落境界との間のモーラ数であって、上記入力テキストの場合、「を」の直後の境界が呼気段落境界になるから、「0」の値を取る。その次の「8」は、「を」と、その直前の韻律フレーズ境界との間のモーラ数であって、上記入力テキストの場合は、文頭からのモーラ数になる。さらにその次の「0」は、「を」と、その直後の韻律フレーズ境界との間のモーラ数であって、上記入力テキストの場合、「を」の直後の境界が韻律フレーズ境界でもあるから、「0」の値を取る。その次の「4」は、「を」と、その直前の韻律語境界との間のモーラ数であって、上記入力テキストの場合、「現実」の「ゲンジツ」という4モーラになる。さらにその次の「0」は、「を」と、その直後の韻律語境界との間のモーラ数であって、「を」の直後が韻律語境界でもあるから、「0」の値を取る。さらにその次の「300ms」は、「を」の継続時間長の代表値である。
and (当該音韻を含む形態素と、その直後の形態素との境界における韻律境界の種類 = 呼気段落境界)
and (当該音韻と、その直前の呼気段落境界との間のモーラ数 < 10 )
and (当該音韻と、その直前の韻律フレーズ境界との間のモーラ数 > 6 )
and (当該音韻と、その直後の呼気段落境界との間のモーラ数 = 0 )
and (当該音韻と、その直前の韻律語境界との間のモーラ数 > 2)
then 継続時間長の代表値 = 300ms」
このような音韻継続時間長の代表値推定規則は、韻律制御規則DB106に記憶される。
図3は、本発明の第3の実施形態に係わる音声合成装置を示すブロック図である。この音声合成装置は、第1の実施形態で説明した図1の韻律制御規則生成装置で生成される韻律制御規則を用いて、入力されたテキストに対応する音声合成を行う。なお、ここでは、形態素を言語単位とする。
図9は、本発明の第4の実施形態に係る音声合成装置を示すブロック図である。この音声合成装置は、第2の実施形態で説明した図6の韻律制御規則生成装置で生成される韻律制御規則を用いて、入力されたテキストに対応する音声合成を行う。なお、ここでは、形態素を言語単位とする。
図5は、本発明の第5の実施形態に係る音声合成装置を示すブロック図である。なお、図11において、図9と同一部分には同一符号を付している。なお、ここでも、形態素を言語単位として説明する。
and (当該形態素の主要品詞 = 副詞)
and (当該形態素とその直前の形態素との間の接続強度 > 25)」
韻律境界候補解選択部341は、この条件にマッチする韻律境界推定規則を、韻律境界推定規則DBDB112a〜112eのそれぞれから検索する。
Claims (20)
- 入力テキストを言語単位に切り分ける第1のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第3のステップと、
を含むことを特徴とする韻律制御規則生成方法。 - 前記言語単位間の韻律境界の種類は、韻律語境界、韻律フレーズ境界、及び呼気段落境界のうち少なくとも1つと、これらのいずれでもない言語単位境界とを含むことを特徴とする請求項1記載の韻律制御規則生成方法。
- 前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第4のステップと、
をさらに含むことを特徴とする請求項1記載の韻律制御規則生成方法。 - 前記第2のステップは、前記入力テキストの先頭から「j−1」(jは正の整数)番目の言語単位と「j」番目の言語単位との間の境界における句読点生起率を、「j−i」(i=0,1,…I、Iは1以上の正の整数)番目の言語単位からI個の言語単位で構成される全部で「I+1」個の言語単位系列のそれぞれから推定することを特徴とする請求項1記載の韻律制御規則生成方法。
- 「j−1」番目の言語単位と「j」番目の言語単位との間の境界における句読点生起率は、各言語単位系列の品詞の並びから推定される「j−1」番目の言語単位と「j」番目の言語単位との間の境界における第1乃至第「I+1」の句読点生起率の加重平均値であることを特徴とする請求項4記載の韻律制御規則生成方法。
- 入力テキストを言語単位に切り分ける第1のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
前記第2のステップで求めた言語単位間の句読点生起率を基に当該言語単位間の韻律境界の種類を決定する第3のステップと、
前記第3のステップで決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する第4のステップと、
選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する第5のステップと、
を含む音声合成方法。 - 前記第3のステップは、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則群のなかから、少なくとも前記第2のステップで求めた言語単位間の句読点生起率が前記条件を満たす韻律境界推定規則を選択し、当該選択された韻律境界推定規則から、当該言語単位間の韻律境界の種類を決定することを特徴とする請求項6記載の音声合成方法。
- 前記第4のステップは、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則群のなかから、少なくとも前記第3のステップで決定された言語単位間の韻律境界の種類が前記条件を満たす韻律制御規則を選択することを特徴とする請求項6記載の音声合成方法。
- 前記第3のステップは、言語単位間の句読点生起率を含む、言語単位間の韻律境界の種類を決定するための複数の韻律境界推定規則群から、少なくとも前記第2のステップで求めた言語単位間の句読点生起率が前記条件を満たす複数の韻律境界推定規則をそれぞれ選択し、当該選択された複数の韻律境界推定規則から、当該言語単位間の韻律境界の種類を多数決により決定することを特徴とする請求項6記載の音声合成方法。
- 前記韻律境界推定規則は、言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に生成されることを特徴とする請求項7または9記載の音声合成方法。
- 前記韻律制御規則は、言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に生成されることを特徴とする請求項8記載の音声合成方法。
- 入力テキストを言語単位に切り分ける手段と、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する推定手段と、
前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第1の生成手段と、
を具備したことを特徴とする韻律制御規則生成装置。 - 前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第2の生成手段と、
をさらに具備したことを特徴とする請求項12記載の韻律制御規則生成装置。 - 入力テキストを言語単位に切り分ける手段と、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する推定手段と、
前記推定手段で求めた言語単位間の句読点生起率及び言語単位の属性を基に当該言語単位間の韻律境界の種類を決定する決定手段と、
前記決定手段で決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する選択手段と、
選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する手段と、
を具備したことを特徴とする音声合成装置。 - 言語単位間の境界に関する複数の学習データを基に生成された、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則群を記憶する第1の記憶手段をさらに具備し、
前記決定手段は、前記韻律境界推定規則群のなかから、少なくとも前記推定手段で求めた言語単位間の句読点生起率及び当該言語単位の品詞が前記条件を満たす韻律境界推定規則を選択し、当該選択された韻律境界推定規則から、当該言語単位間の韻律境界の種類を決定することを特徴とする請求項14記載の音声合成装置。 - 韻律に関する複数の学習データを基に生成された、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則群を記憶するための第2の記憶手段をさらに具備し、
前記選択手段は、前記韻律制御規則群のなかから、少なくとも前記決定手段で決定された言語単位間の韻律境界の種類が前記条件を満たす韻律制御規則を選択することを特徴とする請求項14記載の音声合成装置。 - 言語単位間の境界に関する複数の学習データを基に生成された、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための複数の韻律境界推定規則群を記憶する第1の記憶手段をさらに具備し、
前記決定手段は、前記複数の韻律境界推定規則群から、少なくとも前記推定手段で求めた言語単位間の句読点生起率が前記条件を満たす複数の韻律境界推定規則をそれぞれ選択し、当該選択された複数の韻律境界推定規則から、当該言語単位間の韻律境界の種類を多数決により決定することを特徴とする請求項14記載の音声合成装置。 - コンピュータに、
入力テキストを言語単位に切り分ける第1のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第3のステップと、
を実行させるための韻律制御規則生成プログラム。 - 前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第4のステップをさらに含むことを特徴とする請求項18記載の韻律制御規則生成プログラム。
- コンピュータに、
入力テキストを言語単位に切り分ける第1のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点積率を、当該境界近傍の複数の言語単位の属性を基に推定する第2のステップと、
前記第2のステップで求めた言語単位間の前記句読点生起率を基に当該言語単位間の韻律境界の種類を決定する第3のステップと、
前記第3のステップで決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する第4のステップと、
選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する第5のステップと、
を実行させるための音声合成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005306086A JP4559950B2 (ja) | 2005-10-20 | 2005-10-20 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
CNA2006101729230A CN1971708A (zh) | 2005-10-20 | 2006-10-20 | 韵律控制规则产生方法和设备、及语音合成方法和设备 |
US11/583,969 US7761301B2 (en) | 2005-10-20 | 2006-10-20 | Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005306086A JP4559950B2 (ja) | 2005-10-20 | 2005-10-20 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007114507A JP2007114507A (ja) | 2007-05-10 |
JP4559950B2 true JP4559950B2 (ja) | 2010-10-13 |
Family
ID=37986373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005306086A Active JP4559950B2 (ja) | 2005-10-20 | 2005-10-20 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7761301B2 (ja) |
JP (1) | JP4559950B2 (ja) |
CN (1) | CN1971708A (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7949538B2 (en) | 2006-03-14 | 2011-05-24 | A-Life Medical, Inc. | Automated interpretation of clinical encounters with cultural cues |
US8731954B2 (en) | 2006-03-27 | 2014-05-20 | A-Life Medical, Llc | Auditing the coding and abstracting of documents |
US7908552B2 (en) * | 2007-04-13 | 2011-03-15 | A-Life Medical Inc. | Mere-parsing with boundary and semantic driven scoping |
US8682823B2 (en) * | 2007-04-13 | 2014-03-25 | A-Life Medical, Llc | Multi-magnitudinal vectors with resolution based on source vector features |
US9946846B2 (en) * | 2007-08-03 | 2018-04-17 | A-Life Medical, Llc | Visualizing the documentation and coding of surgical procedures |
CN101572083B (zh) * | 2008-04-30 | 2011-09-07 | 富士通株式会社 | 韵律词组词方法和装置 |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
CN102237081B (zh) * | 2010-04-30 | 2013-04-24 | 国际商业机器公司 | 语音韵律评估方法与系统 |
TWI413104B (zh) | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
JP5743625B2 (ja) * | 2011-03-17 | 2015-07-01 | 株式会社東芝 | 音声合成編集装置および音声合成編集方法 |
JP5722295B2 (ja) * | 2012-11-12 | 2015-05-20 | 日本電信電話株式会社 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
JP5807921B2 (ja) * | 2013-08-23 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
US10541053B2 (en) | 2013-09-05 | 2020-01-21 | Optum360, LLCq | Automated clinical indicator recognition with natural language processing |
US10133727B2 (en) | 2013-10-01 | 2018-11-20 | A-Life Medical, Llc | Ontologically driven procedure coding |
CN104021784B (zh) * | 2014-06-19 | 2017-06-06 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
US9542929B2 (en) | 2014-09-26 | 2017-01-10 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
CN105551481B (zh) * | 2015-12-21 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音数据的韵律标注方法及装置 |
CN106484134A (zh) * | 2016-09-20 | 2017-03-08 | 深圳Tcl数字技术有限公司 | 基于安卓系统的语音输入标点符号的方法及装置 |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN107767870B (zh) * | 2017-09-29 | 2021-03-23 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN112307712B (zh) * | 2019-07-31 | 2024-04-16 | 株式会社理光 | 文本评价装置和方法以及存储介质和计算机装置 |
CN113516963B (zh) * | 2020-04-09 | 2023-11-10 | 菜鸟智能物流控股有限公司 | 音频数据的生成方法、装置、服务器和智能音箱 |
CN112509552B (zh) * | 2020-11-27 | 2023-09-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03225400A (ja) * | 1990-01-31 | 1991-10-04 | Nec Corp | ポーズ長決定方式 |
JPH06161485A (ja) * | 1992-11-24 | 1994-06-07 | Nippon Telegr & Teleph Corp <Ntt> | 合成音声ポーズ設定方式 |
JPH11344998A (ja) * | 1998-06-03 | 1999-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体 |
JP2001075584A (ja) * | 1999-09-07 | 2001-03-23 | Canon Inc | 自然言語処理方法及び前記方法を用いた音声合成装置 |
JP2001083987A (ja) * | 1999-08-30 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 記号挿入装置およびその方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
JP3357796B2 (ja) | 1996-09-06 | 2002-12-16 | 株式会社東芝 | 音声合成装置及び同装置における韻律情報生成方法 |
US7200558B2 (en) * | 2001-03-08 | 2007-04-03 | Matsushita Electric Industrial Co., Ltd. | Prosody generating device, prosody generating method, and program |
US7136802B2 (en) * | 2002-01-16 | 2006-11-14 | Intel Corporation | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
US7558732B2 (en) * | 2002-09-23 | 2009-07-07 | Infineon Technologies Ag | Method and system for computer-aided speech synthesis |
CN1945693B (zh) * | 2005-10-09 | 2010-10-13 | 株式会社东芝 | 训练韵律统计模型、韵律切分和语音合成的方法及装置 |
-
2005
- 2005-10-20 JP JP2005306086A patent/JP4559950B2/ja active Active
-
2006
- 2006-10-20 CN CNA2006101729230A patent/CN1971708A/zh active Pending
- 2006-10-20 US US11/583,969 patent/US7761301B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03225400A (ja) * | 1990-01-31 | 1991-10-04 | Nec Corp | ポーズ長決定方式 |
JPH06161485A (ja) * | 1992-11-24 | 1994-06-07 | Nippon Telegr & Teleph Corp <Ntt> | 合成音声ポーズ設定方式 |
JPH11344998A (ja) * | 1998-06-03 | 1999-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体 |
JP2001083987A (ja) * | 1999-08-30 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 記号挿入装置およびその方法 |
JP2001075584A (ja) * | 1999-09-07 | 2001-03-23 | Canon Inc | 自然言語処理方法及び前記方法を用いた音声合成装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1971708A (zh) | 2007-05-30 |
US7761301B2 (en) | 2010-07-20 |
US20070094030A1 (en) | 2007-04-26 |
JP2007114507A (ja) | 2007-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4559950B2 (ja) | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム | |
JP4114888B2 (ja) | 声質変化箇所特定装置 | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US7454343B2 (en) | Speech synthesizer, speech synthesizing method, and program | |
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
US20020095289A1 (en) | Method and apparatus for identifying prosodic word boundaries | |
JP5625827B2 (ja) | 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム | |
JP2009139677A (ja) | 音声処理装置及びそのプログラム | |
US20110238420A1 (en) | Method and apparatus for editing speech, and method for synthesizing speech | |
Maia et al. | Towards the development of a brazilian portuguese text-to-speech system based on HMM. | |
WO2009107441A1 (ja) | 音声合成装置、テキスト生成装置およびその方法並びにプログラム | |
JP4745036B2 (ja) | 音声翻訳装置および音声翻訳方法 | |
WO2016103652A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
Chomphan et al. | Tone correctness improvement in speaker-independent average-voice-based Thai speech synthesis | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP5611270B2 (ja) | 単語分割装置、及び単語分割方法 | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
US20130117026A1 (en) | Speech synthesizer, speech synthesis method, and speech synthesis program | |
Janyoi et al. | An Isarn dialect HMM-based text-to-speech system | |
Bahaadini et al. | Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language | |
JP2004246140A (ja) | テキスト選択方法、装置及びプログラム | |
JP3571925B2 (ja) | 音声情報処理装置 | |
JPH05134691A (ja) | 音声合成方法および装置 | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100629 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100723 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4559950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |