JP3971577B2 - Speech synthesis apparatus and speech synthesis method, portable terminal, speech synthesis program, and program recording medium - Google Patents
Speech synthesis apparatus and speech synthesis method, portable terminal, speech synthesis program, and program recording medium Download PDFInfo
- Publication number
- JP3971577B2 JP3971577B2 JP2001017189A JP2001017189A JP3971577B2 JP 3971577 B2 JP3971577 B2 JP 3971577B2 JP 2001017189 A JP2001017189 A JP 2001017189A JP 2001017189 A JP2001017189 A JP 2001017189A JP 3971577 B2 JP3971577 B2 JP 3971577B2
- Authority
- JP
- Japan
- Prior art keywords
- accent phrase
- text analysis
- probability
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 35
- 238000003786 synthesis reaction Methods 0.000 title claims description 25
- 238000001308 synthesis method Methods 0.000 title claims description 10
- 240000000220 Panda oleosa Species 0.000 claims description 74
- 235000016496 Panda oleosa Nutrition 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 abstract description 3
- 230000033764 rhythmic process Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 46
- 238000000034 method Methods 0.000 description 39
- 239000011295 pitch Substances 0.000 description 19
- 239000002245 particle Substances 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004523 agglutinating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000011306 natural pitch Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、文字情報から音声を合成する音声合成装置および音声合成方法、携帯端末器、音声合成プログラム、並びに、プログラム記録媒体に関する。
【0002】
【従来の技術】
従来より、文字情報から音声を合成するテキスト音声合成として、テキスト解析処理,韻律生成処理および音声合成処理の3つの処理を順次行う方法が知られている。図9に従来の音声合成装置のブロック図を示す。
【0003】
テキスト解析部1は、上記テキスト解析処理を行ない、入力文字情報から単語境界を検出し、各単語の音素記号列を求める。また、韻律生成部2は、上記韻律生成処理を行ない、上記求められた音素の継続時間長,単語のアクセント,文イントネーション等の韻律情報を付与する。また、音声合成部3は、上記音声合成処理を行ない、予め蓄積してある合成単位と規則とに基づいて、音声合成器の制御信号を生成する。
【0004】
以下、日本語のテキスト音声合成装置を例に、テキスト音声合成方法について詳細に説明する。日本語は、英語のように単語の境界をスペースで区切る言語と異なり、単語境界が明確でない所謂膠着語であるため、テキスト解析処理を行って単語境界を検出するのである。このテキスト解析処理は、単語の表記や読みの情報を記憶した辞書と単語の接続関係情報を記憶した文法とを用いて、文章の先頭から順次照合処理を行うことによって実行される。
【0005】
上記単語には、名詞や動詞のような自立語と、助詞や助動詞のような付属語とがある。例えば、「今日は天気です。」という文は、以下のようにテキスト解析される。
「今日(名詞)/ は(助詞)/ 天気(名詞)/ です(助動詞)。」
【0006】
このようなテキスト解析結果に基づいて、韻律生成処理および音声合成処理を行うのが一般的なテキスト音声合成方法である。尚、韻律生成処理および音声合成処理の詳細については、例えば古井著「ディジタル音声処理」(東海大学出版会)に記載されている通りである。
【0007】
【発明が解決しようとする課題】
しかしながら、上記従来のテキスト音声合成方法においては、以下のような問題がある。すなわち、近年、インターネット等の普及によって電子化された文字情報が一般社会で日常使われるようになってきている。特に、メール文のように日常会話で使う言葉で書かれたテキストが増加している。日常会話で使うような所謂話し言葉は、表現が多様であるため文法で規則化することは困難である。
【0008】
このように、文法では規定できないような話し言葉が入力テキストとして与えられた場合、テキスト解析が正しく行われないことが多い。その場合、上記韻律生成処理はテキスト解析結果が正しいという前提で行われるために、不自然な韻律が生成されてしまうのである。
【0009】
例えば、「見たことなーい」という話し言葉文が、テキスト解析処理によって以下のように解析されたとする。
「見(動詞)/ たこ(名詞)/ となー(名詞)/ い(名詞)」
このテキスト解析結果に基づいて韻律生成処理が行われると、「見る」という動詞と「たこ」という名詞に誤解析されたことが原因となって、音節「た」の位置で声立て成分が開始されて不自然なアクセントになってしまうのである。
【0010】
このような問題を解決するために、特開平11‐259094号公報においては、図10にブロック図を示すような音声合成装置が提案されている。図10において、テキスト解析部11,韻律生成部12および音声合成部13は、図9におけるテキスト解析部1,韻律生成部2および音声合成部3と同じである。本音声合成装置は、ユーザの選択した文字列に付与された韻律情報をユーザの指示に応じて修正する韻律編集部14を有している。したがって、テキスト解析部11の誤解析等に起因して韻律生成部12によって不自然な韻律が生成された場合には、韻律の不自然な箇所を韻律編集部14の修正機能を用いてユーザが修正することによって、自然な音声に修正することができるのである。
【0011】
しかしながら、上記特開平11‐259094号公報に記載された音声合成装置においては、ユーザが手作業で修正する必要があり、ユーザに手間と負担が掛るという問題がある。
【0012】
そこで、この発明の目的は、話し言葉等に出現する文法規定外の表現に起因して生成される不自然な韻律を自動的に抑制できる音声合成装置および音声合成方法、この音声合成装置が搭載された携帯端末器、音声合成プログラム、並びに、プログラム記録媒体を提供することにある。
【0013】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、
入力テキストを解析するテキスト解析手段と、上記テキスト解析結果に基づいて韻律情報を生成する韻律生成手段と、上記テキスト解析結果および韻律情報に基づいて音声を合成する音声合成手段を有する音声合成装置において、
上記テキスト解析結果のうちの品詞付き単語に基づいてアクセント句を生成して上記韻律生成手段に送出する第1アクセント句生成手段と、
上記テキスト解析結果に基づいて且つ上記品詞付き単語に囚われることなくアクセント句を生成して上記韻律生成手段に送出する第2アクセント句生成手段と、
上記テキスト解析結果に基づいて、上記第1アクセント句生成手段と第2アクセント句生成手段との何れによってアクセント句を生成するかを、仮名連鎖分岐確率およびテキスト解析尤度分岐確率の少なくとも一つを用いて判定するアクセント句生成判定手段
を備え、
上記仮名連鎖分岐確率は、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表しており、
上記テキスト解析尤度分岐確率は、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表している
ことを特徴としている。
【0014】
上記構成によれば、アクセント句生成判定手段によって、入力テキストに基づくアクセント句の生成を、テキスト解析結果のうちの品詞付き単語に基づいて生成する第1アクセント句生成手段と上記テキスト解析結果に基づいて且つ上記品詞付き単語に囚われることなく生成する第2アクセント句生成手段との何れによって行うかが予め判定される。したがって、例えば話し言葉のようにテキスト解析手段によって誤解析され易い入力テキストに関するアクセント句は、上記第2アクセント句生成手段によって、テキスト解析結果のうちの品詞付き単語に囚われることなく生成することが可能になる。
【0015】
さらに、上記アクセント句生成判定手段によって、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表す仮名連鎖情報、および、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表すテキスト解析尤度情報の少なくとも一つを基準として、第1アクセント句生成手段か第2アクセント句生成手段かの判定が行われる。したがって、話し言葉での入力テキストに基づくアクセント句の生成は第2アクセント句生成手段によって行うべきと、的確に判定される。
【0016】
また、第1の実施例は、上記第1の発明の音声合成装置において、
上記第2アクセント句生成手段は、生成するアクセント句における声立て成分の開始位置を、仮名連鎖情報,テキスト解析尤度情報,アクセント句候補のモーラ数およびアクセント句候補中の位置の少なくとも一つを用いて設定する
ことを特徴としている。
【0017】
この実施例によれば、上記第2アクセント句生成手段によって、仮名連鎖情報,テキスト解析尤度情報,アクセント句候補のモーラ数およびアクセント句候補中の位置の少なくとも一つを用いて、生成するアクセント句における声立て成分の開始位置が設定される。こうして、上記品詞付き単語に囚われることなく正しくアクセント句が生成される。すなわち、例えば話し言葉のように文法では規定できないような入力テキストが与えられても、不自然なピッチパターンの生成が抑制されて自然な韻律が生成される。
【0018】
また、第2の実施例は、上記第1の発明の音声合成装置において、
上記仮名連鎖情報は、テキストデータに基づいて予め求められた連続する二つの仮名文字の間で声立て成分が開始される確率であり、
上記テキスト解析尤度情報は、上記テキスト解析尤度分岐確率の逆数の値で与えられる声立て成分が開始される確率であり、
上記アクセント句候補のモーラ数は、アクセント句候補の先頭文字に上記アクセント句候補モーラ数に応じて与えられる声立て成分が開始される確率であり、
上記アクセント句候補中の位置は、上記アクセント句候補中で文字が占める位置に基づいて与えられる声立て成分が開始される確率である
ことを特徴としている。
【0019】
この実施例によれば、上記第2アクセント句生成手段によって、テキストデータに基づいて予め求められた連続する二つの仮名文字の間で声立て成分が開始される確率である仮名連鎖情報、上記テキスト解析尤度分岐確率の逆数の値で与えられる声立て成分が開始される確率であるテキスト解析尤度情報、アクセント句候補の先頭文字に上記アクセント句候補モーラ数に応じて与えられる声立て成分が開始される確率であるアクセント句候補のモーラ数、および、上記アクセント句候補中で文字が占める位置に基づいて与えられる声立て成分が開始される確率であるアクセント句候補中の位置、の少なくとも一つを用いて、生成するアクセント句における声立て成分の開始位置が設定される。
【0020】
また、第2の発明は、
入力テキストを解析し、このテキスト解析結果に基づいて韻律情報を生成し、上記テキスト解析結果および韻律情報に基づいて音声を合成する音声合成方法において、
上記テキスト解析結果のうちの品詞付き単語に基づいて、上記韻律情報を生成する際に用いる第1アクセント句を生成する第1アクセント句生成ステップと、
上記テキスト解析結果に基づいて且つ上記品詞付き単語に囚われることなく、上記韻律情報を生成する際に用いる第2アクセント句を生成する第2アクセント句生成ステップと、
上記テキスト解析結果に基づいて、上記第1アクセント句と第2アクセント句とのうちの何れのアクセント句を生成するかを、仮名連鎖分岐確率およびテキスト解析尤度分岐確率の少なくとも一つを用いて判定するアクセント句生成判定ステップ
を備え、
上記仮名連鎖分岐確率は、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表しており、
上記テキスト解析尤度分岐確率は、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表している
ことを特徴としている。
【0021】
上記構成によれば、入力テキストに基づくアクセント句の生成を、テキスト解析結果のうちの品詞付き単語に基づいて生成するか、上記テキスト解析結果に基づいて且つ上記品詞付き単語に囚われることなく生成するかが、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表す仮名連鎖分岐確率、および、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表すテキスト解析尤度分岐確率、の少なくとも一つを用いて予め判定される。したがって、例えば話し言葉のようにテキスト解析の際に誤解析され易い入力テキストに関するアクセント句は、テキスト解析結果のうちの上記品詞付き単語に囚われることなく生成することが可能になる。
【0022】
また、第3の発明の携帯端末器は、上記第1の発明の音声合成装置を搭載したことを特徴としている。
【0023】
上記構成によれば、例えば話し言葉のように文法では規定できない入力テキストに対して自然なアクセント句を与えることができる音声合成装置が携帯端末器に搭載される。したがって、日常会話で使う言葉で書かれたメール文を受信した場合でも合成音声によって正確に出力することが可能になり、携帯端末器の操作性が向上される。
【0024】
また、第4の発明の音声合成プログラムは、コンピューターを、上記第1の発明におけるテキスト解析手段,韻律生成手段,音声合成手段,アクセント句生成判定手段,第1アクセント句生成手段および第2アクセント句生成手段として機能させることを特徴としている。
【0025】
また、第5の発明のプログラム記録媒体は、上記第4の発明の音声合成プログラムが記録されたことを特徴としている。
【0026】
上記第4,第5の発明の構成によれば、上記第1の発明の場合と同様に、例えば話し言葉のようにテキスト解析手段で誤解析され易い入力テキストに関するアクセント句が、上記第2アクセント句生成手段によって、テキスト解析結果のうちの品詞付き単語に囚われることなく生成することが可能になる。
【0027】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の音声合成装置におけるブロック図である。テキスト解析部21は、入力されたテキストを解析して単語境界を検出し、各単語の音素記号列を求める。アクセント句生成判定部22は、上記テキスト解析結果に基づいて、アクセント句の生成を第1アクセント句生成部23で行なうか第2アクセント句生成部24で行なうかを判定する。そして、第1アクセント句生成部23によって、上記テキスト解析結果に基づいてアクセント句が生成される。一方、第2アクセント句生成部24は、上記テキスト解析結果に依存せずにアクセント句を生成する。
【0028】
韻律生成部25は、上記第1アクセント句生成部23あるいは第2アクセント句生成部24によって生成された各アクセント句に対して、音素の継続時間長,アクセント核の位置および文イントネーション等の韻律情報を付与する。音声合成部26は、上記付与された韻律生成情報に基づいて、予め蓄積されている合成単位と規則とによって音声合成器の制御信号を生成する。
【0029】
上記テキスト解析部21,第1アクセント句生成部23,韻律生成部25および音声合成部26の詳細については、例えば、古井著「ディジタル音声処理」(東海大学出版会)に記載されている通りであり、ここでは用語の簡単な説明にとどめる。
【0030】
アクセント核を1個保有するアクセントのまとまりをアクセント句という。ここで、上記アクセント核とは、個々の語において、声の高さが高から低へ移る位置をいう。声は、その出始めでは高いが、次第に声門下圧の低下等によって高さが低下する。このようなピッチ(基本周波数)が時間と共に低下する特性を声立て成分と呼び、この特性の上に、アクセントによって決まる単語および文節固有のピッチパターン(アクセント成分)が重畳されて、文全体のピッチパターンが決まる。図6にピッチパターンを求める過程を示す。
【0031】
以下においては、説明を容易にするために、アクセント句生成判定部22は、テキスト解析結果を見て、書き言葉であれば第1アクセント句生成部23に解析結果データを送る一方、話し言葉であれば第2アクセント句生成部24に判定結果データを送るものとする。しかしながら、この発明はこれに限定されるものではない。また、説明の都合上、先ず第1アクセント句生成部23による話し言葉の処理に関する問題点について述べる。尚、第1アクセント句生成部23の機能は、図9や図10に示す従来の音声合成装置においては、テキスト解析部1,11または韻律生成部2,12の何れか、あるいは両者で行われるものである。そして次に、アクセント句生成判定部22の処理、最後に第2アクセント句生成部24の処理の順に説明する。
【0032】
上記第1アクセント句生成部23は、上記テキスト解析部21によるテキスト解析の結果に基づいてアクセント句を生成するものであり、上述したように従来から一般的に行なわれている技術である。例として、単語の接続関係情報を記憶した文法に則った文「今日は天気です。」に対する第1アクセント句生成部23でのピッチパターンの生成は、上述のように図6に示す手順によって行なわれる。こうして、文法に則った文が正しくテキスト解析されれば、問題なく第1アクセント句生成部23によってピッチパターンが生成されるのである。
【0033】
ここで、仮に、上記第1アクセント句生成部23によって、文法に則っていない「なーんちゃってぇー」という文のピッチパターンを生成すると図7に示すようになる。すなわち、テキスト解析部21によるテキスト解析結果は、「なー(助:終助詞)/ ん(助詞:格助詞)/ ちゃっ(動詞:5段ワ行)/ て(助詞:接続助詞)/ ぇ(未知語)/ ー(未知語)」のように解析され、「ん」と「ちゃっ」の間にアクセント句の区切れがあると判断されることで、「ちゃっ」のところで次の声立て成分が開始される。これは、図7において、声立て成分が2つに別れていることで示されており、不自然なピッチパターンの原因になっている。
【0034】
そこで、本実施の形態における音声合成装置では、上記第2アクセント句生成部24を設けて、図8に示すように、アクセント句の区切れで生成される次の声立て成分の開始を抑制し、更にアクセント成分も抑制することによって、ピッチパターンの変動を抑えて大きく誤らないようにするのである。
【0035】
上記テキスト解析部21によるテキスト解析が確実に正しく行われれば、第1アクセント句生成部23だけで十分なのである。ところが、現時点におけるテキスト解析処理では、区切り位置の誤りや品詞の判断誤り、あるいは辞書に登録されていない未知語の処理等、不完全な部分がまだある。特に、話し言葉のような文法規定外の入力テキストからは、韻律情報を付与するための正確な情報は得にくい。すなわち、「なーんちゃってぇー」のような話し言葉を辞書や文法で表現しようとしても、多くのバリエーションがあるために書き言葉に比べて規則化が困難なのである。
【0036】
上記話し言葉の特徴は仮名文字列に現れる。本実施の形態においては、この仮名文字列の特徴を捕えて不自然な韻律を抑制するのである。例えば、「なーんちゃってぇー」の例の場合には、「ちゃっ」が動詞であるというテキスト解析結果を用いないために、「なーんちゃってぇー」という一つのアクセント句に対してピッチパターンを生成できるのである。
【0037】
次に、「なーんちゃってぇー」を一つのアクセント句として第2アクセント句生成部24で処理すべきであると判定するアクセント句生成判定部22について述べる。書き言葉のテキスト解析結果は、一般的に自立語と付属語とが連続する形になる。これに対して、話し言葉をテキスト解析すると、誤解析によって、自立語がない文節ができたり辞書に登録されていない未知語と判定されたりするという現象が見られる。そこで、この現象を捕えて、テキスト解析結果が信頼できると判定すれば第1アクセント句生成部23でアクセント句生成の処理を行ない、そうでなければ第2アクセント句生成部24でアクセント句生成の処理を行なうのである。
【0038】
したがって、上記第2アクセント句生成部24で処理を行なう場合には、どの単位をアクセント句とするかを予め決めてやる必要がある。その場合、テキスト解析部21によるテキスト解析の結果は信頼性が低いため、区切り位置や品詞情報は使用しないようにする。そして、未知語と判定された単語および小文字「ぇ」や長音記号「ー」を含む部分は書き言葉である可能性が高いため、アクセント句を細切れとせずに広い範囲をアクセント句としてまとめるのである。
【0039】
このように、上記テキスト解析結果に未知語を含んだりあるいは話し言葉特有の文字が存在するという情報を手がかりにすることによって、アクセント句生成判定部22によって、入力された文字列が書き言葉であるか話し言葉であるか、すなわち第1アクセント句生成部23で処理するか第2アクセント句生成部24で処理するかを判断することが可能になるのである。
【0040】
図2に、上記テキスト解析部21,アクセント句生成判定部22,第1アクセント句生成部23および第2アクセント句生成部24によって行なわれるアクセント句生成処理動作のフローチャートを示す。以下、第1アクセント句生成部23で処理される通常のテキスト「今日は天気です」と、第2アクセント句生成部24で処理される話し言葉のテキスト「なーんちゃってぇー」とを例に、アクセント句生成処理動作の具体的手法について説明する。
【0041】
ステップS1で、上記テキスト解析部21によって入力テキストに対してテキスト解析処理が行なわれる。ステップS2で、単語番号iに初期値「1」がセットされる。ステップS3で、単語番号iが、上記テキスト解析処理結果に基づく当該入力テキストの単語数N1よりも大きいか否かが判別される。その結果、N1よりも大きければアクセント句生成処理動作を終了する。一方、N1以下であればステップS4に進む。ステップS4で、i番目の単語が読み出されて変数Tiに代入される。ステップS5で、単語Ti中に連続する仮名列が在るか否かが判別される。その結果、在ればステップS6に進む。一方、なければステップS9に進む。ステップS6で、仮名連鎖分岐確率テーブルが参照される。
【0042】
ここで、仮名連鎖分岐確率とは、2つの仮名文字の第1文字Wiと第2文字Wjとが連続して出現する場合に第2アクセント句生成部24での処理に分岐すべきと判断される確率(つまり、話し言葉である確率)であり、予め求められて仮名連鎖分岐確率テーブルに格納されている。上記仮名連鎖分岐確率テーブルの求め方は次のように行う。
【0043】
予め大量のテキストデータに基づいて、任意の平仮名文字連鎖Wi,Wjが書き言葉のテキストコーパスL1と話し言葉のテキストコーパスL2との夫々に出現する確率P(Wi,Wj,L1)とP(Wi,Wj,L2)とを求める。そして、平仮名文字連鎖Wi,Wjが出現した場合に話し言葉のテキストコーパスL2に属する確率R(Wi,Wj)を、次式
R(Wi,Wj)=P(Wi,Wj,L2)/{(P(Wi,Wj,L1)+P(Wi,Wj,L2)}
によって求める。こうして求めた、話し言葉のテキストコーパスL2に属する確率R(Wi,Wj)を上記分岐確率として、第1文字Wiと第2文字Wjとに対応付けてテーブルに格納することによって、上記仮名連鎖分岐確率テーブルが得られるのである。
【0044】
図3は上記仮名連鎖分岐確率テーブルの一例を示し、例えば、第1文字「で」と第2文字「す」と両仮名文字連鎖が現れた場合にテキストコーパスL2に属する確率値R(で,す)である分岐確率とが対応付けられて格納されている。この場合、仮名文字「で」と「す」との連鎖は話し言葉特有のものではないために、分岐確率R(で,す)の値は小さい。一方、仮名文字「な」と「ー」との連鎖は話し言葉特有のものであり、分岐確率R(な,ー)の値は大きい。
【0045】
ステップS7で、解析尤度分岐確率テーブルが参照される。ここで、解析尤度分岐確率は、テキスト解析の結果の信頼性が低いために第2アクセント句生成部24での処理に分岐すべきと判断される確率(つまり、話し言葉である確率)である。例えば、品詞が「未知語」であれば解析尤度分岐確率は高くなり、その他の品詞であれば小さくなる。また、文頭が付属語で始まる場合にはテキスト解析の信頼性は低いと考えられるため、解析尤度分岐確率は高くなる。この解析尤度分岐確率は、品詞条件とその品詞条件を満たす場合には第2アクセント句生成部24での処理に分岐すべきと判断される分岐確率とが対応付けられて格納された解析尤度分岐確率テーブルを参照することで求められる。図4は上記解析尤度分岐確率テーブルの一例を示す。例えば、「今日は天気です」中の「です」は、品詞が助動詞で付属語ではあるが名詞「天気」に後続しているために文頭の付属語ではなく、解析尤度分岐確率値は小さい値となるのである。
【0046】
ステップS8で、上記ステップS6において求められた仮名連鎖分岐確率値とステップSS7において求められた解析尤度分岐確率値とに基づいて、分岐確率が計算される。ステップS9で、アクセント句が形成されるか否かが判別される。その結果、アクセント句が形成される場合はステップS10に進む一方、形成されない場合はステップS13に進む。ステップS10で、分岐確率は所定値αよりも大きいか否かが判別される。その結果、所定値αよりも大きければステップS11に進み、所定値α以下であればステップS12に進む。ステップS11で、上記第2アクセント句生成部24によってアクセント句が生成される。そうした後にステップS13に進む。ステップS12で、テキスト解析結果に基づいて、第1アクセント句生成部23によってアクセント句が生成される。ステップS13で、単語番号iがインクリメントされる。そうした後に上記ステップS3に戻って、次の単語番号iの処理に移行する。そして、上記ステップS3において、単語番号iが入力テキストの単語数N1よりも大きいと判別されと、アクセント句生成処理動作を終了する。
【0047】
以下、通常のテキスト「今日は天気です」が入力された場合を例に、上述したアクセント句生成処理動作について具体的に説明する。先ず、テキスト「今日は天気です」に対してテキスト解析が行なわれ、処理結果「今日(名詞)/ は(助詞)/ 天気(名詞)/ です(助動詞)」が得られる。この場合には、上記テキスト解析処理によって、入力テキスト「今日は天気です」は4つの単語(N1=4)に区切られる。
【0048】
次に、1番目の単語「今日」が読み出される。そして、この単語「今日」には連続する仮名列はないので、アクセント句を形成するか否かが判別される。そして、後方に助詞が続くのでアクセント句は形成されないと判定されて、2番目の単語「は」が読み出される。そして、前の単語「今日」との連結を考慮しても連続する仮名列がないので、アクセント句を形成するか否かが判別される。そして、前の単語「今日」との結合で「今日は」という文節になるため、アクセント句を形成すると判別される。ここで、連続する仮名列はなく分岐確率の計算処理を行っていないため分岐確率は「0」となり、第1アクセント句生成部23によって、テキスト解析結果に基づいてアクセント句が生成される。
【0049】
次に、3番目の単語「天気」に対する処理が1番目の単語「今日」の場合と同様に処理される。次に、4番目の単語「です」が読み出される。そして、この単語「です」には、連続する仮名列(「で」と「す」)とがあるので、「で」と「す」との仮名連鎖分岐確率と解析尤度分岐確率とが求められる。また、求められた仮名連鎖分岐確率値と解析尤度分岐確率値とに基づいて、分岐確率が計算される。この場合、仮名連鎖分岐確率値と解析尤度分岐確率値との両者共に小さいために、単語「です」の分岐確率の値は小さくなる。さらに、アクセント句「天気です」が形成されると判断される。そして、上記分岐確率の値は小さいためにαより小さいと判断されて、第1アクセント句生成部23によるテキスト解析結果に基づくアクセント句の生成が行なわれるのである。そして、単語番号iの内容が単語数「4」より大きくなると、テキスト「今日は天気です」によるアクセント句生成部判定処理動作を終了する。尚、上述の例においては2連鎖の仮名列を例に説明しているが、3連鎖以上であっても同様である。
【0050】
次に、話し言葉によるテキスト「なーんちゃってぇー」が入力された場合を例に挙げて、上述したアクセント句生成処理動作について具体的に説明する。先ず、テキスト「なーんちゃってぇー」に対してテキスト解析が行なわれ、処理結果「なー(助詞:終助詞)/ ん(助詞:格助詞)/ ちゃっ(動詞:5段ワ行)/ て(助詞:接続助詞)/ ぇ(未知語)/ ー(未知語)」が得られる。この場合は、上記テキスト解析処理によって、入力テキスト「なーんちゃってぇー」は6つの単語に区切られる。
【0051】
次に、1番目の単語「なー」が読み出される。そして、この単語「なー」には、連続する仮名列(「な」と「ー」)とがあるため、「な」と「ー」との仮名連鎖分岐確率と解析尤度分岐確率とが求められる。その場合、「な」と「ー」との連鎖は話し言葉特有のものであるために、仮名連鎖分岐確率R(な,ー)の値は大きくなっている。また、文頭が付属語で始まる場合はテキスト解析の信頼性が低いと考えられるために、解析尤度分岐確率は大きくなっている。そして、求められた仮名連鎖分岐確率値と解析尤度分岐確率値とに基づいて、分岐確率が計算される。この場合、仮名連鎖分岐確率値と解析尤度分岐確率値との両者共に大きいため、単語「なー」の分岐確率の値は大きくなる。
【0052】
さらに、後続の単語「ん」とまとまってアクセント句が形成されるため、当該単語「なー」だけではアクセント句が形成されないと判断される。次に、2番目の単語「ん」に対する処理が1番目の単語「なー」の場合と同様に処理される。そして、アクセント句を形成するか否かを判別する際に、後続の「ちゃっ」という動詞との間にアクセント句の切れ目がないと判断され、「なーん」だけではアクセント句は形成しないと判別される。このことは、「なーん」や「ちゃっ」の分岐確率がある程度高いことから判断される。以下、3番目の単語「ちゃっ」から6番目の単語「ー」に対して同様の処理が行われ、何れの単語も分岐確率が高いことからアクセント句を形成することはないと判断される。結局、入力テキスト「なーんちゃってぇー」に対するテキスト解析によって区切られた単語は、夫々分岐確率が高いことから「なんーちゃってぇー」という一つのアクセント句が形成されることになる。
【0053】
このようにして形成された一つのアクセント句は、上記分岐確率が大きいためにαより大きいと判断されて、第2アクセント生成部24によって、テキスト解析の結果を用いずにアクセント句が生成されるのである。したがって、第1アクセント生成部23によって、テキスト解析の誤解析結果を用いてアクセント句を生成することによる不自然なアクセントの生成を避けることができるのである。
【0054】
次に、上記第2アクセント句生成部24によって実行されるテキスト解析結果を用いないアクセント句生成処理について詳細に説明する。図5に、第2アクセント句生成部24によるアクセント句生成処理動作のフローチャートを示す。図2に示すアクセント句生成処理動作における上記ステップS11において、アクセント句候補「なーんちゃってぇー」が第2アクセント生成部24に送出されるとアクセント句生成処理動作がスタートする。
【0055】
ステップS21で、入力アクセント句候補のモーラ番号jに初期値「1」がセットされる。ステップS22で、入力アクセント句候補「なーんちゃってぇー」からj番目のモーラに該当する文字が読み出されて変数Mjに代入される。ステップS23で、仮名連鎖M(j-1),Mjに基づいて、文字Mjの部分で声立て成分が開始される確率(以下、声立て確率と言う)が仮名連鎖情報テーブルを用いて求められ、変数a1に代入される。ここで、上記仮名連鎖情報テーブルは、連続する二つの仮名文字の間で声立て成分が開始される確率を予め大量のテキストデータに基づいて求めたものである。アクセント句生成判定部22で用いられる上記仮名連鎖分岐確率テーブルは、その確率値(分岐確率値)は話し言葉である確率値である。これに対して、仮名連鎖情報テーブルの確率値は、上記声立て確率値であることだけが異なるのである。したがって、上記仮名連鎖情報テーブルの確率値が大きければ、第2文字Mjで声立て成分が開始される可能性が高いのである。例えば、入力アクセント句候補「なーんちゃってぇー」における「ん」と「ちゃ」との場合には、大量のテキストデータ中において「ん」と「ちゃ」との間で声立て成分が開始される場合は少ないので、その声立て確率値は低くなるのである。
【0056】
ステップS24で、仮名Mjに続く文字列に基づいて、図2に示すアクセント句生成処理動作における上記ステップS7において参照された解析尤度分岐確率の値が検索され、その逆数の値が変数a2に代入される。ここで、上記解析尤度分岐確率が高いと言うことはテキスト解析結果の信頼性が低いことを意味しているので、解析尤度分岐確率の値が大きければ文字Mjが声立て成分の開始位置となる可能性は低くなる。例えば、解析尤度を計る尺度として品詞情報を例に説明すると、未知語と解析された仮名文字列は、テキスト解析結果が正しい確率は低いので声立て成分の開始位置となる可能性も低い。これに対して、代名詞,副詞等と解析された平仮名は、テキスト解析結果が正しい確率は高いので声立て成分の開始位置となる可能性も高いのである。
【0057】
入力アクセント句候補の仮名文字連鎖「なーん」の場合は、文頭であるにも拘らず助詞+助詞(つまり、文頭の付属語)と解析されているので、解析尤度分岐確率の値は高くなる。したがって、その逆数であるa2の値は小さくなるのである。
【0058】
ステップS25で、入力アクセント句候補のモーラ数に基づく声立て成分開始確率が変数a3に代入される。入力アクセント句候補のモーラ数が多ければ当該アクセント句候補の先頭で声立て成分を開始する必要性は高くなるので、先頭文字における上記声立て確率はモーラ数に対して単調増加の関数になる。そこで、文字Mjが入力アクセント句候補の先頭文字である場合には、上記関数に基づいて上記声立て確率が得られる。例えば、上記入力アクセント句候補「なーんちゃってぇー」の場合には7モーラであるから、「な」で声立て成分が開始される可能性が高くなる。尚、当該文字Mjが入力アクセント句候補の先頭文字でない場合には、変数a3には「0」が代入される。
【0059】
ステップS26で、文字Mjが入力アクセント句候補中において占める位置に基づく声立て成分の開始確率が変数a4に代入される。注目文字Mjが入力アクセント句候補の先頭であれば声立て成分が開始される可能性が高くなり、末尾に近づく程低くなるので、先頭からの位置に対する上記声立て確率は単調減少の関数になる。したがって、この関数に基づいて、注目文字Mjにおける上記声立て確率が求められるのである。すなわち、上記入力アクセント句候補「なーんちゃってぇー」の場合には、「な」で声立て成分が開始される確率は高いが、「ちゃ」で声立て成分が開始される確率は低くなる。
【0060】
ステップS27で、上述のようにして上記ステップS23〜ステップS26において求められた変数a1〜a4に重み係数b1〜b4が乗じられて加算され、変数Aに代入される。ステップS28で、変数Aの値が所定値βよりも大きいか否かが判別される。その結果、A>βであればステップS29に進み、A≦βであればステップS30に進む。ステップS29で、文字列M1〜M(j-1)に対して声立て成分が与えられる。そうした後にステップS31に進む。ステップS30で、文字列M1〜M(j-1)に対して声立て成分が与えられない。
【0061】
ステップS31で、上記モーラ番号jが、上記入力アクセント句候補の総モーラ数N2よりも小さいか否かが判別される。その結果、総モーラ数N2よりも小さければステップS32に進み、総モーラ数N2以上であればアクセント句生成処理動作を終了する。ステップS32で、モーラ番号jがインクリメントされる。そうした後、上記ステップS22に戻り、次のモーラに該当する文字に対する処理に移行する。そして、上記ステップS31においてモーラ番号jが総モーラ数N2以上であると判別されると、アクセント句生成処理動作を終了するのである。
【0062】
このように、上記第2アクセント句生成部24は、入力アクセント句候補の仮名連鎖に基づく上記声立て確率、1/解析尤度分岐確率、モーラ数に基づく上記声立て確立、アクセント句候補中に占める位置に基づく上記声立て確立に基づいて、入力アクセント句候補に対して新たに声立て成分開始位置を設定するか否かを判定するようにしている。したがって、話し言葉のテキストに基づくアクセント句候補「なーんちゃってぇー」が入力された場合には、文字列「ちゃっ」に関する仮名連鎖に基づく上記声立て確率,1/解析尤度分岐確率,モーラ数に基づく上記声立て確立およびアクセント句候補中に占める位置に基づく上記声立て確立の値は何れも小さく、文字列「ちゃっ」で声立て成分が開始されることはない。こうして、声立て成分が2つに別れて不自然なピッチパターンの要因にはなることが抑制されるのである。
【0063】
上述したように、本実施の形態においては、テキスト解析部21によるテキスト解析結果に基づいてアクセント句を生成する第1アクセント句生成部23に加えて、上記テキスト解析結果に依存せずにアクセント句を生成する第2アクセント句生成部24を設けている。そして、アクセント句生成判定部22によって、上記テキスト解析結果に基づいて、入力テキストが書き言葉である場合には、アクセント句の生成を第1アクセント句生成部23で行なうと判定する。一方、話し言葉である場合には、第2アクセント句生成部24で行なうと判定するようにしている。
【0064】
したがって、入力テキストが、文法に則っていない話し言葉「なーんちゃってぇー」である場合には、第2アクセント句生成部24によって、上記テキスト解析結果に依存せずにアクセント句を生成することができる。その結果、テキスト解析部21による誤ったテキスト解析結果に基づいてアクセント句が生成された場合のように「ちゃっ」のところで次の声立て成分が開始されることはなく、不自然なピッチパターンが生成されることを防止できるのである。
【0065】
その際に、上記アクセント句生成判定部22は、2つの仮名文字の連鎖と第2アクセント句生成部24での処理に分岐すべき確率とを対応付けた仮名連鎖分岐確率テーブルと、品詞条件とその品詞条件を満たす場合に第2アクセント句生成部24での処理に分岐すべき確率とを対応付けた解析尤度分岐確率テーブルとを参照して、第1アクセント句生成部23で処理するか第2アクセント句生成部24で処理するかを判定するようにしている。したがって、話し言葉特有の仮名文字列情報および品詞条件に基づいて、的確に第2アクセント句生成部24で処理するか否かを判定することができるのである。
【0066】
また、上記第2アクセント句生成部24は、上記アクセント句生成判定部22から入力されたアクセント句候補の仮名連鎖に基づく上記声立て確率,1/解析尤度分岐確率,モーラ数に基づく上記声立て確立,アクセント句候補中に占める位置に基づく上記声立て確立に基づいて、入力アクセント句候補に対して新たに声立て成分開始位置を設定するか否かを判定するようにしている。したがって、例えば話し言葉のように文法では規定できないテキストが入力された場合でも、誤ったテキスト解析結果に基づいて不自然な声立てが与えられることが抑制されて、自然な韻律が生成されるのである。
【0067】
尚、上記実施の形態においては、アクセント句の生成を第1アクセント句生成部23で行なうか第2アクセント句生成部24で行なうかのアクセント句生成判定部22による判定を、書き言葉であるか話し言葉であるかによって行う場合を例に説明しているが、この発明はこれに限定されるものではない。要は、テキスト解析によって誤解析が生ずるような文法では規定できない文章を第2アクセント句生成部24で処理すると判定すればよいのである。
【0068】
上述したような話し言葉によるテキスト入力は、携帯端末器によるメール文の入力時によく行われる。そして、上記携帯端末器においては、画面における表示文字数に制限があるため、受信したメール文を合成音声によって出力することが望ましい。そこで、上記実施の形態で述べたような音声合成装置を上記携帯端末器に搭載することによって、携帯端末器の機能を大幅に向上することができるのである。
【0069】
ところで、上記実施の形態におけるテキスト解析部21,アクセント句生成判定部22,第1アクセント句生成部23および第2アクセント句生成部24による上記テキスト解析手段,アクセント句生成判定手段,第1アクセント句生成手段および第2アクセント句生成手段としての機能は、プログラム記録媒体に記録された音声合成処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、ROM(リード・オンリ・メモリ)でなるプログラムメディアである。または、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから音声合成処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0070】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0071】
また、上記実施の形態における音声合成装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0072】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0073】
【発明の効果】
以上より明らかなように、第1の発明の音声合成装置は、テキスト解析結果のうちの品詞付き単語に基づいてアクセント句を生成する第1アクセント句生成手段と上記テキスト解析結果に基づいて且つ上記品詞付き単語に囚われることなくアクセント句を生成する第2アクセント句生成手段とを有し、アクセント句生成判定手段によって、アクセント句の生成を上記第1アクセント句生成手段で行うか第2アクセント句生成手段で行うかを判定するので、例えば話し言葉のようにテキスト解析の際に誤解析され易い入力テキストに関するアクセント句を、上記第2アクセント句生成手段によって、テキスト解析結果のうちの品詞付き単語に囚われることなく生成することが可能になる。
【0074】
したがって、この発明によれば、話し言葉のように文法では規定できないテキストに対して自然なピッチパターンを付与することが可能になり、不自然な韻律を抑制することが可能になる。
【0075】
さらに、上記アクセント句生成判定手段は、上記判定の基準として、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表す仮名連鎖情報、および、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表すテキスト解析尤度情報の少なくとも一つを用いるように成したので、話し言葉のように文法では規定できないテキストに基づくアクセント句の生成は上記第2アクセント句生成手段によって行うべきと、的確に判定することができる。
【0076】
また、第1の実施例は、上記第2アクセント句生成手段を、生成するアクセント句における声立て成分の開始位置を、仮名連鎖情報,テキスト解析尤度情報,アクセント句候補のモーラ数およびアクセント句候補中の位置の少なくとも一つを用いて設定するようにしたので、テキスト解析結果のうちの品詞付き単語に囚われることなく正しくアクセント句を生成することができる。したがって、話し言葉のように文法では規定できないような入力テキストが与えられても、不自然なピッチパターンの生成を抑制して自然な韻律を生成することができる。
【0077】
また、第2の実施例は、上記第2アクセント句生成手段によって、テキストデータに基づいて予め求められた連続する二つの仮名文字の間で声立て成分が開始される確率である仮名連鎖情報、上記テキスト解析尤度分岐確率の逆数の値で与えられる声立て成分が開始される確率であるテキスト解析尤度情報、アクセント句候補の先頭文字に上記アクセント句候補モーラ数に応じて与えられる声立て成分が開始される確率であるアクセント句候補のモーラ数、および、上記アクセント句候補中で文字が占める位置に基づいて与えられる声立て成分が開始される確率であるアクセント句候補中の位置、の少なくとも一つを用いて、生成するアクセント句における声立て成分の開始位置が設定される。したがって、話し言葉のように文法では規定できないような入力テキストが与えられても、不自然なピッチパターンの生成を抑制してより自然な韻律を生成することができる。
【0078】
また、第2の発明の音声合成方法は、入力テキストに基づくアクセント句の生成を、テキスト解析結果のうちの品詞付き単語に基づいて生成するか上記テキスト解析結果基づいて且つ上記品詞付き単語に囚われることなく生成するかを、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表す仮名連鎖分岐確率、および、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表すテキスト解析尤度分岐確率、の少なくとも一つを用いて予め判定し、その判定結果に従って上記アクセント句を生成するので、例えば話し言葉のようにテキスト解析の際に誤解析され易い入力テキストに関するアクセント句を、テキスト解析結果のうちの上記品詞付き単語に囚われることなく生成することが可能になる。
【0079】
また、第3の発明の携帯端末器は、話し言葉のように文法では規定できな入力テキストに対して自然なアクセント句を与えることができる上記第1の発明の音声合成装置を搭載したので、日常会話で使う言葉で書かれたメール文を受信した場合でも合成音声によって正確に出力することが可能になり、携帯端末器の操作性を向上することができる。
【0080】
また、第4の発明の音声合成プログラムは、コンピューターを、上記第1の発明におけるテキスト解析手段,韻律生成手段,音声合成手段,アクセント句生成判定手段,第1アクセント句生成手段および第2アクセント句生成手段として機能させる。また、第5の発明のプログラム記録媒体は、上記第4の発明の音声合成プログラムを記録している。したがって、上記第1の発明の場合と同様に、話し言葉のようにテキスト解析手段で誤解析され易い入力テキストに関するアクセント句を、上記第2アクセント句生成手段によってテキスト解析結果のうちの品詞付き単語に囚われることなく生成することが可能になる。
【図面の簡単な説明】
【図1】 この発明の音声合成装置におけるブロック図である。
【図2】 図1に示す音声合成装置によって行なわれるアクセント句生成処理動作のフローチャートである。
【図3】 仮名連鎖分岐確率テーブルの一例を示す図である。
【図4】 解析尤度分岐確率テーブルの一例を示す図である。
【図5】 図1における第2アクセント句生成部によって行われるアクセント句生成処理動作のフローチャートである。
【図6】 ピッチパターンを求める過程を示す図である。
【図7】 図1における第1アクセント句生成部によって話し言葉に基づいてピッチパターンを生成する過程を示す図である。
【図8】 図1における第2アクセント句生成部によって話し言葉に基づいてピッチパターンを生成する過程を示す図である。
【図9】 従来の音声合成装置のブロック図である。
【図10】 図9とは異なる従来の音声合成装置のブロック図である。
【符号の説明】
21…テキスト解析部、
22…アクセント句生成判定部、
23…第1アクセント句生成部、
24…第2アクセント句生成部、
25…韻律生成部、
26…音声合成部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesizer and a speech synthesis method for synthesizing speech from character information, a portable terminal device, a speech synthesis program, and a program recording medium.
[0002]
[Prior art]
Conventionally, as text-to-speech synthesis for synthesizing speech from character information, a method of sequentially performing three processes of text analysis, prosody generation, and speech synthesis is known. FIG. 9 shows a block diagram of a conventional speech synthesizer.
[0003]
The
[0004]
Hereinafter, the text-to-speech synthesis method will be described in detail by taking a Japanese text-to-speech synthesis device as an example. Japanese is a so-called agglutinating word in which the word boundary is not clear, unlike the language that separates the word boundary with a space like English, and therefore, the word boundary is detected by performing text analysis processing. This text analysis processing is executed by sequentially performing collation processing from the beginning of a sentence using a dictionary storing word notation and reading information and a grammar storing word connection relation information.
[0005]
The words include independent words such as nouns and verbs, and adjuncts such as particles and auxiliary verbs. For example, the sentence “Today is the weather” is text-analyzed as follows.
“Today (noun) / is (particle) / weather (noun) / is (auxiliary verb).”
[0006]
A general text-to-speech synthesis method performs prosody generation processing and speech synthesis processing based on such text analysis results. The details of the prosody generation processing and speech synthesis processing are as described in, for example, “Digital Speech Processing” by Toru University (Tokai University Press).
[0007]
[Problems to be solved by the invention]
However, the conventional text-to-speech synthesis method has the following problems. That is, in recent years, character information digitized by the spread of the Internet and the like has come to be used everyday in the general society. In particular, text written in words used in daily conversation, such as e-mails, is increasing. So-called spoken words used in daily conversation are difficult to regularize with grammar because of their diverse expressions.
[0008]
Thus, when spoken words that cannot be defined by grammar are given as input text, text analysis is often not performed correctly. In this case, since the prosody generation process is performed on the premise that the text analysis result is correct, an unnatural prosody is generated.
[0009]
For example, it is assumed that the spoken word sentence “I have never seen it” is analyzed as follows by the text analysis process.
`` Look (verb) / Tako (noun) / Nato (noun) / I (noun) ''
When prosody generation processing is performed based on this text analysis result, the voice component starts at the position of the syllable “ta” due to the misanalysis of the verb “see” and the noun “tako” It becomes an unnatural accent.
[0010]
In order to solve such a problem, Japanese Patent Laid-Open No. 11-259094 proposes a speech synthesizer whose block diagram is shown in FIG. 10, the
[0011]
However, the speech synthesizer described in the above-mentioned Japanese Patent Application Laid-Open No. 11-259094 has a problem that it is necessary for the user to make corrections manually, which places a burden on the user.
[0012]
Accordingly, an object of the present invention is to incorporate a speech synthesizer and speech synthesis method that can automatically suppress unnatural prosody generated due to expressions outside the grammatical rules that appear in spoken language, etc., and this speech synthesizer. Another object of the present invention is to provide a portable terminal, a speech synthesis program, and a program recording medium.
[0013]
[Means for Solving the Problems]
In order to achieve the above object, the first invention provides:
In a speech synthesizer having text analysis means for analyzing input text, prosody generation means for generating prosody information based on the text analysis result, and speech synthesis means for synthesizing speech based on the text analysis result and prosodic information ,
First accent phrase generation means for generating an accent phrase based on a part of speech word in the text analysis result and sending it to the prosody generation means;
Second accent phrase generation means for generating an accent phrase based on the text analysis result and without being bound by the part-of-speech word and sending the accent phrase to the prosody generation means;
Based on the text analysis result, it is determined which of the first accent phrase generation means and the second accent phrase generation means generates the accent phrase.Using at least one of kana chain branch probability and text analysis likelihood branch probabilityAccent phrase generation determination means for determining
With,
The kana chain branch probability is the probability that the kana character chain belongs to the spoken text corpus, and represents the branch probability to the accent phrase generation by the second accent phrase generation means,
The text analysis likelihood branch probability is preset according to the part-of-speech condition and represents the branch probability to the accent phrase generation by the second accent phrase generation unit.
It is characterized by that.
[0014]
According to the above configuration, the accent phrase generation determination unit generates the accent phrase based on the input text based on the part-of-speech word in the text analysis result and the text analysis result. In addition, it is determined in advance which of the second accent phrase generation means generates without being trapped by the part-of-speech word. Therefore, for example, an accent phrase relating to an input text that is easily misanalyzed by a text analysis unit such as a spoken word can be generated by the second accent phrase generation unit without being trapped by a part-of-speech word in the text analysis result. Become.
[0015]
furtherBy the accent phrase generation determination means,Kana character chainSpokenThis is the probability of belonging to the text corpus and represents the probability of branching to accent phrase generation by the second accent phrase generation means.Kana chain information,and, Which is preset according to the part-of-speech condition, and represents the probability of branching to the accent phrase generation by the second accent phrase generation unitA determination is made as to whether the first accent phrase generation means or the second accent phrase generation means is based on at least one of the text analysis likelihood information. Therefore, it is accurately determined that the accent phrase generation based on the input text in the spoken language should be performed by the second accent phrase generation means.
[0016]
Also,FirstThe embodiment of the first embodimentMysteriousIn a speech synthesizer,
The second accent phrase generation means determines at least one of the kana component information, the text analysis likelihood information, the accent phrase candidate mora number, and the position in the accent phrase candidate in the accent phrase to be generated. Use to set
It is characterized by that.
[0017]
According to this embodiment, the second accent phrase generating means generates an accent using at least one of kana chain information, text analysis likelihood information, accent phrase candidate mora number, and position in the accent phrase candidate. The starting position of the voice component in the phrase is set. In this way, an accent phrase is correctly generated without being trapped by the word with part of speech. That is, even if input text that cannot be defined by grammar, such as spoken language, is given, generation of an unnatural pitch pattern is suppressed and a natural prosody is generated.
[0018]
The second embodiment is the speech synthesizer of the first invention,
The kana chain information is a probability that a voice component is started between two consecutive kana characters obtained in advance based on text data,
The text analysis likelihood information is a probability that a voice component given by a reciprocal value of the text analysis likelihood branch probability is started,
The number of mora of the accent phrase candidate is the probability that a voice component given to the first character of the accent phrase candidate according to the number of accent phrase candidates is started,
The position in the accent phrase candidate is the probability that a voice component given based on the position occupied by the character in the accent phrase candidate is started.
It is characterized by that.
[0019]
According to this embodiment, the kana chain information which is the probability that the second accent phrase generating means will start a voice component between two consecutive kana characters obtained in advance based on text data, the text Text analysis likelihood information, which is the probability that the voice component given by the reciprocal value of the analysis likelihood branch probability is started, and the voice component given according to the accent phrase candidate mora number to the first character of the accent phrase candidate At least one of the number of mora of the accent phrase candidate that is the probability of starting and the position in the accent phrase candidate that is the probability of starting the voice component given based on the position occupied by the character in the accent phrase candidate Are used to set the start position of the voice component in the generated accent phrase.
[0020]
In addition, the second invention,
In a speech synthesis method for analyzing input text, generating prosodic information based on the text analysis result, and synthesizing speech based on the text analysis result and the prosodic information,
A first accent phrase generating step for generating a first accent phrase to be used when generating the prosodic information based on a part-of-speech word in the text analysis result;
A second accent phrase generation step for generating a second accent phrase to be used when generating the prosodic information based on the text analysis result and without being bound by the part-of-speech word;
Based on the text analysis result, it is determined which of the first accent phrase and the second accent phrase is to be generated.Using at least one of kana chain branch probability and text analysis likelihood branch probabilityAccent phrase generation determination step for determination
With,
The kana chain branch probability is the probability that the kana character chain belongs to the spoken text corpus, and represents the branch probability to the accent phrase generation by the second accent phrase generation means,
The text analysis likelihood branch probability is preset according to the part-of-speech condition and represents the branch probability to the accent phrase generation by the second accent phrase generation unit.
It is characterized by that.
[0021]
According to the above configuration, the generation of the accent phrase based on the input text is generated based on the part-of-speech word in the text analysis result, or is generated based on the text analysis result without being bound by the part-of-speech word. ButThe kana character chain is a probability belonging to the text corpus of spoken words, and is set in advance according to the kana chain branching probability representing the branching probability to the accent phrase generation by the second accent phrase generating means, and the part of speech condition, Using at least one of text analysis likelihood branch probabilities representing branch probabilities for accent phrase generation by the second accent phrase generatorIt is determined in advance. Therefore, for example, an accent phrase related to input text that is likely to be erroneously analyzed during text analysis, such as spoken language, can be generated without being trapped by the word with part of speech in the text analysis result.
[0022]
According to a third aspect of the present invention, there is provided a portable terminal equipped with the speech synthesizer of the first aspect.
[0023]
According to the above configuration, the mobile terminal is equipped with a speech synthesizer that can give natural accent phrases to input text that cannot be defined by grammar, such as spoken language. Therefore, even when an e-mail sentence written in words used in daily conversation is received, it is possible to output it accurately with synthesized speech, and the operability of the portable terminal is improved.
[0024]
The speech synthesis program according to the fourth aspect of the invention is a computer that converts the text analysis means, prosody generation means, speech synthesis means, accent phrase generation determination means, first accent phrase generation means, and second accent phrase in the first invention. It is characterized by functioning as generation means.
[0025]
A program recording medium according to a fifth aspect is characterized in that the speech synthesis program according to the fourth aspect is recorded.
[0026]
According to the configurations of the fourth and fifth inventions, as in the case of the first invention, an accent phrase relating to an input text that is easily misanalyzed by text analysis means, such as spoken language, is obtained. The generation means can generate the text analysis result without being trapped by the words with parts of speech.
[0027]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the illustrated embodiments. FIG. 1 is a block diagram of the speech synthesizer according to the present embodiment. The
[0028]
The
[0029]
Details of the
[0030]
A group of accents with one accent core is called an accent phrase. Here, the accent nucleus means a position where the pitch of the voice shifts from high to low in each word. The voice is high at the beginning, but gradually decreases due to a decrease in subglottic pressure. Such a characteristic in which the pitch (fundamental frequency) decreases with time is called a voice component, and the pitch of the whole sentence is superimposed on this characteristic by adding a word and phrase-specific pitch pattern (accent component) determined by the accent. The pattern is determined. FIG. 6 shows a process for obtaining the pitch pattern.
[0031]
In the following, for ease of explanation, the accent phrase generation determination unit 22 looks at the text analysis result and sends the analysis result data to the first accent
[0032]
The first accent
[0033]
Here, if the pitch pattern of the sentence “Nanchattee” not conforming to the grammar is generated by the first
[0034]
Therefore, in the speech synthesizer in the present embodiment, the second accent
[0035]
If the text analysis by the
[0036]
The features of the spoken language appear in the kana character string. In this embodiment, the characteristic of this kana character string is captured to suppress an unnatural prosody. For example, in the case of “Nanchattee”, the pitch pattern for one accent phrase “Nanchattee” is not used because the text analysis result that “Chat” is a verb is not used. Can be generated.
[0037]
Next, the accent phrase generation determination unit 22 that determines that “Nanchattee” should be processed by the second accent
[0038]
Therefore, when processing is performed by the second
[0039]
In this way, by using the information that the text analysis result includes an unknown word or that there is a character unique to spoken language, the accent phrase generation determination unit 22 determines whether the input character string is a written word or not. That is, it is possible to determine whether the first
[0040]
FIG. 2 shows a flowchart of an accent phrase generation processing operation performed by the
[0041]
In step S1, the
[0042]
Here, the kana chain branching probability is determined to branch to the process in the second accent
[0043]
Based on a large amount of text data in advance, the probabilities P (Wi, Wj, L1) and P (Wi, Wj) that arbitrary hiragana character chains Wi, Wj appear in the written text corpus L1 and the spoken text corpus L2, respectively. , L2). Then, when the hiragana character chain Wi, Wj appears, the probability R (Wi, Wj) belonging to the text corpus L2 of the spoken language is expressed by the following equation:
R (Wi, Wj) = P (Wi, Wj, L2) / {(P (Wi, Wj, L1) + P (Wi, Wj, L2)}
Ask for. The probability R (Wi, Wj) belonging to the text corpus L2 of the spoken language thus obtained is stored as a branch probability in the table in association with the first character Wi and the second character Wj. A table is obtained.
[0044]
FIG. 3 shows an example of the kana chain branching probability table. For example, when the first character “de”, the second character “su”, and both kana character chains appear, the probability value R ( Are stored in association with each other. In this case, since the chain between the kana characters “de” and “su” is not unique to spoken language, the branch probability R (de, su) is small. On the other hand, the chain between the kana characters “na” and “−” is unique to spoken language, and the value of the branching probability R (na, −) is large.
[0045]
In step S7, the analysis likelihood branch probability table is referenced. Here, the analysis likelihood branching probability is a probability (that is, a probability of being a spoken word) that it is determined to branch to the processing in the second accent
[0046]
In step S8, a branch probability is calculated based on the kana chain branch probability value obtained in step S6 and the analysis likelihood branch probability value obtained in step SS7. In step S9, it is determined whether or not an accent phrase is formed. As a result, if an accent phrase is formed, the process proceeds to step S10, whereas if not formed, the process proceeds to step S13. In step S10, it is determined whether the branch probability is greater than a predetermined value α. As a result, if larger than the predetermined value α, the process proceeds to step S11, and if it is equal to or smaller than the predetermined value α, the process proceeds to step S12. In step S11, the second
[0047]
Hereinafter, the above-described accent phrase generation processing operation will be specifically described by taking as an example the case where the normal text “Today is the weather” is input. First, text analysis is performed on the text “Today is the weather”, and the processing result “Today (noun) / is (particle) / weather (noun) / is (auxiliary verb)” is obtained. In this case, the input text “Today is the weather” is divided into four words (N1 = 4) by the text analysis process.
[0048]
Next, the first word “today” is read out. Since there is no continuous kana string for the word “today”, it is determined whether or not an accent phrase is to be formed. Then, since the particle continues behind, it is determined that an accent phrase is not formed, and the second word “ha” is read out. Then, even if the concatenation with the previous word “today” is taken into consideration, there is no continuous kana string, so it is determined whether or not an accent phrase is to be formed. Since the phrase “Today is” is combined with the previous word “Today”, it is determined that an accent phrase is to be formed. Here, since there is no continuous kana string and branch probability calculation processing is not performed, the branch probability is “0”, and the first accent
[0049]
Next, the processing for the third word “weather” is performed in the same manner as in the case of the first word “today”. Next, the fourth word “is” is read out. Since this word “is” has a continuous kana string (“de” and “su”), the kana chain branch probability of “de” and “su” and the analysis likelihood branch probability are obtained. It is done. Further, the branch probability is calculated based on the obtained kana chain branch probability value and the analysis likelihood branch probability value. In this case, since both the kana chain branch probability value and the analysis likelihood branch probability value are small, the branch probability value of the word “I” is small. Furthermore, it is determined that an accent phrase “we are the weather” is formed. Since the branch probability value is small, it is determined that the branch probability is smaller than α, and the first accent
[0050]
Next, the above-described accent phrase generation processing operation will be specifically described by taking as an example the case where the text “Nanchattee” is input in spoken language. First, text analysis is performed on the text “Nanchattee”, and the processing result “Na (particle: final particle) / n (particle: case particle) / chat (verb: 5-stage wa line) / Te ( Particle: conjunctive particle) / é (unknown word) / ー (unknown word) ”. In this case, the input text “Nanchatte” is divided into six words by the text analysis process.
[0051]
Next, the first word “na” is read out. Since this word “Na-” has consecutive kana strings (“na” and “-”), the kana chain branch probability and the analysis likelihood branch probability of “na” and “-” are obtained. It is done. In this case, since the chain between “NA” and “-” is unique to spoken language, the value of the kana chain branching probability R (NA,-) is large. In addition, when the sentence head starts with an attached word, it is considered that the reliability of the text analysis is low, so the analysis likelihood branch probability is large. Then, the branch probability is calculated based on the obtained kana chain branch probability value and the analysis likelihood branch probability value. In this case, since both the kana chain branch probability value and the analysis likelihood branch probability value are large, the value of the branch probability of the word “na” is large.
[0052]
Furthermore, since the accent phrase is formed together with the subsequent word “n”, it is determined that the accent phrase is not formed only by the word “na”. Next, the processing for the second word “n” is performed in the same manner as in the case of the first word “na”. When determining whether or not to form an accent phrase, it is determined that there is no break in the accent phrase with the subsequent verb “Cha”, and it is determined that an accent phrase will not be formed with “Nan” alone. Is done. This is judged from the fact that the branching probabilities of “nan” and “cha-cha” are high to some extent. Thereafter, the same processing is performed for the third word “Cha” to the sixth word “—”, and it is determined that no accent phrase is formed because any word has a high branching probability. Eventually, words separated by text analysis for the input text “Nanchatte” have a high probability of branching, so one accent phrase “Nanchatte” is formed.
[0053]
One accent phrase formed in this way is determined to be larger than α due to the large branch probability, and the second
[0054]
Next, an accent phrase generation process using the text analysis result executed by the second accent
[0055]
In step S21, an initial value “1” is set to the mora number j of the input accent phrase candidate. In step S22, the character corresponding to the jth mora is read from the input accent phrase candidate “Nanchattee” and substituted into the variable Mj. In step S23, based on the kana chain M (j-1), Mj, the probability that the voice component is started at the character Mj portion (hereinafter referred to as the voice probability) is obtained using the kana chain information table. Is assigned to the variable a1. Here, the kana chain information table is obtained in advance based on a large amount of text data, the probability that a voice component is started between two consecutive kana characters. In the kana chain branch probability table used in the accent phrase generation determination unit 22, the probability value (branch probability value) is a probability value that is spoken language. On the other hand, the only difference is that the probability value of the kana chain information table is the above-mentioned voice probability value. Therefore, if the probability value of the kana chain information table is large, there is a high possibility that a voice component is started at the second character Mj. For example, in the case of “n” and “cha” in the input accent phrase candidate “Nanchattee”, a voice component is started between “n” and “cha” in a large amount of text data. Since there are few cases, the voice probability value is low.
[0056]
In step S24, the value of the analysis likelihood branch probability referred to in step S7 in the accent phrase generation processing operation shown in FIG. 2 is searched based on the character string following the kana Mj, and the reciprocal value is stored in the variable a2. Assigned. Here, the fact that the analysis likelihood branch probability is high means that the reliability of the text analysis result is low. Therefore, if the value of the analysis likelihood branch probability is large, the character Mj is the start position of the voice component. Is less likely. For example, taking part-of-speech information as an example of a measure for measuring the analysis likelihood, a kana character string analyzed as an unknown word has a low probability of being a correct text analysis result, so it is less likely to be the starting position of a voice component. On the other hand, hiragana analyzed as pronouns, adverbs, etc. has a high probability that the text analysis result is correct, so it is highly likely that it will be the starting position of the voice component.
[0057]
In the case of the kana character chain “nan” as the input accent phrase candidate, it is analyzed as a particle + particle (that is, an adjunct to the beginning of the sentence) even though it is the beginning of the sentence, so the value of the analysis likelihood branch probability is high. Become. Therefore, the value of a2 which is the reciprocal is small.
[0058]
In step S25, the voice component start probability based on the number of mora of the input accent phrase candidate is substituted into the variable a3. If the number of mora of the input accent phrase candidate is large, the necessity of starting a voice component at the head of the accent phrase candidate becomes higher. Therefore, the voice probability of the first character is a function that increases monotonously with respect to the number of mora. Therefore, when the character Mj is the first character of the input accent phrase candidate, the voice probabilities are obtained based on the function. For example, in the case of the input accent phrase candidate “Nanchattee”, since there are 7 mora, there is a high possibility that the voice component starts at “Na”. If the character Mj is not the first character of the input accent phrase candidate, “0” is assigned to the variable a3.
[0059]
In step S26, the start probability of the voice component based on the position occupied by the character Mj in the input accent phrase candidate is substituted into the variable a4. If the noticed character Mj is the head of the input accent phrase candidate, the voice component is more likely to be started and becomes lower as it approaches the tail. Therefore, the voice probability for the position from the head is a monotonically decreasing function. . Therefore, based on this function, the voice probabilities for the target character Mj are obtained. That is, in the case of the input accent phrase candidate “Nanchattee”, the probability that a voice component starts at “NA” is high, but the probability that a voice component starts at “Cha” is low. .
[0060]
In step S27, the variables a1 to a4 obtained in steps S23 to S26 as described above are multiplied by the weighting factors b1 to b4 and added, and assigned to the variable A. In step S28, it is determined whether or not the value of the variable A is larger than a predetermined value β. As a result, if A> β, the process proceeds to step S29, and if A ≦ β, the process proceeds to step S30. In step S29, voice components are given to the character strings M1 to M (j-1). After that, the process proceeds to step S31. In step S30, no voice component is given to the character strings M1 to M (j-1).
[0061]
In step S31, it is determined whether or not the mora number j is smaller than the total mora number N2 of the input accent phrase candidates. If the result is smaller than the total number of mora N2, the process proceeds to step S32. If the total number of mora is N2 or more, the accent phrase generation processing operation is terminated. In step S32, the mora number j is incremented. After that, the process returns to step S22, and the process proceeds to the process for the character corresponding to the next mora. When it is determined in step S31 that the mora number j is equal to or greater than the total number of mora N2, the accent phrase generation processing operation is terminated.
[0062]
As described above, the second accent
[0063]
As described above, in the present embodiment, in addition to the first accent
[0064]
Therefore, when the input text is a spoken word “Nanchattee” that does not conform to the grammar, the second accent
[0065]
At this time, the accent phrase generation determination unit 22 includes a kana chain branching probability table that associates a chain of two kana characters with a probability to branch to the processing in the second accent
[0066]
Further, the second accent
[0067]
In the above embodiment, whether the accent phrase is generated by the first
[0068]
Text input by spoken language as described above is often performed when a mail sentence is input by a portable terminal. And in the said portable terminal device, since there is a limit in the number of display characters on a screen, it is desirable to output the received mail sentence by a synthetic voice. Therefore, by mounting the speech synthesizer as described in the above embodiment on the portable terminal, the function of the portable terminal can be greatly improved.
[0069]
By the way, the
[0070]
Here, the program medium is configured to be separable from the main body side, and is a tape system such as a magnetic tape or a cassette tape, a magnetic disk such as a floppy disk or a hard disk, a CD (compact disk) -ROM, or MO (magneto-optical). Optical discs such as discs, MDs (mini discs), DVDs (digital video discs), card systems such as IC (integrated circuit) cards and optical cards, mask ROMs, EPROMs (ultraviolet erasable ROMs), EEPROMs (electrical This is a medium that carries a fixed program including a semiconductor memory system such as an erasable ROM) and a flash ROM.
[0071]
Further, when the speech synthesizer in the above embodiment has a configuration that includes a modem and can be connected to a communication network including the Internet, the program medium is fluidly downloaded by downloading from the communication network. It can be a medium that carries the program. In this case, it is assumed that a download program for downloading from the communication network is stored in the main device in advance. Or it shall be installed from another recording medium.
[0072]
It should be noted that what is recorded on the recording medium is not limited to a program, and data can also be recorded.
[0073]
【The invention's effect】
As is clear from the above, the speech synthesizer of the first invention is based on the first accent phrase generating means for generating an accent phrase based on the part-of-speech word in the text analysis result, the above text analysis result, and the above Second accent phrase generating means for generating an accent phrase without being constrained by a word with part of speech, and generating the accent phrase by the first accent phrase generating means by the accent phrase generation determining means or generating the second accent phrase Therefore, for example, an accent phrase relating to input text that is easily misanalyzed during text analysis, such as a spoken word, is captured by a part-of-speech word in the text analysis result by the second accent phrase generating means. It becomes possible to generate without.
[0074]
Therefore, according to the present invention, it is possible to give a natural pitch pattern to text that cannot be defined by grammar, such as spoken language, and to suppress unnatural prosody.
[0075]
furtherThe accent phrase generation determination meansIsAs a criterion for the above judgment,Kana character chainSpokenThis is the probability of belonging to the text corpus and represents the probability of branching to accent phrase generation by the second accent phrase generation means.Kana chain information,and, Which is preset according to the part-of-speech condition, and represents the probability of branching to the accent phrase generation by the second accent phrase generation unitSince at least one of the text analysis likelihood information is used, it is possible to accurately determine that the accent phrase generation based on the text that cannot be defined by the grammar such as spoken language should be performed by the second accent phrase generation means. Can do.
[0076]
Also,FirstIn the embodiment of the present invention, the second accent phrase generating means determines the start position of the voice component in the accent phrase to be generated, the kana chain information, the text analysis likelihood information, the number of mora of the accent phrase candidate, and the position in the accent phrase candidate. Therefore, the accent phrase can be generated correctly without being trapped by the part-of-speech word in the text analysis result. Therefore, even if an input text that cannot be defined by grammar such as spoken language is given, generation of an unnatural pitch pattern can be suppressed and a natural prosody can be generated.
[0077]
In the second embodiment, kana chain information which is a probability that a voice component is started between two consecutive kana characters obtained in advance based on text data by the second accent phrase generating means, Text analysis likelihood information, which is the probability of starting a voice component given by the reciprocal value of the text analysis likelihood branching probability, and voices given to the first character of accent phrase candidates according to the number of accent phrase candidate mora The number of mora of the accent phrase candidate that is the probability that the component will start, and the position in the accent phrase candidate that is the probability that the voice component given based on the position occupied by the character in the accent phrase candidate Using at least one, the start position of the voice component in the generated accent phrase is set. Therefore, even if input text that cannot be defined by grammar such as spoken language is given, generation of an unnatural pitch pattern can be suppressed and a more natural prosody can be generated.
[0078]
In the speech synthesis method according to the second aspect of the present invention, generation of an accent phrase based on the input text is generated based on a word with a part of speech in a text analysis result or based on the text analysis result and is trapped by the word with a part of speech. To generate withoutThe kana character chain belongs to the spoken text corpus and is set in advance according to the kana chain branching probability representing the branching probability to the accent phrase generation by the second accent phrase generating means, and the part of speech condition, Using at least one of text analysis likelihood branching probabilities representing branching probability to accent phrase generation by the second accent phrase generating unitSince the accent phrase is generated in advance according to the determination result, the accent phrase related to the input text that is easily misanalyzed at the time of text analysis, such as spoken language, is captured by the word with part of speech in the text analysis result. It becomes possible to generate without.
[0079]
In addition, since the portable terminal device of the third invention is equipped with the speech synthesizer of the first invention that can give a natural accent phrase to input text that cannot be defined by grammar like spoken language, Even when an e-mail message written in a language used in conversation is received, it is possible to output it accurately with synthesized speech, and the operability of the portable terminal can be improved.
[0080]
The speech synthesis program according to the fourth aspect of the invention is a computer that converts the text analysis means, prosody generation means, speech synthesis means, accent phrase generation determination means, first accent phrase generation means, and second accent phrase in the first invention. It functions as a generation means. A program recording medium according to a fifth aspect records the speech synthesis program according to the fourth aspect. Therefore, as in the case of the first invention, an accent phrase related to input text that is easily misanalyzed by text analysis means such as spoken words is converted into a part-of-speech word in the text analysis result by the second accent phrase generation means. It becomes possible to generate without being caught.
[Brief description of the drawings]
FIG. 1 is a block diagram of a speech synthesizer according to the present invention.
FIG. 2 is a flowchart of an accent phrase generation processing operation performed by the speech synthesizer shown in FIG.
FIG. 3 is a diagram illustrating an example of a kana chain branch probability table;
FIG. 4 is a diagram illustrating an example of an analysis likelihood branch probability table.
FIG. 5 is a flowchart of an accent phrase generation processing operation performed by a second accent phrase generation unit in FIG. 1;
FIG. 6 is a diagram illustrating a process of obtaining a pitch pattern.
7 is a diagram showing a process of generating a pitch pattern based on spoken language by a first accent phrase generator in FIG. 1; FIG.
8 is a diagram showing a process of generating a pitch pattern based on spoken language by a second accent phrase generator in FIG. 1. FIG.
FIG. 9 is a block diagram of a conventional speech synthesizer.
FIG. 10 is a block diagram of a conventional speech synthesizer different from FIG.
[Explanation of symbols]
21 ... Text analysis part,
22 ... Accent phrase generation determination unit,
23. First accent phrase generator,
24 ... second accent phrase generator,
25 ... Prosody generation part,
26: Speech synthesis unit.
Claims (7)
上記テキスト解析結果のうちの品詞付き単語に基づいてアクセント句を生成して上記韻律生成手段に送出する第1アクセント句生成手段と、
上記テキスト解析結果に基づいて且つ上記品詞付き単語に囚われることなくアクセント句を生成して上記韻律生成手段に送出する第2アクセント句生成手段と、
上記テキスト解析結果に基づいて、上記第1アクセント句生成手段と第2アクセント句生成手段との何れによってアクセント句を生成するかを、仮名連鎖分岐確率およびテキスト解析尤度分岐確率の少なくとも一つを用いて判定するアクセント句生成判定手段
を備え、
上記仮名連鎖分岐確率は、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表しており、
上記テキスト解析尤度分岐確率は、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表している
ことを特徴とする音声合成装置。In a speech synthesizer having text analysis means for analyzing input text, prosody generation means for generating prosody information based on the text analysis result, and speech synthesis means for synthesizing speech based on the text analysis result and prosodic information ,
First accent phrase generation means for generating an accent phrase based on a part of speech word in the text analysis result and sending it to the prosody generation means;
Second accent phrase generation means for generating an accent phrase based on the text analysis result and without being bound by the part-of-speech word and sending the accent phrase to the prosody generation means;
Based on the text analysis result, whether the accent phrase is generated by the first accent phrase generation means or the second accent phrase generation means is determined by using at least one of the kana chain branch probability and the text analysis likelihood branch probability. An accent phrase generation judging means for judging using ,
The kana chain branch probability is the probability that the kana character chain belongs to the spoken text corpus, and represents the branch probability to the accent phrase generation by the second accent phrase generation means,
The speech synthesis apparatus characterized in that the text analysis likelihood branch probability is preset according to a part of speech condition and represents a branch probability to the accent phrase generation by the second accent phrase generation unit. .
上記第2アクセント句生成手段は、生成するアクセント句における声立て成分の開始位置を、仮名連鎖情報 , テキスト解析尤度情報 , アクセント句候補のモーラ数およびアクセント句候補中の位置の少なくとも一つを用いて設定する
ことを特徴とする音声合成装置。The speech synthesis apparatus according to claim 1,
The second accent phrase generating means determines at least one of the kana chain information , the text analysis likelihood information , the number of mora of the accent phrase candidate, and the position in the accent phrase candidate in the accent phrase to be generated. speech synthesis apparatus characterized that you set using.
上記仮名連鎖情報は、テキストデータに基づいて予め求められた連続する二つの仮名文字の間で声立て成分が開始される確率であり、
上記テキスト解析尤度情報は、上記テキスト解析尤度分岐確率の逆数の値で与えられる声立て成分が開始される確率であり、
上記アクセント句候補のモーラ数は、アクセント句候補の先頭文字に上記アクセント句候補モーラ数に応じて与えられる声立て成分が開始される確率であり、
上記アクセント句候補中の位置は、上記アクセント句候補中で文字が占める位置に基づいて与えられる声立て成分が開始される確率である
ことを特徴とする音声合成装置。The speech synthesis apparatus according to claim 2 ,
The kana chain information is a probability that a voice component is started between two consecutive kana characters obtained in advance based on text data,
The text analysis likelihood information is a probability that a voice component given by a reciprocal value of the text analysis likelihood branch probability is started,
The number of mora of the accent phrase candidate is the probability that a voice component given to the first character of the accent phrase candidate according to the number of accent phrase candidates is started,
Positions in the accent phrase candidates, the speech synthesis apparatus according to claim probability der Rukoto voices freshly component given based on the position occupied by the characters in the accent phrase candidates is started.
上記テキスト解析結果のうちの品詞付き単語に基づいて、上記韻律情報を生成する際に用いる第1アクセント句を生成する第1アクセント句生成ステップと、
上記テキスト解析結果に基づいて且つ上記品詞付き単語に囚われることなく、上記韻律情報を生成する際に用いる第2アクセント句を生成する第2アクセント句生成ステップと、
上記テキスト解析結果に基づいて、上記第1アクセント句と第2アクセント句とのうちの何れのアクセント句を生成するかを、仮名連鎖分岐確率およびテキスト解析尤度分岐確率の少なくとも一つを用いて判定するアクセント句生成判定ステップ
を備え、
上記仮名連鎖分岐確率は、仮名文字連鎖が話し言葉のテキストコーパスに属する確率であって、上記第2アクセント句生成手段によるアクセント句生成への分岐確率を表してお り、
上記テキスト解析尤度分岐確率は、品詞条件に応じて予め設定されて、上記第2アクセント句生成部によるアクセント句生成への分岐確率を表している
ことを特徴とする音声合成方法。In a speech synthesis method for analyzing input text, generating prosody information based on the text analysis result, and synthesizing speech based on the text analysis result and the prosody information,
A first accent phrase generating step for generating a first accent phrase to be used when generating the prosodic information based on a part-of-speech word in the text analysis result;
A second accent phrase generation step for generating a second accent phrase to be used when generating the prosodic information based on the text analysis result and without being bound by the part-of-speech word;
Based on the text analysis result, which one of the first accent phrase and the second accent phrase is generated is determined using at least one of the kana chain branch probability and the text analysis likelihood branch probability. An accent phrase generation determination step for determining ,
The pseudonym chain branching probability, kana characters chain is a probability of belonging to the text corpus of spoken language, Ri you represent the branch probability of the accent phrase generated by the second accent phrase generating means,
The speech synthesis method, wherein the text analysis likelihood branching probability is preset according to a part-of-speech condition and represents a branching probability to the accent phrase generation by the second accent phrase generation unit .
請求項1における、テキスト解析手段,韻律生成手段,音声合成手段,アクセント句生成判定手段,第1アクセント句生成手段および第2アクセント句生成手段
として機能させることを特徴とする音声合成プログラム。Computer
The speech synthesis program according to claim 1, wherein the speech synthesis program functions as text analysis means, prosody generation means, speech synthesis means, accent phrase generation determination means, first accent phrase generation means, and second accent phrase generation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017189A JP3971577B2 (en) | 2001-01-25 | 2001-01-25 | Speech synthesis apparatus and speech synthesis method, portable terminal, speech synthesis program, and program recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001017189A JP3971577B2 (en) | 2001-01-25 | 2001-01-25 | Speech synthesis apparatus and speech synthesis method, portable terminal, speech synthesis program, and program recording medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002221982A JP2002221982A (en) | 2002-08-09 |
JP2002221982A5 JP2002221982A5 (en) | 2005-05-19 |
JP3971577B2 true JP3971577B2 (en) | 2007-09-05 |
Family
ID=18883429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001017189A Expired - Fee Related JP3971577B2 (en) | 2001-01-25 | 2001-01-25 | Speech synthesis apparatus and speech synthesis method, portable terminal, speech synthesis program, and program recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3971577B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100811226B1 (en) * | 2006-08-14 | 2008-03-07 | 주식회사 보이스웨어 | Japanese Speech Synthesis Method and System Using Accent Phrase Matching Dictionary Selection |
-
2001
- 2001-01-25 JP JP2001017189A patent/JP3971577B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002221982A (en) | 2002-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8234118B2 (en) | Method and apparatus for generating dialog prosody structure, and speech synthesis method and system employing the same | |
US5949961A (en) | Word syllabification in speech synthesis system | |
US6725199B2 (en) | Speech synthesis apparatus and selection method | |
EP1213705B1 (en) | Method and apparatus for speech synthesis | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US7062439B2 (en) | Speech synthesis apparatus and method | |
CA2351988C (en) | Method and system for preselection of suitable units for concatenative speech | |
US7062440B2 (en) | Monitoring text to speech output to effect control of barge-in | |
EP0688011B1 (en) | Audio output unit and method thereof | |
WO2006106182A1 (en) | Improving memory usage in text-to-speech system | |
GB2380381A (en) | Speech synthesis method and apparatus | |
WO2004066271A1 (en) | Speech synthesizing apparatus, speech synthesizing method, and speech synthesizing system | |
JP3415585B2 (en) | Statistical language model generation device, speech recognition device, and information retrieval processing device | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
JP3971577B2 (en) | Speech synthesis apparatus and speech synthesis method, portable terminal, speech synthesis program, and program recording medium | |
JP2005257954A (en) | Speech retrieval apparatus, speech retrieval method, and speech retrieval program | |
JP3655808B2 (en) | Speech synthesis apparatus, speech synthesis method, portable terminal device, and program recording medium | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
JPS6050600A (en) | Rule synthesization system | |
JP2002510075A (en) | Extending speech recognition dictionaries with derived words | |
JP2000244609A (en) | Speaker's situation adaptive voice interactive device and ticket issuing device | |
JP2002221982A5 (en) | ||
JP3201329B2 (en) | Speech synthesizer | |
EP1777697B1 (en) | Method for speech synthesis without prosody modification | |
JPH11282494A (en) | Speech synthesizer and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040713 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070605 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070608 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100615 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110615 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |