JP5370138B2

JP5370138B2 - 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム

Info

Publication number: JP5370138B2
Application number: JP2009295267A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2009-12-25
Filing date: 2009-12-25
Publication date: 2013-12-18
Anticipated expiration: 2029-12-25
Also published as: JP2011133803A

Description

本発明は、入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムに関し、例えば、テキストデータを読み上げる音声合成に適用し得る。

ユーザが入力した文字データ（テキストデータ）を、読み上げる音声を、コーパスベースで合成する音声合成装置（予め蓄積した音声波形を、音素単位（合成単位）で接続して合成する装置）としては、従来、特許文献１に記載の方法がある。

特開２００３−２０８１８８号公報

しかしながら、特許文献１の記載技術のような、従来のコーパスベースでの音声合成装置では、例えば、人名、地名等の固有名詞や、方言等について、不自然な発音の合成音声となり、読み上げた音声が聞きづらくなってしまう場合があった。

そのため、テキストデータを読み上げる音声合成を生成する際に、生成される音声の品質を向上させることができる入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムが望まれている。

第１の本発明は、テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置において、（１）上記音声合成装置が有する、音声合成に用いる第１のデータベースと、所定の対象語の音声データが登録された第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部を有し、（３）上記入力補助部は、（３−１）上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、（３−２）上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、（３−３）上記ユーザに当該入力補助部から提供する情報を表示する表示部と、（３−４）上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、（３−５）上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、（３−６）上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。

第２の本発明の入力補助プログラムは、（１）テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置に搭載されたコンピュータを、（２）上記音声合成装置が有する、音声合成に用いる第１のデータベースと、所定の対象語の音声データが登録された第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部として機能させ、（３）上記入力補助部は、（３−１）上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、（３−２）上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、（３−３）上記ユーザに当該入力補助部から提供する情報を表示する表示部と、（３−４）上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、（３−５）上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、（３−６）上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。

第３の本発明の音声合成装置は、（１）音声合成処理に用いる第１のデータベースと、（２）所定の対象用語の音声データが登録された第２のデータベースと、（３）上記第２のデータベースに登録された対象用語と、対象用語以外の範囲とを区別して表記されたテキストデータについて、対象用語として区別された範囲については、上記第２のデータベースに登録された音声データを用い、対象用語として区別されていない範囲については、第１のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、（４）上記第１のデータベースと、上記第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部を有し、（５）上記入力補助部は、（５−１）上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、（５−２）上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、（５−３）上記ユーザに当該入力補助部から提供する情報を表示する表示部と、（５−４）上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、（５−５）上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、（５−６）上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。

第４の本発明の音声合成プログラムは、（１）テキストデータの内容を読み上げる音声を生成する音声合成装置に搭載されたコンピュータを、（２）音声合成処理に用いる第１のデータベースと、（３）所定の対象語の音声データが登録された第２のデータベースと、（４）上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第２のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、第１のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、（５）上記第１のデータベースと、上記第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部として機能させ、（６）上記入力補助部は、（６−１）上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、（６−２）上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、（６−３）上記ユーザに当該入力補助部から提供する情報を表示する表示部と、（６−４）上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、（６−５）上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、（６−６）上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。

本発明によれば、テキストデータを読み上げる音声合成を生成する際に、生成される音声の品質を向上させることができる。

第１の実施形態に係る音声合成装置の機能的構成について示したブロック図である。第１の実施形態に係るユーザデータベースに登録されている内容の例について示した説明図である。第１の実施形態に係る表示部により表示される画面の内容例について示した説明図である。第１の実施形態に係るリアルタイム入力モード時の入力補助部の動作の例について示したフローチャートである。第１の実施形態に係る入力補助部が、リアルタイム入力モード時の表示部により出力される画面遷移の例である。第１の実施形態に係る入力補助部が、バッチ入力モード時の入力補助部の動作の例について示したフローチャートである。第１の実施形態に係る入力補助部が、バッチ入力モード時の画面遷移の例について示した説明図である。第１の実施形態に係る入力補助部に入力されるテキストファイルの内容の例について示した説明図である。第１の実施形態に係る表示切替部による動作モード切替の動作について示した説明図である。第１の実施形態に係る音声合成部の動作について示した説明図である。第２の実施形態に係る音声合成装置の機能的構成について示したブロック図である。第２の実施形態に係る入力補助装置において、動作モードが切り替わった場合の表示画面の遷移について示した説明図である。第３の実施形態に係る音声合成部の動作について示した説明図である。

（Ａ）第１の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第１の実施形態を、図面を参照しながら詳述する。なお、第１の実施形態の入力補助装置は、入力補助部である。

（Ａ−１）第１の実施形態の構成
図１は、この実施形態の音声合成装置１０の全体構成を示すブロック図である。なお、図１において、括弧内の符号は、後述する第３の実施形態において用いられる符号である。

音声合成装置１０は、入力補助部２０及び音声合成部３０を有している。

入力補助部２０は、ユーザの操作等に応じて、音声合成対象のテキストデータを生成するものである。音声合成部３０は、入力補助部２０から与えられたテキストデータについて読み上げる音声を生成して出力するものである。

図１では、入力補助部２０と音声合成部３０は一体の装置として構成されているが、別々の装置（入力補助装置と音声合成装置）として構成するようにしても良い。

入力補助部２０は、プロセッサを有する情報処理装置（１台に限定されず、複数台を分散処理し得るようにしたものであっても良い。）上に、実施形態の入力補助プログラムをインストールすることにより構築しても良いが、その場合でも機能的には図１のように表すことができる。また、音声合成部３０についても同様の情報処理装置上に、実施形態の音声合成プログラムをインストールすることにより構成するようにしても良い。

以下の説明では、例として、入力補助プログラム（入力補助部２０）と音声合成プログラム（音声合成部３０）を１台のパソコン等の情報処理装置にインストールして構築する場合について説明するものとする。そして、その情報処理装置には、ユーザに表示出力するためのディスプレイと、音声出力するためのスピーカと、ユーザに文字入力や操作信号を入力させるための入力手段としてキーボード（マウスを含むようにしても良い）が搭載されているものとする。なお、入力手段は上述のものに限定されないものである。

次に、音声合成部３０の詳細について説明する。

音声合成部３０は、テキスト分割部３１、音声合成処理部３２、音声結合部３３、合成音声用ＤＢ３４、ユーザデータベース３５を有している。

音声合成部３０は、音声合成に用いるデータベースとして、合成音声用ＤＢ３４とユーザデータベース３５の２つのデータベースを備えている。

合成音声用ＤＢ３４は、音声合成に用いる音素片等のデータが格納されているデータベースであり、例えば、特許文献１の記載技術等、既存のコーパスベースで音声合成を行う際に用いられるデータベースを用いることができる。

一方、ユーザデータベース３５は、所定の言葉について、音素片ではなく、その言葉の一連の音声のデータ（以下、「実音声データ」という）が、その実音声データの内容を示す情報と対応付けて登録されている。なお、実音声データは、実際に人間が発した音声を録音したものを適用するようにしても良いし、自然な発音となるような合成音声を予め作成して適用するようにしても良い。

例えば、人名、地名等の固有名詞等、ユーザが良く使う言葉であるが、既存の音声合成処理では、自然な発音が困難な言葉を、実音声データとして登録することが望ましい。また、以下の説明において、ユーザデータベース３５に実音声データが登録されている言葉を、「重要語」と呼ぶものとする。

図２は、ユーザデータベース３５に登録されている内容の例について示した説明図である。

図２では、「音声ファイル」の項目は実音声データが格納されたデータファイルのファイル名を示しており、「表記」の項目は、対応する実音声データを読み上げた場合の重要語の内容を示している。

ユーザデータベース３５には、「音声ファイル」の内容（例えば、「Ａ００１」）に対応する実音声ファイルのデータも格納されており、ファイル名により識別されているものとする。

図２では、実音声データを示すものとして、「音声ファイル」の項目を用いる例について説明しているが、その他にも、リンク先のＵＲＬを示したり、データベース上の識別子を用いたり、実音声データ自体を登録したりする等、対応する実音声データを示すことができる情報であれば、そのデータ形式は限定されないものである。

音声合成部３０では、音声合成の際に、重要語に関しては、実音声データに基づく音声が出力され、それ以外の範囲に関しては、合成音声用ＤＢ３４のデータを用いて合成された音声が出力される。

図２では、例えば、「ａｂｃさん」に対応する音声ファイルは「Ａ００１」であり、この「Ａ００１」のファイル名のファイルに「ａｂｃさん」という重要語を読み上げた実音声データが格納されている。

ユーザデータベース３５には、重要語として、同じ文字で表されるものであっても、感情表現等が異なるものを登録しておいても良い。例えば、図２に示すように、「はい（笑）」と「はい（泣）」という重要語が登録されているが、これは「はい（笑）」に対応するＡ０１０のデータファイルには笑った様子で「はい」と読み上げた実音声データが格納されており、「はい（泣）」に対応するＡ０１１のデータファイルには泣いた様子で「はい」と読み上げた実音声データが格納されていることを示している。なお、表記で括弧内の内容は、感情表現だけでなく、人名であるか地名であるか等、対応する実音声データの内容を説明する内容であれば限定されないものである。また、図２では、表記で、対応する実音声データの内容を説明する内容は括弧を用いて区切っているが、その他の記号を用いても良いし、表記とは異なるフィールドを設けてデータベースを構成するようにしても良い。

入力補助部２０から音声合成部３０に与えられるテキストデータでは、例えば、重要語が「ｘｙｚ株式会社」であった場合には、「＃ｘｙｚ株式会社＃」と「＃」という制御文字で囲われた形式で与えられ、音声合成部３０では、制御文字で囲われた言葉は、重要語であるものとして扱われるものとする。なお、以下では、重要語を区別する方法として、制御文字「＃」を用いるものとして説明するが、その他の記号（複数文字でも良い）を制御文字としても良いし、ＸＭＬ等におけるタグ形式を利用いて区別したりするようにしてもよく、その区別方法は限定されないものである。

テキスト分割部３１は、入力補助部２０から、テキストデータが与えられると、制御文字（＃）を区切り文字として、音声合成すべき文字と、重要語の文字とに分割して、音声合成処理部３２に与える。

例えば、テキスト分割部３１に、「合格＃おめでとう＃だね。＃おおさか＃＃ｘｙｚ株式会社＃にくる？」というテキストデータが与えられた場合、このテキストデータは、「合格」、「おめでとう」、「だね。」「おおさか」、「ｘｙｚ株式会社」、「にくる？」というテキストデータに分割されて、音声合成処理部３２に与えられる。なお、制御文字＃で囲われた重要語に関しては、重要語である旨も併せて、音声合成処理部３２に通知されるものとする。

そして、音声合成処理部３２は、テキスト分割部３１で分割された分割テキストデータの単位で、音声データの合成等を行う。音声合成処理部３２は、重要語に関しては、ユーザデータベース３５から実音声データを読み込み、重要語でない範囲については、合成音声用ＤＢ３４のデータを用いて音声合成を行う。そして、音声合成処理部３２は、ユーザデータベース３５から読み込んだ実音声データ、及び、合成音声用ＤＢ３４のデータに基づいて合成した音声データを、音声結合部３３に与える。

なお、音声合成処理部３２で、テキストデータについて形態素解析等の分析を行う際には、テキスト分割部３１で分割された分割テキストデータごとに行うようにしても良いし、全てを結合した分割前の状態で分析するようにしても良い。また、音声合成処理部３２では、制御文字＃で囲われた文字以外で、ユーザデータベース３５に登録された重要語が存在すると判定できる場合には、その部分の音声をユーザデータベース３５から実音声データを読み込んで保持するようにしても良いが、この実施形態では、そのような処理は行わないものとして説明する。

音声結合部３３は、音声合成処理部３２から与えられた、ユーザデータベース３５から読み込んだ実音声データ、及び、合成音声用ＤＢ３４のデータに基づいた合成された音声データを、入力補助部２０から与えられたテキストデータと一致する並びで結合して出力する。

なお、音声結合部３３の音声データの出力方法としては、スピーカにより表音出力するだけでなく、例えば、ディスク装置等の記憶装置に記憶させたり、通信により他の装置に出力する構成としても良く、その出力方法は限定されないものである。

次に、入力補助部２０の詳細構成について説明する。

入力補助部２０は、リアルタイム入力部２１、バッチ入力部２２、補完部２３、表示切替部２４、表示部２５を有している。

入力補助部２０は、テキストデータの入力をユーザから受けるものとして、リアルタイム入力部２１とバッチ入力部２２を有している。

リアルタイム入力部２１は、ユーザからキーボード等の入力装置を用いて、リアルタイムにテキストデータの入力を受付け、ユーザの操作に応じてテキストデータを生成し、その生成したテキストデータを、ユーザの操作に応じたタイミングで音声合成部３０に与える。

バッチ入力部２２は、ユーザからテキストデータの入ったファイル（以下、「テキストファイル」という）の入力（記録媒体による入力や、ネットワーク経由での入力等入力方法は限定されない）を受付ける。なお、以下では、テキストファイルは、複数行のテキストデータを含むものとして説明する。そして、バッチ入力部２２は、テキストファイル内のテキストデータのうち、ユーザの操作に応じたタイミングで、ユーザの操作に応じた行のテキストデータを、音声合成部３０に与える。

表示切替部２４は、ユーザの操作に応じて、入力補助部２０の動作モードを切り替える機能を担っている。入力補助部２０は、入力補助部２０において、リアルタイム入力部２１によりユーザからのテキスト入力を受付ける状態である「リアルタイム入力モード」と、バッチ入力部２２によりテキストファイルのテキストデータを処理対象として取り扱う「バッチ入力モード」の２つの動作モードを備えており、表示切替部２４により切替が行われる。

表示切替部２４が動作モードを切替える契機については、限定されないものであるが、例えば、ユーザから入力補助部２０が有するキーボードにより所定のキー入力（例えば「Ｔａｂ」キーの押下等）が行われた場合や、マウスによる画面上のボタン（図示せず）を押下すること等により切替るようにしても良い。

表示部２５は、当該入力補助部２０の操作状況を、ユーザにディスプレイ等の表示装置を用いて表示するものである。

図３は、表示部２５により表示される画面の内容例について示した説明図である。

図３に示すように、表示部２５により表示される画面では、入力フィールドＦＩと、表示フィールドＦ０が配置されている。図３に示す表示画面は、例えば、入力補助部２０が有するディスプレイにおいて一部を占める１つのウィンドウとして表示するようにしても良い。

入力フィールドＦＩは、入力補助部２０がリアルタイム入力モードで動作しているときに用いられるフィールドであり、ユーザがキーボードで入力したテキストデータが表示されるフィールドである。

表示フィールドＦ０は、リアルタイム入力モード及びバッチ入力モードの両方の動作モードで用いられるフィールドである。表示フィールドＦ０に表示される内容の詳細については後述する。なお、表示フィールドＦ０には、入力補助部２０の動作モードに応じた内容が切り替えて表示される。

補完部２３は、リアルタイム入力モード時に機能するものであり、入力フィールドＦＩに入力される内容に応じて、ユーザデータベース３５に登録された重要語から、候補となる重要語（以下、「絞込み候補」という）を表示フィールドＦ０に表示する。そして、リアルタイム入力部２１は、絞込み候補の中からユーザの操作により選択された重要語の入力を受付け、制御文字＃で囲ったその重要語を、生成するテキストデータに挿入する。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の音声合成装置１０の動作を説明する。

以下では、まず、入力補助部２０の動作について説明した後、音声合成部３０の動作について説明する。

（Ａ−２−１）入力補助部のリアルタイム入力モードにおける動作
図４は、リアルタイム入力モード時の入力補助部２０の動作の例について示したフローチャートである。

図５は、入力補助部２０が図４のフローチャートに基づいて動作した場合に、表示部２５により出力される画面遷移の例である。

また、入力補助部２０（リアルタイム入力部２１）では、ユーザからキーボードで平仮名（ローマ字入力を含む）が入力されると、その平仮名をユーザの操作に応じて漢字に変換する仮名漢字変換に対応しているものとして説明している。仮名漢字変換に関する機能は、既存のパソコン等における仮名漢字変換と同様のものを適用することができる。

図４のフローチャートでは、ユーザが「おめでとう」という重要語を入力する場合の例について説明している。

まず、リアルタイム入力部２１に、ユーザから「お」という文字が入力（図５（ａ）に示すようにユーザからキーボード操作により、「お」という文字が入力フィールドＦＩに入力）されたものとする（Ｓ１０１）。なお、図５においては、ユーザが入力中で未確定の範囲についてはアンダーバーを付して示しており、ユーザの入力が終了した確定済の範囲についてはアンダーバーを付していない。

次に、リアルタイム入力部２１により、ユーザから入力された未確定の文字「お」が、補完部２３へ通知される。そして、補完部２３により、ユーザデータベース３５の内容（表記の項目）が読み込まれ、入力中の１文字「お」を先頭に補完する語が絞込み候補の重要語として抽出される（Ｓ１０２）。ステップＳ１０２では、ユーザデータベース３５の内容が図２に示す内容であるものとすると、「おおさか」、「おおきに」、「おめでとう」、「おおさか（人名）」が絞込み候補の重要語として抽出される。なお、ユーザが未確定の文字として「おめ」と複数文字入力した場合には、「おめ」を先頭に補完する語として「おめでとう」が絞り込み候補として抽出されるようにしても良い。

なお、補完部２３では、その都度ユーザデータベース３５の内容を読み込むようにしても良いし、予め、ユーザデータベース３５のうち表記の項目だけを抜き出して保持しておくようにしても良く、その方法は限定されないものとする。

次に、補完部２３により、上述のステップＳ１０２において抽出された絞込み候補の重要語の情報が、表示部２５へ送られ、図５（ｂ）に示すように表示フィールドＦ０に表示される（Ｓ１０３）。

次に、上述のステップＳ１０３で表示された絞込み候補の重要語のうちいずれかが、ユーザに選択（操作信号がリアルタイム入力部２１に入力）されると（Ｓ１０４）、その選択された重要語の情報がユーザにより入力された重要語としてリアルタイム入力部２１において認識される。ステップＳ１０４において、ユーザが絞り込み候補の重要語のうちいずれかを選択する操作としては、例えば、キーボードの矢印キーや、マウス操作により、いずれかの絞込み候補の重要語が選択される操作が行われた場合等が挙げられる。

図５（ｂ）の例では、ユーザによりキーボードの矢印キーにより上下に動作するカーソルを用いて、重要語が選択される例について示している。さらに、図５（ｂ）の例では、カーソルをいずれかの重要語に合わせた状態（図５（ｂ）では「おめでとう」に四角形のカーソルが合わされている）で、選択する重要語を決定する操作（例えば、エンターキー等の操作）を行うと、リアルタイム入力部２１によりその重要語がユーザから入力されたものとして処理される。

上述のステップＳ１０４においては、図５（ｂ）に示すように、ユーザにより、絞込み候補の重要語から、「おめでとう」が選択されたものとする。

そして、ユーザにより絞込み候補の重要語からいずれかが選択されると、図５（ｃ）に示すように、ユーザの入力文字として、「おめでとう」に制御文字＃が付された「＃おめでとう＃」が、入力フィールドＦＩに表示され（Ｓ１０５）、リアルタイム入力部２１では、次の文字を入力することが可能な状態となる。

次に、入力補助部２０がリアルタイム入力モードであり、ユーザが入力したいテキストデータが、「合格おめでとうだね。おおさかｘｙｚ株式会社に来る？」である場合について説明する。

まず、リアルタイム入力部２１（入力フィールドＦＩ）において、ユーザから「合格（ごうかく）」の「ご」の一文字が入力されたものとすると、図２に示す通り、ユーザデータベース３５には「ご」を先頭とする重要語は登録されていないので、絞り込み候補はなしとなる。そのため、ユーザはリアルタイム入力部２１（入力フィールドＦＩ）に、「合格」と入力する。

次に、リアルタイム入力部２１に「おめでとう」の「お」の一文字が入力されると、上述の図５の例と同様に、先頭文字が「お」である語の絞り込み候補が表示フィールドＦ０に表示される。そして、ユーザが、絞り込み候補から「おめでとう」を選択すると、リアルタイム入力部２１（入力フィールドＦＩ）に、「合格＃おめでとう＃」と表示され、次の文字を入力する可能な状態となる。

以下、同様な流れで入力していくと、最終的に、「合格＃おめでとう＃だね。＃おおさか＃＃ｘｙｚ株式会社＃に来る？」といったテキストデータがリアルタイム入力部２１（入力フィールドＦＩ）に表示される。

最後まで入力が終了し、ユーザの操作により、リアルタイム入力部２１に、入力フィールドＦＩに表示されたテキストデータの合成音声を出力する旨の信号が入力（例えば、所定のキーボード操作や、マウスにより所定のボタンが押下された場合）されると、リアルタイム入力部２１から音声合成部３０（テキスト分割部３１）に、そのテキストデータが与えられる。

ここで、重要語の文字が連続して続いた場合、「＃おおさか＃＃ＸＹＺ株式会社＃」のように、「＃＃」が連続した形になる。ただし、この連続した記号を、他の記号に置き換えてもよい。

（Ａ−２−２）入力補助部のバッチ入力モードにおける動作
図６は、バッチ入力モード時の入力補助部２０の動作の例について示したフローチャートである。

図７は、入力補助部２０が図６のフローチャートに基づいて動作した場合に、表示部２５により出力される画面遷移の例である。

図８は、バッチ入力モードで入力されるテキストファイルの内容の例について示した説明図である。

入力補助部２０では、バッチ入力モードで動作時に、ユーザにより、バッチ入力部２２に、図８に示すテキストファイルが入力されると（Ｓ２０１）、その内容が、表示部２５へ送られ、表示部２５により、図７（ａ）に示すように、表示フィールドＦ０に行ごとに表示される（Ｓ２０２）。

そして、表示フィールドＦ０に表示された、いずれかの行のテキストデータが、ユーザにより選択される操作信号がバッチ入力部２２に入力されると（Ｓ２０３）、その選択された行のテキストデータが、バッチ入力部２２から音声合成部３０（テキスト分割部３１）に与えられ、音声合成が開始される（Ｓ２０４）。

ステップＳ２０３において、表示フィールドＦ０に表示された、いずれかの行のテキストデータを、ユーザが選択する操作としては、例えば、キーボードの矢印キーや、マウス操作により、いずれかの絞込み候補の重要語が選択する操作が挙げられる。

図７の例では、ユーザによるキーボードの矢印キー操作で、上下に動作するカーソルを用いて、いずれかの行のテキストデータが選択される例について示している。さらに、カーソルをいずれかの行に合わせた状態（図７（ｂ）では「あっという間に過ぎましたね」の行に四角形のカーソルが合わされている）で、選択する行を決定する操作（例えば、エンターキー等の操作）を行うと、バッチ入力部２２によりその行が選択（及び決定）されたものとして処理される。

（Ａ−２−３）入力補助部の表示切替部の動作
次に、表示切替部２４による入力補助部２０の動作モードの切替について説明する。

上述のように、表示切替部２４は、ユーザの操作に応じて、入力補助部２０の動作モードを、リアルタイム入力モード又はバッチ入力モードに切り替える。

図９は、表示切替部２４による動作モード切替の動作について示した説明図である。

図９（ａ）は、入力補助部２０がリアルタイム入力モードである場合の表示部２５の表示画面の内容例である。そして、図９（ｂ）は、入力補助部２０がバッチ入力モードである場合の表示部２５の表示画面の内容例である。

例えば、表示切替部２４が、ユーザの操作を契機に、入力補助部２０を、バッチ入力モードからリアルタイム入力モードに切り替える場合には、バッチ入力部２２の機能を無効にしてリアルタイム入力部２１の機能を有効にし、表示部２５に表示させる内容を、図９（ａ）に示すようにリアルタイム入力部２１からの情報に切り替えさせる。

一方、表示切替部２４が、ユーザの操作を契機に、入力補助部２０を、リアルタイム入力部２１からバッチ入力部２２に切り替える場合には、リアルタイム入力部２１の機能を無効してバッチ入力部２２の機能を有効にし、表示部２５に表示させる内容を、図９（ｂ）に示すようにバッチ入力部２２からの情報に切り替えさせる。

（Ａ−２−４）音声合成部の動作
次に、音声合成部３０の動作について説明する。

図１０は、入力補助部２０から与えられたテキストデータを音声合成部３０で処理する際の動作について示した説明図である。

図１０では、入力補助部２０から音声合成部３０に与えられたテキストデータが、「合格＃おめでとう＃だね。＃おおさか＃＃ｘｙｚ株式会社＃に来る？」という内容であった場合の処理について説明している。

入力補助部２０から、音声合成部３０に、「合格＃おめでとう＃だね。＃おおさか＃＃ｘｙｚ株式会社＃に来る？」という内容のテキストデータが与えられると、まず、テキスト分割部３１により、制御文字「＃」を区切り文字として、そのテキストデータの内容が分割され。図１０に示すように、上述のテキストデータは、テキスト分割部３１により、「合格」「おめでとう」「だね。」「おおさか」「ｘｙｚ株式会社」「に来る？」というデータに分割され、音声合成処理部３２に与えられる。

そして、音声合成処理部３２では、上記のテキスト分割部３１で分割されたそれぞれの分割テキストデータに対して、重要語に関しては、ユーザデータベース３５から該当する実音声データを選択して読み込み、音声合成すべき範囲に対しては、分割テキストデータ毎に音声合成処理を行い、実音声データ及び合成音声のデータを音声結合部３３に与える。

音声合成処理部３２では、ユーザ固有で用いられる重要語（制御文字＃で囲われていた範囲）に対しては、ユーザデータベース３５内に実音声データが存在する重要語の表記と完全一致するかを判定し、一致した場合、対応する実音声データをユーザデータベース３５から読み込むようにしても良い。上述のように、音声合成処理部３２において、重要語の登録内容とユーザデータベース３５内の登録内容との表記が完全一致しているかどうかの二重判定を行うことは、リアルタイム入力部２１での制御文字「＃」内の文字変更の可能性を考慮しているためである。

音声合成処理部３２では、例えば、上述の分割テキストデータの「合格」といった部分に対しては、重要語ではないため、音声合成処理を行い、合成音声を作成する。一方、音声合成処理部３２は、上述の分割テキストデータの「おめでとう」といった部分は、重要語であるため、「おめでとう」に対応した実音声データ（音声ファイル「Ａ００６」）が選択される。

そして、音声合成処理部３２で上述の分割テキストデータの処理を、同様に行うと、「だね。」「に来る？」の文字に対しては、音声合成処理を行う。「おおさか」「ｘｙｚ株式会社」の文字に対しては、対応する実音声データ（音声ファイルＡ００３、Ａ００４）が選択される。

また、音声合成処理部３２では、入力補助部２０から入力されたテキストデータで、制御文字＃で囲われていなかった文字についても、ユーザデータベース３５から検索して一致するものがあれば、音声合成を行わずに実音声データを用いるようにしても良い。

音声結合部３３は、音声合成処理部３２から与えられた、合成音声のデータと、実音声データとを、入力補助部２０から与えられたテキストデータの内容と一致する並びで結合する。

例えば、音声結合部３３は、「合格」（合成音声）、「おめでとう」（音声ファイルＡ００６）、「だね。」（合成音声）、「おおさか」（音声ファイルＡ００３）、「ｘｙｚ株式会社」（音声ファイルＡ００４）、「に来る？」（合成音声）の順番につなげて、一つの音声データを生成する。

なお、ユーザデータベース３５に登録された実音声データは、発声区間の前後に数十ｍｓの無音を付加し、音声結合部３３ではで単純に音声を結合しても接続劣化の影響を除かれることが望ましい。また、音声結合部３３では、句点「。」はあらかじめ設定された長さの無音が挿入されるようにしても良い。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

音声合成装置１０では、ユーザデータベース３５を備え、重要語については、実音声データを出力するようにしているので、例えば、方言や固有名詞等、従来の合成音声だけでは再現が難しかったり、不自然な音声となってしまうテキストデータについても、自然な発音の音声を生成し、生成される音声の品質を向上させることができる。

また、入力補助部２０では、ユーザがユーザデータベース３５に登録した重要語を絞り込み候補として表示出力しているので、ユーザが登録した重要語を把握しやすくすることができる。入力補助部２０において、絞り込み候補を表示出力しない場合、ユーザがどのような重要語を登録したのか忘れてしまったり、登録したユーザと入力するユーザが異なる場合であっても、ユーザが重要語を入力することを容易にしている。すなわち、入力補助部２０では、ユーザが任意の文字を入力する行為の延長線上で、ユーザ固有で用いられる重要語の入力を補助させることができる。

さらに、入力補助部２０では、テキストデータの入力時に、入力文字を含む重要語を明示的に入力することが可能となり、出力される音声内で、重要語に対応する実音声の品質や、音声に含まれる感情等も効果的に伝達することが可能であり、さらに、合成音声であるといった任意の文字にも対応できるという効果を奏する。

（Ｂ）第２の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第２の実施形態を、図面を参照しながら詳述する。なお、第２の実施形態の入力補助装置は、入力補助部である。

（Ｂ−１）第２の実施形態の構成
図１１は、第２の実施形態の実施形態の音声合成装置１０Ａの全体構成を示すブロック図であり、上述した図１との同一、対応部分には同一、対応符号を付して示している。

以下、第２の実施形態の音声合成装置１０Ａについて、第１の実施形態との差異について説明する。

音声合成装置１０Ａは、入力補助部２０Ａ及び音声合成部３０を有しているが、音声合成部３０については、第１の実施形態と同様のものであるので詳しい説明を省略する。

入力補助部２０Ａは、バッチ入力部２２Ａ、補完部２３、表示切替部２４、表示部２５、選択位置記憶部２６を有している。補完部２３、表示切替部２４、表示部２５については、第１の実施形態と同様のものであるので詳しい説明は省略する。

バッチ入力部２２Ａは、テキストファイル内のテキストデータのうち、ユーザの操作に応じたタイミングで、ユーザの操作に応じて選択された行のテキストデータを、音声合成部３０に与えるが、最後にユーザの操作に応じて選択された行の情報（例えば、何行目であるか等の情報）（以下、「選択位置情報」という）を、選択位置記憶部２６に記憶させる。

そして、バッチ入力部２２Ａは、バッチ入力モードからリアルタイム入力モードに変わり、さらにバッチ入力モードに切り替わった時に、選択位置記憶部２６に記憶された選択位置情報を読み込み、選択位置情報に該当する行のテキストデータが選択された状態（例えば、該当する行のテキストデータをハイライトさせたり四角で囲んだりするなどして強調表示する）の画面を、表示フィールドＦ０に表示させるように表示部２５を制御する。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の音声合成装置１０Ａの動作を説明する。

以下では、第１の実施形態との差異である、バッチ入力部２２Ａ及び選択位置記憶部２６に係る動作についてのみ説明する。

図１２は、入力補助部２０Ａにおいて、動作モードが切り替わった場合の表示部２５による表示画面の遷移について示した説明図である。

図１２では、入力補助部２０Ａがバッチ入力モードにおいて、表示フィールドＦ０で、最後にユーザの操作に応じて選択された行のテキストデータの内容を、四角のカーソルで囲って強調表示している。

まず、入力補助部２０Ａがバッチ入力モードで動作しており、表示部２５による表示画面が図１２（ａ）の状態となっている場合を想定する。図１２（ａ）の状態では、「あっという間にすぎましたね」という行が、最後にユーザの操作に応じて選択された行として表示されている。このとき、バッチ入力部２２Ａは、当該行の位置情報を選択位置情報として、選択位置記憶部２６に記憶させている。

そして、表示部２５による表示画面が図１２（ａ）の状態で、入力補助部２０Ａの動作モードがリアルタイム入力モードに切り替わると、表示フィールドＦ０の入力テキストファイルの内容は消えて図１２（ｂ）の状態に遷移する。

その後、入力補助部２０Ａの動作モードがバッチ入力モードに切り替わると、バッチ入力部２２Ａは、選択位置記憶部２６に記憶させた選択位置情報に基づいて、図１２（ｃ）に示すように、表示部２５による表示画面を前回バッチ入力モードからリアルタイム入力モードに切り替わる直前の状態となるため、先頭の行が選択された状態ではなく、「あっという間にすぎましたね」という行が選択された状態として表示される。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、以下のような効果を奏することができる。

音声合成部３０Ａでは、選択位置情報を記憶する選択位置記憶部２６を備え、バッチ入力部２２Ａが記憶された選択位置情報に基づいて、表示部２５に表示される内容を制御することにより、一旦リアルタイム入力モードに切り替わってバッチ入力モードに戻った場合に、テキストファイルのサイズが大きい場合でも、切り替わり前に指定していた行を探す手間を省略することができ、ユーザの操作を容易にすることができる。

（Ｃ）第３の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第３の実施形態を、図面を参照しながら詳述する。なお、第３の実施形態の入力補助装置は、入力補助部である。

第３の実施形態の音声合成装置１０Ｂの全体構成も図１を用いて示すことができる。なお、図１において括弧内の符号は、第３の実施形態においてのみ用いられる符号である。

以下、第３の実施形態の音声合成装置１０Ｂについて、第１の実施形態との差異について説明する。

音声合成装置１０Ｂは、入力補助部２０及び音声合成部３０Ｂを有しているが、入力補助部２０については、第１の実施形態と同様のものであるので詳しい説明を省略する。

音声合成部３０Ｂは、第１の実施形態の音声合成部３０の、音声結合部３３が音声結合部３３Ｂに置き換わっただけであるので、その他の構成については説明を省略する。

音声合成部３０Ｂでは、入力補助部２０から音声合成部３０Ｂに与えられるテキストデータを読み上げる際の、「間」等を定義する制御文字（以下、「読上げ制御文字」という）が適用され、音声結合部３３Ｂでは、その読上げ制御文字に応じた処理を行う。

例えば、音声合成装置１０Ｂでは、テキストデータにおいて、通常の読点「、」と、間の長さを変えた新たな読点「、、」「、、、」を適用するものとし、間の長さは、「、」が０．５秒、「、、」が１．０秒、「、、、」が３．０秒と、音声結合部３３Ｂに設定しておくものとする。ただし、読上げ制御文字は、上述のものに限るものではない。さらに、各々の読上げ制御文字に対応する間の長さは、ユーザによって調整できるものとする。

図１３では、入力補助部２０から音声結合部３３Ｂに与えられたテキストデータが、「合格＃、、おめでとう＃だね。＃おおさか＃、＃ｘｙｚ株式会社＃、、、に来る？」という内容であった場合の音声合成部３０Ｂの処理について説明している。

図１３では、テキスト分割部３１、音声合成処理部３２の処理については、第１の実施形態と同様であるため説明を省略する。

そして、音声結合部３３Ｂは、音声合成処理部３２で合成された音声データや実音声データを結合する際に、テキストデータに挿入された読上げ制御文字の場所に、その読上げ制御文字の内容に応じた「間」（無音区間）を挿入する。

ここでは、図１３に示すように、音声結合部３３Ｂは、音声を結合する際に、「合格」と「おめでとう」の間に、読上げ制御文字「、、」に対応する１．０秒の無音を挿入する。また、音声結合部３３Ｂは、「おおさか」と、「ｘｙｚ株式会社」との間に、０．５秒の無音を挿入する。さらに、音声結合部３３Ｂは、「ｘｙｚ株式会社」と「に来る？」との間に３．０秒の無音を挿入する。ただし、音声結合部３３Ｂは、句点「。」もあらかじめ設定された長さの無音が挿入されるようにしても良い。

音声の出力において、間の長さは重要であるため、上述のように、音声合成部３０Ｂにおいて読上げ制御文字を適用ことにより、この「間」をユーザによって自由に設定することができ、かつ、合成音声と、実音声との組合せによって、発話の意図を効果的に伝達することができる。

（Ｄ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｄ−１）上記の各実施形態で、音声合成装置において、テキストデータ（又は、テキストファイル）で重要語を区別する方法として、制御文字＃を用いたが、逆に重要語ではない範囲を明示的に区別する制御文字（以下、「非重要語制御文字」という）を適用するようにしても良い。

例えば、非重要語制御文字として％を用いるものとすると、音声合成処理部３２では、％で囲まれた範囲については、重要語としては取り扱わず、合成音声用ＤＢ３４のデータを用いて合成音声を生成する。

これは、例えば、音声合成処理部３２が、制御文字＃で囲われていない範囲についても、ユーザデータベース３５の内容を参照して、重要語を抽出し、実音声データを適用する処理を行う場合には、明示的に非重要語制御文字％で囲うことにより、実音声データの適用を避けることができる。例えば、ユーザデータベース３５に方言で発音した実音声データが入っていた場合に、方言を用いた音声を出力したくない場合に、非重要語制御文字を用いるようにしても良い。

また例えば、一旦重要語として入力された部分について、ユーザが重要語としての取り扱いを解除する操作を行った場合に、制御文字＃を非重要制御文字％に置き換えるようにしても良い。例えば、ユーザが、一旦重要語を選択して「＃おおさか＃」と入力したものについて、重要語としての取り扱いを解除する操作を行った場合（例えば、所定のキー操作等を行った場合）に、入力フィールドＦＩの表示を、「＃おおさか＃」から「％おおさか％」に置き換えるようにしても良い。このように、ユーザにより、非重要語制御文字を用いた入力を行わせるようにしても良い。

また、表示切替部２４において、非重要語制御文字％を表示するか否かを切り替える動作モードを備え、ユーザの操作に応じて、その動作モードを切り替えるようにしても良い。

これにより、合成音声と実音声データとの組合せをユーザ自身で自由にカスタマイズすることができたり、ユーザが操作の履歴を把握すること等が可能になる。

（Ｄ−２）上記の各実施形態において、入力補助部のリアルタイム入力部は、音声合成部に与えるテキストデータを生成するものとして説明したが、バッチ入力部に入力するテキストデータを行ごとに生成する編集ツールとして用いるようにしても良い。

（Ｄ−３）上記の各実施形態では、表示部において、ユーザに情報を出力するフィールドとして表示フィールドＦ０を設けて、リアルタイム入力モード時とバッチ入力モード時で共用しているが、動作モードごとにそれぞれ表示フィールドを設けるようにしても良い。

ただし、それぞれに表示フィールドを設けると、音声合成装置が備えるディスプレイにおいて、表示部が占有する領域が大きくなってしまうため、上記の各実施形態のように、動作モード間で、表示フィールドを共用することによりその占有領域を低減することができる。また、上記の各実施形態のように、動作モード間で、表示フィールドを共用することにより、ユーザは、動作モードが切り替わる度に、操作及び確認するフィールドの切替を行う必要が無く、ユーザの操作を容易にすることができる。

（Ｄ−４）上記の各実施形態において、入力補助部は、リアルタイム入力部（補完部を含む）とバッチ入力部の両方を備える構成について示したが、いずれか一方を備える構成としても良い。また、その場合、動作モードの切替は必要なくなるので、表示切替部を省略するようにしても良い。

（Ｄ−５）上記の各実施形態において、本発明の音声合成装置で取り扱うテキストデータは、日本語であるものとして説明したが、言語は限定されず、英語、中国語、フランス語、ドイツ語等他の言語にも適用することができるのは当然である。

１０…音声合成装置、２０…入力補助部、２１…リアルタイム入力部、２２…バッチ入力部、２３…補完部、２４…表示切替部、２５…表示部、３０…音声合成部、３１…テキスト分割部、３２…音声合成処理部、３３…音声結合部、３４…合成音声用ＤＢ、３５…ユーザデータベース。

Claims

テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置において、
上記音声合成装置が有する、音声合成に用いる第１のデータベースと、所定の対象語の音声データが登録された第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部を有し、
上記入力補助部は、
上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする入力補助装置。
上記入力補助部は、複数行のテキストデータが格納されたテキストファイルの入力を受付けるテキストファイル入力手段をさらに有し、
上記入力補助部は、上記リアルタイム入力手段により上記ユーザからの文字入力を受付けるリアルタイム入力モードと、上記テキストファイル入力手段が受付けたテキストファイルに係る操作を上記ユーザから受付けるバッチ入力モードのうちいずれかの動作モードで動作し、
上記入力補助部は、
上記ユーザの操作に応じて、当該入力補助部に、いずれかの動作モードを切り替えて適用する動作モード切替手段と、
当該入力補助部が、バッチ入力モードで動作時に、上記テキストファイル入力手段に入力されたテキストファイルの内容を行ごとに上記表示部に表示させるテキストファイル表示手段と、
当該入力補助部が、バッチ入力モードで動作時に、上記テキストファイル表示手段により表示されたテキストファイルの内容のうち、いずれかの行のテキストデータを上記ユーザに選択させるテキストデータ選択手段と、
当該入力補助部が、バッチ入力モードで動作時に、上記テキストデータ選択手段により選択された行のテキストデータを、上記音声合成装置に供給するテキストデータ供給手段とをさらに有し、
上記抽出表示手段、上記選択受付手段、及び上記テキストデータ生成手段は、当該入力補助部が、リアルタイム入力モードで動作時に機能し、
上記テキストデータ生成手段は、生成したテキストデータを、上記音声合成装置に供給する
ことを特徴とする請求項１に記載の入力補助装置。
上記テキストデータ選択手段で、最後に上記ユーザの操作により選択されたテキストデータの位置の位置情報を記憶する位置情報記憶手段をさらに有し、
上記テキストファイル表示手段は、当該入力補助部が、リアルタイム入力モードからバッチ入力モードに切り替わった場合に、上記位置情報記憶手段が記憶している位置情報が示すテキストデータが選択された状態の内容を、上記表示部に表示させるように制御する
ことを特徴とする請求項２に記載の入力補助装置。
テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置に搭載されたコンピュータを、
上記音声合成装置が有する、音声合成に用いる第１のデータベースと、所定の対象語の音声データが登録された第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部として機能させ、
上記入力補助部は、
上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする入力補助プログラム。
音声合成処理に用いる第１のデータベースと、
所定の対象語の音声データが登録された第２のデータベースと、
上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第２のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、上記第１のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、
上記第１のデータベースと、上記第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部を有し、
上記入力補助部は、
上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする音声合成装置。
上記音声生成手段は、上記テキストデータに、所定の制御文字が含まれていた場合、その制御文字に対応した長さの無音を、その制御文字の位置に挿入することを特徴とする請求項５に記載の音声合成装置。
テキストデータの内容を読み上げる音声を生成する音声合成装置に搭載されたコンピュータを、
音声合成処理に用いる第１のデータベースと、
所定の対象語の音声データが登録された第２のデータベースと、
上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第２のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、第１のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、
上記第１のデータベースと、上記第２のデータベースのうち、上記第２のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部として機能させ、
上記入力補助部は、
上記第２のデータベースに登録された対象語の情報を保持する対象語保持手段と、
上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
ことを特徴とする音声合成プログラム。