[go: up one dir, main page]

JP5370138B2 - 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム - Google Patents

入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム Download PDF

Info

Publication number
JP5370138B2
JP5370138B2 JP2009295267A JP2009295267A JP5370138B2 JP 5370138 B2 JP5370138 B2 JP 5370138B2 JP 2009295267 A JP2009295267 A JP 2009295267A JP 2009295267 A JP2009295267 A JP 2009295267A JP 5370138 B2 JP5370138 B2 JP 5370138B2
Authority
JP
Japan
Prior art keywords
input
user
text data
target word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009295267A
Other languages
English (en)
Other versions
JP2011133803A (ja
Inventor
勉 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2009295267A priority Critical patent/JP5370138B2/ja
Publication of JP2011133803A publication Critical patent/JP2011133803A/ja
Application granted granted Critical
Publication of JP5370138B2 publication Critical patent/JP5370138B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムに関し、例えば、テキストデータを読み上げる音声合成に適用し得る。
ユーザが入力した文字データ(テキストデータ)を、読み上げる音声を、コーパスベースで合成する音声合成装置(予め蓄積した音声波形を、音素単位(合成単位)で接続して合成する装置)としては、従来、特許文献1に記載の方法がある。
特開2003−208188号公報
しかしながら、特許文献1の記載技術のような、従来のコーパスベースでの音声合成装置では、例えば、人名、地名等の固有名詞や、方言等について、不自然な発音の合成音声となり、読み上げた音声が聞きづらくなってしまう場合があった。
そのため、テキストデータを読み上げる音声合成を生成する際に、生成される音声の品質を向上させることができる入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムが望まれている。
第1の本発明は、テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置において、(1)上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部を有し、(3)上記入力補助部は、(3−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(3−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(3−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(3−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(3−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(3−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
第2の本発明の入力補助プログラムは、(1)テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置に搭載されたコンピュータを、(2)上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部として機能させ、(3)上記入力補助部は、(3−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(3−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(3−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(3−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(3−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(3−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
第3の本発明の音声合成装置は、(1)音声合成処理に用いる第1のデータベースと、(2)所定の対象用語の音声データが登録された第2のデータベースと、(3)上記第2のデータベースに登録された対象用語と、対象用語以外の範囲とを区別して表記されたテキストデータについて、対象用語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象用語として区別されていない範囲については、第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、(4)上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部を有し、(5)上記入力補助部は、(5−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(5−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(5−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(5−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(5−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(5−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
第4の本発明の音声合成プログラムは、(1)テキストデータの内容を読み上げる音声を生成する音声合成装置に搭載されたコンピュータを、(2)音声合成処理に用いる第1のデータベースと、(3)所定の対象語の音声データが登録された第2のデータベースと、(4)上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と、(5)上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部として機能させ、(6)上記入力補助部は、(6−1)上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、(6−2)上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、(6−3)上記ユーザに当該入力補助部から提供する情報を表示する表示部と、(6−4)上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、(6−5)上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、(6−6)上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有することを特徴とする。
本発明によれば、テキストデータを読み上げる音声合成を生成する際に、生成される音声の品質を向上させることができる。
第1の実施形態に係る音声合成装置の機能的構成について示したブロック図である。 第1の実施形態に係るユーザデータベースに登録されている内容の例について示した説明図である。 第1の実施形態に係る表示部により表示される画面の内容例について示した説明図である。 第1の実施形態に係るリアルタイム入力モード時の入力補助部の動作の例について示したフローチャートである。 第1の実施形態に係る入力補助部が、リアルタイム入力モード時の表示部により出力される画面遷移の例である。 第1の実施形態に係る入力補助部が、バッチ入力モード時の入力補助部の動作の例について示したフローチャートである。 第1の実施形態に係る入力補助部が、バッチ入力モード時の画面遷移の例について示した説明図である。 第1の実施形態に係る入力補助部に入力されるテキストファイルの内容の例について示した説明図である。 第1の実施形態に係る表示切替部による動作モード切替の動作について示した説明図である。 第1の実施形態に係る音声合成部の動作について示した説明図である。 第2の実施形態に係る音声合成装置の機能的構成について示したブロック図である。 第2の実施形態に係る入力補助装置において、動作モードが切り替わった場合の表示画面の遷移について示した説明図である。 第3の実施形態に係る音声合成部の動作について示した説明図である。
(A)第1の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第1の実施形態を、図面を参照しながら詳述する。なお、第1の実施形態の入力補助装置は、入力補助部である。
(A−1)第1の実施形態の構成
図1は、この実施形態の音声合成装置10の全体構成を示すブロック図である。なお、図1において、括弧内の符号は、後述する第3の実施形態において用いられる符号である。
音声合成装置10は、入力補助部20及び音声合成部30を有している。
入力補助部20は、ユーザの操作等に応じて、音声合成対象のテキストデータを生成するものである。音声合成部30は、入力補助部20から与えられたテキストデータについて読み上げる音声を生成して出力するものである。
図1では、入力補助部20と音声合成部30は一体の装置として構成されているが、別々の装置(入力補助装置と音声合成装置)として構成するようにしても良い。
入力補助部20は、プロセッサを有する情報処理装置(1台に限定されず、複数台を分散処理し得るようにしたものであっても良い。)上に、実施形態の入力補助プログラムをインストールすることにより構築しても良いが、その場合でも機能的には図1のように表すことができる。また、音声合成部30についても同様の情報処理装置上に、実施形態の音声合成プログラムをインストールすることにより構成するようにしても良い。
以下の説明では、例として、入力補助プログラム(入力補助部20)と音声合成プログラム(音声合成部30)を1台のパソコン等の情報処理装置にインストールして構築する場合について説明するものとする。そして、その情報処理装置には、ユーザに表示出力するためのディスプレイと、音声出力するためのスピーカと、ユーザに文字入力や操作信号を入力させるための入力手段としてキーボード(マウスを含むようにしても良い)が搭載されているものとする。なお、入力手段は上述のものに限定されないものである。
次に、音声合成部30の詳細について説明する。
音声合成部30は、テキスト分割部31、音声合成処理部32、音声結合部33、合成音声用DB34、ユーザデータベース35を有している。
音声合成部30は、音声合成に用いるデータベースとして、合成音声用DB34とユーザデータベース35の2つのデータベースを備えている。
合成音声用DB34は、音声合成に用いる音素片等のデータが格納されているデータベースであり、例えば、特許文献1の記載技術等、既存のコーパスベースで音声合成を行う際に用いられるデータベースを用いることができる。
一方、ユーザデータベース35は、所定の言葉について、音素片ではなく、その言葉の一連の音声のデータ(以下、「実音声データ」という)が、その実音声データの内容を示す情報と対応付けて登録されている。なお、実音声データは、実際に人間が発した音声を録音したものを適用するようにしても良いし、自然な発音となるような合成音声を予め作成して適用するようにしても良い。
例えば、人名、地名等の固有名詞等、ユーザが良く使う言葉であるが、既存の音声合成処理では、自然な発音が困難な言葉を、実音声データとして登録することが望ましい。また、以下の説明において、ユーザデータベース35に実音声データが登録されている言葉を、「重要語」と呼ぶものとする。
図2は、ユーザデータベース35に登録されている内容の例について示した説明図である。
図2では、「音声ファイル」の項目は実音声データが格納されたデータファイルのファイル名を示しており、「表記」の項目は、対応する実音声データを読み上げた場合の重要語の内容を示している。
ユーザデータベース35には、「音声ファイル」の内容(例えば、「A001」)に対応する実音声ファイルのデータも格納されており、ファイル名により識別されているものとする。
図2では、実音声データを示すものとして、「音声ファイル」の項目を用いる例について説明しているが、その他にも、リンク先のURLを示したり、データベース上の識別子を用いたり、実音声データ自体を登録したりする等、対応する実音声データを示すことができる情報であれば、そのデータ形式は限定されないものである。
音声合成部30では、音声合成の際に、重要語に関しては、実音声データに基づく音声が出力され、それ以外の範囲に関しては、合成音声用DB34のデータを用いて合成された音声が出力される。
図2では、例えば、「abcさん」に対応する音声ファイルは「A001」であり、この「A001」のファイル名のファイルに「abcさん」という重要語を読み上げた実音声データが格納されている。
ユーザデータベース35には、重要語として、同じ文字で表されるものであっても、感情表現等が異なるものを登録しておいても良い。例えば、図2に示すように、「はい(笑)」と「はい(泣)」という重要語が登録されているが、これは「はい(笑)」に対応するA010のデータファイルには笑った様子で「はい」と読み上げた実音声データが格納されており、「はい(泣)」に対応するA011のデータファイルには泣いた様子で「はい」と読み上げた実音声データが格納されていることを示している。なお、表記で括弧内の内容は、感情表現だけでなく、人名であるか地名であるか等、対応する実音声データの内容を説明する内容であれば限定されないものである。また、図2では、表記で、対応する実音声データの内容を説明する内容は括弧を用いて区切っているが、その他の記号を用いても良いし、表記とは異なるフィールドを設けてデータベースを構成するようにしても良い。
入力補助部20から音声合成部30に与えられるテキストデータでは、例えば、重要語が「xyz株式会社」であった場合には、「#xyz株式会社#」と「#」という制御文字で囲われた形式で与えられ、音声合成部30では、制御文字で囲われた言葉は、重要語であるものとして扱われるものとする。なお、以下では、重要語を区別する方法として、制御文字「#」を用いるものとして説明するが、その他の記号(複数文字でも良い)を制御文字としても良いし、XML等におけるタグ形式を利用いて区別したりするようにしてもよく、その区別方法は限定されないものである。
テキスト分割部31は、入力補助部20から、テキストデータが与えられると、制御文字(#)を区切り文字として、音声合成すべき文字と、重要語の文字とに分割して、音声合成処理部32に与える。
例えば、テキスト分割部31に、「合格#おめでとう#だね。#おおさか##xyz株式会社#にくる?」というテキストデータが与えられた場合、このテキストデータは、「合格」、「おめでとう」、「だね。」「おおさか」、「xyz株式会社」、「にくる?」というテキストデータに分割されて、音声合成処理部32に与えられる。なお、制御文字#で囲われた重要語に関しては、重要語である旨も併せて、音声合成処理部32に通知されるものとする。
そして、音声合成処理部32は、テキスト分割部31で分割された分割テキストデータの単位で、音声データの合成等を行う。音声合成処理部32は、重要語に関しては、ユーザデータベース35から実音声データを読み込み、重要語でない範囲については、合成音声用DB34のデータを用いて音声合成を行う。そして、音声合成処理部32は、ユーザデータベース35から読み込んだ実音声データ、及び、合成音声用DB34のデータに基づいて合成した音声データを、音声結合部33に与える。
なお、音声合成処理部32で、テキストデータについて形態素解析等の分析を行う際には、テキスト分割部31で分割された分割テキストデータごとに行うようにしても良いし、全てを結合した分割前の状態で分析するようにしても良い。また、音声合成処理部32では、制御文字#で囲われた文字以外で、ユーザデータベース35に登録された重要語が存在すると判定できる場合には、その部分の音声をユーザデータベース35から実音声データを読み込んで保持するようにしても良いが、この実施形態では、そのような処理は行わないものとして説明する。
音声結合部33は、音声合成処理部32から与えられた、ユーザデータベース35から読み込んだ実音声データ、及び、合成音声用DB34のデータに基づいた合成された音声データを、入力補助部20から与えられたテキストデータと一致する並びで結合して出力する。
なお、音声結合部33の音声データの出力方法としては、スピーカにより表音出力するだけでなく、例えば、ディスク装置等の記憶装置に記憶させたり、通信により他の装置に出力する構成としても良く、その出力方法は限定されないものである。
次に、入力補助部20の詳細構成について説明する。
入力補助部20は、リアルタイム入力部21、バッチ入力部22、補完部23、表示切替部24、表示部25を有している。
入力補助部20は、テキストデータの入力をユーザから受けるものとして、リアルタイム入力部21とバッチ入力部22を有している。
リアルタイム入力部21は、ユーザからキーボード等の入力装置を用いて、リアルタイムにテキストデータの入力を受付け、ユーザの操作に応じてテキストデータを生成し、その生成したテキストデータを、ユーザの操作に応じたタイミングで音声合成部30に与える。
バッチ入力部22は、ユーザからテキストデータの入ったファイル(以下、「テキストファイル」という)の入力(記録媒体による入力や、ネットワーク経由での入力等入力方法は限定されない)を受付ける。なお、以下では、テキストファイルは、複数行のテキストデータを含むものとして説明する。そして、バッチ入力部22は、テキストファイル内のテキストデータのうち、ユーザの操作に応じたタイミングで、ユーザの操作に応じた行のテキストデータを、音声合成部30に与える。
表示切替部24は、ユーザの操作に応じて、入力補助部20の動作モードを切り替える機能を担っている。入力補助部20は、入力補助部20において、リアルタイム入力部21によりユーザからのテキスト入力を受付ける状態である「リアルタイム入力モード」と、バッチ入力部22によりテキストファイルのテキストデータを処理対象として取り扱う「バッチ入力モード」の2つの動作モードを備えており、表示切替部24により切替が行われる。
表示切替部24が動作モードを切替える契機については、限定されないものであるが、例えば、ユーザから入力補助部20が有するキーボードにより所定のキー入力(例えば「Tab」キーの押下等)が行われた場合や、マウスによる画面上のボタン(図示せず)を押下すること等により切替るようにしても良い。
表示部25は、当該入力補助部20の操作状況を、ユーザにディスプレイ等の表示装置を用いて表示するものである。
図3は、表示部25により表示される画面の内容例について示した説明図である。
図3に示すように、表示部25により表示される画面では、入力フィールドFIと、表示フィールドF0が配置されている。図3に示す表示画面は、例えば、入力補助部20が有するディスプレイにおいて一部を占める1つのウィンドウとして表示するようにしても良い。
入力フィールドFIは、入力補助部20がリアルタイム入力モードで動作しているときに用いられるフィールドであり、ユーザがキーボードで入力したテキストデータが表示されるフィールドである。
表示フィールドF0は、リアルタイム入力モード及びバッチ入力モードの両方の動作モードで用いられるフィールドである。表示フィールドF0に表示される内容の詳細については後述する。なお、表示フィールドF0には、入力補助部20の動作モードに応じた内容が切り替えて表示される。
補完部23は、リアルタイム入力モード時に機能するものであり、入力フィールドFIに入力される内容に応じて、ユーザデータベース35に登録された重要語から、候補となる重要語(以下、「絞込み候補」という)を表示フィールドF0に表示する。そして、リアルタイム入力部21は、絞込み候補の中からユーザの操作により選択された重要語の入力を受付け、制御文字#で囲ったその重要語を、生成するテキストデータに挿入する。
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の音声合成装置10の動作を説明する。
以下では、まず、入力補助部20の動作について説明した後、音声合成部30の動作について説明する。
(A−2−1)入力補助部のリアルタイム入力モードにおける動作
図4は、リアルタイム入力モード時の入力補助部20の動作の例について示したフローチャートである。
図5は、入力補助部20が図4のフローチャートに基づいて動作した場合に、表示部25により出力される画面遷移の例である。
また、入力補助部20(リアルタイム入力部21)では、ユーザからキーボードで平仮名(ローマ字入力を含む)が入力されると、その平仮名をユーザの操作に応じて漢字に変換する仮名漢字変換に対応しているものとして説明している。仮名漢字変換に関する機能は、既存のパソコン等における仮名漢字変換と同様のものを適用することができる。
図4のフローチャートでは、ユーザが「おめでとう」という重要語を入力する場合の例について説明している。
まず、リアルタイム入力部21に、ユーザから「お」という文字が入力(図5(a)に示すようにユーザからキーボード操作により、「お」という文字が入力フィールドFIに入力)されたものとする(S101)。なお、図5においては、ユーザが入力中で未確定の範囲についてはアンダーバーを付して示しており、ユーザの入力が終了した確定済の範囲についてはアンダーバーを付していない。
次に、リアルタイム入力部21により、ユーザから入力された未確定の文字「お」が、補完部23へ通知される。そして、補完部23により、ユーザデータベース35の内容(表記の項目)が読み込まれ、入力中の1文字「お」を先頭に補完する語が絞込み候補の重要語として抽出される(S102)。ステップS102では、ユーザデータベース35の内容が図2に示す内容であるものとすると、「おおさか」、「おおきに」、「おめでとう」、「おおさか(人名)」が絞込み候補の重要語として抽出される。なお、ユーザが未確定の文字として「おめ」と複数文字入力した場合には、「おめ」を先頭に補完する語として「おめでとう」が絞り込み候補として抽出されるようにしても良い。
なお、補完部23では、その都度ユーザデータベース35の内容を読み込むようにしても良いし、予め、ユーザデータベース35のうち表記の項目だけを抜き出して保持しておくようにしても良く、その方法は限定されないものとする。
次に、補完部23により、上述のステップS102において抽出された絞込み候補の重要語の情報が、表示部25へ送られ、図5(b)に示すように表示フィールドF0に表示される(S103)。
次に、上述のステップS103で表示された絞込み候補の重要語のうちいずれかが、ユーザに選択(操作信号がリアルタイム入力部21に入力)されると(S104)、その選択された重要語の情報がユーザにより入力された重要語としてリアルタイム入力部21において認識される。ステップS104において、ユーザが絞り込み候補の重要語のうちいずれかを選択する操作としては、例えば、キーボードの矢印キーや、マウス操作により、いずれかの絞込み候補の重要語が選択される操作が行われた場合等が挙げられる。
図5(b)の例では、ユーザによりキーボードの矢印キーにより上下に動作するカーソルを用いて、重要語が選択される例について示している。さらに、図5(b)の例では、カーソルをいずれかの重要語に合わせた状態(図5(b)では「おめでとう」に四角形のカーソルが合わされている)で、選択する重要語を決定する操作(例えば、エンターキー等の操作)を行うと、リアルタイム入力部21によりその重要語がユーザから入力されたものとして処理される。
上述のステップS104においては、図5(b)に示すように、ユーザにより、絞込み候補の重要語から、「おめでとう」が選択されたものとする。
そして、ユーザにより絞込み候補の重要語からいずれかが選択されると、図5(c)に示すように、ユーザの入力文字として、「おめでとう」に制御文字#が付された「#おめでとう#」が、入力フィールドFIに表示され(S105)、リアルタイム入力部21では、次の文字を入力することが可能な状態となる。
次に、入力補助部20がリアルタイム入力モードであり、ユーザが入力したいテキストデータが、「合格おめでとうだね。おおさかxyz株式会社に来る?」である場合について説明する。
まず、リアルタイム入力部21(入力フィールドFI)において、ユーザから「合格(ごうかく)」の「ご」の一文字が入力されたものとすると、図2に示す通り、ユーザデータベース35には「ご」を先頭とする重要語は登録されていないので、絞り込み候補はなしとなる。そのため、ユーザはリアルタイム入力部21(入力フィールドFI)に、「合格」と入力する。
次に、リアルタイム入力部21に「おめでとう」の「お」の一文字が入力されると、上述の図5の例と同様に、先頭文字が「お」である語の絞り込み候補が表示フィールドF0に表示される。そして、ユーザが、絞り込み候補から「おめでとう」を選択すると、リアルタイム入力部21(入力フィールドFI)に、「合格#おめでとう#」と表示され、次の文字を入力する可能な状態となる。
以下、同様な流れで入力していくと、最終的に、「合格#おめでとう#だね。#おおさか##xyz株式会社#に来る?」といったテキストデータがリアルタイム入力部21(入力フィールドFI)に表示される。
最後まで入力が終了し、ユーザの操作により、リアルタイム入力部21に、入力フィールドFIに表示されたテキストデータの合成音声を出力する旨の信号が入力(例えば、所定のキーボード操作や、マウスにより所定のボタンが押下された場合)されると、リアルタイム入力部21から音声合成部30(テキスト分割部31)に、そのテキストデータが与えられる。
ここで、重要語の文字が連続して続いた場合、「#おおさか##XYZ株式会社#」のように、「##」が連続した形になる。ただし、この連続した記号を、他の記号に置き換えてもよい。
(A−2−2)入力補助部のバッチ入力モードにおける動作
図6は、バッチ入力モード時の入力補助部20の動作の例について示したフローチャートである。
図7は、入力補助部20が図6のフローチャートに基づいて動作した場合に、表示部25により出力される画面遷移の例である。
図8は、バッチ入力モードで入力されるテキストファイルの内容の例について示した説明図である。
入力補助部20では、バッチ入力モードで動作時に、ユーザにより、バッチ入力部22に、図8に示すテキストファイルが入力されると(S201)、その内容が、表示部25へ送られ、表示部25により、図7(a)に示すように、表示フィールドF0に行ごとに表示される(S202)。
そして、表示フィールドF0に表示された、いずれかの行のテキストデータが、ユーザにより選択される操作信号がバッチ入力部22に入力されると(S203)、その選択された行のテキストデータが、バッチ入力部22から音声合成部30(テキスト分割部31)に与えられ、音声合成が開始される(S204)。
ステップS203において、表示フィールドF0に表示された、いずれかの行のテキストデータを、ユーザが選択する操作としては、例えば、キーボードの矢印キーや、マウス操作により、いずれかの絞込み候補の重要語が選択する操作が挙げられる。
図7の例では、ユーザによるキーボードの矢印キー操作で、上下に動作するカーソルを用いて、いずれかの行のテキストデータが選択される例について示している。さらに、カーソルをいずれかの行に合わせた状態(図7(b)では「あっという間に過ぎましたね」の行に四角形のカーソルが合わされている)で、選択する行を決定する操作(例えば、エンターキー等の操作)を行うと、バッチ入力部22によりその行が選択(及び決定)されたものとして処理される。
(A−2−3)入力補助部の表示切替部の動作
次に、表示切替部24による入力補助部20の動作モードの切替について説明する。
上述のように、表示切替部24は、ユーザの操作に応じて、入力補助部20の動作モードを、リアルタイム入力モード又はバッチ入力モードに切り替える。
図9は、表示切替部24による動作モード切替の動作について示した説明図である。
図9(a)は、入力補助部20がリアルタイム入力モードである場合の表示部25の表示画面の内容例である。そして、図9(b)は、入力補助部20がバッチ入力モードである場合の表示部25の表示画面の内容例である。
例えば、表示切替部24が、ユーザの操作を契機に、入力補助部20を、バッチ入力モードからリアルタイム入力モードに切り替える場合には、バッチ入力部22の機能を無効にしてリアルタイム入力部21の機能を有効にし、表示部25に表示させる内容を、図9(a)に示すようにリアルタイム入力部21からの情報に切り替えさせる。
一方、表示切替部24が、ユーザの操作を契機に、入力補助部20を、リアルタイム入力部21からバッチ入力部22に切り替える場合には、リアルタイム入力部21の機能を無効してバッチ入力部22の機能を有効にし、表示部25に表示させる内容を、図9(b)に示すようにバッチ入力部22からの情報に切り替えさせる。
(A−2−4)音声合成部の動作
次に、音声合成部30の動作について説明する。
図10は、入力補助部20から与えられたテキストデータを音声合成部30で処理する際の動作について示した説明図である。
図10では、入力補助部20から音声合成部30に与えられたテキストデータが、「合格#おめでとう#だね。#おおさか##xyz株式会社#に来る?」という内容であった場合の処理について説明している。
入力補助部20から、音声合成部30に、「合格#おめでとう#だね。#おおさか##xyz株式会社#に来る?」という内容のテキストデータが与えられると、まず、テキスト分割部31により、制御文字「#」を区切り文字として、そのテキストデータの内容が分割され。図10に示すように、上述のテキストデータは、テキスト分割部31により、「合格」「おめでとう」「だね。」「おおさか」「xyz株式会社」「に来る?」というデータに分割され、音声合成処理部32に与えられる。
そして、音声合成処理部32では、上記のテキスト分割部31で分割されたそれぞれの分割テキストデータに対して、重要語に関しては、ユーザデータベース35から該当する実音声データを選択して読み込み、音声合成すべき範囲に対しては、分割テキストデータ毎に音声合成処理を行い、実音声データ及び合成音声のデータを音声結合部33に与える。
音声合成処理部32では、ユーザ固有で用いられる重要語(制御文字#で囲われていた範囲)に対しては、ユーザデータベース35内に実音声データが存在する重要語の表記と完全一致するかを判定し、一致した場合、対応する実音声データをユーザデータベース35から読み込むようにしても良い。上述のように、音声合成処理部32において、重要語の登録内容とユーザデータベース35内の登録内容との表記が完全一致しているかどうかの二重判定を行うことは、リアルタイム入力部21での制御文字「#」内の文字変更の可能性を考慮しているためである。
音声合成処理部32では、例えば、上述の分割テキストデータの「合格」といった部分に対しては、重要語ではないため、音声合成処理を行い、合成音声を作成する。一方、音声合成処理部32は、上述の分割テキストデータの「おめでとう」といった部分は、重要語であるため、「おめでとう」に対応した実音声データ(音声ファイル「A006」)が選択される。
そして、音声合成処理部32で上述の分割テキストデータの処理を、同様に行うと、「だね。」「に来る?」の文字に対しては、音声合成処理を行う。「おおさか」「xyz株式会社」の文字に対しては、対応する実音声データ(音声ファイルA003、A004)が選択される。
また、音声合成処理部32では、入力補助部20から入力されたテキストデータで、制御文字#で囲われていなかった文字についても、ユーザデータベース35から検索して一致するものがあれば、音声合成を行わずに実音声データを用いるようにしても良い。
音声結合部33は、音声合成処理部32から与えられた、合成音声のデータと、実音声データとを、入力補助部20から与えられたテキストデータの内容と一致する並びで結合する。
例えば、音声結合部33は、「合格」(合成音声)、「おめでとう」(音声ファイルA006)、「だね。」(合成音声)、「おおさか」(音声ファイルA003)、「xyz株式会社」(音声ファイルA004)、「に来る?」(合成音声)の順番につなげて、一つの音声データを生成する。
なお、ユーザデータベース35に登録された実音声データは、発声区間の前後に数十msの無音を付加し、音声結合部33ではで単純に音声を結合しても接続劣化の影響を除かれることが望ましい。また、音声結合部33では、句点「。」はあらかじめ設定された長さの無音が挿入されるようにしても良い。
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
音声合成装置10では、ユーザデータベース35を備え、重要語については、実音声データを出力するようにしているので、例えば、方言や固有名詞等、従来の合成音声だけでは再現が難しかったり、不自然な音声となってしまうテキストデータについても、自然な発音の音声を生成し、生成される音声の品質を向上させることができる。
また、入力補助部20では、ユーザがユーザデータベース35に登録した重要語を絞り込み候補として表示出力しているので、ユーザが登録した重要語を把握しやすくすることができる。入力補助部20において、絞り込み候補を表示出力しない場合、ユーザがどのような重要語を登録したのか忘れてしまったり、登録したユーザと入力するユーザが異なる場合であっても、ユーザが重要語を入力することを容易にしている。すなわち、入力補助部20では、ユーザが任意の文字を入力する行為の延長線上で、ユーザ固有で用いられる重要語の入力を補助させることができる。
さらに、入力補助部20では、テキストデータの入力時に、入力文字を含む重要語を明示的に入力することが可能となり、出力される音声内で、重要語に対応する実音声の品質や、音声に含まれる感情等も効果的に伝達することが可能であり、さらに、合成音声であるといった任意の文字にも対応できるという効果を奏する。
(B)第2の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第2の実施形態を、図面を参照しながら詳述する。なお、第2の実施形態の入力補助装置は、入力補助部である。
(B−1)第2の実施形態の構成
図11は、第2の実施形態の実施形態の音声合成装置10Aの全体構成を示すブロック図であり、上述した図1との同一、対応部分には同一、対応符号を付して示している。
以下、第2の実施形態の音声合成装置10Aについて、第1の実施形態との差異について説明する。
音声合成装置10Aは、入力補助部20A及び音声合成部30を有しているが、音声合成部30については、第1の実施形態と同様のものであるので詳しい説明を省略する。
入力補助部20Aは、バッチ入力部22A、補完部23、表示切替部24、表示部25、選択位置記憶部26を有している。補完部23、表示切替部24、表示部25については、第1の実施形態と同様のものであるので詳しい説明は省略する。
バッチ入力部22Aは、テキストファイル内のテキストデータのうち、ユーザの操作に応じたタイミングで、ユーザの操作に応じて選択された行のテキストデータを、音声合成部30に与えるが、最後にユーザの操作に応じて選択された行の情報(例えば、何行目であるか等の情報)(以下、「選択位置情報」という)を、選択位置記憶部26に記憶させる。
そして、バッチ入力部22Aは、バッチ入力モードからリアルタイム入力モードに変わり、さらにバッチ入力モードに切り替わった時に、選択位置記憶部26に記憶された選択位置情報を読み込み、選択位置情報に該当する行のテキストデータが選択された状態(例えば、該当する行のテキストデータをハイライトさせたり四角で囲んだりするなどして強調表示する)の画面を、表示フィールドF0に表示させるように表示部25を制御する。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の音声合成装置10Aの動作を説明する。
以下では、第1の実施形態との差異である、バッチ入力部22A及び選択位置記憶部26に係る動作についてのみ説明する。
図12は、入力補助部20Aにおいて、動作モードが切り替わった場合の表示部25による表示画面の遷移について示した説明図である。
図12では、入力補助部20Aがバッチ入力モードにおいて、表示フィールドF0で、最後にユーザの操作に応じて選択された行のテキストデータの内容を、四角のカーソルで囲って強調表示している。
まず、入力補助部20Aがバッチ入力モードで動作しており、表示部25による表示画面が図12(a)の状態となっている場合を想定する。図12(a)の状態では、「あっという間にすぎましたね」という行が、最後にユーザの操作に応じて選択された行として表示されている。このとき、バッチ入力部22Aは、当該行の位置情報を選択位置情報として、選択位置記憶部26に記憶させている。
そして、表示部25による表示画面が図12(a)の状態で、入力補助部20Aの動作モードがリアルタイム入力モードに切り替わると、表示フィールドF0の入力テキストファイルの内容は消えて図12(b)の状態に遷移する。
その後、入力補助部20Aの動作モードがバッチ入力モードに切り替わると、バッチ入力部22Aは、選択位置記憶部26に記憶させた選択位置情報に基づいて、図12(c)に示すように、表示部25による表示画面を前回バッチ入力モードからリアルタイム入力モードに切り替わる直前の状態となるため、先頭の行が選択された状態ではなく、「あっという間にすぎましたね」という行が選択された状態として表示される。
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
音声合成部30Aでは、選択位置情報を記憶する選択位置記憶部26を備え、バッチ入力部22Aが記憶された選択位置情報に基づいて、表示部25に表示される内容を制御することにより、一旦リアルタイム入力モードに切り替わってバッチ入力モードに戻った場合に、テキストファイルのサイズが大きい場合でも、切り替わり前に指定していた行を探す手間を省略することができ、ユーザの操作を容易にすることができる。
(C)第3の実施形態
以下、本発明による入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラムの第3の実施形態を、図面を参照しながら詳述する。なお、第3の実施形態の入力補助装置は、入力補助部である。
第3の実施形態の音声合成装置10Bの全体構成も図1を用いて示すことができる。なお、図1において括弧内の符号は、第3の実施形態においてのみ用いられる符号である。
以下、第3の実施形態の音声合成装置10Bについて、第1の実施形態との差異について説明する。
音声合成装置10Bは、入力補助部20及び音声合成部30Bを有しているが、入力補助部20については、第1の実施形態と同様のものであるので詳しい説明を省略する。
音声合成部30Bは、第1の実施形態の音声合成部30の、音声結合部33が音声結合部33Bに置き換わっただけであるので、その他の構成については説明を省略する。
音声合成部30Bでは、入力補助部20から音声合成部30Bに与えられるテキストデータを読み上げる際の、「間」等を定義する制御文字(以下、「読上げ制御文字」という)が適用され、音声結合部33Bでは、その読上げ制御文字に応じた処理を行う。
例えば、音声合成装置10Bでは、テキストデータにおいて、通常の読点「、」と、間の長さを変えた新たな読点「、、」「、、、」を適用するものとし、間の長さは、「、」が0.5秒、「、、」が1.0秒、「、、、」が3.0秒と、音声結合部33Bに設定しておくものとする。ただし、読上げ制御文字は、上述のものに限るものではない。さらに、各々の読上げ制御文字に対応する間の長さは、ユーザによって調整できるものとする。
図13では、入力補助部20から音声結合部33Bに与えられたテキストデータが、「合格#、、おめでとう#だね。#おおさか#、#xyz株式会社#、、、に来る?」という内容であった場合の音声合成部30Bの処理について説明している。
図13では、テキスト分割部31、音声合成処理部32の処理については、第1の実施形態と同様であるため説明を省略する。
そして、音声結合部33Bは、音声合成処理部32で合成された音声データや実音声データを結合する際に、テキストデータに挿入された読上げ制御文字の場所に、その読上げ制御文字の内容に応じた「間」(無音区間)を挿入する。
ここでは、図13に示すように、音声結合部33Bは、音声を結合する際に、「合格」と「おめでとう」の間に、読上げ制御文字「、、」に対応する1.0秒の無音を挿入する。また、音声結合部33Bは、「おおさか」と、「xyz株式会社」との間に、0.5秒の無音を挿入する。さらに、音声結合部33Bは、「xyz株式会社」と「に来る?」との間に3.0秒の無音を挿入する。ただし、音声結合部33Bは、句点「。」もあらかじめ設定された長さの無音が挿入されるようにしても良い。
音声の出力において、間の長さは重要であるため、上述のように、音声合成部30Bにおいて読上げ制御文字を適用ことにより、この「間」をユーザによって自由に設定することができ、かつ、合成音声と、実音声との組合せによって、発話の意図を効果的に伝達することができる。
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D−1)上記の各実施形態で、音声合成装置において、テキストデータ(又は、テキストファイル)で重要語を区別する方法として、制御文字#を用いたが、逆に重要語ではない範囲を明示的に区別する制御文字(以下、「非重要語制御文字」という)を適用するようにしても良い。
例えば、非重要語制御文字として%を用いるものとすると、音声合成処理部32では、%で囲まれた範囲については、重要語としては取り扱わず、合成音声用DB34のデータを用いて合成音声を生成する。
これは、例えば、音声合成処理部32が、制御文字#で囲われていない範囲についても、ユーザデータベース35の内容を参照して、重要語を抽出し、実音声データを適用する処理を行う場合には、明示的に非重要語制御文字%で囲うことにより、実音声データの適用を避けることができる。例えば、ユーザデータベース35に方言で発音した実音声データが入っていた場合に、方言を用いた音声を出力したくない場合に、非重要語制御文字を用いるようにしても良い。
また例えば、一旦重要語として入力された部分について、ユーザが重要語としての取り扱いを解除する操作を行った場合に、制御文字#を非重要制御文字%に置き換えるようにしても良い。例えば、ユーザが、一旦重要語を選択して「#おおさか#」と入力したものについて、重要語としての取り扱いを解除する操作を行った場合(例えば、所定のキー操作等を行った場合)に、入力フィールドFIの表示を、「#おおさか#」から「%おおさか%」に置き換えるようにしても良い。このように、ユーザにより、非重要語制御文字を用いた入力を行わせるようにしても良い。
また、表示切替部24において、非重要語制御文字%を表示するか否かを切り替える動作モードを備え、ユーザの操作に応じて、その動作モードを切り替えるようにしても良い。
これにより、合成音声と実音声データとの組合せをユーザ自身で自由にカスタマイズすることができたり、ユーザが操作の履歴を把握すること等が可能になる。
(D−2)上記の各実施形態において、入力補助部のリアルタイム入力部は、音声合成部に与えるテキストデータを生成するものとして説明したが、バッチ入力部に入力するテキストデータを行ごとに生成する編集ツールとして用いるようにしても良い。
(D−3)上記の各実施形態では、表示部において、ユーザに情報を出力するフィールドとして表示フィールドF0を設けて、リアルタイム入力モード時とバッチ入力モード時で共用しているが、動作モードごとにそれぞれ表示フィールドを設けるようにしても良い。
ただし、それぞれに表示フィールドを設けると、音声合成装置が備えるディスプレイにおいて、表示部が占有する領域が大きくなってしまうため、上記の各実施形態のように、動作モード間で、表示フィールドを共用することによりその占有領域を低減することができる。また、上記の各実施形態のように、動作モード間で、表示フィールドを共用することにより、ユーザは、動作モードが切り替わる度に、操作及び確認するフィールドの切替を行う必要が無く、ユーザの操作を容易にすることができる。
(D−4)上記の各実施形態において、入力補助部は、リアルタイム入力部(補完部を含む)とバッチ入力部の両方を備える構成について示したが、いずれか一方を備える構成としても良い。また、その場合、動作モードの切替は必要なくなるので、表示切替部を省略するようにしても良い。
(D−5)上記の各実施形態において、本発明の音声合成装置で取り扱うテキストデータは、日本語であるものとして説明したが、言語は限定されず、英語、中国語、フランス語、ドイツ語等他の言語にも適用することができるのは当然である。
10…音声合成装置、20…入力補助部、21…リアルタイム入力部、22…バッチ入力部、23…補完部、24…表示切替部、25…表示部、30…音声合成部、31…テキスト分割部、32…音声合成処理部、33…音声結合部、34…合成音声用DB、35…ユーザデータベース。

Claims (7)

  1. テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置において、
    上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部を有し、
    上記入力補助部は、
    上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
    上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
    上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
    上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
    上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
    上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
    ことを特徴とする入力補助装置。
  2. 上記入力補助部は、複数行のテキストデータが格納されたテキストファイルの入力を受付けるテキストファイル入力手段をさらに有し、
    上記入力補助部は、上記リアルタイム入力手段により上記ユーザからの文字入力を受付けるリアルタイム入力モードと、上記テキストファイル入力手段が受付けたテキストファイルに係る操作を上記ユーザから受付けるバッチ入力モードのうちいずれかの動作モードで動作し、
    上記入力補助部は、
    上記ユーザの操作に応じて、当該入力補助部に、いずれかの動作モードを切り替えて適用する動作モード切替手段と、
    当該入力補助部が、バッチ入力モードで動作時に、上記テキストファイル入力手段に入力されたテキストファイルの内容を行ごとに上記表示部に表示させるテキストファイル表示手段と、
    当該入力補助部が、バッチ入力モードで動作時に、上記テキストファイル表示手段により表示されたテキストファイルの内容のうち、いずれかの行のテキストデータを上記ユーザに選択させるテキストデータ選択手段と、
    当該入力補助部が、バッチ入力モードで動作時に、上記テキストデータ選択手段により選択された行のテキストデータを、上記音声合成装置に供給するテキストデータ供給手段とをさらに有し、
    上記抽出表示手段、上記選択受付手段、及び上記テキストデータ生成手段は、当該入力補助部が、リアルタイム入力モードで動作時に機能し、
    上記テキストデータ生成手段は、生成したテキストデータを、上記音声合成装置に供給する
    ことを特徴とする請求項に記載の入力補助装置。
  3. 上記テキストデータ選択手段で、最後に上記ユーザの操作により選択されたテキストデータの位置の位置情報を記憶する位置情報記憶手段をさらに有し、
    上記テキストファイル表示手段は、当該入力補助部が、リアルタイム入力モードからバッチ入力モードに切り替わった場合に、上記位置情報記憶手段が記憶している位置情報が示すテキストデータが選択された状態の内容を、上記表示部に表示させるように制御する
    ことを特徴とする請求項に記載の入力補助装置。
  4. テキストデータの内容を読み上げる音声を生成する音声合成装置に供給するためのテキストデータを、ユーザの操作に応じて生成する入力補助装置に搭載されたコンピュータを、
    上記音声合成装置が有する、音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータを上記ユーザの操作に応じて生成する入力補助部として機能させ、
    上記入力補助部は、
    上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
    上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
    上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
    上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
    上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
    上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
    ことを特徴とする入力補助プログラム。
  5. 音声合成処理に用いる第1のデータベースと、
    所定の対象語の音声データが登録された第2のデータベースと、
    上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、上記第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と
    上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部を有し、
    上記入力補助部は、
    上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
    上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
    上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
    上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
    上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
    上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
    ことを特徴とする音声合成装置。
  6. 上記音声生成手段は、上記テキストデータに、所定の制御文字が含まれていた場合、その制御文字に対応した長さの無音を、その制御文字の位置に挿入することを特徴とする請求項に記載の音声合成装置。
  7. テキストデータの内容を読み上げる音声を生成する音声合成装置に搭載されたコンピュータを、
    音声合成処理に用いる第1のデータベースと、
    所定の対象語の音声データが登録された第2のデータベースと、
    上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータについて、対象語として区別された範囲については、上記第2のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、第1のデータベースのデータを用いて、上記テキストデータを読上げる音声を生成する音声生成手段と
    上記第1のデータベースと、上記第2のデータベースのうち、上記第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部として機能させ、
    上記入力補助部は、
    上記第2のデータベースに登録された対象語の情報を保持する対象語保持手段と、
    上記ユーザからの文字入力を逐次受付けるリアルタイム入力手段と、
    上記ユーザに当該入力補助部から提供する情報を表示する表示部と、
    上記ユーザが上記リアルタイム入力手段に入力中の文字に関連する対象語を、上記対象語保持手段が保持した情報から抽出して、上記表示部に表示させる抽出表示手段と、
    上記抽出表示手段により表示された対象語のうちいずれかを上記ユーザに選択させ、上記リアルタイム入力手段に、選択された対象語が上記ユーザから入力されたものとして通知する選択受付手段と、
    上記リアルタイム入力手段に入力された文字列について、上記選択受付手段で上記ユーザにより選択された対象語と、それ以外の範囲とを区別した内容のテキストデータを生成するテキストデータ生成手段とを有する
    ことを特徴とする音声合成プログラム。
JP2009295267A 2009-12-25 2009-12-25 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム Expired - Fee Related JP5370138B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009295267A JP5370138B2 (ja) 2009-12-25 2009-12-25 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009295267A JP5370138B2 (ja) 2009-12-25 2009-12-25 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2011133803A JP2011133803A (ja) 2011-07-07
JP5370138B2 true JP5370138B2 (ja) 2013-12-18

Family

ID=44346576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009295267A Expired - Fee Related JP5370138B2 (ja) 2009-12-25 2009-12-25 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP5370138B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08335216A (ja) * 1995-06-07 1996-12-17 Toshiba Corp 読み情報付加支援方法及び文書作成支援装置
JPH11203280A (ja) * 1998-01-09 1999-07-30 Sharp Corp 文章作成支援方法およびそのための装置ならびに文章作成支援プログラムを記録したコンピュータで読取可能な記録媒体
JP2001142893A (ja) * 1999-11-12 2001-05-25 Hitachi Ltd 情報公開装置および文章公開方法
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置

Also Published As

Publication number Publication date
JP2011133803A (ja) 2011-07-07

Similar Documents

Publication Publication Date Title
KR100378898B1 (ko) 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템
US6801897B2 (en) Method of providing concise forms of natural commands
JP5257330B2 (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
JP3250559B2 (ja) 歌詞作成装置及び歌詞作成方法並びに歌詞作成プログラムを記録した記録媒体
US20090204401A1 (en) Speech processing system, speech processing method, and speech processing program
Davel et al. Pronunciation dictionary development in resource-scarce environments
JP2008268477A (ja) 韻律調整可能な音声合成装置
JP2006030326A (ja) 音声合成装置
JP2008268478A (ja) アクセント調整可能な音声合成装置
JP4811557B2 (ja) 音声再生装置及び発話支援装置
JP2010169973A (ja) 外国語学習支援システム、及びプログラム
JP5370138B2 (ja) 入力補助装置、入力補助プログラム、音声合成装置及び音声合成プログラム
JP2008146019A (ja) 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
JP3589972B2 (ja) 音声合成装置
JP3804668B2 (ja) 歌詞作成装置及び歌詞作成方法並びに歌詞作成プログラムを記録したコンピュータで読み取り可能な記録媒体
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JPH08221095A (ja) 文章読み上げ方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
Mahar et al. WordNet based Sindhi text to speech synthesis system
JP2006031725A (ja) 文字処理装置
JP2003263307A (ja) ハイパーテキスト音声制御方法、その装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Ref document number: 5370138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees