JP3762191B2 - Information input method, information input device, and storage medium - Google Patents
Information input method, information input device, and storage medium Download PDFInfo
- Publication number
- JP3762191B2 JP3762191B2 JP2000119505A JP2000119505A JP3762191B2 JP 3762191 B2 JP3762191 B2 JP 3762191B2 JP 2000119505 A JP2000119505 A JP 2000119505A JP 2000119505 A JP2000119505 A JP 2000119505A JP 3762191 B2 JP3762191 B2 JP 3762191B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- information
- character information
- inputting
- input form
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は情報入力方法、情報入力装置及び記憶媒体に関し、特に、音声認識技術を用いて文字情報を入力する技術に関するものである。
【0002】
【従来の技術】
グラフィカルユーザインタフェース(GUI)のもつ入力項目(入力フォーム)へ文字や記号等の文字情報を入力する場合、一般には、キーボード、マウスなどのポインティングデバイスを用いる。キーボードの場合には、文字や記号をタイプ入力し、ポインティングデバイスの場合には、選択候補の中から所望の文字や記号選択して入力する。
【0003】
【発明が解決しようとする課題】
しかしながら、キーボード、マウスなどのポインティングデバイスを用いて所望の入力項目に文字情報を入力する場合には、入力項目の選択から文字情報の入力までを全て手操作によって行わなければならず、手操作の行いにくい環境では大変扱いにくいという問題があった。
【0004】
本発明は前述の問題点にかんがみ、表示器に表示された複数の入力項目に対して、手操作による入力を行うことなく簡単に文字情報を入力することを目的とする。
【0005】
【課題を解決するための手段】
本発明の情報入力方法は、表示器に表示された複数の入力項目に文字情報を入力する情報入力方法であって、音声を受信する受信ステップと、複数の文法規則のうち1つ又は複数を用いて前記音声から文字情報を認識する音声認識ステップと、前記入力項目の付加情報及び前記音声認識ステップで用いられた文法規則に基づいて前記文字情報を入力する入力項目を選択する選択ステップとを有し、前記付加情報は、前記入力項目と前記文法規則との対応関係を示す情報であり、前記音声認識ステップは、文字情報が入力されていない入力項目に関連付けられた文法規則を用いて前記音声から文字情報を認識することを特徴とする。
【0006】
本発明の情報入力装置は、表示器に表示された複数の入力項目に文字情報を入力する情報入力装置であって、音声を受信する受信手段と、複数の文法規則のうち1つ又は複数を用いて前記音声から文字情報を認識する音声認識手段と、前記入力項目の付加情報及び前記音声認識手段で用いられた文法規則に基づいて前記文字情報を入力する入力項目を選択する選択手段とを有し、前記付加情報は、前記入力項目と前記文法規則との対応関係を示す情報であり、前記音声認識手段は、文字情報が入力されていない入力項目に関連付けられた文法規則を用いて前記音声から文字情報を認識することを特徴とする。
【0007】
【発明の実施の形態】
(第1の実施形態)
図1は、本実施形態における情報入力装置の構成を示すブロック図である。
図1において、1は本実施形態のグラフィカル・ユーザインタフェース(GUI)を表示するためのディスプレー装置である。ディスプレー装置1は、CRT、液晶パネル、プラズマディスプレイパネル等の表示器を備える。2は数値演算・制御等の処理を行なう中央処理装置である。
【0008】
3はRAM、ROM、磁気ディスク、光ディスク、半導体メモリ、ハードディスク装置及びそれらの組み合わせからなる記憶装置である。記憶装置3は、本実施形態のGUI、本実施形態の処理手順に必要な制御プログラム、この制御プログラムを管理するオペレーティングシステム(OS)を保持する。
【0009】
4は音声認識ユニットである。音声認識ユニット4は、マイクロフォン5から入力された音声に対して音響処理を行い、音響処理した結果に対して言語処理を行う。音響処理において使用する音響モデル10、言語処理において使用するN種類の文法規則111〜11nや単語辞書121〜12nは、記憶装置3が保持する。
【0010】
ここで、各文法規則111〜11nは所定種類の文字情報の認識に最適な文法規則であり、各単語辞書121〜12nは各文法規則111〜11nに対応する単語辞書である。この音声認識ユニット4における音声認識処理は、ソフトウェアで実現することも可能である。
【0011】
ディスプレー装置1,中央処理装置2,記憶装置3,音声認識ユニット4はバス16により接続されている。中央処理装置2は、記憶装置3から本実施形態の処理手順に必要な制御プログラムを読み出し、音声認識ユニット4の音声認識処理、ディスプレー装置1の表示処理、記憶装置3の読み出し書き込み処理を統合的に制御する。
【0012】
図2は、本実施形態の情報入力装置の処理手順を示すフローチャートである。図2に示したフローチャートの各ステップで行われる処理は、中央処理装置2が記憶装置3に格納された制御プログラムに基づいて各処理部を制御することにより実現する。
【0013】
まず、ステップS1では、本実施形態のGUIを記憶装置3から読み出してディスプレー装置1に表示する。このGUIは、単数または複数の入力フォーム(入力項目ともいう)を含み、各入力フォームには付加情報が設定されている。この付加情報は、所定種類の文字情報の認識に最適な文法規則と対応関係を示す情報であり、例えば文法規則の種類を識別するためのインデックス(文法ID)である。本実施形態のGUIは、例えばHTML(Hyper Text Markup Language)やXML(Extensible Markup Language)のような記述言語によって記述する。
【0014】
本実施形態のGUIの一例を、図3を用いて説明する。図3は、3つの入力フォームを含むGUIを示す図である。このGUIは、駅間ルートを検索するアプリケーションプログラムのGUIである。図3において、6は出発駅名、7は到着駅名、8は出発時刻を入力するための入力フォームである。
【0015】
入力フォーム6と入力フォーム7とは共に駅名情報を入力するための入力フォームであり、これらは駅名情報の認識に最適な文法規則と関連付けられている。本実施形態では、文法規則111(図1の「文法1」)を入力フォーム6,7に対応する文法規則として説明する。
【0016】
一方、入力フォーム8は時刻情報を入力するための入力フォームであるため、これは時刻情報の認識に最適な文法規則と関連付けられている。本実施形態では、文法規則112(図1の「文法2」)を入力フォーム8に対応する文法規則として説明する。
【0017】
次に、ステップS2では、文字情報をまだ入力していない入力フォームに関連付けられた文法規則を認識し、認識した文法規則を設定する。未入力の入力フォームが1つの場合には、その入力フォームに対応する1種類の文法規則を設定し、2つ以上の場合には、1種類以上の文法規則を設定する。例えば、図3に示すGUIの場合には、文法規則111と文法規則112とを設定する。
【0018】
ステップS3では、音声の入力を受け付ける。ユーザの発声した音声は、マイクロフォン5で電気信号に変換された後、音声認識ユニット4に供給される。
【0019】
ステップS4では、ステップS2で設定した1種類以上の文法規則を用いてステップS3で入力した音声を音声認識する。例えば、図3に示すGUIの場合には、文法規則111,112と単語辞書121,122とを用いて、ステップS2で入力した音声から駅名情報や時刻情報を認識する。
【0020】
ステップS4では、ステップS2で設定した文法規則が1種類の場合には、音響処理した結果を、その文法規則とその文法規則に対応する単語辞書とを用いて言語処理する。そして、その文法規則から得られた文字情報をステップS4の認識結果とする。
【0021】
一方、ステップS2で設定した文法規則が2種類以上の場合には、音響処理した結果を、各文法規則と各文法規則に対応する単語辞書とを用いて言語処理する。そして、各文法規則から得られた文字情報の中から入力音声との尤度が所定値以上となる文字情報をステップS4の認識結果とする。
【0022】
ステップS5では、各入力フォームと文法規則とを対応関係により、ステップS4で得た文字情報を入力する入力フォームが一意に決定できるか否かを判別する。本実施形態では、各入力フォームと文法規則とを対応関係により、ステップS4で得た文字情報を認識した文法規則からその文字情報を入力する入力フォームを自動的に決定する。
【0023】
したがって、例えば、1種類の文法規則から文字情報を認識し、且つその文法規則が1つの入力フォームにのみ対応している場合には、ステップS4で得た文字情報を入力する入力フォームを1つだけ自動的に決定することができる。このように構成することによって、事前に入力フォームの選択をユーザに行わせることなく、ユーザの所望する入力フォームを自動的に選択、決定することが可能となる。
【0024】
しかしながら、以下のような場合には、ステップS4で得た文字情報を入力する入力フォームを1つに決定することができないため、ステップS6の処理を実行する。
【0025】
1)複数種類の文法規則が同音の語彙を認識する場合。これは、例えば、文法規則Aが使用する単語辞書Aに「仙台」(/seNdai/)を、文法規則Bが使用する単語辞書Bに「先代」(/seNdai/)を登録している場合に、ユーザが/seNdai/と発音する場合である。この場合、文法規則Aでは「仙台」を認識し、文法規則Bでは「先代」を認識してしまい、何れもステップS4の認識結果となり入力フォームを1つに決定することができない。
【0026】
2)1種類の文法規則が複数の入力フォームに対応する場合。これは、例えば、図3のGUIのように文法規則111が2つの入力フォーム6,7に対応する場合である。この場合、文法規則111で認識した文字情報を入力する入力フォームを1つに決定することができない。
【0027】
ステップS6では、選択候補となる入力フォームをユーザに通知し、1つの入力フォームをユーザに選択させる。ユーザは、選択候補のフォーム名をマイクロフォン5に入力することによって1つの入力フォームを選択する。これにより、キーボードやポインティングデバイスを使用することなく簡単に入力フォームを選択することができる。
【0028】
ここで、選択候補の通知方法には、様々な方法がある。例えば、図3のGUIのように、全ての入力フォームを一画面内に表示している場合には、各選択候補の周辺や背景のグラフィックスの色、デザインを変える、選択候補のフォーム名の色、フォントを変える等の方法によって選択候補をユーザに通知する。
【0029】
一方、図4のGUIのように、全ての入力フォームを一画面内に表示していない場合には、選択候補のフォーム名をまとめて別のウインドウに表示する、選択候補のフォーム名をまとめて音声で提示する等の方法によって選択候補をユーザに通知する。このように構成することにより、選択候補となる入力フォームを分かりやすくユーザに通知することができる。
【0030】
ステップS7では、ステップS5で決定した入力フォームあるいはステップS6で決定した入力フォームに、その入力フォームに対応する文法規則から得た文字情報を表示する。
【0031】
ここで、図4のGUIのように、全ての入力フォームを一画面内に表示していない場合で、一部しか表示していない或いは全て表示していない入力フォームに文字情報を表示する場合には、その入力フォームが画面の中央に配置されるようにGUIを自動的にスクロールする。具体例を図4及び図5を用いて説明する。完全に表示されていない入力フォーム11(図4のフォーム4)に文字情報を表示する場合、図4のGUIは図5のようにスクロールし、入力フォーム11を画面の中央に配置する。このように構成することにより、ユーザの選択した入力フォームがGUI上のどこにあるかを分かりやすく通知することができる。
【0032】
ステップS8では、入力フォームに表示した文字情報が正しいか否かを判別する。表示した文字情報が正しくない場合、ユーザは「いいえ」と発声した音声をマイクロフォン5に入力する。この場合には、入力フォームに表示した文字情報をクリアしてステップS2の処理を実行する。
【0033】
一方、表示した文字情報が正しい場合、ユーザは「はい」と発声した音声をマイクロフォン5に入力する。この場合には、入力フォームに表示した文字情報をその入力フォームに対する入力として決定する(ステップS9)。
【0034】
ステップS10では、未入力の入力フォームがあるか否かを判別し、未入力の入力フォームがある場合には、ステップS2の処理を実行し、未入力の入力フォームがない場合には、処理を終了する。
【0035】
以上説明したように本実施形態によれば、ユーザの音声から認識した文字情報を入力する入力フォームを入力フォームと文法規則との対応関係に応じて決定することによって、キーボードやポインティングデバイスを使用することなく簡単にユーザの所望する入力フォームに文字情報を入力することができる。
【0036】
(第2の実施形態)
図6は、第2の実施形態の処理手順を示すフローチャートである。第2の実施形態の情報入力装置の構成は、第1の実施形態と同様であるので説明を省略する。図6に示したフローチャートの各ステップで行われる処理は、中央処理装置2が記憶装置3に格納された制御プログラムに基づいて各処理部を制御することにより実現する。
【0037】
まず、ステップS11では、第2の実施形態のGUIを記憶装置3から読み出してディスプレー装置1に表示する。このGUIは単数または複数の入力フォーム(入力項目ともいう)を含み、各入力フォームには付加情報が設定されている。この付加情報には、所定種類の文字情報の認識に最適な文法規則との対応関係を示す情報と、所定の文字列(キーワードともいう)と対応関係を示す情報である。この文字列は、入力フォームのフォーム名や入力フォームへの文字情報の入力をサポートする文,語句,単語等であり、GUIに表示される。第2の実施形態において、各入力フォームに対応する文法規則は、キーワードを含む文字情報を認識するように構成されている。
【0038】
第2の実施形態のGUIの一例を図7を用いて説明する。図7は、3つの入力フォームを含むGUIを示す図である。このGUIは、駅間ルートを検索するアプリケーションプログラムのGUIである。図7において、71は出発駅名、72は到着駅名、73は出発時刻を入力するための入力フォームである。
【0039】
入力フォーム71と入力フォーム72とは共に駅名情報を入力するための入力フォームである。入力フォーム71のキーワードは「駅から」であり、入力フォーム72のキーワードは「駅まで」である。入力フォーム71,72は、第1の実施形態と同様に、駅名情報の認識に最適な文法規則である文法規則111(図1の「文法1」)と関連付けられている。
【0040】
一方、入力フォーム73は時刻情報を入力するための入力フォームであり、そのキーワードは「時刻は」である。入力フォーム73は、第1の実施形態と同様に、時刻情報の認識に最適な文法規則である文法規則112(図1の「文法2」)と関連付けられている。
【0041】
次に、ステップS12では、第1の実施形態と同様に、文字情報をまだ入力していない入力フォームに関連付けられた文法規則を認識し、認識した文法規則を設定する。例えば、図7に示すGUIの場合には、文法規則111と文法規則112とを設定する。
【0042】
ステップS13では、音声の入力を受け付ける。このときユーザは、所望の入力フォームに入力する文字情報とともに、その入力フォームのキーワードを発声する。ユーザの発声した音声は、マイクロフォン5で電気信号に変換された後、音声認識ユニット4に供給される。
【0043】
ステップS14では、第1の実施例と同様に、ステップS12で設定した1種類以上の文法規則を用いてステップS13で入力した音声を音声認識する。例えば、図7に示すGUIの場合には、文法規則111,112と単語辞書121,122とを用いて、ステップS12で入力した音声から駅名情報や時刻情報を認識する。
【0044】
ステップS15では、各入力フォームと文法規則とを対応関係により、ステップS14で得た文字情報を入力する入力フォームを選択するとともに、選択した入力フォームのキーワードと文字情報に含まれるキーワードとを比較して1つの入力フォームを決定する。
【0045】
本実施形態では、各入力フォームと文法規則とを対応関係だけでなく、各入力フォームとキーワードとを対応関係を用いて、ステップS14で得た文字情報を認識した文法規則からその文字情報を入力する入力フォームを自動的に決定する。このように構成することによって、事前に入力フォームの選択をユーザに行わせることなく、ユーザの所望する入力フォームを自動的に選択、決定することが可能となる。
【0046】
ステップS16では、ステップS15で決定した入力フォームに、ステップS14で得た文字情報を表示する。但し、キーワードは除く。例えば、ステップS14で得た文字情報が「XX駅から」の場合、キーワード「駅から」に対応する入力フォーム71に文字情報「XX」を表示する。
【0047】
ここで、図4のGUIのように、全ての入力フォームを一画面内に表示していない場合で、一部しか表示していない或いは全て表示していない入力フォームに文字情報を表示する場合には、第1の実施形態と同様に、その入力フォームが画面の中央に配置されるようにGUIを自動的にスクロールする。
【0048】
ステップS17では、入力フォームに表示した文字情報が正しいか否かを判別する。表示した文字情報が正しくない場合、ユーザは「いいえ」と発声した音声をマイクロフォン5に入力する。この場合には、入力フォームに表示した文字情報をクリアしてステップS12の処理を実行する。
【0049】
一方、表示した文字情報が正しい場合、ユーザは「はい」と発声した音声をマイクロフォン5に入力する。この場合には、入力フォームに表示した文字情報をその入力フォームに対する入力として決定する(ステップS18)。
【0050】
ステップS19では、未入力の入力フォームがあるか否かを判別し、未入力の入力フォームがある場合には、ステップS2の処理を実行し、未入力の入力フォームがない場合には、処理を終了する。
【0051】
以上説明したように第2の実施形態によれば、ユーザの音声から認識した文字情報を入力する入力フォームを入力フォームとキーワードとの対応関係に応じて決定することによって、キーボードやポインティングデバイスを使用することなく簡単にユーザの所望する入力フォームに文字情報を入力することができる。
【0052】
(第3の実施形態)
第2の実施形態では、ユーザの音声から認識した文字情報を入力する入力フォームを入力フォームとキーワードとの対応関係に応じて決定する例について説明した。
【0053】
これに対して第3の実施形態では、ユーザの音声から認識した文字情報を入力する入力フォームを入力フォームの候補リストに応じて決定する例について説明する。ここで、候補リストとは、入力フォームに入力可能な文字情報を示す。
【0054】
この場合、各入力フォームの付加情報は、所定種類の文字情報の認識に最適な文法規則との対応関係を示す情報と、入力フォームに入力可能な文字情報を示す候補リストとなる。
【0055】
そして、ユーザの音声から認識した文字情報を入力する入力フォームは、各入力フォームと文法規則とを対応関係と、各入力フォームの候補リストとに基づいて自動的に決定される。このように構成することによって、事前に入力フォームの選択をユーザに行わせることなく、ユーザの所望する入力フォームを自動的に選択、決定することが可能となる。
【0056】
以上説明したように第3の実施形態によれば、ユーザの音声から認識した文字情報を入力する入力フォームを入力フォームの候補リストに応じて決定することによって、キーボードやポインティングデバイスを使用することなく簡単にユーザの所望する入力フォームに文字情報を入力することができる。
【0057】
(本発明の他の実施の形態)
前述した各実施形態は、複数の機器から構成されるシステムに適用しても1つの機器からなる装置に適用しても良い。
【0058】
また、前述した各実施形態の機能を実現するための制御プログラムのプログラムコードを格納する記録媒体には、例えばフロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることもできる。
【0059】
また、前述した制御プログラムのプログラムコードが、中央処理装置2において稼働しているOS(オペレーティングシステム)あるいは他のアプリケーションソフト等の共同して前述の実施の形態で示した機能が実現される場合にもかかるプログラムコードは本発明の実施の形態に含まれることは言うまでもない。
【0060】
さらに、前述した制御プログラムのプログラムコードが機能拡張ボードや機能拡張ユニットに備わるメモリに格納された後、そのプログラムコードの指示に基づいてその機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合にも本発明に含まれる。
【0061】
【発明の効果】
本発明によれば、文字情報が入力されていない入力項目に関連付けられた文法規則を用いて音声から文字情報を認識するようにしたので、適切に文法規則を制限することができ、処理精度及び処理速度を向上させることができる。
【図面の簡単な説明】
【図1】本実施形態における情報入力装置の構成を示すブロック図である。
【図2】第1の実施形態の処理手順を示すフローチャートである。
【図3】第1の実施形態におけるGUIの一例を示す図である。
【図4】本実施形態におけるGUIの他の例(スクロール前)を示す図である。
【図5】本実施形態におけるGUIの他の例(スクロール後)を示す図である。
【図6】第2の実施形態の処理手順を示すフローチャートである。
【図7】第2の実施形態におけるGUIの一例を示す図である。
【符号の説明】
1 ディスプレー装置
2 中央処理装置
3 記憶装置
4 A/D変換装置
5 マイクロフォン
6 出発駅名の入力フォーム
7 到着駅名の入力フォーム
8 出発時刻の入力フォーム
11 入力対象フォーム[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information input method, an information input device, and a storage medium, and more particularly to a technology for inputting character information using a speech recognition technology.
[0002]
[Prior art]
When inputting character information such as characters and symbols into an input item (input form) of a graphical user interface (GUI), generally, a pointing device such as a keyboard and a mouse is used. In the case of a keyboard, characters and symbols are typed, and in the case of a pointing device, a desired character or symbol is selected and input from selection candidates.
[0003]
[Problems to be solved by the invention]
However, when inputting character information to a desired input item using a pointing device such as a keyboard or a mouse, all operations from selection of the input item to input of character information must be performed manually. There was a problem that it was very difficult to handle in a difficult environment.
[0004]
In view of the above-described problems, an object of the present invention is to easily input character information to a plurality of input items displayed on a display unit without performing manual input.
[0005]
[Means for Solving the Problems]
An information input method of the present invention is an information input method for inputting character information to a plurality of input items displayed on a display, and includes a reception step of receiving speech and one or more of a plurality of grammatical rules. A speech recognition step for recognizing character information from the speech, and a selection step for selecting an input item for inputting the character information based on the additional information of the input item and the grammatical rule used in the speech recognition step. And the additional information is information indicating a correspondence relationship between the input item and the grammar rule, and the speech recognition step uses the grammar rule associated with the input item for which character information is not input. Character information is recognized from voice.
[0006]
An information input device according to the present invention is an information input device for inputting character information to a plurality of input items displayed on a display, and includes a receiving means for receiving speech and one or more of a plurality of grammatical rules. Voice recognition means for recognizing character information from the voice, and selection means for selecting an input item for inputting the character information based on the additional information of the input item and the grammatical rules used in the voice recognition means. And the additional information is information indicating a correspondence relationship between the input item and the grammar rule, and the speech recognition means uses the grammar rule associated with the input item for which character information is not input. Character information is recognized from voice.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
FIG. 1 is a block diagram showing the configuration of the information input device in this embodiment.
In FIG. 1, reference numeral 1 denotes a display device for displaying a graphical user interface (GUI) of this embodiment. The display device 1 includes a display such as a CRT, a liquid crystal panel, or a plasma display panel. A
[0008]
A storage device 3 includes a RAM, a ROM, a magnetic disk, an optical disk, a semiconductor memory, a hard disk device, and a combination thereof. The storage device 3 holds the GUI of the present embodiment, a control program necessary for the processing procedure of the present embodiment, and an operating system (OS) that manages this control program.
[0009]
[0010]
Here, each
[0011]
The display device 1, the
[0012]
FIG. 2 is a flowchart showing a processing procedure of the information input apparatus of this embodiment. The processing performed at each step of the flowchart shown in FIG. 2 is realized by the
[0013]
First, in step S1, the GUI of this embodiment is read from the storage device 3 and displayed on the display device 1. This GUI includes one or a plurality of input forms (also referred to as input items), and additional information is set in each input form. This additional information is information indicating a grammar rule optimum for recognition of a predetermined type of character information and a correspondence relationship, and is, for example, an index (grammar ID) for identifying the type of grammar rule. The GUI according to the present embodiment is described in a description language such as HTML (Hyper Text Markup Language) or XML (Extensible Markup Language).
[0014]
An example of the GUI of this embodiment will be described with reference to FIG. FIG. 3 is a diagram showing a GUI including three input forms. This GUI is an application program GUI for searching for a route between stations. In FIG. 3, 6 is a departure station name, 7 is an arrival station name, and 8 is an input form for inputting a departure time.
[0015]
Both the
[0016]
On the other hand, since the
[0017]
Next, in step S2, a grammar rule associated with an input form for which character information has not yet been input is recognized, and the recognized grammar rule is set. When there is one unfilled input form, one type of grammar rule corresponding to the input form is set, and when there are two or more input forms, one or more types of grammar rules are set. For example, in the case of the GUI shown in FIG. 3,
[0018]
In step S3, a voice input is accepted. The voice uttered by the user is converted into an electrical signal by the
[0019]
In step S4, the speech input in step S3 is recognized by using one or more kinds of grammar rules set in step S2. For example, in the case of the GUI shown in FIG. 3, station name information and time information are recognized from the voice input in step S2, using the
[0020]
In step S4, when there is one kind of grammar rule set in step S2, the result of the acoustic processing is subjected to language processing using the grammar rule and a word dictionary corresponding to the grammar rule. The character information obtained from the grammatical rules is used as the recognition result in step S4.
[0021]
On the other hand, when there are two or more types of grammar rules set in step S2, the sound processing result is subjected to language processing using each grammar rule and a word dictionary corresponding to each grammar rule. Then, character information whose likelihood with the input speech is equal to or greater than a predetermined value among character information obtained from each grammar rule is set as a recognition result in step S4.
[0022]
In step S5, it is determined whether or not the input form for inputting the character information obtained in step S4 can be uniquely determined based on the correspondence between each input form and the grammatical rule. In the present embodiment, the input form for inputting character information is automatically determined from the grammatical rule that recognizes the character information obtained in step S4 by the correspondence between each input form and the grammar rule.
[0023]
Therefore, for example, when character information is recognized from one kind of grammar rule and the grammar rule corresponds to only one input form, one input form for inputting the character information obtained in step S4 is provided. Can only be determined automatically. With this configuration, it is possible to automatically select and determine an input form desired by the user without causing the user to select an input form in advance.
[0024]
However, in the following case, since the input form for inputting the character information obtained in step S4 cannot be determined as one, the process of step S6 is executed.
[0025]
1) When multiple grammar rules recognize vocabulary of the same sound. For example, when “Sendai” (/ seNdai /) is registered in the word dictionary A used by the grammar rule A, and “predecessor” (/ seNdai /) is registered in the word dictionary B used by the grammar rule B. In this case, the user pronounces / seNdai /. In this case, “Sendai” is recognized in the grammatical rule A, and “predecessor” is recognized in the grammatical rule B, and both become recognition results in step S4, and one input form cannot be determined.
[0026]
2) A single grammar rule corresponds to multiple input forms. This is the case, for example, when the
[0027]
In step S6, the user is notified of input forms that are selection candidates, and the user is allowed to select one input form. The user selects one input form by inputting the selection candidate form name into the
[0028]
Here, there are various methods for notifying selection candidates. For example, when all input forms are displayed on one screen as in the GUI of FIG. 3, the color of the selection candidate's surroundings, background graphics color, and design are changed. The selection candidate is notified to the user by a method such as changing the color and font.
[0029]
On the other hand, if not all input forms are displayed on one screen as in the GUI of FIG. 4, the form names of the selection candidates are displayed together in a separate window. The user is notified of selection candidates by a method such as presenting by voice. With this configuration, it is possible to notify the user of input forms that are selection candidates in an easy-to-understand manner.
[0030]
In step S7, the character information obtained from the grammar rules corresponding to the input form is displayed on the input form determined in step S5 or the input form determined in step S6.
[0031]
Here, when all the input forms are not displayed on one screen as in the GUI of FIG. 4, when character information is displayed on an input form that is only partially displayed or not all displayed. Automatically scrolls the GUI so that the input form is centered on the screen. A specific example will be described with reference to FIGS. When displaying character information on the input form 11 (
[0032]
In step S8, it is determined whether or not the character information displayed on the input form is correct. If the displayed character information is not correct, the user inputs the voice uttered “No” to the
[0033]
On the other hand, when the displayed character information is correct, the user inputs the voice uttered “Yes” to the
[0034]
In step S10, it is determined whether or not there is an input form that has not been input. If there is an input form that has not been input, the process of step S2 is executed. If there is no input form that has not been input, the process is performed. finish.
[0035]
As described above, according to the present embodiment, the keyboard or pointing device is used by determining the input form for inputting the character information recognized from the user's voice according to the correspondence between the input form and the grammatical rule. It is possible to easily input character information into an input form desired by the user without any problem.
[0036]
(Second Embodiment)
FIG. 6 is a flowchart illustrating a processing procedure according to the second embodiment. Since the configuration of the information input device of the second embodiment is the same as that of the first embodiment, description thereof is omitted. The processing performed in each step of the flowchart shown in FIG. 6 is realized by the
[0037]
First, in step S11, the GUI of the second embodiment is read from the storage device 3 and displayed on the display device 1. This GUI includes one or a plurality of input forms (also referred to as input items), and additional information is set in each input form. The additional information includes information indicating a correspondence relationship with a grammar rule optimum for recognition of a predetermined type of character information, and information indicating a correspondence relationship with a predetermined character string (also referred to as a keyword). The character string is a sentence, a phrase, a word, or the like that supports the input of the form name of the input form or character information to the input form, and is displayed on the GUI. In the second embodiment, the grammar rule corresponding to each input form is configured to recognize character information including a keyword.
[0038]
An example of the GUI of the second embodiment will be described with reference to FIG. FIG. 7 is a diagram showing a GUI including three input forms. This GUI is an application program GUI for searching for a route between stations. In FIG. 7, 71 is a departure station name, 72 is an arrival station name, and 73 is an input form for inputting a departure time.
[0039]
Both the
[0040]
On the other hand, the
[0041]
Next, in step S12, as in the first embodiment, a grammar rule associated with an input form for which character information has not yet been input is recognized, and the recognized grammar rule is set. For example, in the case of the GUI shown in FIG. 7, the
[0042]
In step S13, a voice input is accepted. At this time, the user utters the keyword of the input form together with the character information to be input to the desired input form. The voice uttered by the user is converted into an electrical signal by the
[0043]
In step S14, as in the first embodiment, the speech input in step S13 is recognized using one or more grammar rules set in step S12. For example, in the case of the GUI shown in FIG. 7, the station name information and time information are recognized from the voice input in step S12 using the
[0044]
In step S15, the input form for inputting the character information obtained in step S14 is selected based on the correspondence between each input form and the grammatical rule, and the keyword of the selected input form is compared with the keyword included in the character information. To determine one input form.
[0045]
In this embodiment, not only the correspondence between each input form and the grammar rule, but also the character information is input from the grammar rule that recognized the character information obtained in step S14 using the correspondence between each input form and the keyword. The input form to be automatically determined. With this configuration, it is possible to automatically select and determine an input form desired by the user without causing the user to select an input form in advance.
[0046]
In step S16, the character information obtained in step S14 is displayed on the input form determined in step S15. However, keywords are excluded. For example, when the character information obtained in step S14 is “From XX station”, the character information “XX” is displayed on the
[0047]
Here, when all the input forms are not displayed on one screen as in the GUI of FIG. 4, when character information is displayed on an input form that is only partially displayed or not all displayed. As in the first embodiment, the GUI is automatically scrolled so that the input form is arranged at the center of the screen.
[0048]
In step S17, it is determined whether or not the character information displayed on the input form is correct. If the displayed character information is not correct, the user inputs the voice uttered “No” to the
[0049]
On the other hand, when the displayed character information is correct, the user inputs the voice uttered “Yes” to the
[0050]
In step S19, it is determined whether or not there is an input form that has not been input. If there is an input form that has not been input, the process of step S2 is executed. If there is no input form that has not been input, the process is performed. finish.
[0051]
As described above, according to the second embodiment, the keyboard or pointing device is used by determining the input form for inputting the character information recognized from the user's voice according to the correspondence between the input form and the keyword. It is possible to easily input character information into an input form desired by the user without doing so.
[0052]
(Third embodiment)
In the second embodiment, the example in which the input form for inputting the character information recognized from the user's voice is determined according to the correspondence between the input form and the keyword has been described.
[0053]
In contrast, in the third embodiment, an example will be described in which an input form for inputting character information recognized from the user's voice is determined according to the input form candidate list. Here, the candidate list indicates character information that can be entered in the input form.
[0054]
In this case, the additional information of each input form is information indicating a correspondence relationship with a grammar rule optimum for recognition of a predetermined type of character information, and a candidate list indicating character information that can be input to the input form.
[0055]
The input form for inputting character information recognized from the user's voice is automatically determined based on the correspondence between each input form and the grammar rule and the candidate list of each input form. With this configuration, it is possible to automatically select and determine an input form desired by the user without causing the user to select an input form in advance.
[0056]
As described above, according to the third embodiment, the input form for inputting the character information recognized from the user's voice is determined according to the input form candidate list without using a keyboard or a pointing device. Character information can be easily input into an input form desired by the user.
[0057]
(Another embodiment of the present invention)
Each of the above-described embodiments may be applied to a system composed of a plurality of devices or an apparatus composed of a single device.
[0058]
In addition, for example, a floppy disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a magnetic tape, and a nonvolatile memory may be used as a recording medium for storing a program code of a control program for realizing the functions of the above-described embodiments A card, ROM, etc. can also be used.
[0059]
In addition, when the program code of the above-described control program realizes the functions described in the above-described embodiment in cooperation with an OS (operating system) or other application software running on the
[0060]
Further, after the program code of the control program is stored in the memory provided in the function expansion board or function expansion unit, the CPU or the like provided in the function expansion board or function expansion unit performs actual processing based on the instruction of the program code. The present invention also includes a case where the function of the above-described embodiment is realized by performing part or all of the above-described processing.
[0061]
【The invention's effect】
According to the present invention, character information is recognized from speech using grammar rules associated with input items for which character information has not been input. Therefore, grammar rules can be appropriately limited, and processing accuracy and The processing speed can be improved.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of an information input device according to an embodiment.
FIG. 2 is a flowchart illustrating a processing procedure according to the first embodiment.
FIG. 3 is a diagram illustrating an example of a GUI according to the first embodiment.
FIG. 4 is a diagram showing another example of the GUI (before scrolling) in the present embodiment.
FIG. 5 is a diagram showing another example (after scrolling) of the GUI according to the present embodiment.
FIG. 6 is a flowchart illustrating a processing procedure according to the second embodiment.
FIG. 7 is a diagram illustrating an example of a GUI according to the second embodiment.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1
Claims (11)
音声を受信する受信ステップと、
複数の文法規則のうち1つ又は複数を用いて前記音声から文字情報を認識する音声認識ステップと、
前記入力項目の付加情報及び前記音声認識ステップで用いられた文法規則に基づいて前記文字情報を入力する入力項目を選択する選択ステップとを有し、
前記付加情報は、前記入力項目と前記文法規則との対応関係を示す情報であり、
前記音声認識ステップは、文字情報が入力されていない入力項目に関連付けられた文法規則を用いて前記音声から文字情報を認識することを特徴とする情報入力方法。An information input method for inputting character information into a plurality of input items displayed on a display unit,
A receiving step for receiving audio;
A speech recognition step for recognizing character information from the speech using one or more of a plurality of grammar rules;
A selection step of selecting an input item for inputting the character information based on the additional information of the input item and the grammatical rule used in the speech recognition step;
The additional information, Ri information der showing the correspondence between the grammar rules and the input item,
The speech recognition step recognizes character information from the speech using a grammatical rule associated with an input item for which character information is not input .
音声を受信する受信手段と、
複数の文法規則のうち1つ又は複数を用いて前記音声から文字情報を認識する音声認識手段と、
前記入力項目の付加情報及び前記音声認識手段で用いられた文法規則に基づいて前記文字情報を入力する入力項目を選択する選択手段とを有し、
前記付加情報は、前記入力項目と前記文法規則との対応関係を示す情報であり、
前記音声認識手段は、文字情報が入力されていない入力項目に関連付けられた文法規則を用いて前記音声から文字情報を認識することを特徴とする情報入力装置。An information input device for inputting character information to a plurality of input items displayed on a display,
Receiving means for receiving audio;
Speech recognition means for recognizing character information from the speech using one or more of a plurality of grammar rules;
Selection means for selecting an input item for inputting the character information based on the additional information of the input item and the grammatical rules used in the speech recognition means;
The additional information, Ri information der showing the correspondence between the grammar rules and the input item,
The speech recognition means recognizes character information from the speech using a grammatical rule associated with an input item for which character information is not input .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000119505A JP3762191B2 (en) | 2000-04-20 | 2000-04-20 | Information input method, information input device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000119505A JP3762191B2 (en) | 2000-04-20 | 2000-04-20 | Information input method, information input device, and storage medium |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005342345A Division JP4012228B2 (en) | 2005-11-28 | 2005-11-28 | Information input method, information input device, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001306293A JP2001306293A (en) | 2001-11-02 |
JP3762191B2 true JP3762191B2 (en) | 2006-04-05 |
Family
ID=18630471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000119505A Expired - Fee Related JP3762191B2 (en) | 2000-04-20 | 2000-04-20 | Information input method, information input device, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3762191B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3542578B2 (en) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | Speech recognition apparatus and method, and program |
EP1779319A4 (en) | 2004-07-29 | 2008-04-09 | Espeed Inc | SYSTEMS AND METHODS FOR PROVIDING DYNAMIC PRICE AXES IN NOMINAL CHARACTERISTIC USER INTERFACES |
WO2006015336A2 (en) | 2004-07-29 | 2006-02-09 | Espeed, Inc. | Systems and methods for providing dynamic price axes |
JP2007164732A (en) * | 2005-12-16 | 2007-06-28 | Crescent:Kk | Computer executable program and information processing device |
JP6128533B2 (en) * | 2012-12-21 | 2017-05-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | apparatus |
WO2019142419A1 (en) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | Information processing device and information processing method |
JP2021144353A (en) * | 2020-03-10 | 2021-09-24 | 株式会社リコー | Voice processing device, voice processing system, voice processing method and program |
-
2000
- 2000-04-20 JP JP2000119505A patent/JP3762191B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001306293A (en) | 2001-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7299187B2 (en) | Voice command processing system and computer therefor, and voice command processing method | |
TWI437449B (en) | Multi-mode input method and input method editor system | |
JP3962763B2 (en) | Dialogue support device | |
US20020103644A1 (en) | Speech auto-completion for portable devices | |
US20080177541A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
JP3476007B2 (en) | Recognition word registration method, speech recognition method, speech recognition device, storage medium storing software product for registration of recognition word, storage medium storing software product for speech recognition | |
JP2002116796A (en) | Voice processor and method for voice processing and storage medium | |
CN105283914A (en) | System and methods for recognizing speech | |
KR20100019596A (en) | Method and apparatus of translating language using voice recognition | |
JP3762191B2 (en) | Information input method, information input device, and storage medium | |
US7103533B2 (en) | Method for preserving contextual accuracy in an extendible speech recognition language model | |
JP3710493B2 (en) | Voice input device and voice input method | |
KR20040001594A (en) | Apparatus and method for updating a lexicon | |
JP4012228B2 (en) | Information input method, information input device, and storage medium | |
JP4220151B2 (en) | Spoken dialogue device | |
JP3340163B2 (en) | Voice recognition device | |
JP3762300B2 (en) | Text input processing apparatus and method, and program | |
JP4131586B2 (en) | Voice recognition device | |
JPH05119793A (en) | Method and device for speech recognition | |
JP2003140682A (en) | Voice recognition device and voice dictionary generation method | |
JPH04232997A (en) | System for displaying result of recognition in speech recognition device | |
JP2007193184A (en) | Speech address recognition apparatus | |
JP4797307B2 (en) | Speech recognition apparatus and speech recognition method | |
JPH09288494A (en) | Voice recognition device and voice recognizing method | |
JPS60205594A (en) | Recognition results display system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040906 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051128 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060112 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100120 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110120 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120120 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130120 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140120 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |