JP2005108087A - ウェブページ入力装置およびプログラム - Google Patents
ウェブページ入力装置およびプログラム Download PDFInfo
- Publication number
- JP2005108087A JP2005108087A JP2003343370A JP2003343370A JP2005108087A JP 2005108087 A JP2005108087 A JP 2005108087A JP 2003343370 A JP2003343370 A JP 2003343370A JP 2003343370 A JP2003343370 A JP 2003343370A JP 2005108087 A JP2005108087 A JP 2005108087A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- text box
- web page
- control data
- recognition dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000013500 data storage Methods 0.000 claims 6
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】 ウェブコンテンツの構成要素と認識辞書との関連を記述することにより、ウェブページ上の部品に応じて認識対象語彙を絞り込めるようにし、ウェブページ上での入力操作を容易にする。
【解決手段】 ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納する認識辞書記憶手段を備え、ウェブページ解析手段がテキストボックス有りを検出した場合にテキストボックス用の認識辞書を指定し、当該テキストボックスに対して入力された音声を当該認識辞書に基づいて認識させ、音声認識結果をテキストボックスに表示させる。
【選択図】 図1
【解決手段】 ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納する認識辞書記憶手段を備え、ウェブページ解析手段がテキストボックス有りを検出した場合にテキストボックス用の認識辞書を指定し、当該テキストボックスに対して入力された音声を当該認識辞書に基づいて認識させ、音声認識結果をテキストボックスに表示させる。
【選択図】 図1
Description
この発明は、音声入力を用いてウェブ(Web)ページで検索を行う際の音声認識に適用されるウェブページ入力装置およびプログラムに関するものである。
ウェブページに音声入力を行うことにより検索を行う方法として、ウェブページに埋め込まれたハイパーリンクを音声によって検索する技術が数多く提案されてきている。その中に、ウェブブラウザにより表示されているウェブページ上で、リンク項目を音声で入力することにより検索する技術がある(例えば、特許文献1参照)。
この従来の技術を用いた場合、ウェブページの音声入力を音声認識するための認識語彙に関するウェブページごとの認識辞書を予め格納した認識辞書記憶手段が準備されており、ウェブブラウザで表示されているウェブページを認識制御部に送る。認識制御部では、制御データ記憶部を参照して、表示されているウェブページに対応する認識辞書を選択し、音声認識部にその認識辞書を使用するよう指示を出す。この場合、表示されるウェブページとしては、例えば図4に示される不動産物件検索のトップページのように、音声入力するときに読む文字、「藤沢市」と「鎌倉市」が表示されたものである。このページに対してユーザが、例えば「藤沢市」と音声入力すると、音声認識部は指示されたこのウェブページの認識辞書を用いて「藤沢市」と認識する。この認識結果は認識制御部を介してウェブブラウザ制御部に与えられ、ウェブページ上の「藤沢市」が選択されるようウェブブラウザを制御する。次に、選択された「藤沢市」に対して、藤沢市に含まれるすべての町名が表示されたウェブページに切り替わり、そのページに対する認識辞書が指定される。これに対して同様に音声入力操作が行われ、最終的な検索結果として図13のような町名「湘南台」に関する不動産物件を列挙した表のページが表示されることになる。
従来のウェブページ入力装置は、以上のように、ウェブページに予め表示された語彙を読み上げて音声入力することによりウェブページを動的に解析して認識辞書を選択しているので、ウェブページ上で占める選択語彙が多数となった場合、表示領域が増え、読み上げる語彙の選択が煩雑となり入力操作に時間を要するなどの問題があった。
この発明は、上記のような問題を解決するためになされたもので、ウェブコンテンツの構成要素と認識辞書との関連を記述することにより、ウェブページ上の部品に応じて認識対象語彙を絞り込めるようにし、ウェブページ上での入力操作を容易にするウェブページ入力装置およびプログラムを得ることを目的とする。
この発明に係るウェブページ入力装置は、ウェブブラウザがネットワークから取り込んだウェブページの解析を行い、解析結果としてウェブページとテキストボックスの有無を得るウェブページ解析手段と、ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納する認識辞書記憶手段と、ウェブページごとに使用する認識辞書の指定を行うための制御データを格納する制御データ記憶手段と、ウェブページに対してユーザが入力した音声を制御データにより指定された認識辞書を用いて認識する音声認識手段と、解析結果のウェブページに対応した制御データを制御データ記憶手段から抽出し、解析結果でテキストボックス有りの場合には当該制御データにより対応するテキストボックス用の認識辞書を指定し、当該テキストボックスに対して入力された音声を指定されたテキストボックス用の認識辞書に基づいて音声認識手段で認識させ、その音声認識結果を得る認識制御手段と、ブラウザを制御して、認識制御手段が得た当該テキストボックスに対する入力音声の音声認識結果をウェブページ中の当該テキストボックスに表示させるブラウザ制御手段とを備えたものである。
この発明によれば、ウェブページ中のテキストボックスに対する入力音声についても専用の認識辞書を準備して音声認識を行えるようにしたため、テキストボックスを用いたことで表示する選択語彙を絞り込めるのでウェブページ上での表示領域を削減でき、入力操作を容易にできる効果がある。
実施の形態1.
この発明では、ウェブページ中に認識語彙を指定するための空欄のテキストボックスを準備し、そこに対して入力される音声を音声認識するようにしている。また、音声入力させる対象のテキストボックスを指定するためにフォーカスする方法を採りいれている。このフォーカスとはテキストボックスを入力可能状態に設定することであり、入力可能状態とはフォーカスしたテキストボックスに対して入力される音声を受け付け、その入力される音声ついて音声認識処理を行う状態である。フォーカスは、例えばマウスでテキストボックスをクリックすることにより実現される。また、特にこの発明では、テキストボックス対応させてある語彙を発声することにより、対応するテキストボックスをフォーカスできるようにしている。フォーカスされたテキストボックスは、ウェブブラウザにより枠線が太くなる。また、これに替えて、あるいはこれに加えて、テキストボックスの内部の色を変えたり、点滅するようにしたりできるものである。
この発明では、ウェブページ中に認識語彙を指定するための空欄のテキストボックスを準備し、そこに対して入力される音声を音声認識するようにしている。また、音声入力させる対象のテキストボックスを指定するためにフォーカスする方法を採りいれている。このフォーカスとはテキストボックスを入力可能状態に設定することであり、入力可能状態とはフォーカスしたテキストボックスに対して入力される音声を受け付け、その入力される音声ついて音声認識処理を行う状態である。フォーカスは、例えばマウスでテキストボックスをクリックすることにより実現される。また、特にこの発明では、テキストボックス対応させてある語彙を発声することにより、対応するテキストボックスをフォーカスできるようにしている。フォーカスされたテキストボックスは、ウェブブラウザにより枠線が太くなる。また、これに替えて、あるいはこれに加えて、テキストボックスの内部の色を変えたり、点滅するようにしたりできるものである。
この発明の実施の形態1によるウェブページ入力装置を適用するサイトとして、不動産物件を検索するサイトの構成例について説明する。ここでは、「藤沢市」と「鎌倉市」の不動産物件を検索するサイトを例とする。
図2はサイトのウェブページの構成を示す説明図で、図3は図2の各ウェブページの内容を示す説明図である。サイトは、最初にトップページTop.htmlがあり、その次に「藤沢市」のページC1.htmlと「鎌倉市」のページC2.htmlから構成されている。この両ページの次には、この両ページからの入力に対してCGI(Common Gateway Interface)を用いた検索結果のページSearch.htmlがある。
図2はサイトのウェブページの構成を示す説明図で、図3は図2の各ウェブページの内容を示す説明図である。サイトは、最初にトップページTop.htmlがあり、その次に「藤沢市」のページC1.htmlと「鎌倉市」のページC2.htmlから構成されている。この両ページの次には、この両ページからの入力に対してCGI(Common Gateway Interface)を用いた検索結果のページSearch.htmlがある。
このサイトでは、ウェブブラウザにより図4に示すような表示内容を持つトップページTop.htmlが最初に表示される。この例では、都市として「藤沢市」または「鎌倉市」が表示されている。C1およびC2は、それぞれの市のコードを表す。このトップページでは、都市の表示がボタンになっており、クリックすることによりいずれかの市が選択される。それぞれの市に対応して別々のウェブページC1.htmlおよびC2.htmlが用意されている。トップページにおいて「藤沢市」を選択した場合、図5に示すようなウェブページC1.htmlがウェブブラウザにより表示される。このC1ページには、町名と最寄の駅を入力するためのそれぞれのテキストボックスと検索ボタンが表示されている。このC1ページで、町名あるいは最寄の駅を入力した後に検索ボタンを押すと、CGIに検索データが渡されて、不動産物件の検索が行われ、検索結果を表示するためのウェブページSearch.htmlが動的に生成される。ここでは、検索結果によらず生成されるウェブページのアドレスは固定とする。町名のテキストボックスに「湘南台」と音声入力した時の検索結果としてのウェブページSearch.htmlの表示内容は図6に示される。
図1はこの発明の実施の形態1によるウェブページ入力装置の機能構成を示すブロック図である。
ウェブブラウザ1は、周知のようにネットワークからウェブページを取り込んで表示する手段である。ウェブページ解析部2は、ウェブブラウザ1で読み込んだウェブページを解析、解析結果としてウェブページとそのページ中のテキストボックスの有無を得る手段である。認識辞書記憶部6は、ウェブページごとに音声認識を行うための認識語彙に関する複数の認識辞書を格納する手段で、この発明では、加えてウェブページ中のテキストボックスに対する音声入力を認識するためにそれぞれのテキストボックス用の認識辞書も含んでいる。制御データ記憶部4は、ウェブページごとに使用する認識辞書の指定を行うための制御データを格納する手段である。この制御データとしては、ウェブページごとの音声認識に用いる認識辞書を指定するデータがあり、この発明では、ウェブページ中のテキストボックス用への認識辞書を指定するデータも含んでいる。
ウェブブラウザ1は、周知のようにネットワークからウェブページを取り込んで表示する手段である。ウェブページ解析部2は、ウェブブラウザ1で読み込んだウェブページを解析、解析結果としてウェブページとそのページ中のテキストボックスの有無を得る手段である。認識辞書記憶部6は、ウェブページごとに音声認識を行うための認識語彙に関する複数の認識辞書を格納する手段で、この発明では、加えてウェブページ中のテキストボックスに対する音声入力を認識するためにそれぞれのテキストボックス用の認識辞書も含んでいる。制御データ記憶部4は、ウェブページごとに使用する認識辞書の指定を行うための制御データを格納する手段である。この制御データとしては、ウェブページごとの音声認識に用いる認識辞書を指定するデータがあり、この発明では、ウェブページ中のテキストボックス用への認識辞書を指定するデータも含んでいる。
音声認識部7は、ウェブページに対してユーザが入力した音声を、制御データが指定する認識辞書を用いて認識し、その認識結果を得る手段である。認識制御部5は、ウェブページ解析部2の解析結果に基づいて制御データ記憶部4からウェブページに対応する制御データを抽出し、音声認識部7に対して使用する認識辞書を指定して音声認識を行わせ、その認識結果を得る手段であり、この発明では、ウェブページ解析部2の解析結果でテキストボックス有りの場合には制御データにより対応するテキストボックス用の認識辞書を指定する。ブラウザ制御部3は、ウェブブラウザ1の動作を制御する手段で、この発明では、特に認識制御部5が音声認識部7から得たウェブページ中のテキストボックスに対する音声の音声認識結果を対応するテキストボックスに表示させる機能を持つ。
次に、動作について説明する。
表示装置(図示せず)にウェブブラウザ1によりウェブページが表示される。ウェブページ解析部2は、この表示されているウェブページを解析し、その解析結果として、表示されているウェブページとそのページ中のテキストボックスの有無を得る。テキストボックスの有無は、ウェブページを構成している例えばHTML(Hyper Text Markup Language)などを用いたテキストボックスについての記述を検出することにより行われる。また、テキストボックスがフォーカスされている場合、ウェブページ解析部2はそのウェブページ内でフォーカスされている位置の情報を抽出する。これらの解析結果は認識制御部5に送られる。ウェブページ中のフォーカスされている位置を認識率向上に用いる点が従来の技術と大きく異なる点である。認識制御部5は、表示されているウェブページとそのページ内でフォーカスされている位置の情報を基に、制御データ記憶部4に格納されている制御データを参照して音声認識部7に対して使用する認識辞書を指定する。制御データと認識辞書としては、次に説明するようなデータが予め準備されている。
表示装置(図示せず)にウェブブラウザ1によりウェブページが表示される。ウェブページ解析部2は、この表示されているウェブページを解析し、その解析結果として、表示されているウェブページとそのページ中のテキストボックスの有無を得る。テキストボックスの有無は、ウェブページを構成している例えばHTML(Hyper Text Markup Language)などを用いたテキストボックスについての記述を検出することにより行われる。また、テキストボックスがフォーカスされている場合、ウェブページ解析部2はそのウェブページ内でフォーカスされている位置の情報を抽出する。これらの解析結果は認識制御部5に送られる。ウェブページ中のフォーカスされている位置を認識率向上に用いる点が従来の技術と大きく異なる点である。認識制御部5は、表示されているウェブページとそのページ内でフォーカスされている位置の情報を基に、制御データ記憶部4に格納されている制御データを参照して音声認識部7に対して使用する認識辞書を指定する。制御データと認識辞書としては、次に説明するようなデータが予め準備されている。
図7は制御データ記憶部4の格納データの内容を示している。それぞれのウェブページとそれに対応した認識辞書を切り替えるため制御データが用意されている。例として、ウェブページC1.htmlに対応する制御データC1.ctlの構成内容について図8が示される。制御データは、クラス、タグ名、属性、認識辞書から構成されている。クラスは、ウェブページの部品の区分けを示すもので、タグの付いているもの、例えばAdrs、Sttnには、町名、最寄駅などの名称が付けられている。このウェブページC1.htmlに対しては5つの単語辞書(認識辞書)を用いることが示されており、各認識辞書に含まれる認識語彙は図9(a)〜(e)のように示される。各認識辞書は名称とその読みから構成されている。
認識辞書に関し説明すると、図8のコマンドに対する認識辞書DicCmdは、ウェブブラウザを制御するための基本的なコマンドを有し、図9(a)の内容に示すように、「進む」、「戻る」および「閉じる」の3つの言葉を認識語彙としている。「戻る」コマンドは前の画面へウェブブラウザを戻す機能を実行する。「進む」コマンドは先の画面へ進む機能を実行する。また、「閉じる」コマンドはウェブブラウザを閉じる機能を実行する。これらのコマンドは、表示するウェブページの内容によらず共通に使用できるコマンドである。図8のタグに対する認識辞書DicTagは、図9(b)に示されるが、図5のC1ページに表示されるテキストボックスを、音声入力を用いてフォーカスするために使用する認識語彙を含んでいる。図8のリンクに対する認識辞書DicLinkは、図9(c)に示されるが、図5のC1ページに表示される「検索」を実行する認識語彙を含んでいる。また、図9(d)に示すように、図8の最寄の駅に対する認識辞書DicSttnは、図9(d)に示されるが、図5のC1ページに表示される「最寄の駅」のテキストボックスに入れる認識語彙を含んでいる。この例では、「藤沢駅」、「辻堂駅」および「湘南台駅」を最寄の駅としている。このため、「最寄の駅」テキストボックスがフォーカスされている場合には「藤沢駅」、「辻堂駅」、「湘南台駅」の3単語が認識対象語彙に加わる。さらに、図8の町名に対する認識辞書DicAdrsは、図9(e)に示されるが、図5のC1ページに表示される「町名」のテキストボックスに入れる認識語彙を含んでいる。ここでは、「藤沢」、「辻堂」および「湘南台」を町名候補としている。このため、「町名」テキストボックスがフォーカスされている場合には「藤沢」、「辻堂」、「湘南台」の3単語が認識対象語彙に加わる。
図5に示すように、ウェブページC1.htmlには2つのテキストボックスがある。この発明によるウェブページ入力装置では、認識率を高めるために、従来のようにウェブページによって認識語彙を切り替えるだけではなく、フォーカスされているテキストボックスに対しても認識語彙(または認識辞書)を切り替えるようにしている。図5の検索ページにおいて、町名のテキストボックスがフォーカスされた様子を図10に示す。認識辞書DicTagは、このフォーカス機能を音声により実現するための認識語彙を有するものである。図5に示すウェブページC1.htmlでは2つのテキストボックスがあるため、認識辞書DicTagには「町名」と「最寄の駅」の2つの認識語彙が含まれる。ユーザは、マウス入力やキーボード入力によりテキストボックスの表示状態を変えてフォーカスするが、この発明では、替りに語彙「町名」または「最寄の駅」を発声することにより、対応するテキストボックスをフォーカスするようにしている。例えば図5のウェブページC1.htmlに対して「町名」を「チョーメイ」と発声した場合、音声認識部7は認識辞書DicTagを用いてこの入力音声を認識し、その認識結果を認識制御部5によりブラウザ制御部3に伝える。ブラウザ制御部3は、ウェブブラウザ1を制御してテキストボックスの枠線を太くし、その内部の色を変え、図10に示すような状態を形成する。
図11および図12はウェブページC1.html(図5)を表示している時の処理手順を示すフローチャートである。
ここで、ウェブブラウザ1はウェブページC1.htmlを表示しているものとする。認識制御部5はイベントの発生を待つ(ステップST1)。イベントは、マウスやキーボードからの入力があった場合はウェブページ解析部2から発生し、音声認識結果が得られるときには音声認識部7から発生する。次に、イベント発生があると、認識制御部5は、イベントが音声認識結果であるのかどうかを調べる(ステップST2)。イベントとして音声認識結果が発生した場合にはステップST8に遷移する。一方、マウスやキーボードの入力によるイベントであった場合には、認識制御部5はDicCmd、DicTag、DicLinkの3つの認識辞書(図9(a)〜(c))をアクティブにするよう音声認識部7に指示する(ステップST3)。アクティブとなったこれらの認識辞書は音声認識部7による認識対象となる。また、このように複数の認識辞書がアクティブになった場合は、含まれる認識語彙はすべて認識対象となる。
ここで、ウェブブラウザ1はウェブページC1.htmlを表示しているものとする。認識制御部5はイベントの発生を待つ(ステップST1)。イベントは、マウスやキーボードからの入力があった場合はウェブページ解析部2から発生し、音声認識結果が得られるときには音声認識部7から発生する。次に、イベント発生があると、認識制御部5は、イベントが音声認識結果であるのかどうかを調べる(ステップST2)。イベントとして音声認識結果が発生した場合にはステップST8に遷移する。一方、マウスやキーボードの入力によるイベントであった場合には、認識制御部5はDicCmd、DicTag、DicLinkの3つの認識辞書(図9(a)〜(c))をアクティブにするよう音声認識部7に指示する(ステップST3)。アクティブとなったこれらの認識辞書は音声認識部7による認識対象となる。また、このように複数の認識辞書がアクティブになった場合は、含まれる認識語彙はすべて認識対象となる。
次に認識制御部5は、ウェブページ解析部2からのイベントを見て、「町名」テキストボックスがフォーカスされたかどうか調べる(ステップST4)。「町名」テキストボックスがフォーカスされた場合には認識制御部5は認識辞書DicAdrs(図9(e))を追加してアクティブにするよう音声認識部7に指示する(ステップST5)。次に、認識制御部5はウェブページ解析部2からのイベントを見て、「最寄の駅」テキストボックスがフォーカスされたかどうか調べる(ステップST6)。「最寄の駅」テキストボックスがフォーカスされた場合には認識制御部5は認識辞書DicSttn(図9(d))を追加してアクティブにするよう音声認識部7に指示する(ステップST7)。
一方、ステップST2において、イベントが音声認識結果であった場合、以下の処理を行う。認識制御部5は、音声認識結果の属性がAtrCmdであったかを調べ(ステップST8)、AtrCmdの語彙の場合、そのコマンドに対応する処理をウェブブラウザ1が実行するようブラウザ制御部3に指示する(ステップST9)。この処理によりウェブページが変更されるので、ウェブページC1.htmlに対する処理は終了する。
一方、ステップST8において、AtrCmdでない場合には音声認識結果の属性がAtrLinkかを調べる(ステップST10)。音声認識結果の属性がAtrLinkであった場合、認識制御部5は、ブラウザ制御部3に指定されたページを実行するよう指示を出す(ステップST11)。この場合にはCGIを呼び出すことにより不動産物件の検索を実行する。この処理により、ウェブページがSearch.htmlに変わるので、ウェブページC1.htmlに対する処理は終了する。
次に、ステップST10で、音声認識結果の属性がAtrLinkでない場合には、音声認識結果の属性がAtrTagかを調べる(ステップST12)。音声認識結果の属性がAtrTagであった場合、認識制御部5は、ウェブブラウザ1が対応するテキストボックスをフォーカスするようブラウザ制御部3に指示を出す(ステップST13)。一方、ステップST12において、音声認識結果の属性がAtrTagでなかった場合には、音声認識結果の属性がAtrTextであるため、認識制御部5は、ウェブブラウザ1がフォーカスされているテキストボックスに音声認識結果を入れるようブラウザ制御部3に指示を出す。
以上のように、この実施の形態1によれば、ウェブページ解析部(ウェブページ解析手段)2を設けてウェブブラウザがネットワークから取り込んだウェブページの解析を行い、解析結果としてウェブページとテキストボックスの有無を得るようにし、認識辞書記憶部(認識辞書記憶手段)6において、ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納しておき、また制御データ記憶部(制御データ記憶手段)4において、ウェブページごとに使用する認識辞書の指定を行うための制御データを格納しておき、認識制御部(認識制御手段)5により、解析結果がテキストボックス有りの場合に制御データ記憶部4から対応した制御データを抽出してテキストボックス用の認識辞書を指定し、音声認識部(音声認識手段)7により、当該テキストボックスに対して入力された音声を指定されたテキストボックス用の認識辞書に基づいて認識し、認識制御部5は、その音声認識結果を得ると、ブラウザ制御部(ブラウザ制御手段)3に与えてウェブページ中の当該テキストボックスに表示させるべくウェブブラウザの制御を行う。したがって、ウェブページ中のテキストボックスに対する入力音声についても専用の認識辞書を準備して音声認識を行えるため、テキストボックスを用いたことで表示する選択語彙を絞り込めるのでウェブページ上での表示領域を削減でき、入力操作を容易にできる効果が得られる。
また、この実施の形態1によれば、テキストボックスがフォーカスされたときにはウェブページ解析部2により認識制御部5にそのことを通知し、認識制御部5は、フォーカスされたテキストボックスに対する制御データを制御データ記憶部4から選択し、当該制御データに基づいて対応するテキストボックス用の認識辞書を使用するよう音声認識部7に指定するようにしている。したがって、同じウェブページ上に複数のテキストボックスがある場合においても、フォーカスされたテキストボックス用の個別の認識辞書を用いるようにしているため、その分、認識語彙を絞り込むことができる。一般に音声認識の分野では、認識語彙が増えるほど、認識率が低下するので、この実施の形態1のようにテキストボックス毎に個別の認識辞書を選択することで認識語彙を絞り込むことは認識率の向上につながる効果が得られる。さらに、認識辞書記憶部6には、テキストボックスを音声入力によりフォーカスするための認識語彙を設定した認識辞書を格納しておくようにし、音声認識部7でこの認識辞書を用いてテキストボックスをフォーカスするための認識語彙の入力音声を認識した場合、認識制御部5は、当該テキストボックスをフォーカスするようブラウザ制御部3によりウェブブラウザ1を制御させるようにしている。このことにより、テキストボックスのフォーカスをマウス入力やキーボード入力による以外に音声入力によっても行えるため、適切に認識辞書を切り替えることができ、音声認識を良好に行える効果が得られる。
なお、この実施の形態1で述べてきた機能は、制御データ記憶部4、認識辞書記憶部6を用いてCPUで処理を行うプログラムで構成したものとしても実現できるものである。
なお、この実施の形態1で述べてきた機能は、制御データ記憶部4、認識辞書記憶部6を用いてCPUで処理を行うプログラムで構成したものとしても実現できるものである。
1 ウェブブラウザ、2 ウェブページ解析部、3 ブラウザ制御部、4 制御データ記憶部、5 認識制御部、6 認識辞書記憶部、7 音声認識部。
Claims (6)
- ウェブブラウザがネットワークから取り込んだウェブページの解析を行い、解析結果としてウェブページとテキストボックスの有無を得るウェブページ解析手段と、
ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納する認識辞書記憶手段と、
ウェブページごとに使用する認識辞書の指定を行うための制御データを格納する制御データ記憶手段と、
ウェブページに対してユーザが入力した音声を前記制御データにより指定された認識辞書を用いて認識し認識結果を得る音声認識手段と、
前記解析結果のウェブページに対応した制御データを前記制御データ記憶手段から抽出し、前記解析結果でテキストボックス有りの場合には当該制御データにより対応するテキストボックス用の認識辞書を指定し、当該テキストボックスに対して入力された音声を指定されたテキストボックス用の認識辞書に基づいて前記音声認識手段で認識させ、その音声認識結果を得る認識制御手段と、
前記ブラウザを制御して、前記認識制御手段が得た当該テキストボックスに対する入力音声の音声認識結果をウェブページ中の当該テキストボックスに表示させるブラウザ制御手段とを備えたことを特徴とするウェブページ入力装置。 - ウェブページ解析手段は、テキストボックスがフォーカスされたときに認識制御手段に通知し、
前記認識制御手段は、フォーカスされたテキストボックスに対する制御データを制御データ記憶手段から選択し、当該制御データに基づいて対応するテキストボックス用の認識辞書を使用するよう音声認識手段に指定することを特徴とする請求項1記載のウェブページ入力装置。 - 認識辞書記憶手段は、テキストボックスをフォーカスするために入力される音声を認識するのに使用する認識語彙を設定した認識辞書を格納し、
認識制御手段は、音声認識手段が前記認識辞書を用いてテキストボックスをフォーカスする入力音声を認識した場合に、ブラウザ制御手段を介してウェブブラウザを制御し、当該テキストボックスをフォーカスさせることを特徴とする請求項1または請求項2記載のウェブページ入力装置。 - ウェブページに対する音声入力を音声認識するためのそれぞれの認識語彙に関する複数の認識辞書を格納した認識辞書記憶手段と、ウェブページごとに使用する認識辞書の指定を行うための複数の制御データを格納した制御データ記憶手段とを使用してウェブページの入力処理を行うプログラムであって、
ウェブブラウザがネットワークから取り込んだウェブページの解析を行い、当該ウェブページにおいてテキストボックスの有無を検出し、
テキストボックスが有りの場合には前記制御データ記憶手段からの制御データに応じて前記認識辞書記憶手段から対応するテキストボックス用の認識辞書を指定し、
当該テキストボックスに対して入力された音声を前記指定されたテキストボックス用の認識辞書を用いて音声認識し、
得られた音声認識結果を当該テキストボックスに表示させるようウェブブラウザを制御するプログラム。 - テキストボックスがフォーカスされた場合、当該テキストボックスに対する制御データを制御データ記憶手段から選択し、当該制御データに基づいて対応するテキストボックス用の認識辞書を指定して音声認識に使用するようにしたことを特徴とする請求項4記載のプログラム。
- 認識辞書記憶手段は、テキストボックスをフォーカスするための認識語彙を設定した認識辞書を格納しており、
テキストボックスをフォーカスするための認識語彙の入力音声を前記認識辞書を用いて認識した場合に、当該テキストボックスをフォーカスするようウェブブラウザを制御するようにしたことを特徴とする請求項4または請求項5記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003343370A JP2005108087A (ja) | 2003-10-01 | 2003-10-01 | ウェブページ入力装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003343370A JP2005108087A (ja) | 2003-10-01 | 2003-10-01 | ウェブページ入力装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005108087A true JP2005108087A (ja) | 2005-04-21 |
Family
ID=34537362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003343370A Abandoned JP2005108087A (ja) | 2003-10-01 | 2003-10-01 | ウェブページ入力装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005108087A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009237386A (ja) * | 2008-03-28 | 2009-10-15 | Mitsubishi Electric Information Systems Corp | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP2010537276A (ja) * | 2007-08-16 | 2010-12-02 | ワベリンク コーポレーション | 音声を利用できるテルネットインターフェイス |
US10033797B1 (en) | 2014-08-20 | 2018-07-24 | Ivanti, Inc. | Terminal emulation over HTML |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
-
2003
- 2003-10-01 JP JP2003343370A patent/JP2005108087A/ja not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010537276A (ja) * | 2007-08-16 | 2010-12-02 | ワベリンク コーポレーション | 音声を利用できるテルネットインターフェイス |
US9648083B2 (en) | 2007-08-16 | 2017-05-09 | Crimson Corporation | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US10148734B2 (en) | 2007-08-16 | 2018-12-04 | Ivanti, Inc. | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US10938886B2 (en) | 2007-08-16 | 2021-03-02 | Ivanti, Inc. | Scripting support for data identifiers, voice recognition and speech in a telnet session |
JP2009237386A (ja) * | 2008-03-28 | 2009-10-15 | Mitsubishi Electric Information Systems Corp | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
US10033797B1 (en) | 2014-08-20 | 2018-07-24 | Ivanti, Inc. | Terminal emulation over HTML |
US10873621B1 (en) | 2014-08-20 | 2020-12-22 | Ivanti, Inc. | Terminal emulation over html |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100661687B1 (ko) | 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템 | |
KR100549482B1 (ko) | 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체 | |
CN112882679B (zh) | 一种语音交互的方法和装置 | |
JP6675788B2 (ja) | 検索結果表示装置、検索結果表示方法、及びプログラム | |
JP2006023860A (ja) | 情報閲覧装置、情報閲覧プログラム、情報閲覧プログラム記録媒体及び情報閲覧システム | |
JPH10275162A (ja) | プロセッサに基づくホスト・システムを制御する無線音声起動制御装置 | |
JP6064629B2 (ja) | 音声入出力データベース検索方法、プログラム、及び装置 | |
JP5710464B2 (ja) | 電子機器、表示方法、およびプログラム | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
JPH10222342A (ja) | ハイパーテキスト音声制御方法及び装置 | |
JP3927800B2 (ja) | 音声認識装置及び方法、プログラム、並びに記憶媒体 | |
JP2005108087A (ja) | ウェブページ入力装置およびプログラム | |
CN103376990A (zh) | 一种网页操作的语音控制方法和系统 | |
JP2007193166A (ja) | 対話装置、対話方法及びプログラム | |
JP2005352612A (ja) | プログラム開発支援装置および変数名リスト表示方法 | |
JP2007094987A (ja) | 辞書情報表示制御装置および辞書情報表示制御プログラム | |
JP6022138B2 (ja) | 情報提供システム | |
JP2003157095A (ja) | 音声認識装置及びその方法、プログラム | |
TWI582756B (zh) | A method of switching input mode, a mobile communication device, and a computer readable medium | |
JP4014361B2 (ja) | 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2005322148A (ja) | ブラウザ装置 | |
JP2005181358A (ja) | 音声認識合成システム | |
JP2001256259A (ja) | ハイパーテキスト制御システム | |
JP7163845B2 (ja) | 情報処理装置、およびプログラム | |
JP5735075B2 (ja) | 電子機器、表示方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060807 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20080605 |