JP2007164732A - Computer executable program and information processing device - Google Patents
Computer executable program and information processing device Download PDFInfo
- Publication number
- JP2007164732A JP2007164732A JP2005364057A JP2005364057A JP2007164732A JP 2007164732 A JP2007164732 A JP 2007164732A JP 2005364057 A JP2005364057 A JP 2005364057A JP 2005364057 A JP2005364057 A JP 2005364057A JP 2007164732 A JP2007164732 A JP 2007164732A
- Authority
- JP
- Japan
- Prior art keywords
- user interface
- information
- computer
- character string
- interface component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、ユーザインターフェースに音声認識機能を組み込むためのコンピュータ実行可能なプログラムおよびそのプログラムを搭載した情報処理装置に関する。 The present invention relates to a computer-executable program for incorporating a voice recognition function into a user interface and an information processing apparatus equipped with the program.
従来、ユーザインターフェース、例えば、ウェブ上で利用可能なアプリケーションプログラムに音声認識機能を組み込む技術としては、例えば、下記特許文献1が知られている。この技術では、ネットワーク上にウェブサーバと音声サーバとを設け、ウェブサーバと音声サーバとが互いに状態を通知し同期を取ることによって、ネットワーク上の端末からの音声によるアクセスとウェブアクセスとのシームレスな連携を図っている。
Conventionally, as a technique for incorporating a voice recognition function into a user interface, for example, an application program that can be used on the web, for example, the following
しかし、このような構成では、ネットワークでウェブサーバと音声サーバとが互いに状態を通知し同期を取るための複雑なシステムが必要となる。そのため、既存のユーザインターフェースにおいてより簡略に音声によるアクセスを可能とするためには、端末自体に音声認識機能を設ければよい。そして、端末上で音声から文字列への変換と、変換された文字列のユーザインターフェースへの入力とを実行すればよい。 However, in such a configuration, a complicated system is required for the web server and the voice server to notify each other and synchronize with each other in the network. Therefore, in order to enable simple voice access in an existing user interface, a voice recognition function may be provided in the terminal itself. Then, the conversion from the voice to the character string and the input of the converted character string to the user interface may be executed on the terminal.
しかしながら、通常の画面を通じてのユーザインターフェースに、音声認識機能を追加するためには、音声認識エンジン(例えば、非特許文献1参照)を端末にインストールするとともに、ユーザインターフェースを構成するコンピュータプログラム(以下、単にプログラムという)に、音声認識エンジンから認識された情報を取得するためのインターフェース部分を設ける必要がある。 However, in order to add a speech recognition function to a user interface through a normal screen, a speech recognition engine (see, for example, Non-Patent Document 1) is installed in a terminal, and a computer program (hereinafter, referred to as a user interface) that configures the user interface. It is necessary to provide an interface portion for acquiring information recognized from the speech recognition engine in the program).
このようなインターフェース部分をプログラムに設けるためには、通常は、ソースプログラムの改造、および再コンパイルが必要となる。すなわち、音声認識エンジンとのインターフェースを組み込んだプログラムの新たな開発が必要となる。したがって、すでに、エンドユーザに配布済みのプログラムに対して、バージョンアップなしに音声認識機能を追加することは、現状の技術では通常想定されていない。
本発明は、このような課題を解決するためになされた。本発明の目的は、ユーザインターフェースを構成するプログラムに、そのプログラムを改変することなく、音声認識機能を追加することができる技術を提供することにある。 The present invention has been made to solve such problems. An object of the present invention is to provide a technique capable of adding a voice recognition function to a program constituting a user interface without modifying the program.
本発明は前記課題を解決するために、以下の手段を採用した。すなわち、本発明は、ユーザインターフェース部品を含み、コンピュータ画面上に構成される第1の画面部分の表示態様を定義する画面表示定義情報から前記ユーザインターフェース部品を定義する部品情報を検索する手段と、発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段と、前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶する手段と、を備える情報処理装置である。 The present invention employs the following means in order to solve the above problems. That is, the present invention includes means for retrieving component information that defines the user interface component from screen display definition information that defines a display mode of the first screen portion configured on the computer screen, including user interface components; Information processing comprising: means for accepting input of character string information corresponding to the user interface component to be identified by utterance; and means for storing the character string information in the utterance component table in association with the component information Device.
また、本発明は、部品情報によって定義されるユーザインターフェース部品を含み、コンピュータ画面上に構成される第1の画面部分の表示態様を定義する画面表示定義情報を検索する手段と、前記ユーザインターフェース部品を含む第2の画面部分を表示する手段と、発話によって特定される文字列情報と前記部品情報とを対応付ける発話部品テーブルを記憶する手段と、発話を受け付けて生成された文字列情報を取得する手段と、前記生成された文字列情報に対応するユーザインターフェース部品を特定する手段と、前記ユーザインターフェース部品に応じた処理を実行する処理手段と、を備える情報処理装置であってもよい。 The present invention also includes means for retrieving screen display definition information that includes a user interface component defined by component information and defines a display mode of a first screen portion configured on a computer screen, and the user interface component Means for displaying a second screen portion including the text, means for storing a speech component table that associates the character string information specified by speech and the component information, and obtaining character string information generated by receiving the speech An information processing apparatus comprising: means; means for specifying a user interface component corresponding to the generated character string information; and processing means for executing processing according to the user interface component.
本発明によれば、第1の画面部分のユーザインターフェース部品を定義する部品情報に対して発話によって特定される文字列情報を対応付けることにより、発話によって前記第2のユーザインターフェース部品を通じて前記ユーザインターフェース部品に応じた処理を実行することができる。 According to the present invention, by associating the character string information specified by the utterance with the component information defining the user interface component of the first screen portion, the user interface component through the second user interface component by the utterance. It is possible to execute processing according to the above.
本発明は、コンピュータが上記いずれかの処理を実行する方法であってもよい。また、本発明は、上記いずれかの手段としてコンピュータを機能させるコンピュータ実行可能なプログラムであってもよい。また、本発明は、そのようなコンピュータ実行可能なプログラムをコンピュータが読み取り可能な記録媒体に記録したものであってもよい。 The present invention may be a method in which a computer executes any one of the processes described above. Further, the present invention may be a computer-executable program that causes a computer to function as any of the above-described means. Further, the present invention may be a computer-readable recording medium recorded with such a computer-executable program.
本発明によれば、ユーザインターフェースを構成するプログラムに、そのプログラムを改変することなく、音声認識機能を追加することができる。 According to the present invention, a voice recognition function can be added to a program constituting a user interface without modifying the program.
以下、図面を参照して本発明を実施するための最良の形態(以下、実施形態という)に係る情報システムについて説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成には限定されない。 Hereinafter, an information system according to the best mode for carrying out the present invention (hereinafter referred to as an embodiment) will be described with reference to the drawings. The configuration of the following embodiment is an exemplification, and the present invention is not limited to the configuration of the embodiment.
<情報システムの概要>
図1に、本実施形態に係る情報システムの構成図を示す。この情報システムは、ウェブページ(ウェブサイトともいう)においてウェブアプリケーションプログラムによるサービスをネットワーク上のユーザコンピュータ(以下、クライアント2という)に提供するサーバ1と、サーバ1からサービスの提供を受けるクライアント2を含んでいる。
<Outline of information system>
FIG. 1 shows a configuration diagram of an information system according to the present embodiment. This information system includes a
ここで、ネットワークは、インターネットのような公衆ネットワークであってもいいし、LAN(Local Area Network )、専用線、またはVPN(Virtual Private Network
)等によって構成されたプライベートなネットワークであってもよい。
Here, the network may be a public network such as the Internet, a LAN (Local Area Network), a dedicated line, or a VPN (Virtual Private Network).
) Or the like.
サーバ1は、ウェブサーバプログラムを実行し、クライアント2にウェブページを通じて利用可能なアプリケーションプログラムによるサービスを提供する。サーバ1は、例えば、HTML(HyperText Markup Language)、またはXML(eXtensible Markup Language )等で記述された情報をクライアント2に送信する。また、サーバ1は、は、JSP(Java(登録商標) Server Pages)、あるいは、IIS(Internet Information Service)に
基づいて記述された情報から、連携するプログラムを実行する。そして、サーバ1は、ウェブページを動的に生成してクライアント2に送信する。
The
クライアント2は、例えば、アプリケーションプログラムとしてブラウザプログラムを実行する。そして、クライアント2は、サーバ1にHTML、XML等による情報の提供を要求するとともに、提供された情報を表示装置の画面上に表示する。これにより、サーバ1のウェブページがクライアント2の表示装置に表示され、サーバ1またはサーバ1と
連携する他のコンピュータで実行されるアプリケーションプログラムのユーザインターフェースがクライアント2上で利用可能となる。
For example, the
サーバ1およびクライアント2は、いずれも、CPU、メモリ、入出力インターフェース、表示装置、ハードディスク、ネットワークとの通信インターフェース、ユーザの発話内容収集するマイクロホン、音声を出力するスピーカ、着脱可能な可搬媒体の駆動装置等を有している。サーバ1およびクライアント2は、それぞれのコンピュータプログラムを実行することにより、サーバ1およびクライアント2としての機能を実現している。いずれにしても、サーバ1およびクライアント2の構成要素および作用は広く知られているので、その説明は省略する。
Each of the
本情報システムの特徴は、クライアント2に表示されたウェブページ(およびサーバ1で実行されるアプリケーションプログラムのユーザインターフェース)にユーザがアクセスするときに、ユーザの発話によるアクセスを可能とする点にある。 A feature of this information system is that when a user accesses a web page displayed on the client 2 (and a user interface of an application program executed on the server 1), the user can access the web page.
すなわち、ユーザの発話内容をクライアント2が認識し、その発話内容に対応する文字列を生成する。そして、クライアント2は、その文字列をウェブページとして表示されたユーザインターフェースに設定する。例えば、クライアント2は、その文字列に対応するウェブページを表示し、あるいは、その文字列に対応するウェブページを表示するウィンドウをフォーカス(マウス等のポインタで選択された状態に)する。
That is, the
また、クライアント2は、その文字列に対応するラベルの付された画面上の構成要素、例えば、テキスト入力フィールドに文字列を設定する。また、クライアント2は、その文字列に対応する選択肢をプルダウンメニュのリストから選択する。また、クライアント2は、その文字列に対応するラベルの付されたボタンを押下する。このようにして、本情報システムでは、ユーザは、音声を通じてウェブ上のグラフィカルユーザインターフェース部品を操作することが可能である。
Further, the
サーバ1は、そのような発話によるユーザインターフェース構築を支援する。サーバ1には、クライアント2上での発話内容をウェブページ上のユーザインターフェース部品に関係付けるためのプログラム(以下、発話定義ツールという)を有している。
The
発話定義ツールは、サーバ1を管理するユーザによって指定されたウェブページを解析し、そのウェブページに配置されたユーザインターフェース部品をピックアップする。ここで、サーバ1を管理するユーザとは、ウェブページをクライアント2に配信し、クライアント2にアプリケーションプログラムを利用させるユーザ、例えば、アプリケーションサービスプロバイダである。
The utterance definition tool analyzes a web page specified by a user who manages the
発話定義ツールは、指定されたウェブページを記述する定義ファイル、例えば、HTML、XML、JSP、IIS等のファイルを解析し、ウェブページに含まれるユーザインターフェース部品の構成を抽出する。そして、発話定義ツールは、抽出された個々のユーザインターフェース部品を選択するための音声情報を受け付ける。 The utterance definition tool analyzes a definition file describing a specified web page, for example, a file such as HTML, XML, JSP, IIS, etc., and extracts the configuration of user interface components included in the web page. Then, the utterance definition tool receives audio information for selecting each extracted user interface component.
例えば、発話ツールは、ユーザに特定のユーザインターフェース部品、「商品選択」というラベルの付されたプルダウンメニュを選択させる(選択を受け付ける)。そして、その状態で、ユーザがそのプルダウンメニュをフォーカスしたいときに発する言葉を発話する。 For example, the speech tool causes the user to select a specific user interface component, a pull-down menu labeled “product selection” (accept selection). In this state, the user speaks a word that is spoken when the user wants to focus on the pull-down menu.
すると、発話された音声情報は、例えば、マイクロホンにより検知され、音声文字変換ツール(いわゆる音声認識プログラム)を通じて文字列(例えば、「しょうひんせんたく
」に変換される。そして、変換された文字列「しょうひんせんたく」が発話定義ツールに引き渡される。
Then, the spoken voice information is detected by, for example, a microphone, and is converted into a character string (for example, “Shohinsen Taku”) through a voice character conversion tool (so-called voice recognition program). “Shohinsen Taku” is delivered to the utterance definition tool.
発話定義ツールは、上記ユーザインターフェースを識別する情報(例えば、HTMLのファイルの所在を示すURL、そのHTMLファイル中で上記プルダウンメニュを表示させるタグ情報)と、そのユーザインターフェース上の文字列(例えば、「商品選択」)と、発話内容から変換された文字列(例えば、「しょうひんせんたく」)とを関係付けてデータベースに格納する。 The utterance definition tool includes information for identifying the user interface (for example, a URL indicating the location of an HTML file, tag information for displaying the pull-down menu in the HTML file), and a character string on the user interface (for example, “Product selection”) and a character string converted from the utterance content (for example, “Shohinsen Taku”) are related and stored in the database.
データベースには、発話内容とユーザインターフェース部品とを関係付ける発話定義情報、発話定義情報を構築するための各種管理情報(各種マスタという)が格納されている。 The database stores utterance definition information relating utterance contents and user interface components, and various management information (referred to as various masters) for constructing utterance definition information.
クライアント2には、事前に、サーバ1から上記データベースが提供されている。また、クライアント2には、音声文字変換ツールの他、エンジンと呼ばれるプログラムがインストールされている。
The
エンジンは、音声文字変換ツールにから引き渡される文字列に基づいて、データベースを検索し、その文字列に関係付けられるユーザインターフェース部品を特定し、そのユーザインターフェース部品に応じた処理を実行する。例えば、エンジンは、文字列に対応するユーザインターフェース部品を含むブラウザのウィンドウを表示する。 The engine searches the database based on the character string delivered from the speech to character conversion tool, identifies the user interface component related to the character string, and executes processing corresponding to the user interface component. For example, the engine displays a browser window including a user interface component corresponding to the character string.
また、エンジンは、そのウィンドウと他のウィンドウとの表示上の階層関係の変更する。例えば、エンジンは、そのユーザインターフェース部品を含むブラウザのウィンドウを最上位に表示する。また、エンジンは、そのユーザインターフェース部品の選択(ポインタの位置づけ)、または、そのユーザインターフェース部品への文字列の設定を実行する。 The engine also changes the hierarchical relationship on the display between the window and other windows. For example, the engine displays a browser window including the user interface component at the top. Further, the engine selects the user interface component (positions the pointer) or sets a character string in the user interface component.
このようにして、本情報システムでは、サーバ1上の発話定義ツールによって発話定義情報が構築され、サーバ1からクライアント2に提供される。クライアント2では、音声文字変換ツールが発話内容を文字列に変換する。また、音声文字変換ツールと連携するエンジンが変換された文字列から対応させるべきユーザインターフェース部品を特定し、上記そのユーザインターフェース部品に応じた処理を実行する。
Thus, in this information system, the utterance definition information is constructed by the utterance definition tool on the
このようにして本情報システムでは、サーバ1のウェブページとして提供されるユーザインターフェースに、サーバ1のプログラムを改変することなく、発話によるユーザインターフェースを追加することができる。
Thus, in this information system, a user interface based on utterance can be added to a user interface provided as a web page of the
図2に、サーバ1上の処理を示すフローチャートを示す。このフローチャートは、左右および中央からなる3つの縦長領域に分割され、各領域がサーバ1で実行されるプログラムを示している。したがって、図2のフローチャートにより、プログラム間の連携関係も示されている。図2で、左側領域がユーザインターフェースを形成するアプリケーションを示す。また、中央の領域が発話定義ツールを示す。また、右側の領域が音声文字変換部を示す。なお、音声文字変換部は、例えば、商用の音声認識プログラムと、音声認識の結果得られる発話定義情報とを含む。
FIG. 2 shows a flowchart showing processing on the
なお、本実施形態では、音声認識プログラムについて制限はなく、一般のアプリケーションプログラムとのインターフェースがあるものであれば、どのようなプログラムを使用してよい。 In the present embodiment, the voice recognition program is not limited, and any program may be used as long as it has an interface with a general application program.
この処理では、まず、サーバ1上で発話定義ツールが起動される(S1)。すると、サーバ1の表示装置に発話定義ツールの操作画面が表示される。また、サーバ1上では、すでに、音声認識機能を付加したいアプリケーションプログラムのユーザインターフェース(例えば、ブラウザ画面上でウェブアプリケーションのユーザインターフェースの画面)が起動されていると仮定する。
In this process, first, an utterance definition tool is activated on the server 1 (S1). Then, the operation screen of the utterance definition tool is displayed on the display device of the
ユーザは、そのユーザインターフェースに相当する画面を発話定義ツールの操作画面にドラッグアンドドロップする(S2)。すると、発話定義ツールは、そのユーザインターフェースを定義する定義情報(本発明の画面表示定義情報に相当する)、例えば、HTMLファイル、XMLファイル等の存在場所を示す識別情報(URL、Uniform Resource Locator 等)を取得する。この定義情報は、周知のように、サーバ1のハードディスク、
あるいは、サーバ1とネットワークを通じて接続される他のコンピュータの記憶装置に格納されている。
The user drags and drops a screen corresponding to the user interface onto the operation screen of the utterance definition tool (S2). Then, the utterance definition tool defines definition information (corresponding to the screen display definition information of the present invention) that defines the user interface, for example, identification information (URL, Uniform Resource Locator, etc.) indicating the location of the HTML file, XML file, etc. ) To get. As is well known, this definition information includes the hard disk of the
Alternatively, it is stored in a storage device of another computer connected to the
そして、そのユーザインターフェースを定義する情報を解析し(この処理を実行するサーバ1のCPUが部品情報を検索する手段に相当)、ユーザインターフェースを構成する部品(本発明のユーザインターフェース部品に相当)、例えば、ラベル、入力フィールド、プルダウンメニュのリスト、押しボタンのラベル等の定義情報(本発明の部品情報に相当)を取得する。そして、発話定義ツールは、そのユーザインターフェースを示す画面を生成する(S3)。
Then, the information defining the user interface is analyzed (corresponding to means for retrieving the component information by the CPU of the
次に、発話定義ツールは、ユーザの操作に応じてユーザインターフェース上の各フィールド、あるいは、各ユーザインターフェース部品にそれぞれ発話による読みを設定していく(S4)。すなわち、定義ツールは、ユーザの入力装置(キーボード、マウス等ポインティングデバイス)を通じた操作に応じて、読みを設定する対象のユーザインターフェース部品を選択する(フォーカスする)。そして、その状態で、マイクロホンを通じて入力された音声が、音声文字変換ツールによって文字列に変換される。発話定義ツールは、音声文字変換ツールのアプリケーションインターフェースを通じて変換された文字列を取得する(この処理を実行するサーバ1のCPUが、本発明のユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段に相当する)。ただし、マイクロホンを通じて入力された音声入力する代わりに、キーボードあるいはポインティングデバイス等により、発話文字列を手入力するようにしても構わない。
Next, the utterance definition tool sets utterance readings for each field on the user interface or each user interface component according to the user's operation (S4). That is, the definition tool selects (focuses) a user interface component to be set for reading in accordance with an operation through a user input device (a pointing device such as a keyboard and a mouse). In this state, the voice input through the microphone is converted into a character string by the voice character conversion tool. The utterance definition tool acquires the character string converted through the application interface of the phonetic character conversion tool (means that the CPU of the
さらに、必要に応じて、そのユーザインターフェース部品に対する属性を設定する。そして、そのユーザインターフェース部品を識別する情報(例えば、HTMLファイルのタグ)と音声に基づく文字列と属性情報等が組になって音声文字変換部のデータベースに格納される(S5)。図2では、このデータベースを辞書ファイルおよびプロファイルとして示している。 Furthermore, attributes for the user interface parts are set as necessary. Then, information identifying the user interface component (for example, an HTML file tag), a character string based on speech, attribute information, and the like are paired and stored in the database of the speech character conversion unit (S5). In FIG. 2, this database is shown as a dictionary file and a profile.
次に、発話定義ツールは、対象アプリケーションを動作させる固有の情報を作成し、データベースに記憶する(S6)。すなわち、S4の処理にて変換された文字列およびS5にて設定された属性等が、選択中のユーザインターフェース部品と関係付けてデータベースに記憶される(データベースが本発明の発話部品テーブルに記憶する手段に相当する)。 Next, the utterance definition tool creates unique information for operating the target application and stores it in the database (S6). That is, the character string converted in the process of S4, the attribute set in S5, and the like are stored in the database in association with the selected user interface component (the database is stored in the speech component table of the present invention). Equivalent to the means).
図3は、図2の設定によって音声認識機能が付加されたユーザインターフェースを利用するクライアント2側の処理を示すフローチャートである。このフローチャートは、左右および中央からなる3つの縦長領域に分割され、各領域がクライアント2で実行されるプログラムを示している。したがって、図3のフローチャートにより、プログラム間の連携関係も示されている。図3で、左側領域がユーザインターフェースを形成するアプリケー
ションを示す。また、中央の領域が音声認識機能を制御するエンジンを示す。また、右側の領域が音声文字変換部を示す。
FIG. 3 is a flowchart showing processing on the
予め、クライアント2には、図2のS4−S6の処理で設定されたデータベースの情報(辞書ファイルおよびプロファイル、本発明の発話部品テーブルに相当)がダウンロードされている(この処理を実行するクライアント2のCPUが他の情報処理装置から前記発話部品テーブルの情報の提供を受ける手段に相当する。また、データベースの情報を提供するサーバ1のCPUが、本発明の発話部品テーブルの情報を提供する手段に相当する)。なお、データベースの情報は、クライアント2がサーバ1にアクセスするたびにサーバ1からダウンロードするようにしてもよい。また、クライアント2がサーバ1にアクセスしたときに、データベースの情報がクライアント2にないことが検知されたときにサーバ1からダウンロードするようにしてもよい。また、クライアント2がサーバ1にアクセスしたときに、データベースの情報が更新されていることが検知されたときにサーバ1からダウンロードするようにしてもよい。このデータベースを記憶するクライアント2のハードディスクが本発明の発話部品テーブルを記憶する手段に相当する。
The database information (dictionary file and profile, corresponding to the speech component table of the present invention) set in the processing of S4-S6 in FIG. 2 is downloaded to the
また、クライアント2には、一般的なブラウザおよび音声文字変換ツールがインストールされている。さらに、音声文字変換ツールの音声認識結果である文字列を受け取り、データベース(辞書ファイルおよびプロファイル)を検索するエンジンがインストールされる。サーバ1が、クライアント2にエンジンがインストールされていないことを検知したときに、エンジンとデータベースの情報とダウンロードするようにしてもよい。このような処理を実行するサーバ1のCPUが、本発明のコンピュータプログラムを配布する手段に相当する。
The
このようなインストールが完了した状態で、まず、エンジンが起動される(S11)。エンジンが起動された状態で、アプリケーションプログラムのユーザインターフェース(本発明の第1の画面部分に相当)が起動されると(S12A)、エンジンは、そのアプリケーションプログラムのユーザインターフェースを定義する定義情報(本発明の画面表示定義情報に相当)、例えば、HTMLファイル、XMLファイル等の存在場所を示す識別情報(URL等)を取得する。例えば、エンジンは、ブラウザが表示先のURLを切り替えるごとにそのURLを検知する。そして、エンジンは、そのURLがデータベース(辞書ファイルおよびプロファイル)に設定されたURLと一致するか否かを判定する。 With such installation completed, the engine is first started (S11). When the user interface of the application program (corresponding to the first screen portion of the present invention) is started in the state where the engine is started (S12A), the engine defines definition information (this book) that defines the user interface of the application program. For example, identification information (URL or the like) indicating the location of an HTML file, XML file, or the like is acquired. For example, the engine detects the URL every time the browser switches the display destination URL. Then, the engine determines whether or not the URL matches the URL set in the database (dictionary file and profile).
そして、識別情報がデータベースに設定されている場合、エンジンはその識別情報で定義されるユーザインターフェースが音声認識の対象であると判断する。その場合には、エンジンは、その識別情報で示される格納先からユーザインターフェース部品を定義する定義情報(本発明の部品情報に相当)を読み出し、本来のユーザインターフェースに重畳する疑似画面(本発明の第2の画面部分に相当)を生成する(S13)。 If the identification information is set in the database, the engine determines that the user interface defined by the identification information is the target of speech recognition. In that case, the engine reads the definition information (corresponding to the component information of the present invention) that defines the user interface component from the storage location indicated by the identification information, and superimposes it on the original user interface (the present invention). (Corresponding to the second screen portion) is generated (S13).
したがって、この状態では、ユーザが実行中のアプリケーションのユーザインターフェースにオーバーラップして、疑似画面が表示装置に表示されている(この表示を制御するクライアント2が本発明の第2の画面部分を表示する手段に相当する)。ただし、ユーザから見ると、本来のアプリケーションプログラムのユーザインターフェースが表示されているように見える。本実施形態の情報システムでは、この段階までをクライアント2側の準備作業と呼ぶ。
Therefore, in this state, the pseudo screen is displayed on the display device so as to overlap the user interface of the application being executed by the user (the
このように準備作業が終了した状態で、ユーザが音声入力する。例えば、ユーザがマイクロホンに向かって発話する(S14)。すると、音声文字変換ツールが音声をASCIIコードに変換する(S15)。さらに、音声文字変換ツールがASCIIコードから文字列(テキスト)を生成する。 Thus, the user performs voice input in a state where the preparation work is completed. For example, the user speaks into the microphone (S14). Then, the voice character conversion tool converts the voice into an ASCII code (S15). Further, the voice character conversion tool generates a character string (text) from the ASCII code.
そして、音声認識された文字列がエンジンに引き渡される(S17、この処理を実行するクライアント2のCPUが発話を受け付けて生成された文字列情報を取得する手段に相当する)。エンジンは、音声認識ツールから引き渡された文字列を基にデータベース(辞書ファイルおよびプロファイル)を検索する(この処理を実行するクライアント2のCPUが生成された文字列情報に対応するユーザインターフェース部品を特定する手段に相当する)。
Then, the voice-recognized character string is delivered to the engine (S17, which corresponds to a means for acquiring character string information generated by the CPU of the
その文字列に対応づけたユーザインターフェース部品がデータベースに定義されていた場合、エンジンはそのユーザインターフェース部品に応じた処理を実行する(S19、この処理を実行するクライアント2のCPUがユーザインターフェース部品に応じた処理を実行する処理手段に相当する)。
When the user interface component associated with the character string is defined in the database, the engine executes a process corresponding to the user interface component (S19, the CPU of the
例えば、エンジンは、そのユーザインターフェース部品が画面の一部を構成するウィンドウである場合には、そのウィンドウを表示する。また、エンジンは、そのウィンドウを複数ウィンドウからなる階層のうちの最上位の階層に表示する。また、そのユーザインターフェース部品がテキスト入力フィールドである場合には、エンジンは、その入力フィールドに文字列を設定する。また、そのユーザインターフェース部品がプルダウンメニュのタイトルである場合、エンジンは、そのプルダウンメニュのリスト(選択肢)を表示する。また、そのユーザインターフェース部品がプルダウンメニュのリストに含まれる要素(選択肢)の1つである場合、エンジンは、その選択肢を選択する。また、そのユーザインターフェース部品が押しボタンのラベルである場合、エンジンは、その押しボタンを押下する。このようにして、エンジンは、S14からS19までの処理が繰り返すように制御する。 For example, when the user interface component is a window constituting a part of the screen, the engine displays the window. Further, the engine displays the window in the highest hierarchy among the hierarchy composed of a plurality of windows. When the user interface component is a text input field, the engine sets a character string in the input field. When the user interface component is a pull-down menu title, the engine displays a list (option) of the pull-down menu. When the user interface component is one of the elements (options) included in the pull-down menu list, the engine selects the option. If the user interface component is a push button label, the engine presses the push button. In this way, the engine controls to repeat the processes from S14 to S19.
<データ構造>
以下、本実施形態の情報システムが使用するデータベース(辞書ファイルおよびプロファイル)のデータ構造を説明する。本実施形態では、データベースは、複数のテーブルから構成され、例えば、ハードディスク等の記憶装置に記憶されている。
<Data structure>
Hereinafter, the data structure of the database (dictionary file and profile) used by the information system of this embodiment will be described. In the present embodiment, the database is composed of a plurality of tables, and is stored in a storage device such as a hard disk, for example.
図4は、URLマスタと呼ばれるテーブルの構成を示す図である。URLマスタは、ブラウザに表示されるウェブページを定義する定義情報の格納先を記録する。すなわち、URLマスタは、エンジンの処理対象であるユーザインターフェースを示す情報を格納している。 FIG. 4 is a diagram showing a configuration of a table called a URL master. The URL master records the storage location of the definition information that defines the web page displayed on the browser. That is, the URL master stores information indicating the user interface that is the processing target of the engine.
図4のように、URLマスタは、テーブルの各行を識別する情報のフィールド(L_ID)、URLを格納するフィールド(S_URL)、そのウェブページのタイトルを格納するフィールド(S_TITLE)、そのURLをデータベースに登録した日付(D_REGISTER)、そのURLの情報を更新した日付(D_UPDATE)等を有している。 As shown in FIG. 4, the URL master stores a field (L_ID) of information for identifying each row of the table, a field (S_URL) for storing the URL, a field (S_TITLE) for storing the title of the web page, and the URL in the database. The registered date (D_REGISTER), the date of updating the URL information (D_UPDATE), and the like.
図5は、フィールドマスタの構成を示す図である。フィールドマスタは、各ウェブページ上のユーザインターフェース部品を定義する。URLマスタは、サーバ1において、ユーザインターフェース部品の定義情報が解析された結果生成されるテーブルである。
FIG. 5 is a diagram showing the configuration of the field master. The field master defines user interface components on each web page. The URL master is a table generated as a result of analyzing user interface component definition information in the
図5のように、フィールドマスタの各行の先頭には、URLマスタのL_IDが指定されている。したがって、フィールドマスタの各行は、URLマスタのいずれかの行と関連づけされる。 As shown in FIG. 5, the L_ID of the URL master is specified at the top of each line of the field master. Thus, each row in the field master is associated with any row in the URL master.
また、フィールドマスタは、カーソル移動語(そのユーザインターフェース部品のフィ
ールド名、S_TITLE)、データ型(S_FIELD_TYPE、S_TAG_TYPE)、属性(S_FIELD_INFO)、そのフィールドに設定すべき値が価格であった場合の商品単価やフィールドの書式(S_UNIT、S_FORMAT)、そのフィールドから抽出された値(S_DEFAULTFORMおよびS_WRITEFORM)等を含んでいる。
In addition, the field master is a unit price when the cursor movement word (field name of the user interface part, S_TITLE), data type (S_FIELD_TYPE, S_TAG_TYPE), attribute (S_FIELD_INFO), and the value to be set in the field is a price. And field format (S_UNIT, S_FORMAT), values extracted from the field (S_DEFAULTFORM, S_WRITEFORM), and the like.
このうち、S_DEFAULTFORMは表記用文字列である。音声文字変換ツールとのインターフェース部分において、ユーザインターフェース部品の文字列に半角・全角スペースがあると認識不可となってしまう場合がある。そこで、表記用文字列から半角・全角スペースを削除したものがS_WRITTENFORMである
なお、フィールドから抽出された値(S_DEFAULTFORMおよびS_WRITEFORM)は、ユーザインターフェース部品がテキスト入力フィールドである場合には、入力する文字列が固定である場合を除いて空欄であり、ユーザインターフェース部品がプルダウンメニュの選択肢である場合には、その要素の値であり、ユーザインターフェース部品が押しボタンである場合には、そのラベルであり、ユーザインターフェース部品がウィンドウやプルダウンメニュのタイトルである場合には、そのタイトル文字列である。このフィールドから抽出された値(S_DEFAULTFORMおよびS_WRITEFORM)は、ユーザインターフェース部品に対応付けられる値と呼ぶ。
Of these, S_DEFAULTFORM is a character string for notation. In the interface portion with the voice character conversion tool, if there is a single-byte / double-byte space in the character string of the user interface component, recognition may not be possible. Therefore, S_WRITETENFORM is obtained by deleting half-width and full-width spaces from the notation character string. Note that values extracted from the field (S_DEFAULTFORM and S_WRITEFORM) are input characters when the user interface component is a text input field. Blank unless the column is fixed, the value of the element if the user interface component is a pull-down menu option, and the label if the user interface component is a push button. When the user interface component is a title of a window or pull-down menu, the title character string is used. Values extracted from this field (S_DEFAULTFORM and S_WRITEFORM) are called values associated with user interface components.
図6は、発話マスタの構成を示す図である。発話マスタは、ユーザインターフェース部品それぞれに対応付けられる値(S_WRITEFORM)に対応する読み(S_SPOKENFORM)を定義する。例えば、「コーヒー」に対して「こーひー」が対応付けられ、「商品選択」に対して「しょうひんせんたく」が対応付けられる。 FIG. 6 is a diagram showing the configuration of the utterance master. The utterance master defines a reading (S_SPOKENFORM) corresponding to a value (S_WRITEFORM) associated with each user interface component. For example, “Coffee” is associated with “Coffee”, and “Shohinsen Taku” is associated with “Product selection”.
なお、ユーザインターフェース部品それぞれに対応付けられる値の1つに対して、複数の読みを設定してよい。例えば、「四菱プラズマテレビ50インチYPT−50」という値に対して、「ごじゅういんちぷらずま」、「ごじゅういんちぷらずまてれび」、「よんびしぷらずまてれびごじゅういんち」等が設定される。例えば、本実施形態の情報システムがインターネットショッピングのユーザインターフェースに対して、音声認識機能を追加する場合、商品名である「四菱プラズマテレビ50インチYPT−50」に対して、サービスを利用するエンドユーザは、様々な読みを発話することが想定される。発話マスタには、値(S_WRITEFORM)に対して想定される読みを数多く設定しておけばよい。 A plurality of readings may be set for one of the values associated with each user interface component. For example, for the value of “Shiryo Plasma TV 50 inch YPT-50”, “Gojyu Chun Pizuma”, “Gyo Ji Chun Pizuma Telebi”, “Yonbushi Pizuma Temare Gyujo” Inch "etc. are set. For example, when the information system of this embodiment adds a voice recognition function to a user interface for Internet shopping, an end of using a service for the product name “Shiryo Plasma TV 50 inch YPT-50”. It is assumed that the user speaks various readings. The utterance master may be set with many possible readings for the value (S_WRITEFORM).
さらに、図6のように、各行には、読みの設定日付のフィールド(D_REGISTER)が設けられている。 Further, as shown in FIG. 6, each row is provided with a field (D_REGISTER) for reading setting date.
図7は、移動語マスタと呼ばれるテーブルの構成を示す図である。移動語マスタは、ユーザインターフェース部品それぞれに対応付けられる値のうち、移動語として利用される値を定義するテーブルである。移動語とは、その発話結果から変換された文字列が移動語マスタに値(S_WRITEFORM)として登録されていた場合、その値に対応するユーザインターフェース部品にポインティングデバイスのポインタが移動する。すなわち、そのユーザインターフェース部品が選択状態(フォーカスされた状態)となる。図7のように、移動語マスタは、値(S_WRITEFORM)、読み(S_SPOKENFORM)、およびデータ登録日付(D_REGISTER)が組になって格納する。 FIG. 7 is a diagram showing a configuration of a table called a mobile word master. The movement word master is a table that defines values used as movement words among values associated with user interface components. When the character string converted from the utterance result is registered as a value (S_WRITEFORM) in the mobile word master, the pointer of the pointing device moves to the user interface component corresponding to the value. That is, the user interface component is selected (focused). As shown in FIG. 7, the mobile word master stores a value (S_WRITEFORM), a reading (S_SPOKENFORM), and a data registration date (D_REGISTER) in pairs.
図8は、予約語マスタを示す図である。予約語マスタは、システムが、サーバ1にて使用される前事前に予約された値(S_WRITEFORM)と読み(S_SPOKENFORM)との関係を定義するテーブルである。
FIG. 8 is a diagram showing a reserved word master. The reserved word master is a table in which the system defines a relationship between a value (S_WRITEFORM) reserved in advance before being used in the
予約語マスタには、例えば、電話番号、FAX番号等、市内局番等、使用頻度が高く、読み方がほとんど決まっている文字列について読みが定義される。 In the reserved word master, for example, readings are defined for character strings that are frequently used and are almost determined how to read, such as telephone numbers, FAX numbers, and local station numbers.
例えば、「今日」という文字列が入力されると、予約語マスタに存在する場合、クライアント2の日付を取得し、その日付を入力する。例えば、クライアント2の日付が2005年12月12日で「明日」と発話した場合、本日の日付を取得し、1日加算し、「2005/12/13」を入力する。(間の/は、図10の属性マスタの定義によるものとする)。
For example, when a character string “today” is input, if it exists in the reserved word master, the date of the
図9は、単位マスタを示す図である。図9のテーブルは文字列を定義する際の単位の一覧を表している。具体的にはS_DISPLAYは文字列の単位を表し、S_ATTRは図10のS_ATTRとリンクされ、その文字列の書式属性を表している。
図10は、属性マスタを示す図である。図9の単位マスタにより文字列の単位が定義され、図10の属性マスタによりその文字列の表示属性が定義される。また、図10の属性マスタは、図5のフィールドマスタとS_FORMATによりリンクされている。すなわち、各ユーザインターフェース部品に表示される文字列の表示書式は、フィールドマスタのS_FORMATを基に、図10の属性マスタが検索され、決定される。
FIG. 9 is a diagram illustrating a unit master. The table of FIG. 9 represents a list of units when defining a character string. Specifically, S_DISPLAY represents a unit of a character string, and S_ATTR is linked with S_ATTR in FIG. 10 and represents a format attribute of the character string.
FIG. 10 shows an attribute master. The unit of the character string is defined by the unit master of FIG. 9, and the display attribute of the character string is defined by the attribute master of FIG. The attribute master in FIG. 10 is linked to the field master in FIG. 5 by S_FORMAT. That is, the display format of the character string displayed on each user interface component is determined by searching the attribute master of FIG. 10 based on the field master S_FORMAT.
<実施例>
図11から図15の図面により、本情報システムによる実施例を説明する。本実施例では、インターネットのショッピングサイトに対して音声認識機能を追加する例を説明する。
<Example>
An embodiment according to the information system will be described with reference to FIGS. In this embodiment, an example of adding a voice recognition function to an Internet shopping site will be described.
図11は、サーバ1においてユーザインターフェース部品(フィールドともいう)に対して音声入力を対応付ける操作を示す図である。図11には、サーバ1で実行される定義ツール(Voice Moderato Translator(商標))の操作画面(ウィンドウともいう)10
が示されている。この操作画面10は、画面の略左半分の領域にウェブページ表示部11を有している。このウェブページ表示部11には、音声認識機能を追加するユーザインターフェース、例えば、ウェブアプリケーションのウェブページが表示される。サーバ1のユーザ
が、例えば、音声認識機能を追加したいウェブページをウェブページ表示部11にドラッグアンドドロップすることで、そのウェブページが表示される。
FIG. 11 is a diagram illustrating an operation of associating a voice input with a user interface component (also referred to as a field) in the
It is shown. The
However, for example, by dragging and dropping a web page to which a voice recognition function is to be added to the web
また、画面の略右半分は、ウェブページ表示部11に表示されたウェブページの解析結果および発話情報の設定領域となっている。すなわち、操作画面10は、オブジェクト階層表示部12、音声化対象URL表示部13、認識語登録部14、読み設定部16のそれぞれの領域を有している。
The substantially right half of the screen is a setting area for analysis results and speech information of the web page displayed on the web
オブジェクト階層表示部12は、処理対象に指定されたウェブページ、すなわち、ウェブページ表示部11に表示されたウェブページを解析し、そのウェブページ上のユーザインターフェース部品(図11では、オブジェクトともいう)の関係を階層的に表示する。一般的に、ユーザインターフェースは、ユーザインターフェース部品の階層的な組み合わせによって構成される。また、ユーザインターフェース部品は、複数の下位部品の階層的は組み合わせによって構成される。オブジェクト階層表示部12は、処理対象のウェブページの階層構造を示す。
The object
例えば、ユーザインターフェースは、最上位にフォームと呼ばれるウィンドウ領域が定義され、フォーム上に、テキストボックス(テキスト入力フィールド)、プルダウンメニュ、チェックボタン等を配置して構成される。また、テキストボックスは、一般的には、タイトルを示すラベルと文字列入力フィールドを含む。また、プルダウンメニュは、タイトルを示すラベルと選択肢を示すリストと、リストを構成する要素の並びで構成される。 For example, the user interface is defined by defining a window area called a form at the top, and arranging a text box (text input field), a pull-down menu, a check button, and the like on the form. The text box generally includes a label indicating a title and a character string input field. The pull-down menu is composed of a label indicating a title, a list indicating options, and an arrangement of elements constituting the list.
音声化対象URL表示部13は、音声認識機能を追加するウェブページを示すURLが、そのウェブページのタイトルとともに表示される。このURLは、例えば、ユーザがウェブページをウェブページ表示部11にドラッグアンドドロップすることにより、定義ツールが取得する。タイトルは、URLが示す定義ファイル(HTML、XML等)から抽出される。
The voice-target
認識語登録部14は、処理対象のユーザインターフェース部品に、発話によって認識すべき文字列を対応付けて登録する。例えば、図11では、ウェブページ上の「商品」というタイトルで示される箇所で、「商品選択」というタイトルのプルダウンメニュが操作されている。
The recognition
このとき、オブジェクト階層表示部12は、「商品選択」というプルダウンメニュが処理中であることが色(図11上では黒く見える)で示され、認識語登録部14には、タイトルが「商品」であり、データ型が「選択」すなわち、選択肢を含むユーザインターフェース部品であることが示される。
At this time, the object
図11のように、オブジェクト階層表示部12は、移動語登録ボタン15を有している。ユーザが移動語登録ボタンを押下すると、移動語登録画面が表示される。移動語登録ボタン15は、タイトルに表示された文字列を移動語として設定するボタンである。
As shown in FIG. 11, the object
図12に移動語登録画面を示す。移動後登録画面には、移動語に設定する文字列とその読みが組となって表示される。例えば、「商品選択」(読み「しょうひんせんたく」)という文字列が移動語として登録されると、この処理対象のウェブページが表示されている状態で、「しょうひんせんたく」という音声が発話されると、「商品選択」のタイトルの付されたプルダウンメニュがフォーカス状態になる。 FIG. 12 shows a moving word registration screen. On the post-movement registration screen, a character string set for the movement word and its reading are displayed as a set. For example, if the character string “Product selection” (reading “Syohinsen taku”) is registered as a moving word, the sound “Shohinsen taku” will be displayed while the web page to be processed is displayed. When uttered, the pull-down menu with the title “product selection” is in focus.
図12において、読み設定部15には、処理対象のユーザインターフェース部品に設定すべき、または、ユーザインターフェース部品を操作するときに使用する文字列(入力文字)を定義する。ここでは、例えば、「商品選択」というプルダウンメニュのタイトルである文字列「商品選択」に対する発話音声「しょうひんせんたく」が定義される。また、プルダウンメニュの選択肢である、「コーヒー」に対する「こーひー」、「大豆」に対する「だいず」等が設定される。このような設定により、「しょうひんせんたく」が発話されると、「商品選択」というタイトルのプルダウンメニュがフォーカスされ、その状態で、「こーひー」と発話されると、「コーヒー」という選択肢が選択されることになる。すでに述べたように、入力文字に対して複数の読みを設定しても構わない。設定後、ユーザが、更新ボタン17を押下すると、設定内容が、URLともに、データベースに格納される。
In FIG. 12, the
ユーザは、以上のような設定をウェブページのそれぞれのユーザインターフェース部品に対して実行する。このような設定のなされたユーザインターフェース部品が音声認識の処理対象となる。 The user executes the above settings for each user interface component of the web page. The user interface component set as described above is a speech recognition processing target.
図13に、インターネットショッピングを利用するエンドユーザのクライアント2上での処理例とこの処理に関係するクライアント2のアプリケーションプログラムを示す。
FIG. 13 shows an example of processing on the
クライアント2には、すでに、ブラウザ20、エンジン21,音声文字変換ツール22がインストールされている。また、ブラウザ20およびエンジン21は、クライアント2上で実行中であるとする。
In the
図13では、ブラウザ20は、インターネットショッピングサイトを表示している。このインターネットショッピングサイトの音声入力を定義するデータベースは、クライアント2が最初にインターネットショッピングサイトにアクセスしたときにダウンロードされる。また、例えば、エンジン21をインストールするときに、最新のデータベースをサーバ1からダウンロードするようにしてもよい。
In FIG. 13, the
エンジン21は、起動されると常時、ブラウザ20が表示するウェブページを示すURLを監視している。そして、エンジン21は、ブラウザ20が表示するURLがデータベースのURLマスタに登録されているか否かを判定する。そして、エンジン21は、そのURLがデータベースのURLマスタに登録されていている場合、そのURLが音声認識処理の対象であると判定する。すると、エンジン21は、そのURLで示される定義ファイル(HTML、XML等)を読み出し、ブラウザ20が表示するウェブページと同様の疑似画面を生成し、ブラウザ20の表示に重畳して表示する。したがって、エンドユーザから見ると、あたかも、ブラウザ20によってウェブページが表示されているように見える。
When the
この状態で、エンドユーザが音声を発話すると、その音声がマイクロホン、入出力インターフェースを通じて、音声データとしてクライアント2の実行する音声文字変換ツール22に取り込まれる。音声文字変換ツール22は、その音声データを音素分析し、音声データをASCIIコード列に変換する。さらに、音声文字変換ツール22は、辞書を検索し、ASCIIコード列を単語(または形態素)に分解し、辞書と照合する。そして、音声文字変換ツール22は、単語(または形態素)の並びであるテキストを生成し、引数を通じてエンジン21に引き渡す。
In this state, when the end user speaks a voice, the voice is taken into the voice
エンジン21は、テキスト中の単語(または形態素)からデータベースの予約語マスタを検索し、発話された音声に該当する入力文字とその入力文字を入力すべきユーザインターフェース部品を決定する。あるいは、移動語マスタを検索して、発話された音声によって選択対象とすべきユーザインターフェース部品を決定する。あるいは、発話マスタおよびフィールドマスタを検索し、発話された音声に該当する入力文字とその入力文字を入力すべきユーザインターフェース部品を決定する。そして、その入力文字を該当するユーザインターフェース部品に設定し、表示装置(ディスプレイ)上のウェブページの疑似画面に表示する。
The
図14に、音声入力によって設定されたウェブページの例を示す。例えば、エンジン21が起動中に、エンドユーザが図14のウェブページをブラウザで表示すると、エンジン21は、そのURLがデータベースのURLマスタに登録されていることを検知する。そして、エンジン21は、そのURLによりウェブページの構成を読みとり、ウェブページの疑似画面をブラウザに重畳して表示する。
FIG. 14 shows an example of a web page set by voice input. For example, when the end user displays the web page of FIG. 14 with the browser while the
そして、例えば、エンドユーザが「ちゅうもんないよう」と発話すると、疑似画面中の「注文内容」部分がフォーカスされる。ここで、例えば、「うけつけばんごうはいちにさんし」と発話すると、音声文字変換ツールによって「うけつけばんごう」「は」「いちにさんし」に変換される。エンジン21は、「うけつけばんごう」によって、発話マスタを検索し、「うけつけばんごう」を「受付番号」に変換する。さらに、エンジン21は、フィールドマスタを検索し、フィールド「受付番号」を決定し、そのフィールドを識別する情報(図5のI_FIELDとI_VALUEの値)を取得する。また、エンジン21は、「は」の後の「いちにさんし」によって「1234」を決定し、「受付番号」のフィールドに「1234」を設定する。
Then, for example, when the end user speaks “Let's do nothing”, the “order contents” portion in the pseudo screen is focused. Here, for example, when “Uketsubango is Ichini-sanshi” is uttered, it is converted into “Uketsu-bangogo”, “ha”, and “Ichini-sanshi” by the phonetic character conversion tool. The
また、例えば、エンドユーザが「こーひー」と発話すると、音声文字変換ツールによっ
て「こーひー」に変換される。エンジン21は、「こーひー」を基に、発話マスタ(図6)を参照し、文字列「コーヒー」を取得する。次に、エンジン21は、「コーヒー」を基に、ウェブページに対応する(L_IDでURLマスタとリンクされる)フィールドマスタ(図5)を参照し、「コーヒー」を設定すべきユーザインターフェース部品(図5のI_FIELDとI_VALUEの値で識別される)と、そのユーザインターフェース部品が表示されるウェブページのURL(図5のL_IDの値によって定まる図4のURLマスタの行のURL)を決定する。
Also, for example, when the end user speaks “Kohi”, it is converted into “Kohi” by the phonetic character conversion tool. The
図14は、郵便番号と電話番号の入力例を示す図である。郵便番号に関しては例えば、エンドユーザが「ゆうびんばんごういちにさんのよんごろくなな」と発話すると、音声文字変換ツールによって、「ゆうびんばんごう」「いちにさん」「の」「よんごろくなな」に変換される。エンジン21は、「ゆうびんばんごう」によって予約後マスタ(または、発話マスタ)を検索し、「郵便番号」を検知する。さらに、エンジン21は、フィールドマスタの属性を検索し、フィールド「郵便番号」を決定する。また、フィールド「郵便番号」が複数存在する場合、ウェブページの疑似画面の現在位置をHTMLファイルあるいはXMLファイル等のウェブページを構成するファイルから取得し、その位置以降の最初のフィールド「郵便番号」に決定する。
FIG. 14 is a diagram illustrating an example of inputting a zip code and a telephone number. As for postal codes, for example, when an end user speaks “Yubinbangouichi-san no Yongorokuna”, the text-to-speech converter uses the “Yubinbango”, “Ichini-san”, “No”, “Yongo-kunna” Is converted to. The
また、後の「いちにさん」「の」「よんごろくなな」を取得し、数字以外の文字を除外し、数字の羅列を生成する。フィールドマスタで取得した属性を基に書式変換し、「123‐4567」をフィールド「郵便番号」に設定する。 Also, the later “Ichini-san”, “No”, and “Yongorokuna” are acquired, characters other than numbers are excluded, and a list of numbers is generated. The format is converted based on the attribute acquired by the field master, and “123-4567” is set in the field “zip code”.
電話番号に関しては例えば、エンドユーザが「でんわばんごういちにのさんよんごろくのななはちきゅうぜろ」と発話すると、音声文字変換ツールによって、「でんわばんごう」「いちに」「の」「さんよんごろく」「の」「ななはちきゅうぜろ」に変換される。エンジン21は、「でんわばんごう」によって予約後マスタ(または、発話マスタ)を検索し、「電話番号」に変換する。さらに、エンジン21は、フィールドマスタの属性を検索し、フィールド「電話番号」を決定する。また、フィールド「電話番号」が複数存在する場合、ウェブページの疑似画面の現在位置を取得し、その位置以降の最初のフィールド「電話番号」に決定する。また、後の「いちに」「の」「さんよんごろく」「の」「ななはちきゅうぜろ」を取得し、数字以外の文字を除外し、数字の羅列を生成する。フィールドマスタで取得した属性を基に書式変換し、「12‐3456−7890」をフィールド「電話番号」に設定する。
As for phone numbers, for example, when an end user utters “Denbanbangoichi no Sanyokuronoku no Nanachi Kyusero”, the phonetic conversion tool will be used to create “Denbanbango” “Ichini” “No”. It is converted to “San Yongoroku”, “No”, and “Nana Hachikyuzuro”. The
<実施形態の効果>
以上述べたように、本実施形態の情報システムによれば、サーバ1の発話定義ツールは、ユーザインターフェースを構成ウェブページを解析し、そのウェブページを構成するユーザインターフェース部品の階層構造を抽出する。そして、発話定義ツールは、各ユーザインターフェース部品に対応する読みの入力文字を受け付け、各ユーザインターフェース部品の属するURLおよび各ユーザインターフェース部品を識別する識別情報(図5のL_ID、I_FIELD、I_VALUE等の値)とともにデータベースに格納する。
<Effect of embodiment>
As described above, according to the information system of the present embodiment, the utterance definition tool of the
一方、エンドユーザが使用するクライアント2は、サーバ1から各ウェブページのユーザインターフェース部品対して発話による入力文字が定義されたデータベースをダウンロードしておく。そして、クライアント2で実行されるエンジン21が、ブラウザの表示するウェブページに重畳して疑似画面を生成し、重畳して表示する。この状態で、エンドユーザが音声を発話すると、音声文字変換ツールを通じて得られた単語(あるいは形態素)を含むテキストから該当するユーザインターフェース部品が決定され、そのユーザインターフェース部品に応じた処理が実行される。例えば、そのユーザインターフェース部品がテキスト入力フィールドのタイトル、プルダウンメニュのタイトルである場合、そのユー
ザインターフェース部品がフォーカスされた状態になる。また、そのテキストの該当部分がテキスト入力フィールドに設定される。また、そのそのテキストの該当部分がプルダウンメニュの選択肢である場合は、その選択肢が選択される。
On the other hand, the
このように、本情報システムによれば、ウェブページを定義する定義ファイル(HTML、XML、JSP、IIS等)、およびそのウェブページを構成するアプリケーションプログラムを変更することなく、ウェブ上のユーザインターフェースに音声認識機能を追加することができる。 Thus, according to this information system, a definition file (HTML, XML, JSP, IIS, etc.) that defines a web page and an application program that configures the web page can be changed to a user interface on the web. A voice recognition function can be added.
<変形例>
上記実施形態では、主として、ネットワーク上のサーバ1とクライアント2とを含む情報システムにおいて、音声認識機能を追加する例を示した。しかし、本発明の実施は、このような構成には限定されない。例えば、スタンドアロンのコンピュータにおいて、発話定義ツールとエンジン21の両方を搭載してもよい。すなわち、スタンドアロンのコンピュータにおいて、発話定義ツールによって構築されたデータベースを使用し、そのコンピュータ上で表示されるウェブページに音声入力するようにしてもよい。
<Modification>
In the above-described embodiment, the example in which the voice recognition function is added mainly in the information system including the
また、発話定義ツールとエンジン21とを一体化プログラムとして、エンドユーザに配布してもよい。その場合には、エンドユーザが、利用したいウェブアプリケーション等のウェブページ上のユーザインターフェース部品に、発話による文字列を関連付けてデータベースに登録すればよい。そして、エンドユーザ自身が設定したデータベースの定義を利用して、そのウェブページに音声入力すればよい。
Further, the utterance definition tool and the
また、上記実施形態では、ウェブページ上に表示されるユーザインターフェースに音声入力機能を追加する例を示した。しかし、本発明の実施は、ウェブページ上のユーザインターフェース部品には限定されない。すなわち、HTMLファイル、あるいは、XMLファイル以外であっても、画面上のユーザインターフェース部品の構造、あるいは、そのユーザインターフェース部品のタイトルを示す文字列、入力すべき文字列を定義ツールおよびエンジン21のような外部プログラム(音声入力の対象となるアプリケーション以外のプログラム)が特定可能な場合には、本発明の実施が可能である。
Moreover, in the said embodiment, the example which adds a voice input function to the user interface displayed on a web page was shown. However, implementation of the present invention is not limited to user interface components on web pages. That is, even if the file is not an HTML file or an XML file, the structure of the user interface part on the screen, the character string indicating the title of the user interface part, and the character string to be input are defined as in the definition tool and the
例えば、スタンドアロンのコンピュータにおいて、ワードプロセッサ、表計算プログラム、プレゼンテーションツール等の文書作成プログラムのマクロ定義情報からその文書作成プログラム上に構成したユーザインターフェースの構成を解析するようにしてもよい。 For example, in a stand-alone computer, the configuration of the user interface configured on the document creation program may be analyzed from the macro definition information of the document creation program such as a word processor, a spreadsheet program, or a presentation tool.
例えば、発話定義ツールは、マクロ定義情報を読み取り、上記実施形態と同様にデータベースを構築すればよい。そして、そのデータベースの提供を受けたエンジン21が、文書作成プログラムの起動を監視し、文書作成プログラムが起動されたときに、その起動された文書作成プログラムの擬似プロセスを実行すればよい。そして、擬似プロセスの生成するユーザインターフェース画面が、本来の文書作成プログラムのユーザインターフェースに重畳して表示されるようにすればよい。このような準備の後は、上記実施形態と同様と、音声入力結果を擬似プロセスのユーザインターフェースに設定すればよい。
For example, the utterance definition tool may read the macro definition information and construct a database as in the above embodiment. Then, the
また、例えば、アプリケーションプログラムが、ユーザインターフェースプログラムと処理プログラムとから構成され、ユーザインターフェースプログラムと処理プログラムとがプロセス間通信で通信するような場合には、スタンドアロンの環境で、上記実施形態と同様に、ユーザインターフェースプログラムの画面に重畳して擬似画面を生成、音声入力機能を付加できる。音声入力された結果を文字列に変換し、擬似プロセスのユーザインターフェースプログラムの画面に設定し、プロセス間通信で処理プログラムに引き渡すようにすればよい。 Further, for example, when the application program includes a user interface program and a processing program, and the user interface program and the processing program communicate with each other through inter-process communication, in a stand-alone environment, the same as in the above-described embodiment. A pseudo screen can be generated by superimposing on the screen of the user interface program, and a voice input function can be added. The voice input result may be converted into a character string, set on the screen of the user interface program of the pseudo process, and passed to the processing program by inter-process communication.
また、例えば、ウィンドウ上の部品の構成をリソースファイルとしてバイナリプログラム外に定義しておくアプリケーションにおいては、そのリソースファイルを解析することによって、ユーザインターフェース部品を抽出し、音声入力機能を付加することができる。 In addition, for example, in an application in which the configuration of parts on a window is defined as a resource file outside a binary program, a user interface part can be extracted and a voice input function can be added by analyzing the resource file. it can.
なお、エンジン21、発話定義ツール等のコンピュータ実行可能なプログラムは、ネットワークを通じて、クライアント2、あるいはサーバ1にインストールするようにしてもよい。これらのプログラムをコンピュータが読み取り可能な記録媒体(例えば、DVD,CD−ROM、着脱可能なディスク等)に格納して配布するようにしてもよい。また、エンジン21、発話定義ツール等のコンピュータ実行可能なプログラムをネットワーク上のアプリケーションサービスを提供するサーバに格納しておき、プログラムの機能だけをサーバ1、あるいはクライアント2に提供してもよい。
Computer-executable programs such as the
1 サーバ
2 クライアント
10 操作画面
11 ウェブページ表示部
12 オブジェクト階層表示部
13 音声化対象URL表示部
14 認識語登録部
15 移動語登録ボタン
16 読み設定部
20 ブラウザ
21 エンジン
22 音声文字変換ツール
DESCRIPTION OF
Claims (14)
ユーザインターフェース部品を含み、コンピュータ画面上に構成される第1の画面部分の表示態様を定義する画面表示定義情報から前記ユーザインターフェース部品を定義する部品情報を検索する手段と、
発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段と、
前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶する手段、
として機能させるコンピュータ実行可能なプログラム。 Computer
Means for retrieving component information defining the user interface component from screen display definition information defining a display mode of a first screen portion configured on a computer screen including a user interface component;
Means for receiving input of character string information corresponding to the user interface component, which is a target specified by utterance;
Means for storing the character string information in the utterance component table in association with the component information;
A computer-executable program that functions as a computer.
発話を受け付けて変換された文字列情報に対応するユーザインターフェース部品を特定し、そのユーザインターフェース部品に応じた処理を実行する処理手段、としてさらにコンピュータを機能させる請求項1または2に記載のコンピュータ実行可能なプログラム。 Means for displaying a second screen portion including the user interface component;
The computer execution according to claim 1 or 2, further comprising: a computer functioning as processing means for identifying a user interface component corresponding to character string information converted by receiving an utterance and executing processing according to the user interface component. Possible program.
ユーザインターフェース部品を含み、コンピュータ画面上に構成される第1の画面部分の表示態様を定義する画面表示定義情報から前記ユーザインターフェース部品を定義する部品情報を検索するステップと、
発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付けるステップと、
前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶するステップとを備える、情報処理の方法。 Computer
Retrieving part information defining the user interface part from screen display definition information defining a display mode of a first screen part configured on a computer screen including a user interface part;
Receiving character string information corresponding to the user interface component, which is a target specified by utterance;
Storing the character string information in an utterance component table in association with the component information.
部品情報を検索する手段と、
発話によって特定される対象となる、前記ユーザインターフェース部品に対応する文字列情報の入力を受け付ける手段と、
前記部品情報と関連付けて前記文字列情報を発話部品テーブルに記憶する手段と、を備える情報処理装置。 Means for retrieving component information defining the user interface component from screen display definition information defining a display mode of a first screen portion configured on a computer screen including a user interface component;
Means for receiving input of character string information corresponding to the user interface component, which is a target specified by utterance;
An information processing apparatus comprising: means for storing the character string information in an utterance component table in association with the component information.
部品情報によって定義されるユーザインターフェース部品を含み、コンピュータ画面上に構成される第1の画面部分の表示態様を定義する画面表示定義情報を検索する手段と、
前記ユーザインターフェース部品を含む第2の画面部分を表示する手段と、
発話によって特定される文字列情報と前記部品情報とを対応付ける発話部品テーブルを記憶する手段と、
発話を受け付けて生成された文字列情報を取得する手段と、
前記生成された文字列情報に対応するユーザインターフェース部品を特定する手段と、
前記ユーザインターフェース部品に応じた処理を実行する処理手段、として機能させるコンピュータ実行可能なプログラム。 On the computer,
Means for retrieving screen display definition information that includes a user interface component defined by the component information and defines a display mode of the first screen portion configured on the computer screen;
Means for displaying a second screen portion including the user interface component;
Means for storing an utterance component table that associates character string information specified by utterance with the component information;
Means for acquiring character string information generated by accepting an utterance;
Means for identifying a user interface component corresponding to the generated character string information;
A computer-executable program that functions as processing means for executing processing according to the user interface component.
前記ユーザインターフェース部品を含む第2の画面部分を表示する手段と、
発話によって特定される文字列情報と前記部品情報とを対応付ける発話部品テーブルを記憶する手段と、
発話を受け付けて生成された文字列情報を取得する手段と、
前記生成された文字列情報に対応するユーザインターフェース部品を特定する手段と、
前記ユーザインターフェース部品に応じた処理を実行する処理手段と、を備える情報処理装置。 Means for retrieving screen display definition information that includes a user interface component defined by the component information and defines a display mode of the first screen portion configured on the computer screen;
Means for displaying a second screen portion including the user interface component;
Means for storing an utterance component table that associates character string information specified by utterance with the component information;
Means for acquiring character string information generated by accepting an utterance;
Means for identifying a user interface component corresponding to the generated character string information;
An information processing apparatus comprising: processing means for executing processing according to the user interface component.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005364057A JP2007164732A (en) | 2005-12-16 | 2005-12-16 | Computer executable program and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005364057A JP2007164732A (en) | 2005-12-16 | 2005-12-16 | Computer executable program and information processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007164732A true JP2007164732A (en) | 2007-06-28 |
Family
ID=38247522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005364057A Pending JP2007164732A (en) | 2005-12-16 | 2005-12-16 | Computer executable program and information processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007164732A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008032594A1 (en) * | 2006-08-28 | 2008-03-20 | Tokyo Electric Power Company | Computer-executable program, method, and processing device |
JP2013061793A (en) * | 2011-09-13 | 2013-04-04 | Advanced Media Inc | Input support device, input support method, and input support program |
JP2013137584A (en) * | 2011-12-27 | 2013-07-11 | Toshiba Corp | Electronic device, display method and program |
CN114758658A (en) * | 2022-04-20 | 2022-07-15 | 思必驰科技股份有限公司 | Voice recognition method and device, voice interaction equipment and storage medium |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04242468A (en) * | 1991-01-16 | 1992-08-31 | Matsushita Electric Ind Co Ltd | Construction system for information system |
JPH08278881A (en) * | 1995-04-06 | 1996-10-22 | Toshiba Syst Technol Kk | Supporting device for building interactive processing system |
JPH10116144A (en) * | 1996-07-01 | 1998-05-06 | Internatl Business Mach Corp <Ibm> | Method and device for voice-supported navigation of pointer of graphical user interface |
JPH10124293A (en) * | 1996-08-23 | 1998-05-15 | Osaka Gas Co Ltd | Speech commandable computer and medium for the same |
JPH11316675A (en) * | 1998-01-16 | 1999-11-16 | Toshiba Corp | Computer system |
JP2001306293A (en) * | 2000-04-20 | 2001-11-02 | Canon Inc | Method and device for inputting information, and storage medium |
JP2002527800A (en) * | 1998-10-02 | 2002-08-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Conversation browser and conversation system |
JP2003067177A (en) * | 2001-05-04 | 2003-03-07 | Microsoft Corp | System and method having web correspondence recognition architecture |
JP2005530279A (en) * | 2002-07-02 | 2005-10-06 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | System and method for accessing Internet content |
JP2005322148A (en) * | 2004-05-11 | 2005-11-17 | Mitsubishi Electric Corp | Browser device |
-
2005
- 2005-12-16 JP JP2005364057A patent/JP2007164732A/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04242468A (en) * | 1991-01-16 | 1992-08-31 | Matsushita Electric Ind Co Ltd | Construction system for information system |
JPH08278881A (en) * | 1995-04-06 | 1996-10-22 | Toshiba Syst Technol Kk | Supporting device for building interactive processing system |
JPH10116144A (en) * | 1996-07-01 | 1998-05-06 | Internatl Business Mach Corp <Ibm> | Method and device for voice-supported navigation of pointer of graphical user interface |
JPH10124293A (en) * | 1996-08-23 | 1998-05-15 | Osaka Gas Co Ltd | Speech commandable computer and medium for the same |
JPH11316675A (en) * | 1998-01-16 | 1999-11-16 | Toshiba Corp | Computer system |
JP2002527800A (en) * | 1998-10-02 | 2002-08-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Conversation browser and conversation system |
JP2001306293A (en) * | 2000-04-20 | 2001-11-02 | Canon Inc | Method and device for inputting information, and storage medium |
JP2003067177A (en) * | 2001-05-04 | 2003-03-07 | Microsoft Corp | System and method having web correspondence recognition architecture |
JP2005530279A (en) * | 2002-07-02 | 2005-10-06 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | System and method for accessing Internet content |
JP2005322148A (en) * | 2004-05-11 | 2005-11-17 | Mitsubishi Electric Corp | Browser device |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008032594A1 (en) * | 2006-08-28 | 2008-03-20 | Tokyo Electric Power Company | Computer-executable program, method, and processing device |
JP2013061793A (en) * | 2011-09-13 | 2013-04-04 | Advanced Media Inc | Input support device, input support method, and input support program |
JP2013137584A (en) * | 2011-12-27 | 2013-07-11 | Toshiba Corp | Electronic device, display method and program |
CN114758658A (en) * | 2022-04-20 | 2022-07-15 | 思必驰科技股份有限公司 | Voice recognition method and device, voice interaction equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4428952B2 (en) | User interface control apparatus and method | |
US8074202B2 (en) | WIKI application development tool that uses specialized blogs to publish WIKI development content in an organized/searchable fashion | |
JP3938121B2 (en) | Information processing apparatus, control method therefor, and program | |
US8073700B2 (en) | Retrieval and presentation of network service results for mobile device using a multimodal browser | |
US8321226B2 (en) | Generating speech-enabled user interfaces | |
JP2004310748A (en) | Presentation of data based on user input | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
US20050010422A1 (en) | Speech processing apparatus and method | |
JP2004021791A (en) | Method for describing existing data by natural language and program for the method | |
JP2009271903A (en) | Method and system for providing convenient dictionary service during browsing web page | |
JP2004537134A (en) | Method and system for generating and processing a browser-enabled human interface description | |
JP2012203861A (en) | Foreign language customer service support device, foreign language customer service support and program | |
JP3542578B2 (en) | Speech recognition apparatus and method, and program | |
JP2004334409A (en) | Data browsing support device, data browsing method, and data browsing program | |
Amoli et al. | Chromium Navigator Extension: Voice-Activated Assist for Disabled | |
JP2007164732A (en) | Computer executable program and information processing device | |
WO2003079188A1 (en) | Method for operating software object using natural language and program for the same | |
JP7139157B2 (en) | Search statement generation system and search statement generation method | |
JP5300576B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
JP2005128955A (en) | Information processing method, storage medium, and program | |
JP4515186B2 (en) | Speech dictionary creation device, speech dictionary creation method, and program | |
JP2005322148A (en) | Browser device | |
JP2008077584A (en) | Translation retrieval system, method and program | |
JP2005181358A (en) | Speech recognition and synthesis system | |
KR100811290B1 (en) | Automatic shopping mall management system using natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070730 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20080305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080305 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100513 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100916 |