JP2003067177A

JP2003067177A - ウェブ対応認識アーキテクチャを有するシステムおよびその方法

Info

Publication number: JP2003067177A
Application number: JP2002132053A
Authority: JP
Inventors: Kuansan Wang; クァンサンウァン; Hsiao-Wuen Hon; シャオ−ウェンホン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-05-04
Filing date: 2002-05-07
Publication date: 2003-03-07
Also published as: EP1255192A2; EP1255192A3; EP1255192B1; CN1279465C; CN1420447A; ATE386974T1

Abstract

(57)【要約】【課題】入力の認識を提供するのに使用されるウェブ
対応認識アーキテクチャを有するシステムに、統一した
アーキテクチャを持たせる。【解決手段】サーバ／クライアントシステムは、リモ
ートからアクセスすることのできる情報を有するウェブ
サーバ２０２を有するネットワークを含む。クライアン
トデバイスは、マイクロフォンと、スピーカまたはディ
スプレイなどのレンダリング構成要素とを含む。クライ
アントデバイスは、ウェブサーバ２０２から情報を入手
し、その情報中に含まれる、フィールドと関連付けられ
た入力データを記録するように構成し、また、認識に使
用する文法の指示とともに、入力データを遠隔位置に送
信するように適合する。認識サーバ２０４は、入力デー
タおよび文法の指示を受信し、また、何が認識されたか
を示すデータを、クライアントおよびウェブサーバの少
なくとも１つに戻す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、インターネットな
どのワイドエリアネットワークを介した情報のアクセス
に関する。より詳細には、本発明は、各種の方法を使用
してクライアント側で情報およびコントロールを入力す
ることを可能にするウェブ対応認識に関する。

【０００２】

【従来の技術】人々が、個人情報マネジャ（ＰＩＭ）、
デバイス、および携帯電話のような小型のコンピューテ
ィングデバイスを日常活動で使用する頻度は増す一方で
ある。現在では、こうしたデバイスを作動させるのに使
用されるマイクロプロセッサに利用できる処理能力が増
大したことにより、これらデバイスの機能性が高まって
おり、場合によっては機能を一体化している。例えば現
在、携帯電話の多くは、アドレス、電話番号などの個人
情報の記憶に使用できるだけでなく、インターネットの
アクセスおよびブラウズにも使用することができる。

【０００３】こうしたコンピューティングデバイスをイ
ンターネットブラウズに使用し、あるいは他のサーバ／
クライアントアーキテクチャで使用することから、情報
をコンピューティングデバイスに入力することが必要と
なる。不都合なのは、携行を容易にするためにこうした
デバイスを可能な限り小さくしたいという要求があり、
利用可能なコンピューティングデバイス筐体の表面面積
が限られているために、アルファベットの全文字を個別
のボタンとして備える従来型のキーボードが通例は不可
能であることである。

【０００４】最近、ＶｏｉｃｅＸＭＬ（音声拡張可能マ
ークアップ言語）の使用によるなどの音声ポータルが進
歩し、電話だけを使用してインターネットコンテンツに
アクセスすることが可能になっている。このアーキテク
チャでは、ドキュメントサーバ（例えばウェブサーバ）
が、ＶｏｉｃｅＸＭＬインタープリタを通じてクライア
ントからの要求を処理する。ウェブサーバはそれに応答
してＶｏｉｃｅＸＭＬドキュメントを生成することがで
き、このドキュメントはＶｏｉｃｅＸＭＬインタープリ
タによって処理し、ユーザに対して音声としてレンダリ
ングされる。ユーザは、音声認識を通じて音声コマンド
を使用することにより、ウェブをナビゲートすることが
できる。

【０００５】ＶｏｉｃｅＸＭＬは、フロー制御タグを用
いるマークアップ言語であるが、フロー制御は、イベン
ティング（ｅｖｅｎｔｉｎｇ）および個別のスクリプト
を含むＨＴＭＬ（ハイパーテキストマークアップ言語）
のフロー制御モデルには従わない。ＶｏｉｃｅＸＭＬは
一般に、電話ベースの音声のみの対話に特に適したフォ
ーム解釈アルゴリズムを含むが、このアルゴリズムでは
通例、ユーザから得られる情報をシステムまたはアプリ
ケーションによって制御する。グラフィカルユーザイン
タフェースも提供し、クライアント−サーバ関係で利用
することのできるアプリケーションにＶｏｉｃｅＸＭＬ
を直接組み込むには、開発者は、２つの形態のウェブオ
ーサリングを習得する必要がある。すなわち、Ｖｏｉｃ
ｅＸＭＬのオーサリングと、ＨＴＭＬ（など）を使用し
たオーサリングであるが、これらはそれぞれ異なるフロ
ー制御モデルに従っている。

【０００６】

【発明が解決しようとする課題】したがって、インター
ネットなどのサーバ／クライアントアーキテクチャで音
声認識を提供するのに使用されるアーキテクチャ、また
はその部分、および方法に改良を加えることが現在必要
とされている。音声認識用のオーサリングツールは、Ｐ
ＩＭ、電話などの小型のコンピューティングデバイスに
容易に適合できなければならない。前述の不利点の１
つ、いくつか、またはすべてに対処するウェブオーサリ
ングのアーキテクチャまたは方法が特に必要とされる。
他の入力方法が可能なアーキテクチャも有益であろう。

【０００７】本発明は、このような課題に鑑みてなされ
たもので、その目的とするところは、インターネットな
どのサーバ／クライアントアーキテクチャで入力の認識
を提供するのに使用される、統一したアーキテクチャを
備えたウェブ対応認識アーキテクチャを有するシステム
およびその方法を提供することにある。

【０００８】

【課題を解決するための手段】データ処理用のサーバ／
クライアントシステムは、リモートにアクセスできる情
報を含んだウェブサーバを有するネットワークを含む。
クライアントデバイスは、マイクロフォンと、スピーカ
またはディスプレイなどのレンダリング構成要素を含
む。クライアントデバイスは、ウェブサーバから情報を
入手して、その情報に含まれるフィールドと関連付けら
れた入力データを記録するように構成する。クライアン
トデバイスは、認識に使用する文法の指示とともに入力
データを遠隔位置に送信するように適合する。認識サー
バは入力データおよび文法の指示を受け取る。認識サー
バは、何が入力されたかを示すデータをクライアントお
よびウェブサーバの少なくとも１つに戻す。

【０００９】

【発明の実施の形態】ウェブベース認識のアーキテクチ
ャおよびその実施方法を説明する前に、このアーキテク
チャで機能することが可能なコンピューティングデバイ
スについて全般的に説明しておくと有用であろう。本明
細書で図１を参照すると、データ管理デバイス（ＰＩ
Ｍ、ＰＤＡなど）の例示的形態が３０に表されている。
ただし、本発明は、下記で論じるこの他のコンピューテ
ィングデバイス、特に入力ボタンなどを装備するには表
面積が限られたコンピューティングデバイスを使用して
実施することも企図している。例えば、電話および／ま
たはデータ管理デバイスも、本発明から利益を受けるこ
とができる。このようなデバイスは、既存の携帯個人情
報管理デバイスおよびその他の携帯電子デバイスと比較
して高いユーティリティを備え、そのデバイスの諸機能
とコンパクトなサイズにより、ユーザがデバイスを常に
携行することを促すと思われる。したがって、本明細書
に記載するアーキテクチャの範囲は、本明細書に記載す
る例示的なデータ管理デバイスまたはＰＩＭデバイス、
電話機、またはコンピュータの開示によっては制限しな
いものとする。

【００１０】データ管理モバイルデバイス３０の例示的
な形態を図１に示す。モバイルデバイス３０は筐体３２
を含み、ディスプレイ３４を含むユーザインタフェース
を有する。ユーザインタフェースには、スタイラス３３
と合わせて接触感知式の表示画面を使用する。スタイラ
ス３３は、指定された座標でディスプレイ３４を押す、
またはディスプレイ３４に接触して、フィールドを選択
し、カーソルの開始位置を選択的に移動するのに使用
し、あるいはジェスチャや手書きなどによる他の方法で
コマンド情報を提供するのに使用する。これに代えて、
あるいはこれに加えて、ナビゲーション用に１つまたは
複数のボタン３５ａ、３５ｂ、３５ｃをデバイス３０上
に含むことができる。さらに、回転ホイール、ローラな
どの他の入力機構も提供することができる。ただし、本
発明は、これらの形態の入力機構によっては制限しない
ことに留意されたい。例えば、この他の形態の入力に
は、コンピュータビジョン（ｖｉｓｉｏｎ）を用いるな
どの視覚的な入力を含むことができる。

【００１１】次いで図２を参照すると、モバイルデバイ
ス３０を構成する機能構成要素をブロック図で示してい
る。中央演算処理装置（ＣＰＵ）５０は、ソフトウェア
制御機能を実施する。ＣＰＵ５０はディスプレイ３４に
結合され、制御ソフトウェアに従って生成されるテキス
トおよびグラフィックアイコンが、ディスプレイ３４に
表示される。スピーカ４３を、通例はデジタルからアナ
ログに変換する変換器５９とともにＣＰＵ５０に結合
し、音声による出力を提供することができる。ユーザが
モバイルデバイス３０にダウンロードまたは入力したデ
ータは、ＣＰＵ５０と双方向に結合した不揮発性の読み
出し／書き込みランダムアクセスメモリ記憶装置５４に
記憶する。ランダムアクセスメモリ（ＲＡＭ）５４は、
ＣＰＵ５０が実行する命令の揮発性の記憶、およびレジ
スタ値など一時的なデータの記憶を提供する。構成オプ
ションや他の変数のデフォルト値は、読み出し専用メモ
リ（ＲＯＭ）５８に記憶する。ＲＯＭ５８は、モバイル
３０の基本機能、およびその他のオペレーティングシス
テムカーネル機能（例えばソフトウェアコンポーネント
をＲＡＭ５４にロードするなど）を制御する、デバイス
用のオペレーティングシステムソフトウェアの記憶にも
使用することができる。

【００１２】ＲＡＭ５４は、アプリケーションプログラ
ムの記憶に使用するＰＣのハードドライブ機能と同様の
方式で、コードの記憶機構としても機能する。不揮発性
メモリをコードの記憶に使用しているが、コードは代わ
りに、コードの実行には使用されない揮発性メモリに記
憶することも可能であることに留意されたい。

【００１３】無線信号は、ＣＰＵ５０に結合された無線
トランシーバ５２を通じて、モバイルデバイスによって
送信／受信することができる。所望の場合には、コンピ
ュータ（例えばデスクトップコンピュータ）から、ある
いは配線式ネットワークから直接データをダウンロード
するために、任意選択の通信インタフェース６０を提供
することもできる。したがって、インタフェース６０
は、例えば赤外線リンク、モデム、ネットワークカード
など、様々な通信装置の形態を備えることができる。

【００１４】モバイルデバイス３０は、マイクロフォン
２９、アナログ／デジタル（Ａ／Ｄ）変換器３７、およ
び記憶装置５４に記憶された任意選択の認識プログラム
（音声、ＤＴＭＦ、手書き、ジェスチャ、またはコンピ
ュータ画像）を含む。一例として、デバイス３０のユー
ザからの音声による情報、命令、またはコマンドに応答
して、マイクロフォン２９が音声信号を提供し、それを
Ａ／Ｄ変換器３７でデジタル化する。音声認識プログラ
ムは、デジタル化した音声信号に正規化および／または
特徴抽出機能を行って、中間の音声認識結果を得る。無
線トランシーバ５２または通信インタフェース６０を使
用して、下記で説明し、図５のアーキテクチャに表すリ
モートの認識サーバ２０４に音声データを送信する。そ
の後認識結果をモバイルデバイス３０に戻して、そこで
レンダリング（例えば視覚的かつ／または可聴的に）を
行い、最終的にウェブサーバ２０２（図５）に送信する
が、本明細書でウェブサーバ２０２とモバイルデバイス
３０はクライアント／サーバ関係で動作している。これ
と同様の処理を、他の形態の入力にも使用することがで
きる。例えば、手書き入力を、デバイス３０での前処理
により、または前処理によらずにデジタル化することが
できる。音声データと同様に、この形態の入力も認識の
ために認識サーバ２０４に送信することができ、認識結
果が、デバイス３０および／またはウェブサーバ２０２
の少なくともどちらかに戻される。同様に、ＤＴＭＦデ
ータ、ジェスチャデータ、および視覚データも同じよう
に処理することができる。入力形態に応じて、デバイス
３０（および下記で説明する他の形態のクライアント）
は、カメラや視覚入力など必要なハードウェアを含む。

【００１５】図３は、携帯電話８０の一例示的実施形態
の平面図である。電話機８０は、ディスプレイ８２およ
びキーパッド８４を含む。一般に、図２のブロック図は
図３の電話機にも該当するが、他機能を行うために必須
の追加回路が必要になることもある。例えば、図３の実
施形態には、電話としての動作に必須のトランシーバが
必要になるが、このような回路は本発明には関連しな
い。

【００１６】上記の携帯式またはモバイル型のコンピュ
ーティングデバイス以外にも、本発明は、一般的なデス
クトップコンピュータなど数多くの他のコンピューティ
ングデバイスにも使用できることが理解されよう。例え
ば、身体能力が限られたユーザにとって完全な英数文字
キーボードなど他の従来型の入力装置の操作が困難であ
る場合に、本発明は、そのようなユーザがコンピュータ
または他のコンピューティングデバイスにテキストを入
力することを可能にする。

【００１７】本発明はまた、数多くの他の汎用または特
殊目的のコンピューティングシステム、環境、または構
成での動作が可能である。本発明とともに使用するのに
適した周知のコンピューティングシステム、環境、およ
び／または構成の例には、従来型の（ｒｅｇｕｌａｒ）
電話（画面を備えない）、パーソナルコンピュータ、サ
ーバコンピュータ、携帯用デバイスまたはラップトップ
デバイス、マルチプロセッサシステム、マイクロプロセ
ッサベースのシステム、セットトップボックス、プログ
ラマブル家庭用電化製品、ネットワークＰＣ、ミニコン
ピュータ、メインフレームコンピュータ、上記のシステ
ムまたはデバイスなどのうち任意のものを含む分散型コ
ンピューティング環境が含まれるがこれらに限定するも
のではない。

【００１８】以下は、図４に示す汎用コンピュータ１２
０の簡単な説明である。ただし、この場合もコンピュー
タ１２０は、適切なコンピューティング環境の一例に過
ぎず、本発明の使用または機能性の範囲に関して何らの
制限を示唆するものではない。また、コンピュータ１２
０は、この図に示す構成要素のいずれか、またはその組
合せに関する依存性や要件を有するものとも解釈すべき
ではない。

【００１９】本発明は、プログラムモジュールなどコン
ピュータで実行するコンピュータ実行可能命令の一般的
な状況で説明することができる。一般に、プログラムモ
ジュールには、特定タスクを実行する、または特定の抽
象データタイプを実施する、ルーチン、プログラム、オ
ブジェクト、コンポーネント、データ構造などが含まれ
る。本発明はまた、通信ネットワークを通じてリンクし
た遠隔処理装置によってタスクを実行する分散型コンピ
ューティング環境でも実施することができる。分散型コ
ンピューティング環境では、プログラムモジュールは、
メモリ記憶装置を含む、ローカルおよびリモートどちら
のコンピュータ記憶媒体に置いてもよい。以下で、図面
の助けを借りて、プログラムおよびモジュールによって
実行するタスクを説明する。当業者は、この説明および
図面をプロセッサ実行可能命令として実施することがで
き、この命令はどの形態のコンピュータ読み取り可能な
記録媒体にも書き込むことができる。

【００２０】図４を参照すると、コンピュータ１２０の
構成要素には、プロセッサ１４０、システムメモリ１５
０、およびシステムメモリを含む各種システム構成要素
をプロセッサ１４０に結合するシステムバス１４１が含
まれるが、これらに限定しない。システムバス１４１
は、メモリバスまたはメモリコントローラ、周辺バス、
および各種バスアーキテクチャのうち任意のものを使用
したローカルバスを含む数種のバス構造のうち任意のも
のでよい。このようなアーキテクチャには、例えば、Ｉ
ＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈ
ｉｔｅｃｔｕｒｅ）バス、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ
ＳｅｒｉａｌＢｕｓ）、ＭＣＡ（ＭｉｃｒｏＣｈ
ａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳ
Ａ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（Ｖｉ
ｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓ
Ａｓｓｏｃｉａｔｉｏｎ）ローカルバス、およびメザニ
ンバスとしても知られるＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ
ＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バ
スが含まれるがこれらに限定するものではない。コンピ
ュータ１２０は、通例、各種のコンピュータ読み取り可
能な記録媒体を含んでいる。コンピュータ読み取り可能
な記録媒体は、コンピュータ１２０からアクセスするこ
とができる任意の利用可能な媒体でよく、これには揮発
性および不揮発性媒体、リムーバルおよび取外し不能媒
体が含まれる。例えば、コンピュータ読み取り可能な記
録媒体は、コンピュータ記憶媒体および通信媒体を含む
ことができるがこれらに限定しない。コンピュータ記憶
媒体には、コンピュータ可読命令、データ構造、プログ
ラムモジュール、またはその他のデータなどの情報を記
憶するための任意の方法または技術に実施された、揮発
性および不揮発性、リムーバルおよび取外し不能媒体が
含まれる。コンピュータ記憶媒体には、ＲＡＭ、ＲＯ
Ｍ、ＥＥＰＲＯＭ、フラッシュメモリ、または他のメモ
リ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶ
Ｄ）、またはその他の光ディスク記憶、磁気カセット、
磁気テープ、磁気ディスク記憶または他の磁気記憶装
置、あるいは所望の情報の記憶に使用することができ、
コンピュータ１２０からアクセスすることが可能な任意
の他の媒体が含まれるがこれらに限定するものではな
い。

【００２１】通信媒体は、通例、搬送波または他の搬送
機構などの変調データ信号中のコンピュータ可読命令、
データ構造、プログラムモジュール、または他のデータ
を実施し、また任意の情報伝達媒体を含む。用語「変調
データ信号」とは、情報を信号中に符号化するような方
式で、その特性の１つまたは複数を設定または変更した
信号を意味する。例として、通信媒体には、配線式ネッ
トワークまたは直接配線接続などの配線式媒体、および
音響、ＦＲ、赤外線、および他の無線媒体などの無線媒
体が含まれるが、これらに限定しない。上記の媒体の任
意の組合せも、コンピュータ読み取り可能な記録媒体の
範囲に含むものとする。

【００２２】システムメモリ１５０は、読み出し専用メ
モリ（ＲＯＭ）１５１およびランダムアクセスメモリ
（ＲＡＭ）１５２などの揮発性および／または不揮発性
メモリの形態でコンピュータ読み取り可能な記録媒体を
含む。起動時などにコンピュータ１２０中の要素間の情
報の転送を助ける基本ルーチンを含んだ基本入出力シス
テム１５３（ＢＩＯＳ）は、通例ＲＯＭ１５１に記憶す
る。ＲＡＭ１５２は、通例、プロセッサ１４０から即座
にアクセスすることができ、かつ／またはプロセッサ１
４０が現在操作しているデータおよび／またはプログラ
ムモジュールを含む。例として、図４にはオペレーティ
ングシステム１５４、アプリケーションプログラム１５
５、他のプログラムモジュール１５６、およびプログラ
ムデータ１５７を示しているが、これらに限定しない。

【００２３】コンピュータ１２０は、他のリムーバル／
取外し不能、揮発性／不揮発性のコンピュータ読み取り
可能な記録媒体も含むことができる。図４には、取外し
不能、不揮発性の磁気媒体との読み出しまたは書き込み
を行うハードディスクドライブ１６１、リムーバル、不
揮発性の磁気ディスク１７２との読み出しまたは書き込
みを行う磁気ディスクドライブ１７１、およびＣＤＲ
ＯＭや他の光媒体などのリムーバル、不揮発性の光ディ
スク１７６との読み出しまたは書き込みを行う光ディス
クドライブ１７５を示すが、これらは例にすぎない。こ
の例示的動作環境で使用できる、この他のリムーバル／
取外し不可能、揮発性／不揮発性のコンピュータ記憶媒
体には、磁気テープカセット、フラッシュメモリカー
ド、デジタル多用途ディスク、デジタルビデオテープ、
ソリッドステートＲＡＭ、ソリッドステートＲＯＭなど
が含まれるがこれらに限定しない。ハードディスクドラ
イブ１６１は、通例、インタフェース１６０など取外し
不能のメモリインタフェースを通じてシステムバス１４
１に接続し、磁気ディスクドライブ１７１および光ディ
スクドライブ１７５は通例、インタフェース１７０など
のリムーバルメモリインタフェースによってシステムバ
ス１４１に接続する。

【００２４】上記で説明し、図４に示すドライブおよび
それに関連するコンピュータ記憶媒体は、コンピュータ
１２０のコンピュータ可読命令、データ構造、プログラ
ムモジュール、およびその他のデータの記憶を提供す
る。例えば、図４では、ハードディスクドライブ１６１
は、オペレーティングシステム１６４、アプリケーショ
ンプログラム１６５、他のプログラムモジュール１６
６、およびプログラムデータ１６７を記憶するものとし
て示している。これらのコンポーネントは、オペレーテ
ィングシステム１５４、アプリケーションプログラム１
５５、他のプログラムモジュール１５６、およびプログ
ラムデータ１５７と同じものでも、異なるものでもよい
ことに留意されたい。本明細書では、オペレーティング
システム１６４、アプリケーションプログラム１６５、
他のプログラムモジュール１６６、およびプログラムデ
ータ１６７が少なくとも異なるコピーであることを示す
ために、これらに異なる番号を与えている。

【００２５】ユーザは、キーボード１８２、マイクロフ
ォン１８３、およびマウスやトラックボール、タッチパ
ッドなどのポインティングデバイス１８１などの入力装
置を通じて、コンピュータ１２０にコマンドおよび情報
を入力することができる。この他の入力装置（図示せ
ず）には、ジョイスティック、ゲームパッド、衛星放送
受信アンテナ、スキャナなどが含まれる。これらの入力
装置およびこの他の入力装置は、多くの場合、システム
バスに結合したユーザ入力インタフェース１８０を通じ
てプロセッサ１４０に接続するが、パラレルポート、ゲ
ームポート、あるいはユニバーサルシリアルバス（ＵＳ
Ｂ）など他のインタフェースおよびバス構造によって接
続することもできる。モニタ１８４または他種の表示装
置も、ビデオインタフェース１８５などのインタフェー
スを介して、システムバス１４１に接続する。コンピュ
ータは、モニタ以外にも、スピーカ１８７およびプリン
タ１８６など他の周辺出力装置も含むことができ、これ
らは出力周辺インタフェース１８８を通じて接続するこ
とができる。

【００２６】コンピュータ１２０は、リモートコンピュ
ータ１９４など１つまたは複数のリモートコンピュータ
への論理接続を使用するネットワーク化環境で動作する
ことができる。リモートコンピュータ１９４は、パーソ
ナルコンピュータ、携帯用デバイス、サーバ、ルータ、
ネットワークＰＣ、ピアデバイス、または他の一般的な
ネットワークノードでよく、通例は上記でコンピュータ
１２０との関連で説明した要素の多くまたはすべてを含
む。図４に示す論理接続には、ローカルエリアネットワ
ーク（ＬＡＮ）１９１およびワイドエリアネットワーク
（ＷＡＮ）１９３が含まれるが、この他のネットワーク
を含んでもよい。このようなネットワーキング環境は、
オフィス、企業規模のコンピュータネットワーク、イン
トラネット、およびインターネットで一般的に見られ
る。

【００２７】ＬＡＮネットワーキング環境で使用する場
合、コンピュータ１２０は、ネットワークインタフェー
スすなわちアダプタ１９０を通じてＬＡＮ１９１に接続
する。ＷＡＮネットワーキング環境で使用する場合、コ
ンピュータ１２０は通例モデム１９２か、またはインタ
ーネットなどのＷＡＮ１９３を介して通信を確立するた
めの他の手段を含む。モデム１９２は、内蔵型でも外付
け式でもよく、ユーザ入力インタフェース１８０または
他の適切な機構を介してシステムバス１４１に接続する
ことができる。ネットワーク環境では、コンピュータ１
２０との関連で図示するプログラムモジュール、または
その一部をリモートのメモリ記憶装置に記憶することが
できる。例として図４に、リモートアプリケーションプ
ログラム１９５をリモートコンピュータ１９４に常駐す
るものとして示しているが、これに限定しない。図のネ
ットワーク接続は例示的なものであり、コンピュータ間
に通信リンクを確立する他の手段を使用してよいことは
理解されよう。

【００２８】図５に、本発明で実施することのできるウ
ェブベース認識のアーキテクチャ２００を示す。一般
に、ウェブサーバ２０２に記憶された情報には、モバイ
ルデバイス３０（本明細書では、入力の形態に基づき、
適宜、表示画面、マイクロフォン、カメラ、タッチセン
シティブパネルなどを有する他形態のコンピューティン
グデバイスをも表す）を通じて、または情報を音声によ
り、またはキーを押すのに応答して電話機８０が生成す
るトーンを通じて要求する電話機８０を通じてアクセス
することができる。電話機の場合には、ウェブサーバ２
０２からの情報を音声のみによりユーザに提供する。

【００２９】より重要なのは、情報をデバイス３０を通
じて得るか、または音声認識を用いて電話機８０を通じ
て得るかに関係なく、単一の認識サーバ２０４がどちら
の動作モードもサポートすることができる点でアーキテ
クチャ２００が統一されていることである。さらに、ア
ーキテクチャ２００は、周知のマークアップ言語（例え
ばＨＴＭＬ、ＸＨＴＭＬ、ｃＨＴＭＬ、ＸＭＬ、ＷＭＬ
など）の拡張を使用して動作する。したがって、ウェブ
サーバ２０２に記憶された情報には、これらのマークア
ップ言語で使用される周知のＧＵＩ方式を用いてアクセ
スすることもできる。周知のマークアップ言語の拡張を
使用することにより、ウェブサーバ２０２でのオーサリ
ングが容易になり、現在存在するレガシーアプリケーシ
ョンも、音声認識を含むように容易に修正することがで
きる。

【００３０】一般に、デバイス３０は、ウェブサーバ２
０２が提供するＨＴＭＬページ、スクリプトなどを実行
する。一例として、音声（ｖｏｉｃｅ）認識が必要な場
合には、デジタル化したオーディオ信号または音声特徴
などの音声データ（オーディオ信号は上記のようにデバ
イス３０で前処理する）を、音声認識中に使用する文法
または言語モデルの指示とともに、認識サーバ２０４に
提供する。認識サーバ２０４の実施態様は多くの形態を
とることが可能であり、そのうちの１つを図示したが、
一般にはレコグナイザ２１１を含む。認識の結果は、所
望の場合、または適切な場合にはローカルのレンダリン
グのためにデバイス３０に戻される。認識と、使用する
場合には任意のグラフィカルユーザインタフェースとを
通じて情報を編集すると、必要な場合には、デバイス３
０はその情報をウェブサーバ２０２に送信し、そこでさ
らに処理を行い、さらにＨＴＭＬページ／スクリプトを
受信する。

【００３１】図５に示すように、デバイス３０、ウェブ
サーバ２０２、および認識サーバ２０４は共通に（ｃｏ
ｍｍｏｎｌｙ）接続されており、また本明細書ではイン
ターネットなどのワイドエリアネットワークであるネッ
トワーク２０５を通じて個別にアドレス指定することが
できる。したがって、これらの装置はいずれも物理的に
相互に近接して配置する必要はない。特に、ウェブサー
バ２０２が認識サーバ２０４を含む必要はない。この方
式によると、ウェブサーバ２０２におけるオーサリング
を、それが行うべきアプリケーションに集中させること
ができ、オーサ（ａｕｔｈｏｒ）は認識サーバ２０４の
複雑性を知る必要がない。認識サーバ２０４は、独自に
設計してネットワーク２０５に接続することができ、そ
れによりウェブサーバ２０２でさらに変更を行わなくと
も更新および改良することができる。下記で説明するよ
うに、ウェブサーバ２０２は、クライアント側のマーク
アップおよびスクリプトを動的に生成することのできる
オーサリング機構も含むことができる。別の実施形態で
は、実装マシンの能力に応じて、ウェブサーバ２０２、
認識サーバ２０４、およびクライアント３０を組み合わ
せることができる。

【００３２】例えば、クライアントがパーソナルコンピ
ュータなどの汎用コンピュータを含む場合には、クライ
アントは認識サーバ２０４を含むことができる。同様
に、所望の場合には、ウェブサーバ２０２および認識サ
ーバ２０４を単一マシンに組み込むことが可能である。

【００３３】クライアントデバイスに関して、クライア
ント／サーバシステムで入力データを処理する方法は、
クライアントデバイスのユーザから入力データを得るよ
うに構成された拡張を有するマークアップ言語ページを
サーバから受信することと、クライアントデバイスでマ
ークアップ言語ページを実行することと、入力データ
（ユーザから得た音声、ＤＴＭＦ、手書き、ジェスチ
ャ、または画像を表す）およびそれに関連する文法をク
ライアントからリモートに位置する認識サーバに送信す
ることと、認識サーバからの認識結果をクライアントで
受信することとを含む。クライアント／サーバシステム
のクライアントデバイスで実行するマークアップ言語を
有するコンピュータ読み取り可能な記録媒体を提供する
ことができ、このマークアップ言語は、そのクライアン
トデバイスで入力される入力データと関連付ける文法を
指示する命令を有する。

【００３４】電話機８０を通じたウェブサーバ２０２へ
のアクセスには、配線式または無線式の電話網２０８へ
の電話機８０の接続が含まれ、この電話網が電話機８０
をサードパーティのゲートウェイ２１０に接続する。ゲ
ートウェイ２１０は、電話機８０を電話音声ブラウザ２
１２に接続する。電話音声ブラウザ２１２は、電話イン
タフェースを提供するメディアサーバ２１４と、音声ブ
ラウザ２１６を含む。デバイス３０と同様に、電話音声
ブラウザ２１２は、ウェブサーバ２０２からＨＴＭＬペ
ージ／スクリプトなどを受信する。より重要なのは、こ
れらのＨＴＭＬページ／スクリプトが、デバイス３０に
提供されるＨＴＭＬページ／スクリプトと同様の形態で
あることである。この方式によると、ウェブサーバ２０
２は、デバイス３０と電話機８０を個別にサポートする
必要がなく、さらには標準的なＧＵＩクライアントを個
別にサポートする必要もない。むしろ、共通のマークア
ップ言語を使用することができる。さらに、デバイス３
０と同様に、電話機８０から送信される可聴信号からの
音声認識は、ネットワーク２０５、または例えばＴＣＰ
／ＩＰを使用する専用回線２０７を通じて、音声ブラウ
ザ２１６から認識サーバ２０４に提供される。ウェブサ
ーバ２０２、認識サーバ２０４、および電話音声ブラウ
ザ２１２は、図４に示す汎用デスクトップコンピュータ
など任意の適切なコンピューティング環境に実施するこ
とができる。

【００３５】ただしＤＴＭＦ認識を用いる場合は、この
形態の認識は、一般的には認識サーバ２０４ではなくメ
ディアサーバ２１４で行うことに留意されたい。すなわ
ち、メディアサーバでＤＴＭＦ文法を使用することにな
る。

【００３６】ＨＴＭＬ、ＸＨＴＭＬ、ｃＨＴＭＬ、ＸＭ
Ｌ、ＷＭＬなどのマークアップ言語、または他のＳＧＭ
Ｌ由来のマークアップを用いるマークアップ言語は、ク
ライアント／サーバアーキテクチャで認識を提供するコ
ントロールおよび／またはオブジェクトを含むことがで
きる。この方式では、オーサが、このようなアーキテク
チャで使用される主流のウェブ開発プラットフォームで
あるこれらのマークアップ言語に、すべてのツールと専
門知識を活用することができる。

【００３７】一般に、コントロールおよび／またはオブ
ジェクトには、次の機能の１つまたは複数を含むことが
できる。レコグナイザの構成、レコグナイザの実行、お
よび／または後処理のためのレコグナイザコントロール
および／またはオブジェクト；シンセサイザの構成およ
びプロンプト再生のためのシンセサイザコントロールお
よび／またはオブジェクト；入力文法リソースを指定す
る文法コントロールおよび／またはオブジェクト；およ
び／または、認識結果を処理するためのバインドコント
ロールおよび／またはオブジェクト。拡張は、軽量のマ
ークアップレイヤになるように設計し、これにより、聴
覚、視覚、手書きなどによるインタフェースの能力を既
存のマークアップ言語に付加する。したがって、拡張は
次のものには依存しない。例えばＨＴＭＬなど拡張が含
まれる高レベルページ；例えばテキストから音声へのフ
ォーマットや文法フォーマットなど、言語リソースへの
リファレンスにその拡張が使用した低レベルフォーマッ
ト；および認識サーバ２０４で使用する認識プラットフ
ォーム、および音声合成プラットフォームの個々の属
性。

【００３８】認識に適したコントロールおよび／または
オブジェクトを有するマークアップを説明する前に、本
発明でＨＴＭＬマークアップ言語とともに実施する簡単
なＧＵＩの例を考察しておくと有用であると思われる。
図６を参照すると、簡単なＧＵＩインタフェースは、オ
ンライン販売を完了するためにクレジットカード情報を
ウェブサーバに提出することを含む。この例では、クレ
ジットカード情報は、Ｖｉｓａ、ＭａｓｔｅｒＣａｒ
ｄ、あるいはＡｍｅｒｉｃａｎＥｘｐｒｅｓｓなど、
使用するクレジットカードの種類を入力するフィールド
２５０を含む。第２のフィールド２５２はクレジットカ
ード番号の入力を可能にし、第３のフィールド２５４は
有効期限の入力を可能にする。フィールド２５０、２５
２、および２５４に入力した情報を送信するための「提
出」ボタン２６４が提供される。

【００３９】図７は、クライアントから上述のクレジッ
トカード情報を得るためのＨＴＭＬコードを示してい
る。一般に、このような形態のマークアップ言語で一般
的なように、コードは本体部分２６０とスクリプト部分
２６２を含む。本体部分２６０は、実行するアクション
のタイプ、使用するフォーム、各種の情報フィールド２
５０、２５２、および２５４を指定するコードの行を含
み、また提出ボタン２６４（図６）用のコードも含む。
この例は、イベントサポートと、埋め込まれたスクリプ
トホスティングも表しており、提出ボタン２６４が起動
されると、スクリプト部分２６２で関数「ｖｅｒｉｆ
ｙ」が呼び出され、または実行される。「ｖｅｒｉｆ
ｙ」関数は、各クレジットカード（Ｖｉｓａ、Ｍａｓｔ
ｅｒＣａｒｄ、ＡｍｅｒｉｃａｎＥｘｐｒｅｓｓ）の
カード番号の長さが適切な長さであることを確認する。

【００４０】図８は、音声認識を使用してウェブサーバ
２０４に提供するクレジットカード情報を得るための、
図６と同じＧＵＩを生成するクライアントマークアップ
を表している。音声認識については下記で図８〜１６と
の関連で説明するが、本明細書で説明する技術は、手書
き認識、ジェスチャ認識、および画像認識にも同様に応
用できることを理解されたい。

【００４１】一般に、エクステンション（拡張；一般に
は「タグ」としても知られる）はＸＭＬ要素の小セット
であり、関連する属性およびＤＯＭオブジェクトプロパ
ティ、イベント、およびメソッドを含み、ソースマーク
アップドキュメントと合わせて使用することにより、認
識インタフェース、ＤＴＭＦまたは呼制御をソースペー
ジに適用する。エクステンションの形式（ｆｏｒｍａｌ
ｉｔｙ）および意味（ｓｅｍａｎｔｉｃｓ）はソースド
キュメントの性質に依存しないので、エクステンション
は、ＨＴＭＬ、ＸＨＴＭＬ、ｃＨＴＭＬ、ＸＭＬ、ＷＭ
Ｌで、あるいは任意の他のＳＧＭＬ由来のマークアップ
とともに等しく効果的に使用することができる。エクス
テンションは、階層的にすることが可能な新しい機能オ
ブジェクトまたは要素を提供するドキュメントオブジェ
クトモデルに従う。各要素については付録中で詳細に説
明するが、一般に、要素には属性、プロパティ、メソッ
ド、イベント、および／または他の「子」要素を含むこ
とができる。

【００４２】本明細書で、エクステンションは、ブラウ
ザを実行するデバイスの機能に応じて、異なる２つの
「モード」で解釈できることにも留意されたい。第１の
モード「オブジェクトモード」では、全機能を利用する
ことができる。アプリケーションによるエクステンショ
ンのプログラム上の操作は、そのデバイスのブラウザが
使用可能にするどの機構でも実行することができる。こ
れには、例えば、ＸＨＴＭＬブラウザにおけるＪＳｃｒ
ｉｐｔインタープリタや、ＷＭＬブラウザにおけるＷＭ
ＬＳｃｒｉｐｔインタープリタなどがある。この理由か
ら、エクステンションのコアプロパティおよびメソッド
の小セットだけを定義すればよく、これらは、デバイス
すなわちクライアント側に存在する任意のプログラム機
構によって操作される。オブジェクトモードは、イベン
ティングおよびスクリプティングを提供し、またより多
くの機能を提供して、ダイアログのオーサに、音声対話
に対するより細かなクライアント側におけるコントロー
ルを与えることができる。本明細書で使用する場合、フ
ルイベントおよびスクリプティングをサポートするブラ
ウザを「アップレベルブラウザ」と呼ぶ。この形のブラ
ウザは、エクステンションのすべての属性、プロパテ
ィ、メソッド、およびイベントをサポートする。アップ
レベルブラウザは、通例、より高い処理能力を持つデバ
イスで使用される。

【００４３】エクステンションは、「宣言モード」でも
サポートすることができる。本明細書で使用する場合、
宣言モードで動作するブラウザを「ダウンレベルブラウ
ザ」と呼び、これは完全なイベンティングおよびスクリ
プティング機能はサポートしない。代わりにこの形のブ
ラウザは、所与のエクステンションの宣言的側面（すな
わちコア要素および属性）をサポートするが、ＤＯＭ
（ドキュメントオブジェクトモデル）オブジェクトのプ
ロパティ、メソッド、およびイベントのすべてはサポー
トしない。このモードは専ら宣言構文だけを用い、さら
に、ＳＭＩＬ（同期化マルチメディア統合言語）２．０
などの宣言マルチメディア同期化および協調機構（同期
マークアップ言語）と併せて使用することができる。ダ
ウンレベルブラウザは、通例、処理能力が限られたデバ
イスで使用される。

【００４４】ここで、特定の入力モードについて論じて
おきたい。詳細には、音声認識を、少なくともディスプ
レイと併せて、そして別の実施形態ではポインティング
デバイスとも併せて使用して、データ入力フィールドを
指定すると特に有用である。具体的には、このモードの
データ入力では、ユーザは一般に、いつフィールドを選
択し、それに対応する情報を提供するかを制御すること
ができる。例えば、図６の例では、ユーザはまずフィー
ルド２５２にクレジットカード番号を入力し、次いでフ
ィールド２５０にクレジットカードの種類を入力し、最
後にフィールド２５４に有効期限日を入力することがで
きる。同様に、ユーザは、所望の場合にはフィールド２
５２に戻り、誤った入力を訂正することもできる。下記
で説明するように音声認識と組み合わせると、平易で自
然なナビゲーション形態が提供される。本発明で使用す
る場合、フィールドを自由な形で選択することを可能に
する画面表示と、音声認識の両方を使用するこの形の入
力を「マルチモーダル」と呼ぶ。

【００４５】再び図８を参照すると、ＨＴＭＬマークア
ップ言語のコードが示されている。図７に示すＨＴＭＬ
コードと同様に、このコードも、本体部分２７０および
スクリプト部分２７２を含んでいる。また図７に示すコ
ードと同様に、図８に示すコードは、フォームの位置お
よび実行するアクションのタイプに関する指示を含む。
フィールド２５０、２５２、および２５４それぞれへの
情報の入力は、各々コード部分２８０、２８２、および
２８４によって制御または実行する。初めにコード部分
２８０を参照すると、例えばデバイス３０のスタイラス
３３を使用してフィールド２５０を選択すると、イベン
ト「ｏｎＣｌｉｃｋ」が開始され、これによりスクリプ
ト部分２７２の関数「ｔａｌｋ」が呼び出されるか、ま
たは実行される。このアクションは、一般にフィールド
２５０に予想されるデータタイプと関連付けられた、音
声認識で使用する文法を起動する。複数の入力技術（例
えば音声とペンクリック／ローラ）を使用するこの種の
対話を「マルチモーダル」と呼ぶ。

【００４６】図８に例示する音声認識エクステンション
は、クライアントのブラウザにおいてデフォルトの視覚
表現を有さないことに留意されたい。これは、多くのア
プリケーションでは、オーサが、アプリケーション仕様
のグラフィック機構をソースページで使用することによ
り、ページの各種コンポーネントの音声使用可能を知ら
せることを想定しているためである。それでも、視覚的
な表現が望ましい場合には、エクステンションをそのよ
うに修正することができる。

【００４７】再び文法を参照すると、この文法は、文脈
自由文法、Ｎ文法、ハイブリッド文法などの構文文法で
あるがこれらに限定しない。（言うまでもなく、それに
対応する形態の認識を利用する際には、ＤＴＭＦ文法、
手書き文法、ジェスチャ文法、および画像文法を使用す
る。本明細書で使用する場合、「文法」とは認識を行う
ための情報を含み、別の実施形態では、例えば特定のフ
ィールドに入力されることが予想される入力に対応する
情報を含む。）マークアップ言語の最初のエクステンシ
ョンを含む新しいコントロール２９０（本明細書では
「ｒｅｃｏ」と識別する）は様々な要素を含むが、その
うち２つを図に示す。すなわち文法要素「ｇｒａｍｍａ
ｒ」と「ｂｉｎｄ」要素である。一般に、ウェブサーバ
２０２からクライアントにダウンロードするコードと同
様に、文法はウェブサーバ２０２を発信元とし、クライ
アントにダウンロードするか、かつ／または音声処理の
ためにリモートサーバに転送することができる。文法は
次いで、そのキャッシュでローカルで記憶することがで
きる。最終的に、文法は認識に使用するために認識サー
バ２０４に提供する。文法要素は、インライン文法、ま
たは属性を使用して参照する文法を指定するのに使用す
る。

【００４８】認識を行った音声、手書き、ジェスチャ、
画像などに対応する認識結果を認識サーバ２０４から受
け取ると、ｒｅｃｏコントロール２９０の構文を提供し
てそれに対応する結果を受け取り、それを対応フィール
ドと関連付けるが、これにはその中のテキストをディス
プレイ３４でレンダリングすることを含んでもよい。本
明細書に例示する実施形態では、音声認識が終了し、結
果をクライアントに送り返すと、クライアントはｒｅｃ
ｏオブジェクトを非活動化して、認識済みのテキストを
それに対応するフィールドと関連付ける。コード部分２
８２および２８４もこれと同様に動作し、フィールド２
５２および２５４ごとに固有のｒｅｃｏオブジェクトお
よび文法を呼び出し、認識されたテキストを受け取る
と、それをフィールド２５２および２５４とそれぞれ関
連付ける。カード番号フィールド２５２の受信について
は、関数「ｈａｎｄｌｅ」が、上記で図７との関連で説
明したのと同様の方式で、カードの種類からカード番号
の長さを確認する。

【００４９】一般に、アーキテクチャ２００およびクラ
イアント側のマークアップ言語と併せた音声認識の使用
は、次のように行われる。まず、与える音声と関連付け
られたフィールドを指示する。図の実施形態ではスタイ
ラス３３を使用するが、本発明はスタイラス３３の使用
に限定するものではなく、ボタン、マウスポインタ、回
転ホイールなど任意形態の指示を使用できることは理解
されよう。周知のように、視覚的なマークアップ言語を
使用して、「ｏｎＣｌｉｃｋ」などそれに対応するイベ
ントを提供することができる。本発明は、音声、手書
き、ジェスチャなどのコマンドの開始を指示するのに、
「ｏｎＣｌｉｃｋ」イベントの使用だけに限定しない。
「ｏｎＳｅｌｅｃｔ」など、任意の利用可能なＧＵＩも
同じ目的に使用することができる。一実施形態では、こ
のようなイベンティングは、それに対応する音声の開始
および／または終わりの両方を示す役割を果たすので、
特に有用である。また、音声の対象とするフィールド
は、ユーザの対話を追跡するブラウザ上で実行されるプ
ログラムによっても、ユーザによっても指定できること
に留意されたい。

【００５０】ここで注意したいのは、異なる音声認識シ
ナリオには、認識サーバ２０４の異なる振る舞いおよび
／または出力が必要となることである。認識プロセスの
開始はすべての場合に標準的なものであり、すなわちア
ップレベルブラウザからの明示的なｓｔａｒｔ（）の
呼び出しであり、あるいはダウンレベルブラウザでは宣
言的な＜ｒｅｃｏ＞要素であるが、音声認識を中止する
手段は異なる可能性がある。

【００５１】上記の例では、マルチモーダルアプリケー
ションのユーザは、例えば圧力を感知するディスプレイ
を軽く叩き、接触状態を保持することにより、デバイス
への入力を制御する。するとブラウザは、例えば「ｐｅ
ｎ−ｕｐ」などのＧＵＩイベントを使用して、認識をい
つ中止するかを制御し、その後それに対応する結果を戻
す。ただし、電話アプリケーション（下記で説明する）
あるいは手を使用せずに済むアプリケーションといった
音声のみのシナリオでは、ユーザはブラウザに対する直
接的な決定権は一切持たず、認識サーバ２０４またはク
ライアント３０が、いつ認識を中止して結果を戻すか
（通例は、文法中のパスを認識した時点）を決定する責
任を負わなければならない。さらに、認識を中止する前
に中間の結果を戻す必要があるディクテーションや他の
シナリオ（「オープンマイクロフォン」としても知られ
る）の場合には、明示的な中止機能が必要とされるだけ
でなく、認識プロセスを中止する前に複数の認識結果を
クライアント３０および／またはウェブサーバ２０２に
戻す必要もある。

【００５２】一実施形態では、Ｒｅｃｏ要素は、下記の
３つの認識モードを区別する「ｍｏｄｅ」属性を含むこ
とができ、これにより認識サーバ２０４に、いつどのよ
うに結果を戻すかを命令する。結果を戻すことは、「ｏ
ｎＲｅｃｏ」イベントを提供する、または「ｂｉｎｄ」
要素を適宜起動することを意味する。一実施形態では、
モードを指定しない場合、デフォルトの認識モードは
「自動」にすることができる。

【００５３】図１４は、音声認識の「自動」モードの動
作を図式的に表したものである（他の形態の認識にもこ
れと同様のモード、イベントなどを提供することができ
る）。スケジュール２８１は、認識サーバ２０４にいつ
認識の開始２８３を指示するか、認識サーバ２０４がど
こで音声を検出し（２８５）、その音声が終了したこと
（２８７）を判定するかを表している。

【００５４】Ｒｅｃｏ要素の各種の属性は、認識サーバ
２０４の振る舞いを制御する。属性「ｉｎｉｔｉａｌＴ
ｉｍｅｏｕｔ」２８９は、認識の開始２８３から音声の
検出２８５までの間の時間である。この期間を超える
と、「ｏｎＳｉｌｅｎｃｅ」イベント２９１が認識サー
バ２０４から提供され、認識が中止されたことを知らせ
る。認識サーバ２０４が、発声が認識不可能であると識
別した場合は、「ｏｎＮｏＲｅｃｏ」イベント２９３を
発行するが、これも認識を中止したことを示す。

【００５５】認識を中止またはキャンセルすることがで
きる他の属性には、「ｂａｂｂｌｅＴｉｍｅｏｕｔ」属
性２９５があるが、これは２８５の音声の検出後に認識
サーバ２０４が結果を戻さなければならない期間であ
る。この期間を超えると、エラー発生の有無に応じて異
なるイベントが発行される。例えば、例外的に発声が長
い場合など、認識サーバ２０４がなおオーディオの処理
を行っている場合は、「ｏｎＮｏＲｅｃｏ」属性２９３
を発行する。しかし他の何らかの理由で「ｂａｂｂｌｅ
Ｔｉｍｅｏｕｔ」属性２９５を超えた場合は、認識エラ
ーの可能性が高くなり、「ｏｎＴｉｍｅｏｕｔ」イベン
ト２９７が発行される。同様に「ｍａｘＴｉｍｅｏｕ
ｔ」属性２９９も提供することができ、これは、認識の
開始２８３から結果をクライアント３０に戻すまでの期
間である。この期間を超えると、「ｏｎＴｉｍｅｏｕ
ｔ」イベント２９７が発行される。

【００５６】ただし、「ｅｎｄＳｉｌｅｎｃｅ」属性３
０１以上の期間を超えた場合、これは認識が完了してい
ることを示唆するが、この場合は認識サーバ２０４が自
動的に認識を中止し、その結果を戻す。認識サーバ２０
４は、信頼度の測定を実施して、認識結果を戻すべきか
どうかを判定できることに留意されたい。信頼度の測定
値が閾値を下回る場合は、「ｏｎＮｏＲｅｃｏ」属性２
９３を発行し、一方信頼度の測定値が閾値を上回る場合
は、「ｏｎＮｏＲｅｃｏ」属性３０３および認識結果を
発行する。したがって図１４は、「自動モード」で、明
示的なｓｔｏｐ（）の呼び出しが行われていない状況
を表している。

【００５７】図１５は、認識サーバ２０４の「シングル
モード」の動作を図式的に表したものである。「自動モ
ード」との関連で上記で説明した属性およびイベントを
適用することができ、したがって同じ参照番号で示して
いる。しかし、この動作モードでは、ｓｔｏｐ（）呼
び出し３０５を、スケジュール２８１上に示している。
ｓｔｏｐ（）呼び出し３０５は、ユーザによる「ペン
アップ」などのイベントに相当する。この動作モードで
は、認識結果を戻すことは、明示的なｓｔｏｐ（）呼
び出し３０５によって制御される。すべての動作モード
の場合と同じく、「ｏｎＳｉｌｅｎｃｅ」イベント２９
１は、「ｉｎｉｔｉａｌＴｉｍｅｏｕｔ」期間２８９内
に音声が検出されない場合に発行されるが、この動作モ
ードでは認識を中止しない。同様に、ｓｔｏｐ（）呼
び出し３０５以前の認識不可能な発声によって生成され
る「ｏｎＮｏＲｅｃｏ」イベント２９３によっても認識
は中止されない。ただし、「ｂａｂｂｌｅＴｉｍｅｏｕ
ｔ」属性２９５または「ｍａｘＴｉｍｅｏｕｔ」属性２
９９と関連付けられた期間を超えた場合は、認識を中止
する。

【００５８】図１６は、認識サーバ２０４の「複数モー
ド」の動作を図式的に表している。上記で指摘したよう
に、この動作モードは、「オープンマイクロフォン」ま
たはディクテーションのシナリオで使用する。一般に、
この動作モードでは、明示的なｓｔｏｐ（）呼び出し
３０５が受け取られるか、または「ｂａｂｂｌｅＴｉｍ
ｅｏｕｔ」性２９５または「ｍａｘＴｉｍｅｏｕｔ」属
性２９９に関連付けられた期間を超えるまで、間隔を置
いて認識結果を戻す。ただし、「ｏｎＳｉｌｅｎｃｅ」
イベント２９１、「ｏｎＲｅｃｏ」イベント３０３、ま
たは「ｏｎＮｏＲｅｃｏ」イベント２９３のいずれかが
発生すると、これらによって認識は中止されないが、
「ｂａｂｂｌｅＴｉｍｅｏｕｔ」期間および「ｍａｘＴ
ｉｍｅｏｕｔ」期間のタイマがリセットされることに留
意されたい。

【００５９】一般に、この動作モードでは、ｓｔｏｐ
（）呼び出し３０５が受け取られるまで、認識される
フレーズごとに、「ｏｎＲｅｃｏ」イベント３０３を発
行し、結果を戻す。認識不可能な発声のために「ｏｎＳ
ｉｌｅｎｃｅ」イベント２９１が発行された場合は、こ
れらのイベントを報告するが、認識は継続する。

【００６０】上記で触れたように、フィールドに関連付
けられた１つまたは複数のｒｅｃｏオブジェクトを起動
するが、これには、少なくともどの文法を使用するかに
ついての指示を認識サーバ２０４に提供することが含ま
れる。この情報は、クライアント３０で記録して認識サ
ーバ２０４に送信した音声データを伴うことができる。
上記で指摘したように、音声データは、ユーザが入力し
た音声に関連づけられたストリーミングデータを含むこ
とができ、あるいは音声認識中に使用する音声の特徴を
示す、前処理済みの音声データを含むことができる。別
の実施形態では、クライアント側の処理に音声データの
正規化も含むことができ、認識サーバ２０４が受け取る
音声データが、クライアントごとに比較的均質になるよ
うにする。これにより認識サーバ２０４の音声処理が簡
略化され、認識サーバを、クライアントおよび通信経路
のタイプにステートレスにすることができるので、認識
サーバ２０４のスケーラビリティをより容易にすること
ができる。

【００６１】認識サーバ２０４から認識結果を受け取る
と、その認識結果を対応するフィールドと関連付け、必
要な場合はクライアント側で確認またはチェックを行う
ことができる。現在クライアントがレンダリングしてい
るコードと関連付けられたすべてのフィールドを完了す
ると、アプリケーション処理のためにその情報をウェブ
サーバ２０２に送信する。前述の内容から、ウェブサー
バ２０２は、認識に適したコードまたはページ／スクリ
プトをクライアント３０に提供しているが、認識サービ
スはウェブサーバ２０２によっては行われず、認識サー
バ２０４によって行われることが明白であろう。ただ
し、本発明は、認識サーバ２０４をウェブサーバ２０２
とまとめて配置する、または認識サーバ２０４をクライ
アント３０の一部とするような実施を排除するわけでは
ない。すなわち、本明細書で提供するエクステンション
は、認識サーバ２０４をウェブサーバ２０２またはクラ
イアント３０と組み合わせた場合でも有用である。これ
は、エクステンションが、これら構成要素間に単純かつ
利便なインタフェースを提供するからである。

【００６２】図８に示す実施形態には示していないが、
ｒｅｃｏコントロールは、適切な音声データを認識サー
バ２０４に導くためのリモートオーディオオブジェクト
（ＲＡＯ）も含むことができる。ＲＡＯをプラグインオ
ブジェクトにすることによる利益は、サウンドインタフ
ェースが異なる可能性が高いことから、異なるデバイス
またはクライアントそれぞれに異なるＲＡＯを可能にす
ることである。さらに、リモートオーディオオブジェク
トにより、複数のｒｅｃｏ要素を同時に起動することが
可能になる。

【００６３】図９および１０は、本発明でページ／スク
リプトを含むＨＴＭＬとして実施する音声のみによるマ
ークアップ言語を示す。図に明瞭に示すように、このコ
ードも本体部分３００およびスクリプト部分３０２を含
んでいる。マークアップ言語の別のエクステンション、
すなわちバージインなどの属性を含むプロンプトコント
ロール３０３がある。ただし、図９および１０の音声の
みの実施形態では、音声認識を別の方式で行う。この場
合は、プロセス全体を、未入力（ｕｎｆｉｌｌｅｄ）の
フィールドを判定し、かつそれに対応するプロンプトお
よび新しいオブジェクトを起動するスクリプト関数「ｃ
ｈｅｃｋＦｉｌｌｅｄ」によって制御する。しかし、上
記で図８との関連で説明したのと同じコンテクストを使
用して文法を起動し、音声データおよび使用する文法の
指示を認識サーバ２０４に提供する。同様に、認識サー
バ２０４から受け取った出力を、クライアント（この場
合は電話音声ブラウザ２１２）のフィールドと関連付け
る。

【００６４】一般に音声のみのアプリケーションに固有
の他の機能は、音声が認識されなかった際にユーザにそ
れを知らせることである。図８のようなマルチモーダル
のアプリケーションでは、「ｏｎＮｏＲｅｃｏ」は、表
示されるフィールドに単にヌル値を入れて、認識が行わ
れなかったことを示すので、それ以上の動作は必要とさ
れない。音声のみの実施形態では、「ｏｎＮｏＲｅｃ
ｏ」３０５は関数「ｍｕｍｂｌｅ」を呼び出し、または
実行する。この関数は、単語のフレーズを認識サーバ２
０４に転送し、このフレーズは適切なテキストから音声
に変換するシステム３０７（図５）を使用して音声に変
換される。認識サーバ２０４は、オーディオストリーム
を電話音声ブラウザ２１２に戻し、次いでユーザが聴く
ためにそれを電話機８０に送信する。同様に、音声のみ
のアプリケーションに実施するこの他の波形プロンプト
も、必要な場合には認識サーバ２０４によりオーディオ
ストリームに変換する。

【００６５】この例では、関数「ｗｅｌｃｏｍｅ」を介
してｗｅｌｃｏｍｅプロンプトを再生すると、関数「ｃ
ｈｅｃｋＦｉｌｌｅｄ」がユーザに各フィールドを指示
し、適切な文法を起動する。これには、入力されたフィ
ールドを反復して、その情報が正しいことを確認するこ
とが含まれ、また「ｃｏｎｆｉｒｍａｔｉｏｎ」文法の
起動が含まれる。この実施形態では、各ｒｅｃｏコント
ロールは、先の例の本体部分ではなくて、スクリプト部
分３０２から開始されることに留意されたい。

【００６６】マークアップ言語は、異なるタイプのクラ
イアントデバイス（例えば、マルチモーダル、および電
話機のような非表示式、音声入力ベースのクライアント
デバイス）で実行することができ、各クライアントデバ
イスと対話するウェブサーバのために、音声に関連する
イベント、ＧＵＩイベント、および電話イベントのうち
少なくとも１つを統一する。これは、ウェブサーバアプ
リケーションのかなりの部分を、汎用的に、あるいはク
ライアントデバイスのタイプに依存せずに書くことを可
能にするので特に有用である。「ｈａｎｄｌｅ」関数を
含む一例を図８、および図９、１０に示す。

【００６７】図９、１０には示していないが、このマー
クアップ言語には、電話機能をサポートするエクステン
ションがさらに２つある。すなわち、ＤＴＭＦ（デュア
ルトーン変調周波）制御と、呼制御の要素またはオブジ
ェクトである。ＤＴＭＦは、ｒｅｃｏコントロールと同
様の働きをする。これは、キーパッドストリングからテ
キスト入力への単純な文法マッピングを指定する。例え
ば、「１」は食料品部門を意味し、「２」は薬品部門を
意味するなどである。一方、呼オブジェクトは、呼の転
送や第三者の呼出しのような電話機能を扱う。属性、プ
ロパティ、メソッド、イベントについては付録で詳細に
説明する。

【００６８】図１１および１２は、音声のみの動作モー
ドに適したマークアップ言語のさらに別の例を示す。こ
の実施形態では、ユーザは、情報をいつ入力するか、ま
たは話すかに関してある程度の制御権を有することがで
きる。言い換えると、このシステムでは、発話を開始さ
せるか、あるいはその他の方法で発話を開始するように
ユーザに指示することができるが、ユーザは当初要求さ
れるよりも多くの情報を提供することができる。これ
は、「混合主導型」の一例である。一般に、この形のダ
イアログ対話では、ユーザはダイアログの主導権をシス
テムと分かち合うことができる。上記で触れ、下記で詳
細に説明する、ユーザがプロンプトに要求されるよりも
多くの情報を提供する例のほかにも、ユーザはその指示
がないときにタスクを切り替えることもできる。

【００６９】図１１および１２の例では、「ｄｏ＿ｆｉ
ｅｌｄ」と識別する文法は、文法「ｇ＿ｃａｒｄ＿ｔｙ
ｐｅｓ」、「ｇ＿ｃａｒｄ＿ｎｕｍ」、および「ｇ＿ｅ
ｘｐｉｒｙ＿ｄａｔｅ」と関連付けられた情報を含む。
この例では、電話音声ブラウザ２１２は、「ｏｎＲｅｃ
ｏ」として示す認識済みの音声を受け取ると、電話機８
０から受け取った音声データと、「ｄｏ＿ｆｉｅｌｄ」
文法の使用の指示を認識サーバ２０４に送信し、関数
「ｈａｎｄｌｅ」が呼び出され、または実行されるが、
これには音声データから認識されたフィールドの一部ま
たはすべての値を関連付けることが含まれる。すなわ
ち、認識サーバ２０４から得る結果は、各フィールドに
ついての指示も含んでいる。この情報は構文解析し、４
０５で指定されるバインド規則に従って対応するフィー
ルドと関連付ける。図５に示すように、認識サーバ２０
４はパーサ３０９を含むことができる。

【００７０】図７、８、９、１０、１１、および１２か
ら、非常に類似したウェブ開発フレームワークを使用す
る。データの提示も、これらの各場合で非常に類似して
いる。さらに、データ提示とフロー制御を分離すること
により、異なるアプリケーション（システム主導型と混
合主導型）間、または異なるモダリティ間（ＧＵＩウェ
ブベース、音声のみ、およびマルチモーダル）での再使
用性を最大限にすることができる。また、これにより、
電話機がディスプレイおよびデバイス３０と同様の機能
を含む場合に、音声のみの動作から電話、そしてマルチ
モーダル動作への自然な拡張が可能になる。付録Ａで
は、以上で説明したコントロールおよびオブジェクトの
詳細をさらに提供する。

【００７１】上記で指摘したように、アップレベルブラ
ウザは、上記の例で認識結果を割り当てるために関数
「ｈａｎｄｌｅ」を起動するなど、各種のニーズを実行
するためにスクリプティングを使用することができる。
上記で説明し、付録Ａの２．１．２にさらに説明する実
施形態では、「ｂｉｎｄ」要素は認識結果を構文解析
し、値を割り当てるが、この「ｂｉｎｄ」要素は「ｒｅ
ｃｏ」要素の下位要素または子要素である。

【００７２】スクリプティングは有用でありうるが、多
くの者は、例えばセキュリティ問題などから必ずしも最
良のブラウザ実装形態であるとは限らないと見ている。
したがって、本発明のさらに別の実施形態または態様で
は、「ｂｉｎｄ」要素は（「ｒｅｃｏ」同様の）高レベ
ル要素であり、他のより豊富なプロパティとともに提供
され、実際、それ自体ではスクリプティングを用いずに
スクリプティングを実際に模倣することができる。

【００７３】スクリプティングを用いない場合、あるい
は下記で述べる本発明の態様を使用しない場合、高度な
ダイアログ効果など下記で述べる機能の一部は、ページ
を再度ウェブサーバ２０２に提出し、そこでアプリケー
ションロジックを実行して新しいページを生成し、その
ページを再びクライアントデバイスに送信することによ
ってのみ実現することができる。本発明のこの態様によ
り、プログラマは、サーバへのラウンドトリップを招く
（ｉｎｃｕｒ）ことなく、そのページのオブジェクトの
メソッドを起動することができる。

【００７４】上記の実施形態では、「ｂｉｎｄ」要素
は、認識結果をフォーム中またはウェブページ中のフィ
ールドに割り当てるための属性「ＴａｒｇｅｔＥｌｅｍ
ｅｎｔ」および「ＴａｒｇｅｔＡｔｔｒｉｂｕｔｅ」し
か有さない。別の実施形態では、「ｂｉｎｄ」要素は、
オブジェクトメソッドの起動のために加える「Ｔａｒｇ
ｅｔＭｅｔｈｏｄ」も含む。「ＴａｒｇｅｔＭｅｔｈｏ
ｄ」の使用および機能は、スクリプティングの模倣にと
って非常に重要な技術である。例えば、次の構文を使用
して、オブジェクト「ＯＢＪ１」の「Ｘ」メソッドを起
動することができる。<bind TargetElement = "OBJ1" T
argetMethod = "X" ...>ここに示す例はＨＴＭＬ／ＸＨ
ＴＭＬのイベント構文に従っているが、当業者にとって
は、＜ｂｉｎｄ＞の使用を一般化して、他のイベンティ
ング機構を使用することは平易であることに留意された
い。他のイベンティング機構には、Ｗ３Ｃドキュメント
オブジェクトモデルレベル２またはレベル３のイベンテ
ィング規格、ＥＣＭＡ共通言語基盤（ＣＬＩ）イベント
モデル、Ｊａｖａ（登録商標）プログラミング言語イベ
ントモデル、Ｗ３Ｃ同期マルチメディア統合言語（ＳＭ
ＩＬ）、および近く登場するＷ３ＣのＸＭＬイベント規
格提案が含まれるが、これらに限定するものではない。

【００７５】図１７および１８は、クライアント、特に
ダウンレベルブラウザで実行可能なマークアップ言語の
ページである。この例では、音声プロンプトを通じてユ
ーザに希望する飲料を尋ねている。このシステムは次い
で、どの飲料が注文されたかを確認する。認識結果に応
じて、「ｂｉｎｄ」要素は、宣言した論理を使用して実
行を導く。飲料を確認すると、そのフォームをウェブサ
ーバ２０２に再度提出するが、これらにスクリプティン
グは一切用いない。

【００７６】一般に、図１７および１８のマークアップ
例は、データ部分３５０、音声部分３５２、およびユー
ザインタフェース部分３５４、３５６、および３５８を
含む。部分３５４は、全般的な質疑から、ユーザが希望
する飲料についての認識結果を受け取り、対話式認識フ
ローを誘導して、クリームや砂糖が必要かどうかについ
て再度指示を促し、尋ねるか、または注文された飲料を
確認する。詳細には、部分３５６は、クリームや砂糖も
注文された場合にはその認識結果を受け取る。部分３５
８は、飲料の確認についての認識結果を受け取る。部分
３６０は、新しいメッセージングオブジェクト「ＳＭＥ
Ｘ」を用いる呼制御部分である。「ＳＭＥＸ」について
は下記でさらに説明する。

【００７７】上記で指摘したように、本発明のこの態様
の「ｂｉｎｄ」要素はオブジェクトメソッドの起動を含
み、これは、「ｗｅｌｃｏｍｅ」オブジェクトの「ｓｔ
ａｒｔ」メソッドを３６１で実行する際に「ｗｅｌｃｏ
ｍｅ」プロンプトを再生することにより、図１７および
１８の例でユーザ対話を開始する。

【００７８】次いで、３６２で「ａｓｋｅｄ」オブジェ
クトの「ｓｔａｒｔ」メソッドを実行することにより、
ユーザに「ご希望はコーラ、コーヒー、それともオレン
ジジュースですか？」と尋ねる。次いで、３６３で、認
識「ｒｅｃｏ＿ｄｒｉｎｋ」オブジェクトの「ｓｔａｒ
ｔ」メソッドを起動することにより認識を実行する。

【００７９】次いで部分３５４のマークアップを実行す
るが、ここで認識サーバ２０４が使用する文法は、Ｘｐ
ａｔｈステートメント「．／ｄｒｉｎｋｔｙｐｅｓ」
によって提供される。この例ではＷ３ＣのＸｐａｔｈ言
語を利用しているが、この概念を、他の標準的言語に拡
張することは当業者にとって平易であることに留意され
たい。他の標準的言語には、Ｗ３ＣによるＸＭＬクエリ
言語（ＸＱＬ）を含むが、これに限定するものではな
い。「ｂｉｎｄ」要素３６４によって明確に示すよう
に、認識サーバ２０４から受け取った認識結果の信頼度
スコアが１０未満である場合は、３６６でプロンプトオ
ブジェクト「ｒｅｐｒｏｍｐｔ」を実行し、それに続い
てプロンプトオブジェクト「ａｓｋ」を３６８で実行
し、この時に認識オブジェクト「ｒｅｃｏ＿ｄｒｉｎ
ｋ」を３７０で再度開始する。戻された認識結果が「ｃ
ｏｆｆｅｅ」で、それが１０を超える信頼度を有する場
合、３７２でフィールド「ｄｒｉｎｋ」に認識結果の値
を割り当て、３７４でプロンプトオブジェクト「ｃｒｅ
ａｍ＿ｓｕｇａｒ」により、クリームあるいは砂糖を希
望するかしないかについてユーザに指示を促す。次い
で、３７６で、部分３５６の認識オブジェクト「ｒｅｃ
ｏ＿ｃｒｅａｍ＿ｓｕｇａｒ」を起動する。そうでな
く、認識結果が信頼度スコアは１０を超えるがコーヒー
でない場合は、３７８でフィールド「ｄｒｉｎｋ」に再
度値を割り当てる。認識結果の確認は、プロンプトオブ
ジェクト「ｃｏｎｆｉｒｍ」を実行し、それに続いて部
分３５８の認識オブジェクト「ｒｅｃｏ＿ｙｅｓｎｏ」
を３８２で起動することにより、３８０で提供する。ユ
ーザが「ｙｅｓ」と答え、その信頼度スコアが１０を超
える場合は、３８４でプロンプトオブジェクト「ｔｈａ
ｎｋｓ」を再生し、次いで３８６でフォームを提出す
る。そうでなく、ユーザが「ｎｏ」と答えた場合、ある
いは認識結果の信頼度スコアが１０未満の場合は、３９
０でプロンプトオブジェクト「ｒｅｔｒｙ」を実行し、
その後再度プロンプトオブジェクト「ａｓｋ」を３９２
で実行し、「ｒｅｃｏ＿ｄｒｉｎｋ」認識オブジェクト
を３９４で起動する。

【００８０】上の例から、「ｂｉｎｄ」要素により、部
分３５４、３５６、または３５８で示すような複数のメ
ソッド起動が可能になる。所望の場合は、認識済み結果
の複数の割り当ても宣言することができる。ここで説明
する実施形態では、複数の割り当ておよびメソッド起動
を宣言する場合、それらはドキュメントの順序で実行す
る。

【００８１】別の実施形態では、メソッドの引き数を渡
すための規則も提供される。すなわち、一部のメソッド
は引き数のリストを必要とする場合がある。これは「ａ
ｒｇ」下位要素を使用して実現する。例えば、次のマー
クアップの場合、 <bind TargetElement = "OBJ" TargetMethod = "F"><ar
g>X</arg><arg>Y</arg></bind> は、「ＯＢＪ．Ｆ（Ｘ，Ｙ）」に等しい。すなわち「Ｏ
ＢＪ」は、パラメータすなわち引き数「Ｘ」および
「Ｙ」を用いるメソッド「Ｆ」を有するオブジェクトで
ある。

【００８２】「ｂｉｎｄ」要素は「ｅｖｅｎｔ」属性も
含むことができ、これはそのバインド要素が対象とする
イベントを宣言する。例えば、マークアップ <bind event = "onNoReco" = TargetElement = "prompt
1" TargetMethod = "start"/> は、「ｏｎＮｏＲｅｃｏ」イベントを送る際に、オブジ
ェクト「ｐｒｏｍｐｔ１」のメソッド「ｓｔａｒｔ」を
起動することを意味する。例えば図８との関連で上記で
説明したように、「ｂｉｎｄ」要素を「Ｒｅｃｏ」要素
の子要素として使用するのに整合するように、「ｂｉｎ
ｄ」要素のデフォルト属性は「ｏｎＲｅｃｏ」にする。

【００８３】高レベル要素である「ｂｉｎｄ」要素は、
付録の節２．４に明記するイベントをいずれも含むこと
ができる。さらに、「ｂｉｎｄ」要素は、アクセスして
プログラムフローを指示するのに使用できる「ｓｔａｔ
ｕｓ」属性を有する「ｏｎＥｒｒｏｒ」イベントも含む
ことができる。「ｂｉｎｄ」要素の他のイベントが「ｓ
ｔａｔｕｓ」属性を有する限り、これらにもアクセスす
ることができる。

【００８４】認識結果の状態の確認に加えて、実行中の
現在のドキュメントまたはページも確認することができ
る。詳細には、「ｔｅｓｔ」および「ｖａｌｕｅ」の両
属性を拡張して、それを含むドキュメントのルートノー
ドを参照する「ｈｏｓｔ」プリミティブを含ませること
ができる。例えば、再び図１７および１８を参照する
と、ここに含まれる例は、ユーザがコーヒーを注文した
際にクリームあるいは砂糖を希望するかどうかを尋ねる
追加の論理を部分３５４に有する。クリームや砂糖を加
え、したがって部分３５６を起動するためのフラグは、
マークアップ「ｈｏｓｔ（）／ｇｅｔ＿ｄｒｉｎｋ／ｄ
ｒｉｎｋ＝′ｃｏｆｆｅｅ′」の指定によって飲料フィ
ールドが「コーヒー」である場合にのみオンになる。

【００８５】また、「ｂｉｎｄ」要素は音声サーバ２０
４からの認識結果、値の受取り、およびそのドキュメン
ト中への割り当てに適用できるだけでなく、メッセージ
オブジェクト（ここでは「ｓｍｅｘ」と表す。例えばク
ライアントデバイスで実行するアプリケーションから
の）にも適用できることに留意されたい。図１７および
１８の例では、クライアントデバイスで実行される電話
アプリケーションが呼を検出すると、このページが実行
される。部分３６０で、「ｂｉｎｄ」要素は、メッセー
ジ「／Ｃａｌｌ＿ｃｏｎｎｅｃｔｅｄ」を受け取ると、
「ｗｅｌｃｏｍｅ」プロンプトを実行または再生し、
「ｒｅｃｏ＿ｄｒｉｎｋ」オブジェクトを実行すること
により認識を開始する。音声サーバ２０４から受け取る
認識結果と同様に、受け取るメッセージも大きく異なる
可能性がある。メッセージの一部は、所望のプログラム
フローを開始するために明確に規定する。受け取って処
理することのできるメッセージもある（例えば、認識サ
ーバから受け取る認識結果と同様に構文解析を行う）。
例えば、これにより、キーボードから入力するテキスト
の自然言語パーサのようにマークアップを使用できるよ
うになる。付録Ａのｒｅｃｏ要素は、この機能を実行す
るためのプロパティを含んでいる。同様に、プロンプト
要素を使用し、付録Ａでさらに説明するプロパティ「ｉ
ｎｎｅｒｔｅｘｔ」を使用することにより、動的コンテ
ンツまたはオーディオウェーブファイル用のテキストメ
ッセージを提供することができる。イベンティングは、
認識結果のためのイベンティングと同様のものでよい。
例えば、イベンティングは「ｏｎＲｅｃｅｉｖｅｄ」を
含むことができるが、これは、メッセージソース（例え
ばクライアントデバイスで実行するアプリケーション）
が、ブラウザで使用できるメッセージを有する際に送ら
れる。

【００８６】このように、「ｓｍｅｘ」すなわちメッセ
ージオブジェクトにより、ここに述べるようなマークア
ップタグを、クライアントデバイスで実行される他のコ
ンポーネントまたはアプリケーションに拡張することが
可能になる。別の例として、このメッセージオブジェク
トを使用して、クライアントデバイスで実行される聴覚
障害者用のＴＴＹコンポーネントと通信することができ
る。ＴＴＹコンポーネントは、音声認識を使用するので
はなく、ユーザが入力した内容のメッセージを提供す
る。このメッセージはその後、認識結果を認識サーバか
ら受け取った場合と同様に使用する。すなわち、メッセ
ージを構文解析して、フォームのフィールドに割り当て
るか、あるいは上記の「ｒｅｃｏ」、「ｇｒａｍｍａ
ｒ」、または「ｂｉｎｄ」要素を使用して他の処理を行
うことができる。このメッセージまたは「ｓｍｅｘ」オ
ブジェクトについては、付録Ａでさらに説明する。

【００８７】「ｂｉｎｄ」要素は「ｆｏｒ」属性も含む
ことができ、これにより、その動作をページ上の他のオ
ブジェクトに付することができる。例えば次のマークア
ップ <bind for = "prompt1" event = "onComplete" targetE
lement = "prompt2" =targetMethod = "start"/> は、オブジェクト「ｐｒｏｍｐｔ１」がイベント「ｏ
ｎＣｏｍｐｌｅｔｅ」を送ると、オブジェクト「ｐｒｏ
ｍｐｔ２」のｓｔａｒｔメソッドを起動する。

【００８８】再び図５を参照すると、ウェブサーバ２０
２は、サーバ側のプラグイン宣言オーサリングツールす
なわちモジュール３２０を含むことができる（例えば、
マイクロソフト社によるＡＳＰまたはＡＳＰ＋、あるい
はＪＳＰなど）。サーバ側のプラグインモジュール３２
０は、クライアント側のマークアップと、さらにはウェ
ブサーバ２０２にアクセスするクライアントのタイプに
ついて固有形態のマークアップも動的に生成することが
できる。クライアント情報は、クライアント／サーバ関
係が最初に確立されたときにウェブサーバ２０２に提供
することができ、ウェブサーバ２０２は、クライアント
の機能を検出するモジュールまたはルーチンを含むこと
ができる。この方式で、サーバ側のプラグインモジュー
ル３２０は、それぞれの音声認識シナリオ、すなわち電
話機８０を通じた音声のみ、あるいはマルチモーダル型
のデバイス３０に対する、クライアント側のマークアッ
プを生成することができる。一貫性のあるクライアント
側モデルを使用することにより（各アプリケーションで
使用できるｒｅｃｏおよびプロンプトコントロール）、
多数の異なるクライアントのアプリケーションオーサリ
ングが大幅に容易になる。

【００８９】クライアント側マークアップの動的な生成
に加えて、図８、９および１０のマークアップ例を用い
た、図６に示すようなクレジットカード番号の入手など
の高レベルのダイアログモジュールは、アプリケーショ
ンオーサリングで開発者が使用するために、記憶装置３
２４に記憶するサーバ側コントロールとして実施するこ
とができる。一般に、高レベルダイアログモジュール３
２４は、開発者が指定するパラメータに基づいて、音声
のみおよびマルチモーダルの両シナリオで、クライアン
ト側のマークアップおよびスクリプトを動的に生成す
る。高レベルダイアログモジュールは、開発者のニーズ
に適合するクライアント側のマークアップを生成するた
めのパラメータを含むことができる。例えば、クレジッ
トカード情報のモジュールは、クライアント側のマーク
アップスクリプトが許可すべきクレジットカードの種類
を指定するパラメータを含むことができる。サーバ側プ
ラグインモジュール３２０で使用するＡＳＰ＋ページの
例を図１３に示す。

【００９０】本発明について好ましい実施形態を参照し
て説明したが、当業者は、本発明の趣旨および範囲から
逸脱せずに、形態および詳細を変更することが可能であ
ることを理解されよう。

【００９１】付録Ａ１概要以下のタグは、ドキュメントが音声を入力媒体または出
力媒体として使用することを可能にするマークアップ要
素のセットである。これらのタグは、ＨＴＭＬ、ＸＨＴ
ＭＬ、ｃＨＴＭＬ、ＳＭＩＬ、ＷＭＬなど任意のＳＧＭ
Ｌ由来のマークアップ言語に埋め込むことのできる独立
型（ｓｅｌｆ−ｃｏｎｔａｉｎｅｄ）ＸＭＬになるよう
に設計されている。本発明で使用するタグは、ワシント
ン州レドモンドのマイクロソフト社から入手可能な周知
の方法であるＳＡＰＩ５．０に類似する。タグ、要素、
イベント、属性、プロパティ、戻り値などは例示的なも
のに過ぎず、制限的なものと考えるべきではない。本明
細書では音声およびＤＴＭＦの認識の場合の例を示す
が、同様のタグは他の形の認識にも提供することができ
る。

【００９２】本明細書で論じる主な要素は以下である。＜ｐｒｏｍｐｔ．．．＞音声合成の構成およびプロン
プトの再生＜ｒｅｃｏ．．．＞レコグナイザの構成、認識の実
行、および後処理＜ｇｒａｍｍａｒ．．．＞入力文法リソースの指定＜ｂｉｎｄ．．．＞認識結果の処理＜ｄｔｍｆ．．．＞ＤＴＭＦの構成および制御

【００９３】２ＲｅｃｏＲｅｃｏ要素は、可能なユーザ入力と、入力結果の処理
手段とを指定するのに使用する。したがって、その主要
な要素は＜ｇｒａｍｍａｒ＞および＜ｂｉｎｄ＞にする
ことができ、またレコグナイザプロパティを構成するた
めのリソースを含む。

【００９４】Ｒｅｃｏ要素は、アップレベルブラウザで
はＳｔａｒｔおよびＳｔｏｐのメソッドを介してプログ
ラム的に、またはＳＭＩＬを使用できるブラウザではＳ
ＭＩＬコマンドを使用して起動する。この要素は、ダウ
ンレベルブラウザ（すなわちスクリプトをサポートしな
いブラウザ）では、それがページ上にあることにより宣
言的にアクティブであると見なす。複数の文法を並行し
て起動することができるように、複数のＲｅｃｏ要素を
同時にアクティブと見なすことができる。

【００９５】Ｒｅｃｏは特定のモード、すなわち「自
動」「シングル」または「複数」をとることもでき、こ
れによりそれが使用可能にする認識シナリオの種類と、
認識プラットフォームの振る舞いを区別する。

【００９６】２．１Ｒｅｃｏの内容Ｒｅｃｏ要素は、１つまたは複数の文法と、任意選択
で、認識結果を調べ、関連性のある部分をそれを含むペ
ージ中の値にコピーするバインド要素のセットとを含
む。

【００９７】アップレベルブラウザでは、Ｒｅｃｏは、
プログラム的な起動、および個々の文法規則の非活動化
をサポートする。指定しない場合は、ある認識コンテキ
ストについて、文法のすべての最上位の規則がアクティ
ブになることにも留意されたい。

【００９８】２．１．１＜ｇｒａｍｍａｒ＞要素文法要素は、インラインの、またはｓｒｃ属性を使用し
て参照する文法を指定するのに使用する。通例は少なく
とも１つの文法（インラインまたは参照）を指定する。
インライン文法はテキストベースの文法形式にすること
ができるのに対し、参照文法は、テキストベースまたは
バイナリタイプにすることができる。複数の文法要素を
指定することが可能である。複数の文法要素を指定する
場合は、文法の規則を追加規則として同じ文法中に追加
する。同じ名前の規則がある場合にはそれに上書きす
る。

【００９９】属性：・ｓｒｃ：インライン文法を指定する場合は任意選択。
含める文法のＵＲＩ。指定しない場合は、ある認識コン
テキストについて、文法のすべての最上位規則がアクテ
ィブになることに留意されたい。

【０１００】・ｌａｎｇＩＤ：任意選択。音声エンジン
が使用する言語を指示するストリング。ストリングの形
式は、ｘｍｌ：ｌａｎｇ定義に従う。例えば、ｌａｎｇ
ＩＤ＝“ｅｎ−ｕｓ”は、米国英語を表す。この属性
は、ｌａｎｇＩＤを文法ＵＲＩ中で指定しないときにの
み有効である。指定しない場合は、米国英語を使用す
る。

【０１０１】ｌａｎｇＩＤが複数の箇所で指定される場
合、ｌａｎｇＩＤは、最低の有効範囲からの優先順位に
従う。すなわち、リモートの文法ファイル（つまりその
文法ファイル中で指定される言語ＩＤ）、次いで文法要
素、次いでｒｅｃｏ要素の順となる。ｓｒｃで参照する文法とインライン文法の両方を指定す
る場合は、インライン規則を参照規則に加え、同じ名前
の規則があればそれに上書きする。

【０１０２】２．１．２＜ｂｉｎｄ＞要素バインド要素は、認識結果の値をページ中にバインドす
るのに使用する。

【０１０３】バインド要素によって消費される認識結果
は、認識結果を指定するためのセマンティックマークア
ップ言語（ＳＭＬ）を含むＸＭＬドキュメントでよい。
その内容は、意味値、話された実際の単語、および信頼
度スコアを含む。ＳＭＬは、代替の認識選択肢（Ｎ番目
によい認識結果におけるものなど）も含むことができ
る。発声「Ｉ’ｄｌｉｋｅｔｏｔｒａｖｅｌｆ
ｒｏｍＳｅａｔｔｌｅｔｏＢｏｓｔｏｎ（シアトル
からボストンまで行きたい）」に対するＳＭＬドキュメ
ントの例を下に示す。 <sml confidence="40"> <travel text="シアトルからボストンまで行きたい"> <origin_city confidence="45"> シアトル </origin_city> <dest_city confidence="35"> ボストン </dest_city> </travel> </sml> 文法中（ｉｎ−ｇｒａｍｍａｒ）認識は、セマンティッ
クマークアップ言語すなわちＳＭＬでＸＭＬドキュメン
トを生成することになっているので、ＳＭＬドキュメン
トからバインドする値は、ＸＰａｔｈクエリを使用して
参照する。また、値をバインドするページ中の要素（こ
れはフォームコントロールである可能性が高い）は一意
に識別すべきなので、これらのターゲット要素は直接参
照する。

【０１０４】属性：・ｔａｒｇｅｔＥｌｅｍｅｎｔ：必須。ＳＭＬからｖａ
ｌｕｅの内容を割り当てる要素（Ｗ３ＣＳＭＩＬ２．
０と同様）。

【０１０５】・ｔａｒｇｅｔＡｔｔｒｉｂｕｔｅ：任意
選択。ＳＭＬからｖａｌｕｅの内容を割り当てるターゲ
ット要素の属性（ＳＭＩＬ２．０のａｔｔｒｉｂｕｔｅ
Ｎａｍｅ属性と同様）。指定しない場合は、「ｖａｌｕ
ｅ」になる。

【０１０６】・ｔｅｓｔ：任意選択。認識結果を割り当
てる際の条件を指示するＸＭＬＰａｔｔｅｒｎ（Ｗ３
ＣＸＭＬＤＯＭ仕様と同様）ストリング。デフォルト
条件は真。

【０１０７】・ｖａｌｕｅ：必須。ターゲット要素に割
り当てる認識結果ドキュメントの値を指定するＸＰＡＴ
Ｈ（Ｗ３ＣＸＭＬＤＯＭ仕様と同様）ストリング。

【０１０８】例：上記のＳＭＬのリターンを与えられる
と、以下のｒｅｃｏ要素はバインドを使用して、ｏｒｉ
ｇｉｎ＿ｃｉｔｙおよびｄｅｓｔ＿ｃｉｔｙ中の値を、
ターゲットページの要素ｔｘｔＢｏｘＯｒｉｇｉｎおよ
びｔｘｔＢｏｘＤｅｓｔに転送する。このバインドは、バインド操作の事前条件としてｄｅｓ
ｔ＿ｃｉｔｙ結果の信頼度属性にテストを行う以下の例
のように条件付きの場合もある。バインド要素は、ダウンレベルまたはアップレベルのブ
ラウザで認識結果を処理する単純な宣言的手段である。
より複雑な処理の場合、アップレベルブラウザによって
サポートされるｒｅｃｏＤＯＭオブジェクトは、ｏｎＲ
ｅｃｏイベントハンドラを実装して、プログラム的なス
クリプト分析と認識の戻しの後処理を行えるようにす
る。

【０１０９】２．２属性およびプロパティ以下の属性はすべてのブラウザでサポートされ、プロパ
ティはアップレベルブラウザによってサポートされる。

【０１１０】２．２．１属性以下のＲｅｃｏの属性は、ダイアログターンのために音
声レコグナイザを構成するのに使用する。

【０１１１】・ｉｎｉｔｉａｌＴｉｍｅｏｕｔ：任意選
択。認識の開始から音声の検出までのミリ秒単位の時
間。この値は認識プラットフォームに渡され、これを超
えた場合は、ｏｎＳｉｌｅｎｃｅイベントが認識プラッ
トフォームから提供される（２．４．２参照）。指定し
ない場合、音声プラットフォームはデフォルト値を使用
する。

【０１１２】・ｂａｂｂｌｅＴｉｍｅｏｕｔ：任意選
択。音声の検出後にレコグナイザが結果を戻さなければ
ならないミリ秒単位の期間。自動モードおよびシングル
モードのｒｅｃｏの場合、これは音声検出からｓｔｏｐ
呼び出しまでの期間に該当する。「複数」モードのｒｅ
ｃｏの場合、このタイムアウトは、音声検出から各認識
の戻しまでの期間に相当する。すなわち、各結果の戻し
または他のイベントの後にこの期間を再び開始する。こ
のタイムアウトを超えると、エラーの発生の有無に応じ
て異なるイベントを投入する。例えば、発声が例外的に
長い場合など、レコグナイザがなおオーディオを処理し
ている場合は、ステータスコード１３により（２．４．
４参照）ｏｎＮｏＲｅｃｏイベントを投入する。ただ
し、何らかの他の理由でこのタイムアウトを超えた場合
はレコグナイザのエラーである可能性がより高くなり、
ｏｎＴｉｍｅｏｕｔイベントを投入する。指定しない場
合、音声プラットフォームは内部値を使用する。

【０１１３】・ｍａｘＴｉｍｅｏｕｔ：任意選択。認識
の開始からブラウザに結果を戻すまでのミリ秒単位の期
間。これを超えると、ブラウザによってｏｎＴｉｍｅｏ
ｕｔイベントが投入され、これにより分散環境における
ネットワークまたはレコグナイザの障害に対処（ｃａｔ
ｅｒｆｏｒ）する。「複数」モードのｒｅｃｏの場合
は、ｂａｂｂｌｅＴｉｍｅｏｕｔと同様に、各認識の戻
しまたは他のイベントの後にこの期間を再度開始する。
ｍａｘＴｉｍｅｏｕｔ属性は、ｉｎｉｔｉａｌＴｉｍｅ
ｏｕｔとｂａｂｂｌｅＴｉｍｅｏｕｔの合計よりも大き
くするか、または等しくすべきであることに留意された
い。指定しない場合、この値はブラウザのデフォルトに
なる。

【０１１４】・ｅｎｄＳｉｌｅｎｃｅ：任意選択。自動
モードのＲｅｃｏの場合、認識結果を戻すまでの、音声
があってはならない発話終了後のミリ秒単位の無音期
間。自動モード以外のモードのｒｅｃｏについては無視
する。指定しない場合は、プラットフォームの内部値に
なる。

【０１１５】・ｒｅｊｅｃｔ：任意選択。認識拒絶の閾
値。これを下回ると、プラットフォームは「ｎｏｒｅ
ｃｏ」イベントを投入する。指定しない場合、音声プラ
ットフォームはデフォルト値を使用する。信頼度スコア
は、０から１００の範囲（整数）。拒絶値はこの範囲内
にある。

【０１１６】・ｓｅｒｖｅｒ：任意選択。音声プラット
フォームのＵＲＩ（タグインタープリタと認識プラット
フォームをまとめて配置しない場合に使用する）。値の
例は、ｓｅｒｖｅｒ＝ｐｒｏｔｏｃｏｌ：／／ｙｏｕｒ
ｓｐｅｅｃｈｐｌａｔｆｏｒｍなどとなる。アプリケー
ションの作成者（ａｕｔｈｏｒ）は、ＵＲＩストリング
にクエリストリングを加えることにより、音声プラット
フォームに固有の設定を提供することもできる。例：ｐ
ｒｏｔｏｃｏｌ：／／ｙｏｕｒｓｐｅｅｃｈｐｌａｔｆ
ｏｒｍ？ｂａｒｇｅｉｎＥｎｅｒｇｙＴｈｒｅｓｈｏｌ
ｄ＝０．５。

【０１１７】・ｌａｎｇＩＤ：任意選択。音声エンジン
が使用する言語を指定するストリング。ストリング形式
は、ｘｍｌ：ｌａｎｇ定義に従う。例えば、ｌａｎｇ
＝“ｅｎ−ｕｓ”は米国英語を表す。この属性は、文法
要素中でｌａｎｇＩＤを指定しない場合のみに有効であ
る（２．１．１参照）・ｍｏｄｅ：任意選択。とるべき認識モードを指定する
ストリング。指定しない場合は、「自動」モードにな
る。

【０１１８】２．２．２プロパティ以下のプロパティは、認識プロセスによって戻される結
果を含む（これらはアップレベルブラウザにサポートさ
れる）。

【０１１９】・ｒｅｃｏＲｅｓｕｌｔ：読み取り専用。
認識の結果、２．１．２で述べたように、セマンティッ
クマークアップ言語（ＳＭＬ）を含むＸＭＬＤＯＭノ
ードオブジェクト中に保持される。認識が行われなかっ
た場合、このプロパティはヌルに戻る。

【０１２０】・ｔｅｘｔ：読み取り／書き込み。認識さ
れた単語のテキストを保持するストリング（すなわち、
読み取りモードにおけるｒｅｃｏＲｅｓｕｌｔ中のＳＭ
Ｌ認識の戻しの中の最上位要素のテキスト属性の内容を
表す省略表現）。書き込みモードでは、ストリングを割
り当てることができ、次いでそのストリングが認識結果
に対応するものとしてそれを構文解析する。書き込みモ
ードでは、このマークアップタグおよびその処理を、ク
ライアントデバイスの他のコンポーネントまたはアプリ
ケーションに拡張することができる。このストリング
は、「ｓｍｅｘ」メッセージオブジェクトから得られ
る。

【０１２１】・ｓｔａｔｕｓ：読み取り専用。認識プラ
ットフォームが返すステータスコード。可能な値は、認
識が成功した場合の０、あるいは障害値−１から−４
（Ｓｔａｒｔメソッド（節２．３．１）およびＡｃｔｉ
ｖａｔｅメソッド（節２．３．４）で可能な例外で定義
する）、およびレコグナイザイベントを受け取った際に
セットされるステータス−１１から−１５（２．４参
照）。

【０１２２】２．３オブジェクトメソッドｒｅｃｏの起動および文法の起動は、ＲｅｃｏのＤＯＭ
オブジェクト中の以下のメソッドを使用して制御するこ
とができる。これらのメソッドにより、アップレベルブ
ラウザはＲｅｃｏオブジェクトの開始および中止、進行
中の認識のキャンセル、個々の文法のトップレベルの規
則の起動および非活動化を行うことができる（アップレ
ベルブラウザのみ）。

【０１２３】２．３．１ＳｔａｒｔＳｔａｒｔメソッドは、明示的には非活動化していない
認識コンテキストについてのすべての最上位規則をアク
ティブな文法として使用して認識プロセスを開始する。構文：Ｏｂｊｅｃｔ．Ｓｔａｒｔ（）戻り値：なし例外：このメソッドは、非ゼロのステータスコードをセ
ットし、障害があった際はｏｎＮｏＲｅｃｏイベントを
発生させる。可能性のある障害には、文法が存在しない
（ｒｅｃｏステータス＝−１）、文法のコンパイルの失
敗、存在しないＵＲＩなど様々な原因になりうる文法の
ロードの失敗（ｒｅｃｏステータス＝−２）、あるいは
音声プラットフォームのエラー（ｒｅｃｏステータス＝
−３）などが含まれる。

【０１２４】２．３．２ＳｔｏｐＳｔｏｐメソッドは、認識プロセスを終了する呼び出し
である。Ｒｅｃｏオブジェクトはオーディオの記録を中
止し、レコグナイザは、記録が中止される時点までに受
け取ったオーディオについての認識結果を戻す。Ｒｅｃ
ｏが使用するすべての認識リソースは解放され、その文
法は非活動化される。（このメソッドは、自動モードに
よる通常の認識には明示的に使用する必要がないことに
留意されたい。これは、レコグナイザ自体が、完全な文
を認識した後のエンドポイント検出においてｒｅｃｏオ
ブジェクトを中止するからである。）Ｒｅｃｏが開始さ
れていない場合、この呼び出しは効果を持たない。構文：Ｏｂｊｅｃｔ．Ｓｔｏｐ（）戻り値：なし例外：なし

【０１２５】２．３．３ＣａｎｃｅｌＣａｎｃｅｌメソッドは、レコグナイザへのオーディオ
の供給を中止し、文法を非活動化し、レコグナイザを解
放し、すべての認識結果を破棄する。ブラウザは、キャ
ンセルされた認識についての認識結果は破棄する。レコ
グナイザが開始されていない場合、この呼び出しは効果
を持たない。構文：Ｏｂｊｅｃｔ．Ｃａｎｃｅｌ（）戻り値：なし例外：なし

【０１２６】２．３．４ＡｃｔｉｖａｔｅＡｃｔｉｖａｔｅメソッドは、文脈自由文法（ＣＦＧ）
の最上位規則を起動する。起動は、「開始された」認識
プロセス中には効果を持たないので、認識が開始する前
に呼び出さなければならない。明示的に非活動化してい
ない認識コンテキストについてのすべての文法の最上位
規則は、すでにアクティブであると見なすことに留意さ
れたい。構文：Ｏｂｊｅｃｔ．Ａｃｔｉｖａｔｅ（ｓｔｒＮａｍ
ｅ）パラメータ：・ｓｔｒＮａｍｅ：必須。起動する規則名。戻り値：なし例外：なし

【０１２７】２．３．５Ｄｅａｃｔｉｖａｔｅこのメソッドは、文法中のトップレベル規則を非活動化
する。その規則が存在しない場合、このメソッドは効果
を持たない。構文：Ｏｂｊｅｃｔ．Ｄｅａｃｔｉｖａｔｅ（ｓｔｒＮ
ａｍｅ）パラメータ：・ｓｔｒＮａｍｅ：必須。非活動化する規則名。空スト
リングはすべての規則を非活動化する。戻り値：なし例外：なし

【０１２８】２．４ＲｅｃｏイベントＲｅｃｏＤＯＭオブジェクトは以下のイベントをサポ
ートし、そのハンドラはｒｅｃｏ要素の属性として指定
することができる。

【０１２９】２．４．１ｏｎＲｅｃｏ：このイベント
は、レコグナイザが、そのブラウザで利用することので
きる認識結果を得ると起動される。自動モードのｒｅｃ
ｏの場合、このイベントは認識プロセスを自動的に中止
し、リソースをクリアする（２．３．２参照）。ｏｎＲ
ｅｃｏは通例、認識結果のプログラム的な分析と、ペー
ジ中への結果の処理に使用される。構文：

【０１３０】

【表１】

【０１３１】イベントオブジェクト情報：

【０１３２】

【表２】

【０１３３】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる（下記の例のイベントオブジェクトの使用を
参照のこと）。

【０１３４】例次のＸＨＴＭＬの断片ではｏｎＲｅｃｏを使用して、認
識結果を構文解析し、その値を適切なフィールドに割り
当てるスクリプトを呼び出している。

【０１３５】２．４．２ｏｎＳｉｌｅｎｃｅ：ｏｎＳ
ｉｌｅｎｃｅは、ＲｅｃｏのｉｎｉｔｉａｌＴｉｍｅｏ
ｕｔ属性で指定された時間が過ぎる前に、認識プラット
フォームが検出した無音声のイベントに対処する（２．
２．１参照）。このイベントは、自動認識モードの認識
プロセスを自動的にキャンセルする。構文：

【０１３６】

【表３】

【０１３７】イベントオブジェクト情報：

【０１３８】

【表４】

【０１３９】イベントプロパティ：イベントハンドラ
は、プロパティを直接受け取ることはないが、ハンドラ
はデータについてイベントオブジェクトに照会を行うこ
とができる。

【０１４０】２．４．３ｏｎＴｉｍｅｏｕｔｏｎＴｉｍｅｏｕｔは、通例は音声プラットフォームか
らのエラーを反映する２タイプのイベントを扱う。

【０１４１】・認識が完了する前にｍａｘＴｉｍｅ属性
で指定された期間を過ぎた（２．２．１参照）ことを通
知する、タグインタープリタが投入するイベントを扱
う。このイベントは通例、分散型アーキテクチャで生じ
うる問題を反映する。

【０１４２】・また、（ｉｉ）認識が開始されたが、ｂ
ａｂｂｌｅＴｉｍｅｏｕｔで指定された期間内に認識が
ないまま処理が中止した際に、音声認識プラットフォー
ムが投入するイベントも扱う（２．２．１参照）。この
イベントは、認識プロセスを自動的にキャンセルする。構文：

【０１４３】

【表５】

【０１４４】イベントオブジェクト情報：

【０１４５】

【表６】

【０１４６】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる。

【０１４７】２．４．４ｏｎＮｏＲｅｃｏ：ｏｎＮｏ
Ｒｅｃｏは、有効な認識結果を戻すことができない際に
音声認識プラットフォームが投入するイベント用のハン
ドラである。それが発生しうる異なるケースは、ステー
タスコードで区別する。このイベントは認識プロセスを
自動的に中止する。構文：

【０１４８】

【表７】

【０１４９】イベントオブジェクト情報：

【０１５０】

【表８】

【０１５１】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、データについ
てこのイベントオブジェクトに照会を行うことができ
る。

【０１５２】３プロンプトプロンプト要素は、システム出力を指定するのに使用す
る。その内容は以下の１つまたは複数にすることができ
る。・インラインテキストまたは参照テキスト。これは、韻
律的な（ｐｒｏｓｏｄｉｃ）またはその他の音声出力情
報でマークアップすることができる。・レンダリング時にそれを含むドキュメントから取り出
す変数値。・オーディオファイルへのリンク。プロンプト要素は、ダウンレベルブラウザによって宣言
的に解釈する（あるいはＳＭＩＬコマンドで起動する）
ことも、アップレベルブラウザのオブジェクトメソッド
によって宣言的に解釈することもできる。

【０１５３】３．１プロンプト内容プロンプト要素は、テキストまたはオーディオファイル
へのリファレンスの形で、あるいはこの両方の形でシス
テム出力用のリソースを含む。

【０１５４】簡単なプロンプトは、出力に必要なテキス
トだけを指定すればよい。例えば、 <prompt id="Welcome"> ＡＣＭＥ天気予報へのお電話ありがとうございます </prompt> この簡単なテキストは、下記に説明する種類のどのマー
クアップもさらに含むことができる。

【０１５５】３．１．１音声合成マークアップこのプロンプト要素の内部では、どの形式の音声合成マ
ークアップ言語でも使用することができる。（この形式
は、３．２．１で説明する「ｔｔｓ」属性で指定するこ
とができる。）次の例は、その中の特定の単語を強調す
る命令を含むテキストを示している。 <prompt id="giveBalance"> あなたの口座の残高は＜ｅｍｐｈ＞５ドル＜／ｅｍｐｈ＞です </prompt>

【０１５６】３．１．２動的な内容このプロンプトの実際の内容は、プロンプトの出力の直
前にクライアントで計算する必要がある場合がある。例
えば特定の値を確定するには、ある変数にその値をデリ
ファレンスする必要がある。この値要素はこの目的に使
用することができる。

【０１５７】値要素ｖａｌｕｅ：任意選択。ドキュメント中の要素の値を取
り出す。属性：・ｔａｒｇｅｔＥｌｅｍｅｎｔ：任意選択。ｈｒｅｆま
たはｔａｒｇｅｔＥｌｅｍｅｎｔを指定しなければなら
ない。取り出す値を含む要素のＩＤ。・ｔａｒｇｅｔＡｔｔｒｉｂｕｔｅ：任意選択。値を取
り出す要素の属性。・ｈｒｅｆ：任意選択。オーディオセグメントのＵＲ
Ｉ。両方ある場合には、ｈｒｅｆがｔａｒｇｅｔＥｌｅ
ｍｅｎｔを上書きする。

【０１５８】ｔａｒｇｅｔＥｌｅｍｅｎｔ属性は、それ
を含むドキュメント中の要素を参照するのに使用され
る。ｔａｒｇｅｔＥｌｅｍｅｎｔによってＩＤが指定さ
れた要素の内容を、合成するテキストに挿入する。所望
の内容がその要素の属性に保持されている場合、ｔａｒ
ｇｅｔＡｔｔｒｉｂｕｔｅを使用して、ｔａｒｇｅｔＥ
ｌｅｍｅｎｔの必要な属性を指定することができる。こ
れは、例えば、ＨＴＭＬフォームコントロール中の値を
デリファレンスするのに有用である。下の例では、「ｔ
ｘｔＢｏｘＯｒｉｇｉｎ」要素および「ｔｘｔＢｏｘＤ
ｅｓｔ」要素の「ｖａｌｕｅ」属性を、プロンプトの出
力前にテキストに挿入している。

【０１５９】３．１．３オーディオファイルこの値要素は、合成したプロンプトの代わりに、あるい
はその中で再生するあらかじめ記録したオーディオファ
イルを参照するのにも使用することができる。次の例で
は、プロンプトの最後にビープ音を鳴らしている。 <prompt> ピーッという音がしたらメッセージを録音してください <value href="/wav/beep.wav" /> </prompt>

【０１６０】３．１．４参照プロンプトインラインの内容を指定する代わりに、ｓｒｃ属性を空
要素とともに使用し、ＵＲＩを介して外部の内容を参照
することができる。例えば、ｓｒｃ属性の対象は、インラインプロンプトに指定する
上記の内容の任意部分またはすべてを保持することがで
きる。

【０１６１】３．２属性およびプロパティこのプロンプト要素は、以下の属性（ダウンレベルブラ
ウザ）およびプロパティ（ダウンレベルおよびアップレ
ベルブラウザ）を保持する。

【０１６２】３．２．１属性・ｔｔｓ：任意選択。テキストから音声への合成用のマ
ークアップ言語タイプ。デフォルトは「ＳＡＰＩ
５」。・ｓｒｃ：インラインプロンプトを指定する場合は任意
選択。参照するプロンプトのＵＲＩ（３．１．４参
照）。・ｂａｒｇｅｉｎ：任意選択。整数。プロンプトの開始
から、人間の聴者が再生を中断できるようになるまでの
ミリ秒単位の時間。デフォルトは無限、すなわちバージ
インを許可しない。ｂａｒｇｅｉｎ＝０にすると、即時
のバージインが可能になる。これは、プラットフォーム
がサポートするどの種のバージインにも該当する。ｒｅ
ｃｏを開始する時間にどちらを使用可能にするかに応じ
て、キーワードまたはエネルギーベースのバージイン時
間をこの方式で構成することができる。・ｐｒｅｆｅｔｃｈ：任意選択。ページをロードする際
にプロンプトを直ちに合成して、ブラウザにキャッシュ
するかどうかを示すブールフラグ。デフォルトは偽。

【０１６３】３．２．２プロパティアップレベルブラウザは、プロンプトのＤＯＭオブジェ
クト中の以下のプロパティをサポートする。・ｂｏｏｋｍａｒｋ：読み取り専用。遭遇した最後の合
成ブックマークのテキストを記録するストリングオブジ
ェクト。・ｓｔａｔｕｓ：読み取り専用。音声プラットフォーム
から戻されるステータスコード。・ｉｎｎｅｒｔｅｘｔ：読み取り専用。このプロパティ
はプロンプトのテキストの複写（ｔｒａｎｓｃｒｉｐｔ
ｉｏｎ）を提供し、それがシンセサイザに送られる。例
えば、あるプロンプトがオーディオウェーブファイルの
再生を含む場合、このプロパティはそのプロンプトのテ
キストバージョン（オーディオウェーブファイルととも
に記憶することが多い）を提供し、これはその後、例え
ばクライアントデバイスで実行するコンポーネントまた
はアプリケーションにプロンプトのテキストバージョン
を提供することにより、表示するか、またはその他の形
で使用することができる。またｉｎｎｅｒｔｅｘｔプロ
パティを使用して、動的コンテンツを含むプロンプトの
テキストバージョンも提供することができる。

【０１６４】３．３プロンプトメソッドプロンプトの再生は、プロンプトのＤＯＭオブジェクト
中の以下のメソッドを使用して制御することができる。
この方式により、アップレベルブラウザは、プロンプト
オブジェクトを開始および停止し、進行中のプロンプト
を一時停止および再開し、合成音声のスピードおよび音
量を変えることができる。

【０１６５】３．３．１Ｓｔａｒｔプロンプトの再生を開始する。引き数が与えられない限
り、このメソッドはオブジェクトの内容を再生する。所
与の時間に単一のプロンプトオブジェクトだけが「開始
される」と考えられるので、Ｓｔａｒｔを連続して呼び
出すとすべての再生が連続的に再生される。

【０１６６】構文：Ｏｂｊｅｃｔ．Ｓｔａｒｔ（［ｓｔ
ｒＴｅｘｔ］）パラメータ：・ｓｔｒＴｅｘｔ：シンセサイザに送信するテキスト。
存在する場合にはこの引き数がオブジェクトの内容を上
書きする。戻り値：なし例外：サーバがすでにオーディオバッファを開放してい
る場合には、ステータス＝−１にセットし、ｏｎＣｏｍ
ｐｌｅｔｅイベントを発生させる。

【０１６７】３．３．２Ｐａｕｓｅオーディオバッファをフラッシュすることなく再生を一
時停止する。このメソッドは、再生を一時停止または停
止している場合には効果を持たない。構文：Ｏｂｊｅｃｔ．Ｐａｕｓｅ（）；戻り値：なし例外：なし

【０１６８】３．３．３Ｒｅｓｕｍｅオーディオバッファをフラッシュすることなく再生を再
開する。このメソッドは、再生が一時停止状態にない場
合は効果を持たない。構文：Ｏｂｊｅｃｔ．Ｒｅｓｕｍｅ（）；戻り値：なし例外：再開が失敗した際に例外を投入する。

【０１６９】３．３．４Ｓｔｏｐ再生がまだ中止されていない場合に再生を中止し、オー
ディオバッファをフラッシュする。再生がすでに中止さ
れている場合、このメソッドは単にオーディオバッファ
をフラッシュする。構文：Ｏｂｊｅｃｔ．Ｓｔｏｐ（）；戻り値：なし例外：なし

【０１７０】３．３．５Ｃｈａｎｇｅ再生の速度および／または音量を変更する。Ｃｈａｎｇ
ｅは再生中に呼び出すことができる。構文：Ｏｂｊｅｃｔ．Ｃｈａｎｇｅ（ｓｐｅｅｄ，ｖｏ
ｌｕｍｅ）；パラメータ：・ｓｐｅｅｄ：必須。変化させる係数。ｓｐｅｅｄ＝２．０は、現在の速度を２倍にすることを
意味しｓｐｅｅｄ＝０．５は、現在の速度の２分の１に
することを意味し、ｓｐｅｅｄ＝０は、デフォルト値に
戻すことを意味する。・ｖｏｌｕｍｅ：必須。変化させる係数。ｖｏｌｕｍｅ＝２．０は、現在の音量を倍にすることを
意味し、ｖｏｌｕｍｅ＝０．５は、現在の音量を半分に
することを意味し、ｖｏｌｕｍｅ＝０は、デフォルト値
に戻すことを意味する。戻り値：なし例外：なし

【０１７１】３．３．６プロンプトコントロールの例次の例は、キーワードバージインの機構をサポートしな
いプラットフォームに対して、上記のメソッドを使用す
るプロンプトコントロールをオーサリングする仕組みを
示している。

【０１７２】 <html> <title>プロンプトコントロール</title> <head> <script> <!-- function checkKWBargein() { news.change (1.0, 0.5); // 確認中は音量を下げる if (keyword.text == "") { // 結果が閾値以下である場合 news.change (1.0, 2.0); // 音量を元に戻す keyword.Start (); // 認識を再開 } else { news.Stop (); // キーワード検出！プロンプトを中止 // 必要事項を行う } } // </script> <script for="window" event="onload"> <!-- news.Start (); // keyword.Start (); // </script> </head> <body> <prompt id="news" bargein="0"> 水曜日の株式市場も、投資家が、来週の連邦準備理事会
の会合に先立ち大きな動きにつながる材料を得られなか
ったことから展開に活気がありませんでした。ハイテク
銘柄中心のナスダック総合指数は４２．５１ポイント下
落し、２１５６．２６で取引を終えました。ダウジョー
ンズ工業平均株価は、午後に入って反騰がなく１７．０
５ポイント下落して１０８６６．４６で取引を終えまし
た。

【０１７３】３．４プロンプトイベントプロンプトＤＯＭオブジェクトは以下のイベントをサポ
ートするが、そのハンドラはプロンプト要素の属性とし
て指定することができる。

【０１７４】３．４．１ｏｎＢｏｏｋｍａｒｋ合成ブックマークに遭遇すると発生する。このイベント
は再生を一時停止しない。構文：

【０１７５】

【表９】

【０１７６】イベントオブジェクト情報：

【０１７７】

【表１０】

【０１７８】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる。

【０１７９】３．４．２ｏｎＢａｒｇｅｉｎ：ユーザ
のバージインイベントを検出すると発生する。（例えば
エネルギー検出やキーワード認識など、何がバージイン
イベントを構成するかの決定はプラットフォームによる
ことに留意されたい。）このイベントハンドラを指定し
ても、自動的にバージイン機能がオンになるわけではな
い。構文：

【０１８０】

【表１１】

【０１８１】イベントオブジェクト情報：

【０１８２】

【表１２】

【０１８３】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる。

【０１８４】３．４．３ｏｎＣｏｍｐｌｅｔｅ：プロ
ンプトの再生が最後に達するか、または例外（上記に定
義）に遭遇すると発生する。構文：

【０１８５】

【表１３】

【０１８６】イベントオブジェクト情報：

【０１８７】

【表１４】

【０１８８】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる。

【０１８９】３．４．４ブックマークおよびイベント
の使用次の例は、プロンプトの出力中にバージインが行われた
場合に、ブックマークイベントを使用して、出発地の訂
正か目的地の提供のいずれかであるユーザ応答の意味を
判定する仕組みを示している。ｏｎＢａｒｇｅｉｎハン
ドラが、プロンプト中に遭遇した最後のブックマークに
グローバルな「ｍａｒｋ」変数を設定するスクリプトを
呼び出し、この「ｍａｒｋ」の値をｒｅｃｏの後処理関
数（「ｈｅａｒｄ」）で使用して、正しい値をセットし
ている。

【０１９０】 <script><![CDATA[ var mark; function interrupt( ) { mark = event.srcElement.bookmark; } function ProcessCityConfirm() { confirm.stop(); // オーディオバッファをフラッシュする if (mark == "mark_origin_city") txtBoxOrigin.value = event.srcElement.text; else txtBoxDest.value = event.srcElement.text; } ]]></script> <body> <input name="txtBoxOrigin" value="Seattle" type="text"/> <input name="txtBoxDest" type="text" /> ... <prompt id="confirm" onBargein="interrupt()" bargein="0"> <bookmark mark="mark_origin_city" /> <value targetElement="origin" targetAttribute="value" />から <bookmark mark="mark_dest_city" />行きたい行先地を言って下さい </prompt> <reco onReco="ProcessCityConfirm()" > <grammar src="/grm/1033/cities.xml" /> </reco> ... </body>

【０１９１】４ＤＴＭＦＤＴＭＦ認識オブジェクトを作成する。このオブジェク
トは、インラインのマークアップ言語構文を使用して、
あるいははスクリプト中にインスタンス化することがで
きる。起動すると、ＤＴＭＦにより、プロンプトオブジ
ェクトがバージインイベントを発生することができる。
下記でＤＴＭＦとの関連で説明するタグおよびイベンテ
ィング、および節５で説明する呼制御は、一般には、音
声ブラウザ２１６とメディアサーバ２１４間の対話に関
連するものであることに留意されたい。

【０１９２】４．１内容・ｄｔｍｆｇｒａｍｍａｒ：インライン文法・ｂｉｎｄ：ＤＴＭＦの変換結果を適切なフィールドに
割り当てる属性：・ｔａｒｇｅｔＥｌｅｍｅｎｔ：必須。部分的な認識結
果を割り当てる要素（参照：Ｗ３ＣＳＭＩＬ２．０に
同じ）。・ｔａｒｇｅｔＡｔｔｒｉｂｕｔｅ：認識結果を割り当
てるターゲット要素の属性（参照：ＳＭＩＬ２．０に同
じ）。デフォルトは「ｖａｌｕｅ」。・ｔｅｓｔ：割り当ての条件。デフォルトは真。

【０１９３】例１：テキストにキーをマッピングする「ｃｉｔｙ＿ｃｈｏｉｃｅ」を起動して、ユーザが１を
押すと「Ｓｅａｔｔｌｅ」が入力フィールドに割り当て
られ、２を押すと「Ｂｏｓｔｏｎ」が割り当てられ、そ
の他の場合は何も割り当てられない。

【０１９４】例２：どのようにしてＤＴＭＦを複数フィ
ールドに使用することができるかこの例は、いかにしてユーザが複数フィールドに入力す
るのを可能にするかをを示している。

【０１９５】例３：音声入力およびＤＴＭＦ入力をとも
に許可し、ユーザがＤＴＭＦを開始した際に音声を使用
不可にするには <input type="text" name="credit_card_number" /> <prompt onBookmark="dtmf.Start(); speech.Start()" bargein="0"> <bookmark name="starting" />と言うか、またはあなたのクレジットカード番号を入力してください </prompt> <DTMF id="dtmf" escape="#" length="16" interdigitTimeout="2000" onkeypress="speech.Stop()"> <bind targetElement="credit_card_number" /> </DTMF> <reco id="speech" > <grammar src="/grm/1033/digits.xml" /> <bind targetElement="credit_card_number" /> </reco>

【０１９６】４．２属性およびプロパティ４．２．１属性・ｄｔｍｆｇｒａｍｍａｒ：必須。ＤＴＭＦ文法のＵＲ
Ｉ。

【０１９７】４．２．２プロパティ・ＤＴＭＦｇｒａｍｍａｒ読み取りおよび書き込み。ストリング変換行列に対するＤＴＭＦを表すＸＭＬＤ
ＯＭノードオブジェクト（ＤＴＭＦ文法とも呼ぶ）。
デフォルト文法は、

【０１９８】・ｆｌｕｓｈ読み取り／書き込み。起動の前に、基礎となる電話イン
タフェースカードのＤＴＭＦバッファを自動的にフラッ
シュするかどうかを示すブールフラグ。デフォルトは偽
になり、タイプアヘッドを使用可能にする。

【０１９９】・ｅｓｃａｐｅ読み取り／書き込み。ＤＴＭＦ読み取りセッションを終
了するエスケープキー。エスケープキーはワンキーであ
る。

【０２００】・ｎｕｍＤｉｇｉｔｓ読み取り／書き込み。ＤＴＭＦ読み取りセッションを終
了させるキーストローク数。エスケープおよび長さの両
方を指定した場合は、どちらかの条件を満たすとＤＴＭ
Ｆセッションが終了される。

【０２０１】・ｄｔｍｆＲｅｓｕｌｔ読み取り専用ストリング。ユーザが入力したＤＴＭＦキ
ーを記憶する。タイプした場合はｅｓｃａｐｅが結果に
含まれる。

【０２０２】・ｔｅｘｔ読み取り専用ストリング。空白で分離されたトークンス
トリングを記憶し、各トークンはＤＴＭＦ文法に従って
変換する。

【０２０３】・ｉｎｉｔｉａｌＴｉｍｅｏｕｔ読み取り／書き込み。最初のＤＴＭＦキーストロークを
受け取るまでのミリ秒単位のタイムアウト期間。指定し
ない場合は、電話プラットフォームの内部設定になる。

【０２０４】・ｉｎｔｅｒｄｉｇｉｔＴｉｍｅｏｕｔ読み取り／書き込み。次の（ａｄｊａｃｅｎｔ）ＤＴＭ
Ｆキーストロークまでのミリ秒単位のタイムアウト期
間。指定しない場合は、電話プラットフォームの内部設
定になる。

【０２０５】４．３オブジェクトメソッド：４．３．１ＳｔａｒｔＤＴＭＦの割り込みを可能にし、ＤＴＭＦ読み取りセッ
ションを開始する。構文：Ｏｂｊｅｃｔ．Ｓｔａｒｔ（）；戻り値：なし例外：なし

【０２０６】４．３．２ＳｔｏｐＤＴＭＦを使用不可にする。ただし、ユーザが入力した
キーストロークはバッファに残る。構文：Ｏｂｊｅｃｔ．Ｓｔｏｐ（）；戻り値：なし例外：なし

【０２０７】４．３．３ＦｌｕｓｈＤＴＭＦバッファをフラッシュする。Ｆｌｕｓｈは、Ｄ
ＴＭＦセッション中には呼び出すことができない。構文：Ｏｂｊｅｃｔ．Ｆｌｕｓｈ（）；戻り値：なし例外：なし

【０２０８】４．４イベント４．４．１ｏｎｋｅｙｐｒｅｓｓＤＴＭＦキーを押すと発生する。これは、ＨＴＭＬコン
トロールから継承したデフォルトイベントを上書きす
る。ユーザがエスケープキーを押すと、ｏｎＫｅｙｐｒ
ｅｓｓではなくｏｎＲｅｃイベントが発生する。構文：

【０２０９】

【表１５】

【０２１０】イベントオブジェクト情報：

【０２１１】

【表１６】

【０２１２】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる。

【０２１３】４．４．２ｏｎＲｅｃｏＤＴＭＦセッションを終了すると発生する。このイベン
トは、現在のＤＴＭＦオブジェクトを自動的に使用不可
にする。構文：

【０２１４】

【表１７】

【０２１５】イベントオブジェクト情報：

【０２１６】

【表１８】

【０２１７】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる。

【０２１８】４．４．３ｏｎＴｉｍｅｏｕｔタイムアウトまでに、句の終了イベントを受け取らない
と発生する。このイベントは、認識プロセスを自動的に
停止する。構文：

【０２１９】

【表１９】

【０２２０】イベントオブジェクト情報：

【０２２１】

【表２０】

【０２２２】イベントプロパティ：イベントハンドラは
プロパティを直接受け取ることはないが、ハンドラはデ
ータについてこのイベントオブジェクトに照会を行うこ
とができる。

【０２２３】５ＣａｌｌＣｏｎｔｒｏｌオブジェクト電話音声ブラウザの電話インタフェース（呼、端末、お
よび接続）を表す。このオブジェクトは、ＧＵＩブラウ
ザ中のｗｉｎｄｏｗオブジェクトと同様にネイティブで
ある。したがって、電話オブジェクトの寿命はブラウザ
インスタンス自体と同じである。電話用の音声ブラウザ
は、呼ごとに１つの電話オブジェクトをインスタンス化
する。ユーザは、このオブジェクトをインスタンス化ま
たは配置しない。

【０２２４】この点で、このオブジェクトを通じて、フ
ァーストパーティの呼の制御に関連する機能のみを示
す。

【０２２５】５．１プロパティ・ａｄｄｒｅｓｓ読み取り専用。ＸＭＬＤＯＭノードオブジェクト。
実装固有。これは発呼者のアドレスである。ＰＳＴＮの
場合は、ＡＮＩとＡＬＩの組合せにすることができる。
ＶｏＩＰの場合、これは発呼者のＩＰアドレスになる。

【０２２６】・ｒｉｎｇＢｅｆｏｒｅＡｎｓｗｅｒ着信呼に応答するまでの着信音の回数。デフォルトは無
限。すなわち、開発者は下記のＡｎｓｗｅｒ（）メソ
ッドを明確に使用して、電話呼に応答しなければならな
い。コールセンタでＡＣＤを使用して着信電話呼をキュ
ーに入れる場合、この回数は０にセットしてよい。

【０２２７】５．２メソッド注：ここに示すメソッドはすべて非同期である。

【０２２８】５．２．１Ｔｒａｎｓｆｅｒ呼を転送する。ブラインド転送の場合、システムは転送
が完了すると元の呼を終了し、システムリソースを解放
する。構文：ｔｅｌｅｐｈｏｎｅ．Ｔｒａｎｓｆｅｒ（ｓｔｒ
Ｔｅｘｔ）；パラメータ：・ｓｔｒＴｅｘｔ：必須。意図する受信者のアドレス。戻り値：なし例外：例えばエンドパーティが話中である、番号が存在
しない、ファックスまたは留守番電話が応答するなど、
呼の転送が失敗すると例外を投入する。

【０２２９】５．２．２Ｂｒｉｄｇｅサードパーティへの転送。呼を転送すると、ブラウザは
その呼に割り当てられていたリソースを解放することが
できる。転送した呼がｓｔｒＵＩＤを使用して戻ってき
た際にセッション状態を回復するかはアプリケーション
次第である。基礎となる電話プラットフォームは、戻っ
てきた呼を異なるブラウザに経路指定することができ
る。呼は、受信者がその呼を終了した際のみ戻ることが
できる。構文：ｔｅｌｅｐｈｏｎｅ．Ｂｒｉｄｇｅ（ｓｔｒＴｅ
ｘｔ，ｓｔｒＵＩＤ，［ｉｍａｘＴｉｍｅ］）；パラメータ：・ｓｔｒＴｅｘｔ：必須。意図する受信者のアドレス。・ｓｔｒＵＩＤ：必須。現在の呼を一意に識別するセッ
ションＩＤ。転送した呼が戻される場合、ｓｔｒＵＩＤ
がアドレス属性に示される。・ｉｍａｘＴｉｍｅ：任意選択。秒単位の転送呼の最大
持続時間。指定しない場合は、プラットフォームの内部
値になる。戻り値：なし例外：なし

【０２３０】５．２．３Ａｎｓｗｅｒ電話呼に応答する。構文：ｔｅｌｅｐｈｏｎｅ．Ａｎｓｗｅｒ（）；戻り値：なし例外：接続がない際に例外を投入する。この場合ｏｎＡ
ｎｓｗｅｒイベントは発生しない。

【０２３１】５．２．４Ｈａｎｇｕｐ電話呼を終了する。その時進行中の呼がない場合は効果
を持たない。構文：ｔｅｌｅｐｈｏｎｅ．Ｈａｎｇｕｐ（）；戻り値：なし例外：なし

【０２３２】５．２．５Ｃｏｎｎｅｃｔファーストパーティへのアウトバウンドの電話呼を開始
する。構文：ｔｅｌｅｐｈｏｎｅ．Ｃｏｎｎｅｃｔ（ｓｔｒＴ
ｅｘｔ［ｉＴｉｍｅｏｕｔ］）；パラメータ：・ｓｔｒＴｅｘｔ：必須。意図する受信者のアドレス。・ｉＴｉｍｅｏｕｔ：任意選択。接続の試みを断念する
までのミリ秒単位の時間。指定しない場合は、プラット
フォームの内部値になる。戻り値：なし例外：話中音の遭遇、あるいはファックスや留守番電話
への到達を含め、呼を完了することができないと例外を
投入する（注：ハードウェアがこの機能をサポートしな
い場合もある）。

【０２３３】５．２．６Ｒｅｃｏｒｄユーザオーディオをファイルに記録する。構文：ｔｅｌｅｐｈｏｎｅ．Ｒｅｃｏｒｄ（ｕｒｌ，ｅ
ｎｄＳｉｌｅｎｃｅ，［ｍａｘＴｉｍｅｏｕｔ］，［ｉ
ｎｉｔｉａｌＴｉｍｅｏｕｔ］）；パラメータ：・ｕｒｌ：必須。記録された結果のＵＲＬ。・ｅｎｄＳｉｌｅｎｃｅ：必須。無音の検出後に記録を
中止するミリ秒単位の時間。・ｍａｘＴｉｍｅｏｕｔ：任意選択。記録を行う秒単位
の最大時間。デフォルトはプラットフォーム固有にな
る。・ｉｎｉｔｉａｌＴｉｍｅｏｕｔ：任意選択。記録の開
始時に許される無音の最大時間（ミリ秒）。戻り値：なし例外：記録をＵＲＬに書き込めない際に例外を投入す
る。

【０２３４】５．３イベントハンドラ電話音声ブラウザを使用するアプリケーション開発者
は、以下のイベントハンドラを実装することができる。

【０２３５】５．３．１ｏｎＩｎｃｏｍｉｎｇ（）音声ブラウザが着信電話呼を受信すると呼び出される。
すべての開発者は、電話呼に応答する前にこのハンドラ
を使用して発呼者のアドレスを読み取り、カスタマイズ
した機能を起動することができる。

【０２３６】５．３．２ｏｎＡｎｓｗｅｒ（）音声ブラウザが着信呼に応答すると呼び出される。

【０２３７】５．３．３ｏｎＨａｎｇｕｐ（）ユーザが電話を切ると呼び出される。このイベントは、
プログラムがＨａｎｇｕｐメソッドまたはＴｒａｎｓｆ
ｅｒメソッドを呼び出しても自動的には発生しない。

【０２３８】５．４例この例は、電話セッションを操作するために呼制御イベ
ントに結合（ｗｉｒｅ）したスクリプティングを示す。 <HTML> <HEAD> <TITLE>ログオンページ</TITLE> </HEAD> <SCRIPT> var focus; function RunSpeech() { if (logon.user.value == "") { focus="user"; p_uid.Start(); g_login.Start(); dtmf.Start(); return; } if (logon.pass.value == "") { focus="pin"; p_pin.Start(); g_login.Start(); dtmf.Start(); return; } p_thank.Start(); logon.submit(); } function login_reco() { res = event.srcElement.recoResult; pNode = res.selectSingleNode("//uid"); if (pNode != null) logon.user.value = pNode.xml; pNode = res.selectSingleNode("//password"); if (pNode != null) logon.pass.value = pNode.xml; } function dtmf_reco() { res = event.srcElement.dtmfResult; if (focus == "user") logon.user.value = res; else logon.pin.value = res; } </SCRIPT> <SCRIPT for="callControl" event="onIncoming"> <!-- // があればアドレスを読み出して、カスタマイズしたものを準備する callControl.Anser(); // </SCRIPT> <SCRIPT for="callControl" event="onOffhook"> <!-- p_main.Start(); g_login.Start(); dtmf.Start(); focus="user"; // </SCRIPT> <SCRIPT for="window" event="onload"> <!-- if (logon.user.value != "") { p_retry.Start(); logon.user.value = ""; logon.pass.value = ""; checkFields(); } // </SCRIPT> <BODY> <reco id="g_login" onReco="login_reco(); runSpeech()" timeout="5000" onTimeout="p_miss.Start(); RunSpeech()" > <grammar src=http://kokaneel/etradedemo/speechonly/login.xml/> </ reco> <dtmf id="dtmf" escape="#" onkeypress="g_login.Stop();" onReco="dtmf_reco();RunSpeech()" interdigitTimeout="5000" onTimeout="dtmf.Flush(); p_miss.Start();RunSpeech()" /> <prompt id="p_main">あなたのユーザＩＤと個人識別番号を言ってください< /prompt> <prompt id="p_uid">あなたのユーザＩＤだけを言ってください</prompt> <prompt id="p_pin">あなたの個人識別番号だけを言ってください</prompt> <prompt id="p_miss">申し訳ありませんが、聞き取れませんでした。</promp t> <prompt id="p_thank">ありがとうございます。あなたの識別を確認する間お待ちください</prompt> <prompt id="p_retry">申し訳ありませんが、あなたのユーザＩＤと個人識別番号が一致しません</prompt> <H2>Login</H2> <form id="logon"> UID: <input name="user" type="text" onChange="runSpeech()" /> PIN: <input name="pass" type="password" onChange="RunSpeech()" /> </form> </BODY> </HTML>

【０２３９】６ダイアログフローの制御６．１ＨＴＭＬおよびスクリプトを使用してダイアロ
グフローを実装する次の例は、入力ボックスの値を探して、入力に対して状
況依存型のヘルプを提供する単純なダイアログフローの
実装方法を示している。これは、ＨＴＭＬ入力機構のタ
イトル属性（視覚ブラウザで「ツールチップ」機構とし
て使用される）を使用して、ヘルププロンプトの内容を
形成するのを補助する。 <html> <title>状況感知型ヘルプ</title> <head> <script> var focus; function RunSpeech() { if (trade.stock.value == "") { focus="trade.stock"; p_stock.Start(); return; } if (trade.op.value == "") { focus="trade.op"; p_op.Start(); return; } //.. repeat above for all fields trade.submit(); } function handle() { res = event.srcElement.recoResult; if (res.text == "help") { text = "〜だけを言ってください"; text += document.all[focus].title; p_help.Start(text); } else { // proceed with value assignments } } </script> </head> <body> <prompt id="p_help" onComplete="checkFileds()" /> <prompt id="p_stock" onComplete="g_stock.Start()">株式銘柄を言ってください</prompt> <prompt id="p_op" onComplete="g_op.Start()" >売りまたは買いのどちらをご希望ですか</prompt> <prompt id="p_quantity" onComplete="g_quantity.Start()">株式数はいくつですか</prompt> <prompt id="p_price" onComplete="g_price.Start()">価格はいくらですか</prompt> <reco id="g_stock" onReco="handle(); checkFields()" > <grammar src="./g_stock.xml" /> </ reco > <reco id="g_op" onReco="handle(); checkFields()" /> <grammar src="./g_op.xml" /> </ reco > <reco id="g_quantity" onReco="handle(); checkFields()" /> <grammar src="./g_quant.xml" /> </ reco > <reco id="g_price" onReco="handle(); checkFields()" /> <grammar src="./g_quant.xml" /> </ reco > <form id="trade"> <input name="stock" title="stock name" /> <select name="op" title="buy or sell"> <option value="buy" /> <option value="sell" /> </select> <input name="quantity" title="number of shares" /> <input name="price" title="price" /> </form> </body> </html>

【０２４０】６．２ＳＭＩＬを使用する次の例は、ＳＭＩＬ機構を使用したプロンプトおよびｒ
ｅｃｏ要素の起動を示す。 <html xmlns:t="urn:schemas-microsoft-com:time" xmlns:sp="urn:schemas- microsoft- com:speech"> <head> <style> .time { behavior: url(#default#time2); } </style> </head> <body> <input name="txtBoxOrigin" type="text"/> <input name="txtBoxDest" type="text" /> <sp:prompt class="time" t:begin="0"> 出発地と行先地を言ってください </sp:prompt> <t:par t:begin="time.end" t:repeatCount="indefinitely" <sp:reco class="time" > <grammar src="./city.xml" /> <bind targetElement="txtBoxOrigin" value="//origin_city" /> <bind targetElement="txtBoxDest" test="/sml/dest_city[@confidence $gt$ 40]" value="//dest_city" /> </sp:reco> </t:par> </body> </html>

【０２４１】７．ＳＭＥＸ（メッセージ）要素／オブジ
ェクトＳＭＥＸは、ＳｉｍｐｌｅＭｅｓｓａｇｉｎｇＥＸ
ｃｈａｎｇｅ／ＥＸｔｅｎｓｉｏｎの略語であるが、こ
れは、クライアントデバイスのプラットフォーム上の外
部コンポーネントまたはアプリケーションと通信するオ
ブジェクトである。これは、タグ名＜ｓｍｅｘ＞を有す
る要素として、ＸＭＬまたはそれに類似のマークアップ
ベースのドキュメント中に埋め込むことができる。この
メッセージングオブジェクトの使用例には、ロギングお
よび電話制御を含むことができる。このオブジェクト
は、メッセージングを通じて新しい機能を追加すること
を可能にすることから、マークアップベースの認識およ
びプロンプティング（ｐｒｏｍｐｔｉｎｇ）の拡張性を
表す。

【０２４２】インスタンスを生成すると、このオブジェ
クトは、その構成パラメータまたは属性指定を通じて、
プラットフォームコンポーネントまたはアプリケーショ
ンとの非同期のメッセージ交換経路を確立するように指
示を受ける。このオブジェクトはストリングプロパティ
を有し、そのプロパティが割り当て動作（すなわちｌｖ
ａｌｕｅ）を受ける対象である場合には、必ずその内容
がプラットフォームコンポーネントまたはアプリケーシ
ョンに送られる。同様に、このオブジェクトは、プラッ
トフォームコンポーネントまたはアプリケーションから
受け取ったメッセージを保持する、ＸＭＬＤＯＭノー
ドタイプのプロパティも有する。このメッセージオブジ
ェクトは、プラットフォームメッセージを受け取ると必
ずイベントを送る。このオブジェクトは、その基本動作
が非同期なので、アプリケーション開発者がタイムアウ
ト設定を操作するための内蔵クロックも有する。

【０２４３】メッセージまたはｓｍｅｘオブジェクト
は、通信手段にとってアグノスティック（ａｇｎｏｓｔ
ｉｃ）である。しかし、一実施形態では、ｓｍｅｘオブ
ジェクトは、通常のＸＭＬやマークアップ要素と同じ寿
命を有する。すなわち、ｓｍｅｘオブジェクトは、それ
をホストするドキュメントをアンロードすると消滅す
る。多くのケースでは、ｓｍｅｘオブジェクトはアンロ
ードされると自動クリーンアップを実行し、通信リソー
スを解放することができるが、マークアップページ間で
永続的な通信リンクが望ましい使用事例（例えば呼の制
御など）もありうる。そのような事例のために、このア
ーキテクチャでは、割り振られたリソースを解放する
（例えばソケットを閉じるなど）責任をアプリケーショ
ン開発者に課す。

【０２４４】ｓｍｅｘオブジェクトは、メッセージのフ
ォーマット（スキーマ）についてはニュートラルであ
る。実施形態によっては、既存の標準的なメッセージフ
ォーマット（例えばＳＴＰまたはＣＣＸＭＬで使用する
ものなど）をまず優先して、実装者がいくつかの基本的
スキーマをサポートすることを必要とするのが望ましい
場合もある。基本的に、このアーキテクチャは、プラッ
トフォーム開発者およびアプリケーション開発者の両者
が、ＸＭＬあるいはそれに類似のマークアップの規格化
された拡張性を最大限に活用して、一方では相互操作性
を失うことなく他の機能を導入することを可能にする。

【０２４５】例１：ロギングオブジェクトとしてのｓｍｅｘの使用 <smex_id="logServer"> <param name="d:server" xmlns:d="urn:Microsoft.com/COM"> <d:protocol>DCOM</d:protocol> <d:clsid>2093093029302029320942098432098</d:clsid> <d:iid>0903859304903498530985309094803</d=iid> </param> </smex> <listen...> ...//ｒｅｃｏ結果を入力フィールドにバインドする他のディレクティブ ....... <bind targetElement="logServer" targetAttribute="sent" value="*[@log SgeS 3]/> </listen>

【０２４６】この例は、ＣＯＭオブジェクトをそのクラ
スＩＤおよびインタフェースＩＤとともに使用して、ロ
ギング機構を実現する仕組みを示している。音声開発者
は、関連するＳＭＬノードにロギングするための当該レ
ベルを示す属性「ｌｏｇ」を付加する。上の例では、ア
プリケーション開発者が、単一のバインドディレクティ
ブを使用することにより、３を超えるか、または３に等
しいログ値を有するノードすべてにロギングすることを
選択している。この例は、ダウンレベルブラウザでもア
ップレベルブラウザでも機能する。

【０２４７】この例はまた、ｓｍｅｘオブジェクトがプ
ラットフォームメッセージを認識ドキュメントに伝達す
る役割を負うような混乱状態がない限り、あるページ
が、同じプラットフォームコンポーネントと通信する複
数のｓｍｅｘオブジェクトを含むことが可能であること
も示すものである。上の例は、あるコンポーネントが複
数のインタフェースを実装することができ、それぞれの
インタフェースがそれ自体のｓｍｅｘまたはメッセージ
経路を有することを示唆している。これと同じ論議は、
複数のポートをリッスンするＴＣＰサーバにも当てはま
る。

【０２４８】例２：着信呼のアドレスの読み取り <input type="text" id="remote"/> <input type= "text" id="transfer"/> <input type= "text" id= "local"/> <input type= "hidden" id = "session_id "/> ..... <smex id="telephone" sent= "start_listening"> <param name="server">http://tel-svr/whatever</param> <bind targetElement = "session_id" value="//sid"/> <bind targetElement= "remote" value="//remote_addr"/> <bind targetElement="transfer" value="//transfer_addr/> <bind targetElement = "local" value="//local_addr/> .... </smex>

【０２４９】この例は、どのようにバインドディレクテ
ィブを使用して、受信メッセージを処理できるかを示し
ている。この例では、着信呼のメッセージが、下位要素
のｒｅｍｏｔｅ＿ａｄｄｒ、ｔｒａｎｓｆｅｒ＿ａｄｄ
ｒ、およびｌｏｃａｌ＿ａｄｄｒを有するものと想定し
ており、その内容はそれぞれ着信呼のリモートアドレ
ス、転送アドレス、およびローカルアドレスを表す。

【０２５０】この例では、ＨＴＴＰに基づくコネクショ
ンレスプログラミングを使用して電話サーバと通信す
る。この場合の電話サーバは、複数のブラウザインスタ
ンスと通信するように設計されており、したがって、各
クライアントは、アプリケーションの開始時にサーバか
ら割り当てられる一意のＩＤによって自らを識別しなけ
ればならない。この例では、これはサーバに「ｓｔａｒ
ｔ＿ｌｉｓｔｅｎｉｎｇ」メッセージを送信することに
よって実現する。この例では、セッションＩＤを隠しフ
ィールドに記憶し、それをウェブサーバに送信して、ア
プリケーションの次のページに渡すことができるが、セ
ッション状態の管理には他の技術（例えばクライアント
サイドのクッキー）も使用することができる。ｒｅｃｏ
の場合と同様に、あらゆるプラットフォームメッセージ
についてすべてのバインドディレクティブが実行される
とは限らない。上の例は、着信電話呼がある際に一意の
ＩＤのみを受信することは示唆していない。

【０２５１】７．１プロパティｓｍｅｘオブジェクトは以下のプロパティを有すること
ができるが、初期値指定のための属性としても機能する
ことができるのは、読み取り／書き込みのプロパティだ
けである。

【０２５２】・ｓｅｎｔ：読み取り／書き込み。プラッ
トフォームコンポーネントに送信するメッセージに対応
するストリング。ｌｖａｌｕｅとしてｓｅｎｔを使用す
る場合は、必ずその内容をディスパッチする。このプロ
パティをｒｖａｌｕｅとして使用する場合、あるいはこ
のプロパティにヌルオブジェクトを割り当てる場合には
効果がない。

【０２５３】・ｒｅｃｅｉｖｅｄ：読み取り専用。受信
メッセージを表すＸＭＬＤＯＭノードデータ。このメ
ッセージは、次のｏｎＲｅｃｅｉｖｅイベントが送るこ
とのできる状態になるまで、ｒｖａｌｕｅとして使用す
ることができる。

【０２５４】・ｔｉｍｅｒ：読み取り／書き込み。タイ
ムアウトイベントをトリガするまでの時間を表すミリ秒
単位の数。クロックは、このプロパティに正の値が割り
当てられると刻時を開始する。この値は、カウントダウ
ンの進行中に変更することができる。ゼロまたは負の値
にすると、タイムアウトイベントをトリガせずにクロッ
クを停止する。デフォルトは０、すなわちタイムアウト
なしである。

【０２５５】・ｓｔａｔｕｓ：読み取り専用。オブジェ
クトの最近のステータスを表す整数。可能な値は、０、
−１、および−２であり、それぞれ、正常、タイムアウ
トの終了、およびプラットフォームとの通信を確立でき
ない、あるいは通信の中断を意味する。受信されるプロ
パティを通じて、プラットフォーム固有のエラーメッセ
ージを伝達するとよい。エラーメッセージの伝達が成功
した場合、ステータスコードは０になる。

【０２５６】７．２イベントこのオブジェクトは以下のイベントを有する。・ｏｎＲｅｃｅｉｖｅ：このイベントは、プラットフォ
ームメッセージが到着すると送られる。バインド要素に
よって宣言されたディレクティブがある場合には、この
イベントを発生させる前にそのディレクティブを先に評
価する。イベントを送る前に、受け取ったプロパティを
更新する。

【０２５７】・ｏｎＥｒｒｏｒ：このイベントは、タイ
ムアウトが経過したとき、あるいは通信リンクエラーに
遭遇したときに送られる。このイベントを送る際、上記
のように、ステータスプロパティをそれに対応するエラ
ーコードによって更新する。

【０２５８】７．３子要素ある要素の形を仮定するとき、ｓｍｅｘは以下の子要素
を有することができる。・ｂｉｎｄ：ディレクティブを受信メッセージに作用さ
せる点を除いては、ｒｅｃｏの場合と同様。・ｐａｒａｍ：ｒｅｃｏの場合と同様。ｓｍｅｘオブジ
ェクトのプラットフォーム固有パラメータを提供する。
各ｐａｒａｍ要素は、「ｎａｍｅ」属性を使用して名前
をつけることができ、ｐａｒａｍ要素の内容がそのパラ
メータの値になる。一実施形態では、この要素は、ネー
ムスペースの標準的なＸＭＬ属性とＸＭＬデータタイプ
宣言を理解しているべきである。

【０２５９】７．４その他の補足説明ロギング機能のためにＳＭＥＸを拡張する簡潔な方法の
１つが以下である。これは、実際に、その振る舞いを個別設定することので
きる（グローバル）関数でこのオブジェクトを拡張して
いる。上の例では、ＩＤとメッセージの間にフィールド
区切り文字「｜」を挿入するようにロギング関数をプロ
グラムしている。

【０２６０】グローバル関数を好まない者は、ＥＣＭＡ
Ｓｃｒｉｐｔの「ｐｒｏｔｏｔｙｐｅ」プロパティを使
用して、この関数をオブジェクトメソッドとして付加す
ることができる。例えば、 <smex id = "logServer" onload="addFunction( )"> </smex> <script> function my_logMessage(logClass, message) { logServer. sent = logClass + "|" + message; } function addFunction( ){ logServer. prototype. logMessage= my_logMessage; } </script> よりオブジェクト指向的な方式でこの関数を参照するこ
とができる。logServer. logMessage(RECO_LOG_ERROR,
"My message");上記の例のように拡張を機能させるた
めに、ｓｍｅｘオブジェクトの実装者にはより多くの作
業が要求されるが、すべての必要な機構はすでに確立さ
れた規格であることに留意されたい。

【０２６１】

【発明の効果】以上、説明したように、本発明によれ
ば、インターネットなどのサーバ／クライアントアーキ
テクチャで入力の認識を提供するのに使用されるウェブ
対応認識アーキテクチャを有するシステムは、統一した
アーキテクチャを備えることが可能となる。

【図面の簡単な説明】

【図１】本発明の実施形態の、コンピューティングデバ
イスの動作環境の第１の実施形態の平面図である。

【図２】本発明の実施形態の、図１のコンピューティン
グデバイスのブロック図である。

【図３】本発明の実施形態の、電話機の平面図である。

【図４】本発明の実施形態の、汎用コンピュータのブロ
ック図である。

【図５】本発明の実施形態の、クライアント／サーバシ
ステムのアーキテクチャのブロック図である。

【図６】本発明の実施形態の、クレジットカード情報を
得るための表示の図である。

【図７】本発明の実施形態の、クライアントで実行する
ことのできるマークアップ言語のページの図である。

【図８】本発明の実施形態の、ディスプレイおよび音声
認識機能を有するクライアントで実行することのできる
マークアップ言語の例示的ページの図である。

【図９】本発明の実施形態の、音声レンダリングのみを
用い、システム主導型で、クライアントで実行できるマ
ークアップ言語の例示的ページの図である。

【図１０】本発明の実施形態の、音声レンダリングのみ
を用い、システム主導型で、クライアントで実行できる
マークアップ言語の例示的ページの図である。

【図１１】本発明の実施形態の、音声レンダリングのみ
を用い、混合主導型で、クライアントで実行できるマー
クアップ言語の例示的ページの図である。

【図１２】本発明の実施形態の、音声レンダリングのみ
を用い、混合主導型で、クライアントで実行できるマー
クアップ言語の例示的ページの図である。

【図１３】本発明の実施形態の、サーバサイドのプラグ
インモジュールによって実行することのできる例示的ス
クリプトの図である。

【図１４】本発明の実施形態の、認識サーバの第１の動
作モードを図式的に示す図である。

【図１５】本発明の実施形態の、認識サーバの第２の動
作モードを図式的に示す図である。

【図１６】本発明の実施形態の、認識サーバの第３の動
作モードを図式的に示す図である。

【図１７】本発明の実施形態の、スクリプティングを用
いないクライアントで実行することのできる宣言的マー
クアップ言語の例示的ページの図である。

【図１８】本発明の実施形態の、スクリプティングを用
いないクライアントで実行することのできる宣言的マー
クアップ言語の例示的ページの図である。

【符号の説明】

２９、１８３マイクロフォン３０データ管理デバイス（モバイルデバイス、クライ
アント）３２筐体３３スタイラス３４ディスプレイ３５ａ、３５ｂ、３５ｃボタン３６キーパッド３７、５９Ａ／Ｄ変換器４３、１８７スピーカ５０ＣＰＵ５２無線トランシーバ５４、１５２ＲＡＭ５８、１５１ＲＯＭ６０通信インタフェース８０電話機８２ディスプレイ８４キーパッド１２０汎用コンピュータ１４０プロセッサ１４１システムバス１５０システムメモリ１５３ＢＩＯＳ１５４、１６４オペレーティングシステム１５５、１６５アプリケーションプログラム１５６、１６６プログラムモジュール１５７、１６７プログラムデータ１６１ハードディスクドライブ１６０、１７０インタフェース１６０取外し不能不揮発性メモリインタフェース１７０リムーバル不揮発性メモリインタフェース１７１磁気ディスクドライブ１７２磁気ディスク１７５光ディスクドライブ１７６光ディスク１８０ユーザ入力インタフェース１８１ポインティングデバイス１８２キーボード１８４モニタ１８５ビデオインタフェース１８６プリンタ１８８出力周辺インタフェース１９０ネットワークインタフェース１９１ＬＡＮ１９２モデム１９３ＷＡＮ１９４リモートコンピュータ１９５リモートアプリケーションプログラム２００アーキテクチャ２０２ウェブサーバ２０４認識サーバ２０５ネットワーク２０７専用回線２０８電話網２１０ゲートウェイ２１１レコグナイザ２１２電話音声ブラウザ２１４メディアサーバ２１６音声ブラウザ２５０、２５２、２５４フィールド２６０、２７０、３００本体部分２６２、２７２、３０２スクリプト部分２６４提出ボタン２８０、２８２、２８４、４０５コード部分２８１スケジュール２８３、３０５認識の開始２８５音声の検出２８７音声の終了２８９、２９１、２９３、２９５、２９７、２９９、３
０１、３０３、３０５属性（期間、イベント）２９０、３０３コントロール３０７音声変換システム３０９パーサ３２０、３２４モジュール

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 15/02 ３３５Ｇ０６Ｆ 15/02 ３３５Ｅ (72)発明者ウァンクァンサンアメリカ合衆国 98006 ワシントン州ベルビューサウスイースト 48 コート 16470 (72)発明者ホンシャオ−ウェンアメリカ合衆国 98006 ワシントン州ベルビューサウスイースト 58 プレイス 17797 Ｆターム(参考） 5B019 DA08 DB10 GA10 5B085 AA01 BC02 BE01 BG02

Claims

【特許請求の範囲】

【請求項１】データを処理するサーバ／クライアント
システムであって、リモートでアクセスすることのできる情報を有するウェ
ブサーバと、入力すべきフィールドを指示するレンダリングデバイス
を有するクライアントデバイスであって、ユーザがその
後行う入力の対象とするフィールドを指示すると、前記
フィールドの各々と関連付けられた入力データを記録す
るように構成され、かつ前記入力データを遠隔位置に送
信するように適合されたクライアントデバイスと、前記入力データを受信し、何が認識されたかを表すデー
タを、前記クライアントおよび前記ウェブサーバの少な
くとも１つに戻すように構成された認識サーバとを含む
ネットワークを備えたことを特徴とするシステム。
【請求項２】前記ウェブサーバから受信し、前記クラ
イアントデバイスに提供する前記情報は、マークアップ
言語であることを特徴とする請求項１に記載のシステ
ム。
【請求項３】前記クライアントデバイスが受信する前
記マークアップ言語は、１つまたはいくつかのマークア
ップ部分、および１つまたはいくつかのスクリプト部分
を含むことを特徴とする請求項２に記載のシステム。
【請求項４】前記マークアップ言語は、文法をフィー
ルドに関連付ける指示を含むことを特徴とする請求項３
に記載のシステム。
【請求項５】前記認識サーバは、前記入力データおよ
び前記文法の指示を受信することを特徴とする請求項４
に記載のシステム。
【請求項６】前記入力データを前記リモートサーバに
送信する前に前記入力データを正規化するように、前記
クライアントが適合されることを特徴とする請求項１に
記載のシステム。
【請求項７】前記ウェブサーバは、前記クライアント
デバイスのためにマークアップ言語ページを動的に生成
するサーバサイドプラグインモジュールを含むことを特
徴とする請求項２に記載のシステム。
【請求項８】マイクロフォンおよびスピーカを有する
第２のクライアントデバイスをさらに含み、該第２のク
ライアントデバイスは、前記ユーザに与えるプロンプト
に応答して、各フィールドセットに関連付けられた音声
データを記録するように構成され、かつ、前記音声デー
タを前記認識サーバに送信するように適合されることを
特徴とする請求項１に記載のシステム。
【請求項９】前記第２のクライアントデバイスは、前
記ウェブサーバからのコンテンツをレンダリングするこ
とのできる電話機および音声ブラウザを含むことを特徴
とする請求項８に記載のシステム。
【請求項１０】前記ウェブサーバから受信し、前記ク
ライアントデバイスの各々に提供する前記情報は、マー
クアップ言語であることを特徴とする請求項９に記載の
システム。
【請求項１１】前記ウェブサーバは、前記クライアン
トデバイスの各々のために動的にマークアップ言語を生
成するサーバサイドプラグインモジュールを含むことを
特徴とする請求項８に記載のシステム。
【請求項１２】前記サーバサイドプラグインモジュー
ルは、クライアントデバイスのタイプに応じて、マーク
アップ言語を動的に生成することを特徴とする請求項１
１に記載のシステム。
【請求項１３】前記サーバサイドプラグインモジュー
ルは、前記クライアントデバイスのタイプを検出するこ
とを特徴とする請求項１２に記載のシステム。
【請求項１４】前記ウェブサーバは、前記サーバサイ
ドプラグインモジュールからアクセスすることが可能な
複数のダイアログモジュールを含み、各ダイアログモジ
ュールは音声認識を使用するデータの入手に関係し、前
記サーバサイドプラグインモジュールが、ダイアログモ
ジュールに応じて前記マークアップ言語を生成すること
を特徴とする請求項１１に記載のシステム。
【請求項１５】前記ウェブサーバおよび前記認識サー
バを単一のマシンに配置することを特徴とする請求項１
に記載のシステム。
【請求項１６】データを処理するサーバ／クライアン
トシステムであって、リモートからアクセスすることのできる情報を有するウ
ェブサーバと、マイクロフォンおよびレンダリング構成要素を有し、対
応するフィールドを有する前記情報を前記ウェブサーバ
から入手するように構成されたクライアントデバイスで
あって、前記フィールドの各々に関連付けられた入力デ
ータを記録するようにさらに構成され、かつ、入力の認
識に使用する文法の指示とともに前記入力データを遠隔
位置に送信するように適合されたクライアントデバイス
と、前記入力データおよび前記文法の指示を受信するように
構成され、何が入力されたかを表すデータを、前記クラ
イアントおよび前記ウェブサーバの少なくとも１つに戻
す認識サーバとを含むネットワークを備えたことを特徴
とするシステム。
【請求項１７】前記ウェブサーバから受信し、前記ク
ライアントデバイスに提供する前記情報は、マークアッ
プ言語であることを特徴とする請求項１６に記載のシス
テム。
【請求項１８】前記クライアントデバイスは電話機を
含み、前記レンダリング構成要素はスピーカを含むこと
を特徴とする請求項１６に記載のシステム。
【請求項１９】前記レンダリング構成要素は、前記フ
ィールドを示すディスプレイを含むことを特徴とする請
求項１６に記載のシステム。
【請求項２０】前記クライアントおよび前記認識サー
バを単一のマシンに配置することを特徴とする請求項１
６に記載のシステム。
【請求項２１】クライアント／サーバシステムで音声
認識を処理する方法であって、前記クライアントデバイスのユーザから入力データを入
手するように構成されたエクステンションを有するマー
クアップ言語ページを、ウェブサーバからクライアント
デバイスに送信するステップと、前記マークアップ言語ページを前記クライアントデバイ
スでレンダリングするステップと、前記ユーザからの入力に応じて、入力データを入手する
ステップと、前記入力データおよび関連付けられた文法の指示を、前
記クライアントデバイスから遠隔に位置する認識サーバ
に送信するステップと、前記クライアントデバイスおよびウェブサーバのうち少
なくとも１つで、何が入力されたかを表す認識結果を、
前記認識サーバから受信するステップとを備えたことを
特徴とする方法。
【請求項２２】前記マークアップ言語をレンダリング
するステップは、データ入力用のフィールドを表示する
ステップを含み、入力データを入手するステップは、そ
の後行う入力をどのフィールドに関連付けるかについて
の指示を前記ユーザから受信するステップを含むことを
特徴とする請求項２１に記載の方法。
【請求項２３】前記マークアップ言語をレンダリング
するステップは、前記ユーザに対して音声により指示を
促すステップを含むことを特徴とする請求項２１に記載
の方法。
【請求項２４】前記マークアップ言語はスクリプティ
ングを模倣することを特徴とする請求項２１に記載の方
法。