JP4518619B2

JP4518619B2 - ネットワークの制御方法

Info

Publication number: JP4518619B2
Application number: JP2000117217A
Authority: JP
Inventors: ラップステファン; ゴロンジーシルケ; コンペラルフ; ブフナーペーター; ジロンフランク; ルッケヘルムート
Original assignee: ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツング
Priority date: 1999-04-13
Filing date: 2000-04-13
Publication date: 2010-08-04
Anticipated expiration: 2020-04-13
Also published as: CN1270360A; KR100726692B1; CN1145927C; JP2001005489A; DE69942663D1; EP1045374B1; US6615177B1; EP1045374A1; KR20010020734A

Description

【０００１】
【発明の属する技術分野】
本発明は、ホームネットワーク環境において、ネットワーク機器から送信される機器又は媒体に依存した語彙に基づいて、語彙を動的にそして能動的に拡張することのできる音声インターフェイスに関する。特に、本発明は、音声インターフェイス等を実現する音声装置内で、語彙を拡張できるネットワーク機器の制御方法に関する。本発明を適用した装置は、例えばビデオテープレコーダ（ＶＴＲ）等のハードウェアにより構成してもよく、あるいは、例えば電子番組ガイド（electronic programming guide）等のソフトウェアでもよい。
【０００２】
【従来の技術】
欧州特許公開公報ＥＰ−Ａ−９７１１８４７０号には、ホームネットワーク環境において、自らの機能を記述する語彙及び音声インターフェイスを音声装置に送信する機器が開示されている。音声装置は、受信され認識されたユーザの発話を対応するユーザネットワークコマンドに変換し、このユーザネットワークコマンドに基づいて、この機器を制御する。
【０００３】
１９９８年９月に、モトローラ社（Motorola）は、拡張可能マークアップ言語ＸＭＬ（Extensible Markup Language：以下、ＸＭＬという。）に基づくＶｏｘマークアップ言語１．０（ＶｏｘＭＬ１．０）に関連する言語を公開した。この言語は、プロンプト及び一般的に利用可能なオプションのリストからなる対話ステップを指定することによって、ダイアログ（対話）システムを記述するのに用いられる。ハイパーメディア記述言語ＨＴＭＬ（Hypertext Markup Language：以下、ＨＴＭＬという。）により、リッチテキストとともに、画像、ハイパーテキストリンク、グラフィックユーザインターフェイス入力コントロールを容易に記述できるように、ＶｏｘＭＬ１．０によれば、音声アプリケーションの記述が容易となる。このＶｏｘＭＬ１．０は、複数の要素とこれらの要素の属性のシンタクス、用例、Ｖｏｘマークアップ言語文書又はダイアログの構成、及びＶｏｘマークアップ言語を用いるアプリケーションを開発するときに役立つ他のリファレンスを指示するポインターに関する情報を含む。
【０００４】
同様に、ギリシャのロートス島における、欧州音響学会主催のユーロスピーチ９７で、リチャード・スプロート等によって発表された論文「テキスト音声合成のためのマークアップ言語、ＩＳＳＮ１０１８−４０７４の１７７４ページ（"a markup language for text-to-speech synthesis" by Richard Sproat et al. ESCA. Eurospeech 97, Rhodes, Greece, ISSN 1018-4074, page 1774）」には、音声テキストマークアップ言語（spoken text markup language）（ＳＴＭＬ）が開示されている。このＳＴＭＬは、テキスト音声（ＴＴＳ）合成器（text-to-speech synthesizers）にテキストの構成に関する知識を提供するものである。ＳＴＭＬテキストは、例えば、多言語のＴＴＳシステムにおいて、言語を設定し、その言語に対して話者を初期化して、適切な言語と話者特定テーブルがロードされるようにする。
【０００５】
さらに、フィリップス社（Phillips）は、ＨＤＤＬと呼ばれる対話記述言語を開発した。ＨＤＤＬは特に、自動問い合わせシステムにおいて用いられる対話のための言語である。対話システムは、ＨＤＤＬを用いてオフラインモードで作成された後、販売される。
【０００６】
【発明が解決しようとする課題】
図３は、従来の音声装置２１を示す図である。音声装置２１は、マイクロホン２２とスピーカ３０及びバス４０に接続されている。マイクロホン２２の入力信号は、メモリ２３ａを内蔵したデジタルシグナルプロセッサ（ＤＳＰ）２３で処理された後、中央演算処理装置（ＣＰＵ）２４に供給される。ＣＰＵ２４は、演算結果を、メモリ２９ａを内蔵したＤＳＰ２９を介してスピーカ３０に出力し、あるいは、リンクレイヤ制御部２５及びＩ／Ｆ物理レイヤ部２６を介してバス４０に出力する。ＤＳＰ２３及びＣＰＵ２４は、メモリ２８にアクセスすることもできる。メモリ２８には、入力信号の処理を制御するために必要な全ての情報が格納されている。さらに、ＤＳＰ２３は、メモリ２７の特徴抽出部２７ｅにアクセスする。メモリ２７には、音声認識及び音声合成に必要な全ての情報が格納されている。ＣＰＵ２４は、複数の機器、ここでは機器＃１と機器＃２及び機器＃３のための各音声インターフェイス定義部及び汎用音声インターフェイス定義部だけでなく、認識部及び書記素／音素変換部２７ｆにもアクセスする。なお、各音声インターフェイス定義部及び汎用音声インターフェイス定義部は、メモリ２７内に別々に記憶されている。
【０００７】
このように従来の音声装置２１では、音声インターフェイス定義部を機器別に設けるとともに、汎用音声インターフェイス定義部を別個に備えていたため、複数の機器が共有するコマンドを個別に管理する必要があり、構造が複雑となり、処理や分析の効率が悪かった。
【０００８】
そこで本発明は、上述した実情に鑑みてなされたものであり、本発明の目的は、ネットワーク機器の機能及び音声インターフェイスをネットワークの音声装置に送信し、音声装置内で複数のネットワーク機器の機能及び音声インターフェイスを操作する簡易且つ効率的なネットワーク機器の制御方法を提供することを目的とする。
【０００９】
すなわち、本発明の目的は、ネットワーク内で、音声装置によってネットワークに接続されたネットワーク機器を制御するための簡単で、迅速で柔軟性のある方法を提供することである。音声装置とは、ユーザコマンドをユーザネットワークコマンドに変換して、ネットワーク機器の機能及び音声インターフェイスに基づいてネットワークを介してネットワーク機器を制御する装置である。
【００１０】
【課題を解決するための手段】
本発明によると、ネットワークに接続された全てのネットワーク機器は、ネットワーク機器の機能及び音声インターフェイスを定義する少なくとも１つの機器文書に対応している。機器文書は、ネットワーク機器自身が備えていてもよく、あるいは、ネットワーク機器の外部に作成してもよい。機器文書は、ネットワーク機器のユーザコマンド解釈要素と関連するユーザネットワークコマンドとの対を、１組以上有する。さらに、音声装置は、機器文書を受信し、受信した機器文書を統合して１つの音声インターフェイス記述を作成する。この統合された音声インターフェイス記述は、音声装置の言語に基づいて作成される。また、音声インターフェイス記述を、全ネットワークのための汎用文書として参照することができる。音声装置によって受信され認識されたユーザの発話コマンドは、ユーザコマンド解釈要素と汎用文書に含まれる関連するユーザネットワークコマンドの全ての対に基づいて、ユーザネットワークコマンドに変換される。ユーザコマンド解釈及び実行要素は、例えば、語彙要素、文法の定義、発音定義を有する。
【００１１】
欧州特許公報第ＥＰ−Ａ−９７１１８４７０号に開示されているように、音声装置は、機器文書を音声装置が備える記憶装置又はリモートに存在するデータベースからフェッチする。
【００１２】
汎用文書は、実行時に、ネットワーク機器から機器文書が受信された後、音声装置内で、純粋に統語的に適応化され得る。ネットワーク機器は複数の機器文書を有してもよい。それらの文書それぞれは、ネットワーク機器の機能の一部及びインターフェイスの一部を記述したものである。そして、それらのうちで実際に必要とされる文書だけが音声装置に転送される。このような文書は、例えば、ある言語を用いてネットワーク機器の機能を記述した文書又はネットワーク機器の機能の一部を定義する文書である。音声装置又は個々のネットワーク機器自身は、それら個々のネットワーク機器のさらなる音声機能を必要とすると判定した場合は、そのさらなる音声機能に対応する機器文書を音声装置に送信できる。音声装置は、このさらなる文書に基づいて汎用文書を適応化し、実行時に、その適応化された汎用文書に基づいて対応するユーザネットワークコマンドを生成する。
【００１３】
【発明の実施の形態】
図１は、本発明を適用した音声装置１を示す図である。音声装置１は、マイクロホン２と、スピーカ１０、バス２０に接続されている。マイクロホン２に入力された音声に基づく入力信号は、メモリ３ａを内蔵したデジタルシグナルプロセッサ（ＤＳＰ）３で処理された後、中央演算処理装置（ＣＰＵ）４に供給される。ＣＰＵ４は、演算結果を、メモリ９ａを内蔵したＤＳＰ９を介してスピーカ１０に出力し、あるいは、リンクレイヤ制御部５及びＩ／Ｆ物理レイヤ部６を介してバス２０に出力する。ＤＳＰ３及びＣＰＵ４は、メモリ８にアクセスすることもできる。メモリ８には、入力信号の処理を制御するために必要な全ての情報が格納されている。さらに、ＤＳＰ３は、メモリ７の特徴抽出部７ｅにアクセスする。メモリ７には、音声認識及び音声合成に必要な全ての情報が格納されている。
【００１４】
従来の音声装置では、接続された複数のネットワーク機器のそれぞれに対応する複数の音声インターフェイス定義部と、１つの汎用音声インターフェイス定義部とが設けられていた。一方、本発明を適用した音声装置１は、唯一の統合された音声インターフェイス定義部を有する。この統合された音声インターフェイス定義部は、従来の汎用音声インターフェイス定義部に記述された汎用文書に対応している。
【００１５】
図２は、本発明を適用したネットワーク機器１１の機能的ブロック図である。ネットワーク機器１１は、ＣＰＵ１２を備える。ＣＰＵ１２は、ネットワーク機器１１を制御するための機器制御用ソフトウェア１５と、メモリ１４と、リンク層制御部１７と、Ｉ／Ｆ物理層部１６とインタラクションし、種々の情報をバス１０に出力する。さらに、ＣＰＵ１２は、メモリ１３とインタラクションすることもできる。本発明によると、メモリ１３は、音声インターフェイス定義すなわち、１つ以上の機器文書を記憶している。
【００１６】
上述のように、ネットワーク機器１１は、音声インターフェイス定義部を有するメモリ１３を必ずしも備えていなくてもよい。ネットワーク機器１１の音声インターフェイス定義は、音声インターフェイス定義提供装置により提供してもよい。音声インターフェイス定義提供装置には、図１に示す音声装置１がアクセスすることができる。
【００１７】
以下に説明する本発明の実施例においては、１つの音声装置１を備えるネットワークに２つのネットワーク機器１１が接続されている。初期的には、音声装置１の汎用文書は空で、２つのネットワーク機器１１の言語を定義する２つの機器文書は、音声装置１内で１つのインターフェイスの記述に併合（マージ）されている。なお、ネットワークに接続されるネットワーク機器１１の数は、２以上の任意のｎ個であってもよい。また、音声装置１の汎用文書を新たに受信された機器文書に基づいて適応化することができる。以下では、説明を簡潔に行うために、機器文書は、１つの語彙要素からなるユーザコマンド解釈要素を有するものとする。
【００１８】
以下の説明において、Ｌ１は、受理言語（accepted language）すなわち、第１の機器の語彙要素及び対応するコマンドを示す。同様にＬ２は、第２の機器の語彙要素及び対応するコマンドを示す。数学的表現によれば、Ｌ１は、少なくとも１つの語彙要素、すなわち単語ｗiとこの単語ｗiに対応するユーザネットワークコマンドの集合である。なお、単語ｗiは、単一の語ではなくてもよく、複数の単語からなる完全な発話であってもよい。受理言語は、語彙要素に加えて、例えば、発音、単語列のための文法及び／又は音声理解（speech understanding）及び対話のための規則を含んでもよい。
【００１９】
第１の実施例においては、Ｌ１とＬ２は、同じ語彙要素すなわち共通の単語を含んでいない。したがって、Ｌ１∩Ｌ２＝｛｝であり、インターフェイス記述のためにマージされた受理言語Ｌは、Ｌ＝Ｌ１∪Ｌ２となる。すなわち、音声装置１内の汎用文書は、第１の機器の言語Ｌ１により記述された機器文書１と、第２の機器の言語Ｌ２により記述された機器文書２から得られる語彙要素と対応するコマンドの対を併合することにより構築される。Ｌ１とＬ２は同じ語彙要素を含まないので、語彙要素は対応するコマンドとともにその語彙要素がどの機器に対してのものであるかを暗示するため、ユーザネットワークコマンドは、適切に生成されて、対応する機器に正しく送信される。
【００２０】
第１の実施例において、２つのネットワーク機器は、例えばテレビジョンセットとＣＤプレーヤである。このとき、テレビジョンセットに対応するＬ１とＣＤプレーヤに対応するＬ２はそれぞれ、機器文書内で以下の語彙要素からなる。
【００２１】
Ｌ１＝｛ＭＴＶ，ＣＮＮ｝
Ｌ２＝｛再生，停止｝
Ｌ１とＬ２は、同じ語彙要素を含まない、すなわちＬ１∩Ｌ２＝｛｝であるので、インターフェイス記述のマージされた受理言語Ｌは、Ｌ＝Ｌ１∪Ｌ２＝｛ＭＴＶ，ＣＮＮ，再生，停止｝となる。例えば、これらの語彙要素はそれぞれ以下のリストに提示されるような機能を有するユーザネットワークコマンドと対応している。
【００２２】
ＭＴＶ→＜テレビジョンをＭＴＶに切り換える＞
ＣＮＮ→＜テレビジョンをＣＮＮに切り換える＞
再生→＜ＣＤプレーヤを再生モードにする＞
停止→＜ＣＤプレーヤを停止モードにする＞
しかしながら、２つの機器が同じ語彙要素すなわち同じ語を共有する場合、Ｌ１∩Ｌ２≠｛｝となる。本発明によれば、これらの共通の語彙も識別可能である。本発明の第１の実施例において、機器の名称が各受理言語間、すなわちＬ１とＬ２間の少なくとも共通部分を形成する同じ語彙要素に前置又は後置される。したがって、ユーザは、ユーザの発話コマンドを所望の各機器の名称の前に及び／又は後ろに付加しなければならない。上述のように、コマンドが共通のものでない場合は、機器の名称を付加する必要はないが、付加してもよい。
【００２３】
以下の第２の実施例においては、機器の名称は各コマンドの前に付加され、インターフェイスの記述を形成する新しい言語Ｌは、２つの言語Ｌ１とＬ２の間で混同されるおそれのない単語の併合と機器の名称が前置された機器の言語で示される。機器の名称をそれぞれｎ１及びｎ２とすると、
Ｌ＝Ｌ１＼（Ｌ１∩Ｌ２）∪Ｌ２＼（Ｌ１∩Ｌ２）∪ｎ１Ｌ１∪ｎ２Ｌ２となる。
【００２４】
以下では、ＣＤ再生装置及びテープ再生装置を備えるネットワークを例に、上述の実施例を説明し、本発明によるネットワーク機器の制御方法を明らかにする。ここで、ＣＤ再生装置及びテープ再生装置はそれぞれ、「ＣＤ」、「テープ」と命名されている。ＣＤ再生装置の受理言語Ｌ１とテープ再生装置の受理言語Ｌ２をそれぞれ構成する語彙要素を以下に示す。
【００２５】
Ｌ１＝｛再生，停止，スキップ｝
Ｌ２＝｛再生，録音，停止，巻き戻し｝
音声インターフェイスの受理言語は、Ｌ＝（Ｌ１＼（Ｌ１∩Ｌ２））∪（Ｌ２＼（Ｌ１∩Ｌ２））∪ｎ１Ｌ１∪ｎ２Ｌ２＝｛スキップ，録音，巻き戻し，ＣＤ再生，ＣＤ停止，ＣＤスキップ，テープ録音，テープ停止，テープ巻き戻し｝となる。対応するユーザネットワークコマンドの機能は、以下のようになる。
【００２６】
スキップ→＜ＣＤの次のトラックへスキップする＞
録音→＜テープ再生装置を録音モードにする＞
巻き戻し→＜テープを巻き戻す＞
ＣＤ再生→＜ＣＤ再生装置を再生モードにする＞
ＣＤ停止→＜ＣＤ再生装置の再生を停止する＞
ＣＤスキップ→＜ＣＤの次のトラックへスキップする＞
テープ再生→＜テープ再生装置を再生モードにする＞
テープ録音→＜テープ再生装置を録音モードにする＞
テープ停止→＜テープ再生装置の再生／録音を停止する＞
テープ巻き戻し→＜テープを巻き戻す＞
【００２７】
この第２の実施例では、同一単語問題（same words problem）は、認識されたコマンドが多義的であるとき、ユーザに対して自動的に問い合わせを行い、ユーザに所望する機器を明示させることによって解決される。この場合のシナリオは、形式的には、第１の実施例における識別性を有する言語と同じであるが、その解釈が変わる。この解釈のバリエーションを明示するこの実施例を明確にする第３の実施例は、第２の実施例に基づいており、すなわち、ネットワーク機器としてのＣＤ再生装置及びテープ再生装置に付与されたシナリオに基づいている。受理言語Ｌは、受理言語Ｌ１と受理言語Ｌ２の共有部分に含まれる語彙要素を認識するときに選択処理が行われるという点では、第１の実施例の受理言語Ｌと同様に形成される。すなわち、Ｌ＝Ｌ１∪Ｌ２である。第２の実施例のように、受理言語Ｌ１と受理言語Ｌ２がそれぞれ同じ語彙要素を有するという条件のもとで、音声装置の受理言語Ｌを構成する語彙要素は、Ｌ＝｛再生，停止，スキップ，録音，巻き戻し｝となる。この場合の対応するユーザネットワークコマンドは、
再生→＜明確にせよ＃１＞
停止→＜明確にせよ＃２＞
スキップ→＜ＣＤの次のトラックへスキップする＞
録音→＜テープ再生装置を録音モードにする＞
巻き戻し→＜テープを巻き戻す＞
である。ここで、「明確にせよ＃１」は、音声認識部がどの機器に対するコマンドか（"on what device"）という問い合わせを出力して、受理言語Ｌを受理言語Ｌａに切り換えるということを意味する。Ｌａは、Ｌａ＝｛ＣＤ，テープ｝という語彙要素からなり、対応するユーザネットワークコマンドの機能は、
ＣＤ→＜ＣＤ再生装置を再生モードにする＞及び＜Ｌにスイッチバックする＞となり、
テープ→＜テープ再生装置を再生モードにする＞及び＜Ｌにスイッチバックする＞となる。
【００２８】
またここで、「明確にせよ＃２」は、音声装置１がどの機器に対するコマンドかという問い合わせを出力して、受理言語Ｌを受理言語Ｌｂに切り換えるということを意味する。Ｌｂは、Ｌｂ＝Ｌａ＝｛ＣＤ，テープ｝と示される語彙要素からなり、対応するユーザネットワークコマンドの機能は、
ＣＤ→＜ＣＤ再生装置を停止モードにする＞及び＜Ｌにスイッチバックする＞となり、
Ｔａｐｅ→＜テープ再生装置を停止モードにする＞及び＜Ｌにスイッチバックする＞となる。
【００２９】
本発明の第３の実施例において、第２の実施例に示される音声装置の制御処理を短縮することもできる。この場合、音声装置１は直前に用いられた機器をデフォルト機器とみなして、音声装置１とデフォルト機器の統合された受理言語Ｌからなる汎用文書に基づいて、受信され認識されたユーザの発話コマンドを対応するユーザネットワークコマンドに変換する。直前に用いられた機器以外の他の機器を再度制御する場合にも、音声装置の制御処理を短縮することができる。この場合、例えば単に機器の名称を発することによって、機器を制御するよう音声装置に指示する。
【００３０】
第４の実施例では、ダイアログの適応化が行われる。上述のような状況においては、多義的な語を正しく割り当てるために、機器明示の問い合わせが、ユーザに対して出力され、システムはその問い合わせに対するユーザの反応を認識する。機器明示のための問い合わせに対するユーザの回答の大部分が直前に指定された機器である場合、問い合わせをスキップし、ユーザネットワークコマンドを直前の機器に直接供給するようにしてもよい。また、コマンドがどの機器に対して出されたのかを予測するために、複数の情報源を用いてもよい。例えば、直前に使用された機器を考慮するだけでなく、各機器の類似点又は機器の分類も考慮する。例えば、記録コマンドは、ユーザがテレビを観ている間に出される場合は、オーディオテープへの記録ではなく、ビデオテープへの記録である可能性が高い。一方、ユーザがラジオを聴いている間に出される記録コマンドは、オーディオテープへの記録である可能性が高い。そこで、使用される可能性の高いネットワーク機器を、例えば電源が投入されているネットワーク機器から選択するようにしてもよい。また、機器の分類は、ユーザの行為又は機器の機能に関する記述を調査することによって学習することもできる。
【００３１】
上述の全ての実施例において、ネットワーク機器がネットワークに接続された後又は、機器がユーザネットワークコマンドを音声装置１から受信した後に、各ネットワーク機器は、機器文書を音声装置１に直接送信することができる。また、現在のステータスから独立した機器文書等を音声装置に送信してもよい。機器は、複数の機器文書を有していてもよい。または、機器は、内容情報（contentinformation）の変更に基づいて動的に機能を変えて、その変化を認めるときにダイアログ及び音声認識能力を更新してもよい。あるいは、新しい文書を音声装置に送信することによって、定期的に機能を変えてもよい。機器文書は、対応する機器内に格納されずに、例えば装置製造者のインターネットサーバのような機器文書提供装置内に格納されてもよい。この場合、音声装置１は上記の機器がネットワークに接続されていると認識すると、機器文書をダウンロードしてもよい。
【００３２】
機器は、それぞれが異なる国の言語による機器全体の受理言語を含む複数の文書を有することができる。例えば、このような機器は、最初にドイツ語の機器文書を音声装置に送信する。続いて、ユーザから対応するコマンドを受信した後に、英語の機器文書を音声装置に送信することができる。これにより、音声装置は、ドイツ語又は英語のいずれかのユーザコマンドをユーザネットワークコマンドに変換して機器を制御することができる。
【００３３】
語彙要素の他に、認識又は合成を行うときに用いられる語のための発音の定義を機器文書の要素として含ませてもよい。そして、それらの発音の定義を音声装置の汎用文書に直接統合してもよい。発音の定義が言語に含まれるとき、それらの発音の定義は、例えば、１つの機器用の認識及び合成部に専用に用いてもよく、又は、全ての機器で共有してもよい。すなわち、第１の機器によって導入された発音の定義は、第２の機器、すなわちネットワークに接続された他の機器に対して発せられた語に対しても有効とすることができる。
【００３４】
合成を行うために、複数の機器文書を統合し、音声装置内で、汎用文書の適応化を行ってもよい。問い合わせに対する回答を１つの機器だけでなく、複数の機器に対して行ってもよい。複数の機器からの発話の合成は、同時に出力されないことを保証する必要がある。発話の中には、供給優先度に基づいて、例えば警告のような外部の事象によって生じるものがある。例えばそれらの発話は、他の発話に割り込み、ユーザの非活動期間が終わると、割り込まれた発話は再導入され、ダイアログは続行する。ユーザの入力及びユーザの発話に一致する尤度が高いと考えられるストリームが継続している間、全てのストリームがアクティブな状態にあるという事実を前提として、複数のダイアログのストリームが平行して管理される。
【００３５】
音声装置の汎用文書は、初期的には空であってもよく、あるいは、１つ以上のネットワーク機器のための、インターフェイスを記述する要素の基本セットを有していてもよい。後者の場合、機器から音声装置に送信される文書は、具体性を有さず、汎用文書を部分的に参照するものであってもよい。
【００３６】
例えば、特定の機器のためのダイアログ文法のみを機器文書において特定し、発話の言い回しのためのデフォルト文法を汎用文書のユーザコマンド解釈要素の基本的なセットに含ませてもよい。また、音声認識部の汎用文書内に、ある機能を完全に記述してもよい。例えば、電子番組ガイドを、音声ダイアログによって、どのように制御するのかを記述する。この場合、デフォルト文法及び一連の単語のための文法には、例えば、番組名、製作者名、俳優名、時間帯及び放送日に関する情報を示す変数が含まれており、電子番組ガイド装置から音声装置に送信される文書は、これらの変数を満たす情報のみを含む。
【００３７】
他の実施例においては、機器から音声装置に送信される機器文書は、ネットワークコマンドに対応するキーワードとカテゴリ識別子とを含む。音声装置は、これらのカテゴリ識別子に基づいて、発生し得る連続するユーザの発話に対して、単語列に関するどの文法を適用するかを決定する。例えば、キーワードが「ボイス・オブ・アメリカ（voice of America）」であり、カテゴリが「ラジオ」である場合、ユーザは、「ボイス・オブ・アメリカを聴きたい（I want to listen to voice of America）」又は「ボイス・オブ・アメリカをオン（Turn on voiceof America）」等と発生する。また、カテゴリが「ラジオカセットレコーダ」である場合、発生し得るユーザの発話は、「ボイス・オブ・アメリカを録音（Please record voice of America）」等である。
【００３８】
汎用文書の適応化を行うために、音声理解の基礎を形成する概念／値の組、例えばある処理を開始するために必要な（時刻，８：００）といった組を音声装置に送信される機器文書に機器用の文法として含ませてもよい。音声インターフェイスを記述する機器文書は、規則を含み、この規則は、単語列と概念との間のマッピング及びどのように変数値を埋めるかを定義する。さらに、機器文書は、概念／値を一対の組から動作へのマッピングを定義する規則を有する。例えば（コマンド，記録）、（タイトル，風とともに去りぬ）及び（時刻，８：００）という組は、ＶＴＲの録画処理を表す。ダイアログは、ユーザ側からはじめてもよく、すなわち発話の順番は、ユーザを主導としてもよい。発話の順番とは、例えば、「８時、映画、風とともに去りぬ」等である。１つ以上の発話で情報が伝えられる場合は、発話の順番は、ユーザに任せられる。システムは、例えば、文法に基づきそして各ネットワーク機器に送信されたユーザネットワークコマンドによって動作を始動するために必要な情報を収集する。このシステムは、例えば、付加的な文法を含むさらなる文書を音声装置に送信し、音声装置は、情報が欠落している場合、ユーザに情報を聞き返すことができ、また、新しく認識されたユーザの発話をさらなるユーザネットワークコマンドに割り当てることもできる。
【００３９】
機器文書は、ユーザコマンド解釈要素として、語彙要素、発音、単語列のための文法、音声理解及びダイアログのための規則に関する情報の他に、同一又は同等のユーザネットワークコマンドに割り当てられる複数言語に対応する同様な情報、すなわち語彙要素、発音、単語列のための文法、音声理解及びダイアログのための規則関する情報を含んでもよい。この情報によって、ユーザはいかなる言語によっても機器を制御することができる。上述のように、この情報を同じ機器が有する複数の機器文書中に含ませてもよい。これによって、複数言語の音声による処理を実現することができる１つの音声装置のインターフェイスを特定できる。上記の概念／値の対は言語独立であるので、ダイアログの文法は言語独立とすることができる。
【００４０】
上述のように、機器文書は、発話のための文法によって明示的にあるいは暗示的に付与された語彙を含む。１つ以上の発音を各語彙要素、すなわち各語に対して任意に付与することもできる。任意の発音が機器文書に付与されないときは、これを自動的に生成してもよい。しかしこの場合、特に単語が固有名詞、外来語、略語である場合や方言又は外国語による特殊な発音を認識しなくてはならない場合、エラーが発生しやすい。発音は、単音又は異音のモデルのセットが与えられた認識部内に単語のモデルを生成するための基礎となる。
【００４１】
機器文書は、複数の利用可能な機器に関する複合コマンドを作成するユーザコマンド解釈要素及び関連するユーザコマンドの他に、標準化された情報、例えば「ＶＴＲ」のような機器のカテゴリに関する情報及び／又は「記録可能なテープを有する」等の機能に関する情報を含んでもよい。例えばユーザは、テレビジョンセットに表示される電子番組ガイドから将来放映される予定の映画を選択するとき、「この映画を録画して下さい（Please record this movie）」と発する。つまり、ネットワークコマンドが、適切なチャンネル、日付及び時間帯に関する情報を番組ガイド装置からＶＴＲに送信する必要がある。そして、適切な録画が行われることを保証するコマンドをＶＴＲに送信する必要がある。これに類似した状況として、映画をあるＶＴＲテープから別のＶＴＲテープにダビングする場合がある。このような状況では、各機器の音声インターフェイス記述は、通常、このような発話、すなわち適切なチャンネル、日付及び時間帯等に関する発話を定義しない。したがって、音声装置は、推論部による推論に基づいて汎用文書を適応化してもよい。推論部は、推論構成要素として機器文書内に含まれており、単語列に関する文法及びダイアログを含む音声インターフェイスの記述を複数の機器に関する複合コマンドの１つに含まれる可能性のある追加的機能に提供する。
【００４２】
ネットワーク機器を制御するための全ての情報は、音声装置内の１つの汎用文書に含まれるので、処理あるいは分析を容易に行うことができる。特に、ユーザコマンド解釈要素の異なる利用可能な内容間又は／及び汎用文書内の同様又は同等のユーザネットワークコマンドに割り当てられた二重の情報間に関連があるときは特に容易である。
【００４３】
したがって、本発明によると、ネットワークが備える音声装置を介して制御することのできるネットワーク機器は、機器の機能及び音声インターフェイスを記述する機器文書を音声装置に送信することができる。音声装置は、機器文書を汎用文書に統合する。汎用文書は、接続されたネットワーク機器を制御するために、認識されたユーザコマンドをユーザコマンド解釈要素を用いてユーザネットワークコマンドに変換するための基礎を形成する。機器文書は例えばユーザコマンド解釈要素及び関連するユーザネットワークコマンドのような語彙からなる。さらに、複数言語に対応するこれらと同様な情報、又は、音声理解における動的なダイアログに関する情報だけでなく、発音、単語列のための文法、音声理解及びダイアログのための規則を機器文書のユーザコマンド解釈要素内に含めてもよい。１つの機器が複数の機器文書を有し、必要時にそれらを動的に音声装置に送信してもよい。さらに、ネットワーク機器は、音声機能に関する仕様を実行時に音声装置に送信するので、本発明を適用することにより、機器は、機器文書の内容の変更に基づいてその機能を動的に変えることができる。機器がその機能を動的に変える場合、ネットワーク機器は、動的に機器文書を生成する、又は、既存の機器文書を更新する。更新は、例えば、放送局の名称を更新する又は挿入することによって行われ、ネットワーク機器は、更新された機器文書を音声装置に送信する。
【００４４】
【発明の効果】
以上のように、本発明に係るネットワーク機器の制御方法では、ネットワーク機器に対応し、ユーザコマンド解釈要素と関連するユーザネットワークコマンドの少なくとも１つの対からなる言語を含む少なくとも１つの機器文書を受信し、受信された機器文書を、機器文書の言語と同様に構成される音声装置の言語からなる汎用文書に適応化する適応化し、受信及び認識された音声のユーザコマンドを、ユーザコマンド解釈要素と汎用文書に含まれる関連するユーザネットワークコマンドの全ての対に基づいて、対応するユーザネットワークコマンドに変換する。これにより、本発明に係るネットワーク機器の制御方法によれば、音声装置を備えるネットワークに接続された複数のネットワーク機器を制御するユーザネットワークコマンドを簡易且つ効率的に管理、処理、及び分析することができる。
【図面の簡単な説明】
【図１】本発明を適用した音声装置の構成を示すブロック図である。
【図２】本発明を適用したネットワーク機器の構成を示すブロック図である。
【図３】従来の音声装置の構成を示すブロック図である。
【符号の説明】
１音声装置、２マイクロホン、３ＤＳＰ、４ＣＰＵ、５リンク層制御部、６Ｉ／Ｆ物理層部、７メモリ、８メモリ、９ＤＳＰ、１０スピーカ、２０バス

Claims

音声装置によってユーザコマンドを関連するユーザネットワークコマンドに変換し、該関連するユーザネットワークコマンドにより、ネットワークを介して、該ネットワークに接続されたネットワーク機器を制御するネットワーク機器の制御方法において、
上記ネットワーク機器に対応し、上記ユーザコマンド解釈要素及び上記関連するユーザネットワークコマンドの少なくとも１つの対からなる言語を含む少なくとも１つの機器文書を受信する受信ステップと、
上記受信された機器文書を、該機器文書の言語と同様に構成される上記音声装置の言語からなる汎用文書に適応化する適応化ステップと、
受信及び認識された音声のユーザコマンドを、上記ユーザコマンド解釈要素及び上記汎用文書に含まれる関連するユーザネットワークコマンドの全ての対に基づいて、対応するユーザネットワークコマンドに変換する変換ステップとを有し、
上記適応化ステップは、
上記音声装置の言語と、新たに受信された機器文書の言語とが少なくとも１つの同様なユーザコマンド解釈要素を含んでいるか否かを判定するステップと、
上記同様なユーザコマンド解釈要素が存在しない場合、上記音声装置の言語を更新して、上記音声装置の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対と、上記新たに受信された機器文書の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対とが全て含まれるように結合するステップと、
上記少なくとも１つの同様なユーザコマンド解釈要素が存在する場合、上記音声装置の言語を更新して、共通しない上記音声装置の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対と、上記新たに受信された機器文書の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対とを結合し、同様な上記音声装置の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対と、該新たに受信された機器文書の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対のそれぞれに対して関連する機器を定義する識別子を付与するステップとを有するネットワーク機器の制御方法。
上記識別子は、上記ユーザコマンド解釈要素と関連するユーザネットワークコマンドの各対のユーザコマンド解釈要素に対して前置又は後置されて付与される機器の名称であることを特徴とする請求項１記載のネットワーク機器の制御方法。
上記適応化ステップは、
上記音声装置の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対と、上記新たに受信された機器文書の言語のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対とを結合して、該音声装置の言語を更新するステップを有し、
各ユーザコマンド解釈要素が上記音声装置の言語と上記新たに受信された機器文書の言語との共通部分に含まれているユーザコマンド解釈要素及び関連するユーザネットワークコマンドの対の全てのユーザコマンドは、上記汎用文書に含まれるユーザコマンド解釈要素及び関連するユーザネットワークコマンドの全ての対と選択処理とに基づいて、対応するユーザネットワークコマンドに変換され、
上記選択処理は、
ユーザに対してどの機器を使用するかに関する問い合わせを送信するステップと、
ユーザからの回答を受信し、認識するステップと、
上記認識したユーザからの回答、及びユーザコマンド解釈要素と上記汎用文書に含まれる関連するユーザネットワークコマンドとの全ての対に基づいて、対応するユーザネットワークコマンドを選択するステップとを有することを特徴とする請求項１記載のネットワーク機器の制御方法。
上記選択処理は、
上記ネットワークに対してどの機器が直前に使用されたかという問い合わせを送信するステップと、
上記ネットワークからの回答を受信し、認識するステップと、
上記受信したネットワークからの回答、及びユーザコマンド解釈要素と上記汎用文書に含まれるユーザネットワークコマンドとの全ての対に基づいて、対応するユーザネットワークコマンドを選択するステップとを有する請求項３記載のネットワーク機器の制御方法。
上記選択処理は、
上記ユーザの発話を受信し、認識するステップと、
上記受信したユーザの発話、及びユーザコマンド解釈要素と上記汎用文書に含まれるユーザネットワークコマンドとの全ての対に基づいて、対応するユーザネットワークコマンドを選択するステップとを有する請求項３又は４記載のネットワーク機器の制御方法。
上記選択処理は、
上記ネットワークに対してどの機器が最も用いられる可能性が高いかという問い合わせを送信するステップと、
上記ネットワークからの回答を受信するステップと、
上記受信したネットワークからの回答、及びユーザコマンド解釈要素と上記汎用文書に含まれる関連するユーザネットワークコマンドとの全ての対に基づいて、対応するユーザネットワークコマンドを選択するステップとを有する請求項３乃至５のいずれか１項記載のネットワーク機器の制御方法。
上記最も用いられる可能性の高いネットワーク機器は、電源が投入されているネットワーク機器から選択される請求項６記載のネットワーク機器の制御方法。
ネットワーク機器が上記ネットワークに接続された後に、該ネットワーク機器から、機器文書が上記音声装置に直接送信される請求項１乃至７のいずれか１項記載のネットワーク機器の制御方法。
ネットワーク機器が、上記音声装置からユーザネットワークコマンドを受信した後に、該ネットワーク機器から、機器文書が該音声装置に送信される請求項１乃至８のいずれか１項記載のネットワーク機器の制御方法。
ネットワーク機器が上記ネットワークに接続されるか、あるいは、機器文書提供装置が、上記音声装置から特定の機器文書を要求するユーザネットワークコマンドを受信した後、該機器文書提供装置から該音声装置に該機器文書が送信される請求項１乃至９のいずれか１項記載のネットワーク機器の制御方法。
上記音声装置内に格納されている汎用文書は、初期的には空である請求項１乃至１０のいずれか１項記載のネットワーク機器の制御方法。
上記音声装置内に格納されている汎用文書は、ユーザコマンド解釈要素及び関連するユーザネットワークコマンドの対の基本セットを初期的に含んでいる請求項１乃至１０のいずれか１項記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素及び関連するユーザネットワークコマンドの対の基本セットは、発話の言い回しに関する初期的文法を定義する請求項１２記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素は、語彙要素を含む請求項１乃至１３のいずれか１項記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素は、キーワード及び／又はカテゴリに基づいて、出現する可能性のあるユーザの連続的発話に関する文法の定義を含む請求項１乃至１４のいずれか１項記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素は、発音に関する定義を含む請求項１乃至１５のいずれか１項記載のネットワーク機器の制御方法。
上記発音に関する定義は、任意のネットワーク機器の言語に関連付けられている請求項１６記載のネットワーク機器の制御方法。
上記発音に関する定義は、複数のネットワーク機器の言語に関連付けられている請求項１６記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素は、少なくとも１つの単語列に関する文法を含む請求項１乃至１８のいずれか１項記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素は、単語列と任意のユーザコマンドに関連する概念との間のマッピングを定義する規則を含む請求項１乃至１９のいずれか１項記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素は、他の発話言語用のユーザコマンド解釈要素及び関連するユーザネットワークコマンドの対と同様の情報を含む請求項１乃至２０のいずれか１項記載のネットワーク機器の制御方法。
上記ユーザコマンド解釈要素は、ネットワーク機器のカテゴリ及び／又は該ネットワーク機器の機能に関する標準化された情報を含む請求項１乃至２１のいずれか１項記載のネットワーク機器の制御方法。