JP4295846B2

JP4295846B2 - 音声装置及び音声装置の自己初期化方法

Info

Publication number: JP4295846B2
Application number: JP32005198A
Authority: JP
Inventors: ペーターブフナー; シルケゴロンジー; ラルフコンペ; ステファンラップ
Original assignee: ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツング
Priority date: 1997-10-23
Filing date: 1998-10-23
Publication date: 2009-07-15
Anticipated expiration: 2018-10-23
Also published as: US6535854B2; US20020069063A1; DE69712485T2; EP0911808A1; DE69712485D1; EP0911808B1; JPH11311996A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声装置と、遠隔制御可能なネットワーク機器、及び音声装置の自己初期化方法に関する。
【０００２】
【従来の技術】
近年、音声認識装置が、テレビジョン受像機、ラジオ受信機、車載ナビゲーション、携帯電話、ビデオカメラ、パーソナルコンピュータ（以下、ＰＣという。）、プリンタ、暖房機器といった民生用機器を音声によって制御するために、少しであるが用いられるようになっている。音声認識装置は、制御される機器自体に内蔵されている。音声認識装置の語彙、文法、コマンド等のプロパティは、個々の機器に特有の機能に適するように作られている。
【０００３】
また、上述した民生用機器を、例えばＩＥＥＥ１３９４シリアルバスのような専用バスシステムによって接続する技術が利用されている。このようなシステムに接続された機器は、コマンドやデータを互いに送受して通信を行っている。通常、このような機器は、ネットワークに接続されているとき、それぞれ他の機器と識別されるように、ネットワークコントローラによって固有のアドレスが与えられる。これらのアドレスは、互いに通信するために、他の全ての機器によって用いられる。新しい機器が接続された場合は、このネットワークに接続されている他の全ての機器に、この新しく接続された機器のアドレスと機種が通知される。このようなネットワークは、家庭や、車に導入されている。
【０００４】
例えば、カーステレオの制御などの民生用機器の操作は、より複雑になってきているが、音声認識装置を用いることによって、操作が容易になり、また、車中で用いると、安全性も増す。また、家庭のネットワークでも、音声認識装置を用いると、例えばビデオテープレコーダのプログラミング、又はテレビジョン受像機のチャンネル選択といった操作を簡単に行うことができる。しかしながら、音声認識装置は、複雑な回路構成が必要であり、確実で柔軟な操作を確保するには、非常に費用のかかる技術を要する。したがって、音声認識装置は、上述した機器には、ほんの少ししか採用されておらず、ほとんど普及していない。
【０００５】
【発明が解決しようとする課題】
本発明は、上述した実情に鑑みてなされたものであり、本発明の目的は、複数の機器を制御することができる汎用の音声装置を提供することである。また、本発明の目的は、音声により、ネットワークを介して簡単に制御することができる遠隔制御可能な機器を提供することである。
【０００６】
【課題を解決するための手段】
本発明に係る音声装置は、マイクロホンからのユーザの音声信号を認識する音声認識手段と、ネットワークを介して遠隔制御可能なネットワーク機器から、ネットワーク機器の記憶部又はネットワーク機器に挿入された記録媒体固有の語彙及び／又は文法と、語彙及び／又は文法に基づくユーザネットワークコマンドとを受信するための通信制御ネットワークコマンドをネットワーク機器に送信するとともに、ネットワーク機器からその機器の種類を示すデータを受信し、受信した語彙及び／又は文法、及びユーザネットワークコマンドと、機器の種類を示すデータとを対応させて、ネットワーク機器の種類に対応したユーザネットワークコマンドを生成する制御手段と、受信した語彙及び／又は文法、及びユーザネットワークコマンドを記憶する記憶手段とを備え、制御手段は、音声認識手段からの音声信号を記憶手段に記憶された語彙及び／又は文法に基づいて認識解読して、対応するユーザネットワークコマンドを記憶手段から読み出してネットワーク機器に送信する。
また、本発明に係る音声装置の自己初期化方法は、ネットワーク機器に接続された音声装置の自己初期化方法において、ネットワークを介して遠隔制御可能なネットワーク機器から、ネットワーク機器の記憶部又はネットワーク機器に挿入された記録媒体固有の語彙及び／又は文法と、語彙及び／又は文法に基づくユーザネットワークコマンドとを受信するための通信制御ネットワークコマンドを、ネットワーク機器に送信するステップと、ネットワーク機器から送られてくる語彙及び／又は文法、及びユーザネットワークコマンドを受信するステップと、ネットワーク機器に論理名又は識別子の送信を要求するステップと、ネットワーク機器から送られてくる論理名又は識別子を受信するステップと、受信した語彙及び／又は文法、及びユーザネットワークコマンドと、論理名又は識別子とを対応させて、ネットワーク機器固有のユーザネットワークコマンドを生成し、内蔵のメモリに記憶している語彙及び／又は文法、及びユーザネットワークコマンドを、受信した語彙及び／又は文法、及びユーザネットワークコマンドによって更新するステップとを有する。
【０００８】
【発明の実施の形態】
以下、本発明に係る音声装置及び遠隔制御可能なネットワーク機器について、図面を参照しながら説明する。
【０００９】
図１は、本発明を適用した音声装置の具体的な構成を示すブロック図である。この音声装置１０には、マイクロホン１と、ラウドスピーカ２とが接続されている。これらは、音声装置１０に内蔵するようにしてもよい。音声装置１０は、音声認識機能、音声解読機能、音声合成機能、対話機能等を有し、ＩＥＥＥ１３９４シリアルバス３に接続されている。マイクロホン１は、ユーザが発した音声を音声信号に変換し、このアナログ音声信号はアナログ／デジタル（Ａ／Ｄ）変換器（図示せず）によってデジタル音声信号に変換されて音声装置１０に供給される。スピーカ２には、音声装置１０からのデジタル音声信号がデジタル／アナログ（Ｄ／Ａ）変換器（図示せず）によりアナログ音声信号に変換されて供給される。
【００１０】
ＩＥＥＥ１３９４規格は、娯楽機器、通信機器及び電子計算機を民生用のマルチメディアに統合する、低価格のデジタルインタフェースを規定した国際規格である。ユーザは、ＩＥＥＥ１３９４シリアルバスがアクティブな状態においても、ＩＥＥＥ１３９４規格に準拠した機器を取り外したり取り付けたり（活線挿抜）することができ、ＩＥＥＥ１３９４シリアルバスは、低価格で使いやすいバスシステムである。本発明は、このＩＥＥＥ１３９４シリアルバス及びＩＥＥＥ１３９４規格に準拠した機器（以下、ネットワーク機器という。）を用いて説明されているが、本発明は、この特定のＩＥＥＥ１３９４シリアルバスに限らず、全ての種類の有線又は無線のホームネットワーク、又は他のネットワーク上でも応用することができる。
【００１１】
後に詳しく説明するが、音声装置１０は、図１に示すように、ＩＥＥＥ１３９４シリアルバス（以下、ホームネットワークともいう。）３に接続されている。この音声装置１０は、一般的な語彙を備え、一般的な目的で使用される音声認識及び合成装置を含んでいる。そして、１つの音声装置１０が、ホームネットワーク３に接続されている全てのネットワーク機器２０を制御する。音声装置１０は、マイクロホン１を介してユーザからの音声コマンドをピックアップし、この音声コマンドを、例えばＩＥＥＥ１３９４規格のホームネットワークに適した制御コード（以下、ユーザネットワークコマンドともいう。）に変換する。このユーザネットワークコマンドは、適切なネットワーク機器２０に送信され、そのネットワーク機器２０は、そのユーザネットワークコマンドに基づいて動作する。
【００１２】
全てのネットワーク機器２０がユーザの音声によって制御されるようにするためには、音声装置１０は、個々のネットワーク機器２０を動作させるのに必要なコマンドを知識として持っている必要がある。音声装置１０は、例えば複数の機器に共通のコマンドである基本的なコマンドを知っている。多くのユーザからの音声コマンドは、単一のユーザネットワークコマンドとされることもある。音声コマンドは、例えば、再生、ラジオ局ＹＸＺの選局、電話番号等の続き番号などである。これらの音声コマンドは、それのみで発せられることもあるし、又はそれが文（Full Sentence）の中に組み込まれていることもある。文も、音声コマンドである。
【００１３】
音声装置１０における音声認識、解読及び対話の技術は、周知のことであるので、本発明では詳しくは説明しないが、基本的には、音声装置１０は、語彙のセットと、文法のセットを備えており、これらの語彙と文法に基づいて、ユーザからの音声コマンドをユーザネットワークコマンドに変換し、ネットワーク機器２０は、そのユーザネットワークコマンドに従って動作する。また、音声装置１０は、各単語に対応する発音を数パターン有し、ユーザと対話、すなわちユーザに対して音声を発する。
【００１４】
本発明を適用した音声装置１０は、デジタルシグナルプロセッサ（以下、ＤＳＰという。）１１を備えており、このＤＳＰ１１には、マイクロホン１が接続されている。このＤＳＰ１１は、マイクロホン１から、ユーザが発した音声コマンドに対応したデジタル音声信号が供給され、これらのデジタル音声信号を、中央処理装置（以下、ＣＰＵという。）１２が認識可能なデジタル言語に変換する処理を行う。この変換処理を行うために、ＤＳＰ１１には、ＤＳＰ１１が実行する処理についての情報を記憶しているメモリ１６が双方向通信可能に接続されており、またＤＳＰ１１には、音声認識部１１ａが内蔵されている。また、ＤＳＰ１１には、メモリ１５の中の特徴抽出部１５ｅが接続されており、この特徴抽出部１５ｅには、音声コマンドに対応するデジタル音声信号を、どのようにしてデジタル言語に変換するかについての情報が記憶されている。すなわち、ＤＳＰ１１は、マイクロホン１を介してユーザが発した音声コマンドを、例えばテキストコードなどのコンピュータが認識可能な形式に変換する。
【００１５】
ＤＳＰ１１は、このようにして生成したデジタル言語を、ＣＰＵ１２に供給する。ＣＰＵ１２は、これらのデジタル言語をユーザネットワークコマンドに変換し、ホームネットワーク３に送信する。したがって、ＤＳＰ１１及びＣＰＵ１２は、音声認識機能、対話機能、音声解読機能を有している。
【００１６】
なお、ＤＳＰ１１が、マイクロホン１を介してのユーザからの音声コマンドのスペクトル分析のみを行い、語の認識自体は、ＣＰＵ１２が、ユーザネットワークコマンドへの変換とともに、行うようにしてもよい。また、ＣＰＵ１２の能力によっては、ＣＰＵ１２がスペクトル分析も行い、ＤＳＰ１１を削除するようにしてもよい。
【００１７】
更に、ＣＰＵ１２は、音声装置１０が新しい語彙、文法、及びネットワーク機器２０に送信されるユーザネットワークコマンドを学習できるようにするための学習機能を備えている。この学習機能を実現するために、ＣＰＵ１２には、ＣＰＵ１２が実行する処理についての情報を記憶しているメモリ１６が、双方向通信可能に接続されている。更に、ＣＰＵ１２には、メモリ１５が接続されており、このメモリ１５は、初期語彙部１５ａと、付加語彙部１５ｂと、初期文法部１５ｃと、付加文法部１５ｄとから成り、ＣＰＵ１２と双方向通信可能になっている。また、メモリ１５は、認識部と文字素／音素変換（grapheme/phoneme conversion）部とを備えたソフトウエア部１５ｆを有し、このソフトウェア部１５ｆは、ＣＰＵ１２と双方向通信可能に接続されている。また、ＣＰＵ１２には、ＤＳＰ１７が接続されており、ＣＰＵ１２は、ＤＳＰ１７にメッセージのデータを供給する。ＤＳＰ１７は、音声合成及び生成部１７ａを内蔵し、メッセージのデータから音声を合成して、ラウドスピーカ２を介して出力する。
【００１８】
ＣＰＵ１２には、リンクレイヤ制御回路１３及びＩ／Ｆ物理レイヤ回路１４を介して、ホームネットワーク３が、双方向通信可能に接続されている。リンクレイヤ制御回路１３及びＩ／Ｆ物理レイヤ回路１４は、ユーザネットワークコマンドをホームネットワーク３に接続されている選択された機器に送信するとともに、ホームネットワーク３を介して送られてくる、例えば新たな種類のユーザネットワークコマンドを受信する。
【００１９】
すなわち、音声装置１０は、新しいユーザネットワークコマンド及びそれに対応する語彙及び文法を、他のネットワーク機器２０から直接に学習することもできる。このような学習をするために、音声装置１０は、ネットワーク機器２０を制御するためのメモリ１６に記憶されている制御コマンドを、制御ネットワークコマンドとしてネットワーク機器２０に送信する。この制御ネットワークコマンドは、ユーザがネットワーク機器２０を制御する際に用いるユーザネットワークコマンド、それに対応する語彙及び文法を、音声装置１０に送信するように、ネットワーク機器２０に要求するためのコマンドである。メモリ１５は、付加語彙部１５ｂと、付加文法部１５ｄとを備えており、これらは、新しく入力された語彙及び文法を記憶する。付加語彙部１５ｂ及び付加文法部１５ｄはそれぞれ、初期語彙部１５ａと、初期文法部１５ｃと同じように機能するが、付加語彙部１５ｂ及び付加文法部１５ｄは、ＣＰＵ１２の制御の下に、新しく入力されたユーザネットワークコマンド及びこれを認識するのに必要な語彙や文法等の情報を記憶する。このようにして、音声装置１０は、いかなるネットワーク機器２０が有するユーザネットワークコマンド、それに対応する語彙及び文法をも学習することができる。新しいネットワーク機器２０は、音声認識部を内蔵している必要はなく、ネットワーク上の独立した音声装置１０が制御可能なユーザネットワークコマンド、それに対応する語彙及び文法等の情報を送信する機能のみを備えていればよい。すなわち、本発明を適用した音声装置１０は、ユーザネットワークコマンドと、それに対応する語彙及び文法とを学習することができ、ユーザは、音声装置１０を介して各ネットワーク機器２０を、音声で制御されることができる。
【００２０】
初期語彙部１５ａ及び初期文法部１５ｃは、様々なネットワーク機器２０に対して用いられる基本的なユーザネットワークコマンドのセットを記憶しており、これらのユーザネットワークコマンドは、例えば「電源オン」、「電源オフ」、「一時停止」、「音量アップ」等の音声コマンドに対応するユーザネットワークコマンドである。これらのユーザネットワークコマンドとＣＰＵ１２が必要とするそれに対応した語彙及び文法は、ＤＳＰ１１に内蔵されている音声認識部１１ａによって生成されるデジタル言語と区別するために、初期語彙部１５ａ及び初期文法部１５ｃに記憶されている。更に、基本的な質問又はメッセージが、メモリ１６に記憶されている。これらは、音声装置１０からユーザに対して発せられる。このような質問又はメッセージは、例えば「もう一度言って下さい」、「どの機器の電源を切りたいのですか」などであり、ユーザが発したコマンドを適切なユーザネットワークコマンドにするために、音声装置１０とユーザの対話の際に用いられるものである。これらの質問又はメッセージは、ＣＰＵ１２が必要とする音声データとともに記憶されており、ＣＰＵ１２は、デジタル言語を生成して、ＤＳＰ１７の中の音声合成及び生成部１７ａに出力し、音声合成及び生成部１７ａは、メッセージを生成して、ラウドスピーカ２を介しててユーザに出力する。かくして、ＣＰＵ１２は、マイクロホン１、ＤＳＰ１１，１７及びラウドスピーカ２を用いてユーザと双方向通信ができ、すなわち音声装置１０は、ユーザと対話することができ、ユーザからも学習することができる。換言すると、音声装置１０は、ネットワーク機器２０からの学習と同様に、メモリ１６に記憶されている制御ネットワークコマンドのセットを用いて、様々な情報を音声装置１０に提供するように、ユーザに要求することができる。
【００２１】
上述したように、音声装置１０からユーザに対して、制御ネットワークコマンドがメッセージとなって発せられた場合、ユーザもまた、マイクロホン１及びＤＳＰ１１を介して、ユーザネットワークコマンドと、それに対応する語彙及び文法とを、ＣＰＵ１２に対して教えることができる。ユーザが、音声装置１０を学習モードにさせるための音声コマンドを発すると、ＣＰＵ１２は、メモリ１６に記憶されている制御ネットワークコマンドに基づいて、ユーザと対話をし、新しいユーザネットワークコマンド、それに対応する語彙及び文法を学習して、メモリ１５の各部に記憶する。
【００２２】
また、新しいユーザネットワークコマンドの学習は、半分は、音声装置１０とあるネットワーク機器２０との通信によって自動的に行われ、もう半分は、音声装置１０とユーザとの対話によって行われるようにしてもよい。このように、この音声装置１０には、ネットワーク機器２０によるユーザネットワークコマンドの他に、ユーザが関わるユーザネットワークコマンドが生成される。
【００２３】
上述したように、音声装置１０は、３種類のコマンド、すなわちユーザが発する音声コマンドと、この音声コマンドに対応するデジタル信号等であるユーザネットワークコマンドと、制御ネットワークコマンドとを処理する。この制御ネットワークコマンドは、他のネットワーク機器２０又はユーザから新しいユーザネットワークコマンドを学習するためのネットワーク機器２０又はユーザとの通信を行うために用いられる。また、制御ネットワークコマンドは、ユーザが新しい音声コマンドを入力できるように、音声コマンドにある機能を付加したり、既に記憶しているユーザネットワークコマンドに新しい機能を付加したりするために用いられる。
【００２４】
音声装置１０がユーザに向かって発する音声は、合成された音声か、予め録音された音声かのどちらであってもよい。例えば、頻繁に使われるメッセージには、予め録音された音声を用いて、他のメッセージには、合成された音声を用いるなどの両方を混合してもよい。また、どのネットワーク機器２０も、音声装置１０に対してメッセージを送信することができる。ネットワーク機器２０は、これらのメッセージを、文字列（orthographic form）、符号化して、又はある方法における識別子として送信する。そして、これらの文字列のメッセージは、例えば、音声装置１０に接続されているラウドスピーカ２を介して出力される。メッセージは、いかなる種類の情報でもよく、また、その情報は通常、ネットワーク機器２０の表示部に表示されている。更に、メッセージは、対話の一部として、ユーザに対して発せられる質問であってもよい。上述したように、このような対話は、音声装置１０自体がユーザの音声コマンドを確認するために行われ、又は音声装置１０が、新しいユーザネットワークコマンド、それに対応する語彙及び文法を学習するために、制御ネットワークコマンドに基づいて行われる。
【００２５】
なお、例えば、マイクロホン１とラウドスピーカ２は、１つの音声入力及び／又は出力装置と構成してもよい。この場合、メッセージの交換は、音声装置１０と音声入力及び／又は出力装置との間で、文字列によって行われる。
【００２６】
ユーザは、ホームネットワーク３にどのような機器が接続されているのかについて、音声装置１０に確認したい場合がある。この場合、「どの機器の電源を入れましょうか？」といった、音声装置１０自体がユーザに発する音声メッセージに対して、ユーザが、「ネットワークに接続中の機器は？」といったメッセージを音声装置１０に聞き返す。そして、音声装置１０が、「ネットワークに接続中の機器は？」といったユーザからのメッセージに答えた後、ユーザは、「どの機器の電源を入れましょうか？」といった音声装置１０からのメッセージに答える。
【００２７】
図２は、本発明を適用した遠隔制御可能な機器、すなわちホームネットワーク３を介して音声装置１０と接続されたネットワーク機器２０の具体的な構造を示すブロック図である。なお、この図２には、音声制御に必要な回路ブロックのみが示されている。
【００２８】
このようなネットワーク機器２０のＣＰＵ２１は、リンクレイヤ制御部２６及びＩ／Ｆ物理レイヤ回路２５を介して、ホームネットワーク３に接続されている。音声装置１０における場合と同じように、ＣＰＵ２１とホームネットワーク３は、双方向通信可能に接続されており、これにより、ＣＰＵ２１は、ホームネットワーク３から、ユーザネットワークコマンド、制御ネットワークコマンド、他の情報を受信し、また、ホームネットワーク３を介して、他のネットワーク機器２０又は音声装置１０に対して、制御ネットワークコマンド、メッセージ、他の情報を送信する。また、一部のネットワーク機器２０は、ユーザネットワークコマンドを送信する。ＣＰＵ２１には、メモリ２３が、双方向通信可能に接続されており、このメモリ２３には、他のネットワーク機器２０との通信に必要な一連の制御コマンドを含む、ＣＰＵ２１の処理に必要な情報が、全て記憶されている。また、ＣＰＵ２１には、ネットワーク機器２０の全ての処理を制御する機器制御ソフトウェア部２４が、双方向通信可能に接続されている。ネットワーク機器２０を制御する全てのユーザネットワークコマンドと、それに対応する語彙及び文法とを記憶しているメモリ２２もまた、ＣＰＵ２１と双方向通信可能に接続されている。これらのユーザネットワークコマンドと、それに対応する語彙及び文法は、ネットワーク機器２０のＣＰＵ２１と、ネットワーク機器２０のリンクレイヤ制御部２６及びＩ／Ｆ物理レイヤ回路２５と、ホームネットワーク３と、音声装置１０のＩ／Ｆ物理レイヤ回路１４及びリンクレイヤ制御回路１３と、音声装置１０のＣＰＵ１２とを介して、各ネットワーク機器２０の機器名とともに、音声装置１０に内蔵されているメモリ１５の付加語彙部１５ｂ及び付加文法部１５ｄに、ダウンロードされる。すなわち、本発明に適用した音声装置１０は、上述のようにして、ネットワーク機器２０を制御するのに必要な全てのユーザネットワークコマンドと、それに対応する語彙及び文法を学習することができる。したがって、本発明を適用したネットワーク機器２０は、音声で制御できるようにするための音声認識部をそれぞれ内蔵する必要はなく、音声装置１０にダウンロードするための機器毎のユーザネットワークコマンドと、それに対応する語彙及び文法とを記憶したメモリさえ備えていればよい。なお、語彙を新たに更新しなくても、音声装置１０は、ネットワーク機器２０に対して、基本的な制御を行うことはできる。すなわち、ネットワーク機器毎のユーザネットワークコマンドと、それに対応する語彙及び文法がなくても、音声装置１０は、ネットワーク機器２０に対して、例えば「電源オン」、「電源オフ」、「音量アップ」、「チャンネル変更」、「再生」、「停止」等のどのような機器にも共通する基本的な制御を行うことができる。
【００２９】
図３は、ＩＥＥＥ１３９４シリアルバス３を用いたネットワークシステムの形態の一例を示す図である。このネットワークシステムには、マイクロホン１及びラウドスピーカ２を備えた１つの音声装置１０と、４つのネットワーク機器２０とが接続されている。
【００３０】
図４は、ＩＥＥＥ１３９４シリアルバス３を用いたネットワークシステムの形態の他の例を示す図である。このネットワークシステムでは、４つのネットワーク機器２０の他に、マイクロホン１及びラウドスピーカ２を備えた音声装置１０を内蔵したネットワーク機器３０が、ホームネットワーク３に接続されている。このような、音声装置１０を内蔵したネットワーク機器３０は、ネットワーク機器２０と音声装置１０を合わせた機能を有する。そして、音声装置１０は、ネットワーク機器２０と、音声装置１０を内蔵したネットワーク機器３０とを制御する。
【００３１】
図５は、ＩＥＥＥ１３９４シリアルバス３を用いたネットワークシステムの形態の他の例を示す図である。ネットワークシステムＡは、図３におけるネットワークシステムと似ているが、６つのネットワーク機器２０が、ホームネットワーク３に接続されている。ホームネットワーク３に接続されている音声装置１０は、ネットワーク機器２０をいくつでも制御することができる。どのネットワーク機器２０でも、ホームネットワーク３に接続されていれば、音声装置１０によって制御される。
【００３２】
図６は、図３乃至図５のＩＥＥＥ１３９４シリアルバス３を用いたネットワークシステムにおける機器間のより詳細な接続を示す図である。この図６のネットワークシステムＢに示すように、１つの音声装置１０と５つのネットワーク機器２０は、閉ループを構成することなく、ＩＥＥＥ１３９４シリアルバス３を介してディジーテェーン又はスター状に接続されている。したがって、互いに直接接続されていない音声装置１０又はネットワーク機器２０同士は、それらの中間に接続された音声装置１０又はネットワーク機器２０を介して通信するようになっている。すなわち、ＩＥＥＥ１３９４シリアルバスでは、自分宛でない情報は、次の機器に転送することにより、図３乃至５に示すようなバスを擬似的に形成している。したがって、本発明は、上述したＩＥＥＥ１３９４シリアルバスを用いたネットワークシステムに限定されるものではなく、様々なネットワークシステムにも適用することができる。
【００３３】
例えば、図７は、本発明を適用した音声装置１０とネットワーク機器２０を用いた無線ネットワークシステムを示す図である。ここでは、全ての機器が、各自が内蔵している送信機と受信機を介して、互いに直接に通信を行うようになっている。この例では、複数の音声装置１０が、１つのネットワークの中に接続されている。これらの音声装置１０は、両方とも同じ機能を持っていてもよいし、又は互いに異なる機能を持っていてもよい。このよう構成することにより、各ユーザが個人用の音声装置１０を携帯して、様々なネットワーク機器２０を制御することができる。また、無線の個人用の音声装置１０では、他の場所のネットワークシステムに携帯して持っていき、その他のネットワークシステムに自動的にログインすることができ、また個人的な操作が全てできるという利点がある。なお、例えば、この個人用の音声装置１０を、有線ネットワーク上で用いるようにしてもよい。
【００３４】
また、例えば、ある特定のユーザの暗証番号等を用いて、そのユーザが発する音声コマンドのみをユーザネットワークコマンドに変換するように、個人用のネットワーク機器を構成するようにしてもよい。この場合、その登録されている本人が、その音声装置１０を使うときのみ、アクセスが可能であるため、個人個人のアクセス権を保護できる。したがって、例えば、ネットワーク自体へのアクセス、ネットワークに接続されている機器へのアクセス、部屋、ビデオテープレコーダ、テレビジョン受像機等へのアクセス等のあらゆる種類のアクセスを、この方法で管理制御することができる。
【００３５】
また、例えば、電話帳を、音声装置１０に記憶させておくようにしてもよい。例えば、「職場」等の名前で機能を呼ぶ方法は、個々のユーザによって異なる。個人用の音声装置１０では、別々のユーザがそれぞれ異なる呼び方で、同じ機能を実行することができる。また、例えば「私のテレビの電源を入れよ。」といった音声コマンドを、特定の機器を制御する特定のユーザネットワークコマンドに割り当てるようにしてもよい。また、例えば、別のユーザが、同じユーザネットワークコマンドに対して、別の名前の音声コマンドを割り当てるようにしてもよい。したがって、この場合、音声装置１０は、２つの異なる音声コマンドに対して、同じユーザネットワークコマンドを生成することになる。また、例えば、ネットワークにテレビジョン受像機が２台あるなど、同じ機種の機器が１台以上あるとき、異なる複数のユーザが、例えば「私のテレビの電源を入れよ。」など、同じ音声コマンドを発しても、異なるユーザネットワークコマンドを生成し、適切な機器の方に、そのユーザネットワークコマンドを送信するようにしてもよい。
【００３６】
また、例えば、１つの音声装置１０に、１人のユーザ、又は別のユーザの個人的な情報をいれるようにしてもよい。また、例えば、１人のユーザのための個人用の音声装置１０は、携帯用で無線であるので、ユーザが常に携帯したり、同じものを家、車の中、又は職場などの他のネットワークに置くようにしてもよい。
【００３７】
個人用の音声装置１０は、ユーザが、登録された特定のユーザであるかを確認することができる。個人用の音声装置１０は、ユーザの音声を確認し、ユーザに、その音声で登録された機器のみを制御させるようにする。これは、部屋、車、又は電話機等の機器へのアクセスを管理制御することができる。認識性能を高めるために、個人用の音声装置１０に、１人専用の音声認識部を内蔵させてもよい。
【００３８】
図８は、３つの部屋から成るホームネットワークシステムの一例を示す図である。このうちの１つ部屋、例えば台所には、ＩＥＥＥ１３９４シリアルバス６１が設けられている。このＩＥＥＥ１３９４シリアルバス６１には、放送受信機６５と、デジタルテレビジョン受像機６４と、プリンタ６３と、電話機６２と、長距離中継器６６が接続されている。放送受信機６５は、放送用保安装置６０を介して、家の外のＣＡＴＶに接続されている。また、ＩＥＥＥ１３９４シリアルバス６１は、長距離中継器６６及びＩＥＥＥ１３９４ブリッジ７４を介して、第２の部屋である居間に設置されたＩＥＥＥ１３９４シリアルバス６７に繋がっている。この居間のＩＥＥＥ１３９４シリアルバス６７には、音声装置７０と、パーソナルコンピュータ（以下、ＰＣという。）６９と、電話機６８と、ビデオテープレコーダ７１と、ビデオカメラ７２と、デジタルテレビジョン受像機７３ａとが接続されている。また、ＩＥＥＥ１３９４シリアルバス６７は、ＩＥＥＥ１３９４ブリッジ７４及び長距離中継器７５を介して、第３の部屋である書斎に設置されたＩＥＥＥ１３９４シリアルバス７８に繋がっている。ＩＥＥＥ１３９４シリアルバスバス７８には、ＰＣ７６と、電話機７７と、ハードディスク７９と、プリンタ８０と、デジタルテレビジョン受像機８１と、電話ＮＩＵ８２とが接続されている。電話ＮＩＵ８２は、電話機用保安装置８３に接続されている。
【００３９】
上述したネットワークシステムでは、ＩＥＥＥ１３９４シリアルバス６１，６７，７８と、ＩＥＥＥ１３９４ブリッジ７４と、中継器６６，７５とを介して、どの機器も、他の機器と通信できるように構成されている。居間に設置されている音声装置７０は、全ての機器と通信を行い、これらの機器を制御する。この音声装置７０は、上述した音声装置１０と同様の構成を有する。図８に示す例では、例えば、居間のデジタルテレビジョン受像機７３と書斎のデジタルテレビジョン受像機８１のように、同じ機種の機器が複数存在しているので、ユーザが機器名を定義するようにする。複数の同じ機種の機器がネットワークに設置された場合、又はある機種の機器が接続されているネットワークに、新たに同じ機種の機器が接続された場合、音声装置７０は、ユーザに、それぞれの機器に対して名前を付けるように要求する。例えば「居間のテレビジョン受像機」と「書斎のテレビジョン受像機」と名付けるように要求する。これらの名前を音声装置７０に学習させるには、次のうちのいずれか方法を用いて行う。
【００４０】
１．ユーザは、その機器の名前の文字列を、タイプ又は手書きで音声装置に入力する。音声装置は、その文字列を、音素記号列にマッピングする。
【００４１】
２．個人用の音声装置では、その機器の名前に対応するユーザ定義の音声名を、ベクトル特性として記憶させる。そして、このベクトル特性を参照パターンとして、パターンマッチングにより音声名を認識するようにする。
【００４２】
３．音声装置が、音素認識部を用いて、自動的にその名前に対応する音素記号列を学習する。
【００４３】
そして、ユーザは、それらの機器に、例えば「居間のテレビジョン受像機」といった名前を付ける。音声装置７０は、この名前を、適切なネットワークアドレスにマッピングする。この名前は、デフォルトとして、特定の機器の機能に対応付けられる。ユーザが発するコマンドは、その発した名前が最も最近に付けられた機器に送信される。なお、これらの名前は、後に変更することはいうまでもない。
【００４４】
ユーザは、電話機を介して、家にある機器にアクセスしたい場合が多くあると考えられる。例えば、遠隔地から、ファックスを読み出したり、暖房機器を制御したりしたい場合がある。図９及び図１０は、このような遠隔地からのアクセスを実現させる２つの形態を示している。
【００４５】
図９は、音声装置１０が、ネットワーク機器２０を有するホームネットワークシステムと、公衆電話ネットワークとに接続されている具体例を示す図である。ユーザからの音声コマンドは、公衆電話ネットワークを介して、音声装置１０に送信され、音声装置１０は、その音声コマンドをユーザネットワークコマンドに変換して、指定されたネットワーク機器２０を制御する。ユーザは、公衆電話ネットワークにアクセスできれば、どんな所からでも、他の装置は用いずに、音声装置１０のみを用いて、自分のホームネットワークシステム内のネットワーク機器２０を制御することができる。
【００４６】
図１０は、ユーザが、個人用の音声装置１０を携帯して、あるホームネットワークＡの領域にいる場合の例を示す図である。ユーザが、自分の個人用の音声装置１０に向かって、音声コマンドを発すると、個人用の音声装置１０は、その音声コマンドを、ユーザネットワークコマンドに変換して、ホームネットワークＡに送信する。ホームネットワークＡは、送受信機８４及び公衆電話ネットワークを介して、このユーザネットワークコマンドを、ユーザが発した音声コマンドによって制御されるネットワーク機器２０が属しているホームネットワークＢに送信する。この場合に利用できる機能は、使用されているネットワークに依存する。
【００４７】
上述したように、音声装置１０は、音声出力装置を内蔵しているか、あるいは直接に又はネットワークを介して音声出力装置に接続されており、音声装置１０は、ネットワーク機器２０からのメッセージを音声に合成して出力し、これにより、音声装置１０とユーザの対話が成される。このような対話は、例えば、ビデオテープレコーダをプログラムする際に役に立つ。メッセージには、例えば、ジュークボックスに入っているコンパクトディスクのタイトル等の、ネットワーク機器２０の状態についての付加的な情報も盛り込むことができる。すなわち、メッセージの数や種類は制限されない。
【００４８】
図１１，図１２及び図１３は、音声装置１０及びネットワーク機器２０からなる音声システムにおける、例えばビデオテープレコーダをプログラムする際の音声システムとユーザとの対話の文法を、一部例示したものである。“Ｓ”は、音声システムの質問で、“Ｕ”は、ユーザによる音声コマンド又は他の発話である。対話の各ステップで発せられる音声コマンド又は他の発話は、特定の文法及び語で示される。
【００４９】
ユーザが、定形の一連の語を発するように、又は対話を定まった一連の対話ステップに限定するために、例えば有限状態変位文法（finite state grammar）等の文法を用いる。このような文法は、例えば、ビデオテープレコーダのプログラミングに適している。各対話ステップによって、異なる有限状態変位文法が用いられる。これらの文法は、音声装置によって直接用いられるが、各機器によって異なる。したがって、音声システムの中に特定の有限状態変位文法を入れておくのは、実用的ではない。むしろ、新しい機器がネットワークに接続された際、その機器固有の文法を、その機器から音声装置に送信するようにするのが望ましい。
【００５０】
図１１は、音声システムとユーザとの対話ステップを示す図である。ステップＳ１において、音声システムは、例えばユーザに対して「チャンネルは？」というメッセージを出力して、ユーザにチャンネルの種類を尋ねる。ステップＳ２において、ユーザは、所望のチャンネルの音声コマンドを発することで、音声システムに、一連の語「Ｕ＿ＣＨＡＮＮＥＬ」が入力される。ステップＳ３において、音声システムは、設定された動作を今日するべきかを尋ねる。ステップＳ４において、ユーザは、設定された動作を今日するべきかについて「はい」又は「いいえ」で答え、「いいえ」の場合は、所望の日付を言うことで、音声システムに、一連の語「Ｕ＿Ｙ／Ｎ＿ＤＡＴＥ」が入力される。日付が今日で、すなわちユーザが、音声システムの質問に「はい」と答えた場合、音声システムは、ステップＳ５において、「どの映画ですか？」と尋ねる。ステップＳ６において、ユーザは、所望の映画を音声システムに伝えることで、一連の語「Ｕ＿ＦＩＬＭ」が入力される。ステップ４において、ユーザが「いいえ」と答えた場合、音声装置は、ステップＳ７において、日付を尋ねる。ステップＳ８において、ユーザは、所望の日付の音声コマンドを発することで、一連の語「Ｕ＿ＤＡＴＥ」が入力され、ステップ５へと続く。
【００５１】
図１２は、図１１の例に対応する一連の語の文法を示す図である。図１１のステップＳ４において、ユーザは、一連の語「Ｕ＿Ｙ／Ｎ＿ＤＡＴＥ」として、「はい」を入力するか、又は「いいえ」、すなわち日付を入力するかのどちらかを行う。図１１で示したように、一連の語「Ｕ＿Ｙ／Ｎ＿ＤＡＴＥ」において、ユーザは、図１２のステップＳ４１において一連の語「Ｕ＿Ｙ／Ｎ」を入力するか、又は、ステップＳ４２において一連の語「Ｕ＿ＤＡＴＥ」を入力するかのどちらかを行う。一連の語「Ｕ＿Ｙ／Ｎ」において、ユーザは、ステップＳ４３において一連の語「Ｕ＿ＮＯ」を入力するか、又は、ステップＳ４４において一連の語「Ｕ＿ＹＥＳ」を入力するかのどちらかを行う。一連の語「Ｕ＿ＤＡＴＥ」において、ユーザは、ステップＳ４５において一連の語「ＮＯ＿１＿３１」を入力して日にちを特定し、ステップＳ４６において一連の語「ＮＯ＿１＿１２」を入力して月を特定する。
【００５２】
図１３は、これらの一連の語に対応する語彙を示している。例えば、一連の語「Ｕ＿ＹＥＳ」は、「はい」又は「ええ」に対応しており、一連の語「Ｕ＿ＮＯ」は、「いいえ」に対応しており、一連の語「ＮＯ＿１＿３１」は、１，２，．．．３１又は１日、２日、．．．３１日と対応しており、一連の語「ＮＯ＿１＿１２」は、１．．．１２又は１月．．．１２月と対応している。
【００５３】
図１４は、ユーザ、音声装置及びネットワーク機器間のプロトコルを示す図である。
【００５４】
ステップＳ１において、ユーザは、音声コマンド「再生」を発する。音声装置は、ネットワークに接続されている、再生可能な機器が複数あることを認識する。すなわち、音声装置は、音声コマンド「再生」だけでは、特定のネットワーク機器を制御するのに十分な情報ではないと認識する。ステップＳ２において、音声装置は、「どの機器を再生したいですか？」というメッセージをユーザに対して出力する。ステップＳ３において、ユーザは、音声装置に対して、「ビデオテープレコーダ」と答える。この時点で、音声装置は、ユーザが所望の特定のネットワーク機器を制御するのに十分な情報を提供したと認識し、ビデオテープレコーダを再生状態にする。ステップＳ４において、音声装置は、ネットワークを介して、ユーザの答えに対応するユーザネットワークコマンドを、ビデオテープレコーダのアドレスに送信する。ビデオテープレコーダは、このユーザネットワークコマンドを受信し、所望の動作を行おうとする。ここでは、ビデオテープレコーダは、カセットを検出することができず、再生状態にできないため、ステップＳ５において、ビデオテープレコーダは、エラーＩＤであるＸを、音声装置のアドレスに送信する。音声装置は、このエラーメッセージを受信し、認識して、ステップＳ６において、対応するメッセージ「ビデオテープレコーダの中にカセットがありません」をユーザに対して出力する。
【００５５】
音声装置は、ネットワークに接続されているすべてのネットワーク機器や、１人以上のユーザを含めて、ネットワークの間のインタフェースとして機能している。ユーザがネットワークの領域にいる場合、そして、ネットワークの状態を認識し、伝えることのできる音声装置が、適切なユーザネットワークコマンドが作られているか、そうでなければ、適切な対応するユーザネットワークコマンドを作るのに必要なメッセージ又は音声コマンドを送信するようにユーザに要求するメッセージを、ユーザに送信するか、のいずれかがなされているか確認している場合、ユーザは、ネットワークに接続されている音声装置に対して、音声コマンドを発すればよい。
【００５６】
音声装置は、ネットワークに接続されている機器が、新しい機能を読み込んで、認識していくのを、常に監視している必要がある。すなわち、音声装置は、ネットワークに接続されている機器が、新しい音声制御機能を持つことを、監視している。音声装置はまた、機器がネットワークから外されることも、監視している必要がある。
【００５７】
図１５は、このような監視のプロセスにおけるユーザ、音声装置及びネットワーク機器間のプロトコルを示す図である。ステップＳ１において、音声装置は、ネットワークに接続されているネットワーク機器の機器アドレスに対して、その機器の名称及び機種を含むＩＤを送信するように要求するメッセージを送信する。この時点では、このネットワーク機器を音声で制御することはできない。その機器が、音声装置からのＩＤ送信の要求を受信すると、ステップＳ２において、その機器は、音声装置のアドレスにＩＤを送信する。ステップＳ３において、音声装置は、その機器のアドレスに対して、その機器のユーザネットワークコマンドのリストを送信するように要求するメッセージを送信する。その機器がこのメッセージを受信すると、ステップＳ４において、その機器は、音声装置に対して、その機器のユーザネットワークコマンドのリストを送信する。音声装置は、そのユーザネットワークコマンドのリストを受信し、語彙を、その機器から受け取った語彙及び文法に更新する。ステップＳ５において、音声装置は、その機器のアドレスに、領収の確認メッセージを送信する。この時点で、ユーザは、音声でその機器を制御することができる。ステップＳ６において、音声装置は、新しい音声制御機能を搭載した機器が利用可能であるということをユーザに対して通知する。
【００５８】
図１６は、新しい機器が追加されたときのユーザ、音声装置及びネットワーク機器間のプロトコル（初期化プロトコル）を示す図である。新しい機器がネットワークに接続された場合、新しい機器は、音声装置に対して、新しい音声制御機能を提供することを知らせる。ステップＳ１において、音声装置は、新しい機器に対して、ネットワークアドレス、名称、機種を含むＩＤを送信するように要求する。ステップＳ２において、その新しい機器は、音声装置に、そのＩＤを送信する。ステップＳ３において、音声装置は、その機器に対して、ユーザネットワークコマンドのリストを送信するように要求する。ステップＳ４において、その機器は、音声装置に対して、ユーザネットワークコマンドのリストを送信する。ステップＳ５において、音声装置は、ユーザに対して、その新しく接続された機器に論理名を付けるように要求する。ステップＳ６において、ユーザは、その新しく接続された機器の論理名を付け、それをタイプするか、又は書いて、音声装置がそれを受信できるようにする。当然ながら、ユーザは、その新しい名前を音声で発するだけでもよい。音声装置は、ユーザから論理名を受信して、その機器の語彙及び文法を更新する。ステップＳ７において、音声装置は、新しくネットワークに接続されたそのＩＥＥＥ１３９４規格に準拠した機器に対して、領収の確認メッセージを送信する。この時点で、ユーザは、この新しい機器を音声で制御できる。
【００５９】
機器から音声装置に送るユーザネットワークコマンドのリストは、適切なユーザネットワークコマンドに対応する音声コマンドの文字列のみでもよいし、又は、これらの音声コマンドの文字列に、例えば発音記号などの、発音情報を付加してもよい。後者の場合、音声装置には、新しいユーザネットワークコマンドが付加される。ユーザネットワークコマンドのリストに、音声コマンドの文字列のみが入れられていて、発音記号が入れられていなかった場合、ソフトウエア部１５ｆに内蔵されている文字素／音素変換部が、その文字列に対して、発音と、他の発音の仕方とを作り出し、ユーザネットワークコマンドのリストを完成させる。その機器の語彙及び文法が更新されると、ユーザは、その新しい機器を音声で制御できるようになる。
【００６０】
もし、新しく接続された機器と音声装置との間に、このような相互のやりとりが行われないと、音声装置に記憶されている初期の語彙で構成されるユーザネットワークコマンドの中で、その新しい機器が有しているユーザネットワークコマンドのみによる基本的な機能だけが使用可能になる。他の機器用のユーザネットワークコマンドを、新しい機器に適応させることは可能だが、この方法では、完全に音声によって制御できるかどうかは、保証されない。したがって、新しい機器がネットワークにアクセスを持つには、音声装置は、その機器のＩＤを認識している必要があるので、音声装置と、その機器と、他の機器との間で、その機器のＩＤについてのやりとりが行われる必要がある。
【００６１】
例えば、コンパクトディスク（以下、ＣＤという。）の名前、曲のタイトル、映画のタイトル、又は放送局の名前等の記録媒体の名前を含むコマンドには、一部音声装置が認識していない語彙が含まれている。したがって、音声装置は、この認識していない情報を、他の情報源から獲得しなければならない。この分野の従来技術では、ユーザは、この情報をタイプするか、又は書くかして入力している。一方、本発明を適用した音声装置では、上述したようなプロセスで、語彙及び文法を入力することができる。記録媒体に関する情報の文字列及び／又は発音は、次のような方法で、入手することができる。
【００６２】
・データベースから、例えば、ＣＤ−ＲＯＭのようなある記録媒体に情報を獲得する。
【００６３】
・例えば、ＣＤ、装置基本制御ブロック（ＤＶＢ）等の記録媒体自体が、その詳細及びその発音を有しており、ここから情報を獲得する。例えば、ＣＤに歌手の名前及び曲のタイトルが記憶されていて、読み出し可能である。
【００６４】
・例えば、インターネット、個別アドレスビーコンシステム（以下、ＤＡＢという。）、ホームネットワーク、電話網等の情報伝達装置を介してアクセスしたデータベースから情報を獲得する。
【００６５】
なお、これらの方法の他に、ユーザは、情報をタイプするか、又は書くかして入力してもよい。
【００６６】
例えば、新しいＣＤが初めてプレーヤに挿入されたり、プログラムを入手できる装置がバスに接続された場合に、音声装置又はそれに変わる装置は、ホームネットワークに接続されているすべての機器に対して、新しい記録媒体又はプログラムの情報を送信するように要求するための、情報検索要求を出す。その後、ネットワークに接続されている機器のいずれかから、この要求に対する回答がある可能性がある。可能性のある機器は、例えば次のような機器である。
【００６７】
・例えば、ディスクのジュークボックスに入っているＣＤ−ＲＯＭ、テープの内容を知らせるビデオテーププレーヤ、ＰＣ等上でユーザが入力したデータベース、番組の名前などによってチャンネルを知らせるセットトップボックス等、送られてきたデータベースを読み込むことができる機器。
【００６８】
・例えば、ＷＥＢ−ＴＶ、セットトップボックス、ＤＡＢレシーバ、ＰＣ等、他の情報伝達装置に接続されている機器であり、少なくとも時々インターネットに接続されているか、又は、番組情報又は他の情報を持つシステムと接続するためのモデムを有している機器。
【００６９】
・例えば、頻繁に再生される曲の名前は何か、現在見ている番組は何か等の質問をユーザに尋ねる等、内容についての質問をしたり、また、ユーザが記録媒体を新しく購入して、タイプするか、書くか、発話するかによって、そのタイトルを入力したい場合に、ユーザと対話したりして、ユーザとやりとりする機器。
【００７０】
図１７は、複数の機器が記録媒体の内容に関する語彙を付加することに関する複数の機器及び音声装置間のプロトコルを示す図である。最初の時点では、情報は、音声装置からも、記録媒体を入れている機器からも送信されない。新しい記録媒体がプレーヤに初めて挿入されると、ステップＳ１において、プレーヤは、記録媒体Ｘを挿入したという通知の情報を、音声装置に送信する。ステップＳ２において、音声装置は、そのプレーヤと、ネットワークに接続されている他の全ての機器に対して、制御ネットワークコマンドを用いて、記録媒体Ｘの情報を送信するように要求するメッセージを送信する。この時点では、この要求に対して、複数の機器からの回答がある可能性がある。ステップＳ３において、ネットワークに接続されている機器のうちのいずれか１台が、音声装置に対して、記録媒体Ｘに関する情報を送信する。音声装置は、その語彙を更新し、ステップＳ４において、そのプレーヤと、記録媒体Ｘに関する情報を送信した機器に対して、領収の確認メッセージを送信する。この時点で、ユーザは、例えば、「チャイコフスキーピアノコンチェルトロ短調を再生せよ。」などの音声コマンドによって、その記録媒体の内容にアクセスすることができる。
【００７１】
図１８は、複数の機器が記録媒体の内容に関する語彙を付加することに関する複数の機器及び音声装置間のプロトコルの他の例を示す図である。この例では、２台の機器が、要求に回答している。第１の回答が、語彙の更新に選択され、第２の回答は、破棄されている。
【００７２】
新しい記録媒体がプレーヤに初めて挿入されると、ステップＳ１において、プレーヤは、記録媒体Ｘを挿入したという通知の情報を、音声装置に送信する。ステップＳ２において、音声装置は、そのプレーヤと、ネットワークに接続されている他の全ての機器に対して、記録媒体Ｘの情報を制御ネットワークコマンド形式で送信するように要求するメッセージを送信する。この時点では、この要求に対して、複数の機器からの回答がある可能性がある。この例では、そのプレーヤに記録媒体Ｘの情報が入っているので、ステップＳ３において、そのプレーヤが、音声装置に対して、記録媒体Ｘに関する情報を送信する。音声装置は、その語彙及び／又は文法を更新し、ステップＳ４において、そのプレーヤと、記録媒体Ｘに関する情報を送信した機器に対して、領収の確認メッセージを送信する。ステップＳ５において、他の機器が記録媒体Ｘに関する情報を送信するが、音声装置は、この情報を破棄する。
【００７３】
遠隔制御可能なネットワーク機器のユーザネットワークコマンド及びそれに対応する語彙及び／又は文法は、ＣＤ−ＲＯＭ等の記録媒体に入れられているデータベースや、インターネットページのようなインターネットに記憶されているデータベースや、又は、デジタル放送によって伝送されるデータベースに記憶されている場合もある。例えば、新しい機器２０がネットワークに接続される時や、ユーザが語彙を更新する時に、その記録媒体の情報は、音声装置１０によってダウンロードされる。このような機器自体が、この情報をメモリに持っている必要はなく、この情報は、他の機器２０が読み込めるデータ媒体に伝送され、その機器に送られる。又は、この情報は、インターネット又はデジタル放送を介して、その機器の製造元から提供される。
【００７４】
【発明の効果】
本発明に係る音声装置は、マイクロホンからのユーザの音声信号を認識する音声認識手段と、ネットワークを介して遠隔制御可能なネットワーク機器から、ネットワーク機器の記憶部又はネットワーク機器に挿入された記録媒体固有の語彙及び／又は文法と、語彙及び／又は文法に基づくユーザネットワークコマンドとを受信するための通信制御ネットワークコマンドをネットワーク機器に送信するとともに、ネットワーク機器からその機器の種類を示すデータを受信し、受信した語彙及び／又は文法、及びユーザネットワークコマンドと、機器の種類を示すデータとを対応させて、ネットワーク機器の種類に対応したユーザネットワークコマンドを生成する制御手段と、受信した語彙及び／又は文法、及びユーザネットワークコマンドを記憶する記憶手段とを備え、制御手段は、音声認識手段からの音声信号を記憶手段に記憶された語彙及び／又は文法に基づいて認識解読して、対応するユーザネットワークコマンドを記憶手段から読み出してネットワーク機器に送信する。
【００７５】
また、本実施の形態に係る遠隔制御可能なネットワーク機器は、音声装置から、音声入力に対応するユーザネットワークコマンドをネットワークを介して受信して、ネットワークコマンドに基づいてその機能を制御する制御手段を備え、制御手段は、ネットワーク機器がネットワークに接続されたときに、音声装置から通信制御ネットワークコマンドを受信して、ネットワーク機器固有のユーザネットワークコマンド、及び語彙及び／又は文法をネットワークを介して音声装置に送信する。
【００７６】
これにより、１つの音声装置を用いて、複数のネットワーク機器を制御することができ、ネットワークシステム全体のコストを低減することができる。
【図面の簡単な説明】
【図１】本発明を適用した音声装置の具体的な構成を示すブロック図である。
【図２】本発明を適用したネットワーク機器の具体的な構成を示すブロック図である。
【図３】ＩＥＥＥ１３９４シリアルバスを用いたネットワークの形態の一例を示す図である。
【図４】ＩＥＥＥ１３９４シリアルバスを用いたネットワークの形態の他の例を示す図である。
【図５】ネットワークの形態の一例を示す図である。
【図６】ネットワークの形態の他の例を示す図である。
【図７】ネットワークの形態の他の例を示す図である。
【図８】３つの部屋から成るホームネットワークの一例を示す図である。
【図９】音声装置を介してネットワーク機器を遠隔制御する一例を示す図である。
【図１０】音声装置を介してネットワーク機器を遠隔制御する他の例を示す図である。
【図１１】ビデオテープレコーダのプログラミングにおける、音声システムとユーザとの対話の文法を、一部例示した図である。
【図１２】ビデオテープレコーダのプログラミングにおける、音声システムとユーザとの対話の文法に対応する一連の語の文法を示す図である。
【図１３】ビデオテープレコーダのプログラミングにおける、一連の語の文法に対応する語彙を示す図である。
【図１４】ユーザ、音声装置及びネットワーク機器の間のやりとりのプロトコルの一例を示す図である。
【図１５】音声装置が、ネットワーク機器が読込及び認識した新しい機能を学習するプロセスの一例を示す図である。
【図１６】音声装置が新しい機器を初期化する一例を示す図である。
【図１７】複数の機器による、記録媒体の内容に関する語彙を付加することに関するやりとりの一例を示す図である。
【図１８】複数の機器による、記録媒体の内容に関する語彙を付加することに関するやりとりの他の例を示す図である。
【符号の説明】
１マイクロホン、２ラウドスピーカ、３ホームネットワーク、１０音声装置、１１ＤＳＰ、１１ａ音声認識部、１２ＣＰＵ、１３リンクレイヤ制御部、１４Ｉ／Ｆ物理レイヤ部、１５メモリ、１５ａ初期語彙部、１５ｂ付加語彙部、１５ｃ初期文法部、１５ｄ付加文法部、１５ｅ特徴抽出部、１５ｆソフトウェア部、１６メモリ、１７ＤＳＰ、１７ａ音声合成・生成部

Claims

マイクロホンからのユーザの音声信号を認識する音声認識手段と、
ネットワークを介して遠隔制御可能なネットワーク機器から、該ネットワーク機器の記憶部又は該ネットワーク機器に挿入された記録媒体固有の語彙及び／又は文法と、該語彙及び／又は文法に基づくユーザネットワークコマンドとを受信するための通信制御ネットワークコマンドを該ネットワーク機器に送信するとともに、該ネットワーク機器からその機器の種類を示すデータを受信し、受信した該語彙及び／又は文法、及び該ユーザネットワークコマンドと、該機器の種類を示すデータとを対応させて、該ネットワーク機器の種類に対応したユーザネットワークコマンドを生成する制御手段と、
受信した上記語彙及び／又は文法、及びユーザネットワークコマンドを記憶する記憶手段とを備え、
上記制御手段は、上記音声認識手段からの音声信号を上記記憶手段に記憶された語彙及び／又は文法に基づいて認識解読して、対応するユーザネットワークコマンドを上記記憶手段から読み出して上記ネットワーク機器に送信する音声装置。
新たなネットワーク機器がネットワークに接続されたとき及び／又はネットワーク機器に新たな記録媒体が挿入されたときに、上記通信制御ネットワークコマンドを該ネットワーク機器に送信する請求項１記載の音声装置。
上記ユーザネットワークコマンド及び上記通信制御ネットワークコマンドを、ネットワークを介して上記ネットワーク機器に送信するとともに、該ネットワーク機器から該ネットワークを介してデータ及びメッセージを受信するインタフェースを備える請求項１又は２に記載の音声装置。
上記ネットワークは、有線又は無線のネットワークである請求項１乃至３のいずれか１項に記載の音声装置。
上記音声認識手段は、上記マイクロホンからの複数のユーザの音声信号に基づいて、個々のユーザを識別し、上記制御手段は、個々のユーザに適用されるユーザ固有のユーザネットワークコマンドを生成する請求項１乃至４のいずれか１項に記載の音声装置。
上記ネットワーク機器及び当該音声装置からのメッセージを、音声信号に合成して、ラウドスピーカに出力する音声合成手段を備える請求項１乃至５のいずれか１項に記載の音声装置。
上記マイクロホン及び／又はラウドスピーカを内蔵する請求項６に記載の音声装置。
上記マイクロホン及び／又はラウドスピーカは、有線又は無線で当該音声装置に接続されている請求項６に記載の音声装置。
上記インタフェースは、公衆電話ネットワークを介して、上記ネットワークに接続している請求項３に記載の音声装置。
上記インタフェースは、インターネットネットワークを介して、上記ネットワークに接続している請求項３に記載の音声装置。
上記ネットワークは、ＩＥＥＥ１３９４シリアルバスである請求項１乃至１０のいずれか１項に記載の音声装置。
ネットワーク機器に接続された音声装置の自己初期化方法において、
ネットワークを介して遠隔制御可能なネットワーク機器から、該ネットワーク機器の記憶部又は該ネットワーク機器に挿入された記録媒体固有の語彙及び／又は文法と、該語彙及び／又は文法に基づくユーザネットワークコマンドとを受信するための通信制御ネットワークコマンドを、該ネットワーク機器に送信するステップと、
上記ネットワーク機器から送られてくる語彙及び／又は文法、及びユーザネットワークコマンドを受信するステップと、
上記ネットワーク機器に論理名又は識別子の送信を要求するステップと、
上記ネットワーク機器から送られてくる論理名又は識別子を受信するステップと、
受信した上記語彙及び／又は文法、及びユーザネットワークコマンドと、上記論理名又は識別子とを対応させて、上記ネットワーク機器固有のユーザネットワークコマンドを生成し、内蔵のメモリに記憶している語彙及び／又は文法、及びユーザネットワークコマンドを、受信した語彙及び／又は文法、及びユーザネットワークコマンドによって更新するステップと
を有する音声装置の自己初期化方法。
上記ネットワーク機器の論理名は、ユーザ又は上記ネットワーク機器自体のいずれかによって決定される請求項１２に記載の音声装置の自己初期化方法。
上記識別子は、上記ネットワークにおけるネットワーク機器のアドレス及び名前を含む請求項１２又は１３に記載の音声装置の自己初期化方法。