JP3644955B2

JP3644955B2 - 会話装置、会話親機装置、会話子機装置、会話制御方法、および会話制御プログラム

Info

Publication number: JP3644955B2
Application number: JP2003533270A
Authority: JP
Inventors: 英嗣前川; 由実脇田; 研治水谷; 伸一芳澤; 良文廣瀬; 謙二松井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2001-09-27
Filing date: 2002-09-27
Publication date: 2005-05-11
Anticipated expiration: 2022-09-27
Also published as: WO2003030150A1; US20040068406A1; CN1561514A; EP1450351A1; CN1248193C; JPWO2003030150A1; EP1450351A4

Description

【技術分野】
【０００１】
本発明は、例えばテレビ放送を視聴する視聴者等の発声に応答して会話を行う会話装置に関する技術に属するものである。
【背景技術】
【０００２】
近年、音声認識、音声合成技術の進歩に伴って、コンピュータ等に対する指示操作を音声によって行ったり、その応答を画像と音声とによって行わせたりする技術が提案されている（例えば、日本国特開２００１−２４９９２４号公報、日本国特開平７−３０２３５１号公報）。これらの装置は、従来、キーボードやポインティングデバイスによって行われていた操作や、文字表示によってなされていた応答を、音声の入出力によって行い得るようになっている。
【０００３】
ところが、これらの装置は、その装置の動作や応答に対応して、あらかじめ定められた音声の入力を受け付けるものであり、自由度の高い対話を行い得るものではない。
【０００４】
一方、自由な対話に近い印象を与え得る装置として、例えば「おしゃべり家族しゃべるーん」と称される対話型玩具などが知られている。この種の装置は、入力された発話音声に基づく音声認識をするとともに、認識結果に対応する応答データが記憶された対話データベースを備えて、種々の発話内容に対して応答し得るようになっている。また、より自然な対話を目指した装置として、言語解析や意味解析を行ったり、木構造やスタックとして記憶された過去の発話履歴を参照したりして、大規模な対話データベースから適切な応答データを検索し得るようにしたものがある（例えば、特許文献１参照。）。
【特許文献１】
特許第３０１７４９２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記従来の技術では、比較的自由な対話を適切に行わせるとともに装置構成の小規模化を図ることが困難であるという問題点を有していた。すなわち、利用者の方から話しかけることによって対話が開始される場合には、対話内容の自由度が高いために、かなり大規模な対話データベースを備えていなければ、適切な対話内容の認識、応答を行わせることができない。具体的には、例えば利用者が「今日は何曜日？」と発声した場合、その発声を想定した対話データが対話データベースに蓄積されていなかったとすると、適切な応答ができない。また、たまたま音響的に距離の近い「今、何時？」に対応する対話データが蓄積されていたとすると、これと誤認識して、「１０時５０分です」などと応答して対話がちぐはぐになりかねない。しかも、利用者の発話と装置の応答とが繰り返し行われる場合には、その対話内容の組み合わせが指数関数的に増大するため、相当大規模なデータベースを備えたとしても適切な応答を確実に継続させることは困難である。
【０００６】
上記の問題点に鑑み、本発明は、比較的小規模な装置構成でも、利用者の発声を誤認識しにくく、対話をスムーズに進めて自由な対話に近い印象を与えることが容易にできる対話装置および対話制御方法の提供を目的とする。
【課題を解決するための手段】
【０００７】
上記の目的を達成するために、本発明の第１の会話装置は、
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備えたことを特徴とする。
【０００８】
これにより、表示される画像の進行に応じた内容の会話を行わせることができるので、視聴者を会話装置があらかじめ想定している会話内容に自然な感じで引き込むことが容易にできる。したがって、比較的小規模な装置構成でも、利用者の発声を誤認識しにくく、会話をスムーズに進めて自由な会話に近い印象を与えることが容易にできる。
【０００９】
また、本発明の第２の会話装置は、
第１の会話装置であって、さらに、
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、上記画像データ、および上記会話データが入力され、上記入力されたデータを上記表示制御手段、および上記会話データ記憶手段に出力する入力手段を備えたことを特徴とする。
【００１０】
また、本発明の第３の会話装置は、
第２の会話装置であって、
上記入力手段は、上記画像データと、上記会話データとが、互いに異なる経路を介して入力されるように構成されたことを特徴とする。
【００１１】
これらのように、種々の経路で画像データと会話データとが入力される場合であっても、画像の進行と会話データとの対応（同期）がとられていれば、前記のように適切な会話を行わせることができるので、種々の柔軟な構成の会話装置を構成することができる。
【００１２】
また、本発明の第４の会話装置は、
第２の会話装置であって、
上記入力手段は、上記会話データが上記画像データと対応した所定のタイミングで入力されることにより、上記タイミング情報を出力するように構成されていることを特徴とする。
【００１３】
これにより、会話データの入力タイミングに応じてタイミング情報を出力することによって画像の進行と会話データとを容易に対応づけることができる。
【００１４】
また、本発明の第５の会話装置は、
第２の会話装置であって、
さらに、上記視聴者発話データを記憶する視聴者発話データ記憶手段を備え、
上記会話処理手段は、上記視聴者発話データ記憶手段に記憶された上記視聴者発話データ、および上記視聴者発話データが基づく上記音声を上記視聴者が発声した後に上記入力手段に新たに入力された会話データに基づいて、上記装置発話データを出力するように構成されていることを特徴とする。
【００１５】
これにより、会話の開始時点においては後の会話内容が確定しないような内容の会話を行わせることができる。したがって、あらかじめ設定されたシナリオに沿った機械的な会話という印象を軽減し、例えばクイズ形式で一緒に放送番組を楽しむような感覚を与える会話を行わせることができる。
【００１６】
また、本発明の第６の会話装置は、
第１の会話装置であって、
上記会話処理手段は、上記画像データに含まれる上記タイミング情報に基づいて、上記装置発話データを出力するように構成されたことを特徴とする。
【００１７】
また、本発明の第７の会話装置は、
第６の会話装置であって、
上記会話データ記憶手段は、複数の上記会話データを記憶し得るように構成されるとともに、
上記画像データは、上記タイミング情報とともに、上記複数の会話データのうちの少なくとも何れか１つを特定する会話データ特定情報を含み、
上記会話処理手段は、上記タイミング情報、および上記会話データ特定情報に基づいて、上記装置発話データを出力するように構成されたことを特徴とする。
【００１８】
また、本発明の第８の会話装置は、
第１の会話装置であって、
さらに、上記画像の表示時間の経過に応じた上記タイミング情報を出力する計時手段を備えるとともに、
上記会話データは、上記会話処理手段による上記装置発話データを出力すべきタイミングを示す出力時間情報を含み、
上記会話処理手段は、上記タイミング情報、および上記出力時間情報に基づいて、上記装置発話データを出力するように構成されたことを特徴とする。
【００１９】
これらのように、画像データに含まれるタイミング情報や、会話データを特定する会話データ特定情報、画像の表示時間の経過に応じた上記タイミング情報を用いることによっても、やはり、画像の進行と会話データとを容易に対応づけることができる。
【００２０】
また、本発明の第９の会話装置は、
第１の会話装置であって、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するように構成されたことを特徴とする。
【００２１】
これにより、新たな会話を画像の進行に応じたタイミング情報に基づいて開始することができるので、視聴者を会話装置があらかじめ想定している会話内容に自然な感じで引き込むことがより確実にできる。
【００２２】
また、本発明の第１０の会話装置は、
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するとともに、さらに、
既に開始された視聴者との会話における上記装置発話データと上記視聴者発話データとの適合度、および視聴者との新たな会話開始の優先度に基づいて、上記新たな会話を開始するように構成されたことを特徴とする。
【００２３】
また、本発明の第１１の会話装置は、
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するとともに、さらに、
視聴者に関するプロファイル情報、および上記プロファイル情報に応じて視聴者との会話を開始するための条件を示す会話開始条件情報に基づいて、視聴者との会話を開始するように構成されたことを特徴とする。
【００２４】
また、本発明の第１２の会話装置は、
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するとともに、さらに、
既に開始された視聴者との会話における上記装置発話データと上記視聴者発話データとの適合度、視聴者に関するプロファイル情報、および上記適合度と上記プロファイル情報とに応じて視聴者との会話を開始するための条件を示す会話開始条件情報に基づいて、視聴者との新たな会話を開始するように構成されたことを特徴とする。
【００２５】
これらのように、会話の適合度や、新たな会話開始の優先度、視聴者のプロファイル情報に基づいて、新たな会話の開始を制御することにより、例えば会話の適合度が高い場合、すなわち、いわゆる会話がはずんでいるような場合には、その話題の会話を継続させる一方、画像の内容に密接な会話が可能な場合には新たな会話を開始させることなどができるので、より自然な印象を与えるような会話を行わせることが容易にできる。
【００２６】
また、本発明の第１３の会話装置は、
第１２の会話装置であって、
上記会話処理手段は、上記開始された会話における上記装置発話データと上記視聴者発話データとの適合度に応じて、上記プロファイル情報を更新するように構成されたことを特徴とする。
【００２７】
これにより、会話の適合度がプロファイル情報にフィードバックされるので、より適切な会話開始の制御を行わせることができる。
【００２８】
また、本発明の第１４の会話装置は、
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、所定の一連の上記画像の表示が所定の時間連続して行われたときに、上記装置発話データを出力するように構成されたことを特徴とする。
【００２９】
これにより、例えば視聴者が放送番組を次々と切り替えている場合などに、その都度会話が開始される煩わしさを防止することができる。
【００３０】
また、本発明の会話親機装置は、
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、視聴者に対して非対話的に進行する画像を示す画像データ、および上記画像の進行に対応した会話データが入力される入力手段と、
上記画像データに基づいて、上記画像を表示部に表示させる表示制御手段と、
上記会話データ、および上記画像の進行に応じたタイミング情報を会話子機装置に送信する送信手段と、
を備えたことを特徴とする。
【００３１】
また、本発明の会話子機装置は、
会話親機装置から送信された、視聴者に対して非対話的に進行する画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報を受信する受信手段と、
上記会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記タイミング情報に基づいて、会話子機装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備えたことを特徴とする。
【００３２】
また、本発明の第１の会話制御方法は、
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
を有することを特徴とする。
【００３３】
また、本発明の第２の会話制御方法は、
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、視聴者に対して非対話的に進行する画像を示す画像データ、および上記画像の進行に対応した会話データが入力される入力ステップと、
上記画像データに基づいて、上記画像を表示部に表示させる表示制御ステップと、
上記会話データ、および上記画像の進行に応じたタイミング情報を会話子機装置に送信する送信ステップと、
を有することを特徴とする。
【００３４】
また、本発明の第３の会話制御方法は、
会話親機装置から送信された、視聴者に対して非対話的に進行する画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報を受信する受信ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記会話データ、および上記タイミング情報に基づいて、会話子機装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
を有することを特徴とする。
【００３５】
また、本発明の第１の会話制御プログラムは、
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
をコンピュータに実行させることを特徴とする。
【００３６】
また、本発明の第２の会話制御プログラムは、
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、視聴者に対して非対話的に進行する画像を示す画像データ、および上記画像の進行に対応した会話データが入力される入力ステップと、
上記画像データに基づいて、上記画像を表示部に表示させる表示制御ステップと、
上記会話データ、および上記画像の進行に応じたタイミング情報を会話子機装置に送信する送信ステップと、
をコンピュータに実行させることを特徴とする。
【００３７】
また、本発明の第３の会話制御プログラムは、
会話親機装置から送信された、視聴者に対して非対話的に進行する画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報を受信する受信ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記会話データ、および上記タイミング情報に基づいて、会話子機装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
をコンピュータに実行させることを特徴とする。
【００３８】
これらによっても、前記のように表示される画像の進行に応じた内容の会話を行わせることができるので、視聴者を会話装置があらかじめ想定している会話内容に自然な感じで引き込むことが容易にできる。したがって、比較的小規模な装置構成でも、利用者の発声を誤認識しにくく、会話をスムーズに進めて自由な会話に近い印象を与えることが容易にできる。
【発明の効果】
【００３９】
本発明によると、視聴者に対して非対話的に進行する画像に対応した会話データに基づいて会話を行わせることにより、視聴者を会話装置があらかじめ想定している会話内容に自然な感じで引き込むことが容易にできる。
【発明を実施するための最良の形態】
【００４０】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【００４１】
（実施の形態１）
まず、本発明の原理的な構成について、番組情報と番組付加情報とを含むデータ放送を受信可能なテレビ受像機を例に挙げて説明する。図１は、テレビ受像機の全体構成を示すブロック図である。
【００４２】
入力部１０１は、データ放送のテレビ放送電波を受信し、それぞれ上記番組情報に含まれる画像データと、音声データと、および上記番組付加情報に含まれる対話データと、対話の開始タイミングを示すタイミング信号とを分離して出力するようになっている。ここで、上記画像データや音声データは、ディジタルデータに限らず、アナログの映像信号やアナログの音声信号も含む広義のデータを意味する。
【００４３】
画像出力部１０２は、上記画像データに基づいて画像信号を出力し、ブラウン管等の表示部１０３に画像を表示させるようになっている。
【００４４】
対話データベース１０４は、上記入力部１０１から出力された対話データを一旦蓄積するようになっている。
【００４５】
音声認識部１０６は、マイクなどの音声入力部１０５から入力された視聴者の発話音声に対して音声認識処理を行い、発話内容を示す視聴者発話データを出力するようになっている。
【００４６】
対話処理部１０７は、入力部１０１からタイミング信号が入力されたときに、対話データベース１０４に記憶された対話データに基づいて、対話を開始するための装置発話データを出力する一方、その後に視聴者から発話がなされると、音声認識部１０６から出力される視聴者発話データ、および対話データベース１０４に記憶された対話データに基づいて、視聴者の発話に応答するための装置発話データを出力するようになっている。
【００４７】
音声合成出力部１０８は、対話処理部１０７から出力された装置発話データ、および入力部１０１から出力された音声データに基づいて音声合成処理やディジタルアナログ変換を行って音声信号を出力し、スピーカ等の音声出力部１０９に音声を発声させるようになっている。
【００４８】
上記のように構成されたテレビ受像機では、次のようにして、表示画像に応じた対話がなされる。
【００４９】
まず、例えば「今日の運勢」という番組が放送され、図２に示すように表示部１０３に番組のタイトルが表示された後、各誕生星座ごとの運勢が表示されるとする。このとき、画像データに併せて、図３に示すような上記画像データに対応した対話データが受信されると、その対話データが対話データベース１０４に保持される。続いてタイミング信号が受信されると、対話処理部１０７は、対話データベース１０４に保持された対話開始用の対話データを読み出して、装置発話データを音声合成出力部１０８に出力する。そこで、音声出力部１０９からは、「あなたの今日の運勢を占うよ。あなたの星座を教えてね。」という音声が発声される。
【００５０】
上記発声に対して、視聴者が例えば「双子座」の語を含む音声を発すると、音声認識部１０６はその語の認識を示す視聴者発話データを対話処理部１０７に出力する。
【００５１】
対話処理部１０７は、対話データベース１０４に保持された応答用の対話データを参照し、上記認識された「双子座」に対応する応答（装置発話データ）を読み出して、音声合成出力部１０８に出力する。これにより、音声出力部１０９から、「対人関係に気をつけよう。まずは、挨拶から」という音声が発声される。
【００５２】
この後、表示画面が次の番組内容に変わると、話題も次の表示画面に応じたものに移らせることができるので、上記の時点で話題が途切れたとしても、視聴者にあまり不自然さを感じさせることはない。
【００５３】
上記のように、表示画面に対応した内容の対話がなされるので、視聴者の応答内容の範囲は絞られ、音声認識部１０６によって誤認識が生じる可能性は低く抑えられる。また、ある話題についての対話を表示画面の遷移に応じて打ち切り、他の話題に切り替えることが容易にでき、継続した対話の繰り返し回数を少なく抑えることができるので、想定外の話題に展開される可能性も低く抑えることができる。それゆえ、大規模な対話データベースなどを備えなくても、比較的自然で適切な対話を容易に行わせることができる。
【００５４】
（実施の形態２）
以下、より詳しい対話装置の例について説明する。なお、以下の実施の形態において、前記実施の形態１等と対応した機能を有する構成要素については同一の符号を付して説明を省略する。
【００５５】
本実施の形態２においては、図４および図５に示すように、ディジタルテレビ受像機２０１（対話親機装置）と、人形のような対話型エージェント装置２５１（対話子機装置）とによって対話装置が構成されている。
【００５６】
ディジタルテレビ受像機２０１は、放送データ受信部２０２と、番組情報処理部２０３と、表示／音声出力制御部２０４と、付加情報処理部２０５と、対話データ送信部２０６と、表示部１０３と、音声出力部１０９とを備えている。
【００５７】
また、対話型エージェント装置２５１は、対話データ受信部２５２と、対話データ処理部２５３と、対話データベース２５４と、対話処理部２５５と、音声合成部２５６と、音声入力部１０５と、音声認識部１０６と、音声出力部１０９とを備えている。
【００５８】
上記ディジタルテレビ受像機２０１の放送データ受信部２０２は、番組情報（画像データ、音声データ）と番組付加情報（対話データ）とを含むディジタル放送のテレビ放送電波を受信し、上記番組情報と上記番組付加情報とを抽出して出力するようになっている。
【００５９】
番組情報処理部２０３と表示／音声出力制御部２０４とは、通常のテレビ受像機と同様の処理を行うものである。すなわち、番組情報処理部２０３は、放送データ受信部２０２によって受信された番組情報を画像と音声のデータに変換するようになっている。より詳しくは、番組情報に含まれる複数の番組についての情報のうち、視聴者によって指示された特定の番組の情報を選択し、その番組の画像／音声データを出力する。また、表示／音声出力制御部２０４は、上記画像／音声データに基づいて、画像信号および音声信号を出力し、表示部１０３に画像を表示させるとともに、音声出力部１０９に音声を発声させるようになっている。
【００６０】
また、付加情報処理部２０５は、放送データ受信部２０２から出力された番組付加情報に基づいて、表示部１０３に表示される画像に対応した対話データを出力する。この対話データは、例えば、前記図３に示したのと同様に、最初に利用者に話しかける言葉などの対話開始用の対話データと、視聴者による発声の認識結果に対応した応答が定義されたテーブル形式の応答用の対話データとを含んでいる。
【００６１】
対話データ送信部２０６は、上記対話データを無線電波などによって対話型エージェント装置２５１に送信し、対話型エージェント装置２５１の対話データ受信部２５２は、送信された対話データを受信するようになっている。
【００６２】
対話型エージェント装置２５１の対話データ処理部２５３は、上記受信された対話データのうち、対話開始用の対話データを音声合成部２５６に出力する一方、応答用の対話データを対話データベース２５４に保持させるようになっている。
【００６３】
すなわち、前記実施の形態１と異なり、対話データベース２５４は、図６に示すように応答用の対話データだけを保持し、対話処理部２５５は、上記応答用の対話データと音声認識部１０６から出力される視聴者発話データとに基づいて、視聴者の発話に応答するための装置発話データを出力するようになっている。
【００６４】
また、音声合成部２５６は、対話データ処理部２５３から出力された対話データ（対話開始用）、または対話処理部２５５から出力された装置発話データに基づいて音声合成処理およびディジタルアナログ変換を行い、音声信号を出力して音声出力部１０９に対話音声を発声させるようになっている。
【００６５】
上記のように構成された対話装置においても、図７に示すような動作により前記実施の形態１と同様に、例えば、占い番組「今日の運勢」が放送されている場面で
（１）対話型エージェント装置：「あなたの今日の運勢を占うよ。あなたの星座を教えてね。」
（２）視聴者：「双子座」
（３）対話型エージェント装置：「対人関係に気をつけよう。まずは、挨拶から」のような対話がなされる。
【００６６】
（Ｓ１０１）すなわち、まず、放送データ受信部２０２が、番組情報と番組付加情報とを含む放送波を受信し、上記番組情報における画像データおよび音声データに基づいて、表示部１０３によって画像が表示されるとともに、音声出力部１０９によって音声が出力される。
【００６７】
（Ｓ１０２）一方、付加情報処理部２０５は、受信された番組付加情報における、表示画像（占い番組）に関連する対話データを出力する。この出力された対話データは、ディジタルテレビ受像機２０１の対話データ送信部２０６および対話型エージェント装置２５１の対話データ受信部２５２を介して、対話データ処理部２５３に入力され、応答用の対話データが、対話データベース２５４に格納される（図６）。
【００６８】
（Ｓ１０３）また、対話開始用の対話データは、対話データ処理部２５３から音声合成部２５６に直接入力され、最初の対話音声「あなたの今日の運勢を占うよ。あなたの星座を教えてね。」が音声出力部１０９から発せられる。すなわち、前記実施の形態１のようにタイミング信号が受信されなくても、対話データが受信されることによって、対話が開始される。
【００６９】
（Ｓ１０４）その後、音声入力部１０５から視聴者の発声「双子座」が入力されると、音声認識部１０６による音声認識が行われ、発声内容が「双子座」であることを示す視聴者発話データが対話処理部２５５に入力される。
【００７０】
（Ｓ１０５）そこで、対話処理部２５５は、対話データベース２５４を参照して、「双子座」に対応する応答「対人関係に気をつけよう。まずは挨拶から。」を選択し、装置発話データを出力する。音声合成部２５６は、上記装置発話データを音声信号に変換し、音声出力部１０９から応答の音声が出力される。
【００７１】
上記のように、実施の形態１と同様に、占い番組に連動した対話という対話場面が共有されることにより、視聴者の発声を誤認識しにくく、対話をスムーズに進めることが容易にできる。また、番組の終了、または表示画面の進行に伴って、不自然な印象を与えることなく、その話題の対話を終了させることができる。
【００７２】
（実施の形態３）
実施の形態３の対話装置は、前記実施の形態２の対話装置（図５）と比べて、視聴者の発話内容を例えば「肯定」または「否定」のカテゴリに分類し、上記カテゴリに対応させて、応答用の対話データを求めるようになっている。また、視聴者が、所定の時間以上同じ番組を見ている場合で、かつ、対話をしようとする場合にだけ、前記のような対話が行われるようになっている。
【００７３】
具体的には、例えば図８に示すように、ディジタルテレビ受像機３０１は、実施の形態２（図５）のディジタルテレビ受像機２０１の構成に加えて、タイマー管理部３１１を備えている。また、付加情報処理部２０５に代えて、付加情報処理部３０５を備えている。
【００７４】
上記タイマー管理部３１１は、同一の番組が視聴されている時間を計測し、所定の時間視聴されている場合に、その旨を付加情報処理部３０５に通知するものである。すなわち、視聴者がチャンネルを次々と切り替えるいわゆるザッピングをしている場合に、チャンネルが切り替わるごとに対話が開始されると煩わしいので、視聴者によって例えば１分程度以上同一の番組が選択されている場合に、その旨を付加情報処理部３０５に通知して、対話を開始させるようになっている。
【００７５】
付加情報処理部３０５は、上記タイマー管理部３１１からの通知があり、かつ、視聴者が希望する場合にだけ、対話を開始するようになっている。すなわち、例えば、表示部１０３に後述する図１２に示すような画面を表示させ、視聴者がリモートコントローラなどによって対話の意思を示す操作をしたときに、実施の形態２と同じように、対話データを対話型エージェント装置３５１に送信するようになっている。また、本実施の形態では、上記視聴者の意志確認の際に、対話における視聴者の立場（例えば野球の中継番組を見る場合に、巨人ファンかまたは阪神ファンかなど）を確認して、より適切な対話をし得るようになっている。
【００７６】
一方、対話型エージェント装置３５１は、実施の形態２の対話型エージェント装置２５１の構成に加えて、キーワード辞書３６１を備えている。また、音声認識部１０６、対話データ処理部２５３、対話データベース２５４、および対話処理部２５５に代えて、音声認識部３６２、対話データ処理部３５３、対話データベース３５４、および対話処理部３５５を備えている。
【００７７】
上記キーワード辞書３６１には、例えば図９に示すように、視聴者の種々の発話内容に含まれるキーワードの候補が、「肯定」または「否定」の何れのカテゴリに属するかを示すキーワード辞書データが格納されるようになっている。ここで、上記「肯定」または「否定」のカテゴリは、後述するように対話開始時に視聴者に話しかける言葉の例が、これに対して、肯定的、または否定的な応答がなされることを想定したものであることに対応させたものである。すなわち、キーワード辞書３６１には、「肯定」「否定」に限らず、装置から発せられる発話内容に対応したカテゴリのキーワード辞書データが格納されればよい。
【００７８】
音声認識部３６２は、音声入力部１０５から入力された視聴者の発話音声に対し音声認識処理を行って、視聴者の意図を特徴づける語（キーワード）を検出し、上記キーワード辞書３６１を参照して、視聴者の意図が「肯定」または「否定」の何れのカテゴリに属するか（視聴者の意図）を示すカテゴリデータを出力するようになっている。また、キーワードが検出されない場合には、「その他」のカテゴリであることを示すカテゴリデータを出力するようになっている。より詳しくは、例えば、いわゆるキーワードスポッティングの手法を用いて、単語の存在を検出するようになっている。なお、音声入力部１０５への入力音声から、連続音声認識の手法を用いて単語に分解したテキストデータを生成し、上記単語がキーワード辞書３６１のキーワードにヒットするかどうかによって、カテゴリを求めるようにしたりしてもよい。
【００７９】
対話データベース３５４には、例えば図１０に示すように、上記カテゴリ「肯定」「否定」または「その他」とこれに対してそれぞれ複数の応答（装置発話データ）とを対応させた応答用の対話データが格納されるようになっている。ここで、同図の例では、「その他」に対しては、当り障りのない応答を示すデータが格納されている。
【００８０】
対話処理部３５５は、上記音声認識部３６２から出力されたカテゴリデータ、および対話データベース３５４に保持された応答用の対話データに基づいて、視聴者の発話に応答するための装置発話データを出力するようになっている。より詳しくは、上記カテゴリデータに対応して対話データベース３５４に保持されている複数の応答のうちの何れかをランダムに選択して（または同じ応答が連続しないように選択するなどして）出力するようになっている。なお、上記のように複数の応答を保持させる必要は必ずしもないが、適当な数だけ保持させ、ランダムな選択等をさせることによって、より対話の自然さを持たせることが容易にできる。
【００８１】
また、対話データ処理部３５３は、ディジタルテレビ受像機３０１から送信された対話データに基づいて、上記のような応答用の対話データ、およびキーワード辞書データをそれぞれ対話データベース３５４またはキーワード辞書３６１に保持させるようになっている。また、対話開始用の対話データを音声合成部２５６に出力するようになっている。
【００８２】
上記のように構成された対話装置において、スポーツ番組である野球放送が視聴される際に対話がなされる場合の動作を図１１に基づいて説明する。
【００８３】
（Ｓ２０１）まず、放送データ受信部２０２は、視聴者が選択した野球放送の番組情報を受信し、その番組情報における画像データおよび音声データに基づいて、表示部１０３によって画像が表示されるとともに、音声出力部１０９によって音声が出力される。
【００８４】
（Ｓ２０２）タイマー管理部３１１は、上記野球放送の受信が選択されてからの経過時間を計測し、例えば１分経過したら、その旨を付加情報処理部３０５に通知する。なお、１分経過する前に受信チャンネルを切り替える操作がなされれば、上記（Ｓ２０１、Ｓ２０２）が繰り返される。
【００８５】
（Ｓ２０３）上記タイマー管理部３１１からの通知がなされると、付加情報処理部３０５は、まず、例えば図１２に示すように、視聴者が対話サービスを希望するかどうか、および応援モード（どちらのチームを応援するか）を確認する画面を表示部１０３に表示させ、例えばＥＰＧ（Electric Program Guide，電子番組ガイド）における番組選択と同様のリモートコントローラによる操作などを受け付ける。そして、対話サービスを利用しないことを示す操作がなされた場合には、対話に関する処理は終了して、以下、視聴番組の切り替え操作がなされると、上記（Ｓ２０１）以降が繰り返される。また、指定された応援モードを示す情報は、例えば付加情報処理部３０５内に保持される。なお、上記のような表示や操作の受け付けは、番組付加情報に含まれる対話開始コマンドが付加情報処理部３０５または表示／音声出力制御部２０４で実行されることによって行われるようにしてもよい。また、上記のような対話サービス利用の有無は番組を視聴するごとに確認するのに限らず、装置の電源をオンにした時点で行うようにしたり、所定の設定モードに切り替えることによって設定され得るようにしたりしてもよい。
【００８６】
（Ｓ２０４）視聴者によって対話サービスを利用するとともに、例えば巨人を応援することを示す操作がなされた場合には、番組付加情報として、巨人の応援モードに対応する対話データが受信されたかどうかがチェックされる。
【００８７】
（Ｓ２０５）上記（Ｓ２０４）で対話データが受信されていなければ、受信中の野球放送が終了したか、または視聴者による視聴が終了したか、すなわち使用する番組を切り替える操作がなされたかを判定し、放送終了または視聴終了の場合には、上記（Ｓ２０１）以降が繰り返される。一方、放送終了でも視聴終了でもなければ、（Ｓ２０４）以降が繰り返される。
【００８８】
（Ｓ２０６）また、上記（Ｓ２０４）で対話データが受信されれば、対話処理が行われた後、上記（Ｓ２０４）に戻って対話データの受信チェック以降が繰り返される。上記対話処理としては、より詳しくは、例えば図１３に示すような処理が行われる。
【００８９】
（Ｓ２１１）まず、放送データ受信部２０２が、番組情報と番組付加情報とを含む放送波を受信し、上記番組情報における画像データおよび音声データに基づいて、表示部１０３によって画像が表示されるとともに、音声出力部１０９によって音声が出力される。
【００９０】
（Ｓ２１２）一方、付加情報処理部３０５は、受信された番組付加情報における、表示画像（野球放送）、および巨人の応援モードに関連する対話データを出力する。この対話データには、対話開始用の対話データと、応答用の対話データと、キーワード辞書データとが含まれている。上記出力された対話データは、ディジタルテレビ受像機３０１の対話データ送信部２０６および対話型エージェント装置３５１の対話データ受信部２５２を介して、対話データ処理部３５３に入力され、応答用の対話データが対話データベース２５４に格納される（図１０）。
【００９１】
（Ｓ２１３）また、同様に、キーワード辞書データがキーワード辞書３６１に格納される（図９）。
【００９２】
（Ｓ２１４）さらに、対話開始用の対話データは、対話データ処理部３５３から音声合成部２５６に直接入力され、最初の対話音声、例えば応援チーム（巨人）が得点した時点であれば「やったー、やったー、追加得点だ！最近の清原は本当に調子いいね。８回で３点差だから、これで今日の試合は勝ったも同然だよね？」などの音声が音声出力部１０９から発せられ、対話が開始される。
【００９３】
（Ｓ２１５）その後、例えば、視聴者が「いやー、まだ心配だけどな。」と発声したとすると、音声認識部３６２は「心配」と「いや」という言葉を検出し、視聴者が「否定」のカテゴリの言葉を発したことを示すカテゴリデータを出力する。また、例えば、視聴者が「岡島の調子が良ければね。」と発声したとすると、キーワード辞書３６１に保持されているキーワードは検出されないため、「その他」を示すカテゴリデータを出力する。
【００９４】
（Ｓ２１６）そこで、対話処理部３５５は、対話データベース３５４を参照して、上記カテゴリデータに対応する複数の装置発話データのうちの何れかをランダムに選択して出力する。
【００９５】
具体的には、上記視聴者の発話「いやー、まだ心配だけどな。」（カテゴリ「否定」）に対しては、例えば「そうか、もっと応援しよう。次は、高橋だ！」を示す装置発話データが出力される。
【００９６】
また、視聴者の発話「岡島の調子が良ければね。」（カテゴリ「その他」）に対しては、例えば「なーるほど。」を示す装置発話データが出力される。
【００９７】
音声合成部２５６は、上記装置発話データを音声信号に変換し、音声出力部１０９から応答の音声が出力される。
【００９８】
上記のように、実施の形態１、２と同様に、例えば得点場面などの表示画像と対応した対話データに基づいて対話を行わせることによって、視聴者の発声を誤認識しにくく、対話をスムーズに進めることが容易にできるとともに、表示画像の進行に伴って各話題を不自然な印象を与えることなく終了させ、次の話題に移すことができる。また、視聴者の発話に含まれるキーワードに基づき発話内容をカテゴリに分類し、装置発話データを生成することによって、より柔軟な対話を容易に行わせることができるとともに、対話データベース３５４に保持させる応答用の対話データを小さく抑えたり応答性を高めたりすることも容易にできる。さらに、視聴者の立場（巨人の応援モード）などに応じた対話データに基づいて対話を行わせることによって、例えば対話型エージェント装置３５１に応援チームの得点を共に喜ぶパートナーとして対話させるような演出をすることができ、あたかも対話型エージェント装置３５１と一緒に野球放送を見ているような感覚を視聴者に与えることができる。
【００９９】
（実施の形態４）
実施の形態４の対話装置として、例えば野球放送における試合展開の予測についての対話のように、対話時点では後の対話内容が確定しないような内容の対話を行うとともに、その対話内容を一旦記憶しておき、その後の実際の試合展開に応じた対話データに基づいて対話を進めることなどができる対話装置の例について説明する。
【０１００】
本実施の形態の対話装置においては、前記実施の形態３の対話装置（図８）と比べて、例えば図１４に示すように、ディジタルテレビ受像機４０１は、付加情報処理部３０５に代えて、視聴者の応援モードの確認機能を有しない点だけが異なる付加情報処理部４０５を備えている。（なお、実施の形態３と同じディジタルテレビ受像機３０１を用いてもよい。）
一方、対話型エージェント装置４５１は、実施の形態３の対話型エージェント装置３５１の構成に加えて、一時記憶部４７１を備えている。また、対話データ処理部３５３に代えて、対話データ処理部４５３を備えている。さらに、音声認識部３６２は実施の形態３と同じものであるが、その出力が対話状況に応じて一時記憶部４７１にも出力されるようになっている。すなわち、一時記憶部４７１は、装置発話内容、および視聴者発話内容における表示画面の進行についての予測を示すデータを保持するようになっている。また、対話データ処理部４５３は、上記一時記憶部４７１に保持されたデータと、後に表示画面の実際の進行に応じて放送された対話データとに基づいて、予測が正しかったかどうかに応じた装置発話データを出力し得るようになっている。
【０１０１】
上記のように構成された対話装置の動作として、スポーツ番組である野球放送において、次にピッチャーが投げる球種の予測についての対話がなされる（すなわち、ピッチャー投球前の対話データだけでは対話が完結せず、投球後の対話データに応じて後の対話内容が影響を受ける）場合の例を図１５〜図１８に基づいて説明する。ここで、対話装置の全体の対話制御動作は、前記実施の形態３（図１１）とほぼ同様であり、主として、大きく異なる対話処理自体を図１５に示して説明する。
【０１０２】
（Ｓ３０１）〜（Ｓ３０４）まず、実施の形態３（図１３）の（Ｓ２１１）〜（Ｓ２１４）と同様に、番組の画像表示や音声出力、キーワード辞書３６１と対話データベース３５４とへの対話データまたはキーワード辞書データの格納、および最初の対話音声の発声が行われる。具体的には、例えばピッチャーとバッターの対戦場面が表示部１０３によって画像が表示されるとともに、その音声が音声出力部１０９から出力される。また、キーワード辞書３６１および対話データベース３５４には、それぞれ例えば図１６、図１７に示すようなキーワード辞書データ、および対話データが格納される。さらに、対話開始用の対話データが対話データ処理部４５３から音声合成部２５６に出力され、例えば「次の打者は松井。ピッチャー藪の投球を予測するよ。最初の球は何だと思う？僕は、『カーブ』から入ると思うな。」という音声が音声出力部１０９から発声される。また、このとき、対話データ処理部４５３は、一時記憶部４７１に、例えば図１８に示すように対話型エージェント装置４５１による予測がカーブであることを示す属性データおよびカテゴリデータ（属性：エージェント／カテゴリ：カーブ系）を記憶させる。
【０１０３】
（Ｓ３０５）その後、例えば、視聴者が「うーん。僕は、『まっすぐ』だと思うな。」と発声したとすると、音声認識部３６２は「まっすぐ」という言葉を検出し、視聴者が「ストレート系」のカテゴリの言葉を発したことを示すカテゴリデータを出力し、一時記憶部４７１に視聴者による予測がストレートであることを示す属性データおよびカテゴリデータ（属性：視聴者／カテゴリ：ストレート系）を記憶させる。
【０１０４】
（Ｓ３０６）また、上記音声認識部３６２から出力されたカテゴリデータは対話処理部３５５にも入力され、対話処理部３５５からは装置発話データが出力されて、音声出力部１０９から応答の音声、例えば「よし、勝負」が出力される。ここで、対話装置の応答内容は、実施の形態３と同様にカテゴリデータに応じて異ならせるようにしてもよいが（そのような対話データを対話データベース３５４に格納するようにしてもよいが）、カテゴリデータに係らず、一律に「よし、勝負」などの応答がなされるようにしてもよいし、また、カテゴリデータが「その他」を示す場合にだけ、異なる応答がなされるようにするなどしてもよい。
【０１０５】
（Ｓ３０７）次に、実際にピッチャーが投球した後に、その投球内容に応じた対話データ、すなわち投球された球種を示す正解カテゴリデータと、これに応じた対話内容を示す結果発話用の対話データが放送されると、放送データ受信部２０２によって受信され、対話データ送信部２０６および対話データ受信部２５２を介して対話データ処理部４５３に入力される。
【０１０６】
（Ｓ３０８）対話データ処理部４５３は、上記正解カテゴリデータ（例えば「ストレート」）と一時記憶部４７１の記憶内容とを照合し、その照合結果（上記の場合は視聴者が正解）に応じた結果発話用の対話データを音声合成部２５６に出力する。
【０１０７】
（Ｓ３０９）そこで、上記結果発話用の対話データに基づいて、例えば「内角低めのストレート。僕の負けだ。次の投球は、『カーブ』だと思うな。」などの音声が発声される。
【０１０８】
（Ｓ３１０）また、例えば上記「次の投球は、『カーブ』だと思うな。」のように結果発話用の対話データに次の投球に対する対話型エージェント装置４５１の予測データが含まれているかどうかが判定され、含まれていれば、上記（Ｓ３０５）以降が繰り返される一方、含まれていなければ、対話処理が終了される。ここで、上記のような判定は、対話データとともに送られるプログラムが対話データ処理部４５３等で実行されることによって行われるようにしてもよい。
【０１０９】
上記のように、視聴者との対話内容を一旦保持しておき、これと、後に受信された対話データとに基づいてその後の対話が行われるようにすることにより、対話の開始時点においては後の対話内容が確定しないような内容の対話を行わせることができる。すなわち、あらかじめ設定されたシナリオに沿った機械的な対話という印象を軽減し、クイズ形式で一緒に放送番組を楽しむような感覚を与えることができる。
【０１１０】
（実施の形態５）
実施の形態５として、対話内容を直接示す対話データが受信されるのではなく、番組（表示画面）の進行状況に応じたデータと、その進行状況に応じたデータに基づいて対話データを生成するための規則を示す情報とが受信されることにより対話が行われる対話装置の例について説明する。
【０１１１】
すなわち、例えば野球のデータ放送においては、画像や音声のデータと伴に、図１９に示すような試合の経過を示す試合情報や、選手の成績などに関する選手情報などのデータ放送情報が送信されることがある。そこで、このようなデータ放送情報を参照するスクリプトを実行させることによって、画面の進行状況に応じた対話データを生成させることができる。以下の説明においては、例えば図２０に示すようなスクリプトによって対話開始用の対話データ、および応答用の対話データが生成される例を説明する（なお、キーワード辞書データも同様にスクリプトによって生成されるようにしてもよい。）。また、対話内容の例として、前記実施の形態３と結果的に同じ内容の対話が行われる例について説明する。
【０１１２】
本実施の形態の対話装置においては、前記実施の形態３の対話装置（図８）と比べて、例えば図２１に示すように、ディジタルテレビ受像機５０１は、対話データ送信部２０６に代えて、トリガー情報送信部５０６を備えている。また、対話型エージェント装置５５１は、対話データ受信部２５２、および対話データ処理部３５３に代えて、トリガー情報受信部５５２、および対話データ生成部５５３を備えるとともに、さらに、データ放送情報蓄積部５６１、および対話スクリプトデータベース５６２を備えている。
【０１１３】
上記トリガー情報送信部５０６およびトリガー情報受信部５５２は、番組付加情報として受信された対話スクリプトデータ、データ放送情報（試合情報および選手情報）、および後述する対話の開始タイミングを示すトリガー情報を送受するものであるが、実質的な構成は、実施の形態３の対話データ送信部２０６および対話データ受信部２５２と同じものである。
【０１１４】
対話データ生成部５５３は、対話スクリプトデータ、およびデータ放送情報が受信された場合には、それぞれ対話スクリプトデータベース５６２またはデータ放送情報蓄積部５６１に格納するようになっている。対話データ生成部５５３は、また、トリガー情報が受信された場合には、上記対話スクリプトデータ、およびデータ放送情報に基づいて、対話データ（対話開始用の対話データ、応答用の対話データ、およびキーワード辞書データ）を生成し、音声合成部２５６に出力し、または対話データベース３５４もしくはキーワード辞書３６１に格納させるようになっている。
【０１１５】
ここで、データ放送情報蓄積部５６１に格納されるデータ放送情報、および対話スクリプトデータベース５６２に格納される対話スクリプトデータベースの例について、具体的に説明する。
【０１１６】
図１９に示すデータ放送情報には、前記のように試合情報と選手情報とが含まれている。上記試合情報は、カテゴリおよび属性と対応づけられた種々のデータを含むものである。より具体的には、例えば、ある時点での得点差は、「カテゴリ＝得点／属性＝差」として特定することによって得られるようになっている。また、選手情報は、チームおよび選手名を特定することによって、各選手についての種々のデータが得られるようになっている。
【０１１７】
また、対話スクリプトデータベース５６２には、図２０に示すように、それぞれ種々の表示画面の進行状況に応じた複数の対話スクリプトデータが、カテゴリおよび属性から成るトリガー情報に対応して分類され、対応づけられて格納される。そこで、例えば応援側のチームに得点が入ったときに、「カテゴリ＝得点／属性＝応援側」であるトリガー情報が受信されると、同図の得点、応援側の欄に対応する対話スクリプトデータが実行されて、対話開始用の対話データが生成される。上記のようなトリガー情報との対応関係は、キーワード辞書データや、応答用の対話データに関しても同じである。ただし、トリガー情報に係らず共通である場合には、必ずしもトリガー情報と１：１に対応させず、兼用されるようにしてもよい。また、同種の放送番組などについて共通に用いられ得るような場合には、あらかじめ（装置の製造段階などで）装置に記憶させておくようにしてもよい。また、必ずしも上記のように分類するのに限らず、例えば識別情報（ＩＤ）などによって対話スクリプトデータ等が選択されるようにしてもよい。
【０１１８】
次に、上記対話スクリプトデータの具体的な内容について簡単に説明する。図２０の例では、例えば「（得点．変化）」は、試合情報における「カテゴリ＝得点／属性＝変化」に対応するデータ、すなわち「追加得点」の語が置き換えられることを示している。また、「（＠（打者．現在）．最近５試合打率）」は、試合情報における「（打者．現在）」に対応する「清原」について、選手情報から得られる「最近５試合打率」である「．３４２」と置き換えられることを示している。また、「ｉｆ」や「Ｅｌｓｅ」などの構文は、一般的なＣ言語などと同様に、条件に応じて実行が制御されることを示している。このような対話スクリプトデータベースが用いられることによって、得点などが変化するごとに対話データが受信されなくても、時々刻々更新されるデータ放送情報に応じて適切な対話データを生成させることができる。
【０１１９】
以下、上記のように構成された対話装置の動作を図２２に基づいて説明する。
【０１２０】
（Ｓ２０１）〜（Ｓ２０３）この処理は、実施の形態３（図１１）に同符号で示したステップと同じなので、説明を省略する。
【０１２１】
（Ｓ４０１）データ放送情報が受信されると、対話データ生成部５５３によって、放送番組開始時点での試合情報、および選手情報がデータ放送情報蓄積部５６１に格納される。
【０１２２】
（Ｓ４０２）続いて、対話スクリプトデータ、キーワード辞書データ、および応答用の対話データが受信されると、これらのデータが対話データ生成部５５３によって、対話スクリプトデータベース５６２に格納される。ここで、上記（Ｓ４０１）および（Ｓ４０２）の処理は、放送番組の開始時に１回だけ行われる。なお、（Ｓ４０１）と（Ｓ４０２）との処理順序は上記とは逆でもよい。また、（Ｓ４０１）の処理に代えて、以下の（Ｓ４０３）の処理が最初に行われるときに同様の処理が行われるようにしてもよい。さらに、（Ｓ４０２）における対話スクリプトデータのように、放送中に変更される必要性が低いものは、あらかじめ記憶させておいたり、ネットワークや記録媒体などを介した放送とは別の経路で記憶させるようにしてもよい。
【０１２３】
（Ｓ４０３）データ放送情報の変更を示す情報が受信された場合には、データ放送情報蓄積部５６１内の試合情報および／または選手情報が更新される。
【０１２４】
（Ｓ４０４）表示画面の進行に応じたトリガー情報が受信されたかどうかが判定される。
【０１２５】
（Ｓ２０５）上記（Ｓ４０４）でトリガー情報が受信されていなければ、受信中の野球放送が終了したか、または視聴者による視聴が終了したか、すなわち使用する番組を切り替える操作がなされたかを判定し、放送終了または視聴終了の場合には、上記（Ｓ２０１）以降が繰り返される。一方、放送終了でも視聴終了でもなければ、（Ｓ４０３）以降が繰り返される。
【０１２６】
（Ｓ４０５）また、上記（Ｓ４０４）でトリガー情報が受信されれば、そのトリガー情報に対応する対話スクリプトデータが実行されて、対話開始用の対話データが生成される。
【０１２７】
具体的には、例えば応援チーム側が得点した場面の画像が表示される際に、「カテゴリ＝得点／属性＝応援側」であるトリガー情報が受信されたとすると、前記のような規則に従った対話スクリプトデータの実行により、対話開始用の対話データとして「やったー、やったー、追加得点だ！清原は最近調子いいね。８回で、３点差だから、今日の試合は勝ったも同然だよね？」が生成される。
【０１２８】
より詳しくは、第１文については、対話スクリプトデータにおける「（得点．変化）」の部分が、試合情報の検索によって得られる「追加得点」に置き換えられて、「やったー、やったー、追加得点だ！」が生成される。
【０１２９】
第２文については、「＠（打者．現在）．最近５試合打率」の部分が、「清原．最近５試合打率」（タイムリーヒットを打った現在の打者である清原の最近５試合の打率）に対応する「．３４２」に置き換えられた後に、ｉｆ文の条件判定「．３４２＞．３２０」が評価され、評価結果は真なので、「清原は、最近調子いいね。」が生成される。
【０１３０】
また、第３文についても、同様にして、対話スクリプトデータにおける「（回数．回）」、「（得点．差）」がそれぞれ「８」、「３」に置き換えられ、「８回で、３点差だから、今日の試合は勝ったも同然だよね？」が生成される。
【０１３１】
上記のようにして生成された対話開始用の対話データは、対話データ生成部５５３から音声合成部２５６に出力される。
【０１３２】
さらに、応答用の対話データの「否定」の応答における（打者．次打者）についても、同様の検索、置換により、「〜次は、高橋だ！」が生成され、対話データベース３５４に格納される。
【０１３３】
また、上記トリガー情報に対応するキーワード辞書データは、この例では上記のような置き換えが含まれていないので、そのまま対話スクリプトデータベース５６２から読み出されて、キーワード辞書３６１に格納される。
【０１３４】
（Ｓ２０６）上記のようにして音声合成部２５６に出力した対話開始用の対話データ、および対話データベース３５４とキーワード辞書３６１との記憶内容は、実施の形態３の場合と同じものになるので、前記図１３に示したのと同じ処理が行われることにより、同様の対話がなされる。
【０１３５】
上記のように、あらかじめ格納された対話スクリプトデータ、データ放送情報、および表示画面の進行状況に応じたトリガー情報に基づいて対話データが自動生成されるので、対話が行われるごとに対話データを受信することなく、表示画面に応じた適切な対話を柔軟に行わせることができるとともに、データ伝送量の低減や、重複データを減少させることによる記憶容量の低減を図ることもできる。
【０１３６】
（実施の形態６）
次に、本発明の実施の形態６の対話装置について説明する。まず、この対話装置の構成について説明する。この対話装置は、図２３に示すように、ディジタルテレビ受像機６０１、対話型エージェント装置６５１に加え、ドアホン１８０１を備えている。ドアホン１８０１は、第１データ送受信部１８０２、制御部１８０３、スイッチ１８０４、画像入力部１８０５、音声入力部１８０６、音声出力部１８０７、対話データベース１８０８を有している。上記第１データ送受信部１８０２は、ディジタルテレビ受像機６０１との間で画像および音声のデータを送受信する。スイッチ１８０４は、ドアホン１８０１の呼び出しスイッチで、来訪者はこのスイッチ１８０４を押して来訪を通知する。画像入力部１８０５は、例えばテレビカメラであって、来訪者を撮影する。音声入力部１８０６は、例えばマイクであって、来訪者の発声が入力される。対話データベース１８０８は、来訪者に対する発声の対話データを保持する。音声出力部１８０７は、対話データを音声として出力する。制御部１８０３は、ドアホン１８０１全体の制御を行う。
【０１３７】
ディジタルテレビ受像機６０１は、前記実施の形態３（図８）のディジタルテレビ受像機３０１と比べて、放送データ受信部２０２、番組情報処理部２０３、付加情報処理部３０５、および対話データ送信部２０６に代えて、ドアホン１９０１との間で画像および音声のデータを送受信する第２データ送受信部６０２、および画像入力部１８０５からの画像に連動した対話データなどを対話型エージェント装置６５１との間で送受信する第１対話データ送受信部６０３を備え、タイマー管理部３１１を備えていない点で異なるが、その他の構成は同様である。なお、第１対話データ送受信部６０３は、対話型エージェント装置６５１に対話データなどを送信する対話データ送信部を兼ねている。
【０１３８】
対話型エージェント装置６５１は、実施の形態３の対話型エージェント装置３５１と比べて、対話データ受信部２５２に代えて、第２対話データ送受信部６５２を備えている点で異なるが、その他の構成は同様である。なお、第２対話データ送受信部６５２は、ディジタルテレビ受像機から送信された対話データなどを受信する対話データ受信部を兼ねている。
【０１３９】
次に、上記のように構成された対話装置の動作について、利用者がディジタルテレビ受像機６０１を視聴している時に来訪者があった場面を例に挙げて説明する。具体的には、利用者が来訪者に応答するか否かをディジタルテレビ受像機６０１の前に居ながら決定し、以下のような対話を行うことができる。
（１）対話型エージェント装置：「誰か来たよ。出る？」（表示部１０３に来訪者表示）
（２）利用者：「いや」（来訪者を見ながら）
（３）対話型エージェント装置：「わかりました」
（４）ドアホン：「ただいま留守にしています」
まず、来訪者がスイッチ１８０４を押す。制御部１８０３は、来訪者が来たと判断し、画像入力部１８０５、音声入力部１８０６および音声出力部１８０７を通電する。そして、画像入力部１８０５から入力された来訪者の画像を、制御部１８０３、第１データ送受信部１８０２、第２データ送受信部６０２、表示／音声出力制御部２０４を経て、表示部１０３の画面の一部または全部に表示する。
【０１４０】
次に、制御部１８０３は、対話データベース１８０８に格納された、利用者との間で対話を行うための対話データや利用者に最初に話しかける言葉を、第１データ送受信部１８０２から送信する。その対話データなどは、ディジタルテレビ受像機６０１の第２データ送受信部６０２を経て、第１対話データ送受信部６０３から、対話型エージェント装置６５１へ送信される。対話型エージェント装置６５１の第２対話データ送受信部６５２は、対話データなどを受信し、対話データ処理部３５３へ送る。対話データ処理部３５３は、対話データベース３５４に、対話データ、すなわち利用者に対する応答データを送る。対話データベース３５４は、応答データを格納する。並行して、対話データ処理部３５３は、対話型エージェント装置６５１が利用者に最初に話しかける言葉（１）「誰か来たよ。出る？」を音声合成部２５６に送る。音声合成部２５６は、合成音声で発声（１）を出力する。なお、応答データは、来訪者が来る前に、あらかじめ対話データベース（ドアホン側）１８０８から対話データベース（対話型エージェント側）３５４に送っておいてもよく、また、装置の出荷時にあらかじめ記憶させておいてもよい。
【０１４１】
次に、音声入力部１０５から、利用者の発声（２）「いや」が入力される。音声認識部３６２は、利用者の発声（２）を認識し、対話処理部３５５が、利用者の発声「いや」（つまり、［否定］のカテゴリ）に対応する応答（３）「わかりました」を、対話データベース３５４から選択して、音声合成部２５６に送る。音声合成部２５６は、合成音声で応答（３）を出力する。
【０１４２】
一方、対話処理部３５５は、音声認識結果が「否定」のカテゴリであったことを示す情報を対話データ処理部３５３に送る。「否定」のカテゴリであったという情報は、第２対話データ送受信部６５２、第１対話データ送受信部６０３、第２データ送受信部６０２、および第１データ送受信部１８０２を経て、制御部１８０３に通知される。制御部１８０３は、対話データベース１８０８から発声（４）「ただいま留守にしています」を選択し、音声出力部１８０７から出力する。
【０１４３】
最後に、制御部１８０３からの指令により、表示部１０３の表示が終了し、対話データ処理部３５３の対話が終了し、ドアホン１８０１中の画像入力部１８０５、音声入力部１８０６、音声出力部１８０７の電源をオフにする。
【０１４４】
このように、実施の形態６の対話装置では、来訪者の画像を見る利用者の発声「いや」を認識した結果が「否定」であることなどに応じ、来訪者の画像に連動した対話データに基づいて応答データ「わかりました」などを生成するので、利用者との間で来訪者について対話場面が共有され、利用者の発声を誤認識しにくく、対話をスムーズに進めることができる。また、利用者が、ディジタルテレビ受像機６０１を視聴しながら来訪者への対応が可能であるため、対応が楽になるという効果も得られる。
【０１４５】
なお、上記実施の形態２〜実施の形態５においては、対話装置がテレビ受像機と対話型エージェント装置とによって構成される例を示したが、これに限らず、実施の形態１のようにテレビ受像機単体で表示部上にキャラクタ画像などを表示させて、これと対話をするようなイメージを持たせるようにしてもよい。さらに、音声による対話に限らず、装置側の発話に関しては文字表示によって行わせるようにしてもよい。
【０１４６】
また、実施の形態２〜実施の形態５における各構成要素がテレビ受像機と対話エージェント装置との何れに設けられるかなどの形態は、上記に限らず、例えば付加情報処理部を対話型エージェント装置側に設けたり、対話データ処理部および対話データベースをテレビ受像機側に設けたり、音声認識部をテレビ受像機やＳＴＢ（セットトップボックス）に設けるなど、種々に設定すればよい。さらに、実施の形態２〜５で示したような対話型エージェント装置だけによって対話装置を構成し、放送画像の表示等は通常のテレビ受像機等によって行わせるなどしてもよい。
【０１４７】
また、テレビ受像機を用いるものに限らず、例えばＳＴＢなどを用いてデータ処理や信号処理だけを行わせる対話装置を構成し、画像の表示や音声の入出力は外部の他の表示装置などに行わせるようにしてもよい。
【０１４８】
また、上記の例では画像データ（画像信号）等や対話データが放送されたものを受信する例を示したが、これらのデータ等は、放送によって供給されるものに限らず、インターネット（ブロードバンド）や記録媒体等を介して供給されるものでも同様の効果を得ることができる。また、放送に関しても、地上波放送や、衛星放送、ＣＡＴＶ（ケーブルテレビ放送）など種々の形態の放送を受信する機器に適用することができる。
【０１４９】
また、画像データ等と対話データとが互いに異なる経路で入力されるようにしてもよい。また、必ずしも同期して入力されるのに限らず、対話データ（キーワード辞書データなども含む）が画像データ等に先立って入力されるようにしたり、あらかじめ（製造段階などで）装置に記憶させておく（いわゆる常駐させる）ようにしてもよい。上記のようにキーワード辞書データなど一般的に共通に用いられ得るデータについては、あらかじめ記憶させておくことは伝送データ量の低減や伝送処理の簡素化の点で有利である。ここで、対話データが表示画像の進行に伴ってシーケンシャルに処理される場合には、表示画像の進行に応じたタイミング信号（または情報）に基づいて対話処理が順次行われるようにすればよいが、対話データがランダム（不定）な順序で処理されたり同一の対話データが繰り返して処理されたりする場合には、表示画像の進行に応じて、タイミング信号と伴に、対話データを特定する識別情報が用いられるようにすればよい。さらに、対話データに、例えば画像の表示が開始されてからその対話データが用いられるべき時点までの時間等を示す時間情報を含ませるとともに、画像の表示時にその表示時間の経過を計時するようにして、上記計時された経過時間と上記時間情報とを比較し、上記時間情報によって示される時間が経過したときに、その対話データによる対話が開始されるようにしてもよい。
【０１５０】
また、対話データ等の形式としては、データの内容を示す純粋のデータの形式に限らず、その対話データ等の処理内容を含むプログラムやコマンドなどの形式を用いるようにしてもよい。このような手法は、より具体的には、例えばＸＭＬやＸＭＬを放送データに適用したＢＭＬ等の記述フォーマットを利用すれば容易に実現可能である。すなわち、対話装置として上記のようなコマンド等を解釈して実行する仕組みを設けておけば、対話データ等によってより柔軟な対話処理を行わせることが容易にできる。
【０１５１】
また、上記各実施の形態や変形例の構成要素は、それぞれ論理的に可能な範囲で種々に組み合わせたり取捨選択したりしてもよい。具体的には、例えば実施の形態３（図８）のタイマー管理部３１１を省略したり、実施の形態２（図５）に適用したり、また、実施の形態４（図１４）の一時記憶部４７１を実施の形態２に適用したりするなどしてもよい。
【０１５２】
また、音声合成の手法としては、例えばテキストデータを合成音声によって読み上げるような手法に限らず、例えばあらかじめ録音音声が符号化された音声データを用い、対話データに応じて復号化処理するなどして発声させるようにしてもよい。この場合には、合成音声では生成しにくい声質やイントネーションを簡単に表現することができる。また、これらに限らず、種々の公知の手法を適用してもよい。
【０１５３】
また、音声認識の手法としても、種々の公知の手法を適用してもよく、その手法に係らず本発明の本質的な効果は得られる。
【０１５４】
また、実施の形態１等においては、対話が１回の受け答えだけで終了する例を示したが、もちろんこれに限らず、より多くのやりとりがなされるようにしてもよい。その場合でも、応答がある程度繰り返した時点で新たな画面の進行に応じて自然に話題を切り替えることによって、ちぐはぐな対話が延々と継続しないようにすることができる。
【０１５５】
また、対話の受け答えを複数回繰り返し得るようにする場合には、表示画像の進行にともなって新たな対話データやタイミング情報が入力された場合でも、必ずしもこれに応じた新たな対話が開始されないようにしてもよい。例えば視聴者による発話データが、対話データがあらかじめ予期している対話内容の範囲に入っている場合、すなわち対話データ内で定義されているキーワードへのヒット率が高い（以下、対話の適合度が高い）場合には、新たな対話データ等が入力された場合でも、それまでの対話を継続するようにしてもよい。また、新たな対話データ等に優先順位を示す情報を含め、その優先順位と対話の適合度とに応じて、対話を継続するか新たな対話に切り替えるかが決定されるようにしてもよい。具体的には、例えば対話の適合度が高い場合に、優先度の低い新たな対話データ等が入力された場合には対話を継続する一方、対話の適合度が低い（対話がちぐはぐになりがちな）場合には、優先度が低くても新たな対話データ等が入力されたときに新たな対話に切り替えることによって不適切な対話の継続を容易に解消することができる。
【０１５６】
また、さらに、対話装置に保持されたり他の機器からネットワーク等を介して取得された視聴者のプロファイル情報に基づいて（またはプロファイル情報と前記対話の適合度と新たな対話データ等の優先度との２以上の組み合わせに基づいて）、新たな対話が開始されるかどうかが決定されるようにしてもよい。具体的には、例えば視聴者が料理に関する話題に興味を有していることがプロファイル情報によって示されている場合、料理に関する対話が行われているときに他の話題に関しての新たな対話データ等が入力されても、それまでの対話が継続されるようにする一方、他の話題に関する対話が行われているときに料理に関する話題の新たな対話データ等が入力されたときには、対話の適合度が多少高くても新たな対話が開始されるようにすれば、一層、対話の継続、切り替えをスムーズに行わせることもできる。また、上記のようなプロファイル情報や対話の適合度等の組み合わせに対してどれに重きを置くかなどの対話継続、切り替えの条件情報自体を種々設定し得るようにしてもよい。
【０１５７】
また、上記のようにプロファイル情報に基づいて対話の継続、切り替えを制御する場合、その後の対話の適合度に応じて、上記プロファイル情報自体が更新されるようにしてもよい。具体的には、例えば料理に関する話題についての対話の適合度が高い場合には、視聴者が料理に関する話題により高い興味を有していることを示すようにプロファイル情報を更新することにより、さらに適切な対話が行われやすくすることが容易にできる。
【０１５８】
また、上記のように画像表示に伴った対話が行われた場合に、視聴者の発話内容に応じたデータや、対話の適合度を画像と伴に記録媒体に記録し得るようにするとともに、記録された画像を再生する際に、上記データや適合度などをキーとして再生箇所をサーチし得るようにすれば、視聴者が表示画像に対して印象深いことを示す発話をした箇所や、対話装置との対話がはずんだ箇所を容易に再生させることができる。
【産業上の利用可能性】
【０１５９】
以上のように本発明によると、視聴者に対して非対話的に進行する画像に対応した対話データに基づいて対話を行わせることにより、視聴者を対話装置があらかじめ想定している対話内容に自然な感じで引き込むことが容易にでき、したがって、比較的小規模な装置構成でも、利用者の発声を誤認識しにくく、対話をスムーズに進めて自由な対話に近い印象を与えることが容易にできるので、視聴機器や家庭用電化製品などの分野において有用である。
【図面の簡単な説明】
【０１６０】
【図１】実施の形態１の対話装置の構成を示すブロック図である。
【図２】同、画像表示例を示す説明図である。
【図３】同、対話データベースの記憶内容を示す説明図である。
【図４】実施の形態２の対話装置の全体構成を示す説明図である。
【図５】同、具体的な構成を示すブロック図である。
【図６】同、対話データベースの記憶内容を示す説明図である。
【図７】同、対話動作を示すフローチャートである。
【図８】実施の形態３の対話装置の具体的な構成を示すブロック図である。
【図９】同、キーワード辞書の記憶内容を示す説明図である。
【図１０】同、対話データベースの記憶内容を示す説明図である。
【図１１】同、全体の対話動作を示すフローチャートである。
【図１２】同、表示画面の例を示す説明図である。
【図１３】同、対話処理の詳細な動作を示すフローチャートである。
【図１４】実施の形態４の対話装置の具体的な構成を示すブロック図である。
【図１５】同、対話処理の詳細な動作を示すフローチャートである。
【図１６】同、キーワード辞書の記憶内容を示す説明図である。
【図１７】同、対話データベースの記憶内容を示す説明図である。
【図１８】同、一時記憶部の記憶内容を示す説明図である。
【図１９】実施の形態５の対話装置のデータ放送情報蓄積部の記憶内容を示す説明図である。
【図２０】同、対話スクリプトデータベースの記憶内容を示す説明図である。
【図２１】同、具体的な構成を示すブロック図である。
【図２２】同、全体の対話動作を示すフローチャートである。
【図２３】実施の形態６の対話装置の具体的な構成を示すブロック図である。

Claims

画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備えたことを特徴とする会話装置。
請求項１の会話装置であって、さらに、
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、上記画像データ、および上記会話データが入力され、上記入力されたデータを上記表示制御手段、および上記会話データ記憶手段に出力する入力手段を備えたことを特徴とする会話装置。
請求項２の会話装置であって、
上記入力手段は、上記画像データと、上記会話データとが、互いに異なる経路を介して入力されるように構成されたことを特徴とする会話装置。
請求項２の会話装置であって、
上記入力手段は、上記会話データが上記画像データと対応した所定のタイミングで入力されることにより、上記タイミング情報を出力するように構成されていることを特徴とする会話装置。
請求項２の会話装置であって、
さらに、上記視聴者発話データを記憶する視聴者発話データ記憶手段を備え、
上記会話処理手段は、上記視聴者発話データ記憶手段に記憶された上記視聴者発話データ、および上記視聴者発話データが基づく上記音声を上記視聴者が発声した後に上記入力手段に新たに入力された会話データに基づいて、上記装置発話データを出力するように構成されていることを特徴とする会話装置。
請求項１の会話装置であって、
上記会話処理手段は、上記画像データに含まれる上記タイミング情報に基づいて、上記装置発話データを出力するように構成されたことを特徴とする会話装置。
請求項６の会話装置であって、
上記会話データ記憶手段は、複数の上記会話データを記憶し得るように構成されるとともに、
上記画像データは、上記タイミング情報とともに、上記複数の会話データのうちの少なくとも何れか１つを特定する会話データ特定情報を含み、
上記会話処理手段は、上記タイミング情報、および上記会話データ特定情報に基づいて、上記装置発話データを出力するように構成されたことを特徴とする会話装置。
請求項１の会話装置であって、
さらに、上記画像の表示時間の経過に応じた上記タイミング情報を出力する計時手段を備えるとともに、
上記会話データは、上記会話処理手段による上記装置発話データを出力すべきタイミングを示す出力時間情報を含み、
上記会話処理手段は、上記タイミング情報、および上記出力時間情報に基づいて、上記装置発話データを出力するように構成されたことを特徴とする会話装置。
請求項１の会話装置であって、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するように構成されたことを特徴とする会話装置。
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するとともに、さらに、
既に開始された視聴者との会話における上記装置発話データと上記視聴者発話データとの適合度、および視聴者との新たな会話開始の優先度に基づいて、上記新たな会話を開始するように構成されたことを特徴とする会話装置。
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するとともに、さらに、
視聴者に関するプロファイル情報、および上記プロファイル情報に応じて視聴者との会話を開始するための条件を示す会話開始条件情報に基づいて、視聴者との会話を開始するように構成されたことを特徴とする会話装置。
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、上記会話データ、および上記タイミング情報に基づいて上記装置発話データを出力することにより、視聴者との会話を開始する一方、上記会話データ、および上記視聴者発話データに基づいて上記装置発話データを出力することにより、上記開始された会話を継続するとともに、さらに、
既に開始された視聴者との会話における上記装置発話データと上記視聴者発話データとの適合度、視聴者に関するプロファイル情報、および上記適合度と上記プロファイル情報とに応じて視聴者との会話を開始するための条件を示す会話開始条件情報に基づいて、視聴者との新たな会話を開始するように構成されたことを特徴とする会話装置。
請求項１２の会話装置であって、
上記会話処理手段は、上記開始された会話における上記装置発話データと上記視聴者発話データとの適合度に応じて、上記プロファイル情報を更新するように構成されたことを特徴とする会話装置。
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御手段と、
上記画像の進行に対応した会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備え、
上記会話処理手段は、所定の一連の上記画像の表示が所定の時間連続して行われたときに、上記装置発話データを出力するように構成されたことを特徴とする会話装置。
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、視聴者に対して非対話的に進行する画像を示す画像データ、および上記画像の進行に対応した会話データが入力される入力手段と、
上記画像データに基づいて、上記画像を表示部に表示させる表示制御手段と、
上記会話データ、および上記画像の進行に応じたタイミング情報を会話子機装置に送信する送信手段と、
を備え、
上記会話子機装置が、上記会話データ、上記タイミング情報、および視聴者発話データに基づいて、視聴者と会話装置との会話における発話内容を決定する
ことを特徴とする会話親機装置。
会話親機装置から送信された、視聴者に対して非対話的に進行する画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報を受信する受信手段と、
上記会話データを記憶する会話データ記憶手段と、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識手段と、
上記視聴者発話データ、上記会話データ、および上記タイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話子機装置による発話内容を示す装置発話データを出力する会話処理手段と、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御手段と、
を備えたことを特徴とする会話子機装置。
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
を有することを特徴とする会話制御方法。
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、視聴者に対して非対話的に進行する画像を示す画像データ、および上記画像の進行に対応した会話データが入力される入力ステップと、
上記画像データに基づいて、上記画像を表示部に表示させる表示制御ステップと、
上記会話データ、および上記画像の進行に応じたタイミング情報を会話子機装置に送信する送信ステップと、
を有し、
上記会話子機装置が、上記会話データ、上記タイミング情報、および視聴者発話データに基づいて、視聴者と会話装置との会話における発話内容を決定する
ことを特徴とする会話制御方法。
会話親機装置から送信された、視聴者に対して非対話的に進行する画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報を受信する受信ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記会話データ、および上記タイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話子機装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
を有することを特徴とする会話制御方法。
画像データに基づいて、視聴者に対して非対話的に進行する画像を表示部に表示させる表示制御ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
をコンピュータに実行させることを特徴とする会話制御プログラム。
無線通信、有線通信、ネットワーク通信、および記録媒体の少なくとも何れか１つを介して、視聴者に対して非対話的に進行する画像を示す画像データ、および上記画像の進行に対応した会話データが入力される入力ステップと、
上記画像データに基づいて、上記画像を表示部に表示させる表示制御ステップと、
上記会話データ、および上記画像の進行に応じたタイミング情報を会話子機装置に送信する送信ステップと、
をコンピュータに実行させ、
上記会話子機装置が、上記会話データ、上記タイミング情報、および視聴者発話データに基づいて、視聴者と会話装置との会話における発話内容を決定する
ことを特徴とする会話制御プログラム。
会話親機装置から送信された、視聴者に対して非対話的に進行する画像の進行に対応した会話データ、および上記画像の進行に応じたタイミング情報を受信する受信ステップと、
視聴者が発話した音声に基づく認識処理により、視聴者の発話内容を示す視聴者発話データを出力する音声認識ステップと、
上記視聴者発話データ、上記会話データ、および上記タイミング情報に基づいて、視聴者と会話装置との会話における、会話装置による発話内容を決定し、上記会話子機装置による発話内容を示す装置発話データを出力する会話処理ステップと、
上記装置発話データに基づいて、発音部に音声を発声させる発声制御ステップと、
をコンピュータに実行させることを特徴とする会話制御プログラム。
請求項１の会話装置であって、
上記会話処理手段は、上記画像の進行に対応した会話データを出力した後に、その後の上記画像の進行内容に係わらず、視聴者発話データに応じた装置発話データを出力し得るように構成されていることを特徴とする会話装置。
請求項１の会話装置であって、
上記会話処理手段は、上記視聴者発話データ、上記会話データ、および上記画像の進行に応じたタイミング情報に基づいて定まる複数の候補のうちから、上記会話装置による発話内容を決定するように構成されていることを特徴とする会話装置。
請求項１の会話装置であって、
会話相手を模した子機装置を介して、または会話相手を模した画像の表示部へ
の表示とともに、上記発音部に音声を発声させるように構成されたことを特徴とする会話装置。