JP2022045276A

JP2022045276A - 対話型応対装置

Info

Publication number: JP2022045276A
Application number: JP2020150882A
Authority: JP
Inventors: 精也長谷川; Seiya Hasegawa; 久史沙魚川; Hisashi Hazekawa; 哲也高橋; Tetsuya Takahashi; 秀行青木; Hideyuki Aoki
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-18
Anticipated expiration: 2040-09-08
Also published as: JP7574018B2

Abstract

【課題】キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことができる対話型応対装置を提供する。【解決手段】システム１において、対話型応対装置１０は、キャラクタの画像を表示する表示部１１と、キャラクタの音声の出力及び周囲の音声の入力をする音声入出力部１４と、複数のシナリオと、複数のシナリオに関連する複数の関連情報とを記憶する記憶部１６と、人物を検知する検知部１７１と、複数の関連情報の中から、音声入出力部から入力された音声に対応する関連情報を選択し、選択した関連情報に基づいて複数のシナリオの中からシナリオを選択する選択部１７２と、選択されたシナリオに従って、音声入出力部を介してキャラクタに検知された人物と対話させることによって応対を行う応対部１７３と、を有する。選択部は、関連情報を選択した場合、選択した関連情報についての表示情報を表示部に表示させる。【選択図】図１

Description

本発明は、人物と対話する対話型応対装置に関する。

従来、空港、駅等の交通機関の施設、商業施設、興行施設や企業の事務所等には、案内人が配置され、施設に訪れた人物に対する案内又は受付等を行っている。しかしながら、案内人の人手不足の問題から所定のキャラクタの画像を表示する装置が開発されている。

例えば、特許文献１には、人の上半身の形状に合わせたスクリーンを設置し、スクリーンの形状に合わせて受付係の映像を投影させる映像出力装置搭載機器が開示されている。

特開２０１１－１５０２２１号公報

キャラクタの画像を表示しつつ人物と対話する対話型応対装置では、人間同士の対話のような相手の発話に応じた自然な反応が行われておらず、人物は自身の発話の趣旨が適切に認識されているかが把握しづらい。そのため、人物の発話の意図を認識したこと利用者に認知させることにより円滑に人物と対話を行えることが求められている。

本発明の目的は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことができる対話型応対装置を提供することにある。

かかる課題を解決するため本発明は、キャラクタの画像を表示する表示部と、キャラクタの音声の出力及び周囲の音声の入力をする音声入出力部と、複数のシナリオと、複数のシナリオに関連する複数の関連情報とを記憶する記憶部と、所定空間内の人物を検知する検知部と、複数の関連情報の中から、音声入出力部から入力された音声に対応する関連情報を選択し、選択した関連情報に基づいて複数のシナリオの中からシナリオを選択する選択部と、選択されたシナリオに従って、音声入出力部を介してキャラクタに検知された人物と対話させることによって応対を行う応対部と、を有し、選択部は、関連情報を選択した場合、その選択した関連情報についての表示情報を表示部に表示させる対話型応対装置を提供する。

この対話型応対装置において、選択部は、複数の関連情報の中から、音声入出力部から入力された音声に含まれる用語を含む関連情報を選択することが好適である。

この対話型応対装置において、選択部は、音声入出力部から入力された音声をテキスト化した文字情報を表示部に表示させ、文字情報の中で、表示情報を他の文字情報と識別可能に表示させることが好適である。

この対話型応対装置において、選択部は、表示情報をキャラクタの頭部領域と関連付けて表示部に表示させることが好適である。

この対話型応対装置において、表示情報は、音声入出力部から入力された音声の趣旨を示す文字情報であり、選択部は、音声入出力部から入力された音声をテキスト化した文字情報を表示部に表示させるにあたって、表示情報を表示部に表示させ、表示情報以外の文字情報を表示部に表示させないことが好適である。

本発明に係る対話型応対装置は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことが可能となる。

案内システム１の全体システム構成を示す図である。応対装置１０の外観を示す模式図である。シナリオテーブル１６１のデータ構造の一例を示す模式図である。表示処理の動作の例を示すフローチャートである。（ａ）、（ｂ）はキャラクタの表示態様の例を示す模式図である。（ａ）はキャラクタの表示態様の例を示す模式図であり、（ｂ）は表示情報の表示態様の例を示す模式図である。（ａ）、（ｂ）は表示情報の表示態様の例を示す模式図である。

以下、実施形態に係る案内システムについて図を参照しつつ説明する。

図１は、実施形態に係る案内システム１の全体システム構成を示す図である。
案内システム１は、対話型案内システムである。案内システム１は、空港、駅、商業施設（デパート、スーパーマーケット等）、興行場、企業の事務所等の対象施設において、キャラクタを利用者（人物）と対話させることによって、利用者に対して案内又は受付係等の応対を行う。本実施形態では、案内システムの例として、対象施設を監視及び警備する監視システムについて説明するが、案内システムは、単に利用者に案内又は受付を行うシステムでもよい。
図１に示すように、案内システム１は、複数の応対装置１０及び管理装置２０等を有する。各応対装置１０は、それぞれ異なる対象空間に設置され、各対象空間内の利用者に対する応対を行うとともに、各対象空間を監視及び警備する監視表示装置である。対象空間は、例えば対象施設の入り口又は各フロア等である。管理装置２０は、警備会社が運営する警備センタ又は対象施設内の防災センタの監視卓等に設置され、各応対装置１０による監視結果（撮影映像等）を収集し、管理する装置である。各応対装置１０及び管理装置２０は、イントラネット、インターネット又は携帯電話ネットワーク等の通信ネットワークを介して相互に接続される。
なお、案内システム１は、それぞれ異なる複数の対象施設をそれぞれ管理する複数の管理装置２０を有してもよい。その場合、案内システム１は、各対象施設から離れた位置に設置された監視センタに配置されたサーバ装置をさらに有し、サーバ装置が、各管理装置２０が管理する情報を収集し、管理してもよい。

応対装置１０は、ミラーサイネージ等の表示装置である。応対装置１０は、表示部１１、センサ１２、撮像部１３、音声入出力部１４、通信部１５、記憶部１６及び制御部１７等を有する。

表示部１１は、ミラー型ディスプレイ等であり、制御部１７からの指示に従って画像、テキスト等の各情報を表示する。特に、表示部１１は、制御部１７からの指示に従って、立哨する警備員を模したキャラクタの画像を表示する。なお、表示部１１は、液晶ディスプレイ又は有機ＥＬディスプレイ等の非ミラー型ディスプレイでもよい。また、表示部１１に表示されるキャラクタは、警備員を模したキャラクタに限定されず、店員又は受付係等に模したキャラクタでもよい。表示部１１の詳細については後述する。

センサ１２は、周期的に対象空間内の人物を検知し、検知した人物の位置を求める人体検知センサである。センサ１２として、例えばレーザ測距センサが利用される。レーザ測距センサは、予め設定された走査範囲（例えば180°）にわたって水平方向に所定の角度ステップ（例えば0.25°単位）で、所定の波長（例えば約870nm）を有する近赤外線のパルスレーザを照射し、そのレーザの反射光を検出する。レーザ測距センサは、例えばTime-of-Flight法により、レーザを反射した物体までの距離を測定する。センサ１２は、一定の周期（例えば200msec）で走査範囲全体を走査し、その走査範囲内の各方位における、レーザが反射された点までの距離を測定し、測定された距離を、パルスレーザを投光した方位と対応付けた測距データを制御部１７へ出力する。なお、センサ１２は、位相差方式、三角測量方式等の他の公知の測距方法を用いて人物の位置を求めてもよい。また、センサ１２は、複数設けられてもよい。

撮像部１３は、ＣＣＤ素子またはＣ－ＭＯＳ素子など、可視光に感度を有する光電変換素子と、その光電変換素子上に像を結像する結像光学系と、光電変換素子から出力された電気信号を増幅し、アナログ／デジタル（Ａ／Ｄ）変換するＡ／Ｄ変換器とを有する。撮像部１３は、撮影したＲＧＢ各色の画像を各画素が０～２５５の範囲の輝度値を有するデジタルの入力画像に変換して制御部１７へ出力する。なお、撮像部１３は、複数設けられてもよい。

音声入出力部１４は、マイクロフォンと、光電変換素子から出力された電気信号を増幅し、アナログ／デジタル（Ａ／Ｄ）変換するＡ／Ｄ変換器とを有する。音声入出力部１４は、周囲の音声の入力をし、入力された音声をデジタルの入力音声に変換して制御部１７へ出力する。音声入出力部１４は、さらにスピーカ等を有し、制御部１７からの指示に従ってキャラクタの音声の出力をする。

通信部１５は、例えばＴＣＰ／ＩＰ等に準拠した通信インタフェース回路を有し、イントラネット又はインターネット等の通信ネットワークに接続する。または、通信部１５は、例えばＷ－ＣＤＭＡ方式又はＬＴＥ方式等に準拠した通信インタフェース回路を有し、基地局を介して移動体通信網等の通信ネットワークに接続する。通信部１５は、通信ネットワークから受信したデータを制御部１７へ出力し、制御部１７から入力されたデータを通信ネットワークに送信する。

記憶部１６は、ＲＯＭ、ＲＡＭ等の半導体メモリ、磁気ディスク又はＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等の光ディスクドライブ及びその記録媒体を有する。記憶部１６は、応対装置１０を制御するためのコンピュータプログラム及び各種データを記憶し、制御部１７との間でこれらの情報を入出力する。コンピュータプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて記憶部１６にインストールされてもよい。
また、記憶部１６は、データとして、対象空間における応対装置１０の設置位置、及び、入場ゲートや立入禁止区域等の特定エリアの位置を記憶する。また、記憶部１６は、データとして、対象空間におけるセンサ１２の配置位置、及び、パルスレーザの照射方向を記憶する。また、記憶部１６は、データとして、撮像部１３により撮像される画像内の各画素と、対象空間内の各位置との対応関係を示すマップ情報を記憶する。また、記憶部１６は、データとして、キャラクタに対象空間内の人物と対話させるための複数のシナリオを管理するシナリオテーブル１６１を記憶する。シナリオテーブル１６１の詳細については後述する。

制御部１７は、ＣＰＵ、ＭＰＵ等のプロセッサと、ＲＯＭ、ＲＡＭ等のメモリと、その周辺回路とを有し、応対装置１０の各種信号処理を実行する。制御部１７は、プロセッサ上で動作するプログラムの機能モジュールとして実装される検知部１７１、選択部１７２及び応対部１７３等を有する。選択部１７２は、認識部の一例である。制御部１７は、認識した対象空間の状況等に応じて表示するキャラクタの動作を表示制御する。また、制御部１７は、応対装置１０の近傍（例えば、１ｍ以内）で立ち止まった人物を検知した場合、又は、人物からの発話を検知したした場合等に、その人物と対話するように音声出力を制御する。なお、制御部１７として、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等が用いられてもよい。
制御部１７は、撮像部１３が対象空間を撮像した入力画像又は音声入出力部１４が集音した入力音声を、通信部１５を介して管理装置２０へ送信する。また、制御部１７は、キャラクタの画像を表示部１１に表示し、キャラクタの音声を音声入出力部１４から出力するとともに、通信部１５を介して管理装置２０から受信した監視員の音声を音声入出力部１４から出力する。

管理装置２０は、例えばパーソナルコンピュータ等である。管理装置２０は、第２表示部２１、第２音声入力部２２、第２音声出力部２３、第２通信部２３、第２記憶部２４及び第２制御部２５等を有する。

第２表示部２１は、液晶ディスプレイ又は有機ＥＬディスプレイ等であり、第２制御部２５からの指示に従って画像、テキスト等の各情報を表示する。
第２音声入出力部２２は、音声入出力部１４と同様の構成を有し、入力された音声をデジタルの音声データに変換して第２制御部２５へ出力するとともに、第２制御部２５からの指示に従って音声を出力する。

第２通信部２３は、例えばＴＣＰ／ＩＰ等に準拠した通信インタフェース回路を有し、イントラネット又はインターネット等の通信ネットワークに接続する。第２通信部２３は、通信ネットワークから受信したデータを第２制御部２５へ出力し、第２制御部２５から入力されたデータを通信ネットワークに送信する。

第２記憶部２４は、記憶部１６と同様の半導体メモリ、磁気ディスク又は光ディスクドライブ及びその記録媒体を有する。第２記憶部２４は、管理装置２０を制御するためのコンピュータプログラム及び各種データを記憶し、第２制御部２５との間でこれらの情報を入出力する。コンピュータプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第２記憶部２４にインストールされてもよい。

第２制御部２５は、制御部１７と同様のプロセッサ、メモリ及び周辺回路を有し、管理装置２０の各種信号処理を実行する。なお、第２制御部２５として、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等が用いられてもよい。
第２制御部２５は、第２通信部２３を介して応対装置１０から受信した入力画像を第２表示部２１に表示するとともに、第２通信部２３を介して応対装置１０から受信した入力音声を第２音声出力部２３から出力する。また、第２制御部２５は、第２音声入力部２２から入力された監視員による音声を、第２通信部２３を介して応対装置１０に送信する。

図２は、応対装置１０の外観を示す模式図である。図２に示すように、応対装置１０の表示部１１は、台座１８により支持されている。応対装置１０は、表示部１１が対象空間Ａに向くように配置される。
表示部１１は、例えば、液晶ディスプレイ又は有機ＥＬディスプレイ等のモニターの表示面にミラーパネル１１１を貼り合わせることにより形成されている。ミラーパネル１１１は、外側（対象空間側）からの光を反射しつつ、内側（モニター側）からの光（画像）を透過する。これにより、表示部１１は、対象空間Ａを往来する人物Ｈの像を反射させて表示しつつ、制御部１７から出力されたキャラクタＣの画像を表示する。
ミラーパネル１１１の外枠１１２には、センサ１２が対象空間Ａに向けて近赤外線のパルスレーザを投光可能に配置される。同様に、外枠１１２には、撮像部１３が対象空間Ａを撮像可能に配置され、音声入出力部１４が対象空間Ａの音を集音可能に且つ対象空間Ａに向けて音を出力可能に配置される。なお、センサ１２、撮像部１３及び音声入出力部１４は外枠１１２に配置されることに限定されず、ミラーパネル１１１越しに配置されてもよい。

図３は、シナリオテーブル１６１のデータ構造の一例を示す模式図である。
図３に示すように、シナリオテーブル１６１には、複数のシナリオ毎に、各シナリオの識別番号（シナリオＩＤ）、シナリオ、関連情報及び応答情報等が関連付けて記憶される。

シナリオは、キャラクタに対象空間内の人物と対話させるための対話の流れを示す情報であり、制御部１７がキャラクタに対象空間内の人物と対話させる際に使用される。シナリオとして、例えば、施設案内（場所問合せ）、取り次ぎ依頼、通報、日常会話等に関する対話のシナリオ等が予め設定される。

関連情報は、各シナリオに関連する情報であり、制御部１７がシナリオを選択するために使用される。関連情報として、対象空間内の人物の発話に含まれる可能性が高いキーワード、又は、発話の文意もしくは趣旨等によって各シナリオを識別可能な識別情報等が予め設定される。各シナリオの関連情報として、一又は複数のキーワード又は識別情報が設定される。
例えば、施設案内（場所問合せ）に関する対話のシナリオについて、キーワードとして、問合せの対象となり得る用語（トイレ、会議室等）が設定される。同様に、取り次ぎ依頼に関する対話のシナリオについて、キーワードとして、アポイント等の用語が設定される。また、通報に関する対話のシナリオについて、キーワードとして、助けを求める用語や不審者等の用語が設定される。
一方、識別情報として、例えばニューラルネットワーク等の機械学習技術を利用する学習装置により、様々な種類の発話を含む複数のサンプル音声を用いて事前学習された識別器が設定される。識別器は、各サンプル音声が入力された場合に、そのサンプル音声が各シナリオに対応している確度（確からしさ）と、そのサンプル音声が示すキーワード（トイレ、会議室）、文意又は趣旨（トイレの場所、アポイントで来訪）とを出力するように事前学習される。

応答情報は、各シナリオにおいて、キャラクタに出力させる音声を示す情報である。なお、一つのシナリオに対して、人物の発話内容に応じて細分化された複数の応答情報が設定されてもよい。その場合、各応答情報は、入力される音声の情報と関連付けて設定される。

図４は、応対装置１０による表示処理の動作の例を示すフローチャートである。このフローチャートは、予め記憶部１６に記憶されているプログラムに基づいて、主に制御部１７により、応対装置１０の各要素と協働して実行される。表示処理が実行されている間、制御部１７は、キャラクタの画像を表示部１１に表示し続ける。特に、制御部１７は、利用者が検知されていない状況では、キャラクタＣの視線方向や身体方向を所定範囲内（例えば正面を基準に４５度ずつ）で移動させ、利用者を検知した場合、キャラクタＣの視線を検知した利用者に向ける通常動作を実行するようにキャラクタＣの画像表示を制御する。これにより、本物の立哨警備を行う警備員らしい画像の表示ができ、警備員としての存在感が発揮される。

図５（ａ）は、通常動作を実行中のキャラクタの表示態様の一例を示す模式図である。
図５（ａ）に示す例では、選択部１７２は、キャラクタＣの視線が対象空間内の人物Ｈの方向にわずかに傾くようにキャラクタＣの動作を変化させている。応対装置１０は、例えば、１枚のキャラクタＣの画像を目、鼻、口、顔の輪郭、首、体、腕、足等の所定のパーツごとに分割し、各パーツにポリゴンを割り当てておく。また、応対装置１０は、複数の視線方向毎に、各視線方向に対応する各パーツのポリゴンの位置及び向きを事前に記憶部１６に設定しておく。選択部１７２は、キャラクタＣが、所定の視線方向を向くように、ポリゴンを動かし、ポリゴンにあわせて各パーツを動かすことにより、キャラクタＣの画像表示を更新する。なお、選択部１７２は、通常動作において、キャラクタＣの視線を変更させるのでなく、キャラクタＣに一定間隔で相槌を打たせる等、他の任意のパーツを動かすことによりキャラクタＣの動作を変化させてもよい。また、選択部１７２は、通常動作において、キャラクタＣの動作を変化させず、キャラクタＣを停止させてもよい。

また、制御部１７は、応対装置１０の近傍（例えば、１ｍ以内）において利用者を検知したり利用者からの発話を検知したりすると、通常動作から応対動作に移行し、キャラクタＣが当該利用者と対話するように音声出力を制御することで、施設の利用者に対する案内や受付等の応対を行う応対動作を実行する。

まず、検知部１７１は、撮像部１３に対象空間を撮像させ、対象空間を撮像した入力画像を撮像部１３から取得する（ステップＳ１０１）。

次に、検知部１７１は、対象空間内の人物を検知する検知処理を実行する（ステップＳ１０２）。検知部１７１は、例えば応対装置１０の近傍（例えば１ｍ以内）で立ち止まった人物を検知する。
検知部１７１は、入力画像から人物を検知する。検知部１７１は、例えばフレーム間差分処理または背景差分処理を利用して、順次撮影された複数の入力画像において輝度値の時間的な変化を有する変化領域を抽出する。検知部１７１は、抽出した各変化領域の大きさ、形状等の特徴量に基づいて、人物らしいと考えられる変化領域を人物領域として抽出する。検知部１７１は、抽出した人物領域に対してSobelフィルタなどを用いて輝度変化の傾き方向が分かるようにエッジ画素を抽出する。検知部１７１は、抽出したエッジ画素から、例えば一般化ハフ変換を用いて、所定の大きさを有する、頭部の輪郭形状を近似した楕円形状のエッジ分布を検出し、そのエッジ分布に囲まれた領域を顔領域として抽出する。なお、検知部１７１は、Adaboost識別器等の他の公知の方法を用いて顔領域を抽出してもよい。検知部１７１は、入力画像から顔領域を抽出した場合、その顔領域に対応する人物領域に含まれる人物を対象空間内の人物として検出する。そして、検知部１７１は、マップ情報に基づいて、検出した人物の足元が写っている、人物領域の最下端の画素に対応する対象空間内の位置を人物位置として特定する。検知部１７１は、複数の顔領域が抽出された場合、抽出した顔領域毎に人物を検出して人物位置を特定する。

なお、検知部１７１は、センサ１２から測距データを取得し、取得した測距データから人物を検知してもよい。検知部１７１は、取得した測距データを予め設定された基準測定データと比較し、所定以上の距離変化が生じている方向（走査方位）を抽出し、所定以上の連続性（例えば一般的な人のサイズ）を有する距離変化方向群を対象空間内の人物として検出する。検知部１７１は、対象空間におけるセンサ１２の配置位置及びパルスレーザの照射方向と、検出した人物に係る代表測距データ（例えば、距離変化方向群の中心の走査方位及び測定距離）とから、対象空間内の人物位置を特定する。検知部１７１は、複数の距離変化方向群が抽出された場合、距離変化方向群毎に人物か否かを判別し、人物位置を特定する。
また、検知部１７１は、音声入出力部１４から入力音声を取得し、取得した入力音声から人物を検知してもよい。検知部１７１は、入力音声の音圧が、予め設定された閾値以上である場合に、対象空間に人物が存在すると判定する。なお、検知部１７１は、入力音声の周波数が、予め設定された範囲内である場合に、対象空間に人物が存在すると判定してもよい。

次に、検知部１７１は、検知処理において応対装置１０の近傍で人物が検知されたか否かを判定する（ステップＳ１０３）。検知処理において応対装置１０の近傍で人物が検知されなかった場合、検知部１７１は、処理をステップＳ１０１へ戻し、キャラクタＣは通常動作を継続する。

一方、検知処理において応対装置１０の近傍で人物が検知された場合、選択部１７２は、音声入出力部１４から入力された入力音声を認識する認識処理を実行し、認識処理において人物による発話内容に係る音声が認識されたか否かを判定する（ステップＳ１０４）。選択部１７２は、入力音声に公知の音声認識技術及び自然言語処理技術を適用して、入力音声に対応する文字情報、即ち入力音声をテキスト化した文字情報を抽出し、人物による発話内容を検出する。発話内容に係る音声が認識されなかった場合、選択部１７２は、処理をステップＳ１０１へ戻す。

一方、発話内容に係る音声が認識された場合、選択部１７２は、応対動作を実行するようにキャラクタの画像表示を制御する（ステップＳ１０５）。即ち、選択部１７２は、発話内容に係る音声を認識したタイミングにおいて、応対動作を実行するようにキャラクタの画像表示を制御する。但し、選択部１７２は、検知された人物に対して、後述するステップＳ１０７において、既に、特定の認識情報を得たことを示すようにキャラクタの画像表示を制御している場合、ステップＳ１０５の処理を省略する。

また、選択部１７２は、発話内容に係る音声が認識されたときに、入力音声に対応する文字情報、即ち対象空間内の人物による全発話に対応する文字情報（全発話をテキスト化した文字情報）を表示部１１に表示してもよい。また、選択部１７２は、発話内容に係る音声が認識されたときでなく、人物が検知されたときに、応対動作を実行するようにキャラクタの画像表示を制御してもよい。

次に、選択部１７２は、シナリオテーブルに記憶された複数の関連情報の中から、入力音声に対応する関連情報を選択（特定）する第１選択処理を実行し、第１選択処理において関連情報を選択したか否かを判定する（ステップＳ１０６）。
第１選択処理において、選択部１７２は、入力音声から抽出された文字情報に、関連情報として設定された各キーワードが含まれるか否かを判定する。選択部１７２は、文字情報にキーワードが含まれる場合、そのキーワードを入力音声に対応する関連情報として選択し、そのキーワードをその関連情報についての表示情報（関連情報を示す文字情報やアイコン等のイメージ図）として選択する。即ち、選択部１７２は、入力音声に含まれる用語を含む関連情報を、入力音声に対応する関連情報として選択する。これにより、選択部１７２は、入力音声に適合するシナリオを精度良く選択することができる。一方、選択部１７２は、入力音声から抽出された文字情報にキーワードが含まれない場合、入力音声に対応する関連情報を選択しない。なお、キーワードが含まれるか否かの判定においては、認識音声の形態素解析を行い、キーワードとの品詞の一致を考慮してもよい。
また、選択部１７２は、関連情報として設定された各識別器に入力音声を入力し、各識別器から出力された確度及びキーワード、文意又は趣旨を取得する。選択部１７２は、何れかの識別器から取得した確度が、予め設定された閾値以上である場合、確度が最も大きい識別器を入力音声に対応する関連情報として選択し、その識別器から取得したキーワード、文意又は趣旨をその関連情報についての表示情報として選択する。これにより、選択部１７２は、入力音声に適合するシナリオを柔軟に選択することができる。一方、選択部１７２は、何れの識別器から取得した確度も閾値未満である場合、入力音声に対応する関連情報を選択しない。
第１選択処理において関連情報を選択しなかった場合、選択部１７２は、処理をステップＳ１０１へ戻す。

一方、第１選択処理において関連情報を選択した場合、選択部１７２は、入力された音声認識の結果から関連情報を選択（特定）したことをもって特定の認識情報の取得とする。即ち、選択部１７２は、関連情報を特定の認識情報として取得する。その場合、選択部１７２は、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタの画像表示を制御する（ステップＳ１０７）。即ち、選択部１７２は、入力された音声の認識結果から特定の認識情報を得たタイミングで、その特定の認識情報を得たことを対話対象の人物に示すようにキャラクタの画像表示を制御する。

図５（ｂ）は、特定の認識情報を取得した場合のキャラクタの表示態様の一例を示す模式図である。
図５（ｂ）に示すように、選択部１７２は、キャラクタＣの動作を変化させることにより、特定の認識情報を取得したことを対話対象の人物に示すようにキャラクタＣの画像表示を制御する。選択部１７２は、通常は利用者の発話を認識すると所定のタイミングで利用者の発話に反応する第１反応動作（例えば、頷く）を実行するようキャラクタＣの画像表示を制御する（図５（ａ）参照）。一方、選択部１７２は、特定の認識情報を取得すると第１反応動作より動作範囲が大きい第２反応動作（例えば、大きく頷く）を実行するようキャラクタＣの画像表示を制御する。即ち、選択部１７２は、発話内容に係る音声を認識したタイミングでその音声に反応する第１反応動作を実行し、特定の認識情報を得たタイミングで第２反応動作を実行するようにキャラクタＣの画像表示を制御する。

図６（ａ）は、キャラクタの表示態様の他の例を示す模式図である。
図６（ａ）に示すように、選択部１７２は、キャラクタＣの表情を変化させることにより、特定の認識情報を取得したことを対話対象の人物に示すようにキャラクタＣの画像表示を制御する。図６（ａ）に示す例では、選択部１７２は、キャラクタＣが微笑むようにキャラクタＣの表情を変化させている。応対装置１０は、例えば、複数の表情毎に、キャラクタＣの顔画像を予め記憶部１６に記憶しておく。選択部１７２は、表示部１１に表示されるキャラクタＣの顔画像を、記憶部１６に記憶された他の顔画像に置換することにより、キャラクタＣの表情を変化させる。なお、選択部１７２は、キャラクタＣの表情を、キャラクタＣが微笑むように変化させるのでなく、まじめな表情等の他の表情に変化させてもよい。

これらにより、対象空間内の人物は、自分の発話に対して応対装置１０が何らかの認識をしていることを把握でき、安心感を得ることができるので、応対装置１０は、ユーザーエクスペリエンスを向上させることができる。

また、選択部１７２は、選択した関連情報についての表示情報を表示部１１に表示させる（ステップＳ１０８）。選択部１７２は、表示情報をキャラクタＣとは別に表示部１１に表示させる。

図６（ｂ）は、表示情報の表示態様の一例を示す模式図である。
図６（ｂ）に示すように、選択部１７２は、入力音声をテキスト化した文字情報Ｔ１を表示部１１に表示させる。文字情報Ｔ１は、対象空間内の人物による全発話をテキスト化した文字情報である。そして、選択部１７２は、文字情報Ｔ１のうち選択した表示情報Ｔ２を強調して表示させ、文字情報Ｔ１の中で、選択した表示情報Ｔ２を他の文字情報と識別可能に表示させる。図６（ｂ）に示す例では、選択部１７２は、表示情報Ｔ２に下線を付すことにより、表示情報Ｔ２を他の文字情報と識別可能に表示させている。なお、選択部１７２は、表示情報Ｔ２をハイライト表示すること、又は、表示情報Ｔ２の色、太さ、フォント等を他の文字情報の色、太さ、フォント等と異ならせることにより、表示情報Ｔ２を他の文字情報と識別可能に表示させてもよい。これにより、対象空間内の人物は、自分が発した発話の中のどの用語を応対装置１０がキーワードとして認識しているかを把握でき、応対装置１０が自分の発話の意図を正しく認識しているか否かを判断できる。そのため、対象空間内の人物は、安心感を得ることができるので、応対装置１０は、ユーザーエクスペリエンスを向上させることができる。また、対象空間内の人物は、自分が意図していない用語を応対装置１０がキーワードとして認識している場合には、早急に訂正できるので、結果として、応対装置１０は、応対に要する時間を短縮させることができる。

図７（ａ）は、表示情報の表示態様の他の例を示す模式図である。
図７（ａ）に示すように、選択部１７２は、表示情報Ｔ３をキャラクタＣの頭部領域と関連付けて表示部１１に表示させる。図７（ａ）に示す例では、選択部１７２は、表示情報Ｔ３をキャラクタＣの頭部領域から吹き出しにより表示することにより、キャラクタＣの頭部領域と関連付けて表示している。なお、選択部１７２は、吹き出しを用いずに、表示情報Ｔ３をキャラクタＣの頭部領域の近傍に表示することにより、キャラクタＣと関連付けて表示してもよい。また、図７（ａ）に示す例では、入力音声をテキスト化した文字情報Ｔ４も表示部１１に表示されている。但し、表示情報Ｔ３をキャラクタＣと関連付けて表示する場合、入力音声をテキスト化した文字情報Ｔ４は、表示されなくてもよい。これにより、対象空間内の人物は、応対装置１０（キャラクタ）が認識している発話の趣旨を視覚的に把握しやすくなるので、応対装置１０は、ユーザーエクスペリエンスを向上させることができる。また、対象空間内の人物は、自分が意図していない方向で応対装置１０が発話の趣旨を認識している場合には、早急に訂正できるので、結果として、応対装置１０は、応対に要する時間を短縮させることができる。

図７（ｂ）は、表示情報の表示態様のさらに他の例を示す模式図である。
図７（ｂ）に示すように、表示情報Ｔ５は、入力音声の趣旨を示す文字情報である。選択部１７２は、入力音声をテキスト化した文字情報を表示部１１に表示させるにあたって、表示情報Ｔ５を表示部１１に表示させ、表示情報Ｔ５以外の文字情報を表示部１１に表示させない。これにより、対象空間内の人物は、応対装置１０が認識している発話の趣旨を注視することができるので、応対装置１０は、ユーザーエクスペリエンスを向上させることができる。また、対象空間内の人物は、自分が意図していない方向で応対装置１０が発話の趣旨を認識している場合には、早急に訂正できるので、結果として、応対装置１０は、応対に要する時間を短縮させることができる。

また、図６（ｂ）、図７（ａ）、（ｂ）に示すように、選択部１７２は、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタＣの画像表示を制御するとともに、選択（特定）した表示情報を表示部１１に表示させる。これにより、対象空間内の人物は、応対装置１０が自分の発話を認識していることを把握しつつ、応対装置１０が認識している発話の趣旨を把握できるので、応対装置１０は、ユーザーエクスペリエンスを向上させることができる。
なお、ステップＳ１０７の処理が省略され、選択部１７２は、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタＣの画像表示を制御することなく、表示情報を表示部１１に表示させてもよい。また、ステップＳ１０８の処理が省略され、選択部１７２は、表示情報を表示部１１に表示させることなく、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタＣの画像表示を制御してもよい。

次に、選択部１７２は、選択した関連情報に基づいて、シナリオテーブルに記憶された複数のシナリオの中からシナリオを選択する第２選択処理を実行し、第２選択処理においてシナリオを選択したか否かを判定する（ステップＳ１０９）。
第２選択処理において、選択部１７２は、シナリオテーブルに記憶されたシナリオ毎に、第１選択処理で選択したキーワードの数を計数する。選択部１７２は、何れかのシナリオについて計数した数が所定数（例えば２）以上である場合、計数した数が最も大きいシナリオを選択する。一方、選択部１７２は、何れのシナリオについて計数した数も所定数未満である場合、シナリオを選択しない。
なお、シナリオごとにキーワードの組み合わせに関する条件（ＡＮＤ条件、ＮＯＴ条件等）を設定して、シナリオ選択をしてもよい。シナリオＩＤのＳ０１を例にとって説明すると、選択部１７２は、「トイレ」に加えて「場所を尋ねる情報（「場所」、「どこ」、「行きたい」等）」（ＡＮＤ条件）が認識されるとシナリオＳ０１を選択し、一方、選択部１７２は、「トイレ」に加えて「詰まっている」（ＮＯＴ条件）が認識されるとシナリオＳ０１を選択しない。このように、「トイレ」というキーワードとの組み合わせを考慮することで、利用者の発話内容に沿ったシナリオを適切に選択できる。
また、選択部１７２は、シナリオテーブルに記憶されたシナリオ毎に、第１選択処理で選択した識別器から取得した確度の合計値又は平均値を算出する。選択部１７２は、選択部１７２は、何れかのシナリオについて算出した合計値又は平均値が所定値以上である場合、算出した合計値又は平均値が最も大きいシナリオを選択する。一方、選択部１７２は、何れのシナリオについて算出した合計値又は平均値も所定値未満である場合、シナリオを選択しない。
第２選択処理においてシナリオを選択しなかった場合、選択部１７２は、処理をステップＳ１０１へ戻す。

一方、第２選択処理においてシナリオが選択された場合、応対部１７３は、選択されたシナリオに従って、検知部１７１により検知された人物に対する応対を行い（ステップＳ１１０）、処理をステップＳ１０１へ戻す。応対部１７３は、音声入出力部１４を介して、キャラクタに、検知された人物と対話させることによって、その人物に対する応対を行う。応対部１７３は、シナリオテーブルにおいて、選択したシナリオに関連付けて記憶された応答情報に従って、音声入出力部１４からキャラクタの音声を出力することにより、キャラクタに対象空間内の人物と対話させる。

以上説明してきたように、本発明に係る応対装置１０は、対話のシナリオを選択するために用いられる関連情報を選択した場合、選択した関連情報についての表示情報を表示させる。これにより、対象空間内の人物は、応対装置１０が認識している発話の趣旨を把握し、自分の意図が適切に伝わっていることを認知でき、安心感を得ることができる。したがって、応対装置１０は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことが可能となる。

また、本発明に係る応対装置１０は、入力された音声に対して特定の認識情報を得たタイミングで、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタの画像表示を制御する。これにより、対象空間内の人物は、自分の発話に対して応対装置１０が何らかの認識をしていることを把握でき、安心感を得ることができる。したがって、応対装置１０は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことが可能となる。

従来、対話型の情報処理装置は、利用者との対話において、一定間隔で相槌を打つ程度のコミュニケーションを取ることしか行っていなかった。そのため、利用者は、情報処理装置との対話において、情報処理装置が自分の発話を正しく認識しているかを把握できず、求めていることに対する適切な回答が得られるか、不安を感じる場合があった。一方、応対装置１０は、特定の認識情報を得たタイミングで、認識した旨及び／又は認識した内容を利用者に伝えるため、利用者に安心感を与えることができ、ユーザーエクスペリエンスを向上させることが可能となる。

上記では、入力音声に対応する文字情報Ｔ４を表示部１１に表示する例を示したが、利用者の発話内容によっては表示することが好ましくない内容もある。例えば、暴力的な内容、差別的な内容、プライバシーに関する内容等である。そこで、表示することが好ましくない発話内容（表示不適内容）を予め記憶部に記憶しておき、入力音声に対応する文字情報が表示不適内容である場合には、選択部１７２は当該箇所を伏せ字等にすることにより表示されないようにする。例えば、利用者が「打ち合わせの約束で来た佐藤です。」と認識した場合、「人物名」がプライバシーに関する情報として表示不適内容として登録されていると、「打ち合わせの約束で来た＊＊です」のように表示する。この表示不適内容の非表示処理により、利用者の発話内容が表示に好ましくない場合はもちろんのこと、音声認識の誤りにより不適切な内容が表示されてしまうことも防止できる。

上記では、利用者との対話において認識結果を表示することで、利用者の発話の意図を認識していることを示すものについて説明したが、利用者が応対装置１０に接近したタイミングで音声の入力を受け付けている状態であることを利用者に示すようにしてもよい。例えば、通常動作から応対動作に切り替わると選択部１７２は、周囲の環境音や音声集音状態を示すアイコンや集音レベルを示す模式的な波形等を表示部１１に表示する。或いは、音声認識に関するアイコンを常時表示しておき、応対動作に切り替わると音声の入力を受け付けている状態であることを示すようにアイコンの表示を変化させてもよい。これにより、利用者は自身が認識されたことを把握できるとともに、キャラクタＣが音声の入力を受け付けていることも把握できるため、自然に話しかけることができるようになる。

１０応対装置、１１表示部、１４音声入出力部、１６記憶部、１７１検知部、１７２選択部、１７３応対部

Claims

キャラクタの画像を表示する表示部と、
前記キャラクタの音声の出力及び周囲の音声の入力をする音声入出力部と、
複数のシナリオと、前記複数のシナリオに関連する複数の関連情報とを記憶する記憶部と、
所定空間内の人物を検知する検知部と、
前記複数の関連情報の中から、前記音声入出力部から入力された音声に対応する関連情報を選択し、前記選択した関連情報に基づいて前記複数のシナリオの中からシナリオを選択する選択部と、
前記選択されたシナリオに従って、前記音声入出力部を介して前記キャラクタに前記検知された人物と対話させることによって応対を行う応対部と、を有し、
前記選択部は、前記関連情報を選択した場合、当該選択した関連情報についての表示情報を前記表示部に表示させる、
ことを特徴とする対話型応対装置。
前記選択部は、前記複数の関連情報の中から、前記音声入出力部から入力された音声に含まれる用語を含む関連情報を選択する、請求項１に記載の対話型応対装置。
前記選択部は、前記音声入出力部から入力された音声をテキスト化した文字情報を前記表示部に表示させ、前記文字情報の中で、前記表示情報を他の文字情報と識別可能に表示させる、請求項１または２に記載の対話型応対装置。
前記選択部は、前記表示情報を前記キャラクタの頭部領域と関連付けて前記表示部に表示させる、請求項１または２に記載の対話型応対装置。
前記表示情報は、前記音声入出力部から入力された音声の趣旨を示す文字情報であり、
前記選択部は、前記音声入出力部から入力された音声をテキスト化した文字情報を前記表示部に表示させるにあたって、前記表示情報を前記表示部に表示させ、当該表示情報以外の文字情報を前記表示部に表示させない、請求項１または２に記載の対話型応対装置。