JP6359327B2

JP6359327B2 - 情報処理装置および制御プログラム

Info

Publication number: JP6359327B2
Application number: JP2014091919A
Authority: JP
Inventors: 暁本村; 正徳荻野
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-04-25
Filing date: 2014-04-25
Publication date: 2018-07-18
Anticipated expiration: 2034-04-25
Also published as: WO2015162953A1; JP2015210390A; CN106233377A; US20170032788A1; CN106233377B

Description

本発明は、発話者が発した音声に応じたフレーズを決定する情報処理装置等に関する。

人間とロボットとが対話可能な対話システムが、従来から広く研究されている。例えば、特許文献１には、入力音声信号の蓄積と、入力音声信号の分析と、蓄積した入力音声信号の分析と、の何れの処理を行うかを切り換え、入力音声信号を蓄積する場合は、入力音声信号の順序を入れ替えて音声認識することが記載されている。

特開平１０−１２４０８７号公報（１９９８年５月１５日公開）特開２００６−１０６７６１号公報（２００６年４月２０日公開）特開２００６−１７１７１９号公報（２００６年６月２９日公開）特開２００７−７９３９７号公報（２００７年３月２９日公開）

特許文献１〜４に開示された技術をはじめとして、従来技術においては、質問に対するロボットからの回答が終了するまで、発話者は待機するであろうことが想定される一問一答のコミュニケーションが前提とされている。そのため、複数の呼びかけが連続してなされた場合に不適切な応答をする場合があるという問題がある。なお、このような問題点は、ロボットに限られず、人間の発する音声を認識して、その音声に対する応答を決定する情報処理装置全般に生じる問題点である。本発明は、この問題に鑑みてなされたものであって、複数の呼びかけが連続してなされた場合であっても適切な応答を行うことのできる情報処理装置等を提供することにある。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する自装置の対応状況を特定する対応状況特定手段と、上記対象呼びかけに応答するフレーズとして、上記対応状況特定手段が特定した対応状況に応じたフレーズを決定するフレーズ決定手段とを備えている。

本発明の一態様によれば、複数の呼びかけが連続してなされた場合であっても、適切な応答を行うことができるという効果を奏する。

本発明の実施形態１に係る情報処理装置の構成を示す機能ブロック図である。本発明の実施形態１に係る情報処理装置が呼びかけに対する応答を出力する処理を示すフローチャートである。呼びかけに対する対応状況の例を示す図である。特定された対応状況のパターンに応じたテンプレートを選択する処理の詳細を示すフローチャートである。本発明の実施形態２に係る情報処理装置の構成を示す機能ブロック図である。本発明の実施形態２に係る情報処理装置が呼びかけに対する応答を出力する処理を示すフローチャートである。本発明の実施形態３に係る情報処理装置のハードウェア構成を示すブロック図である。

〔実施形態１〕
〔１．情報処理装置１の概要〕まず、情報処理装置１の構成について図１に基づいて説明する。図１は情報処理装置１の構成を示す機能ブロック図である。情報処理装置１は、ユーザの音声による一つの呼びかけ（以下、当該呼びかけを“処理対象の呼びかけ（対象呼びかけ）”と表す）に対する応答として、当該処理対象の呼びかけ以外の呼びかけ（以下、“他の呼びかけ”と表す。）に対する情報処理装置１の対応状況に基づいて生成したフレーズを出力する装置である。情報処理装置１は、例えば対話ロボットのように、ユーザとの対話を主機能とする装置であってもよいし、例えば掃除ロボットのように、他の機能を主機能とする装置であってもよい。また、図１に示すように、情報処理装置１は、音声入力部２、音声出力部３、制御部４、および記憶部５を備えている。

音声入力部２は、ユーザの音声を信号に変換し、制御部４へ出力する。音声入力部２はマイクロフォンであってもよく、またＡ／Ｄ（Analog/Digital）コンバータを備えていてもよい。音声出力部３は、制御部４から出力される信号に基づき、音声を出力する。音声出力部３は、スピーカーであってもよく、また増幅回路やＤ／Ａ（Digital/Analog）コンバータを備えていてもよい。制御部４は、図１に示す通り、音声解析部４１、パターン特定部（対応状況特定手段）４２、フレーズ生成部（フレーズ決定手段）４３、およびフレーズ出力制御部４４を含んでいる。

音声解析部４１は、音声入力部２から出力された信号を解析し、呼びかけとして受け付ける。呼びかけを受け付けた場合、音声解析部４１は、当該呼びかけを受け付けた順番を示す番号（以下、受付番号と表す）および該呼びかけを受け付けたことを対応状況情報５１へ記録し、また、受付番号をパターン特定部４２へ通知する。また、音声解析部４１は、音声を解析した結果を音声解析情報５３として、呼びかけごとに記憶部５へ記録する。

パターン特定部４２は、受付番号を音声解析部４１から通知された場合、対応状況情報５１を参照することによって、複数の呼びかけのそれぞれに対する情報処理装置１の対応状況（以下、単に対応状況と表す）が、予め定められたパターンのいずれに合致するかを特定する。より詳細には、パターン特定部４２は、パターンを特定する時点（処理対象の呼びかけの受付後、応答前）の直近に行われた他の呼びかけの処理（他の呼びかけの受付または応答）に応じて対応状況を特定する。そして、パターン特定部４２は、特定された対応状況のパターンを、受付番号と合わせてフレーズ生成部４３へ通知する。なお、パターン特定部４２が対応状況を判断するタイミングは、受付番号を通知された直後（処理対象の呼びかけが受け付けられた直後）に限られない。例えば、パターン特定部４２は、受付番号を通知された後、所定の時間経過時に対応状況を判断してもよい。

フレーズ生成部４３は、パターン特定部４２が特定した対応状況のパターンに応じて、呼びかけに対する応答となるフレーズを生成（決定）する。フレーズ生成部４３がフレーズを生成する処理の詳細は後述する。また、フレーズ生成部４３は生成したフレーズを、受付番号と合わせてフレーズ出力制御部４４へ出力する。

フレーズ出力制御部４４は、フレーズ生成部４３から出力されたフレーズを、音声出力部３から音声として出力させる。また、フレーズ出力制御部４４は、呼びかけに対して応答したことを、受付番号と合わせて、対応状況情報５１として記憶部５へ記録させる。

記憶部５は、対応状況情報５１、テンプレート情報５２、音声解析情報５３、および基本フレーズ情報５４を記憶する。記憶部５は、揮発性の記録媒体および／または不揮発性の記録媒体によって構成されていてもよい。対応状況情報５１は、呼びかけの受付の順序を示す情報、および呼びかけに対する応答の出力の順序を示す情報を含んでいる。下記の表１は対応状況情報５１の一例を示す表である。該表において、“＃”行は記録した順番、“受付番号”行は呼びかけの受付番号、“処理”行は情報処理装置１が呼びかけを受け付ける処理を行ったことまたは呼びかけへの応答を出力する処理を行ったことを示す。

テンプレート情報５２は、フレーズ生成部４３が呼びかけに対する応答となるフレーズを生成するために用いる予め定められたテンプレートが対応状況のパターンごとに定められた情報である。なお、対応状況のパターンとテンプレートの対応付けについては、のちに表４を参照して詳細に説明する。本実施形態におけるテンプレート情報５２は、下記に説明するテンプレートＡ〜Ｅの情報を含んでいる。

テンプレートＡは、呼びかけに対して、呼びかけの直接の回答（応答）となるフレーズ（基本フレーズ情報５４に基づいて決定されるフレーズ）を、そのまま応答となるフレーズとするというテンプレートである。テンプレートＡは、呼びかけとそれに対する応答との対応関係をユーザが認識可能な対応状況にて用いられる。

テンプレートＢは、いずれの呼びかけに対する応答であるかを示す文言を、応答となるフレーズに含めるというテンプレートである。テンプレートＢは、例えば複数の呼びかけが連続してなされた場合のように、呼びかけとそれに対する応答との対応関係を、ユーザが認識することが困難な対応状況にて用いられる。いずれの呼びかけに対する応答であるかを示す文言は、“そう言えばさっきの話だけど”などの予め定められた文言であってもよい。また、呼びかけを要約した文言であってもよい。具体的には、例えば呼びかけが「好きな動物は何？」であった場合、「好きな動物は」、「好きなのは」、「好きな動物」などの文言であってもよい。また、呼びかけを繰り返し、さらに、定型句を付した文言であってもよい。具体的には、例えば、呼びかけが「好きな動物は何？」であった場合は、「“好きな動物は何？”（呼びかけの繰り返し）“って聞いた？”（定型句）」という文言であってもよい。また、「一つ前の話題だけど」などの、応答を返す呼びかけの順序を特定する文言であってもよい。

テンプレートＣは、呼びかけを再度行ってもらうためのフレーズを生成するためのテンプレートである。テンプレートＣは、例えば、「さっきの話、何でしたっけ？」、「さっきなんて言った？」、「もう一度さっきの話をして」などの予め定められたフレーズであってもよい。テンプレートＣもテンプレートＢと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートＣの場合、ユーザに再度呼びかけを行わせるので、例えば２つの呼びかけが連続してなされ、そのいずれにも応答が返されていない対応状況において、応答させたい呼びかけを何れにするかをユーザに選択させることができる。

テンプレートＤは、処理対象の呼びかけより前に受け付けられた呼びかけに関する処理を行っているため、処理対象の呼びかけに対する直接的な応答を返すことができないことを示すフレーズを生成するためのテンプレートである。テンプレートＤもテンプレートＢ、Ｃと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートＤでは、先に受け付けた呼びかけを優先する旨をユーザに伝えて、後の呼びかけ（処理対象の呼びかけ）への応答をキャンセルする（先勝ち）ことにより、呼びかけとそれに対する応答との対応関係をユーザに認識させる。テンプレートＤは、例えば、「他のことを考え中なので答えられないよ」、「ちょっと待ってね」、「あとにしてくれる」などの予め定められたフレーズであってもよい。

テンプレートＥは、処理対象の呼びかけより後に受け付けられた呼びかけに対する処理が開始されたために、処理対象の呼びかけに対する応答を返すことができなくなったことを示すフレーズを生成するためのテンプレートである。テンプレートＥもテンプレートＢ〜Ｄと同様に、呼びかけとそれに対する応答との対応関係をユーザが認識することが困難な対応状況にて用いられる。テンプレートＥでは、後に受け付けた呼びかけ（処理対象の呼びかけ）を優先する旨をユーザに伝えて、後の呼びかけへの応答をキャンセルする（後勝ち）ことにより、呼びかけとそれに対する応答との対応関係をユーザに認識させる。テンプレートＥは、例えば「何言おうとしていたのか忘れちゃった」、「続けて聞くから前になんて聞かれたのか忘れちゃったよ」などの予め定められたフレーズであってもよい。

音声解析情報５３は、ユーザからの音声による呼びかけを解析した結果を示す情報である。ユーザからの音声による呼びかけを解析した結果は受付番号と対応付けられている。基本フレーズ情報５４は、呼びかけに対する直接の回答となるフレーズを生成するための情報である。具体的には、予め定められた呼びかけの文言と、直接の回答となるフレーズまたは直接の回答となるフレーズを生成するための情報とが対応付けられた情報である。下記の表２は、基本フレーズ情報５４の一例である。基本フレーズ情報５４が表２に示す情報である場合、“好きな動物は何？”という呼びかけに対する直接の回答となるフレーズ（テンプレートＡが用いられた場合のフレーズ）は“犬だよ”である。また、“今日の天気は何？”という呼びかけに対する直接の回答となるフレーズは、図示しないサーバに、図示しない通信部を介して問い合わせた結果である。なお、基本フレーズ情報５４は、情報処理装置１の記憶部５に格納されていてもよいが、情報処理装置１に外付けされた外部記憶装置に格納されていてもよい。また、図示しないサーバに基本フレーズ情報５４を格納されていてもよい。他の情報についても同様である。

〔２．呼びかけに対する応答の生成に係る処理〕次に、情報処理装置１における呼びかけに対する応答を出力する処理を図２に基づいて説明する。図２は情報処理装置１における呼びかけに対する応答を出力する処理を示すフローチャートである。

最初に、ユーザが呼びかけを音声によって発呼した場合（Ｓ０）、音声入力部２は当該音声の入力を信号に変換し、音声解析部４１へ出力する。音声解析部４１は、音声入力部２から出力された信号を解析し、ユーザからの呼びかけとして受け付ける（Ｓ１）。呼びかけを受け付けた場合、音声解析部４１は、当該呼びかけ（処理対象の呼びかけ）の受付番号および処理対象の呼びかけを受け付けたことを対応状況情報５１へ記録し、また、受付番号をパターン特定部４２へ通知する。また、音声解析部４１は、処理対象の呼びかけの音声を解析した結果を音声解析情報５３として、記憶部５へ記録する。

音声解析部４１から受付番号を通知されたパターン特定部４２は、対応状況情報５１を参照し、呼びかけに対する情報処理装置１の直前の対応状況が、予め定められたいずれの対応状況のパターンに合致するかを特定する（Ｓ２）。続いて、パターン特定部４２は、特定された対応状況のパターンを、受付番号と合わせてフレーズ生成部４３へ通知する。

パターン特定部４２から受付番号および対応状況のパターンの通知を受けたフレーズ生成部４３は、当該対応状況のパターンに応じたテンプレートを選択する（Ｓ３）。続いて、パターン特定部４２は、選択されたテンプレートが複数であるか否かを判定する（Ｓ４）。選択されたテンプレートが複数であった場合（Ｓ４でＹＥＳ）、フレーズ生成部４３は、選択されたテンプレートから一つのテンプレートを選択する（Ｓ５）。フレーズ生成部４３は、選択する一つのテンプレートを、音声解析情報５３を参照して呼びかけの内容に基づいて決定してもよいし、情報処理装置１に関する他の情報に基づいて決定してもよい。

続いて、フレーズ生成部４３は、選択された一つのテンプレートを用いて呼びかけに対するフレーズ（応答）を生成（決定）する（Ｓ６）。また、フレーズ生成部４３は生成したフレーズを、受付番号と合わせてフレーズ出力制御部４４へ出力する。続いて、フレーズ出力制御部４４は、フレーズ生成部４３から出力されたフレーズを、音声出力部３から音声として出力させる（Ｓ７）。また、フレーズ出力制御部４４は、呼びかけに対して応答したことを、受付番号と合わせて、対応状況情報５１として記憶部５へ記録させる。

〔２．１．対応状況のパターンの特定〕図２のＳ２に示す対応状況のパターンの特定に係る処理について、図３および下記の表３に基づき詳細に説明する。図３は呼びかけに対する対応状況の例を示す図である。また、表３は、パターン特定部４２によって特定される呼びかけの対応状況のパターンを示す表である。表３の例では、処理対象呼びかけの受付後に他の呼びかけ（呼びかけＮ＋Ｌ）を受け付けた場合と、他の呼びかけ（呼びかけＮ−Ｍ）の受付後に処理対象呼びかけを受け付けた場合とを、それぞれ異なるパターンとしている。

なお、Ｎ、Ｍ、Ｌはそれぞれ正の整数を示す。ただし、以下では簡単のため、Ｍ＝１，Ｌ＝１である例を説明する。また、“●”および“○”は共にパターン特定部４２がパターンを特定する時点において、処理（呼びかけの受付または呼びかけへの応答）が行われていることを示す。“●”と“○”との差異は、“●”は呼びかけＮが受け付けられた時点において既に処理が行われていたことを示し、“○”は呼びかけＮが受け付けられた時点において処理が行われていなかったことを示す点である。“×”は、パターンが特定される時点において処理が行われていないことを示す。なお、所定の処理の“●”と“○”は、処理対象の呼びかけの“受付”を示す列の“＃”行の値と、当該所定の処理を示す列の“＃”行の値との大小関係に基づいて識別される。“呼びかけａ”は、受付番号が“ａ”である呼びかけを示し、“応答ａ”は、“呼びかけａ”に対する応答を示す。パターン特定部４２が図２のＳ２に示す処理において特定するパターンは、表３に示すパターン１〜５のいずれかである。

まず、パターン特定部４２が、対応状況情報５１に基づいて対応状況のパターンを特定する方法について説明する。なお、処理対象の呼びかけを呼びかけＮとする。例えば、表１の対応状況情報５１のうち、＃＝２の処理の受付が完了した時点においては、呼びかけＮ−Ｍ（Ｍ＝１）の受付が完了しており、該呼びかけＮ−Ｍについて未応答である。よって、この時点においては呼びかけＮ−Ｍの受付が“●”であり、応答が“×”であるから、パターン特定部４２は、表３に従って対応状況がパターン２であると特定する。

また、例えば、呼びかけＮの受付後、応答前に、次の呼びかけＮ＋Ｌ（Ｌ＝１）がなされ、該呼びかけＮ＋Ｌ（Ｌ＝１）の方に先に応答した場合、対応状況情報５１の最も“＃”行の数値が大きい列が呼びかけＮ＋１となり、この列の“処理”行は“応答”となる。これにより、パターン特定部４２は、呼びかけＮ＋Ｌの“受付”および“応答”が“●”であると判定する。よって、この場合、パターン特定部４２は、対応状況がパターン５であると特定する。

続いて、図３に基づき、図２のＳ１に示す処理において呼びかけＮを受け付けた場合に、図３のαに示す時点において対応状況のパターンの特定が行われた場合について例示する。なお、パターンの特定は、呼びかけＮの受付後、応答までの期間（呼びかけＮに対する応答の生成期間）に行えばよく、パターンを特定するタイミングは、図示のαに限定されない。

図３の（１−２）のαに示す時点では、直前の呼びかけは、呼びかけＮ−１である（つまり、呼びかけＮ−Ｍの受付処理が“●”）。また、呼びかけＮが受け付けられた時点において、呼びかけＮ−１に対する応答Ｎ−１が出力済みである（つまり、呼びかけＮ−Ｍの応答処理が“●”）。よって、パターン特定部４２は、表３に従い、図３の（１−２）のαにおける対応状況がパターン１であると特定する。

図３の（２）のαに示す時点では、直前の呼びかけは、呼びかけＮ−１である（つまり、呼びかけＮ−Ｍの受付処理が“●”）。また、呼びかけＮ−１に対する応答は出力されていない（つまり、呼びかけＮ−Ｍの応答処理が“×”）。よって、パターン特定部４２は、表３に従い、図３の（２）のαにおける対応状況がパターン２であると特定する。

以下、同様に、パターン特定部４２は、図３の（３）のαではパターン３、（４）のαではパターン４、（５）のαではパターン５であると特定する。なお、図３の（１−１）のαでは直前の呼びかけが存在しないが、本実施形態においては、パターン特定部４２は、このような直前の呼びかけが存在しない場合には、パターン１であると特定する。

〔２．２．対応状況のパターンに応じたテンプレートの選択〕図２のＳ３に示す、特定されたパターンに応じたテンプレートを選択する処理について、図４および下記の表４に基づき詳細に説明する。図４は図２のＳ３に示す処理の詳細を表すフローチャートである。また、表４は、各パターンと選択されるテンプレートの対応関係を示す表である。

フレーズ生成部４３は、パターン特定部４２から通知されたパターンが何であるかを確認する（Ｓ３１）。続いて、フレーズ生成部４３は、通知されたパターンと対応するテンプレートを選択する（Ｓ３２〜Ｓ３５）。選択されるテンプレートは、表４において“○”が記載されたテンプレートである。例えば、通知されたパターンがパターン１であった場合、テンプレートＡが選択される（Ｓ３２）。

上記の構成によれば、いずれの呼びかけに対する応答であるか明らかである場合（パターン１−１または１−２である場合）は、呼びかけに対する直接の回答となる簡潔なフレーズを生成するためのテンプレートが用いられる。一方、いずれの呼びかけに対する応答であるか必ずしも明らかではない場合（パターン２〜５である場合）、他の呼びかけに対する対応状況が考慮されたテンプレート（テンプレートＢ〜Ｅ）が用いられる。

〔変形例〕
上記実施形態において、図２のＳ２において特定された対応状況がパターン２〜５のいずれか（第２の対応状況）であった場合、フレーズ生成部４３は、いずれの呼びかけに対する応答であるかを示す文言を応答となるフレーズに含めるテンプレート（テンプレートＢ）を選択してもよい。

上記の構成によれば、連続してなされた複数の呼びかけに対し、いずれの呼びかけに対する応答であるかが明らかな応答を行うことができる。これにより、ユーザは応答がどの呼びかけと対応するものであるかを知ることができる。また、対応状況がパターン１（第１の対応状況）である場合には、テンプレートＢを用いない（テンプレートＡを用いる）ので、常にテンプレートＢを用いる場合と比較して、いずれの呼びかけに対する応答であるかが明らかである場合（パターン１の場合）に、簡潔なフレーズを応答として出力することができる。

また、パターン２や４のように、受付後、未応答の呼びかけが複数併存した対応状況となった場合、フレーズ生成部４３は、テンプレートＤやＥのような、応答の対象とする呼びかけを絞り込んだことを示すフレーズを生成するテンプレートを選択してもよい。そして、この場合、絞り込みの対象から外れた呼びかけ（応答をキャンセルした呼びかけ）については、音声解析等の処理をキャンセルしてもよい。また、情報処理装置１の処理の負荷が予め定めた閾値を超える場合に、未応答の呼びかけの少なくとも１つについて音声解析等の処理をキャンセルしてもよい。そして、この場合、処理がキャンセルされていない呼びかけに応じたテンプレートを選択してもよい。また、テンプレートＤやＥ等のように、呼びかけの内容を解析することなく応答を生成することのできるテンプレートを用いる場合、すぐに応答を返すことができる。そのため、上記の構成をとる場合は、ユーザとのコミュニケーションがより円滑になる。

また、応答の内容がいずれの呼びかけに対する応答であるかをユーザが認識することが困難であるか否かを判断し、困難であると判断した場合にテンプレートＢを選択してもよい。上記判断の手法は特に限定されないが、例えば呼びかけまたはその応答（基本フレーズ情報５４に登録された応答のフレーズ）に含まれる語および／またはフレーズに基づいて判断してもよい。例えば、「苦手な動物は何？」と「好きな動物は何？」の呼びかけがなされた場合、これらの呼びかけはいずれも「動物」の語を含む類似した呼びかけであり、応答も類似したものとなる可能性があるので、テンプレートＢを選択してもよい。

また、上記実施形態においては、他の呼びかけが１つである場合の例を説明したため、対応状況のパターンは１つのみ特定されたが、他の呼びかけが複数存在する場合、他の呼びかけのそれぞれについて対応状況のパターンを特定してもよい。この場合、複数の異なるパターンが特定される場合がある。複数のパターンが特定された場合は、特定されたすべてのパターンに共通するテンプレートを選択してもよい。例えば、パターン２およびパターン４が特定された場合、表４においてパターン２およびパターン４の行の両方において“○”が記されているテンプレートＢが選択される。また、パターン１以外の複数のパターンが対応状況のパターンとして特定された場合、テンプレートＥを選択してもよい。

また、上記実施形態においては、情報処理装置１がユーザの呼びかけを直接受け付ける例を説明したが、情報処理装置１と、ユーザの呼びかけを受け付ける装置とを独立の装置とした対話システムであっても、上記実施形態と同様の機能を実現できる。この対話システムは、例えば、ユーザの呼びかけを受け付け、その呼びかけに応答する音声を出力する音声対話装置と、該音声対話装置の出力する音声を制御する情報処理装置とを含んでいてもよい。そして、音声対話装置は、ユーザの呼びかけ内容を示す情報を上記情報処理装置に通知し、該情報処理装置は、該通知に基づいて情報処理装置１と同様の処理を行うものであってもよい。なお、この場合、情報処理装置は、音声対話装置に出力させるフレーズを決定する機能を少なくとも備えていればよく、フレーズの生成は該情報処理装置が行ってもよいし、音声対話装置に行わせてもよい。

〔実施形態２〕
本発明の他の実施形態について、図５および６に基づいて説明すれば、以下の通りである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材および処理については、同じ符号を付記し、その説明を省略する。まず、図５に基づいて、本実施形態に係る情報処理装置１Ａと、実施形態１に係る情報処理装置１との差異を説明する。図５は、実施形態２に係る情報処理装置１Ａの構成を示す機能ブロック図である。

本実施形態に係る情報処理装置１Ａと、実施形態１に係る情報処理装置１との差異は、制御部４に替えて、制御部４Ａを備えている点である。また、制御部４Ａと、制御部４との差異は、パターン特定部４２およびフレーズ生成部４３に替えて、パターン特定部４２Ａおよびフレーズ生成部４３Ａを備えている点である。

パターン特定部４２Ａとパターン特定部４２の差異は、パターン特定部４２Ａは、フレーズ生成部４３Ａから処理対象の呼びかけに対する応答となるフレーズが生成されたことの通知を受けて、対応状況がいずれのパターンに合致するかを再度特定する点である。パターン特定部４２Ａは、特定した対応状況のパターンを受付番号と合わせてフレーズ生成部４３Ａへ再度通知する。

フレーズ生成部４３Ａとフレーズ生成部４３の差異は、フレーズ生成部４３Ａは、処理対象の呼びかけの応答となるフレーズを生成した場合に、パターン特定部４２Ａへ当該フレーズを生成したことを通知する点である。また、パターン特定部４２Ａから同一の受付番号と合わせて対応状況のパターンを通知された場合に、対応状況のパターンが変化しているか否かを判定し、対応状況のパターンが変化していた場合、変化後の対応状況のパターンに応じたフレーズを生成する点も異なる。

続いて、情報処理装置１Ａにおける呼びかけに対する応答を出力する処理を、図６に基づいて説明する。図６は情報処理装置１Ａにおける呼びかけに対する応答を出力する処理を示すフローチャートである。

Ｓ６に示す処理において、処理対象の呼びかけに対する応答を生成したフレーズ生成部４３Ａは、パターン特定部４２Ａへ当該フレーズを生成したことを通知する。パターン特定部４２Ａは、当該通知を受けて、他の呼びかけの対応状況を確認し（Ｓ６Ａ）、当該対応状況を受付番号と合わせてフレーズ生成部４３Ａへ通知する。

再度の対応状況の通知を受けたフレーズ生成部４３Ａは、対応状況のパターンが変化しているか否かを判定する（Ｓ６Ｂ）。対応状況のパターンが変化していた場合（Ｓ６ＢでＹＥＳ）、フレーズ生成部４３Ａは、再度Ｓ３以下の処理を実行する。すなわち、処理対象の呼びかけに対する応答となるフレーズを再度生成する。一方、対応状況のパターンが変化していなかった場合（Ｓ６ＢでＮＯ）、Ｓ７からの処理が実行されることにより、処理対象の呼びかけに対する応答として、Ｓ６で生成されたフレーズが出力される。

上記の構成によれば、呼びかけに応じたフレーズを生成している間に、他の呼びかけの対応状況が変化していた場合であっても、適切なフレーズを出力することができる。なお、対応状況を再確認するタイミングは、１度目の対応状況の確認後、処理対象の呼びかけに対する応答出力までの期間であり、対応状況が変化している可能性のある時点であればよく、上記の例（フレーズの生成完了時）に限られない。例えば、１度目の対応状況の確認後、所定の時間が経過したときに、対応状況を再確認してもよい。

〔実施形態３〕
情報処理装置１および１Ａの各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、情報処理装置１および１Ａを図７に示すようなコンピュータ（電子計算機）を用いて構成することができる。図７は、上記の情報処理装置１および１Ａとして利用可能なコンピュータの構成を例示したブロック図である。

この場合、情報処理装置１および１Ａは、図７に示すように、バス１４を介して互いに接続された演算部１１と、主記憶部１２と、補助記憶部１３と、音声入力部２と、音声出力部３とを備えている。演算部１１、主記憶部１２、および補助記憶部１３は、それぞれ、例えばＣＰＵ、ＲＡＭ（random access memory）、ハードディスクドライブであってもよい。なお、主記憶部１２は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などを用いることができる。

補助記憶部１３には、コンピュータを情報処理装置１および１Ａとして動作させるための各種プログラムが格納されている。そして、演算部１１は、補助記憶部１３に格納された上記各プログラムを主記憶部１２上に展開し、主記憶部１２上に展開された上記各プログラムに含まれる命令を実行することによって、コンピュータを、情報処理装置１および１Ａが備える各部として機能させる。

なお、ここでは、内部記録媒体である補助記憶部１３に記録されている上記各プログラムを用いてコンピュータを情報処理装置１および１Ａとして機能させる構成について説明したが、外部記録媒体に記録されているプログラムを用いてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る情報処理装置（１、１Ａ）は、ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する自装置の対応状況を特定する対応状況特定手段（パターン特定部４２、４２Ａ）と、上記対象呼びかけに応答するフレーズとして、上記対応状況特定手段が特定した対応状況に応じた上記フレーズを決定するフレーズ決定手段（フレーズ生成部４３）と、を備えている。

上記の構成によれば、ユーザが発した呼びかけに対して、他の呼びかけの対応状況に応じたフレーズが出力される。なお、他の呼びかけは、対象呼びかけに応答するフレーズを決定するために考慮すべき呼びかけであり、例えば対象呼びかけの直前に受け付けたＭ個の呼びかけであってもよいし、対象呼びかけの直後に受け付けたＬ個の呼びかけであってもよく、これらの両方であってもよい（Ｌ，Ｍは正数）。また、他の呼びかけの対応状況は、他の呼びかけが複数存在する場合には、複数の他の呼びかけのうちの１つに対する対応状況であってもよいし、複数の他の呼びかけの各対応状況を総合して特定された対応状況であってもよい。よって、他の呼びかけに対する対応状況にかかわらず呼びかけに対して画一的なフレーズを出力する構成と比較して、複数の呼びかけに対して適切なフレーズを出力することができる。なお、対応状況特定手段は、呼びかけが受け付けられてから、その呼びかけに応じたフレーズが出力されるまでのいずれかの時点において、対応状況を判断する。また、上記情報処理装置が決定したフレーズは、該情報処理装置から出力してもよいし、他の装置に出力させてもよい。

本発明の態様２に係る情報処理装置は、上記態様１において、上記対応状況特定手段は、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とを、それぞれ異なる対応状況と特定してもよい。該構成によれば、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とのそれぞれに応じた適切なフレーズを決定することが可能になる。例えば、２つの呼びかけが連続してなされた場合に、（１）先の呼びかけのみ応答済み、および（２）後の呼びかけのみ応答済み、の各対応状況に適したフレーズを出力することも可能である。

本発明の態様３に係る情報処理装置は、上記態様１または２において、上記対応状況には、上記他の呼びかけに対してフレーズを決定済みである状態で上記対象呼びかけを受け付けた第１の対応状況と、上記他の呼びかけに対するフレーズが未決定である状態で上記対象呼びかけを受け付けた第２の対応状況とが含まれており、上記フレーズ決定手段は、上記対応状況特定手段が上記第２の対応状況であると特定した場合に、上記第１の対応状況で決定するフレーズと、上記対象呼びかけを示すフレーズとを組み合わせたフレーズを決定してもよい。該構成によれば、呼びかけとその応答との対応がユーザにとって認識困難な第２の対応状況において、呼びかけとその応答との対応がユーザにとって明らかな第１の対応状況で決定するフレーズと、対象呼びかけを示すフレーズとを組み合わせたフレーズを決定するので、出力されるフレーズが対象呼びかけに応答するものであることをユーザに認識させることができる。

本発明の態様４に係る情報処理装置は、上記態様１から３において、上記対応状況特定手段は、対応状況の特定後、特定した対応状況が他の対応状況に変化する可能性のある時点において再度対応状況を特定し、上記フレーズ決定手段（フレーズ生成部４３Ａ）は、上記対応状況特定手段が先に特定した対応状況と、後に特定した対応状況とが異なっていた場合、後に特定された対応状況に応じたフレーズを決定してもよい。該構成によれば、呼びかけに応じたフレーズを生成している間に、対応状況が変化した場合であっても、適切なフレーズを出力することができる。

本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各手段として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを出力する情報処理装置および情報処理システムに利用することができる。

１、１Ａ情報処理装置
４２、４２Ａパターン特定部（対応状況特定手段）
４３、４３Ａフレーズ生成部（フレーズ決定手段）

Claims

ユーザが呼びかけた音声に応答するフレーズを決定する情報処理装置であって、
応答のフレーズを決定すべき対象呼びかけを受け付けた場合に、該対象呼びかけとは異なる他の呼びかけに対する対応状況を特定する対応状況特定手段と、
上記対象呼びかけに応答するフレーズとして、上記対応状況特定手段が特定した対応状況に応じたフレーズを決定するフレーズ決定手段と、を備えていることを特徴とする情報処理装置。
上記対応状況特定手段は、上記対象呼びかけの受付後に上記他の呼びかけを受け付けた場合と、上記他の呼びかけの受付後に上記対象呼びかけを受け付けた場合とを、それぞれ異なる対応状況と特定することを特徴とする請求項１に記載の情報処理装置。
上記対応状況には、上記他の呼びかけに対してフレーズを決定済みである状態で上記対象呼びかけを受け付けた第１の対応状況と、上記他の呼びかけに対するフレーズが未決定である状態で上記対象呼びかけを受け付けた第２の対応状況とが含まれており、
上記フレーズ決定手段は、上記対応状況特定手段が上記第２の対応状況であると特定した場合に、上記第１の対応状況で決定するフレーズと、上記対象呼びかけを示すフレーズとを組み合わせたフレーズを決定することを特徴とする請求項１または２に記載の情報処理装置。
上記対応状況特定手段は、対応状況の特定後、特定した対応状況が他の対応状況に変化する可能性のある時点において再度対応状況を特定し、
上記フレーズ決定手段は、上記対応状況特定手段が先に特定した対応状況と、後に特定した対応状況とが異なっていた場合、後に特定された対応状況に応じたフレーズを決定することを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
請求項１から４のいずれか１項に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。