JP6257368B2 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP6257368B2 JP6257368B2 JP2014028894A JP2014028894A JP6257368B2 JP 6257368 B2 JP6257368 B2 JP 6257368B2 JP 2014028894 A JP2014028894 A JP 2014028894A JP 2014028894 A JP2014028894 A JP 2014028894A JP 6257368 B2 JP6257368 B2 JP 6257368B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- phrase
- speaker
- input
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Manipulator (AREA)
- Toys (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、発話者が発した音声に応じて、当該発話者に所定のフレーズを提示する情報処理装置等に関するものである。
人間とロボットとが対話可能な対話システムが、従来から広く研究されている。例えば、特許文献1には、ニュースおよび会話のデータベースを用いて、発話者との対話を継続、発展させることのできる対話型情報システムが開示されている。また、特許文献2には、複数の対話シナリオを扱うマルチ対話システムにおいて、発話者の混乱を防ぐために、対話シナリオを切り替える際の応答様式の連続性を保持する対話方法、対話装置が開示されている。特許文献3には、入力された音声の順序を入れ替えて認識処理を実行することにより、発話者に対し違和感やストレスを与えない音声対話を提供する音声対話装置が開示されている。
特許文献1〜4に開示された技術をはじめとして、従来技術においては、あくまでも「質問・回答サービス」(質問に対するロボットからの回答が終了するまで、発話者は待機するであろうことが想定されるもの)における一問一答のコミュニケーションが前提とされている。このため、人対人の対話に近い自然な対話を実現できないという問題がある。
具体的には、人対人の対話においてもそうであるように、対話システムにおいても、発話者からロボットへの先の呼びかけ(音声)に対する先の応答(フレーズ)が遅延し、当該応答が出力されないうちに、次の呼びかけが入力されることが想定される。この場合、先の応答出力と次の呼びかけに対する後の応答出力とが交錯する現象が起こる。自然な(人間らしい)対話を実現するためには、これらの交錯する応答出力を対話の状況に応じて適切に処理することが要求される。しかしながら、従来技術は一問一答のコミュニケーションを前提としており、上記要求に応えられる技術は従来なかった。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、立て続けに音声が入力された場合であっても、発話者との自然な対話を実現する情報処理装置、対話システム、および、情報処理装置の制御プログラムを実現することにある。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、上記音声または該音声が認識された結果を、当該音声の属性を示す属性情報と対応付けて記憶部に記憶することにより、当該音声の入力を受け付ける受付手段と、上記受付手段によって受け付けられた音声に対応するフレーズを提示する提示手段と、先に入力された第1の音声に対応する第1のフレーズが上記提示手段によって提示される前に第2の音声が入力された場合に、上記記憶部に記憶されている1以上の属性情報の少なくとも1つに基づいて、上記第1のフレーズの提示要否を判断する判断手段とを備えている。
本発明の一態様によれば、立て続けに音声が入力された場合であっても、発話者との自然な対話を実現することができるという効果を奏する。
≪実施形態1≫
図1〜図4に基づいて、本発明の実施形態1を説明する。
図1〜図4に基づいて、本発明の実施形態1を説明する。
〔対話システムの概要〕
図2は、対話システム300を概略的に示す模式図である。図2に示されるように、対話システム(情報処理システム)300は、対話ロボット(情報処理装置)100とサーバ(外部装置)200とを含む。対話システム300によれば、発話者は、自然言語を用いた音声(例えば、音声1a、音声1b・・・)を対話ロボット100に入力し、その応答として対話ロボット100から提示されるフレーズ(例えば、フレーズ4a、フレーズ4b・・・)を聞く(あるいは読む)。これにより、発話者は、対話ロボット100と自然な対話を行い、様々な情報を得ることができる。具体的には、対話ロボット100は、発話者が発した音声に応じて、当該発話者に所定のフレーズ(返答文)を提示する装置である。対話ロボット100として機能する本発明の情報処理装置は、音声を入力可能であり、入力された音声に基づいて上記所定のフレーズを提示可能な機器でありさえすればよく、対話ロボットに限定されない(例えば、上記対話ロボット100は、タブレット端末、スマートフォン、パーソナルコンピュータなどによっても実現され得る)。
図2は、対話システム300を概略的に示す模式図である。図2に示されるように、対話システム(情報処理システム)300は、対話ロボット(情報処理装置)100とサーバ(外部装置)200とを含む。対話システム300によれば、発話者は、自然言語を用いた音声(例えば、音声1a、音声1b・・・)を対話ロボット100に入力し、その応答として対話ロボット100から提示されるフレーズ(例えば、フレーズ4a、フレーズ4b・・・)を聞く(あるいは読む)。これにより、発話者は、対話ロボット100と自然な対話を行い、様々な情報を得ることができる。具体的には、対話ロボット100は、発話者が発した音声に応じて、当該発話者に所定のフレーズ(返答文)を提示する装置である。対話ロボット100として機能する本発明の情報処理装置は、音声を入力可能であり、入力された音声に基づいて上記所定のフレーズを提示可能な機器でありさえすればよく、対話ロボットに限定されない(例えば、上記対話ロボット100は、タブレット端末、スマートフォン、パーソナルコンピュータなどによっても実現され得る)。
サーバ200は、発話者が対話ロボット100に対して発した音声に応じて、当該発話者に所定のフレーズを提示するように、対話ロボット100にフレーズを供給する装置である。なお、図2に示されるように、対話ロボット100とサーバ200とは、所定の通信方式にしたがう通信網5を介して通信可能に接続されている。
本実施形態では、一例として、対話ロボット100は、入力された音声を認識する機能を有し、音声認識結果をリクエスト2としてサーバ200に送信することにより、当該音声に対応するフレーズをサーバ200に要求する。サーバ200は、対話ロボット100から送信された音声認識結果に基づいて、これに対応するフレーズを生成し、生成したフレーズをレスポンス3として対話ロボット100に返信する。なお、フレーズの生成方法は、特に限定されず、従来の技術が採用されてもよい。例えば、音声認識結果に対応付けて記憶部に格納されたフレーズセットから適切なフレーズを取得したり、記憶部に格納されたフレーズの素材集から音声認識結果に合う素材を適宜組み合わせたりすることによって、音声に対応するフレーズを生成することができる。
以下では、音声認識を対話ロボット100にて行う対話システム300を具体例に用いて本発明の情報処理装置の機能を説明するが、これは説明のための一例に過ぎず、本発明の情報処理装置の構成を限定するものではない。
〔対話ロボットの構成〕
図1は、対話ロボット100およびサーバ200の要部構成を示す図である。対話ロボット100は、制御部10、通信部11、記憶部12、音声入力部13および音声出力部14を備えている。
図1は、対話ロボット100およびサーバ200の要部構成を示す図である。対話ロボット100は、制御部10、通信部11、記憶部12、音声入力部13および音声出力部14を備えている。
通信部11は、所定の通信方式にしたがう通信網5を介して外部装置(サーバ200など)と通信する。外部装置との通信を実現する本質的な機能が備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。例えば、通信部11は、イーサネット(登録商標)アダプタなどの機器で構成できる。また、通信部11は、例えばIEEE802.11無線通信、Bluetooth(登録商標)などの通信方式や通信媒体を利用できる。本実施形態では、通信部11は、サーバ200にリクエスト2を送信する送信部と、サーバ200からレスポンス3を受信する受信部とを少なくとも含む。
音声入力部13は、対話ロボット100の周囲から音声(発話者の音声1a、1b・・・など)を集めるマイクとして構成される。音声入力部13から集められた音声は、デジタル信号に変換されて音声認識部20に入力される。音声出力部14は、制御部10の各部で処理され出力されたフレーズ(例えば、フレーズ4a、4b・・・)を、音に変換して外部に出力するスピーカとして構成される。音声入力部13および音声出力部14は、それぞれ、対話ロボット100に内蔵されたものであってもよいし、外部接続端子を介して外付けされたものであってもよいし、通信可能に接続されたものであってもよい。
記憶部12は、ROM(Read Only Memory)、NVRAM(Non-Volatile Random Access Memory)、フラッシュメモリなどの不揮発性の記憶装置によって構成され、実施形態1では、音声管理テーブル40aおよび閾値41a(例えば図3)が格納される。
制御部10は、対話ロボット100が有する各種の機能を統括的に制御する。制御部10は、機能ブロックとして、少なくとも、入力管理部21、出力要否判断部22およびフレーズ出力部23を含み、必要に応じて、音声認識部20、フレーズ要求部24およびフレーズ受信部25を含む。機能ブロックは、CPU(Central Processing Unit)などが、不揮発性の記憶装置(記憶部12)に記憶されているプログラムを不図示のRAM(Random Access Memory)等に読み出して実行することで実現できる。
音声認識部(音声認識手段)20は、音声入力部13を介して入力された音声のデジタル信号を解析して、音声内の言葉をテキストデータに変換するものである。上記テキストデータは、音声認識結果として、対話ロボット100またはサーバ200の下流の各部によって処理される。音声認識部20は、公知の音声認識技術が適宜採用されればよい。
入力管理部(受付手段)21は、発話者によって入力された音声およびその入力履歴を管理するものである。具体的には、入力管理部21は、入力された音声について、当該音声を一意に特定できる情報(例えば、音声ID、上記音声認識結果、または、音声のデジタル信号(以下、音声データ))とともに、当該音声の属性を表す属性情報(図3にて詳述)を少なくとも1つ対応付けて、音声管理テーブル40aに格納する。
出力要否判断部(判断手段)22は、入力された音声に対する返答(以下、フレーズ)を、後述のフレーズ出力部23に出力させるか否かを判断するものである。具体的には、出力要否判断部22は、音声が立て続けに入力された場合に、入力管理部21によって音声ごと付与された属性情報に基づいて、フレーズの出力要否を判断する。これにより、一問一答のコミュニケーションではなく、複数の音声が、一つ一つの返答を待たずに立て続けに対話ロボット100に入力されるような状況が発生する対話において、不要なフレーズの出力を省いて、対話の自然な流れを維持することができる。
フレーズ出力部(提示手段)23は、出力要否判断部22の判断にしたがって、発話者が入力した音声に対応するフレーズを、発話者が認知可能な形式で提示するものであり、出力要否判断部22が出力不要と判断したフレーズについては提示しない。フレーズを提示する方法の一例として、フレーズ出力部23は、テキスト形式のフレーズを、音声データに変換して、音声出力部14に出力させ、音で発話者に認知させる。ただし、これに限定されず、フレーズ出力部23は、テキスト形式のフレーズを図示しない表示部に出力して、当該フレーズを文字として発話者に視認させる構成であってもよい。
フレーズ要求部(要求手段)24は、対話ロボット100に入力された音声に対応するフレーズをサーバ200に要求するものである。一例として、フレーズ要求部24は、上記音声認識結果を含むリクエスト2を、通信部11を介してサーバ200に送信する。
フレーズ受信部(受信手段)25は、サーバ200から供給されたフレーズを受信するものである。具体的には、フレーズ受信部25は、リクエスト2に対応してサーバ200から送信されたレスポンス3を受信する。フレーズ受信部25は、レスポンス3の内容を分析してどの音声に対応するフレーズが受信されたのかを出力要否判断部22に通知するとともに、受信したフレーズをフレーズ出力部23に供給する。
〔サーバの構成〕
図1に示すとおり、サーバ200は、制御部50、通信部51および記憶部52を備えている。通信部51は、基本的に通信部11と同様に構成され、対話ロボット100と通信する。通信部51は、対話ロボット100からリクエスト2を受信する受信部と、対話ロボット100にレスポンス3を送信する送信部とを少なくとも含む。記憶部52は、基本的に記憶部12と同様に構成され、サーバ200が処理する各種情報(フレーズセットまたはフレーズ素材集80など)を記憶する。
図1に示すとおり、サーバ200は、制御部50、通信部51および記憶部52を備えている。通信部51は、基本的に通信部11と同様に構成され、対話ロボット100と通信する。通信部51は、対話ロボット100からリクエスト2を受信する受信部と、対話ロボット100にレスポンス3を送信する送信部とを少なくとも含む。記憶部52は、基本的に記憶部12と同様に構成され、サーバ200が処理する各種情報(フレーズセットまたはフレーズ素材集80など)を記憶する。
制御部50は、サーバ200が有する各種の機能を統括的に制御する。制御部50は、機能ブロックとして、フレーズ要求受信部60、フレーズ生成部61およびフレーズ送信部62を含む。機能ブロックは、例えば、CPUなどが、不揮発性の記憶装置(記憶部52)に記憶されているプログラムを不図示のRAM等に読み出して実行することで実現できる。フレーズ要求受信部(受付手段)60は、対話ロボット100からフレーズを要求するリクエスト2を受信する。フレーズ生成部(生成手段)61は、受信されたリクエスト2に含まれる音声認識結果に基づいて、その音声に対応するフレーズを生成する。フレーズ生成部61は、音声認識結果に対応付けられたフレーズまたはフレーズの素材をフレーズセットまたはフレーズ素材集80から取得することによりフレーズをテキスト形式にて生成することができる。フレーズ送信部(送信手段)62は、リクエスト2に対する応答として、生成されたフレーズを含むレスポンス3を対話ロボット100に送信する。
〔情報について〕
図3の(a)は、記憶部12に記憶されている実施形態1の音声管理テーブル40aの具体例を示す図であり、(b)は、記憶部12に記憶されている実施形態1の閾値41aの具体例を示す図である。また、(c)は、音声管理テーブル40aの他の具体例を示す図である。図3は、理解を容易にする目的で、対話システム300によって処理される情報の一具体例を示すものであり、対話システム300の各装置の構成を限定するものではない。また、図3において、情報のデータ構造をテーブル形式にて示したことは一例であって、当該データ構造を、テーブル形式に限定する意図はない。以降、データ構造を説明するためのその他の図においても同様である。
図3の(a)は、記憶部12に記憶されている実施形態1の音声管理テーブル40aの具体例を示す図であり、(b)は、記憶部12に記憶されている実施形態1の閾値41aの具体例を示す図である。また、(c)は、音声管理テーブル40aの他の具体例を示す図である。図3は、理解を容易にする目的で、対話システム300によって処理される情報の一具体例を示すものであり、対話システム300の各装置の構成を限定するものではない。また、図3において、情報のデータ構造をテーブル形式にて示したことは一例であって、当該データ構造を、テーブル形式に限定する意図はない。以降、データ構造を説明するためのその他の図においても同様である。
図3の(a)を参照して、実施形態1の対話ロボット100が保持する音声管理テーブル40aは、入力された1つの音声について、少なくとも、当該音声を識別するための音声IDと、属性情報とを対応付けて格納する構造である。図3の(a)に示すとおり、音声管理テーブル40aは、さらに、入力された音声の音声認識結果と、当該音声に対応するフレーズとを格納してもよい。また、図示しないが、音声管理テーブル40aは、音声ID、音声認識結果およびフレーズに加えて(あるいは代えて)、入力された音声の音声データを格納してもよい。音声認識結果は、音声認識部20によって生成され、フレーズ要求部24によってリクエスト2を生成するのに用いられる。フレーズは、フレーズ受信部25によって受信され、フレーズ出力部23によって処理される。
実施形態1では、属性情報は、入力時刻と提示準備完了時刻とを含む。入力時刻は、音声が入力された時刻を指す。一例として、入力管理部21は、ユーザが発した音声が音声入力部13に入力された時刻を入力時刻として取得する。あるいは、入力管理部21は、音声認識部20が音声認識結果を音声管理テーブル40aに格納した時刻を入力時刻として取得しても構わない。提示準備完了時刻は、入力された上記音声に対応するフレーズが対話ロボット100において取得され、当該フレーズを出力できる状態になった時刻を指す。一例として、入力管理部21は、フレーズ受信部25が上記フレーズをサーバ200から受信した時刻を提示準備完了時刻として取得する。
入力時刻と提示準備完了時刻とに基づいて、入力された音声ごとに、音声が入力されてから対応するフレーズが出力可能となるまでの所要時間が算出される。上記所要時間も、属性情報の一部として、入力管理部21によって音声管理テーブル40aに格納されてもよい。あるいは、出力要否判断部22が入力時刻と提示準備完了時刻とに基づいて所要時間を必要に応じて算出する構成であってもよい。出力要否判断部22は、上記所要時間を、フレーズの出力要否を判断するのに利用する。
ユーザは、自分の呼びかけに対して対話ロボット100が返答に時間を要し、対話で間ができると、別の話題について音声を立て続けに入力してしまうことが考えられる。図3の(a)を参照して具体的に説明する。先に入力された第1の音声(Q002)に対応する第1のフレーズ「今日は晴れだよ。」がフレーズ出力部23によって出力される前に、第2の音声(Q003)が入力されたとする。この場合、出力要否判断部22は、上記第1のフレーズの出力要否を、対応する第1の音声の所要時間を用いて判断する。より詳細には、記憶部12には、閾値41a(図3の(b)に示す例では、5秒)が格納されている。出力要否判断部22は、第1の音声の所要時間を、提示準備完了時刻(7:00:17)−入力時刻(7:00:10)=7秒と算出し、閾値41a(5秒)と比較する。そして、所要時間が閾値41aを超える場合に、第1のフレーズを出力不要と判断する。つまり、第1の音声(Q002)に対応する第1のフレーズは、出力要否判断部22が出力不要と判断する。そのためフレーズ出力部23は、「今日は晴れだよ。」の出力を中止する。これにより、「今日の天気は?」が入力されてから長い時間(7秒)経過後、さらに、異なる話題の第2の音声「それより今日は何日だっけ?」の入力後に、不自然な応答「今日は晴れだよ。」が出力されるのを回避できる。なお、上記第1のフレーズが省かれた後、続けて別の音声が入力されないうちは、対話ロボット100は、上記第2の音声に対応して、「15日だよ。」などの第2のフレーズを出力してユーザとの対話を継続する。
一方、ユーザは、同じ話題に関して非常に短い間隔で2つの音声を立て続けに入力することが考えられる。図3の(c)を参照して、別の例について具体的に説明する。先に入力された第1の音声(Q002)に対応する第1のフレーズが音声出力部23によって出力される前に、第2の音声(Q003)が入力されたとする。この場合、出力要否判断部22は、第1のフレーズの出力要否を、第1の音声の所要時間を用いて判断する。図3の(c)に示す具体例では、所要時間は3秒である。出力要否判断部22は、所要時間が閾値41a(5秒)を超えないので、第1のフレーズを出力要と判断する。これにより、フレーズ出力部23は、第2の音声「あと明日の天気は?」が入力された後であっても、第1のフレーズ「今日は晴れだよ。」を出力する。第1の音声「今日の天気は?」が入力されてからさほど長い時間が経過しておらず(3秒のみ)、かつ、短い間隔で立て続けに入力された第2の音声も同じ天気の話題である。よって、第2の音声の入力後に、第1のフレーズが出力されても不自然ではない。なお、この後、続けて別の音声が入力されないうちは、対話ロボット100は、上記第2の音声に対応して、「明日はくもりだよ。」などのフレーズを出力してユーザとの対話を継続する。
〔処理フロー〕
図4は、実施形態1の対話システム300における各装置の処理の流れを示すフローチャートである。対話ロボット100において、音声入力部13から発話者の音声が入力されると(S101でYES)、音声認識部20は、該音声の音声認識結果を出力する(S102)。入力管理部21は、上記音声が入力された入力時刻Tsを取得し(S103)、上記入力時刻を、入力された音声を特定する情報(音声ID、上記音声認識結果または音声データ)に対応付けて音声管理テーブル40aに記憶する(S104)。一方、フレーズ要求部24は、上記音声認識結果を含むリクエスト2を生成し、サーバ200に送信して、入力された上記音声に対応するフレーズをサーバ200に要求する(S105)。
図4は、実施形態1の対話システム300における各装置の処理の流れを示すフローチャートである。対話ロボット100において、音声入力部13から発話者の音声が入力されると(S101でYES)、音声認識部20は、該音声の音声認識結果を出力する(S102)。入力管理部21は、上記音声が入力された入力時刻Tsを取得し(S103)、上記入力時刻を、入力された音声を特定する情報(音声ID、上記音声認識結果または音声データ)に対応付けて音声管理テーブル40aに記憶する(S104)。一方、フレーズ要求部24は、上記音声認識結果を含むリクエスト2を生成し、サーバ200に送信して、入力された上記音声に対応するフレーズをサーバ200に要求する(S105)。
なお、サーバ200からフレーズが返ってきたときに、どの音声に対応するフレーズであるのかを簡易かつ正確に特定できるように、リクエスト2に音声IDが含まれていることが好ましい。また、音声認識部20がサーバ200に設けられている場合には、S102は省略され、音声認識結果に代えて音声データを含むリクエスト2が生成される。
サーバ200において、フレーズ要求受信部60がリクエスト2を受信すると(S106でYES)、フレーズ生成部61は、リクエスト2に含まれる音声認識結果に基づいて、入力された音声に対応するフレーズを生成する(S107)。フレーズ送信部62は、生成されたフレーズを含むレスポンス3を対話ロボット100に送信する(S108)。ここで、フレーズ送信部62は、上記音声IDをレスポンス3に含めることが好ましい。
対話ロボット100において、フレーズ受信部25がレスポンス3を受信すると(S109でYES)、入力管理部21は、レスポンス3の受信時刻を提示準備完了時刻Teとして取得し、音声IDに対応付けて音声管理テーブル40aに記憶する(S110)。
次に、出力要否判断部22は、レスポンス3に含まれるフレーズを受信する前に(あるいは、当該フレーズをフレーズ出力部23が出力するまでに)、新たに別の音声が入力されたか否かを判断する(S111)。具体的には、出力要否判断部22は、音声管理テーブル40a(図3の(a))を参照して、受信されたフレーズ(例えば、「今日は晴れだよ。」)に対応する音声(Q002)の入力時刻(7:00:10)よりも後に入力された音声であって、かつ、上記フレーズの提示準備完了時刻(7:00:17)よりも前に入力された音声があるか否かを判断する。条件を満足する音声(図3の(a)の例では、Q003の音声)がある場合(S111でYES)、出力要否判断部22は、S109で受信された音声IDに対応する入力時刻Tsと提示準備完了時刻Teとを読み出し、返答の所要時間Te−Tsを取得する(S112)。
出力要否判断部22は、閾値41aと上記所要時間とを比較し、所要時間が閾値41aを超えない場合(S113でNO)、上記受信されたフレーズを出力要と判断する(S114)。フレーズ出力部23は、上記出力要の判断にしたがって、受信された音声IDに対応する上記フレーズを出力する(S116)。一方、所要時間が閾値41aを超える場合(S113でYES)、上記受信されたフレーズを出力不要と判断する(S115)。フレーズ出力部23は、上記出力不要の判断にしたがって、受信された音声IDに対応する上記フレーズを出力しない。ここで出力不要と判断されたフレーズは、出力要否判断部22によって、音声管理テーブル40aから削除されてもよいし、図示しない出力不要のフラグとともに保存されたままであってもよい。
なお、S111の条件を満足する音声がない場合(S111でNO)、一問一答のコミュニケーションが成立しており、出力要否を判断する必要が無い。よってこの場合、S109で受信されたフレーズをフレーズ出力部23が出力すればよい(S116)。
≪実施形態2≫
〔対話ロボットの構成〕
図1、図5〜図7に基づいて、本発明の実施形態2を説明する。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。以降の実施形態についても同様である。まず、以下では、図1に示す実施形態2の対話ロボット100において、実施形態1の対話ロボット100と異なる点について説明する。記憶部12には、音声管理テーブル40aに代えて音声管理テーブル40bが、閾値41aに代えて閾値41bが格納されている。図5の(a)〜(c)および図6の(a)〜(c)は、実施形態2の音声管理テーブル40bの具体例を示す図であり、図5の(d)は、実施形態2の閾値41bの具体例を示す図である。
〔対話ロボットの構成〕
図1、図5〜図7に基づいて、本発明の実施形態2を説明する。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。以降の実施形態についても同様である。まず、以下では、図1に示す実施形態2の対話ロボット100において、実施形態1の対話ロボット100と異なる点について説明する。記憶部12には、音声管理テーブル40aに代えて音声管理テーブル40bが、閾値41aに代えて閾値41bが格納されている。図5の(a)〜(c)および図6の(a)〜(c)は、実施形態2の音声管理テーブル40bの具体例を示す図であり、図5の(d)は、実施形態2の閾値41bの具体例を示す図である。
実施形態2の音声管理テーブル40bは、実施形態1の音声管理テーブル40aと異なり、属性情報として受付順序を格納する構造である。受付順序は、音声が入力された順序を示し、数字が小さいほど先に入力されたことを意味する。したがって、音声管理テーブル40bにおいて、受付順序の値が最も大きい音声が、最新の音声として特定される。実施形態2では、入力管理部21は、音声が入力されると、該音声の音声IDと受付順序とを対応付けて音声管理テーブル40bに格納する。入力管理部21は、受付順序を音声に付与した後、最新の受付順序を1つインクリメントして、次の音声入力に備える。
なお、図5および図6に示す音声管理テーブル40bに含まれる「出力結果」のカラムは、発明の理解を容易にする目的で記載されており、音声管理テーブル40bに上記カラムは必ずしも含まれない。なお、出力結果の「済」は、音声に対応するフレーズが出力要と判断され出力されたことを示し、空欄は、フレーズがまだ準備できていない(出力できない)ことを示し、「出力不要」は、フレーズの準備が完了したが出力不要と判断され出力されないことを示す。出力結果を音声管理テーブル40bにて管理する場合には、当該カラムは、出力要否判断部22によって更新されればよい。
実施形態2では、出力要否判断部22は、フレーズの出力要否を判断すべき対象の音声の受付順序Ncと最新の音声の受付順序Nnとの差分を新味度として算出する。新味度は、対象の音声および対応するフレーズのやりとりの新しさを数値化したものであり、新味度の値(上記差分)が大きいほど、時系列上古いやりとりであることを意味する。そして、出力要否判断部22は、新味度を、フレーズの出力要否を判断するのに利用する。
具体的には、新味度が十分に大きいということは、対象の音声が入力されてから、最新の音声が入力されるまでの間に、対話ロボット100と発話者とのやりとり(少なくとも、発話者から対話ロボット100への呼びかけ)が多くなされていることを示す。したがって、対象の音声が入力された時点から、現時点(対話の最新の時点)までの間で、話題が切り替わったと考えられるのに十分な時間が経過していると考えられる。つまり、対象の音声および対応するフレーズの内容は、最新のやりとりの内容と合わず古くなっている可能性が高い。出力要否判断部22は、新味度に基づいて返答するには古すぎると判断したフレーズを出力しないようにフレーズ出力部23を制御し、対話の自然な流れを維持することができる。一方、新味度が十分に小さい場合には、対象の音声および対応するフレーズの内容は、最新のやりとりの内容とさほど変わらない可能性が高い。そのため、出力要否判断部22は、上記フレーズを出力しても対話の流れは損なわれないと判断し、該フレーズの出力をフレーズ出力部23に対して許可する。
まず、図5の(a)〜(d)を参照して、フレーズが出力要と判断されるケースについて、具体的に説明する。3つの音声(Q002〜Q004)が、対話ロボット100の返答を待たずに立て続けに入力されたとする。入力管理部21は、これらの3つの音声に順次受付順序を付与し、音声認識結果とともに格納する(図5の(a))。このうち、最初に、Q003の音声に対応するフレーズ「30日だよ。」がフレーズ受信部25によって受信されたとする(図5の(b))。ここでは、対象の音声は、Q003の音声であり、対応する上記フレーズについて、出力要否判断部22が出力要否を判断する。出力要否判断部22は、最新の受付順序Nn(図5の(b)の時点では、4)と、対象の受付順序Nc(3)とを読み出し、これらの差分「4−3」から、新味度「1」を算出する。出力要否判断部22は、図5の(d)に示す閾値41b「2」と新味度「1」とを比較し、新味度が閾値を超えないと判断する。すなわち、新味度の値が十分小さく、話題が切り替わったと考えられる程やりとりが多く発生していないとして、出力要否判断部22は、上記フレーズ「30日だよ。」を出力要と判断する。この判断にしたがって、フレーズ出力部23は、上記フレーズを出力する(図5の(c))。
次に、図6の(a)〜(d)を参照して、フレーズが出力不要と判断されるケースについて具体的に説明する。上述のQ003の音声に対応するフレーズが出力された後、Q002の音声に対応するフレーズが出力されないうちに、さらに、ユーザによってQ005の音声が入力されたとする(図6の(a))。この後、Q002の音声に対応するフレーズ「晴れだよ。」がフレーズ受信部25によって受信されたとする(図6の(b))。出力要否判断部22は、対象の音声Q002の上記フレーズの出力要否を以下のように判断する。出力要否判断部22は、最新の受付順序Nn(図6の(b)の時点では、5)と、対象の受付順序Nc(2)とを読み出し、これらの差分「5−2」から、新味度「3」を算出する。出力要否判断部22は、閾値41b(図5の(d)の例では2)と新味度「3」とを比較し、新味度が閾値を超えると判断する。すなわち、新味度の値が十分大きく、話題が切り替わったと考えられる程やりとりが多く発生しているとして、出力要否判断部22は、上記フレーズ「晴れだよ。」を出力不要と判断する(図6の(c))。この判断にしたがい、フレーズ出力部23は、上記フレーズの出力を中止する。これにより、対話の最新の時点で、今日の出来事について話題が挙がっているにもかかわらず、この時点で天気の話題に関わるフレーズが対話ロボット100から出力されることを回避できる。
〔処理フロー〕
図7は、実施形態2の対話システム300における各装置の処理の流れを示すフローチャートである。
図7は、実施形態2の対話システム300における各装置の処理の流れを示すフローチャートである。
対話ロボット100において、実施形態1と同様に、音声が入力され、音声が認識される(S201、S202)。入力管理部21は、上記音声に対して受付順序を付与し(S203)、上記受付順序を、上記音声の音声ID(または音声認識結果)に対応付けて音声管理テーブル40bに記憶する(S204)。S205〜S209は、実施形態1のS105〜S109と同様である。
入力管理部21は、S209にて受信されたフレーズを、同じく受信された音声IDに対応付けて音声管理テーブル40bに格納する(S210)。音声管理テーブル40bにフレーズを格納するカラムが無い場合は、S210は省略してもよい。あるいは、上記フレーズは、音声管理テーブル40b(記憶部12)ではなく、揮発性記憶装置としての図示しない一時記憶部に一時的に格納されてもよい。
次に、出力要否判断部22は、レスポンス3に含まれるフレーズを受信する前に、新たに別の音声が入力されたか否かを判断する(S211)。具体的には、出力要否判断部22は、音声管理テーブル40b(図5の(b))を参照して、受信されたフレーズに対応する対象の音声の受付順序が最新か否かを判断する。対象の音声が最新の音声でなければ(S211でYES)、出力要否判断部22は、最新の音声の受付順序Nnと、対象の音声の受付順序Ncとを読み出し、対象の音声およびそのフレーズの新しさ、つまり、新味度Nn−Ncを算出する(S212)。
出力要否判断部22は、閾値41bと新味度とを比較し、新味度が閾値41bを超えない場合(S213でNO)、上記受信されたフレーズを出力要と判断する(S214)。一方、新味度が閾値41bを超える場合(S213でYES)、上記受信されたフレーズを出力不要と判断する(S215)。以降の処理(S211でNO、および、S216)は、実施形態1(S111でNO、および、S116)と同様である。なお、閾値41bは0以上の数値である。
〔変形例〕
上記実施形態2において、図7のS211に示す処理を省略してもよい。この構成によっても、以下の理由により、上記実施形態2における図7に示す処理と同様の結果を得ることができる。
上記実施形態2において、図7のS211に示す処理を省略してもよい。この構成によっても、以下の理由により、上記実施形態2における図7に示す処理と同様の結果を得ることができる。
図7のS212に示す処理が実行される時点において、レスポンス3が受信される前に別の音声が入力されていない場合、最新の音声の受付順序Nnと、対象の音声の受付順序Ncとが等しくなる。すなわち、新味度は0となる。よって、0以上の数値である閾値42bを新味度は超えない(S213でNO)ため、レスポンス3に含まれるフレーズが出力要と判断される(S214)。すなわち、図7のS211に示す処理において、対象の音声が最新の音声と判断された場合(S211でNO)と同様に、レスポンス3に含まれるフレーズが出力される。
また、図7のS212に示す処理が実行される時点において、対象の音声が最新の音声ではない場合、図7のS212からの処理が実行される。これは、図7のS211に示す処理において、対象の音声が最新の音声ではないと判断された場合(S211でYES)と同様の処理である。
よって、上記の構成においても、対象の音声に対応するレスポンス3に含まれるフレーズがフレーズ出力部23によって提示される前に最新の音声が入力された場合に、上記記憶部に記憶されている音声の受付順序に基づいて、レスポンス3に含まれるフレーズの提示要否が出力要否判断部22によって判断される。
≪実施形態3≫
〔対話ロボットの構成〕
図1、図8および図9に基づいて、本発明の実施形態3を説明する。まず以下では、図1に示す実施形態3の対話ロボット100において、実施形態1および2の対話ロボット100と異なる点について説明する。記憶部12には、音声管理テーブル40a、bに代えて音声管理テーブル40cが格納されている。実施形態3では、閾値41a、bは格納されない。実施形態3では、記憶部12には、発話者データベース(DB)42cが格納されている。図8の(a)は、実施形態3の音声管理テーブル40cの具体例を示す図であり、図8の(b)は、実施形態3の発話者DB42cの具体例を示す図である。
〔対話ロボットの構成〕
図1、図8および図9に基づいて、本発明の実施形態3を説明する。まず以下では、図1に示す実施形態3の対話ロボット100において、実施形態1および2の対話ロボット100と異なる点について説明する。記憶部12には、音声管理テーブル40a、bに代えて音声管理テーブル40cが格納されている。実施形態3では、閾値41a、bは格納されない。実施形態3では、記憶部12には、発話者データベース(DB)42cが格納されている。図8の(a)は、実施形態3の音声管理テーブル40cの具体例を示す図であり、図8の(b)は、実施形態3の発話者DB42cの具体例を示す図である。
実施形態3の音声管理テーブル40cは、実施形態1および2の音声管理テーブル40と異なり、属性情報として発話者情報を格納する構造である。発話者情報は、音声を発した発話者を特定する情報である。発話者情報は、発話者を一意に識別できる情報であれば何でもよい。例えば発話者情報として、発話者ID、発話者氏名、または、発話者の肩書またはニックネーム(父、母、兄、○○ちゃん)などが用いられる。
入力管理部21は、実施形態3では、入力された音声の発話者を特定する機能を有しており、発話者特定部(発話者特定手段)として機能する。入力管理部21は、一例として、入力された音声の音声データを解析して、声の特徴に基づいて発話者を特定する。図8の(b)に示すとおり、発話者DB42cには、発話者情報に対応付けて声のサンプルデータ420が登録されている。入力管理部21は、入力された音声の音声データを各サンプルデータ420と比較して、該音声の発話者を特定する。あるいは、対話ロボット100がカメラを備えている場合には、入力管理部21は、カメラが取得した発話者の映像を、発話者の顏のサンプルデータ421と比較し、顏認識によって発話者を特定してもよい。なお、上述の発話者を特定する方法については、既に公知となっている技術を採用するものとし、特定方法の詳細については説明を省略する。
出力要否判断部22は、実施形態3では、対象の音声の発話者情報Pcと最新の音声の発話者情報Pnとが一致するか否かに応じて、対象の音声に対応するフレーズの出力要否を判断する。図8の(a)を参照して具体的に説明する。対話ロボット100において、音声Q002とQ003とが立て続けに入力された後に、音声Q002に対応するフレーズをサーバ200から受信したとする。図8の(a)に示す音声管理テーブル40cによれば、対象の音声Q002の発話者情報Pcは「Bさん」であり、最新の音声Q003の発話者情報Pnは「Aさん」である。出力要否判断部22は、発話者情報Pcが発話者情報Pnと一致しないので、対象の音声Q002に対応するフレーズ「晴れだよ。」を出力不要と判断する。一方、最新の発話者情報Pnが「Bさん」だった場合には、対象の発話者情報Pcは、上記最新の発話者情報Pnと一致するので、出力要否判断部22は、上記フレーズを出力要と判断する。
〔処理フロー〕
図9は、実施形態3の対話システム300における各装置の処理の流れを示すフローチャートである。対話ロボット100において、実施形態1および2と同様に、音声が入力され、音声が認識される(S301、S302)。入力管理部21は、発話者DB42cを参照して、音声の発話者を特定し(S303)、特定した発話者の発話者情報を、上記音声の音声ID(または音声認識結果)に対応付けて音声管理テーブル40cに記憶する(S304)。S305〜S310は、実施形態2のS205〜S210と同様である。
図9は、実施形態3の対話システム300における各装置の処理の流れを示すフローチャートである。対話ロボット100において、実施形態1および2と同様に、音声が入力され、音声が認識される(S301、S302)。入力管理部21は、発話者DB42cを参照して、音声の発話者を特定し(S303)、特定した発話者の発話者情報を、上記音声の音声ID(または音声認識結果)に対応付けて音声管理テーブル40cに記憶する(S304)。S305〜S310は、実施形態2のS205〜S210と同様である。
サーバ200から供給されたフレーズが受信され、音声管理テーブル40cに格納されると、次に、出力要否判断部22は、レスポンス3に含まれるフレーズを受信する前に、新たに別の音声が入力されたか否かを判断する(S311)。具体的には、出力要否判断部22は、音声管理テーブル40c(図8の(a))を参照して、受信されたフレーズに対応する対象の音声(Q002)よりも後に、新たに入力された音声が有るか否かを判断する。条件を満足する音声(Q003)がある場合(S311でYES)、出力要否判断部22は、対象の音声の発話者情報Pcと、最新の音声の発話者情報Pnとを読み出し、それらを比較する(S312)。
出力要否判断部22は、発話者情報Pcが、発話者情報Pnと一致する場合(S313でYES)、上記受信されたフレーズを出力要と判断する(S314)。一方、発話者情報Pcが、発話者情報Pnと一致しない場合(S313でNO)、上記受信されたフレーズを出力不要と判断する(S315)。以降の処理(S311でNO、および、S316)は、実施形態2(S211でNO、および、S216)と同様である。
≪実施形態4≫
〔対話ロボットの構成〕
図1、図10〜図12に基づいて、本発明の実施形態4を説明する。まず以下では、図1に示す実施形態4の対話ロボット100において、実施形態3の対話ロボット100と異なる点について説明する。記憶部12には、さらに、閾値41dが格納され、発話者DB42cに代えて発話者DB42dが格納されている。なお、音声管理テーブルとしては、実施形態3と同様に、音声管理テーブル40c(図8の(a))が格納されている。しかし、音声管理テーブル40cに代えて音声管理テーブル40d(図10の(a))が格納されていてもよい。図10の(a)は、実施形態4の音声管理テーブルの他の具体例(音声管理テーブル40d)を示す図であり、図10の(b)は、実施形態4の閾値41dの具体例を示す図であり、図10の(c)は、実施形態4の発話者DB42dの具体例を示す図である。
〔対話ロボットの構成〕
図1、図10〜図12に基づいて、本発明の実施形態4を説明する。まず以下では、図1に示す実施形態4の対話ロボット100において、実施形態3の対話ロボット100と異なる点について説明する。記憶部12には、さらに、閾値41dが格納され、発話者DB42cに代えて発話者DB42dが格納されている。なお、音声管理テーブルとしては、実施形態3と同様に、音声管理テーブル40c(図8の(a))が格納されている。しかし、音声管理テーブル40cに代えて音声管理テーブル40d(図10の(a))が格納されていてもよい。図10の(a)は、実施形態4の音声管理テーブルの他の具体例(音声管理テーブル40d)を示す図であり、図10の(b)は、実施形態4の閾値41dの具体例を示す図であり、図10の(c)は、実施形態4の発話者DB42dの具体例を示す図である。
入力管理部21は、実施形態4では、実施形態3と同様に、特定した発話者の発話者情報を属性情報として音声に対応付けて音声管理テーブル40cに記憶する。または他の例では、入力管理部21は、さらに、図10の(c)に示す発話者DB42dから、特定した発話者に対応付けられている関係値を取得し、該関係値を属性情報として音声に対応付けて音声管理テーブル40d(図10の(a))に記憶する構成であってもよい。
関係値とは、対話ロボット100と、発話者との関係を数値で示したものである。関係値は、対話ロボット100と発話者との間、または、対話ロボット100の所有者と発話者との間の関係性を、所定の計算式または換算規則に適用することによって算出される。上記関係値によって、対話ロボット100と発話者との関係を客観的に定量化することができる。すなわち、出力要否判断部22は、関係値を利用することにより、フレーズの出力要否の判断を、対話ロボット100と発話者との関係性に基づいて判断することが可能となる。実施形態4では、一例として、対話ロボット100と発話者との親しさを数値化した親密度を関係値として採用する。親密度は、対話ロボット100の所有者であるか否か、または、対話ロボット100と対話を行う頻度などに応じて予め算出されており、図10の(c)に示すとおり、発話者ごとに対応付けて記憶されている。なお、図示の例では、親密度の数値が大きいほど対話ロボット100と発話者との関係が親密であることを示すものとする。しかし、これに限られず、数値が小さいほど関係が親密であるというように親密度を設定することも可能である。
出力要否判断部22は、実施形態4では、対象の音声の発話者に対応付けられている関係値Rcを閾値41dと比較し、比較結果に応じて、対象の音声に対応するフレーズの出力要否を判断する。図8の(a)、図10の(b)および(c)を参照して具体的に説明する。対話ロボット100において、音声Q002とQ003とが立て続けに入力された後に、音声Q002に対応するフレーズをサーバ200から受信したとする。図8の(a)に示す音声管理テーブル40cによれば、対象の音声Q002の発話者情報Pcは「Bさん」である。したがって、出力要否判断部22は、発話者DB42d(図10の(c))から、発話者情報「Bさん」に対応付けられている親密度「50」を取得する。出力要否判断部22は、上記親密度を、閾値41d(図10の(b)では「60」)と比較する。上記親密度は閾値未満である。つまり、対象の音声の発話者「Bさん」と対話ロボット100との関係は、親密でないと判明する。よって、出力要否判断部22は、親密でないBさんの音声(対象の音声Q002)に対応するフレーズ「晴れだよ。」の出力は不要であると判断する。一方、対象の音声Q002の発話者が「Aさん」だった場合、対応する親密度「100」が取得される。これにより、上記親密度は閾値「60」を超えており、対象の音声の発話者「Aさん」と、対話ロボット100との関係は、親密であると判明する。よって、出力要否判断部22は、上記フレーズを出力要と判断する。
〔処理フロー〕
図11は、実施形態4の対話システム300における各装置の処理の流れを示すフローチャートである。対話ロボット100において、S401〜S411は、実施形態3のS301〜S311と同様である。なお、記憶部12において音声管理テーブル40cではなく音声管理テーブル40d(図10の(a))を格納する構成では、入力管理部21は、S404にて、発話者情報に代えて、S403にて特定された発話者の関係値(親密度)を属性情報として音声管理テーブル40dに格納する。
図11は、実施形態4の対話システム300における各装置の処理の流れを示すフローチャートである。対話ロボット100において、S401〜S411は、実施形態3のS301〜S311と同様である。なお、記憶部12において音声管理テーブル40cではなく音声管理テーブル40d(図10の(a))を格納する構成では、入力管理部21は、S404にて、発話者情報に代えて、S403にて特定された発話者の関係値(親密度)を属性情報として音声管理テーブル40dに格納する。
S411にて条件を満足する音声(図8の(a)では、Q003)がある場合(S411でYES)、出力要否判断部22は、対象の音声の発話者情報Pcに対応付けられた関係値Rcを発話者DB42dから取得する(S412)。
出力要否判断部22は、閾値41dと関係値Rcとを比較し、関係値Rc(親密度)が閾値41dを超える場合(S413でNO)、S409で受信されたフレーズを出力要と判断する(S414)。一方、関係値Rcが、閾値41d未満である場合(S413でYES)、上記受信されたフレーズを出力不要と判断する(S415)。以降の処理(S411でNO、および、S416)は、実施形態3(S311でNO、および、S316)と同様である。
≪実施形態5≫
出力要否判断部22は、上述の各実施形態1〜4において、立て続けに複数の音声が入力された場合に、先の音声について、該音声に対応するフレーズの出力要否を判断する構成である。実施形態5では、さらに、出力要否判断部22は、上記先の音声に対応するフレーズを出力要と判断した場合であって、後の音声についてフレーズの出力が完了していない場合に、先の音声が出力されることを踏まえて、当該後の音声に対応するフレーズの出力要否も判断することが好ましい。出力要否の判断は、各実施形態1〜4と同様に、先の音声について行ったのと同様の方法で実行されればよい。
出力要否判断部22は、上述の各実施形態1〜4において、立て続けに複数の音声が入力された場合に、先の音声について、該音声に対応するフレーズの出力要否を判断する構成である。実施形態5では、さらに、出力要否判断部22は、上記先の音声に対応するフレーズを出力要と判断した場合であって、後の音声についてフレーズの出力が完了していない場合に、先の音声が出力されることを踏まえて、当該後の音声に対応するフレーズの出力要否も判断することが好ましい。出力要否の判断は、各実施形態1〜4と同様に、先の音声について行ったのと同様の方法で実行されればよい。
上記構成によれば、以下の課題を解決することが可能である。例えば、先の第1の音声、後の第2の音声が立て続けに入力された場合であって、第1の音声に対する第1のフレーズが出力された(出力されると決まった)場合に、その後で、第2の音声に対する第2のフレーズが出力されると対話が不自然になる場合が想定される。実施形態1〜4の構成では、さらに、立て続けに第3の音声が入力されない限り、第2のフレーズの出力要否が判断されないので、上記の不自然な対話を確実に回避することができない。
そこで、実施形態5では、第1の音声に対する第1のフレーズが出力された場合に、第3の音声の入力が無くとも、第2の音声に対応するフレーズの出力要否を判断する。これにより、第1のフレーズ出力後に必ず第2のフレーズが出力されるという事態を回避できる。よって、状況に応じて不自然なフレーズの出力を省き、発話者と対話ロボット100とのより一層自然な対話を実現することが可能となる。
≪変形例≫
〔音声認識部20について〕
対話ロボット100に設けられた音声認識部20は、サーバ200に設けられてもよい。この場合、音声認識部20は、サーバ200の制御部50において、フレーズ要求受信部60とフレーズ生成部61との間に設けられる。また、この場合、対話ロボット100の音声管理テーブル40(a〜d)において、入力された音声の音声認識結果は格納されず、音声IDおよび音声データと属性情報とが格納される。そして、サーバ200の第2音声管理テーブル81(a〜d)において、入力された音声ごとに、音声ID、音声認識結果、および、フレーズが格納される。具体的には、フレーズ要求部24は、入力された音声をリクエスト2としてサーバ200に送信し、フレーズ要求受信部60が音声認識を行い、フレーズ生成部61がその音声認識結果に合うフレーズの生成を行う。上記構成を有する対話システム300においても、上述の各実施形態と同様の効果を得られる。
〔音声認識部20について〕
対話ロボット100に設けられた音声認識部20は、サーバ200に設けられてもよい。この場合、音声認識部20は、サーバ200の制御部50において、フレーズ要求受信部60とフレーズ生成部61との間に設けられる。また、この場合、対話ロボット100の音声管理テーブル40(a〜d)において、入力された音声の音声認識結果は格納されず、音声IDおよび音声データと属性情報とが格納される。そして、サーバ200の第2音声管理テーブル81(a〜d)において、入力された音声ごとに、音声ID、音声認識結果、および、フレーズが格納される。具体的には、フレーズ要求部24は、入力された音声をリクエスト2としてサーバ200に送信し、フレーズ要求受信部60が音声認識を行い、フレーズ生成部61がその音声認識結果に合うフレーズの生成を行う。上記構成を有する対話システム300においても、上述の各実施形態と同様の効果を得られる。
〔フレーズ生成部61について〕
さらに、対話ロボット100は、サーバ200と通信せず、フレーズをローカルで生成する対話ロボット100として構成することができる。すなわち、サーバ200に設けられたフレーズ生成部61は、対話ロボット100に設けられてもよい。この場合、フレーズセットまたはフレーズ素材集80は、対話ロボット100の記憶部12に格納される。また、通信部11、フレーズ要求部24およびフレーズ受信部25は対話ロボット100において省略することができる。すなわち、対話ロボット100は、フレーズの生成、および、本発明に係る対話を制御する方法を単独で実現することができる。
さらに、対話ロボット100は、サーバ200と通信せず、フレーズをローカルで生成する対話ロボット100として構成することができる。すなわち、サーバ200に設けられたフレーズ生成部61は、対話ロボット100に設けられてもよい。この場合、フレーズセットまたはフレーズ素材集80は、対話ロボット100の記憶部12に格納される。また、通信部11、フレーズ要求部24およびフレーズ受信部25は対話ロボット100において省略することができる。すなわち、対話ロボット100は、フレーズの生成、および、本発明に係る対話を制御する方法を単独で実現することができる。
〔出力要否判断部22について〕
実施形態4において、対話ロボット100に設けられた出力要否判断部22は、サーバ200に設けられてもよい。図12は、実施形態4における、対話ロボット100およびサーバ200の要部構成の他の例を示す図である。図12に示す本変形例の対話システム300において、実施形態4の対話システム300と異なる点は、以下のとおりである。対話ロボット100の制御部10が出力要否判断部22を備えていない代わりに、サーバ200の制御部50が出力要否判断部(判断手段)63を備えている。閾値41dは、記憶部12に格納される代わりに記憶部52に格納されている。さらに、記憶部52には、発話者DB42eが格納されている。発話者DB42eは、発話者情報と、関係値とを対応付けて格納するデータ構造を有する。さらに、記憶部52には、第2音声管理テーブル81c(または、81d)が格納されている。本変形例では、第2音声管理テーブル81cは、入力された音声ごとに、音声ID、音声認識結果、および、フレーズを格納し、さらに、各音声の属性情報(発話者情報)を対応付けて格納するデータ構造を有する。
実施形態4において、対話ロボット100に設けられた出力要否判断部22は、サーバ200に設けられてもよい。図12は、実施形態4における、対話ロボット100およびサーバ200の要部構成の他の例を示す図である。図12に示す本変形例の対話システム300において、実施形態4の対話システム300と異なる点は、以下のとおりである。対話ロボット100の制御部10が出力要否判断部22を備えていない代わりに、サーバ200の制御部50が出力要否判断部(判断手段)63を備えている。閾値41dは、記憶部12に格納される代わりに記憶部52に格納されている。さらに、記憶部52には、発話者DB42eが格納されている。発話者DB42eは、発話者情報と、関係値とを対応付けて格納するデータ構造を有する。さらに、記憶部52には、第2音声管理テーブル81c(または、81d)が格納されている。本変形例では、第2音声管理テーブル81cは、入力された音声ごとに、音声ID、音声認識結果、および、フレーズを格納し、さらに、各音声の属性情報(発話者情報)を対応付けて格納するデータ構造を有する。
対話ロボット100はフレーズの出力要否を判断しないので、記憶部12は、発話者ごとの関係値を保持しておく必要がなくなる。したがって、記憶部12は、発話者DB42d(図10の(c))に代えて、発話者DB42c(図8のb))を格納していればよい。なお、入力管理部21が有する発話者を特定する機能(発話者特定部)をサーバ200に設ける場合には、記憶部12は、発話者DB42cを格納していなくてもよい。
本変形例では、対話ロボット100に対して音声が入力されると、入力管理部21は、発話者DB42cを参照して、該音声の発話者を特定して、その発話者情報をフレーズ要求部24に供給する。フレーズ要求部24は、音声認識部20から供給された上記音声の音声認識結果と、入力管理部21から供給された上記音声の音声IDおよび発話者情報とを含むリクエスト2をサーバ200に送信する。
フレーズ要求受信部60は、リクエスト2に含まれる音声ID、音声認識結果、および、属性情報(発話者情報)を第2音声管理テーブル81cに格納する。フレーズ生成部61は、受信された上記音声認識結果に応じて、上記音声に対応するフレーズを生成する。生成されたフレーズは、一旦、第2音声管理テーブル81cに格納される。
出力要否判断部63は、実施形態4の出力要否判断部22と同様に、第2音声管理テーブル81cを参照して、フレーズが生成された対象の音声の後に、別の音声が入力されていると判断した場合に、上記フレーズの出力要否の判断を行う。実施形態4と同様に、出力要否判断部63は、対象の音声の発話者に対応付けられている関係値が、閾値41dと比較して所定の条件を満足しているか否かに応じて、出力の要否を判断する。
出力要否判断部63が上記フレーズを出力要と判断した場合、この判断にしたがって、フレーズ送信部62は、該フレーズを対話ロボット100に送信する。一方、出力要否判断部63が上記フレーズを出力不要と判断した場合、フレーズ送信部62は、生成された上記フレーズを対話ロボット100に送信しない。この場合、フレーズ送信部62は、リクエスト2に対するレスポンス3として、上記フレーズの代わりに、当該フレーズが出力不要である旨を通知するメッセージを対話ロボット100に送信してもよい。上記構成を有する対話システム300においても、実施形態4と同様の効果を得られる。
〔関係値について〕
実施形態4において、出力要否の判断のために出力要否判断部22によって利用される「関係値」として「親密度」が採用された例について説明した。しかし、本発明の対話ロボット100は、これに限られず、その他の関係値を採用することができる。関係値のその他の具体例を以下に列挙する。
実施形態4において、出力要否の判断のために出力要否判断部22によって利用される「関係値」として「親密度」が採用された例について説明した。しかし、本発明の対話ロボット100は、これに限られず、その他の関係値を採用することができる。関係値のその他の具体例を以下に列挙する。
「精神的距離」は、対話ロボット100と発話者との間柄を数値化したものであり、値が小さいほど距離が近く、対話ロボット100と発話者との間柄が深いことを意味する。出力要否判断部22は、対象の音声の発話者との「精神的距離」が、所定閾値以上である(間柄が深くない)場合に、該音声に対応するフレーズを出力不要と判断する。「精神的距離」は、例えば、対話ロボット100の所有者が最も小さい値となり、次いで、該所有者の親族、友人、所有者があまり知らない他人、・・・の順に、大きい値をとるように設定される。したがって、対話ロボット100(または所有者)にとって深い間柄の発話者ほど、フレーズの返答が優先される。
「物理的距離」は、対話ロボット100と発話者とが対話するときの物理的な距離を数値化したものである。例えば、入力管理部21は、音声が入力されたとき、その音量またはカメラで撮像された発話者の大きさなどに基づいて「物理的距離」を取得し、属性情報として音声に対応付けて音声管理テーブル40に記憶する。出力要否判断部22は、対象の音声の発話者との「物理的距離」が所定閾値以上である(遠くから呼びかけられた)場合に、該音声に対応するフレーズを出力不要と判断する。したがって、対話ロボット100と近くで対話している発話者への返答が優先される。
「類似度」は、対話ロボット100に設定されている仮想的な性質と、発話者との性質との類似性を数値化したものである。値が大きいほど、対話ロボット100と発話者との性質が似ていることを意味する。例えば、出力要否判断部22は、対象の音声の発話者との「類似度」が、所定閾値以下である(性質が似ていない)場合に、該音声に対応するフレーズを出力不要と判断する。なお、発話者の性質(性格)は、例えば、発話者が事前に入力した情報(性別、年齢、職業、血液型、星座など)から決定されてもよいし、これに代えて、あるいは、加えて、発話者の言葉遣い、会話速度などに基づいて決定されてもよい。このようにして決定された発話者の性質(性格)を、対話ロボット100に事前に設定されている仮想的な性質(性格)と比較して、所定の計算式に基づいて類似度を求めておく。このようにして算出された「類似度」を用いることによって、対話ロボット100と性質(性格)が似ている発話者に対して、フレーズの返答を優先させることができる。
〔閾値の調節機能〕
実施形態1および2において、出力要否判断部22が出力要否の判断のために参照した閾値41aおよび41bは、固定化されず、対象音声の発話者の属性に基づいて動的に調節されてもよい。発話者の属性として、例えば、実施形態4で採用された「親密度」などの関係値を利用することができる。
実施形態1および2において、出力要否判断部22が出力要否の判断のために参照した閾値41aおよび41bは、固定化されず、対象音声の発話者の属性に基づいて動的に調節されてもよい。発話者の属性として、例えば、実施形態4で採用された「親密度」などの関係値を利用することができる。
具体的には、出力要否判断部22は、親密度が高い発話者ほど、フレーズ(返答)が出力要と判断されるための条件が緩くなるように、閾値を変更する。例えば、実施形態1において、出力要否判断部22は、対象の音声の発話者の親密度が100である場合に、閾値41aの秒数を5秒から10秒に延ばして、フレーズの出力要否を判断してもよい。これにより、対話ロボット100との関係がより親しい発話者に対して、フレーズの返答を優先させることができる。
〔ソフトウェアによる実現例〕
対話ロボット100(およびサーバ200)の制御ブロック(特に、制御部10および制御部50の各部)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、対話ロボット100(サーバ200)は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
対話ロボット100(およびサーバ200)の制御ブロック(特に、制御部10および制御部50の各部)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、対話ロボット100(サーバ200)は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る情報処理装置(対話ロボット100)は、ユーザ(発話者)が発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、上記音声(音声データ)または該音声が認識された結果(音声認識結果)を、当該音声の属性を示す属性情報と対応付けて記憶部(記憶部12の音声管理テーブル40)に記憶することにより、当該音声の入力を受け付ける受付手段(入力管理部21)と、上記受付手段によって受け付けられた音声に対応するフレーズを提示する提示手段(フレーズ出力部23)と、先に入力された第1の音声に対応する第1のフレーズが上記提示手段によって提示される前に第2の音声が入力された場合に、上記記憶部に記憶されている1以上の属性情報の少なくとも1つに基づいて、上記第1のフレーズの提示要否を判断する判断手段(出力要否判断部22)とを備えている。
本発明の態様1に係る情報処理装置(対話ロボット100)は、ユーザ(発話者)が発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、上記音声(音声データ)または該音声が認識された結果(音声認識結果)を、当該音声の属性を示す属性情報と対応付けて記憶部(記憶部12の音声管理テーブル40)に記憶することにより、当該音声の入力を受け付ける受付手段(入力管理部21)と、上記受付手段によって受け付けられた音声に対応するフレーズを提示する提示手段(フレーズ出力部23)と、先に入力された第1の音声に対応する第1のフレーズが上記提示手段によって提示される前に第2の音声が入力された場合に、上記記憶部に記憶されている1以上の属性情報の少なくとも1つに基づいて、上記第1のフレーズの提示要否を判断する判断手段(出力要否判断部22)とを備えている。
上記の構成によれば、第1の音声と第2の音声とが立て続けに入力された場合、受付手段が、第1の音声の属性情報、および、第2の音声の属性情報を、音声ごとに記憶部に記憶する。そして、第1の音声に対応する第1のフレーズが提示される前に、第2の音声が入力されている上記の場合では、判断手段は、上記記憶部に記憶されている属性情報の少なくとも1つに基づいて、上記第1のフレーズの提示要否を判断する。
これにより、第2の音声が入力された後で、それより前に入力された第1の音声に対応する第1のフレーズを提示することを、対話の状況に応じて中止することができる。音声が立て続けに入力された場合、状況によっては、先の音声に返答せずに、後の音声以降のやりとりを続ける方が、対話としてより自然な場合が想定される。本発明は、結果として、不自然な返答を属性情報に基づいて適切に省き、ユーザと情報処理装置との間のより自然な(人間らしい)対話を実現することが可能となる。
本発明の態様2に係る情報処理装置では、上記態様1において、上記判断手段は、上記第1のフレーズを提示要と判断した場合、上記記憶部に記憶されている上記属性情報の少なくとも1つに基づいて、上記第2の音声に対応する第2のフレーズの提示要否を判断することが好ましい。
上記の構成によれば、第1の音声と第2の音声とが立て続けに入力された場合に、判断手段第1のフレーズを提示要と判断した場合に、さらに、第2のフレーズの提示要否も判断する。これにより、第1のフレーズ提示後に第2のフレーズが必ず提示される事態を回避できる。状況によっては、先の音声に対する返答がなされた後では、後の音声に対して返答しない方が、対話としてより自然な場合が想定される。本発明は、結果として、不自然な返答を属性情報に基づいて適切に省き、ユーザと情報処理装置との間のより自然な(人間らしい)対話を実現することが可能となる。
本発明の態様3に係る情報処理装置では、上記態様1または2において、上記受付手段は、上記音声が入力されたときの入力時刻または該音声の受付順序を上記属性情報に含めて記憶し、上記判断手段は、上記入力時刻または上記受付順序、および、上記入力時刻または上記受付順序を用いて決定される他の属性情報の少なくともいずれか1つを用いて、フレーズの提示要否を判断してもよい。
上記の構成によれば、第1の音声と第2の音声とが立て続けに入力された場合に、これらの音声に対応するフレーズの提示要否は、少なくとも、音声の入力時刻または受付順序、もしくは、これらの属性情報を用いて決定される他の属性情報に基づいて判断される。
これにより、音声が入力されたタイミングが古すぎて、当該音声に返答するのは今更不自然であるというような状況の場合に、そのような返答を省くことができる。対話は時間の経過とともに進行し続けるものであり、古い入力音声に対して、長い時間経過してから返答したり、その後やりとりが多く発生した後に返答したりすることは対話として不自然である。本発明は、結果として、上記のような不自然な対話を回避することができる。
本発明の態様4に係る情報処理装置では、上記態様3において、上記判断手段は、上記音声の入力時刻から、該音声に対応するフレーズが自装置にて生成または外部装置(サーバ200)から取得されることにより提示可能となる提示準備完了時刻までの時間(所要時間)が所定の閾値を超える場合に、当該フレーズの提示は不要であると判断してもよい。
これにより、音声が入力された時点から時間が経過し過ぎて今更返答するのが不自然であるという場合にそのような返答の提示を省くことができる。
本発明の態様5に係る情報処理装置では、上記態様3において、上記受付手段は、さらに、各音声の受付順序を上記属性情報に含めて記憶し、上記判断手段は、最も新しく入力された音声の受付順序(最新の音声の受付順序Nn)と、上記第1または第2の音声を含む先に入力された音声の受付順序(対象の音声の受付順序Nc)との差分(新味度)が所定の閾値を超える場合に、当該先に入力された音声に対応するフレーズの提示は不要であると判断してもよい。
これにより、先の音声が入力されて以降、立て続けに音声が多く入力され(あるいは、それらの多くの音声に対して返答が多くなされ)、上記の先の音声に今更返答するのが不自然であるという場合にそのような返答の提示を省くことができる。
本発明の態様6に係る情報処理装置では、態様1〜5において、上記受付手段は、音声を発した発話者を特定する発話者情報を上記属性情報に含めて記憶し、上記判断手段は、上記発話者情報および該発話者情報を用いて決定される他の属性情報の少なくともいずれか1つを用いて、フレーズの提示要否を判断してもよい。
上記の構成によれば、第1の音声と第2の音声とが立て続けに入力された場合に、これらの音声に対応するフレーズの提示要否は、少なくとも、音声の発話者を特定する発話者情報または発話者情報を用いて決定される他の属性情報に基づいて判断される。
これにより、音声を入力した発話者に応じて、不自然な返答を省き、ユーザと情報処理装置とのより自然な対話を実現できる。対話は、同じ相手との間で継続されることが自然である。そこで、発話者情報を用いて、対話の流れを阻害する不自然な返答(例えば、他者からの割込み)を省き、より自然な対話を実現することができる。
本発明の態様7に係る情報処理装置では、上記態様6において、上記判断手段は、上記第1または第2の音声を含む先に入力された音声の発話者情報(対象の音声の発話者情報Pc)が、最も新しく入力された音声の発話者情報(最新の音声の発話者情報Pn)と一致しない場合に、当該先に入力された音声に対応するフレーズの提示は不要であると判断してもよい。
これにより、最新の話し相手との対話を優先し、対話の相手が頻繁に入れ替わり交錯するような不自然な状況を回避することができる。
本発明の態様8に係る情報処理装置では、上記態様6において、上記判断手段は、上記音声の発話者情報に関連付けられている、上記発話者と上記情報処理装置との間の関係を数値で示した関係値が、所定の閾値と比較して所定の条件を満足するか否かに応じて、当該音声に対応するフレーズの提示要否を判断してもよい。
上記の構成によれば、発話者と情報処理装置との間で仮想的に設定された関係性に基づいて、関係の深い話し相手からの音声に対する返答が優先される。これにより、関係が浅い相手が割込んで、対話の相手が頻繁に入れ替わるような不自然な状況を回避することができる。なお、上記関係値は、一例として、ユーザと情報処理装置との間の親しさを表す親密度であってもよい。親密度は、例えば、ユーザの情報処理装置との対話の頻度などに基づいて決定されてもよい。
本発明の態様9に係る情報処理装置では、上記態様3〜5において、上記受付手段は、さらに、音声を発した発話者を特定する発話者情報を上記属性情報に含めて記憶し、上記判断手段は、上記入力時刻または上記受付順序を用いて算出される値(所要時間または新味度)が所定の閾値を超える場合に、当該フレーズの提示は不要であると判断するものであり、上記音声の発話者情報に関連付けられている、上記発話者と上記情報処理装置との間の関係を数値で示した関係値に応じて、上記閾値を変更してもよい。
これにより、関係の深い話し相手への返答を優先しつつ、音声が入力されたタイミングが古すぎて返答することが不自然な場合に、当該返答を省くことができる。
本発明の態様10に係る情報処理装置は、態様1〜9において、上記音声または該音声が認識された結果を外部装置に送信することにより、当該音声に対応するフレーズを上記外部装置に要求する要求手段(フレーズ要求部24)と、上記要求手段による要求(リクエスト2)に対する応答(レスポンス3)として上記外部装置から返信されたフレーズを受信して、上記提示手段に供給する受信手段(フレーズ受信部25)とを備えている。
本発明の態様11に係る情報処理システム(対話システム300)は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置(対話ロボット100)と、音声に対応するフレーズを上記情報処理装置に供給する外部装置(サーバ200)とを含む情報処理システムであって、上記情報処理装置は、上記音声または該音声が認識された結果、および、当該音声の属性を示す属性情報を上記外部装置に送信することにより、当該音声に対応するフレーズを上記外部装置に要求する要求手段(フレーズ要求部24)と、上記要求手段による要求(リクエスト2)に対する応答(レスポンス3)として上記外部装置から送信されたフレーズを受信する受信手段(フレーズ受信部25)と、上記受信手段によって受信された上記フレーズを提示する提示手段(フレーズ出力部23)とを備え、上記外部装置は、上記情報処理装置から送信された、上記音声または該音声が認識された結果と当該音声の属性情報とを対応付けて記憶部(記憶部52の第2音声管理テーブル81)に記憶することにより、当該音声の入力を受け付ける受付手段(フレーズ要求受信部60)と、上記受付手段によって受け付けられた音声に対応するフレーズを上記情報処理装置に送信する送信手段(フレーズ送信部62)と、先に入力された第1の音声に対応する第1のフレーズが上記送信手段によって送信される前に第2の音声が入力された場合に、上記記憶部に記憶されている1以上の属性情報の少なくとも1つに基づいて、上記第1のフレーズの送信要否を判断する判断手段(出力要否判断部63)とを備えている。
態様10および態様11の構成によれば、態様1と略同様の効果を得られる。
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各手段として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置および情報処理システムに利用することができる。
10:制御部、12:記憶部、20:音声認識部(音声認識手段)、21:入力管理部(受付手段)、22:出力要否判断部(判断手段)、23:フレーズ出力部(提示手段)、24:フレーズ要求部(要求手段)、25:フレーズ受信部(受信手段)、50:制御部、52:記憶部、60:フレーズ要求受信部(受付手段)、61:フレーズ生成部(生成手段)、62:フレーズ送信部(送信手段)、63:出力要否判断部(判断手段)、100:対話ロボット(情報処理装置)、200:サーバ(外部装置)、300:対話システム(情報処理システム)
Claims (5)
- ユーザが発した音声に応じて、当該ユーザに所定のフレーズを提示する情報処理装置であって、
上記音声または該音声が認識された結果を、当該音声の属性を示す属性情報と対応付けて記憶部に記憶することにより、当該音声の入力を受け付ける受付手段と、
上記受付手段によって受け付けられた音声に対応するフレーズを提示する提示手段と、
先に入力された第1の音声に対応する第1のフレーズが上記提示手段によって提示される前に第2の音声が入力された場合に、上記記憶部に記憶されている1以上の属性情報の少なくとも1つに基づいて、上記第1のフレーズの提示要否を判断する判断手段とを備えていることを特徴とする情報処理装置。 - 上記判断手段は、上記第1のフレーズを提示要と判断した場合、上記記憶部に記憶されている上記属性情報の少なくとも1つに基づいて、上記第2の音声に対応する第2のフレーズの提示要否を判断することを特徴とする請求項1に記載の情報処理装置。
- 上記受付手段は、上記音声が入力されたときの入力時刻または該音声の受付順序を上記属性情報に含めて記憶し、
上記判断手段は、上記入力時刻または上記受付順序、および、上記入力時刻または上記受付順序を用いて決定される他の属性情報の少なくともいずれか1つを用いて、フレーズの提示要否を判断することを特徴とする請求項1または2に記載の情報処理装置。 - 上記受付手段は、音声を発した発話者を特定する発話者情報を上記属性情報に含めて記憶し、
上記判断手段は、上記発話者情報および該発話者情報を用いて決定される他の属性情報の少なくともいずれか1つを用いて、フレーズの提示要否を判断することを特徴とする請求項1から3までのいずれか1項に記載の情報処理装置。 - 上記受付手段は、さらに、音声を発した発話者を特定する発話者情報を上記属性情報に含めて記憶し、
上記判断手段は、上記入力時刻または上記受付順序を用いて算出される値が所定の閾値を超える場合に、当該フレーズの提示は不要であると判断するものであり、上記音声の発話者情報に関連付けられている、上記発話者と上記情報処理装置との間の関係を数値で示した関係値に応じて、上記閾値を変更することを特徴とする請求項3に記載の情報処理装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014028894A JP6257368B2 (ja) | 2014-02-18 | 2014-02-18 | 情報処理装置 |
PCT/JP2015/051682 WO2015125549A1 (ja) | 2014-02-18 | 2015-01-22 | 情報処理装置 |
CN201580007064.7A CN105960674A (zh) | 2014-02-18 | 2015-01-22 | 信息处理装置 |
US15/114,495 US20160343372A1 (en) | 2014-02-18 | 2015-01-22 | Information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014028894A JP6257368B2 (ja) | 2014-02-18 | 2014-02-18 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015152868A JP2015152868A (ja) | 2015-08-24 |
JP6257368B2 true JP6257368B2 (ja) | 2018-01-10 |
Family
ID=53878064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014028894A Expired - Fee Related JP6257368B2 (ja) | 2014-02-18 | 2014-02-18 | 情報処理装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160343372A1 (ja) |
JP (1) | JP6257368B2 (ja) |
CN (1) | CN105960674A (ja) |
WO (1) | WO2015125549A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10866783B2 (en) * | 2011-08-21 | 2020-12-15 | Transenterix Europe S.A.R.L. | Vocally activated surgical control system |
JP6359327B2 (ja) * | 2014-04-25 | 2018-07-18 | シャープ株式会社 | 情報処理装置および制御プログラム |
JP6468258B2 (ja) * | 2016-08-01 | 2019-02-13 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
US9947319B1 (en) | 2016-09-27 | 2018-04-17 | Google Llc | Forming chatbot output based on user state |
JP6714722B2 (ja) * | 2016-11-08 | 2020-06-24 | シャープ株式会社 | 音声調整装置、制御プログラム、電子機器および音声調整装置の制御方法 |
KR102650135B1 (ko) | 2016-11-18 | 2024-03-21 | 구글 엘엘씨 | 대화형 어시스턴트 컨텍스트 포함하여 사후 검색 결과를 자율적으로 제공 |
JP6817056B2 (ja) * | 2016-12-22 | 2021-01-20 | シャープ株式会社 | サーバ、情報処理方法、ネットワークシステム、および端末 |
US20200273465A1 (en) * | 2017-03-23 | 2020-08-27 | Sharp Kabushiki Kaisha | Speech device, method for controlling speech device, and recording medium |
EP3486900A1 (en) * | 2017-11-16 | 2019-05-22 | Softbank Robotics Europe | System and method for dialog session management |
JP2019200394A (ja) * | 2018-05-18 | 2019-11-21 | シャープ株式会社 | 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム |
JP2021530794A (ja) | 2018-07-17 | 2021-11-11 | アイ・ティー スピークス エル・エル・シーiT SpeeX LLC | インテリジェントアシスタントおよび産業機械とのやり取りのための方法、システム、および、コンピュータプログラム製品 |
JP7165566B2 (ja) * | 2018-11-14 | 2022-11-04 | 本田技研工業株式会社 | 制御装置、エージェント装置及びプログラム |
JP7053432B2 (ja) * | 2018-11-14 | 2022-04-12 | 本田技研工業株式会社 | 制御装置、エージェント装置及びプログラム |
US20220088788A1 (en) * | 2019-02-15 | 2022-03-24 | Sony Group Corporation | Moving body, moving method |
KR20210134741A (ko) * | 2019-03-01 | 2021-11-10 | 구글 엘엘씨 | 어시스턴트 응답을 동적으로 적응시키는 방법, 시스템 및 매체 |
JP2020154269A (ja) * | 2019-03-22 | 2020-09-24 | 株式会社日立ビルシステム | 複数人対話システムおよび複数人対話方法 |
JP6771251B1 (ja) * | 2020-04-24 | 2020-10-21 | 株式会社インタラクティブソリューションズ | 音声解析システム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0350598A (ja) * | 1989-07-19 | 1991-03-05 | Toshiba Corp | 音声応答装置 |
US5155760A (en) * | 1991-06-26 | 1992-10-13 | At&T Bell Laboratories | Voice messaging system with voice activated prompt interrupt |
JP3199972B2 (ja) * | 1995-02-08 | 2001-08-20 | シャープ株式会社 | あいづち応答のある対話装置 |
JP2001246174A (ja) * | 2000-03-08 | 2001-09-11 | Okayama Prefecture | 音声駆動型複数身体引き込みシステム |
JP3916861B2 (ja) * | 2000-09-13 | 2007-05-23 | アルパイン株式会社 | 音声認識装置 |
US7257537B2 (en) * | 2001-01-12 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for performing dialog management in a computer conversational interface |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
JP2002283259A (ja) * | 2001-03-27 | 2002-10-03 | Sony Corp | ロボット装置のための動作教示装置及び動作教示方法、並びに記憶媒体 |
US20030039948A1 (en) * | 2001-08-09 | 2003-02-27 | Donahue Steven J. | Voice enabled tutorial system and method |
JP2003069732A (ja) * | 2001-08-22 | 2003-03-07 | Sanyo Electric Co Ltd | ロボット |
US6917911B2 (en) * | 2002-02-19 | 2005-07-12 | Mci, Inc. | System and method for voice user interface navigation |
JP3900995B2 (ja) * | 2002-04-03 | 2007-04-04 | オムロン株式会社 | 情報処理端末、サーバ、情報処理プログラムおよびこれを記録したコンピュータ読み取り可能な記録媒体 |
JP3788793B2 (ja) * | 2003-04-25 | 2006-06-21 | 日本電信電話株式会社 | 音声対話制御方法、音声対話制御装置、音声対話制御プログラム |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
JP5195405B2 (ja) * | 2008-12-25 | 2013-05-08 | トヨタ自動車株式会社 | 応答生成装置及びプログラム |
US10276170B2 (en) * | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
JP5405381B2 (ja) * | 2010-04-19 | 2014-02-05 | 本田技研工業株式会社 | 音声対話装置 |
US8914288B2 (en) * | 2011-09-01 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for advanced turn-taking for interactive spoken dialog systems |
CN103020047A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 修正语音应答的方法及自然语言对话系统 |
JP5728527B2 (ja) * | 2013-05-13 | 2015-06-03 | 日本電信電話株式会社 | 発話候補生成装置、発話候補生成方法、及び発話候補生成プログラム |
-
2014
- 2014-02-18 JP JP2014028894A patent/JP6257368B2/ja not_active Expired - Fee Related
-
2015
- 2015-01-22 US US15/114,495 patent/US20160343372A1/en not_active Abandoned
- 2015-01-22 WO PCT/JP2015/051682 patent/WO2015125549A1/ja active Application Filing
- 2015-01-22 CN CN201580007064.7A patent/CN105960674A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2015125549A1 (ja) | 2015-08-27 |
CN105960674A (zh) | 2016-09-21 |
JP2015152868A (ja) | 2015-08-24 |
US20160343372A1 (en) | 2016-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6257368B2 (ja) | 情報処理装置 | |
JP6084654B2 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
US8811638B2 (en) | Audible assistance | |
US20130144619A1 (en) | Enhanced voice conferencing | |
WO2017206256A1 (zh) | 一种语速自动调节的方法及终端 | |
JP6497372B2 (ja) | 音声対話装置および音声対話方法 | |
JP5996603B2 (ja) | サーバ、発話制御方法、発話装置、発話システムおよびプログラム | |
WO2021034382A1 (en) | Presenting electronic communications in narrative form | |
EP4144095B1 (en) | Text-to-speech audio segment retrieval | |
TWI399739B (zh) | 語音留言與傳達之系統與方法 | |
KR101891496B1 (ko) | 사용자간 대화 세션에 대한 능동적 모니터링 및 개입을 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체 | |
US20200193994A1 (en) | Electronic device and method for controlling electronic device | |
US11978443B2 (en) | Conversation assistance device, conversation assistance method, and program | |
JP6117021B2 (ja) | 会話処理装置、制御方法、制御プログラム、および記録媒体 | |
CN111557001A (zh) | 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
JP6255274B2 (ja) | 情報処理装置、音声対話装置、および制御プログラム | |
JP2020077272A (ja) | 会話システムおよび会話プログラム | |
KR101914583B1 (ko) | 보안 등과 관련된 서비스를, 사용자간 대화 세션에 대한 모니터링에 기초하고 대화 세션 또는 별도의 세션을 통해, 능동적으로 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체 | |
US11269590B2 (en) | Audio presentation of conversation threads | |
JP2022043901A (ja) | 対話システム、対話ロボット、プログラム、および情報処理方法 | |
JP6265670B2 (ja) | 情報処理装置、サーバ、および、制御プログラム | |
US20200388269A1 (en) | Road map for audio presentation of communications | |
JP2018081147A (ja) | コミュニケーション装置、サーバ、制御方法、および情報処理プログラム | |
US11632346B1 (en) | System for selective presentation of notifications | |
US11983459B1 (en) | Name-recognizing mobile device for automatically adjusting earphone volume |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160923 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6257368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |