JP2023149322A - Method for recovering from failure in interaction and computer program - Google Patents
Method for recovering from failure in interaction and computer program Download PDFInfo
- Publication number
- JP2023149322A JP2023149322A JP2022057831A JP2022057831A JP2023149322A JP 2023149322 A JP2023149322 A JP 2023149322A JP 2022057831 A JP2022057831 A JP 2022057831A JP 2022057831 A JP2022057831 A JP 2022057831A JP 2023149322 A JP2023149322 A JP 2023149322A
- Authority
- JP
- Japan
- Prior art keywords
- robot
- partner
- utterance
- response
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 238000004590 computer program Methods 0.000 title claims description 6
- 230000004044 response Effects 0.000 claims abstract description 97
- 230000008569 process Effects 0.000 claims abstract description 44
- 238000004891 communication Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 230000014509 gene expression Effects 0.000 claims abstract description 9
- 230000008451 emotion Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 16
- 238000012790 confirmation Methods 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000011084 recovery Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 abstract description 11
- 230000008921 facial expression Effects 0.000 description 23
- 230000001815 facial effect Effects 0.000 description 14
- 230000033001 locomotion Effects 0.000 description 13
- 241000282412 Homo Species 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008439 repair process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】ロボットが人間とのコミュニケーションに失敗したときに、自然な形により回復できるようにする。【解決手段】回復方法は、対話相手とのコミュニケーションの失敗を検出する失敗検出ステップ366と、失敗の検出に応答して、対話相手との、感情の表出を伴う対話を行うようにロボットを制御することにより、対話において得た情報を用いて復帰を行うステップ370-394とを含む。失敗検出ステップは、同定処理の信頼度に従って、第1の態度をもって同定処理の結果を確認する第1の発話を行う処理と、自信がなく見える第2の態度をもって、対話相手の同定手順を開始する第2の発話を行う処理とを選択的に行うステップと、第1の発話に対する対話相手の応答が、同定処理の結果の誤りを示すことに応答して、第2の態度をもって同定手順を開始するための第3の発話を行うようロボットを制御するステップとを含む。【選択図】図3[Problem] To enable a robot to recover in a natural way when it fails to communicate with a human. The recovery method includes a failure detection step 366 of detecting a failure in communication with a dialogue partner, and in response to the detection of the failure, the robot is configured to perform a dialogue with the dialogue partner that involves the expression of emotions. The control includes steps 370-394 for returning using information obtained in the interaction. The failure detection step includes a process of making a first utterance to confirm the result of the identification process with a first attitude according to the reliability of the identification process, and a process of starting the process of identifying the dialogue partner with a second attitude that appears lacking in confidence. selectively performing a process of performing a second utterance, and performing the identification procedure with a second attitude in response to the interaction partner's response to the first utterance indicating an error in the result of the identification process; and controlling the robot to make a third utterance to initiate. [Selection diagram] Figure 3
Description
この発明はロボットの制御技術に関し、特に、ヒューマノイドロボットによる人とのコミュニケーション技術の改善に関する。 The present invention relates to robot control technology, and in particular to improvements in communication technology with humans using humanoid robots.
最近のロボット技術の発展はめざましく、以前は困難だった様々な作業をロボットが行うことが可能になっている。中でも、日常生活において人の作業を代行したり、人とのコミュニケーションが必要な作業を遂行したりすることがロボットに期待されている。そのため、社会に溶け込み、人間と関わり合う日常活動を行うロボットに関する研究及び開発が盛んに行われている。 Recent developments in robot technology have been remarkable, and robots are now able to perform a variety of tasks that were previously difficult. In particular, robots are expected to take over the tasks of humans in daily life and perform tasks that require communication with humans. Therefore, research and development on robots that blend into society and perform daily activities that interact with humans is actively being conducted.
日常活動を行うロボットには対話機能が求められる。これまでも対話機能を持つとされるロボットが種々開発されてきた。対話とは、もともと2人の人が相対してことばを交わすこととされる。したがって、人間がロボットと対話を行う場合にも、人の姿に近いロボットを対話相手とすることが望ましいと考えられる。そのような人間らしさを追求した存在として人間にそっくりな外見を持つヒューマノイドロボットがある。以下、ヒューマノイドロボットを単にロボットという。 Robots that perform daily activities are required to have conversational capabilities. Various robots that are said to have conversational functions have been developed. Dialogue is originally thought of as an exchange of words between two people. Therefore, even when a human interacts with a robot, it is considered desirable to have a robot that resembles a human as the conversation partner. There are humanoid robots that look exactly like humans as beings that pursue such human-like characteristics. Hereinafter, the humanoid robot will be simply referred to as a robot.
人間とロボットとのコミュニケーションにおいて、短時間の振る舞いを見るだけならば、多くの人にとってロボットと人間との区別がつかないことを示す文献が公開されている。したがって、ロボットは、社会の中で人間と密接に関わることのできるコミュニケーションメディアとなれると考えられている。 In human-robot communication, there is published literature showing that many people cannot tell the difference between a robot and a human if they only look at their behavior over a short period of time. Therefore, it is believed that robots can become communication media that can closely interact with humans in society.
そうしたロボットが人間と対話を行う場合に問題となる事象として、発話の衝突がある。発話の衝突は、人同士の対話においてもよく発生する。人同士の対話においては、発話の衝突が起きたときには、そのときどきにより様々な対応により衝突を解決する。しかし、対話相手がロボットのときにはそのような融通はきかない。そのため、人とロボットとの対話は、人同士の対話とはかなり異なったものとなる可能性がある。 When such robots interact with humans, a problem that arises is the collision of utterances. Conflicts in utterances often occur in conversations between people. In dialogue between people, when a conflict of utterances occurs, the conflict is resolved by various responses depending on the situation. However, such flexibility is not possible when the conversation partner is a robot. Therefore, interactions between humans and robots can be quite different from interactions between humans.
こうした問題に関連する一つの提案が後掲の特許文献1に提案されている。特許文献に開示された技術は、複数の話者が参加する会話において、次の話者が誰かを推定する技術である。この推定には、各話者の口形状の変化に関する情報に基づいて、次の話者を推定する。この方法を使用すれば、例えば遠隔会議などにおいて発話の衝突が防止できる可能性がある。 One proposal related to these problems is proposed in Patent Document 1 mentioned below. The technology disclosed in the patent document is a technology for estimating who will be the next speaker in a conversation in which multiple speakers participate. In this estimation, the next speaker is estimated based on information regarding changes in the shape of each speaker's mouth. If this method is used, it may be possible to prevent utterance collisions in, for example, remote conferences.
上記特許文献1に開示された技術は、人間同士の会話における次の発話者の推定には有効である可能性がある。しかし特許文献1に開示された技術によっては、会話にロボットが参加するときに、そのロボット自身の発話が対話相手の発話と衝突するという問題は解決できない。また、対話相手が人間であるため、ロボットと人間との間において発話の衝突が生ずる可能性は常に存在する。そのような発話の衝突が生じたときに、どうすれば対話相手に違和感を生じさせずに発話の衝突を解決するかという問題には、特許文献1に開示の技術を適用できないという問題もある。 The technique disclosed in Patent Document 1 may be effective for estimating the next speaker in a conversation between humans. However, the technique disclosed in Patent Document 1 cannot solve the problem that when a robot participates in a conversation, the robot's own utterances collide with the utterances of the conversation partner. Furthermore, since the conversation partner is a human, there is always a possibility that a conflict of utterances will occur between the robot and the human. There is also the problem that the technique disclosed in Patent Document 1 cannot be applied to the problem of how to resolve such a conflict of speech without causing a sense of discomfort to the conversation partner.
こうした問題は要するにロボットが人間とのコミュニケーションに失敗したときに、どのようにすれば相手に違和感を生じさせずにその失敗から復帰できるかという問題として捉えられる。例えば対話の開始時に、ロボットが対話相手を認識できなかったり、認識を誤ったりした場合には、それ以後のロボットと相手との対話を進めることができなくなってしまう。こうした場合にも、コミュニケーションの失敗から自然な形により復帰する必要がある。 In short, these problems can be seen as the question of how to recover from a failure in communication with a human without causing discomfort to the other person when a robot fails to communicate with a human. For example, if the robot cannot recognize the conversation partner or makes a mistake in recognizing the conversation partner at the beginning of a conversation, the robot and the conversation partner will no longer be able to proceed with the conversation. Even in such cases, it is necessary to recover from a communication failure in a natural way.
それ故にこの発明は、ロボットが人間とのコミュニケーションに失敗したときに、自然な形により回復できる、対話における失敗からの回復方法及びコンピュータプログラムを提供することである。 Therefore, it is an object of the present invention to provide a method and computer program for recovering from a failure in dialogue, which allows a robot to recover in a natural manner when it fails to communicate with a human.
この発明の第1の局面に係る対話における失敗からの回復方法は、コンピュータが、ロボットと対話相手とのコミュニケーションの失敗を検出する失敗検出ステップと、コンピュータが、失敗検出ステップにおいて失敗が検出されたことに応答して、あらかじめ定めた手順に従って、対話相手との、感情の表出を伴う対話を行うようにロボットを制御することにより、当該対話において得た情報を用いて失敗からの復帰を行うステップとを含む。 A method for recovering from a failure in dialogue according to a first aspect of the present invention includes a failure detection step in which a computer detects a failure in communication between a robot and a dialogue partner; In response to this, the robot is controlled to have a dialogue that involves the expression of emotion with the dialogue partner according to a predetermined procedure, and the information obtained during the dialogue is used to recover from the failure. step.
好ましくは、失敗検出ステップは、コンピュータが、対話相手の同定処理における信頼度が所定のしきい値より高いか否かにしたがって、あらかじめ準備した第1の態度をもって対話相手に同定処理の結果を確認する第1の発話を行うようロボットを制御する処理と、第1の態度よりも自信がなく見えるようにあらかじめ準備した第2の態度をもって、対話相手の同定手順を開始するための第2の発話を行うようロボットを制御する処理とを選択的に行うステップと、コンピュータが、第1の発話に対する対話相手の応答が、同定処理の結果の誤りを示すものであることに応答して、第2の態度をもって同定手順を開始するための第3の発話を行うよう、ロボットを制御する処理を行うステップとを含む。 Preferably, in the failure detection step, the computer confirms the result of the identification process to the conversation partner with a first attitude prepared in advance, depending on whether the reliability of the conversation partner identification process is higher than a predetermined threshold. a process for controlling the robot to make a first utterance to perform a conversation; and a second utterance for starting a dialogue partner identification procedure with a second attitude prepared in advance so as to appear less confident than the first attitude. selectively performing a process of controlling the robot to perform a second utterance in response to the interaction partner's response to the first utterance indicating an error in the result of the identification process; and controlling the robot to make a third utterance for starting the identification procedure with the attitude of the robot.
より好ましくは、復帰を行うステップは、コンピュータが、第1の発話に対する対話相手の応答が、同定結果が正しいことを示すものであることに応答して、対話相手をロボットにとっての知人に分類するステップと、コンピュータが、あらかじめ準備された、知人との対話のためのシナリオに従った対話を開始するようにロボットを制御するステップとを含む。 More preferably, in the step of performing the return, the computer classifies the interaction partner as an acquaintance of the robot in response to the interaction partner's response to the first utterance indicating that the identification result is correct. and a step in which the computer controls the robot to initiate a dialogue according to a previously prepared scenario for dialogue with an acquaintance.
さらに好ましくは、第2の発話及び第3の発話は同じ発話である。 More preferably, the second utterance and the third utterance are the same utterance.
好ましくは、第2の発話は、ロボットが、対話相手がロボットと初対面か否かを尋ねる発話である。 Preferably, the second utterance is an utterance in which the robot asks whether the conversation partner is meeting the robot for the first time.
より好ましくは、復帰を行うステップはさらに、コンピュータが、第2の発話に対する対話相手の応答が、対話相手がロボットと初対面であることを肯定したか否かを判定するステップと、判定するステップにおける対話相手の応答が否定であることに応答して、第2の態度よりもさらに自信がなく見えるようにあらかじめ準備した第3の態度をもって、対話相手が同定処理により同定された人物か否かに関する第4の発話を行うよう、コンピュータがロボットを制御するステップと、コンピュータが、第4の発話に対する対話相手の応答が肯定であることに応答して、対話相手をロボットにとっての知人に分類し、ホッとした様子に見えるようにあらかじめ準備した第4の態度をもって対話を開始するようロボットを制御するステップと、第4の発話に対する対話相手の応答が否定であることに応答して、残念そうに見えるようにあらかじめ準備した第5の態度を示して追加の同定処理を実行するように、コンピュータがロボットを制御するステップとを含む。 More preferably, the step of performing the return further includes a step in which the computer determines whether or not the dialogue partner's response to the second utterance affirms that the dialogue partner is meeting the robot for the first time; In response to a negative response from the dialogue partner, the user adopts a third attitude prepared in advance so as to appear even less confident than the second attitude, regarding whether or not the dialogue partner is the person identified by the identification process. the computer controlling the robot to make a fourth utterance; and the computer, in response to the interaction partner's response to the fourth utterance being affirmative, classifying the interaction partner as an acquaintance of the robot; controlling the robot to start the dialogue with a fourth attitude prepared in advance so as to appear relieved; and in response to the negative response of the dialogue partner to the fourth utterance, the robot appears disappointed. the computer controlling the robot to display a pre-prepared fifth attitude to be visible and to perform an additional identification process.
さらに好ましくは、追加の同定処理は、コンピュータが、対話相手にその氏名を聞く質問を発話するようロボットを制御するステップと、コンピュータが、氏名を聞く質問に対する対話相手の応答に含まれる氏名が、あらかじめ準備された人物情報データベースに登録されている人物の氏名と一致するか否かを判定することにより判定結果を生成するステップと、コンピュータが、判定結果が肯定であることに応答して、対話相手をロボットにとっての知人に分類し、うれしそうに見えるようにあらかじめ準備した第5の態度を示しながら知人との対話のためのシナリオに従った対話を開始するようにロボットを制御するステップと、コンピュータが、判定結果が否定であることに応答して、対話相手をロボットにとって未知の人に分類し、未知の人との対話としてあらかじめ準備されたシナリオに従って対話相手との対話を開始するようがロボットを制御するステップとを含む。 More preferably, the additional identification process includes a step in which the computer controls the robot to utter a question asking the interaction partner to ask the interaction partner a name, and a step in which the computer controls the robot to utter a question asking the interaction partner to ask the interaction partner a name included in the response to the interaction partner's name question. a step of generating a determination result by determining whether the name matches a person's name registered in a person information database prepared in advance; controlling the robot to classify the other party as an acquaintance for the robot and to start a dialogue according to a scenario for dialogue with an acquaintance while displaying a fifth attitude prepared in advance so as to appear happy; In response to a negative determination result, the computer classifies the conversation partner as a person unknown to the robot, and starts a conversation with the conversation partner according to a scenario prepared in advance as a conversation with an unknown person. and controlling the robot.
好ましくは、追加の同定処理は、コンピュータが、対話相手にその氏名を聞く質問を発話するようロボットを制御するステップと、コンピュータが、氏名を聞く質問に対する対話相手の応答に含まれる氏名が、あらかじめ準備された人物情報データベースに登録されている人物の氏名と一致するか否かを判定することにより判定結果を生成するステップと、コンピュータが、判定結果が肯定であることに応答して、対話相手が人物情報データベースに登録されている人物と同一人物か否かを確認する処理を行い、確認の結果にしたがって、対話相手をロボットにとっての知人と未知の人とに分類するステップと、コンピュータが、対話相手がロボットにとっての知人に分類されたことに応答して、うれしそうに見えるようにあらかじめ準備した第5の態度を示しながら知人との対話のためのシナリオに従った対話を開始するようにロボットを制御するステップと、コンピュータが、判定結果が否定であること、又は対話相手がロボットにとっての未知の人に分類されたことに応答して、未知の人との対話としてあらかじめ準備されたシナリオに従って対話相手との対話を開始するようにロボットを制御するステップとを含む。 Preferably, the additional identification process includes a step in which the computer controls the robot to utter a question asking the interaction partner to ask his or her name, and a step in which the computer determines in advance the name included in the interaction partner's response to the name asking question. a step of generating a determination result by determining whether the name matches the name of the person registered in the prepared person information database; a step of confirming whether or not the person is the same as a person registered in a person information database, and classifying the conversation partner into an acquaintance or an unknown person for the robot according to the confirmation result; In response to the conversation partner being classified as an acquaintance for the robot, the robot starts a conversation according to a scenario for a conversation with an acquaintance while showing the fifth attitude prepared in advance so as to appear happy. A step of controlling the robot, and a scenario prepared in advance as a dialogue with an unknown person in response to the determination result being negative or the dialogue partner being classified as an unknown person to the robot. controlling the robot to initiate a dialogue with the dialogue partner according to the method.
より好ましくは、復帰を行うステップはさらに、第4の発話に対する対話相手の応答が肯定であることに応答して、対話相手を特定するための第5の発話を行うよう、コンピュータがロボットを制御するステップと、コンピュータが、第5の発話に対する対話相手の応答に含まれる対話相手を特定する情報と、同定処理の結果とが一致するか否かに関する判定結果を生成するステップと、判定結果が肯定であることに応答して、対話相手がロボットにとっての知人に相当することを確認するための第6の発話を行うよう、コンピュータがロボットを制御するステップと、コンピュータが、第6の発話に対する対話相手の応答が肯定であることに応答して、対話相手をロボットにとっての知人に分類し、うれしそうに見えるようにあらかじめ準備した第5の態度を示しながら知人との対話のためのシナリオに従った対話を開始するようにロボットを制御するステップとを含む。 More preferably, the step of returning further includes the computer controlling the robot to make a fifth utterance for identifying the dialogue partner in response to the dialogue partner's response to the fourth utterance being affirmative. a step in which the computer generates a determination result regarding whether or not the information identifying the dialogue partner included in the dialogue partner's response to the fifth utterance matches the result of the identification process; In response to the affirmative, the computer controls the robot to make a sixth utterance for confirming that the conversation partner corresponds to an acquaintance of the robot; In response to an affirmative response from the conversation partner, the robot classifies the conversation partner as an acquaintance, and while displaying the fifth attitude prepared in advance so as to appear happy, the robot enters into a scenario for a conversation with an acquaintance. controlling the robot to initiate the compliant interaction.
さらに好ましくは、復帰を行うステップはさらに、コンピュータが、判定結果が否定であることに応答して、対話相手をロボットにとって未知の人に分類し、未知の人との対話としてあらかじめ準備されたシナリオに従って対話相手との対話を開始するようにロボットを制御するステップを含む。 More preferably, the step of performing the return further includes, in response to the negative determination result, the computer classifying the conversation partner as a person unknown to the robot, and creating a scenario prepared in advance as a conversation with an unknown person. controlling the robot to initiate a dialogue with the dialogue partner according to the method.
好ましくは、復帰を行うステップはさらに、コンピュータが、第6の発話に対する対話相手の応答が否定であることに応答して、対話相手をロボットにとって未知の人に分類し、未知の人との対話としてあらかじめ準備されたシナリオに従って対話相手との対話を開始するようにロボットを制御するステップを含む。 Preferably, the step of performing the return further comprises: in response to the interaction partner's response to the sixth utterance being negative, the computer classifies the interaction partner as a person unknown to the robot, and the computer classifies the interaction partner as a person unknown to the robot, The method includes the step of controlling the robot to start a dialogue with a dialogue partner according to a scenario prepared in advance.
この発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの方法を実行するよう機能させる。 A computer program according to a second aspect of the invention causes a computer to function to execute any of the methods described above.
この発明の上記及び他の目的、特徴、局面及び利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。 The above and other objects, features, aspects and advantages of the present invention will become apparent from the following detailed description of the invention, understood in conjunction with the accompanying drawings.
以下の説明及び図面においては、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。 In the following description and drawings, identical parts are provided with the same reference numerals. Therefore, detailed description thereof will not be repeated.
第1 第1実施形態
1.構成
図1に、この発明の第1実施形態に係る、人間とのコミュニケーションを行うロボットシステム100のハードウェア構成をブロック図形式により示す。図1を参照して、ロボットシステム100は、カメラ60と、マイクロフォン66と、スピーカ62と、ロボット110とを含む。ロボット110は、人型ロボットであり、少なくとも上半身の各関節に相当する部分にアクチュエータを持ち、アクチュエータを駆動することにより様々な姿勢をとることができる。またロボット110の頭部には、ロボット110の顔に定義された制御点の位置を制御する複数のアクチュエータが設けられ、このアクチュエータを駆動することによりロボットに様々な表情を与えることができる。
1st Embodiment 1. Configuration FIG. 1 shows, in block diagram form, the hardware configuration of a
ロボットシステム100はさらに、カメラ60の出力を受けるように接続され、カメラ60が出力する映像内の人物の顔画像に対する顔画像認識を行うための顔画像認識PC(Personal Computer)116と、マイクロフォン66からの信号を受け、対話相手の発話についての音声認識を行うための音声認識PC118とを含む。顔画像認識PC116はニューラルネットワークからなり、入力された顔画像が、あらかじめ定められた複数の人物のいずれの顔画像かを示す情報を出力する機能を持つ。より具体的には、顔画像認識PC116を構成するニューラルネットワークは、認識可能な人物の数と同じだけの出力を持ち、入力された顔画像がそれら人物の顔画像である尤度を各人物について出力する。顔画像認識PC116は、尤度が最も高い人物を顔画像の認識結果とし、その識別子に相当する情報を出力する。認識結果として選択された人物に関する尤度を、以下の説明においては顔画像認識の確信度という。なお顔画像認識PC116は、認識結果の人物だけではなく、それ以外で尤度が高い所定人数の識別子も、その尤度とともに出力する。
The
ロボットシステム100はさらに、顔画像認識PC116及び音声認識PC118がともに接続されるネットワーク114と、ネットワーク114に接続され、与えられる制御指令に従ってロボット110の各アクチュエータを制御して、ロボット110の姿勢・動作及び表情を制御するための動作制御PC112とを含む。ロボット110の動作及び表情はあらかじめいくつか定義されており、それらを実現するためのプログラムがあらかじめ準備されている。表情としては、自信のある表情、自信のない表情、うれしそうな表情、残念そうな表情等がある。動作制御PC112は、そのプログラムに動作の継続時間、及び動作の大きさなどの制御情報を引数として与えることにより、ロボット110が所望の表情をもって所望の動作をするよう各アクチュエータを制御する。
The
各表情を実現するためには、あらかじめ様々なパラメータでロボットの表情をさせ、複数の被験者にその表情によりロボット110がどのような感情を持っているかに関するアンケートを行う。その結果に従って、ロボット110に各表情をさせるためのパラメータを決定すればよい。
In order to realize each facial expression, the
ロボットシステム100はさらに、顔画像認識PC116による認識対象となる人物に関する情報(氏名、所属など)を、その人物の識別子をキーとしてアクセスできるように管理する人物情報DB(Database)92と、ネットワーク114及び人物情報DB92に接続され、ネットワーク114に接続された他のPCからの情報に基づいて、ロボット110の動作と発話内容とを算出することによりロボット110の全体的な動作を制御するための統合制御PC122と、ネットワーク114に接続され、統合制御PC122から出力された発話指令に応答して、指定された発話を行うための音声合成を行い、音声信号としてスピーカ62に与えて音声を発生させるための音声合成PC120を含む。統合制御PC122は、図示しない記憶装置に、ロボット110に所定のシナリオに従がった行動をさせるためのプログラムを記憶している。本実施形態においては、後述するようにこのプログラムはグラフ形式により表されるスクリプトとして作成される。
The
このように、顔画像認識PC116、音声認識PC118、音声合成PC120、統合制御PC122及び動作制御PC112が協働して動作することにより、人とのコミュニケーションをとる動作をするようロボット110を制御できる。
In this way, the face
図2を参照して、統合制御PC122の図示しない記憶装置に記憶されているシナリオの形式について説明する。この実施形態では、シナリオは図2に示すグラフ150のようなグラフ形式で記述される。なお、図2は単にシナリオの記述形式を説明するためのものであって、以下に説明するような動作をロボット110に実行させるためのものではない。
With reference to FIG. 2, the format of the scenario stored in the storage device (not shown) of the
図2に示すグラフ150は、ロボットの個々の動作単位を示すブロックと、各ブロックをつなぐ有向のエッジとからなる。グラフ150は、開始ブロック160、発話ブロック162、質問ブロック164、及び音声認識ブロック166を含む。これらブロックは直列に有向エッジで連結されており、エッジに沿って順次に実行される。また、後述する各ブロックでも同様だが、各ブロックにはロボットがひとまとまりの動作を行うための情報が記述されている。この情報は、ロボットがそのブロックにおいて発話すべき内容、とるべき動作、その動作を行うときの感情状態などを含む。ロボットは、各ブロックに到達するとそのブロックに記載された情報に基づいて動作する。
The
グラフ150はさらに、音声認識ブロック166の次に、互いに並列に連結される表情ブロック168及び動作ブロック170、並びに表情ブロック168及び動作ブロック170の次に連結された終了ブロック172とを含む。音声認識ブロック166においては、ロボット110は、ブロック164における質問に対する対話相手の回答を音声認識し、その結果に基づいて、ブロック168又はブロック170を異なるパラメータを用いて実行する。なお、この例においては、質問ブロック164において行われる質問は、基本的にイエス/ノーにより回答できる問題、又は回答のカテゴリが予測できる質問(例えば相手の名前を聞く質問など)である。音声認識ブロック166においては、対話相手の回答がイエス、ノー、分からない、どちらとも言えない、回答がない、などに分類される。対話相手の回答がイエス又はノーのときには、その内容をパラメータとしてブロック168が動作する。例えば回答がロボットの予測した回答と一致したときにはロボットがうれしそうな表情を作り、一致していないときにはびっくりした表情を作る、などである。分からない、どちらともいえないという回答があった場合、及び回答がない場合には、それらに応じたパラメータがブロック170に渡され、ブロック170の処理が実行される。ブロック170においては、ロボットは、パラメータに応じて手を動かしたり、頭を動かしたりする。
The
以下の実施形態においては、ロボット110が例えば研究所の訪問者の受付を務めている場合を想定し、その過程において訪問者とのコミュニケーションに失敗した場合の回復について説明する。訪問者を対話相手とするコミュニケーションは、最初に対話相手を同定する処理から始まる。以下に説明する実施形態は、コミュニケーションの失敗からの回復(復帰)の例として、ロボットが対話相手の同定に失敗したときの回復処理と、対話中に対話相手とロボットとの間に発話衝突が生じたときの回復処理とに関する。
In the following embodiment, it is assumed that the
A.同定失敗からの回復処理
図3は、ロボット110が対話相手の同定処理に失敗したときにロボット110が実行する、あらかじめ定めた手順に従い失敗からの回復処理を実現するためのプログラムの制御構造を示す。対話相手の同定は、上記したとおり図1に示す顔画像認識PC116が実行する。顔画像認識PC116は、同定した対話相手の識別子と、その確信度、及び確信度が低いものの対話相手である可能性がある何人かの識別子とを統合制御PC122に通知する。
A. Recovery Processing from Identification Failure FIG. 3 shows the control structure of a program that is executed by the
図3を参照して、このプログラムは、顔画像認識の結果を受信するステップ360と、受信した確信度が所定のしきい値より大きいか否かに従って制御の流れを分岐させるステップ362とを含む。この場合のしきい値は、顔画像認識PC116による顔画像認識の精度にもよるため、一概に定めることはできない。実際に顔画像認識を行った結果に基づいてこのしきい値を調整することが望ましい。
Referring to FIG. 3, the program includes a
このプログラムはさらにステップ362の判定が肯定であることに応答して、対話相手として同定された識別子に対応する人物に関する情報を人物情報DB92から読み出し、自信のある態度(表情)をもってその情報に含まれる名前を発話することにより、相手の名前を確認するステップ364と、ステップ364の発話に対する相手の応答を音声認識し、相手の応答が肯定か否かを判定して判定結果に従って制御の流れを分岐させるステップ366とを含む。ステップ366の判定が肯定のときには、対話相手の同定処理が成功したということであり、かつそのロボットにとってその対話相手が知人に該当するということである。したがってロボット110は、ステップ368において対話相手を知人に分類し、知人を相手とする場合の対話のためにあらかじめ準備されていたシナリオに沿って相手との対話を開始する。このときには、笑顔で挨拶するようにロボット110を制御するとよい。
Further, in response to the affirmative determination in
このプログラムはさらに、ステップ362の判定が否定(すなわち確信度がしきい値以下)であるとき、又はステップ366の判定が否定(すなわち同定処理が誤っており、相手が同定結果の人物ではない)であるときに実行され、確信度がしきい値より高い場合よりも自信がないように見える態度をもって対話相手がロボット110と初対面か否かを尋ねる質問を発話するステップ370と、ステップ370における質問に対する対話相手の応答を音声認識して、対話相手の応答が肯定か否かに従って制御の流れを分岐させるステップ372とを含む。ステップ372の判定が肯定ならば対話相手とロボット110とが初対面であるということであり、否定ならば対話相手とロボット110とが以前に対話したことがあるはず、ということである。
This program further determines that when the determination in
このプログラムはさらに、ステップ372の判定が否定であることに応答して、ステップ360において顔画像認識により同定された人物の名前が対話相手の名前と一致するか否かを対話相手に確認する発話を行うステップ374と、ステップ374の発話に対する対話相手の応答を音声認識し、その応答が肯定か否定かに従って制御の流れを分岐させるステップ376とを含む。ステップ376の判定が肯定ならば、最初の同定処理の結果が正しかったということである。したがって制御はステップ368に進み、対話相手を知人に分類して、ロボットを制御し知人を相手とする対話を開始させる。この場合、ステップ374においては、ロボットには自信のなさそうな表情をさせるとよい。このようにすることにより、対話相手から見ると、対話相手が誰かをロボットが推定しているように見える。その結果、対話相手に人型ロボットの知能を感じさせることができるという効果がある。
In response to the negative determination in
このプログラムはさらに、ステップ376における判定が否定であることに応答して、ロボット110が対話相手に対しその名前を尋ねる発話をするようにロボット110を制御するステップ378と、ステップ378における発話に対する相手の応答を音声認識し、音声認識結果に含まれる相手の名前が人物情報DB92に存在するか否かを判定してその結果に従って制御の流れを分岐させるステップ380とを含む。ステップ380における判定が肯定ならば、この人物はロボット110にとっての知人ということになる。したがって制御はステップ368に進む。ステップ380における判定が否定ならば、この人物はロボット110にとって知人のはずだが、人物情報DB92にその情報がないということになる。したがってこのプログラムにおいては、ステップ382及びそれ以降の処理において、相手に対してすまなさそうな表情をもって相手に関する情報を集めるための処理を実行するようロボット110を制御する。
This program further includes a
このプログラムはさらに、ステップ372の判定が肯定のときに、相手に対してその名前を尋ねる発話を行うようロボット110を制御するステップ384と、対話相手の応答に対する音声認識により特定された対話相手の名前が、ステップ360における顔画像認識処理において、候補として挙げられていたいくつかの人物のいずれかの名前と一致するか否かを判定し、判定結果に従って制御の流れを分岐させるステップ386とを含む。
This program further includes a
ステップ386における判定結果が否定ならば制御はステップ394に進み、コンピュータは対話相手を初対面の相手(未知の人)に分類する。この後、コンピュータは、初対面の人との対話としてあらかじめ準備されていたスクリプトによる対話を行うようロボット110を制御する。
If the determination result in
このプログラムはさらに、ステップ386の判定結果が肯定であることに応答して、やや自信がない表情をもって、ロボット110が対話相手に会ったことがあるような気がする、という趣旨の発話をするようロボット110を制御するステップ388と、この発話に対する対話相手の応答が肯定か否かに従って制御の流れを分岐させるステップ390と、ステップ390における判定が肯定であるときに、嬉しそうな表情をするようロボット110を制御するとともに、この対話相手をロボット110にとっての知人に分類するステップ392とを含む。ステップ392の後は、ステップ368と同様、知人との対話を実行するようにロボット110を制御する。ステップ390の判定が否定ならば、制御はステップ394に進み、対話相手を初対面の相手に分類する。
Furthermore, in response to the affirmative determination result in
ステップ372において、相手はロボット110と初対面であると認めている。それにもかかわらず、ステップ388及び390においては相手がロボット110とあったことがあるか否かを確認する処理が行われる。これは、人によっては、相手が自分を認識しないときに、過去に会ったことをわざわざロボットに説明することを煩雑と考えて避ける場合があるためである。ステップ388及び390のような処理を入れることにより、対話相手は、ロボット110が自分を記憶していてくれたと思い、ロボット110に対する親近感を持つことが期待される。
In
このように、対話相手の同定に失敗した際に、ロボットが感情の表出を伴う対話を対話相手との間において行うことにより、失敗からの回復のための情報を対話相手から引き出すことができる。ロボットは、これらの情報に基づいて、自然な形で失敗からの回復を行い、対話相手のカテゴリに応じた対話を開始できる。 In this way, when a robot fails to identify a conversation partner, by having a conversation with the conversation partner that involves the expression of emotions, it is possible to extract information from the conversation partner for recovery from the failure. . Based on this information, the robot can recover from failure in a natural manner and start a dialogue according to the category of the dialogue partner.
B.発話衝突からの回復処理
対話においてよく発生するコミュニケーションの失敗は、発話の衝突である。人と人との対話は、話し手と聞き手とが順次交代しながら進む。話し手となる順番が発話のターンである。発話のターンは通常は自然な形で入れ替わる。話し手と、聞き手との間で、何らかのターン交代規則が成立しているからと言われている。しかし、何らかの条件でターンの交代に失敗し、二人がほぼ同時に話し始めることがある。これが発話の衝突である。
B. Recovery Process from Utterance Conflict A communication failure that often occurs in dialogue is utterance conflict. Dialogue between people progresses as the speaker and listener take turns. The turn of the speaker is the speaking turn. Utterance turns usually change in a natural way. It is said that this is because some kind of turn-taking rule is established between the speaker and the listener. However, under some conditions, the turn exchange may fail and the two people may start speaking at almost the same time. This is a conflict of utterances.
なお、対話する両者の間では、ターンの交代までは話し手が発話をする権利を持っているという暗黙の了解ができていると考えられる。この権利は発話権とも呼ばれるが、この明細書では発言権という。 It is thought that there is a tacit understanding between the two parties that the speaker has the right to speak until the turn is changed. This right is also called the right to speak, but in this specification it is referred to as the right to speak.
ターンの交代における発話の衝突は、主として聞き手の側の失敗と考えられる。この実施形態においては、発話の衝突としてロボットに責任がある場合と、対話相手に責任がある場合とを考える。図4に前者を、図5に後者を図示する。 Conflicts in utterances during turn changes are considered to be primarily a failure on the part of the listener. In this embodiment, we will consider a case where the robot is responsible for a conflict in utterances and a case where the conversation partner is responsible. The former is illustrated in FIG. 4, and the latter is illustrated in FIG.
図4を参照して、ロボットに責任がある発話衝突について説明する。対話相手の発話ターン400において、対話相手が発話410を行った後、発話ターンを保持しながら、一時の中断の後に次の発話412をしようとする。この一時の中断をロボットが発話ターンの終わりと誤解して、発話414を開始しようとする。その結果、発話414の先頭部分と発話412の先頭部分とが時間的に重複する結果、発話衝突416が発生する。
Referring to FIG. 4, a speech collision in which the robot is responsible will be described. In the conversation partner's
図5を参照して、対話相手に責任がある発話衝突は、図4に示すと逆の状況である。具体的には、ロボットが発話ターン430の中において発話440を行った後、発話ターンを保持したまま、一時的な中断の後、次の発話442を開始する。対話相手が、この一時的な中断が発話ターンの終わりであると誤解して、次の発話444を開始する。その結果、発話442の先頭と発話444先頭とが時間的に重複し、発話衝突446が発生する。
Referring to FIG. 5, an utterance conflict in which the conversation partner is responsible is the opposite situation to that shown in FIG. Specifically, after the robot makes an
なお、対話をしている発話者どうしの発話が時間的に重複しているからといって、それが直ちに発話衝突とはいえない。典型的には、一方の発話者の発話中に、他方の発話者が相槌をうつ場合がある。そのような相槌は発話衝突と考えるべきではない。また、一方の発話者が発話を完全に終了する前に、相手が発話を開始することもある。この場合も、最初の発話者の発話ターンが終了までの時間が短時間ならば発話衝突と考えるべきではない。発話衝突の検出においてはこうした問題を考慮する必要がある。 Note that just because the utterances of two speakers in a dialogue overlap in time, this does not immediately mean that there is a utterance conflict. Typically, while one speaker is speaking, the other speaker may chime in. Such exchanges should not be considered utterance conflicts. Furthermore, the other party may start speaking before one speaker has completely finished speaking. In this case as well, if it takes a short time to complete the speaking turn of the first speaker, it should not be considered an utterance conflict. These issues need to be taken into consideration when detecting speech collisions.
図6及び図7に示す、例示のプログラムを表すグラフを用いて、発話衝突が発生しやすい状況と、発話衝突の発生を検出する対象区間(衝突検出区間)について説明する。図6と図7とは同じグラフである。図6はロボットに責任がある発話衝突が発生しやすい状況の例を示し、図7は対話相手に責任がある発話衝突が発生しやすい状況の例を示す。 Using graphs showing exemplary programs shown in FIGS. 6 and 7, a situation where a speech collision is likely to occur and a target section (collision detection section) in which the occurrence of a speech collision is detected will be described. 6 and 7 are the same graphs. FIG. 6 shows an example of a situation in which a speech conflict in which the robot is responsible is likely to occur, and FIG. 7 shows an example in a situation in which a speech conflict in which the conversation partner is responsible is likely to occur.
図6を参照して、このグラフは、左端の開始ブロックに続き2つの発話ブロックと2つの質問ブロックとがこの順に設けられる。質問ブロックの次に、相手の発話を音声認識しする音声認識ブロックが設けられる。音声認識ブロックの次には、3つの経路が設けれる。音声認識ブロックにおいて認識された対話相手の応答によってこれら経路のいずれかが選択される。 Referring to FIG. 6, in this graph, two speech blocks and two question blocks are provided in this order following the leftmost start block. Next to the question block, a voice recognition block is provided which performs voice recognition of the other party's utterances. Following the speech recognition block, three paths are provided. One of these routes is selected depending on the dialogue partner's response recognized in the speech recognition block.
これら3つの経路の各々は、連続する2つの発話ブロックを含む。これら3つの経路の最後は質問ブロックに合流する。質問ブロックの次には、再度、音声認識ブロックが設けられる。音声認識ブロックにおける対話相手の発話の音声認識により、対話のトピックがトピック1及び2、及びトピック3のいずれかから選択され、このプログラムの実行が終了される。 Each of these three paths includes two consecutive speech blocks. The last of these three paths joins the question block. Next to the question block, a voice recognition block is provided again. By voice recognition of the conversation partner's utterance in the voice recognition block, the conversation topic is selected from topics 1, 2, and topic 3, and the execution of this program is completed.
図6を参照して、ロボットに責任がある発話衝突が発生しやすい状況の例を示す。図6に示すグラフに従ってロボットが動作する場合、対話相手の発話ターン460の直後において発話衝突が生じやすい。したがって、対話相手の発話ターン460に続く発話ブロックの先頭部分を囲む発話衝突の衝突検出区間464が必要となる。一方、相手の発話ターン462の後にはロボットの発話ブロックが存在しない。したがって発話ターン462に関しては発話衝突の衝突検出区間は必要ない。
Referring to FIG. 6, an example of a situation in which a robot is likely to be responsible for a speech conflict is shown. When the robot operates according to the graph shown in FIG. 6, a utterance collision is likely to occur immediately after the conversation partner's
図7を参照して、対話相手に責任がある発話衝突が発生しやすい状況の例を示す。図7に示すグラフに従ってロボットが発話する場合、グラフのスタートブロックの直後に3個の発話ブロックが続く。これら3個の発話ブロックがロボットの発話ターン480となる。ロボットの発話ターン480においては、各発話ブロックの後に発話の切れ目が存在する。そうした範囲では、対話相手がロボットの発話ターンの終了と誤って認識して発話する可能性がある。その結果、対話相手に責任がある発話衝突が生じやすい。したがって図7に示す発話ターン480の中で、各ブロックの境界部分を含む領域をまとめて衝突検出区間484とする。
Referring to FIG. 7, an example of a situation in which an utterance conflict in which the conversation partner is responsible is likely to occur is shown. When the robot speaks according to the graph shown in FIG. 7, three speech blocks immediately follow the start block of the graph. These three speech blocks constitute a
ロボットの発話ターン480の後には音声認識ブロックが存在する。この部分は対話相手の発話ターンとなる。さらにこの音声認識ブロックの末尾と互いに並列関係にある3つの経路を含むロボットの発話ターン482が存在する。この発話ターン482内の各発話ブロックの先頭部分において、対話相手に責任がある発話衝突が生じやすい。したがって、これらを含む部分をまとめて衝突検出区間486とする。
After the robot's speaking
この実施形態においては、このような衝突検出区間以外において発生した発話の重複は発話衝突とみなさない。もちろん、そうした発話の重複を発話衝突として処理してもよい。 In this embodiment, duplication of utterances occurring outside of such a collision detection section is not considered as a utterance collision. Of course, such duplication of utterances may be treated as a utterance collision.
図8に、ロボットに責任がある発話衝突からの復帰を実現するプログラムの制御構造を示す。図8を参照して、このプログラムは、ロボットが発話を中断するステップ600と、発話の衝突が生じたことについてロボットが気付いたことを示す、あらかじめ定義された表情(例えば驚いた表情、とまどった表情など)をするようにロボットを制御するステップ602とを含む。ステップ602においては、「あっ」というような声をロボットが発話するようロボットを制御してもよい。
FIG. 8 shows the control structure of a program that realizes recovery from a speech collision in which the robot is responsible. Referring to FIG. 8, the program includes a
このプログラムはさらに、ステップ602に続いて、ロボットが対話相手に発言権を譲るための処理を実行するステップ604と、ステップ604に続いてさらに新たな衝突が発生したか否かを判定し、新たな再衝突が発生したときには制御をステップ600に戻し、さもなければこの復帰処理を終了するステップ606とを含む。
This program further includes, following
ステップ604は、ステップ602に続き、対話相手の発話の中断があったか否かを判定し、判定結果に従って制御の流れを分岐させるステップ610と、ステップ610における判定が肯定であることに応答して、対話相手に発言権を譲ることにより発話ターンの調整を行うステップ612と、ステップ610における判定が肯定でかつステップ612の実行が終了したこと、又はステップ610における破綻が否定であることに応答して、対話相手の発話ターンの終了が検出されるまで待機するステップ614と、対話相手の発話ターンの終了が検出されたことに応答して、ロボットが発話しようとしていた情報の再伝達を行い、ステップ604の処理を終了するステップ616とを含む。
ステップ610において対話相手の発話が中断したか否かを判定する理由は以下のとおりである。もしも対話相手が発話を中断しなかったら、ロボットが発話を中断するだけで発話衝突から復帰できる。したがってこの場合、ロボットは特に発話をせず、発言権を譲ることを示すジェスチャを行えば十分である。場合によってはジェスチャも必要ない場合もある。したがって、特にロボットが発話をしなくても対話を速やかに修復できる。
The reason for determining whether or not the dialogue partner's speech has been interrupted in
一方、対話相手が発話を中断した場合には、もともとの発話ターンが対話相手にあったのだから、ロボットはより丁寧に発言権を対話相手に譲る必要がある。そこで、この場合にはロボットは、より丁寧に、発言権を相手に譲ることを明示する発話とそのためのジェスチャとを行う。この場合のロボットの動作としては、例えば「お先にどうぞ」と発話しつつ、手を対話相手に向けて伸ばすことにより発話を促すことが考えられる。もちろんこれは単なる1例であって、他にも対話を修復するための発話及びジェスチャは色々考えられる。 On the other hand, if the conversation partner interrupts speaking, the robot needs to more politely yield the right to speak, since the conversation partner originally had the speaking turn. Therefore, in this case, the robot more politely makes an utterance clearly indicating that it is giving up the right to speak to the other party, and makes a gesture for that purpose. In this case, the robot's behavior may be to encourage the conversation partner to speak by, for example, uttering, "Please come first," and extending its hand toward the conversation partner. Of course, this is just one example, and various other utterances and gestures can be considered to repair the dialogue.
このような処理を行うことにより、ロボットと対話相手との対話のテンポを維持しながら、自然な対話が行えるようなロボットの振る舞いを実現できる。 By performing such processing, it is possible to maintain the tempo of the dialogue between the robot and the dialogue partner, while realizing the robot's behavior that allows for natural dialogue.
図9に、対話相手に責任がある発話衝突からの対話の回復(復帰)を実現するためのプログラムの制御構造を示す。図9を参照して、このプログラムは、発話衝突が検出されたことに応答して、ロボットの発話を中断するステップ630と、発話衝突にロボットが気付いたことを示す表情を作るようロボットを制御するステップ632と、実行中の発話ブロックにおいて、ロボットの感情の1つのパラメータとして設定された、ロボットの発話意欲の値が所定のしきい値より大きいか否かに従って、ステップ636及び638に制御の流れを分岐させるステップ634とを含む。ステップ636は、ロボットが発言権を相手に譲るための処理であり、ステップ638はロボットが発話ターンを維持するための処理である。なお、この実施形態では、ロボット110の発話意欲の値は、例えばシナリオ作成時において該当する発話ブロックを定義する際にシステム設計者が設定する。もちろん、それ以外の条件によりシナリオ実行時に何らかの手段で発話意欲の値を設定するようにしてもよい。
FIG. 9 shows a control structure of a program for realizing dialogue recovery (return) from an utterance conflict in which the dialogue partner is responsible. Referring to FIG. 9, the program includes
ステップ636は、対話相手の発話に中断があったか否かに応じて制御の流れを分岐させるステップ650と、ステップ650の判定が肯定であることに応答して、発話ターンの調整を行うステップ652とを含む。ステップ652において行われる処理は、図8のステップ612において行われる処理と同じである。ステップ636はさらに、ステップ650の判定が肯定でステップ652が終了したこと、又はステップ650の判定が否定であることに応答して、対話相手の発話ターンが終了するまで待機するステップ654と、対話相手の発話ターンが終了したことに応答して、発話衝突が生じたときにロボットが発話により伝えようとしていた情報を再伝達してステップ636を終了するステップ656とを含む。
Step 636 includes a
このプログラムはさらに、ステップ636が完了したことに応答して、再衝突がさらに発生したか否かを判定し、判定が肯定なら制御をステップ630に戻し、判定が否定なら発話衝突からの対話の修復を完了したとしてこのプログラムの実行を終了するステップ640を含む。
The program further determines whether further re-collisions have occurred in response to step 636 being completed, returns control to step 630 if the determination is positive, and returns control to step 630 if the determination is negative; The program includes
ステップ638は、フィラーを表出するステップ660と、ステップ660に続き、ロボットが発話ターンを維持することを相手に伝えることにより発話ターンの調整を行うステップ662と、発話衝突が発生したときにロボットが発話により伝えようとしていた情報を再伝達してこのプログラムの実行を終了するステップ664とを含む。ステップ660のフィラーとしては、例えば「えーっと」のような意味のない音声でよい。ステップ662において行われる発話としては、例えば「先に私に言わせてくださいね」とか「先にお話してよいですか?」などのように、ロボットが発話ターンを維持することを明らかにするものならばよい。
Step 638 includes a
図10に、ロボットと対話相手との間に発話衝突があったか否かを判定するためのプログラムの制御構造を示す。このプログラムは、ロボットの制御ループの各時刻、例えば100ミリ秒ごとの各時刻において起動される。 FIG. 10 shows the control structure of a program for determining whether or not there is a speech conflict between the robot and the conversation partner. This program is started at each time in the robot's control loop, for example every 100 milliseconds.
図10を参照してこのプログラムは、衝突からの復帰中か否かについての判定に従って、制御の流れを分岐させるステップ700と、ステップ700の判定が否定であるときに、ロボットの発話と対話相手の発話とが重複しているか否かについての判定に従って制御の流れを分岐させるステップ704と、ステップ704の判定が肯定であるときに、自分(ロボット)の発話が相槌か否かについての判定に従って制御の流れを分岐させるステップ706とを含む。なお、ステップ706におけるロボットの発話が相槌か否かの判断は、あらかじめ相槌となる発話テキストを集めて作成した辞書を参照することで相槌と判定できる。発話者が相手のときも同様である。
Referring to FIG. 10, this program includes a
ステップ700の判定が肯定のとき、ステップ704の判定が否定のとき、及びステップ706の判定が肯定のときには制御はステップ702に進む。ステップ702においては、発話衝突は発生していないと判定され、発話衝突が発生していないときの処理が実行される。
When the determination at
ステップ700における判定により、衝突からの復帰中には発話衝突の検出は行われないことになる。またステップ704における判定により、ロボットと発話相手との発話が時間的に重複していない場合には発話衝突は生じない。さらにステップ706における判定により、ロボットの発話が相槌ならば、たとえ相手の発話と重なっていても発話衝突とは判定されない。
The determination in
このプログラムはさらに、ステップ706の判定が否定であることに応答して、ロボットの前回の発言後、ロボットが発言権を保持しているか否かに従って制御の流れを分岐させるステップ708と、ステップ708における判定が肯定であることに応答して、ロボットの予測発話長がしきい値T1ミリ秒以上か否かに従って制御の流れを分岐させるステップ728とを含む。ステップ728の判定が否定のときには、発話衝突は発生しないと結論する(ステップ736)。
The program further includes a step 708 in which, in response to a negative determination in
ここでいうロボットの予測発話長とは、ロボットの現在の発話の最大長のことである。ロボットが現在の発話を全て行ったとしても、その長さが十分に小さければ、実際には発話の衝突にはならない。ステップ728の判定はそのためである。
The predicted utterance length of the robot here refers to the maximum length of the robot's current utterance. Even if the robot makes all of its current utterances, if their length is small enough, there will actually be no utterance collision. This is the reason for the determination in
このプログラムはさらに、ステップ728の判定が肯定であることに応答して、ロボットの現在の発話位置が、発話の末尾の所定長の部分かそれ以外かに従って制御の流れを分岐させるステップ730と、ステップ730の判定が否定であること、すなわち発話の開始位置又は発話本体であると判定されたことに応答して、ロボットの発話と対話相手の発話とが重複している時間がしきい値T2ミリ秒以上か否かに従って制御の流れを分岐させるステップ732とを含む。
The program further includes a
ロボットの予測発話長がある程度長いとしても、現在の発話位置が発話の末尾部分ならば、実質的に発話の衝突と考える必要はない。ステップ730の判定はそのためである。またステップ708における判定によってロボットが発言権を保持している。したがって、ロボットの発話位置が発話の末尾でない場合であって、発話の重複時間がしきい値以上ある場合には、対話相手の責任による発話衝突が発生したと結論できる。ステップ732の判定はそのためである。このプログラムはそのため、ステップ732における判定が肯定ならば対話相手の責任による発話衝突が発生したと判定するステップ734をさらに含む。
Even if the predicted utterance length of the robot is long to some extent, if the current utterance position is at the end of the utterance, there is no need to consider it as a utterance collision. This is the reason for the determination in
このプログラムはさらに、ステップ728における判定が否定、ステップ730における判定が肯定、又はステップ732における判定が否定のときに、発話衝突は発生しないと判定するステップ736を含む。
The program further includes a
このプログラムはさらに、ステップ708における判定が否定であることに応答して、対話相手の発話が相槌か否かに従って制御の流れを分岐させるステップ710と、ステップ710の判定が否定であることに応答して、ロボットの予測発話長がしきい値T1ミリ秒以上か否かに従って制御の流れを分岐させるステップ712と、ステップ712における判定が肯定であることに応答して、ロボットの現在の発話位置が、発話の末尾部分か、先頭部分か、本体部分かに従って制御の流れを分岐させるステップ714と、ステップ714においてロボットの現在の発話位置が発話本体であると判定されたことに応答して、発話の重複時間がしきい値T2ミリ秒以上か否かに従って制御の流れを分岐させるステップ718とを含む。
This program further includes a
対話相手の発話が相槌ならば、仮にロボットの発話と対話相手の発話とが重複していたとしても、発話重複が発生したと考える必要はない。ステップ710の判定はそのためのものである。
If the conversation partner's utterance is mutual, even if the robot's utterance and the conversation partner's utterance overlap, there is no need to consider that utterance overlap has occurred. The determination in
ステップ714においてロボットの現在の発話位置が発話の末尾部分と判定されたときには制御はステップ702に進み、発話衝突が生じていないと結論される。ステップ714においてロボットの現在の発話位置が発話の先頭部分と判定されたときには制御はステップ716に進み、ロボットの責任による発話衝突が起きたと結論される。ステップ718における判定が肯定のときには制御はステップ720に進み、対話相手の責任による発話衝突が起きたと結論される。ステップ718における判定が否定のときには制御はステップ722に進み発話衝突は起きていないと判定される。
When it is determined in
ステップ708の判定が否定ならば、ロボットは発言権を保持していない。したがって、ステップ712においてロボットの予測発話長がしきい値より長く、かつ現在の発話位置が発話の先頭ならばロボットの責任による発話衝突が発生したと結論できる。またステップ714においてロボットの現在の発話位置が発話の末尾であると判定されれば、実質的には発話衝突が発生していないと考えることができる。さらに、ロボットの現在の発話位置が発話本体であって、仮に発話の重複が生じたとすれば、それは対話相手が発話を開始したときと判断できる。したがって、その重複時間がしきい値以上ならば対話相手の責任による発話衝突が発生したと判断でき、そうでなければ対話相手が発話をすぐに終わらせたと考えられ、実質的に発話衝突が発生していないと判定できる。
If the determination at step 708 is negative, the robot does not hold the right to speak. Therefore, if the robot's predicted utterance length is longer than the threshold in
このプログラムはさらに、ステップ712における判定が否定のときに、ロボットの発話が会話終了を告げる発言か否かにより制御を分岐させるステップ724を含む。ステップ724における判定が肯定のときには制御はステップ722に進み、発話衝突が起きていないと結論される。ステップ724における判定が否定のときには制御はステップ726に進み、ロボットの責任による発話衝突が発生したと結論される。なお、ステップ724における、会話終了を告げる発の例としては、例えば「さようなら」などの別れの挨拶がある。またしきい値T1としては例えば1300ミリ秒、しきい値T2としては例えば1700ミリ秒という値を採用してもよい。
This program further includes a
図11に、ロボットの1発話750の先頭752、本体754、及び末尾756の例を示す。図11に示す例においては、先頭752は発話開始から500ミリ秒の範囲である。末尾756は、発話の予測発話長の末尾から500ミリ秒の範囲である。本体754はそれ以外の発話750の部分である。もちろんこれは1例であって、先頭752及び末尾756の長さは図11に示すものには限定されない。また先頭752の長さと末尾756の長さとが一致する必要もない。
FIG. 11 shows an example of the beginning 752,
2.効果
以上のようにこの実施形態によれば、ロボットが対話相手の同定に失敗したときにも、対話の途中で発話衝突が発生したときにも、一定の手順に従って対話を修復し、正常な対話に復帰できる。その際、ロボットが表情と適切なジェスチャを交えて修復のための対話を行うため、対話相手から見ると、人と対話しているときと同様、自然な形によりコミュニケーションを回復できるという効果がある。また発話衝突が発生したときに、従来と異なり、常にロボットが対話相手に発言権を譲るわけではない。ロボットの発話意欲を設定することにより、発話衝突が対話相手の責任による場合には、ロボットの発話意欲によってはロボットが発言権を維持して発話を続ける場合と、対話相手に発言権を譲る場合との双方の動作が行われる。これはロボットの行動としては、従来技術と比較してより人間に近いと評価できる行動であり、対話相手にとって自然な形により発話衝突から正常な対話に復帰できるという効果がある。
2. Effects As described above, according to this embodiment, even when the robot fails to identify the conversation partner or when a speech conflict occurs during the conversation, the robot can repair the conversation according to a certain procedure and restore normal dialogue. You can return to At that time, the robot uses facial expressions and appropriate gestures to carry out restorative dialogue, so from the perspective of the dialogue partner, the effect is that communication can be restored in a natural manner, just like when speaking with a human. . Also, when a speech conflict occurs, unlike in the past, the robot does not always yield the right to speak to the other party. By setting the robot's desire to speak, if a speech conflict is the responsibility of the conversation partner, depending on the robot's desire to speak, the robot may maintain the right to speak and continue speaking, or it may yield the right to the conversation partner. Both operations are performed. This is a robot behavior that can be evaluated as being more human-like than conventional techniques, and has the effect of allowing the conversation partner to return to a normal conversation after an utterance conflict in a natural way.
第2 第2実施形態
第2実施形態に係るロボットは、対話相手の同定に失敗したときに、図3に示す第1実施形態に係るロボットが実行するプログラムに代えて、図12に制御構造を示すプログラムを実行する。
2 Second Embodiment The robot according to the second embodiment has the control structure shown in FIG. 12 instead of the program executed by the robot according to the first embodiment shown in FIG. Run the program shown.
図12を参照して、第2実施形態に係るロボットが実行するプログラムが図3に示すものと異なるのは、ステップ380における判定が肯定のときに、直ちに制御をステップ368に進めるのではなく、人物の同定をより確実にするためにステップ770の判定を行う点である。ステップ770においては、ステップ380において人物情報DB92において検索された人物情報に記載されたその人物の属性と、相手の属性とが一致するか否かが判定される。例えば、人物情報DB92のレコードに人物の性別及び生年月日が含まれていたとすれば、それらの情報と、ステップ360において認識対象となった顔画像から推定された性別及び年齢とを比較する。この処理においては、完全に一致するか否かを決定することはできないが、顔画像の人物が人物情報DB92に記録された性別と、生年月日から計算した年齢とに一致する確率(尤度)を算出することは、学習済のニューラルネットワークを使用することにより可能である。
Referring to FIG. 12, the program executed by the robot according to the second embodiment is different from the program shown in FIG. The point is that the determination in
この尤度が一定のしきい値以上ならばステップ770の判定が肯定となり、そうでなければ否定となる。ステップ770の判定が肯定ならば制御はステップ368に進み、認識された人物を知人に分類する。さもなければ制御はステップ382に進み、知人のはずだが人物情報DB92には該当する記録がない人物に相手を分類する。
If this likelihood is greater than or equal to a certain threshold, the determination at
顔画像認識による相手の同定に失敗したときであって、相手がステップ370における質問に対して名乗った名前が人物情報DB92にあったとしても、その人物が人物情報DB92に記録されている人物と同一人物であると完全に判断できるわけではない。ステップ770の判定を挿入することにより、対話相手が人物情報DB92に記録された人物と同一か否かをより正確に判定できるという効果がある。
When identification of the other party by face image recognition fails, and even if the name the other party gave in response to the question in
第3 第3実施形態
第3実施形態も、第2実施形態と同様、第1実施形態の図3に示すプログラムに代えて、図13に制御構造を示すプログラムを実行する点において第1実施形態と異なる。
Third Third Embodiment The third embodiment is similar to the second embodiment in that a program whose control structure is shown in FIG. 13 is executed instead of the program shown in FIG. 3 of the first embodiment. different from.
図13に示すプログラムが図3に示すプログラムと異なるのは、ステップ380における判定が肯定であるときに、直ちに制御をステップ368に移すのではなく、第2実施形態と同様、対話相手の同定をより確実にするための処理を設ける点である。
The program shown in FIG. 13 is different from the program shown in FIG. 3 because, when the determination in
このプログラムは、対話相手が名乗った名前を持つ人物のレコードが人物情報DB92において複数見つかった場合に対話相手をできるだけ正確に同定するための処理を含む。
This program includes processing for identifying the conversation partner as accurately as possible when a plurality of records of a person having the name given by the conversation partner are found in the
より具体的には、このプログラムは、図3に示す各ステップに加えて、ステップ380における判定が肯定であることに応答して、対話相手が名乗った名前を持つ人物のレコードが人物情報DB92において複数見つかったか否かに従って制御の流れを分岐させるステップ800をさらに含む。ステップ800の判定が否定ならば、すなわち見つかったレコードが一つのみの場合には、第1実施形態と同様、制御はステップ368に進み、対話相手を知人に分類する。
More specifically, in addition to each step shown in FIG. The method further includes
このプログラムはさらに、ステップ800の判定が否定であること、すなわち検索されたレコードが1つであることに応答して、人物情報DB92において検索されたレコードを用いて対話相手を特定するためのステップ802をさらに含む。
This program further includes, in response to the negative determination at
ステップ802は、ステップ800における判定が肯定であること、すなわち検索されたレコードが複数であることに応答して、複数のレコードに対して所定の終了条件が成立するまで以下のステップ822を実行するステップ820を含む。ここにおける終了条件は、複数のレコードのうち、対話相手と一致する情報を持つレコードが見つかったか、対話相手と一致する情報を持つレコードが一つも見つからなかったという条件である。ステップ822は、処理対象のレコードの情報のうち、名前以外の情報を使って、対話相手がそのレコードに記録された人物か否かを確認するステップ840と、ステップ840の判定が肯定か否定かに従って制御の流れを分岐させるステップ842とを含む。例えば人物情報DB92に各人物の所属が記録されていたとすれば、ロボットはステップ840において「A部署のBさんですか?」のような質問を相手に対して行う。相手がこの質問に対して肯定の応答をすればステップ842の判定が肯定になる。相手がこの質問に対して否定の応答をすればステップ842の判定は否定になる。
In
ステップ842の判定が肯定ならば、対話相手がそのレコードに記録された相手であることが分かる。したがって制御はステップ822を抜けてステップ368に進み、対話相手を知人に分類する。ステップ842の判定が否定ならばロボットは次のレコードを使用して同様の処理を行う。全てのレコードについてステップ840及び842を実行しても相手が同定できないときには、制御はステップ382に進む。ステップ382においては、対話相手を知人のはずだが人物情報DB92に記録されていない人物に分類し、対話を開始することになる。
If the determination in
以上のようにこの第3実施形態によれば、ステップ378において対話相手が名乗った名前に該当する人物のレコードが人物情報DB92に複数存在していた場合でも、その中に該当する人物があればその人物を特定できる。人物の同定を誤る可能性を小さくできる。その結果、以後の対話を円滑に進めることができる可能性が高くなるという効果が得られる。
As described above, according to the third embodiment, even if there are multiple records of a person corresponding to the name given by the conversation partner in
第4 第4実施形態
第4実施形態は、第1実施形態の図9に示すプログラム(対話相手に責任がある発話衝突を検出した際にロボットシステム100が実行するプログラム)に代えて、図14に制御構造を示すプログラムをロボットシステムが実行してロボットの動作を制御する点に特徴がある。
Fourth Embodiment The fourth embodiment uses the program shown in FIG. The robot system is characterized by the fact that the robot system executes a program that shows the control structure to control the robot's movements.
図14を参照して、図14に示すプログラムが図9に示すプログラムと異なるのは、ステップ632とステップ634との間に、発話衝突が最初の衝突か否かに従って制御の流れを分岐させるステップ900をさらに含む点である。ステップ900における判定が肯定ならば制御はステップ636に進み、ステップ900における判定が否定ならば制御はステップ634に進む。ステップ634以下は図1に示すものと同じである。
Referring to FIG. 14, the program shown in FIG. 14 differs from the program shown in FIG. 9 in that between
このステップ900を設けることにより、以下のような効果が得られる。対話相手とロボットとの今回の対話において、最初に対話相手の責任による発話衝突が生じたときには、ステップ900の判定が必ず肯定になる。したがってロボットは必ず対話相手に発言権を譲る。しかし、2回目以降の発話の場合には、ロボットは、その発話意欲によって発言権を維持したり、相手に発言権を譲ったりする。例えば人同士の対話において発話衝突が発生したときには、自分に責任がなくても相手に発言権を譲るという行為が見られることがある。この行為は、逆の状況が発生したときに、相手も同じような行為をしてくれるという期待によるものと思われる。こうした行為は非常に人間的な行為と考えられる。この実施形態においては、そのような行為をロボットに行わせることにより、対話相手から見てロボットとの対話がより人間との対話に近く、自然なものとなるという効果がある。
By providing this
第5 コンピュータによる実現
図15は、例えば図1に示す統合制御PC122として動作するコンピュータシステムの外観図である。図16は、図15に示すコンピュータシステムのハードウェアブロック図である。図1に示す音声認識PC118、音声合成PC120、顔画像認識PC116及び動作制御PC112も、統合制御PC122とほぼ同様の構成のコンピュータシステムにより実現できる。したがって、ここでは統合制御PC122の構成についてのみ述べることとし、他のPCの構成の詳細については繰り返さない。
Fifth Realization by Computer FIG. 15 is an external view of a computer system that operates as, for example, the
図15を参照して、このコンピュータシステム950は、DVD(Digital Versatile Disc)ドライブ1002を有するコンピュータ970と、いずれもコンピュータ970に接続された、対話相手と対話するためのキーボード974、マウス976、及びモニタ972とを含む。もちろんこれらは対話相手対話が必要となったときのための構成の一例であって、システムを扱うための対話相手対話に利用できる一般のハードウェア及びソフトウェア(例えばタッチパネル、音声入力、ポインティングデバイス一般)ならばどのようなものも利用できる。そのような対話相手対話が想定されない場合にはこれらは不要である。
Referring to FIG. 15, this
図16を参照して、コンピュータ970は、DVDドライブ1002に加えて、CPU(Central Processing Unit)990と、GPU(Graphics Processing Unit)992と、CPU990、GPU992、DVDドライブ1002に接続されたバス1010と、バス1010に接続され、コンピュータ970のブートアッププログラムなどを記憶するROM(Read-Only Memory)996とを含む。
Referring to FIG. 16, a
コンピュータ970はさらに、バス1010に接続され、プログラムを構成する命令、システムプログラム、及び作業データなどを記憶するRAM(Random Access Memory)998と、バス1010に接続された不揮発性メモリであるSSD(Solid State Drive)1000とを含む。SSD1000は、CPU990及びGPU992が実行するプログラム、並びにCPU990及びGPU992が実行するプログラムが使用するデータなどを記憶するためのものである。コンピュータ970はさらに、他端末との通信を可能とするネットワーク986(図1に示すネットワーク114)への接続を提供するネットワークI/F(Interface)1008と、USB(Universal Serial Bus)メモリ984が着脱可能であり、USBメモリ984とコンピュータ970内の各部との通信を提供するUSBポート1006とを含む。
The
コンピュータ970はさらに、マイクロフォン982、スピーカ980、及び図示しないカメラ、ロボットの各アクチュエータなどの外部機器とバス1010とに接続され、CPU990などの内部の各部と外部機器との間の入出力を行うための入出力I/F1004を含む。
The
上記実施形態においては、動作制御PC112、統合制御PC122、音声認識PC118、音声合成PC120、及び顔画像認識PC116などの機能を実現するプログラムなどは、いずれも例えば図16に示すSSD1000、RAM998、DVD978又はUSBメモリ984、若しくはネットワークI/F1008及びネットワーク986を介して接続された図示しない外部装置の記憶媒体などに格納される。典型的には、これらのデータ及びパラメータなどは、例えば外部からSSD1000に書込まれコンピュータ970の実行時にはRAM998にロードされる。
In the above embodiment, programs for realizing functions such as the
このコンピュータシステムを、図1に示す動作制御PC112、統合制御PC122、音声認識PC118、及び音声合成PC120、並びにそれらの各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、DVDドライブ1002に装着されるDVD978に記憶され、DVDドライブ1002からSSD1000に転送される。又は、これらのプログラムはUSBメモリ984に記憶され、USBメモリ984をUSBポート1006に装着し、プログラムをSSD1000に転送する。又は、このプログラムはネットワーク986を通じてコンピュータ970に送信されSSD1000に記憶されてもよい。
A computer program for operating this computer system so as to realize the functions of the
プログラムは実行のときにRAM998にロードされる。もちろん、キーボード974、モニタ972及びマウス976を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをSSD1000に格納してもよい。上記実施形態のようにスクリプト言語の場合には、キーボード974などを用いて入力したスクリプトをSSD1000に格納してもよい。仮想マシン上において動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ970にインストールしておく必要がある。顔画像認識、音声認識及び音声合成などにはニューラルネットワークが使用される。顔画像から対話相手の性別及び年齢を推定するプログラムにもニューラルネットワークが使用される。これらについては、別のシステムにより学習済のニューラルネットワークを使用してもよいし、ロボットシステム100において学習を行ってもよい。
The program is loaded into
CPU990は、その内部のプログラムカウンタと呼ばれるレジスタ(図示せず)により示されるアドレスに従ってRAM998からプログラムを読み出して命令を解釈し、命令の実行に必要なデータを命令により指定されるアドレスに従ってRAM998、SSD1000又はそれ以外の機器から読み出して命令により指定される処理を実行する。CPU990は、実行結果のデータを、RAM998、SSD1000、CPU990内のレジスタなど、プログラムにより指定されるアドレスに格納する。アドレスによってはロボットのアクチュエータへの指令、音声信号などとしてコンピュータから出力される。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、DVD978から、USBメモリ984から、又はネットワーク986を介して、RAM998に直接にロードしてもよい。なお、CPU990が実行するプログラムの中で、一部のタスク(主として数値計算)については、プログラムに含まれる命令により、又はCPU990による命令実行時の解析結果に従って、GPU992にディスパッチされる。
The
コンピュータ970により上記した各実施形態における各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ970を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ970上において動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、コンピュータ970にインストールされる各種ツールキットのモジュール又はプログラムの実行環境により提供される場合もある。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方によって適切な機能又はモジュールなどを静的にリンクすることにより、又は動的に呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ970の動作方法は周知である。したがって、ここでは繰り返さない。
A program that causes the
なお、GPU992は並列処理を行うことが可能であり、機械学習に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中に発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、CPU990からGPU992にディスパッチされ、実行され、その結果が直接に、又はRAM998の所定アドレスを介してCPU990に返され、プログラム中の所定の変数に代入される。
Note that the
第6 その他の変形例
上記実施形態においては、特定のシナリオに従ってロボット110が動作する。しかしこの発明はそのような実施形態には限定されない。特定のシナリオではなく、ロボット110がその都度自己の行動を選択するような実施形態においても、相手との対話を行う際には上記実施形態に係る方法を利用できる。また上記実施形態においては、対話の最初における対話相手の同定誤り、及び対話における発話衝突に関するものなら、この発明はそのような場合に適用可能なだけではない。一方が相手の発話を誤解したために対話が破綻した場合、又はロボットの相手がロボットを対話相手と認識しない場合などにも上記と同様、ロボットに感情を持たせて応答することにより、人とロボットとの自然な対話に復帰できる。さらに、上記実施形態においては、ロボットという、物理的実体を持つものが対話の一方当事者だった。しかしこの発明はそのような実施形態には限定されない。すなわち、この発明におけるロボットとは、物理的実体を持つものに限られない。いわゆるアバターのように、人間の形を模した映像にもこの発明を適用できる。
Sixth Other Modifications In the embodiment described above, the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。 The embodiment disclosed this time is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim, with reference to the description of the detailed description of the invention, and all changes within the scope and meaning equivalent to the words described therein are defined. include.
60 カメラ
62、980 スピーカ
66、982 マイクロフォン
92 人物情報DB
100 ロボットシステム
110 ロボット
112 動作制御PC
114、986 ネットワーク
116 顔画像認識PC
118 音声認識PC
120 音声合成PC
122 統合制御PC
150 グラフ
360、362、364、366、368、370、372、374、376、378、400、430、460、462 発話ターン
412、414、440、442、444 発話
416、446 発話衝突
480、482 ロボットの発話ターン
950 コンピュータシステム
970 コンピュータ
60
100
114,986
118 Voice recognition PC
120 Voice synthesis PC
122 Integrated control PC
150
Claims (11)
コンピュータが、前記失敗検出ステップにおいて前記失敗が検出されたことに応答して、あらかじめ定めた手順に従って、前記対話相手との、感情の表出を伴う対話を行うように前記ロボットを制御することにより、当該対話において得た情報を用いて前記失敗からの復帰を行うステップとを含み、
前記失敗検出ステップは、
前記コンピュータが、前記対話相手の同定処理における信頼度が所定のしきい値より高いか否かにしたがって、あらかじめ準備した第1の態度をもって前記対話相手に前記同定処理の結果を確認する第1の発話を行うよう前記ロボットを制御する処理と、前記第1の態度よりも自信がなく見えるようにあらかじめ準備した第2の態度をもって、前記対話相手の同定手順を開始するための第2の発話を行うよう前記ロボットを制御する処理とを選択的に行うステップと、
コンピュータが、前記第1の発話に対する前記対話相手の応答が、前記同定処理の結果の誤りを示すものであることに応答して、前記第2の態度をもって前記同定手順を開始するための第3の発話を行うよう、前記ロボットを制御する処理を行うステップとを含む、対話における失敗からの回復方法。 a failure detection step in which the computer detects a failure in communication between the robot and the dialogue partner;
In response to the failure being detected in the failure detection step, the computer controls the robot to have a conversation with the conversation partner that involves the expression of emotion, according to a predetermined procedure. , the step of recovering from the failure using the information obtained in the dialogue,
The failure detection step includes:
A first step in which the computer confirms the result of the identification process with the conversation partner with a first attitude prepared in advance, depending on whether the reliability in the identification process of the conversation partner is higher than a predetermined threshold; a process of controlling the robot to make an utterance, and a second utterance for starting the dialogue partner identification procedure with a second attitude prepared in advance so as to appear less confident than the first attitude; selectively performing a process of controlling the robot to perform;
a third step for the computer to initiate the identification procedure with the second attitude in response to the interaction partner's response to the first utterance indicating an error in the result of the identification process; and controlling the robot to make the utterance.
コンピュータが、前記第1の発話に対する前記対話相手の応答が、前記同定結果が正しいことを示すものであることに応答して、前記対話相手を前記ロボットにとっての知人に分類するステップと、
コンピュータが、あらかじめ準備された、知人との対話のためのシナリオに従った対話を開始するように前記ロボットを制御するステップとを含む、請求項1に記載の方法。 The step of performing the return includes:
a step in which the computer classifies the interaction partner as an acquaintance of the robot in response to the interaction partner's response to the first utterance indicating that the identification result is correct;
2. The method of claim 1, further comprising the step of: a computer controlling the robot to initiate a dialogue according to a previously prepared scenario for dialogue with an acquaintance.
コンピュータが、前記第2の発話に対する前記対話相手の応答が、前記対話相手が前記ロボットと初対面であることを肯定したか否かを判定するステップと、
前記判定するステップにおける前記対話相手の応答が否定であることに応答して、前記第2の態度よりもさらに自信がなく見えるようにあらかじめ準備した第3の態度をもって、前記対話相手が前記同定処理により同定された人物か否かに関する第4の発話を行うよう、コンピュータが前記ロボットを制御するステップと、
コンピュータが、前記第4の発話に対する前記対話相手の応答が肯定であることに応答して、前記対話相手を前記ロボットにとっての知人に分類し、ホッとした様子に見えるようにあらかじめ準備した第4の態度をもって対話を開始するよう前記ロボットを制御するステップと、
前記第4の発話に対する前記対話相手の応答が否定であることに応答して、残念そうに見えるようにあらかじめ準備した第5の態度を示して追加の同定処理を実行するように、コンピュータが前記ロボットを制御するステップとを含む、請求項2から請求項4のいずれか1項に記載の方法。 The step of performing the return further includes:
a step in which the computer determines whether or not the interaction partner's response to the second utterance affirms that the interaction partner is meeting the robot for the first time;
In response to the negative response of the dialogue partner in the determining step, the dialogue partner performs the identification process with a third attitude prepared in advance so as to appear even less confident than the second attitude. a computer controlling the robot to make a fourth utterance regarding whether or not the person is the person identified by the computer;
In response to the affirmative response of the dialogue partner to the fourth utterance, the computer classifies the dialogue partner as an acquaintance of the robot, and the computer classifies the dialogue partner as an acquaintance of the robot, and makes a fourth utterance prepared in advance so that the robot appears relieved. controlling the robot to initiate a dialogue with an attitude of
In response to the negative response of the dialogue partner to the fourth utterance, the computer displays a fifth attitude prepared in advance such as looking disappointed and performs an additional identification process. 5. A method according to any one of claims 2 to 4, comprising the step of controlling a robot.
コンピュータが、前記対話相手にその氏名を聞く質問を発話するよう前記ロボットを制御するステップと、
コンピュータが、前記氏名を聞く質問に対する前記対話相手の応答に含まれる氏名が、あらかじめ準備された人物情報データベースに登録されている人物の氏名と一致するか否かを判定することにより判定結果を生成するステップと、
コンピュータが、前記判定結果が肯定であることに応答して、前記対話相手を前記ロボットにとっての知人に分類し、うれしそうに見えるようにあらかじめ準備した第5の態度を示しながら知人との対話のためのシナリオに従った対話を開始するように前記ロボットを制御するステップと、
コンピュータが、前記判定結果が否定であることに応答して、前記対話相手を前記ロボットにとって未知の人に分類し、未知の人との対話としてあらかじめ準備されたシナリオに従って前記対話相手との対話を開始するようが前記ロボットを制御するステップとを含む、請求項5に記載の方法。 The additional identification process includes:
a computer controlling the robot to utter a question to the conversation partner asking for his or her name;
A computer generates a determination result by determining whether the name included in the response of the dialogue partner to the question asking for the name matches the name of the person registered in a person information database prepared in advance. the step of
In response to the affirmative determination result, the computer classifies the conversation partner as an acquaintance of the robot, and engages in a conversation with the acquaintance while displaying a fifth attitude prepared in advance so as to appear happy. controlling the robot to initiate a dialogue according to a scenario for;
In response to the determination result being negative, the computer classifies the conversation partner as a person unknown to the robot, and conducts a conversation with the conversation partner according to a scenario prepared in advance as a conversation with an unknown person. 6. The method of claim 5, wherein initiating includes controlling the robot.
コンピュータが、前記対話相手にその氏名を聞く質問を発話するよう前記ロボットを制御するステップと、
コンピュータが、前記氏名を聞く質問に対する前記対話相手の応答に含まれる氏名が、あらかじめ準備された人物情報データベースに登録されている人物の氏名と一致するか否かを判定することにより判定結果を生成するステップと、
コンピュータが、前記判定結果が肯定であることに応答して、前記対話相手が前記人物情報データベースに登録されている人物と同一人物か否かを確認する処理を行い、確認の結果にしたがって、前記対話相手を前記ロボットにとっての知人と未知の人とに分類するステップと、
コンピュータが、前記対話相手が前記ロボットにとっての知人に分類されたことに応答して、うれしそうに見えるようにあらかじめ準備した第5の態度を示しながら知人との対話のためのシナリオに従った対話を開始するように前記ロボットを制御するステップと、
コンピュータが、前記判定結果が否定であること、又は前記対話相手が前記ロボットにとっての未知の人に分類されたことに応答して、未知の人との対話としてあらかじめ準備されたシナリオに従って前記対話相手との対話を開始するように前記ロボットを制御するステップとを含む、請求項5に記載の方法。 The additional identification process includes:
a computer controlling the robot to utter a question to the conversation partner asking for his or her name;
A computer generates a determination result by determining whether the name included in the response of the dialogue partner to the question asking for the name matches the name of the person registered in a person information database prepared in advance. the step of
In response to the affirmative determination result, the computer performs processing to confirm whether or not the conversation partner is the same person as the person registered in the person information database, and according to the confirmation result, a step of classifying a conversation partner into an acquaintance or an unknown person for the robot;
A dialogue according to a scenario for dialogue with an acquaintance, in which the computer displays a fifth attitude prepared in advance so as to appear happy in response to the robot's classification of the dialogue partner as an acquaintance of the robot. controlling the robot to initiate
In response to the determination result being negative or the conversation partner being classified as an unknown person to the robot, the computer selects the conversation partner according to a scenario prepared in advance as a conversation with an unknown person. 6. The method of claim 5, comprising: controlling the robot to initiate an interaction with the robot.
前記第4の発話に対する前記対話相手の応答が肯定であることに応答して、前記対話相手を特定するための第5の発話を行うよう、コンピュータが前記ロボットを制御するステップと、
コンピュータが、前記第5の発話に対する前記対話相手の応答に含まれる前記対話相手を特定する情報と、前記同定処理の結果とが一致するか否かに関する判定結果を生成するステップと、
前記判定結果が肯定であることに応答して、前記対話相手が前記ロボットにとっての知人に相当することを確認するための第6の発話を行うよう、コンピュータが前記ロボットを制御するステップと、
コンピュータが、前記第6の発話に対する前記対話相手の応答が肯定であることに応答して、前記対話相手を前記ロボットにとっての知人に分類し、うれしそうに見えるようにあらかじめ準備した第5の態度を示しながら知人との対話のためのシナリオに従った対話を開始するように前記ロボットを制御するステップとを含む、請求項5に記載の方法。 The step of performing the return further includes:
a step in which the computer controls the robot to make a fifth utterance for identifying the conversation partner in response to the conversation partner's response to the fourth utterance being affirmative;
a step in which the computer generates a determination result regarding whether or not information identifying the conversation partner included in the conversation partner's response to the fifth utterance matches the result of the identification process;
In response to the affirmative determination result, the computer controls the robot to make a sixth utterance for confirming that the conversation partner corresponds to an acquaintance of the robot;
In response to the affirmative response of the conversation partner to the sixth utterance, the computer classifies the conversation partner as an acquaintance of the robot, and has a fifth attitude prepared in advance such that the robot appears happy. 6. The method of claim 5, comprising: controlling the robot to initiate a scenario-based interaction with an acquaintance while indicating the interaction with an acquaintance.
A computer program for causing a computer to perform the method according to any one of claims 1 to 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022057831A JP2023149322A (en) | 2022-03-31 | 2022-03-31 | Method for recovering from failure in interaction and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022057831A JP2023149322A (en) | 2022-03-31 | 2022-03-31 | Method for recovering from failure in interaction and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023149322A true JP2023149322A (en) | 2023-10-13 |
Family
ID=88287975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022057831A Pending JP2023149322A (en) | 2022-03-31 | 2022-03-31 | Method for recovering from failure in interaction and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023149322A (en) |
-
2022
- 2022-03-31 JP JP2022057831A patent/JP2023149322A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Morency et al. | Contextual recognition of head gestures | |
KR20140000189A (en) | Humanoid robot equipped with a natural dialogue interface, method for controlling the robot and corresponding program | |
CN112379780B (en) | Multi-mode emotion interaction method, intelligent device, system, electronic device and medium | |
Johansson et al. | Opportunities and obligations to take turns in collaborative multi-party human-robot interaction | |
KR20200036089A (en) | Apparatus and method for interaction | |
Murray et al. | Learning backchanneling behaviors for a social robot via data augmentation from human-human conversations | |
CN114840090A (en) | Virtual character driving method, system and equipment based on multi-modal data | |
JP6992957B2 (en) | Agent dialogue system | |
Bilac et al. | Gaze and filled pause detection for smooth human-robot conversations | |
KR20200059112A (en) | System for Providing User-Robot Interaction and Computer Program Therefore | |
Parreira et al. | How did we miss this? a case study on unintended biases in robot social behavior | |
KR102576788B1 (en) | Apparatus and method for generating robot interaction behavior | |
US20040095389A1 (en) | System and method for managing engagements between human users and interactive embodied agents | |
JP2023149322A (en) | Method for recovering from failure in interaction and computer program | |
Sievers et al. | Interacting with a Sentimental Robot–Making Human Emotions tangible for a Social Robot via ChatGPT | |
JP2023149321A (en) | Method for recovering from failure in interaction and computer program | |
JP2018173456A (en) | Dialogue robot and robot control program | |
Nakano et al. | A robot that can engage in both task-oriented and non-task-oriented dialogues | |
Lin et al. | Nonverbal acoustic communication in human-computer interaction | |
Jaber et al. | Cross-Modal Repair: Gaze and Speech Interaction for List Advancement | |
US20220009082A1 (en) | Method for controlling a plurality of robot effectors | |
Kanda et al. | A tension-moderating mechanism for promoting speech-based human-robot interaction | |
Traum et al. | Integration of Visual Perception in Dialogue Understanding for Virtual Humans in Multi-Party interaction. | |
André et al. | Multimodal fusion in human-agent dialogue | |
Kumar et al. | Enhancing robot understandability-a model to estimate varying levels of discrepancy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20250213 |