JP2009222969A - 音声認識ロボットおよび音声認識ロボットの制御方法 - Google Patents
音声認識ロボットおよび音声認識ロボットの制御方法 Download PDFInfo
- Publication number
- JP2009222969A JP2009222969A JP2008067103A JP2008067103A JP2009222969A JP 2009222969 A JP2009222969 A JP 2009222969A JP 2008067103 A JP2008067103 A JP 2008067103A JP 2008067103 A JP2008067103 A JP 2008067103A JP 2009222969 A JP2009222969 A JP 2009222969A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- face
- unit
- speaker
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000033001 locomotion Effects 0.000 claims abstract description 22
- 238000003384 imaging method Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 210000003128 head Anatomy 0.000 description 11
- 230000004044 response Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 241000282414 Homo sapiens Species 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009118 appropriate response Effects 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000036544 posture Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Landscapes
- Manipulator (AREA)
Abstract
【課題】音声認識が成功しなかった際に、発話者に対して音声認識の失敗した原因を理解させるような音声認識ロボットおよび音声認識ロボットの制御方法を提供すること。
【解決手段】音声認識ロボットにおいて、発話者が発声した音声を受信する受信部と、受信した音声の内容を認識する音声認識部と、音声を受信した方向について撮像し、撮像した画像を画像データとして取得する撮像部と、撮像した画像内に存在する発話者の顔を検出する顔検出部と、検出した顔の中から特定部位の動きを抽出する抽出部と、抽出した特定部位の動きに基づいて音声の受信状態を判定する判定部と、音声認識が成功しなかった際に、前記判定した音声の受信状態に基づいて警告信号を出力する出力部と、を設け、受信した音声が確実に発話者から発声されたことを確認することで、発話者に対して音声認識の失敗した原因を理解させるような警告信号を出力可能とした。
【選択図】図3
【解決手段】音声認識ロボットにおいて、発話者が発声した音声を受信する受信部と、受信した音声の内容を認識する音声認識部と、音声を受信した方向について撮像し、撮像した画像を画像データとして取得する撮像部と、撮像した画像内に存在する発話者の顔を検出する顔検出部と、検出した顔の中から特定部位の動きを抽出する抽出部と、抽出した特定部位の動きに基づいて音声の受信状態を判定する判定部と、音声認識が成功しなかった際に、前記判定した音声の受信状態に基づいて警告信号を出力する出力部と、を設け、受信した音声が確実に発話者から発声されたことを確認することで、発話者に対して音声認識の失敗した原因を理解させるような警告信号を出力可能とした。
【選択図】図3
Description
本発明は、発話者の発した音声の内容を認識するとともに、発話者に対して応答する会話応対型の音声認識ロボット、およびこのような音声認識ロボットの制御方法に関するものである。
近年、人間(発話者)が話し掛けた内容を音声データとして受信し、その内容を認識してその内容に対応した応答文を音声として出力することで、人間との会話を行うための会話型の音声認識システムが、開発されつつある。このような音声認識システムは、システム内部の記憶領域に応答文として発話する音声データを多数記憶しておき、認識した音声の内容に最も関連付けられる音声データを選択し、選択した音声データを音声として発話するものである。このような音声認識システムは、話し掛けられた内容を音声データとして取得し、この音声データを所定の言語の文節に区切ることで、各文節の順序や近接度合いに基づいてその内容に最も適した応答文を選択する。(例えば特許文献1)
一方、このような音声認識システムを利用した、音声認識機能を備えたロボットも、接客などに活用されつつある。このような音声認識ロボットは、人間から話し掛けられた内容が必ずしも理解できるとは限らないため、音声認識を失敗した場合に、話し掛けた人間に対して、音声認識ができなかったことを理解させるために、ロボットに特有の動作を行わせることが行われる(例えば特許文献2)。
しかしながら、このような音声認識機能を備えたロボットが、音声認識を失敗する理由としては、人間の発した音声の強さ(ボリューム)や音声内容の問題に起因するもの以外に、音声を入力するハードウェア(マイク)の故障や、ドライバ不良などのソフトウェア上の問題に起因するものもある。これらの音声認識を失敗する理由のうち、人間の発声した発話の強さや内容に起因するもの以外の理由については、入力する音声を修正しても音声認識を正しく行うことができない。そのため、前述のように、音声認識が成功しなかったことをロボットが動作により人間(発話者)に伝えた場合、発話者側の音声を調整しても再度音声認識を失敗してしまう。
本発明は、このような問題を解決するためになされたものであり、音声認識が成功しなかった際に、発話者に対して音声認識の失敗した原因を理解させることの可能な音声認識ロボットおよび音声認識ロボットの制御方法を提供することを目的としている。
本発明にかかる音声認識ロボットは、発話者が発声した音声を受信する受信部と、受信した音声の内容を認識する音声認識部と、を備える音声認識ロボットであって、音声を受信した方向について撮像し、撮像した画像を画像データとして取得する撮像部と、撮像した画像内に存在する発話者の顔を検出する顔検出部と、検出した顔の中から特定部位の動きを抽出する抽出部と、抽出した特定部位の動きに基づいて音声の受信状態を判定する判定部と、音声認識が成功しなかった際に、前記判定した音声の受信状態に基づいて警告信号を出力する出力部と、を備えることを特徴としている。
このような音声認識ロボットは、受信した音声の音声認識を成功しなかった際に、受信した音声が確実に発話者から発声されたことを確認することができる。そのため、発話者から音声が発声されたにも関わらず、音声認識ができなかった場合に、発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由であると判断することができる。したがって、出力する警告信号中に、音声認識を失敗した理由が発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由である旨を含めることにより、発話者に対して音声認識の失敗した原因を理解させることが可能となる。
なお、前記抽出部の抽出する特定部位は、発話者が音声を発声したことを判定できる部位であればいずれの部位を利用してもよいが、検出した顔に含まれる口唇であることが好ましい。発話者の口唇の動きを抽出し、その動きに基づいて受信した音声が発話者から発声されたか否かを判定することにより、受信した音声が発話者から確実に発声したものであることを確認することが可能となる。
また、抽出された特定部位が口唇である場合に、前記判定部は、抽出された口唇の開閉度合いに基づいて、音声の受信状態を判定するものであってもよい。このように、音声を受信した際に発話者の口唇が開閉しているか否かを判定することによって、受信した音声が発話者から確実に発声したものであることを簡単に確認することができる。
なお、前記顔検出部としては、どのような手段により発話者の顔を検出するものであってもよいが、発話者の顔に含まれる目と口唇の位置を特定し、これらの位置に基づいて顔の輪郭を推定することで、顔全体を検出するものであってもよい。このようにすると、人物(発話者)の顔近辺に別の人物や物体等が存在し、ロボットからの距離を測定するだけでは人物の顔の輪郭が特定できない場合であっても、人物の顔内の目と口の位置を検出するだけで、顔の輪郭を特定することが可能になる。
また、このような音声認識ロボットにおいては、前記顔検出部が検出した顔に含まれる両目の位置に基づいて、検出した顔の方向を認識する方向認識部をさらに備えていることが好ましい。このようにすると、顔全体の位置や、発話者の身体全体を考慮することなく、簡単に発話者の顔の向きを簡単に判別することができるとともに、音声を受信した方向に複数の人間が存在した場合に、検出した各々の顔の方向を認識することによって、発話者を特定することが可能となる。なお、音声を受信した方向を特定する手段としては、指向性を有する1または複数のマイクロフォンなどを利用してもよい。このように構成された音声認識ロボットは、音声の受信した方向を簡単にかつ精度よく検出することができるため好適である。
さらに、このような音声認識ロボットは、前記撮像部が、顔検出部により検出した顔を撮像した画像内の略中央に位置し続けさせるように、撮像する方向を変更するように構成されていると、さらに好適である。このようにすると、発話者がロボットに向かって話し掛けている間に移動し、ロボットとの相対的な位置を変更しても、その動きに追従して発話者の顔を検出することができる。さらに、このような音声認識ロボットがヒューマノイド型に構成されている場合、前記撮像部をロボットの顔に相当する位置に設けると、発話者が発話している間、常に会話対象の人物(発話者)の方を向いて応答することができるため、あたかも発話者の顔を見続けて会話を行っているように見せることができるという効果も得られる。
なお、このような音声認識ロボットとしては、床面などに固定されたものであってもよいが、移動手段を備え、所定の領域内を移動可能に構成されているものであってもよい。このような音声認識ロボットは、発話者を特定した状態で自己位置を変更して移動することができるため、例えば会場内などにおいて移動と行いつつ案内を行う案内動作を行うような案内ロボットに用いることが可能になる。
また、本発明は、発話者が発声した音声を受信し、その内容を認識する音声認識ロボットを制御するロボット制御方法をも提供する。このようなロボット制御方法は、詳細には、音声を受信した方向について撮像し、その撮像した画像を画像データとして取得する撮像ステップと、撮像した画像内に存在する発話者の顔を検出する顔検出ステップと、検出した顔の中から特定部位の動きを抽出する抽出ステップと、抽出した特定部位の動きに基づいて音声入力の状態を判定する判定ステップと、音声認識が成功しなかった際に、前記判定した結果に基づいて警告信号を出力する出力ステップと、を備えることを特徴としている。
このようなロボット制御方法を用いることによって、受信した音声の音声認識を成功しなかった際に、受信した音声が確実に発話者から発声されたことを確認することができる。そのため、発話者から音声が発声されたにも関わらず、音声認識ができなかった場合に、発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由であることがわかる。したがって、出力する警告信号中に、音声認識を失敗した理由が発話者の発話の強さや内容によるものではなく、ロボット内部のハードウェアまたはソフトウェア上の理由である旨を含めることにより、発話者に対して音声認識の失敗した原因を理解させることが可能となる。
なお、前記抽出ステップにおいて抽出する特定部位は、発話者が音声を発声したことを判定できる部位であればいずれの部位を利用してもよいが、検出した顔に含まれる口唇であることが好ましい。発話者の口唇の動きを抽出し、その動きに基づいて受信した音声が発話者から発声されたか否かを判定することにより、受信した音声が発話者から確実に発声したものであることを確認することが可能となる。
また、前記判定ステップにおいては、前記口唇の開閉度合いに基づいて音声の受信状態の判定を行ってもよい。このように、音声を受信した際に発話者の口唇が開閉しているか否かを判定することによって、受信した音声が発話者から確実に発声したものであることを簡単に確認することができる。
以上、説明したように、本発明によると、音声認識ロボットに話し掛けた発話者が、ロボットの音声認識を失敗した原因を理解することが可能となる。
発明の実施の形態1.
以下に、図1から図5を参照しつつ本発明の実施の形態1にかかる音声認識ロボットおよび音声認識ロボットの制御方法について説明する。この実施の形態においては、音声認識ロボット(以下、単にロボットという)は、車輪駆動により移動可能で、かつ、上半身がヒューマノイド型に構成されたロボットである例を用いて説明するものとする。
以下に、図1から図5を参照しつつ本発明の実施の形態1にかかる音声認識ロボットおよび音声認識ロボットの制御方法について説明する。この実施の形態においては、音声認識ロボット(以下、単にロボットという)は、車輪駆動により移動可能で、かつ、上半身がヒューマノイド型に構成されたロボットである例を用いて説明するものとする。
図1に示すロボット10は、その上半身がヒューマノイド型に構成されるロボットであり、頭部11、胴体部12、右腕部13、左腕部14、腰部15および移動手段としての車輪駆動部20を備えている。
頭部11は、その前面左右において撮像部としてのカメラ111、112が設けられるとともに、その側面にアンテナ113を備えるほか、前面下方に出力部としてのスピーカ114を備えており、さらに外部からの音声信号を入力するための受信部としてのマイク115,116を備えている。また、頭部11は、胴体12に対して床面に水平な面内で左右方向に回動可能に接続されており、頭部11を回動することでカメラ111,112の撮像範囲を状況に応じて変更し、周囲の環境を把握することができる。
頭部11に設けられたカメラ111、112は周囲の環境を視認するものであり、視認した結果得られる画像データを後述する制御コンピュータに出力する。このようなカメラとしては、例えば周囲の環境を撮像し、撮像した画像をディジタル信号として取得するディジタルカメラを用いることができる。
また、アンテナ113は、ロボット10の絶対位置を認識する位置信号を受信するともに、現在の自己位置や自己の状態を示す信号を送信するために用いられる。これらの情報の送受信は、図示しないロボット監視システムとの間で行われる。後述する制御コンピュータは、アンテナ113により受信した位置信号に基づいて、自身の絶対位置をリアルタイムで認識する。このようにして得られた位置信号は、移動する経路や方向を定める際に用いられる。
また、スピーカ114は、頭部11の前面下方に設けられており、制御コンピュータの記憶領域に含まれる音声データファイルから、適宜選択された音声データを外部に出力する。スピーカ114から出力される音声ファイルは、ガイドなどの情報の他、後述するように、発話者に話し掛けられた際に応答する内容の複数のファイルで構成されている。そして、これらの音声ファイルのうち、適切なものが発話者に対して適宜選択され、スピーカ114を介して外部に出力される。
マイク115,116は、各々一定の方向からの音声を取得可能な、いわゆる指向性を有するマイクロフォンを水平方向に複数配置したものであり、周囲で発声した音声が、音声認識ロボット1からみて相対的にどの方向から伝達されたものかを大まかに特定することができる。これらのマイク115,116は、頭部11の左右の側面に設けられており、音声認識ロボット1の周囲で発せられた音声を取得し、音声データとして取り込み、制御コンピュータ120へ出力する。
胴体部12は、前述のように制御コンピュータ120を内蔵するとともに、ロボットの各構成要素に電力を供給するためのバッテリー(図示せず)を備えている。
そして、図2に示すように、胴体部12の内部には、カメラ111や112から入力された画像データとしてのディジタル信号や、マイク115,116から入力された音声信号の内容を認識し、適切な動作を行うための制御部としての制御コンピュータ120と、このコンピュータ120を含む各構成要素を動作させるための電力供給を行うバッテリー(図示せず)が備えられている。この制御コンピュータ120に含まれる図示しない演算処理部は、画像処理により、カメラ111,112から入力された画像データとしてのディジタル信号から、音声信号を発声した発話者の顔を検出し、さらに、検出した顔の中から目や口唇を抽出する。これらの画像処理に関する詳細な手順については後述する。
また、右腕部13および左腕部14は、胴体部12の左右側面に取り付けられ、肘部、手首部、指部などの各所において図示しないモータ部により駆動する複数の関節部を備える。そして、制御コンピュータ120からの信号により、これらの関節部の関節駆動量を変更することでその姿勢を変更し、物体把持、方向指示などの所望の動作を行うことができる。また、関節部により駆動される各腕部は、その形状が予め制御コンピュータに記憶されており、関節部の駆動により動作を行う際に、その動作により腕部が占める空間が演算処理部により計算されるものとする。
腰部15は、車輪駆動部20の上方に固定されるとともに、胴体部12の底面に対してモータ等の駆動力によって回動可能に取り付けられ、車輪駆動部20と胴体部12との相対的な姿勢を変更可能としている。
また、車輪駆動部20は、図2に示すように、1対の対向する車輪21、21と、その前方にキャスタ22を備える対向2輪型の車両で構成されている。ロボット10は、これらの車輪21、21、キャスタ22とでその姿勢を水平に支持された状態で移動可能となっている。さらに、車輪駆動部20の内部には、車輪21、21をそれぞれ駆動するモータ23、23と、各車輪の回転数を検出するためのカウンタ24、24とが備えられている。このように構成された車輪駆動部は、制御コンピュータ120により、車輪21、21の駆動量をそれぞれ独立に制御され、直進や曲線移動(旋回)、後退、その場回転(両車輪の中点を中心とした旋回)などの移動動作を行うことができるとともに、移動速度や移動する方向が自律的に定められる。
なお、制御コンピュータ120は、図3に示すように、入力される音声データからその内容を認識する音声認識部121、頭部10に備えられた前記カメラ111,112により撮像した画像内に存在する人物の顔を検出する顔検出部122、顔検出部122により検出した顔の向きを認識する方向認識部123、検出した顔の中から、特定部位としての口唇部分を抽出する抽出部124、抽出した特定部位の動きに基づいて音声受信の状態を判定する判定部125、警告信号として出力するための応答文データを作成する音声合成部126、および所定のプログラムや複数の応答文データからなる応答文データベースなどを記憶する記憶領域127aを有するコントロール部127を備えている。
音声認識部121は、マイク115,116から取得した音声をWAVEファイルなどの音声データに変換するとともに、その音声データを発話区間毎に分割し、各音節を記憶領域127aに記憶された単語データベースを用いて単語に置き換える。そして、各発話区間に含まれる単語およびその語順を解析して、記憶領域に記憶された多数の文章のうち、この解析した音声データに最も近い文章を選び出す。選び出した文章と、音声データとの近似度合いが所定の値以上の場合は、解析した音声データが、選び出した文章と同一の内容として認識し、取得した音声を、選び出した文章と等しい旨を示す信号を出力する。また、最も近い文章が、所定の近似度合いに満たない場合は、該当する文章が記憶領域に記憶されていないとし、取得した音声の内容を認識できなかったことを表す信号を出力する。
なお、音声データを発話区間毎に分割するための処理は、例えばMFCC(Mel−frequency Cepstrum Coefficient)パラメータで表される音声特徴量を用いることができる。このMFCCパラメータの一例としては、例えば16[bit],16[Hz]の音声データを所定の微小時間間隔(例えば20[ms])のフレームで、静的特徴MFCC12次元、動的特徴MFCC12次元、パワー1次元の合計25次元の特徴量で表されるものを用いることができる。このようなMFCCパラメータを入力された音声データから計算し、このMFCCパラメーから25個の正規分布からなる音声区間判別用データを計算する。そして、これらの音声区間判別用データと、MFCCパラメータとを各次元毎に類似度(例えばマハラノビス距離などを利用)を計算し、この計算を一定時間繰り返した結果得られた平均値を所定の閾値と比較することで、発話区間を判別する。
また、音声認識部121は、入力された音声データが音声入力か否かを判別する機能を有している。この音声入力か否かを判別する手法としては、任意の情報処理を利用することができるが、例えば入力された音声の音量が一定時間あたりに音量ゼロのラインを交差する数(ゼロ交差数)を計算し、このゼロ交差数が所定の閾値を超えた場合に音声入力と判別する手法、もしくは、入力された音声データの振幅値の2乗平均を、一定時間について計算し、その値が閾値を超えた場合に音声入力と判別する手法などを用いることができる。
顔検出部122は、カメラ111、112で撮像することにより得られた画像データから、人物の顔部分のみを検出する。この顔検出部122は、まず、人物の顔中に含まれる目および口(口唇)を抽出し、これらの位置に基づいて、顔の輪郭に相当する縁部を推定する。そして、このように推定された顔の輪郭によって囲まれる領域を人物の顔として検出する。
方向認識部123は、顔検出部122によって、検出された人物の顔に含まれる目の位置、すなわちロボットからの相対距離および相対的方向に基づいて、検出した顔が、ロボットから見てどの方向を向いているかどうかを推定することができる。詳細には、人物の顔に含まれる右目および左目の各中心位置を特定するとともに、各中心位置を結ぶ線分上の中点を特定する。そして、この各中心位置を結ぶ線分を含み、床面に平行な平面内で、この中点から各中心位置を結ぶ線分に垂直な方向を求め、この方向を視線方向、すなわち発話者の顔の向いている方向とする。
さらに、方向認識部123は、顔検出部122によって検出された、撮像された画像内に含まれる各顔の、ロボットからの相対位置および向いている方向から、検出された顔がロボット自身に向けられているか否かを認識する。具体的には、ロボット自身の位置(例えば頭部11の中心点)を基準としてここで、各顔の向いている方向には、所定の幅をもたせることとし、詳細には各方向を中心として床面に水平な方向に左右微小角度(例えば5度)ずつ幅を持たせるものとしている。このようにして、各顔がロボット自身の向きを向いているか否かを判断し、ロボット自身の向きを向いていないものは、発話者ではないとみなすものとする。
抽出部124は、方向認識部123において、ロボットの方を向いていると判断された画像中の顔の中から、特定部位として、口唇を抽出する。この口唇部分を抽出するための処理は、任意の処理を用いることができるが、例えば口唇の形状データを予め多数記憶させておき、認識した顔の中で、前記形状データで表される形状に近似する部分を口唇として抽出する処理などが用いられる。なお、抽出部124においては、抽出した口唇の画像データを時系列的に連続したフレームとして取得し、記憶領域127に記憶する。
判定部125は、抽出部124で抽出した口唇の形状を示す画像データで表される連続したフレームから、口唇が開閉しているか否かを判定する。このような判定手法としては、図4に示すような連続して取得されたN個のフレームについて、現在のフレームからN個前までのフレームに表される画像との相関値の平均に基づいて判定するものが用いられる。このような平均V(t)は、現在のフレームをp(t)、現在からi個前のフレームをR(t−i)、相関値を計算する関数をSとすると、以下の(式1)で表される:
このような平均V(t)の計算を所定回数(M回)のフレームごとに繰り返し、フレーム数M個の相関値平均と、所定の閾値とを比較し、閾値を下回っている場合に、口唇が開閉していると判断する。なお、口唇が開閉しているか否かの判定結果は、音声合成部126に送信され、出力する音声データを選択する際の判断に利用される。
音声合成部126は、音声認識部121によって認識された、取得した音声の内容に対応する、予め記憶領域内に多数記憶された応答文データ群の中から、最も適切な応答文データを読み出し、音声ファイルに変換してスピーカ114を介して外部に出力する。このとき、必要に応じて、腕部(右腕12、左腕13)を用いて身振りなどの動作を、音声出力に併せて行うようにしてもよい。また、音声合成部126は、受信した音声の認識に失敗すると、判定部125から送信された判定結果に基づいて、適切な応答文データを選択し、音声情報として出力する。
コントロール部127は、記憶したプログラムに基づいて、前述した画像データや音声データについて、記憶,加工,出力等の処理を行う他、腕部(右腕部および左腕部)を駆動するモータの駆動量や車輪駆動部20の動きを制御する。特に、前述した記憶領域127a内において記憶された、移動経路を決定するためのプログラムに基づいて、周囲の環境に応じて移動経路を適宜決定する。詳細については説明を省略するが、コントロール部127においては、移動動作を行う際に、認識された外部の物体に関する情報に基づいて、移動する方向や経路計画、または取り得る動作を自律的に選択することができる。
次に、このように構成された音声認識ロボット10が、発話者が発声した音声を認識し、その音声入力の状態を判定した後に、判定した結果に基づいて警告信号を出力するまでの手順について、図5に示すフローチャートを用いて説明する。
図5に示すように、まず、音声認識ロボットは、音が入力されるのを待機した状態であり、この状態で外部から音声認識ロボットに向けて発せられた音を受信すると(STEP101)、マイク115、116は、受信した音が発せられた方向(ロボットが音を受信した方向)を特定する(STEP102)。そして、特定した方向に頭部11の前面が位置するように頭部11を回動し、カメラ111、112により、音の発せられた方向を撮像して画像データを取得する(STEP103)。カメラ111,112により得られた画像データは、コントロール部127に送信され、記憶領域127a内に記憶される。
次に、記憶された画像データの中から、顔検出部122が人物の顔を検出できるか否かを判断する(STEP104)。ここで、画像データ中に人物の顔が1つでも検出できれば、検出した顔の向きを、方向認識部123によって認識し、音声認識ロボット1の方を向いている顔が存在するか否かを判断する(STEP105)。また、画像データ中から顔が検出できなければ、音の入力されるのを待機した初期状態に戻る。
音声認識ロボット1の方を向いている顔が存在すれば、それらの顔の、音声認識ロボット1からの各距離を求めて、最も近い位置に存在する顔を選択する(STEP106)。 このようにすることで、撮像した画面内に含まれる複数の人物に対して、自分が応答すべき人物を特定することができる。一方、STEP105においてロボットを向いている顔が検出できなかったり、STEP106においてロボットの方を向いている顔が存在しないと判断された場合は、音声認識ロボット1に対して話し掛けた発話者は存在しないと判断し、音の入力されるのを待機した初期状態に戻る。
次に、選択した顔の中から、口唇部分のみと抽出し(STEP107)、抽出した口唇の開閉動作が行われているか否かを判断する(STEP108)。そして、開閉動作が行われていなければ、音声認識ロボット1に対して音声が発せられていないと判断し、STEP101に戻って音声を受信するまで待機する。口唇の開閉動作が行われていると、音声認識部121により音声認識を行った結果、受信した音が音声か否かを判断する(STEP109)。受信した音が音声であると判断されると、音声認識部121は続いて受信した音声の音声認識を行う(STEP110)。受信した音が音声でないと判断されると、音の入力を待機した初期状態に戻る。
次に、音声認識部121の音声認識が成功したか否かを判断する(STEP111)。音声認識が成功すると、認識した音声の内容に対して適切な応答文を記憶された応答部データベースの中から選択し、出力する(STEP112)。一方、音声認識が失敗すると、受信した音声を音声認識できなかった原因として、音声を受信するためのマイク(ハードウェア)またはソフトウェア上の問題であると推定し、その旨を知らせるための応答文(例えば、"マイクを確認してください"など)を選択し、出力する(STEP212)。
そして、応答文の出力が終了した後は、再度音声受信を継続するか否かを判断し(STEP113)、継続する場合は音の入力を待機した初期状態に戻る。音声の受信を継続しない場合は、所定の終了処理を行った後、音声の受信を終了する。
このように、上述した実施形態によると、音声認識ロボットは、受信した音を発話者からの音声であると判断することができるため、この音声が認識できない理由が、受信するためのハードウェアまたはソフトウェア上の問題が原因であると判断することができる。そのため、このような原因を指摘する旨の警告信号を出力することによって、発話者に対してロボットの音声認識を失敗した原因を理解することが可能となる。
なお、このような警告信号の出力は、音声認識を失敗した具体的な理由を内容に含めた音声データを発するものであってもよいが、これに加えて、腕部などの関節駆動によるジェスチャーなどにより、発話者に音声認識を失敗した理由を伝えるようにしてもよい。また、LEDなどの発光素子をロボットに設け、この発光素子を点滅させることにより、ロボット側のマイク等が不調である旨を発話者に対して伝えるようにしてもよい。また、発話者がロボットに対して遠隔操作を行うためのコントローラ等を所持し、このコントローラを介してロボットに信号を送信している場合には、このコントローラに設けた発光素子や振動素子などを動作させて、ロボットのマイク等が不調である旨を伝えるようにしてもよい。
また、前述の実施形態においては、音声認識ロボットは、受信した音の発声した方向を撮像し、その撮像した画像データ内から発話者の顔を検出するように制御されているが、これに加えて、顔を検出した後も、検出した顔が撮像して得られる画像中の略中央に位置するように、カメラの方向を修正するように制御されてもよい。このようにすると、発話者に対して応答している最中に、ロボットの「顔」に相当する部分が常に発話者を向くため、発話者の顔を見続けて会話を行っているように見せることができるという効果も得られる。また、ロボットの応対中に発話者が移動しても、発話者の動きに追従して発話者の顔を検出することができる。このような、発話者の動きに追従する動作(トラッキング)は、発話者(検出された発話者の顔)が、音声認識ロボットから所定距離以上離れた位置に移動するまで続けるようにすると好適である。このような、発話者の動きに追従する動作を継続するための距離は、撮像部の解像度や、周囲の明るさなどに基づいて決定してもよい。
また、前述の実施形態においては、検出した顔の向きを認識する手法として、発話者の目の位置に基づいて判断した各顔の中心位置に基づいた認識手法を用いているが、これに代えて、発話者の目や口の形状上の特徴(目じりや口端部など)をニューラルネットワークにより抽出することにより認識する手法を用いてもよい。また、カメラにより撮像された画像内における特徴点の三次元位置と、これらの特徴点から得られる顔モデルとの比較により、顔モデルの向きを求めるようにしてもよい。
また、音声認識ロボットの移動手段としては、前述のような車輪とキャスタの組み合わせに限られるものではなく、車輪のみで構成される倒立振子型の移動手段であってもよく、脚部を駆動することで移動する歩行型の移動手段であってもよい。
また、ロボットに設けられる周囲の外部環境を認識する手段としては、撮像部のみではなく、レーザレンジセンサやCCD等の光学カメラを別途設けたり、ロボット外部に設けられた基地局によりそのような外部環境情報をロボットに送信したりしてもよい。
なお、前述の実施形態においては、、図示しないロボット監視システムからの信号をアンテナ113で受信し、ロボットの絶対位置を認識しているが、これに代えて、車輪の回転数などにより移動した距離および方向をオドメトリ法により算出し、自己位置を求めるものであってもよい。また、ロボット監視システムからの情報およびオドメトリ法により算出された自己位置を組み合わせて、より正確な自己位置を算出するようにしてもよい。
また、本実施形態においては、音声認識部は、取得した音声を音声データに変換するとともに、その音声データを音節毎に分割し、分割された音節を単語に置き換える手法が用いられているが、本発明はこれに限られるものではなく、現在用いられている多くの音声認識手法を用いることが可能である。さらに、認識した音声の内容に対して応答する応答文を選択する手法等についても、前記実施形態に限られるものではなく、他の手法を適用することも可能である。
10・・・音声認識ロボット
100・・・制御部
121・・・音声認識部
122・・・顔検出部
123・・・方向認識部
124・・・抽出部
125・・・判定部
126・・・音声合成部
127・・・コントロール部
127a・・・記憶領域
111,112・・・撮像部(カメラ)
114・・・出力部(スピーカ)
115,116・・・受信部(マイク)
20・・・移動手段(車輪駆動部)
100・・・制御部
121・・・音声認識部
122・・・顔検出部
123・・・方向認識部
124・・・抽出部
125・・・判定部
126・・・音声合成部
127・・・コントロール部
127a・・・記憶領域
111,112・・・撮像部(カメラ)
114・・・出力部(スピーカ)
115,116・・・受信部(マイク)
20・・・移動手段(車輪駆動部)
Claims (10)
- 発話者が発した音声を受信する受信部と、受信した音声の内容を認識する音声認識部と、を備える音声認識ロボットであって、
音声を受信した方向について撮像し、撮像した画像を画像データとして取得する撮像部と、
撮像した画像内に存在する発話者の顔を検出する顔検出部と、
検出した顔の中から特定部位の動きを抽出する抽出部と、
抽出した特定部位の動きに基づいて音声の受信状態を判定する判定部と、
音声認識が成功しなかった際に、前記判定した音声の受信状態に基づいて警告信号を出力する出力部と、を備える音声認識ロボット。 - 前記抽出部の抽出する特定部位が、検出した顔に含まれる口唇であることを特徴とする請求項1に記載の音声認識ロボット。
- 前記判定部が、前記口唇の開閉度合いに基づいて、音声の受信状態を判定することを特徴とする請求項2に記載の音声認識ロボット。
- 前記顔検出部が、発話者の顔に含まれる目と口唇の位置を特定し、これらの位置に基づいて顔の輪郭を推定することで、顔全体を検出することを特徴とする請求項1から3のいずれかに記載の音声認識ロボット。
- 検出した顔に含まれる両目の位置に基づいて、検出した顔の方向を認識する方向認識部をさらに備えていることを特徴とする請求項1から4のいずれかに記載の音声認識ロボット。
- 前記撮像部が、検出した顔を撮像した画像内の略中央に位置し続けさせるように、撮像する方向を変更可能であることを特徴とする請求項1から5のいずれかに記載の音声認識ロボット。
- 前記音声認識ロボットがさらに移動手段を備え、所定の領域内を移動可能に構成されていることを特徴とする請求項1から6のいずれかに記載の音声認識ロボット。
- 発話者が発した音声を受信し、その内容を認識する音声認識ロボットを制御する制御方法であって、
音声を受信した方向について撮像し、その撮像した画像を画像データとして取得する撮像ステップと、
撮像した画像内に存在する発話者の顔を検出する顔検出ステップと、
検出した顔の中から特定部位の動きを抽出する抽出ステップと、
抽出した特定部位の動きに基づいて音声の受信状態を判定する判定ステップと、
音声認識が成功しなかった際に、前記判定した結果に基づいて警告信号を出力する出力ステップと、
を備えることを特徴とする音声認識ロボットの制御方法。 - 前記抽出ステップにおいて抽出する特定部位が、検出した顔に含まれる口唇であることを特徴とする請求項8に記載の音声認識ロボットの制御方法。
- 前記判定ステップにおいて、前記口唇の開閉度合いに基づいて音声の受信状態を判定することを特徴とする請求項9に記載の音声認識ロボットの制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008067103A JP2009222969A (ja) | 2008-03-17 | 2008-03-17 | 音声認識ロボットおよび音声認識ロボットの制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008067103A JP2009222969A (ja) | 2008-03-17 | 2008-03-17 | 音声認識ロボットおよび音声認識ロボットの制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009222969A true JP2009222969A (ja) | 2009-10-01 |
Family
ID=41239816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008067103A Pending JP2009222969A (ja) | 2008-03-17 | 2008-03-17 | 音声認識ロボットおよび音声認識ロボットの制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009222969A (ja) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012242609A (ja) * | 2011-05-19 | 2012-12-10 | Mitsubishi Heavy Ind Ltd | 音声認識装置、ロボット、及び音声認識方法 |
JP2013508177A (ja) * | 2009-10-21 | 2013-03-07 | セコルポラ, エセ. エレ. | ソーシャルロボット |
JP2013061715A (ja) * | 2011-09-12 | 2013-04-04 | Nec Corp | 人物監視システム、ロボット、人物監視方法およびロボット制御プログラム |
JP2014504959A (ja) * | 2011-01-26 | 2014-02-27 | 本田技研工業株式会社 | 人間型ロボットのジェスチャと音声の同期 |
JP2018149626A (ja) * | 2017-03-13 | 2018-09-27 | 大日本印刷株式会社 | コミュニケーションロボット、プログラム及びシステム |
CN108698231A (zh) * | 2016-02-25 | 2018-10-23 | 夏普株式会社 | 姿势控制装置、机器人及姿势控制方法 |
JP2019095523A (ja) * | 2017-11-20 | 2019-06-20 | 富士ソフト株式会社 | ロボットおよびロボット制御方法 |
JP2019219509A (ja) * | 2018-06-20 | 2019-12-26 | カシオ計算機株式会社 | ロボット、ロボットの制御方法及びプログラム |
CN111086008A (zh) * | 2018-10-24 | 2020-05-01 | 国网河南省电力公司南阳供电公司 | 一种电力安全知识学习机器人及其防止电力操作故障的方法 |
KR20200083155A (ko) * | 2018-12-28 | 2020-07-08 | 바이두 유에스에이 엘엘씨 | 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템 |
WO2020145417A1 (ko) * | 2019-01-07 | 2020-07-16 | 엘지전자 주식회사 | 로봇 |
JP2020135725A (ja) * | 2019-02-25 | 2020-08-31 | 株式会社ベネッセコーポレーション | 情報端末装置およびプログラム |
WO2020230784A1 (ja) * | 2019-05-13 | 2020-11-19 | 株式会社Preferred Networks | 制御装置、ロボット、制御方法及び制御プログラム |
JPWO2021161377A1 (ja) * | 2020-02-10 | 2021-08-19 | ||
US11216655B2 (en) | 2019-01-10 | 2022-01-04 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
-
2008
- 2008-03-17 JP JP2008067103A patent/JP2009222969A/ja active Pending
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013508177A (ja) * | 2009-10-21 | 2013-03-07 | セコルポラ, エセ. エレ. | ソーシャルロボット |
JP2014504959A (ja) * | 2011-01-26 | 2014-02-27 | 本田技研工業株式会社 | 人間型ロボットのジェスチャと音声の同期 |
US9431027B2 (en) | 2011-01-26 | 2016-08-30 | Honda Motor Co., Ltd. | Synchronized gesture and speech production for humanoid robots using random numbers |
JP2012242609A (ja) * | 2011-05-19 | 2012-12-10 | Mitsubishi Heavy Ind Ltd | 音声認識装置、ロボット、及び音声認識方法 |
JP2013061715A (ja) * | 2011-09-12 | 2013-04-04 | Nec Corp | 人物監視システム、ロボット、人物監視方法およびロボット制御プログラム |
CN108698231A (zh) * | 2016-02-25 | 2018-10-23 | 夏普株式会社 | 姿势控制装置、机器人及姿势控制方法 |
JPWO2017145929A1 (ja) * | 2016-02-25 | 2018-10-25 | シャープ株式会社 | 姿勢制御装置、ロボット及び姿勢制御方法 |
JP2018149626A (ja) * | 2017-03-13 | 2018-09-27 | 大日本印刷株式会社 | コミュニケーションロボット、プログラム及びシステム |
JP2019095523A (ja) * | 2017-11-20 | 2019-06-20 | 富士ソフト株式会社 | ロボットおよびロボット制御方法 |
JP7176244B2 (ja) | 2018-06-20 | 2022-11-22 | カシオ計算機株式会社 | ロボット、ロボットの制御方法及びプログラム |
JP2019219509A (ja) * | 2018-06-20 | 2019-12-26 | カシオ計算機株式会社 | ロボット、ロボットの制御方法及びプログラム |
CN111086008A (zh) * | 2018-10-24 | 2020-05-01 | 国网河南省电力公司南阳供电公司 | 一种电力安全知识学习机器人及其防止电力操作故障的方法 |
JP2020109463A (ja) * | 2018-12-28 | 2020-07-16 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 視覚ベースのメカニズムに基づくスマート表示装置の音声コマンドによる起動方法及びシステム |
US11151993B2 (en) | 2018-12-28 | 2021-10-19 | Baidu Usa Llc | Activating voice commands of a smart display device based on a vision-based mechanism |
KR102323232B1 (ko) * | 2018-12-28 | 2021-11-05 | 바이두 유에스에이 엘엘씨 | 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템 |
KR20200083155A (ko) * | 2018-12-28 | 2020-07-08 | 바이두 유에스에이 엘엘씨 | 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템 |
WO2020145417A1 (ko) * | 2019-01-07 | 2020-07-16 | 엘지전자 주식회사 | 로봇 |
US11654575B2 (en) | 2019-01-07 | 2023-05-23 | Lg Electronics Inc. | Robot |
US11216655B2 (en) | 2019-01-10 | 2022-01-04 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
JP2020135725A (ja) * | 2019-02-25 | 2020-08-31 | 株式会社ベネッセコーポレーション | 情報端末装置およびプログラム |
JP7344649B2 (ja) | 2019-02-25 | 2023-09-14 | 株式会社ベネッセコーポレーション | 情報端末装置およびプログラム |
WO2020230784A1 (ja) * | 2019-05-13 | 2020-11-19 | 株式会社Preferred Networks | 制御装置、ロボット、制御方法及び制御プログラム |
JPWO2021161377A1 (ja) * | 2020-02-10 | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009222969A (ja) | 音声認識ロボットおよび音声認識ロボットの制御方法 | |
US7340100B2 (en) | Posture recognition apparatus and autonomous robot | |
JP2008087140A (ja) | 音声認識ロボットおよび音声認識ロボットの制御方法 | |
JP2008126329A (ja) | 音声認識ロボットおよび音声認識ロボットの制御方法 | |
US10665249B2 (en) | Sound source separation for robot from target voice direction and noise voice direction | |
JP6505748B2 (ja) | 人間型ロボットとユーザーの間におけるマルチモード会話を実行する方法、前記方法を実装するコンピュータプログラム及び人間型ロボット | |
JP5732632B2 (ja) | ロボットシステムおよびそれに用いる空間陣形認識装置 | |
US7031917B2 (en) | Speech recognition apparatus using distance based acoustic models | |
JP5429462B2 (ja) | コミュニケーションロボット | |
JP5366048B2 (ja) | 情報提供システム | |
JP4266211B2 (ja) | ロボット装置、ロボット装置の移動方法、および、プログラム | |
JP5751610B2 (ja) | 会話ロボット | |
JP2018049143A (ja) | 音声取得システムおよび音声取得方法 | |
JP4131392B2 (ja) | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム | |
JP4435212B2 (ja) | 姿勢認識装置及び自律ロボット | |
JP6565853B2 (ja) | コミュニケーション装置 | |
CN113056315B (zh) | 信息处理装置、信息处理方法和程序 | |
JP2007257088A (ja) | ロボット装置及びそのコミュニケーション方法 | |
JP4198676B2 (ja) | ロボット装置、ロボット装置の移動追従方法、および、プログラム | |
CN109249386B (zh) | 语音对话机器人及语音对话系统 | |
JP6713637B2 (ja) | サービス提供ロボットシステム | |
JP2001188551A (ja) | 情報処理装置および方法、並びに記録媒体 | |
Spexard et al. | Human-like person tracking with an anthropomorphic robot | |
JP2005335001A (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP4793904B2 (ja) | コミュニケーションロボットシステムおよびコミュニケーションロボット |