JP5797009B2 - 音声認識装置、ロボット、及び音声認識方法 - Google Patents
音声認識装置、ロボット、及び音声認識方法 Download PDFInfo
- Publication number
- JP5797009B2 JP5797009B2 JP2011112595A JP2011112595A JP5797009B2 JP 5797009 B2 JP5797009 B2 JP 5797009B2 JP 2011112595 A JP2011112595 A JP 2011112595A JP 2011112595 A JP2011112595 A JP 2011112595A JP 5797009 B2 JP5797009 B2 JP 5797009B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- voice
- detected
- utterance section
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000035945 sensitivity Effects 0.000 claims description 38
- 238000001514 detection method Methods 0.000 claims description 35
- 230000008859 change Effects 0.000 claims description 21
- 238000003384 imaging method Methods 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 5
- 210000000056 organ Anatomy 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 8
- 210000003128 head Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008719 thickening Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
Description
また、特許文献2には、マイクロホンアレイから入力される音声に基づき、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、検出された音声の方向にカメラを向け、該カメラから入力された画像から人物の顔を検出し、対話処理を行う技術が開示されている。さらに特許文献2には、及び検出した話者方向に指向性を限定して、話者の音声と方向を認識し、顔検出処理を行い、検出された顔方向に移動し、音声認識の精度をより向上させる技術が開示されている。
また、特許文献2に開示されている技術のように、指向性を変えるのみでは、その指向性の方向の雑音による過応答を防ぐことができない。また、屋内においては、部屋の反響音の成分が非常に大きく、指向性を変えることでの目的音と雑音の音量比がほとんど改善せず、効果が現れない可能性が高い。
このような誤認識は、音声認識の感度を下げることによって防ぐことが考えられるが、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。
そして、感度変更手段によって、発話区間検出手段で検出された発話区間において、発話区間が検出されない場合に比べて、音声認識手段による音声認識の感度が上げられる。
さらに、予め定められた閾値以上の状態量が、人の音声であると認識され、画像情報に基づいて検出した発話区間において、該閾値を下げることによって、音声認識の感度が上げられるので、簡易に音声認識の感度を変更することができる。
また、本発明の音声認識装置は、前記発話区間における前記閾値の大きさ、前記発話区間が検出されていない区間における前記閾値の大きさが周辺の環境に応じて異ならせてもよい。
また、本発明の音声認識装置は、前記発話区間検出手段によって検出された前記発話区間において前記閾値を下げ、前記音取得手段によって取得された前記音情報により示される音に基づいて、前記状態量を算出し、前記閾値以上の前記状態量が生じた区間を発話区間として検出してもよい。
また、本発明の音声認識装置は、前記音情報により示される音に基づいた発話区間の検出は、前記閾値の変更よりも後に行われ、前記音情報に基づいた音声認識は、前記音情報により示される音に基づいた発話区間の検出よりも後に行われてもよい。
また、本発明の音声認識装置は、前記発話区間検出手段が、歯を検出した場合に口が動いていると判断してもよい。
また、本発明の音声認識装置は、発話区間検出手段が、頭部の向きや位置の変化に基づいて、該人が発話している発話区間を検出してもよい。
図1に示すように、ロボット10には、頭部12と、頭部12を下方から支持する胸部14と、胸部14の右側に設けられた右腕部16a、胸部14の左側に設けられた左腕部16bと、胸部14の下方に接続された腰部18と、腰部18の下方に接続されたスカート部20と、スカート部20の下方に接続された脚部22とが設けられている。
カメラ30は、被写体を撮像すると共に被写体を示す画像情報を取得し、マイク32は、カメラ30による撮像が行われているときに発生している音を示す音情報を取得する。
すなわち、ロボット10は、ロボット10に対しコミュニケーションを取ろうとしている人の顔を認識すると共に、該人の音声を認識し、これらの認識結果に応じた動作を行う。
ロボット10は、予め定められた閾値(以下、「音声閾値」という。)を超えた音量(パワー)の音情報を人が発話した音声として認識する。
なお、本実施形態に係るロボット10は、CPU(Central Processing Unit)によってプログラムを実行することにより、音声認識装置40が備える各構成要素による処理を実現する。この場合、該プログラムは、ROM(Read Only Memory)やその他の記憶媒体に予めインストールされる形態や、コンピュータ読み取り可能なCD−ROM等の可搬型の記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等を適用することができる。
なお、本実施形態に係る顔器官検出部50は、顔器官として人の口を検出する。
本実施形態では、顔器官として人の口を検出するため、口の動きとして口の開き加減、より具体的には上唇と下唇との開き量を算出する。
上述のように、閾値処理部62は、音声閾値変更部56から出力された閾値変更情報を用いて発話区間を検出するため、発話区間検出部42Aが備える音声閾値変更部56による閾値変更情報の出力が終了した後に、閾値処理部62による処理を開始させるためである。
そして、ロボット10は、例えば音声認識結果が「おはよう」との発話を示している場合は、「おはよう」と音声を出力する等の、音声認識結果に基づいた動作を行う。
上述のように、マッチング処理部82は、閾値処理部62から出力された発話区間情報を用いて音声認識を行うため、閾値処理部62による発話区間情報の出力が終了した後に、マッチング処理部82による処理を開始させるためである。このため、ディレイ処理部70Bによる時間遅れは、ディレイ処理部70Aによる時間遅れよりもさらに遅くなければならない。
人による発話の開始時(語頭)や発話の終了時(語尾)には、口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。
そこで、発話区間を前及び後に広げることによって、発話の語頭及語尾も発話区間に含まれるようにする。なお、発話区間を広めるための上記所定時間は、閾値処理部54によって検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。
音量算出部60によって算出された音量は、閾値処理部62へ出力され、閾値処理部62は、音量変更情報により示される音声閾値を用いて、閾値判定を行い、音声閾値以上の音量が生じた区間を発話区間として検出する。
図5(A)の右図に示されるように、音声閾値を下げることで、雑音を誤認識することが防がれる。そして、画像情報に基づいて検出された発話区間において音声閾値が下げられることにより、音声認識の感度が上げるため、音声認識装置40は、雑音に対して過応答することなく、人の音声は正しく認識されることとなる。
また、図5(B)の右図に示されるように、雑音と人の音声が重なり合っていても、雑音を誤認識することがなくなるため、人の音声は正しく認識されることとなる。
このように、ロボット10周辺の環境に応じて、区間内音声閾値と区間外音声閾値との比率を変更することによって、雑音に対して過応答する比率を下げ、音声認識率の向上を図ることが望ましい。
従って、本実施形態に係る音声認識装置40は、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、過応答を低減しつつ、音声認識の認識率を高めることができる。
この形態の場合、音声認識装置40は、視線がロボット10の向きを向いている人物を特定し、特定した人の視線がロボット10の向きを向いている場合に、音声閾値を下げる。
30 カメラ
32 マイク
40 音声認識装置
42A 発話区間検出部
44 音声認識部
56 音声閾値変更部
Claims (11)
- 被写体を撮像すると共に被写体を示す画像情報を取得する撮像手段と、
前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、
前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、
前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、
を備え、
前記音声認識手段は、予め定められた閾値以上の状態量を、人の音声であると認識し、
前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げる音声認識装置。 - 前記発話区間における前記閾値の大きさ、前記発話区間が検出されていない区間における前記閾値の大きさが周辺の環境に応じて異なる請求項1記載の音声認識装置。
- 前記発話区間検出手段によって検出された前記発話区間において前記閾値を下げ、
前記音取得手段によって取得された前記音情報により示される音に基づいて、前記状態量を算出し、
前記閾値以上の前記状態量が生じた区間を発話区間として検出する請求項1又は請求項2記載の音声認識装置。 - 前記音情報により示される音に基づいた発話区間の検出は、前記閾値の変更よりも後に行われ、
前記音情報に基づいた音声認識は、前記音情報により示される音に基づいた発話区間の検出よりも後に行われる請求項1から請求項3の何れか1項記載の音声認識装置。 - 前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、前記音声認識手段による音声認識の感度を上げる請求項1から請求項4の何れか1項記載の音声認識装置。
- 前記発話区間検出手段は、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出する請求項1から請求項5の何れか1項記載の音声認識装置。
- 前記発話区間検出手段は、歯を検出した場合に口が動いていると判断する請求項1から請求項6の何れか1項記載の音声認識装置。
- 前記発話区間検出手段は、人の顔に含まれる目の向きに基づいて、該人が発話している発話区間を検出する請求項1から請求項7の何れか1項記載の音声認識装置。
- 前記発話区間検出手段は、頭部の向きや位置の変化に基づいて、該人が発話している発話区間を検出する請求項1から請求項8の何れか1項記載の音声認識装置。
- 請求項1から請求項9の何れか1項記載の音声認識装置を備えたロボット。
- 被写体を撮像すると共に被写体を示す画像情報を撮像手段によって取得し、該撮像手段による撮像が行われているときに発生している音を示す音情報を音取得手段によって取得する第1工程と、
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第2工程と、
前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第3工程と、
を含み、
前記第1工程は、予め定められた閾値以上の状態量を、人の音声であると認識し、
前記第3工程は、前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、音声認識の感度を上げる音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112595A JP5797009B2 (ja) | 2011-05-19 | 2011-05-19 | 音声認識装置、ロボット、及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112595A JP5797009B2 (ja) | 2011-05-19 | 2011-05-19 | 音声認識装置、ロボット、及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012242609A JP2012242609A (ja) | 2012-12-10 |
JP5797009B2 true JP5797009B2 (ja) | 2015-10-21 |
Family
ID=47464386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011112595A Active JP5797009B2 (ja) | 2011-05-19 | 2011-05-19 | 音声認識装置、ロボット、及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5797009B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9240182B2 (en) * | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
JP6350903B2 (ja) | 2014-05-20 | 2018-07-04 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
WO2016098228A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US20200090663A1 (en) * | 2017-11-07 | 2020-03-19 | Sony Corporation | Information processing apparatus and electronic device |
KR20230173211A (ko) * | 2018-05-04 | 2023-12-26 | 구글 엘엘씨 | 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응 |
CN119105724A (zh) | 2018-05-04 | 2024-12-10 | 谷歌有限责任公司 | 自动化助手功能的免热词调配 |
EP4307093A3 (en) | 2018-05-04 | 2024-03-13 | Google LLC | Invoking automated assistant function(s) based on detected gesture and gaze |
JP6977004B2 (ja) * | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
JP7644677B2 (ja) | 2021-07-30 | 2025-03-12 | 株式会社Nttドコモ | 発話検出装置 |
US12020704B2 (en) | 2022-01-19 | 2024-06-25 | Google Llc | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358089A (ja) * | 2001-06-01 | 2002-12-13 | Denso Corp | 音声処理装置及び音声処理方法 |
JP4713111B2 (ja) * | 2003-09-19 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
JP4992218B2 (ja) * | 2005-09-29 | 2012-08-08 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US7860718B2 (en) * | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
JP2009059257A (ja) * | 2007-09-03 | 2009-03-19 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2009222969A (ja) * | 2008-03-17 | 2009-10-01 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
JP5375423B2 (ja) * | 2009-08-10 | 2013-12-25 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
-
2011
- 2011-05-19 JP JP2011112595A patent/JP5797009B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2012242609A (ja) | 2012-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5797009B2 (ja) | 音声認識装置、ロボット、及び音声認識方法 | |
CN109410957B (zh) | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 | |
Wang et al. | Secure your voice: An oral airflow-based continuous liveness detection for voice assistants | |
EP4510125A1 (en) | Identifying input for speech recognition engine | |
TWI442384B (zh) | 以麥克風陣列為基礎之語音辨識系統與方法 | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
US11651780B2 (en) | Direction based end-pointing for speech recognition | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
US20120022863A1 (en) | Method and apparatus for voice activity detection | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
WO2020140840A1 (zh) | 用于唤醒可穿戴设备的方法及装置 | |
CN109558788B (zh) | 静默语音输入辨识方法、计算装置和计算机可读介质 | |
WO2020244416A1 (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
CN111326152A (zh) | 语音控制方法及装置 | |
JP6827536B2 (ja) | 音声認識装置および音声認識方法 | |
Wong | Authentication through sensing of tongue and lip motion via smartphone | |
CN113643707A (zh) | 一种身份验证方法、装置和电子设备 | |
JP7515121B2 (ja) | 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
CN109300475A (zh) | 麦克风阵列拾音方法和装置 | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム | |
JPH02184915A (ja) | 音声認識装置及び方法 | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140513 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150818 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5797009 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |