JP4992218B2 - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP4992218B2 JP4992218B2 JP2005284521A JP2005284521A JP4992218B2 JP 4992218 B2 JP4992218 B2 JP 4992218B2 JP 2005284521 A JP2005284521 A JP 2005284521A JP 2005284521 A JP2005284521 A JP 2005284521A JP 4992218 B2 JP4992218 B2 JP 4992218B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- motion pattern
- sound
- pattern
- collected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- 230000010365 information processing Effects 0.000 title claims description 14
- 230000033001 locomotion Effects 0.000 claims description 215
- 238000001514 detection method Methods 0.000 claims description 98
- 230000008569 process Effects 0.000 claims description 24
- 230000003287 optical effect Effects 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 52
- 230000004424 eye movement Effects 0.000 description 11
- 210000003128 head Anatomy 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000001061 forehead Anatomy 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Description
前記検出手段には、前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段と、前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段と、検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段と、認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段と、追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段とを設けさせることができる。
前記トラッキング対象決定手段には、前記映像内の前記話者の顔を表す肌色領域に基づいて、前記話者の顔も、前記トラッキング対象として決定させることができる。
前記第2の判定手段には、前記集音部により前記音声が集音されたと判定された場合、隠れマルコフモデル、又はベイジアンネットワークのいずれか一方を用いて、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定させることができる。
前記音声認識手段には、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、前記話者による発話時の音声を認識させることができる。
本発明の一側面において、前記検出手段は、前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段(例えば、図2のステップS12の処理を実行する顔動きパターン検出部21−1)と、前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段(例えば、図2のステップS14の処理を実行する顔動きパターン検出部21−1)と、検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段(例えば、図2のステップS15の処理を実行する顔動きパターン検出部21−1)と、認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段(例えば、図2のステップS19の処理を実行する顔動きパターン検出部21−1)と、追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段(例えば、図2のステップS21の処理を実行する顔動きパターン検出部21−1)とを有する。
文献1:L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, New Jersey, Prentice Hall, Signal Processing Series (1993)
文献3:Allan D. Jepson, David J. Fleet, and Thomas F El-Maraghi. Robust online appearance models for visual tracking. In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, pages 415{422, Kauai, Hawaii, 2001.
文献4:Hoey, J.: Decision Theoretic Learning of Human Facial Displays and Gestures., PhD thesis, University of British Columbia (2004).
文献6:Dynamic Bayesian Networks for Audio-Visual, Speech Recognition, Ara V. Nefian et al. EURASIP Journal on Applied Signal Processing 2002:11, 115, 2002
Claims (6)
- 話者による発話時の音声を認識する情報処理装置において、
前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出手段と、
集音部により音声が集音されたか否かを判定する第1の判定手段と、
前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定手段と、
検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
音声認識手段と
を備える情報処理装置。 - 前記検出手段は、
前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段と、
前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段と、
検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段と、
認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段と、
追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段と
を有する請求項1に記載の情報処理装置。 - 前記トラッキング対象決定手段は、前記映像内の前記話者の顔を表す肌色領域に基づいて、前記話者の顔も、前記トラッキング対象として決定する
請求項2に記載の情報処理装置。 - 前記第2の判定手段は、前記集音部により前記音声が集音されたと判定された場合、隠れマルコフモデル、又はベイジアンネットワークのいずれか一方を用いて、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する
請求項1乃至3に記載の情報処理装置。 - 話者による発話時の音声を認識する情報処理装置の情報処理方法において、
前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、
集音部により音声が集音されたか否かを判定する第1の判定ステップと、
前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定ステップと、
検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
音声認識ステップと
を含む情報処理方法。 - 話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、
集音部により音声が集音されたか否かを判定する第1の判定ステップと、
前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定ステップと、
検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
音声認識ステップと
を含む処理をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005284521A JP4992218B2 (ja) | 2005-09-29 | 2005-09-29 | 情報処理装置および方法、並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005284521A JP4992218B2 (ja) | 2005-09-29 | 2005-09-29 | 情報処理装置および方法、並びにプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007094104A JP2007094104A (ja) | 2007-04-12 |
JP2007094104A5 JP2007094104A5 (ja) | 2008-11-13 |
JP4992218B2 true JP4992218B2 (ja) | 2012-08-08 |
Family
ID=37979893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005284521A Expired - Fee Related JP4992218B2 (ja) | 2005-09-29 | 2005-09-29 | 情報処理装置および方法、並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4992218B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017188801A1 (ko) * | 2016-04-29 | 2017-11-02 | 주식회사 브이터치 | 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치 |
US11449307B2 (en) | 2017-07-10 | 2022-09-20 | Samsung Electronics Co., Ltd. | Remote controller for controlling an external device using voice recognition and method thereof |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157905A (ja) * | 2007-12-07 | 2009-07-16 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
KR20210152028A (ko) * | 2008-11-10 | 2021-12-14 | 구글 엘엘씨 | 멀티센서 음성 검출 |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
JP2013142843A (ja) * | 2012-01-12 | 2013-07-22 | Fuji Xerox Co Ltd | 動作解析装置、音声取得装置、および、動作解析システム |
WO2013162603A1 (en) | 2012-04-27 | 2013-10-31 | Hewlett-Packard Development Company, L.P. | Audio input from user |
CN102945672B (zh) * | 2012-09-29 | 2013-10-16 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN107430856B (zh) * | 2015-03-23 | 2021-02-19 | 索尼公司 | 信息处理系统和信息处理方法 |
JP6855737B2 (ja) * | 2016-10-05 | 2021-04-07 | 富士ゼロックス株式会社 | 情報処理装置、評価システムおよびプログラム |
WO2019150708A1 (ja) * | 2018-02-01 | 2019-08-08 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
JP7259447B2 (ja) * | 2019-03-20 | 2023-04-18 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3729179B2 (ja) * | 1992-11-02 | 2005-12-21 | 松下電器産業株式会社 | 音声入力装置 |
JPH07306692A (ja) * | 1994-05-13 | 1995-11-21 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声入力装置 |
JP2004112518A (ja) * | 2002-09-19 | 2004-04-08 | Takenaka Komuten Co Ltd | 情報提供装置 |
JP2005004535A (ja) * | 2003-06-12 | 2005-01-06 | Mitsubishi Electric Corp | 携帯通信端末及び画像処理方法 |
-
2005
- 2005-09-29 JP JP2005284521A patent/JP4992218B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017188801A1 (ko) * | 2016-04-29 | 2017-11-02 | 주식회사 브이터치 | 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치 |
US10796694B2 (en) | 2016-04-29 | 2020-10-06 | VTouch Co., Ltd. | Optimum control method based on multi-mode command of operation-voice, and electronic device to which same is applied |
US11449307B2 (en) | 2017-07-10 | 2022-09-20 | Samsung Electronics Co., Ltd. | Remote controller for controlling an external device using voice recognition and method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2007094104A (ja) | 2007-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240185851A1 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US10930303B2 (en) | System and method for enhancing speech activity detection using facial feature detection | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
Zhou et al. | A review of recent advances in visual speech decoding | |
US10109277B2 (en) | Methods and apparatus for speech recognition using visual information | |
JP5772069B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR101749100B1 (ko) | 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 | |
JP4992218B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP2014153663A (ja) | 音声認識装置、および音声認識方法、並びにプログラム | |
US20200286484A1 (en) | Methods and systems for speech detection | |
Lucey et al. | Lipreading using profile versus frontal views | |
JP2012003326A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
US20040107103A1 (en) | Assessing consistency between facial motion and speech signals in video | |
JP6562790B2 (ja) | 対話装置および対話プログラム | |
Iwano et al. | Audio-visual speech recognition using lip information extracted from side-face images | |
Potamianos et al. | Joint audio-visual speech processing for recognition and enhancement. | |
JP5700963B2 (ja) | 情報処理装置およびその制御方法 | |
Huang et al. | Audio-visual speech recognition using an infrared headset | |
CN111326152A (zh) | 语音控制方法及装置 | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
Galatas et al. | Audio-visual speech recognition using depth information from the Kinect in noisy video conditions | |
JP3838159B2 (ja) | 音声認識対話装置およびプログラム | |
WO2019181218A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
Takeuchi et al. | Voice activity detection based on fusion of audio and visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080926 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120309 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120423 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150518 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150518 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |