TWI456515B - 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 - Google Patents
融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 Download PDFInfo
- Publication number
- TWI456515B TWI456515B TW101125278A TW101125278A TWI456515B TW I456515 B TWI456515 B TW I456515B TW 101125278 A TW101125278 A TW 101125278A TW 101125278 A TW101125278 A TW 101125278A TW I456515 B TWI456515 B TW I456515B
- Authority
- TW
- Taiwan
- Prior art keywords
- recognition
- confidence index
- score
- face recognition
- face
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 11
- 230000004927 fusion Effects 0.000 title claims 5
- 238000004364 calculation method Methods 0.000 claims 9
- 230000001815 facial effect Effects 0.000 claims 6
- 238000010606 normalization Methods 0.000 claims 5
- 230000001186 cumulative effect Effects 0.000 claims 4
- 238000005315 distribution function Methods 0.000 claims 4
- 238000001514 detection method Methods 0.000 claims 2
- 210000000689 upper leg Anatomy 0.000 claims 2
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Processing (AREA)
- Collating Specific Patterns (AREA)
Claims (21)
- 一種融合人臉辨識及語音辨識之身份辨識系統,係包含:一人臉辨識模組,係擷取一影像,並對該影像執行一人臉偵測以產生一人臉影像,再對該人臉影像執行一人臉辨識,以獲得對應於預設之複數個成員的複數個人臉辨識分數;一語音辨識模組,係擷取一聲音資料,並偵測該聲音資料中的語音,以產生一語音資料,再對該語音資料執行一語音辨識,以獲得對應於該複數個成員的複數個語音辨識分數;一信心指數計算模組,係計算該人臉辨識的可靠度及該語音辨識的可靠度,以產生一人臉辨識信心指數及一語音辨識信心指數;以及一處理模組,係根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數產生一身份辨識結果;其中,該信心指數計算模組係根據一亮度因子及一辨識分數差異性因子來計算該人臉辨識信心指數。
- 如申請專利範圍第1項所述之融合人臉辨識及語音辨識之身份辨識系統,其中當該人臉辨識信心指數超過一預設門檻值時而該語音辨識信心指數未超過該預設門檻值時,該處理模組則根據該複數個人臉辨識分數產生該身份辨識結果。
- 如申請專利範圍第2項所述之融合人臉辨識及語音辨識之身份辨識系統,其中當該語音辨識信心指數超過該預設門檻值時而該人 臉辨識信心指數未超過該預設門檻值時,該處理模組則根據該複數個語音辨識分數產生該身份辨識結果。
- 如申請專利範圍第3項所述之融合人臉辨識及語音辨識之身份辨識系統,當該人臉辨識信心指數及該語音辨識信心指數均未超過該預設門檻值時,該處理模組則判定該身份辨識結果為無法識別。
- 如申請專利範圍第4項所述之融合人臉辨識及語音辨識之身份辨識系統,其中當該人臉辨識信心指數及該語音辨識信心指數均超過該預設門檻值時,該處理模組則根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數進行一融合計算,以產生該身份辨識結果。
- 如申請專利範圍第5項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該融合計算係由該處理模組將各個該複數個成員的該人臉辨識分數乘上該人臉辨識信心指數以產生一最終人臉辨識分數,並將各個該成員的該語音辨識分數乘上該語音辨識信心指數以產生一最終語音辨識分數,再將對應的該最終人臉辨識分數及該最終語音辨識分數相加以產生對應於各個該成員的一身份辨識分數,並根據該身份辨識分數產生該身份辨識結果。
- 如申請專利範圍第1項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該亮度因子係符合下列關係式:;其中,C1為該亮度因子,Thigh為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值上限,Tlow為該影像灰階值經正規化 至0~1範圍後對應於正常亮度之門檻值下限,Gavg為該影像之灰階值經正規化至0~1範圍後的平均值。
- 如申請專利範圍第7項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該辨識分數差異性因子係符合下列關係式: 其中,C2為該辨識分數差異性因子,T為該複數個人臉辨識分數中最高分數與最低分數的一差距門檻值,Y1st為該複數個人臉辨識分數中最高分數,Y2nd為該複數個人臉辨識分數中次高分數。
- 如申請專利範圍第8項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該人臉辨識信心指數係符合下列關係式:C=C1×C2;其中,C為該人臉辨識信心指數。
- 如申請專利範圍第9項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該信心指數計算模組係根據一信心指數曲線來計算該語音辨識信心指數,該信心指數曲線係符合下列關係式:y=FR(x)-(1-FE(x));其中,FR(x)係為經由事前訓練所獲得的辨識正確分數的累積分佈函數,FE(x)係為經由事前訓練所獲得的辨識錯誤分數的累積分佈函數,該信心指數曲線之x軸代表經過正規化至0~1後之該語音辨識分數,該信心指數曲線之y軸則代表經過正規化至0~1後之該語音辨識信心指數。
- 一種融合人臉辨識及語音辨識之身份辨識方法,係包含下列步驟:利用一人臉辨識模組擷取一影像,並對該影像執行一人臉偵測以 產生一人臉影像,再對該人臉影像執行一人臉辨識,以獲得對應於預設之複數個成員的複數個人臉辨識分數;藉由一語音辨識模組擷取一聲音資料,並偵測該聲音資料中的語音,以產生一語音資料,再對該語音資料執行一語音辨識,以獲得對應於該複數個成員的複數個語音辨識分數;經由一信心指數計算模組計算該人臉辨識的可靠度及該語音辨識的可靠度,以產生一人臉辨識信心指數及一語音辨識信心指數;透過一處理模組根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數產生一身份辨識結果;以及利用該信心指數計算模組根據一亮度因子及一辨識分數差異性因子來計算該人臉辨識信心指數。
- 如申請專利範圍第11項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:利用該處理模組在當該人臉辨識信心指數超過一預設門檻值時而該語音辨識信心指數未超過該預設門檻值時,根據該複數個人臉辨識分數產生該身份辨識結果。
- 如申請專利範圍第12項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:利用該處理模組在當該語音辨識信心指數超過該預設門檻值時而該人臉辨識信心指數未超過該預設門檻值時,根據該複數個語音辨識分數產生該身份辨識結果。
- 如申請專利範圍第13項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:經由該處理模組在當該人臉辨識信心指數及該語音辨識信心指數 均未超過該預設門檻值時,判定該身份辨識結果為無法識別。
- 如申請專利範圍第14項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:由該處理模組在當該人臉辨識信心指數及該語音辨識信心指數均超過該預設門檻值時,根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數進行一融合計算,以產生該身份辨識結果。
- 如申請專利範圍第15項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:透過該處理模組將各個該複數個成員的該人臉辨識分數乘上該人臉辨識信心指數以產生一最終人臉辨識分數,並將各個該成員的該語音辨識分數乘上該語音辨識信心指數以產生一最終語音辨識分數,再將對應的該最終人臉辨識分數及該最終語音辨識分數相加以進行一融合計算,以產生對應於各個該成員的一身份辨識分數,並根據該身份辨識分數產生該身份辨識結果。
- 如申請專利範圍第11項所述之融合人臉辨識及語音辨識之身份辨識方法,其中該亮度因子係符合下列關係式: 其中,C1為該亮度因子,Thigh為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值上限,Tlow為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值下限,Gavg為該影像之灰階值經正規化至0~1範圍後的平均值。
- 如申請專利範圍第17項所述之融合人臉辨識及語音辨識之身份辨 識方法,其中該辨識分數差異性因子係符合下列關係式: 其中,C2為該辨識分數差異性因子,T為該複數個人臉辨識分數中最高分數與最低分數的一差距門檻值,Y1st為該複數個人臉辨識分數中最高分數,Y2nd為該複數個人臉辨識分數中次高分數。
- 如申請專利範圍第18項所述之融合人臉辨識及語音辨識之身份辨識方法,其中該人臉辨識信心指數係符合下列關係式:C=C1×C2;其中,C為該人臉辨識信心指數。
- 如申請專利範圍第19項所述之融合人臉辨識及語音辨識之身份辨識方法,其中該信心指數計算模組係根據一信心指數曲線來計算該語音辨識信心指數,該信心指數曲線係符合下列關係式:y=FR(x)-(1-FE(x));其中,FR(x)係為經由事前訓練所獲得的辨識正確分數的累積分佈函數,FE(x)係為經由事前訓練所獲得的辨識錯誤分數的累積分佈函數,該信心指數曲線之x軸代表經過正規化至0~1後之該語音辨識分數,該信心指數曲線之y軸則代表經過正規化至0~1後之該語音辨識信心指數。
- 一種服務型機器人,係包含一電源供應器及一融合人臉辨識及語音辨識之身份辨識系統,該服務型機器人係利用該融合人臉辨識及語音辨識之身份辨識系統辨識一使用者之身份,以決定該使用者之使用權限,該融合人臉辨識及語音辨識之身份辨識系統係如申請專利範圍第1項至第10項中之任一項之所述。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101125278A TWI456515B (zh) | 2012-07-13 | 2012-07-13 | 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 |
US13/675,590 US8879799B2 (en) | 2012-07-13 | 2012-11-13 | Human identification system by fusion of face recognition and speaker recognition, method and service robot thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101125278A TWI456515B (zh) | 2012-07-13 | 2012-07-13 | 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201403498A TW201403498A (zh) | 2014-01-16 |
TWI456515B true TWI456515B (zh) | 2014-10-11 |
Family
ID=49914031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101125278A TWI456515B (zh) | 2012-07-13 | 2012-07-13 | 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8879799B2 (zh) |
TW (1) | TWI456515B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI661363B (zh) * | 2017-08-05 | 2019-06-01 | 鴻海精密工業股份有限公司 | 智慧型機器人及人機交互方法 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG11201508437UA (en) * | 2013-04-12 | 2015-11-27 | Sciometrics Llc | The identity caddy: a tool for real-time determination of identity in the mobile environment |
US9165182B2 (en) * | 2013-08-19 | 2015-10-20 | Cisco Technology, Inc. | Method and apparatus for using face detection information to improve speaker segmentation |
US9652915B2 (en) * | 2014-02-28 | 2017-05-16 | Honeywell International Inc. | System and method having biometric identification intrusion and access control |
US10304458B1 (en) * | 2014-03-06 | 2019-05-28 | Board of Trustees of the University of Alabama and the University of Alabama in Huntsville | Systems and methods for transcribing videos using speaker identification |
KR102222318B1 (ko) * | 2014-03-18 | 2021-03-03 | 삼성전자주식회사 | 사용자 인식 방법 및 장치 |
US9349193B2 (en) | 2014-03-31 | 2016-05-24 | National Taipei University Of Technology | Method and apparatus for moving object detection using principal component analysis based radial basis function network |
US9904851B2 (en) | 2014-06-11 | 2018-02-27 | At&T Intellectual Property I, L.P. | Exploiting visual information for enhancing audio signals via source separation and beamforming |
CN104834849B (zh) * | 2015-04-14 | 2018-09-18 | 北京远鉴科技有限公司 | 基于声纹识别和人脸识别的双因素身份认证方法及系统 |
US9996732B2 (en) * | 2015-07-20 | 2018-06-12 | International Business Machines Corporation | Liveness detector for face verification |
CN105224849B (zh) * | 2015-10-20 | 2019-01-01 | 广州广电运通金融电子股份有限公司 | 一种多生物特征融合身份鉴别方法以及装置 |
GR1008860B (el) * | 2015-12-29 | 2016-09-27 | Κωνσταντινος Δημητριου Σπυροπουλος | Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα |
WO2017199486A1 (ja) * | 2016-05-16 | 2017-11-23 | ソニー株式会社 | 情報処理装置 |
US10916254B2 (en) * | 2016-08-22 | 2021-02-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems, apparatuses, and methods for speaker verification using artificial neural networks |
CN106570491A (zh) * | 2016-11-11 | 2017-04-19 | 华南智能机器人创新研究院 | 一种机器人智能互动的方法及智能机器人 |
US10421188B2 (en) * | 2016-12-14 | 2019-09-24 | Centurylink Intellectual Property Llc | Robot fingerprint |
US10522134B1 (en) * | 2016-12-22 | 2019-12-31 | Amazon Technologies, Inc. | Speech based user recognition |
US10455353B2 (en) * | 2016-12-22 | 2019-10-22 | Motorola Solutions, Inc. | Device, method, and system for electronically detecting an out-of-boundary condition for a criminal origanization |
AU2018275266B2 (en) | 2017-06-01 | 2022-08-25 | Alarm.Com Incorporated | Control access utilizing video analytics |
KR102433393B1 (ko) | 2017-12-12 | 2022-08-17 | 한국전자통신연구원 | 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법 |
TWI661329B (zh) * | 2017-12-15 | 2019-06-01 | 鴻海精密工業股份有限公司 | 身份資訊關聯系統與方法、電腦存儲介質及使用者設備 |
US10423964B2 (en) * | 2017-12-29 | 2019-09-24 | Scott Kimmel | User controlled event record system |
US11238294B2 (en) * | 2018-10-08 | 2022-02-01 | Google Llc | Enrollment with an automated assistant |
US11289100B2 (en) * | 2018-10-08 | 2022-03-29 | Google Llc | Selective enrollment with an automated assistant |
TWI679584B (zh) * | 2018-11-09 | 2019-12-11 | 浩鑫股份有限公司 | 基於資料融合的人員辨識方法 |
KR102717792B1 (ko) * | 2018-12-14 | 2024-10-16 | 삼성전자 주식회사 | 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치 |
CN109886247A (zh) * | 2019-03-05 | 2019-06-14 | 哈尔滨理工大学 | 具有人眼专注度辨识功能的导游机器人脸部装置及控制 |
US11899566B1 (en) | 2020-05-15 | 2024-02-13 | Google Llc | Training and/or using machine learning model(s) for automatic generation of test case(s) for source code |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US20100158324A1 (en) * | 2008-12-19 | 2010-06-24 | Micro-Star Internationa'l Co., Ltd. | Method for adjusting light source threshold value for face recognition |
US20100271507A1 (en) * | 2009-04-24 | 2010-10-28 | Qualcomm Incorporated | Image capture parameter adjustment using face brightness information |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567775B1 (en) * | 2000-04-26 | 2003-05-20 | International Business Machines Corporation | Fusion of audio and video based speaker identification for multimedia information access |
US20050027530A1 (en) | 2003-07-31 | 2005-02-03 | Tieyan Fu | Audio-visual speaker identification using coupled hidden markov models |
US9633186B2 (en) * | 2012-04-23 | 2017-04-25 | Apple Inc. | Systems and methods for controlling output of content based on human recognition data detection |
-
2012
- 2012-07-13 TW TW101125278A patent/TWI456515B/zh not_active IP Right Cessation
- 2012-11-13 US US13/675,590 patent/US8879799B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US20100158324A1 (en) * | 2008-12-19 | 2010-06-24 | Micro-Star Internationa'l Co., Ltd. | Method for adjusting light source threshold value for face recognition |
US20100271507A1 (en) * | 2009-04-24 | 2010-10-28 | Qualcomm Incorporated | Image capture parameter adjustment using face brightness information |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI661363B (zh) * | 2017-08-05 | 2019-06-01 | 鴻海精密工業股份有限公司 | 智慧型機器人及人機交互方法 |
US10482886B2 (en) | 2017-08-05 | 2019-11-19 | Fu Tai Hua Industry (Shenzhen) Co., Ltd. | Interactive robot and human-robot interaction method |
Also Published As
Publication number | Publication date |
---|---|
US8879799B2 (en) | 2014-11-04 |
TW201403498A (zh) | 2014-01-16 |
US20140016835A1 (en) | 2014-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI456515B (zh) | 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 | |
Lucey et al. | Automatically detecting pain using facial actions | |
CN108921100B (zh) | 一种基于可见光图像与红外图像融合的人脸识别方法及系统 | |
CN102194131B (zh) | 基于五官几何比例特征的快速人脸识别方法 | |
CN109800643B (zh) | 一种活体人脸多角度的身份识别方法 | |
MY181564A (en) | System and method for biometric authentication in connection with camera-equipped devices | |
CN106874830B (zh) | 一种基于rgb-d相机和人脸识别的视障人士辅助方法 | |
CN104361316B (zh) | 一种基于多尺度时序建模的维度情感识别方法 | |
TW201201115A (en) | Facial expression recognition systems and methods and computer program products thereof | |
CN106384087A (zh) | 一种基于多层网络人体特征的身份识别方法 | |
BR112021018149A2 (pt) | Detecção de falsificação de reconhecimento facial com dispositivos móveis | |
US11062126B1 (en) | Human face detection method | |
CN104102903A (zh) | 一种基于src的二次人脸识别方法 | |
CN107704813A (zh) | 一种人脸活体识别方法及系统 | |
CN115227234A (zh) | 一种基于摄像头的心肺复苏按压动作评估方法与系统 | |
KR20140043174A (ko) | 승마 시뮬레이터 및 승마 시뮬레이션 방법 | |
CN108694353A (zh) | 一种人脸识别和虹膜识别的多模态身份识别方法 | |
CN113609963B (zh) | 一种实时多人体角度的抽烟行为检测方法 | |
TWI424359B (zh) | Two - stage Face Recognition System and Method | |
TWI620076B (zh) | 人體動作的分析系統 | |
CN110084143A (zh) | 一种用于人脸识别的情绪信息保护方法及系统 | |
CN103065125A (zh) | 一种基于瞬时步态能量图的远距离身份识别方法 | |
CN114998625A (zh) | 一种适用于口罩模式下的人脸识别在线通行系统 | |
CN111428670B (zh) | 人脸检测方法、装置、存储介质及设备 | |
CN107480604A (zh) | 基于多轮廓特征融合的步态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |