CN115019806A - 声纹识别方法和装置 - Google Patents
声纹识别方法和装置 Download PDFInfo
- Publication number
- CN115019806A CN115019806A CN202111627924.0A CN202111627924A CN115019806A CN 115019806 A CN115019806 A CN 115019806A CN 202111627924 A CN202111627924 A CN 202111627924A CN 115019806 A CN115019806 A CN 115019806A
- Authority
- CN
- China
- Prior art keywords
- terminal device
- voiceprint
- threshold
- value
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000013598 vector Substances 0.000 claims abstract description 174
- 230000015654 memory Effects 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 47
- 238000004891 communication Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供一种声纹识别方法和装置,涉及终端技术领域,应用于终端设备,方法包括:终端设备采集到第一语音;若终端设备确定第一语音为预设语音时,终端设备获取第一声纹向量与预设声纹向量的相似度得分,得到第一数值;终端设备获取第一声纹向量与预设数据库中的每一个声纹向量的相似度得分中的最高的得分,得到第二数值;当终端设备确定第一数值大于第一阈值,且第二数值小于第二阈值时,终端设备确定第一用户的声纹识别成功;第二阈值大于第一阈值。这样,终端设备基于第一阈值以及第二阈值,唤醒终端设备,使得终端设备可以实现对用户声音的精准识别,在降低误闯率的同时提高声纹识别的安全性。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种声纹识别方法和装置。
背景技术
随着互联网的普及和发展,人们对于终端设备的功能需求也越发多样化。例如,为了简化用户使用终端设备的方式,终端设备可以支持用户通过语音的方式唤醒设备、或者唤醒设备中的某些功能。由于不同用户所具有的声纹数据的独特性,使得终端设备可以通过声纹数据,判别接收到的声音是否为注册用户(或理解为终端设备的机主)的声音。
通常情况下,终端设备可以基于声纹模型对注册用户声纹数据,以及接收到的说话人声纹数据进行打分,当得分超过预设的阈值时,可以唤醒终端设备,或者当该得分小于预设的阈值时,则无法唤醒终端设备设备。
然而,上述声纹识别方法的误闯率较高,可能对用户的隐私造成威胁。
发明内容
本申请实施例提供一种声纹识别方法和装置,终端设备可以设置有声纹黑名单库,当接收到的说话人声纹数据在注册用户声纹数据中的得分大于第一阈值,且说话人声纹数据在声纹黑名单库中的得分小于第二阈值时,唤醒终端设备,使得终端设备可以实现对用户声音的精准识别,在降低误闯率的同时提高声纹识别的安全性。
第一方面,本申请实施例提供一种声纹识别方法,应用于终端设备,终端设备设置有预设数据库,预设数据库中包括至少一个第二用户的声纹向量;声纹向量用于表征用户的声音特征,方法包括:终端设备采集到第一语音,第一语音对应第一声纹向量;若终端设备确定第一语音为预设语音时,终端设备获取第一声纹向量与预设声纹向量的相似度得分,得到第一数值;预设声纹向量为第一用户的声纹向量;终端设备获取第一声纹向量与预设数据库中的每一个声纹向量的相似度得分中的最高的得分,得到第二数值;当终端设备确定第一数值大于第一阈值,且第二数值小于第二阈值时,终端设备确定第一用户的声纹识别成功;第二阈值大于第一阈值。这样,终端设备可以设置有声纹黑名单库,当接收到的说话人声纹数据在注册用户声纹数据中的得分大于第一阈值,且说话人声纹数据在声纹黑名单库中的得分小于第二阈值时,唤醒终端设备,使得终端设备可以实现对用户声音的精准识别,在降低误闯率的同时提高声纹识别的安全性。
其中,该预设数据库可以为本申请实施例中的声纹黑名单库;第一数值可以为本申请实施例中的注册模板得分;第二数值可以为本申请实施例中的黑名单得分;第一阈值可以为本申请实施例中的T2;第二阈值可以为本申请实施例中的T1;第一用户可以为本申请实施例中的注册用户。
在一种可能的实现方式中,方法还包括:当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,终端设备将第一声纹向量加入到预设数据库中;第一阈值大于第三阈值。这样,终端设备就可以将对系统具有威胁,且与声纹黑名单库中的声纹黑名单的相似度较低的声纹向量,加入到声纹黑名单库中。其中,第三阈值可以为本申请实施例中的T3。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,终端设备将第一声纹向量加入到预设数据库中,包括:当终端设备确定第一数值大于第三阈值,第二数值小于第一阈值,且第一声纹向量对应的信噪比数值大于第四阈值时,终端设备将第一声纹向量加入到预设数据库中。这样,终端设备可以通过信噪比的判断,提取质量较高的声纹向量,避免将用户在嘈杂环境中的声音误判为冒认者的声音的情况。其中,该第四阈值可以为本申请实施例中的信噪比阈值N。
在一种可能的实现方式中,预设数据库中的声纹向量记录有存储在预设数据库中的存储时间,以及记录有使用次数,使用次数为计算得到第二数值的次数,终端设备将第一声纹向量加入到预设数据库中,包括:终端设备剔除预设数据库中的存储时间最长的声纹向量,和/或,剔除预设数据库中的使用次数最少的声纹向量;终端设备将第一声纹向量加入到预设数据库中。这样,终端设备可以通过对于声纹黑名单库中的声纹黑名单的动态调整,保障声纹黑名单库的有效性,并且可以避免声纹黑名单库中的存储过多数据对于声纹识别方法的速度影响。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,终端设备将第一声纹向量加入到预设数据库中,包括:当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,终端设备显示第一界面;其中,第一界面中包括:用于提示是否将第一声纹向量加入到预设数据库中的提示信息、用于将第一声纹向量加入到预设数据库中的第一控件、以及用于拒绝将第一声纹向量加入到预设数据库中的第二控件;当终端设备接收到针对第一控件的触发,或者在预设时间阈值内未接收到针对第一界面中的任一控件的触发时,终端设备将第一声纹向量加入到预设数据库中。这样,当由于用户的声音状态或者所处的场景使得声音有所不同时,终端设备可以避免将该声音直接加入到声纹黑名单库的误操作。
在一种可能的实现方式中,方法还包括:当终端设备接收到用于设置声纹识别模式的操作时,终端设备显示第二界面;第二界面中包括用于开启第一识别模式的第三控件;当终端设备接收到针对第三控件的操作时,终端设备显示第三界面;第三界面中包括:用于开启提示信息的第四控件;当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,终端设备显示第一界面,包括:当终端设备确定第一数值大于第三阈值,第二数值小于第一阈值,且第四控件为开启状态时,终端设备显示第一界面。这样,使得用户可以根据自身需求,对加入声纹黑名单库进行灵活设置,提高了用户使用语音唤醒功能的体验感。
在一种可能的实现方式中,方法还包括:终端设备获取第一声纹向量分别与预设数据库中的每一个声纹向量的相似度得分,得到第三数值;终端设备删除第一数值大于第二阈值且第三数值大于第一阈值时,第一声纹向量对应的预设数据库中的声纹向量。这样,使得终端设备可以将由于某些原因误入到声纹黑名单库中的声纹黑名单删除,进而提高声纹识别方法的准确性。
在一种可能的实现方式中,方法还包括:当终端设备确定第一数值大于第二阈值时,终端设备获取第一声纹向量分别与预设数据库中的每一个声纹向量的相似度得分,得到第三数值;终端设备删除第三数值大于第一阈值时,第一声纹向量对应的预设数据库中的声纹向量。这样,使得终端设备可以将由于某些原因误入到声纹黑名单库中的声纹黑名单删除,进而提高声纹识别方法的准确性。
在一种可能的实现方式中,当终端设备确定第一数值大于第一阈值,且第二数值小于第二阈值时,终端设备确定第一用户的声纹识别成功,包括:当终端设备确定第一数值大于第一阈值且第二数值小于第二阈值,或者,终端设备确定第一数值大于第二阈值时,终端设备确定第一用户的声纹识别成功。这样,终端设备可以通过设置较高的阈值,保证与注册用户的声音相似度极高的声音,例如注册用户本人的声音才能通过声纹识别,使得终端设备可以实现对用户声音的精准识别,降低系统的误闯率。
在一种可能的实现方式中,方法还包括:当终端设备确定第一数值小于或等于第一阈值,和/或,第二数值大于或等于第二阈值时,终端设备确定第一用户的声纹识别失败。这样,使得终端设备可以在识别到的非注册用户的声音时不唤醒终端设备,保障设备的安全性。
第二方面,本申请实施例提供一种声纹识别装置,装置中设置有预设数据库,预设数据库中包括至少一个第二用户的声纹向量;声纹向量用于表征用户的声音特征,包括:处理单元,用于采集到第一语音,第一语音对应第一声纹向量;若终端设备确定第一语音为预设语音时,处理单元,还用于获取第一声纹向量与预设声纹向量的相似度得分,得到第一数值;预设声纹向量为第一用户的声纹向量;处理单元,还用于获取第一声纹向量与预设数据库中的每一个声纹向量的相似度得分中的最高的得分,得到第二数值;当终端设备确定第一数值大于第一阈值,且第二数值小于第二阈值时,处理单元,还用于确定第一用户的声纹识别成功;第二阈值大于第一阈值。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,处理单元,还用于将第一声纹向量加入到预设数据库中;第一阈值大于第三阈值。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,第二数值小于第一阈值,且第一声纹向量对应的信噪比数值大于第四阈值时,处理单元,具体用于将第一声纹向量加入到预设数据库中。
在一种可能的实现方式中,预设数据库中的声纹向量记录有存储在预设数据库中的存储时间,以及记录有使用次数,使用次数为计算得到第二数值的次数,处理单元,具体用于剔除预设数据库中的存储时间最长的声纹向量,和/或,剔除预设数据库中的使用次数最少的声纹向量;处理单元,还具体用于将第一声纹向量加入到预设数据库中。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,显示单元,用于显示第一界面;其中,第一界面中包括:用于提示是否将第一声纹向量加入到预设数据库中的提示信息、用于将第一声纹向量加入到预设数据库中的第一控件、以及用于拒绝将第一声纹向量加入到预设数据库中的第二控件;当终端设备接收到针对第一控件的触发,或者在预设时间阈值内未接收到针对第一界面中的任一控件的触发时,处理单元,具体用于将第一声纹向量加入到预设数据库中。
在一种可能的实现方式中,当终端设备接收到用于设置声纹识别模式的操作时,显示单元,还用于显示第二界面;第二界面中包括用于开启第一识别模式的第三控件;当终端设备接收到针对第三控件的操作时,显示单元,还用于显示第三界面;第三界面中包括:用于开启提示信息的第四控件;当终端设备确定第一数值大于第三阈值,第二数值小于第一阈值,且第四控件为开启状态时,处理单元,还用于显示第一界面。
在一种可能的实现方式中,处理单元,还用于获取第一声纹向量分别与预设数据库中的每一个声纹向量的相似度得分,得到第三数值;处理单元,还用于删除第一数值大于第二阈值且第三数值大于第一阈值时,第一声纹向量对应的预设数据库中的声纹向量。
在一种可能的实现方式中,当终端设备确定第一数值大于第二阈值时,处理单元,还用于获取第一声纹向量分别与预设数据库中的每一个声纹向量的相似度得分,得到第三数值;处理单元,还用于删除第三数值大于第一阈值时,第一声纹向量对应的预设数据库中的声纹向量。
在一种可能的实现方式中,当终端设备确定第一数值大于第一阈值且第二数值小于第二阈值,或者,终端设备确定第一数值大于第二阈值时,处理单元,具体用于确定第一用户的声纹识别成功。
在一种可能的实现方式中,当终端设备确定第一数值小于或等于第一阈值,和/或,第二数值大于或等于第二阈值时,处理单元,还用于确定第一用户的声纹识别失败。
第三方面,本申请实施例提供一种声纹识别装置,包括处理器和存储器,存储器用于存储代码指令;处理器用于运行代码指令,使得电子设备以执行如第一方面或第一方面的任一种实现方式中描述的声纹识别方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有指令,当指令被执行时,使得计算机执行如第一方面或第一方面的任一种实现方式中描述的声纹识别方法。
第五方面,一种计算机程序产品,包括计算机程序,当计算机程序被运行时,使得计算机执行如第一方面或第一方面的任一种实现方式中描述的声纹识别方法。
应当理解的是,本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
图1为本申请实施例提供的一种场景示意图;
图2为一种声纹识别方法的流程示意图;
图3为本申请实施例提供的一种终端设备的硬件结构示意图;
图4为本申请实施例提供的另一种声纹识别方法的流程示意图;
图5为本申请实施例提供的一种确定注册模板得分的流程示意图;
图6为本申请实施例提供的一种获取第一个声纹黑名单的流程示意图;
图7为本申请实施例提供的一种设置声纹识别模式的界面示意图;
图8为本申请实施例提供的另一种设置声纹识别模式的界面示意图;
图9为本申请实施例提供的一种显示提示信息的界面示意图;
图10为本申请实施例提供的一种声纹识别装置的结构示意图;
图11为本申请实施例提供的一种控制设备的硬件结构示意图;
图12为本申请实施例提供的一种芯片的结构示意图。
具体实施方式
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一值和第二值仅仅是为了区分不同的值,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a和b,a和c,b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
声纹可以为电声学仪器显示的携带言语信息的声波频谱,声纹可以用于表征说话人的声音特征。声纹不仅具有特定性,并且具有相对稳定性。可以理解的是,无论说话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终与被模仿者的真实声纹不同。因此,声纹识别可以广泛用于说话人识别的场景中。本申请实施例中,终端设备可以利用声纹判别接收到的声音是否为注册用户的声音,并在确定该接收到的声音为注册用户的声音时唤醒终端设备。
示例性的,图1为本申请实施例提供的一种场景示意图。在图1对应的实施例中,以终端设备为手机为例进行示例说明,该示例并不构成对本申请实施例的限定。
如图1所示,该场景中可以包括用户101、用户102以及手机103,该用户101与用户102可以为声音极为相似的双胞胎,用户101可以为手机103的注册用户(或理解为用户101可以为手机103的机主)。
在图1对应的场景中,用户101为手机103的注册用户,则手机103中可以注册有用户101的声纹数据,因此用户101可以利用如图2所示的声纹识别方法唤醒手机103,并利用其它语音指令指示手机103实现多种功能。
示例性的,图2为一种声纹识别方法的流程示意图。如图2所示,该声纹识别方法可以包括如下步骤:
S201、终端设备获取麦克风(microphone,MIC)数据。
本申请实施例中,该MIC数据可以为基于终端设备的麦克风采集到的。例如,该MIC数据可以为用户的声音数据对应的电信号。其中,该MIC数据也可以称为说话人声纹数据,下文将以说话人声纹数据为例进行示例说明。
S202、终端设备进行唤醒词检测。
本申请实施例中,该唤醒词(或称为命令词)可以为用于指示终端设备执行相应功能的指令,例如该唤醒词可以为用于将处于睡眠状态(或称为低功耗状态)的终端设备唤醒的指令。
S203、终端设备基于声纹模型计算说话人声纹向量以及注册模板得分。
本申请实施例中,该说话人声纹向量可以用于表征说话人的声音特征,例如该说话人声纹向量是通过对S201所示的步骤中的说话人声纹数据的声学特征提取和计算得到的;该注册模板得分用于指示说话人声音、与注册用户声音之间的相似度,例如该注册模板得分越高,则可以理解为说话人声音与注册用户声音的相似度越高。
S204、终端设备判断注册模板得分是否大于T2。
本申请实施例中,当终端设备确定注册模板得分大于(或大于等于)T2时,终端设备可以执行S205所示的步骤;或者,当终端设备确定注册模板得分小于等于(或小于)T2时,终端设备可以执行S206所示的步骤。
可以理解的是,该阈值T2可以用于判定说话人声音是否属于注册用户声音。例如当注册模板得分的最高取值为100分时,该T2可以取值为80分。
S205、终端设备确定判决成功,并唤醒终端设备。
S206、终端设备确定判决失败。
可以理解的是,在上述声纹识别方法中,为了实现用户可以在各种场景中均能够通过语音唤醒终端设备,因此终端设备通常设置较为宽松的判决条件,例如通过设置较低的阈值T2,例如T2设置为80分,保证较高的唤醒率。
结合图1以及图2对应的实施例,用户101可以基于图2对应的实施例中的声纹识别方法,成功唤醒手机103。而当用户102基于图2对应的实施例中的声纹识别方法,对手机103进行语音唤醒时,由于用户102与用户101为双胞胎,且两人的声音极为相似,使得手机103可能出现识别到用户102与用户101的声音有所不同,但受较为宽松的判决条件的影响,依旧唤醒手机103的情况。例如用户102对应的注册模板得分可以为81分,超过阈值T2对应的80分,造成用户102唤醒手机103的情况,带来较高的误闯率,且可能对用户101的设备隐私造成威胁。
有鉴于此,本申请实施例提供一种声纹识别方法,终端设备可以设置有声纹黑名单库,当接收到的说话人声纹数据在注册用户声纹数据中的得分大于第一阈值,且说话人声纹数据在声纹黑名单库中的得分小于第二阈值时,唤醒终端设备,使得终端设备可以实现对用户声音的精准识别,在降低误闯率的同时提高声纹识别的安全性。其中,该第一阈值可以为本申请实施例中描述的T2,该第二阈值可以为本申请实施例中描述的T1。
可以理解的是,本申请实施例提供的声纹识别方法,不仅可以用于如图1所示的设备唤醒的场景,也可以用于支付场景等其他用于身份认证的场景中,本申请实施例中对此不做具体限定。
可以理解的是,上述终端设备也可以称为终端,(terminal)、用户设备(userequipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。终端设备可以为拥有麦克风的手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmentedreality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。
因此,为了能够更好地理解本申请实施例,下面对本申请实施例的终端设备的结构进行介绍。示例性的,图3为本申请实施例提供的一种终端设备的结构示意图。
终端设备可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,指示器192,摄像头193,以及显示屏194等。
可以理解的是,本申请实施例示意的结构并不构成对终端设备的具体限定。在本申请另一些实施例中,终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器110中还可以设置存储器,用于存储指令和数据。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端设备充电,也可以用于终端设备与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。电源管理模块141用于连接充电管理模块140与处理器110。
终端设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端设备中的天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
移动通信模块150可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。
无线通信模块160可以提供应用在终端设备上的包括无线局域网(wirelesslocalarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM)等无线通信的解决方案。
终端设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。在一些实施例中,终端设备可以包括1个或N个显示屏194,N为大于1的正整数。
终端设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于捕获静态图像或视频。在一些实施例中,终端设备可以包括1个或N个摄像头193,N为大于1的正整数。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。
终端设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端设备可以通过扬声器170A收听音乐,或收听免提通话。受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。耳机接口170D用于连接有线耳机。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。本申请实施例中,终端设备可以基于麦克风170C接收用于唤醒终端设备的声音信号,并将声音信号转换为可以进行后续处理的电信号,该终端设备可以拥有至少一个麦克风170C。
传感器模块180可以包括下述一种或多种传感器,例如:压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,或骨传导传感器等(图3中未示出)。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入,产生与终端设备的用户设置以及功能控制有关的键信号输入。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
终端设备的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构等,在此不再赘述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图4为本申请实施例提供的另一种声纹识别方法的流程示意图。在图4对应的实施例中,终端设备中可以设置有用于进行冒认者(或理解为陌生用户、或非注册用户)声纹验证的声纹黑名单库。
如图4所示,声纹识别方法可以包括如下步骤:
S401、终端设备获取MIC数据。
其中,该MIC数据可以称为说话人声纹数据。
S402、终端设备进行唤醒词检测。
示例性的,在利用唤醒词唤醒处于睡眠状态的终端设备的场景中,该唤醒词可以为你好悠悠;或者,在利用唤醒词进行支付的场景中,该唤醒词可以为确认支付;可以理解的是,该唤醒词可以根据实际应用场景进行设置,本申请实施例中对此不做限定。
示例性的,终端设备可以实时获取说话人声纹数据并对该说话人声纹数据进行唤醒词检测,当检测到唤醒词时,终端设备可以执行S403所示的步骤。
S403、终端设备基于声纹模型计算说话人声纹向量、注册模板得分、以及黑名单得分。
本申请实施例中,该说话人声纹向量可以用于表征说话人的声音特征;该注册模板得分用于指示说话人声音与注册用户声音之间的相似度;该黑名单得分用于指示说话人声音在冒认者声音中的相似度。示例性的,终端设备可以基于用于存储冒认者声纹向量的声纹黑名单库,获取说话人声纹数据对应的黑名单得分。其中,该声纹黑名单库中存储的冒认者声纹向量可以用于表征冒认者的声音特征。
本申请实施例中,终端设备可以基于声纹模型计算说话人声纹向量、以及注册模板得分。示例性的,图5为本申请实施例提供的一种确定注册模板得分的流程示意图。
如图5所示,终端设备基于声纹模型计算注册模板得分的一种可能的实现可以为:终端设备可以分别获取说话人声纹数据、以及注册用户声纹数据;并分别提取说话人声纹数据对应的说话人声学特征、以及注册用户声纹数据对应的注册用户声学特征;终端设备将说话人声学特征、以及注册用户声学特征输入至声纹模型中,得到说话人声纹向量、以及注册用户声纹向量;进一步的,终端设备可以利用余弦(cosine)评分以及概率线性判别分析(probabilistic linear discriminant analysis,PLDA)等方法,对说话人声纹向量、以及注册用户声纹向量进行判别,得到说话人声纹向量对应的注册模板得分。
可以理解的是,在首次基于声纹模型计算得到注册用户声纹向量后,终端设备可以存储该注册用户声纹向量,避免后续对其他说话人的注册模板得分进行计算时,对该注册用户声纹向量的重复计算。
本申请实施例中,终端设备可以基于声纹模型计算黑名单得分。示例性的,终端设备基于声纹模型计算黑名单得分的一种可能的实现可以为:终端设备中可以设置有声纹黑名单库,该声纹黑名单库中存储有至少一个声纹黑名单,每一条声纹黑名单可以对应于一个冒认者的声纹向量。如图4所示,声纹黑名单库中可以存储有声纹黑名单1、声纹黑名单2,…,以及声纹黑名单M,M为正整数。进一步的,终端设备可以利用声纹模型对说话人声纹向量、以及声纹黑名单库中的声纹向量分别进行相似度判别,并将相似度最高的得分作为黑名单得分。
本申请实施例中,上述描述的声纹模型可以包括下述一种或多种,例如:高斯混合模型(gaussian mixture model,GMM)、高斯混合背景模型(GMM-universal backgroundmodel,GMM-UBM)、高斯混合支持向量机(GMM-support vector machine,GMM-SVM)、联合因子分析法(joint factor analysis,JFA)、基于GMM的i-vector方法、基于深度神经网络(deep neural networks,DNN)的d-vector方法、或基于神经网络(neural networks,NNET)的x-vector等,本申请实施例中对采用的声纹模型不做具体限定。
本申请实施例中,终端设备可以利用下述一种或多种方法提取声学特征,例如:梅尔倒谱系数(mel-scale frequency cepstral coefficients,MFCC)、滤波器组(filterbank,FBank)、或线性预测系数(linear prediction coefficient,LPC)等方法,本申请实施例中对提取声学特征的方法不做具体限定。
可以理解的是,上述声纹模型、以及提取声学特征的方法可以不限于上述描述,本申请实施例中对此不做限定。
S404、终端设备判断是否注册模板得分>T1。
本申请实施例中,当终端设备确定注册模板得分大于(或大于等于)T1时,终端设备可以执行S410所示的步骤;或者,当终端设备确定注册模板得分小于等于(或小于)T1时,终端设备可以执行S405所示的步骤。
其中,该T1与S206所示的步骤中的T2的关系可以为:T1>T2,例如T1=T2×N,该N可能的取值范围为1.5-2,本申请实施例中对此不做具体限定。
可以理解的是,终端设备可以通过设置较高的阈值T1,保证与注册用户的声音相似度极高的声音,例如注册用户本人的声音才能通过声纹识别,使得终端设备可以实现对用户声音的精准识别,降低系统的误闯率。
S405、终端设备判断是否满足注册模板得分>T2且黑名单得分<T1。
本申请实施例中,当终端设备确定满足:注册模板得分大于(或大于等于)T2且黑名单得分小于(或小于等于)T1时,终端设备可以执行S410所示的步骤;或者,当终端设备确定不满足:注册模板得分大于(或大于等于)T2且黑名单得分小于(或小于等于)T1时,终端设备可以执行S406以及S409所示的步骤。
其中,终端设备不满足注册模板得分大于(或大于等于)T2且黑名单得分小于(或小于等于)T1可以理解为:终端设备确定注册模板得分小于等于(或小于)T2,黑名单得分大于等于(或大于)T1,或者,注册模板得分小于等于(或小于)T2且黑名单得分大于等于(或大于)T1。
可以理解的是,终端设备可以通过判断是否注册模板得分大于T2,以及判断是否黑名单得分小于T1,实现降误闯率的同时提高声纹识别方法的成功率。
一方面,当终端设备基于图2对应的声纹识别方法,确定接收到的说话人声纹数据对应的注册模板得分为81分,大于T2对应的80分时,则终端设备可以确定此时判决成功,并唤醒终端设备。由于较为宽松的判决条件,使得接近阈值T2的说话人声音很可能是与注册用户的声音较为接近的冒认者的声音,而冒认者的声音唤醒终端设备则带来较高的误闯率。因此,终端设备可以通过进一步判断该说话人声纹数据对应的黑名单得分与T1的关系,例如通过黑名单得分小于T1,保证当前说话人的声音并不属于终端设备记录的冒认者的声音,进而在降低误闯率的同时提高声纹识别的成功率。
另一方面,当终端设备基于S404所示的步骤中利用较高的阈值T1对声音精准识别时,由于阈值T1所对应的识别方法较为严格,使得终端设备可能无法识别到用户在不同场景或者不同声音状态下的声音,例如终端设备可能无法识别到用户在感冒状态时的声音,从而带来较低的成功率。因此终端设备可以通过设置较低的阈值T2保证较高的成功率,并且通过说话人声纹数据对应的黑名单得分与T1的关系,例如通过黑名单得分小于T1,保证当前说话人的声音并不属于终端设备记录的冒认者的声音,进而在提高声纹识别的成功率的同时保障降低的误闯率。
S406、终端设备判断是否满足注册模板得分>T3且黑名单得分<T2。
本申请实施例中,当终端设备确定满足:注册模板得分大于(或大于等于)T3且黑名单得分小于(或小于等于)T2时,终端设备可以执行S407所示的步骤;或者,当终端设备不满足:注册模板得分大于(或大于等于)T3且黑名单得分小于(或小于等于)T2时,终端设备可以结束将当前说话人声纹向量加入到声纹黑名单库的步骤。
其中,终端设备不满足注册模板得分大于(或大于等于)T3且黑名单得分小于(或小于等于)T2可以理解为:终端设备确定注册模板得分小于等于(或小于)T3,黑名单得分大于等于(或大于)T2,或者,注册模板得分小于等于(或小于)T3且黑名单得分大于等于(或大于)T2。
其中,该T2与T3的关系可以为:T2>T3,例如T3=T2×Q,该Q可能的取值范围为0.5-0.9,本申请实施例中对此不做具体限定。
可以理解的是,终端设备可以通过判断是否注册模板得分大于T3,以及判断是否黑名单得分小于T2,确定是否将对终端设备具有威胁的声音加入到声纹黑名单库。
具体的,当终端设备确定注册模板得分大于T3时,则可以理解为当前接收到的声音与注册用户的声音的相似度较低,例如该接收到的声音可以为对设备具有威胁的声音。
当终端设备确定黑名单得分小于T2时,则可以理解为当前接收到的声音不属于声纹黑名单库中存储的冒认者的声音。因此,终端设备可以通过将该对终端设备具有威胁,且没有加入到声纹黑名单库中的声音所对应的说话人声纹向量加入到声纹黑名单库的方法中,进一步保障声纹识别方法的安全性。其中,当终端设备确定黑名单得分大于等于T2时,则可以理解为当前说话人的声音对应的说话人声纹向量已经在到声纹黑名单库中,因此则不需要重复加入。
S407、终端设备判断是否信噪比>NdB。
本申请实施例中,该信噪比用于指示用户的声音信号与环境中的噪声信号的比值。当终端设备确定信噪比大于(或大于等于)NdB时,终端设备可以执行S408所示的步骤;或者当终端设备确定信噪比小于等于(或小于)NdB时,终端设备可以结束将当前说话人声纹向量加入到声纹黑名单库的步骤。
可以理解的是,终端设备可以通过信噪比的判断,提取质量较高的声纹向量,避免将用户在嘈杂环境中的声音误判为冒认者的声音的情况。
S408、终端设备获取当前说话人声纹向量,并将当前说话人声纹向量加入声纹黑名单库。
本申请实施例中,该声纹黑名单库中可以存储有多条声纹黑名单,例如声纹黑名单1、声纹黑名单2、...、声纹黑名单M。当该声纹黑名单库中只能存储M条数据,且需要将当前的第M+1条说话人声纹向量加入到其中时,则终端设备可以根据声纹黑名单库中的声纹黑名单的加入时间、和/或声纹黑名单的使用次数,确定需要剔除的声纹黑名单。
示例性的,在需要加入第M+1条说话人声纹向量时,终端设备可以剔除该M条声纹黑名单中的加入时间最长的声纹黑名单;或者,终端设备可以剔除该M条声纹黑名单中的使用次数最少的声纹黑名单;或者,终端设备可以在该M条声纹黑名单中的使用次数最少的P条声纹黑名单中,剔除加入时间最长的声纹黑名单。其中,该M大于(或大于等于)P。
可能的实现方式中,终端设备也可以定期,例如每隔一天、或每隔4小时等,基于声纹黑名单的使用次数以及声纹黑名单的加入时间自动清理声纹黑名单库。
可以理解的是,终端设备可以通过对于声纹黑名单库中的声纹黑名单的动态调整,保障声纹黑名单库的有效性,并且可以避免声纹黑名单库中的存储过多数据对于声纹识别方法的速度影响。
S409、终端设备确定判决失败。
可以理解的是,当终端设备确定当前接收到的声音为非注册用户的声音时,本轮验证失败。示例性的,在利用语音唤醒处于睡眠状态的终端设备时,当终端设备确定判决失败,则可以继续保持睡眠状态。
S410、终端设备确定判决成功,并唤醒终端设备。
示例性的,在利用语音唤醒处于睡眠状态的终端设备时,当终端设备确定判决成功时,可以唤醒终端设备,例如终端设备可以亮屏、并播放语音消息,例如在用户通过你好悠悠唤醒终端设备时,终端设备可以在判决成功后播放如:我在或其他语音消息。
可能的实现方式中,在S410之后,终端设备可以基于S411-S413所示的步骤,对声纹黑名单库进行验证。
S411、终端设备判断是否注册模板得分>T1。
本申请实施例中,当终端设备确定注册模板得分大于(或大于等于)T1时,终端设备可以执行S412所示的步骤;或者,当终端设备确定注册模板得分小于等于(或小于T1)时,终端设备可以结束对于声纹黑名单库的验证步骤。
可以理解的是,终端设备可以通过判断是否注册模板得分大于T1,筛选出注册用户的声音。
S412、终端设备判断是否黑名单得分>T2。
本步骤中,该黑名单得分可以为说话人声纹向量在声纹黑名单库中的各声纹黑名单中对应的得分(或理解为说话人声音分别与该声纹黑名单库中的各冒认者声音的相似度得分),而非该声纹黑名单库中的黑名单得分的最大值。例如,当说话人声纹向量在声纹黑名单库中,存在5个黑名单得分大于T2的情况时,则终端设备可以提取这5个黑名单大于T2时对应的5个声纹黑名单。
当终端设备确定黑名单得分大于(或大于等于)T2时,终端设备可以执行S413所示的步骤;或者,当终端设备确定黑名单得分小于等于(或小于T2)时,终端设备可以结束对于声纹黑名单库的验证步骤。
一种实现中,该黑名单得分可以为终端设备在S403所示的步骤中计算得到的,并保存在本设备中,使得终端设备可以在S412所示的步骤中调用。示例性的,终端设备可以在S403所示的步骤中基于声纹模型计算说话人声纹向量分别在声纹黑名单库中的M个声纹黑名单中,对应的M个黑名单得分,并存储在设备中,在执行S412所示的步骤中调用该M个黑名单得分,并判断黑名单得分大于T2时对应的声纹黑名单。
另一种实现中,该黑名单得分也可以在S412所示的步骤中基于声纹黑名单库、以及说话人声纹向量的计算得到的。示例性的,终端设备可以在S410所示的步骤中对注册模板得分大于T1、以及、注册模板得分大于T2且黑名单得分小于T1的设备进行唤醒,再在S412所示的步骤中基于声纹模型计算说话人声纹向量分别在声纹黑名单库中的M个声纹黑名单中,对应的M个黑名单得分,进一步获取黑名单得分大于T2时对应的声纹黑名单。可以理解的是,终端设备在S412所示的步骤中进行黑名单得分计算,可以提高基于声纹数据唤醒设备的速度。
可以理解的是,终端设备可以通过判断是否注册模板得分>T1以及黑名单得分>T2,筛选出误入到声纹黑名单库中的注册用户的声纹向量。
S413、终端设备删除对应声纹黑名单。
示例性的,终端设备可以删除满足注册模板得分>T1且黑名单得分>T2对应的所有声纹黑名单库中的声纹黑名单。
可以理解的是,上述S411-S413用于将由于某些原因误入到声纹黑名单库中的声纹黑名单删除,进而提高声纹识别方法的准确性。
基于此,终端设备可以设置有声纹黑名单库,并利用注册用户声纹向量以及声纹黑名单库中的声纹向量,分别对终端设备接收到的说话人声纹向量进行打分,使得终端设备可以实现对用户声音的精准识别,在降低误闯率的同时提高声纹识别的安全性。
可能的实现方式中,当终端设备中未设置有声纹黑名单库时,终端设备可以基于下述如图6对应的实施例获取第一个声纹黑名单。示例性的,图6为本申请实施例提供的一种获取第一个声纹黑名单的流程示意图。
如图6所示,该获取第一个声纹黑名单的方法可以包括如下步骤:
S601、终端设备获取MIC数据。
其中,该MIC数据可以为说话人声纹数据。
S602、终端设备进行唤醒词检测。
S603、终端设备基于声纹模型计算说话人声纹向量以及注册模板得分。
其中,终端设备计算说话人声纹向量以及注册模板得分的过程可以参见S403所示的步骤,在此不再赘述。
S604、终端设备判断是否注册模板得分>T2。
本申请实施例中,当终端设备确定注册模板得分大于(或大于等于)T2时,终端设备可以执行S605所示的步骤;或者,当终端设备确定注册模板得分小于等于(或小于)T2时,终端设备可以执行S606所示的步骤。
S605、终端设备确定判决成功,并唤醒终端设备。
S606、终端设备判断是否注册模板得分>T3。
本申请实施例中,当终端设备确定注册模板得分大于(或大于等于)T3时,终端设备可以执行S607所示的步骤;或者,当终端设备确定注册模板得分小于等于(或小于)T3时,终端设备可以结束将当前声纹加入到声纹黑名单库的步骤。
可以理解的是,终端设备可以通过阈值T3筛选出对系统有威胁的声音,并将其添加到声纹黑名单库中。
S607、终端设备判断是否信噪比>NdB。
当终端设备判断信噪比大于(或大于等于)NdB时,终端设备可以执行S608所示的步骤;或者当信噪比小于等于(或小于)NdB时,终端设备可以结束将当前声纹加入到声纹黑名单库中的步骤。
S608、终端设备获取当前说话人声纹向量,并将当前说话人声纹向量加入声纹黑名单库。
可以理解的是,该声纹黑名单库中存储有当前说话人声纹向量对应的声纹黑名单1。
基于此,终端设备可以在注册模板得分大于T3时,将对设备具有威胁的声音加入到声纹黑名单库中,使得该声纹黑名单库可以用于后续的声纹识别。
在图4对应的实施例的基础上,可能的实现方式中,终端设备可以支持不同模式下的声纹识别,例如高识别率模式以及低识别率模式。
本申请实施例中,该高识别率模式可以理解为用于提供精准识别的模式,在该模式下,只有与注册用户的声音极为相似,或者不属于终端设备存储的声纹黑名单库中的冒认者的声音才能够通过识别,识别的准确率较高。其中,该高识别率模式可以对应于图4对应的实施例中描述的声纹识别方法。
该低识别率模式可以理解为用于提供较高识别成功率的模式,在该模式下,可以实现用户在不同场景或不同声音状态下的声音识别,识别的成功率较高。其中,该低识别率模式可以对应于图2对应的实施例中描述的声纹识别方法。
示例性的,图7为本申请实施例提供的一种设置声纹识别模式的界面示意图。在图7对应的实施例中,以终端设备为手机为例进行示例说明,该示例并不构成对本申请实施例的限定。
当手机接收到用户用于设置语音唤醒功能的操作时,手机可以显示如图7中的a所示的界面,该界面中可以显示用于设置用户信息的控件、用于设置电源键唤醒的控件、用于设置语音唤醒的控件701、以及用户查看更多功能的控件等。
如图7中的a所示的界面中,当手机接收到用户触发该用于设置语音唤醒的控件701的操作时,手机可以显示如图7中的b所示的界面。该如图7中的b所示的界面中包括用于开启语音唤醒的控件702等。
如图7中的b所示的界面中,当手机接收到用户触发该用于开启语音唤醒的控件702的操作时,手机可以显示如图7中的c所示的界面。该如图7中的c所示的界面中可以包括:用于关闭语音唤醒的控件、用于设置高识别率模式的控件703、用于设置低识别率模式的控件704、以及用于设置唤醒命令的控件等。其中,该唤醒命令可以为:你好悠悠。
可能的实现方式中,在如图7中的c所示的界面中,当手机接收到用户触发该用于设置高识别率模式的控件703的操作时,手机可以基于声纹黑名单库、以及注册用户声纹数据对接收到的说话人声纹数据进行声纹识别。
可能的实现方式中,在如图7中的c所示的界面中,当手机接收到用户触发该用于设置低识别率模式的控件704的操作时,手机可以基于注册用户声纹数据对接收到的说话人声纹数据进行声纹识别。
基于此,用户可以根据自身需求对声纹识别模式进行灵活设置,提高了用户使用语音唤醒功能的体验感。
进一步的,在图7对应的实施例的基础上,用户也可以通过开启高识别率模式,对高识别率模式中识别到的冒认者加入声纹黑名单库的提示情况进行设置。示例性的,图8为本申请实施例提供的另一种设置声纹识别模式的界面示意图。
如图8中的a所示的界面中,当手机接收到用户触发该用于设置高识别率模式的控件703的操作时,手机可以显示如图8中的b所示的界面。该图8中的b所示的界面中可以包括:高识别率模式对应的用于开启加入声纹黑名单库提示的控件801。该加入声纹黑名单库提示可以为理解为:手机在识别到不属于用户注册的声音(或理解为识别到冒认者的声音)时,发起将该声音加入到声纹黑名单库的提示。其中,该图8中的a所示的界面与图7中的c所示的界面类似,在此不再赘述。
如图8中的b所示的界面中,当手机接收到用户触发该用于开启加入声纹黑名单库提示的控件801的操作时,手机可以实现在识别到不属于注册用户的声音时发起提示信息;或者,当手机未接收到用户触发该用于开启黑名单库提示的控件801的操作,则手机可以默认将检测到的不属于注册用户的声音加入到声纹黑名单库。
基于此,用户可以根据自身需求,对加入声纹黑名单库进行灵活设置,提高了用户使用语音唤醒功能的体验感。
在如图8对应的实施例的基础上,当用户开启该加入声纹黑名单库提示时,终端设备则可以显示提示信息。示例性的,图9为本申请实施例提供的一种显示提示信息的界面示意图。
在手机的睡眠状态(或也可以为手机的息屏状态)下,当手机基于语音唤醒功能中的高识别率模式,接收到说话人声纹数据且确定到该说话人声纹数据对应的注册模板得分大于(或大于等于)T3、黑名单得分小于(或小于等于)T2、且信噪比大于(或大于等于)NdB时,手机可以获取该说话人声纹数据对应的说话人声纹向量,并显示如图9所示的界面。该如图9所示的界面中可以显示:提示信息901、用于将当前说话人声纹向量加入声纹黑名单库的确认控件902、用于拒绝将当前说话人声纹向量加入声纹黑名单库的取消控件903。其中,该提示信息901可以为:检测到冒认者的声音,请确认是否将该声音加入到声纹黑名单库。
可能的实现方式中,当手机在显示提示信息901的一段时间阈值内,未接收到用户针对确认控件902以及取消控件903的操作时,手机可以默认执行将当前声纹数据加入声纹黑名单库的步骤。
基于此,当由于用户的声音状态或者所处的场景使得声音有所不同时,终端设备可以避免将该声音直接加入到声纹黑名单库的误操作。
可以理解的是,上述实施例中提供的界面仅作为一种示例,并不能够成对本申请实施例的限定。
上面结合图4-图9,对本申请实施例提供的方法进行了说明,下面对本申请实施例提供的执行上述方法的装置进行描述。如图10所示,图10为本申请实施例提供的一种声纹识别装置的结构示意图,该声纹识别装置可以是本申请实施例中的终端设备,也可以是终端设备内的芯片或芯片系统。
如图10所示,声纹识别装置100可以用于通信设备、电路、硬件组件或者芯片中,该声纹识别装置包括:显示单元1001、以及处理单元1002。其中,显示单元1001用于支持声纹识别装置100执行的显示的步骤;处理单元1002用于支持声纹识别装置100执行信息处理的步骤。
本申请实施例提供一种声纹识别装置100,装置中设置有预设数据库,预设数据库中包括至少一个第二用户的声纹向量;声纹向量用于表征用户的声音特征,包括:处理单元1002,用于采集到第一语音,第一语音对应第一声纹向量;若终端设备确定第一语音为预设语音时,处理单元1002,还用于获取第一声纹向量与预设声纹向量的相似度得分,得到第一数值;预设声纹向量为第一用户的声纹向量;处理单元1002,还用于获取第一声纹向量与预设数据库中的每一个声纹向量的相似度得分中的最高的得分,得到第二数值;当终端设备确定第一数值大于第一阈值,且第二数值小于第二阈值时,处理单元1002,还用于确定第一用户的声纹识别成功;第二阈值大于第一阈值。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,处理单元1002,还用于将第一声纹向量加入到预设数据库中;第一阈值大于第三阈值。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,第二数值小于第一阈值,且第一声纹向量对应的信噪比数值大于第四阈值时,处理单元1002,具体用于将第一声纹向量加入到预设数据库中。
在一种可能的实现方式中,预设数据库中的声纹向量记录有存储在预设数据库中的存储时间,以及记录有使用次数,使用次数为计算得到第二数值的次数,处理单元1002,具体用于剔除预设数据库中的存储时间最长的声纹向量,和/或,剔除预设数据库中的使用次数最少的声纹向量;处理单元1002,还具体用于将第一声纹向量加入到预设数据库中。
在一种可能的实现方式中,当终端设备确定第一数值大于第三阈值,且第二数值小于第一阈值时,显示单元1001,用于显示第一界面;其中,第一界面中包括:用于提示是否将第一声纹向量加入到预设数据库中的提示信息、用于将第一声纹向量加入到预设数据库中的第一控件、以及用于拒绝将第一声纹向量加入到预设数据库中的第二控件;当终端设备接收到针对第一控件的触发,或者在预设时间阈值内未接收到针对第一界面中的任一控件的触发时,处理单元1002,具体用于将第一声纹向量加入到预设数据库中。
在一种可能的实现方式中,当终端设备接收到用于设置声纹识别模式的操作时,显示单元1001,还用于显示第二界面;第二界面中包括用于开启第一识别模式的第三控件;当终端设备接收到针对第三控件的操作时,显示单元1001,还用于显示第三界面;第三界面中包括:用于开启提示信息的第四控件;当终端设备确定第一数值大于第三阈值,第二数值小于第一阈值,且第四控件为开启状态时,处理单元1002,还用于显示第一界面。
在一种可能的实现方式中,处理单元1002,还用于获取第一声纹向量分别与预设数据库中的每一个声纹向量的相似度得分,得到第三数值;处理单元1002,还用于删除第一数值大于第二阈值且第三数值大于第一阈值时,第一声纹向量对应的预设数据库中的声纹向量。
在一种可能的实现方式中,当终端设备确定第一数值大于第二阈值时,处理单元1002,还用于获取第一声纹向量分别与预设数据库中的每一个声纹向量的相似度得分,得到第三数值;处理单元1002,还用于删除第三数值大于第一阈值时,第一声纹向量对应的预设数据库中的声纹向量。
在一种可能的实现方式中,当终端设备确定第一数值大于第一阈值且第二数值小于第二阈值,或者,终端设备确定第一数值大于第二阈值时,处理单元1002,具体用于确定第一用户的声纹识别成功。
在一种可能的实现方式中,当终端设备确定第一数值小于或等于第一阈值,和/或,第二数值大于或等于第二阈值时,处理单元1002,还用于确定第一用户的声纹识别失败。
可能的实现方式中,该声纹装置100中也可以包括通信单元1003。具体的,通信单元用于支持声纹识别装置100执行数据的发送以及数据的接收的步骤。其中,该通信单元1003可以是输入或者输出接口、管脚或者电路等。
可能的实施例中,声纹识别装置还可以包括:存储单元1004。处理单元1002、存储单元1004通过线路相连。存储单元1004可以包括一个或者多个存储器,存储器可以是一个或者多个设备、电路中用于存储程序或者数据的器件。存储单元1004可以独立存在,通过通信线路与声纹识别装置具有的处理单元1002相连。存储单元1004也可以和处理单元1002集成在一起。
存储单元1004可以存储终端设备中的方法的计算机执行指令,以使处理单元1002执行上述实施例中的方法。存储单元1004可以是寄存器、缓存或者RAM等,存储单元1004可以和处理单元1002集成在一起。存储单元1004可以是只读存储器(read-only memory,ROM)或者可存储静态信息和指令的其他类型的静态存储设备,存储单元1004可以与处理单元1002相独立。
图11为本申请实施例提供的一种控制设备的硬件结构示意图,如图11所示,该控制设备包括处理器1101,通信线路1104以及至少一个通信接口(图11中示例性的以通信接口1103为例进行说明)。
处理器1101可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信线路1104可包括在上述组件之间传送信息的电路。
通信接口1103,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线局域网(wireless local area networks,WLAN)等。
可能的,该控制设备还可以包括存储器1102。
存储器1102可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路1104与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器1102用于存储执行本申请方案的计算机执行指令,并由处理器1101来控制执行。处理器1101用于执行存储器1102中存储的计算机执行指令,从而实现本申请实施例所提供的声纹识别方法。
可能的,本申请实施例中的计算机执行指令也可以称之为应用程序代码,本申请实施例对此不作具体限定。
在具体实现中,作为一种实施例,处理器1101可以包括一个或多个CPU,例如图11中的CPU0和CPU1。
在具体实现中,作为一种实施例,控制设备可以包括多个处理器,例如图11中的处理器1101和处理器1105。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
示例性的,图12为本申请实施例提供的一种芯片的结构示意图。芯片120包括一个或两个以上(包括两个)处理器1220和通信接口1230。
在一些实施方式中,存储器1240存储了如下的元素:可执行模块或者数据结构,或者他们的子集,或者他们的扩展集。
本申请实施例中,存储器1240可以包括只读存储器和随机存取存储器,并向处理器1220提供指令和数据。存储器1240的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。
本申请实施例中,存储器1240、通信接口1230以及存储器1240通过总线系统1210耦合在一起。其中,总线系统1210除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。为了便于描述,在图12中将各种总线都标为总线系统1210。
上述本申请实施例描述的方法可以应用于处理器1220中,或者由处理器1220实现。处理器1220可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1220中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1220可以是通用处理器(例如,微处理器或常规处理器)、数字信号处理器(digitalsignal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件,处理器1220可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。其中,软件模块可以位于随机存储器、只读存储器、可编程只读存储器或带电可擦写可编程存储器(electricallyerasable programmable read only memory,EEPROM)等本领域成熟的存储介质中。该存储介质位于存储器1240,处理器1220读取存储器1240中的信息,结合其硬件完成上述方法的步骤。
在上述实施例中,存储器存储的供处理器执行的指令可以以计算机程序产品的形式实现。其中,计算机程序产品可以是事先写入在存储器中,也可以是以软件形式下载并安装在存储器中。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如,可用介质可以包括磁性介质(例如,软盘、硬盘或磁带)、光介质(例如,数字通用光盘(digital versatile disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质,还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。
作为一种可能的设计,计算机可读介质可以包括紧凑型光盘只读储存器(compactdisc read-only memory,CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器;计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且,任何连接线也可以被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,DSL或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD),激光盘,光盘,数字通用光盘(digital versatile disc,DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。
上述的组合也应包括在计算机可读介质的范围内。以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (13)
1.一种声纹识别方法,其特征在于,应用于终端设备,所述终端设备设置有预设数据库,所述预设数据库中包括至少一个第二用户的声纹向量;所述声纹向量用于表征用户的声音特征,所述方法包括:
所述终端设备采集到第一语音,所述第一语音对应第一声纹向量;
若所述终端设备确定所述第一语音为预设语音时,所述终端设备获取所述第一声纹向量与预设声纹向量的相似度得分,得到第一数值;所述预设声纹向量为第一用户的声纹向量;
所述终端设备获取所述第一声纹向量与所述预设数据库中的每一个声纹向量的相似度得分中的最高的得分,得到第二数值;
当所述终端设备确定所述第一数值大于第一阈值,且所述第二数值小于第二阈值时,所述终端设备确定所述第一用户的声纹识别成功;所述第二阈值大于所述第一阈值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述终端设备确定所述第一数值大于第三阈值,且所述第二数值小于所述第一阈值时,所述终端设备将所述第一声纹向量加入到所述预设数据库中;所述第一阈值大于所述第三阈值。
3.根据权利要求2所述的方法,其特征在于,所述当所述终端设备确定所述第一数值大于第三阈值,且所述第二数值小于所述第一阈值时,所述终端设备将所述第一声纹向量加入到所述预设数据库中,包括:
当所述终端设备确定所述第一数值大于所述第三阈值,所述第二数值小于所述第一阈值,且所述第一声纹向量对应的信噪比数值大于第四阈值时,所述终端设备将所述第一声纹向量加入到所述预设数据库中。
4.根据权利要求2或3所述的方法,其特征在于,所述预设数据库中的声纹向量记录有存储在所述预设数据库中的存储时间,以及记录有使用次数,所述使用次数为计算得到所述第二数值的次数,所述终端设备将所述第一声纹向量加入到所述预设数据库中,包括:
所述终端设备剔除所述预设数据库中的存储时间最长的声纹向量,和/或,剔除所述预设数据库中的使用次数最少的声纹向量;
所述终端设备将所述第一声纹向量加入到所述预设数据库中。
5.根据权利要求2或3所述的方法,其特征在于,所述当所述终端设备确定所述第一数值大于第三阈值,且所述第二数值小于所述第一阈值时,所述终端设备将所述第一声纹向量加入到所述预设数据库中,包括:
当所述终端设备确定所述第一数值大于所述第三阈值,且所述第二数值小于所述第一阈值时,所述终端设备显示第一界面;其中,所述第一界面中包括:用于提示是否将所述第一声纹向量加入到所述预设数据库中的提示信息、用于将所述第一声纹向量加入到所述预设数据库中的第一控件、以及用于拒绝将所述第一声纹向量加入到所述预设数据库中的第二控件;
当所述终端设备接收到针对所述第一控件的触发,或者在预设时间阈值内未接收到针对所述第一界面中的任一控件的触发时,所述终端设备将所述第一声纹向量加入到所述预设数据库中。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当所述终端设备接收到用于设置声纹识别模式的操作时,所述终端设备显示第二界面;所述第二界面中包括用于开启第一识别模式的第三控件;
当所述终端设备接收到针对所述第三控件的操作时,所述终端设备显示第三界面;所述第三界面中包括:用于开启所述提示信息的第四控件;
所述当所述终端设备确定所述第一数值大于所述第三阈值,且所述第二数值小于所述第一阈值时,所述终端设备显示第一界面,包括:当所述终端设备确定所述第一数值大于所述第三阈值,所述第二数值小于所述第一阈值,且所述第四控件为开启状态时,所述终端设备显示所述第一界面。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
所述终端设备获取所述第一声纹向量分别与所述预设数据库中的每一个声纹向量的相似度得分,得到第三数值;
所述终端设备删除所述第一数值大于所述第二阈值且所述第三数值大于所述第一阈值时,所述第一声纹向量对应的所述预设数据库中的声纹向量。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
当所述终端设备确定所述第一数值大于所述第二阈值时,所述终端设备获取所述第一声纹向量分别与所述预设数据库中的每一个声纹向量的相似度得分,得到第三数值;
所述终端设备删除所述第三数值大于所述第一阈值时,所述第一声纹向量对应的所述预设数据库中的声纹向量。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述当所述终端设备确定所述第一数值大于第一阈值,且所述第二数值小于第二阈值时,所述终端设备确定所述第一用户的声纹识别成功,包括:
当所述终端设备确定所述第一数值大于所述第一阈值且所述第二数值小于所述第二阈值,或者,所述终端设备确定所述第一数值大于所述第二阈值时,所述终端设备确定所述第一用户的声纹识别成功。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
当所述终端设备确定所述第一数值小于或等于所述第一阈值,和/或,所述第二数值大于或等于所述第二阈值时,所述终端设备确定所述第一用户的声纹识别失败。
11.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,使得所述电子设备执行如权利要求1至10任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得计算机执行如权利要求1至10任一项所述的方法。
13.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,使得计算机执行如权利要求1至10任一项所述的方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111627924.0A CN115019806B (zh) | 2021-12-28 | 2021-12-28 | 声纹识别方法和装置 |
| PCT/CN2022/118924 WO2023124248A1 (zh) | 2021-12-28 | 2022-09-15 | 声纹识别方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111627924.0A CN115019806B (zh) | 2021-12-28 | 2021-12-28 | 声纹识别方法和装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN115019806A true CN115019806A (zh) | 2022-09-06 |
| CN115019806B CN115019806B (zh) | 2025-02-25 |
Family
ID=83064298
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111627924.0A Active CN115019806B (zh) | 2021-12-28 | 2021-12-28 | 声纹识别方法和装置 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN115019806B (zh) |
| WO (1) | WO2023124248A1 (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023124248A1 (zh) * | 2021-12-28 | 2023-07-06 | 荣耀终端有限公司 | 声纹识别方法和装置 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119673213B (zh) * | 2025-02-20 | 2025-04-29 | 国网山西省电力公司超高压输电分公司 | 用于复杂背景信息的声纹提取方法和系统 |
Citations (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008244796A (ja) * | 2007-03-27 | 2008-10-09 | Ntt Docomo Inc | 音声認証システム |
| US20090119106A1 (en) * | 2005-04-21 | 2009-05-07 | Anthony Rajakumar | Building whitelists comprising voiceprints not associated with fraud and screening calls using a combination of a whitelist and blacklist |
| CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
| JP2018081297A (ja) * | 2016-11-18 | 2018-05-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声データを処理するための方法及び装置 |
| CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
| CN108848507A (zh) * | 2018-05-31 | 2018-11-20 | 厦门快商通信息技术有限公司 | 一种不良电信用户信息采集方法 |
| CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
| CN109753778A (zh) * | 2018-12-30 | 2019-05-14 | 北京城市网邻信息技术有限公司 | 用户的审核方法、装置、设备及存储介质 |
| US20190362057A1 (en) * | 2018-05-24 | 2019-11-28 | Nice Ltd. | System and method for performing voice biometrics analysis |
| CN112634924A (zh) * | 2020-12-14 | 2021-04-09 | 深圳市沃特沃德股份有限公司 | 基于语音通话的噪声过滤方法、装置和计算机设备 |
| CN113241059A (zh) * | 2021-04-27 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
| CN113590873A (zh) * | 2021-07-23 | 2021-11-02 | 中信银行股份有限公司 | 白名单声纹特征库的处理方法、装置及电子设备 |
| WO2021232213A1 (zh) * | 2020-05-19 | 2021-11-25 | 华为技术有限公司 | 一种声纹识别、注册装置、及跨设备声纹识别方法 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7240007B2 (en) * | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
| EP3373176B1 (en) * | 2014-01-17 | 2020-01-01 | Cirrus Logic International Semiconductor Limited | Tamper-resistant element for use in speaker recognition |
| CN108985776A (zh) * | 2018-09-13 | 2018-12-11 | 南京硅基智能科技有限公司 | 基于多重信息验证的信用卡安全监测方法 |
| US10659588B1 (en) * | 2019-03-21 | 2020-05-19 | Capital One Services, Llc | Methods and systems for automatic discovery of fraudulent calls using speaker recognition |
| CN110246503A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 黑名单声纹库构建方法、装置、计算机设备和存储介质 |
| CN115019806B (zh) * | 2021-12-28 | 2025-02-25 | 北京荣耀终端有限公司 | 声纹识别方法和装置 |
-
2021
- 2021-12-28 CN CN202111627924.0A patent/CN115019806B/zh active Active
-
2022
- 2022-09-15 WO PCT/CN2022/118924 patent/WO2023124248A1/zh not_active Ceased
Patent Citations (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20090119106A1 (en) * | 2005-04-21 | 2009-05-07 | Anthony Rajakumar | Building whitelists comprising voiceprints not associated with fraud and screening calls using a combination of a whitelist and blacklist |
| JP2008244796A (ja) * | 2007-03-27 | 2008-10-09 | Ntt Docomo Inc | 音声認証システム |
| JP2018081297A (ja) * | 2016-11-18 | 2018-05-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声データを処理するための方法及び装置 |
| CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
| CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
| US20190362057A1 (en) * | 2018-05-24 | 2019-11-28 | Nice Ltd. | System and method for performing voice biometrics analysis |
| CN108848507A (zh) * | 2018-05-31 | 2018-11-20 | 厦门快商通信息技术有限公司 | 一种不良电信用户信息采集方法 |
| CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
| CN109753778A (zh) * | 2018-12-30 | 2019-05-14 | 北京城市网邻信息技术有限公司 | 用户的审核方法、装置、设备及存储介质 |
| WO2021232213A1 (zh) * | 2020-05-19 | 2021-11-25 | 华为技术有限公司 | 一种声纹识别、注册装置、及跨设备声纹识别方法 |
| CN112634924A (zh) * | 2020-12-14 | 2021-04-09 | 深圳市沃特沃德股份有限公司 | 基于语音通话的噪声过滤方法、装置和计算机设备 |
| CN113241059A (zh) * | 2021-04-27 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
| CN113590873A (zh) * | 2021-07-23 | 2021-11-02 | 中信银行股份有限公司 | 白名单声纹特征库的处理方法、装置及电子设备 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023124248A1 (zh) * | 2021-12-28 | 2023-07-06 | 荣耀终端有限公司 | 声纹识别方法和装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN115019806B (zh) | 2025-02-25 |
| WO2023124248A9 (zh) | 2023-10-26 |
| WO2023124248A1 (zh) | 2023-07-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7794374B2 (ja) | 音声制御方法及び装置 | |
| CN111696570B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
| CN108538320B (zh) | 录音控制方法和装置、可读存储介质、终端 | |
| CN110574103A (zh) | 一种语音控制方法、可穿戴设备及终端 | |
| CN114299933B (zh) | 语音识别模型训练方法、装置、设备、存储介质及产品 | |
| WO2022033556A1 (zh) | 电子设备及其语音识别方法和介质 | |
| CN111445901A (zh) | 音频数据获取方法、装置、电子设备及存储介质 | |
| CN109599104A (zh) | 多波束选取方法及装置 | |
| CN111341317B (zh) | 唤醒音频数据的评价方法、装置、电子设备及介质 | |
| CN119002054A (zh) | 基于生成式人工智能大语言模型的智能眼镜、系统及控制方法 | |
| WO2023124248A1 (zh) | 声纹识别方法和装置 | |
| CN113362836B (zh) | 训练声码器方法、终端及存储介质 | |
| CN111028846B (zh) | 免唤醒词注册的方法和装置 | |
| CN113160802A (zh) | 语音处理方法、装置、设备及存储介质 | |
| CN114360546B (zh) | 电子设备及其唤醒方法 | |
| CN112259076A (zh) | 语音交互方法、装置、电子设备及计算机可读存储介质 | |
| CN115810350B (zh) | 训练数据获取方法、装置、设备及存储介质 | |
| JP7744438B2 (ja) | アップグレード方法、アップグレード装置、および電子デバイス | |
| CN114222302B (zh) | 针对异常通话的呼叫方法、装置、电子设备及存储介质 | |
| CN114927139A (zh) | 假音识别方法、假音还原方法、电子设备及存储介质 | |
| CN113162837B (zh) | 语音消息的处理方法、装置、设备及存储介质 | |
| CN117953872A (zh) | 语音唤醒模型更新方法、存储介质、程序产品及设备 | |
| CN116259329A (zh) | 人声伴奏分离模型的训练方法、装置及电子设备 | |
| CN115273431A (zh) | 设备的寻回方法、装置、存储介质和电子设备 | |
| CN117746849A (zh) | 一种语音交互方法、装置及终端 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |