[go: up one dir, main page]

CN114743546B - 降低智能语音误唤醒率的方法及装置、电子设备 - Google Patents

降低智能语音误唤醒率的方法及装置、电子设备 Download PDF

Info

Publication number
CN114743546B
CN114743546B CN202210541608.XA CN202210541608A CN114743546B CN 114743546 B CN114743546 B CN 114743546B CN 202210541608 A CN202210541608 A CN 202210541608A CN 114743546 B CN114743546 B CN 114743546B
Authority
CN
China
Prior art keywords
wake
false
recognition result
triggering
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210541608.XA
Other languages
English (en)
Other versions
CN114743546A (zh
Inventor
胡威
邹学勇
任冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202210541608.XA priority Critical patent/CN114743546B/zh
Publication of CN114743546A publication Critical patent/CN114743546A/zh
Application granted granted Critical
Publication of CN114743546B publication Critical patent/CN114743546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Traffic Control Systems (AREA)
  • Electric Clocks (AREA)

Abstract

本发明公开一种降低智能语音误唤醒率方法及装置、电子设备,其方法包括对唤醒引擎的唤醒识别结果进行监测,在检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果;对确定出的被视为误唤醒的触发唤醒的唤醒识别结果,控制唤醒引擎不抛出唤醒指令。本发明的方案无需对唤醒模型进行优化,并且能够有效地解决聊天过程中的误唤醒问题,降低智能语音误唤醒率。

Description

降低智能语音误唤醒率的方法及装置、电子设备
技术领域
本发明涉及智能语音技术领域,尤其涉及一种降低智能语音误唤醒率的方法及装置、电子设备和存储介质。
背景技术
语音唤醒技术通过在电子设备或软件中预置唤醒词,当用户发出唤醒词对应的语音指令时,电子设备可以从休眠状态中被唤醒并作出指定响应。而在日常使用的时候,当用户在聊天过程中说到了唤醒词,或跟唤醒词发音非常接近的词,则会很容易导致触发误唤醒。在一般现有技术中,通常采用优化唤醒模型的方法来降低误唤醒的触发率,但是这种通过优化唤醒模型来降低误唤醒的触发率的方法,耗费精力较大,但是效果不明显。
发明内容
本发明实施例提供一种降低智能语音误唤醒率方案,以解决现有技术中在聊天过程中容易误触发唤醒,导致误唤醒的问题。
第一方面,本发明实施例提供了一种降低智能语音误唤醒率方法,包括:
对唤醒引擎的唤醒识别结果进行监测,在检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果;
对确定出的被视为误唤醒的触发唤醒的唤醒识别结果,控制唤醒引擎不抛出唤醒指令。
第二方面,本发明实施例提供了一种降低智能语音误唤醒率装置,包括:
唤醒识别检测模块,配置为用于对唤醒引擎的唤醒识别结果进行监测,在检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,启动误唤醒判断模块;
误唤醒判断模块,配置为对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果;
唤醒识别结果过滤模块,配置为对确定出的被视为误唤醒的触发唤醒的唤醒识别结果,控制唤醒引擎不抛出唤醒指令。
第三方面,本发明实施例提供了一种降低智能语音误唤醒率系统,包括:
唤醒引擎,配置为用于对输入的音频数据进行唤醒识别;
上述的降低智能语音误唤醒率装置。
第四方面,本发明实施例提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第五方面,本发明提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明实施例的有益效果在于:本发明实施例提供的方法通过对唤醒引擎的唤醒识别结果进行监测,从而能够对每一个唤醒引擎识别得到的唤醒识别结果都进行误唤醒筛选,以对唤醒引擎识别得到的唤醒识别结果进行误唤醒判断,确定出被视为误唤醒的触发唤醒的唤醒识别结果,最后,根据确定出的被视为误唤醒的触发唤醒的唤醒识别结果,定义该当前触发唤醒的音频数据对应的唤醒识别结果是否为用户不经意触发的唤醒,即定义该当前触发唤醒的音频数据对应的唤醒识别结果是否为误唤醒,以控制唤醒引擎不抛出唤醒指令,将该次唤醒进行过滤,从而无需对唤醒模型进行优化,并且能够有效地解决聊天过程中的误唤醒问题,降低智能语音误唤醒率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施方式的降低智能语音误唤醒率方法的流程图;
图2为本发明一实施方式的降低智能语音误唤醒率方法的步骤S11中的误唤醒唤醒识别结果的确定方法流程图;
图3为本发明另一实施方式的降低智能语音误唤醒率方法的步骤S11中的误唤醒唤醒识别结果的确定方法流程图;
图4为本发明又一实施方式的降低智能语音误唤醒率方法的步骤S11中的误唤醒唤醒识别结果的确定方法流程图;
图5为本发明一实施方式的降低智能语音误唤醒率方法的误唤醒筛选条件确定方法流程图;
图6为本发明一实施方式的降低智能语音误唤醒率装置的原理框图;
图7为本发明一实施方式的降低智能语音误唤醒率装置的误唤醒判断模块的原理框图;
图8为本发明一实施方式的降低智能语音误唤醒率系统的原理框图;
图9为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例中的降低智能语音误唤醒率方法可以应用在具有唤醒功能的智能语音产品中,以使得用户能够利用降低智能语音误唤醒率的方案来有效降低智能语音产品中的唤醒引擎的唤醒识别结果的误唤醒率,这些智能语音产品例如包括但不限于智能手机、智能平板、个人PC、计算机、云端服务器等。特别地,本发明实施例中的降低智能语音误唤醒率方法还可以应用车载智能语音系统中,本发明对此不作限定。
发明人在大量的智能语音产品测试及实际使用中发现,大部分的误唤醒实际上是在用户聊天或外部播放语言类节目等场景中触发的,聊天过程中用户说到了唤醒词,或跟唤醒词发音非常接近的词,导致触发误唤醒。这类误唤醒,优化唤醒模型几乎起不到多大作用,因为从声学模型及语言模型检测上来说,这类误唤醒跟正常的唤醒几乎没有区别,都是检测到音素匹配及通过语言模型解码处理的文字跟唤醒词匹配,从而触发唤醒。对于上述的误唤醒问题,单纯的优化唤醒模型,或者更改唤醒词的阈值,都无法解决这部分聊天过程中的误唤醒问题。基于此,发明人想到了一种不采用优化唤醒模型,而是对唤醒引擎的唤醒识别结果进行误唤醒筛选,以从触发唤醒的唤醒识别结果中过滤掉误唤醒的情况,提高唤醒的准确率,降低误唤醒率。
图1示意性地展示了根据本发明一实施方式的降低智能语音误唤醒率方法,该方法适用于各种能够进行唤醒识别的智能语音终端设备中,以有效降低唤醒引擎的唤醒识别结果的误唤醒率,特别适用于车载终端的智能语音系统中,以有效降低车载终端的唤醒识别的误唤醒率。参照图1所示,本发明实施例的方法包括:
步骤S11:对唤醒引擎的唤醒识别结果进行监测,在检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,进行步骤S12的处理;
步骤S12:对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果;
步骤S13:对确定出的被视为误唤醒的触发唤醒的唤醒识别结果,控制唤醒引擎不抛出唤醒指令。
在步骤S11中,唤醒引擎的唤醒识别结果,是指经由唤醒引擎对当前拾取的音频数据进行语音识别和检测判断,而得到的唤醒引擎输出的识别结果,其中,具体地,当唤醒引擎检测到拾取的音频数据中存在预先注册的唤醒词时,唤醒引擎输出的唤醒识别结果为触发唤醒,当检测不到拾取的音频数据中带有唤醒词时,唤醒引擎输出的唤醒识别结果则为不触发唤醒。当检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,则说明唤醒引擎检测到当前拾取的音频数据中存在预先注册的唤醒词,表明该音频数据为能够触发唤醒功能的用户音频,此时在现有技术中将会直接触发唤醒,抛出唤醒指令。而区别于现有技术,在本发明实施例的方案中,则是在确定要抛出唤醒指令之前,先通过步骤S12对该唤醒识别结果进行误唤醒筛选,以判断该唤醒识别结果是否为误唤醒。
在步骤S13中,由于在步骤S12中已确定出唤醒引擎输出的唤醒识别结果是否为误唤醒,因而只需要根据步骤S12中所确定出的结果,对唤醒引擎输出的唤醒识别结果进行处理即可。具体地,可以实现为当唤醒引擎输出的唤醒识别结果被确定为误唤醒时,则控制唤醒引擎不抛出唤醒指令,以有效地避免误唤醒的输出,有效降低智能语音误唤醒率。因此,在本发明实施例中,对于唤醒引擎输出的触发唤醒的唤醒识别结果,只有当不满足误唤醒的条件时,才会进一步抛出唤醒指令,如果被确定为是误唤醒,即使经由唤醒引擎识别出音频数据中带有唤醒词并输出触发唤醒的唤醒识别结果,也不会触发唤醒指令。
在一些实施方式中,步骤S12中的对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,是基于对于当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测实现的。其中,与当前检测到的触发唤醒的唤醒识别结果对应的用户音频是当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据。而该当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据,可能是单一的用户说出的用于触发唤醒的唤醒词,用户直接说出该唤醒词,其目的就是需要触发唤醒,因而该种情况属于是正常唤醒,不应该被过滤;也可能是用户在聊天过程中的某一句话,而在该句话中不经意说到了唤醒词,用户并非是有意说出唤醒词以触发唤醒,用户在说出该句话时,并不带有触发唤醒的目的,因而该种情况则属于是非正常唤醒,是需要过滤的误唤醒情况。针对于这种需要过滤的误唤醒情况,本发明中所采用的对音频数据的前多字和/或后多字的检测,是针对于触发唤醒的音频数据中的唤醒词的前方是否有多字,唤醒词的后方是否有多字的检测。具体的,对音频数据的前多字检测,是指检测音频数据中触发唤醒的唤醒词的前方是否还有出现其他文字内容或语音内容,对音频数据的后多字检测,则是指检测音频数据中触发唤醒的唤醒词的后方是否还出现其他文字内容或语音内容,基于对音频数据的前多字和/或后多字的检测结果,就能够判断得出该触发唤醒的音频数据是否是用户说出符合用户唤醒意图的音频数据。对音频数据的前多字的检测和后多字的检测,可以通过不同的线程针对同一音频数据进行同时检测,也可以仅对音频数据作前多字的检测或仅对音频数据作后多字的检测,同时对音频数据作前多字的检测和后多字的检测准确性会更高,但是占用的计算资源也会更高,因而在实际运用的时候可以根据实际情况选择性地启用对音频数据的前多字检测和对音频数据中的后多字检测以对触发唤醒的唤醒识别结果进行误唤醒检测。
图2示意性地展示了本发明一实施方式的降低智能语音误唤醒率方法的步骤S11中的误唤醒唤醒识别结果的确定方法,具体地,该确定方法是对音频数据的前多字的检测方法,参照图2,该方法可以实现为以下步骤:
步骤S21:基于VAD检测获取第一时间信息,其中,所述第一时间信息为触发唤醒的音频数据对应的的人声开始时间;
步骤S22:基于唤醒引擎输出触发唤醒的唤醒识别结果的时间获取第二时间信息,其中,所述第二时间信息为唤醒引擎输出触发唤醒的唤醒识别结果的时间;
步骤S23:根据所述第一时间信息、第二时间信息和预置的误唤醒判断条件确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
在步骤S21中,VAD(Voice Activity Detection)即为语音活动检测,目的是从声音信号流里识别和消除长时间的静音期,在智能语音场景中主要是用于检测人类的语音信号是否存在,VAD检测获取的第一时间信息,是指触发唤醒的音频数据对应的人声开始时间,以表示用户开始说话的时刻。具体的,当开始接收录入的音频信息,VAD检测到音频中的话音信号的时候,则会发出VAD start信号,即人声开始信号,以表示检测到音频数据中的人声开始,并在检测到的音频中的话音信号结束的时候发出VAD end信号,即人声结束信号,以表示该段音频数据中的人声结束,通过监测获取VAD start信号的时间,即可得到步骤S21中的第一时间信息。当唤醒引擎输出唤醒识别结果为触发唤醒时,则可对该唤醒识别结果对应的音频数据进行检测,得到该音频数据的第一时间信息,以用于对该音频数据进行前多字检测,判断该唤醒识别结果是否为误唤醒。
在步骤S22中,第二时间信息为唤醒引擎输出触发唤醒的唤醒识别结果的时间,当唤醒引擎识别到音频数据中的唤醒词的时候,则会触发唤醒,而在唤醒引擎检测到音频数据中的唤醒词的时刻与唤醒引擎响应于检测到唤醒词以输出唤醒识别结果的时刻之间仍存在一定的间隔,此为唤醒引擎的响应时间,由于每一次唤醒引擎的响应时间都不一定相同,其存在一定的差值范围,并且唤醒引擎检测到音频数据中的唤醒词的时刻难以检测,因而通过检测唤醒引擎响应于检测到唤醒词以输出唤醒识别结果的时刻以作为第二时间信息。由此,通过获取唤醒引擎输出触发唤醒的唤醒识别结果的时间,即可得到步骤S22中的第二时间信息。其中,当唤醒引擎输出唤醒识别结果为触发唤醒时,获取到的第二时间信息时与该唤醒识别结果对应的音频数据相关联的,以用于对该音频数据进行前多字检测,判断该唤醒识别结果是否为误唤醒。需要说明的是,在步骤S22中所检测的音频数据,与步骤S21中所监测获取VAD start信号的时间对应的音频数据应是相匹配的音频数据,这里的相匹配是指第一时间信息也是与该音频数据相关联的,是针对该音频数据检测到的人声开始时间,因而才能够保证得到的时间信息都是与该音频数据相关的时间信息,以用于作为对该音频数据进行前多字检测的依据,进而作为判断该音频数据对应的唤醒识别结果是否是误唤醒的依据。
在步骤S23中,是对该次唤醒识别结果相关联音频数据进行前多字检测以实现误唤醒判断,即对该次唤醒识别结果所对应的被检测音频数据进行前多字检测以实现误唤醒判断,其所依据的条件是上述步骤S21中所确定的用于表示用户开始说话的时刻的第一时间信息、上述步骤S22中所确定的用于标识唤醒引擎检测到触发唤醒的时刻的第二时间信息以及预置的误唤醒判断条件。其中,误唤醒判断条件是用于确定出该次唤醒识别结果是否为误唤醒的判断条件,示例性地,误唤醒判断条件可以实现为是用于表示用户仅说出唤醒词时自开始说话至触发唤醒需要用的时长阈值,而通过获取的第一时间信息和第二时间信息,即可计算得出在该音频数据中,用户自开始说话至触发唤醒之间所用的时间长度,并将该时间长度与误唤醒判断条件进行比较判断,就能判断得出在该音频数据中,用户在说出唤醒词之前,是否还有说出其他内容,以实现对音频数据的前多字检测。具体地,对于预置的误唤醒判断条件,其时长阈值的设计是可以根据实际情况而自定义设计的,不同系统中的唤醒引擎的响应时间,不同人的说话的语速,以及不同唤醒词的长度等,均是设计该误唤醒判断条件的设计依据。在一些实施方式中,优选地,将该误唤醒判断条件设置为是基于唤醒引擎响应时间与正常语速说完相应唤醒词的时间确定的时长阈值,由于第二时间信息对应的时间,是唤醒引擎输出触发唤醒的唤醒识别结果的时间,因而对应地,需要将唤醒引擎响应时间加入至时长阈值中。具体地,该时长阈值可以是唤醒引擎的响应时间与正常语速说完相应唤醒词的时间之和,从而通过判断相关的音频数据中用户在开始说话之后至唤醒引擎输出触发唤醒的唤醒识别结果之间所用的时间长度,与该时长阈值进行比较,若用户在开始说话之后至唤醒引擎输出触发唤醒的唤醒识别结果之间所用的时间长度大于该时长阈值,则说明用户在开始说话之后至说出唤醒词之间,还有说出其他内容,即该次唤醒是用户在聊天过程中不经意说到了唤醒词的几率非常大,因而即可将该音频数据对应的唤醒识别结果判断为误唤醒。进一步地,在设置误唤醒判断条件的时候,可以将时长阈值设置为唤醒引擎的响应时间的最大值和正常语速说完相应唤醒词的时间的最大值之和,从而能够尽量降低对该音频数据的前多字检测的错误率,提高误唤醒判断的正确率。示例性地,在某一系统中的唤醒引擎的响应时间的为400-500ms,正常语速说完唤醒词的时间400-1000ms,那么可以将预置的误唤醒判断条件的时长阈值设置为500+1000=1500ms,此时,在检测到唤醒引擎输出的唤醒是被结果为触发唤醒时,则对当前拾取的用户用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字检测,即基于VAD检测获取该音频数据的第一时间信息,以及基于唤醒引擎输出触发的唤醒识别结果的时间获取该音频数据的第二时间信息,并通过第一时间信息和第二时间信息计算得出该音频数据中用户在开始说话之后至说出唤醒词之间所用的时间长度,之后与误唤醒判断条件的时长阈值1500ms进行比较判断,若该音频数据中用户在开始说话之后至说出唤醒词之间所用的时间长度大于1500ms,则判断该音频数据对应的唤醒识别结果为误唤醒。在一些其他实施方式中,还可以该误唤醒判断条件设置为是基于唤醒引擎响应时间与正常语速说完相应唤醒词及与唤醒词相关的前语气助词的时间确定的时长阈值,这样设置,在进行前多字的检测的时候,还能够降低由于用户说出与唤醒词相关的前语气助词而被误认为是误唤醒的几率。
本发明所展示的对音频数据的前多字的检测的实施方式,由于第一时间信息和第二时间信息的获取均不是发生在唤醒引擎输出唤醒识别结果之后的延迟时间段内的,即在唤醒引擎输出唤醒识别结果的时候,就能够完全获取到第一时间信息和第二时间信息,因而在唤醒引擎输出唤醒识别结果的时候,只需要同时根据第一时间信息、第二时间信息和预置的误唤醒判断条件确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒,就能够完成本发明所展示的对音频数据的前多字的检测,所以本发明所展示的音频数据的前多字的检测,并不会使得唤醒引擎输出唤醒识别结果的时间延迟,不会增加唤醒引擎的整体唤醒响应时间,对常规的单独说唤醒词的唤醒几乎没有影响。
图3示意性地展示了本发明另一实施方式的降低智能语音误唤醒率方法的步骤S11中的误唤醒唤醒识别结果的确定方法,具体地,该确定方法是对音频数据的后多字的检测方法,参照图3,该方法可以实现为以下步骤:
步骤S31:在唤醒引擎输出触发唤醒的唤醒识别结果后的预设时段内,检测是否获取到触发唤醒的音频数据对应的人声结束信号;
步骤S32:根据检测结果确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
在步骤S31中,所述的唤醒引擎输出触发唤醒的唤醒识别结果后的预设时段,是指唤醒引擎输出触发唤醒的唤醒识别结果之后的一段时间长度,其可以是基于用户以触发唤醒为目的正常说出唤醒词的场景下,自用户说完唤醒词至检测到人声结束信号所经历的时间长度的经验值来确定,可以理解的是,所述的自用户说完唤醒词至检测到人声结束信号所经历的时间长度,可以是用户正常说话结束至检测到人声结束信号所经历的时间长度,也可以是用户说完唤醒词后,说出与唤醒词相关的后语气助词并结束说话至检测到人声结束信号所经历的时间长度。示例性地,用户正常说话结束至检测到人声结束信号所经历的时间长度为400ms,用户说完唤醒词后,说出与唤醒词相关的后语气助词并结束说话至检测到人声结束信号所经历的时间长度为500ms,如用户说出“XXX(唤醒词)你好”等,此时,在一般以触发唤醒为目的正常说出唤醒词的场景下,若拟定用户仅说出唤醒词,即用户说完唤醒词就结束说话,则可以将该预设时间设置为400ms;若拟定用户会说出相关的后语气助词,即用户说完唤醒词后还会说出后语气助词再结束说话,则可以将该预设时间设置为500ms。所述的人声结束信号,是指VAD检测到音频中的话音信号结束的时候发出的VAD end信号,即表示用户说话结束。通过检测唤醒引擎输出触发唤醒的唤醒识别结果后的预设时段内,即用户在以触发唤醒为目的正常说出唤醒词的情况下,说完唤醒词至检测到人声结束信号的时间长度阈值内,是否检测到与该输入至唤醒引擎以进行唤醒识别的音频数据对应的人声结束信号,就能够判断该音频数据是否在说出唤醒词或与唤醒词相关的后语气助词后就结束。其中,该预设时段根据不同系统中检测到的唤醒词对应的用户音频的自说完唤醒词至VAD检测到人声结束信号所用的时间长度不同可以自定义设计,具体地,该预设时段可以设置为与系统中检测到自音频的唤醒词结束至VAD检测到人声结束信号所用的时间长度相等,该预设时段也可以设置为稍大于系统中检测到自音频的唤醒词结束至VAD检测出人声结束信号所用的时间长度,以减小判断误差。示例性地,某一系统中用户说完唤醒词至检测到人声结束信号所经历的时间长度的经验值设置为400ms,则可以将该预设时段设置为比该经验值稍大的500ms,即在唤醒引擎输出触发唤醒的唤醒识别结果后的500ms内,检测是否获取到触发唤醒的音频数据对应的人声结束信号。
在步骤S32中,为根据步骤S31的检测结果,对当前检测到的触发唤醒的唤醒识别结果是否为误唤醒进行判断。示例性地,将预设时段设置为500ms,即在唤醒引擎输出触发唤醒的唤醒识别结果后的500ms内,检测是否获取到触发唤醒的音频数据对应的人声结束信号,若在该500ms内没有检测到获取到触发唤醒的音频数据对应的人声结束信号,则说明用户在说完唤醒词或与唤醒词相关的后语气助词后,并没有直接结束说话,还有继续说出其他内容,即该次唤醒是用户在聊天过程中不经意说到了唤醒词的几率非常大,因而可将该音频数据对应的唤醒识别结果判断为误唤醒。
图4示意性地展示了本发明又一实施方式的降低智能语音误唤醒率方法的步骤S11中的误唤醒唤醒识别结果的确定方法,具体地,该确定方法是根据对音频数据的前多字和/或后多字的检测结果对触发唤醒的唤醒识别结果进行判断的方法,参照图4,该方法可以实现为以下步骤:
步骤S41:基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测确定该音频数据对应的触发唤醒的唤醒识别结果的置信度;
步骤S42:根据所述置信度确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
在步骤S41中,需要先对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字和/或后多字检测,再根据对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字和/或后多字检测的检测结果确定出该音频数据对应的触发唤醒的唤醒识别结果的置信度,该置信度是用于评判该触发唤醒的唤醒识别结果是否是正常唤醒的可信度值,置信度越高,则代表该触发唤醒的唤醒识别结果可信度越高,是正常唤醒的几率越高,置信度越低,则代表该触发唤醒的唤醒识别结果可信度越低,是误唤醒的几率越低。其中,该置信度是基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测确定的,具体地,以上述的前多字检测方法和后多字检测方法为例,可以将置信度与前多字检测方法中的计算得出的用户在开始说话之后至输出唤醒识别结果之间所用的时间长度相关联,和将置信度与后多字检测方法中的唤醒引擎输出触发唤醒的唤醒识别结果后至在预设时段内检测到获取到触发唤醒的音频数据对应的人声结束信号之间所用的时间长度关联。示例性地,以前多字检测方法中预置的误唤醒判断条件的时长阈值设置为1500ms为例,可以设置为计算得出的用户在开始说话之后至输出触发唤醒的唤醒识别结果之间所用的时间长度越短,则给出的置信度越高,计算得出的用户在开始说话之后至输出唤醒识别结果之间所用的时间长度越长,则给出的置信度越低,计算得出的用户在开始说话之后至输出唤醒识别结果之间所用的时间长度超过1500ms,则给出的置信度为0;以后多字检测方法中与设时段为500ms为例,可以设置为唤醒引擎输出触发唤醒的唤醒识别结果后至在预设时段内检测到获取到触发唤醒的音频数据对应的人声结束信号之间所用的时间长度越短,则给出的置信度越高,唤醒引擎输出触发唤醒的唤醒识别结果后至检测到获取到触发唤醒的音频数据对应的人声结束信号之间所用的时间长度越长,则给出的置信度越低,唤醒引擎输出触发唤醒的唤醒识别结果后500ms内无检测到获取到触发唤醒的音频数据对应的人声结束信号,则给出的置信度为0。而根据具体的设置,可以仅设置为只根据当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字检测的检测结果确定该音频数据对应的触发唤醒的唤醒识别结果的置信度,或仅设置为只根据当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行后多字检测的检测结果确定该音频数据对应的触发唤醒的唤醒识别结果的置信度,抑或是同时根据前多字检测和后多字检测的检测结果确定该音频数据对应的触发唤醒的唤醒识别结果的置信度,其具体可以根据实际情况而自定义设置。
在一些实施方式中,该置信度还可以是先基于语音识别模型对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行语音识别,再根据语音识别的结果中唤醒词的前面和/或后面的词与唤醒词之间的关联性进行确定的。具体地,通过语音识别模型对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行语音识别后,即能够得到该音频数据对应的识别结果,也就是该音频数据对应的文字结果,之后即可对该音频数据的识别结果中唤醒词的前面和/或后面的词进行关联性判断,并根据该判断结果对该音频数据对应的触发唤醒的唤醒识别结果确定置信度。示例性地,通过语音识别模型对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行语音识别后,即可得到该音频数据对应的识别结果,在对唤醒词的前面和/或后面的词进行关联性判断的时候,若唤醒词的前面和/或后面为常用的语气词,则可以判断这些语气词的关联性为较高,对应的确定的置信度则较高,若唤醒词的前面和/或后面为与唤醒词无关的词,则可以判断这些词的关联性为较低,对应的确定的置信度则较低,从而综合对该音频数据的识别结果中唤醒词的前面和/或后面的词进行关联性判断,以对该音频数据对应的触发唤醒的唤醒识别结果确定相应的置信度。
在步骤S42中,为根据步骤S41确定的该音频数据对应的触发唤醒的唤醒识别结果的置信度,对当前检测到的触发唤醒的唤醒识别结果是否为误唤醒进行判断。具体地,可以预设有置信度阈值,将触发唤醒的唤醒识别结果的置信度与置信度阈值进行比对,当触发唤醒的唤醒识别结果的置信度低于置信度阈值,则将该触发唤醒的唤醒识别结果视为误唤醒。
由于在本发明中,步骤S11中的误唤醒唤醒识别结果的确定方法,是基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测实现的,因而可以根据实际情况,将误唤醒筛选条件配置为仅基于前多字检测或后多字检测来实现,也可以使得该误唤醒唤醒识别结果的确定方法设置为同时基于前多字检测和后多字检测来实现的。图5示意性地展示了本发明一实施方式的降低智能语音误唤醒率方法的误唤醒筛选条件确定方法,具体地,参照图5,步骤S11中的,对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果之前,还可以包括以下步骤:
步骤S51:获取对所述唤醒引擎预置的配置选项信息,根据所述配置选项信息确定误唤醒筛选条件,所述误唤醒筛选条件为前多字和/或后多字检测;
步骤S52:根据确定的误唤醒筛选条件对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果。
在步骤S51中,误唤醒筛选条件是根据唤醒引擎预置的配置选项信息进行确定的,而唤醒引擎预置的配置选项信息,是用于设置唤醒引擎在输出触发唤醒的唤醒识别结果的时候,如何对该唤醒识别结果进行误唤醒筛选的信息。根据对唤醒引擎预置的配置选项信息的设置,可以将误唤醒筛选条件设置为仅对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字检测,或仅对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行后多字检测,或既对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字检测,又对该音频数据进行后多字检测,还可以设置为不对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字检测或后多字检测。继而在步骤S52中,可以根据确定出的误唤醒筛选条件对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,以对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据进行前多字检测和/或后多字检测。
在一些实施方式中,唤醒引擎预置的配置选项信息除了能够用于确定是否执行根据前多字和/后多字检测实现确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒以外,还能够用于确定是否执行根据置信度确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。由于上述的几种的用于确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒的方法,可能会影响唤醒引擎的整体响应时间,如上述的实施方式中的后多字检测方法,会在正常进行唤醒的时候,增多了等待检测人声结束信号的时间,即预设时段的时间,如上述的实施方式中的通过语音识别确定置信度的方式,虽然能够更有效地达到过滤聊天过程中误唤醒的效果,但是由于需要在进行唤醒识别以外,还要另外进行语音识别,因而会使得唤醒引擎的响应时间大幅延长,所以可以根据实际情况对误唤醒判断的精确度以及唤醒引擎的响应时间的要求,来确定具体的用于确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒的方法。
上述的对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字检测方法和后多字检测方法,均是基于VAD检测到的人声开始时间以及人声结束时间以进行检测判断的,因而VAD发出的人声开始信号以及发出的人声结束信号对于本发明中的基于前多字检测方法和后多字检测方法确定触发唤醒的唤醒识别结果的误唤醒判断是起到关键作用的,若用户想正常唤醒,而VAD又检测到环境中其他人聊天的话音信号,则很有可能会导致该正常唤醒被当做误唤醒而不抛出唤醒指令,导致唤醒失败。作为一种优选的实施例,为了能够降低人声干扰场景对本发明的前多字检测方法和后多字检测方法的影响,可以将用于输入至唤醒引擎以进行唤醒识别的音频数据设置为通过BBS算法对声源中的人声进行分离后得到的。BSS(Blind Source Separation)即为盲源分离技术,为一种声音信号处理算法,目前在智能语音中应用非常广泛。BSS算法能够根据人的声音特征,对不同的声源进行分离,分离后的人声都是单独的通道,几乎没有其他人的干扰,因此能单独分离出唤醒人的声音,若声源中存在多个人声,则可以将多个人声进行单独分离,结合上述的降低智能语音误唤醒率方法,能够对各通道人声分别送唤醒。通过结合BSS算法能够有效避免在有人声干扰的唤醒场景中持续触发VAD的问题,从而能够解决人声干扰场景下的唤醒问题。而对于车载智能语音系统,由于其检测的话音信号范围位于车体内部,在车载智能语音场景中,人声位置及方向比较固定,因此BSS算法的可靠性非常高,通过BSS算法能够有效降低在获取话音信号的时候环境中的人声干扰,结合本发明的降低智能语音误唤醒率方法,能够有效提高车载智能语音系统的可靠性,有效降低误唤醒率。
图6和图7示意性地展示了本发明一实施方式的降低智能语音误唤醒率装置,参照图6所示,该降低智能语音误唤醒率装置包括:
唤醒识别检测模块1,配置为用于对唤醒引擎的唤醒识别结果进行监测,在检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,启动误唤醒判断模块;
误唤醒判断模块2,配置为对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果;
唤醒识别结果过滤模块3,配置为对确定出的被视为误唤醒的触发唤醒的唤醒识别结果,控制唤醒引擎不抛出唤醒指令。
优选地,所述误唤醒判断模块2是基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测实现的。
参照图7,在一些实施方式中,所述误唤醒判断模块2包括前多字检测单元21,所述前多字检测单元21配置为基于VAD检测获取第一时间信息,其中,所述第一时间信息为触发唤醒的音频数据对应的的人声开始时间;基于唤醒引擎输出触发唤醒的唤醒识别结果的时间获取第二时间信息,其中,所述第二时间信息为唤醒引擎输出触发唤醒的唤醒识别结果的时间;根据所述第一时间信息、第二时间信息和预置的误唤醒判断条件确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
优选地,所述误唤醒判断条件是基于唤醒引擎响应时间与正常语速说完相应唤醒词的时间确定的时长阈值。
参照图7,在一些实施方式中,所述误唤醒判断模块2还包括后多字检测单元22,所述后多字检测单元22配置为在唤醒引擎输出触发唤醒的唤醒识别结果后的预设时段内,检测是否获取到触发唤醒的音频数据对应的人声结束信号;根据检测结果确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
参照图7,在一些实施方式中,所述误唤醒判断模块2还包括热词二次校检单元23,所述热词二次校检单元23配置为基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测确定该音频数据对应的触发唤醒的唤醒识别结果的置信度;根据所述置信度确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
作为一种优选的实施方式,所述误唤醒判断模块2可以设置为获取对所述唤醒引擎预置的配置选项信息,根据所述配置选项信息确定误唤醒筛选条件,所述误唤醒筛选条件为前多字和/或后多字检测;根据确定的误唤醒筛选条件对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果。
作为一种优选的实施方式,用于输入至唤醒引擎以进行唤醒识别的音频数据为通过BBS算法对声源中的人声进行分离后得到的。
需要说明的是,本发明实施例的降低智能语音误唤醒率装置的实现过程和实现原理具体可参见上述降低智能语音误唤醒率方法实施例的相应描述,例如方法实施例部分对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选等相应处理,故在此均不再赘述。示例性地,本发明实施例的降低智能语音误唤醒率装置可以是具有处理器的任何智能设备,包括但不限于计算机、智能手机、个人电脑、机器人、云端服务器等。
图8示意性地显示了本发明一种实施方式的降低智能语音误唤醒率系统,参照图8所示,该降低智能语音误唤醒率系统包括:
唤醒引擎4,配置为用于对输入的音频数据进行唤醒识别;
上述的降低智能语音误唤醒率装置5。
需要说明的是,本发明实施例的降低智能语音误唤醒率装置的实现过程和实现原理具体可参见上述降低智能语音误唤醒率方法实施例的相应描述,例如方法实施例部分对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选等相应处理,故在此均不再赘述。示例性地,本发明实施例的降低智能语音误唤醒率装置可以是具有处理器的任何智能设备,包括但不限于计算机、智能手机、个人电脑、机器人、云端服务器等。
图9是本申请一实施例提供的执行降低智能语音误唤醒率方法的电子设备的硬件结构示意图,如图9所示,该设备包括:
一个或多个处理器610以及存储器620,图9中以一个处理器610为例。
执行降低智能语音误唤醒率方法的设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的降低智能语音误唤醒率方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的降低智能语音误唤醒率方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据降低智能语音误唤醒率方法的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与图像处理设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的降低智能语音误唤醒率方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.降低智能语音误唤醒率的方法,其特征在于,包括:
对唤醒引擎的唤醒识别结果进行监测,在检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果;
对确定出的被视为误唤醒的触发唤醒的唤醒识别结果,控制唤醒引擎不抛出唤醒指令;
所述对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,是基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测实现的;
所述对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,包括:
在唤醒引擎输出触发唤醒的唤醒识别结果后的预设时段内,检测是否获取到触发唤醒的音频数据对应的人声结束信号;
根据检测结果确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
2.根据权利要求1所述的方法,其特征在于,所述对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,包括:
基于VAD检测获取第一时间信息,其中,所述第一时间信息为触发唤醒的音频数据对应的人声开始时间;
基于唤醒引擎输出触发唤醒的唤醒识别结果的时间获取第二时间信息,其中,所述第二时间信息为唤醒引擎输出触发唤醒的唤醒识别结果的时间;
根据所述第一时间信息、第二时间信息和预置的误唤醒判断条件确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
3.根据权利要求2所述的方法,其特征在于,所述误唤醒判断条件是基于唤醒引擎响应时间与正常语速说完相应唤醒词的时间确定的时长阈值。
4.根据权利要求1所述的方法,其特征在于,所述对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,包括:
基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测确定该音频数据对应的触发唤醒的唤醒识别结果的置信度;
根据所述置信度确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
5.根据权利要求1至4任一项所述的方法,其特征在于,对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,还包括:
获取对所述唤醒引擎预置的配置选项信息,根据所述配置选项信息确定误唤醒筛选条件,所述误唤醒筛选条件为前多字和/或后多字检测;
根据确定的误唤醒筛选条件对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果。
6.根据权利要求1至4任一项所述的方法,其特征在于,用于输入至唤醒引擎以进行唤醒识别的音频数据为通过BBS算法对声源中的人声进行分离后得到的。
7.降低智能语音误唤醒率装置,其特征在于,包括:
唤醒识别检测模块,配置为用于对唤醒引擎的唤醒识别结果进行监测,在检测到唤醒引擎输出的唤醒识别结果为触发唤醒时,启动误唤醒判断模块;
误唤醒判断模块,配置为对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果;
唤醒识别结果过滤模块,配置为对确定出的被视为误唤醒的触发唤醒的唤醒识别结果,控制唤醒引擎不抛出唤醒指令;
所述对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,是基于对当前拾取的用于输入至唤醒引擎以进行唤醒识别的音频数据的前多字和/或后多字的检测实现的;
所述对当前检测到的触发唤醒的唤醒识别结果进行误唤醒筛选,确定出被视为误唤醒的触发唤醒的唤醒识别结果,包括:
在唤醒引擎输出触发唤醒的唤醒识别结果后的预设时段内,检测是否获取到触发唤醒的音频数据对应的人声结束信号;
根据检测结果确定当前检测到的触发唤醒的唤醒识别结果是否为误唤醒。
8.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任意一项所述方法的步骤。
CN202210541608.XA 2022-05-17 2022-05-17 降低智能语音误唤醒率的方法及装置、电子设备 Active CN114743546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210541608.XA CN114743546B (zh) 2022-05-17 2022-05-17 降低智能语音误唤醒率的方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210541608.XA CN114743546B (zh) 2022-05-17 2022-05-17 降低智能语音误唤醒率的方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN114743546A CN114743546A (zh) 2022-07-12
CN114743546B true CN114743546B (zh) 2024-09-06

Family

ID=82287207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210541608.XA Active CN114743546B (zh) 2022-05-17 2022-05-17 降低智能语音误唤醒率的方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN114743546B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440237A (zh) * 2022-08-31 2022-12-06 云知声智能科技股份有限公司 一种快速获取智能设备回采时延的方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US20220068297A1 (en) * 2018-12-18 2022-03-03 Knowles Electronics, Llc Audio level estimator assisted false awake abatement systems and methods
CN111754989B (zh) * 2019-05-28 2023-04-07 广东小天才科技有限公司 一种语音误唤醒的规避方法及电子设备
CN110428810B (zh) * 2019-08-30 2020-10-30 北京声智科技有限公司 一种语音唤醒的识别方法、装置及电子设备
CN112863500A (zh) * 2019-11-12 2021-05-28 北京安云世纪科技有限公司 一种智能设备唤醒方法及装置
CN112071323B (zh) * 2020-09-18 2023-03-21 阿波罗智联(北京)科技有限公司 误唤醒样本数据的获取方法、装置和电子设备
CN113948081B (zh) * 2021-10-09 2025-01-10 珠海格力电器股份有限公司 一种设备唤醒方法、装置、电子设备及存储介质
CN114360522B (zh) * 2022-03-09 2022-08-02 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Saidutta,Y,M.To wake-up or not to wake-up:reducing keyword false alarm by successive refinement.《ICASSP 2023》.2023,全文. *

Also Published As

Publication number Publication date
CN114743546A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
CN108962262B (zh) 语音数据处理方法和装置
CN107767863B (zh) 语音唤醒方法、系统及智能终端
US10601599B2 (en) Voice command processing in low power devices
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
WO2021179854A1 (zh) 声纹唤醒方法及装置、设备、存储介质
CN110968353A (zh) 中央处理器的唤醒方法、装置、语音处理器以及用户设备
CN112700782A (zh) 语音处理方法和电子设备
US11626104B2 (en) User speech profile management
EP3526789B1 (en) Voice capabilities for portable audio device
US20180174574A1 (en) Methods and systems for reducing false alarms in keyword detection
CN111128166B (zh) 连续唤醒识别功能的优化方法和装置
CN109697981B (zh) 一种语音交互方法、装置、设备及存储介质
CN113205809A (zh) 语音唤醒方法和装置
US12131735B2 (en) Man-machine dialogue mode switching method
US20180158462A1 (en) Speaker identification
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
CN112863508A (zh) 免唤醒交互方法和装置
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN114743546B (zh) 降低智能语音误唤醒率的方法及装置、电子设备
CN112233676B (zh) 智能设备唤醒方法、装置、电子设备及存储介质
CN114155857A (zh) 语音唤醒方法、电子设备和存储介质
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备
CN109686372B (zh) 资源播放控制方法和装置
CN115831109A (zh) 语音唤醒方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant