CN110232933B - 音频检测方法、装置、存储介质及电子设备 - Google Patents
音频检测方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110232933B CN110232933B CN201910477882.3A CN201910477882A CN110232933B CN 110232933 B CN110232933 B CN 110232933B CN 201910477882 A CN201910477882 A CN 201910477882A CN 110232933 B CN110232933 B CN 110232933B
- Authority
- CN
- China
- Prior art keywords
- audio
- audio frame
- frame
- endpoint
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000001228 spectrum Methods 0.000 claims abstract description 86
- 238000005070 sampling Methods 0.000 claims description 83
- 238000012795 verification Methods 0.000 claims description 34
- 238000009432 framing Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 17
- 230000007958 sleep Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000002618 waking effect Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 55
- 239000013598 vector Substances 0.000 description 33
- 230000005236 sound signal Effects 0.000 description 22
- 239000000203 mixture Substances 0.000 description 19
- 238000000605 extraction Methods 0.000 description 14
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例公开了一种音频检测方法、装置、存储介质及电子设备,其中,可以首先获取待检测音频,对待检测音频进行分帧处理,得到多个音频帧;然后,获取分帧得到的多个音频帧中背景噪声的噪声能量;然后,根据各音频帧对应的噪声能量从多个音频帧中确定出候选端点音频帧;然后,获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;最后,根据候选端点音频帧以及邻近音频帧各自对应的功率谱,利用功率谱的特点,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧。由此,能够在噪声环境下准确的检测出音频数据中的端点,提高了噪声环境下的端点检测准确率。
Description
技术领域
本申请涉及语音处理技术领域,具体涉及一种音频检测方法、装置、存储介质及电子设备。
背景技术
端点检测是语音处理中的一个重要步骤,有效的端点检测能够从大段的音频中截取出语音部分。传统的端点检测算法利用过零率、短时能量和自相关参数实现端点检测。然而,传统的端点检测算法在噪声环境下的检测准确率较低。
发明内容
本申请实施例提供了一种音频检测方法、装置、存储介质及电子设备,能够提高噪声环境下的端点检测准确率。
第一方面,本申请实施例提供了一种音频检测方法,应用于电子设备,所述音频检测方法包括:
获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
获取各所述音频帧中背景噪声的噪声能量;
根据各所述音频帧的噪声能量从所述多个音频帧中确定出候选端点音频帧;
获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,从所述候选端点音频帧以及所述邻近音频帧之外的音频帧中确定出目标端点音频帧。
第二方面,本申请实施例提供了一种音频检测装置,应用于电子设备,所述音频检测装置包括:
音频分帧模块,用于获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
噪声估计模块,用于根据所述多个音频帧获取所述待检测音频中背景噪声的噪声能量;
端点预估模块,用于根据所述噪声能量从所述多个音频帧中确定出候选端点音频帧;
功率获取模块,用于获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
端点检测模块,用于根据所述功率谱以及所述候选端点音频帧,从所述候选端点音频帧以及所述邻近音频帧之外的音频帧中确定出目标端点音频帧。
第三方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,当所述计算机程序在包括专用语音识别芯片和处理器的电子设备上运行时,使得所述专用语音识别芯片或者所述处理器执行:
获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
获取各所述音频帧中背景噪声的噪声能量;
根据各所述音频帧的噪声能量从所述多个音频帧中确定出候选端点音频帧;
获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,从所述候选端点音频帧以及所述邻近音频帧之外的音频帧中确定出目标端点音频帧。
第四方面,本申请实施例还提供了一种电子设备,所述电子设备包括专用语音识别芯片、处理器和存储器,所述存储器储存有计算机程序,所述处理器或者所述专用语音识别芯片通过调用所述计算机程序,用于执行:
获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
获取各所述音频帧中背景噪声的噪声能量;
根据各所述音频帧的噪声能量从所述多个音频帧中确定出候选端点音频帧;
获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,从所述候选端点音频帧以及所述邻近音频帧之外的音频帧中确定出目标端点音频帧。
本申请实施例中,可以首先获取待检测音频,对待检测音频进行分帧处理,得到多个音频帧;然后,获取分帧得到的多个音频帧中背景噪声的噪声能量;然后,根据各音频帧对应的噪声能量从多个音频帧中确定出候选端点音频帧;然后,获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;最后,根据候选端点音频帧以及邻近音频帧各自对应的功率谱,利用功率谱的特点,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧。由此,能够在噪声环境下准确的检测出音频数据中的端点,提高了噪声环境下的端点检测准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频检测方法的一流程示意图。
图2是本申请实施例中分帧待检测音频得到多个音频帧的示意图。
图3是本申请实施例中确定目标端音频帧的示意图。
图4是本申请实施例中训练声纹特征提取模型的流程示意图。
图5是本申请实施例中提取的语谱图的示意图。
图6是本申请实施例提供的音频检测方法的另一流程示意图。
图7是本申请实施例提供的音频检测装置的结构示意图。
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
本申请实施例首先提供一种音频检测方法,该音频检测方法的执行主体可以是本申请实施例提供的电子设备,该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。
请参照图1,图1为本申请实施例提供的音频检测方法的流程示意图。该音频检测方法应用于本申请提供的电子设备,如图1所示,本申请实施例提供的音频检测方法的流程可以如下:
在101中,获取待检测音频,对待检测音频进行分帧处理,得到多个音频帧。
本申请实施例中,电子设备可以实时通过麦克风采集外部声音得到外部音频,并将麦克风采集的外部音频作为待检测音频。电子设备还可以接收其它电子设备传输的音频检测请求,该音频检测请求携带有需要进行端点检测的音频,相应的,电子设备将该音频检测请求中携带的音频作为待检测音频。此外,电子设备也可以通过本申请实施例未列出的其它方式获取待检测音频,本申请实施例对此不做具体限制。
其中,用于采集外部声音的麦克风可以电子设备的外接麦克风,也可以是电子设备的内置麦克风。比如,在电子设备未外接麦克风时,电子设备可以通过内置麦克风对外部声音进行采集,并将采集到的外部音频进行模数转换后作为待检测音频;又比如,在电子设备外接有麦克风(可以是有线的麦克风,也可以是无线的麦克风)时,电子设备通过外接麦克风对外部声音进行采集,并将采集到的外部音频进行模数转换后作为待检测音频。
应当说明的是,对于如何对于外部音频音频进行模数转换,本申请实施例不做具体限制,可由本领域普通技术人员根据实际需要预先配置,比如,本申请实施例中以16KHz的采样频率对模拟的外部音频进行采样,得到数字化的外部音频。
应当说明的是,虽然音频信号在宏观上是不平稳的,但是其在微观上是平稳的,具有短时平稳性,通常认为音频信号在10毫秒至30毫秒的时间段中是平稳的。因此,本申请实施例中,电子设备在获取到待检测音频之后,进一步对待检测音频进行分帧处理,得到多个音频帧,以用于后续处理
其中,对于如何对待检测音频进行分帧处理,本申请实施例不做具体限制,可由本领域普通技术人员根据实际需要配置,比如,本申请实施例中预先配置分帧处理的帧长为20毫秒,帧移为50%,由此,分帧得到m个音频帧,如图2所示。
可选的,为了平滑音频帧的边缘部分,本申请实施例中还对分帧得到的音频帧做加窗处理,比如汉明窗。
其中,n表示采样点数,取值范围为[0,M],M为采样点数表示的音频帧长度,比如,在音频帧的时长为20毫秒,采样率为16KHz时,M取值为320。
在102中,获取分帧得到的各音频帧中背景噪声的噪声能量。
应当说明的是,在采集外部声音时,除了期望采集的用户语音之外,还会采集到除用户语音之外的其它声音,比如办公设备的运行声、机器设备的施工声以及汽车的行使声等,这些除用户语音之外的声音即为背景噪声。
本申请实施例中,电子设备在获取到待检测音频,并对待检测音频分帧得到多个音频帧之后,按照预设背景噪声估计算法,对分帧得到的多个音频帧中背景噪声的噪声能量进行估计,以获取到各音频帧中背景噪声的噪声能量。
在103中,根据各音频帧的噪声能量从多个音频帧中确定出候选端点音频帧。
本申请实施例中,电子设备在获取到分帧得到的多个音频帧中背景噪声的噪声能量之后,根据各音频帧对应的噪声能量从分帧得到的多个音频帧中确定出候选端点音频帧,通俗的说,确定出候选端点音频帧即大概估计实际用户语音的端点帧。其中,候选端点音频帧包括可能的用户语音起始帧及实际用户语音结束帧,换言之,确定出的候选端点音频帧至少为两个。
比如,电子设备在根据噪声能量从多个音频帧中确定出候选端点音频帧时,可以获取各音频帧的音频能量,将音频能量和噪声能量之差满足预设差值的音频帧作为候选端点音频帧,此时确定出的候选端点音频帧为第12个音频帧和第23个音频帧,且第12个音频帧为可能的用户语音起始帧,第23个音频帧为可能的用户语音结束帧,则说明由第12个音频帧至第12个音频帧的连续多个音频帧为实际用户语音。
又比如,根据如下公式确定出为可能的实际用户语音起始帧的候选端点音频帧:
即分别计算各音频帧内,采样点的采样值大于阈值Thre的总数,将采样点的采样值大于阈值Thre的总数且最靠近多个音频帧中第一个音频帧的音频帧作为候选端点音频帧。
根据如下公式确定出可能的实际用户语音结束帧的候选端点音频帧:
即分别计算各音频帧内,采样点的采样值大于阈值Thre的总数,将采样点的采样值大于阈值Thre的总数且最靠近多个音频帧中最后一个音频帧的音频帧作为候选端点音频帧。
以上公式中,U1为经验常数,比如取值为3,U2为经验常数,比如取值为15,阈值Thre可由如下公式得到:
其中,Eback表示噪声能量,C为经验参数,比如取值为8。
可选的,考虑到无背景噪声的情况下,由于Eback的值近似于0,Thre也会近似于0,若实际用户语音的尾部跟随一个很小的随机噪声,也会误检测为实际用户语音,为了避免这种情况,阈值Thre可以修正为其中,D为经验常数,比如取值为800。
可选的,为了确保目标端点音频帧所限定的实际用户语音包含一个完整的唤醒词,tstop-tstart≥tmin,tmin取值25,即以作为实际用户语音起始帧的目标端点音频帧和作为实际用户语音结束帧的目标端点音频帧之间至少存在25个音频帧为约束,来确定作为实际用户语音起始帧的目标端点音频帧和作为实际用户语音结束帧的目标端点音频帧。
在104中,获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
如上所述,音频帧由背景噪声和可能存在的用户语音组成,或者仅由背景噪声组成。本申请实施例中,在从分帧得到的多个音频帧中确定出候选端点音频帧之后,进一步获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
其中,若候选端点音频帧为可能的用户语音起始帧,则电子设备获取与候选端点音频帧前向相邻的第一预设个数的邻近音频帧不含背景噪声时的功率谱;若候选端点音频帧为可能的用户语音结束帧,则电子设备获取与候选端点音频帧后向相邻的第一预设个数的邻近音频帧不含背景噪声时的功率谱。
比如,本申请实施例中考虑到音频数据的初始阶段一般无实际的语音,首先计算待检测音频初始阶段的不含语音的背景噪声的功率谱,Pn(w)=(FFT[Xi])2,其中FFT表示傅里叶变换,Xi表示第i帧音频帧,i取值范围1到10,w代表频点。
若候选端点音频帧为可能的用户语音起始帧,则以候选端点音频帧为起点,向前追溯j帧,计算候选端点音频帧以及这j帧音频帧的功率谱,其中表示候选端点音频帧前第j帧,j的取值范围为[0,jmax],考虑到语音声母最长可达200ms以上,因此,至少应从候选端点音频帧向前追溯10帧,本申请中jmax的取值范围为[10,20],即,可以最少追溯候选端点音频帧之前10帧音频帧的功率谱,最多追溯候选端点音频帧之前20帧音频帧的功率谱。
对于以候选端点音频帧为起点向前追溯的j帧音频帧,其不含背景噪声时的功率谱为:
其中,a为经验常数,本申请实施例中取值为3。
应当说明的是,对于以上第一预设个数的取值,以第一预设个数小于j为约束,可由本领域普通技术人员根据实际需要取经验值。由此,即可从候选端点音频帧以及追溯的j帧音频帧不含背景噪声时的功率谱中获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
同理,若候选端点音频帧为可能的用户语音结束帧,将相应获取到候选端点音频帧,以及以候选端点音频帧为起点向后追溯的j帧音频帧不含背景噪声时的功率谱,进而从候选端点音频帧以及追溯的j帧音频帧不含背景噪声时的功率谱中获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
比如,本申请实施例中第一预设个数取值为2,假设确定出的候选端点音频帧为第12个音频帧和第23个音频帧,且第12个音频帧为可能的用户语音起始帧,第23个音频帧为可能的用户语音结束帧,则对于第12个音频帧,获取第10个音频帧、第11个音频帧以及第12个音频帧不含背景噪声时的功率谱,而对于第23个音频帧,获取第23个音频帧、第24个音频帧以及第25个音频帧不含背景噪声的功率谱。
在105中,根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧。
本申请实施例中,请参照图3,电子设备在获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱之后,若候选端点音频帧为可能的实际用户语音起始音频帧,则以候选端点音频帧为起点,从该候选端点音频帧的邻近音频帧之前的音频帧中确定出目标端点音频帧,作为实际用户语音起始帧;若候选端点音频帧为可能的实际用户语音结束音频帧,则以候选端点音频帧为起点,从该候选端点音频帧的邻近音频帧之后的音频帧中确定出目标端点音频帧,作为实际用户语音结束音频帧。
由上可知,本申请实施例中,电子设备可以首先获取待检测音频,对待检测音频进行分帧处理,得到多个音频帧;然后,获取分帧得到的多个音频帧中背景噪声的噪声能量;然后,根据各音频帧对应的噪声能量从多个音频帧中确定出候选端点音频帧;然后,获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;最后,根据候选端点音频帧以及邻近音频帧各自对应的功率谱,利用功率谱的特点,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧。由此,能够在噪声环境下准确的检测出音频数据中的端点,提高了噪声环境下的端点检测准确率。
在一实施例中,“根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧”,包括:
(1)根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间;
(2)将频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧。
本申请实施例中,在根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧时,电子设备根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间。
然后,若候选端点音频帧为可能的用户语音起始帧,由于之前已经向前追溯了j帧音频帧不含背景噪声时的功率谱,则对候选端点音频帧以及邻近音频帧之外的音频帧进行分析,将前述频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧,即实际用户语音起始帧。
若候选端点音频帧为可能的用户语音结束帧,由于之前已经向后追溯了j帧音频帧不含背景噪声时的功率谱,则对候选端点音频帧以及邻近音频帧之外的音频帧进行分析,将前述频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧,即实际用户语音结束帧。
比如,本申请中对前述预设阈值取值为0,第一预设个数取值为2,若候选端点音频帧为可能的用户语音起始帧,则电子设备对候选端点音频帧及其之前连续2个音频帧所对应的功率谱(即不含背景噪声时的功率谱),得到3个音频帧的功率均大于0的频率区间[f1,f2],然后,依次向前回溯音频帧,当某一帧的频率区间[f1,f2]中有频率对应的功率小于或等于预设阈值0时,将该音频帧作为目标音频帧,即实际用户语音起始帧;若候选端点音频帧为可能的用户语音结束帧,则电子设备对候选端点音频帧及其之后连续2个音频帧所对应的功率谱(即不含背景噪声时的功率谱),得到3个音频帧的功率均大于0的频率区间[f1,f2],然后,依次向后回溯音频帧,当某一帧的频率区间[f1,f2]中有频率对应的功率小于或等于预设阈值0时,将该音频帧作为目标音频帧,即实际用户语音结束帧。
在一实施例中,“获取分帧得到的各音频帧中背景噪声的噪声能量”,包括:
(1)获取多个音频帧中前第二预设个数音频帧的音频能量,确定出前第二预设个数音频帧的音频能量中的最大音频能量以及最小音频能量;
(2)获取最大音频能量与最小音频能量的平均音频能量;
(3)将多个音频帧的音频能量划分为音频能量小于平均音频能量的第一音频能量集,以及音频能量大于或等于平均音频能量的第二音频能量集;
(4)获取第一音频能量集的第一平均音频能量,以及获取第二音频能量集的第二平均音频能量;
(5)根据第一平均音频能量以及第二平均音频能量获取各音频帧中背景噪声的噪声能量。
考虑到音频数据的初始阶段一般无实际语音,本申请实施例中,电子设备根据分帧得到的多个音频帧中前第二预设个数的音频帧来估计各音频帧中背景噪声的噪声能量。其中,对于第二预设个数的取值,可由本领域普通技术人员根据实际需要取经验值,本申请实施例对此不做具体限制,比如,本申请实施例中对第二预设个数取值为10。
其中,电子设备首先获取多个音频帧中前第二预设个数音频帧的音频能量,如下所示:
Ek表示前第二预设个数音频帧中第k个音频帧的音频能量,x(n)表示第n个采样点的采样值,n的取值范围为[0,M],M为采样点数表示的音频帧长度,比如,在音频帧的时长为20毫秒,采样率为16KHz时,M取值为320。
然后,电子设备确定出前第二预设个数音频帧的音频能量中的最大音频能量Emax以及最小音频能量Emin。
然后,电子设备获取最大音频能量与最小音频能量的平均音频能量Emid=(Emax+Emin)/2。
然后,电子设备将多个音频帧的音频能量划分为音频能量小于平均音频能量Emid的第一音频能量集,以及音频能量大于或等于平均音频能量Emid的第二音频能量集。
然后,电子设备获取第一音频能量集的第一平均音频能量E1,以及获取第二音频能量集的第二平均音频能量E2。
然后,电子设备根据第一平均音频能量以及第二平均音频能量获取各音频帧中背景噪声的噪声能量,如下公式:
本申请实施例中,将各音频帧中背景噪声的噪声能量看做相同。
在一实施例中,“获取分帧得到的各音频帧中背景噪声的噪声能量”之前,还包括:
滤除各音频帧中的直流分量。
应当说明的是,录音设备录制得到的数字化的音频数据中一般含有一定的直流分量,直流分量的存在将影响对待检测音频进行检测的准确性。
因此,本申请实施例中,在获取分帧得到的各音频帧中背景噪声的噪声能量之前,先滤除各音频帧中的直流分量,然后再获取各音频帧中背景噪声的噪声能量。
其中,对于采用何种方式来滤除直流分量,可由本领域普通技术人员根据实际需要选择,本申请实施例对此不做具体限制。
在一实施例中,“滤除各音频帧中的直流分量”,包括:
(1)获取待检测音频的采样频率,根据采样频率确定多个音频帧中的采样点;
(2)获取多个音频帧的首个音频帧中各采样点对应采样值的平均采样值;
(3)将平均采样值作为初始直流分量,根据各音频帧中采样点对应的采样值以及初始直流分量收敛得到目标直流分量;
(4)滤除各音频帧中的目标直流分量。
为了能够准确的滤除各音频帧中的直流分量,本申请实施例还提供一种直流分量的滤除方案。
其中,电子设备首先获取待检测音频的采样频率,然后根据采样频率确定多个音频帧中的采样点。比如,假设获取到待检测音频的采样频率为16KHz,且对待检测音频分帧得到的各音频帧的时长为20毫秒,则各音频帧均中包括320个采样点。
然后,电子设备获取多个音频帧的首个音频帧中各采样点对应采样值的平均采样值,将该平均采样值作为初始直流分量,并根据各音频帧中采样点对应的采样值以及初始直流分量收敛得到目标直流分量,如下公式:
DC(n)=α*DC(n-1)+(1-α)*x(n);
其中,DC(n)表示根据第n个采样点得到的直流分量,DC(n-1)根据第n-1个采样点得到的直流分量,x(n)表示第n个采样点的采样值,α为经验常数(比如,取值为0.999)。
本申请实施例中,以初始直流分量为起始,按照音频帧之间由前至后的顺序,音频帧之内采样点由前至后的顺序,迭代更新初始直流分量,随着采样点的增多,直流分量会逐渐收敛于某个特定的值,将其收敛时的值作为目标直流分量。
以第一个音频帧为例,计初始直流分量为DCs,对于该第一音频帧的第一个采样点而言,并不存在前一个采样点,则DC(1)=DCs,对于该第一个音频帧的第二采样点,其前一个采样点即第一个采样点,则DC(2)=α*DCs+(1-α)*x(2),如此,对初始直流分量不断迭代,使其收敛得到目标直流分量。
在收敛得到目标直流分量之后,电子设备即可滤除各音频帧中的目标直流分量,如下公式:
xdc(n)=x(n)-DC;
其中,x(n)表示音频帧中第n个采样点的采样值,DC表示目标直流分量,xdc(n)表示音频帧中第n个采样点滤除目标直流分量后的采样值。
在一实施例中,电子设备包括专用语音识别芯片、处理器和屏幕,且专用语音识别芯片的功耗小于处理器的功耗,其中,
在屏幕处于熄屏锁定状态时基于专用语音识别芯片检测待检测音频得到目标端点音频帧;或者,
在屏幕处于亮屏锁定状态时基于处理器检测待检测音频得到目标端点音频帧。
应当说明的是,专用语音识别芯片是以语音识别为目的而设计的专用芯片,比如以语音为目的而设计的数字信号处理芯片,以语音为目的而设计的专用集成电路芯片等,其相较于通用的处理器,具有更低的功耗。其中,专用语音识别芯片、处理器之间通过通信总线(比如I2C总线)建立通信连接,实现数据的交互。其中,处理器在电子设备的屏幕处于熄屏状态时休眠,而专用语音识别芯片在屏幕处于亮屏状态时休眠。
本申请实施例中,在屏幕处于熄屏锁定状态时,电子设备基于专用语音识别芯片对待检测音频进行检测,得到目标端点音频帧,其中,对于如何检测待检测音频得到目标端点音频帧可参照以上实施例中的相关描述,此处不再赘述。
在屏幕处于亮屏锁定状态时,电子设备基于处理器对待检测音频进行检测,得到目标端点音频帧,其中,对于如何检测待检测音频得到目标端点音频帧可参照以上实施例中的相关描述,此处不再赘述。
在一实施例中,处理器在屏幕处于熄屏锁定状态时休眠,在屏幕处于熄屏锁定状态时基于专用语音识别芯片检测待检测音频得到目标端点音频帧之后,还包括:
(1)根据目标端点音频帧,基于专用语音识别芯片提取待检测音频的语音部分,并调用第一语音唤醒算法校验语音部分的文本特征;
(2)若校验通过,则唤醒处理器,并在唤醒处理器后控制专用语音识别芯片休眠;
(3)基于处理器调用第二语音唤醒算法校验语音部分的文本特征以及声纹特征,并在校验通过时切换屏幕至亮屏解锁状态。
如上所述,目标端点音频帧包括实际用户语音起始帧和实际用户结束帧,根据实际用户语音起始帧和实际用户结束帧,电子设备可基于专用语音识别芯片提取待检测音频的语音部分,并调用第一语音唤醒算法校验语音部分的文本特征。通俗的说,也即是校验语音部分中是否包括预设唤醒词,只要语音部分包括预设唤醒词,即校验语音部分的文本特征通过,而不论该预设唤醒词由谁说出。比如,语音部分包括了预设用户(比如,电子设备的机主,或者机主授权使用电子设备的其他用户)设置的预设唤醒词,但是该预设唤醒词由用户A说出,而不是预设用户,仍将校验通过。
在基于专用语音识别芯片校验前述语音部分的文本特征通过时,基于专用语音识别芯片与处理器之间的通信连接发送预设的中断信号至处理器,以唤醒处理器。在唤醒处理器之后,还基于专用语音识别芯片将前述语音部分提供给处理器,并休眠专用语音识别芯片。
电子设备在唤醒处理器,并将前述语音部分提供给处理器之后,进一步通过处理器调用第二校验算法校验该语音部分文本特征和声纹特征。通俗的说,也即是校验语音部分中是否包括预设用户说出的预设唤醒词,若语音部分中包括预设用户说出的预设唤醒词,则语音部分的文本特征以及声纹特征校验通过,否则校验不通过。
在基于处理器校验语音部分的文本特征以及声纹特征通过时,说明当前有预设用户说出了预设唤醒词,此时电子设备基于处理器将屏幕切换至亮屏解锁状态,供预设用户使用。
在一实施例中,基于专用语音识别芯片调用第一语音唤醒算法校验语音部分的文本特征,包括:
(1)基于专用语音识别芯片提取语音部分的梅尔频率倒谱系数;
(3)基于专用语音识别芯片调用与预设文本相关的高斯混合通用背景模型对提取的梅尔频率倒谱系数进行匹配;
(3)若匹配成功,则判定前述语音部分的文本特征校验通过。
本申请实施例中,电子设备首先基于专用语音识别芯片对语音部分进行预处理,比如,对语音部分进行高通滤波,数学表达式为:H(z)=1-az-1,其中H(z)表示滤波后的语音部分,z表示滤波前的语音部分,a是修正系数,一般取0.95-0.97;然后对滤波后的语音部分进行加窗处理,以平滑语音部分的边缘,比如采用汉明窗的形式加窗;然后,基于专用语音识别芯片进行梅尔频率倒谱系数的提取,数学表达式为其中Fmel(f)表示提取到的梅尔频率倒谱系数,f为傅里叶变换后的频点。
应当说明的是,本申请实施例中还预先训练有与预设文本相关的高斯混合通用背景模型。其中,预设文本即以上提及的预设唤醒词,比如,可以预先采集多人(比如200人)说出预设唤醒词的音频信号,然后分别提取这些音频信号的梅尔频率倒谱系数,再根据这些音频信号的梅尔频率倒谱系数训练得到一个与预设文本(即预设唤醒词)相关的高斯混合通用背景模型。
由此,在提取到各语音部分的梅尔频率倒谱系数之后,即可基于专用语音识别芯片调用与预设文本相关的高斯混合通用背景模型对语音部分的梅尔频率倒谱系数进行匹配,比如,将语音部分的梅尔频率倒谱系数输入高斯混合通用背景模型中,由高斯混合通用背景模型对该语音部分的梅尔频率倒谱系数进行识别,并输出一个分值,当输出的分值达到第一预设阈值时,判定该语音部分与高斯混合通用背景模型匹配,否则不匹配。比如,本申请实施例中,高斯混合通用背景模型的输出分值的区间为[0,1],第一预设阈值配置为0.45,也即是当语音部分的梅尔频率倒谱系数所对应的分值达到0.45时,将判定该语音部分的梅尔频率倒谱系数与高斯混合通用背景模型匹配,即语音部分的文本特征校验通过。
在一实施例中,“基于处理器调用第二语音唤醒算法校验语音部分的文本特征以及声纹特征”包括:
(1)基于处理器将语音部分划分为多个子音频数据;
(2)基于处理器调用与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量;
(3)基于处理器获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度,目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量;
(4)根据各子音频数据对应的相似度,基于处理器校验语音部分的文本特征以及声纹特征。
本申请实施例中,考虑到用户输入的语音可能并不仅包括唤醒词,比如唤醒词为“小欧小欧”,而用户语音为“你好小欧小欧”。本申请实施例中,根据预设唤醒词的长度,将语音部分划分为多个子音频数据,其中,各子音频数据的长度大于或等于预设唤醒词的长度,且相邻两个子音频数据具有重合部分,对于重合部分的长度可由本领域普通技术人员根据实际需要设置,比如,本申请实施例中设置为子音频数据长度的25%。
应当说明的是,本申请实施例中还预先训练有与预设文本(即预设唤醒词)相关的声纹特征提取模型。比如,本申请实施例中训练基于卷积神经网络的声纹特征提取模型,如图4所示,预先采集多人(比如200人)说出预设唤醒词的音频数据,然后对这些音频数据进行端点检测,分割出其中的预设唤醒词部分,然后对分割出的预设唤醒词部分进行预处理(比如高通滤波)和加窗,再进行傅里叶变换(比如短时傅里叶变换)后计算其能量密度,生成灰度的语谱图(如图5所示,其中横轴表示时间,纵轴表示频率,灰度值表示能量值),最后,利用卷积神经网络对生成的语谱图进行训练,生成与预设文本相关的声纹特征提取模型。另外,本申请实施例中还提取预设用户说出预设唤醒词(即预设文本)的音频数据的语谱图,并输入到之前训练的声纹特征提取模型中,经过声纹特征提取模型的多个卷积层、池化层以及全连接层后,将输出对应的一组特征向量,将其记为目标声纹特征向量。
相应的,在基于处理器将语音部分划分为多个子音频数据之后,分别提取多个子音频数据的语谱图。其中,对于如何提取语谱图,此处不再赘述,具体可参照以上相关描述。在提取到前述多个子音频数据的语谱图之后,电子设备基于处理器分别将前述多个子音频数据的语谱图输入到之前训练的声纹特征提取模型,从而得到各子音频数据的声纹特征向量。
在提取得到各子音频数据的声纹特征向量之后,电子设备进一步基于处理器分别获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度,然后,根据各子音频数据对应的相似度来校验语音部分的文本特征以及声纹特征。比如,电子设备可以判断是否存在声纹特征向量与目标声纹特征向量之间的相似度达到预设相似度(可由本领域普通技术人员根据实际需要取经验值,比如可以设置为75%)的子音频数据,若存在,则判定语音部分的文本特征以及声纹特征校验通过。
可选的,在根据各子音频数据对应的相似度,基于处理器校验第一音频数据的文本特征以及声纹特征时,电子设备可以根据各子音频数据对应的相似度以及预设的识别函数,基于处理器校验第一音频数据的文本特征以及声纹特征;
其中,识别函数为γn=γn-1+f(ln),γn表示第n个子音频数据对应的识别函数状态值,γn-1表示第n-1个子音频数据对应的识别函数状态值,a为识别函数的修正值,b为预设相似度,ln为第n个子音频数据的声纹特征向量与目标声纹特征向量之间的相似度,若存在大于预设识别函数状态值的γn,则判定语音部分的文本特征以及声纹特征校验通过。
应当说明的是,识别函数中a的取值可由本领域普通技术人员根据实际需要取经验值,比如,可以将a取值为1。
另外,识别函数中b的取值与声纹特征提取模型的识别率正相关,根据实际训练得到的声纹特征提取模型的识别率确定b的取值。
另外,预设识别函数状态值也可由本领域普通技术人员根据实际需要取经验值,其取值越大,对语音部分校验的准确度也就也大。
由此,通过该识别函数,即使当语音部分包括预设唤醒词之外的其它信息,也能够准确的对其进行识别。
可选的,在获取各子音频数据的声纹特征向量与目标声纹特征训练之间的相似度时,可基于处理器按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。
或者,可基于处理器计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度,对于采用何种特征距离来衡量两个向量之间的相似度,本申请实施例中不做具体限制,比如,可以采用欧几里得距离来衡量子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。
在一实施例中,专用语音识别芯片在屏幕处于亮屏锁定状态时休眠,在屏幕处于亮屏锁定状态时基于处理器检测待检测音频得到目标端点音频帧之后,还包括:
(1)根据目标端点音频帧,基于处理器提取待检测音频的语音部分,并调用第三语音唤醒算法校验语音部分的文本特征以及声纹特征;
(2)若校验通过,则基于处理器调用第二语音唤醒算法再次校验语音信号的文本特征以及声纹特征,再次校验通过时切换屏幕至亮屏解锁状态。
应当说明的是,为避免额外的能量消耗,专用语音识别芯片在电子设备的屏幕处于亮屏锁定状态时休眠。相应的,处理器用于在屏幕处于亮屏锁定状态是对前述语音部分进行两次校验。
如上所述,目标端点音频帧包括实际用户语音起始帧和实际用户结束帧,根据实际用户语音起始帧和实际用户结束帧,电子设备可基于处理器提取待检测音频的语音部分,。然后,调用第三语音唤醒算法校验语音部分的文本特征以及声纹特征,通俗的说,也即是校验语音部分中是否包括预设用户说出的预设唤醒词,若语音部分中包括预设用户说出的预设唤醒词,则语音部分的文本特征以及声纹特征校验通过。
本申请实施例中,第三语音唤醒算法由第一语音唤醒算法改进得到,第三语音唤醒算法在第一语音唤醒算法的基础上增加了声纹特征的校验,二者为相同类型的语音唤醒算法,比如,第三语音唤醒算法和第一语音唤醒算法均为基于高斯混合模型的语音唤醒算法。
在基于处理器校验语音部分的文本特征以及声纹特征通过时,基于第二语音唤醒算法再次对语音部分的文本特征和声纹特征进行校验。应当说明的是,第二语音唤醒算法与第一语音唤醒算法以及第三语音唤醒算法为不同类型的语音唤醒算法,比如,第二语音唤醒算法为基于神经网络的语音唤醒算法。
基于以上描述,本领域普通技术人员可以理解的是,在基于处理器调用第二语音唤醒算法校验语音部分的文本特征以及声纹特征通过时,说明当前有预设用户说出了预设唤醒词,此时处理器将屏幕切换至亮屏解锁状态,供预设用户使用。
在一实施例中,“基于处理器调用第三语音唤醒算法校验语音部分的文本特征以及声纹特征”,包括:
(1)基于处理器提取语音部分的梅尔频率倒谱系数;
(2)基于处理器调用与预设文本相关的目标声纹特征模型对提取的梅尔频率倒谱系数进行匹配;
(3)若匹配成功,则判定前述语音部分的文本特征以及声纹特征校验通过;
其中,目标声纹特征模型由高斯混合通用背景模型根据预设音频信号的梅尔频率倒谱系数自适应得到,预设音频信号为预设用户说出预设文本的音频信号。
本申请实施例中,首先基于处理器提取语音部分的梅尔频率倒谱系数,具体可参照基于专用语音识别芯片提取梅尔频率倒谱系数的方式相应实施,此处不再赘述。
应当说明的是,在本申请实施例中,还对之前训练得到高斯混合通用背景模型做进一步训练,其中,由高斯混合通用背景模型根据预设音频信号的梅尔频率倒谱系数进行自适应处理(比如最大后验概率MAP,最大似然线性回归MLLR等自适应算法),预设音频信号为预设用户说出预设文本(即预设唤醒词)的音频信号,由此,使得高斯混合通用背景模型的每个高斯分布向预设用户对应的梅尔频率倒谱系数靠近,使得高斯混合通用背景模型携带预设用户的声纹特征,并将这个携带了预设用户的声纹特征的高斯混合通用背景模型记为目标声纹特征模型。
相应的,在基于处理器提取到语音部分的梅尔频率倒谱系数之后,根据与预设文本相关的目标声纹特征模型对提取的梅尔频率倒谱系数进行匹配,其中,将提取的梅尔频率倒谱系数输入目标声纹特征模型中,由目标声纹特征模型对该梅尔频率倒谱系数进行识别,并输出一个分值,当输出的分值达到第二预设阈值时,判定该梅尔频率倒谱系数与目标声纹特征模型匹配,否则不匹配。比如,本申请实施例中,目标声纹特征模型的输出分值的区间为[0,1],第二预设阈值配置为0.28,也即是当语音部分的梅尔频率倒谱系数所对应的分值达到0.28时,将判定该语音部分的梅尔频率倒谱系数与目标声纹特征模型匹配,此时语音部分的文本特征以及声纹特征校验通过。
图6为本申请实施例提供的音频检测方法的另一流程示意图。该音频检测方法应用于本申请提供的电子设备,如图6所示,本申请实施例提供的音频检测方法的流程可以如下:
在201中,电子设备获取待检测音频,对待检测音频进行分帧处理,得到多个音频帧。
本申请实施例中,电子设备可以实时通过麦克风采集外部声音得到外部音频,并将麦克风采集的外部音频作为待检测音频。电子设备还可以接收其它电子设备传输的音频检测请求,该音频检测请求携带有需要进行端点检测的音频,相应的,电子设备将该音频检测请求中携带的音频作为待检测音频。此外,电子设备也可以通过本申请实施例未列出的其它方式获取待检测音频,本申请实施例对此不做具体限制。
应当说明的是,虽然音频信号在宏观上是不平稳的,但是其在微观上是平稳的,具有短时平稳性,通常认为音频信号在10毫秒至30毫秒的时间段中是平稳的。因此,本申请实施例中,电子设备在获取到待检测音频之后,进一步对待检测音频进行分帧处理,得到多个音频帧,以用于后续处理
其中,对于如何对待检测音频进行分帧处理,本申请实施例不做具体限制,可由本领域普通技术人员根据实际需要配置,比如,本申请实施例中预先配置分帧处理的帧长为20毫秒,帧移为50%,由此,分帧得到m个音频帧,如图2所示。
可选的,为了平滑音频帧的边缘部分,本申请实施例中还对分帧得到的音频帧做加窗处理,比如汉明窗。
其中,n表示采样点数,取值范围为[0,M],M为采样点数表示的音频帧长度,比如,在音频帧的时长为20毫秒,采样率为16KHz时,M取值为320。
在202中,电子设备滤除各音频帧中的直流分量。
应当说明的是,录音设备录制得到的数字化的音频数据中一般含有一定的直流分量,直流分量的存在将影响对待检测音频进行检测的准确性。
因此,本申请实施例中,在侦测得到多个音频帧之后,电子设备进一步滤除各音频帧中的直流分量。其中,对于采用何种方式来滤除直流分量,可由本领域普通技术人员根据实际需要选择,本申请实施例对此不做具体限制。
在203中,电子设备获取各音频帧中背景噪声的噪声能量。
应当说明的是,在采集外部声音时,除了期望采集的用户语音之外,还会采集到除用户语音之外的其它声音,比如办公设备的运行声、机器设备的施工声以及汽车的行使声等,这些除用户语音之外的声音即为背景噪声。
本申请实施例中,电子设备在获取到待检测音频,并对待检测音频分帧得到多个音频帧之后,按照预设背景噪声估计算法,对分帧得到的多个音频帧中背景噪声的噪声能量进行估计,以获取到各音频帧中背景噪声的噪声能量。
在204中,电子设备根据各音频帧的噪声能量从多个音频帧中确定出候选端点音频帧。
本申请实施例中,电子设备在获取到分帧得到的多个音频帧中背景噪声的噪声能量之后,根据各音频帧对应的噪声能量从分帧得到的多个音频帧中确定出候选端点音频帧,通俗的说,确定出候选端点音频帧即大概估计实际用户语音的端点帧。其中,候选端点音频帧包括可能的用户语音起始帧及实际用户语音结束帧,换言之,确定出的候选端点音频帧至少为两个。
比如,电子设备在根据噪声能量从多个音频帧中确定出候选端点音频帧时,可以获取各音频帧的音频能量,将音频能量和噪声能量之差满足预设差值的音频帧作为候选端点音频帧,此时确定出的候选端点音频帧为第12个音频帧和第23个音频帧,且第12个音频帧为可能的用户语音起始帧,第23个音频帧为可能的用户语音结束帧,则说明由第12个音频帧至第12个音频帧的连续多个音频帧为实际用户语音。
又比如,根据如下公式确定出为可能的实际用户语音起始帧的候选端点音频帧:
即分别计算各音频帧内,采样点的采样值大于阈值Thre的总数,将采样点的采样值大于阈值Thre的总数且最靠近多个音频帧中第一个音频帧的音频帧作为候选端点音频帧。
根据如下公式确定出可能的实际用户语音结束帧的候选端点音频帧:
即分别计算各音频帧内,采样点的采样值大于阈值Thre的总数,将采样点的采样值大于阈值Thre的总数且最靠近多个音频帧中最后一个音频帧的音频帧作为候选端点音频帧。
以上公式中,U1为经验常数,比如取值为3,U2为经验常数,比如取值为15,阈值Thre可由如下公式得到:
其中,Eback表示噪声能量,C为经验参数,比如取值为8。
可选的,考虑到无背景噪声的情况下,由于Eback的值近似于0,Thre也会近似于0,若实际用户语音的尾部跟随一个很小的随机噪声,也会误检测为实际用户语音,为了避免这种情况,阈值Thre可以修正为其中,D为经验常数,比如取值为800。
可选的,为了确保目标端点音频帧所限定的实际用户语音包含一个完整的唤醒词,tstop-tstart≥tmin,tmin取值25,即以作为实际用户语音起始帧的目标端点音频帧和作为实际用户语音结束帧的目标端点音频帧之间至少存在25个音频帧为约束,来确定作为实际用户语音起始帧的目标端点音频帧和作为实际用户语音结束帧的目标端点音频帧。
在205中,电子设备获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
如上所述,音频帧由背景噪声和可能存在的用户语音组成,或者仅由背景噪声组成。本申请实施例中,在从分帧得到的多个音频帧中确定出候选端点音频帧之后,进一步获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
其中,若候选端点音频帧为可能的用户语音起始帧,则电子设备获取与候选端点音频帧前向相邻的第一预设个数的邻近音频帧不含背景噪声时的功率谱;若候选端点音频帧为可能的用户语音结束帧,则电子设备获取与候选端点音频帧后向相邻的第一预设个数的邻近音频帧不含背景噪声时的功率谱。
比如,本申请实施例中考虑到音频数据的初始阶段一般无实际的语音,首先计算待检测音频初始阶段的不含语音的背景噪声的功率谱,Pn(w)=(FFT[Xi])2,其中FFT表示傅里叶变换,Xi表示第i帧音频帧,i取值范围1到10,w代表频点。
若候选端点音频帧为可能的用户语音起始帧,则以候选端点音频帧为起点,向前追溯j帧,计算候选端点音频帧以及这j帧音频帧的功率谱,其中表示候选端点音频帧前第j帧,j的取值范围为[0,jmax],考虑到语音声母最长可达200ms以上,因此,至少应从候选端点音频帧向前追溯10帧,本申请中jmax的取值范围为[10,20],即,可以最少追溯候选端点音频帧之前10帧音频帧的功率谱,最多追溯候选端点音频帧之前20帧音频帧的功率谱。
对于以候选端点音频帧为起点向前追溯的j帧音频帧,其不含背景噪声时的功率谱为:
其中,a为经验常数,本申请实施例中取值为3。
应当说明的是,对于以上第一预设个数的取值,以第一预设个数小于j为约束,可由本领域普通技术人员根据实际需要取经验值。由此,即可从候选端点音频帧以及追溯的j帧音频帧不含背景噪声时的功率谱中获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
同理,若候选端点音频帧为可能的用户语音结束帧,将相应获取到候选端点音频帧,以及以候选端点音频帧为起点向后追溯的j帧音频帧不含背景噪声时的功率谱,进而从候选端点音频帧以及追溯的j帧音频帧不含背景噪声时的功率谱中获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱。
比如,本申请实施例中第一预设个数取值为2,假设确定出的候选端点音频帧为第12个音频帧和第23个音频帧,且第12个音频帧为可能的用户语音起始帧,第23个音频帧为可能的用户语音结束帧,则对于第12个音频帧,获取第10个音频帧、第11个音频帧以及第12个音频帧不含背景噪声时的功率谱,而对于第23个音频帧,获取第23个音频帧、第24个音频帧以及第25个音频帧不含背景噪声的功率谱。
在206中,电子设备根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间。
在207中,电子设备将频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧。
本申请实施例中,请参照图3,电子设备在获取到候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱之后,若候选端点音频帧为可能的实际用户语音起始音频帧,则以候选端点音频帧为起点,从该候选端点音频帧的邻近音频帧之前的音频帧中确定出目标端点音频帧,作为实际用户语音起始帧;若候选端点音频帧为可能的实际用户语音结束音频帧,则以候选端点音频帧为起点,从该候选端点音频帧的邻近音频帧之后的音频帧中确定出目标端点音频帧,作为实际用户语音结束音频帧。
其中,在根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧时,电子设备根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间。
然后,若候选端点音频帧为可能的用户语音起始帧,由于之前已经向前追溯了j帧音频帧不含背景噪声时的功率谱,则对候选端点音频帧以及邻近音频帧之外的音频帧进行分析,将前述频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧,即实际用户语音起始帧。
若候选端点音频帧为可能的用户语音结束帧,由于之前已经向后追溯了j帧音频帧不含背景噪声时的功率谱,则对候选端点音频帧以及邻近音频帧之外的音频帧进行分析,将前述频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧,即实际用户语音结束帧。
比如,本申请中对前述预设阈值取值为0,第一预设个数取值为2,若候选端点音频帧为可能的用户语音起始帧,则电子设备对候选端点音频帧及其之前连续2个音频帧所对应的功率谱(即不含背景噪声时的功率谱),得到3个音频帧的功率均大于0的频率区间[f1,f2],然后,依次向前回溯音频帧,当某一帧的频率区间[f1,f2]中有频率对应的功率小于或等于预设阈值0时,将该音频帧作为目标音频帧,即实际用户语音起始帧;若候选端点音频帧为可能的用户语音结束帧,则电子设备对候选端点音频帧及其之后连续2个音频帧所对应的功率谱(即不含背景噪声时的功率谱),得到3个音频帧的功率均大于0的频率区间[f1,f2],然后,依次向后回溯音频帧,当某一帧的频率区间[f1,f2]中有频率对应的功率小于或等于预设阈值0时,将该音频帧作为目标音频帧,即实际用户语音结束帧。
请参照图7,图7为本申请实施例提供的音频检测装置的结构示意图。该音频检测装置可以应用于电子设备,该电子设备包括处理器、专用语音识别芯片和麦克风,且专用语音识别芯片的功耗小于处理器的功耗。音频检测装置可以包括音频分帧模块401、噪声估计模块402、端点预估模块403、功率获取模块404以及端点检测模块405,其中,
音频分帧模块401,用于获取待检测音频,对待检测音频进行分帧处理,得到多个音频帧;
噪声估计模块402,用于获取分帧得到的各音频帧中背景噪声的噪声能量;
端点预估模块403,用于根据各音频帧的噪声能量从多个音频帧中确定出候选端点音频帧;
功率获取模块404,用于获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;
端点检测模块405,用于根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧。
在一实施例中,在根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧时,端点检测模块405可以用于:
根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间;
将频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧。
在一实施例中,在获取分帧得到的各音频帧中背景噪声的噪声能量时,噪声估计模块402可以用于:
获取多个音频帧中前第二预设个数音频帧的音频能量,确定出前第二预设个数音频帧的音频能量中的最大音频能量以及最小音频能量;
获取最大音频能量与最小音频能量的平均音频能量;
将多个音频帧的音频能量划分为音频能量小于平均音频能量的第一音频能量集,以及音频能量大于或等于平均音频能量的第二音频能量集;
获取第一音频能量集的第一平均音频能量,以及获取第二音频能量集的第二平均音频能量;
根据第一平均音频能量以及第二平均音频能量获取各音频帧中背景噪声的噪声能量。
在一实施例中,在获取分帧得到的各音频帧中背景噪声的噪声能量之前,噪声估计模块402可以用于:
滤除各音频帧中的直流分量。
在一实施例中,在滤除各音频帧中的直流分量时,噪声估计模块402可以用于:
获取待检测音频的采样频率,根据采样频率确定多个音频帧中的采样点;
获取多个音频帧的首个音频帧中各采样点对应采样值的平均采样值;
将平均采样值作为初始直流分量,根据各音频帧中采样点对应的采样值以及初始直流分量收敛得到目标直流分量;
滤除各音频帧中的目标直流分量。
在一实施例中,电子设备包括专用语音识别芯片、处理器和屏幕,且专用语音识别芯片的功耗小于所述处理器的功耗,其中,
在屏幕处于熄屏锁定状态时,音频检测装置基于专用语音识别芯片检测待检测音频得到目标端点音频帧;或者,
在屏幕处于亮屏锁定状态时,音频检测装置基于处理器检测待检测音频得到所述目标端点音频帧。
在一实施例中,处理器在屏幕处于熄屏锁定状态时休眠,音频检测装置还包括唤醒校验模块,在屏幕处于熄屏锁定状态,且音频检测装置基于专用语音识别芯片检测待检测音频得到目标端点音频帧之后,用于:
根据目标端点音频帧,基于专用语音识别芯片提取待检测音频的语音部分,并调用第一语音唤醒算法校验语音部分的文本特征;
若校验通过,则唤醒处理器,并在唤醒处理器后控制专用语音识别芯片休眠;
基于处理器调用第二语音唤醒算法校验语音部分的文本特征以及声纹特征,并在校验通过时切换屏幕至亮屏解锁状态。
在一实施例中,在基于专用语音识别芯片调用第一语音唤醒算法校验语音部分的文本特征时,唤醒校验模块可以用于:
基于专用语音识别芯片提取语音部分的梅尔频率倒谱系数;
基于专用语音识别芯片调用与预设文本相关的高斯混合通用背景模型对提取的梅尔频率倒谱系数进行匹配;
若匹配成功,则判定前述语音部分的文本特征校验通过。
在一实施例中,在基于处理器调用第二语音唤醒算法校验语音部分的文本特征以及声纹特征时,唤醒校验模块可以用于:
基于处理器将语音部分划分为多个子音频数据;
基于处理器调用与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量;
基于处理器获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度,目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量;
根据各子音频数据对应的相似度,基于处理器校验语音部分的文本特征以及声纹特征。
在一实施例中,专用语音识别芯片在屏幕处于亮屏锁定状态时休眠,唤醒校验模块在屏幕处于亮屏锁定状态,且音频检测装置基于处理器检测待检测音频得到目标端点音频帧之后,还用于:
根据目标端点音频帧,基于处理器提取待检测音频的语音部分,并调用第三语音唤醒算法校验语音部分的文本特征以及声纹特征;
若校验通过,则基于处理器调用第二语音唤醒算法再次校验语音信号的文本特征以及声纹特征,再次校验通过时切换屏幕至亮屏解锁状态。
在一实施例中,在基于处理器调用第三语音唤醒算法校验语音部分的文本特征以及声纹特征时,唤醒校验模块可以用于:
基于处理器提取语音部分的梅尔频率倒谱系数;
基于处理器调用与预设文本相关的目标声纹特征模型对提取的梅尔频率倒谱系数进行匹配;
若匹配成功,则判定前述语音部分的文本特征以及声纹特征校验通过;
其中,目标声纹特征模型由高斯混合通用背景模型根据预设音频信号的梅尔频率倒谱系数自适应得到,预设音频信号为预设用户说出预设文本的音频信号。
应当说明的是,本申请实施例提供的音频检测装置与上文实施例中的音频检测方法属于同一构思,在音频检测装置上可以运行音频检测方法实施例中提供的任一方法,其具体实现过程详见特征提取方法实施例,此处不再赘述。
本申请实施例还提供一种存储介质,其上存储有计算机程序,当其存储的计算机程序在本申请实施例提供的电子设备上执行时,使得电子设备执行如本申请实施例提供的音频检测方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(Read OnlyMemory,ROM)或者随机存取器(Random Access Memory,RAM)等。
本申请实施例还提供一种电子设备,请参照图8,电子设备包括处理器501、专用语音识别芯片502和存储器503,且专用语音识别芯片502的功耗小于处理器501的功耗,其中,专用语音识别芯片502、处理器501以及音频采集单元501任意二者之间通过通信总线(比如I2C总线)建立通信连接,实现数据的交互。
应当说明的是,本申请实施例中的专用语音识别芯片502是以语音识别为目的而设计的专用芯片,比如以语音为目的而设计的数字信号处理芯片,以语音为目的而设计的专用集成电路芯片等,其相较于通用处理器,具有更低的功耗。
本申请实施例中的处理器是通用处理器,比如ARM架构的处理器。
存储器503中存储有计算机程序,其可以为高速随机存取存储器,还可以为非易失性存储器,比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地,存储器503还可以包括存储器控制器,以提供处理器501、专用语音识别芯片502对存储器503的访问。处理器501或者专用语音识别芯片502通过调用存储器503中的计算机参数,用于执行:
获取待检测音频,对待检测音频进行分帧处理,得到多个音频帧;
获取分帧得到的各音频帧中背景噪声的噪声能量;
根据各音频帧的噪声能量从多个音频帧中确定出候选端点音频帧;
获取候选端点音频帧以及与候选端点音频帧相邻的第一预设个数邻近音频帧不含背景噪声时的功率谱;
根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧。
在一实施例中在根据候选端点音频帧以及邻近音频帧各自对应的功率谱,从候选端点音频帧以及邻近音频帧之外的音频帧中确定出目标端点音频帧时,处理器501或者专用语音识别芯片502可以执行:
根据候选端点音频帧以及邻近音频帧各自对应的功率谱,确定候选端点音频帧以及邻近音频帧的功率均大于预设阈值的频率区间;
将频率区间中有频率对应的功率小于或等于预设阈值,且距离候选端点音频帧最近的音频帧作为目标端点音频帧。
在一实施例中,在获取分帧得到的各音频帧中背景噪声的噪声能量时,处理器501或者专用语音识别芯片502可以执行:
获取多个音频帧中前第二预设个数音频帧的音频能量,确定出前第二预设个数音频帧的音频能量中的最大音频能量以及最小音频能量;
获取最大音频能量与最小音频能量的平均音频能量;
将多个音频帧的音频能量划分为音频能量小于平均音频能量的第一音频能量集,以及音频能量大于或等于平均音频能量的第二音频能量集;
获取第一音频能量集的第一平均音频能量,以及获取第二音频能量集的第二平均音频能量;
根据第一平均音频能量以及第二平均音频能量获取各音频帧中背景噪声的噪声能量。
在一实施例中,在获取分帧得到的各音频帧中背景噪声的噪声能量之前,处理器501或者专用语音识别芯片502可以执行:
滤除各音频帧中的直流分量。
在一实施例中,在滤除各音频帧中的直流分量时,处理器501或者专用语音识别芯片502可以执行:
获取待检测音频的采样频率,根据采样频率确定多个音频帧中的采样点;
获取多个音频帧的首个音频帧中各采样点对应采样值的平均采样值;
将平均采样值作为初始直流分量,根据各音频帧中采样点对应的采样值以及初始直流分量收敛得到目标直流分量;
滤除各音频帧中的目标直流分量。
在一实施例中,电子设备还包括屏幕,且专用语音识别芯片的功耗小于所述处理器的功耗,其中,
在屏幕处于熄屏锁定状态时,专用语音识别芯片用于检测待检测音频得到目标端点音频帧;或者,
在屏幕处于亮屏锁定状态时,处理器用于检测待检测音频得到所述目标端点音频帧。
在一实施例中,处理器在屏幕处于熄屏锁定状态时休眠,专用语音识别芯片在检测待检测音频得到目标端点音频帧之后,可以执行:
根据目标端点音频帧提取待检测音频的语音部分,并调用第一语音唤醒算法校验语音部分的文本特征;
若校验通过,则唤醒处理器,并在唤醒处理器后休眠;
处理器还可以执行:
调用第二语音唤醒算法校验语音部分的文本特征以及声纹特征,并在校验通过时切换屏幕至亮屏解锁状态。
在一实施例中,在调用第一语音唤醒算法校验语音部分的文本特征时,专用语音识别芯片可以执行:
提取语音部分的梅尔频率倒谱系数;
调用与预设文本相关的高斯混合通用背景模型对提取的梅尔频率倒谱系数进行匹配;
若匹配成功,则判定前述语音部分的文本特征校验通过。
在一实施例中,在调用第二语音唤醒算法校验语音部分的文本特征以及声纹特征时,处理器可以执行:
将语音部分划分为多个子音频数据;
调用与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量;
获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度,目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量;
根据各子音频数据对应的相似度,校验语音部分的文本特征以及声纹特征。
在一实施例中,专用语音识别芯片在屏幕处于亮屏锁定状态时休眠,处理器在检测待检测音频得到目标端点音频帧之后,还可以执行:
根据目标端点音频帧提取待检测音频的语音部分,并调用第三语音唤醒算法校验语音部分的文本特征以及声纹特征;
若校验通过,则调用第二语音唤醒算法再次校验语音信号的文本特征以及声纹特征,再次校验通过时切换屏幕至亮屏解锁状态。
在一实施例中,在调用第三语音唤醒算法校验语音部分的文本特征以及声纹特征时,处理器可以执行:
提取语音部分的梅尔频率倒谱系数;
调用与预设文本相关的目标声纹特征模型对提取的梅尔频率倒谱系数进行匹配;
若匹配成功,则判定前述语音部分的文本特征以及声纹特征校验通过;
其中,目标声纹特征模型由高斯混合通用背景模型根据预设音频信号的梅尔频率倒谱系数自适应得到,预设音频信号为预设用户说出预设文本的音频信号。
应当说明的是,本申请实施例提供的电子设备与上文实施例中的音频检测方法属于同一构思,在电子设备上可以运行音频检测方法实施例中提供的任一方法,其具体实现过程详见特征提取方法实施例,此处不再赘述。
需要说明的是,对本申请实施例的音频检测方法而言,本领域普通测试人员可以理解实现本申请实施例的音频检测方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的处理器和专用语音识别芯片执行,在执行过程中可包括如音频检测方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
以上对本申请实施例所提供的一种音频检测方法、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种音频检测方法,应用于电子设备,其特征在于,所述音频检测方法包括:
获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
获取各所述音频帧中背景噪声的噪声能量;
根据各所述音频帧的噪声能量从所述多个音频帧中确定出候选端点音频帧;
获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,确定所述候选端点音频帧以及所述邻近音频帧的功率均大于预设阈值的频率区间;
将所述频率区间中有频率对应的功率小于或等于所述预设阈值,且距离所述候选端点音频帧最近的音频帧作为目标端点音频帧。
2.根据权利要求1所述的音频检测方法,其特征在于,所述获取各所述音频帧中背景噪声的噪声能量,包括:
获取所述多个音频帧中前第二预设个数音频帧的音频能量,确定出所述前第二预设个数音频帧的音频能量中的最大音频能量以及最小音频能量;
获取所述最大音频能量与所述最小音频能量的平均音频能量;
将所述多个音频帧的音频能量划分为音频能量小于所述平均音频能量的第一音频能量集,以及音频能量大于或等于所述平均音频能量的第二音频能量集;
获取所述第一音频能量集的第一平均音频能量,以及获取所述第二音频能量集的第二平均音频能量;
根据所述第一平均音频能量以及所述第二平均音频能量获取各所述音频帧中背景噪声的噪声能量。
3.根据权利要求1所述的音频检测方法,其特征在于,所述获取各所述音频帧中背景噪声的噪声能量之前,还包括:
获取所述待检测音频的采样频率,根据所述采样频率确定所述多个音频帧中的采样点;
获取所述多个音频帧的首个音频帧中各采样点对应采样值的平均采样值;
将所述平均采样值作为初始直流分量,根据各所述音频帧中采样点对应的采样值以及所述初始直流分量收敛得到目标直流分量;
滤除各所述音频帧中的所述目标直流分量。
4.根据权利要求1-3任一项所述的音频检测方法,其特征在于,所述电子设备包括专用语音识别芯片、处理器和屏幕,且所述专用语音识别芯片的功耗小于所述处理器的功耗,其中,
在所述屏幕处于熄屏锁定状态时基于所述专用语音识别芯片检测所述待检测音频得到所述目标端点音频帧;或者,
在所述屏幕处于亮屏锁定状态时基于所述处理器检测所述待检测音频得到所述目标端点音频帧。
5.根据权利要求4所述的音频检测方法,其特征在于,所述处理器在所述屏幕处于熄屏锁定状态时休眠,在所述屏幕处于熄屏锁定状态时基于所述专用语音识别芯片检测所述待检测音频得到所述目标端点音频帧之后,还包括:
根据所述目标端点音频帧,基于所述专用语音识别芯片提取所述待检测音频的语音部分,并调用第一语音唤醒算法校验所述语音部分的文本特征;
若校验通过,则唤醒所述处理器,并在唤醒所述处理器后控制所述专用语音识别芯片休眠;
基于所述处理器调用第二语音唤醒算法校验所述语音部分的文本特征以及声纹特征,并在校验通过时切换所述屏幕至亮屏解锁状态。
6.根据权利要求5所述的音频检测方法,其特征在于,所述专用语音识别芯片在所述屏幕处于亮屏锁定状态时休眠,在所述屏幕处于亮屏锁定状态时基于所述处理器检测所述待检测音频得到所述目标端点音频帧之后,还包括:
根据所述目标端点音频帧,基于所述处理器提取所述待检测音频的语音部分,并调用第三语音唤醒算法校验所述语音部分的文本特征以及声纹特征;
若校验通过,则基于所述处理器调用所述第二语音唤醒算法再次校验所述语音信号的文本特征以及声纹特征,再次校验通过时切换所述屏幕至亮屏解锁状态。
7.一种音频检测装置,应用于电子设备,其特征在于,所述音频检测装置包括:
音频分帧模块,用于获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
噪声估计模块,用于根据所述多个音频帧获取所述待检测音频中背景噪声的噪声能量;
端点预估模块,用于根据所述噪声能量从所述多个音频帧中确定出候选端点音频帧;
功率获取模块,用于获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
端点检测模块,用于根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,确定所述候选端点音频帧以及所述邻近音频帧的功率均大于预设阈值的频率区间;以及将所述频率区间中有频率对应的功率小于或等于所述预设阈值,且距离所述候选端点音频帧最近的音频帧作为目标端点音频帧。
8.一种电子设备,其特征在于,包括专用语音识别芯片、处理器和存储器,所述存储器储存有计算机程序,其特征在于,所述处理器或者所述专用语音识别芯片通过调用所述计算机程序,用于执行:
获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
获取各所述音频帧中背景噪声的噪声能量;
根据各所述音频帧的噪声能量从所述多个音频帧中确定出候选端点音频帧;
获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,确定所述候选端点音频帧以及所述邻近音频帧的功率均大于预设阈值的频率区间;
将所述频率区间中有频率对应的功率小于或等于所述预设阈值,且距离所述候选端点音频帧最近的音频帧作为目标端点音频帧。
9.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在包括专用语音识别芯片和处理器的电子设备上运行时,使得所述专用语音识别芯片或者所述处理器执行:
获取待检测音频,对所述待检测音频进行分帧处理,得到多个音频帧;
获取各所述音频帧中背景噪声的噪声能量;
根据各所述音频帧的噪声能量从所述多个音频帧中确定出候选端点音频帧;
获取所述候选端点音频帧以及与所述候选端点音频帧相邻的第一预设个数邻近音频帧不含所述背景噪声时的功率谱;
根据所述候选端点音频帧以及所述邻近音频帧各自对应的功率谱,确定所述候选端点音频帧以及所述邻近音频帧的功率均大于预设阈值的频率区间;
将所述频率区间中有频率对应的功率小于或等于所述预设阈值,且距离所述候选端点音频帧最近的音频帧作为目标端点音频帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477882.3A CN110232933B (zh) | 2019-06-03 | 2019-06-03 | 音频检测方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477882.3A CN110232933B (zh) | 2019-06-03 | 2019-06-03 | 音频检测方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110232933A CN110232933A (zh) | 2019-09-13 |
CN110232933B true CN110232933B (zh) | 2022-02-22 |
Family
ID=67858431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910477882.3A Active CN110232933B (zh) | 2019-06-03 | 2019-06-03 | 音频检测方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232933B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111110189B (zh) * | 2019-11-13 | 2021-11-09 | 吉林大学 | 一种基于dsp声音与图像识别技术的防打鼾装置及方法 |
CN111081276B (zh) * | 2019-12-04 | 2023-06-27 | 广州酷狗计算机科技有限公司 | 音频段的匹配方法、装置、设备及可读存储介质 |
CN111161747B (zh) * | 2020-04-03 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 基于Tensorflow唤醒模型的预测方法、装置和计算机设备 |
CN111540378A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置和存储介质 |
CN112259124B (zh) * | 2020-10-21 | 2021-06-15 | 交互未来(北京)科技有限公司 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
CN112562685A (zh) * | 2020-12-10 | 2021-03-26 | 上海雷盎云智能技术有限公司 | 一种服务机器人的语音交互方法和装置 |
CN112614512B (zh) * | 2020-12-18 | 2024-07-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 噪声检测的方法和装置 |
CN112634907B (zh) * | 2020-12-24 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 用于语音识别的音频数据处理方法及装置 |
CN112863542B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 语音检测方法和装置、存储介质及电子设备 |
CN114882872A (zh) * | 2022-04-13 | 2022-08-09 | 北京小米移动软件有限公司 | 数据处理方法、装置和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102148030A (zh) * | 2011-03-23 | 2011-08-10 | 同济大学 | 一种语音识别的端点检测方法 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN107424628A (zh) * | 2017-08-08 | 2017-12-01 | 哈尔滨理工大学 | 一种嘈杂环境下特定目标语音端点搜索的方法 |
CN109065046A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10339962B2 (en) * | 2017-04-11 | 2019-07-02 | Texas Instruments Incorporated | Methods and apparatus for low cost voice activity detector |
-
2019
- 2019-06-03 CN CN201910477882.3A patent/CN110232933B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102148030A (zh) * | 2011-03-23 | 2011-08-10 | 同济大学 | 一种语音识别的端点检测方法 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN107424628A (zh) * | 2017-08-08 | 2017-12-01 | 哈尔滨理工大学 | 一种嘈杂环境下特定目标语音端点搜索的方法 |
CN109065046A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
Research on Voice Activity Detection in Burst and Partial Duration Noisy Environment;Chunyi Guo, etc.;<2012ICALIP>;20121111;991-995 * |
Also Published As
Publication number | Publication date |
---|---|
CN110232933A (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN110021307B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN109979438A (zh) | 语音唤醒方法及电子设备 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN105704300B (zh) | 具数字麦克风的声音唤醒侦测装置及相关方法 | |
CN103236260B (zh) | 语音识别系统 | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN108198547A (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
CN110400571B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
CN110689887B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
Vyas | A Gaussian mixture model based speech recognition system using Matlab | |
CN110491373A (zh) | 模型训练方法、装置、存储介质及电子设备 | |
Wu et al. | An efficient voice activity detection algorithm by combining statistical model and energy detection | |
CN108682432B (zh) | 语音情感识别装置 | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别系统 | |
US11769491B1 (en) | Performing utterance detection using convolution | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
Delcroix et al. | Cluster-based dynamic variance adaptation for interconnecting speech enhancement pre-processor and speech recognizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |