CN114429769A - 玻璃破碎声音侦测方法及相关设备 - Google Patents
玻璃破碎声音侦测方法及相关设备 Download PDFInfo
- Publication number
- CN114429769A CN114429769A CN202011180908.7A CN202011180908A CN114429769A CN 114429769 A CN114429769 A CN 114429769A CN 202011180908 A CN202011180908 A CN 202011180908A CN 114429769 A CN114429769 A CN 114429769A
- Authority
- CN
- China
- Prior art keywords
- audio frame
- energy
- preset
- sound
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请适用于音频处理技术领域,提供了玻璃破碎声音侦测方法及相关设备,玻璃破碎声音侦测方法包括获取声音信号,对声音信号进行分帧处理,获得M个音频帧,若根据当前的音频帧的频谱参数确定当前的音频帧为爆裂音,则根据当前的音频帧的频谱参数,以及当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,若当前的音频帧之后的Np个音频帧的能量相对于爆裂音峰值的衰减量,都在预设衰减范围内,则判断声音信号为玻璃破碎声音。从而可以排除爆裂音为短爆音的情形,提高侦测玻璃破碎声音的准确率,且由于根据音频帧的频谱参数即可确定音频帧的能量的衰减量,运算过程简单。
Description
技术领域
本申请属于音频处理技术领域,尤其涉及玻璃破碎声音侦测方法及相关设备。
背景技术
传统的玻璃破碎侦测方法一般是在玻璃上安装压电片模组,根据压电片模组产生的电流确定玻璃是否破碎,此方法虽然可以有效侦测玻璃破碎声音,但是压电片模组安装麻烦、且影响美观。为了避免安装压电片模组,可以通过判断获取的声音信号中是否包含玻璃破碎声音来侦测玻璃是否破碎。现有的基于声音信号侦测玻璃破碎的方法一般是基于神经网络的处理方法,或者是根据声音信号的强度确定是否是玻璃破碎声音。但是,基于神经网络的处理方法存在运算复杂的问题,根据声音信号的强度确定是否是玻璃破碎声音的方法存在侦测不准确的问题。
发明内容
有鉴于此,本申请实施例提供了玻璃破碎声音侦测方法及相关设备,可以提高侦测玻璃破碎声音的准确率,且运算简单。
本申请实施例的第一方面提供了一种玻璃破碎声音侦测方法,包括:
获取声音信号,对所述声音信号进行分帧处理,获得M个音频帧,所述M表示大于0的整数;
若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值;
若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判定所述声音信号为玻璃破碎声音,所述Np表示大于0的整数,且M>Np。
在第一方面的一种可能的实现方式中,所述若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,包括:
若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,且在所述当前的音频帧之后的NB个音频帧中侦测到白噪声,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,所述NB表示大于0的整数,且M>NB。
在第一方面的一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述在所述当前的音频帧之后的NB个音频帧中侦测到白噪声,包括:
若所述当前的音频帧之后的NB个音频帧中存在目标音频帧,则确定第一计数值的计算公式,所述目标音频帧为频带的能量之间满足第一预设关系式的音频帧,所述第一计算值的计算公式与所述第一预设关系式对应;
根据所述第一计数值的计算公式确定所述第一计数值,若所述第一计数值大于预设第一阈值,则判定所述目标音频帧为白噪声。
在第一方面的一种可能的实现方式中,所述音频帧包括至少一个子帧,所述频谱参数包括所述子帧的能量,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,包括:
若所述当前的音频帧的子帧的能量的最大值大于预设第二阈值,则:
根据所述当前的音频帧的子帧的能量确定所述当前的音频帧的能量比;
根据所述当前的音频帧的频带的能量以及所述当前的音频帧的前一音频帧的频带的能量,确定当前的音频帧与所述前一音频帧的能量比;
根据所述当前的音频帧的子帧的能量以及所述前一音频帧的子帧的能量确定所述当前的音频帧与所述前一音频帧的能量差;
根据所述前一音频帧的子帧的能量确定所述前一音频帧的能量比;
若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述当前的音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述前一音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述当前的音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述前一音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述当前的音频帧的能量比大于第七预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述前一音频帧的能量比大于第七预设值;
则确定所述当前的音频帧为爆裂音。
在第一方面的一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,包括:
将所述当前的音频帧的各频带的能量总和作为爆裂音峰值;
将所述当前的音频帧的后一音频帧作为第一音频帧;
计算所述第一音频帧的各频带的能量总和;
若所述第一音频帧的各频带的能量总和大于所述爆裂音峰值,则将所述爆裂音峰值更新为所述第一音频帧的各频带的能量总和;
将所述第一音频帧的后一音频帧作为第一音频帧,返回执行所述计算所述第一音频帧的各频带的能量总和的步骤以及后续步骤,直到满足预设结束条件。
在第一方面的一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判定所述声音信号为玻璃破碎声音,包括:
若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,且所述声音信号满足第一预设条件,则判定所述声音信号为玻璃破碎声音;所述第一预设条件包括下述中的任意一个或多个:所述声音信号的时长在预设时长内、所述声音信号的频谱参数符合预设频谱特征、所述声音信号的频带之间的能量差异在第一预设范围内、所述声音信号的目标频率之间的差异在第二预设范围内,所述目标频率为频带的能量峰值对应的频率。
在第一方面的一种可能的实现方式中,所述声音信号的时长在预设时长内,包括:
计算所述声音信号的频带的能量相对于所述爆裂音峰值的衰减速度和/或衰减时间;
若所述衰减速度在预设速度范围内,和/或所述衰减时间在预设时间范围内,则确定所述声音信号的时长在预设时长内。
在第一方面的一种可能的实现方式中,所述声音信号的频谱参数符合预设频谱特征,包括:
确定所述声音信号中,频带之间的能量满足第二预设关系式的音频帧的数量;
若所述满足第二预设关系式的音频帧的数量,与所述声音信号的时长之间满足第三预设关系式,则确定所述声音信号的第一预设频带的能量符合预设频谱特征。
在第一方面的一种可能的实现方式中,所述声音信号的频带之间的能量差异在第一预设范围内,包括:
若所述声音信号中,第n音频帧的频带的能量与第n-1音频帧的频带的能量之间满足第四预设关系式,
或所述第n音频帧的频带的能量与第n-2音频帧的频带的能量之间满足第五预设关系式,则更新设定的第二计数值,所述n表示大于2的整数,且M≥n;
若所述第二计数值与所述声音信号的时长之间满足第六预设关系式,则确定所述声音信号的频带之间的能量差异在第一预设范围内。
在第一方面的一种可能的实现方式中,所述声音信号的目标频率之间的差异在第二预设范围内,包括:
若所述声音信号中,第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值在预设差值范围内,
或第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值在预设差值范围内,则更新设定的第三计数值,所述n表示大于2的整数,且M≥n,所述i表示大于0的整数;
若所述第三计数值与所述声音信号的时长之间满足第七预设关系式,则确定所述声音信号的目标频率之间的差异在第二预设范围内。
本申请实施例的第二方面提供了一种玻璃破碎声音侦测装置,其特征在于,包括:
获取模块,用于获取声音信号,对所述声音信号进行分帧处理,获得M个音频帧,所述M表示大于0的整数;
计算模块,用于若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值;
判定模块,用于若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判定所述声音信号为玻璃破碎声音,所述Np表示大于0的整数,且M>Np。
在第二方面的一种可能的实现方式中,所述计算模块包括第一计算单元,所述第一计算单元用于:
若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,且在所述当前的音频帧之后的NB个音频帧中侦测到白噪声,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,所述NB表示大于0的整数,且M>NB。
在第二方面的一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述第一计算单元具体用于:若所述当前的音频帧之后的NB个音频帧中存在目标音频帧,则确定第一计数值的计算公式,所述目标音频帧为频带的能量之间满足第一预设关系式的音频帧,所述第一计算值的计算公式与所述第一预设关系式对应;
根据所述第一计数值的计算公式确定所述第一计数值,若所述第一计数值大于预设第一阈值,则判定所述目标音频帧为白噪声。
在第二方面的一种可能的实现方式中,所述音频帧包括至少一个子帧,所述频谱参数包括所述子帧的能量,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述计算模块还包括第二计算单元,所述第二计算单元具体用于:
若所述当前的音频帧的子帧的能量的最大值大于预设第二阈值,则:
根据所述当前的音频帧的子帧的能量确定所述当前的音频帧的能量比;
根据所述当前的音频帧的频带的能量以及所述当前的音频帧的前一音频帧的频带的能量,确定当前的音频帧与所述前一音频帧的能量比;
根据所述当前的音频帧的子帧的能量以及所述前一音频帧的子帧的能量确定所述当前的音频帧与所述前一音频帧的能量差;
根据所述前一音频帧的子帧的能量确定所述前一音频帧的能量比;
若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述当前的音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述前一音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述当前的音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述前一音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述当前的音频帧的能量比大于第七预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述前一音频帧的能量比大于第七预设值;
则确定所述当前的音频帧为爆裂音。
在第二方面的一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述计算单元还包括第三计算单元,所述第三计算单元具体用于:
将所述当前的音频帧的各频带的能量总和作为爆裂音峰值;
将所述当前的音频帧的后一音频帧作为第一音频帧;
计算所述第一音频帧的各频带的能量总和;
若所述第一音频帧的各频带的能量总和大于所述爆裂音峰值,则将所述爆裂音峰值更新为所述第一音频帧的各频带的能量总和;
将所述第一音频帧的后一音频帧作为第一音频帧,返回执行所述计算所述第一音频帧的各频带的能量总和的步骤以及后续步骤,直到满足预设结束条件。
在第二方面的一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述判定模块具体用于:
若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,且所述声音信号满足第一预设条件,则判定所述声音信号为玻璃破碎声音;所述第一预设条件包括下述中的任意一个或多个:所述声音信号的时长在预设时长内、所述声音信号的频谱参数符合预设频谱特征、所述声音信号的频带之间的能量差异在第一预设范围内、所述声音信号的目标频率之间的差异在第二预设范围内,所述目标频率为频带的能量峰值对应的频率。
在第二方面的一种可能的实现方式中,所述判定模块还用于:
计算所述声音信号的频带的能量相对于所述爆裂音峰值的衰减速度和/或衰减时间;
若所述衰减速度在预设速度范围内,和/或所述衰减时间在预设时间范围内,则确定所述声音信号的时长在预设时长内。
在第二方面的一种可能的实现方式中,所述判定模块还用于:
确定所述声音信号中,频带之间的能量满足第二预设关系式的音频帧的数量;
若所述满足第二预设关系式的音频帧的数量,与所述声音信号的时长之间满足第三预设关系式,则确定所述声音信号的第一预设频带的能量符合预设频谱特征。
在第二方面的一种可能的实现方式中,所述判定模块还用于:
若所述声音信号中,第n音频帧的频带的能量与第n-1音频帧的频带的能量之间满足第四预设关系式,
或所述第n音频帧的频带的能量与第n-2音频帧的频带的能量之间满足第五预设关系式,则更新设定的第二计数值,所述n表示大于2的整数,且M≥n;
若所述第二计数值与所述声音信号的时长之间满足第六预设关系式,则确定所述声音信号的频带之间的能量差异在第一预设范围内。
在第二方面的一种可能的实现方式中,所述判定模块还用于:
若所述声音信号中,第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值在预设差值范围内,
或第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值在预设差值范围内,则更新设定的第三计数值,所述n表示大于2的整数,且M≥n,所述i表示大于0的整数;
若所述第三计数值与所述声音信号的时长之间满足第七预设关系式,则确定所述声音信号的目标频率之间的差异在第二预设范围内。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的玻璃破碎声音侦测方法。
本申请实施例的第四方面提供了一种玻璃破碎声音侦测系统,包括:声音采集装置、报警装置以及如上述第三方面所述的电子设备,所述电子设备与所述声音采集装置以及所述报警装置通信连接。
本申请实施例的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的玻璃破碎声音侦测方法。
本申请实施例的第六方面提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如上述第一方面所述的玻璃破碎声音侦测方法。
本申请实施例与现有技术相比存在的有益效果是:通过获取声音信号,对声音信号进行分帧处理,获得M个音频帧,若根据当前的音频帧的频谱参数确定当前的音频帧为爆裂音,则根据当前的音频帧的频谱参数,以及当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判断所述声音信号为玻璃破碎声音。由于当获取到拍手声、敲击声、下雨声等一些短爆音时,也会侦测到爆裂音,而短爆音相对于玻璃破碎声音的能量衰减较快,因此,在侦测到爆裂音时,再进一步计算当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,并在衰减量都在预设范围内,判定声音信号为玻璃破碎声音。也即,由于可以排除爆裂音为短爆音的情形,因此能够提高侦测玻璃破碎声音的准确率,且由于根据音频帧的频谱参数即可确定音频帧的能量的衰减量,因此,相对于通过神经网络算法确定玻璃是否破碎的处理方法,运算过程更为简单。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的玻璃破碎声音侦测系统的示意图;
图2是本申请实施例提供的声音采集装置的示意图;
图3是本申请一实施例提供的玻璃破碎声音侦测方法的实现流程示意图;
图4是本申请实施例提供的侦测声音信号是否是短爆音的流程图;
图5是本申请实施例提供的侦测当前的音频帧是否是爆裂音的流程图;
图6是本申请实施例提供的白噪声的侦测流程图;
图7是本申请另一实施例提供的玻璃破碎声音侦测方法的流程图;
图8是本申请实施例提供的判断声音信号是否在预设时长内的流程图;
图9是本申请实施例提供的判断声音信号的频谱参数是否符合预设频谱特征的流程图;
图10是本申请实施例提供的判断声音信号的频带之间的能量差异在第一预设范围内的流程图;
图11是本申请实施例提供的判断声音信号的目标频率之间的差异在第二预设范围内的流程图;
图12是本申请实施例提供的玻璃破碎声音侦测装置的示意图;
图13是本申请实施例提供的电子设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
现有的基于声音信号侦测玻璃破碎的方法一般是基于神经网络的处理方法,或者是根据声音信号的强度确定是否是玻璃破碎声音。但是,基于神经网络的处理方法存在运算复杂的问题,根据声音信号的强度确定是否是玻璃破碎声音的方法存在侦测不准确的问题。为此,本申请实施例提供了玻璃破碎声音侦测方法,可以提高侦测玻璃破碎声音的准确率,且运算简单。
本申请实施例提供的玻璃破碎声音侦测方法应用于玻璃破碎声音侦测系统,如图1所示,本申请实施例提供的玻璃破碎声音侦测系统包括声音采集装置100、电子设备200以及报警装置300,电子设备200与声音采集装置100以及报警装置300通信连接。其中,声音采集装置100、电子设备200以及报警装置300可以集成于同一设备上,也可以是互相独立的设备。若电子设备200为独立的设备,电子设备200可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。
如图2所示,在一种可能的实现方式中,声音采集装置100包括麦克风11、放大器12、滤波器13以及模数转换器14。麦克风11用于采集声音,将采集到的声音转换为电流信号,并将电流信号输入放大器12。放大器12用于根据设定的放大比例调整电流信号,并将调整后的电流信号输入滤波器13。滤波器13用于对调整后的电流信号进行信号加强、信号等化以及滤波处理,得到滤波后的信号,并将滤波后的信号输入模数转换器14。滤波后的信号为模拟信号,模数转换器14用于根据设定的采样频率和位元数将滤波后的信号转换为数字信号,并将数字信号输出至电子设备200,电子设备200再将数字信号转换为模拟信号,该模拟信号即为下述的声音信号。
电子设备200用于判定接收到的声音信号是否是玻璃破碎声音,若判定接收到的声音信号是玻璃破碎声音,则生成玻璃破碎警报,将玻璃破碎警报发送至报警装置300,报警装置300用于根据玻璃破碎警报发出声音或者光线,以提示用户玻璃破碎。
如图3所示,本申请一实施例提供的玻璃破碎声音侦测方法包括:
S101:获取声音信号,对声音信号进行分帧处理,获得M个音频帧,M表示大于0的整数。
其中,每个音频帧的时长可以为30ms,可以采用汉明窗(Hamming window)对声音信号进行分帧处理,由于采用汉明窗具有降低信息丢失的特点,因此,采用汉明窗对声音信号进行分帧处理,可以较少声音信号的频谱失真。
在一种可能的实现方式中,对声音信号进行分帧处理后,对音频帧进行频谱补偿处理,以补偿声音信号的失真,使得处理后的声音信号在每个频带的振幅响应趋于接近状态。
S102:若根据当前的音频帧的频谱参数确定当前的音频帧为爆裂音,则根据当前的音频帧的频谱参数,以及当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值。
具体地,对音频帧进行傅立叶转换处理及再次分帧处理,得到音频帧的频谱参数。其中,音频帧为时域信号,对音频帧进行傅立叶转换处理可以得到音频帧对应的频域信号,将频域信号划分为若干个频带,对每个频带中各频率的振幅求平均,得到各个频带的能量。根据划分后的频带,也可以确定出每个频带的波峰值以及波峰值对应的频率。对音频帧进行再次分帧处理,得到至少一个子帧,对子帧的时域信号的波形数据求均方根,得到各个子帧的能量。频带的能量、频带的波峰值以及波峰值对应的频率、子帧的能量均为频谱参数。
在一种可能的实现方式中,若检测到当前的音频帧的子帧的能量的最大值大于预设值,则确定当前的音频帧为爆裂音。在确定当前的音频帧为爆裂音后,可以将当前的音频帧的频带的能量总和确定为爆裂音峰值。也可以在将当前的音频帧的频带的能量总和确定为爆裂音峰值后,将当前音频帧的后一音频帧作为第一音频帧,计算第一音频帧的各频带的能量的总和,若第一音频帧的各频带的能量的总和大于爆裂音峰值,则将爆裂音峰值更新为第一音频帧的各频带的能量总和,再将第一音频帧的后一音频帧作为第一音频帧,返回执行计算第一音频帧的各频带的能量总和的步骤以及后续步骤,直到满足预设结束条件。其中,预设结束条件可以是在达到预设时长时,或者是第一音频帧的各频带的能量的总和达到预设的能量范围内。
S103:若当前的音频帧之后的Np个音频帧的能量相对于爆裂音峰值的衰减量,都在预设衰减范围内,则判定声音信号为玻璃破碎声音,Np表示大于0的整数,且M>Np。
具体地,可以根据当前的音频帧之后的Np个音频帧能量与爆裂音峰值的比值或者差值计算衰减量。其中,Np为预先设定的经验值,例如,Np=4。
在一种可能的实现方式中,从当前的音频帧的下一个音频帧开始,计算每个音频帧的频带的能量总和与爆裂音峰值的比值,若该比值大于预设比值,说明对应的音频帧的能量的衰减量在预设衰减范围内,若当前的音频帧之后的Np个音频帧中,每个音频帧的能量总和与爆裂音峰值的比值均大于预设比值,则判定声音信号为玻璃破碎声音。
上述实施例中,由于当获取到拍手声、敲击声、捏瓶子声、麻将声、硬币落地声、下雨声等一些短爆音时,也会侦测到爆裂音,而短爆音相对于玻璃破碎声音的能量衰减较快,因此,在侦测到爆裂音时,再进一步计算当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,若衰减量都在预设范围内,判定声音信号为玻璃破碎声音,否则,声音信号不是玻璃破碎声音,可以排除爆裂音为短爆音的情形,提高侦测玻璃破碎声音的准确率,且根据音频帧的频谱参数即可确定音频帧的能量的衰减量,相对于通过神经网络算法侦测玻璃破碎声音的方法,运算过程较为简单。
在一种可能的实现方式中,侦测声音信号是否是短爆音的流程如图4所示,首先计算当前的音频帧的频带的能量的总和、以及频带的能量中的最大值,将音频帧的频带的能量的总和,或者频带的能量中的最大值设为爆裂音峰值。设定爆裂音峰值后,将当前的音频帧之后的第一个音频帧作为第一音频帧,并设定音频帧的帧计数值为FrameCount,FrameCount的初始值为1。对于第一音频帧,首先判断FrameCount是否满足FrameCount≤Np。若FrameCount不满足FrameCount≤Np,则继续下一阶段的检测,例如,进行玻璃破碎声音的判定,或者继续检测声音信号的其它频谱参数;若FrameCount满足FrameCount≤Np,则将FrameCount更新为FrameCount+1,计算第一音频帧的频带的能量的总和Efs,或者频带的能量中的最大值Efmax。例如,若设定的爆裂音峰值为当前的音频帧的频带的能量的总和,则计算第一音频帧的频带的能量的总和,若设定的爆裂音峰值为当前的音频帧的频带的能量的最大值,则计算第一音频帧的频带的能量的最大值。
以设定的爆裂音峰值为当前的音频帧的频带的能量的总和为例,若第一音频帧的频带的能量的总和大于爆裂音峰值,则说明侦测到新的爆裂音峰值,将爆裂音峰值更新为所述第一音频帧的频带的能量总和,并记录新的爆裂音峰值对应的位置,即当前的FrameCount。爆裂音峰值更新完成后,将第一音频帧的下一音频帧(即第二音频帧)作为第一音频帧,重复上述第一音频帧的检测过程,即返回执行判断FrameCount是否满足FrameCount≤Np的步骤以及后续的步骤。若第二音频帧的频带的能量的总和大于爆裂音峰值,则再次更新爆裂音峰值为第二音频帧的频带的能量的总和,并将第二音频帧的下一音频帧作为第一音频帧,重复上述第一音频帧的检测过程。
在另一种可能的实现方式中,为了防止将异常信号识别为爆裂音峰值,也可以根据公式Efs>Ef_max*Ar且Efs*As>Ef_min来判定是否更新爆裂音峰值,其中,“*”表示相乘运算,Efs为第一音频帧的频带的能量总和,Ef_max为当前设定的爆裂音峰值,Ef_min为设定的爆裂音峰值的最小值,Ar和As为设定的常数,例如,可以设定0.8≤Ar<1,As≤0.7。若Efs满足公式Efs>Ef_max*Ar且Ef_max*As>Ef_min,则说明侦测到新的爆裂音峰值。
若第一音频帧的频带的能量的总和小于或者等于爆裂音峰值,则说明未侦测到新的爆裂音峰值,计算第一音频帧的频带的能量的总和相对于爆裂音峰值的衰减量,若衰减量在预设衰减范围内,说明第一音频帧衰减不快,将下一音频帧作为第一音频帧,重复上述第一音频帧的检测过程,即返回执行判断FrameCount是否满足FrameCount≤Np的步骤以及后续的步骤。若衰减量不在预设衰减范围内,说明第一音频帧的能量衰减太快,确定第一音频帧为短爆音,并回到设定的初始侦测状态,即重新等待获取声音信号。
其中,可以根据公式Efs*Decay_i<Ef_max来判断第一音频帧的能量是否衰减太快,其中,Decay_i为第一音频帧对应的能量衰减系数,i=FrameCount,Decay_i随着FrameCount的增大而增大,例如,Decay_i=FrameCount-2。若Efs满足公式Efs*Decay_i<Ef_max,说明第一音频帧的能量衰减太快,否则说明第一音频帧的能量衰减不快。
上述实施例中,通过计算每个音频帧的频带的能量,判断是否出现新的爆裂音峰值,若出现新的爆裂音峰值,则更新爆裂音峰值,从而提高了确定出的爆裂音峰值的准确性,进而提高了计算出的能量衰减量的准确性,进而提高了短爆音侦测的准确性。
在一种可能的实现方式中,侦测当前的音频帧是否是爆裂音的流程如图5所示,首先计算当前的音频帧的子帧的能量的最大值E_Max(n),若当前的音频帧的子帧的能量的最大值E_Max(n)小于预设第二阈值E_MAX,则返回检测下一音频帧。若当前的音频帧的子帧的能量的最大值E_Max(n)大于预设第二阈值E_MAX,则根据当前的音频帧的子帧的能量确定当前的音频帧的能量比E_Ratio(n),根据前一音频帧的子帧的能量确定前一音频帧的能量比E_Ratio(n-1),根据当前的音频帧的频带的能量以及当前的音频帧的前一音频帧的频带的能量,确定当前的音频帧与前一音频帧的能量比Ef_Ratio(n);根据当前的音频帧的子帧的能量以及前一音频帧的子帧的能量确定当前的音频帧与前一音频帧的能量差E_Dist(n)。以音频帧包括四个子帧为例,当前的音频帧的能量比E_Ratio(n)的计算公式为E_Ratio(n)=MAX(Ej(n)/Ej-1(n))|j=1~4,其中,其中,Ej(n)表示当前的音频帧的第j个子帧的能量,Ej(n-1)表示当前的音频帧的前一音频帧的第j个子帧的能量,Ej(n)/Ej-1(n)表示当前子帧的能量与前一子帧的能量的比值,“MAX”表示取最大值,Ej-1(n)>0。前一音频帧的能量比E_Ratio(n-1)的计算方法与当前音频帧的能量比的计算方法相同。当前的音频帧与前一音频帧的能量比Ef_Ratio(n)的计算公式为Ef_Ratio(n)=Efh(n)/Efh(n-1),其中,Efh(n)为当前的音频帧中最高的频带的能量,Efh(n-1)为前一音频帧中最高的频带的能量,Efh(n-1)>0。当前的音频帧与前一音频帧的能量差E_Dist(n)的计算公式为E_Dist(n)=MAX(Ej(n)-Ej(n-1))|j=1~4。
若当前的音频帧与前一音频帧的能量比Ef_Ratio(n)大于第一预设值Ef_RATIO_THRD_1,且当前的音频帧的能量比大于第二预设值E_RATIO_THRD_1;
或,若当前的音频帧与前一音频帧的能量比大于第一预设值Ef_RATIO_THRD_1,且前一音频帧的能量比大于第二预设值E_RATIO_THRD_1;
或,若当前的音频帧与前一音频帧的能量比Ef_Ratio(n)大于第三预设值Ef_RATIO_THRD_2,且当前的音频帧的能量比E_Ratio(n)大于第四预设值E_RATIO_THRD_2;
或,若当前的音频帧与前一音频帧的能量比Ef_Ratio(n)大于第三预设值Ef_RATIO_THRD_2,且前一音频帧的能量比大于第四预设值E_RATIO_THRD_2;
或,若当前的音频帧与前一音频帧的能量差E_Dist(n)大于第五预设值ED_MAX,且当前的音频帧与前一音频帧的能量比Ef_Ratio(n)大于第六预设值Ef_RATIO_THRD_3,且当前的音频帧的能量比大于第七预设值E_RATIO_THRD_3;
或,若当前的音频帧与前一音频帧的能量差E_Dist(n)大于第五预设值ED_MAX,且当前的音频帧与前一音频帧的能量比Ef_Ratio(n)大于第六预设值Ef_RATIO_THRD_3,且前一音频帧的能量比大于第七预设值E_RATIO_THRD_3;
则确定当前的音频帧为爆裂音。否则将当前的音频帧下一音频帧,作为当前的音频帧,重复上述当前音频帧的检测过程。即返回执行计算当前的音频帧的子帧的能量的最大值的步骤以及后续步骤。
其中,E0(n)=E4(n-1),即当前音频帧的第0个子帧的能量为前一音频帧的第4个子帧的能量,E_RATIO_THRD_1,E_RATIO_THRD_2,E_RATIO_THRD_3,Ef_RATIO_THRD_1,Ef_RATIO_THRD_2,Ef_RATIO_THRD_3,ED_MAX为根据经验预先设定的参数。例如,E_MAX=5000,E_RATIO_THRD_1=10,E_RATIO_THRD_2=20,E_RATIO_THRD_3=5,Ef_RATIO_THRD_1=40,Ef_RATIO_THRD_2=20,Ef_RATIO_THRD_3=10。
上述实施例中,在侦测到当前的音频帧的子帧的能量的最大值大于预设第二阈值时,进一步计算当前的音频帧的能量比、前一音频帧的能量比、当前的音频帧与前一音频帧的能量比、当前的音频帧与前一音频帧的能量差,通过当前的音频帧的能量比、前一音频帧的能量比、当前的音频帧与前一音频帧的能量比、当前的音频帧与前一音频帧的能量差进一步判定当前音频帧是否是爆裂音,提高了爆裂音侦测的准确度。
在一种可能的实现方式中,电子设备在根据当前的音频帧的频谱参数确定当前的音频帧为爆裂音之后,判定当前的音频帧之后的NB个音频帧中是否存在白噪声,其中NB为预先设定的经验值,例如,NB=3。若在当前的音频帧之后的NB个音频帧中侦测到白噪声,再进一步计算当前的音频帧之后的音频帧的能量相对于爆裂音峰值的衰减量,从而进一步提高了侦测玻璃破碎声音的准确率。
在一种可能的实现方式中,白噪声的侦测流程如图6所示,设定音频帧的帧计数值FrameCount,FrameCount的初始值为1,将当前的音频帧之后的第一个音频帧作为第一音频帧,对于第一音频帧,首先判断FrameCount是否满足FrameCount≤NB,若满足FrameCount≤NB,将FrameCount更新为FrameCount+1,计算第一音频帧的频谱参数。本申请实施例中,第一音频帧的频谱参数为第一音频帧各频带的能量。具体地,按照预设的频带划分规则将第一音频帧划分为若干频带。例如,设定最高频率为8000Hz,采样频率为16000Hz,将第一音频帧划分为Ef0、Ef1、Ef2、Ef3、Ef4、Ef5、Ef6、Ef7、Ef8、Ef9共10个频带,每个频带的频段分别为Ef0:0~500Hz,Ef1:500~1000Hz,Ef2:1000~1500Hz,Ef3:1500~2000Hz,Ef4:2000~2500Hz,Ef5:2500~3500Hz,Ef6:3500~4500Hz,Ef7:4500~5500Hz,Ef8:5500~6500Hz,Ef9:6500~8000Hz,Ef9即为最高频带Efh。计算出各频带的能量后,设定第一计数值WhiteNoiseDecisionCnt,WhiteNoiseDecisionCnt的初始值为0。若第一音频帧的频带的能量之间满足第一预设关系式,则将第一音频帧作为目标音频帧,根据第一计算值的计算公式确定第一计数值。若第一计数值小于第一阈值WNDC,将第一音频帧的下一音频帧作为第一音频帧,重复上述第一音频帧的检测过程,即返回执行判断FrameCount是否满足FrameCount≤NB的步骤以及后续的步骤。若第一计数值大于第一阈值WNDC,则记录WhiteNoiseDetected=WhiteNoiseDetected+1,再判断WhiteNoiseDetected是否满足WhiteNoiseDetected>0,若满足WhiteNoiseDetected>0,则第一音频帧为白噪声,继续下一阶段的检测,即计算当前的音频帧之后的音频帧的能量相对于爆裂音峰值的衰减量。若不满足WhiteNoiseDetected>0,则返回初始侦测状态。若第一音频帧对应的FrameCount不满足FrameCount≤NB,则直接判断WhiteNoiseDetected是否满足WhiteNoiseDetected>0。
其中,第一预设关系式为下述关系式中的任意一项或者多项:Efi>Efi+1*WN_VAR)且(Efi+1>Efi*WN_VAR),i=0,1,2,…8;Efi>Efi+2*WN_VAR)且(Efi+2>Efi*WN_VAR),i=0,1,2,…7;Efi>Efi+3*WN_VAR)且(Efi+3>Efi*WN_VAR),i=0,1,2,…6;(Ef1+Ef2+Ef3+Ef4)*WN_VAR>Ef0;(Ef5+Ef6+Ef7+Ef8)*WN_VAR>Efh。
在一种可能的实现方式中,第一计算值WhiteNoiseDecisionCnt的计算公式为:若Efi>Efi+1*WN_VAR)且(Efi+1>Efi*WN_VAR),则WhiteNoiseDecisionCnt增加N1;若Efi>Efi+2*WN_VAR)且(Efi+2>Efi*WN_VAR),则WhiteNoiseDecisionCnt增加N2;若Efi>Efi+3*WN_VAR)且(Efi+3>Efi*WN_VAR),则WhiteNoiseDecisionCnt增加N3;若(Ef1+Ef2+Ef3+Ef4)*WN_VAR>Ef0,则WhiteNoiseDecisionCnt增加N4;若(Ef5+Ef6+Ef7+Ef8)*WN_VAR>Efh),则WhiteNoiseDecisionCnt增加N5。其中,WN_VAR,N1,N2,N3,N4,N5,WNDC均为预先设定的经验值,例如,WN_VAR=0.5,N1=3,N2=2,N3=1,N4=3,N5=3,WNDC=7。最后根据WhiteNoiseDecisionCnt的增加量(N1的累加值、N2的累加值、N3的累加值、N4的累加值以及N5的累加值的总和)确定WhiteNoiseDecisionCnt的值。
需要说明的是,在其他可能的实现方式中,也可以根据上述计算公式中的任意一个或多个作为第一计算值WhiteNoiseDecisionCnt的计算公式。
上述实施例中,由于频谱能量之间的关系反映音频帧的能量分布情况,根据频谱能量之间的关系侦测音频帧是否是白噪声,提高了侦测的准确度。
在其他可能的实现方式中,也可以根据当前的音频帧的频带的能量是否在预设的能量范围内,确定当前的音频帧之后的音频帧中是否存在白噪声。
在另一实施例中,电子设备在根据当前的音频帧的频谱参数确定当前的音频帧为爆裂音之后,判定当前的音频帧之后的NB个音频帧中是否存在白噪声。若在当前的音频帧之后的NB个音频帧中侦测到白噪声,再进一步计算当前的音频帧之后的音频帧的能量相对于爆裂音峰值的衰减量,若当前的音频帧之后的Np个音频帧的能量相对于爆裂音峰值的衰减量都在预设衰减范围内,再进一步判断声音信号是否满足第一预设条件,若声音信号满足第一预设条件,则判定声音信号为玻璃破碎声音,以进一步提高玻璃破碎声音侦测的准确度。其中,第一预设条件包括下述中的任意一个或多个:声音信号的时长在预设时长内、声音信号的频谱参数符合预设频谱特征、声音信号的频带之间的能量差异在第一预设范围内、声音信号的目标频率之间的差异在第二预设范围内,目标频率为频带的能量峰值对应的频率。
其中,检测声音信号的频谱参数是否符合预设频谱特征是为了排除声音信号为特殊音频的声音信号,例如人声、木头敲击声、鼓声、乐器声、金属敲击声、高跟鞋走路声、雨声等。检测声音信号的频带之间的能量差异是否在第一预设范围内是为了排除声音信号为固定频谱的声音信号,例如,冷气声、风扇声、吸尘器声、马达声等。检测声音信号的目标频率之间的差异是否在第二预设范围内是为了排除声音信号为共振音频的声音信号,例如,钟声、警报声、喇叭声、敲杯子声等。
在一种可能的实现方式中,第一预设条件包括声音信号的时长在预设时长内、声音信号的频谱参数符合预设频谱特征、声音信号的频带之间的能量差异在第一预设范围内以及声音信号的目标频率之间的差异在第二预设范围内。对应地,玻璃破碎声音侦测方法的流程如图7所示,电子设备在接收到声音信号后,首先设置为初始侦测状态,然后对声音信号进行前处理,前处理即前述的对声音信号进行分帧处理以及对音频帧进行频谱补偿的处理。对声音信号进行前处理后,获取音频帧的频谱参数,先进行第一阶段的爆裂音的检测。爆裂音的检测即为:判断当前的音频帧是否是爆裂音,若当前的音频帧不是爆裂音,则回到初始侦测状态,若当前的音频帧是爆裂音,则进行第二阶段的白噪声侦测。白噪声侦测即判断在当前的音频帧之后的NB个音频帧中是否侦测到白噪声,若在当前的音频帧之后的NB个音频帧中均未侦测到白噪声,则回到初始侦测状态,若侦测到白噪声,则进行第三阶段的短爆音侦测。短爆音侦测即根据当前音频帧之后的音频帧相对于爆裂音峰值的衰减量判断声音信号是否是短爆音,若判定声音信号是短爆音,则回到初始侦测状态,若判定声音信号不是短爆音,则进行第四阶段的声音长度的侦测、特殊音频的侦测、固定频谱的侦测以及共振音频的侦测。若声音信号的长度在预设时长内,且声音信号不是特殊音频的声音信号,且不是固定频谱的声音信号,且不是共振音频的声音信号,则判定声音信号为玻璃破碎声音,并生成玻璃破碎警报;否则回到初始侦测状态。
其中,电子设备根据声音信号的频带的能量相对于爆裂音峰值的衰减速度和/或衰减时间确定声音信号是否在预设时长内,若衰减速度在预设速度范围内,和/或衰减时间在预设时间范围内,则确定声音信号的时长在预设时长内。
在一种可能的实现方式中,判断声音信号是否在预设时长内的流程如图8所示,将当前音频帧的下一音频帧作为第一音频帧,首先计算第一音频帧中能量大于预设的第一侦测能量E_MIN的子帧的数量E_cnt,例如,第一音频帧包括4个子帧,设定E_cnt的初始值为0,依次计算每个子帧的能量Ej,j=1~4,若满足Ej>E_MIN,则E_cnt更新为E_cnt+1。再计算第一音频帧中能量大于预设的第二侦测能量E_MAX的子帧的数量Emax_cnt,其中,E_MAX>E_MIN,例如,设定Emax_cnt的初始值为0,依次计算每个子帧的能量Ej,若满足Ej>E_MAX,则Emax_cnt更新为Emax_cnt+1。再计算第一音频帧中子帧的能量的最大值Ej_Max。在得到E_cnt、Emax_cnt和Ej_Max后,首先判断是否达到声音结束条件,即声音是否即将结束。在一种可能的实现方式中,可以计算第一音频帧的平均能量,第一音频帧的平均能量为(E1+E2+E3+E4)/4,若第一音频帧的平均能量小于爆裂音峰值的1/4,说明达到声音结束条件。在另一种可能的实现方式中,可以计算子帧的能量的最大值Ej_Max,若Ej_Max<E_MIN,说明达到声音结束条件,其中,爆裂音峰值为侦测到的爆裂音的音频帧中的频带的能量的最大值。若声音即将结束,判断是否满足E_cnt≥T_MIN且Emax_cnt>0,若不满足E_cnt≥T_MIN且Emax_cnt>0,说明第一音频帧的能量较小,进一步说明声音信号的能量衰减速度较快,则回到初始侦测状态,若满足E_cnt≥T_MIN且Emax_cnt>0,则判断是否满足E_cnt≤T_MAX,若满足E_cnt≤T_MAX,说明声音信号的时长在预设时长内,继续下一阶段的检测,否则回到初始侦测状态。其中,T_MIN和T_MAX为预先设定的常数,T_MAX>T_MIN。
若未达到声音结束条件,则判断第一音频帧的平均能量是否小于爆裂音峰值的1/2,若第一音频帧的平均能量小于爆裂音峰值的1/2,判断是否满足E_cnt>=T_DECAY2,其中,T_DECAY2是预先设定的能量衰减到爆裂音峰值1/2时对应的音频帧的帧计数值。若满足E_cnt≥T_DECAY2,说明声音信号的能量衰减时间较长,回到初始侦测状态。若第一音频帧的平均能量大于或者等于爆裂音峰值的1/2,或者E_cnt<T_DECAY2,说明第一音频帧邻近当前的音频帧,第一音频帧的能量还未开始大幅度衰减,将第一音频帧的下一音频帧作为第一音频帧,重复上述第一音频帧的检测过程,即返回执行计算第一音频帧中能量大于预设的第一侦测能量E_MIN的子帧的数量E_cnt的步骤以及后续步骤。
在其它可能的实现方式中,也可以在第一音频帧达到声音结束条件时,根据第一音频帧的FrameCount的大小计算声音信号的时长;也可以根据第一音频帧与爆裂音峰值的比值,以及当前的音频帧与第一音频帧之间的时长,确定第一音频帧的能量相对于爆裂音峰值的衰减速度。
在一种可能的实现方式中,电子设备判断声音信号的频谱参数是否符合预设频谱特征的方法包括:确定声音信号中,频带之间的能量满足第二预设关系式的音频帧的数量,若满足第二预设关系式的音频帧的数量,与声音信号的时长之间满足第三预设关系式,则确定声音信号的第一预设频带的能量符合预设频谱特征。其中,音频帧包括Ef0、Ef1、Ef2、Ef3、Ef4、Ef5、Ef6、Ef7、Ef8、Ef9共10个频带,Ef9=Efh,Ef0又包括Ef00(0~250Hz)和Ef01(250~500Hz)两个频带。第二预设关系式为下述公式中的任意一个或多个:Efh*5≤Ef0,Efh*5≤Ef1,Efh*8≤Ef1+Ef2,(Ef5+Ef6+Ef7+Ef8+Efh)*3≤(Ef0+Ef1+Ef2+Ef3+Ef4),Ef00*5≤Ef01,Ef0*5≤Ef1,(Ef0+Ef1+Ef2)*12≤(Ef4+Ef5+Ef6+Ef7+Ef8+Efh)。
若某一音频帧的频带之间的能量满足第二预设关系式,说明该音频帧的特征符合特殊音频特征。声音信号的时长可以用声音信号结束时对应的音频帧的帧计数值FrameCount来表示,第三预设关系式可以用于表征满足第二预设关系式的音频帧的数量,与声音信号的时长,两者之间的大小关系或者比例关系。
在一种可能的实现方式中,电子设备判断声音信号的频谱参数是否符合预设频谱特征的流程如图9所示,在确定当前的音频帧为爆裂音之后,将当前的音频帧的下一音频帧作为第一音频帧,设置参数SpecialSpectrumCount(i)=0,i=1,2,3,…,首先根据第一音频帧的频带之间的能量是否满足第二预设关系式来判断第一音频帧是否符合特殊音频特征。若第一音频帧的频带之间的能量满足第二预设关系式,说明第一音频帧的特征符合特殊音频特征,频带之间的能量满足第二预设关系式的音频帧的数量增加1,本申请实施例中,将SpecialSpectrumCount(i)更新为SpecialSpectrumCount(i)+Wi,Wi为预先设定的常数,可以不为1,不同的第二预设关系式对应的特殊音频特征不同,Wi的值也不同。
在一种可能的实现方式中,SpecialSpectrumCount(i)的计算公式如下:
若Efh*5≤Ef0,则SpecialSpectrumCount(1)更新为SpecialSpectrumCount(1)+1;
若Efh*5≤Ef1,则SpecialSpectrumCount(2)更新为SpecialSpectrumCount(2)+1;
若Efh*8≤Ef1+Ef2,则SpecialSpectrumCount(3)更新为SpecialSpectrumCount(3)+2;
若(Ef5+Ef6+Ef7+Ef8+Efh)*3≤(Ef0+Ef1+Ef2+Ef3+Ef4),则SpecialSpectrumCount(4)更新为SpecialSpectrumCount(4)+3;
若Ef00*5≤Ef01,则SpecialSpectrumCount(5)更新为SpecialSpectrumCount(5)+2;
若Ef0*5≤Ef1,则SpecialSpectrumCount(6)更新为SpecialSpectrumCount(6)+2;
若(Ef0+Ef1+Ef2)*12≤(Ef4+Ef5+Ef6+Ef7+Ef8+Efh),则SpecialSpectrumCount(7)更新为SpecialSpectrumCount(7)+3。
在计算出SpecialSpectrumCount(i)后,将第一音频帧的下一音频帧作为第一音频帧,重复上述第一音频帧的检测过程,即返回执行判断第一音频帧是否符合特殊音频特征的步骤以及后续步骤。若第一音频帧的频带之间的不能量满足第二预设关系式,说明第一音频帧的特征不符合特殊音频特征,将第一音频帧的下一音频帧作为第一音频帧,重复上述第一音频帧的检测过程,直到检测到声音信号的最后一个音频帧。在检测完成最后一个音频帧后,判断SpecialSpectrumCount(i)与声音信号的时长FrameCount是否满足第三关系式,若不满足第三关系式,说明声音信号的频谱参数符合预设频谱特征,即声音信号符合特殊音频的侦测条件,也即声音信号为特殊音频,进而说明声音信号为非玻璃破碎声音,回到初始侦测状态。若满足第三关系式,说明声音信号的频谱参数不符合预设频谱特征,即声音信号不符合特殊音频的侦测条件,进行下一阶段的检测。
其中,第三关系式可以是SpecialSpectrumCount(i)与声音信号的时长FrameCount的大小关系。本申请实施例中,为了排除特殊音频的声音信号,可以设定声音信号的频谱参数符合预设频谱特征的关系式,也即设定SpecialSpectrumCount(i)与声音信号的时长FrameCount不满足第三关系式的条件,例如,SpecialSpectrumCount(i)与声音信号的时长FrameCount不满足第三关系式包括:
(SpecialSpectrumCount(1)>3)且(SpecialSpectrumCount(1)≥FrameCount*2-2)),
或(SpecialSpectrumCount(2)>3)且(SpecialSpectrumCount(2)≥FrameCount*2-2)),
或(SpecialSpectrumCount(3)>3)且(SpecialSpectrumCount(3)≥FrameCount*2-4)),
或(SpecialSpectrumCount(4)>3)且(SpecialSpectrumCount(4)≥FrameCount-2)),
或(SpecialSpectrumCount(5)>3)且(SpecialSpectrumCount(5)≥FrameCount*2-2)),
或(SpecialSpectrumCount(6)>3)且(SpecialSpectrumCount(6)≥FrameCount*2-2)),
或(SpecialSpectrumCount(7)>3)且(SpecialSpectrumCount(7)≥FrameCount-3)),
或SpecialSpectrumCount>10且SpecialSpectrumCount≥FrameCount*4-3,其中,SpecialSpectrumCount=SpecialSpectrumCount(1)+SpecialSpectrumCount(2)+…+SpecialSpectrumCount(7)。
上述实施例中,通过设定多种特殊音频特征对应的第二关系式,可以更全面地排除特殊音频的声音信号,提高玻璃破碎声音侦测的准确度。
在一种可能的实现方式中,电子设备判断声音信号的频带之间的能量差异在第一预设范围内的方法包括:若所述声音信号中,第n音频帧的频带的能量与第n-1音频帧的频带的能量之间满足第四预设关系式,或第n音频帧的频带的能量与第n-2音频帧的频带的能量之间满足第五预设关系式,则更新设定的第二计数值,n表示大于2的整数,且M≥n;若第二计数值与声音信号的时长之间满足第六预设关系式,则确定声音信号的频带之间的能量差异在第一预设范围内。
其中,第n-1音频帧是第n音频帧的前一个音频帧,第n-2音频帧是第n音频帧的前两个音频帧。第n音频帧的频带的能量与第n-1音频帧的频带的能量之间满足第四预设关系式,说明第n音频帧的频带的能量与第n-1音频帧的频带的能量在预设的变化范围内。第n音频帧的频带的能量与第n-2音频帧的频带的能量之间满足第五预设关系式,说明第n音频帧的频带的能量与第n-2音频帧的频带的能量在预设的变化范围内。声音信号的时长可以用声音信号结束时对应的音频帧的帧计数值FrameCount来表示,第六预设关系式可以用于表征第二计数值与所述声音信号的时长之间的大小关系或者比值关系。若所述第二计数值与所述声音信号的时长之间不满足第六预设关系式,说明声音信号中,每个音频帧与其相邻的音频帧存在非变化的频率响应,也即声音信号为固定频谱的声音信号。
在一种可能的实现方式中,电子设备判断声音信号的频带之间的能量差异在第一预设范围内的流程如图10所示,在确定当前的音频帧为爆裂音之后,对于第n音频帧,设定第二计数值ConstantSpectrumCount=0,再判定第n音频帧的频带的能量与第n-1音频帧的频带的能量之间是否满足第四预设关系式,以及第n音频帧的频带的能量与第n-2音频帧的频带的能量之间是否满足第五预设关系式。若仅满足第四预设关系式,说明第n音频帧的频带的能量与第n-1音频帧的频带的能量在预设的变化范围内,NC=NC1,若仅满足第五预设关系式,说明第n音频帧的频带的能量与第n-2音频帧的频带的能量在预设的变化范围内,NC=NC2。若同时满足第四预设关系式和第五预设关系式,NC=NC1+NC2。然后将第二计数值ConstantSpectrumCount更新为ConstantSpectrumCount+NC。其中,NC1和NC2为预先设定的常数,例如,NC1=2,NC2=1。在计算出ConstantSpectrumCount后,对第n+1音频帧,重复上述第n音频帧的检测过程,即返回执行判定第n音频帧的频带的能量与第n-1音频帧的频带的能量之间是否满足第四预设关系式的步骤以及后续步骤。
若第n音频帧的频带的能量与第n-1音频帧的频带的能量差异不在预设的变化范围内,且第n音频帧的频带的能量与第n-2音频帧的频带的能量差异不在预设的变化范围内,对第n+1音频帧,重复上述第n音频帧的检测过程,直到检测到声音信号的最后一个音频帧。在检测完成最后一个音频帧后,判断ConstantSpectrumCount与FrameCount是否满足第六关系式,若不满足第六关系式,说明声音信号的频带之间的能量差异不在第一预设范围内,即声音信号符合固定频谱的侦测条件,也即声音信号为固定频谱的声音信号,不是玻璃破碎声音,回到初始侦测状态。若满足第六关系式,说明声音信号的频带之间的能量差异在第一预设范围内,即声音信号不符合固定频谱的侦测条件,进行下一阶段的检测。
在一种可能的实现方式中,第四预设关系式为(Ef(i)>Ef_Pre(i)*SP_VAR)且(Ef1_Pre(i)>Ef(i)*SP_VAR)),第五预设关系式为(Ef(i)>Ef_Pre2(i)*SP_VAR2)且(Ef1_Pre2(i)>Ef(i)*SP_VAR2)),其中,i=1,2,3,…,Ef(i)表示第n音频帧的第i频带的能量,Ef_Pre(i)表示第n-1音频帧的第i频带的能量,Ef_Pre2(i)表示第n-2音频帧的第i频带的能量,SP_VAR和SP_VAR2为预先设定的常数,例如SP_VAR=0.8,SP_VAR2=0.5。第六关系式为ConstantSpectrumCount<FrameCount*0.6。
在其它可能的实现方式中,也可以根据各音频帧的频带的能量的总和之间的关系确定各音频帧之间的能量差异是否在第一预设范围内。
上述实施例中,通过计算第n音频帧的频带的能量与第n-1音频帧的频带的能量的差异,以及计算第n音频帧的频带的能量与第n-2音频帧的频带的能量的差异,可以排除固定频谱的声音信号,提高玻璃破碎声音的侦测准确度。
在一种可能的实现方式中,电子设备判断声音信号的目标频率之间的差异在第二预设范围内的方法包括:若声音信号中,第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值在预设差值范围内,或第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值在预设差值范围内,则更新设定的第三计数值,n表示大于2的整数,且M≥n,i表示大于0的整数;若第三计数值与声音信号的时长之间满足第七预设关系式,则确定声音信号的目标频率之间的差异在第二预设范围内。
其中,由于目标频率为频带的能量峰值对应的频率,若第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值在预设差值范围内,说明第n音频帧与第n-1音频帧出现了相同的频率峰值。若第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值在预设差值范围内,说明第n音频帧与第n-2音频帧出现了相同的频率峰值。声音信号的时长可以用声音信号结束时对应的音频帧的帧计数值FrameCount来表示,第七预设关系式可以用于表征第三计数值与声音信号的时长之间的大小关系或者比值关系。若第三计数值与声音信号的时长之间不满足第七预设关系式,说明声音信号中存在较长时间的固定共振频率,也即声音信号为共振音频的声音信号。
在一种可能的实现方式中,电子设备判断声音信号的目标频率之间的差异在第二预设范围内的流程如图11所示,在确定当前的音频帧为爆裂音之后,对于第n音频帧,首先进行频带划分,将第n音频帧划分为NA个频带,NA为根据经验值设定的常数,并设定第三计数值SameMaxPeakPosCnt(i)=0,对应地,i=1,2,3,…,NA。
完成频带划分后,计算第n音频帧各频带的目标频率,也即各频带的能量峰值对应的频率。在一种可能的实现方式中,设定频带i的振幅为X(k),则振幅的峰值中的最大值即为能量峰值。其中,k为频带i的频率索引,频率索引与频率对应,k大于0的整数,例如,频带为500~600Hz,频率为500Hz时对应的k=1,频率为505Hz时对应的k=2等。对于每个振幅X(k),若X(k)>X(k-1)且X(k)>X(k-2)*2且X(k)>X(k-3)*3且X(k)>X(k+1)且X(k)>X(k+2)*2且X(k)>X(k+3)*3,则X(k)为一个振幅的峰值,也即波峰值,该波峰值对应的位置为频率索引k。再计算各个振幅峰值的最大值,将振幅峰值的最大值作为频带的能量峰值MaxPeakPosi(n),能量峰值对应的频率为能量峰值对应的位置,也即能量峰值对应的频率索引k。
计算第n音频帧各频带的能量峰值对应的位置后,采用同样的方法计算第n-1音频帧的能量峰值MaxPeakPosi(n-1)及对应的位置,再判定能量峰值MaxPeakPosi(n)对应的位置与能量峰值MaxPeakPosi(n-1)对应的位置是否在预设差值范围内,预设差值范围可以设为1或2。若能量峰值MaxPeakPosi(n)对应的位置与能量峰值MaxPeakPosi(n-1)对应的位置在预设差值范围内,说明第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值在预设差值范围内,则NS=NS1,NS1为预先设定的常数,例如,NS1=1。采用同样的方法计算第n-2音频帧的能量峰值MaxPeakPosi(n-2)及对应的位置,再判定能量峰值MaxPeakPosi(n)对应的位置与能量峰值MaxPeakPosi(n-2)对应的位置是否在预设差值范围内。若能量峰值MaxPeakPosi(n)对应的位置与能量峰值MaxPeakPosi(n-2)对应的位置在预设差值范围内,说明第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值在预设差值范围内,则NS=NS2,NS2为预先设定的常数,例如,NS2=1。若能量峰值MaxPeakPosi(n)对应的位置与能量峰值MaxPeakPosi(n-1)对应的位置,以及能量峰值MaxPeakPosi(n)对应的位置与能量峰值MaxPeakPosi(n-2)对应的位置均在预设差值范围内,则NS=NS1+NS2。然后将第三计数值SameMaxPeakPosCnt(i)更新为SameMaxPeakPosCnt(i)+NS。在计算出SameMaxPeakPosCnt(i)后,对第n+1音频帧,重复上述第n音频帧的检测过程,即返回执行对第n音频帧进行频带划分的步骤以及后续步骤。
若第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值,以及第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值,均不在预设差值范围内,对第n+1音频帧,重复上述第n音频帧的检测过程,直到检测到声音信号的最后一个音频帧。在检测完成最后一个音频帧后,判断SameMaxPeakPosCnt(i)与FrameCount是否满足第七关系式,若不满足第七关系式,说明声音信号的目标频率之间的差异不在第二预设范围内,即声音信号符合共振音频的侦测条件,也即声音信号为共振音频的声音信号,不是玻璃破碎声音,回到初始侦测状态。若满足第七关系式,说明声音信号的目标频率之间的差异在第二预设范围内,继续下一阶段的检测。
本申请实施例中,为了排除共振音频的声音信号,可以设定声音信号符合共振音频的侦测条件的关系式,也即设定SameMaxPeakPosCnt(i)与FrameCount不满足第七关系式的条件,例如,SameMaxPeakPosCnt(i)与FrameCount不满足第七关系式的条件包括:
FrameCount>5且SameMaxPeakPosCnt(0)≥FrameCount*1.5-2;
或FrameCount>5且SameMaxPeakPosCnt(1)≥FrameCount*1.5-2;
或FrameCount>5且SameMaxPeakPosCnt(2)≥FrameCount*1.5-2;
或FrameCount>5且SameMaxPeakPosCnt(3)≥FrameCount*1.5-2;
或FrameCount>5且SameMaxPeakPosCnt(0)+SameMaxPeakPosCnt(1)≥FrameCount*2-2;
或FrameCount>5且SameMaxPeakPosCnt(0)+SameMaxPeakPosCnt(1)+SameMaxPeakPosCnt(2)+SameMaxPeakPosCnt(3)≥FrameCount*3-2))。
上述实施例中,通过计算第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值,以及第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值,可以排除共振音频的声音信号,提高玻璃破碎声音的侦测准确度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的玻璃破碎声音侦测方法,图12示出了本申请实施例提供的玻璃破碎装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
如图12所示,玻璃破碎声音侦测装置包括,
获取模块10,用于获取声音信号,对所述声音信号进行分帧处理,获得M个音频帧,所述M表示大于0的整数;
计算模块20,用于若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值;
判定模块30,用于若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判定所述声音信号为玻璃破碎声音,所述Np表示大于0的整数,且M>Np。
在一种可能的实现方式中,所述计算模块20包括第一计算单元,所述第一计算单元用于:
若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,且在所述当前的音频帧之后的NB个音频帧中侦测到白噪声,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,所述NB表示大于0的整数,且M>NB。
在一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述第一计算单元具体用于:若所述当前的音频帧之后的NB个音频帧中存在目标音频帧,则确定第一计数值的计算公式,所述目标音频帧为频带的能量之间满足第一预设关系式的音频帧,所述第一计算值的计算公式与所述第一预设关系式对应;
根据所述第一计数值的计算公式确定所述第一计数值,若所述第一计数值大于预设第一阈值,则判定所述目标音频帧为白噪声。
在一种可能的实现方式中,所述音频帧包括至少一个子帧,所述频谱参数包括所述子帧的能量,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述计算模块20还包括第二计算单元,所述第二计算单元具体用于:
若所述当前的音频帧的子帧的能量的最大值大于预设第二阈值,则:
根据所述当前的音频帧的子帧的能量确定所述当前的音频帧的能量比;
根据所述当前的音频帧的频带的能量以及所述当前的音频帧的前一音频帧的频带的能量,确定当前的音频帧与所述前一音频帧的能量比;
根据所述当前的音频帧的子帧的能量以及所述前一音频帧的子帧的能量确定所述当前的音频帧与所述前一音频帧的能量差;
根据所述前一音频帧的子帧的能量确定所述前一音频帧的能量比;
若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述当前的音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述前一音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述当前的音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述前一音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述当前的音频帧的能量比大于第七预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述前一音频帧的能量比大于第七预设值;
则确定所述当前的音频帧为爆裂音。
在一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述计算模块20还包括第三计算单元,所述第三计算单元具体用于:
将所述当前的音频帧的各频带的能量总和作为爆裂音峰值;
将所述当前的音频帧的后一音频帧作为第一音频帧;
计算所述第一音频帧的各频带的能量总和;
若所述第一音频帧的各频带的能量总和大于所述爆裂音峰值,则将所述爆裂音峰值更新为所述第一音频帧的各频带的能量总和;
将所述第一音频帧的后一音频帧作为第一音频帧,返回执行所述计算所述第一音频帧的各频带的能量总和的步骤以及后续步骤,直到满足预设结束条件。
在一种可能的实现方式中,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述判定模块30具体用于:
若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,且所述声音信号满足第一预设条件,则判定所述声音信号为玻璃破碎声音;所述第一预设条件包括下述中的任意一个或多个:所述声音信号的时长在预设时长内、所述声音信号的频谱参数符合预设频谱特征、所述声音信号的频带之间的能量差异在第一预设范围内、所述声音信号的目标频率之间的差异在第二预设范围内,所述目标频率为频带的能量峰值对应的频率。
在一种可能的实现方式中,所述判定模块30还用于:
计算所述声音信号的频带的能量相对于所述爆裂音峰值的衰减速度和/或衰减时间;
若所述衰减速度在预设速度范围内,和/或所述衰减时间在预设时间范围内,则确定所述声音信号的时长在预设时长内。
在一种可能的实现方式中,所述判定模块30还用于:
确定所述声音信号中,频带之间的能量满足第二预设关系式的音频帧的数量;
若所述满足第二预设关系式的音频帧的数量,与所述声音信号的时长之间满足第三预设关系式,则确定所述声音信号的第一预设频带的能量符合预设频谱特征。
在一种可能的实现方式中,所述判定模块30还用于:
若所述声音信号中,第n音频帧的频带的能量与第n-1音频帧的频带的能量之间满足第四预设关系式,
或所述第n音频帧的频带的能量与第n-2音频帧的频带的能量之间满足第五预设关系式,则更新设定的第二计数值,所述n表示大于2的整数,且M≥n;
若所述第二计数值与所述声音信号的时长之间满足第六预设关系式,则确定所述声音信号的频带之间的能量差异在第一预设范围内。
在一种可能的实现方式中,所述判定模块30还用于:
若所述声音信号中,第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值在预设差值范围内,
或第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值在预设差值范围内,则更新设定的第三计数值,所述n表示大于2的整数,且M≥n,所述i表示大于0的整数;
若所述第三计数值与所述声音信号的时长之间满足第七预设关系式,则确定所述声音信号的目标频率之间的差异在第二预设范围内。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图13是本申请实施例三提供的电子设备的示意图。如图13所示,该实施例的电子设备包括:处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序23。所述处理器21执行所述计算机程序23时实现上述玻璃破碎声音侦测方法实施例中的步骤,例如图3所示的步骤S101至S103。或者,所述处理器21执行所述计算机程序23时实现上述各装置实施例中各模块/单元的功能,例如图12所示获取模块10至判定模块30的功能。
示例性的,所述计算机程序23可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序23在所述电子设备中的执行过程。
本领域技术人员可以理解,图13仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器22可以是所述电子设备的内部存储单元,例如电子设备的硬盘或内存。所述存储器22也可以是所述电子设备的外部存储设备,例如所述电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器12还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述存储器22用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器22还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (14)
1.一种玻璃破碎声音侦测方法,其特征在于,包括:
获取声音信号,对所述声音信号进行分帧处理,获得M个音频帧,所述M表示大于0的整数;
若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值;
若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判定所述声音信号为玻璃破碎声音,所述Np表示大于0的整数,且M>Np。
2.根据权利要求1所述的玻璃破碎声音侦测方法,其特征在于,所述若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,包括:
若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,且在所述当前的音频帧之后的NB个音频帧中侦测到白噪声,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,所述NB表示大于0的整数,且M>NB。
3.根据权利要求2所述的玻璃破碎声音侦测方法,其特征在于,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述在所述当前的音频帧之后的NB个音频帧中侦测到白噪声,包括:
若所述当前的音频帧之后的NB个音频帧中存在目标音频帧,则确定第一计数值的计算公式,所述目标音频帧为频带的能量之间满足第一预设关系式的音频帧,所述第一计算值的计算公式与所述第一预设关系式对应;
根据所述第一计数值的计算公式确定所述第一计数值,若所述第一计数值大于预设第一阈值,则判定所述目标音频帧为白噪声。
4.根据权利要求1所述的玻璃破碎声音侦测方法,其特征在于,所述音频帧包括至少一个子帧,所述频谱参数包括所述子帧的能量,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,包括:
若所述当前的音频帧的子帧的能量的最大值大于预设第二阈值,则:
根据所述当前的音频帧的子帧的能量确定所述当前的音频帧的能量比;
根据所述当前的音频帧的频带的能量以及所述当前的音频帧的前一音频帧的频带的能量,确定当前的音频帧与所述前一音频帧的能量比;
根据所述当前的音频帧的子帧的能量以及所述前一音频帧的子帧的能量确定所述当前的音频帧与所述前一音频帧的能量差;
根据所述前一音频帧的子帧的能量确定所述前一音频帧的能量比;
若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述当前的音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第一预设值,且所述前一音频帧的能量比大于第二预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述当前的音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量比大于第三预设值,且所述前一音频帧的能量比大于第四预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述当前的音频帧的能量比大于第七预设值;
或,若所述当前的音频帧与所述前一音频帧的能量差大于第五预设值,且所述当前的音频帧与所述前一音频帧的能量比大于第六预设值,且所述前一音频帧的能量比大于第七预设值;
则确定所述当前的音频帧为爆裂音。
5.根据权利要求1所述的玻璃破碎声音侦测方法,其特征在于,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值,包括:
将所述当前的音频帧的各频带的能量总和作为爆裂音峰值;
将所述当前的音频帧的后一音频帧作为第一音频帧;
计算所述第一音频帧的各频带的能量总和;
若所述第一音频帧的各频带的能量总和大于所述爆裂音峰值,则将所述爆裂音峰值更新为所述第一音频帧的各频带的能量总和;
将所述第一音频帧的后一音频帧作为第一音频帧,返回执行所述计算所述第一音频帧的各频带的能量总和的步骤以及后续步骤,直到满足预设结束条件。
6.根据权利要求1所述的玻璃破碎声音侦测方法,其特征在于,所述音频帧包括至少一个频带,所述频谱参数包括所述频带的能量,所述若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判定所述声音信号为玻璃破碎声音,包括:
若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,且所述声音信号满足第一预设条件,则判定所述声音信号为玻璃破碎声音;所述第一预设条件包括下述中的任意一个或多个:所述声音信号的时长在预设时长内、所述声音信号的频谱参数符合预设频谱特征、所述声音信号的频带之间的能量差异在第一预设范围内、所述声音信号的目标频率之间的差异在第二预设范围内,所述目标频率为频带的能量峰值对应的频率。
7.根据权利要求6所述的玻璃破碎声音侦测方法,其特征在于,所述声音信号的时长在预设时长内,包括:
计算所述声音信号的频带的能量相对于所述爆裂音峰值的衰减速度和/或衰减时间;
若所述衰减速度在预设速度范围内,和/或所述衰减时间在预设时间范围内,则确定所述声音信号的时长在预设时长内。
8.根据权利要求6所述的玻璃破碎声音侦测方法,其特征在于,所述声音信号的频谱参数符合预设频谱特征,包括:
确定所述声音信号中,频带的能量之间满足第二预设关系式的音频帧的数量;
若所述满足第二预设关系式的音频帧的数量,与所述声音信号的时长之间满足第三预设关系式,则确定所述声音信号的第一预设频带的能量符合预设频谱特征。
9.根据权利要求6所述的玻璃破碎声音侦测方法,其特征在于,所述声音信号的频带之间的能量差异在第一预设范围内,包括:
若所述声音信号中,第n音频帧的频带的能量与第n-1音频帧的频带的能量之间满足第四预设关系式,
或,若所述第n音频帧的频带的能量与第n-2音频帧的频带的能量之间满足第五预设关系式,则更新设定的第二计数值,所述n表示大于2的整数,且M≥n;
若所述第二计数值与所述声音信号的时长之间满足第六预设关系式,则确定所述声音信号的频带之间的能量差异在第一预设范围内。
10.根据权利要求6所述的玻璃破碎声音侦测方法,其特征在于,所述声音信号的目标频率之间的差异在第二预设范围内,包括:
若所述声音信号中,第n音频帧的第i频带的目标频率与第n-1音频帧的第i频带的目标频率之间的差值在预设差值范围内,
或,若所述声音信号中,第n音频帧的第i频带的目标频率与第n-2音频帧的第i频带的目标频率之间的差值在预设差值范围内,则更新设定的第三计数值,所述n表示大于2的整数,且M≥n,所述i表示大于0的整数;
若所述第三计数值与所述声音信号的时长之间满足第七预设关系式,则确定所述声音信号的目标频率之间的差异在第二预设范围内。
11.一种玻璃破碎声音侦测装置,其特征在于,包括:
获取模块,用于获取声音信号,对所述声音信号进行分帧处理,获得M个音频帧,所述M表示大于0的整数;
计算模块,用于若根据当前的音频帧的频谱参数确定所述当前的音频帧为爆裂音,则根据所述当前的音频帧的频谱参数,以及所述当前的音频帧之后的音频帧的频谱参数,确定爆裂音峰值;
判定模块,用于若所述当前的音频帧之后的Np个音频帧的能量相对于所述爆裂音峰值的衰减量,都在预设衰减范围内,则判定所述声音信号为玻璃破碎声音,所述Np表示大于0的整数,且M>Np。
12.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的方法。
13.一种玻璃破碎声音侦测系统,其特征在于,包括:声音采集装置、报警装置以及如权利要求12所述的电子设备,所述电子设备与所述声音采集装置以及所述报警装置通信连接。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011180908.7A CN114429769B (zh) | 2020-10-29 | 2020-10-29 | 玻璃破碎声音侦测方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011180908.7A CN114429769B (zh) | 2020-10-29 | 2020-10-29 | 玻璃破碎声音侦测方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114429769A true CN114429769A (zh) | 2022-05-03 |
CN114429769B CN114429769B (zh) | 2025-04-04 |
Family
ID=81309659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011180908.7A Active CN114429769B (zh) | 2020-10-29 | 2020-10-29 | 玻璃破碎声音侦测方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114429769B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5742232A (en) * | 1994-07-18 | 1998-04-21 | Nippondenso Co., Ltd. | Glass breaking detection device |
US5796336A (en) * | 1996-03-08 | 1998-08-18 | Denso Corporation | Glass breakage detecting device |
US6236313B1 (en) * | 1997-10-28 | 2001-05-22 | Pittway Corp. | Glass breakage detector |
US20050199064A1 (en) * | 2004-02-10 | 2005-09-15 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for detecting and discriminating impact sound |
US20060100828A1 (en) * | 2004-11-10 | 2006-05-11 | Samsung Electronics Co., Ltd. | Impulse event separating apparatus and method |
KR20160120018A (ko) * | 2015-04-07 | 2016-10-17 | 주식회사 에스원 | 이상 음원 감지 방법 및 시스템 |
CN108492837A (zh) * | 2018-03-23 | 2018-09-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频突发白噪声的检测方法、装置及存储介质 |
-
2020
- 2020-10-29 CN CN202011180908.7A patent/CN114429769B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5742232A (en) * | 1994-07-18 | 1998-04-21 | Nippondenso Co., Ltd. | Glass breaking detection device |
US5796336A (en) * | 1996-03-08 | 1998-08-18 | Denso Corporation | Glass breakage detecting device |
US6236313B1 (en) * | 1997-10-28 | 2001-05-22 | Pittway Corp. | Glass breakage detector |
US20050199064A1 (en) * | 2004-02-10 | 2005-09-15 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for detecting and discriminating impact sound |
US20060100828A1 (en) * | 2004-11-10 | 2006-05-11 | Samsung Electronics Co., Ltd. | Impulse event separating apparatus and method |
KR20160120018A (ko) * | 2015-04-07 | 2016-10-17 | 주식회사 에스원 | 이상 음원 감지 방법 및 시스템 |
CN108492837A (zh) * | 2018-03-23 | 2018-09-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频突发白噪声的检测方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
ARSLAN, Y等: "Impulsive Sound Detection and Gunshot Recognition", 2015 23RD SIGNAL PROCESSING AND COMMUNICATIONS APPLICATIONS CONFERENCE (SIU), 19 May 2015 (2015-05-19) * |
赵杰: "基于深度学习的危险声音检测技术研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 2020, 15 August 2020 (2020-08-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114429769B (zh) | 2025-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6606167B2 (ja) | 音声区間検出方法及び装置 | |
CN110782910B (zh) | 一种高检出率的啸叫音频检测系统 | |
WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
US20200372925A1 (en) | Method and device of denoising voice signal | |
CN107993648A (zh) | 一种无人机识别方法、装置及电子设备 | |
WO2021223518A1 (zh) | 适用于人工耳蜗的风噪抑制方法及其系统 | |
CN109102819A (zh) | 一种啸叫检测方法及装置 | |
US12235896B2 (en) | Methods and apparatus to fingerprint an audio signal via exponential normalization | |
EP3118852A1 (en) | Method and device for detecting audio signal | |
AU2019335404B2 (en) | Methods and apparatus to fingerprint an audio signal via normalization | |
CN107210029A (zh) | 用于处理一连串信号以进行复调音符辨识的方法和装置 | |
CN110853677B (zh) | 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质 | |
CN114429769B (zh) | 玻璃破碎声音侦测方法及相关设备 | |
EP2187385A1 (en) | Pitch detection apparatus and method | |
Cheng et al. | Improving piano note tracking by HMM smoothing | |
CN103929704A (zh) | 一种基于变换域的自适应声反馈消除的方法和系统 | |
JP4630956B2 (ja) | ハウリング周波数成分強調方法およびその装置、ハウリング検出方法およびその装置、ハウリング抑圧方法およびその装置、ピーク周波数成分強調方法およびその装置 | |
CN108986799A (zh) | 一种基于倒谱滤波的混响参数估计方法 | |
CN106847299B (zh) | 延时的估计方法及装置 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
WO2018176654A1 (zh) | 增益调节方法、装置、音频编码器及音响设备 | |
JP4165059B2 (ja) | 能動型消音装置 | |
CN112017649B (zh) | 音频处理方法、装置、电子设备及可读存储介质 | |
CN109308910A (zh) | 确定音频的bpm的方法和装置 | |
CN113257284B (zh) | 语音活动检测模型训练、语音活动检测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |