[go: up one dir, main page]

CN102543079A - 一种实时的音频信号分类方法及设备 - Google Patents

一种实时的音频信号分类方法及设备 Download PDF

Info

Publication number
CN102543079A
CN102543079A CN2011104309646A CN201110430964A CN102543079A CN 102543079 A CN102543079 A CN 102543079A CN 2011104309646 A CN2011104309646 A CN 2011104309646A CN 201110430964 A CN201110430964 A CN 201110430964A CN 102543079 A CN102543079 A CN 102543079A
Authority
CN
China
Prior art keywords
classification
current frame
frame
mdct
mdct spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104309646A
Other languages
English (en)
Inventor
林志斌
孔庆胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN2011104309646A priority Critical patent/CN102543079A/zh
Publication of CN102543079A publication Critical patent/CN102543079A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种实时的音频信号分类方法及设备,涉及音频编解码与传输领域。本发明公开的实时音频信号分类方法,包括:对输入的音频信号进行预处理,在时域和MDCT域提取多级音频特征,对当前帧处于分类的收敛时间帧I内采用单个音频特征分类;对处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类,分类特征采用多级特征判断;当前帧经过粗细分级规则分类后,根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。

Description

一种实时的音频信号分类方法及设备
一、技术领域
本发明涉及音频编解码与传输领域,尤其涉及一种实时的音频信号分类方法及设备。
二、背景技术
在音频信号进行编码、传输或其他处理前对信号进行分类,可以有效地提高编码和传输的效率,由于多媒体音频信号的传输是在基于实时传输的模式框架下,对音频信号的实时分类是一个重要的研究内容。
国内外对音频信号分类的研究大多集中在长时间的分类上,如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法,如支持向量机的分类器,神经网络分类器等。由于处理时间比较长,这些方法在音频实时分类上实用性不高。
目前对音频分类的算法基本是在时域或频域中实现的,而现在流行的编码方式,如MP3,AAC等都利用MDCT变换处理,为了减少额外运算操作,直接提取MDCT域和时域上的特征进行分析,能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类设备。
三、发明内容
1、发明目的:本发明的目的是提供一种实时的音频信号分类方法及设备,进行快速的实时分类,减少额外运算,提高音频信号实时分类的精确度,发挥音频信号分类对音频编码与音频传输重要作用。
2、技术方案:为实现上述发明目的,本发明公开一种实时的音频信号分类方法,包括:
对输入的音频信号进行分帧及高通滤波处理后,进行当前帧静音检测,计算MDCT变换,在时域和MDCT域提取音频特征,当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类,若所述当前帧处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类,且所述当前帧经过粗细分级规则分类后,根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。
进一步地,上述方法中,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
进一步地所述方法中,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
进一步地,所述方法中,对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
所述通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
所述的第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
本发明还提供一种实时的音频信号分类设备,包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块,其中:
所述预处理模块,它包括对音频信号进行预处理与静音检测;
所述特征提取模块,它包括对处理后的音频信号在时域与MDCT域中进行实时特征提取;
所述粗细分级规则分类模块,它包括将获取的音频特征按照一定规则放置,按照基于粗细分级规则的方法进行分类;
所述分类结果修正模块,它包括对所述的原分类结果进行修正,最后输出精确地音频信号分类结果。
进一步地,上述设备中,所述预处理模块采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
进一步地,上述设备中,所述特征提取模块通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
进一步地,上述设备中,所述粗细分级规则分类模块通过对前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
所述对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。。
进一步地,上述设备中,所述分类结果修正模块通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
所述的第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
本发明技术方案通过简单的粗细分级规则提高音频信号实时分类准确性,从而大大提高音频编解码效率,本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务等音频编解码领域的音频信号分类判决。
四、附图说明
图1是用于语音频编码器的音频信号分类应用框图。
图2是一种实时的音频信号分类设备结构框图。
图3是音频信号静音判断框图。
图4是分类的收敛时间帧I内单一特征分类框图。
图5是分类的收敛时间帧I后单一特征粗分类框图。
图6是类语音信号分级规则分类框图。
图7是类音乐信号分级规则分类框图。
图8是分类结果修正模块框图。
五、具体实施方式
本发明的主要构思是,对语音频编解码器可以采用一种实时的音频信号分类方法进行编码前语音频信号类别判决(如图1),在此基础上根据判决类似选择适用于语音或者音频的编码器,从而提高语音频编解码器的对不同类型信号的编码效率,具体过程如下:
步骤1、信号分帧及高通滤波处理,滤除不必要低频信号;静音检测,采用短时过零率进行当前帧静音检测,当所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。;
步骤2、MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和;
步骤3、信号分类的收敛时间帧I内时单一特征信号类别分类;
步骤4、信号分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和;
步骤5、信号类别粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
步骤6、信号类别粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
步骤7、通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
下面结合附图及实施例对本发明方案做进一步详细说明。
一种实时的音频信号分类设备,如图2所示,包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块。下面介绍各模块的功能。
预处理模块,首先是将音频流x(n)进行信号分帧和高通滤波,其次是采用短时平均过零率进行静音检测,如图3所示,当短时平均过零率大于第一设定值
Figure BSA00000640155400041
时,判断该帧为非静音帧,短时平均过零率计算采用如下公式1:
Z n = 1 2 N Σ m = - ∞ ∞ | sgn [ x ( m ) ] - sgn [ x ( m - 1 ) ] | h ( n - m ) (公式1)
其中N是帧长度,sgn[·]为符号函数,即:
sgn [ x ( n ) ] = 1 ( x ( n ) &GreaterEqual; 0 ) - 1 ( x ( n ) < 0 ) (公式2)
窗函数h(n)为矩形窗,即:
Figure BSA00000640155400051
特征提取模块,用于预处理后进行MDCT变化和时域及其MDCT域特征提取。首先采用MDCT(Modified Discrete Cosine Transform)变换得到频域系数:
将N点当前帧时域数据x(n)与上一帧N点时域数据x(n-N)叠组成2N点时域数据进行MDCT变换,对于本实施例,采用16kHz采样信号,N取320。
X ( k ) = &Sigma; n = 0 2 N - 1 x ( n ) * w ( n ) * cos [ &pi; N ( n + 1 2 + N 2 ) ( k + 1 2 ) ] , k = 0 . . . N - 1 (公式4)
其中w(n)表示sin窗函数,表达式为:
w ( n ) = sin [ &pi; 2 N ( n + 1 2 ) ] , n = 0 . . . 2 N - 1 (公式5)
时域及其MDCT频域特征提取:
(1)短时过零率Zn,判断阈值为
Figure BSA00000640155400054
Figure BSA00000640155400055
Figure BSA00000640155400056
(2)MDCT频谱谐波结构稳定性HSS:
步骤1、搜索每帧MDCT频谱中每一个峰值点记为Pl,Pl表示该帧的第l个峰值;
步骤2、变换Pl成标准的对数尺度上,记为LPl,变换如公式6所示:
LP l = log ( P l ) - log ( &Sigma; l P l ) , l = 1 , . . . , L (公式6)
其中L为最后一个峰值;
步骤3、计算每个LPl的方差即为HSS,HSS的判断阈值记为
Figure BSA00000640155400058
Figure BSA00000640155400059
Figure BSA000006401554000510
(3)MDCT频谱子带能量Eb
所述MDCT频谱子带是指MDCT频谱系数等间距分为M个子带,本实施例M为32,子带能量如公式7计算所得:
E b ( j ) = &Sigma; k = N / M * j N / M * j + 1 X ( k ) * X ( k ) , j = 0 , . . , M - 1 (公式7)
其中j是子带序号,Eb的第一个子带能量的判断阈值记为
Figure BSA000006401554000512
(4)MDCT频谱子带能量变化统计值CSF
计算MDCT频谱流量SF(j):
SF ( j ) = &Sigma; n = 1 Q | log E b ( i , j ) - log E b ( i - 1 , j ) | (公式8)
其中Eb(i,j)为时间帧第i帧的第j个子带能量,Q为计算的频谱流量的时间帧数,本实施例中Q取6。
计算SF(j)中超过设定值THRSF个数CSF,对应的判断阈值为设定值
Figure BSA00000640155400062
Figure BSA00000640155400063
(5)MDCT频谱质心变化值δc
步骤1、计算各帧MDCT频谱质心值:
SC = &Sigma; k = 0 N - 1 p ( k ) F ( k ) (公式9)
其中F(k)=k+1,p(n)的计算如公式10:
p(k)=Ω(k)/max(Ω(k))                (公式10)
其中Ω(k)=abs(X(k))。
步骤2、计算MDCT频谱质心变化值:
&delta; c = &Sigma; i - O + 1 i | SC ( i ) - SC ( i - 1 ) | (公式11)
O为要计算的相邻帧数。本实施例中O取4。δc的判断阈值记为
Figure BSA00000640155400067
(6)MDCT频谱系数前四个参数绝对值之和El
计算MDCT频谱系数前四个参数绝对值之和,其结果记为El,其判断阈值标志为
Figure BSA00000640155400069
Figure BSA000006401554000610
粗细分级规则分类模块,是一种基于粗细分级的规则分类方法,具体包含以下过程:
所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量Eb,如图4所示,MDCT频谱子带能量第一能量子带Eb(0)大于
Figure BSA000006401554000612
则判定为语音信号帧,反之为音乐信号帧。
所述当前帧处于分类的收敛时间帧I后时采用单一特征分类,若MDCT频谱变换系数第一能量子带Eb(0)大于
Figure BSA000006401554000613
则判定为类语音信号帧,反之为类音乐信号帧,粗分类如图5所示。
所述对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
所述类语音分级规则分类过程如图6所示,具体过程如下:
比较MDCT频谱子带能量变化统计值CSF与CSF第二判断阈值
Figure BSA00000640155400071
大小,若大于
Figure BSA00000640155400072
则输出当前帧为语音信号帧,否则进入第二级判断;
第二级判断比较MDCT频谱子带能量变化统计值CSF与CSF第三判断阈值
Figure BSA00000640155400073
大小,若小于
Figure BSA00000640155400074
则输出当前帧为音乐信号帧,否则进入第三级判断;
第三级判断比较MDCT频谱质心变化值δc与δc第三判断阈值
Figure BSA00000640155400075
若大于
Figure BSA00000640155400076
则输出当前帧为语音信号帧,否则进入第四级判断;
第四级判断比较MDCT频谱系数前四个参数绝对值之和El与El第二判断阈值
Figure BSA00000640155400077
大小,若大于
Figure BSA00000640155400078
则输出当前帧为音乐信号帧,否则进入第五级判断;
第五级判断比较MDCT频谱系数前四个参数绝对值之和El与El第三判断阈值
Figure BSA00000640155400079
大小,若小于
Figure BSA000006401554000710
则输出当前帧为语音信号帧,否则进入第六级判断;
第六级判断比较MDCT频谱谐波结构稳定性HSS与HSS第三判断阈值
Figure BSA000006401554000711
和第七判断阈值
Figure BSA000006401554000712
大小,若HSS属于区间,则判定为音乐信号帧,否则进入第七级判断;
第七级判断比较MDCT频谱谐波结构稳定性HSS与HSS第二判断阈值和第六判断阈值大小,同时比较短时过零率Zn与Zn第一判断阈值
Figure BSA000006401554000716
和第三判断阈值
Figure BSA000006401554000717
大小,若HSS属于
Figure BSA000006401554000718
区间且Zn属于
Figure BSA000006401554000719
区间,则判断为音乐信号帧,反之则判断为语音信号帧,类语音信号分级规则分类模块输出音频信号分类结果。
所述类音乐分级规则分类过程如图7所示,具体过程如下:
比较MDCT频谱质心变化值δc与δc第一判断阈值
Figure BSA000006401554000720
若大于
Figure BSA000006401554000721
则输出当前帧为语音信号帧,否则进入第二级判断;
第二级判断比较MDCT频谱质心变化值δc与δc第二判断阈值
Figure BSA000006401554000722
若小于或等于
Figure BSA000006401554000723
则输出当前帧为音乐信号帧,否则进入第三级判断;
第三级判断比较MDCT频谱谐波结构稳定性HSS与HSS第四判断阈值
Figure BSA00000640155400081
和第二判断阈值大小,同时比较短时过零率Zn与Zn第一判断阈值
Figure BSA00000640155400083
和第二判断阈值
Figure BSA00000640155400084
大小,若HSS属于
Figure BSA00000640155400085
区间且Zn属于
Figure BSA00000640155400086
区间,则输出当前帧为音乐信号帧,否则进入第四级判断;
第四级判断比较MDCT频谱谐波结构稳定性HSS与HSS第五判断阈值大小,若大于
Figure BSA00000640155400088
则输出当前帧为语音信号帧,否则进入第五级判断;
第五级判断比较MDCT频谱谐波结构稳定性HSS与HSS第一判断阈值
Figure BSA00000640155400089
大小,同时比较MDCT频谱子带能量变化统计值CSF与CSF第一判断阈值
Figure BSA000006401554000810
大小,若HSS大于
Figure BSA000006401554000811
且CSF大于
Figure BSA000006401554000812
则输出当前帧为语音信号帧,否则进入第六级判断;
第六级判断比较MDCT频谱系数前四个参数绝对值之和El与El第一判断阈值大小,同时比较MDCT频谱子带能量变化统计值CSF与CSF第四判断阈值
Figure BSA000006401554000814
大小,若El小于
Figure BSA000006401554000815
且CSF大于
Figure BSA000006401554000816
则判断为语音信号帧,反之则判断为音乐信号帧,类音乐信号分级规则分类模块输出音频信号分类结果。
分类结果修正模块,其特征在于,通过存储分类结果的历史状态,即存储当前帧的前T-1帧的原始分类结果及当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果,反之统计出现频率最高的音频信号分类结果作为当前帧的分类结果,本实施例中T取10,分类结果修正模块框图如图8所示。
其中,所述的一种实时的音频信号分类设备中所涉及的音频特征参数对应的多级判定阈值,其数值如表1所示。
下面对本发明技术方案的分类效果进行评估。
本次评估使用EBU SQAM的语音频素材,中文采用国家标准GSBM 6001-89音质评价样件《美谈不美》的中文样本,共71个音频样本。信号为原始音频信号,信号采样率为16KHz,每帧长度为20ms。评估结果见表2。
表1音频特征参数对应的多级判定阈值
Figure BSA00000640155400091
表2音频信号分类效果测试结果
  信号类别   正确率%
  音乐
  单频音频   99.6
  电子乐器   96.9
  弦乐器   96.6
  管乐器   97.8
  打击乐器   94.5
  风琴类乐器   95.0
  语音
  男声   95.6
  女声   96.9
本发明所述技术方案对语音的正确分辨率平均为96.22%,音乐的正确分辨率平均为96.23%,分类效果好。本发明技术方案在现有语音频编解码器通用的MDCT域进行音频特征的提取,避免了额外变换的复杂运算,使音频信号分类更为快速;对音频信号的分类处理是实时的,可有效地提高音频传输、音频编码等音频信号处理的效率。

Claims (18)

1.一种实时的音频信号分类方法,其特征在于,包括:
对输入的音频信号进行分帧及高通滤波处理后,进行当前帧静音检测,计算MDCT变换,在时域和MDCT域提取音频特征,当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类,若所述当前帧处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类,且所述当前帧经过粗细分级规则分类后,根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类型。
2.根据权利要求1所述的方法,其特征在于,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
3.根据权利要求1所述的方法,其特征在于,通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
4.根据权利要求1所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
5.根据权利要求1所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
6.根据权利要求5所述的方法,其特征在于,将所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
7.根据权利要求5或6所述的方法,其特征在于,对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
8.根据权利要求1所述的方法,其特征在于,通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
9.根据权利要求1或2或4或7所述的方法,其特征在于,第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
10.一种实时的音频信号分类设备,其特征在于,该设备包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块,其中:
所述预处理模块,它包括对音频信号进行预处理与静音检测;
所述特征提取模块,它包括对处理后的音频信号在时域与MDCT域中进行实时特征提取;
所述粗细分级规则分类模块,它包括将获取的音频特征按照一定规则放置,按照基于粗细分级规则的方法进行分类;
所述分类结果修正模块,它包括对所述的原分类结果进行修正,最后输出精确的音频信号分类结果。
11.根据权利要求10所述的方法,其特征在于,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
12.根据权利要求10所述的方法,其特征在于,通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
13.根据权利要求10所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
14.根据权利要求10所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
15.根据权利要求14所述的方法,其特征在于,将所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
16.根据权利要求14或15所述的方法,其特征在于,对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
17.根据权利要求10所述的方法,其特征在于,通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
18.根据权利要求10或11或13或16所述的方法,其特征在于,第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
CN2011104309646A 2011-12-21 2011-12-21 一种实时的音频信号分类方法及设备 Pending CN102543079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104309646A CN102543079A (zh) 2011-12-21 2011-12-21 一种实时的音频信号分类方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104309646A CN102543079A (zh) 2011-12-21 2011-12-21 一种实时的音频信号分类方法及设备

Publications (1)

Publication Number Publication Date
CN102543079A true CN102543079A (zh) 2012-07-04

Family

ID=46349818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104309646A Pending CN102543079A (zh) 2011-12-21 2011-12-21 一种实时的音频信号分类方法及设备

Country Status (1)

Country Link
CN (1) CN102543079A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015018121A1 (zh) * 2013-08-06 2015-02-12 华为技术有限公司 一种音频信号分类方法和装置
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN106256001A (zh) * 2014-02-24 2016-12-21 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN108074584A (zh) * 2016-11-18 2018-05-25 南京大学 一种基于信号多特征统计的音频信号分类方法
CN108242241A (zh) * 2016-12-23 2018-07-03 中国农业大学 一种纯语音快速筛选方法及其装置
CN109671425A (zh) * 2018-12-29 2019-04-23 广州酷狗计算机科技有限公司 音频分类方法、装置及存储介质
CN110931044A (zh) * 2019-12-12 2020-03-27 上海立可芯半导体科技有限公司 收音机搜频方法、频道分类方法和电子设备
CN111161728A (zh) * 2019-12-26 2020-05-15 珠海格力电器股份有限公司 一种智能设备的唤醒方法、装置、设备及介质
WO2020253694A1 (zh) * 2019-06-17 2020-12-24 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN113748461A (zh) * 2019-04-18 2021-12-03 杜比实验室特许公司 对话检测器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254352A1 (en) * 2005-12-14 2009-10-08 Matsushita Electric Industrial Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
CN102099856A (zh) * 2008-07-17 2011-06-15 弗劳恩霍夫应用研究促进协会 具有可切换旁路的音频编码/解码方案

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254352A1 (en) * 2005-12-14 2009-10-08 Matsushita Electric Industrial Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
CN102099856A (zh) * 2008-07-17 2011-06-15 弗劳恩霍夫应用研究促进协会 具有可切换旁路的音频编码/解码方案

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔庆胜,林志斌: "一种实时的语音/音乐分类器的设计", 《2010年声频工程学术交流年会论文集》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803879B2 (en) 2013-03-26 2020-10-13 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN106409310B (zh) * 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN106409313B (zh) * 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
CN106409310A (zh) * 2013-08-06 2017-02-15 华为技术有限公司 一种音频信号分类方法和装置
US12198719B2 (en) 2013-08-06 2025-01-14 Huawei Technologies Co., Ltd. Audio signal classification based on frequency spectrum fluctuation
US11756576B2 (en) 2013-08-06 2023-09-12 Huawei Technologies Co., Ltd. Classification of audio signal as speech or music based on energy fluctuation of frequency spectrum
US11289113B2 (en) 2013-08-06 2022-03-29 Huawei Technolgies Co. Ltd. Linear prediction residual energy tilt-based audio signal classification method and apparatus
US10090003B2 (en) 2013-08-06 2018-10-02 Huawei Technologies Co., Ltd. Method and apparatus for classifying an audio signal based on frequency spectrum fluctuation
CN106409313A (zh) * 2013-08-06 2017-02-15 华为技术有限公司 一种音频信号分类方法和装置
WO2015018121A1 (zh) * 2013-08-06 2015-02-12 华为技术有限公司 一种音频信号分类方法和装置
US10529361B2 (en) 2013-08-06 2020-01-07 Huawei Technologies Co., Ltd. Audio signal classification method and apparatus
US10504540B2 (en) 2014-02-24 2019-12-10 Samsung Electronics Co., Ltd. Signal classifying method and device, and audio encoding method and device using same
CN106256001A (zh) * 2014-02-24 2016-12-21 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN108074584A (zh) * 2016-11-18 2018-05-25 南京大学 一种基于信号多特征统计的音频信号分类方法
CN108242241A (zh) * 2016-12-23 2018-07-03 中国农业大学 一种纯语音快速筛选方法及其装置
CN109671425B (zh) * 2018-12-29 2021-04-06 广州酷狗计算机科技有限公司 音频分类方法、装置及存储介质
CN109671425A (zh) * 2018-12-29 2019-04-23 广州酷狗计算机科技有限公司 音频分类方法、装置及存储介质
CN113748461A (zh) * 2019-04-18 2021-12-03 杜比实验室特许公司 对话检测器
WO2020253694A1 (zh) * 2019-06-17 2020-12-24 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN110931044A (zh) * 2019-12-12 2020-03-27 上海立可芯半导体科技有限公司 收音机搜频方法、频道分类方法和电子设备
CN111161728A (zh) * 2019-12-26 2020-05-15 珠海格力电器股份有限公司 一种智能设备的唤醒方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN102543079A (zh) 一种实时的音频信号分类方法及设备
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN103117067B (zh) 一种低信噪比下语音端点检测方法
CN103489454B (zh) 基于波形形态特征聚类的语音端点检测方法
CN103646649A (zh) 一种高效的语音检测方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN109036458A (zh) 一种基于音频特征参数的多语种场景分析方法
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN105895078A (zh) 动态选择语音模型的语音识别方法及装置
CN1920947A (zh) 用于低比特率音频编码的语音/音乐检测器
CN104064196B (zh) 一种基于语音前端噪声消除的提高语音识别准确率的方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN108364641A (zh) 一种基于长时帧背景噪声估计的语音情感特征提取方法
CN101145345A (zh) 音频分类方法
CN101930733B (zh) 一种用于语音情感识别的语音情感特征提取方法
CN106847267A (zh) 一种连续语音流中的叠音检测方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN103021421A (zh) 用于枪声的多级筛选检测识别方法
CN102623007B (zh) 基于可变时长的音频特征分类方法
CN101256772A (zh) 确定非噪声音频信号归属类别的方法和装置
CN102201230B (zh) 一种突发事件语音检测方法
Lee et al. Speech/audio signal classification using spectral flux pattern recognition
Anusuya et al. Speaker independent kannada speech recognition using vector quantization
CN101383149B (zh) 弦乐音乐颤音自动检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120704