CN102543079A - 一种实时的音频信号分类方法及设备 - Google Patents
一种实时的音频信号分类方法及设备 Download PDFInfo
- Publication number
- CN102543079A CN102543079A CN2011104309646A CN201110430964A CN102543079A CN 102543079 A CN102543079 A CN 102543079A CN 2011104309646 A CN2011104309646 A CN 2011104309646A CN 201110430964 A CN201110430964 A CN 201110430964A CN 102543079 A CN102543079 A CN 102543079A
- Authority
- CN
- China
- Prior art keywords
- classification
- current frame
- frame
- mdct
- mdct spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000005236 sound signal Effects 0.000 title claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 72
- 230000008859 change Effects 0.000 claims description 37
- 230000009466 transformation Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000003045 statistical classification method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种实时的音频信号分类方法及设备,涉及音频编解码与传输领域。本发明公开的实时音频信号分类方法,包括:对输入的音频信号进行预处理,在时域和MDCT域提取多级音频特征,对当前帧处于分类的收敛时间帧I内采用单个音频特征分类;对处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类,分类特征采用多级特征判断;当前帧经过粗细分级规则分类后,根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。
Description
一、技术领域
本发明涉及音频编解码与传输领域,尤其涉及一种实时的音频信号分类方法及设备。
二、背景技术
在音频信号进行编码、传输或其他处理前对信号进行分类,可以有效地提高编码和传输的效率,由于多媒体音频信号的传输是在基于实时传输的模式框架下,对音频信号的实时分类是一个重要的研究内容。
国内外对音频信号分类的研究大多集中在长时间的分类上,如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法,如支持向量机的分类器,神经网络分类器等。由于处理时间比较长,这些方法在音频实时分类上实用性不高。
目前对音频分类的算法基本是在时域或频域中实现的,而现在流行的编码方式,如MP3,AAC等都利用MDCT变换处理,为了减少额外运算操作,直接提取MDCT域和时域上的特征进行分析,能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类设备。
三、发明内容
1、发明目的:本发明的目的是提供一种实时的音频信号分类方法及设备,进行快速的实时分类,减少额外运算,提高音频信号实时分类的精确度,发挥音频信号分类对音频编码与音频传输重要作用。
2、技术方案:为实现上述发明目的,本发明公开一种实时的音频信号分类方法,包括:
对输入的音频信号进行分帧及高通滤波处理后,进行当前帧静音检测,计算MDCT变换,在时域和MDCT域提取音频特征,当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类,若所述当前帧处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类,且所述当前帧经过粗细分级规则分类后,根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。
进一步地,上述方法中,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
进一步地所述方法中,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
进一步地,所述方法中,对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
所述通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
所述的第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
本发明还提供一种实时的音频信号分类设备,包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块,其中:
所述预处理模块,它包括对音频信号进行预处理与静音检测;
所述特征提取模块,它包括对处理后的音频信号在时域与MDCT域中进行实时特征提取;
所述粗细分级规则分类模块,它包括将获取的音频特征按照一定规则放置,按照基于粗细分级规则的方法进行分类;
所述分类结果修正模块,它包括对所述的原分类结果进行修正,最后输出精确地音频信号分类结果。
进一步地,上述设备中,所述预处理模块采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
进一步地,上述设备中,所述特征提取模块通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
进一步地,上述设备中,所述粗细分级规则分类模块通过对前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
所述对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。。
进一步地,上述设备中,所述分类结果修正模块通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
所述的第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
本发明技术方案通过简单的粗细分级规则提高音频信号实时分类准确性,从而大大提高音频编解码效率,本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务等音频编解码领域的音频信号分类判决。
四、附图说明
图1是用于语音频编码器的音频信号分类应用框图。
图2是一种实时的音频信号分类设备结构框图。
图3是音频信号静音判断框图。
图4是分类的收敛时间帧I内单一特征分类框图。
图5是分类的收敛时间帧I后单一特征粗分类框图。
图6是类语音信号分级规则分类框图。
图7是类音乐信号分级规则分类框图。
图8是分类结果修正模块框图。
五、具体实施方式
本发明的主要构思是,对语音频编解码器可以采用一种实时的音频信号分类方法进行编码前语音频信号类别判决(如图1),在此基础上根据判决类似选择适用于语音或者音频的编码器,从而提高语音频编解码器的对不同类型信号的编码效率,具体过程如下:
步骤1、信号分帧及高通滤波处理,滤除不必要低频信号;静音检测,采用短时过零率进行当前帧静音检测,当所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。;
步骤2、MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和;
步骤3、信号分类的收敛时间帧I内时单一特征信号类别分类;
步骤4、信号分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和;
步骤5、信号类别粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
步骤6、信号类别粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
步骤7、通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
下面结合附图及实施例对本发明方案做进一步详细说明。
一种实时的音频信号分类设备,如图2所示,包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块。下面介绍各模块的功能。
其中N是帧长度,sgn[·]为符号函数,即:
窗函数h(n)为矩形窗,即:
特征提取模块,用于预处理后进行MDCT变化和时域及其MDCT域特征提取。首先采用MDCT(Modified Discrete Cosine Transform)变换得到频域系数:
将N点当前帧时域数据x(n)与上一帧N点时域数据x(n-N)叠组成2N点时域数据进行MDCT变换,对于本实施例,采用16kHz采样信号,N取320。
其中w(n)表示sin窗函数,表达式为:
时域及其MDCT频域特征提取:
(2)MDCT频谱谐波结构稳定性HSS:
步骤1、搜索每帧MDCT频谱中每一个峰值点记为Pl,Pl表示该帧的第l个峰值;
步骤2、变换Pl成标准的对数尺度上,记为LPl,变换如公式6所示:
其中L为最后一个峰值;
(3)MDCT频谱子带能量Eb
所述MDCT频谱子带是指MDCT频谱系数等间距分为M个子带,本实施例M为32,子带能量如公式7计算所得:
(4)MDCT频谱子带能量变化统计值CSF
计算MDCT频谱流量SF(j):
其中Eb(i,j)为时间帧第i帧的第j个子带能量,Q为计算的频谱流量的时间帧数,本实施例中Q取6。
(5)MDCT频谱质心变化值δc:
步骤1、计算各帧MDCT频谱质心值:
其中F(k)=k+1,p(n)的计算如公式10:
p(k)=Ω(k)/max(Ω(k)) (公式10)
其中Ω(k)=abs(X(k))。
步骤2、计算MDCT频谱质心变化值:
(6)MDCT频谱系数前四个参数绝对值之和El
粗细分级规则分类模块,是一种基于粗细分级的规则分类方法,具体包含以下过程:
所述对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
所述类语音分级规则分类过程如图6所示,具体过程如下:
第七级判断比较MDCT频谱谐波结构稳定性HSS与HSS第二判断阈值和第六判断阈值大小,同时比较短时过零率Zn与Zn第一判断阈值和第三判断阈值大小,若HSS属于区间且Zn属于区间,则判断为音乐信号帧,反之则判断为语音信号帧,类语音信号分级规则分类模块输出音频信号分类结果。
所述类音乐分级规则分类过程如图7所示,具体过程如下:
第三级判断比较MDCT频谱谐波结构稳定性HSS与HSS第四判断阈值和第二判断阈值大小,同时比较短时过零率Zn与Zn第一判断阈值和第二判断阈值大小,若HSS属于区间且Zn属于区间,则输出当前帧为音乐信号帧,否则进入第四级判断;
第五级判断比较MDCT频谱谐波结构稳定性HSS与HSS第一判断阈值大小,同时比较MDCT频谱子带能量变化统计值CSF与CSF第一判断阈值大小,若HSS大于且CSF大于则输出当前帧为语音信号帧,否则进入第六级判断;
第六级判断比较MDCT频谱系数前四个参数绝对值之和El与El第一判断阈值大小,同时比较MDCT频谱子带能量变化统计值CSF与CSF第四判断阈值大小,若El小于且CSF大于则判断为语音信号帧,反之则判断为音乐信号帧,类音乐信号分级规则分类模块输出音频信号分类结果。
分类结果修正模块,其特征在于,通过存储分类结果的历史状态,即存储当前帧的前T-1帧的原始分类结果及当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果,反之统计出现频率最高的音频信号分类结果作为当前帧的分类结果,本实施例中T取10,分类结果修正模块框图如图8所示。
其中,所述的一种实时的音频信号分类设备中所涉及的音频特征参数对应的多级判定阈值,其数值如表1所示。
下面对本发明技术方案的分类效果进行评估。
本次评估使用EBU SQAM的语音频素材,中文采用国家标准GSBM 6001-89音质评价样件《美谈不美》的中文样本,共71个音频样本。信号为原始音频信号,信号采样率为16KHz,每帧长度为20ms。评估结果见表2。
表1音频特征参数对应的多级判定阈值
表2音频信号分类效果测试结果
信号类别 | 正确率% |
音乐 | |
单频音频 | 99.6 |
电子乐器 | 96.9 |
弦乐器 | 96.6 |
管乐器 | 97.8 |
打击乐器 | 94.5 |
风琴类乐器 | 95.0 |
语音 | |
男声 | 95.6 |
女声 | 96.9 |
本发明所述技术方案对语音的正确分辨率平均为96.22%,音乐的正确分辨率平均为96.23%,分类效果好。本发明技术方案在现有语音频编解码器通用的MDCT域进行音频特征的提取,避免了额外变换的复杂运算,使音频信号分类更为快速;对音频信号的分类处理是实时的,可有效地提高音频传输、音频编码等音频信号处理的效率。
Claims (18)
1.一种实时的音频信号分类方法,其特征在于,包括:
对输入的音频信号进行分帧及高通滤波处理后,进行当前帧静音检测,计算MDCT变换,在时域和MDCT域提取音频特征,当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类,若所述当前帧处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类,且所述当前帧经过粗细分级规则分类后,根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类型。
2.根据权利要求1所述的方法,其特征在于,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
3.根据权利要求1所述的方法,其特征在于,通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
4.根据权利要求1所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
5.根据权利要求1所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
6.根据权利要求5所述的方法,其特征在于,将所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
7.根据权利要求5或6所述的方法,其特征在于,对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
8.根据权利要求1所述的方法,其特征在于,通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
9.根据权利要求1或2或4或7所述的方法,其特征在于,第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
10.一种实时的音频信号分类设备,其特征在于,该设备包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块,其中:
所述预处理模块,它包括对音频信号进行预处理与静音检测;
所述特征提取模块,它包括对处理后的音频信号在时域与MDCT域中进行实时特征提取;
所述粗细分级规则分类模块,它包括将获取的音频特征按照一定规则放置,按照基于粗细分级规则的方法进行分类;
所述分类结果修正模块,它包括对所述的原分类结果进行修正,最后输出精确的音频信号分类结果。
11.根据权利要求10所述的方法,其特征在于,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
12.根据权利要求10所述的方法,其特征在于,通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
13.根据权利要求10所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
14.根据权利要求10所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
15.根据权利要求14所述的方法,其特征在于,将所述当前帧进行粗分类,粗分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
16.根据权利要求14或15所述的方法,其特征在于,对粗分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
17.根据权利要求10所述的方法,其特征在于,通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
18.根据权利要求10或11或13或16所述的方法,其特征在于,第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104309646A CN102543079A (zh) | 2011-12-21 | 2011-12-21 | 一种实时的音频信号分类方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104309646A CN102543079A (zh) | 2011-12-21 | 2011-12-21 | 一种实时的音频信号分类方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102543079A true CN102543079A (zh) | 2012-07-04 |
Family
ID=46349818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104309646A Pending CN102543079A (zh) | 2011-12-21 | 2011-12-21 | 一种实时的音频信号分类方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102543079A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015018121A1 (zh) * | 2013-08-06 | 2015-02-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
CN106256001A (zh) * | 2014-02-24 | 2016-12-21 | 三星电子株式会社 | 信号分类方法和装置以及使用其的音频编码方法和装置 |
CN106571150A (zh) * | 2015-10-12 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 定位音乐人声区的方法和系统 |
CN108074584A (zh) * | 2016-11-18 | 2018-05-25 | 南京大学 | 一种基于信号多特征统计的音频信号分类方法 |
CN108242241A (zh) * | 2016-12-23 | 2018-07-03 | 中国农业大学 | 一种纯语音快速筛选方法及其装置 |
CN109671425A (zh) * | 2018-12-29 | 2019-04-23 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN110931044A (zh) * | 2019-12-12 | 2020-03-27 | 上海立可芯半导体科技有限公司 | 收音机搜频方法、频道分类方法和电子设备 |
CN111161728A (zh) * | 2019-12-26 | 2020-05-15 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
WO2020253694A1 (zh) * | 2019-06-17 | 2020-12-24 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN113748461A (zh) * | 2019-04-18 | 2021-12-03 | 杜比实验室特许公司 | 对话检测器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254352A1 (en) * | 2005-12-14 | 2009-10-08 | Matsushita Electric Industrial Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
CN102099856A (zh) * | 2008-07-17 | 2011-06-15 | 弗劳恩霍夫应用研究促进协会 | 具有可切换旁路的音频编码/解码方案 |
-
2011
- 2011-12-21 CN CN2011104309646A patent/CN102543079A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254352A1 (en) * | 2005-12-14 | 2009-10-08 | Matsushita Electric Industrial Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
CN102099856A (zh) * | 2008-07-17 | 2011-06-15 | 弗劳恩霍夫应用研究促进协会 | 具有可切换旁路的音频编码/解码方案 |
Non-Patent Citations (1)
Title |
---|
孔庆胜,林志斌: "一种实时的语音/音乐分类器的设计", 《2010年声频工程学术交流年会论文集》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803879B2 (en) | 2013-03-26 | 2020-10-13 | Dolby Laboratories Licensing Corporation | Apparatuses and methods for audio classifying and processing |
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
CN106409310B (zh) * | 2013-08-06 | 2019-11-19 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN106409313B (zh) * | 2013-08-06 | 2021-04-20 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN106409310A (zh) * | 2013-08-06 | 2017-02-15 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US12198719B2 (en) | 2013-08-06 | 2025-01-14 | Huawei Technologies Co., Ltd. | Audio signal classification based on frequency spectrum fluctuation |
US11756576B2 (en) | 2013-08-06 | 2023-09-12 | Huawei Technologies Co., Ltd. | Classification of audio signal as speech or music based on energy fluctuation of frequency spectrum |
US11289113B2 (en) | 2013-08-06 | 2022-03-29 | Huawei Technolgies Co. Ltd. | Linear prediction residual energy tilt-based audio signal classification method and apparatus |
US10090003B2 (en) | 2013-08-06 | 2018-10-02 | Huawei Technologies Co., Ltd. | Method and apparatus for classifying an audio signal based on frequency spectrum fluctuation |
CN106409313A (zh) * | 2013-08-06 | 2017-02-15 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
WO2015018121A1 (zh) * | 2013-08-06 | 2015-02-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US10529361B2 (en) | 2013-08-06 | 2020-01-07 | Huawei Technologies Co., Ltd. | Audio signal classification method and apparatus |
US10504540B2 (en) | 2014-02-24 | 2019-12-10 | Samsung Electronics Co., Ltd. | Signal classifying method and device, and audio encoding method and device using same |
CN106256001A (zh) * | 2014-02-24 | 2016-12-21 | 三星电子株式会社 | 信号分类方法和装置以及使用其的音频编码方法和装置 |
CN106571150A (zh) * | 2015-10-12 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 定位音乐人声区的方法和系统 |
CN108074584A (zh) * | 2016-11-18 | 2018-05-25 | 南京大学 | 一种基于信号多特征统计的音频信号分类方法 |
CN108242241A (zh) * | 2016-12-23 | 2018-07-03 | 中国农业大学 | 一种纯语音快速筛选方法及其装置 |
CN109671425B (zh) * | 2018-12-29 | 2021-04-06 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN109671425A (zh) * | 2018-12-29 | 2019-04-23 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN113748461A (zh) * | 2019-04-18 | 2021-12-03 | 杜比实验室特许公司 | 对话检测器 |
WO2020253694A1 (zh) * | 2019-06-17 | 2020-12-24 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN110931044A (zh) * | 2019-12-12 | 2020-03-27 | 上海立可芯半导体科技有限公司 | 收音机搜频方法、频道分类方法和电子设备 |
CN111161728A (zh) * | 2019-12-26 | 2020-05-15 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102543079A (zh) | 一种实时的音频信号分类方法及设备 | |
CN103345923B (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN103117067B (zh) | 一种低信噪比下语音端点检测方法 | |
CN103489454B (zh) | 基于波形形态特征聚类的语音端点检测方法 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN109036458A (zh) | 一种基于音频特征参数的多语种场景分析方法 | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN105895078A (zh) | 动态选择语音模型的语音识别方法及装置 | |
CN1920947A (zh) | 用于低比特率音频编码的语音/音乐检测器 | |
CN104064196B (zh) | 一种基于语音前端噪声消除的提高语音识别准确率的方法 | |
Vyas | A Gaussian mixture model based speech recognition system using Matlab | |
CN108364641A (zh) | 一种基于长时帧背景噪声估计的语音情感特征提取方法 | |
CN101145345A (zh) | 音频分类方法 | |
CN101930733B (zh) | 一种用于语音情感识别的语音情感特征提取方法 | |
CN106847267A (zh) | 一种连续语音流中的叠音检测方法 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN103021421A (zh) | 用于枪声的多级筛选检测识别方法 | |
CN102623007B (zh) | 基于可变时长的音频特征分类方法 | |
CN101256772A (zh) | 确定非噪声音频信号归属类别的方法和装置 | |
CN102201230B (zh) | 一种突发事件语音检测方法 | |
Lee et al. | Speech/audio signal classification using spectral flux pattern recognition | |
Anusuya et al. | Speaker independent kannada speech recognition using vector quantization | |
CN101383149B (zh) | 弦乐音乐颤音自动检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120704 |