CN104036777A - 一种语音活动检测方法及装置 - Google Patents
一种语音活动检测方法及装置 Download PDFInfo
- Publication number
- CN104036777A CN104036777A CN201410217411.6A CN201410217411A CN104036777A CN 104036777 A CN104036777 A CN 104036777A CN 201410217411 A CN201410217411 A CN 201410217411A CN 104036777 A CN104036777 A CN 104036777A
- Authority
- CN
- China
- Prior art keywords
- signal
- dictionary
- noise
- sparse
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000000694 effects Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000003657 Likelihood-ratio test Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种语音活动检测方法及装置,包括:提取干净语音信号的信号特征和混噪语音信号的信号特征;根据所述干净语音信号的信号特征进行字典训练得到语音字典;根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。采用本发明提出的方法及装置,能够准确分辨出噪声环境下语音信号的语音部分和非语音部分,提高在变化噪声环境下语音活动检测的性能。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语音活动检测方法及装置。
背景技术
分析和处理语音需要解决的一个首要问题是检测出语音信号中的语音和非语音,这一任务被称为语音活动检测(Voice activitydetection,VAD)。该技术在语音处理领域中具有重要作用,且在很大程度上影响着其他应用技术的性能,典型的有鲁棒语音识别,说话人识别,语音编程和传输,以及联合降噪和回波消除等。
传统的VAD的基本方法有G.729标准等,G.729标准计算线光谱频率,全频段能量,低频段能量(<1khz),和过零率。然后设定门限对信号的每一帧进行简单的分类,同时还用平滑和自适应的校正来提高分类的准确性。
尽管上述方法在无噪环境下能取得满意的性能,但在噪声环境下,其性能将急剧降低。为解决这一问题,一些研究者提出了基于统计模型的语音活动检测算法。典型的将假设噪声和语音信号的频谱系数能用复杂的高斯随机变量来建模,从而发展了基于似然比检验的语音活动检测算法。后来,又有许多研究者想通过为语音信号假设不同的统计模型来提高基于统计模型的语音活动检测算法的性能。例如有高斯模型、拉普拉斯模型、信噪比测量、多个观测似然比检验、广义伽马分布模型、马尔可夫模型等。
这些方法在稳定的噪声环境下有很好的表现,但在变化的噪声的条件下,其性能仍然难以满足现实实用的要求。为解决这一问题,研究者们进一步提出了声学事件检测(AED)技术,转换卡尔曼滤波器(SKF)和聚类算法(如谱聚类)的方法等等。
近年来,随着稀疏分解与重构理论的成熟,稀疏编码(SparseCoding)在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示,获得信号的稀疏表示(Sparse Representation)。其中,每个基元信号称为一个原子(Atom),所有原子组成的集合称为原子字典(Atom Dictionary)。现实中的大量信号,如语音、图像等都满足或近似满足稀疏性。
形态成分分析(Morphological Component Analysis,MCA)就是一种基于信号稀疏表示的分离方法。这种方法假设对于混合信号中的每一个信号源,都存在这相应的字典,能够稀疏表示该信号,并且其他信号不能用该字典稀疏表示。在含有噪声的情况下,MCA是一种有效的稀疏表示方法。基于K奇异值分解(KSVD)是一种由K-均值算法扩展而来的过完备字典训练方法。该算法运用稀疏表示的方法,相比传统的算法具有较小的计算量和更好的表现。
发明内容
(一)要解决的技术问题
本发明的目的是提供一种语音活动检测方法及装置,以解决现有技术在变化的噪声条件下语音活动检测的检测鲁棒性差的问题。
(二)技术方案
为了达到上述目的,本发明提出了一种语音活动检测方法,该方法包括以下步骤:
提取干净语音信号的信号特征和混噪语音信号的信号特征;
根据所述干净语音信号的信号特征进行字典训练得到语音字典;
根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;
根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;
提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
优选地,提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括:
对干净语音的离散时间信号进行预处理;
将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱,将所述干净语音信号的幅度谱作为干净语音信号的信号特征;
对混噪语音的离散时间信号进行预处理;
将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱,将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。
优选地,预处理具体包括:对离散时间信号进行分帧,并对分帧处理后的帧信号进行加窗。
优选地,根据干净语音信号的信号特征进行字典训练得到语音字典具体包括:
利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φs,计算公式如下所示:
其中,是由M个干净语音信号的帧组成的训练用的信号特征,X=[x1,x2,...,xM]是相对于Ys的一组稀疏向量集,T0是训练语音字典的稀疏的预设限制门限。
优选地,根据混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典具体包括:
根据所述混噪语音信号的信号特征进行字典训练得到混噪字典;
提取预设的噪声训练数据的信号特征进行字典训练得到初始噪声字典;
根据所述语音字典和初始噪声字典对所述混噪语音信号进行稀疏表示,从所述混噪语音信号中提取出新的噪声数据动态更新预设的噪声训练数据;
提取更新后的所述噪声训练数据的信号特征进行字典训练更新所述初始噪声字典,得到噪声字典。
优选地,根据语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示具体包括:
将所述语音字典和噪声字典进行字典拼接生成原子字典;
根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数,所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数;
根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
优选地,提取稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测具体包括:
提取所述语音字典的稀疏系数;
将所述语音字典的稀疏系数与预设门限进行比较,当语音字典的稀疏系数中非零元素的个数大于预设门限时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号。
此外,本发明还提出了一种语音活动检测的装置,该装置包括:
特征提取模块,用于提取干净语音信号的信号特征和混噪语音信号的信号特征;
语音字典训练模块,用于根据所述干净语音信号的信号特征进行字典训练得到语音字典;
噪声字典训练模块,用于根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;
稀疏分解模块,用于根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;
检测模块,用于提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
优选地,稀疏分解模块包括:
字典拼接单元,用于将所述语音字典和噪声字典进行字典拼接生成原子字典;
稀疏系数计算单元,用于根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数,所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数;
稀疏表示单元,用于根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
优选地,检测模块包括:
提取单元,用于从所述稀疏系数中提取所述语音字典的稀疏系数;
检测单元,用于将所述语音字典的稀疏系数与预设门限进行比较,当语音字典的稀疏系数中非零元素的个数大于预设门限时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号。
(三)有益效果
本发明提出的一种语音活动检测方法及装置,采用信号稀疏表示的分离算法MCA和字典训练算法K-SVD进行语音活动检测,能够准确分辨出噪声环境下语音信号的语音部分和非语音部分,提高在变化噪声环境下语音活动检测的性能,相比传统方法有更强的检测鲁棒性。
附图说明
图1为本发明一种语音活动检测方法的流程图;
图2为本发明一种语音活动检测装置的模块图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提出了一种语音活动检测方法,如图1所示,包括以下步骤:
S101提取干净语音信号的信号特征和混噪语音信号的信号特征,具体包括:对干净语音的离散时间信号进行预处理;将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱,将所述干净语音信号的幅度谱作为干净语音信号的信号特征;对混噪语音的离散时间信号进行预处理;将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱,将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。
其中,预处理具体包括:对离散时间信号进行分帧,并对分帧处理后的帧信号进行加窗。
S102根据干净语音信号的信号特征进行字典训练得到语音字典,具体包括:利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φs,计算公式如下所示:
其中,是由M个干净语音信号帧的幅度谱组成的训练用的信号特征,X=[x1,x2,...,xM]是相对于Ys的一组稀疏向量集,T0是训练语音字典的稀疏的预设限制门限。
S103根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典,具体包括:根据所述混噪语音信号的信号特征进行字典训练得到混噪字典;提取预设的噪声训练数据的信号特征进行字典训练得到初始噪声字典;根据所述语音字典和初始噪声字典对所述混噪语音信号进行稀疏表示,从所述混噪语音信号中提取出新的噪声数据动态更新预设的噪声训练数据;提取更新后的所述噪声训练数据的信号特征进行字典训练更新初始噪声字典,得到噪声字典。
S104根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示,具体包括:将所述语音字典和噪声字典进行字典拼接生成原子字典;根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数,所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数;根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
S105提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测,具体包括:提取所述语音字典的稀疏系数;将所述语音字典的稀疏系数与预设门限进行比较,当语音字典的稀疏系数中非零元素的个数大于预设门限时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号。
本发明公开的语音活动检测方法基于形态成分分析(Morphological Component Analysis,MCA)实现混噪语音信号中语音信号部分和非语音信号部分的检测。本发明实施例中的输入是干净语音和混噪语音的离散时间信号,首先提取干净语音信号的信号特征和混噪语音信号的信号特征,具体包括以下步骤:分别对干净语音的离散时间信号和混噪语音的离散时间信号进行预处理,包括分帧、加窗。分帧的目的在于将时间信号分割为相互交叠的语音片断,即帧。每帧长度通常为30ms左右,帧移为10ms。接下来,对每帧语音加窗。目前广泛采用的窗函数有汉明窗和汉宁窗,而本实施例中采用汉明窗:
其中n为时间序号,L为窗长。
将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱,将所述干净语音信号的幅度谱作为干净语音信号的信号特征;将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱,将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征,其中离散傅立叶变换的具体公式如下:
式中x(n)为加窗后的信号帧,N表示傅立叶变换的点数。将经过预处理的干净语音信号ys(n)作离散傅立叶变换得到干净语音信号的幅度谱Ys;将经过预处理的混噪语音信号y(n)作离散傅立叶变换得到混噪语音信号的幅度谱Y。
用K-SVD算法训练干净的语音字典。基于K奇异值分解(K-SVD)是一种由K-均值算法扩展而来的过完备字典训练方法。该算法运用稀疏表示的方法,相比传统的算法具有较小的计算量和更好的表现。
用K-SVD算法训练语音字典Φs,字典训练问题被描述为:
其中,是由M个干净语音信号帧的幅度谱组成的训练用的信号特征,X=[x1,x2,...,xM]是相对于Ys的一组稀疏向量集,T0是训练语音字典的稀疏的预设限制门限,可以进行字典学习,得到语音字典Φs。
对于噪声原子,采用动态更新策略,以追踪时变噪声的影响,我们用在线的方式训练并更新噪声字典。
根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,然后提取所述噪声训练数据的信号特征在线更新噪声字典即实时更新噪声字典,具体步骤描述如下:
本发明实施例中,假定Γ用来储存噪声训练数据,ys表示Yi在干净语音字典Φs上的稀疏系数。Ψ代表干净语音字典Φs和初始噪声字典Φv拼接的大字典,Y=[Y1,Y2,...,YP]是测试混噪语音,P为数据帧数。输出结果为更新的噪声字典Φv,具体步骤如下:
第一步,初始化存储有预设的噪声训练数据的噪声库Γ为空,和门限本算法中δ=2是根据大量实验获得的最优值。
第二步,当门限时,作如下循环:
1.初始化初始化噪声数据集Γ为空;
2.将每一帧数据Yi稀疏地表示到字典Ψ上获得稀疏表示yi;
3.计算每个yi的1-范数,并累加在一起,赋值给
4.用稀疏表示重构出信号,然后计算残差,并将残差数据保存到Γ中更新预设的噪声训练数据;
5.以Γ中的更新后的噪声训练数据为输入,用K-SVD算法训练噪声字典,存储到Φv中(更新噪声字典);
6.计算
当跳出循环处理。
用已经得到的语音字典Φs和噪声字典Φv拼接成一个新字典Ψ=[Φs Φv]即原子字典。用MCA算法对输入的已经经过特征提取的混噪语音帧进行稀疏表示。对混噪语音信号帧进行稀疏分解即寻找混噪语音在拼接字典上的稀疏表示。直观上,语音分量被表示在语音原子上,噪声分量被表示在噪声原子上。在重构时,将所有噪声分量上的系数置为0,仅保留语音分量上的非零系数。
假定有语音字典和噪声字典组成原子字典Φ=[Φs Φv]。混噪语音信号y=s+v,其中s为清晰语音,v为噪声。混噪语音在冗余字典上的分解为x,即有
其中xs为混噪语音在语音字典上系数向量即语音字典的稀疏系数,xv为y在噪声字典上的系数向量即噪声字典的稀疏系数。
用形态成分分析(MCA)算法对输入的混噪语音信号进行稀疏表示,问题被描述为:
suject to ||Y-Ψx||2<α
其中,Y是混噪语音信号,x是混噪语音信号的稀疏系数,Ψ=[Φs Φv]原子字典由两个字典拼接得到,其中Φs为语音字典,Φv为噪声字典。那么,根据这个公式,可以得出使x的非零元素个数最少,并且||Y-Ψx||2小于α时,混噪语音信号Y的每一帧都可以用稀疏系数x表示,其中xs为语音字典的稀疏系数,xv为噪声字典的稀疏系数。
本发明实施例中提取所述稀疏表示中的稀疏系数对输入的混噪语音信号的信号帧进行检测,判断每一帧输入的混噪信号是语音信号,还是非语音信号,具体包括以下步骤:从稀疏系数x中提取语音字典的稀疏系数xs;将所述语音字典的稀疏系数xs与预设门限ξ进行比较,当语音字典的稀疏系数xs中非零元素的个数大于预设门限ξ时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号,具体如下:
||xs||0>ξ,为语音信号;
||xs||0≤ξ,为非语音信号;
其中,||xs||0为xs非零元素的个数,ξ为门限值,当语音字典的稀疏系数xs的非零元素的个数大于ξ时,表明语音字典Φs被使用的次数比较多,那么说明这一帧的信号为语音信号,否则,这一帧的信号为非语音信号,本发明实施例中门限值是通过实验获得的最优值,值为2.5。
此外,本发明实施例还提出了一种语音活动检测的装置,如图2所示,该装置包括:
特征提取模块1,用于提取干净语音信号的信号特征和混噪语音信号的信号特征;
语音字典训练模块2,用于根据所述干净语音信号的信号特征进行字典训练得到语音字典;
噪声字典训练模块3,用于根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;
稀疏分解模块4,用于根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;
检测模块5,用于提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
其中,稀疏分解模块4包括字典拼接单元、稀疏系数计算单元和稀疏表示单元;
字典拼接单元,用于将所述语音字典和噪声字典进行字典拼接生成原子字典;
稀疏系数计算单元,用于根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数,所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数;
稀疏表示单元,用于根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
其中,检测模块5包括提取单元和检测单元;
提取单元,用于从所述稀疏系数中提取所述语音字典的稀疏系数;
检测单元,用于将所述语音字典的稀疏系数与预设门限进行比较,当语音字典的稀疏系数中非零元素的个数小于预设门限时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号。
本发明提出的一种语音活动检测方法及装置,采用信号稀疏表示的分离算法MCA和字典训练算法K-SVD进行语音活动检测,能够准确分辨出噪声环境下语音信号的语音部分和非语音部分,提高在变化噪声环境下语音活动检测的性能,相比传统方法有更强的检测鲁棒性。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (10)
1.一种语音活动检测方法,其特征在于,包括:
提取干净语音信号的信号特征和混噪语音信号的信号特征;
根据所述干净语音信号的信号特征进行字典训练得到语音字典;
根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;
根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;
提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
2.如权利要求1所述的方法,其特征在于,所述提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括:
对干净语音的离散时间信号进行预处理;
将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱,将所述干净语音信号的幅度谱作为干净语音信号的信号特征;
对混噪语音的离散时间信号进行预处理;
将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱,将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。
3.如权利要求2所述的方法,其特征在于,预处理具体包括:对离散时间信号进行分帧,并对分帧处理后的帧信号进行加窗。
4.如权利要求1所述的方法,其特征在于,所述根据干净语音信号的信号特征进行字典训练得到语音字典具体包括:
利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φs,计算公式如下所示:
其中,是由M个干净语音信号的帧组成的训练用的信号特征,X=[x1,x2,...,xM]是相对于Ys的一组稀疏向量集,T0是训练语音字典的稀疏的预设限制门限。
5.如权利要求1所述的方法,其特征在于,所述根据混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典具体包括:
根据所述混噪语音信号的信号特征进行字典训练得到混噪字典;
提取预设的噪声训练数据的信号特征进行字典训练得到初始噪声字典;
根据所述语音字典和初始噪声字典对所述混噪语音信号进行稀疏表示,从所述混噪语音信号中提取出新的噪声数据动态更新预设的噪声训练数据;
提取更新后的所述噪声训练数据的信号特征进行字典训练更新所述初始噪声字典,得到噪声字典。
6.如权利要求1所述的方法,其特征在于,所述根据语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示具体包括:
将所述语音字典和噪声字典进行字典拼接生成原子字典;
根据所述原子字典利用形态成分分析MCA算法计算输入的混噪语音信号的信号帧的稀疏系数,所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数;
根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
7.如权利要求6所述的方法,其特征在于,所述提取稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测具体包括:
提取所述语音字典的稀疏系数;
将所述语音字典的稀疏系数与预设门限进行比较,当语音字典的稀疏系数中非零元素的个数大于预设门限时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号。
8.一种语音活动检测的装置,其特征在于,该装置包括:
特征提取模块,用于提取干净语音信号的信号特征和混噪语音信号的信号特征;
语音字典训练模块,用于根据所述干净语音信号的信号特征进行字典训练得到语音字典;
噪声字典训练模块,用于根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据,提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典;
稀疏分解模块,用于根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示;
检测模块,用于提取所述稀疏表示中的稀疏系数,根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
9.如权利要求8所述的装置,其特征在于,所述稀疏分解模块包括:
字典拼接单元,用于将所述语音字典和噪声字典进行字典拼接生成原子字典;
稀疏系数计算单元,用于根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数,所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数;
稀疏表示单元,用于根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
10.如权利要求8所述的装置,其特征在于,所述检测模块包括:
提取单元,用于从所述稀疏系数中提取所述语音字典的稀疏系数;
检测单元,用于将所述语音字典的稀疏系数与预设门限进行比较,当语音字典的稀疏系数中非零元素的个数大于预设门限时,则输入的混噪语音信号的信号帧为语音信号,否则,所述信号帧为非语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410217411.6A CN104036777A (zh) | 2014-05-22 | 2014-05-22 | 一种语音活动检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410217411.6A CN104036777A (zh) | 2014-05-22 | 2014-05-22 | 一种语音活动检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104036777A true CN104036777A (zh) | 2014-09-10 |
Family
ID=51467524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410217411.6A Pending CN104036777A (zh) | 2014-05-22 | 2014-05-22 | 一种语音活动检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104036777A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN108962275A (zh) * | 2018-08-01 | 2018-12-07 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
CN113470621A (zh) * | 2021-08-23 | 2021-10-01 | 杭州网易智企科技有限公司 | 语音检测方法、装置、介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1141548A (zh) * | 1995-02-17 | 1997-01-29 | 索尼公司 | 用来降低语音信号中噪声的方法和装置 |
JP2003308093A (ja) * | 2002-04-15 | 2003-10-31 | Denso Corp | 信号成分抽出方法及び装置 |
EP1469471A2 (en) * | 2003-04-14 | 2004-10-20 | Sony Corporation | Information processing apparatus for detecting inter-track boundaries |
JP2005195955A (ja) * | 2004-01-08 | 2005-07-21 | Toshiba Corp | 雑音抑圧装置及び雑音抑圧方法 |
US20120265526A1 (en) * | 2011-04-13 | 2012-10-18 | Continental Automotive Systems, Inc. | Apparatus and method for voice activity detection |
CN102959625A (zh) * | 2010-12-24 | 2013-03-06 | 华为技术有限公司 | 自适应地检测输入音频信号中的话音活动的方法和设备 |
CN103020654A (zh) * | 2012-12-12 | 2013-04-03 | 北京航空航天大学 | 基于样本产生与核局部特征融合的sar图像仿生识别方法 |
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
-
2014
- 2014-05-22 CN CN201410217411.6A patent/CN104036777A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1141548A (zh) * | 1995-02-17 | 1997-01-29 | 索尼公司 | 用来降低语音信号中噪声的方法和装置 |
JP2003308093A (ja) * | 2002-04-15 | 2003-10-31 | Denso Corp | 信号成分抽出方法及び装置 |
EP1469471A2 (en) * | 2003-04-14 | 2004-10-20 | Sony Corporation | Information processing apparatus for detecting inter-track boundaries |
JP2005195955A (ja) * | 2004-01-08 | 2005-07-21 | Toshiba Corp | 雑音抑圧装置及び雑音抑圧方法 |
CN102959625A (zh) * | 2010-12-24 | 2013-03-06 | 华为技术有限公司 | 自适应地检测输入音频信号中的话音活动的方法和设备 |
US20120265526A1 (en) * | 2011-04-13 | 2012-10-18 | Continental Automotive Systems, Inc. | Apparatus and method for voice activity detection |
CN103020654A (zh) * | 2012-12-12 | 2013-04-03 | 北京航空航天大学 | 基于样本产生与核局部特征融合的sar图像仿生识别方法 |
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
Non-Patent Citations (4)
Title |
---|
M. AHARON ET AL.: "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation", 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 * |
何勇军 等: "基于稀疏编码的鲁棒说话人识别", 《数据采集与处理》 * |
谢怡宁 等: "噪声环境下智能机器人语音控制特征提取方法", 《北京邮电大学学报》 * |
韩卫丽 等: "一种基于信号稀疏表示的语音去噪新方法", 《北方工业大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN108962275A (zh) * | 2018-08-01 | 2018-12-07 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
CN113470621A (zh) * | 2021-08-23 | 2021-10-01 | 杭州网易智企科技有限公司 | 语音检测方法、装置、介质及电子设备 |
CN113470621B (zh) * | 2021-08-23 | 2023-10-24 | 杭州网易智企科技有限公司 | 语音检测方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7600222B2 (ja) | 音声認識方法および装置、ならびにコンピュータ可読記憶媒体 | |
Xu et al. | Dynamic noise aware training for speech enhancement based on deep neural networks. | |
Han et al. | Deep neural network based spectral feature mapping for robust speech recognition. | |
Sivaram et al. | Sparse coding for speech recognition | |
CN103077728B (zh) | 一种病人虚弱语音端点检测方法 | |
Govindan et al. | Adaptive wavelet shrinkage for noise robust speaker recognition | |
CN102915742A (zh) | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
Xu et al. | Global variance equalization for improving deep neural network based speech enhancement | |
CN109036437A (zh) | 口音识别方法、装置、计算机装置及计算机可读存储介质 | |
Xu et al. | Cross-language transfer learning for deep neural network based speech enhancement | |
CN108305639A (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN108053842A (zh) | 基于图像识别的短波语音端点检测方法 | |
CN104036777A (zh) | 一种语音活动检测方法及装置 | |
Sharma et al. | Automatic identification of silence, unvoiced and voiced chunks in speech | |
Gupta et al. | Speech enhancement using MMSE estimation and spectral subtraction methods | |
He et al. | Spectrum enhancement with sparse coding for robust speech recognition | |
Lili et al. | Research on recognition of CHD heart sound using MFCC and LPCC | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
Chandra et al. | Spectral-subtraction based features for speaker identification | |
CN111383652B (zh) | 一种基于双层字典学习的单通道语音增强方法 | |
Wu et al. | Speech endpoint detection in noisy environment using Spectrogram Boundary Factor | |
Yu et al. | Multi-task adversarial network bottleneck features for noise-robust speaker verification | |
Baniardalan et al. | A weighted denoising auto-encoder applied to Mel sub-bands for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140910 |
|
RJ01 | Rejection of invention patent application after publication |