CN104036777A

CN104036777A - 一种语音活动检测方法及装置

Info

Publication number: CN104036777A
Application number: CN201410217411.6A
Authority: CN
Inventors: 何勇军; 孙广路; 谢怡宁; 郑云龙
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2014-05-22
Filing date: 2014-05-22
Publication date: 2014-09-10

Abstract

本发明涉及一种语音活动检测方法及装置，包括：提取干净语音信号的信号特征和混噪语音信号的信号特征；根据所述干净语音信号的信号特征进行字典训练得到语音字典；根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。采用本发明提出的方法及装置，能够准确分辨出噪声环境下语音信号的语音部分和非语音部分，提高在变化噪声环境下语音活动检测的性能。

Description

一种语音活动检测方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音活动检测方法及装置。

背景技术

分析和处理语音需要解决的一个首要问题是检测出语音信号中的语音和非语音，这一任务被称为语音活动检测(Voice activitydetection，VAD)。该技术在语音处理领域中具有重要作用，且在很大程度上影响着其他应用技术的性能，典型的有鲁棒语音识别，说话人识别，语音编程和传输，以及联合降噪和回波消除等。

传统的VAD的基本方法有G.729标准等，G.729标准计算线光谱频率，全频段能量，低频段能量(<1khz)，和过零率。然后设定门限对信号的每一帧进行简单的分类，同时还用平滑和自适应的校正来提高分类的准确性。

尽管上述方法在无噪环境下能取得满意的性能，但在噪声环境下，其性能将急剧降低。为解决这一问题，一些研究者提出了基于统计模型的语音活动检测算法。典型的将假设噪声和语音信号的频谱系数能用复杂的高斯随机变量来建模，从而发展了基于似然比检验的语音活动检测算法。后来，又有许多研究者想通过为语音信号假设不同的统计模型来提高基于统计模型的语音活动检测算法的性能。例如有高斯模型、拉普拉斯模型、信噪比测量、多个观测似然比检验、广义伽马分布模型、马尔可夫模型等。

这些方法在稳定的噪声环境下有很好的表现，但在变化的噪声的条件下，其性能仍然难以满足现实实用的要求。为解决这一问题，研究者们进一步提出了声学事件检测(AED)技术，转换卡尔曼滤波器(SKF)和聚类算法(如谱聚类)的方法等等。

近年来，随着稀疏分解与重构理论的成熟，稀疏编码(SparseCoding)在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示，获得信号的稀疏表示(Sparse Representation)。其中，每个基元信号称为一个原子(Atom)，所有原子组成的集合称为原子字典(Atom Dictionary)。现实中的大量信号，如语音、图像等都满足或近似满足稀疏性。

形态成分分析(Morphological Component Analysis,MCA)就是一种基于信号稀疏表示的分离方法。这种方法假设对于混合信号中的每一个信号源，都存在这相应的字典，能够稀疏表示该信号，并且其他信号不能用该字典稀疏表示。在含有噪声的情况下，MCA是一种有效的稀疏表示方法。基于K奇异值分解(KSVD)是一种由K-均值算法扩展而来的过完备字典训练方法。该算法运用稀疏表示的方法，相比传统的算法具有较小的计算量和更好的表现。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种语音活动检测方法及装置，以解决现有技术在变化的噪声条件下语音活动检测的检测鲁棒性差的问题。

(二)技术方案

为了达到上述目的，本发明提出了一种语音活动检测方法，该方法包括以下步骤：

提取干净语音信号的信号特征和混噪语音信号的信号特征；

根据所述干净语音信号的信号特征进行字典训练得到语音字典；

根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；

根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；

提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。

优选地，提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括：

对干净语音的离散时间信号进行预处理；

将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱，将所述干净语音信号的幅度谱作为干净语音信号的信号特征；

对混噪语音的离散时间信号进行预处理；

将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱，将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。

优选地，预处理具体包括：对离散时间信号进行分帧，并对分帧处理后的帧信号进行加窗。

优选地，根据干净语音信号的信号特征进行字典训练得到语音字典具体包括：

利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φ^s，计算公式如下所示：

\min {| | Y^{s} - Φ^{s} | |}_{2}^{2}

suject to ||x_i||₀≤T₀

其中，是由M个干净语音信号的帧组成的训练用的信号特征，X＝[x₁,x₂,...,x_M]是相对于Y^s的一组稀疏向量集，T₀是训练语音字典的稀疏的预设限制门限。

优选地，根据混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典具体包括：

根据所述混噪语音信号的信号特征进行字典训练得到混噪字典；

提取预设的噪声训练数据的信号特征进行字典训练得到初始噪声字典；

根据所述语音字典和初始噪声字典对所述混噪语音信号进行稀疏表示，从所述混噪语音信号中提取出新的噪声数据动态更新预设的噪声训练数据；

提取更新后的所述噪声训练数据的信号特征进行字典训练更新所述初始噪声字典，得到噪声字典。

优选地，根据语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示具体包括：

将所述语音字典和噪声字典进行字典拼接生成原子字典；

根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数，所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数；

根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。

优选地，提取稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测具体包括：

提取所述语音字典的稀疏系数；

将所述语音字典的稀疏系数与预设门限进行比较，当语音字典的稀疏系数中非零元素的个数大于预设门限时，则输入的混噪语音信号的信号帧为语音信号，否则，所述信号帧为非语音信号。

此外，本发明还提出了一种语音活动检测的装置，该装置包括：

特征提取模块，用于提取干净语音信号的信号特征和混噪语音信号的信号特征；

语音字典训练模块，用于根据所述干净语音信号的信号特征进行字典训练得到语音字典；

噪声字典训练模块，用于根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；

稀疏分解模块，用于根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；

检测模块，用于提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。

优选地，稀疏分解模块包括：

字典拼接单元，用于将所述语音字典和噪声字典进行字典拼接生成原子字典；

稀疏系数计算单元，用于根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数，所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数；

稀疏表示单元，用于根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。

优选地，检测模块包括：

提取单元，用于从所述稀疏系数中提取所述语音字典的稀疏系数；

检测单元，用于将所述语音字典的稀疏系数与预设门限进行比较，当语音字典的稀疏系数中非零元素的个数大于预设门限时，则输入的混噪语音信号的信号帧为语音信号，否则，所述信号帧为非语音信号。

(三)有益效果

本发明提出的一种语音活动检测方法及装置，采用信号稀疏表示的分离算法MCA和字典训练算法K-SVD进行语音活动检测，能够准确分辨出噪声环境下语音信号的语音部分和非语音部分，提高在变化噪声环境下语音活动检测的性能，相比传统方法有更强的检测鲁棒性。

附图说明

图1为本发明一种语音活动检测方法的流程图；

图2为本发明一种语音活动检测装置的模块图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提出了一种语音活动检测方法，如图1所示，包括以下步骤：

S101提取干净语音信号的信号特征和混噪语音信号的信号特征，具体包括：对干净语音的离散时间信号进行预处理；将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱，将所述干净语音信号的幅度谱作为干净语音信号的信号特征；对混噪语音的离散时间信号进行预处理；将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱，将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。

其中，预处理具体包括：对离散时间信号进行分帧，并对分帧处理后的帧信号进行加窗。

S102根据干净语音信号的信号特征进行字典训练得到语音字典，具体包括：利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φ^s，计算公式如下所示：

\min {| | Y^{s} - Φ^{s} | |}_{2}^{2}

suject to|| x_i||₀≤T₀

其中，是由M个干净语音信号帧的幅度谱组成的训练用的信号特征，X＝[x₁,x₂,...,x_M]是相对于Y^s的一组稀疏向量集，T₀是训练语音字典的稀疏的预设限制门限。

S103根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典，具体包括：根据所述混噪语音信号的信号特征进行字典训练得到混噪字典；提取预设的噪声训练数据的信号特征进行字典训练得到初始噪声字典；根据所述语音字典和初始噪声字典对所述混噪语音信号进行稀疏表示，从所述混噪语音信号中提取出新的噪声数据动态更新预设的噪声训练数据；提取更新后的所述噪声训练数据的信号特征进行字典训练更新初始噪声字典，得到噪声字典。

S104根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示，具体包括：将所述语音字典和噪声字典进行字典拼接生成原子字典；根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数，所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数；根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。

S105提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测，具体包括：提取所述语音字典的稀疏系数；将所述语音字典的稀疏系数与预设门限进行比较，当语音字典的稀疏系数中非零元素的个数大于预设门限时，则输入的混噪语音信号的信号帧为语音信号，否则，所述信号帧为非语音信号。

本发明公开的语音活动检测方法基于形态成分分析(Morphological Component Analysis,MCA)实现混噪语音信号中语音信号部分和非语音信号部分的检测。本发明实施例中的输入是干净语音和混噪语音的离散时间信号，首先提取干净语音信号的信号特征和混噪语音信号的信号特征，具体包括以下步骤：分别对干净语音的离散时间信号和混噪语音的离散时间信号进行预处理，包括分帧、加窗。分帧的目的在于将时间信号分割为相互交叠的语音片断，即帧。每帧长度通常为30ms左右，帧移为10ms。接下来，对每帧语音加窗。目前广泛采用的窗函数有汉明窗和汉宁窗，而本实施例中采用汉明窗：

其中n为时间序号，L为窗长。

将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱，将所述干净语音信号的幅度谱作为干净语音信号的信号特征；将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱，将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征，其中离散傅立叶变换的具体公式如下：

X_{a} (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 kπ / N}, 0 \leq k \leq N

式中x(n)为加窗后的信号帧，N表示傅立叶变换的点数。将经过预处理的干净语音信号y^s(n)作离散傅立叶变换得到干净语音信号的幅度谱Y^s；将经过预处理的混噪语音信号y(n)作离散傅立叶变换得到混噪语音信号的幅度谱Y。

用K-SVD算法训练干净的语音字典。基于K奇异值分解(K-SVD)是一种由K-均值算法扩展而来的过完备字典训练方法。该算法运用稀疏表示的方法，相比传统的算法具有较小的计算量和更好的表现。

用K-SVD算法训练语音字典Φ^s，字典训练问题被描述为：

\min {| | Y^{s} - Φ^{s} | |}_{2}^{2}

suject to ||x_i||₀≤T₀

其中，是由M个干净语音信号帧的幅度谱组成的训练用的信号特征，X＝[x₁,x₂,...,x_M]是相对于Y^s的一组稀疏向量集，T₀是训练语音字典的稀疏的预设限制门限，可以进行字典学习，得到语音字典Φ^s。

对于噪声原子，采用动态更新策略，以追踪时变噪声的影响，我们用在线的方式训练并更新噪声字典。

根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，然后提取所述噪声训练数据的信号特征在线更新噪声字典即实时更新噪声字典，具体步骤描述如下：

本发明实施例中，假定Γ用来储存噪声训练数据，y_s表示Y_i在干净语音字典Φ^s上的稀疏系数。Ψ代表干净语音字典Φ^s和初始噪声字典Φ^v拼接的大字典，Y＝[Y₁,Y₂,...,Y_P]是测试混噪语音，P为数据帧数。输出结果为更新的噪声字典Φ^v，具体步骤如下：

第一步，初始化存储有预设的噪声训练数据的噪声库Γ为空，和门限本算法中δ＝2是根据大量实验获得的最优值。

第二步，当门限时，作如下循环：

1.初始化初始化噪声数据集Γ为空；

2.将每一帧数据Y_i稀疏地表示到字典Ψ上获得稀疏表示y_i；

3.计算每个y_i的1-范数，并累加在一起，赋值给

4.用稀疏表示重构出信号，然后计算残差，并将残差数据保存到Γ中更新预设的噪声训练数据；

5.以Γ中的更新后的噪声训练数据为输入，用K-SVD算法训练噪声字典，存储到Φ^v中(更新噪声字典)；

6.计算

当跳出循环处理。

用已经得到的语音字典Φ^s和噪声字典Φ^v拼接成一个新字典Ψ＝[Φ^s Φ^v]即原子字典。用MCA算法对输入的已经经过特征提取的混噪语音帧进行稀疏表示。对混噪语音信号帧进行稀疏分解即寻找混噪语音在拼接字典上的稀疏表示。直观上，语音分量被表示在语音原子上，噪声分量被表示在噪声原子上。在重构时，将所有噪声分量上的系数置为0，仅保留语音分量上的非零系数。

假定有语音字典和噪声字典组成原子字典Φ＝[Φ^s Φ^v]。混噪语音信号y＝s+v，其中s为清晰语音，v为噪声。混噪语音在冗余字典上的分解为x，即有

y = Φx = [\begin{matrix} Φ^{s} & Φ^{v} \end{matrix}] [\begin{matrix} x^{s} \\ x^{v} \end{matrix}] = Φ^{s} x^{s} + Φ^{v} x^{v}

其中x^s为混噪语音在语音字典上系数向量即语音字典的稀疏系数，x^v为y在噪声字典上的系数向量即噪声字典的稀疏系数。

用形态成分分析(MCA)算法对输入的混噪语音信号进行稀疏表示，问题被描述为：

suject to ||Y-Ψx||₂＜α

其中，Y是混噪语音信号，x是混噪语音信号的稀疏系数，Ψ＝[Φ^s Φ^v]原子字典由两个字典拼接得到，其中Φ^s为语音字典，Φ^v为噪声字典。那么，根据这个公式，可以得出使x的非零元素个数最少，并且||Y-Ψx||₂小于α时，混噪语音信号Y的每一帧都可以用稀疏系数x表示，其中x^s为语音字典的稀疏系数，x^v为噪声字典的稀疏系数。

本发明实施例中提取所述稀疏表示中的稀疏系数对输入的混噪语音信号的信号帧进行检测，判断每一帧输入的混噪信号是语音信号，还是非语音信号，具体包括以下步骤：从稀疏系数x中提取语音字典的稀疏系数x^s；将所述语音字典的稀疏系数x^s与预设门限ξ进行比较，当语音字典的稀疏系数x^s中非零元素的个数大于预设门限ξ时，则输入的混噪语音信号的信号帧为语音信号，否则，所述信号帧为非语音信号，具体如下：

||x^s||₀>ξ，为语音信号；

||x^s||₀≤ξ，为非语音信号；

其中，||x^s||₀为x^s非零元素的个数，ξ为门限值，当语音字典的稀疏系数x^s的非零元素的个数大于ξ时，表明语音字典Φ^s被使用的次数比较多，那么说明这一帧的信号为语音信号，否则，这一帧的信号为非语音信号，本发明实施例中门限值是通过实验获得的最优值，值为2.5。

此外，本发明实施例还提出了一种语音活动检测的装置，如图2所示，该装置包括：

特征提取模块1，用于提取干净语音信号的信号特征和混噪语音信号的信号特征；

语音字典训练模块2，用于根据所述干净语音信号的信号特征进行字典训练得到语音字典；

噪声字典训练模块3，用于根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；

稀疏分解模块4，用于根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；

检测模块5，用于提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。

其中，稀疏分解模块4包括字典拼接单元、稀疏系数计算单元和稀疏表示单元；

其中，检测模块5包括提取单元和检测单元；

检测单元，用于将所述语音字典的稀疏系数与预设门限进行比较，当语音字典的稀疏系数中非零元素的个数小于预设门限时，则输入的混噪语音信号的信号帧为语音信号，否则，所述信号帧为非语音信号。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种语音活动检测方法，其特征在于，包括：

提取干净语音信号的信号特征和混噪语音信号的信号特征；

2.如权利要求1所述的方法，其特征在于，所述提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括：

对干净语音的离散时间信号进行预处理；

对混噪语音的离散时间信号进行预处理；

3.如权利要求2所述的方法，其特征在于，预处理具体包括：对离散时间信号进行分帧，并对分帧处理后的帧信号进行加窗。

4.如权利要求1所述的方法，其特征在于，所述根据干净语音信号的信号特征进行字典训练得到语音字典具体包括：

\min {| | Y^{s} - Φ^{s} | |}_{2}^{2}

suject to ||x_i||₀≤T₀

5.如权利要求1所述的方法，其特征在于，所述根据混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典具体包括：

6.如权利要求1所述的方法，其特征在于，所述根据语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示具体包括：

将所述语音字典和噪声字典进行字典拼接生成原子字典；

根据所述原子字典利用形态成分分析MCA算法计算输入的混噪语音信号的信号帧的稀疏系数，所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数；

7.如权利要求6所述的方法，其特征在于，所述提取稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测具体包括：

提取所述语音字典的稀疏系数；

8.一种语音活动检测的装置，其特征在于，该装置包括：

9.如权利要求8所述的装置，其特征在于，所述稀疏分解模块包括：

10.如权利要求8所述的装置，其特征在于，所述检测模块包括：