CN1623186A

CN1623186A - 用于噪声环境的话音活动检测器和验证器

Info

Publication number: CN1623186A
Application number: CNA038026821A
Authority: CN
Inventors: 道格拉斯·拉尔夫·伊利; 霍利·路易斯·凯莱赫; 戴维·约翰·本杰明·皮尔斯
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2002-01-24
Filing date: 2003-01-10
Publication date: 2005-06-01
Anticipated expiration: 2023-01-10
Also published as: KR20040075959A; CN1307613C; GB2384670B; KR20090127182A; WO2003063138A1; GB2384670A; JP2005516247A; FI124869B; KR100976082B1; JP2010061151A; GB0201585D0; FI20041013L

Abstract

一种通信单元(100)，包括带有话音活动检测机制(130，135)的音频处理单元(109)。话音活动检测机制(130，135)测量输入至通信单元(100)中的信号的能量加速率，并根据所述测量确定所述输入信号是语音还是噪声。还描述了一种检测话音的方法和一种判决输入信号是语音还是噪声的方法。使用基于能量加速率的话音活动检测器和验证器，特别对于噪声环境，提供了噪声鲁棒性、快速响应和输入语音电平独立的优点。

Description

用于噪声环境的话音活动检测器和验证器

技术领域

本发明涉及噪声环境内的语音的检测(通常称为话音活动检测(VAD))。本发明适用于(但并不限于)语音检测系统中的话音信号的能量加速率测量。

背景技术

许多话音通信系统，例如针对个人移动无线用户的全球移动通信系统(GSM)蜂窝电话标准和陆地中继无线(TETRA)系统使用语音处理单元来编码和解码语音模式。在这种话音通信系统中，语音编码器把模拟语音模式转换为传输用的合适的数字格式。语音解码器把接收的数字语音信号转换为音频模拟语音模式。

用于检测话音活动的方法和设备在本技术领域中已公知。话音活动检测器(VAD)在假设语音只存在于音频信号的一部分中的假设下工作。这个假设通常是正确的，因为许多音频信号间隔只具有静音或背景噪声。

话音活动检测器可以用于许多目的。这些包括当在没有语音时抑制传输系统中的整个传输活动，从而潜在地节约了功率和信道带宽。当VAD检测到语音活动继续进行时，能够重新开始传输活动。

话音活动检测器还可以与语音存储设备结合使用，把包括语音的音频部分与“无语音”部分区分开。包括语音的部分后来被存储在存储设备中而“无语音”部分被丢弃。

用于检测话音的现有方法至少部分地基于用于检测和估算语音信号的功率的方法。估算的功率与一常数或一自适应门限比较，以作出该信号是否是语音的判决。这些方法的主要优点在于其低复杂度，这使得它们适用于低处理资源的实施。这种方法的主要缺点是背景噪声可能无意中导致在实际上没有“语音”的时候检测到“语音”。另外，因为含糊不清，实际存在的“语音”可能未被检测到，并且由于背景噪声而导致难以检测到。

用于检测语音活动的一些方法针对于噪声移动环境且基于语音信号的自适应滤波。这在最终判决之前降低了来自该信号的噪声内容。由于该方法用于不同的说话者和不同的环境，所以频谱和噪声电平可能发生改变。因此，输入滤波器和门限通常是自适应的，以跟踪这些变化。

这些方法的示例在分别用于半速率、全速率和增强全速率语音业务信道的GSM规范06.42话音活动检测器(VAD)中提供。另一这种方法是ITU G.729附录B中所建议的“Multi-Boundary Voice ActivityDetection Algorithm(多界限话音活动检测算法)”。这些方法在噪声环境中很准确，但是实施起来很复杂。

所有这些方法都需要输入语音信号。采用语音解压缩方案的一些应用在语音解压缩处理期间需要执行语音检测。

Benyassine等人的欧洲专利申请No.EP-A-0785419涉及一种用于话音活动检测的方法，该方法包括以下步骤：

(i)从每帧的呼入语音信号中提取出预定集的参数，以及

(ii)根据从预定集的参数中提取出的偏差测量集来对每帧的呼入语音信号作出帧话音判决。

蜂窝系统中的VAD进行偏置，以确保当一方说话时，包括语音编解码器和RF电路等的无线设备被激活，以把该语音传送至背景噪声及其它损伤环境中的另一方。但是，这导致在一方没有说话时出现数据传输。这种方法的代价是稍微降低了电池寿命和稍微增加了对该系统的其它单元中的同信道用户的干扰。这些基本上是第二(或更高)阶效应。

在这些系统中，没有对有限资源可用于双工呼叫的构思。通常在不同载波上的上行链路和下行链路完全可以一致同时使用整个带宽。

在本发明的领域中已公知，一些话音活动或话音开始检测器(VAD/VOD)试图使用诸如谐波结构(例如通过自相关)的语音特性来辨别浊音语音(voiced speech)。但是，在噪音中，由于语音结构的破坏或由于噪声中的结构，这些结构指示符可能失效。这例如可以是汽车中的引擎、轮胎或空调噪声。最后，这些方法在检测清音语音(unvoiced speech)方面上较弱。

其替换物只是使用帧能量级来检测语音。这对于高信噪比(SNR)条件的语音是令人满意的，其中，可以设置高于噪声电平的任意门限来表示语音。但是，这种方法在很多实际噪声条件中失效。

对于非归一化的数据库或在实际应用中，一个示例集中的噪声电平很可能比另一示例集中的语音电平高，这使得不能设置门限值。克服这个问题的现有方法是取话语的大约第一个100毫秒的平均值，假定这代表噪声，从而创建用于该话语的特定门限。但是，此外，这对于非平稳噪声是不够的，其中该噪声可能迅速偏离初始估计值，其中该噪声具有高方差或其中第一少数帧实际上包含不是假定噪声的语音。

因此，需要有一种用于噪声环境的经改善的话音活动检测器和验证器，其可以缓和上述缺点。

发明内容

根据本发明的第一方面，提供了一种如权利要求1所述的通信单元。

根据本发明的第二方面，提供了一种如权利要求11所述的检测输入到通信单元中的语音信号的方法。

根据本发明的第三方面，提供了一种如权利要求14所述的确定输入到通信单元中的信号是语音还是噪声的方法。

本发明的其它方面如其从属权利要求中所述。

总之，本发明旨在通过使用能量加速率测量(优选为能量幅度测量)来解决任意幅度的非平稳噪声的情况，以表示存在或不存在语音。

附图说明

现在参考附图对本发明的示例性实施例进行描述，在附图中：

图1示出了适用于执行本发明的优选实施例的话音活动检测和验证的通信单元的方框图；

图2示出了根据本发明的优选实施例的用于噪声环境的基于能量加速率的话音活动检测器的流程图；

图3示出了根据本发明的优选实施例的用于噪声环境的基于能量加速率的话音活动验证的流程图；以及

图4示出了根据本发明的优选实施例的缓冲器操作。

具体实施方式

浊音语音具有相对较高的能量加速率值，因为浊音语音的开始依赖于或振动或静止的声带的活动。类似地，清音的开始(例如爆破音)也具有高能量加速率。

本发明人已意识到，在代表性的有明显语音特征的域中，例如窄带功率谱或Mel频谱，所得的能量加速率大大高于非平稳噪声。唯一主要的例外是冲击噪声(例如鼓掌)。

因此，根据本发明的优选实施例，本发明人已发现通过集中可能含有话音信号的基本基音的频率区中的能量，而能够另外与这些噪声区分开。具体地说，本发明的发明人建议使用语音的非结构特征，即能量加速率(或反映语音能量或其分量的一些度量的加速率)。

具体地说，对于在此所描述的发明构思的优选应用是目前正由欧洲电信标准协会(ETSI)所定义的分布式语音识别(DSR)标准：“SpeechProcessing；Transmission and Quality aspects(STQ)；Distributed speechrecognition；Front-end feature extraction algorithm；Compressionalgorithm(语音处理、传输和质量方面(STQ)；分布式语音识别；前端特征提取算法；压缩算法)”，ETSI ES 201 108 vl.1.2(2000-04)，2000年4月。

现在参考图1，示出了适用于支持本发明的优选实施例的发明构思的音频用户单元100的方框图。

根据无线音频通信单元来描述本发明的优选实施例，例如能够在用于未来蜂窝无线通信系统的第三代合作项目(3GPP)标准下运行且提供DSR能力的无线音频通信单元。但是，在此所描述的关于话音活动检测和验证的发明构思同样适用于响应话音信号且可以从经改善的话音活动检测电路中获益的任何电子器件，这也在本发明的范围之内。

如在本技术领域中已知，音频用户单元100包含优选地连接至双工滤波器、天线开关或循环器104的天线102，循环器104使音频用户单元100内的接收链和发送链之间隔离。

接收器链包括接收器前端电路106(有效提供接收、滤波和中频或基带频率转换)。前端电路106串联连接至信号处理功能块(一般由数字信号处理器(DSP)实现)108。信号处理功能块108执行信号解调、纠错和格式化。从信号处理功能块108恢复的数据串联连接至音频处理功能块109，其以合适的方式格式化接收信号，以发送至音频发音器/显示器111。

在本发明的不同实施例中，信号处理功能块108和音频处理功能块109可以设置在相同的物理设备内。控制器114被安置来控制用户单元100的组件的信息流和运行状态。

至于发送链，这基本上包括音频输入设备120，其串联连接音频处理功能块109、信号处理功能块108、发射器/调制电路122和功率放大器124。处理器108、发射器/调制电路122和功率放大器124可操作地响应控制器。功率放大器输出被连接至双工滤波器、天线开关或循环器104以及天线102，以发射最终的射频信号。

具体地说，音频处理功能块109包括话音活动(或话音开始)检测(VAD)功能块130，其操作地连接至话音活动判决功能块135。根据本发明的优选实施例，VAD功能块130和话音活动判决功能块135适用于提供经改善的话音检测和判决机制，其操作将根据图2和图3得到进一步的描述。应当注意，话音活动检测器功能块130包括由三个测量组成的逐帧检测阶段。这三个频率范围测量包括：

(i)整个频谱；

(ii)频谱子频段；以及

(iii)频谱方差。

接着，话音活动判决功能块135根据测量的缓冲器来执行判决，分析其语音似然性。判决阶段的最终判决的应用可追溯至缓冲器中的最早的帧。

在本发明的优选实施例中，计时器/计数器118也适用于执行图2和图3的检测和判定处理中的定时功能。

信号处理器功能块108、音频处理功能块109、VAD功能块130和话音活动判决功能块135可以实现为不同的、操作地连接的处理组件。另外，一个或多个处理器可以用来实现一个或多个对应的处理操作。在另一替换实施例中，上述功能块可以实现为硬件、软件或固件组件的混合，使用专用集成电路(ASIC)和/或处理器，例如数字信号处理器(DSP)。

当然，音频用户单元100内的各种元件可以实现为分开的或集成元件形式，因此最终结构只是任意选择的结果。

为了实现此目的，存在获得在本发明的优选实施例中使用的能量加速率指示的方法。

(i)理论上理想的方法是在话语的连续帧上精确地求能量级的二次导数(double-differentiate)，如在先公开的申请US 6009391所示。这种方法的缺点是这可能引起延迟，因为在分析时需要分析该帧的每侧的多个帧。

(ii)能量加速率的零延迟估计可以通过把短时平均值与瞬时值比较来获得，例如：

使用帧平均：

\tilde{A} = \frac{x_{t}}{(x_{t} + x_{t - 1} + \cdot \cdot \cdot + x_{t - n}) / (n + 1)} - - - [1]

或使用滚动平均：

\tilde{A} = \frac{x_{t}}{({ax}_{t} + {bx}_{t - 1} + \cdot \cdot \cdot + {kx}_{t - n})} - - - [2]

在每个情况下，该方法返回其可以解释为‘减速率’＜‘1’＜‘加速率’的值。然后可以找到的经验值和把语音和噪声最好地区分开的分母长度。

本发明的发明人已意识到，优选的最佳解决方案是找出可以快速跟踪非平稳噪声的分母，但是其对于跟踪话音开始来说太长了。对于滚动平均的建议的值序列是a＝0.2、b＝0.8×a、c＝0.8×b等，其可以简单地表示为递归式：

d_t＝0.2x_t+0.8d_t-1 [3]

则：

A＝x_t/d_t [4]

检测阶段内的优选VAD和参数初始化系统在图2的流程图中概括出。在非平稳噪声中，长时能量门限不是语音的可靠指示。类似地，在高噪声条件下，语音的结构(例如谐音)不能整个地依赖于指示，因为其可能受噪声破坏，或者结构噪声可能使检测器混淆。因此，优选的话音活动检测器使用语音的噪声鲁棒性(noise-robust)特征，即与语音开始有关的能量加速率。

现在参考图2，示出了优选检测处理的流程图200。如上所指出，该处理包括逐帧分析。优选VAD机制涉及‘整个频谱’的测量处理。初始估算帧计数器来确定其是否小于‘N’，其限定了缓存帧的数目，如步骤205所示。作为优选实施例的示例，‘N’设置为‘15’，假定设定为每帧递增例如10毫秒。如果在步骤205中帧计数器小于‘N’，则更新初始加速率测试的滚动平均值，如步骤210。如果在步骤205中帧计数器不小于‘N’，则跳过步骤210。

然后，作出估算能量加速率测量是否在一个或多个指定限度之内的确定，如步骤235所示。如果在步骤235中能量加速率测量在一个或多个指定限度之内，则用进一步的能量加速率测试的结果来更新滚动平均值，如步骤240。如果在步骤235中能量加速率测量不是在一个或多个指定限度之内，则跳过步骤240。

然后，作出估算能量加速率测量是否大于指定门限的确定，如步骤260所示。如果在步骤260中能量加速率测量大于指定门限，则认为该帧是语音帧，如步骤265。如果在步骤260中能量加速率测量不大于指定门限，则认为该帧为噪声帧，如步骤270。

然后递增帧计数器，如步骤275，且该处理从步骤205开始重复。

作为对该处理的改善，替代或除此之外，还可以执行整个频谱测量处理，如可选步骤215和245所示的子区测量处理。频谱的特定子区被选为很可能包含基本基音的子区。

在该子区处理中，当在步骤210中在整个频谱测量中更新初始加速率测试的滚动平均时，作出检查能量加速率测量是否大于门限值的确定，如步骤220所示。如果在步骤220中该能量加速率测量大于该门限值，则挂起初始化其它参数的处理，如步骤225所示。如果在步骤220中该能量加速率测量不大于该门限值，则更新其它参数的初始化，如步骤230。然后该处理返回至步骤235，如所示。

在步骤235中作出估算能量加速率测量是否在一个或多个指定限度之内的确定之后作出又一优选确定。估算该减速率值来确定其在步骤250中是否是‘高’的，且如果是这样的话，则缓慢地更新能量加速率测试的滚动平均，如步骤255所示。然后该处理在步骤260返回至整个频谱方法。

通过这样的方式，子区检测器的较高信噪比(SNR)使其具有较高的噪声鲁棒性。但是，其容易受不利的麦克风和说话者变化以及限带噪声的影响。因此，该测量不应当依赖于所有的环境。因此，本发明的优选实施例合并了子区检测器，以加强整个频谱测量。

又一测量处理优选地使用例如每帧的频谱的下半部分内的值方差的‘加速率’来执行。该方差测量检测频谱的下半部分内的结构，使其对浊音语音高度敏感。方差测量遵循子区处理的方法，频谱的下半部分是选择的特定子区。这个方差测量进一步补充了整个频谱测量方法，其能够更好地检测清音和爆破音语音。

所有这三个测量从由双重维纳滤波器的第一阶段产生的滤波器增益的谱表示中取出其原始输入，如申请人为摩托罗拉公司且发明人为Yan-Ming Chen的US 09/427497的美国专利申请中所描述。如上所述，每个测量使用这个数据的不同方面。

具体地说，整个频谱检测器使用已知的由双重韦纳滤波器的第一阶段产生的滤波器增益的Mel滤波的谱表示。单个输入值是通过对Mel滤波器组的和进行平方而获得的。

在本发明的优选实施例中，整个频谱检测器向所有帧应用了下面的处理，如下所述：

步骤一以下述的方式初始化噪声估计跟踪值(Tracker)：

如果帧数＜15且加速率＜2.5，

则跟踪值＝MAX(跟踪值，输入)。

如果语音在15帧的导入时间内发生，则能量加速率测量防止跟踪值被更新。

如果当前输入与噪声估值相同，则步骤二以下面的方式更新跟踪值：

如果输入＜跟踪值×上限且

输入＞跟踪值×下限，

则跟踪值＝a×跟踪值+(1-a)×输入

步骤三对那些第一少数帧内存在语音或无特征大噪声内容的实例提供了故障保险机制。这致使所得的错误高噪声估值降低。步骤三优选地以下面的方式进行：

如果输入＜跟踪值×最低值(Floor)，

则跟踪值＝b×跟踪值+(1-b)×输入

如果当前输入比跟踪值大165％，则步骤四以下面的方式返回，作为‘真’语音确定：

如果输入＞跟踪值×门限，

则输出‘真’，否则输出‘假’。

瞬时输入与短时均值跟踪值的比率是连续输入的能量加速率的函数。

其中，在上述中：

a＝0.8且b＝0.97；

上限是150％且下限是75％；

最低值是50％；且

门限是165％。

应当注意，如果该值大于上限或在下限和最低值之间，则不更新。此外，如上所指出，能量加速率输入可以根据下述的方式计算：

在连续输入上二次求导或通过跟踪输入的两个滚动平均的比率来估算。

应当注意，快速和缓慢自适应滚动平均的比率反映了连续输入的能量加速率。

例如，上面所使用的对于该平均数的贡献率是：

(i)0×均值+1×输入，且

(ii)((帧数-1)×均值+1×输入)/帧数，

使能量加速率测量对首十五帧越来越敏感。

该子频段检测器优选地使用从‘整个频谱’测量得出的第二、第三和第四Mel滤波器组的平均数。然后，该检测器以如下所述的方式对所有帧应用了下面的处理：

(i)输入＝p×当前输入+(1-p)×先前输入；

(ii)如果帧数＜15，

则跟踪值＝MAX(跟踪值，输入)；

(iii)如果输入＜跟踪值×上限且

输入＞跟踪值×下限，

则跟踪值＝a×跟踪值+(1-a)×输入；

(iv)如果输入＜跟踪值×最低值，

则跟踪值＝b×跟踪值+(1-b)×输入

(v)如果输入＞跟踪值×门限，

则输出‘真’，否则输出‘假’。

其中，在子区测量中：

p＝0.75。

除了等于3.25的门限外，对于整个频谱测量，所有其它参数都相同。

对于频谱方差测量，包括每帧增益的窄带谱表示的下半部分频率的值的方差被用作输入。然后，该检测器对整个频谱测量应用了相同的处理。

该方差计算为：

\frac{1}{N} Σ_{i = 0}^{N - 1} W_{i}^{2} - {(Σ_{i = 0}^{N - 1} W_{i})}^{2} / N^{2} - - - [5]

其中：

N＝FFT长度/4，以及

w_i是增益的窄带谱表示的值。

根据本发明的优选实施例，上面所详细描述的这三个测量被提供给VAD判决算法，如图3的流程图所示。连续输入被提供给缓冲器，其提供上下文分析。这使得帧延迟等于缓冲器长度减去一帧。

现在参考图3，示出了根据本发明的优选实施例的用于噪声环境的基于加速率的话音活动验证处理的流程图300。

对于N＝7帧缓冲器，最近的真/假语音输入被存储在数据缓冲器中的位置N上，如步骤305所示。判决逻辑应用若干个下面的步骤，并且优选地应用每一步骤：

步骤1：

V_N＝测量1或测量2或测量3

如果这三个测量中的任何一个返回真语音指示，则输入V_N定义为‘真’(T)。

步骤2：

该算法搜索缓冲器中的‘真’值的最长连续序列，如步骤310。因此，例如，对于序列‘TTFTTTF’，M等于3。

步骤3：

如果M≥S_P且T＜L_S，T＝L_S；

其中，S_P等同于步骤315中的第一门限。如果在步骤315中真(T)语音值的最长序列等于或超过第一门限，即S_P＝3或更多连续‘真’值，则缓冲器被判决为包含‘可能(possible)’的语音。如果在步骤320中确定还未存在(或超过)，则在步骤325中启动例如L_S＝5帧的短计时器T(时间_1)。

步骤4：

如果M≥S_L且F＞F_S，T＝L_M，否则T＝L_L；

其中，S_L等于步骤330中的第二门限。如果存在S_L＝4或更多连续的‘真’值，则再次判断缓冲器包含‘可能(likely)’的语音。如果如步骤335中所确定的当前帧F处于初始导入安全周期F_S之外，则在步骤340中启动例如L_M＝22帧的中计时器T。否则，在步骤345中使用例如L_L＝40帧的故障保险长计时器T。在话语中的语音早期出现时使用这种布置会使VAD的初始的噪声估值过高。

步骤5：

如果M＜S_P且T＞0，T--；

如果该处理在步骤350中确定存在小于S_P＝3的连续‘真’值且计时器在步骤355中大于零，则计时器在步骤360中递减。

步骤6：

如果T＞0，输出‘真’，否则输出‘假’；

如果计时器在步骤365中大于零，则该处理输出‘真’语音判决，如步骤370所示。另外，如果计时器在步骤365中不大于零，则该处理输出‘噪声’判决，如步骤375所示。

步骤7：

Frame++，把缓冲器向左移位且返回至步骤1。

在步骤380中准备下一帧，缓冲器向左移位，以容纳下一输入，如根据图4所示。该输出语音判决应用于从该缓冲器出来的帧。然后在步骤305中对输入到数据缓冲器中的下一个真/假输入重复该处理。

执行根据如上所述的能量加速率处理作出语音或噪声判决的替换机制也在本发明的考虑范围之内。例如，该判决机制可能不是基于一个或多个计时器，而可能完全地根据是否超过一个或多个能量加速率门限而作出判决的。

现在参考图4，更详细地示出了根据本发明的优选实施例的缓冲器操作400的示例。我们假定第一门限设置为三个连续的‘真’值。在“t”410时，假定只有当前输入(帧#7)425和先前输入(帧#6)420为‘真’。因此，当该缓冲器移位时，第一帧(帧#1)415将被标记为假。

在‘t+1’430时，第三‘真’输入(帧#8)450已被接收，以增补以前的两个‘真’输入440和445。因此，当该缓冲器移位时，下一个输出帧(帧#2)435将被标记为‘真’。

应当注意，在上述的判定处理中，唯一的约束是：

(i)时间_1＜时间_2＜时间_3，且

(ii)门限_1＜门限_2。

假定只有这三个输入(帧#6、帧#7和帧#8)为‘真’，则整个输出序列是：

F T T T T T T T T T T

1 2 3 4 5 6 7 8 9 10 11

T T T T T T F F F F F

12 13 14 15 16 17 18 19 20 21 22

其中，由于缓冲器导入功能，帧#2-#5指示为‘真’。帧#6-#8指示‘真’，作为实际的初始‘真’语音输入的位置。由于缓冲器导出功能，帧#9-#12指示为‘真’。响应于所使用的计时器延迟，帧#13-#18指示‘真’。当话语中的所有帧都被输入时，缓冲器移出‘假’条目(帧#19-#L_M)直到清空。

缓冲器长度和延迟计时器可以被动态地调整为满足音频通信单元的需求，这也在本发明的范围之内。同样，使用‘N’为8的缓冲器长度的优选实施例和5帧的延迟计时器只是出于解释性的目的。但是，应当注意，缓冲器长度‘N’应当总是确定为N≥S_L。

除了用作其自身VAD之外，在图2的方法步骤中执行的能量加速率测量可以用于验证其它参数的初始化，这也在本发明的考虑范围之内。例如，频谱提取方案根据语音的首十帧(典型地为100毫秒)来要求噪声的初始估值。甚至在平稳噪声中，可能发生若干事件而致使初始估值无效。这种事件的示例包括：

(a)信号的上斜：

由于各种可能的原因，在估值时，记录的开始可能在该周期内‘上斜’至满值。完全上斜的原因包括：数字系统中的缓冲器填充，模拟系统中的容量或带头连接。这些事件的影响使该估值无效。因此，能量加速率测量可以用于检测这种上斜并防止出现这种失误。

(b)初始信号中的毛刺：

普通‘毛刺’伴随着用户无线单元上的一键通(PTT)按钮的完整动作而发生，其中，电接触极少发生在按钮碰击开关背部之前。如上所述，当发生这种事件时，能量加速率测量可以用于挂起估值处理，如图2的步骤225所示。

(c)初始信号中的语音：

另一通常发生的事件是，具体地说对于PTT系统，用户在按下PTT按钮时立即开始讲话。通过这种方式，在语音开始之后进行电接触。能量加速率测量可以识别这一点且挂起基于噪声的初始化，如图2的步骤225所示，或者强迫使用故障估值。

总之，已对包括具有话音活动检测机制的音频处理单元的通信单元进行描述。话音活动检测机制提供输入至通信单元的信号输入的能量加速率的指示且根据所述指示来确定所述输入信号是语音还是噪声。

此外，已对检测输入到通信单元中的语音信号的方法进行描述。该方法包括以下步骤：指示输入到通信单元的输入信号的加速率；以及根据所述指示步骤来确定所述输入信号是语音还是噪声。

此外，已对判决输入到通信单元中的信号是语音还是噪声的方法进行描述。该方法包括以下步骤：根据能量加速率判决所述输入信号是语音还是噪声，例如使用若干输入信号的帧平均或滚动平均。

因此，应当理解，如上所述的用于噪声环境的基于能量加速率的话音活动检测器和验证器提供了噪声鲁棒性和快速响应的优点。由于优选实施例使用依赖于能量加速率的测量，而不是绝对的测量，所以在此所描述的发明构思可以应用于任何输入电平的语音。

虽然上面已对本发明的实施例的特定和优选实现进行了描述，但是应当清楚，本领域的技术人员易于应用落入本发明的范围之内的这种发明构思的变化和修改。

因此，已对用于噪声环境的经改善的话音活动检测器和验证器进行描述，其中，基本上消除了与现有技术布置相关联的上述缺点。

Claims

1.一种通信单元(100)，其包含具有话音活动检测机制(130，135)的音频处理单元(109)，所述通信单元(100)的特征在于，所述话音活动检测机制(130，135)测量输入到所述通信单元(100)中的信号的能量加速率，并根据所述测量确定所述输入信号是语音还是噪声。

2.如权利要求1所述的通信单元(100)，其中，所述话音活动检测机制包括话音活动检测器功能块(130)，其对输入到所述话音活动检测机制(130，135)中的信号执行话音的逐帧检测。

3.如权利要求2所述的通信单元(100)，其中，所述逐帧检测包括针对下述的频率范围中的一个或多个对输入到所述话音活动检测机制(130，135)中的信号执行能量加速率测量：

(i)整个频谱

(ii)频谱子频段；以及

(iii)频谱方差。

4.如权利要求3所述的通信单元(100)，其中，所述话音活动检测机制包括话音活动判决功能块(135)，其可操作地连接至所述话音活动检测器功能块(130)，以根据一个或多个所述测量的缓冲操作来判决所述输入信号是否是语音。

5.如权利要求4所述的通信单元(100)，其中，所述话音活动判决功能块(135)使用多个所述输入信号的帧平均或滚动平均来判决输入信号是否是语音。

6.如权利要求2至5中的任一项所述的通信单元(100)，其中，如果所述能量加速率测量得出大于能量加速率门限的能量加速率值，则认为输入帧是语音帧(265)。

7.如权利要求6所述的通信单元(100)，其中，确定输入帧是语音帧的判决(265)的应用可追溯至输入信号的缓冲器中的前面的帧。

8.如权利要求6或权利要求7所述的通信单元(100)，其中，如果对于多个连续帧，所述能量加速率测量得出大于能量加速率门限的能量加速率值，则认为输入帧是语音帧(370)。

9.当依赖于权利要求3时，如权利要求3至8中的任一项所述的通信单元(100)，其中，如果选择输入信号频谱的子区，则该选择是基于子区最有可能包含话音信号的基本基音而作出的。

10.如前面的任一项权利要求所述的通信单元(100)，其中，所述话音活动检测机制(130，135)使用话音能量的相关特征的加速率来验证其它话音或噪声的相关量度的参数初始化，例如频谱提取方案。

11.一种检测输入至通信单元中的语音信号的方法，其特征在于，包含以下步骤：

测量输入至所述通信单元中的输入信号的能量中的加速率或变化；以及

根据所述测量步骤来确定(315，330，350)所述输入信号是语音(370)还是噪声(375)。

12.如权利要求11所述的语音信号检测方法，其特征在于，进一步包含以下步骤：

对输入至所述通信单元中的信号执行话音的逐帧检测。

13.如权利要求12所述的语音信号检测方法，其中，所述逐帧检测包括以下步骤：

针对一个或多个下面的频率范围，对所述输入信号执行能量加速率测量：

(i)整个频谱

(ii)频谱子频段；以及

(iii)频谱方差。

14.一种判决输入至通信单元中的信号是语音还是噪声的方法，优选地根据前面权利要求11至13中的任一项权利要求，该方法的特征在于，进一步包含以下步骤：

根据所述输入信号的能量测量中的能量加速率或变化来判决(315，330，350)所述输入信号是语音(370)还是噪声(375)，例如使用多个输入信号的帧平均或滚动平均。

15.如权利要求14所述的判决输入至通信单元中的信号是语音还是噪声的方法，其中，所述判决步骤包括：

如果所述能量加速率测量得出能量加速率值大于能量加速率门限，则确定输入帧是语音帧(265)；以及

把所述确定可追溯地应用至输入信号的缓冲器中的前面的帧。