CN101051461A

CN101051461A - 特征向量补偿装置和特征向量补偿方法

Info

Publication number: CN101051461A
Application number: CNA200710088572XA
Authority: CN
Inventors: 赤岭政巳; 益子贵史; 丹尼尔·巴雷达; 雷姆科·特尤南
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-04-06
Filing date: 2007-03-16
Publication date: 2007-10-10
Also published as: JP2007279349A; US20070276662A1; JP4245617B2

Abstract

本发明提供一种特征向量补偿装置和特征向量补偿方法。其中，特征提取单元提取输入语音的特征向量。相似性计算单元根据特征向量，针对多个噪声环境中的每一个计算相似度。补偿向量计算单元从存储单元中获取第一补偿向量，根据第一补偿向量计算第二补偿向量，并且通过以相似度作为加权系数使第二补偿向量加权相加，来计算第三补偿向量。补偿单元根据第三补偿向量来补偿特征向量。

Description

特征向量补偿装置和特征向量补偿方法

技术领域

本发明一般涉及语音处理技术，特别是涉及背景噪声环境下的语音处理。

背景技术

在噪声环境下的语音识别中，由于学习时的噪声环境与识别时的噪声环境之间的差异，语音模型的不匹配导致识别性能降低的问题。应对该问题的有效方法之一是在Li Deng，Alex Acero，Li Jiang，JashaDroppo and Xuedong Huang，“High-performance robust speechrecognition using stereo training data”，Proceedings of 2001International Conference on Acoustics，Speech，and Signal Processing，pp.301-304中提出的以立体声为基础的分段线性环境补偿(stereo-based piecewise linear compensation for environments，SPLICE)方法。

SPLICE方法预先从一对干净语音数据和在干净语音数据上叠加了噪声的噪声语音数据中获得补偿向量，利用该补偿向量，使语音识别时的特征向量接近干净语音的特征向量。SPLICE方法也可以被视为降噪的方法。

利用这样一种补偿处理，有报告称，即使在培训条件与识别条件不匹配时，也可以获得较高的识别率。

但是，传统的SPLICE方法仅仅为逐帧地从预先设计的多个噪声环境中选择的单个噪声环境来补偿特征向量，并且预先设计的噪声环境不一定与语音识别时的噪声环境相匹配。因此，由于声音模型的不匹配会导致识别性能的降低。

而且，由于噪声环境的选择是在10至20毫秒短的每帧内进行，因此即使当相同的环境持续一定时间段，也会为每帧选择不同的环境，从而导致识别性能的降低。

发明内容

本发明的第一方面提供一种特征向量补偿装置，用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量，包括：存储单元，针对多个噪声环境中的每一个，在其中存储第一补偿向量；特征提取单元，提取输入语音的特征向量；相似性计算单元，根据所提取的特征向量，针对每个噪声环境计算相似度，所述相似度表示输入语音在所述噪声环境下产生的确定性；补偿向量计算单元，从所述存储单元中获取第一补偿向量，根据所获取的第一补偿向量，计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量，并且通过以相似度作为加权系数使计算出的第二补偿向量加权相加，来计算第三补偿向量；和补偿单元，根据第三补偿向量来补偿所提取的特征向量。

本发明的第二方面提供一种用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量的方法，包括以下步骤：提取输入语音的特征向量的步骤；根据所提取的特征向量，针对多个噪声环境中的每一个计算相似度的步骤，所述相似度表示输入语音在所述噪声环境下产生的确定性；补偿向量计算步骤，包括以下步骤：从针对每个噪声环境在其中存储第一补偿向量的存储单元中获取第一补偿向量，根据所获取的第一补偿向量，计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量，以及通过以相似度作为加权系数使计算出的第二补偿向量加权相加，来计算第三补偿向量；和根据第三补偿向量来补偿所提取的特征向量的步骤。

附图说明

图1是本发明第一实施方式的特征向量补偿装置的功能框图。

图2是第一实施方式的特征向量补偿处理的流程图。

图3是本发明第二实施方式的特征向量补偿装置的功能框图。

图4是第二实施方式的特征向量补偿处理的流程图。

图5是用于说明第一和第二实施方式的特征向量补偿装置的硬件结构的示意图。

具体实施方式

以下参照附图详细说明本发明的示例性实施方式。

本发明第一实施方式的特征向量补偿装置预先为多个噪声环境设计补偿向量，并将补偿向量存储在存储单元中，在语音识别时计算输入语音针对每个噪声环境的相似度，通过根据所计算的相似度对噪声环境的补偿向量进行加权相加来获得补偿向量，并根据所获得的补偿向量来补偿特征向量。

图1是第一实施方式的特征向量补偿装置100的功能框图。特征向量补偿装置100包括噪声环境存储单元120、输入接收单元101、特征提取单元102、相似性计算单元103、补偿向量计算单元104和特征向量补偿单元105。

噪声环境存储单元120在其中存储利用GMM将多个噪声环境模型化时的高斯混合模型(Gaussian mixture model，GMM)参数、以及作为对应于每个噪声环境的特征向量的补偿向量而预先计算出的补偿向量。

根据第一实施方式，假设预先计算3个噪声环境的参数，包括噪声环境1的参数121、噪声环境2的参数122和噪声环境3的参数123，并存储在噪声环境存储单元120中。噪声环境的数量不限于3个，换言之，可以采用任何希望数量的噪声环境作为参考数据。

噪声环境存储单元120可以由一般使用的任意记录介质构成，例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)。

输入接收单元101将从例如麦克风等输入单元(未示出)输入的语音转换成电信号(语音数据)，基于例如脉冲编码调制(PCM)对语音数据执行模拟-数字(A/D)转换，从而将模拟数据转换成数字数据，并输出数字语音数据。输入接收单元101所执行的处理可以通过使用与传统技术的语音信号数字处理相同的方法来实现。

特征提取单元102将从输入接收单元101接收到的语音数据分割成具有规定长度的多个帧，并提取语音的特征向量。帧的长度可以是10至20毫秒。根据第一实施方式，特征提取单元102提取包含梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)的静态、Δ和ΔΔ参数的语音的特征向量。

换言之，特征提取单元102使用对梅尔滤波器组分析的输出功率进行离散余弦转换的方法，计算包含13维MFCC、MFCC的Δ和ΔΔ的总共39维特征向量，作为每个分割帧的特征向量。

特征向量不限于上述的特征向量。换言之，只要代表输入语音的特征，任何参数都可以用作特征向量。

相似性计算单元103根据由特征提取单元102提取的特征向量，为预先确定的上述3个噪声环境中的每一个计算相似度，该相似度表示输入语音在每个噪声环境下产生的确定性。

补偿向量计算单元104从噪声环境存储单元120中获取每个噪声环境的补偿向量，并通过利用由相似性计算单元103计算的相似度作为加权系数，对所获取的补偿向量进行加权相加，来计算输入语音的特征向量的补偿向量。

特征向量补偿单元105使用由补偿向量计算单元104计算的补偿向量来补偿输入语音的特征向量。特征向量补偿单元105通过使补偿向量与特征向量相加来补偿特征向量。

图2是第一实施方式的特征向量补偿处理的流程图。

首先，输入接收单元101接收用户发出的语音的输入(步骤S201)。输入语音由输入接收单元101转换成数字语音信号。

特征提取单元102将语音信号分割成10毫秒的帧，并提取每帧的特征向量(步骤S202)。特征提取单元102如上所述通过计算MFCC的特征向量y_t来提取特征向量。

相似性计算单元103根据由特征提取单元102提取的特征向量y_t，计算针对预先确定的每个噪声环境的帧的语音的相似度(步骤S203)。当噪声环境模型为e时，假设时刻t的特征向量y_t，则将相似度如式(1)所示计算为噪声环境e的事后概率p(e|y_t)：

p (e | y_{t}) = \frac{p (y_{t} | e) p (e)}{p (y_{t})} - - - (1)

其中，p(y_t|e)为特征向量y_t在噪声环境e中出现的概率，p(e)和p(y_t)分别是噪声环境e的事前概率和特征向量y_t的概率。

当假设p(y_t)独立于噪声环境、每个噪声环境的事前概率相同时，事后概率p(e|y_t)可以利用式(2)计算：

p(e|y_t)＝αp(y_t|e) (2)

其中，p(y_t|e)和α分别利用式(3)和式(4)计算：

p (y_{t} | e) = \underset{s}{Σ} N (y_{t}; μ_{s^{'}}^{e} Σ_{x}^{e}) p (s) - - - (3)

α = 1 / \underset{alle}{Σ} p (y_{t} | e) - - - (4)

其中，N是高斯分布，p(s)是GMM的每个分量的事前概率，特征向量y_t利用GMM模型化。GMM的参数，即平均向量μ和协方差矩阵∑，可以利用最大期望(expectation maximization，EM)算法来计算。

可以使用将在噪声环境中准备的大量特征向量作为培训数据的隐藏式马可夫模型开发工具(Hidden Markov Model Toolkit，HTK)来获得GMM参数。HTK广泛应用于语音识别来培训HMM。

补偿向量计算单元104通过利用由相似性计算单元103计算的相似度作为加权系数，对为每个噪声环境预先计算的补偿向量r_s ^e进行加权相加，来计算输入语音的特征向量的补偿向量r_t(步骤S204)。利用式(5)计算补偿向量r_t：

r_{t} = \underset{e}{Σ} p (e | y_{t}) r_{t}^{e} - - - (5)

其中，利用下式计算r_t ^e：

r_{t}^{e} = \underset{s}{Σ} p (s | y_{t}) r_{s}^{e} - - - (6)

即，通过基于与传统的SPLICE方法相同的方法来对预先计算的补偿向量r_s ^e进行加权相加，来计算每个噪声环境e的补偿向量r_t ^e(式(6))。然后，通过利用相似度作为加权系数来对每个噪声环境e的补偿向量r_t ^e进行加权相加，来计算输入语音的特征向量的补偿向量r_t(式(5))。

可以使用与传统的SPLICE方法相同的方法来计算补偿向量r_s ^e。对于给定的大量组(x_n，y_n)，其中n为正整数，x_n为干净语音数据的特征向量，y_n为每个噪声环境中的噪声语音数据的特征向量，则补偿向量r_s ^e可以利用式(7)计算，其中表示噪声环境的上标“e”被省略，如下所示：

r_{s} = \frac{\underset{n}{Σ} p (s | y_{n}) (x_{n} - y_{n})}{\underset{n}{Σ} p (s | y_{n})} - - - (7)

其中，利用式(8)计算p(s|y_n)：

p (s | y_{n}) = \frac{p (y_{n} | s) p (s)}{\underset{s}{Σ} p (y_{n} | s) p (s)} - - - (8)

GMM参数和以上述方式计算的补偿向量被预先存储在噪声环境存储单元120中。因此，在步骤S204中，使用存储在噪声环境存储单元120中的每个噪声环境的补偿向量r_s ^e来计算补偿向量r_t。

最后，特征向量补偿单元105通过使由补偿向量计算单元104计算的补偿向量r_t与在步骤S202中计算的特征向量y_t相加，来进行特征向量y_t的补偿(步骤S205)。

以上述方式补偿后的特征向量被输出到语音识别装置。使用特征向量的语音处理不限于语音识别处理。本实施方式的方法可以应用于例如说话者识别等任何类型的处理。

这样，在特征向量补偿装置100中，利用多个噪声环境的线性组合来近似未知的噪声环境，因此，可以以更高的精度来补偿特征向量，从而即使当执行语音识别时的噪声环境与进行设计时的噪声环境不匹配时，也可以以高精度来计算特征向量。因此，可以利用特征向量来实现较高的语音识别性能。

在传统方法的特征向量补偿中，仅为输入语音信号的每一帧选择一个噪声环境，当在选择噪声环境中存在错误时，语音识别性能大大降低。相反，本实施方式的特征向量补偿方法根据相似度线性地组合多个噪声环境，而不是仅选择一个噪声环境，从而即使由于某种原因在相似度的计算中存在错误，对于补偿向量的计算的影响也足够小，从而性能降低程度小。

根据第一实施方式，每个时刻t的噪声环境的相似度仅从时刻t的特征向量y_t获取，然而，本发明第二实施方式的特征向量补偿装置同时使用时刻t之前和之后的时刻的多个特征向量来计算相似度。

图3是第二实施方式的特征向量补偿装置300的功能框图。特征向量补偿装置300包括噪声环境存储单元120、输入接收单元101、特征提取单元102、相似性计算单元303、补偿向量计算单元104和特征向量补偿单元105。

根据第二实施方式，相似性计算单元303的功能不同于第一实施方式的相似性计算单元103。其它单元和功能与图1所示的第一实施方式的特征向量补偿装置100相同。对于具有相同功能的单元，使用相同的附图标记并省略具体的说明。

相似性计算单元303使用多个帧的时间窗口中的特征向量来计算相似度。

图4是第二实施方式的特征向量补偿处理的流程图。

从步骤S401到步骤S402的处理按照与特征向量补偿装置100所执行的、从步骤S201到S202的处理相同的方式执行，因而省略具体的说明。

在步骤S402中提取了特征向量后，相似性计算单元303计算所提取的特征向量在每个噪声环境中出现的事件的概率(出现概率)。

接着，相似性计算单元303使用通过使在每个时刻的帧中计算出的出现概率进行加权相乘而得到的值，来计算时刻t的帧的归属度(步骤S404)。换言之，相似性计算单元303使用式(9)计算相似度p(e|y_t-a:t+b)，其中a和b为正整数，y_t-a:t+b是从时刻t-a到时刻t+b的特征向量序列。

p(e|y_t-a:t+b)＝αp(y_t-a:t+b|e) (9)

其中，式(9)中的p(y_t-a:t+b|e)和α分别利用式(10)和式(11)计算。

p (y_{t - a : t + b} | e) = Π_{t = - a}^{b} {(\underset{s}{Σ} N (y_{t + t}; μ_{s^{'}}^{e} Σ_{s}^{e}) p (s))}^{w (T)} - - - (10)

其中，w(τ)是每个时刻t+τ的加权。w(τ)的值例如可以设定成对于所有的τ值都为w(τ)＝1，或者可以设定成随着τ值的绝对值的增大而减小。然后，可以利用以上述方式计算的相似度p(e|y_t-a:t+b)，以与式(5)相同的方式获得补偿向量r_t。

即，补偿向量计算单元104使用在步骤S404中计算的相似度，以与第一实施方式中的步骤S204相同的方式，计算补偿向量r_t(步骤S405)。

特征向量补偿单元105以与第一实施方式中的步骤S205相同的方式，使用补偿向量r_t来补偿特征向量y_t(步骤S406)，完成补偿特征向量的处理。

这样，在第二实施方式的特征向量补偿装置中，利用多个特征向量来计算相似度，因此，可以抑制补偿向量的突然变化，从而以较高的精度来计算特征向量。因此，可以利用特征向量来实现较高的语音识别性能。

图5是用于说明第一和第二实施方式中的任意一个的特征向量补偿装置的硬件结构的示意图。

特征向量补偿装置包括例如中央处理单元(CPU)51等控制设备、例如只读存储器(ROM)52和随机存取存储器(RAM)53等存储设备、用于经由网络执行通信的通信接口(I/F)54和连接上述部件的总线61。

在特征向量补偿装置中执行的计算机程序(以下称为“特征向量补偿程序”)由预装在其中的例如ROM52等存储设备提供。

相反，可以通过将特征向量补偿程序作为可安装格式或可执行格式的文件存储在例如高密度盘-只读存储器(CD-ROM)、软盘(FD)、高密度盘-可记录(CD-R)和数字通用盘(DVD)等计算机可读记录介质中来提供。

另外可选的是，可以将特征向量补偿程序存储在与因特网等网络连接的计算机中，以便可以通过网络下载程序。另外可选的是，可以通过因特网等网络来提供或分配特征向量补偿程序。

特征向量补偿程序构成为模块结构，该模块结构包括上述功能单元(输入接收单元、特征提取单元、相似性计算单元、补偿向量计算单元和特征向量补偿单元)。因此，作为实际的硬件，CPU51从ROM52读出特征向量补偿程序来执行该程序，从而使上述功能单元装载在计算机的主存储器上，并在主存储器上生成。

Claims

1.一种特征向量补偿装置，用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量，包括：

存储单元，针对多个噪声环境中的每一个，在其中存储第一补偿向量；

特征提取单元，提取输入语音的特征向量；

相似性计算单元，根据所提取的特征向量，针对每个噪声环境计算相似度，所述相似度表示输入语音在所述噪声环境下产生的确定性；

补偿向量计算单元，从所述存储单元中获取第一补偿向量，根据所获取的第一补偿向量，计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量，并且通过以相似度作为加权系数使计算出的第二补偿向量加权相加，来计算第三补偿向量；和

补偿单元，根据第三补偿向量来补偿所提取的特征向量。

2.如权利要求1所述的特征向量补偿装置，其中，

存储单元在其中存储在利用高斯混合模型将噪声环境模型化时取得的参数，

相似性计算单元从存储单元中获取所述参数，根据所获取的参数，针对每个噪声环境计算表示特征向量出现的确定性的第一似然，并且根据计算出的第一似然来计算相似度。

3.如权利要求1所述的特征向量补偿装置，其中，

补偿单元通过将第三补偿向量与特征向量相加来补偿特征向量。

4.如权利要求1所述的特征向量补偿装置，其中，

存储单元针对每个噪声环境在其中存储根据作为噪声环境下的语音的噪声语音和作为没有噪声的环境下的语音的干净语音而计算出的第一补偿向量。

5.如权利要求1所述的特征向量补偿装置，其中，

特征提取单元提取输入语音的梅尔频率倒谱系数作为特征向量。

6.如权利要求1所述的特征向量补偿装置，其中，

相似性计算单元根据在第一时刻之前和之后中的至少一方的预定范围内的多个时刻所提取的多个特征向量，来计算相似度。

7.如权利要求6所述的特征向量补偿装置，其中，

相似性计算单元从存储单元中获取所述参数，根据所获取的参数，对于包含在所述范围内的每个时刻，针对每个噪声环境计算表示特征向量出现的确定性的第二似然，通过利用预定的第一系数作为加权系数使计算出的第二似然加权相乘，来计算表示第一时刻的特征向量出现的确定性的第一似然，并且根据计算出的第一似然来计算相似度。

8.如权利要求7所述的特征向量补偿装置，其中，

相似性计算单元计算作为计算出的第二似然之积的第一似然，并根据所计算的第一似然来计算相似度。

9.如权利要求7所述的特征向量补偿装置，其中，

所述第一系数以下述方式来预定：针对与第一时刻具有较大差异的时刻的第一系数的值小于针对与第一时刻具有较小差异的时刻的第一系数的值。

10.一种用于补偿在背景噪声环境下的语音处理中使用的语音的特征向量的方法，包括以下步骤：

提取输入语音的特征向量的步骤；

根据所提取的特征向量，针对多个噪声环境中的每一个计算相似度的步骤，所述相似度表示输入语音在所述噪声环境下产生的确定性；

补偿向量计算步骤，包括以下步骤：

从针对每个噪声环境在其中存储第一补偿向量的存储单元中获取第一补偿向量，

根据所获取的第一补偿向量，计算作为针对每个噪声环境的特征向量的补偿向量的第二补偿向量，以及

通过以相似度作为加权系数使计算出的第二补偿向量加权相加，来计算第三补偿向量；和

根据第三补偿向量来补偿所提取的特征向量的步骤。