CN103236260A

CN103236260A - 语音识别系统

Info

Publication number: CN103236260A
Application number: CN2013101090443A
Authority: CN
Inventors: 王健铭
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Display Technology Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Display Technology Co Ltd
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2013-08-07
Anticipated expiration: 2033-03-29
Also published as: WO2014153800A1; US20150340027A1; CN103236260B

Abstract

本发明提供一种语音识别系统，包括：存储单元，用于存储至少一个用户的语音模型；语音采集及预处理单元，用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；特征提取单元，用于从编码后的所述待识别语音信号中提取语音特征参数；模式匹配单元，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性，并使用MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别算法，能够达到提高说话人检测可靠性的目的，使得最终能够在电子产品上实现说话人识别的功能。

Description

语音识别系统

技术领域

本发明涉及语音检测技术领域，尤其是指一种语音识别系统。

背景技术

目前，在电信、服务业和工业生产线的电子产品开发中，许多产品上使用了语音识别技术，并创造出一批新颖的语音产品，如语音记事本、声控玩具、语音摇控器及家用服务器等，从而极大地减轻了劳动强度、提高了工作效率，并日益改变着人们的日常生活。因此，目前语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。

语音识别包含说话人识别和说话人语义识别两种，前者利用的是语音信号中说话人的个性特征，不考虑包含在语音中的字词的含义，强调的是说话人的个性；而后者的目的是识别出语音信号中的语义内容，并不考虑说话人的个性，强调的是语音的共性。

然而现有技术识别说话人的技术可靠性不高，因此使得采用说话人检测的语音产品不能被广泛应用。

发明内容

根据以上，本发明技术方案的目的是提供一种语音识别系统，以提高说话人检测的可靠性，使语音产品能够被广泛应用。

本发明提供一种语音识别系统，包括：

存储单元，用于存储至少一个用户的语音模型；

语音采集及预处理单元，用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；

特征提取单元，用于从编码后的所述待识别语音信号中提取语音特征参数；

模式匹配单元，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。

优选地，上述所述的语音识别系统，在采集所述待识别语音信号后，所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样，之后对所述待识别语音信号进行格式转换及编码，使所述待识别语音信号被分割为由多帧组合而成的短时信号。

优选地，上述所述的语音识别系统，所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。

优选地，上述所述的语音识别系统，还包括：

端点检测单元，用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点，去除所述待识别语音信号中的静音信号，获得所述待识别语音信号中语音的时域范围；以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析，根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。

优选地，上述所述的语音识别系统，所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征，获得所述语音特征参数。

优选地，上述所述的语音识别系统，所述语音识别系统还包括：语音建模单元，用于利用所述语音特征参数，采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。

优选地，上述所述的语音识别系统，所述模式匹配单元利用高斯混合模型，使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，计算所述待识别语音信号与每一个所述语音模型的似然度。

优选地，上述所述的语音识别系统，采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户的方式具体采用以下公式：

其中：θ_i表示存储单元所存储的第i个人语音的模型参数，χ为待识别语音信号的特征参数；P(χ)、P(θ_i)分别为θ_i、χ的先验概率；P(χ/θ_i)为所述待识别语音信号的特征参数相对于第i个说话人得似然估计。

优选地，上述所述的语音识别系统，利用高斯混合模型，所述待识别语音信号的特征参数由一组参数

唯一确定，其中w_i、

C_i分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。

优选地，上述所述的语音识别系统，还包括判决单元，用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对，确定所述待识别语音信号所属的用户。

本发明具体实施例上述技术方案中的至少一个具有以下有益效果：

从语音的产生原理开始分析语音的特性，并使用MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别算法，能够达到提高说话人检测可靠性的目的，使得最终能够在电子产品上实现说话人识别的功能。

附图说明

图1表示本发明具体实施例所述语音识别系统的结构示意图；

图2表示采用本发明所述语音识别系统，在语音采集及预处理阶段的处理过程示意图；

图3表示本发明具体实施例所述语音识别系统进行语音识别的原理示意图；

图4表示采用MEL滤波器的语音输出频率示意图。

具体实施方式

为使本发明实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为本发明具体实施例所述语音识别系统的结构示意图。如图1所示，所述语音识别系统包括：

存储单元10，用于存储至少一个用户的语音模型；

语音采集及预处理单元20，用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；

特征提取单元30，用于从编码后的所述待识别语音信号中提取语音特征参数；

模式匹配单元40，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。

具体地，如图2所示，在采集所述待识别语音信号后，所述语音采集及预处理单元20用于依次对所述待识别信号进行放大、增益控制、滤波及采样，之后对所述待识别信号进行格式转换及编码，使所述待识别语音信号被分割为由多帧组合而成的短时信号；以及还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。

在说话人识别技术中，语音采集实际上是语音信号的数字化过程，通过放大及增益控制、反混叠滤波、采样、A/D（模拟/数字）变换及编码(一般为PCM（脉冲编码调制）码)过程，对待识别语音信号进行滤波和放大，并将滤波和放大后的模拟语音信号转变为数字语音信号。

在上述过程中，通过进行滤波处理，达到抑制输入信号各频域分量中频率超出fs/2的所有分量（fs为采样频率），以防止混叠干扰的目的，同时达到抑制50Hz的电源工频干扰的目的。

此外，如图2所示，所述语音采集及预处理单元20还用于对编码后的所述待识别语音信号进行数字化的反过程处理，以从数字化语音中重构语音波形，也即进行D/A（数字/模拟）变换。此外，还需要在D/A变换之后进行平滑滤波，对重构的语音波形的高次谐波进行平滑处理，以去除高次谐波失真。

通过上面介绍的处理过程，语音信号就已经被分割成一帧一帧的短时信号，然后再把每一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，等等，最后得到由每一帧参数组成的语音特征参数的时间序列。

此外，所述语音采集及预处理单元20还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。

其中，预处理一般包括预加重、加窗和分帧等，由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程跌落，即6dB/oct（2倍频），20dB/dec（10倍频），通常是频率越高幅值越小，在语音信号的功率降低二分之一时，其功率谱的幅度就会有半个量级的下降。因此，在对语音信号进行分析之前，一般要对语音信号加以一定的提升。

在语音信号处理中常用的窗函数是矩形窗和汉明窗等，用于对采样的语音信号进行加窗分割成一帧一帧的短时语音序列，表达式分别如下：(其中N为帧长）：

矩形窗：

汉明窗：

此外，参阅图1所示，所述语音识别系统还包括：端点检测单元50，用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点，去除所述待识别语音信号中的静音信号，获得所述待识别语音信号中语音的时域范围；以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析，根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。

所述语音识别系统通过端点检测单元50，从包含语音的一段待识别语音信号中确定出语音的起点以及终点，其作用是使处理的时间减到最小，而且能排除无声段的噪声干扰，从而使识别系统具有良好的识别性能。

本发明所述语音识别系统，基于相关性的语音端点检测算法：语音信号具有相关性，而背景噪声则无相关性。因而利用相关性的不同，可以检测出语音，尤其是可以将清音从噪声中检测出来。第一级对输入语音信号，根据其能量和过零率的变化，进行一次简单的实时端点检测，以便去掉静音得到输入语音的时域范围，并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果，分别计算出高频、中频和低频段的能量分布特性，用来判别轻辅音、浊辅音和元音；在确定了元音、浊音段后，再向前后两端扩展搜索包含语音端点的帧。

所述特征提取单元30从所述待识别语音信号中进行语音特征参数提取，包括线性预测参数及其派生参数（LPCC）、语音频谱直接导出的参数、混合参数及Mel频率倒谱系数（MFCC）等。

对于线性预测参数及其派生参数：

通过对线性预测参数进行正交变换得到的参量，其中阶数较高的几个方差较小，这说明它们实质上与语句的内容相关性小，而反映了说话人的信息。另外，由于这些参数是对整个语句平均得到的，所以不需要进行时间上的归一化，因此可用于与文本无关的说话人识别。

对于语音频谱直接导出的参数：

语音短时谱中包含有激励源和声道的特性，因而可以反映说话人生理上的差别。而短时谱随时间变化，又在一定程度上反映了说话人的发音习惯，因此，由语音短时谱中导出的参数可以有效地用于说话人识别中。已经使用的参数包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。

对于混合参数

为了提高系统的识别率，部分原因也许是因为对究竟哪些参量是关键把握不够，相当多的系统采用了混合参量构成的矢量。如将“动态”参量（对数面积比与基频随时间的变化）与“统计”分量（由长时间平均谱导出）相结合，还有将逆滤波器谱与带通滤波器谱结合，或者将线性预测参数与基音轮廓结合等参量组合方法。如果组成矢量得各个参量之间的相关性不大，则效果会很好，因为该些参量分别反映了语音信号中不同的特征。

对于其他鲁棒性参数：

包括Mel频率倒谱系数，以及经过噪声谱减或者信道谱减的去噪倒谱系数。

其中，MFCC参数具有如下优点（与LPCC参数相比）：

语音信息大多集中在低频部分，而高频部分易受环境噪音干扰；MFCC参数将线性频标转化为Mel频标，强调语音的低频信息，从而除了具有LPCC的优点之外，还突出了有利于识别的信息，屏蔽了噪音的干扰。LPCC参数是基于线性频标的，所以没有这样的特点；

MFCC参数没有任何前提假设，在各种情况下都可使用。而LPCC参数假设所处理的信号是AR信号，对于动态特性较强的辅音，该假设并不严格成立，所以MFCC参数在说话人识别中优于LPCC参数；

MFCC参数提取过程中需要FFT变换,可以以此获得语音信号频域上的所有信息。

图4表示采用MEL滤波器的语音输出频率示意图，人耳所听到的声音的高低与声音的频率并不成线性正比关系，而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度，它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用式：Mel(f)=2595lg(1+f/700)，这里，实际频率f的单位是Hz。临界频率带宽随着频率的变化而变化，并与Mel频率的增长一致，在1000Hz以下，大致呈线性分布，带宽为100Hz左右；在1000Hz以上呈对数增长。类似于临界频带的划分，可以将语音频率划分成一系列三角形的滤波器序列，即Mel滤波器组。

三角滤波器的输出则为：

Y_{i} = Σ_{k = F_{i - 1}}^{F_{i}} \frac{k - F_{i - 1}}{F_{i} - F_{i - 1}} X_{k} + Σ_{k = F_{i + 1}}^{F_{i + 1}} \frac{F_{i + 1} - k}{F_{i + 1} - F_{i}} X_{k}, i = 1,2, \cdot \cdot \cdot, P

其中Y_i为第i个滤波器的输出。

用离散余弦变换（DCT）将滤波器输出变换到倒谱域：

C_{k} = Σ_{j = 1}^{24} \log (Y_{i}) \cos [k (j - \frac{1}{2}) \frac{π}{24}], k = 1,2, . . ., P

其中P为MFCC参数的阶数，实际软件算法中选取P=12，{C_k}_k＝1,2,...,12即为所求的MFCC参数。

本发明具体实施例所述语音识别系统进行语音识别的原理如图3所示，利用特征提取单元30，通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征，获得所述语音特征参数。

此外，所述语音识别系统还包括：语音建模单元60，用于利用所述语音特征参数，采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。

所述模式匹配单元40利用高斯混合模型，使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，使判决单元70根据匹配结果确定所述待识别语音信号所属的用户。这样通过将提取出的语音特征参数与存储单元10中所保存的语音模型相比对，得出识别结果。

具体采用高斯混合模型进行语音建模和模式匹配的方式可以为如下：

在采取高斯混合模型的说话人集合中，任一说话人的模型形式都是一致的，其个性特征由一组参数，

唯一确定。其中w_i、

C_i分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。因此，说话人的训练是从已知说话人的语音中得到这样的一组参数λ，使得其产生训练语音得概率密度最大。而说活人识别就是依靠最大概率原则选出识别语音概率最大得那一组参数代表得说话人，即参阅公式（1）：

λ＝arg_λmaxP(X|λ) （1）

其中P(X/λ)表示长度为T的训练序列（T个特征参数）X＝{X₁,X₂,…,X_T}关于GMM模型的似然度：

具体地：

P (X / λ) = Π_{t = 1}^{T} P (X_{t} / λ) - - - (2)

下面是MAP算法过程：

说话人识别系统中，设χ为训练样本，θ_i是第i个说话人得模型参数，则根据最大后验概率原则及公式1，由MAP训练方法准则所确定的语音声学模型为如下公式（3）：

上式公式（3）中：P(χ)、P(θ_i)分别为θ_i、χ的先验概率；P(χ/θ_i)为该待识别语音信号的特征参数相对于第i个说话人得似然估计。

对于上述公式2中的GMM的似然度计算，由于上式2是参数λ的非线性函数，很难直接求出上式的最大值。因此，常常采用EM（ExpectationMaximization，简称为EM）算法估计参数λ。EM算法的计算是从参数λ的一个初值开始，采用EM算法估计出一个新的参数

使得新的模型参数下的似然度

新的模型参数再作为当前参数进行训练，这样迭代运算直到模型收敛。每一次迭代运算，下面的重估公式保证了模型似然度的单调递增。

（1）混合权值的重估公式：

ω_{i} = \frac{1}{T} Σ_{t = 1}^{T} P (i / X_{t}, λ)

（2）均值的重估公式：

μ_{i} = \frac{Σ_{t = 1}^{T} P (i / X_{t}, λ) X_{t}}{Σ_{t = 1}^{T} P (i / X_{t}, λ)}

（3）方差的重估公式：

σ_{i}^{2} = \frac{Σ_{t = 1}^{T} P (i / X_{t}, λ) {(X_{t} - μ_{i})}^{2}}{Σ_{t = 1}^{T} P (i / X_{t}, λ)}

其中，分量i的后验概率为：

P (i / X_{t}, λ) = \frac{ω_{i} b_{i} (X_{t})}{Σ_{k = 1}^{M} ω_{k} b_{k} (X_{t})}

在使用EM算法训练GMM时，GMM的模型的高斯分量的个数M和模型的初始参数必须首先确定。如果M取值太小，则训练出的GMM模型不能有效地刻画说话人的特征，从而使整个系统性能下降。如果M取值过大，则模型参数会很多，从有效的训练数据中可能得不到收敛的模型参数，同时，训练得到的模型参数误差会很大。而且，太多的模型参数要求更多的存贮空间，而且训练和识别的运算复杂度大大增加。高斯分量M的大小，很难从理论上推导出来，可以根据不同的识别系统，由实验确定。

一般，M取值可以是4、8、16等。可以采用两种初始化模型参数的方法：第一种方法使用一个与说话人无关的HMM模型对训练数据进行自动分段。训练数据语音帧根据其特征分到M个不同的类中（M为混合数的个数），与初始的M个高斯分量相对应。每个类的均值和方差作为模型的初始化参数。尽管有实验证明EM算法对于初始化参数的选择并不敏感，但是显然第一种方法训练要优于第二种方法。也可以首先采用聚类的方法将特征矢量归位于混合数相等的各个类中，然后分别计算各个类的方差和均值，作为初始矩阵和均值，权值是各个类中所包含的特征矢量的个数占总的特征矢量的百分比。建立的模型中，方差矩阵可以为全矩阵，也可以为对角矩阵。

本发明所述语音识别系统，利用高斯混合模型(GMM)采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户的方式。

使用最大后验概率算法（MAP），就是利用Bayes学习方法对参数进行修改，先从一个给定得初始模型λ开始，计算训练语料中每个特征向量在每个高斯分布得统计几率，再利用这些统计几率来计算每个高斯分布得期望值，然后以这些期望值反过来最大化高斯混合模型得参数值，得到

重复上面得步骤，直到P(X|λ)收敛为止。当训练语料足够多时，MAP算法有理论上得最优性。

当设χ为训练样本，θ_i是第i个说话人得模型参数，根据最大后验概率原则及公式1，由MAP训练方法准则所确定的语音声学模型为如上公式（3）后，获得的

为模型参数得Bayes估计值。

当考虑P(χ)和{θ_i}_i＝1,2,...W（W是词条数）无关得情况：在渐进的自适应方式中，训练样本是逐个输入的。设λ＝{p_i,μ_i,Σ_i},i＝1,2,…,M为训练样本序列，则渐进MAP方法准则如下：

其中

为第一次训练的模型参数估计值。

根据上述计算过程，以更简化形式举例说明：

本发明所述语音识别系统，说话人辨认的目的是要用于确定待识别语音信号属于N个说话人中的哪一个。在一个封闭的说话人集合里，只需要确认该语音属于语音库中的哪一个说话人。在辨认任务中，目的是找到一个说话者i^*，其对应的模型

使得待识别语音特征矢量组X具有最大后验概率P（λ_i/X）。根据Bayes理论及上述公式3，最大后验概率可表示为：

P (λ_{i} / X) = \frac{P (X / λ_{i}) P (λ_{i})}{P (X)}

在这里，参阅上述公式2：

P (X / λ) = Π_{t = 1}^{T} P (X_{t} / λ)

其对数形式为：

\log P (X / λ) = Σ_{t = 1}^{T} \log P (X_{t} / λ)

因为P(λ_i)的先验概率未知，假定该所述待识别语音信号出自封闭集里的每个人的可能性相等，也即为：

P (λ_{i}) = \frac{1}{N}, 1 \leq i \leq N

对于一个确定的观察值矢量X，P（X）是一个确定的常数值，对所有说话人都相等。因此，求取后验概率的最大值可以通过求取P(X/λ_i)获得。因此，辨认该语音属于语音库中的哪一个说话人可以表示为：

i^{*} = \arg \max_{i} P (X / λ_{i})

上述公式对应公式(3),i^*即为所识别出的说话人。

进一步地，利用上述方式，只是识别出模型库中最接近的用户，通过上述，匹配时计算要识别的说话人与语音库中所有说话人信息的似然度之后，还需要通过判决单元将与待识别语音信号具有最高似然度的用户的语音模型配合识别门限的限制，确定所述待识别语音信号所属的用户，从而达到对说话人身份进行认证的目的。

所述语音识别系统还包括判决单元，用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对，确定所述待识别语音信号所属的用户。

本发明具体实施例所述语音识别系统，从语音的产生原理开始分析语音的特性，并使用MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别的算法，能够达到提高说话人检测可靠性的目的，使得最终能够在电子产品上实现说话人识别的功能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别系统，其特征在于，包括：

存储单元，用于存储至少一个用户的语音模型；

2.如权利要求1所述的语音识别系统，其特征在于，在采集所述待识别语音信号后，所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样，之后对所述待识别语音信号进行格式转换及编码，使所述待识别语音信号被分割为由多帧组合而成的短时信号。

3.如权利要求2所述的语音识别系统，其特征在于，所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。

4.如权利要求1所述的语音识别系统，其特征在于，所述语音识别系统还包括：

5.如权利要求1所述的语音识别系统，其特征在于，所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征，获得所述语音特征参数。

6.如权利要求5所述的语音识别系统，其特征在于，所述语音识别系统还包括：语音建模单元，用于利用所述语音特征参数，采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。

7.如权利要求1所述的语音识别系统，其特征在于，所述模式匹配单元利用高斯混合模型，使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，计算所述待识别语音信号与每一个所述语音模型的似然度。

8.如权利要求7所述的语音识别系统，其特征在于，采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户的方式具体采用以下公式：

9.如权利要求8所述的语音识别系统，其特征在于，利用高斯混合模型，所述待识别语音信号的特征参数由一组参数

唯一确定，其中w_i、

10.如权利要求7所述的语音识别系统，其特征在于，所述语音识别系统还包括判决单元，用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对，确定所述待识别语音信号所属的用户。