CN1420486A

CN1420486A - 基于决策树的语音辨别

Info

Publication number: CN1420486A
Application number: CN02148751.0A
Authority: CN
Inventors: 李恒舜
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2001-11-16
Filing date: 2002-11-15
Publication date: 2003-05-28
Anticipated expiration: 2022-11-15
Also published as: US20030097263A1; CN1198261C

Abstract

本发明公开了一种建立至少一个决策树以处理表现语音的样本信号的方法(200)。该方法包括依据音素的分段统计语音模型，提供模型子向量，该模型包括平均值和关联的方差值的诸多向量。然后，对平均值的模型子向量进行统计分析，以提供指示子向量之间相对最大方差的方向预测向量，此后，计算多个预测向量的预测值(240)。依据预测值的范围分析，确定潜在阈值(260)。最后提供有决策能力的决策树(270)，把模型子向量分成多个组，这些组是决策树树叶。该决策基于从潜在阈值选择的已选择阈值，已选择阈值通过该模型子向量之间的方差变化来选择，该方差依据该平均值和关联的方差值来确定。本发明还说明了使用建立决策树方法进行语音辨别(300)的方法。

Description

基于决策树的语音辨别

技术领域

本发明涉及一种语音辨别。本发明对基于二元决策树以减少语音辨别搜索空间的大词汇语音辨别库(但不限于此)特别有用。

背景技术

大词汇语音辨别系统辨别许多接收的发声词。相反，有限词汇语音辨别系统限于可以发声和辨别的较少数量的词。有限词汇语音辨别系统的应用包括少量命令和姓名的辨别。

大词汇语音辨别系统的开发正在不断增加，并且正在各种应用中使用这种大词汇语音辨别系统。这种语音辨别系统必需能够以一种响应方式辨别发声词，而且不能在提供一个合适响应之前有明显的延迟。

大词汇语音辨别系统使用相关技术来确定发声词(输入语音信号)与声学空间中词特征之间的似然标记(score)。这些特征可以依据声学模型建立，该声学模型不需要来自一个或多个说话者的训练数据，因此被称之为大词汇说话者独立语音辨别系统。

对于说话者大词汇语音辨别系统，需要大量的语音模型，以便在声学空间中充分表征在发声输入语音信号中发现的声学特性的词汇。例如，音素/a/的声学特性在词“had”和“ban”中将是不同的，即使由同一个说话者来说话。因此，被称之为语境依赖音素的音素单元需要模仿在不同词中发现的相同音素的不同声音。

说话者独立大词汇语音辨别系统通常花费不希望的发现匹配标记的大部分时间。在技术上将输入语音信号与该系统使用的每个声学模型之间的上述匹配标记称之为似然标记。每个声学模型通常由多个高斯概率密度函数(pdf)描述，每个高斯概率密度函数由平均向量和协方差矩阵描述。为了发现输入语音信号与给定模型之间的似然标记，输入必需对每个高斯匹配。然后产生最终似然标记，作为来自模型的每个高斯成员的标记的加权和。每个模型的高斯数目通常是8至64中序列。

众所周知，语音模型内的所有高斯不生成给定输入语音信号的高标记。对于明显不同于输入信号值的平均值的一个高斯，当输入位于高斯分配的“尾部”时，该标记非常接近0。这意味着对整个似然标记的这样一种高斯分布将被忽略。因此，仅通过使用模型内高斯的子集可以精确地近似使用所有高斯对一个模型的似然标记的计算。

通常使用高斯选择的方法选择模型内的高斯子集，在该方法中，为特定的输入语音信号选择模型组内的高斯的子集。然后使用该子集(又称作高斯最后候选名单)计算每个模型的似然标记。然而高斯最后候选名单基于向量群集，并且为了获得可接受的实时响应，对于大词汇语音辨别系统，群集的数量不必太大。

在本说明中，包括权利要求，术语“包括”或者类似术语的用意是指非排它性包含，使包括一系列要素的方法或设备仅仅不包括那些要素，但是可以包括未列出的其它要素。

发明内容

根据本发明的一个方面，这里提供了建立至少一个决策树以处理表现语音的样本信号的方法，该方法包括以下步骤：

依据音素的分段统计语音模型，提供模型子向量，该模型包括平均值和关联的方差值的诸多向量；

至少统计地分析平均值的部分模型子向量，以提供指示子向量之间相对最大方差的方向的预测向量(projection vector)；

计算多个预测向量的预测值(projection value)；

依据预测值的范围分析，选择潜在的阈值；和

建立具有决策能力的决策树，以把模型子向量分成多个组，这些组是树的树叶，其中决策基于从潜在阈值选择的已选择阈值，已选择阈值通过所述模型子向量之间的方差的变化来选择，所述方差依据所述平均值和关联的方差值来确定。

所述组最好具有定义声学子空间的统计特征。

相称地，语音模型基于高斯概率分布。

统计分析的步骤最好还由预测向量来表征，所述预测向量通过主成分分析来计算。

潜在阈值最好从预测值的子集中选出。

相称地，决策基于一个不等式计算。

不等式计算涉及乘以一个预测向量的已选择模型子向量的转置与一个所述潜在阈值之间的不等式。

子集适合于从具有最大方差的预测值的预测向量中选出。

最好从子集中每个预测向量的最小与最大预测值之间的范围中确定潜在阈值。

潜在阈值适合于通过把上述范围分成平均间隔的子范围来确定。

决策树最好是二元决策树。

根据本发明的另一个方面，这里提供了一种语音辨别的方法，包括以下步骤：

提供处理为至少一个特征向量的样本语音信号，该特征向量代表语音信号的频谱特征；

把特征向量分成诸多子特征向量；

把每个子特征向量施加到对应的决策树上，以获得模型子向量的诸多组，该模型子向量很可能至少指示样本语音信号的一个音素，决策树通过分析从统计语音模型获得的模型子向量来建立，其中决策树具有基于从潜在阈值选择的已选择阈值的决策，已选择阈值通过所述模型子向量之间的方差的变化来选择，所述方差依据所述平均值和与所述模型子向量关联的方差值来确定；

从子特征向量的诸多组中选择多个模型子向量，从而识别模型子向量的最后候选名单；和

处理该最后候选名单，以提供样本语音信号的一个副本。

该副本最好是样本语音信号的文本。该副本可以是一个控制信号。控制信号可以例如激活电子装置或系统的功能。

最好是，决策树可以通过建立至少一个决策树的上述方法来建立。

附图说明

为了容易地理解本发明和进行实际实施，下面参考附图对一个优选实施例进行说明。

图1是本发明的语音辨别系统的示意性方框图；

图2是显示建立决策树以处理表示语音的样本信号的方法的流程图；和

图3是显示使用图2的方法建立的决策树进行语音辨别的方法的流程图。

具体实施方式

参见图1，图中示出了语音辨别系统1的示意性方框图，包括：一个统计语音模型数据库110，它具有连接分段模块120和语音辨别器160的输入的输出。分段模块120具有连接阈值生成器130的一个输入的一个输出，阈值生成器130具有连接决策树建立器140一个输入的一个输出。决策树建立器140的一个输出连接决策树存储器170的一个输入。决策树存储器170具有连接语音辨别器160的一个输入的一个输出。还有一个语音模型变换器150，它具有接收语音信号的一个输入。语音模型变换器150具有连接语音辨别器160一个输入的输出。

在图2中，示出了建立一个决策树以处理表示语音的样本信号的方法200。在开始步骤201之后，方法200包括一个依据音素的分段统计语音模型提供模型子向量步骤220。统计语音模型子向量包括平均值和关联的方差值的诸多向量。在本实施例中，统计语音模型被存储在统计语音模型数据库110中，并且基于本领域已知的如具有多种状态的隐藏马尔可夫模型(Hidden Markov Model，即HMM)模仿的三音素。HMM的每个状态由多矩阵高斯概率密度函数模拟。因此，语音模型基于高斯概率分布或者高斯矩阵，其中高斯矩阵{g_jm}为以下形式：

{g_im}＝{W_jm，μ_jm，∑_jm} -(1)

其中，w_jm是标量加权，μ_jm是平均值向量，∑_jm是协方差矩阵，其每个用于第jHMM状态的第m高斯矩阵。协方差矩阵∑_jm通常是对角矩阵，仅具有非零值的主对角线，并且可以被简化成一个方差向量σ_jm。

例如，如果方差向量σ_jm和平均值向量μ_jm都是39维向量，则分段模块120在步骤220上把向量μ_jm和σ_jm分段成三个相应模型子向量μ_jm1、μ_jm2、λ_jm3和σ_jm1、σ_jm2和σ_jm3。模型子向量λ_jm1、λ_jm2、μ_jm3和σ_jm1、σ_jm2和σ_jm3的每一个是13维向量，其含有来自原始的相应平均值向量μ_jm或者方差向量σ_jm的要素。子向量μ_jm1包括来自平均值向量μ_jm的第一13个要素。对应的子向量λ_jm2和μ_jm3分别包括来自μ_jm的下一个13个要素和最后的13个要素。将用于分段平均向量λ_jm的相同分段方法应用于方差向量σ_jm。也就是，子向量σ_jm1、σ_jm2和σ_jm3分别包括方差向量σ_jm的第一13个要素、下一个13个要素和最后13个要素。提供模型子向量步骤220被应用于统计语音模型数据库110中呈现的音素的所有统计语音模型。例如，语音模型数据库可以包括40,000个高斯矩阵，可以从平均值向量μ_jm中生成高斯矩阵{g_jm}＝120,000个模型平均值子向量的40,000×3个分段，并且可以从方差向量σ_jm中生成另外的120,000个模型方差子向量。需要注意的是，在此三个分段高斯矩阵{g_jm}的每个对应于下面建立的一个决策树。

然后在步骤230统计地分析从数据库110中的所有语音模型中生成(步骤220)的模型子向量，以提供指示模型平均值子向量之间的相对最大方差的预测向量。本领域已知的统计分析方法，如主成分分析(Principal Component Analysis)的分析方法(如StatSci，Seattle，Washington出版的‘S-PLUS Guide to statustical and MathematicalAnalysis’的12章(12-1，12-2)所述)被用来计算预测向量。因此该参考被包含进来作为该说明的部分。具体说，主成分分析适用于根据下式的40,000模型平均值子向量μ_jm1、μ_jm2、μ_jm3的每个分段：

C＝UΛU^T -(2)

其中C是从40,000平均值子向量计算的维数13×13的协方差矩阵；U是维数13×13的矩阵，U的每一行对应于一个预测向量；∧是一个13×13对角矩阵，其中第i对角要素(i＝1至13)的值测量矩阵U的第i行中与预测向量关联的方向上的子向量之间的相对方差。∧的对角要素在技术上作为主成分是已知的并且按降序排列。通常子向量之间的多数方差可以由最前面的4个主成分和它们的对应预测向量描述。因此可以仅选择13个预测向量中的4个，因而在步骤230中供作分段模块120的一个输出。所以三个平均值子向量分段μ_jm1、μ_jm2、μ_jm3的每个存在总共12个预测向量。

然后执行计算预测值步骤240，其中在阈值生成器130中可以为12个平均值预测向量的每个(每分段四个)计算预测值。选择一个预测向量，并且根据下式为每个分段对应的40,000平均值子向量的每个计算一个预测值：

μjmk^Tu_i -(3)

其中K＝1，2，3是指示3个分段的每个系数，i＝1，2，3，4是指示4个平均值预测向量u_i之每一个的系数。

在步骤240之后，执行检验步骤250，其中阈值生成器130检查是否为一个分段的预测向量之每个计算预测值。如果没有，则选择一个未处理的预测向量，并应用到步骤240以计算它的预测值。否则，该方法移到选择潜在阈值步骤160，其中由阈值生成器103分析预测值，以便从预测子向量的一个范围中选择潜在阈值。

在选择潜在阈值步骤260中，依据每个分段的40,000预测值的分析，为平均值预测向量之每个选择潜在阈值。例如，根据下式通过把所述范围平均分隔的子范围可以确定最小与最大预测值之间的预测子值的范围：

p_{Ki}^{\min} + (b + 0.5) (\frac{p_{Ki}^{\max} - p_{Ki}^{\min}}{B}) - (4)

其中p_Ki ^max和p_Ki ^min分别是最大和最小预测值；K＝1，2，3是指示3个分段之每个的系数；i＝1，2，3，4是4个预测向量u_i的系数；b＝1，2，...B是特定子范围的系数；通常被选择为10的B是最小和最大预测值之间的子范围的总数目。因此12个预测向量之每个具有10个从具有最大方差的预测值的子集中选择的关联的潜在阈值。

然后执行建立决策树步骤270，建立具有把模型子向量分成诸多组的决策的二元决策树，所述诸多组在决策树建立器140中建立。这些决策把子向量分成诸多组，这些组是决策树的树叶，所述的决策基于步骤260中的从潜在阈值选择的阈值。具体说，决策基于以下不等式计算：

x^Tu_i≥k_i(b) -(5)

其中x是平均值的一个已选择模型子向量；u_i是一个预测向量；K_i(b)是与根据等式(4)在步骤260中计算的预测向量关联的潜在阈值。

二元决策树是使用对应的40,000模型平均子向量为三个分段之每个建立的。所建立的决策树的每个非树叶节点具有一个如等式(5)的形式的关联问题。对于每个非树叶节点，从乘以10个阈值的总共4个预测向量(每个分段四个)中选择一个问题，以建立40各潜在问题。然后选择问题之一，以最大化父节点内子向量与左和右子节点内的子向量之间的方差的变化。

第n树节点钟的数据的方差vⁿ被定义为：

v^{n} = Σ_{i = 1}^{D} \log [v^{n} (i)] - (6)

其中D＝13是子向量的维数。vⁿ(i)是子向量中第i维数的数据方差，并且由下式给出：

v^{n} = \underset{j &Element; 1 . . . L}{Σ} {(σ_{j}^{2} (i) + μ_{j}^{2} (i)) / L - (\underset{J = 1 . . . L}{Σ} μ_{j} (i) / L)}^{2} - (7)

其j是子向量的系数；L是分配给该节点的子向量数量；σ_j(i)和μ_j(i)分别是第n节点子向量均值的第i维数要素和第n节点的标准偏差。

然后通过下式确定方差d的变化：

d＝v^parent-(v^left+v^right) -(8)

其中v^parent、v^left、v^right分别代表父节点、左子节点和右子节点中的子向量的方差。

决策树具有大量的树叶节点，其中每个树叶节点对应于一组模型子向量，该模型子向量共享共同定义声学子空间的相似统计特征。

树叶节点中子向量满足以下条件：

(1)模型子节点的数量小于被选择为10的一个阈值；和

(2)等式(6)-(8)的方差中最大可能变化小于被选择为0.1的一个阈值。

在步骤270，在决策树建立器140中建立的三个决策树，其每个决策树对应于三个分段之一。非树叶节点的每个具有基于不等式(5)的一个与其关联的决策，选择每个非树叶节点的决策以最大化子向量之间的方差的变化，并且有以下形式：

x^Tu_i≥k_i -(9)

其中x是下面将要说明的特征向量；u_i是用于节点的已选择预测向量；k_i是与预测向量u_i关联的已选择阈值。

决策树被存储到决策树存储器170中，并且方法200终止于结束步骤280。

参见图3，该图示出了一种使用由方法200建立的决策树用于语音辨别的方法300。在步骤310之后，语音辨别开始进行，其中首先在供应步骤320上提供一个样本语音信号，该样本语音信号来自由语音模型变换器150接收和处理的输入语音发音。该样本语音信号代表由语音模型变换器150处理进入一个或多个特征向量中语音信号频谱特征。每个特征向量是与存储在统计模型数据库100中的统计语音模型的平均值向量λ_jm和方差向量σ_jm相同的维数(39)。特征向量代表潜在的语音信号的频谱特征。例如，被称作倒谱系数(mel-frequency cepstralcoefficients，即MFCC)的方法被使用。因此引用发现MFCC的典型的已知方法，参见论文“Comparison of parametric representations formonosyllabic word recognition in continuous Spoken Sentences.”byDavid and Mermelstein，published in IEEE transactions on AcousticSpeech and Signal Processing，Vol.28，pp.357-366。

然后，在把特征向量分成子特征向量的语音辨别器160中执行分割特征向量步骤330。在步骤330中使用用于统计语音模型的在步骤220中使用的同样的分段方法。具体说，每个39维特征向量x被分成三个13维子特征向量x1、x2、x3，它们分别由第一13要素、下一个13要素和最后13要素组成。

在应用步骤340上将子特征向量之每个应用于决策树存储器170中的三个决策树的对应的一个，语音辨别器160访问上述决策树存储器170。应用步骤将每个子特征向量应用于对应的决策树，以获得很可能至少指示样本语音信号的一个音素的多组模型子向量。本领域的熟练技术人员将会明白，通过分析从统计语音模型数据库110获得的模型子向量可以建立三个决策树之每个。

子特征向量首先被应用于决策树的根节点，估算与根节点关联的等式(9)的决策。然后根据估算的成果将子特征向量分配给左子节点或者右子节点。然后用子特征向量估算与所选择的子节点关联的问题(9)的决策。处理重复进行直至到达树叶节点，并且获得用于子特征向量的一组模型子向量。该模型子向量组定义至少指示样本语音信号的一个音素的声学子空间。

然后执行检验步骤350，以检查所有自特征向量是否已经应用于对应的决策树。如果没有，则选择一个未处理子特征向量，并应用于其决策树。否则，该方法移到选择步骤360，选择模型子向量以识别和建立子向量的最后候选名单。

现在特征向量x的每一个与三组模型子向量相关联，该三组子向量是从三个子特征向量x₁、x₂、x₃的每一个以及它们的对应决策树中得到的。在选择步骤360中从三个组s1、s2、s3中的模型子向量中识别模型向量的最后候选名单。具体说，估算一个模型向量，以确定它的模型子向量是否属于与特征向量x关联的组。如果是，将一个标记分配给模型向量。如果一个模型向量的总标记大于按试验确定的等式的一个阈值，则将模型向量选入特征向量x的最后候选名单：

s₁+0.5s₂+0.5s₃＞0.9 -(10)

其中，如果对应模型子向量被呈现在它们的组中，则s₁、s₂或者s₃被设置为1。否则，将s₁、s₂或者s₃被设置为零。因此，用来选择特征向量x的最后候选名单的策略是，如果模型子向量至少在组s₁中，则包含一个模型向量，或者如果模型子向量不在组s₁中，则它必须呈现在组s₂和组s₃中，以选作最后候选名单的一个成员。

然后在处理步骤370中处理为特征向量识别的最后候选名单，以提供样本语音信号的副本。这由本技术领域中所知的解码方法来提供。引入本说明书中的解码方法的典型实施可以在下述的出版物中找到：“A One Pass Decoder Design for Large Vocabulary Recognition”by J.J.Odell，V.Valtchev，P.C.Woodland and S.J.Young in Proceedings ARPAWorkshop on Human Language Technology，pp.405-410，1994。

在语音辨别器160的输出提供副本。副本的一种形式是样本语音信号的文本，作为选择，副本可以是激活电子装置或者系统的控制信号。该方法终止于结束步骤380。

有利的方面是，本发明可以减少语音辨别期间统计语音模型的分布“尾部”的非必要处理的问题，本发明还可以减少与影响语音辨别响应时间的非必要的大群集相关联的开销。

上述描述说明仅提供了优选实施例，而不是限定本发明的应用或者配置的范围。上述优选实施例的具体说明向本领域的熟练技术人员提供了实施本发明优选实施例的可行的说明。应当理解的是，在不背离权利要求所述的本发明的精神和范围的条件下可以对要素的功能和安排作出各种变化。

Claims

1、一种建立至少一个决策树以处理表现语音的样本信号的方法，该方法包括以下步骤：

至少统计地分析平均值的部分模型子向量，以提供指示子向量之间相对最大方差的方向的预测向量；

计算多个预测向量的预测值；

依据预测值的范围分析，选择潜在的阈值；和

建立具有决策能力的决策树，以把模型子向量分成多个组，这些组是决策树的树叶，其中决策基于从潜在阈值选择的已选择阈值，已选择阈值通过所述模型子向量之间的方差的变化来选择，所述方差依据所述平均值和关联的方差值来确定。

2、根据权利要求1所述的建立至少一个决策树的方法，其中所述组具有定义声学子空间的统计特征。

3、根据权利要求1所述的建立至少一个决策树的方法，其中语音模型基于高斯概率分布。

4、根据权利要求1所述的建立至少一个决策树的方法，其中统计分析的步骤还由预测向量来表征，所述预测向量通过主成分分析来计算。

5、根据权利要求l所述的建立至少一个决策树的方法，其中潜在阈值从预测值的子集中选出。

6、根据权利要求5所述的建立至少一个决策树的方法，其中决策基于一个不等式计算。

7、根据权利要求6所述的建立至少一个决策树的方法，其中不等式计算涉及乘以一个预测向量的已选择模型子向量的转置与一个所述潜在阈值之间的不等式。

8、根据权利要求5所述的建立至少一个决策树的方法，其中子集从具有最大方差预测值的预测向量中选出。

9、根据权利要求8所述的建立至少一个决策树的方法，其中从子集中每个预测向量的最小与最大预测值间的范围中确定潜在阈值。

10、根据权利要求9所述的建立至少一个决策树的方法，其中潜在阈值通过把上述范围分成平均间隔的子范围来确定。

ll、根据权利要求l所述的建立至少一个决策树的方法，其中决策树最好是二元决策树。

12、一种语音辨别的方法，包括以下步骤：

把特征向量分成诸多子特征向量；

把每个子特征向量应用于对应的决策树上，以获得模型子向量的诸多组，该模型子向量很可能至少指示样本语音信号的一个音素，决策树通过分析从统计语音模型获得的模型子向量来建立，其中决策树具有基于从潜在阈值选择的已选择阈值的决策，已选择阈值通过所述模型子向量之间的方差的变化来选择，所述方差依据所述平均值和与所述模型子向量关联的方差值来确定；

处理该最后候选名单，以提供样本语音信号的一个副本。

13、根据权利要求12所述的语音辨别方法，其中所述副本是样本语音信号的文本。

14、根据权利要求12所述的语音辨别方法，其中所述副本是一个控制信号。

15、根据权利要求14所述的语音辨别方法，其中控制信号激活电子装置或系统的功能。

16、根据权利要求12所述的语音辨别方法，其中潜在阈值从预测值的子集中选出，所述预测值从模型子向量中获得。

17、根据权利要求16所述的语音辨别的方法，其中决策基于一个不等式计算。

18、根据权利要求17所述的语音辨别方法，其中不等式计算涉及乘以一个预测向量的已选择模型子向量的转置与一个所述潜在阈值之间的不等式。

19、根据权利要求16所述的语音辨别方法，其中所述子集从具有最大方差预测值的预测向量中选出。

20、根据权利要求19所述的语音辨别方法，其中从子集中每个预测向量的最小与最大预测值间的范围中确定潜在阈值。

21、根据权利要求12所述的语音辨别方法，其中潜在阈值通过把所述范围分成平均间隔的子范围来确定。