CN103187052B

CN103187052B - 一种建立用于语音识别的语言模型的方法及装置

Info

Publication number: CN103187052B
Application number: CN201110451385.XA
Authority: CN
Inventors: 万广鲁; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2015-09-02
Anticipated expiration: 2031-12-29
Also published as: CN103187052A

Abstract

本发明提供了一种建立用于语音识别的语言模型的方法及装置，其中所述方法包括：A.将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；以及，将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型；B.将所述语音语言模型与所述文本语言模型融合，得到识别语言模型。通过上述方式得到的识别语言模型，能够很好地反映用户语音输入时的用词偏好，将该识别语言模型应用于语音识别中可以提高语音识别的精度。

Description

一种建立用于语音识别的语言模型的方法及装置

【技术领域】

本发明涉及语音识别技术，特别涉及一种建立用于语音识别的语言模型的方法及装置。

【背景技术】

搜索引擎大大改变了人们获取信息的方式，已经越来越成为人们生活中不可或缺的部分。近年来，随着语音识别技术的发展，语音搜索成了一种更为便捷的搜索方式。人们通过移动终端输入语音搜索请求，就可以从搜索引擎服务器得到满足自己需求的搜索结果。

语音搜索依赖语音识别技术，只有正确对用户的语音输入进行识别，才能返回用户想要查找的信息。语音识别的效果取决于语音识别中使用的声学模型及语言模型。声学模型在语音识别中应用于语音到音节概率的计算，而语言模型在语音识别中应用于音节到字概率的计算。语言模型是描述词语概率分布的模型，一个能可靠反映用户语音搜索时用词的概率分布的语言模型，是语音搜索系统取得可靠结果的关键。由于语言模型中词语的概率分布取决于训练该语言模型时使用的语料，因此，获取与用户语音搜索时用词习惯一致的训练语料非常重要。在现有技术中，通常采用两种方法获取训练语料，第一种是人工标注用户在语音搜索时的查询请求并将标注后的查询请求作为训练语料，这种方式的缺点是成本很高，也很难获取到足够数量的语料，另一种方式是直接将用户以文字输入的查询请求作为训练语料，这种方式的缺点是由于用户使用语音输入方式发出搜索请求时的用词与使用文字输入方式发出搜索请求时的用词相比存在差异，这种方式得到的语言模型，很难反映用户使用语音搜索时用词的偏好，将这样的语言模型应用于语音识别中，就会降低语音识别的精度。

【发明内容】

本发明所要解决的技术问题是提供一种建立用于语音识别的语言模型的方法及装置，以解决现有技术的语言模型难以反映用户在语音表述时的用词习惯从而影响语音识别精度的缺陷。

本发明为解决技术问题而采用的技术方案是提供一种建立用于语音识别的语言模型的方法，包括：A.将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；以及，将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型；B.将所述语音语言模型与所述文本语言模型融合，得到识别语言模型。

根据本发明之一优选实施例，所述步骤A中，使用初始的识别语言模型对用户的语音搜索查询进行识别。

根据本发明之一优选实施例，所述步骤B中，将所述语音语言模型与所述文本语言模型融合时，将所述语音语言模型中的参数与所述文本语言模型中的参数进行插值，以得到所述识别语言模型中的参数。

根据本发明之一优选实施例，将所述语音语言模型与所述文本语言模型中的参数进行插值时，对所述语音语言模型或所述文本语言模型中的参数进行加权。

根据本发明之一优选实施例，所述方法进一步包括：使用所述识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

根据本发明之一优选实施例，所述方法进一步包括：将所述识别结果作为新增加的语音搜索语料进行语言模型训练，以更新所述语音语言模型，并返回所述步骤B。

根据本发明之一优选实施例，使用识别语言模型对用户的语音搜索查询进行识别的步骤包括：根据用户的语音搜索查询建立多个候选词序列；使用识别语言模型计算每个候选词序列在识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

8、根据权利要求5所述的方法，其特征在于，所述方法进一步包括：

向用户返回与所述识别结果相关的检索结果。

本发明还提供了一种建立识别语音模型的装置，包括：第一训练单元，用于将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；第二训练单元，用于将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型；融合单元，用于将所述语音语言模型与所述文本语言模型融合，得到识别语言模型。

根据本发明之一优选实施例，所述第一训练单元进行语言模型训练时使用的语音搜索语料是使用初始的识别语言模型对用户的语音搜索查询进行识别后得到的。

根据本发明之一优选实施例，所述融合单元将所述语音语言模型与所述文本语言模型融合时，对所述语音语言模型和所述文本语言模型中的参数进行插值，以得到所述识别语言模型中的参数。

根据本发明之一优选实施例，所述融合单元对所述语音语言模型和文本语言模型中的参数进行插值时，对所述语音语言模型或所述文本语言模型中的参数进行加权。

根据本发明之一优选实施例，所述装置进一步包括：识别单元，用于使用所述识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

根据本发明之一优选实施例，所述识别单元将得到的识别结果提供给所述第一训练单元，供所述第一训练单元将所述识别结果作为新增加的语音搜索语料进行语言模型训练，以更新所述语音语言模型。

根据本发明之一优选实施例，所述识别单元包括：词序列单元，用于根据用户的语音搜索查询建立多个候选词序列；计算单元，用于使用所述识别语言模型计算每个候选词序列在所述识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

根据本发明之一优选实施例，所述装置进一步包括：检索单元，用于向用户返回与所述识别结果相关的检索结果。

由以上技术方案可以看出，通过将语音识别结果作为语料进行语言模型训练，并将语音识别结果训练的语言模型与文本语料训练的语言模型融合得到的识别语言模型，能够很好地反映用户语音输入时的用词偏好，将这样的识别语言模型应用于语音识别中，可以提高语音识别的精度。

【附图说明】

图1为本发明中建立用于语音识别的语言模型的方法的实施例的流程示意图；

图2为本发明中获取语音搜索语料及文本搜索语料的实施例的示意图；

图3为本发明中词图的实施例的示意图；

图4为本发明中建立用于语音识别的语言模型的装置的实施例的结构示意框图；

图5为本发明中识别单元的实施例的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中建立用于语音识别的语言模型的方法的实施例的流程示意图。如图1所示，该方法包括：

S101：将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；以及，将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型。

S102：将语音语言模型与文本语言模型融合以得到识别语言模型。

下面对上述步骤进行具体说明。

请参考图2，图2为步骤S101中获取语音搜索语料及文本搜索语料的实施例的示意图。如图2所示，用户在搜索时，可以通过文字输入或语音输入的方式进行。当用户利用键盘输入搜索请求，文本收集客户端就会将收集到的文本搜索请求通过网络发送到搜索引擎服务器，服务器中的日志记录装置在检索日志中记录用户通过键盘输入的搜索请求，该检索日志就可以作为本发明中的文本搜索语料。当用户通过移动终端(如手机)发出语音搜索请求时，语音收集客户端会将收集到的语音信号通过网络传递到搜索引擎服务器，搜索引擎服务器中的语音识别装置对用户的语音搜索请求进行识别后得到识别结果，该识别结果即可作为本发明中的语音搜索语料。

在图2所示的获取语音搜索语料的实施例中，语音识别装置需要利用初始的识别语言模型对用户的语音搜索查询进行识别。本实施例中的初始的识别语言模型可以是一个现有的识别语言模型，也可以是利用本发明所提供方法建立的识别语言模型，这种情况下图2中的语音识别装置得到的识别结果，即步骤S101中用于语言模型训练的语音搜索语料对步骤S102中的识别语言模型起到了更新的作用，从而实现了本发明中的识别语言模型的自适应过程。

语言模型指的是N-Gram语言模型，该模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。训练语言模型的过程，就是从语料中统计N个词同时出现的次数，以得到各个N-Gram概率值的过程。通常使用较多的为二元的Bi-Gram模型和三元的Tri-Gram模型，本发明对此不做限制。

语音语言模型和文本语言模型中的参数是各N-Gram概率值，在步骤S102中将语音语言模型与文本语言模型融合时，对语音语言模型中的参数和文本语言模型中的参数进行插值处理，这样就得到了识别语言模型中的参数，即识别语言模型中的各个N-Gram概率值。

例如：在语音语言模型中P(您好)是0.5，其中P(X)表示X的概率值，文本语言模型中词语P(您好)是0.8，如果给语音语言模型与文本语言模型中的参数(即各个概率值)赋予相同的权值，则在插值后的识别语言模型中，P(您好)就是50％*0.5+50％*0.8＝0.65。

此外，在对语音语言模型中的参数与文本语言模型中的参数进行插值处理时，还可以为语音语言模型中的参数加权。例如上面的例子中，如果语音语言模型的权重设置为70％，文本语言模型的权重设置为30％，则P(您好)就是70％*0.5+30％*0.2＝0.41。为语音语言模型中的参数进行加权，可以使得最终的识别语言模型更好地反映用户语音输入时的偏好。如果希望最终的识别语言模型侧重于反映用户文本输入时的偏好，也可以对文本语言模型进行加权。

得到识别语言模型后，进一步地，还可以用识别语言模型对用户的语音搜索查询进行识别，得到识别结果。得到的识别结果可以作为新增加的语音搜索语料进行语言模型训练，以更新语音语言模型，更新后的语音语言模型与文本语言模型融合后又可以更新识别语言模型，达到自适应的过程。

对用户的语音搜索查询进行识别的过程包括：

根据用户的语音搜索查询建立多个候选词序列；

使用识别语言模型计算每个候选词序列在识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为用户的语音搜索查询的识别结果。

例如用户的语音搜索查询的音节为“na li de kao ya hao chi”，这个音节序列可以表示为多个候选词序列，如“那里的烤牙好吃”、“那里的烤鸭好吃”或“哪里的烤鸭好吃”等等。针对每个候选词序列，从识别语言模型中可以查找到其中每个词出现的概率以及相邻词语之间的转移概率，将每个词出现的概率以及相邻词语之间的转移概率相乘即可得到该候选词序列在语言模型中出现的概率，这样，出现概率最大的候选词序列就可以作为对用户的语音搜索查询的识别结果。以识别语言模型为Bi-Gram语言模型为例，一个候选词序列在识别语言模型中出现的概率可以表示如下：

P(哪里的烤鸭好吃)＝

P(哪里的)*P(烤鸭|哪里的)*P(烤鸭)*P(好吃|烤鸭)*P(好吃)

其中P(哪里的)、P(烤鸭)、P(好吃)为候选词序列中每个词出现的概率，P(烤鸭|哪里的)、P(好吃|烤鸭)为相邻词语之间的转移概率。

在根据用户的语音搜索查询建立多个候选词序列时，可以在与音节对应的词语中选取在语言模型中出现频率最高的若干个词形成如图3所示的词图，词图中任意一条从前向后连通的路径均可作为候选词序列，应该理解，以上建立多个候选词序列的方式只是示意性说明，本发明对建立多个候选词序列的策略不做限定，可在本领域技术人员能够实现的方式中任意选择。

在得到了对用户语音搜索查询的识别结果后，本发明还可以进一步向用户返回与识别结果相关的检索结果，这个过程与现有的搜索引擎返回与用户输入的查询内容相关的检索结果类似，在此不再进行具体描述。可以理解，与识别结果相关的检索结果，既可以是包含识别结果的检索结果，也可以是基于识别结果而进行扩展的检索结果，相应的扩展检索结果采用的扩展策略，可采用任意现有的扩展策略，本发明对此不做限制。

请参考图4，图4为本发明中建立用于语音识别的语言模型的装置的实施例的结构示意框图。如图4所示，语音识别的装置包括：第一训练单元201、第二训练单元202、融合单元203、识别单元204。

第一训练单元201，用于将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型。

第二训练单元202，用于将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型。

融合单元203，用语将语音语言模型与文本语言模型融合，得到识别语言模型。

识别单元204，用于使用识别语言模型对用户的语言搜索查询进行识别，得到识别结果。

在一个实施例中，第一训练单元201进行语言模型训练时使用的语音搜索语料是使用初始的识别语言模型对用户的语言搜索查询进行识别后得到的。

初始的识别语言模型可以是一个现有的识别语言模型，也可以是利用本发明所提供的装置建立的识别语言模型。

第二训练单元202中的文本搜索语料是搜索引擎中记录用户文本搜索查询的检索日志。

本发明中的语言模型，指的是N-Gram语言模型，该模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。训练语言模型的过程，就是从语料中统计N个词同时出现的次数，以得到各个N-Gram概率值的过程。通常使用较多的为二元的Bi-Gram模型和三元的Tri-Gram模型，本发明对此不做限制。

语音语言模型和文本语言模型中的参数是各N-Gram概率值，融合单元203在将语音语言模型与文本语言模型融合时，对语音语言模型中的参数和文本语言模型中的参数进行插值处理，这样就得到了识别语言模型中的参数，即识别语言模型中的各个N-Gram概率值。

例如：在语音语言模型中词语P(您好)是0.5(P表示概率值)，文本语言模型中词语P(您好)是0.8，如果给语音语言模型与文本语言模型中的参数(即各个概率值)赋予相同的权值，则在插值后的识别语言模型中，P(您好)就是50％*0.5+50％*0.8＝0.65。

融合单元203在对语音语言模型中的参数和文本语言模型中的参数进行插值处理时，可以为语音语言模型中的参数加权。例如上面的例子中，如果语音语言模型的权重设置为70％，文本语言模型的权重设置为30％，则P(您好)就是70％*0.5+30％*0.2＝0.41。为语音语言模型中的参数进行加权，可以使得最终的识别语言模型更好地反映用户语音输入时的偏好。如果希望最终的识别语言模型侧重于反映用户文本输入时的偏好，融合单元203也可以对文本语言模型进行加权。

请参考图5，图5为本发明中识别单元的实施例的示意图。如图5所示，识别单元204包括词序列单元2041和计算单元2042。其中词序列单元2041用于根据用户的语音搜索查询建立多个候选词序列，计算单元2042用于使用识别语言模型计算每个候选词序列在识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为用户的语音搜索查询的识别结果。

词序列单元2041在得到用户的语音搜索查询之后根据语音搜索查询的音节建立起多个候选词序列。例如用户的语音搜索查询的音节为“na li de kaoya hao chi”，则词序列单元2041可以建立起如图3所示的词图，词图中任意一条从前向后连通的路径形成了一个候选词序列，如“那里的烤牙好吃”、“那里的烤鸭好吃”或“哪里的烤鸭好吃”等等。词序列单元2041在建立多个候选词序列时，可以在与音节对应的词语中选取在识别语言模型中出现频率最高的若干个词形成词图，此外，也可以采用本领域技术人员能够实现的任意其他方法建立多个候选词序列。

计算单元2042针对词候选单元2041中的每个候选词序列，从识别语言模型中查找到其中每个词出现的概率以及相邻词语之间的转移概率，并将每个词出现的概率与相邻词语之间的转移概率相乘得到每个候选词序列出现的概率，这样，出现概率最大的候选词序列就可以作为对用户的语音搜索查询的识别结果。

请继续参考图4。进一步地，识别单元204将得到的识别结果提供给第一训练单元201，供第一训练单元201将识别结果作为新增加的语音搜索语料进行语言模型训练，以更新语音语言模型。更新后的语音语言模型与文本语言模型经过融合单元203的处理，就实现了对识别语言模型进行更新的目的，从而实现本装置的自适应过程。此外，本发明的装置进一步还可包括一检索单元(图4中未示出)，用于在识别单元204得到了对用户语音搜索查询的识别结果后，向用户返回与识别结果相关的检索结果，检索单元的工作原理与现有搜索引擎的检索单元的工作原理相同，本发明不再做详细介绍。应该理解，与识别结果相关的检索结果，既可以是包含识别结果的检索结果，也可以是基于识别结果而进行扩展的检索结果，相应的扩展检索结果采用的扩展策略，可采用任意现有的扩展策略，本发明对此不做限制。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立用于语音识别的语言模型的方法，其特征在于，该方法包括：

A.将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；以及，将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型；

B.将所述语音语言模型与所述文本语言模型融合，得到识别语言模型；

所述步骤B中，将所述语音语言模型与所述文本语言模型融合时，将所述语音语言模型中的参数与所述文本语言模型中的参数进行插值，以得到所述识别语言模型中的参数。

2.根据权利要求1所述的方法，其特征在于，所述步骤A中，使用初始的识别语言模型对用户的语音搜索查询进行识别。

3.根据权利要求1所述的方法，其特征在于，将所述语音语言模型与所述文本语言模型中的参数进行插值时，对所述语音语言模型或所述文本语言模型中的参数进行加权。

4.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

使用所述识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

5.根据权利要求4所述的方法，其特征在于，所述方法进一步包括：将所述识别结果作为新增加的语音搜索语料进行语言模型训练，以更新所述语音语言模型，并返回所述步骤B。

6.根据权利要求4所述的方法，其特征在于，使用识别语言模型对用户的语音搜索查询进行识别的步骤包括：

根据用户的语音搜索查询建立多个候选词序列；

使用识别语言模型计算每个候选词序列在识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

7.根据权利要求4所述的方法，其特征在于，所述方法进一步包括：

向用户返回与所述识别结果相关的检索结果。

8.一种建立识别语音模型的装置，其特征在于，该装置包括：

第一训练单元，用于将对用户的语音搜索查询进行识别的结果作为语音搜索语料进行语言模型训练，得到语音语言模型；

第二训练单元，用于将用户的文本搜索查询作为文本搜索语料进行语言模型训练，得到文本语言模型；

融合单元，用于将所述语音语言模型与所述文本语言模型融合，得到识别语言模型；

所述融合单元将所述语音语言模型与所述文本语言模型融合时，对所述语音语言模型和所述文本语言模型中的参数进行插值，以得到所述识别语言模型中的参数。

9.根据权利要求8所述的装置，其特征在于，所述第一训练单元进行语言模型训练时使用的语音搜索语料是使用初始的识别语言模型对用户的语音搜索查询进行识别后得到的。

10.根据权利要求8所述的装置，其特征在于，所述融合单元对所述语音语言模型和文本语言模型中的参数进行插值时，对所述语音语言模型或所述文本语言模型中的参数进行加权。

11.根据权利要求8所述的装置，其特征在于，所述装置进一步包括：

识别单元，用于使用所述识别语言模型对用户的语音搜索查询进行识别，得到识别结果。

12.根据权利要求11所述的装置，其特征在于，所述识别单元将得到的识别结果提供给所述第一训练单元，供所述第一训练单元将所述识别结果作为新增加的语音搜索语料进行语言模型训练，以更新所述语音语言模型。

13.根据权利要求11所述的装置，其特征在于，所述识别单元包括：

词序列单元，用于根据用户的语音搜索查询建立多个候选词序列；

计算单元，用于使用所述识别语言模型计算每个候选词序列在所述识别语言模型中出现的概率，并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。

14.根据权利要求11所述的装置，其特征在于，所述装置进一步包括：检索单元，用于向用户返回与所述识别结果相关的检索结果。