CN114078469B

CN114078469B - 语音识别方法、装置、终端和存储介质

Info

Publication number: CN114078469B
Application number: CN202210058885.5A
Authority: CN
Inventors: 张辽
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-05-10
Anticipated expiration: 2042-01-19
Also published as: EP4216209C0; CN114078469A; EP4216209B1; EP4216209A1

Abstract

本申请提供了语音识别方法、装置、终端和存储介质，所述方法包括：响应用户的语音请求，获取所述用户的位置信息和所述语音请求的语种信息；所述用户的位置信息和所述语音请求的语种信息分别存在相应维度信息的词树，其中不同维度信息的词树用于合并得到词树；根据所合并的词树对所述用户的语音请求进行识别。通过基于所词树的方式，综合用户信息相关的用户位置信息以及语种信息进行引入，对用户的语音请求进行识别，使得能够以词树形式所引入的资源信息参与对语音请求的解码过程，避免出现语言识别不准确的问题。

Description

语音识别方法、装置、终端和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音识别方法、相应的一种语音识别装置，以及相应的一种车载终端和一种计算机存储介质。

背景技术

为了使用语言模型对用户进行更好的语言识别，可以基于用户的信息对语言模型进行构建，以便采用语言实现对用户语言的识别，提高语言识别的准确性。

目前，在进行语言模型的建模过程中，主要是在基于通用神经网络模型进行正常解码得到候选词后，引入资源信息进行得分插值重排序，以得到具有用户特征的正常解码结果，实现对用户进行语言的识别。但这种方式下，其引入资源信息的阶段处于解码得到候选词之后，所引入的资源信息并未真正参与解码，可能造成当候选词中并不存在正确答案时无法获取激励，从而导致语言识别不准确的问题。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音识别方法、相应的一种语音识别装置，以及相应的一种车载终端和一种计算机存储介质。

本申请提供了一种语音识别方法，所述方法包括：

响应用户的语音请求，获取所述用户的位置信息和所述语音请求的语种信息；所述用户的位置信息和所述语音请求的语种信息分别存在相应维度信息的词树，其中不同维度信息的词树用于合并得到词树；

根据所合并的词树对所述用户的语音请求进行识别。

在语音识别方法中，所述根据所合并的词树对所述用户的语音请求进行识别，包括：

通过所合并的词树动态调整所述用户的语音请求在所合并的词树中的激励，根据所述激励对所述用户的语音请求进行识别。

在语音识别方法中，所合并的词树包括第三词树、第四词树以及第五词树，还包括：

将基于所述用户的位置信息获取的第一词树，与基于所述语音请求的语种信息获取的第二词树进行离线合并，得到所合并的第三词树；

或，获取所述用户的用户授权信息，根据所述用户授权信息获取第四词树，将所述第四词树与所述第三词树进行在线合并，得到所合并的第五词树；

或，将所述第四词树与所述第一词树进行在线合并，得到所合并的第六词树。

在语音识别方法中，所述将基于所述用户的位置信息获取的第一词树，与基于所述语音请求的语种信息获取的第二词树进行离线合并，得到所合并的第三词树，包括：

依次获取位于所述第一词树与第二词树中位于根节点的词向量，基于合并相同词向量的方式，对所述第一词树与第二词树中位于根节点的词向量进行合并；

以及，依次获取位于所述第一词树与第二词树中位于叶子节点的词向量，基于合并相同词向量且存在相同前缀词向量的方式，对所述第一词树与第二词树中位于叶子节点的词向量进行合并。

在语音识别方法中，所述通过所合并的词树动态调整所述用户的语音请求在所合并词树中的激励，包括：

确定所述用户的语音请求与所合并的词树中各个词节点的相似程度；

通过所合并的词树基于所述相似程度调整各个词节点的激励；其中所合并的词树包括第三词树、第四词树以及第五词树。

在语音识别方法中，所合并的词树中各个词节点具有对应的隐层向量表达信息，所述确定所述用户的语音请求与所合并的词树中各个词节点的相似程度，包括：

确定所述用户的语音请求中的各个词在所合并的词树中的相应词节点，并获取所述词节点的隐层向量表达信息；

将所述词节点的隐层向量表达信息，与在所合并的词树中位于所述词节点下一层的各个词节点的隐层向量表达信息进行对比，得到所述用户的语音请求中各个词在所合并的词树的相似程度。

在语音识别方法中，所述通过所合并的词树基于所述相似程度调整各个词节点的激励，包括：

从所合并的词树的根节点开始，基于针对前一层词节点的相似程度所确定的激励结果，对下一层词节点的激励进行调整。

在语音识别方法中，所述基于针对前一层词节点的相似程度所确定的激励结果，对下一层词节点的激励进行调整，包括：

在前一层词节点的相似程度符合当前层的激励条件时，采用当前层的激励倍数调整所述前一层词节点的激励，并确定所述前一词节点的激励结果为当前层处于激活状态；

通过位于激活状态层级的下一层词节点的隐层向量表达信息确定所述下一词节点的相似程度，以基于所述下一层词节点的相似程度与下一层的激励条件对下一层词节点的激励进行调整。

在前一层词节点的相似程度未满足当前层的激励条件时，确定所述前一层词节点的激励结果为当前层处于未激活状态，并通过未激活状态的当前层词节点的隐层向量表达信息确定所述下一层词节点的相似程度，以基于所述下一层词节点的相似程度与下一层的激励条件对下一层词节点的激励进行调整。

在语音识别方法中，还包括：

获取与各个不同维度信息对应的条目信息，分别将多个不同的条目信息合并生成针对各个维度信息的词树；其中，所述维度信息包括所述用户的位置信息，和/或所述语音请求的语种信息，和/或所述用户的用户授权信息。

在语音识别方法中，所述分别将多个不同的条目信息合并生成针对各个维度信息的词树，包括：

依次获取与目标维度信息的各个条目信息中的词向量，按照词向量在各个条目信息的顺序，以及基于合并相同词向量的方式，相应构建目标维度信息对应词树的词节点。

在语音识别方法中，所述目标维度信息对应词树的词节点包括根节点，所述基于合并相同词向量的方式，相应构建目标维度信息对应词树的词节点，包括：

获取各个条目信息中位于句首的第一词向量，若不存在相同的第一词向量，则分别将所述位于句首的第一词向量独立作为目标维度信息对应词树的根节点；

和/或，若存在相同的第一词向量，则将所存在的相同的第一词向量在所述目标维度信息对应词树中合并为同一根节点。

在语音识别方法中，所述目标维度信息对应词树的词节点包括叶子节点，所述基于合并相同词向量的方式，相应构建目标维度信息对应词树的词节点，包括：

依次获取各个条目中位于句首后的第二词向量，若存在相同的第二词向量，且在所述第二词向量前存在相同的前缀词向量，则将存在相同前缀词向量且相同的第二词向量在所述目标维度信息对应词树中合并为同一叶子节点；

和/或，若存在相同的第二词向量，且在所述第二词向量前存在不同的前缀词向量，则分别将存在不同前缀词向量且相同的第二词向量在所述目标维度信息对应词树中独立构建叶子节点；

和/或，若不存在相同的第二词向量，则分别将所述词向量在所述目标维度信息对应词树中独立构建叶子节点。

本申请还提供了一种语音识别装置，所述装置包括：

信息获取模块，用于响应用户的语音请求，获取所述用户的位置信息和所述语音请求的语种信息；所述用户的位置信息和所述语音请求的语种信息分别存在相应维度信息的词树，其中不同维度信息的词树用于合并得到词树；

词树使用模块，用于根据所合并的词树对所述用户的语音请求进行识别。

在语音识别装置中，所述词树使用模块具体用于通过所合并的词树动态调整所述用户的语音请求在所合并的词树中的激励，根据所述激励对所述用户的语音请求进行识别。其中，词树使用模块在调整激励时具体用于确定所述用户的语音请求与所合并的词树中各个词节点的相似程度；通过所合并的词树基于所述相似程度调整各个词节点的激励；其中所合并的词树包括第三词树、第四词树以及第五词树。

在语音的识别装置中，所述装置还包括：词树生成模块，用于获取与各个不同维度信息对应的条目信息，分别将多个不同的条目信息合并生成针对各个维度信息的词树；其中，所述维度信息包括所述用户的位置信息，和/或所述语音请求的语种信息，和/或所述用户的用户授权信息。

在语音识别装置中，还包括：

词树合并模块，用于将基于所述用户的位置信息获取的第一词树，与基于所述语音请求的语种信息获取的第二词树进行离线合并，得到所合并的第三词树；还用于获取所述用户的用户授权信息，根据所述用户授权信息获取第四词树，将所述第四词树与所述第三词树进行在线合并，得到所合并的第五词树；和/或，将所述第四词树与所述第一词树进行在线合并，得到所合并的第六词树。

本申请还公开了一种车载终端，包括：所述语音识别装置、处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现任一项所述语音识别方法的步骤。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现任一项所述语音识别方法的步骤。

本申请包括以下优点：

在本申请中，通过响应用户的语音请求，获取用户的位置信息和语音请求的语种信息，用户的位置信息和语音请求的语种信息分别存在相应维度信息的词树，其中不同维度信息的词树用于合并得到词树，此时可根据所合并的词树对用户的语音请求进行识别。通过基于词树的方式，综合用户信息相关的用户位置信息以及语种信息进行引入，对用户的语音请求进行识别，使得能够以词树形式所引入的资源对语音请求的的解码过程，避免出现语言识别不准确的问题，以及还可基于对不同维度信息相关词树的合并，增加对用户语言识别过程中的准确性，提升用户体验。

附图说明

图1是相关技术中语言识别的过程示意图；

图2是相关技术中多语种声学模型的模型示意图；

图3是相关技术中语言模型的模型示意图；

图4是本申请提供的语音识别方法的步骤流程图；

图5是本申请提供的向量词树生成过程的示意图；

图6是本申请提供的用于进行识别的语言模型示意图；

图7是本申请提供的多维度向量词树合并过程的示意图；

图8是本申请提供的离线合并词树的示意图；

图9是本申请提供的虚拟合并词树的示意图；

图10是本申请提供的激励策略设置的相关示意图；

图11是本申请提供的语音识别装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

为了在使用语言模型对用户的语音请求进行更好的语言识别，可以基于用户的资源信息对语言模型进行构建，以便采用语言实现对用户语言进行识别，提高语言识别的准确性。

目前，在进行语言模型的建模过程中，主要可以基于在解码完成后引入资源信息进行得分插值重排序实现。具体的，参照图1，示出了相关技术中语言识别的过程示意图，其主要是在通过多语种声学模型按照对应的语种模型对待识别语音数据的语种进行识别之后，在采用解码器对语音数据在按照对应语种进行解码的过程中，可通过接收用户的IP（Internet Protocol，通信协议）地址，以调用对应IP地址所在城市市的资源，提高识别率。

其中，对用户语音请求的语种识别可通过如图2所示的多语种声学模型实现，所构建的多语种声学模型可基于多个混合双语模型，例如包括英-德（其神经网络层，例如N层LSTM隐含层可用于对英文因素特征向量和德语因素特征向量进行输出，以通过其混合输出层进行softmax得分计算）、英-法（其神经网络层，例如M层LSTM隐含层可用于对英文因素特征向量和法语因素特征向量进行输出，以通过其混合输出层进行softmax得分计算）等20多套混合双语模型中所包含的多层隐含层的神经网络实现，具体可将多个混合双语模型的隐含层按照预设比例区分为底层隐含层和高层隐含层，并将底层隐含层，例如N层LSTM隐含层合并生成得到共享隐含层，基于共享的底层隐含层和具有明显语种特征的高层隐含层进行构建。其中，在将所合并的共享隐含层的输出结果作为高层隐含层输入项的同时，还可以在共享隐含层的输出层增加预设语种模型的隐含层，以将共享隐含层的输出结果作为预设语种模型的输入项，以便在语种确定之前将语音数据按照预设语种进行显示，预设语种可以指的是对于某个地区而言较为广泛应用的语种，例如对于欧洲地区国家的用户语音语种的识别而言，英文为欧洲地区广泛应用的语种，即此时可采用英文模型用于进行上屏显示；此外，还可将多个混合双语模型的高层隐含层的多个输出层，作为用于训练预设语种分类模型的输入层构造预设语种分类模型，其中可将用于表征第二输出结果的多维特征向量按照相应维度拼接，如图2所示将各个语种特征向量，例如德语hidden隐含特征、法语隐含hidden特征进行拼接，并将拼接后的语种特征作为预设语种分类模型的输入层，所构建的预设语种分类模型可以具有M层卷积层conformer，此卷积层用于进行语种softmax得分计算得到针对各个语种的置信度，以通过预设语种分类模型对各个语种的置信度确定相应语种。

其中，对于所输入的连续预设长度帧中的各个词而言，无论待识别语音数据进行解码出字时是否已经超时（即超过字数），若有且仅有一个置信度大于预设值，即存在超过某一语种的置信度阈值的某个置信度，则可确定该置信度对应的语种为所述待识别语音数据对应的语种；在另一种情况下，若存在两个或两个以上置信度大于预设值，则可确定置信度值最大的对应的语种为待识别语音数据对应的语种；在又一种情况下，若多个置信度均未达到预设值，则可以将置信度值最大的对应的语种为所述待识别语音数据的语种。其中，预设值可以是针对各个语种的置信度阈值，对此，本发明实施例不加以限制。

主要可以表现为对底层隐含层与高层隐含层的输出结果进行缓存，此时在基于语种分类模型确定语种之前，假设该地区较为广泛应用的语种为英文，此时可基于英文模型（包括英文声学模型与英文语言模型）对待识别的语音数据进行英文语种的上屏显示，保证用户体验；在基于语种分类模型确定语种分类结果后，针对所缓存的高隐含层的输出结果，可激活对应的混合双语模型的混合输出层进行softmax计算，同时对应语种的语言模型开始正常解码，其中所进行的softmax计算是在机器学习中的工具，其可以用于计算一组数值中每个值的占比，以基于所计算得到的占比对语音数据中各个词的相似程度进行确定，并筛选得到用于上屏显示的词语，以实现对待识别语音数据的上屏显示种英文语种的替换。

对于语言模型的实现，在现有技术中，如图3所示，资源可以指的是使用的地名训练的额外Ngram模型（为一种基于统计语言模型的算法），通用的神经网络模型NNLM（NerualNetwork Language Model）可以基于与所识别的语种对应的整个国家的POI（Point ofInterest，兴趣点）地名相关的文本训练得到，而城市级模型，与通用的神经网络NNLM相比，其主要是基于对应城市的地名文本训练的少量POI数据得到，且出于计算量和存储的考虑，城市级模型的体积较小。

在图3所示的语言模型中，主要是在将用户语音请求基于声学模型处理后，再基于通用大体积的神经网络模型NNLM进行正常解码得到N个候选词，引入资源信息，例如基于小体积的城市级NNLM所引入的用户IP地址相关的地名信息进行得分插值重排序，以得到具有用户特征的最终解码结果，实现对用户进行语言的识别。

但在这种方式下，语音请求可以为任意地区，例如全球、亚洲地区、欧洲地区用户的语音请求，由于在某些地区地方小、国家多，且流动性大，可能会存在用户经常需要进行跨国游或者去首都的情况，若此时只加载与用户IP地址所对应的城市资源，其激励力度不够大；且其引入资源信息的阶段处于解码得到候选词之后，所引入的资源信息并未真正参与解码，可能造成当候选词中并不存在正确答案时无法获取激励，从而导致语言识别不准确的问题。

参照图4，示出了本申请提供的语音识别方法的步骤流程图，具体可以包括如下步骤：

步骤401，响应用户的语音请求，获取用户的位置信息和语音请求的语种信息，用户的位置信息和语音请求的语种信息分别存在相应维度信息的词树，其中不同维度信息的词树用于合并得到词树；

在本申请中，在对用户的语音请求进行识别时，可对资源进行引入，以实现语言模型的构建，基于语言模型中所采用的合并词树对语音请求进行识别。

所引入的资源可以是基于各个不同维度信息获取的相关资源信息，包括各个不同维度信息对应的条目信息，其维度信息可以包括用户的位置信息，和/或语音请求的语种信息，和/或用户的用户授权信息。其中，用户的位置信息可基于用户IP地址信息确定，基于用户IP地址信息获取的相关资源信息可以为对应IP地址所在城市的资源等，其条目信息可以为各个城市的地名条目；语音请求的语种信息可基于语种ID（Identification，标识）信息确定，具体可采用如图2所示的多语种声学模型确定，基于语种ID信息获取的相关资源信息可以为用户语种ID相对应的国家首都/热门大城市的热门地名资源等，其条目信息可以为语种对应国家或城市的热门地名条目；基于用户授权信息获取的相关资源信息，可以包括用户常用的地名信息、所收藏的歌曲信息、联系人等。

对于不同维度的资源信息的引入，可采用构建词树的方式进行引入，使得以词树形式所引入的资源能够参与到通用神经网络模型对语言的解码过程，避免出现基于候选词中不存在正确答案时无法获取激励而导致的语言识别不准确的问题，以及还可基于对不同维度信息相关词树的合并，增加对用户语言识别过程中的识别准确性，提升用户体验。

此时可分别获取与上述各个不同维度信息对应的条目信息，分别将多个不同的条目信息合并生成针对各个维度信息的词树。

具体的，可依次获取与目标维度信息的各个条目信息中的词向量，按照词向量在各个条目信息的顺序，以及基于合并相同词向量的方式，相应构建目标维度信息对应词树的词节点。

其中，目标维度信息对应词树的词节点包括根节点，此时可基于合并相同词向量的方式对词树的根节点进行构建，具体可表现为获取各个条目信息中位于句首的第一词向量，若不存在相同的第一词向量，则分别将位于句首的第一词向量独立作为目标维度信息对应词树的根节点；和/或，若存在相同的第一词向量，则将所存在的相同的第一词向量在所述目标维度信息对应词树中合并为同一根节点。

对于词树的叶子节点的构建，基于合并相同前缀词向量的原则，可以表现为依次获取各个条目中位于句首后的第二词向量，若存在相同的第二词向量，且在第二词向量前存在相同的前缀词向量，则将存在相同前缀词向量且相同的第二词向量在目标维度信息对应词树中合并为同一叶子节点；和/或，若存在相同的第二词向量，且在第二词向量前存在不同的前缀词向量，则分别将存在不同前缀词向量且相同的第二词向量在目标维度信息对应词树中独立构建叶子节点；和/或，若不存在相同的第二词向量，则分别将词向量在目标维度信息对应词树中独立构建叶子节点。

示例性地，以对用户的位置信息所对应的词树进行构建为例，对用户IP地址信息的资源信息的词树形式，可基于离线生成。所引入的用户IP地址信息的资源不再是针对用户IP地址所对应的城市级别NNLM，其可以是某个地区各个城市的资源信息，那么基于离线方式生成的针对用户IP地址信息的词树（即第一词树），可以包括基于不同用户IP地址信息所合并生成的词树。需要说明的是，基于用户位置信息的条目信息所生成的词树并不限制于在解码后对所得到的候选词进行得分插值重排序，而是能够参与解码过程的向量词树。

如图5所示，基于用户IP地址信息获取的相关资源信息可以为对应IP地址所在城市的资源等，其条目信息可以为各个城市的地名条目，假设获取的是欧洲各个城市的地名条目，例如City Central Park、City Mall Center、Police Office等，此时可通过神经网络语言模型对各个条目在进行编码后的softmax层的输入词向量进行获取，其中所采用的神经网络语言模型可基于输入层、N层LSTM隐含层以及输出层进行构建，所进行编码后的softmax层的可以为输出层，而softmax层的输入词向量可以指的是经由N层隐含层得到的输出结果。其中，某个条目所获取的词向量数量可基于条目中所组成词的数量确定，例如City Central Park由三个词组成，那么此条目所相应获取的词向量数量具有3个，此时可以将各个地名条目中位于句首的第一词向量作为根节点，以及将各个地名条目中位于句首后的第二词向量作为叶子节点，对这些条目的词进行前缀合并，以大幅度减少针对需要离线生成的向量词树的空间。作为一种示例，对于City Central Park与City Mall Center这两个地名条目，其位于句首的第一词向量相同，在所生成的词树中可将原本存在的相同的根节点“City”进行合并，合并为同一根节点，而对于“Police Office”这一地名条目，其位于句首的第一词向量“Police”与其他地名条目并不相同，则此时可在词树中独立作为根节点存在；作为又一种示例，对于City Central Park与City Central Square这两个地名条目，这两个在进行根节点的构建时，可在所第一词树中对位于句首相同的第一词向量“City”合并构建为同一根节点，在依据各个条目信息中词向量的顺序，在继续对位于句首后的第二词向量“Central”进行节点的构建时，当前所获取的第二词向量“Central”相同，且在所获取的第二词向量前所存在的前缀词向量“City”也相同，则此时可在词树中，将第二词向量“Central”合并构建为同一叶子节点，当再次继续对位于句首后的第二词向量在词树中的相应节点进行构建时，由于当前从本示例中的地名条目中所获取的第二词向量“Park”与“Square”不同，则此时可在基于根节点“City”-叶子节点“Central”下面分别独立构建“Park”与“Square”的叶子节点，针对所存在不同前缀词向量且相同的第二词向量在词树中的节点构建可以按照上述类似的方式进行推导得到，对此，并不对其相应示例进行赘述。其中，在基于用户位置信息的条目信息所生成的词树中，可按照从根节点到词节点的完整路径对每个地名条目进行表示，例如图5所示的根节点“City”-叶子节点“Central”-叶子节点“Park”，其完整路径可对地名条目“City Central Park”进行表示。

在所构建的词树中，各个词节点均具有所对应的隐层向量表达信息，其隐层向量表达信息可以表现为“wordid+对应的隐层向量表达”的形式，其中wordid可用于表示此词节点所代表的词，对应的隐层向量表达可以指的是这个词所在节点位于该向量词树中的历史路径所对应的编码，例如[v1 v2 v3]。示例性地，每个地名条目均是从各个地名条目的句首符开始进行NNLM编码的，例如“<s> city central park” 和 “<s> city mall”这两个条目，对于词节点“city”，其所对应的历史路径的编码均是“<s> city”，此时可以对具有相同前缀（即历史路径相同）的词向量进行合并成词树；假设存在两个条目“<s> city centralpark”和 “<s> outside of city mall” ，此时对于词节点“city”，虽然具有相同的wordid，但在进行从句首符进行的NNLM编码中，词节点“city”所得到的词向量是不同的，即其历史路径所对应的编码为“<s> outside of city”而不是“<s> city”，此时并不能对向量进行合并成词树。

需要说明的是，对于基于语种信息所获取条目信息所进行构建的词树，以及基于用户授权信息所获取条目信息所进行构建的词树，与其生成方式同样可基于离线的方式生成，具体可参考上述基于用户位置信息的条目信息所对应词树的生成过程。其中，所存在的区别仅在于用于生成词树的条目信息不同，而在生成过程中同样可基于合并相同词向量的原则对词树的根节点和叶子节点进行构建，以及同样可按照从词树中的根节点到词节点的完整路径对每个地名条目进行表示，且在所生成的词树中各个词节点也均具有所对应的隐层向量表达信息，对此，本申请不进行赘述。

在本申请中，可采用对词树合并的方式，将所引入的不同维度的信息进行合并，如图6所示，可对前述步骤基于用户IP地址信息以及基于语种ID信息所获取的条目分别生成的向量词树进行多维度的向量词树合并，增加对用户语音请求识别过程中的识别程度，提升用户体验。

用于合并的词树可以包括基于用户的位置信息获取的第一词树，基于语音请求的语种信息获取的第二词树，以及基于用户的授权信息获取的第四词树，其中，第一词树主要是基于用户的位置信息所对应的条目信息离线生成，第二词树可基于语种信息对应的条目信息离线生成，第三词树主要可基于用户授权信息的条目信息生成。

所合并的词树可以包括包括第三词树、第四词树以及第五词树。

具体的，在进行多维度的向量词树合并时，在一种情况下，如图7所示，可将基于用户的位置信息获取的第一词树作为基础维度信息，以及将基于语音请求的语种信息获取的第二词树作为额外维度信息，对第一词树与第二词树进行离线合并，得到所合并的第三词树。

所离线合并得到的词树可以为真是合并的词树，在进行词树处理的过程中不能进行任何拆分操作。其中，对于根节点的合并，可依次获取位于第一词树与第二词树中位于根节点的词向量，然后基于合并相同词向量的方式，对第一词树与第二词树中位于根节点的词向量进行合并，以及对于叶子节点的合并，可以依次获取位于所述第一词树与第二词树中位于叶子节点的词向量，基于合并相同词向量且存在相同前缀词向量的方式，对第一词树与第二词树中位于叶子节点的词向量进行合并。需要说明的是，其合并相同词向量的方式与合并相同前缀词向量的方式均可参照上述的词树生成过程实现，对此不加以赘述。

示例性地，相较于传统的根据用户IP地址获取定位得到城市信息的策略，此时可将用户IP所在城市地名资源的第一词树（如图8左上方的词树所示），与根据用户的语种信息所加载的与语种对应国家首都/热门大城市的热门地名资源的第二词树（如图8右上方的词树所示）进行词树合并，具体可从根节点开始将所有合法路径进行合并得到新的词向量树（即第三词树），例如将第一词树存在的“root-City-Mall”与第二词树存在的“root-City-Park”中的“root”与“City”节点合并构建为同一个节点，而对于第一词树中的路径“root-Police-Office”中在所合并生成的第三词树中，仅对“root”进行相同节点的合并，其余的“Police”与“Office”节点在第三词树中独立构建。

在进行多维度的向量词树合并时，在另一种情况下，如图7所示，在将基于用户IP地址信息获取的第一词树作为基础维度信息的情况下，还可以将基于语种ID信息获取的第二词树与基于用户授权信息获取的第四词树共同作为额外维度信息，或单独将基于用户授权信息获取的第四词树作为额外维度信息，对不同维度的词树进行合并，具体可表现为将第四词树与三词树进行在线合并生成第五词树，或将第一词树与第四词树进行在线合并生成第六词树，以通过所合并得到的第五词树或第六词树对用户的语音请求进行识别。

其中，基于用户授权信息的相关资源信息的条目较少，此时可通过独立进程对用户授权信息进行实时上传，并实时生成针对用户授权信息的第四词树，在涉及到对第四词树的词树合并过程中，可基于在线的动态合并实现，所进行的在线合并属于插拔式的合并方式，随用随插，几乎不存在预算延迟。对于第四词树的随用随插，可表现为在接收到上传的用户授权信息后，可将在线生成的第四词树与其他词树进行合并，当独立进程未接收到实时上传的用户授权信息时，并不对第四词树进行合并操作，其所合并得到的第五词树或者第六词树为虚拟合成的词树。

对于在线合并词树的方式，其与离线合并词树的方式不同，由于在线合并词树属于虚拟词树的合并，在基于原本深度为0的根节点的基础上，新增不代表任何意思的深度为-1的虚拟根节点，在词树合并的过程中不再对相同的词节点进行合并，其而由于用户授权信息的词树相对于城市级别词树的节点数目较少，此时可不必通过合并节点的方式来节省空间。

示例性地，假设此时将基于用户IP地址信息获取的第一词树（如图9左上方的词树所示）作为基础维度信息，以及单独将基于用户授权信息获取的第四词树（如图9右上方的词树所示）作为额外维度信息进行在线合并，在将第一词树与第四词树合并生成第六词树的过程中，可先在所生成的第六词树中新增虚拟根节点“root”，然后在所新增的虚拟根节点“root”下对第一词树与第四词树分别进行引入，基于不对所新增的虚拟根节点“root”与第一词树和第四词树中均存在的根节点“root”进行合并，以保证在合并时不对后续词树中相同的词节点进行合并；假设此时将基于用户IP地址信息获取的第一词树作为基础维度信息，将基于语种ID信息获取的第二词树与基于用户授权信息获取的第四词树共同作为额外维度信息进行合并，其中第一词树与第二词树的合并方式可采用离线合并实现，所得到的中间词树（即第三词树）可以为如图9左上方的词树，在将中间词树与第四词树（如图9右上方的词树所示）进行合并得到第五词树时，具体可采用上述的在线合并方式实现。

步骤402，根据所合并的词树对用户的语音请求进行识别。

对用户的语音请求进行识别的过程，可以表现为对用户的语音请求基于所引入的资源信息所进行的解码过程。

在本申请中，可通过所合并的词树动态调整用户的语音请求在所合并的词树中的激励，根据激励对所述用户的语音请求进行识别。

具体的，通过采用词树形式将所引入的资源参与到通用神经网络模型对语言的解码过程，具体可如图6所示，通过基于所引入的资源信息所合并得到的词树，通过动态调整LM-score激励，对词树中某个或某些词节点的激励直接参与到解码过程，所进行激励的作用可在进行解码的过程中增大对于某个词或某些词的softmax得分，以助于通用神经网络语言模型对softmax得分较大的词进行识别，得到N个候选词以得到最终的解码结果，提高对语言中词语识别的准确度。其中，softmax得分可以表示某个词在通用神经网络语言模型中所出现的概率。

在进行激励的动态调整过程中，可确定用户的语音请求与所合并的词树中各个词节点的相似程度，以通过所合并的词树基于相似程度调整各个词节点的激励。其中，所合并的词树可以包括上述的第三词树、第四词树以及第五词树，对此，本申请不加以限制。

其中，所合并的词树中各个词节点具有对应的隐层向量表达信息，对于相似程度可基于用户的语音请求与所合并的词树中各个词节点中的相似度计算确定，即相似度的值越大则表示相似程度越高，且此节点所得到激励的可能性越大。具体的，可在解码的过程中，按照从根节点root开始计算所合并的词树中各个词节点所对应词向量vector的余弦相似度，所合并的词树具有与各个词节点所对应的隐层向量表达信息，即每个词节点均具有其所在路径所对应的历史路径编码，在进行相似度计算时，可以确定用户的语音请求中各个词在所合并的词树中相应的词节点，并获取词节点的隐层向量表达信息，然后将词节点的隐层向量表达信息，与在所合并的词树中位于词节点下一层的各个词节点的隐层向量表达信息进行对比，得到语音请求中各个词在所合并的词树的相似度，以确定相似程度。

在通过所合并的词树基于相似程度调整各个词节点的激励的过程中，主要可以表现为通过所合并的词树动态调整LM-score的激励力度，真实参与每一个字的解码，从所合并的词树的根节点开始，基于针对前一层词节点的相似程度所确定的激励结果，对下一层词节点的激励进行调整。其中，在给予激励的过程中，可基于词树的深度不同指定不同的激励策略，即不同层所设置的激励倍数不同，对此不加限制。

在基于前一层词节点的激励结果对下一层词节点的激励进行调整时，具体可分为当前层处于激活状态与当前层处于未激活状态的两种激励结果进行调整。

对于当前层处于激活状态的情况，具体表现为在前一层词节点的相似程度符合当前层的激励条件时，可采用当前层的激励倍数调整前一层词节点的激励，并确定前一词节点的激励结果为当前层处于激活状态，此时在对下一层词节点进行激励时，可通过位于激活状态层级的下一层词节点的隐层向量表达信息确定下一词节点的相似程度，以基于下一层词节点的相似程度与下一层的激励条件对下一层词节点的激励进行调整。

在实际应用中，激励可以通过调整激励分数或激励等级等实现，在本示例中以激励分数为例，且语言与词节点的相似程度可基于相似度的计算确定，当所计算的前一层词节点的相似度超过当前层的激励阈值，即可表示前一层词节点的相似程度符合当前层的激励条件，此时可获取该词节点的概率得分（即softmax得分）以及获取当前层的激励倍数，调整此词节点的激励为将其概率得分乘以当前层的激励倍数所得到的值，并且在对下一层词节点进行激励时，可基于位于激活状态层级的下一层词节点的隐层向量表达信息确定下一词节点的相似度，并按照前一层词节点的激励调整方式，即在将下一词节点的相似度与下一层的激励条件进行阈值判断后确定下一层词节点的激励分数，以对下一层词节点进行激励调整。

对于当前层处于未激活状态的情况，具体表现为在前一层词节点的相似程度未满足当前层的激励条件时，可确定前一层词节点的激励结果为当前层处于未激活状态，并通过未激活状态的当前层词节点的隐层向量表达信息确定下一层词节点的相似程度，以基于下一层词节点的相似程度与下一层的激励条件对下一层词节点的激励进行调整。

在实际应用中，激励可以通过调整激励分数或激励等级等实现，在本示例中以激励分数为例，且语言与词节点的相似程度可基于相似度的计算确定，当所计算的前一层词节点的相似度未达到当前层的激励阈值，即可表示前一层词节点的相似程度未满足当前层的激励条件，此时并不对此节点进行激励调整，即对于此节点的激励分数依旧为此节点原本的概率得分。那么在对下一层词节点进行激励时，在当前层处于未激活状态时，可以将下一个词节点的隐层向量表达信息再次与当前层的词节点的隐层向量表达信息进行对比，得到下一词节点与当前层的词节点的相似度，以在对下一词节点与当前层的词节点的相似度进行阈值判断后确定下一词节点的激励分数。

示例性地，针对激励的具体动态调整实现，如图10所示，假设待识别的语言为“<s>Go To City Central Park </s>”，所用于识别的词树为如图5所示的词树，在对语音请求进行语言解码的过程中可基于通用神经网络语言模型NNLM实现。

作为一种示例，（1）在NNLM送入词节点<s>，以基于词节点<s>的激励结果预测下一个词节点“Go”的激励时，可将前一层词节点<s>的隐层向量表达信息，和位于第三词树中第一层的所有词节点的隐层向量表达信息进行相似度计算，即将两个词节点在词树中所对应的历史路径的编码进行对比，若前一层词节点<s>的隐层向量表达信息和某个词节点的相似度超过当前层的激励阈值，则可以激活词树的第一层，并将此词树节点对应的wordid的softmax得分乘以第一层的激励倍数得到激励分数，此时可假设“Go”并未激活词树的第一层，即匹配失败，则并未对词节点“GO”的激励进行调整；（2）此时可继续在NNLM送入词节点“Go”以预测下一个词节点“To”的激励，由于“Go”并未激活词树的第一层，可继续将“Go”的隐层向量表达信息与和词树的第一层中所有词节点的隐层向量表达信息进行匹配，假设当前词节点“To”匹配失败，仍并未激活词树的第一层；（3）继续在NNLM送入词节点“To”以预测下一个词节点“City”的激励，假设此时“To”的隐层向量与词树第一层的“City”相似度为0.9，其相似度超过第一层的激活阈值0.8，满足第一层的激励条件，此时匹配成功，可以将词节点“City”对应的softmax得分乘以激励倍数1.2得到对于词节点“City”的激励分数，并记录第一层处于激活状态；（4）继续在NNLM送入词节点“City”以预测下一个词节点“Central”的激励，此时可将“City”对应的隐层向量表达信息，和词树“City”节点下面挂着的第二层节点的隐层向量表达信息计算相似度，由于第一层处于激活状态，则表示词树路径“City”->“Central”激活成功，且假设“Central”的相似度0.8超过当前层的激励阈值0.6，即匹配成功，此时可以将“Central”的softmax得分乘以第二层激励倍数2，若此时在NNLM的softmax得分中“Center”的分数为0.5，而“Central”的激励分数仅为0.3，当NNLM在正常解码这个句子将会对分数较高，即将较为相近的词进行识别，将识别成错误的语句“City Center”，而在经过上述激励倍数的激励后，可以将“Central”的得分激励成调整为0.6，此时“Central”的激励分数超过“Center”的激励分数以使得对语言中的词“Central”识别正确，提高对词识别的准确性。

需要说明的是，基于词树的深度不同可以指定不同的激励策略，即不同层所设置的激励倍数不同。其根据树深度动态调整激励的策略可以如图10为例，基于长词相似更可信的原则，那么说明往后的词相似程度可能就越高的特点，即树的深度越深则表示这个词在词树上存在相近词的可能越大，此时可从root节点开始将每一层的激励阈值按照逐渐降低的规律进行设置，使得位于树的深度越深的词越容易获得激励；同样基于长词相似更可信的原则，还可以从root节点开始对每一层的激励力度按照逐渐加大的规律设置，以使得用户说的越长的词越可能是词树上的词，即对于词树越深的词约需增大对层词的激励倍数。

在本申请中，通过响应用户的语音请求，获取用户的位置信息和语音请求的语种信息，用户的位置信息和语音请求的语种信息分别存在相应维度信息的词树，其中不同维度信息的词树用于合并得到词树，此时可根据所合并的词树对用户的语音请求进行识别。通过基于词树的方式，综合用户信息相关的用户位置信息以及语种信息进行引入，对用户的语音请求进行识别，使得能够以词树形式所引入的资源对语音请求的的解码过程，避免出现语言识别不准确的问题，以及还可基于对不同维度信息相关词树的合并，增加对用户语言识别过程中的识别准确程度，提升用户体验。

需要说明的是，对于方法，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的均属于优选，所涉及的动作并不一定是本申请所必需的。

参照图11，示出了本申请提供的语音识别装置的结构框图，具体可以包括如下模块：

信息获取模块1101，用于响应用户的语音请求，获取所述用户的位置信息和所述语音请求的语种信息；所述用户的位置信息和所述语音请求的语种信息分别存在相应维度信息的词树，其中不同维度信息的词树用于合并得到词树；

词树使用模块1102，用于根据所合并的词树对所述用户的语音请求进行识别。

在语音识别装置中，词树使用模块1102具体用于通过所合并的词树动态调整所述用户的语音请求在所合并的词树中的激励，根据所述激励对所述用户的语音请求进行识别。其中，词树使用模块在调整激励时具体用于确定所述用户的语音请求与所合并的词树中各个词节点的相似程度；通过所合并的词树基于所述相似程度调整各个词节点的激励；其中所合并的词树包括第三词树、第四词树以及第五词树。

在语音识别装置中，所述装置还可以包括如下模块：词树生成模块，用于获取与各个不同维度信息对应的条目信息，分别将多个不同的条目信息合并生成针对各个维度信息的词树；其中，所述维度信息包括所述用户的位置信息，和/或所述语音请求的语种信息，和/或所述用户的用户授权信息。

在语音识别装置中，所述装置还可以包括如下模块：词树合并模块，用于将基于所述用户的位置信息获取的第一词树，与基于所述语音请求的语种信息获取的第二词树进行离线合并，得到所合并的第三词树；还用于获取所述用户的用户授权信息，根据所述用户授权信息获取第四词树，将所述第四词树与所述第三词树进行在线合并，得到所合并的第五词树；和/或，将所述第四词树与所述第一词树进行在线合并，得到所合并的第六词树。

对于装置而言，由于其与方法基本相似，所以描述的比较简单，相关之处参见方法的部分说明即可。

本申请还提供了一种车载终端，包括：

包括上述语音识别装置、处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音识别方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述语音识别方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个示例均采用递进的方式描述，每个示例重点说明的都是与其他示例的不同之处，各个示例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请示例的可提供为方法、装置、或计算机程序产品。因此，本申请示例可采用完全硬件、完全软件、或结合软件和硬件方面的形式。而且，本申请示例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请示例是参照根据本申请示例的方法、终端设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选示例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些示例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选示例以及落入本申请示例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的语音识别方法、装置、终端和存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

根据所合并的词树对所述用户的语音请求进行识别；所述合并的词树用于基于所述用户的语音请求与其各个词节点的相似程度动态调整各个词节点的激励。

2.根据权利要求1所述的方法，其特征在于，所合并的词树包括第三词树、第四词树以及第五词树，还包括：

3.根据权利要求2所述的方法，其特征在于，所述将基于所述用户的位置信息获取的第一词树，与基于所述语音请求的语种信息获取的第二词树进行离线合并，得到所合并的第三词树，包括：

4.根据权利要求2所述的方法，其特征在于，所合并的词树中各个词节点具有对应的隐层向量表达信息，所述用户的语音请求与其各个词节点的相似程度通过以下步骤得到：

5.根据权利要求2所述的方法，其特征在于，所述基于所述用户的语音请求与其各个词节点的相似程度动态调整各个词节点的激励，包括：

从所合并的词树的根节点开始，基于针对前一层词节点的相似程度所确定的激励结果，对下一层词节点的激励进行调整，以根据所述激励对所述用户的语音请求进行识别。

6.根据权利要求5所述的方法，其特征在于，所述基于针对前一层词节点的相似程度所确定的激励结果，对下一层词节点的激励进行调整，包括：

在前一层词节点的相似程度符合当前层的激励条件时，采用当前层的激励倍数调整所述前一层词节点的激励，并确定所述前一层词节点的激励结果为当前层处于激活状态；

通过位于激活状态层级的下一层词节点的隐层向量表达信息确定所述下一层词节点的相似程度，以基于所述下一层词节点的相似程度与下一层的激励条件对下一层词节点的激励进行调整。

7.根据权利要求5所述的方法，其特征在于，所述基于针对前一层词节点的相似程度所确定的激励结果，对下一层词节点的激励进行调整，包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

9.根据权利要求8所述的方法，其特征在于，所述分别将多个不同的条目信息合并生成针对各个维度信息的词树，包括：

10.根据权利要求9所述的方法，其特征在于，所述目标维度信息对应词树的词节点包括根节点，所述基于合并相同词向量的方式，相应构建目标维度信息对应词树的词节点，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述目标维度信息对应词树的词节点包括叶子节点，所述基于合并相同词向量的方式，相应构建目标维度信息对应词树的词节点，包括：

12.一种语音识别装置，其特征在于，所述装置包括：

词树使用模块，用于根据所合并的词树对所述用户的语音请求进行识别；所述合并的词树用于基于所述用户的语音请求与其各个词节点的相似程度动态调整各个词节点的激励。

13.一种车载终端，其特征在于，包括：如权利要求12所述语音识别装置、处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-11中任一项所述语音识别方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述语音识别方法的步骤。