CN110797026B

CN110797026B - 一种语音识别方法、装置及存储介质

Info

Publication number: CN110797026B
Application number: CN201910880013.5A
Authority: CN
Inventors: 康跃腾; 付彦喆; 王朋飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2024-11-26
Anticipated expiration: 2039-09-17
Also published as: CN110797026A

Abstract

本申请实施例公开了一种语音识别方法、装置及存储介质，包括：提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇；当所述第一模型无法识别所述语音信号流中的语言词汇时，根据所述语言词汇所属的领域类型加载第二模型，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇；根据所述第一得分和所述第二得分，确定最终识别结果。采用本申请实施例，提高了语音识别的准确性和效率。

Description

一种语音识别方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别方法、装置及存储介质。

背景技术

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。可以采用以下几种方式进行语音识别：第一，将各个领域相关的语料训练和通用语料进行合并重新训练语言模型并重新合成解码图HCLG。第二，在基于端到端语音识别系统中添加领域相关的音频、文本在大规模的语料上进行重新训练相关模型。但是，在实际场景中，需要对整个模型进行重新训练部署，导致语音识别效率低。并且由于领域相关的语料并不会很多，识别的准确性较低。

发明内容

本申请实施例提供一种语音识别方法、装置及存储介质。可以提高语音识别的准确性和效率。

第一方面，本申请实施例提供了一种语音识别方法，包括：

提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇；

当所述第一模型无法识别所述语音信号流中的语言词汇时，根据所述语言词汇所属的领域类型加载第二模型，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇；

根据所述第一得分和所述第二得分，确定最终识别结果。

其中，所述第一模型的词表包括特殊标识符，所述根据所述语言词汇所属的领域类型加载第二模型包括：

确定所述语言词汇所属的领域类型对应的特殊标识符；

根据所述特殊标识符，从预设的多个领域模型查找所述第二模型并进行加载。

其中，所述第一模型包括第一常用语言模型和第一重打分语言模型，所述第一常用语言模型为根据二元语言模型生成的，所述第一重打分语言模型为根据五元语言模型生成的；

所述提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分包括：

根据所述第一常用语言模型对所述语音信号流进行识别得到多个所述第一识别结果，一个所述第一识别结果对应一个所述第一得分；

根据所述第一重打分语言模型对多个所述第一识别结果进行排序，选择最高的所述第一得分对应的所述第一识别结果。

其中，所述第二模型包括第二领域语言模型和第二重打分语言模型，所述第二领域语言模型为根据一元语言模型生成的；

所述将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分包括：

根据所述第二领域语言模型对所述语言词汇进行识别得到多个所述第二识别结果，一个所述第二识别结果对应一个所述第二得分；

根据所述第二重打分语言模型对多个所述第二识别结果进行排序，选择最高的所述第二得分对应的所述第二识别结果。

其中，所述根据所述第一得分和所述第二得分，确定最终识别结果包括：

计算所述第一得分和所述第二得分的加权平均值；

根据所述加权平均值，确定所述最终识别结果。

其中，所述第二领域语言模型包括所述第一模型的待加强词汇；所述方法还包括：

将所述第二模型识别出的针对所述待加强词汇的识别结果替换所述第一模型识别出的针对所述待加强词汇的识别结果，得到所述最终识别结果。

第二方面，本申请实施例提供了一种语音识别装置，包括：

处理模块，用于提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇；

所述处理模块，还用于当所述第一模型无法识别所述语音信号流中的语言词汇时，根据所述语言词汇所属的领域类型加载第二模型，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇；

确定模块，用于根据所述第一得分和所述第二得分，确定最终识别结果。

其中，所述处理模块，还用于确定所述语言词汇所属的领域类型对应的特殊标识符；根据所述特殊标识符，从预设的多个领域模型查找所述第二模型并进行加载。

所述处理模块，还用于根据所述第一常用语言模型对所述语音信号流进行识别得到多个所述第一识别结果，一个所述第一识别结果对应一个所述第一得分；根据所述第一重打分语言模型对多个所述第一识别结果进行排序，选择最高的所述第一得分对应的所述第一识别结果。

所述处理模块，还用于根据所述第二领域语言模型对所述语言词汇进行识别得到多个所述第二识别结果，一个所述第二识别结果对应一个所述第二得分；根据所述第二重打分语言模型对多个所述第二识别结果进行排序，选择最高的所述第二得分对应的所述第二识别结果。

其中，所述确定模块，还用于计算所述第一得分和所述第二得分的加权平均值；根据所述加权平均值，确定所述最终识别结果。

其中，所述第二领域语言模型包括所述第一模型的待加强词汇；

所述处理模块，还用于将所述第二模型识别出的针对所述待加强词汇的识别结果替换所述第一模型识别出的针对所述待加强词汇的识别结果，得到所述最终识别结果。

第三方面，本申请实施例提供了一种语音识别设备，包括：处理器、存储器和通信总线，其中，通信总线用于实现处理器和存储器之间连接通信，处理器执行存储器中存储的程序用于实现上述第一方面提供的一种语音识别方法中的步骤。

在一个可能的设计中，本申请提供的语音识别设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或硬件。

本申请实施例的又一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载并执行上述各方面所述的方法。

本申请实施例的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

实施本申请实施例，提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇；当所述第一模型无法识别所述语音信号流中的语言词汇时，根据所述语言词汇所属的领域类型加载第二模型，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇；根据所述第一得分和所述第二得分，确定最终识别结果。通过动态加载领域模型，提高了语音识别的效率和准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提出的一种语音识别系统的结构示意图；

图2是本申请实施例提供的一种语音识别方法的流程示意图；

图3是本申请实施例提供的一种状态回退示意图；

图4是本申请实施例提供的一种替换操作示意图；

图5是本申请实施例提供的另一种语音识别方法的流程示意图；

图6是本申请实施例提供的一种语音识别装置的结构示意图；

图7是本申请实施例提供的一种语音识别设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，图1是本申请实施例提出的一种语音识别系统的结构示意图。该语音识别系统包括ROOT模型和领域模型，其中，ROOT模型用于识别通用说法的词汇，ROOT模型包括ROOT模型(base)和ROOT模型(big)，ROOT模型(base)包括声学模型和解码图HCLG，所述声学模型和解码图HCLG用于对提取的语音信号流的特征进行识别，所述ROOT模型(big)用于对识别结果进行排序重打分。领域模型用于识别领域说法的词汇，领域模型可以包括领域模型(OOV)和领域重打分(rescore)模型，其中，领域模型(OOV)包括领域模型1、领域模型2……、领域模型n等等。如果需要对某个领域的词汇进行识别，可以加载对应的领域模型。每个领域模型包括声学模型和解码图OOV-HCLG。所述声学模型和解码图OOV-HCLG用于对该领域的词汇进行识别，领域重打分模型可以用于对识别结果进行排序重打分。该语音识别系统可以应用于云小微语音识别助手、微信小程序等等。

如图2所示，图2是本申请实施例提供的一种语音识别方法的流程示意图。本申请实施例中的步骤至少包括：

S201，提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇。

其中，第一模型包括第一常用语言模型和第一重打分语言模型，所述第一常用语言模型为根据二元语言模型生成的，所述第一重打分语言模型为根据五元语言模型生成的；可以根据所述第一常用语言模型对所述语音信号流进行识别得到多个所述第一识别结果，一个所述第一识别结果对应一个所述第一得分；然后根据所述第一重打分语言模型对多个所述第一识别结果进行排序，选择最高的所述第一得分对应的所述第一识别结果。

如图1所示，第一模型可以为ROOT模型，该ROOT模型由通用领域的音频和语料分别得到声学模型A和语言模型G1，其中，语言模型G1被拆分成2-gramG11(第一常用语言模型)和5-gramG12(第一重打分语言模型)，可以根据G11生成解码图HCLG，利用声学模型和解码图HCLG对通用说法的语音识别，然后通过G12对声学模型和解码图HCLG的识别结果进行重打分。

例如，对语料“我想知道朱元璋在哪个殿上朝”进行分词处理。我想/知道/朱元璋/在/哪个殿/上朝为1-gram。我想/上朝/哪个殿上朝/我想知道/朱元璋在/知道朱元璋为2-gram。我想知道朱元璋在/我想知道朱元璋在哪个殿/朱元璋在哪个殿上朝为5-gram。上述举例只说明了部分词汇。其中，G11包括1-gram和2-gram，G12包括1-gram、2-gram、3-gram、4-gram和5-gram。

S202，当所述第一模型无法识别所述语音信号流中的语言词汇时，根据所述语言词汇所属的领域类型加载第二模型，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇。

具体实现中，可以确定所述语言词汇所属的领域类型对应的特殊标识符；根据所述特殊标识符，从预设的多个领域模型查找所述第二模型并进行加载。

例如，如图3所示，图3是本申请实施例提供的一种状态回退示意图。对信号流进行特征提取后进入到ROOT模型进行在线解码。如果ROOT模型对某个或某些领域词汇无法识别，则需要回退。其中，$OOV表示1-gram状态回退标识符，在进行解码图搜索的过程中，$OOV标识符包含在ROOT语言模型的回退状态中，如果搜索到1-gram回退状态，则会进入到预先指定的领域OOV-HCLG进行解码图搜索，然后将搜索结果通过加权有限状态转换器(Weighted Finite-State Transducer，WFST)进行替换(replace)操作。又如图4所示，图4是本申请实施例提供的一种替换操作示意图，将搜索结果替换掉$OOV的边。

其中，所述第二模型包括第二领域语言模型和第二重打分语言模型，所述第二领域语言模型为根据一元语言模型生成的。可以根据所述第二领域语言模型对所述语言词汇进行识别得到多个所述第二识别结果，一个所述第二识别结果对应一个所述第二得分；根据所述第二重打分语言模型对多个所述第二识别结果进行排序，选择最高的所述第二得分对应的所述第二识别结果。

如图1所示，第二模型可以是领域模型，领域模型划分为OOV-HCLG和rescore-HCLG两个部分，OOV-HCLG的语言模型由领域场景中ROOT模型未登录的词集合${oov}以及ROOT模型中待加强词word的集合${<s>word</s>}的1-gram构成。例如，端门/咸熙门/永康左门等词汇都是ROOT模型未登录的词集合${oov}，属于历史领域的词汇，是不常用的词汇。又如，“殿”很容易被识别成“店”，因此“殿”为待加强的词汇。

其中，rescore-HCLG的语言模型由上述词集合${oov}和指定句式造句生成，用于对OOV-HCLG的语言模型的识别结果进行重打分，加强领域说法的识别。在通过ROOT模型(base)和OOV-HCLG的语言模型进行解码时，会分别同步利用ROOT模型的5-gram语言模型(big)和领域模型的rescore-HCLG进行重打分。

需要说明的是，可以将不同领域的模型集成到一个语音识别系统中，针对每个领域的独立检索(query)请求，实时对领域模型进行热加载，即在加载新的领域模型时，不释放已经加载的领域模型。

S203，根据所述第一得分和所述第二得分，确定最终识别结果。

具体实现中，可以计算所述第一得分和所述第二得分的加权平均值；根据所述加权平均值，确定所述最终识别结果。例如可以选择加权平均值最高的识别结果作为最终识别结果。例如，第一得分和第二得分分别为score1和score2，分别设置权重W1和W2，其中W1+W2＝1，最终得分final_score＝W1*score1+W2*score2。其中，W1的取值范围可以为(±0.9-0.99)，W2的取值范围可以为(±0.01-0.1)。

在本申请实施例中，通过动态加载领域模型的方式，不仅能针对领域场景中的未登录词汇进行高效的识别，还能针对原有模型中指定词汇进行强识别，且不影响语音识别中通用说法的识别，整个过程的模型训练为分钟级，且采用热加载的方式与通用领域语音识别模型进行合并，提高了语音识别的准确性和效率。

如图5所示，图5是本申请实施例提供的另一种语音识别方法的流程示意图。本申请实施例中的步骤至少包括：

S501，提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇。

S502，当所述第一模型无法识别所述语音信号流中的语言词汇时，根据所述语言词汇所属的领域类型加载第二模型，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇。

需要说明的是，可以将不同领域的模型集成到一个语音识别系统中，针对每个领域的独立检索(query)请求，实时对领域模型进行热加载，即已经加载的领域模型不释放，并加载新的领域模型。

S503，根据所述第一得分和所述第二得分，确定最终得分。

具体实现中，可以计算所述第一得分和所述第二得分的加权平均值；根据所述加权平均值，将加权平均值作为最终得分。例如可以选择加权平均值最高的识别结果作为最终识别结果。例如，第一得分和第二得分分别为score1和score2，分别设置权重W1和W2，其中W1+W2＝1，最终得分final_score＝W1*score1+W2*score2。其中，W1的取值范围可以为(±0.9-0.99)，W2的取值范围可以为(±0.01-0.1)。

S504，将所述第二模型识别出的针对所述待加强词汇的识别结果替换所述第一模型识别出的针对所述待加强词汇的识别结果，得到所述最终识别结果。

具体实现中，可以选择最高的最终得分的识别结果，针对该识别结果，根据待加强词<s>word</s>的标识符进行替换，得到最终识别结果。例如，如果识别结果中包括“店”，则将“店”替换为“殿”。

如图6所示，图6是本申请实施例提供的一种语音识别装置的结构示意图。本申请实施例中的装置至少包括：

处理模块601，用于提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇。

处理模块601，还用于当所述第一模型无法识别所述语音信号流中的语言词汇时，根据所述语言词汇所属的领域类型加载第二模型，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇。

确定模块602，用于根据所述第一得分和所述第二得分，确定最终识别结果。

可选的，将所述第二模型识别出的针对所述待加强词汇的识别结果替换所述第一模型识别出的针对所述待加强词汇的识别结果，得到所述最终识别结果。具体的，可以选择最高的最终得分的识别结果，针对该识别结果，根据待加强词<s>word</s>的标识符进行替换，得到最终识别结果。例如，如果识别结果中包括“店”，则将“店”替换为“殿”。

请参见图7，图7是本申请实施例提供的一种语音识别设备的结构示意图。如图所示，该设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704。

其中，处理器701可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。通信总线704可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信总线704用于实现这些组件之间的连接通信。其中，本申请实施例中设备的通信接口702用于与其他节点设备进行信令或数据的通信。存储器703可以包括易失性存储器，例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory，NVRAM)、相变化随机存取内存(PhaseChange RAM，PRAM)、磁阻式随机存取内存(Magetoresistive RAM，MRAM)等，还可以包括非易失性存储器，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、闪存器件，例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件，例如固态硬盘(SolidState Disk，SSD)等。存储器703可选的还可以是至少一个位于远离前述处理器701的存储装置。存储器703中存储一组程序代码，且处理器701执行存储器703中的程序：

根据所述第一得分和所述第二得分，确定最终识别结果。

其中，所述第一模型的词表包括特殊标识符，

可选的，处理器701还用于执行如下操作步骤：

确定所述语言词汇所属的领域类型对应的特殊标识符；

可选的，处理器701还用于执行如下操作步骤：

计算所述第一得分和所述第二得分的加权平均值；

根据所述加权平均值，确定所述最终识别结果。

可选的，处理器701还用于执行如下操作步骤：

进一步的，处理器还可以与存储器和通信接口相配合，执行上述申请实施例中语音识别设备执行的操作。

本申请实施例还提供了一种芯片系统，该芯片系统包括处理器，用于支持网络设备或终端设备以实现上述任一实施例中所涉及的功能，例如生成或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还可以包括存储器，所述存储器，用于语音识别设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

本申请实施例还提供了一种处理器，用于与存储器耦合，用于执行上述各实施例中任一实施例中涉及语音识别设备的任意方法和功能。

本申请实施例还提供了一种包含指令的计算机程序产品，其在计算机上运行时，使得计算机执行上述各实施例中任一实施例中涉及语音识别设备的任意方法和功能。

本申请实施例还提供了一种装置，用于执行上述各实施例中任一实施例中涉及语音识别设备的任意方法和功能。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，应用于语音识别系统，所述语音识别系统集成多个领域模型，所述领域模型用于识别领域说法的词汇，所述语音识别系统包括第一模型和第二模型，所述第一模型包括第一常用语言模型和第一重打分语言模型，所述第二模型包括第二领域语言模型和第二重打分语言模型，所述第二领域语言模型由领域场景中所述第一模型未登录的词集合以及所述第一模型中待加强词汇的集合构成，所述第二重打分语言模型由领域场景中所述第一模型未登录的词集合和指定句式造句生成，用于对所述第二领域语言模型的识别结果进行重打分以加强领域说法的识别，所述方法包括：

提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇，所述第一模型的词表包括特殊标识符；

当所述第一模型无法识别所述语音信号流中的语言词汇时，确定所述语言词汇所属的领域类型对应的特殊标识符，根据所述特殊标识符，从预设的所述多个领域模型查找第二模型并进行加载，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇；

根据所述第一得分和所述第二得分，将所述第二模型识别出的针对所述待加强词汇的识别结果替换所述第一模型识别出的针对所述待加强词汇的识别结果，确定最终识别结果。

2.如权利要求1所述的方法，其特征在于，所述第一常用语言模型为根据二元语言模型生成的，所述第一重打分语言模型为根据五元语言模型生成的；

3.如权利要求1所述的方法，其特征在于，所述第二领域语言模型为根据一元语言模型生成的；

4.如权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一得分和所述第二得分，确定最终识别结果包括：

计算所述第一得分和所述第二得分的加权平均值；

根据所述加权平均值，确定所述最终识别结果。

5.一种语音识别装置，其特征在于，应用于语音识别系统，所述语音识别系统集成多个领域模型，所述领域模型用于识别领域说法的词汇，所述语音识别系统包括第一模型和第二模型，所述第一模型包括第一常用语言模型和第一重打分语言模型，所述第二模型包括第二领域语言模型和第二重打分语言模型，所述第二领域语言模型由领域场景中所述第一模型未登录的词集合以及所述第一模型中待加强词汇的集合构成，所述第二重打分语言模型由领域场景中所述第一模型未登录的词集合和指定句式造句生成，用于对所述第二领域语言模型的识别结果进行重打分以加强领域说法的识别，所述装置包括：

处理模块，用于提取语音信号流的特征输入到第一模型中得到第一识别结果，并确定所述第一识别结果的第一得分，所述第一模型用于识别通用说法的词汇，所述第一模型的词表包括特殊标识符；

所述处理模块，还用于当所述第一模型无法识别所述语音信号流中的语言词汇时，确定所述语言词汇所属的领域类型对应的特殊标识符，根据所述特殊标识符，从预设的所述多个领域模型查找第二模型并进行加载，将所述语言词汇输入到所述第二模型得到第二识别结果，并确定所述第二识别结果的第二得分，所述第二模型用于识别领域说法的词汇；

确定模块，用于根据所述第一得分和所述第二得分，将所述第二模型识别出的针对所述待加强词汇的识别结果替换所述第一模型识别出的针对所述待加强词汇的识别结果，确定最终识别结果。

6.如权利要求5所述的装置，其特征在于，

所述确定模块，还用于计算所述第一得分和所述第二得分的加权平均值；根据所述加权平均值，确定所述最终识别结果。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-4任一项所述的方法。