CN111524517B

CN111524517B - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN111524517B
Application number: CN202010595832.8A
Authority: CN
Inventors: 连荣忠; 姜迪; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-11-03
Anticipated expiration: 2040-06-24
Also published as: CN111524517A

Abstract

本申请公开了一种语音识别方法、装置、设备和存储介质，所述方法包括：获取待识别语音数据，确定所述待识别语音数据的候选文本以及所述候选文本的上文文本数据；从所述候选文本中提取辅助文本；基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出。本申请解决现有技术中语音识别准确性低的技术问题。

Description

语音识别方法、装置、设备及存储介质

技术领域

本申请涉及金融科技(Fintech)的人工智能技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术应用在金融领域，但金融业也对技术提出了更高的要求，如金融业对语音识别也有更高的要求。

目前，一般采用传统的ASR(自动语音识别技术，Automatic Speech Recognition)算法中的语言模型，对当前需要处理的对话场景内容进行解码识别等处理，只是对当前需要处理的对话场景内容等进行解码识别处理具有很强的局限性，如使得模型解码出来的内容有偏差，降低了语音识别的准确性。

发明内容

本申请的主要目的在于提供一种语音识别方法、装置、设备和存储介质，旨在解决现有技术中语音识别准确性差的技术问题。

为实现上述目的，本申请提供一种语音识别方法，所述语音识别方法包括：

获取待识别语音数据，确定所述待识别语音数据的候选文本以及所述候选文本的上文文本数据；

从所述候选文本中提取辅助文本；

基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出。

可选地，所述基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出的步骤，包括：

将所述上文文本数据与所述辅助文本，输入至预设识别模型中，以对所述上文文本数据与所述辅助文本进行识别处理，得到所述候选文本的输出文本并输出。

其中，所述预设识别模型，是基于具有预设标签的预设文本数据，对预设基础模型进行迭代训练后，达到预设训练条件的目标模型。

可选地，所述预设识别模型，是基于具有预设标签的预设文本数据，基于第一预设注意力机制对预设基础模型进行迭代训练后，达到预设训练条件的目标模型。

对所述上文文本数据与所述辅助文本进行预设向量的编码处理，得到所述上文文本数据与所述辅助文本的编码向量；

通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量；

基于所述解码向量，从所述候选文本中提取输出文本并输出。

可选地，所述基于所述解码向量，从所述候选文本中提取输出文本并输出的步骤，包括：

基于所述解码向量，得到所述候选文本中的每个文本的向量值；

基于所述向量值的高低，从所述候选文本中提取输出文本并输出。

可选地，所述通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量的步骤包括：

通过第二预设注意力机制，对所述候选文本的编码向量进行定向选择，得到所述候选文本的候选向量；

通过预设解码规则，对所述候选文本的候选向量进行解码处理，得到所述候选文本的解码向量。

可选地，所述从所述候选文本中提取辅助文本的步骤，包括：

统计所述候选文本中各个词语的频次；

选取频次大于预设值的词语作为所述辅助文本。

本申请还提供一种语音识别装置，所述语音识别装置包括：

获取模块，用于获取待识别语音数据，确定所述待识别语音数据的候选文本以及所述候选文本的上文文本数据；

第一提取模块，用于从所述候选文本中提取辅助文本；

第二提取模块，用于基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出。

可选地，所述第二提取模块包括：

输入单元，用于将所述上文文本数据与所述辅助文本，输入至预设识别模型中，以对所述上文文本数据与所述辅助文本进行识别处理，得到所述候选文本的输出文本并输出；

可选地，所述第二提取模块包括：

编码单元，用于对所述上文文本数据与所述辅助文本进行预设向量的编码处理，得到所述上文文本数据与所述辅助文本的编码向量；

解码单元，用于通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量；

提取单元，用于基于所述解码向量，从所述候选文本中提取输出文本并输出。

可选地，所述提取单元用于实现：

可选地，所述解码单元用于实现：

可选地，所述第一提取模块包括：

统计单元，用于统计所述候选文本中各个词语的频次；

选取单元，用于选取频次大于预设值的词语作为所述辅助文本。

本申请还提供一种语音识别设备，所述语音识别设备为实体设备，所述语音识别设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述语音识别方法的程序，所述语音识别方法的程序被处理器执行时可实现如上述的语音识别方法的步骤。

本申请还提供一种存储介质，所述存储介质上存储有实现上述语音识别方法的程序，所述语音识别方法的程序被处理器执行时实现如上述的语音识别方法的步骤。

本申请通过获取待识别语音数据，确定所述待识别语音数据的候选文本以及所述候选文本的上文文本数据；从所述候选文本中提取辅助文本；基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出。在本申请中，在获取待识别语音数据后，确定所述待识别语音数据的候选文本，并获取所述候选文本的上文文本数据，进而，从所述候选文本中提取辅助文本，联合上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出，也即，在本申请中，不只是从当前待识别语音数据的候选文本中解码识别得到输出文本，而是从候选句子(集体决策得到)中选出辅助词即是选出集体决策后的辅助词，联合上文文本数据(利于提升准确性)与所述集体决策后的辅助文本(利于提升准确性)，从所述候选文本中提取输出文本并输出，因而，提升了语言识别的准确性，解决了现有技术中语音识别准确性低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请语音识别方法第一实施例的流程示意图；

图2为本申请语音识别方法第一实施例中从所述候选文本中提取辅助文本的细化步骤流程示意图；

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图；

图4为本申请语音识别方法的场景示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种语音识别方法，在本申请语音识别方法的第一实施例中，参照图1，所述语音识别方法包括：

步骤S10，获取待识别语音数据，确定所述待识别语音数据的候选文本以及所述候选文本的上文文本数据；

步骤S20，从所述候选文本中提取辅助文本；

步骤S30，基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出。

具体步骤如下：

在本实施例中，需要说明的是，语音识别方法应用于语音识别系统，该语音识别系统从属于语音识别设备，对于语音识别系统而言，是与语音平台进行通信的，例如，语音平台中存在这样的日常音频对话，说话人A：“你有没有看昨天晚上的CBA，广东队大比分赢了对手；说话人B：“看了，比赛非常精彩，易建联得到MVP名副其实”，若对应的待识别语音数据为：“易建联”，现有技术中，通过预设已经训练好的ASR模型对说话人B的待识别语音数据如“看了，比赛非常精彩，易建联得到MVP名副其实”进行识别，如使用n-gram模型“看了，比赛非常精彩，易建联得到MVP名副其实”进行建模处理，现有技术使用n-gram模型在解码时，不会获取说话人A：“你有没有看昨天晚上的CBA，广东队大比分赢了对手”的内容，事实上，“CBA”跟“广东队”对于解码出“易建联”这个词更能起到作用，因此，使用传统的n-gram模型对于对话场景下的ASR具有很强的局限性，会使得模型解码出来的内容有偏差。

在本实施例中，语音识别系统在接收到待识别语音数据后，确定所述待识别语音数据的候选文本以及所述候选文本的上文文本数据。其中，对于语音识别系统而言，是与语音平台进行通信的，如语音平台可以包括电话催收客服子平台，以对每个电话催收员的电话催收内容进行录音，并得到录音内容，将录音内容设为待识别语音数据，并发送到语音识别系统中，语音识别系统在接收到待识别语音数据后，确定所述待识别语音数据的候选文本以及所述候选文本的上文文本数据。具体地，通过使用预设已经训练好的ASR模型(如预设DNN-HMM/CTC模型)，对待识别语音数据进行解码，得到N个候选句子，如D1，D2，…，DN，需要说明的是，该候选文本还可以是结合当前热点后基于已经训练好的ASR模型得到的候选句子，在本实施例中，在得到候选文本后，还获取所述候选文本的上文文本数据，该候选文本的上文文本数据可以是设置的预设历史时间段内的上文文本数据，另外，该候选文本的上文文本数据也可以是候选文本对应的预设句数的上文文本数据。例如，若存在对话：说话人A：“你有没有看昨天晚上的CBA，广东队大比分赢了对手”；说话人B：“看了，比赛非常精彩，易建联得到MVP名副其实”，“看了，比赛非常精彩，易建联得到MVP名副其实”若为待识别语音数据，则上文文本数据包括“你有没有看昨天晚上的CBA，广东队大比分赢了对手”。

步骤S20，从所述候选文本中提取辅助文本；

在本实施例中，结合了当前语境从所述候选文本中提取输出文本，提升了识别的准确性。

具体地，从所述候选文本中通过预设提取策略提取辅助文本，预设提取策略可以是词语权重策略等，即是通过候选文本中各个文本的权重(是预先已经确定的)提取辅助文本。

其中，参照图2，所述从所述候选文本中提取辅助文本的步骤，包括：

步骤S21，统计所述候选文本中各个词语的频次；

步骤S22，选取频次大于预设值的词语作为所述辅助文本。

在本实施例中，通过预设特征抽取(Feature Extractor)单元，统计在N个候选句子中各个词的频次，选取频次大于预设值的词语作为所述辅助文本C，如图4所示。

在得到辅助文本后，基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出。

其中，所述基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出的步骤，包括：

步骤S31，将所述上文文本数据与所述辅助文本，输入至预设识别模型中，以对所述上文文本数据与所述辅助文本进行识别处理，得到所述候选文本的输出文本并输出；

在本实施例中，将所述上文文本数据与所述辅助文本，输入至预设识别模型中，以对所述上文文本数据与所述辅助文本进行识别处理，得到所述候选文本的输出文本并输出，具体地，预设识别模型包括Seq2Seq(序列到序列，包括RNN网络结构，在对话领域常被用来建模对话上下文的映射关系)模型以及预设的端到端模型，将所述上文文本数据与所述辅助文本输入至Seq2Seq模型中，以对所述上文文本数据与所述辅助文本进行识别处理，得到所述候选文本的输出文本并输出。

所述预设识别模型，是基于具有预设标签的预设文本数据，对预设基础模型进行迭代训练后，达到预设训练条件的目标模型，具体地，获取具有预设标签的预设文本数据，对预设基础模型进行迭代训练，以调整预设基础模型(包括RNN网络结构)中的模型参数(通过预设文本数据的预测结果与预设标签进行比对后的比对结果确定)，直至达到预设条件如迭代次数达到预设次数，或者是模型收敛，得到目标模型，需要说明的是，预设基础模型中可以包括预设编码子模型(用于将文本数据中每个文本用预设维度的向量表示)以及预设解码子模型(用于确定整个文本数据的向量)。当预设基础模型中包括预设编码子模型以及预设解码子模型时，需要分别对预设编码子模型以及预设解码子模型进行预设训练后，得到收敛的编码子模型以及收敛的解码子模型。在本实施例中，设置编码子模型以及解码子模型的作用在于：便于引入其他机制如注意力机制等处理文本数据。

在本实施例中，需要说明的是，将所述上文文本数据与所述辅助文本，输入至预设识别模型中(如图4，包括预设编码子模型(encoding module)以及预设解码子模型(decodind module)后，对所述上文文本数据与所述辅助文本分别进行编码处理，最后整合得到输出文本，具体地，将所述上文文本数据U输入至预设识别模型中的编码子模型中，得到编码上文文本将所述辅助文本输入至预设识别模型中的编码子模型中，得到编码辅助文本/>将所述编码上文文本/>和所述编码辅助文本/>联合输入至预设解码子模型中(需要说明的是，还可以将编码上文文本/>和所述编码辅助文本/>联合输入至中间处理层，得到中间处理结果后，输入至预设解码子模型中)，具体地，通过预设解码子模型，可以对于每个候选文本进行打分(通过编码向量综合得到)，得到对应的分数score1,score2,…,scoreN,选取分数最高的一个作为输出文本。

其中，所述预设识别模型，是基于具有预设标签的预设文本数据，基于第一预设注意力机制对预设基础模型进行迭代训练后，达到预设训练条件的目标模型。

在本实施例中，引入第一注意力机制，基于第一预设注意力机制对预设基础模型进行迭代训练后，达到预设训练条件的目标模型。

其中，注意力机制(Attention Mechanism)(图4中的Attention module)是人为选择性地关注所有信息的一部分，同时忽略其他可见的信息。也即，为了合理利用有限的信息处理资源，需要选择区域中的特定部分，然后集中关注，例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。即注意力机制主要有两个方面：决定需要关注输入的哪部分，分配有限的信息处理资源给重要的部分。

在本实施例中，通过第一注意力机制的引入，有注意力方向地对预设基础模型的模型参数进行调整，具体地，在本实施例中，通过第一注意力机制的引入，有注意力方向地对预设解码子模型或者预设编码子模型的模型参数进行调整，以集中关注，其中，基于第一注意力机制中的注意力方向可以指的是神经网络结构中各个矩阵之间连接权重的调整方向等。另外，需要说明的是，通过采用“编码-解码”的方式进行候选文本等数据的输出有两个问题：即候选文本所有的信息都需要保存在编码向量中，才能进行有效地解码；二是长距离依赖问题，即编码和解码过程中在长距离信息传递中的信息丢失问题。通过引入预设第一注意力机制，在解码过程中，通过预设第一注意力机制直接从候选文本中选择相关的信息作为辅助。无需让所有的候选文本信息都通过编码向量进行传递，且可以直接传递，缩短了信息传递的距离。

在本实施例中，基于具有预设标签的预设文本数据，基于第一预设注意力机制对预设基础模型进行迭代训练后，达到预设训练条件的目标模型。可以提升得到需要的输出文本的效率与准确性。

进一步地，基于本申请中第一实施例，在本申请的另一实施例中，所述基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出的步骤，包括：

步骤A1，对所述上文文本数据与所述辅助文本进行预设向量的编码处理，得到所述上文文本数据与所述辅助文本的编码向量；

在本实施例中，提供另外一种不通过模型而得到输出文本的方式，具体地，通过预设向量编码规则直接对所述上文文本数据与所述辅助文本进行预设向量如包括词向量，以及预设欧式距离向量等的编码处理，得到所述上文文本数据与所述辅助文本的编码向量。

步骤A2，通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量；

在本实施例中，在得到所述上文文本数据与所述辅助文本的编码向量后，通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量，该预设解码规则可以是各个编码向量之间的向量加和规则。

步骤A3，基于所述解码向量，从所述候选文本中提取输出文本并输出。

基于所述解码向量，从所述候选文本中提取输出文本并输出，具体地，基于所述解码向量中各个候选文本的向量值的大小，从所述候选文本中提取输出文本并输出。

本实施例通过对所述上文文本数据与所述辅助文本进行预设向量的编码处理，得到所述上文文本数据与所述辅助文本的编码向量；通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量；基于所述解码向量，从所述候选文本中提取输出文本并输出。在本实施例中，准确得到输出文本。

进一步地，基于本申请中第一实施例和第二实施例，所述通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量的步骤包括：

步骤B1，通过第二预设注意力机制，对所述候选文本的编码向量进行定向选择，得到所述候选文本的候选向量；

在本实施例中，通过第二预设注意力机制，对所述候选文本的编码向量进行定向选择如只获取编码向量中的欧式距离向量，得到所述候选文本的候选向量。

步骤B2，通过预设解码规则，对所述候选文本的候选向量进行解码处理，得到所述候选文本的解码向量。

通过预设解码规则如通过将所有词性向量加和处理，对所述候选文本的候选向量进行解码处理，得到所述候选文本的解码向量。

所述基于所述解码向量，从所述候选文本中提取输出文本并输出的步骤，包括：

步骤E1，基于所述解码向量，得到所述候选文本中的每个文本的向量值；

步骤E2，基于所述向量值的高低，从所述候选文本中提取输出文本并输出。

在本实施例中，基于所述解码向量，得到所述候选文本中的每个文本的向量值，具体地，基于所述解码向量与向量值的关联关系计算得到所述候选文本中的每个文本的向量值，基于所述向量值的高低，对候选文本中每个文本进行排序，提取排序最高的输出文本并输出。

本实施例通过第二预设注意力机制，对所述候选文本的编码向量进行定向选择，得到所述候选文本的候选向量；通过预设解码规则，对所述候选文本的候选向量进行解码处理，得到所述候选文本的解码向量。在本实施例中，实现准确获取解码向量，为准确获取输出文本并输出奠定基础。

参照图3，图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该语音识别设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该语音识别设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的语音识别设备结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块以及语音识别程序。操作系统是管理和控制语音识别设备硬件和软件资源的程序，支持语音识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与语音识别系统中其它硬件和软件之间通信。

在图3所示的语音识别设备中，处理器1001用于执行存储器1005中存储的语音识别程序，实现上述任一项所述的语音识别方法的步骤。

本申请语音识别设备具体实施方式与上述语音识别方法各实施例基本相同，在此不再赘述。

本申请还提供一种语音识别装置，所述语音识别装置包括：

第一提取模块，用于从所述候选文本中提取辅助文本；

可选地，所述第二提取模块包括：

可选地，所述提取单元用于实现：

可选地，所述解码单元用于实现：

可选地，所述第一提取模块包括：

统计单元，用于统计所述候选文本中各个词语的频次；

本申请语音识别装置的具体实施方式与上述语音识别方法各实施例基本相同，在此不再赘述。

本申请实施例提供了一种存储介质，且所述存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的语音识别方法的步骤。

本申请存储介质具体实施方式与上述语音识别方法各实施例基本相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围内。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括：

从所述候选文本中提取辅助文本；

将所述上文文本数据与所述辅助文本，输入至预设识别模型中，以对所述上文文本数据与所述辅助文本进行识别处理，得到所述候选文本的输出文本并输出，其中，所述预设识别模型基于第一预设注意力机制训练得到；或

基于所述解码向量，从所述候选文本中提取输出文本并输出，其中，所述候选文本的解码向量通过第二预设注意力机制，对所述候选文本的编码向量进行定向选择得到。

2.如权利要求1所述语音识别方法，其特征在于，所述预设识别模型，是基于具有预设标签的预设文本数据，基于第一预设注意力机制对预设基础模型进行迭代训练后，达到预设训练条件的目标模型。

3.如权利要求1所述语音识别方法，其特征在于，所述基于所述解码向量，从所述候选文本中提取输出文本并输出的步骤，包括：

4.如权利要求1所述语音识别方法，其特征在于，所述通过预设解码规则，对所述上文文本数据与所述辅助文本的编码向量进行解码处理，得到所述候选文本的解码向量的步骤包括：

5.如权利要求1所述语音识别方法，其特征在于，所述从所述候选文本中提取辅助文本的步骤，包括：

统计所述候选文本中各个词语的频次；

选取频次大于预设值的词语作为所述辅助文本。

6.一种语音识别装置，其特征在于，所述语音识别装置包括：

第一提取模块，用于从所述候选文本中提取辅助文本；

第二提取模块，用于基于所述上文文本数据与所述辅助文本，从所述候选文本中提取输出文本并输出，所述第二提取模块将所述上文文本数据与所述辅助文本，输入至预设识别模型中，以对所述上文文本数据与所述辅助文本进行识别处理，得到所述候选文本的输出文本并输出，其中，所述预设识别模型基于第一预设注意力机制训练得到；或

7.一种语音识别设备，其特征在于，所述语音识别设备包括：存储器、处理器以及存储在存储器上的用于实现所述语音识别方法的程序，

所述存储器用于存储实现语音识别方法的程序；

所述处理器用于执行实现所述语音识别方法的程序，以实现如权利要求1至5中任一项所述语音识别方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有实现语音识别方法的程序，所述实现语音识别方法的程序被处理器执行以实现如权利要求1至5中任一项所述语音识别方法的步骤。