CN111862953B

CN111862953B - 语音识别模型的训练方法、语音识别方法及装置

Info

Publication number: CN111862953B
Application number: CN201911240191.8A
Authority: CN
Inventors: 蒋栋蔚
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-08-22
Anticipated expiration: 2039-12-05
Also published as: CN111862953A

Abstract

本发明提供了一种语音识别模型的训练方法、语音识别方法及装置，涉及语音识别的技术领域，该语音识别模型的训练方法包括：获取包括多个语音序列的语音样本集，对语音样本集中的多个语音序列进行帧计算，以提取语音序列的Fbank特征向量，对Fbank特征向量进行降采样处理和掩码运算，生成掩码特征向量；将掩码特征向量输入至预训练模型，以完成语音识别模型的预训练过程。本发明提供的语音识别模型的训练方法、语音识别方法及装置，在训练过程中，由于使用的是无标注语音序列，大大减少了语音识别模型的训练过程中对标注数据的依赖，在保证识别效果的同时，也降低了使用成本。

Description

语音识别模型的训练方法、语音识别方法及装置

技术领域

本发明涉及语音识别的技术领域，尤其是涉及一种语音识别模型的训练方法、语音识别方法及装置。

背景技术

近年来，随着深度学习技术的发展，语音识别技术也经历了革命性的变化，从深度学习技术的发展中汲取营养，也一直是语音识别技术取得突破的途径。但是，通过深度学习技术对语音识别模型进行训练时，为了得到更为准确的识别效果，通常需要大量昂贵的标注数据，这对于工业界语音识别系统提出了很大的挑战，不仅提高了使用成本，也难以进行大范围推广。

发明内容

有鉴于此，本发明的目的在于提供一种语音识别模型的训练方法、语音识别方法及装置，以缓解上述技术问题。

第一方面，本发明实施例提供了一种语音识别模型的训练方法，该语音识别模型为Transformer结构的模型，包括编码器和解码器，编码器包括多个编码层，解码器包括多个解码层，编码器和掩蔽预测编码MPC层构成语音识别模型的预训练模型，该方法包括：获取包括多个语音序列的语音样本集，对语音样本集中的多个语音序列进行帧计算，以提取语音序列的Fbank特征向量，其中，语音样本集中包括的多个语音序列为无标注语音序列；对Fbank特征向量进行指定倍数的降采样处理，生成Fbank特征向量对应的降采样特征向量；对降采样特征向量做掩码运算，生成掩码特征向量；将掩码特征向量输入至预训练模型，通过预训练模型的编码器和MPC层输出Fbank特征向量对应的预测向量；计算预测向量与Fbank特征向量的损失函数，根据损失函数调整语音识别模型中编码器的参数，继续训练调整参数后的语音识别模型，直至损失函数收敛至预设值，完成语音识别模型的预训练过程。

在一种可能的实施方式中，上述预训练过程完成之后，语音识别模型的编码器与解码器构成语音识别模型的微调模型，上述方法还包括：将语音序列的Fbank特征向量输入至微调模型，以对语音识别模型的参数进行微调处理。

在一种可能的实施方式中，上述对语音样本集中的多个语音序列进行帧计算，以提取语音序列的Fbank特征向量的步骤包括：将无标注语音序列输入至预先设置的特征提取系统，通过特征提取系统对无标注语音序列进行帧计算，以提取语音序列的Fbank特征向量。

在一种可能的实施方式中，上述对Fbank特征向量进行指定倍数的降采样处理，生成Fbank特征向量对应的降采样特征向量的步骤包括：对Fbank特征向量依次选取指定倍数的一组帧数；对于每组帧数，随机选取其中指定个数的帧，将每组帧数中选取的指定个数的帧进行组合，以生成Fbank特征向量对应的降采样特征向量；其中，指定个数小于指定倍数。

在一种可能的实施方式中，上述指定倍数为8倍，指定个数为1。

在一种可能的实施方式中，上述对降采样特征向量做掩码计算，生成掩码特征向量的步骤包括：遍历降采样特征向量的每一帧；按照预设的随机函数对降采样特征向量的每一帧分别计算随机数，如果随机数小于预设的随机值，将该帧对应的向量值置为0。

在一种可能的实施方式中，上述损失函数为L1损失函数。

第二方面，本发明实施例提供了一种语音识别方法，该方法通过语音识别模型实现，语音识别模型为根据第一方面的方法训练得到的，该方法包括：获取待识别语音；将待识别语音输入至训练好的语音识别模型，通过语音识别模型输出待识别语音对应的文字识别结果。

第三方面，本发明实施例提供了一种语音识别模型的训练装置，该语音识别模型为Transformer结构的模型，包括编码器和解码器，编码器包括多个编码层，解码器包括多个解码层，编码器和掩蔽预测编码MPC层构成语音识别模型的预训练模型，该装置包括：样本获取模块，用于获取包括多个语音序列的语音样本集，对语音样本集中的多个语音序列进行帧计算，以提取语音序列的Fbank特征向量，其中，语音样本集中包括的多个语音序列为无标注语音序列；降采样模块，用于对Fbank特征向量进行指定倍数的降采样处理，生成Fbank特征向量对应的降采样特征向量；掩码模块，用于对降采样特征向量做掩码运算，生成掩码特征向量；输入模块，用于将掩码特征向量输入至预训练模型，通过预训练模型的编码器和MPC层输出Fbank特征向量对应的预测向量；训练模块，用于计算预测向量与Fbank特征向量的损失函数，根据损失函数调整语音识别模型中编码器的参数，继续训练调整参数后的语音识别模型，直至损失函数收敛至预设值，完成语音识别模型的预训练过程。

在一种可能的实施方式中，上述预训练过程完成之后，语音识别模型的编码器与解码器构成语音识别模型的微调模型，装置还包括：微调模块，用于将语音序列的Fbank特征向量输入至微调模型，以对语音识别模型的参数进行微调处理。

在一种可能的实施方式中，上述样本获取模块还用于：将无标注语音序列输入至预先设置的特征提取系统，通过特征提取系统对无标注语音序列进行帧计算，以提取语音序列的Fbank特征向量。

在一种可能的实施方式中，上述降采样模块用于：对Fbank特征向量依次选取指定倍数的一组帧数；对于每组帧数，随机选取其中指定个数的帧，将每组帧数中选取的指定个数的帧进行组合，以生成Fbank特征向量对应的降采样特征向量；其中，指定个数小于指定倍数。

在一种可能的实施方式中，上述掩码模块用于：遍历降采样特征向量的每一帧；按照预设的随机函数对降采样特征向量的每一帧分别计算随机数，如果随机数小于预设的随机值，将该帧对应的向量值置为0。

在一种可能的实施方式中，上述损失函数为L1损失函数。

第四方面，本发明实施例提供了一种语音识别装置，该装置通过语音识别模型实现，语音识别模型为根据第一方面的方法训练得到的，该装置包括：语音获取模块，用于获取待识别语音；识别模块，用于将待识别语音输入至训练好的语音识别模型，通过语音识别模型输出待识别语音对应的文字识别结果。

第五方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一和第二方面所述方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一和第二方面所述方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的语音识别模型的训练方法、语音识别方法及装置，在对语音识别模型进行训练时，获取的语音样本集中包括的多个语音序列为无标注语音序列，通过对语音样本集中的多个语音序列进行帧计算，可以提取语音序列的Fbank特征向量，并对Fbank特征向量进行降采用处理，以及对降采样处理后得到的降采样特征向量做掩码运算，可以生成掩码特征向量，将该掩码特征向量输入至预训练模型之后，可以得到预测向量，进而计算该预测向量与Fbank特征向量的损失函数，根据该损失函数调整语音识别模型中编码器的参数，实现对语音识别模型的预训练过程，在训练过程中，由于使用的是无标注语音序列，大大减少了语音识别模型的训练过程中对标注数据的依赖，在保证识别效果的同时，也降低了使用成本。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的架构示意图；

图2为本发明实施例提供的一种语音识别模型的训练方法的流程图；

图3为本发明实施例提供的一种预训练模型和微调模型的结构示意图；

图4为本发明实施例提供的另一种语音识别模型的训练方法的流程图；

图5为本发明实施例提供的一种语音识别方法的流程图；

图6为本发明实施例提供的一种语音识别模型的训练装置的结构示意图；

图7为本发明实施例提供的另一种语音识别模型的训练装置的结构示意图；

图8为本发明实施例提供的一种语音识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音识别模型的应用越来越广泛，目前，语音识别模型已经应用到网约车领域，对司乘通话过程进行识别。通常，网约车每天都会产生千万数量级的订单，在这些订单里不可避免的会产生切单(司机把乘客的打车订单转给其他公司)和司机要求线下交易(司机绕开平台直接交易逃避平台服务费)的情况，在这些反作弊的应用场景中，主要使用的是行程前司乘通话的数据，具体地，先用语音识别模型将司机和乘客的对话转化成文本，再使用自然语言理解的方法在这些文本中提取司乘双方的意图并进行判责，因此，对语音识别模型的准确性要求也越来越高。

但是，司乘通话的特点是语音质量较差，导致标注困难，使得标注数据积累的非常少。而现有语音识别技术依赖于大量的标注数据，在数据很少的情况下，语音识别模型效果很差。但是，网约车使用场景对识别字准的要求非常高，因为假如语音识别的字准不能达到一个很高的水平，对后续的自然语言理解的效果也会造成很大的影响，最终会造成司乘判责不准确的问题，而大量的标注数据也会大大提高了使用成本，难以进行大范围推广。

基于此，本发明实施例提供的一种语音识别模型的训练方法、语音识别方法及装置，缓解上述技术问题。

为便于对本实施例进行理解，下面对本申请实施例提供的一种语音识别模型的训练方法进行详细介绍。

图1示出可以实现本申请的一些实施例的电子设备100的示例性硬件和软件组件的示意图。该电子设备100可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的语音识别模型的训练方法。

电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的装置。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

当电子设备运行时，处理器120与存储介质140之间通过通信总线130通信，处理器120执行机器可读指令，以实现如下实施例中的语音识别模型的训练方法的步骤，例如：可以通过网络端口110与上位机连接，配置语音识别模型，以及语音识别模型的预训练模型等等，这些配置文件可以被存储在存储介质140，处理器从存储介质140读取该指定客户端的系统文件后，可以在电子设备上运行该语音识别模型的训练方法，进而执行下述实施例的语音识别模型的训练过程。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行，或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

基于上述电子设备的描述，本申请实施例首先描述了一种语音识别模型的训练方法，具体地，该语音识别模型为Transformer结构的模型，包括编码器和解码器，编码器包括多个编码层，解码器包括多个解码层，编码器和掩蔽预测编码MPC层构成语音识别模型的预训练模型。

其中，上述Transformer结构的模型是基于注意力Attention机制，在现有的LAS(Listener、Attender、Speller)端到端构架基础上提出的，一般包括编码器-解码器结构，具体地，Transformer端到端架构中，主要包含实现编码器的神经网络自注意力机制Self-attention，以及实现解码器的神经网络self-attention。对于训练好的语音识别模型，输入语音之后，可输出该语音对应的文字识别结果。

具体地，如图2所示的一种语音识别模型的训练方法的流程图，该方法可以包括以下步骤：

步骤是202，获取包括多个语音序列的语音样本集，对语音样本集中的多个语音序列进行帧计算，以提取语音序列的Fbank特征向量；

其中，本发明实施例中语音样本集中包括的多个语音序列为无标注语音序列；

具体地，在训练过程中，该语音样本集相当于是一个语音数据集，且，该语音数据集中的语音数据是无标注的语音数据，因此，可以搜集大量开源的普通话数据集做为数据集中的样本数据，此外，为了提高语音样本集的普遍适用性，对于网约车领域，还可以通过设置在网约车客户端的语音录音系统来收集大量的司乘语音做为数据集中的样本数据。

进一步，上述Fbank特征向量是基于Filter Bank算法对语音提取Fbank特征的特征向量，一般是对语音进行分帧预处理之后以类似于人耳的方式对音频进行的处理，以提高语音识别的性能。

步骤S204，对Fbank特征向量进行指定倍数的降采样处理，生成Fbank特征向量对应的降采样特征向量；

步骤S206，对降采样特征向量做掩码运算，生成掩码特征向量；

具体地，上述步骤S204中的降采样过程，通常是整数倍的降采样，通过降采样处理，可以适当地减小数据量，以及方便之后对特征向量进行处理。

步骤S208，将掩码特征向量输入至预训练模型，通过预训练模型的编码器和MPC层输出Fbank特征向量对应的预测向量；

具体地，上述MPC(Masked Predictive Coding，掩蔽预测编码)层，主要是用于对Fbank特征进行预测，语音识别模型中，编码器通常是基于神经网络模型的编码器，该MPC层可以在神经网络中，对编码器的认知冗余进行缩减训练，以减少信息的冗余，提高语音识别模型的识别准确性。

步骤S210，计算预测向量与Fbank特征向量的损失函数，根据损失函数调整语音识别模型中编码器的参数，继续训练调整参数后的语音识别模型，直至损失函数收敛至预设值，完成语音识别模型的预训练过程。

具体地，该步骤中，相当于是对语音识别模型的反向传播训练，如果损失函数收敛至预设值，则说明训练完成。此外，还可以设置训练的迭代次数，每训练一次相当于一次迭代训练，如果迭代次数达到预设值，也可以认为损失函数收敛，并视为完成语音识别模型的预训练过程，具体可以根据实际使用情况进行设置，本发明实施例对此不进行限制。

本发明实施例提供的语音识别模型的训练方法，在对语音识别模型进行训练时，获取的语音样本集中包括的多个语音序列为无标注语音序列，通过对语音样本集中的多个语音序列进行帧计算，可以提取语音序列的Fbank特征向量，并对Fbank特征向量进行降采用处理，以及对降采样处理后得到的降采样特征向量做掩码运算，可以生成掩码特征向量，将该掩码特征向量输入至预训练模型之后，可以得到预测向量，进而计算该预测向量与Fbank特征向量的损失函数，根据该损失函数调整语音识别模型中编码器的参数，实现对语音识别模型的预训练过程，在训练过程中，由于使用的是无标注语音序列，大大减少了语音识别模型的训练过程中对标注数据的依赖，在保证识别效果的同时，也降低了使用成本。

通常，上述图2所示的训练过程，通常是预训练过程，在实际使用时，上述预训练过程完成之后，还包括对语音识别模型的微调阶段，具体地，在微调阶段，移除预测编码层，即，移除MPC层，并添加Transformer结构的解码器，以构成语音识别模型的微调模型，因此，上述方法还包括：将语音序列的Fbank特征向量输入至微调模型，以对语音识别模型的参数进行微调处理。

为了便于理解，图3示出了一种预训练模型和微调模型的结构示意图，如图3所示，其中，图3中的(a)为预训练模型，图3中的(b)为微调模型。

具体地，图3中的预训练模型，通过MPC层来预测输入的Fbank特征，具体地，该Fbank特征可以通过预先设置的特征提取系统进行提取，该特征提取系统中集成有相应的Filter Bank算法，以实现Fbank特征的提取过程，并生产Fbank特征向量，因此，图2中所示的提取语音序列的Fbank特征向量的过程可以包括以下过程：将无标注语音序列输入至预先设置的特征提取系统，通过特征提取系统对无标注语音序列进行帧计算，以提取语音序列的Fbank特征向量。

进一步，对于图3中的(b)所示的微调模型，其中的解码器，通常是对语音序列进行识别，以输出该语音序列对应的文字向量，具体地，可采用self-attention实现解码器，解码器的speller结构层收到开始工作指令后开始工作，语音序列对应的高维特征向量输入到self-attention中，输出语音序列对应的文本识别结果。

具体实现时，self-attention机制的操作中，每进行一步操作将会输出一个语音序列对应的文字向量，对应的每一步操作的中间会输出一个中间状态向量，中间状态向量将会与解码器中每一步输出的高维特征向量作为self-attention机制的下一步的输入进行交互操作；同时self-attention的每一步会输出一个对应的权值α1、α2、α3…，然后经过损失函数操作，可得到代表解码器中每一步输出的文字向量在高维特征向量中不同位置重要性的权重值；根据每一步得到权重值对高维特征向量进行加权操作，可得到带有权重的高维特征向量；将带有权重的高维特征向量作为新的高维特征向量H与中间状态向量输入self-attention机制的下一步操作中进行交互；重复上述操作，最终输出语音序列的对应的文字向量。

此外，由于本申请中使用的是无标注语音序列，因此，上述预训练过程相当于是一种无监督训练过程，为了使无监督预训练过程能对下游的语音识别任务带来更大的提升，因此，在无监督预训练时，对数据进行了降采样处理，具体地，在上述图2的基础上，图4示出了另一种语音识别模型的训练方法的流程图，对语音识别模型的训练过程进行详细说明，具体地，包括以下步骤：

步骤S402，获取包括多个语音序列的语音样本集，对语音样本集中的多个语音序列进行帧计算，以提取语音序列的Fbank特征向量；

步骤S404，对Fbank特征向量依次选取指定倍数的一组帧数；

步骤S406，对于每组帧数，随机选取其中指定个数的帧，将每组帧数中选取的指定个数的帧进行组合，以生成Fbank特征向量对应的降采样特征向量；

具体地，上述指定个数小于指定倍数。

上述步骤S404和步骤S406的过程即为降采样处理过程，其中，本发明实施例中，指定倍数为8倍，指定个数为1，因此，在无监督预训练时，通过降采样处理过程对输入的Fbank特征向量做了8倍的降采样处理，即，对于所述Fbank特征向量对应的帧序列，每八帧随机舍去七帧，只保留一帧。

步骤S408，遍历降采样特征向量的每一帧，按照预设的随机函数对降采样特征向量的每一帧分别计算随机数，如果随机数小于预设的随机值，将该帧对应的向量值置为0，以生成掩码特征向量；

在实际使用时，上述随机函数产生的随机数通常是0～100％区间的数值，上述预设的随机值通常取15％，因此，在做掩码计算时，通常是以15％的概率对每一帧降采样后的语音特征做掩码，即将这帧语音特征向量的值置为0，然后按照下述步骤输入至预训练模型。

步骤S410，将掩码特征向量输入至预训练模型，通过预训练模型的编码器和MPC层输出Fbank特征向量对应的预测向量；

步骤S412，计算预测向量与Fbank特征向量的损失函数，根据损失函数调整语音识别模型中编码器的参数，继续训练调整参数后的语音识别模型，直至损失函数收敛至预设值，完成语音识别模型的预训练过程。

在实际使用时，上述损失函数通常为L1损失函数，因此，本发明实施例中通过L1损失函数来计算Fbank特征向量对应的预测向量与Fbank特征向量的差异，并判断是否收敛，在收敛至预设值时，完成语音识别模型的预训练过程。

上述预测向量通常是高维特征向量，即，通过上述预训练模型的编码器的多个编码层，输出的是语音序列的高维特征向量，具体地，上述编码器的编码结构通常采用十二层的结构，对应的特征维度为512维，此外，上述编码器的编码结构还可以根据实际使用情况进行设置，本发明实施例对此不进行限制。

在实际使用时，为了减少对Transformer结构的模型的修改，本发明实施例中，是接使用Fbank特征向量作为编码器的输入及输出。同时，编码器输出的Fbank预测向量的维度同输入的Fbank特征向量的维度相同。进一步，在上述无监督预训练完成以后，移除MPC层，并添加Transformer结构的解码器，以对下游的语音识别任务进行微调。在微调阶段，整个模型的所有参数都是端到端可训练的，即图3中，由(a)到(b)的过程。

进一步，基于上述语音识别模型的训练方法，本发明实施例还提供了一种语音识别方法，该方法通过语音识别模型实现，该语音识别模型为根据上述语音识别模型的训练方法训练得到的，如图5所示的一种语音识别方法的流程图，该方法包括以下步骤：

步骤S502，获取待识别语音；

步骤S504，将待识别语音输入至训练好的语音识别模型，通过语音识别模型输出待识别语音对应的文字识别结果。

本发明实施例提供的语音识别方法，是通过语音识别模型实现的，而该语音识别模型在进行训练时，获取的语音样本集中包括的多个语音序列为无标注语音序列，因此，大大减少了语音识别模型的训练过程中对标注数据的依赖，在保证语音识别方法的识别效果的同时，也降低了使用成本。

基于同一发明构思，本申请实施例中还提供了与上述语音识别模型的训练方法对应的语音识别模型的训练装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述语音识别模型的训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

具体地，图6示出了一种语音识别模型的训练装置的结构示意图，该装置包括：

样本获取模块60，用于获取包括多个语音序列的语音样本集，对语音样本集中的多个语音序列进行帧计算，以提取语音序列的Fbank特征向量，其中，语音样本集中包括的多个语音序列为无标注语音序列；

降采样模块62，用于对Fbank特征向量进行指定倍数的降采样处理，生成Fbank特征向量对应的降采样特征向量；

掩码模块64，用于对降采样特征向量做掩码运算，生成掩码特征向量；

输入模块66，用于将掩码特征向量输入至预训练模型，通过预训练模型的编码器和MPC层输出Fbank特征向量对应的预测向量；

训练模块68，用于计算预测向量与Fbank特征向量的损失函数，根据损失函数调整语音识别模型中编码器的参数，继续训练调整参数后的语音识别模型，直至损失函数收敛至预设值，完成语音识别模型的预训练过程。

进一步，预训练过程完成之后，上述语音识别模型的编码器与解码器构成语音识别模型的微调模型，因此，在上述图6的基础上，图7还示出了另一种语音识别模型的训练装置的结构示意图，除图6所示的结构外，上述装置还包括：

微调模块70，用于将语音序列的Fbank特征向量输入至微调模型，以对语音识别模型的参数进行微调处理。

进一步的，上述样本获取模块还用于：将无标注语音序列输入至预先设置的特征提取系统，通过特征提取系统对无标注语音序列进行帧计算，以提取语音序列的Fbank特征向量。

进一步的，上述降采样模块用于：对Fbank特征向量依次选取指定倍数的一组帧数；对于每组帧数，随机选取其中指定个数的帧，将每组帧数中选取的指定个数的帧进行组合，以生成Fbank特征向量对应的降采样特征向量；其中，指定个数小于指定倍数。

进一步的，上述指定倍数为8倍，指定个数为1。

进一步的，上述掩码模块用于：遍历降采样特征向量的每一帧；按照预设的随机函数对降采样特征向量的每一帧分别计算随机数，如果随机数小于预设的随机值，将该帧对应的向量值置为0，以生成掩码特征向量。

进一步的，上述损失函数为L1损失函数。

对应于上述语音识别方法，本发明实施例还提出了一种语音识别装置，该装置通过语音识别模型实现，语音识别模型为根据图2或图4所示方法训练得到的，如图8的一种语音识别装置的结构示意图，该装置包括：

语音获取模块80，用于获取待识别语音；

识别模块82，用于将待识别语音输入至训练好的语音识别模型，通过语音识别模型输出待识别语音对应的文字识别结果。

本申请实施例提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置的实施例部分未提及之处，可参考前述方法实施例中相应内容。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法的步骤。

本发明实施例所提供的语音识别模型的训练方法、语音识别方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述语音识别模型为Transformer结构的模型，包括编码器和解码器，所述编码器包括多个编码层，所述解码器包括多个解码层，所述编码器和掩蔽预测编码MPC层构成所述语音识别模型的预训练模型，所述方法包括：

获取包括多个语音序列的语音样本集，对所述语音样本集中的多个所述语音序列进行帧计算，以提取所述语音序列的Fbank特征向量，其中，所述语音样本集中包括的多个语音序列为无标注语音序列；

对所述Fbank特征向量进行指定倍数的降采样处理，生成所述Fbank特征向量对应的降采样特征向量；

对所述降采样特征向量做掩码运算，生成掩码特征向量；

将所述掩码特征向量输入至所述预训练模型，通过所述预训练模型的编码器和MPC层输出所述Fbank特征向量对应的预测向量；

计算所述预测向量与所述Fbank特征向量的损失函数，根据所述损失函数调整所述语音识别模型中所述编码器的参数，继续训练调整参数后的所述语音识别模型，直至所述损失函数收敛至预设值，完成所述语音识别模型的预训练过程。

2.根据权利要求1所述的方法，其特征在于，所述预训练过程完成之后，所述语音识别模型的所述编码器与解码器构成所述语音识别模型的微调模型，所述方法还包括：

将所述语音序列的Fbank特征向量输入至所述微调模型，以对所述语音识别模型的参数进行微调处理。

3.根据权利要求1所述的方法，其特征在于，所述对所述语音样本集中的多个所述语音序列进行帧计算，以提取所述语音序列的Fbank特征向量的步骤包括：

将所述无标注语音序列输入至预先设置的特征提取系统，通过所述特征提取系统对所述无标注语音序列进行帧计算，以提取所述语音序列的Fbank特征向量。

4.根据权利要求1所述的方法，其特征在于，对所述Fbank特征向量进行指定倍数的降采样处理，生成所述Fbank特征向量对应的降采样特征向量的步骤包括：

对所述Fbank特征向量依次选取指定倍数的一组帧数；

对于每组帧数，随机选取其中指定个数的帧，将每组帧数中选取的所述指定个数的帧进行组合，以生成所述Fbank特征向量对应的降采样特征向量；其中，所述指定个数小于所述指定倍数。

5.根据权利要求4所述的方法，其特征在于，所述指定倍数为8倍，所述指定个数为1。

6.根据权利要求4所述的方法，其特征在于，对所述降采样特征向量做掩码计算，生成掩码特征向量的步骤包括：

遍历所述降采样特征向量的每一帧；

按照预设的随机函数对所述降采样特征向量的每一帧分别计算随机数，如果所述随机数小于预设的随机值，将该帧对应的向量值置为0，以生成掩码特征向量。

7.根据权利要求1所述的方法，其特征在于，所述损失函数为L1损失函数。

8.一种语音识别方法，其特征在于，所述方法通过语音识别模型实现，所述语音识别模型为根据权利要求1～7任一项所述的方法训练得到的，所述方法包括：

获取待识别语音；

将所述待识别语音输入至训练好的所述语音识别模型，通过所述语音识别模型输出所述待识别语音对应的文字识别结果。

9.一种语音识别模型的训练装置，其特征在于，所述语音识别模型为Transformer结构的模型，包括编码器和解码器，所述编码器包括多个编码层，所述解码器包括多个解码层，所述编码器和掩蔽预测编码MPC层构成所述语音识别模型的预训练模型，所述装置包括：

样本获取模块，用于获取包括多个语音序列的语音样本集，对所述语音样本集中的多个所述语音序列进行帧计算，以提取所述语音序列的Fbank特征向量，其中，所述语音样本集中包括的多个语音序列为无标注语音序列；

降采样模块，用于对所述Fbank特征向量进行指定倍数的降采样处理，生成所述Fbank特征向量对应的降采样特征向量；

掩码模块，用于对所述降采样特征向量做掩码运算，生成掩码特征向量；

输入模块，用于将所述掩码特征向量输入至所述预训练模型，通过所述预训练模型的编码器和MPC层输出所述Fbank特征向量对应的预测向量；

训练模块，用于计算所述预测向量与所述Fbank特征向量的损失函数，根据所述损失函数调整所述语音识别模型中所述编码器的参数，继续训练调整参数后的所述语音识别模型，直至所述损失函数收敛至预设值，完成所述语音识别模型的预训练过程。

10.一种语音识别装置，其特征在于，所述装置通过语音识别模型实现，所述语音识别模型为根据权利要求1～7任一项所述的方法训练得到的，所述装置包括：

语音获取模块，用于获取待识别语音；

识别模块，用于将所述待识别语音输入至训练好的所述语音识别模型，通过所述语音识别模型输出所述待识别语音对应的文字识别结果。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-8任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一项所述方法的步骤。