CN110400560B

CN110400560B - 数据处理方法及装置、存储介质、电子装置

Info

Publication number: CN110400560B
Application number: CN201910673507.6A
Authority: CN
Inventors: 郭欣; 唐大闰
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-10-18
Anticipated expiration: 2039-07-24
Also published as: CN110400560A

Abstract

本发明提供了一种数据处理方法及装置、存储介质、电子设备，其中，上述方法包括：将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；获取所述第一模型输出的第二语音测试数据；将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据。

Description

数据处理方法及装置、存储介质、电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据处理方法及装置、存储介质、电子装置。

背景技术

相关技术中，语音识别训练数据的标注的成本高，但采集数据相对简单。假设现有一批标注好的普通话语音数据，但是使用该语音数据训练的语音识别系统对于有口音的语音数据识别率不高。然而采集有口音的数据并对其进行标注，训练一个针对该种口音的语音识别系统成本比较高。

针对相关技术中，训练语音模型过程中，对于两种语音测试数据，模型无法有效进行识别等问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法及装置、存储介质、电子装置，以解决语音识别系统中，训练针对有口音的语音识别系统过于昂贵等问题。根据本发明的一个实施例，提供了一种数据处理方法，包括：将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；获取所述第一模型输出的第二语音测试数据；将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据。

在本发明实施例中，获取所述第一模型针对所述第一语音测试数据所输出的第三语音测试数据；将所述第三语音测试数据作为所述第一模型的输入，以使所述第一模型输出到第二模型的第二语音测试数据中的指定内容在所述第二语音测试数据中占比超过预设阈值。

在本发明实施例中，将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练之后，所述方法还包括：确定训练后的参数所对应的第二模型；根据所述训练后的参数所对应的第二模型对语音信息进行识别，得到识别结果；显示所述识别结果。

在本发明实施例中，第一模型包括：特征转换网络；第二模型包括：二分类神经网络。

在本发明实施例中，第一语音测试数据包括:标准普通话语音所对应的测试数据，第二语音测试数据包括：非标准普通话所对应的测试数据。

根据本发明的另一个实施例，还提供了一种数据处理装置，包括：第一输入模块，用于将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；第一获取模块，用于获取所述第一模型输出的第二语音测试数据；第二输入模块，用于将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据。

在本发明实施例中，所述装置还包括：第二获取模块，用于获取所述第一模型针对所述第一语音测试数据所输出的第三语音测试数据；处理模块，用于将所述第三语音测试数据作为所述第一模型的输入，以使所述第一模型输出到第二模型的第二语音测试数据中的指定内容在所述第二语音测试数据中占比超过预设阈值。

在本发明实施例中，所述装置还包括：确定模块，用于确定训练后的参数所对应的第二模型；识别模块，用于根据所述训练后的参数所对应的第二模型对语音信息进行识别，得到识别结果；显示模块，用于显示所述识别结果。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的另一个实施例，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行以上任一项所述的元素处理方法。

通过本发明，将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；获取所述第一模型输出的第二语音测试数据；将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据，采用上述技术方案，解决了相关技术中，训练语音模型过程中，对于两种语音测试数据，模型无法有效进行识别等问题，可以通过第一模型将第一语音测试数据转换为第二语音测试数据，使第一语音测试数据与第二语音测试数据具有相似性，然后使用转换后的第二语音测试数据进行训练，采用上述技术方案可避免对第二语音测试数据进行标注，不仅减少了对第二语音测试数据进行标注的成本，而且可以实现对第一语音测试数据和第二语音测试数据进行有效识别。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据处理方法的流程图；

图2是根据本发明实施例的一种可选的语音识别系统训练方法的流程图；

图3是根据本发明实施例的一种可选的数据处理装置的结构框图；

图4是根据本发明实施例的一种可选的数据处理装置的另一结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1是根据本发明实施例的一种可选的数据处理方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；

步骤S104，获取所述第一模型输出的第二语音测试数据；

步骤S106，将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据。

在本发明实施例中，将所述第二语音测试数据输入到第二模型中之前，所述方法还包括：获取所述第一模型针对所述第一语音测试数据所输出的第三语音测试数据；将所述第三语音测试数据作为所述第一模型的输入，以使所述第一模型输出到第二模型的第二语音测试数据中的指定内容在所述第二语音测试数据中占比超过预设阈值。

其中，将第一语音测试数据(如可以是标准口音数据)输入到第一模型中，可以得到上述第三语音数据(如可以是有口音数据)，直到得到的第三语音测试数据(如可以是有口音数据)超过预设阈值以上(如可以为95％以上)，则表示此时的第三语音测试数据可以作为第二语音测试数据输入到第二模型中。

可选地，将获取到的第一语音测试数据输入到第一模型中，包括：获取预设地域的语音测试数据作为所述第一语音测试数据；将获取到的第一语音测试数据输入到第一模型中。

其中，所述预设地域可以为北京等普通话比较标准的地域。

以下结合一示例对上述数据处理过程进行解释说明，但不用于限定本发明实施例的技术方案，本发明示例的技术方案如下：

图2是根据本发明实施例的一种可选的语音识别系统训练方法的流程图，如图2所示，该训练方法包括：

步骤1，使用标准口音数据和有口音数据，训练一个二分类神经网络，该二分类神经网络可以为深度神经网络(Deep Neural Network，简称DNN)。其中，标准口音数据对应于上述第一语音测试数据；有口音数据对应于上述第二语音测试数据。

步骤2，使用标准口音数据训练一个特征转换网络，将该网络的输出作为二分类神经网络(如DNN)的输入。然后，不断迭代训练该特征转换网络的参数，将标准口音数据输入迭代后的该特征转换网络，得到有口音数据，直到得到的该有口音数据的概率达到95％(即上述预设阈值)以上，则停止迭代。需要说明的是，该过程只训练该特征转换网络的参数，不训练二分类神经网络的参数。其中，上述特征转换网络可以理解为一种神经网络，可以实现将第一语音测试数据转换为第二语音测试数据的功能，即可以实现将标准口音数据转换为有口音数据的功能。

步骤3，将标准口音数据输入训练好的特征转换网络，将其输出作为语音识别系统的特征，对该系统进行训练。并该语音识别系统应用到有口音的场景中进行识别，得到识别结果。

采用上述技术方案可避免对有口音数据进行标注，通过将标准口音数据特征进行强化，使其特征与有口音数据具有极高相似性，使用强化后的有口音数据进行训练，不仅减少了对有口音数据标注过于昂贵的问题，而且提升了语音识别系统对有口音数据的鲁棒性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种数据处理装置，该数据处理装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的一种可选的数据处理装置的结构框图，如图3所示，该装置包括：

第一输入模块30，用于将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；

第一获取模块32，用于获取所述第一模型输出的第二语音测试数据；

第二输入模块34，用于将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据。

在本发明实施例中，图4是根据本发明实施例的一种可选的数据处理装置的另一结构框图，如图4所示，所述装置还包括：

第二获取模块36，用于获取所述第一模型针对所述第一语音测试数据所输出的第三语音测试数据；

处理模块38，用于将所述第三语音测试数据作为所述第一模型的输入，以使所述第一模型输出到第二模型的第二语音测试数据中的指定内容在所述第二语音测试数据中占比超过预设阈值。

在本发明实施例中，如图4所示，所述装置还包括：

确定模块40，用于确定训练后的参数所对应的第二模型；

识别模块42，用于根据所述训练后的参数所对应的第二模型对语音信息进行识别，得到识别结果；

显示模块44，用于显示所述识别结果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；

S2，获取所述第一模型输出的第二语音测试数据；

S3，将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S2，获取所述第一模型输出的第二语音测试数据；

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；

获取所述第一模型输出的第二语音测试数据；

将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据；其中，获取所述第一模型针对所述第一语音测试数据所输出的第三语音测试数据；

将所述第三语音测试数据作为所述第一模型的输入，以使所述第一模型输出到第二模型的第二语音测试数据中的指定内容在所述第二语音测试数据中占比超过预设阈值；

其中，将获取到的第一语音测试数据输入到第一模型中，包括：获取预设地域的语音测试数据作为所述第一语音测试数据；将获取到的第一语音测试数据输入到第一模型中。

2.根据权利要求1所述的方法，其特征在于，将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练之后，所述方法还包括：

确定训练后的参数所对应的第二模型；

根据所述训练后的参数所对应的第二模型对语音信息进行识别，得到识别结果；

显示所述识别结果。

3.根据权利要求1至2任一项所述的方法，其特征在于，第一模型包括：特征转换网络；第二模型包括：二分类神经网络。

4.根据权利要求1至2任一项所述的方法，其特征在于，第一语音测试数据包括:标准普通话语音所对应的测试数据，第二语音测试数据包括：非标准普通话所对应的测试数据。

5.一种数据处理装置，其特征在于，包括：

第一输入模块，用于将获取到的第一语音测试数据输入到第一模型中，其中，所述第一模型用于将第一语音测试数据转换为第二语音测试数据；

第一获取模块，用于获取所述第一模型输出的第二语音测试数据；

第二输入模块，用于将所述第二语音测试数据输入到第二模型中，以指示所述第二模型根据所述第二语音测试数据对所述第二模型的参数进行训练，其中，所述第二模型用于对语音信息进行识别，所述语音信息包括：所述第一语音测试数据，所述第二语音测试数据；其中，所述装置还包括：第二获取模块，用于获取所述第一模型针对所述第一语音测试数据所输出的第三语音测试数据；

处理模块，用于将所述第三语音测试数据作为所述第一模型的输入，以使所述第一模型输出到第二模型的第二语音测试数据中的指定内容在所述第二语音测试数据中占比超过预设阈值；

其中，第一输入模块，还用于获取预设地域的语音测试数据作为所述第一语音测试数据；将获取到的第一语音测试数据输入到第一模型中。

6.根据权利要求5所述的装置，所述装置还包括：

确定模块，用于确定训练后的参数所对应的第二模型；

识别模块，用于根据所述训练后的参数所对应的第二模型对语音信息进行识别，得到识别结果；

显示模块，用于显示所述识别结果。

7.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4中任一项中所述的方法。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。