CN108305619B

CN108305619B - 语音数据集训练方法和装置

Info

Publication number: CN108305619B
Application number: CN201710143053.2A
Authority: CN
Inventors: 孙涛; 康跃腾; 张晓明; 张力
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2020-08-04
Anticipated expiration: 2037-03-10
Also published as: EP3594940A4; US11069342B2; EP3594940B1; WO2018161763A1; EP3594940A1; US20190318723A1; CN108305619A

Abstract

本发明涉及一种语音数据集训练方法和装置。所述方法包括：读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。上述语音数据集训练方法和装置，节省了对第二语音数据集进行第一语音模型训练，节省了总的训练时长，提高了训练效率。

Description

语音数据集训练方法和装置

技术领域

本发明涉及语音数据处理领域，特别是涉及一种语音数据集训练方法和装置。

背景技术

传统的语音数据集的训练一般包括两部分，一部分是HMM（Hidden Markov Model，隐马尔科夫模型）+GMM（Gaussian Mixture Model，混合高斯模型）的训练，另一部分是HMM+DNN（Deep Neuron Network，深度神经网络）的训练。HMM+GMM和HMM+DNN需要对全部的数据集进行训练，随着数据集的不断增大，总的训练时间会增大，导致训练时间很长。

发明内容

本发明的实施例提供一种语音数据集训练方法和装置，可以节省训练时长。

一种语音数据集训练方法，包括：

读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；

获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；

检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

一种语音数据集训练装置，包括：

读取模块，用于读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；

获取模块，用于获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；

训练模块，用于检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

上述语音数据集训练方法和装置，检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件，采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练，节省了对第二语音数据集进行第一语音模型训练，节省了总的训练时长，提高了训练效率。

附图说明

图1为一个实施例中计算机设备的内部结构示意图；

图2为一个实施例中语音数据集训练方法的流程图；

图3为另一个实施例中语音数据集训练方法的流程图；

图4为另一个实施例中语音数据集训练方法的流程图；

图5为一个实施例中HMM+GMM模型的结构示意图；

图6为一个实施例中HMM+DNN模型的结构示意图；

图7为一个实施例中语音数据集训练装置的结构框图；

图8为另一个实施例中语音数据集训练装置的结构框图；

图9为另一个实施例中语音数据集训练装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中计算机设备的内部结构示意图。如图1所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和语音数据集训练装置，数据库中存储有HMM+GMM和HMM+DNN的算法模型等，该语音数据集训练装置用于实现适用于计算机设备的一种语音数据集训练方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的内存储器为非易失性存储介质中的语音数据集训练装置的运行提供环境，该内存储器中可储存有计算机可读指令，该计算机可读指令被所述处理器执行时，可使得所述处理器执行一种语音数据集训练方法。该计算机设备的网络接口用于据以与外部的设备通过网络连接通信，比如接收设备发送的语音识别请求以及向设备返回语音识别结果等。计算机设备可以用独立的计算机设备或者是多个计算机设备组成的计算机设备集群来实现。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2为一个实施例中语音数据集训练方法的流程图。如图2所示，一种语音数据集训练方法，包括：

步骤202，读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数。

本实施例中，第一语音数据集是指用于第一次训练的语音数据集。可从第一语音数据集中选取数据生成第一测试集。第一测试集是用于检验通过第一语音数据集进行训练得到的第一语音模型的性能的数据集。第一语音模型可为隐马尔科夫模型和混合高斯模型。

隐马尔科夫模型和混合高斯模型（即HMM+GMM）参数是指每个HMM状态的起止时间。每一语音帧对应一个HMM状态。

HMM（Hidden Markov Model，隐马尔科夫模型）是一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分；HMM的转移概率表示HMM的状态之间发生转换的概率；而每一个状态在可能输出的符号上都有一概率分布，即HMM的输出概率。其中，马尔可夫过程是一个不具备记忆特质的随机过程。该随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。

GMM（Gaussian Mixture Model，混合高斯模型）是用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

预先根据第一语音数据集选取数据生成训练集和第一测试集，对第一语音数据集的训练集进行训练得到隐马尔科夫模型和混合高斯模型，从而得到隐马尔科夫模型和混合高斯模型参数。

步骤204，获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集。

本实施例中，第二语音数据集是指用于再次训练的语音数据集。从第二语音数据集中随机选取数据生成第二测试集。第二测试集是用于代表第二语音数据集的。第二测试集中数据量占第二语音数据集中数据量的比例与第一测试集中数据量占第一语音数据集中数据量的比例相同。

步骤206，检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

本实施例中，第二语音模型可为隐马尔科夫模型和深度神经网络模型。DNN（deepneuron networks，深度神经网络）是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。神经网络就是将许多个单一神经元联结在一起，一个神经元的输出就可以是另一个神经元的输入。神经元是神经网络的基本运算单元，它通过激活函数将多个输入值转化为一个输出，多个输入值与多个权值一一对应。

本实施例中，相似条件是指相似度超过相似度阈值，或者字识别错误率之差小于或等于容错阈值。相似度超过相似度阈值，或字识别错误率之差小于或等于容错阈值，则表示第二测试集和第一测试集相似度高，适合采用第一语音数据集训练得到的隐马尔科夫模型和混合高斯模型参数对第二语音数据集进行隐马尔科夫模型和深度神经网络模型训练。

上述语音数据集训练方法，检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件，采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练，节省了对第二语音数据集进行第一语音模型训练，节省了总的训练时长，提高了训练效率。

在一个实施例中，从所述第二语音数据集中随机选取数据生成第二测试集，包括：获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

本实施例中，第一测试集TEST1中数据数量记为number(TEST1)，第一语音数据集中数据数量记为number(数据集1)。第二测试集TEST2中数据数量记为number(TEST2)，第二语音数据集中数据数量记为number(数据集2)。则满足number(TEST1)/ number(数据集1)=number(TEST2)/ number(数据集2)。

通过使得第二测试集中数据量与第二语音数据集中数据量的比例与第一测试集中数据量与第一语音数据集中数据量的比例相同，可确保进行相似度计算时，计算结果更加准确。

图3为另一个实施例中语音数据集训练方法的流程图。如图3所示，在一个实施例中，上述语音数据集训练方法还包括：

步骤302，从所述第一语音数据集中分别选取数据生成训练集和第一测试集。

训练集是用来估计模型的数据集。

步骤304，对所述训练集进行第一语音模型训练得到预设数量的第一语音模型。

本实施例中，预设数量可根据需要配置，例如5个、10个等。

步骤306，采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型。

本实施例中，采用预设数量的第一语音模型中每一个第一语音模型对第一测试集进行测试，可以得到每个第一语音模型的字识别错误率，根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。预设范围可根据需要设定。

步骤308，将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

本实施例中，字识别错误率在预设范围内的第一语音模型的参数是指字识别错误率在预设范围内的第一语音模型得到的每个HMM状态的起止时间。

通过对第一语音数据集中选取数据生成训练集，对训练集进行训练得到多个第一语音模型，通过第一测试集测试，得到字识别错误率在预设范围内的第一语音模型，可将字识别错误率在预设范围内中最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数，后续作为共用的第一语音模型参数更加准确。或者，可将字识别错误率在预设范围内中任意的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，上述语音数据集训练方法还包括：采用所述字识别错误率在预设范围内中最小的字识别错误率的第一语音模型的参数对所述第一语音数据集进行第二语音模型训练。

在一个实施例中，上述语音数据集训练方法还包括：采用字识别错误率在预设范围内中任意的第一语音模型的参数对第一语音数据集进行第二语音模型训练。

在一个实施例中，对所述训练集进行第一语音模型训练得到预设数量的第一语音模型，包括：每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量次数，得到预设数量的第一语音模型。

本实施例中，第一预设比例可根据需要配置，第一预设比例太高会耗时，太低则不能代表整个训练集。第一固定数量可根据需要配置。预设数量次数是指从训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练的次数。

在一个实施例中，所述采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型，包括：采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

本实施例中，字识别错误率（Word Error Rate，简称WER）表示测试时识别错误的字的数量和测试集中字的总数量之间的比值。采用预设数量的第一语音模型分别对所述第一测试集进行测试可得到每个第一语音模型对第一测试集进行测试的字识别错误率，字识别错误率与预设范围比较，得到字识别错误率在预设范围内的第一语音模型。

在一个实施例中，所述检测到所述第二测试集与所述第一测试集满足相似条件，包括：采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

本实施例中，容错阈值可根据实际多次训练得到。

在一个实施例中，上述语音数据集训练方法还包括：从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；将所述预设数量中的最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

本实施例中，采用预设数量的第一语音模型分别对所述第一测试集进行测试可得到每个第一语音模型对第一测试集进行测试的字识别错误率，对字识别错误率进行排序得到预设数量中的最小的字识别错误率。

进一步的，检测到所述第二测试集与所述第一测试集满足相似条件，包括：采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，采用HMM+GMM模型求取每个HMM状态的起止时间的步骤包括：获取语音数据，对所述语音数据进行分段，提取每段语音的特征；列出每段语音所有可能对应的文字；将所述文字根据发音词典转换为音素；根据HMM模型将所述音素转换为HMM状态；根据HMM+GMM模型的参数得到每条文字对应的概率；通过概率的比较得出最有可能的HMM状态序列；根据HMM状态序列可得到每个HMM状态的起止时间。

语音的特征提取可包括声强和声强级、响度、音高、基音周期、基音频率、信噪比、谐噪比等等。声强是指单位时间内通过垂直于声波传播方向的单位面积的平均声能。声强用I表示，单位为瓦/平米。声强采用声强级来表示。声强级的常用单位为分贝（dB）。响度是表示声音强弱程度。响度采用响度级表示。音高是人类听觉系统对于声音频率高低的感觉。音高的单位是美尔。基音周期反映了声门相邻两次开闭之间的时间间隔或开闭的频率。信噪比是信号和噪声的功率之间比值计算得到的。谐躁比是语音中谐波成分和噪声成分的比率。

音素是根据语音的自然属性划分出来的最小语音单位。对语音数据进行标注得到音素。标注是指对未处理的数据进行加工处理，语音的标注是展示语音所代表的真实内容。

得到的HMM状态序列类似于112233345，假设从时刻t开始，则状态1的起止时间为t至t+2，状态2的起止时间为t+3至t+4。

图4为另一个实施例中语音数据集训练方法的流程图。如图4所示，一种语音数据集训练方法，包括：

步骤402，获取语音数据集，判断本次训练是不是第一次训练，若是，则执行步骤404，若否，执行步骤410。

步骤404，从语音数据集中分别选取数据生成训练集和第一测试集。

若本次训练为第一次训练，则语音数据集可称为第一语音数据集。

步骤406，从所述训练集中随机选取第一预设比例的数据进行隐马尔科夫模型和混合高斯模型训练，重复进行预设数量次，得到预设数量个隐马尔科夫模型和混合高斯模型。

步骤408，将预设数量个隐马尔科夫模型和混合高斯模型分别对第一测试集进行测试，得到最小的字识别错误率，记为第一字识别错误率，选取最小的字识别错误率对应的隐马尔科夫模型和混合高斯模型作为最优的隐马尔科夫模型和混合高斯模型，再执行步骤416。

步骤410，从语音数据集中随机选取数据生成第二测试集。

若本次训练不为第一次训练，则该语音数据集可称为第二语音数据集。

步骤412，用第一次训练得到的最优的隐马尔科夫模型和混合高斯模型对第二测试集进行测试，得到第二测试集所对应的字识别错误率，记为第二字识别错误率。

步骤414，判断第二字识别错误率与第一字识别错误率之差小于或等于容错阈值，若是，则执行步骤416，若否，则结束。

步骤416，用最优的隐马尔科夫模型和混合高斯模型的参数进行隐马尔科夫模型和深度神经网络模型训练。上述语音数据集训练方法，检测本次训练不是第一次训练，且根据最优的HMM+GMM模型对第一测试集测试得到的第一字识别错误率和对第二测试集测试得到的第二字识别错误率，第二字识别错误率与第一字识别错误率小于或等于容错阈值，则采用第一语音数据集训练得到的隐马尔科夫模型和混合高斯模型参数对第二语音数据集进行隐马尔科夫模型和深度神经网络模型训练，节省了对第二语音数据集进行隐马尔科夫模型和混合高斯模型训练，节省了总的训练时长，提高了训练效率；若本次训练为第一次训练，则选取最优的HMM+GMM模型，采用最优的HMM+GMM模型的参数进行HMM+DNN训练。

图5为一个实施例中HMM+GMM模型的结构示意图。如图5所示，第一层52为一个一个语音帧数据，第二层54为GMM模型，第三层56为HMM模型。HMM模型对应输出概率的多个GMM模型。其中，S表示HMM模型中的HMM状态；

表示HMM模型中的转移概率，

表示从

状态变为

状态的转移概率。每一个GMM对应的是一个HMM模型状态的输出概率。将语音数据切分为一个一个语音帧数据，一个语音帧数据对应一个HMM状态。语音帧即为HMM中的观测值。

图6为一个实施例中HMM+DNN模型的结构示意图。如图6所示，第一层62为一个一个语音帧数据，第二层64为DNN模型，第三层66为HMM模型。其中，S表示HMM模型中的HMM状态；

表示HMM模型中的转移概率，

表示从

状态变为

状态的转移概率；h表示DNN模型中的神经元；W表示DNN模型中的权值，M表示DNN模型的层数。h代表的是一个函数，如果是第一层，则h的输入是一帧数据或几帧数据对应的各自权值；如果是第二层至最后一层，则h的输入是上一层的输出和每一个输出所对应的权值。每一个DNN的输出对应的是一个HMM模型状态的输出概率。每一个DNN的输出对应的是一个语音帧。

在一个实施例中，可采用一个DNN模型在时域上实现输入一个语音帧输出一个HMM状态对应的概率。

图7为一个实施例中语音数据集训练装置的结构框图。如图7所示，一种语音数据集训练装置700，包括读取模块702、获取模块704和训练模块706。其中：

读取模块702用于读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数。

本实施例中，第一语音数据集是指用于第一次训练的语音数据集。可从第一语音数据集中选取数据生成第一测试集。第一测试集是用于检验通过第一语音数据集进行训练得到的第一语音模型的性能的数据集。

第一语音模型参数是指每个语音模型状态的起止时间。例如，第一语音模型参数可为每个HMM状态的起止时间。每一语音帧对应一个HMM状态。

获取模块704用于获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集。

训练模块706用于检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。

上述语音数据集训练装置，检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件，采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练，节省了对第二语音数据集进行第一语音模型训练，节省了总的训练时长，提高了训练效率。

图8为另一个实施例中语音数据集训练装置的结构框图。如图8所示，一种语音数据集训练装置700，除了包括读取模块702、获取模块704和训练模块706，还包括生成模块708、模型构建模块710、筛选模块712和参数获取模块714。

生成模块708用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集。

在一个实施例中，所述获取模块704还用于获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

模型构建模块710用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型。

筛选模块712用于采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型。

参数获取模块714用于将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

训练模块706还用于采用字识别错误率在预设范围内的第一语音模型的参数对第一语音数据集进行第二语音模型训练。

通过对第一语音数据集中选取数据生成训练集，对训练集进行训练得到多个第一语音模型，通过第一测试集测试，得到最优的第一语音模型，将字识别错误率在预设范围内任意的第一语音模型的参数作为所述第一语音模型参数，或者将字识别错误率在预设范围中最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数，后续作为共用的第一语音模型参数更加准确。

在一个实施例中，模型构建模块710还用于每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量的次数，得到预设数量的第一语音模型。

在一个实施例中，筛选模块712还用于采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；以及根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

图9为另一个实施例中语音数据集训练装置的结构框图。如图9所示，一种语音数据集训练装置700，除了包括读取模块702、获取模块704、训练模块706、生成模块708、模型构建模块710、筛选模块712和参数获取模块714，还包括检测模块716。

检测模块716用于采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；以及检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，生成模块708还用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集。

筛选模块712用于采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；

参数获取模块714用于将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

检测模块716还用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；以及检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

上述语音数据集训练装置中各个模块的划分仅用于举例说明，在其他实施例中，可将语音数据集训练装置按照需要划分为不同的模块，以完成上述语音数据集训练装置的全部或部分功能。

本发明的实施例还提供了一种计算机设备和计算机可读存储介质。

一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序（指令），所述处理器执行所述程序时实现以下步骤：读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；以及检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。

在一个实施例中，所述处理器还用于执行所述程序时实现以下步骤：从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型；将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，所述处理器还用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型，包括：每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量的次数，得到预设数量的第一语音模型。

在一个实施例中，所述处理器还用于采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型，包括：采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

在一个实施例中，所述处理器还用于检测到所述第二测试集与所述第一测试集满足相似条件，包括：采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，所述处理器还用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，所述处理器还用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，所述处理器还用于从所述第二语音数据集中随机选取数据生成第二测试集，包括：获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；以及检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。

在一个实施例中，所述处理器还用于执行所述程序时实现以下步骤：从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到最优的第一语音模型；将所述最优的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，所述处理器还用于采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到最优的第一语音模型，包括：采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

在一个实施例中，计算机可读介质是指非易失性存储介质，可以排除能量、电磁波等介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音数据集训练方法，包括：

读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数，所述第一语音模型参数为隐马尔科夫模型和混合高斯模型参数；

检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练，所述第二语音模型为隐马尔科夫模型和深度神经网络模型；所述相似条件为相似度超过相似度阈值，或者字识别错误率之差小于或等于容错阈值。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述第一语音数据集中分别选取数据生成训练集和第一测试集；

对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；

采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型；

将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

3.根据权利要求2所述的方法，其特征在于，对所述训练集进行第一语音模型训练得到预设数量的第一语音模型，包括：

每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量的次数，得到预设数量的第一语音模型。

4.根据权利要求2或3所述的方法，其特征在于，所述采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型，包括：

采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；

根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

5.根据权利要求4所述的方法，其特征在于，所述检测到所述第二测试集与所述第一测试集满足相似条件，包括：

采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；

检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

6.根据权利要求1至3中任一项所述的方法，其特征在于，从所述第二语音数据集中随机选取数据生成第二测试集，包括：

获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；

将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

8.根据权利要求7所述的方法，其特征在于，所述检测到所述第二测试集与所述第一测试集满足相似条件，包括：

采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；

检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

9.一种语音数据集训练装置，其特征在于，包括：

读取模块，用于读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数，所述第一语音模型参数为隐马尔科夫模型和混合高斯模型参数；

训练模块，用于检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练，所述第二语音模型为隐马尔科夫模型和深度神经网络模型；所述相似条件为相似度超过相似度阈值，或者字识别错误率之差小于或等于容错阈值。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

生成模块，用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集；

模型构建模块，用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；

筛选模块，用于采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型；

参数获取模块，用于将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

11.根据权利要求10所述的装置，其特征在于，所述模型构建模块还用于每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量的次数，得到预设数量的第一语音模型。

12.根据权利要求10或11所述的装置，其特征在于，所述筛选模块还用于采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；以及根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

检测模块，用于采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；以及检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

14.根据权利要求9至11中任一项所述的装置，其特征在于，所述获取模块还用于获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

15.根据权利要求9所述的装置，其特征在于，所述装置还包括：

筛选模块，用于采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；

参数获取模块，用于将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

检测模块，用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；以及检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

18.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。