CN108305619B - 语音数据集训练方法和装置 - Google Patents
语音数据集训练方法和装置 Download PDFInfo
- Publication number
- CN108305619B CN108305619B CN201710143053.2A CN201710143053A CN108305619B CN 108305619 B CN108305619 B CN 108305619B CN 201710143053 A CN201710143053 A CN 201710143053A CN 108305619 B CN108305619 B CN 108305619B
- Authority
- CN
- China
- Prior art keywords
- voice
- model
- test set
- training
- recognition error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 199
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 241
- 239000000203 mixture Substances 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种语音数据集训练方法和装置。所述方法包括:读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数;获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集;检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。上述语音数据集训练方法和装置,节省了对第二语音数据集进行第一语音模型训练,节省了总的训练时长,提高了训练效率。
Description
技术领域
本发明涉及语音数据处理领域,特别是涉及一种语音数据集训练方法和装置。
背景技术
传统的语音数据集的训练一般包括两部分,一部分是HMM(Hidden Markov Model,隐马尔科夫模型)+GMM(Gaussian Mixture Model,混合高斯模型)的训练,另一部分是HMM+DNN(Deep Neuron Network,深度神经网络)的训练。HMM+GMM和HMM+DNN需要对全部的数据集进行训练,随着数据集的不断增大,总的训练时间会增大,导致训练时间很长。
发明内容
本发明的实施例提供一种语音数据集训练方法和装置,可以节省训练时长。
一种语音数据集训练方法,包括:
读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数;
获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集;
检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。
一种语音数据集训练装置,包括:
读取模块,用于读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数;
获取模块,用于获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集;
训练模块,用于检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。
上述语音数据集训练方法和装置,检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件,采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练,节省了对第二语音数据集进行第一语音模型训练,节省了总的训练时长,提高了训练效率。
附图说明
图1为一个实施例中计算机设备的内部结构示意图;
图2为一个实施例中语音数据集训练方法的流程图;
图3为另一个实施例中语音数据集训练方法的流程图;
图4为另一个实施例中语音数据集训练方法的流程图;
图5为一个实施例中HMM+GMM模型的结构示意图;
图6为一个实施例中HMM+DNN模型的结构示意图;
图7为一个实施例中语音数据集训练装置的结构框图;
图8为另一个实施例中语音数据集训练装置的结构框图;
图9为另一个实施例中语音数据集训练装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中计算机设备的内部结构示意图。如图1所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和语音数据集训练装置,数据库中存储有HMM+GMM和HMM+DNN的算法模型等,该语音数据集训练装置用于实现适用于计算机设备的一种语音数据集训练方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的内存储器为非易失性存储介质中的语音数据集训练装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种语音数据集训练方法。该计算机设备的网络接口用于据以与外部的设备通过网络连接通信,比如接收设备发送的语音识别请求以及向设备返回语音识别结果等。计算机设备可以用独立的计算机设备或者是多个计算机设备组成的计算机设备集群来实现。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2为一个实施例中语音数据集训练方法的流程图。如图2所示,一种语音数据集训练方法,包括:
步骤202,读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数。
本实施例中,第一语音数据集是指用于第一次训练的语音数据集。可从第一语音数据集中选取数据生成第一测试集。第一测试集是用于检验通过第一语音数据集进行训练得到的第一语音模型的性能的数据集。第一语音模型可为隐马尔科夫模型和混合高斯模型。
隐马尔科夫模型和混合高斯模型(即HMM+GMM)参数是指每个HMM状态的起止时间。每一语音帧对应一个HMM状态。
HMM(Hidden Markov Model,隐马尔科夫模型)是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分;HMM的转移概率表示HMM的状态之间发生转换的概率;而每一个状态在可能输出的符号上都有一概率分布,即HMM的输出概率。其中,马尔可夫过程是一个不具备记忆特质的随机过程。该随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
GMM(Gaussian Mixture Model,混合高斯模型)是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
预先根据第一语音数据集选取数据生成训练集和第一测试集,对第一语音数据集的训练集进行训练得到隐马尔科夫模型和混合高斯模型,从而得到隐马尔科夫模型和混合高斯模型参数。
步骤204,获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集。
本实施例中,第二语音数据集是指用于再次训练的语音数据集。从第二语音数据集中随机选取数据生成第二测试集。第二测试集是用于代表第二语音数据集的。第二测试集中数据量占第二语音数据集中数据量的比例与第一测试集中数据量占第一语音数据集中数据量的比例相同。
步骤206,检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。
本实施例中,第二语音模型可为隐马尔科夫模型和深度神经网络模型。DNN(deepneuron networks,深度神经网络)是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。神经网络就是将许多个单一神经元联结在一起,一个神经元的输出就可以是另一个神经元的输入。神经元是神经网络的基本运算单元,它通过激活函数将多个输入值转化为一个输出,多个输入值与多个权值一一对应。
本实施例中,相似条件是指相似度超过相似度阈值,或者字识别错误率之差小于或等于容错阈值。相似度超过相似度阈值,或字识别错误率之差小于或等于容错阈值,则表示第二测试集和第一测试集相似度高,适合采用第一语音数据集训练得到的隐马尔科夫模型和混合高斯模型参数对第二语音数据集进行隐马尔科夫模型和深度神经网络模型训练。
上述语音数据集训练方法,检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件,采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练,节省了对第二语音数据集进行第一语音模型训练,节省了总的训练时长,提高了训练效率。
在一个实施例中,从所述第二语音数据集中随机选取数据生成第二测试集,包括:获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值,从所述第二语音数据集中随机选取占所述比值的数据,生成所述第二测试集。
本实施例中,第一测试集TEST1中数据数量记为number(TEST1),第一语音数据集中数据数量记为number(数据集1)。第二测试集TEST2中数据数量记为number(TEST2),第二语音数据集中数据数量记为number(数据集2)。则满足number(TEST1)/ number(数据集1)=number(TEST2)/ number(数据集2)。
通过使得第二测试集中数据量与第二语音数据集中数据量的比例与第一测试集中数据量与第一语音数据集中数据量的比例相同,可确保进行相似度计算时,计算结果更加准确。
图3为另一个实施例中语音数据集训练方法的流程图。如图3所示,在一个实施例中,上述语音数据集训练方法还包括:
步骤302,从所述第一语音数据集中分别选取数据生成训练集和第一测试集。
训练集是用来估计模型的数据集。
步骤304,对所述训练集进行第一语音模型训练得到预设数量的第一语音模型。
本实施例中,预设数量可根据需要配置,例如5个、10个等。
步骤306,采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型。
本实施例中,采用预设数量的第一语音模型中每一个第一语音模型对第一测试集进行测试,可以得到每个第一语音模型的字识别错误率,根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。预设范围可根据需要设定。
步骤308,将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。
本实施例中,字识别错误率在预设范围内的第一语音模型的参数是指字识别错误率在预设范围内的第一语音模型得到的每个HMM状态的起止时间。
通过对第一语音数据集中选取数据生成训练集,对训练集进行训练得到多个第一语音模型,通过第一测试集测试,得到字识别错误率在预设范围内的第一语音模型,可将字识别错误率在预设范围内中最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数,后续作为共用的第一语音模型参数更加准确。或者,可将字识别错误率在预设范围内中任意的第一语音模型的参数作为所述第一语音模型参数。
在一个实施例中,上述语音数据集训练方法还包括:采用所述字识别错误率在预设范围内中最小的字识别错误率的第一语音模型的参数对所述第一语音数据集进行第二语音模型训练。
在一个实施例中,上述语音数据集训练方法还包括:采用字识别错误率在预设范围内中任意的第一语音模型的参数对第一语音数据集进行第二语音模型训练。
在一个实施例中,对所述训练集进行第一语音模型训练得到预设数量的第一语音模型,包括:每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练,重复预设数量次数,得到预设数量的第一语音模型。
本实施例中,第一预设比例可根据需要配置,第一预设比例太高会耗时,太低则不能代表整个训练集。第一固定数量可根据需要配置。预设数量次数是指从训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练的次数。
在一个实施例中,所述采用所述预设数量的第一语音模型对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型,包括:采用预设数量的第一语音模型分别对所述第一测试集进行测试,得到各个第一语音模型的字识别错误率;根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。
本实施例中,字识别错误率(Word Error Rate,简称WER)表示测试时识别错误的字的数量和测试集中字的总数量之间的比值。采用预设数量的第一语音模型分别对所述第一测试集进行测试可得到每个第一语音模型对第一测试集进行测试的字识别错误率,字识别错误率与预设范围比较,得到字识别错误率在预设范围内的第一语音模型。
在一个实施例中,所述检测到所述第二测试集与所述第一测试集满足相似条件,包括:采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
本实施例中,容错阈值可根据实际多次训练得到。
在一个实施例中,上述语音数据集训练方法还包括:从所述第一语音数据集中分别选取数据生成训练集和第一测试集;对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到所述预设数量中的最小的字识别错误率的第一语音模型;将所述预设数量中的最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。
本实施例中,采用预设数量的第一语音模型分别对所述第一测试集进行测试可得到每个第一语音模型对第一测试集进行测试的字识别错误率,对字识别错误率进行排序得到预设数量中的最小的字识别错误率。
进一步的,检测到所述第二测试集与所述第一测试集满足相似条件,包括:采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
在一个实施例中,采用HMM+GMM模型求取每个HMM状态的起止时间的步骤包括:获取语音数据,对所述语音数据进行分段,提取每段语音的特征;列出每段语音所有可能对应的文字;将所述文字根据发音词典转换为音素;根据HMM模型将所述音素转换为HMM状态;根据HMM+GMM模型的参数得到每条文字对应的概率;通过概率的比较得出最有可能的HMM状态序列;根据HMM状态序列可得到每个HMM状态的起止时间。
语音的特征提取可包括声强和声强级、响度、音高、基音周期、基音频率、信噪比、谐噪比等等。声强是指单位时间内通过垂直于声波传播方向的单位面积的平均声能。声强用I表示,单位为瓦/平米。声强采用声强级来表示。声强级的常用单位为分贝(dB)。响度是表示声音强弱程度。响度采用响度级表示。音高是人类听觉系统对于声音频率高低的感觉。音高的单位是美尔。基音周期反映了声门相邻两次开闭之间的时间间隔或开闭的频率。信噪比是信号和噪声的功率之间比值计算得到的。谐躁比是语音中谐波成分和噪声成分的比率。
音素是根据语音的自然属性划分出来的最小语音单位。对语音数据进行标注得到音素。标注是指对未处理的数据进行加工处理,语音的标注是展示语音所代表的真实内容。
得到的HMM状态序列类似于112233345,假设从时刻t开始,则状态1的起止时间为t至t+2,状态2的起止时间为t+3至t+4。
图4为另一个实施例中语音数据集训练方法的流程图。如图4所示,一种语音数据集训练方法,包括:
步骤402,获取语音数据集,判断本次训练是不是第一次训练,若是,则执行步骤404,若否,执行步骤410。
步骤404,从语音数据集中分别选取数据生成训练集和第一测试集。
若本次训练为第一次训练,则语音数据集可称为第一语音数据集。
步骤406,从所述训练集中随机选取第一预设比例的数据进行隐马尔科夫模型和混合高斯模型训练,重复进行预设数量次,得到预设数量个隐马尔科夫模型和混合高斯模型。
步骤408,将预设数量个隐马尔科夫模型和混合高斯模型分别对第一测试集进行测试,得到最小的字识别错误率,记为第一字识别错误率,选取最小的字识别错误率对应的隐马尔科夫模型和混合高斯模型作为最优的隐马尔科夫模型和混合高斯模型,再执行步骤416。
步骤410,从语音数据集中随机选取数据生成第二测试集。
若本次训练不为第一次训练,则该语音数据集可称为第二语音数据集。
步骤412,用第一次训练得到的最优的隐马尔科夫模型和混合高斯模型对第二测试集进行测试,得到第二测试集所对应的字识别错误率,记为第二字识别错误率。
步骤414,判断第二字识别错误率与第一字识别错误率之差小于或等于容错阈值,若是,则执行步骤416,若否,则结束。
步骤416,用最优的隐马尔科夫模型和混合高斯模型的参数进行隐马尔科夫模型和深度神经网络模型训练。上述语音数据集训练方法,检测本次训练不是第一次训练,且根据最优的HMM+GMM模型对第一测试集测试得到的第一字识别错误率和对第二测试集测试得到的第二字识别错误率,第二字识别错误率与第一字识别错误率小于或等于容错阈值,则采用第一语音数据集训练得到的隐马尔科夫模型和混合高斯模型参数对第二语音数据集进行隐马尔科夫模型和深度神经网络模型训练,节省了对第二语音数据集进行隐马尔科夫模型和混合高斯模型训练,节省了总的训练时长,提高了训练效率;若本次训练为第一次训练,则选取最优的HMM+GMM模型,采用最优的HMM+GMM模型的参数进行HMM+DNN训练。
图5为一个实施例中HMM+GMM模型的结构示意图。如图5所示,第一层52为一个一个语音帧数据,第二层54为GMM模型,第三层56为HMM模型。HMM模型对应输出概率的多个GMM模型。其中,S表示HMM模型中的HMM状态;表示HMM模型中的转移概率,表示从状态变为状态的转移概率。每一个GMM对应的是一个HMM模型状态的输出概率。将语音数据切分为一个一个语音帧数据,一个语音帧数据对应一个HMM状态。语音帧即为HMM中的观测值。
图6为一个实施例中HMM+DNN模型的结构示意图。如图6所示,第一层62为一个一个语音帧数据,第二层64为DNN模型,第三层66为HMM模型。其中,S表示HMM模型中的HMM状态;表示HMM模型中的转移概率,表示从状态变为状态的转移概率;h表示DNN模型中的神经元;W表示DNN模型中的权值,M表示DNN模型的层数。h代表的是一个函数,如果是第一层,则h的输入是一帧数据或几帧数据对应的各自权值;如果是第二层至最后一层,则h的输入是上一层的输出和每一个输出所对应的权值。每一个DNN的输出对应的是一个HMM模型状态的输出概率。每一个DNN的输出对应的是一个语音帧。
在一个实施例中,可采用一个DNN模型在时域上实现输入一个语音帧输出一个HMM状态对应的概率。
图7为一个实施例中语音数据集训练装置的结构框图。如图7所示,一种语音数据集训练装置700,包括读取模块702、获取模块704和训练模块706。其中:
读取模块702用于读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数。
本实施例中,第一语音数据集是指用于第一次训练的语音数据集。可从第一语音数据集中选取数据生成第一测试集。第一测试集是用于检验通过第一语音数据集进行训练得到的第一语音模型的性能的数据集。
第一语音模型参数是指每个语音模型状态的起止时间。例如,第一语音模型参数可为每个HMM状态的起止时间。每一语音帧对应一个HMM状态。
获取模块704用于获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集。
训练模块706用于检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。
第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。
上述语音数据集训练装置,检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件,采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练,节省了对第二语音数据集进行第一语音模型训练,节省了总的训练时长,提高了训练效率。
图8为另一个实施例中语音数据集训练装置的结构框图。如图8所示,一种语音数据集训练装置700,除了包括读取模块702、获取模块704和训练模块706,还包括生成模块708、模型构建模块710、筛选模块712和参数获取模块714。
生成模块708用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集。
在一个实施例中,所述获取模块704还用于获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值,从所述第二语音数据集中随机选取占所述比值的数据,生成所述第二测试集。
模型构建模块710用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型。
筛选模块712用于采用所述预设数量的第一语音模型对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型。
参数获取模块714用于将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。
训练模块706还用于采用字识别错误率在预设范围内的第一语音模型的参数对第一语音数据集进行第二语音模型训练。
通过对第一语音数据集中选取数据生成训练集,对训练集进行训练得到多个第一语音模型,通过第一测试集测试,得到最优的第一语音模型,将字识别错误率在预设范围内任意的第一语音模型的参数作为所述第一语音模型参数,或者将字识别错误率在预设范围中最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数,后续作为共用的第一语音模型参数更加准确。
在一个实施例中,模型构建模块710还用于每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练,重复预设数量的次数,得到预设数量的第一语音模型。
在一个实施例中,筛选模块712还用于采用预设数量的第一语音模型分别对所述第一测试集进行测试,得到各个第一语音模型的字识别错误率;以及根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。
图9为另一个实施例中语音数据集训练装置的结构框图。如图9所示,一种语音数据集训练装置700,除了包括读取模块702、获取模块704、训练模块706、生成模块708、模型构建模块710、筛选模块712和参数获取模块714,还包括检测模块716。
检测模块716用于采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;以及检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
在一个实施例中,生成模块708还用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集。
模型构建模块710用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型。
筛选模块712用于采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到所述预设数量中的最小的字识别错误率的第一语音模型;
参数获取模块714用于将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。
检测模块716还用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;以及检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
上述语音数据集训练装置中各个模块的划分仅用于举例说明,在其他实施例中,可将语音数据集训练装置按照需要划分为不同的模块,以完成上述语音数据集训练装置的全部或部分功能。
本发明的实施例还提供了一种计算机设备和计算机可读存储介质。
一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序(指令),所述处理器执行所述程序时实现以下步骤:读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数;获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集;以及检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。
在一个实施例中,所述处理器还用于执行所述程序时实现以下步骤:从所述第一语音数据集中分别选取数据生成训练集和第一测试集;对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型;将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。
在一个实施例中,所述处理器还用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型,包括:每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练,重复预设数量的次数,得到预设数量的第一语音模型。
在一个实施例中,所述处理器还用于采用所述预设数量的第一语音模型对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型,包括:采用预设数量的第一语音模型分别对所述第一测试集进行测试,得到各个第一语音模型的字识别错误率;根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。
在一个实施例中,所述处理器还用于检测到所述第二测试集与所述第一测试集满足相似条件,包括:采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
在一个实施例中,所述处理器还用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集;对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到所述预设数量中的最小的字识别错误率的第一语音模型;将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。
在一个实施例中,所述处理器还用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
在一个实施例中,所述处理器还用于从所述第二语音数据集中随机选取数据生成第二测试集,包括:获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值,从所述第二语音数据集中随机选取占所述比值的数据,生成所述第二测试集。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数;获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集;以及检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。
在一个实施例中,所述处理器还用于执行所述程序时实现以下步骤:从所述第一语音数据集中分别选取数据生成训练集和第一测试集;对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到最优的第一语音模型;将所述最优的第一语音模型的参数作为所述第一语音模型参数。
在一个实施例中,所述处理器还用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型,包括:每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练,重复预设数量的次数,得到预设数量的第一语音模型。
在一个实施例中,所述处理器还用于采用所述预设数量的第一语音模型对所述第一测试集进行测试,得到最优的第一语音模型,包括:采用预设数量的第一语音模型分别对所述第一测试集进行测试,得到各个第一语音模型的字识别错误率;根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。
在一个实施例中,所述处理器还用于检测到所述第二测试集与所述第一测试集满足相似条件,包括:采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
在一个实施例中,所述处理器还用于从所述第二语音数据集中随机选取数据生成第二测试集,包括:获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值,从所述第二语音数据集中随机选取占所述比值的数据,生成所述第二测试集。
在一个实施例中,所述处理器还用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集;对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到所述预设数量中的最小的字识别错误率的第一语音模型;将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。
在一个实施例中,所述处理器还用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
在一个实施例中,计算机可读介质是指非易失性存储介质,可以排除能量、电磁波等介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (18)
1.一种语音数据集训练方法,包括:
读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数,所述第一语音模型参数为隐马尔科夫模型和混合高斯模型参数;
获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集;
检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练,所述第二语音模型为隐马尔科夫模型和深度神经网络模型;所述相似条件为相似度超过相似度阈值,或者字识别错误率之差小于或等于容错阈值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述第一语音数据集中分别选取数据生成训练集和第一测试集;
对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;
采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型;
将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。
3.根据权利要求2所述的方法,其特征在于,对所述训练集进行第一语音模型训练得到预设数量的第一语音模型,包括:
每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练,重复预设数量的次数,得到预设数量的第一语音模型。
4.根据权利要求2或3所述的方法,其特征在于,所述采用所述预设数量的第一语音模型对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型,包括:
采用预设数量的第一语音模型分别对所述第一测试集进行测试,得到各个第一语音模型的字识别错误率;
根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。
5.根据权利要求4所述的方法,其特征在于,所述检测到所述第二测试集与所述第一测试集满足相似条件,包括:
采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;
检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
6.根据权利要求1至3中任一项所述的方法,其特征在于,从所述第二语音数据集中随机选取数据生成第二测试集,包括:
获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值,从所述第二语音数据集中随机选取占所述比值的数据,生成所述第二测试集。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述第一语音数据集中分别选取数据生成训练集和第一测试集;
对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;
采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到所述预设数量中的最小的字识别错误率的第一语音模型;
将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。
8.根据权利要求7所述的方法,其特征在于,所述检测到所述第二测试集与所述第一测试集满足相似条件,包括:
采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;
检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
9.一种语音数据集训练装置,其特征在于,包括:
读取模块,用于读取从第一语音数据集中选取数据所生成的第一测试集,以及对所述第一语音数据集进行训练得到的第一语音模型参数,所述第一语音模型参数为隐马尔科夫模型和混合高斯模型参数;
获取模块,用于获取第二语音数据集,从所述第二语音数据集中随机选取数据生成第二测试集;
训练模块,用于检测到所述第二测试集与所述第一测试集满足相似条件,则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练,所述第二语音模型为隐马尔科夫模型和深度神经网络模型;所述相似条件为相似度超过相似度阈值,或者字识别错误率之差小于或等于容错阈值。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
生成模块,用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集;
模型构建模块,用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;
筛选模块,用于采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到字识别错误率在预设范围内的第一语音模型;
参数获取模块,用于将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。
11.根据权利要求10所述的装置,其特征在于,所述模型构建模块还用于每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练,重复预设数量的次数,得到预设数量的第一语音模型。
12.根据权利要求10或11所述的装置,其特征在于,所述筛选模块还用于采用预设数量的第一语音模型分别对所述第一测试集进行测试,得到各个第一语音模型的字识别错误率;以及根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
检测模块,用于采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;以及检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
14.根据权利要求9至11中任一项所述的装置,其特征在于,所述获取模块还用于获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值,从所述第二语音数据集中随机选取占所述比值的数据,生成所述第二测试集。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
生成模块,用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集;
模型构建模块,用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型;
筛选模块,用于采用所述预设数量的第一语音模型分别对所述第一测试集进行测试,得到所述预设数量中的最小的字识别错误率的第一语音模型;
参数获取模块,用于将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
检测模块,用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试,得到所述第二测试集所对应的字识别错误率;以及检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值,则表示所述第二测试集与所述第一测试集满足相似条件。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
18.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710143053.2A CN108305619B (zh) | 2017-03-10 | 2017-03-10 | 语音数据集训练方法和装置 |
TW107101731A TWI667054B (zh) | 2017-01-24 | 2018-01-17 | 飛行器飛行控制方法、裝置、飛行器及系統 |
PCT/CN2018/075595 WO2018161763A1 (zh) | 2017-03-10 | 2018-02-07 | 语音数据集训练方法、计算机设备和计算机可读存储介质 |
EP18764634.4A EP3594940B1 (en) | 2017-03-10 | 2018-02-07 | Training method for voice data set, computer device and computer readable storage medium |
US16/436,479 US11069342B2 (en) | 2017-03-10 | 2019-06-10 | Method for training voice data set, computer device, and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710143053.2A CN108305619B (zh) | 2017-03-10 | 2017-03-10 | 语音数据集训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108305619A CN108305619A (zh) | 2018-07-20 |
CN108305619B true CN108305619B (zh) | 2020-08-04 |
Family
ID=62872036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710143053.2A Active CN108305619B (zh) | 2017-01-24 | 2017-03-10 | 语音数据集训练方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11069342B2 (zh) |
EP (1) | EP3594940B1 (zh) |
CN (1) | CN108305619B (zh) |
WO (1) | WO2018161763A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305619B (zh) * | 2017-03-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
CN109408660B (zh) * | 2018-08-31 | 2021-08-10 | 安徽四创电子股份有限公司 | 一种基于音频特征的音乐自动分类的方法 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及系统 |
EP3963474A4 (en) | 2019-05-01 | 2022-12-14 | Microsoft Technology Licensing, LLC | METHOD AND SYSTEM FOR USING UNSUPERVISED LEARNING TO IMPROVE TEXT ON SUGGESTED CONTENT |
CN110265001B (zh) * | 2019-05-06 | 2023-06-23 | 平安科技(深圳)有限公司 | 用于语音识别训练的语料筛选方法、装置及计算机设备 |
CN110379416B (zh) * | 2019-08-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种神经网络语言模型训练方法、装置、设备及存储介质 |
KR102737990B1 (ko) * | 2020-01-23 | 2024-12-05 | 삼성전자주식회사 | 음성 데이터를 이용하여 챗봇과 관련된 인공지능 모델을 학습시키는 전자 장치 및 방법 |
US11727270B2 (en) * | 2020-02-24 | 2023-08-15 | Microsoft Technology Licensing, Llc | Cross data set knowledge distillation for training machine learning models |
CN112435230B (zh) * | 2020-11-20 | 2021-07-16 | 哈尔滨市科佳通用机电股份有限公司 | 一种基于深度学习的数据集生成方法及系统 |
CN112786051B (zh) * | 2020-12-28 | 2023-08-01 | 问问智能信息科技有限公司 | 一种语音数据的识别方法及装置 |
CN114049883B (zh) * | 2021-11-19 | 2025-07-01 | 展讯通信(上海)有限公司 | 语音识别方法及装置、计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US6697769B1 (en) * | 2000-01-21 | 2004-02-24 | Microsoft Corporation | Method and apparatus for fast machine training |
EP2048656A1 (en) * | 2007-10-10 | 2009-04-15 | Harman/Becker Automotive Systems GmbH | Speaker recognition |
CN103262156A (zh) * | 2010-08-27 | 2013-08-21 | 思科技术公司 | 语音识别语言模型 |
CN103903613A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104167206A (zh) * | 2013-05-17 | 2014-11-26 | 佳能株式会社 | 声学模型合并方法和设备以及语音识别方法和系统 |
CN104240699A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种简单有效的短语语音识别方法 |
CN105045819A (zh) * | 2015-06-26 | 2015-11-11 | 深圳市腾讯计算机系统有限公司 | 一种训练数据的模型训练方法及装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及系统 |
CN106228980A (zh) * | 2016-07-21 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4615385B2 (ja) | 2005-07-12 | 2011-01-19 | 株式会社沖データ | 画像読取装置 |
JP2009086581A (ja) * | 2007-10-03 | 2009-04-23 | Toshiba Corp | 音声認識の話者モデルを作成する装置およびプログラム |
CN101866418B (zh) | 2009-04-17 | 2013-02-27 | 株式会社理光 | 确定文档阅读顺序的方法和设备 |
JP6234060B2 (ja) * | 2013-05-09 | 2017-11-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム |
US9508347B2 (en) * | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
US10438581B2 (en) * | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
US9620145B2 (en) * | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US10019985B2 (en) * | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
CN104268127B (zh) | 2014-09-22 | 2018-02-09 | 同方知网(北京)技术有限公司 | 一种电子档版式文件阅读顺序分析的方法 |
CN104808799A (zh) | 2015-05-20 | 2015-07-29 | 成都通甲优博科技有限责任公司 | 一种能够识别手势的无人机及其识别方法 |
CN104941203A (zh) | 2015-06-03 | 2015-09-30 | 赵旭 | 一种基于手势轨迹识别的玩具及其识别、控制方法 |
US10529318B2 (en) * | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
CN105955308B (zh) | 2016-05-20 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 一种飞行器的控制方法和装置 |
CN106020227B (zh) | 2016-08-12 | 2019-02-26 | 北京奇虎科技有限公司 | 无人机的控制方法、装置 |
CN106339006B (zh) | 2016-09-09 | 2018-10-23 | 腾讯科技(深圳)有限公司 | 一种飞行器的目标跟踪方法和装置 |
CN108305619B (zh) * | 2017-03-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
CN106843489B (zh) | 2017-01-24 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 一种飞行器的飞行路线控制方法及飞行器 |
CN106774945A (zh) | 2017-01-24 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 一种飞行器飞行控制方法、装置、飞行器及系统 |
KR102399535B1 (ko) * | 2017-03-23 | 2022-05-19 | 삼성전자주식회사 | 음성 인식을 위한 학습 방법 및 장치 |
-
2017
- 2017-03-10 CN CN201710143053.2A patent/CN108305619B/zh active Active
-
2018
- 2018-02-07 EP EP18764634.4A patent/EP3594940B1/en active Active
- 2018-02-07 WO PCT/CN2018/075595 patent/WO2018161763A1/zh active Application Filing
-
2019
- 2019-06-10 US US16/436,479 patent/US11069342B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US6697769B1 (en) * | 2000-01-21 | 2004-02-24 | Microsoft Corporation | Method and apparatus for fast machine training |
EP2048656A1 (en) * | 2007-10-10 | 2009-04-15 | Harman/Becker Automotive Systems GmbH | Speaker recognition |
DE602007004733D1 (de) * | 2007-10-10 | 2010-03-25 | Harman Becker Automotive Sys | Sprechererkennung |
CN103262156A (zh) * | 2010-08-27 | 2013-08-21 | 思科技术公司 | 语音识别语言模型 |
CN104167206A (zh) * | 2013-05-17 | 2014-11-26 | 佳能株式会社 | 声学模型合并方法和设备以及语音识别方法和系统 |
CN103903613A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104240699A (zh) * | 2014-09-12 | 2014-12-24 | 浙江大学 | 一种简单有效的短语语音识别方法 |
CN105045819A (zh) * | 2015-06-26 | 2015-11-11 | 深圳市腾讯计算机系统有限公司 | 一种训练数据的模型训练方法及装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及系统 |
CN106228980A (zh) * | 2016-07-21 | 2016-12-14 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition;George E. Dahl et.al;《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20120131;第20卷(第1期);第30-42页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3594940A4 (en) | 2020-03-11 |
US11069342B2 (en) | 2021-07-20 |
EP3594940B1 (en) | 2023-07-26 |
WO2018161763A1 (zh) | 2018-09-13 |
EP3594940A1 (en) | 2020-01-15 |
US20190318723A1 (en) | 2019-10-17 |
CN108305619A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305619B (zh) | 语音数据集训练方法和装置 | |
EP4078918B1 (en) | Real-time voice phishing detection | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN103400577B (zh) | 多语种语音识别的声学模型建立方法和装置 | |
CN109065027B (zh) | 语音区分模型训练方法、装置、计算机设备及存储介质 | |
CN104903954B (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
CN102238190B (zh) | 身份认证方法及系统 | |
CN111081279A (zh) | 语音情绪波动分析方法及装置 | |
US20220108687A1 (en) | Signal processor employing neural network trained using evolutionary feature selection | |
US10706856B1 (en) | Speaker recognition using deep learning neural network | |
CN111788629B (zh) | 学习装置、声音区间检测装置及声音区间检测方法 | |
US9519049B1 (en) | Processing unknown radar emitters | |
CN115659248B (zh) | 一种电力设备缺陷识别方法、装置、设备及存储介质 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
US20080126094A1 (en) | Data Modelling of Class Independent Recognition Models | |
CN113555005A (zh) | 模型训练、置信度确定方法及装置、电子设备、存储介质 | |
CN113948067A (zh) | 一种具有听觉高保真度特点的语音对抗样本修复方法 | |
CN110335616B (zh) | 语音数据降噪方法、装置、计算机设备和存储介质 | |
KR20170081344A (ko) | 심층 신경망을 이용한 발화 검증 방법 | |
CN117574835A (zh) | Nand Falsh LLR分布的模拟方法、设备及存储介质 | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
CN113239075A (zh) | 一种施工数据自检方法及系统 | |
CN112862096A (zh) | 一种模型训练和数据处理方法、装置、设备及介质 | |
CN119479700B (zh) | 基于波搜索优化的新能源场站变压器声纹故障诊断方法 | |
KR20160109942A (ko) | 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |