CN110675864A - 一种语音识别方法及装置 - Google Patents
一种语音识别方法及装置 Download PDFInfo
- Publication number
- CN110675864A CN110675864A CN201910867294.0A CN201910867294A CN110675864A CN 110675864 A CN110675864 A CN 110675864A CN 201910867294 A CN201910867294 A CN 201910867294A CN 110675864 A CN110675864 A CN 110675864A
- Authority
- CN
- China
- Prior art keywords
- voice
- training data
- training
- speech
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种语音识别方法及装置,涉及语音处理技术领域,方法应用于语音识别系统,语音识别系统至少包括语音识别模型,语音识别模型包括多个语音识别子模型,方法包括:针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:语音识别子模型并行地从训练数据集合中获取第一语音训练数据;语音识别子模型根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,语音增强参数用于为第一语音训练数据增加背景噪声;语音识别子模型使用第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新语音识别子模型。通过在线生成训练数据,提高了语音识别的精准度。
Description
技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种语音识别方法及装置。
背景技术
随着信息技术的发展,语音识别技术已经走入了人们的生活。语音识别技术的应用领域已经十分广泛,诸如:语音输入系统,其相对于键盘输入法更符合人的日常习惯,更自然、更高效;也可以应用于诸如工业控制、语音拨号系统、智能家电、声控智能玩具等;近期更出现了智能对话控制系统,根据用户的语音操作,除了进行相应的控制处理之外,为用户提供更自然逼真的语音反馈。
但是现有技术中,由于受到语音识别训练数据的局限性,只能使用部分语音训练数据进行语音识别模型的训练,语音识别的精准度较差。
发明内容
本发明实施例提供一种语音识别方法及装置,至少能够提高语音识别的精准度。
一方面,本发明实施例提供一种语音识别方法,所述方法应用于语音识别系统,所述语音识别系统至少包括语音识别模型,所述语音识别模型包括多个语音识别子模型,各语音识别子模型具有相同的模型结构,所述方法包括:
针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:
所述语音识别子模型并行地从训练数据集合中获取第一语音训练数据,所述第一语音训练数据是从所述训练数据集中确定的,不同的语音识别子模型获取的第一语音训练数据不同;
所述语音识别子模型根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,所述语音增强参数用于为第一语音训练数据增加背景噪声;
所述语音识别子模型使用所述第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新所述语音识别子模型;所述其他语音识别子模型为各语音识别子模型中的任一个或多个。
在本发明实施例中,首先使用了多个语音识别子模型同时进行训练,加速了训练过程,其次,各个语音识别子模型在训练开始后,并行地从训练数据集合中获取第一语音训练数据,并根据获取语音增强参数来确定进行训练的第二语音训练数据,也就是说,在本发明实施例中,是在线生成训练数据的,并且在生成训练数据后,没有进行保存,而是直接进行训练。通过本发明实施例中的训练方法,可以遍历所有的第一语音训练数据,不会造成额外的存储压力,从而提高了语音识别的精准度。
可选的,所述语音识别子模型并行地从训练数据集合中获取第一语音训练数据,包括:
所述语音识别子模型在开始进行训练时,并行地从所述训练数据集合中的一个训练批次集合中获取所述第一语音训练数据;所述一个训练批次集合中的语音训练数据的数量与各语音识别子模型的数量相同且所述一个训练批次集合中的各语音训练数据的音频长度的差值在预设范围之内。
本发明实施例中,各个语音识别子模型获取的是同一个训练批次集合中的训练数据,这些训练数据之间的音频长度的差值在预设范围之内,能够有效的控制各个语音识别子模型的训练时间,保证总体训练时长,且能够保证各个语音识别子模型可以在匹配的时间内完成训练。
可选的,通过如下方式确定一个训练批次集合中的各语音训练数据,包括:
获取到所述训练数据集合中所有的语音训练数据后,按照各语音训练数据的音频长度进行排序;
按照所有语音识别子模型的数量,从排序后的各语音训练数据中依次划分各训练批次集合。
本发明实施例中,在获取到所有的语音训练数据,根据所有语音识别子模型的数量将所有的语音训练数据划分为不同的训练批次集合,保证了在每次训练过程中,各语音识别子模型的训练时间尽可能相同。
可选的,每个语音识别子模型训练结束后,还包括:
各语音识别子模型获取各自的待识别子音频,所述待识别子音频是将待识别音频按照各语音识别子模型的数量划分得到的,各语音识别子模型在训练结束后具有相同的模型结构以及相同的模型参数;
各语音识别子模型将所述待识别子音频转换为文本信息并输出所述文本信息。
本发明实施例中,在训练结束后,各语音识别子模型在训练结束后具有相同的模型结构以及相同的模型参数,各语音识别子模型获取各自的待识别子音频,所述待识别子音频是将待识别音频按照各语音识别子模型的数量划分得到的,通过训练好的各语音识别子模型进行语音识别,与现有技术相比,能够得到更准确的识别结果。
一方面,本发明实施例还提供一种语言识别装置,所述装置应用于语音识别子模型中,所述语言识别子模型适用于语音识别系统,所述语音识别系统至少包括语音识别模型,所述语音识别模型包括多个语音识别子模型,各语音识别子模型具有相同的模型结构,所述装置包括:
针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:
获取单元,用于并行地从训练数据集合中获取第一语音训练数据,所述第一语音训练数据是从所述训练数据集中确定的,不同的语音识别子模型获取的第一语音训练数据不同;
确定单元,用于根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,所述语音增强参数用于为第一语音训练数据增加背景噪声;
训练单元,用于使用所述第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新所述语音识别子模型;所述其他语音识别子模型为各语音识别子模型中的任一个或多个。
可选的,所述获取单元具体用于:
在开始进行训练时,并行地从所述训练数据集合中的一个训练批次集合中获取所述第一语音训练数据;所述一个训练批次集合中的语音训练数据的数量与各语音识别子模型的数量相同且所述一个训练批次集合中的各语音训练数据的音频长度的差值在预设范围之内。
可选的,所述装置还包括:
训练数据生成单元,用于获取到所述训练数据集合中所有的语音训练数据后,按照各语音训练数据的音频长度进行排序;按照所有语音识别子模型的数量,从排序后的各语音训练数据中依次划分各训练批次集合。
可选的,所述装置还包括:
识别单元,用于获取各自的待识别子音频,所述待识别子音频是将待识别音频按照各语音识别子模型的数量划分得到的,各语音识别子模型在训练结束后具有相同的模型结构以及相同的模型参数;将所述待识别子音频转换为文本信息并输出所述文本信息。
一方面,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现语音识别方法的步骤。
一方面,本发明实施例还提供一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行语音识别方法的步骤。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种场景构架示意图;
图2为本发明实施例提供的一种语言识别方法的流程示意图;
图3为本发明实施例提供的一种分布式训练方法的示意图;
图4为本发明实施例提供的一种分布式训练方法的示意图;
图5为本发明实施例提供的一种分布式训练方法的示意图;
图6为本发明实施例提供的一种适用于会议场景的语音识别方法的示意图;
图7为本发明实施例提供的一种语音识别装置的结构示意图;
图8为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例中的语音识别方法可以应用于如图1所示的语音识别系统100,语音识别系统100包括数据输入设备101、语音识别设备102、文本结果输出单元103,其中数据输入设备101指的是能够获取训练数据以及应用数据的设备,例如数据存储设备或者数据采集设备。语音识别设备102中包括多个语音识别模型,语音识别设备102用于进行语音识别以及模型训练,文本结果输出单元103用于将语音识别模型102的识别结果输出,文本结果输出单元103为显示设备。在图1中示例性的示出语音识别系统100的构成与连接关系,在图1中,数据输出设备1010为话筒,语音识别设备102为计算机设备,文本结果输出单元103为显示器。话筒与计算机设备通过音频总线连接,计算机设备与显示器通过显示总线连接。
值得说明的是,本发明实施例中的架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本发明实施例提供的技术方案的限制,对于其它的应用场景架构和业务应用,本发明实施例提供的技术方案对于类似的问题,同样适用。
基于图1所示的语音识别系统,本申请实施例提供了一种语音识别方法,该方法的流程可以由一种语音识别装置执行,所述方法应用于语音识别系统,所述语音识别系统至少包括语音识别模型,所述语音识别模型包括多个语音识别子模型,各语音识别子模型具有相同的模型结构,如图2所示,包括以下步骤:
针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:
步骤S201,所述语音识别子模型并行地从训练数据集合中获取第一语音训练数据,所述第一语音训练数据是从所述训练数据集中确定的,不同的语音识别子模型获取的第一语音训练数据不同。
具体的,在本申请实施例中,在各个语音识别子模型训练过程中,如图3所示,各个语音识别子模型从训练数据集中并行地获取数据,该数据为语音训练数据,这些语音训练数据为已标注识别结果的训练数据,例如,在训练数据集中,保存的一个训练数据为语音“我认识你”的语音数据,且针对该语音数据,保存了对应的识别结果为“我认识你”。
在本发明实施例中,各个语音识别子模型获取的第一语音训练数据不同,示例性的,存在4个语音识别子模型,在开始进行训练时,语音识别子模型1获取是语音训练数据1,语音识别子模型2获取的是语音训练数据2,语音识别子模型3获取的是语音训练数据3,语音识别子模型4获取的是语音训练数据4。
一种可选的实施例中,为了保证各个语音识别子模型的训练时间匹配,尽可能的相同,所以语音识别子模型在开始进行训练时,并行地从训练数据集合中的一个训练批次集合中获取第一语音训练数据;一个训练批次集合中的语音训练数据的数量与各语音识别子模型的数量相同且一个训练批次集合中的各语音训练数据的音频长度的差值在预设范围之内。
也就是说,在一个训练批次集合中保存了至少与语音识别子模型的数量相等的语音训练数据,也可以保存大于音识别子模型的数量的语音训练数据。
在本发明实施例中,在获取到训练数据集合中所有的语音训练数据后,按照各语音训练数据的音频长度进行排序;按照所有语音识别子模型的数量,从排序后的各语音训练数据中依次划分各训练批次集合。
也就是说,在获取到所有的语音训练数据后,根据各个语音训练数据的时长进行排序,可以按照升序的顺序排序,也可以按照降序的顺序排序。在排序后,按照所有语音识别子模型的数量进行划分批次,保证一个批次内的语音数据之间的长度的差值在预设范围之内。
示例性的,以获取的语音训练数据为12个数据为例进行说明,如表1所示,12个语音训练数据的时长分别为语音训练数据1的时长为1分钟,语音训练数据2的时长为1.5分钟,语音训练数据3的时长为1.1分钟,语音训练数据4的时长为1.5分钟,语音训练数据5的时长为1分钟,语音训练数据6的时长为2分钟,语音训练数据7的时长为2分钟,语音训练数据8的时长为1.6分钟,语音训练数据9的时长为1.1分钟,语音训练数据10的时长为2.1分钟,语音训练数据11的时长为1.49分钟,语音训练数据12的时长为1.98分钟。
表1
按照语音时长的升序排序,排序后的各语音训练数据如表2所示:
表2
语音训练数据 | 时长 |
语音训练数据1 | 1分钟 |
语音训练数据5 | 1分钟 |
语音训练数据3 | 1.1分钟 |
语音训练数据9 | 1.1分钟 |
语音训练数据11 | 1.49分钟 |
语音训练数据2 | 1.5分钟 |
语音训练数据4 | 1.5分钟 |
语音训练数据8 | 1.6分钟 |
语音训练数据12 | 1.98分钟 |
语音训练数据6 | 2分钟 |
语音训练数据7 | 2分钟 |
语音训练数据10 | 2.1分钟 |
在发明实施例中,语音识别子模型的数量为4个,所以每4个连续的语音训练数据作为一个批次,即将语音训练数据1、语音训练数据5、语音训练数据3以及语音训练数据9作为批次1,将语音训练数据11、语音训练数据2、语音训练数据4、语音训练数据8作为批次2,将语音训练数据12、语音训练数据6、语音训练数据7以及语音训练数据10作为批次3。
也就是说,在语音训练据集中包括了三个批次的数据,三个批次的数据可以分开存储,也可以一起保存,每个批次的语音训练数据都具有该批次的标识信息。
各个语音识别子模型并行地从训练数据集合中获取第一语音训练数据时,就是获取一个训练批次集合中的语音训练数据。可选的,在本发明实施例中,为了增加语音训练数据的随机性,将各个训练批次集合的顺序进行打乱,例如,以上面的三个批次为例,各个识别子模型可以先从批次2中获取语音训练数据,然后再从批次1中获取语音训练数据,然后再从批次3中获取语音训练数据。
步骤S202,所述语音识别子模型根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,所述语音增强参数用于为第一语音训练数据增加背景噪声。
具体的,在本发明实施例中,语音增强参数是为了模拟人在说话时会有回音、背景音等其它声音数据,为了更好的适用于各种环境来识别语音数据,所以需要对获取的第一语音训练数据增加语音增强参数。
在本发明实施例中,语音增强参数中可以包括冲击响应参数以及其它混响参数,在各个语音子模型获取的语音增强参数可以是众多语音增强参数中的一个,也可以是多个。各个语音子模型获取的语音增强参数可以相同,也可以不同。
在本发明实施例中,各个语音子模型可以遍历所有的语音增强参数,示例性的,语音增强参数有4个,语音子模型有4个,在一次迭代训练过程中,当各语音子模型获取了第一语音训练数据后,首先获取第一个语音增强参数,与第一语音训练数据一同确定第二语音训练数据,然后获取第二个语音增强参数,与第一语音训练数据一同确定第二语音训练数据,然后获取第三个语音增强参数,与第一语音训练数据一同确定第二语音训练数据,最后获取第四个语音增强参数,与第一语音训练数据一同确定第二语音训练数据。
可选的,在本发明实施例中,语音识别子模型根据获取语音增强参数及第一语音训练数据后,通过语音增强参数及第一语音训练数据的卷积计算确定第二语音训练数据。
步骤S203,所述语音识别子模型使用所述第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新所述语音识别子模型;所述其他语音识别子模型为各语音识别子模型中的任一个或多个。
具体的,在本发明实施例中,在确定了第二语音训练数据后,各语音识别子模型根据第二语音训练数据进行训练,在训练过程中,每个语音识别子模型的训练结果需要和其它语音识别子模型的训练结果联合,并更新各个语音识别子模型中的模型参数。
在本发明实施例中,每个语音识别子模型根据第二语音训练数据进行训练,得到训练结果的过程为训练过程中的前向传播过程,根据训练结果以及第二语音训练数据的真实结果调整各个语音识别子模型中的模型参数的过程为反向传播过程。
在本发明实施例中,一种可选的各个语音识别子模型的训练过程,如图4所示,各个语音识别子模型在获取到第二语音训练数据后,得到各个语音识别子模型的训练结果,通过各个识别子模型的训练结果与确定的第二语音训练数据的真实结果确定了调整值,然后将各个语音识别子模型的调整值通过一个计算模块计算,得到总调整值,然后将总调整值再传送给各个语音识别子模型,更新各个语音识别子模型的模型参数。
示例性的,在本发明实施例中,存在4个语音识别子模型,每个语音识别子模型在获取到第二语音训练数据后,得到了4个训练结果,各个语音识别子模型根据各自的训练结果以及第二语音训练数据的真实结果,确定了各自在的调整值,分别为调整值1、调整值2、调整值3以及调整值4,将四个调整值发送给计算模块,计算模块将四个调整值取平均值,得到总调整值,然后再将总调整值传回给各个语音识别子模型,各个语音识别子模型再根据总调整值调整模型参数。
在本发明实施例中,还有一种可选的各个语音识别子模型的训练过程,如图5所示,各个语音识别子模型在获取到第二语音训练数据后,得到各个语音识别子模型的训练结果,通过各个语音识别子模型的训练结果与确定的第二语音训练数据的真实结果确定了调整值,然后针对每个语音识别子模型,根据自身的调整值以及与该语音识别子模型邻近的语音识别子模型的调整值,得到总调整值,并通过总调整值调整自身的模型参数以及与该语音识别子模型邻近的语音识别子模型的模型参数。
示例性的,在本发明实施例中,存在4个语音识别子模型,其中按照语音识别子模型1、语音识别子模型2、语音识别子模型3以及语音识别子模型4的顺序组成一个环,然后以语音识别子模型1为例进行描述,解释各个语音识别子模型的训练过程。语音识别子模型1在获取到第二语音训练数据后,得到语音识别子模型1的训练结果,通过语音识别子模型1的训练结果与确定的第二语音训练数据的真实结果确定了调整值。
语音识别子模型1获取语音识别子模型4发送的调整值,语音识别子模型4是在获取到第二语音训练数据后,得到语音识别子模型4的训练结果,并通过语音识别子模型4的训练结果与确定的第二语音训练数据的真实结果确定了调整值。语音识别子模型1根据语音识别子模型4的调整值以及自身的调整值求平均,得到总调整值,并根据总调整值调整语音识别子模型1的模型参数,同时将语音识别子模型1将自身的调整值发送给语音识别子模型4,语音识别子模型4根据语音识别子模型1的调整值以及自身的调整值求平均,得到总调整值,并根据总调整值调整语音识别子模型4的模型参数。
在本发明实施例中,通过多次迭代训练,直到训练收敛时,得到了训练后的各语音识别子模型,各语音识别子模型具有相同的模型结构以及相同的模型参数。例如,在本发明实施例中,各语音识别子模型都包括三个卷积层、三个池化层以及两个全连接层,且各语音识别子模型中每个层的权重都相同。
在本发明实施例中,在各语音识别子模型训练结束后,就可以利用各语音识别子模型进行语音识别,具体的,在本发明实施例中,各语音识别子模型获取各自的待识别子音频,待识别子音频是将待识别音频按照各语音识别子模型的数量划分得到的;各语音识别子模型将待识别子音频转换为文本信息并输出文本信息。
为了更好的解释本申请实施例,下面结合一种具体的实施场景描述本申请实施例提供的一种语音识别方法,如图6所示,语音识别方法应用于会议场景,在会议场景识别前,首先需要训练语音识别模型,在本发明实施例中,训练阶段如图6所示,各个语音识别子模型从一个批次集合中获取第一语音训练数据,然后获取语音增强参数,根据获取的第一语音训练数据以及语音增强参数确定第二语音训练数据进行训练。
在各语音识别模型子模型训练接收后,通过布置的麦克风来接收待识别语音信息,然后将待识别语音信息输入至语音识别模型中,然后通过显示屏幕输出识别结果。
基于上述实施例,参阅图7所示,本发明实施例提供一种语言识别装置700,所述装置应用于语音识别子模型中,所述语言识别子模型适用于语音识别系统,所述语音识别系统至少包括语音识别模型,所述语音识别模型包括多个语音识别子模型,各语音识别子模型具有相同的模型结构,所述装置包括:
针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:
获取单元701,用于并行地从训练数据集合中获取第一语音训练数据,所述第一语音训练数据是从所述训练数据集中确定的,不同的语音识别子模型获取的第一语音训练数据不同;
确定单元702,用于根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,所述语音增强参数用于为第一语音训练数据增加背景噪声;
训练单元703,用于使用所述第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新所述语音识别子模型;所述其他语音识别子模型为各语音识别子模型中的任一个或多个。
可选的,所述获取单元701具体用于:
在开始进行训练时,并行地从所述训练数据集合中的一个训练批次集合中获取所述第一语音训练数据;所述一个训练批次集合中的语音训练数据的数量与各语音识别子模型的数量相同且所述一个训练批次集合中的各语音训练数据的音频长度的差值在预设范围之内。
可选的,所述装置还包括:
训练数据生成单元704,用于获取到所述训练数据集合中所有的语音训练数据后,按照各语音训练数据的音频长度进行排序;按照所有语音识别子模型的数量,从排序后的各语音训练数据中依次划分各训练批次集合。
可选的,所述装置还包括:
识别单元705,用于获取各自的待识别子音频,所述待识别子音频是将待识别音频按照各语音识别子模型的数量划分得到的,各语音识别子模型在训练结束后具有相同的模型结构以及相同的模型参数;将所述待识别子音频转换为文本信息并输出所述文本信息。
基于相同的技术构思,本申请实施例提供了一种计算机设备,如图8所示,包括至少一个处理器801,以及与至少一个处理器连接的存储器802,本申请实施例中不限定处理器801与存储器802之间的具体连接介质,图8中处理器801和存储器802之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器802存储有可被至少一个处理器801执行的指令,至少一个处理器801通过执行存储器802存储的指令,可以执行前述的语言识别方法中所包括的步骤。
其中,处理器801是计算机设备的控制中心,可以利用各种接口和线路连接终端设备的各个部分,通过运行或执行存储在存储器802内的指令以及调用存储在存储器802内的数据,从而获得客户端地址。可选的,处理器801可包括一个或多个处理单元,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。在一些实施例中,处理器801和存储器802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行语言识别方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法应用于语音识别系统,所述语音识别系统至少包括语音识别模型,所述语音识别模型包括多个语音识别子模型,各语音识别子模型具有相同的模型结构,所述方法包括:
针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:
所述语音识别子模型并行地从训练数据集合中获取第一语音训练数据,所述第一语音训练数据是从所述训练数据集中确定的,不同的语音识别子模型获取的第一语音训练数据不同;
所述语音识别子模型根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,所述语音增强参数用于为第一语音训练数据增加背景噪声;
所述语音识别子模型使用所述第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新所述语音识别子模型;所述其他语音识别子模型为各语音识别子模型中的任一个或多个。
2.根据权利要求1所述的方法,其特征在于,所述语音识别子模型并行地从训练数据集合中获取第一语音训练数据,包括:
所述语音识别子模型在开始进行训练时,并行地从所述训练数据集合中的一个训练批次集合中获取所述第一语音训练数据;所述一个训练批次集合中的语音训练数据的数量与各语音识别子模型的数量相同且所述一个训练批次集合中的各语音训练数据的音频长度的差值在预设范围之内。
3.根据权利要求2所述的方法,其特征在于,通过如下方式确定一个训练批次集合中的各语音训练数据,包括:
获取到所述训练数据集合中所有的语音训练数据后,按照各语音训练数据的音频长度进行排序;
按照所有语音识别子模型的数量,从排序后的各语音训练数据中依次划分各训练批次集合。
4.根据权利要求1至3任一项所述的方法,其特征在于,每个语音识别子模型训练结束后,还包括:
各语音识别子模型获取各自的待识别子音频,所述待识别子音频是将待识别音频按照各语音识别子模型的数量划分得到的,各语音识别子模型在训练结束后具有相同的模型结构以及相同的模型参数;
各语音识别子模型将所述待识别子音频转换为文本信息并输出所述文本信息。
5.一种语言识别装置,其特征在于,所述装置应用于语音识别子模型中,所述语言识别子模型适用于语音识别系统,所述语音识别系统至少包括语音识别模型,所述语音识别模型包括多个语音识别子模型,各语音识别子模型具有相同的模型结构,所述装置包括:
针对每次迭代训练过程中的每个语音识别子模型,执行如下操作直至训练结束:
获取单元,用于并行地从训练数据集合中获取第一语音训练数据,所述第一语音训练数据是从所述训练数据集中确定的,不同的语音识别子模型获取的第一语音训练数据不同;
确定单元,用于根据获取语音增强参数及第一语音训练数据确定第二语音训练数据,所述语音增强参数用于为第一语音训练数据增加背景噪声;
训练单元,用于使用所述第二语音训练数据进行训练,并根据本次迭代过程中其他语音识别子模型的训练结果更新所述语音识别子模型;所述其他语音识别子模型为各语音识别子模型中的任一个或多个。
6.根据权利要求5所述的装置,其特征在于,所述获取单元具体用于:
在开始进行训练时,并行地从所述训练数据集合中的一个训练批次集合中获取所述第一语音训练数据;所述一个训练批次集合中的语音训练数据的数量与各语音识别子模型的数量相同且所述一个训练批次集合中的各语音训练数据的音频长度的差值在预设范围之内。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练数据生成单元,用于获取到所述训练数据集合中所有的语音训练数据后,按照各语音训练数据的音频长度进行排序;按照所有语音识别子模型的数量,从排序后的各语音训练数据中依次划分各训练批次集合。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述装置还包括:
识别单元,用于获取各自的待识别子音频,所述待识别子音频是将待识别音频按照各语音识别子模型的数量划分得到的,各语音识别子模型在训练结束后具有相同的模型结构以及相同的模型参数;将所述待识别子音频转换为文本信息并输出所述文本信息。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~5任一权利要求所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~5任一权利要求所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910867294.0A CN110675864A (zh) | 2019-09-12 | 2019-09-12 | 一种语音识别方法及装置 |
PCT/CN2020/090894 WO2021047201A1 (zh) | 2019-09-12 | 2020-05-18 | 一种语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910867294.0A CN110675864A (zh) | 2019-09-12 | 2019-09-12 | 一种语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110675864A true CN110675864A (zh) | 2020-01-10 |
Family
ID=69078188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910867294.0A Pending CN110675864A (zh) | 2019-09-12 | 2019-09-12 | 一种语音识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110675864A (zh) |
WO (1) | WO2021047201A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN112216284A (zh) * | 2020-10-09 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 训练数据更新方法及系统、语音识别方法及系统、设备 |
WO2021047201A1 (zh) * | 2019-09-12 | 2021-03-18 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN113178192A (zh) * | 2021-04-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
WO2022037600A1 (zh) * | 2020-08-18 | 2022-02-24 | 深圳市万普拉斯科技有限公司 | 摘要记录方法、装置、计算机设备和存储介质 |
CN114842837A (zh) * | 2022-07-04 | 2022-08-02 | 成都启英泰伦科技有限公司 | 一种快速声学模型训练方法 |
WO2023211369A3 (zh) * | 2022-04-25 | 2024-03-21 | 脸萌有限公司 | 语音识别模型的生成方法、识别方法、装置、介质及设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066486B (zh) * | 2021-03-25 | 2023-06-09 | 北京金山云网络技术有限公司 | 数据识别方法、装置、电子设备和计算机可读存储介质 |
CN117153196B (zh) * | 2023-10-30 | 2024-02-09 | 深圳鼎信通达股份有限公司 | Pcm语音信号处理方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2126380A1 (en) * | 1993-07-22 | 1995-01-23 | Wu Chou | Minimum Error Rate Training of Combined String Models |
US20130185070A1 (en) * | 2012-01-12 | 2013-07-18 | Microsoft Corporation | Normalization based discriminative training for continuous speech recognition |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN108847222A (zh) * | 2018-06-19 | 2018-11-20 | Oppo广东移动通信有限公司 | 语音识别模型生成方法、装置、存储介质及电子设备 |
CN109346063A (zh) * | 2018-10-12 | 2019-02-15 | 电子科技大学 | 一种语音数据增强方法 |
CN109473123A (zh) * | 2018-12-05 | 2019-03-15 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法及装置 |
US20190130896A1 (en) * | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
CN109741731A (zh) * | 2019-01-08 | 2019-05-10 | 国家计算机网络与信息安全管理中心 | 一种语种训练数据获得方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10019985B2 (en) * | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
CN106297774B (zh) * | 2015-05-29 | 2019-07-09 | 中国科学院声学研究所 | 一种神经网络声学模型的分布式并行训练方法及系统 |
CN110675864A (zh) * | 2019-09-12 | 2020-01-10 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
-
2019
- 2019-09-12 CN CN201910867294.0A patent/CN110675864A/zh active Pending
-
2020
- 2020-05-18 WO PCT/CN2020/090894 patent/WO2021047201A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2126380A1 (en) * | 1993-07-22 | 1995-01-23 | Wu Chou | Minimum Error Rate Training of Combined String Models |
US20130185070A1 (en) * | 2012-01-12 | 2013-07-18 | Microsoft Corporation | Normalization based discriminative training for continuous speech recognition |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
US20190130896A1 (en) * | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
CN108847222A (zh) * | 2018-06-19 | 2018-11-20 | Oppo广东移动通信有限公司 | 语音识别模型生成方法、装置、存储介质及电子设备 |
CN109346063A (zh) * | 2018-10-12 | 2019-02-15 | 电子科技大学 | 一种语音数据增强方法 |
CN109473123A (zh) * | 2018-12-05 | 2019-03-15 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法及装置 |
CN109741731A (zh) * | 2019-01-08 | 2019-05-10 | 国家计算机网络与信息安全管理中心 | 一种语种训练数据获得方法及装置 |
Non-Patent Citations (1)
Title |
---|
SHANSHAN ZHANG: "Asynchronous stochastic gradient descent for DNN training", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, 2013》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021047201A1 (zh) * | 2019-09-12 | 2021-03-18 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN111613212B (zh) * | 2020-05-13 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
WO2022037600A1 (zh) * | 2020-08-18 | 2022-02-24 | 深圳市万普拉斯科技有限公司 | 摘要记录方法、装置、计算机设备和存储介质 |
CN112216284A (zh) * | 2020-10-09 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 训练数据更新方法及系统、语音识别方法及系统、设备 |
CN112216284B (zh) * | 2020-10-09 | 2024-02-06 | 携程计算机技术(上海)有限公司 | 训练数据更新方法及系统、语音识别方法及系统、设备 |
CN113178192A (zh) * | 2021-04-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
CN113178192B (zh) * | 2021-04-30 | 2024-05-24 | 平安科技(深圳)有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
WO2023211369A3 (zh) * | 2022-04-25 | 2024-03-21 | 脸萌有限公司 | 语音识别模型的生成方法、识别方法、装置、介质及设备 |
CN114842837A (zh) * | 2022-07-04 | 2022-08-02 | 成都启英泰伦科技有限公司 | 一种快速声学模型训练方法 |
CN114842837B (zh) * | 2022-07-04 | 2022-09-02 | 成都启英泰伦科技有限公司 | 一种快速声学模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021047201A9 (zh) | 2021-11-11 |
WO2021047201A1 (zh) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675864A (zh) | 一种语音识别方法及装置 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
WO2018133761A1 (zh) | 一种人机对话的方法和装置 | |
CN105895105B (zh) | 语音处理方法及装置 | |
CN110853663B (zh) | 基于人工智能的语音增强方法、服务器及存储介质 | |
CN107545897A (zh) | 对话行为推定方法、对话行为推定装置以及程序 | |
WO2015089148A2 (en) | Reducing dynamic range of low-rank decomposition matrices | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN104123938A (zh) | 语音控制系统、电子装置及语音控制方法 | |
TWI740315B (zh) | 聲音分離方法、電子設備和電腦可讀儲存媒體 | |
CN112786028B (zh) | 声学模型处理方法、装置、设备和可读存储介质 | |
CN109147801B (zh) | 语音交互方法、系统、终端及存储介质 | |
CN112837670A (zh) | 语音合成方法、装置及电子设备 | |
US10997966B2 (en) | Voice recognition method, device and computer storage medium | |
CN109102468A (zh) | 图像增强方法、装置、终端设备及存储介质 | |
CN113886640B (zh) | 数字人生成方法、装置、设备及介质 | |
CN110610697B (zh) | 一种语音识别方法及装置 | |
Choi et al. | Adversarial speaker-consistency learning using untranscribed speech data for zero-shot multi-speaker text-to-speech | |
CN108206020A (zh) | 一种语音识别方法、装置及终端设备 | |
CN111128120A (zh) | 文本转语音方法和装置 | |
CN113643706B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN115953509A (zh) | 唇动模型训练方法、唇动的驱动方法、装置和电子设备 | |
CN113192530A (zh) | 模型训练、嘴部动作参数获取方法、装置、设备及介质 | |
CN113838466A (zh) | 语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |
|
RJ01 | Rejection of invention patent application after publication |