CN112435654A - 通过帧插入对语音数据进行数据增强 - Google Patents
通过帧插入对语音数据进行数据增强 Download PDFInfo
- Publication number
- CN112435654A CN112435654A CN202010749013.4A CN202010749013A CN112435654A CN 112435654 A CN112435654 A CN 112435654A CN 202010749013 A CN202010749013 A CN 202010749013A CN 112435654 A CN112435654 A CN 112435654A
- Authority
- CN
- China
- Prior art keywords
- data
- frame
- speech
- feature
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
- G10L21/047—Time compression or expansion by changing speed using thinning out or insertion of a waveform characterised by the type of waveform to be thinned out or inserted
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及通过帧插入对语音数据进行数据增强。公开了一种用于语音数据的数据增强的技术。获得包括特征帧序列的原始语音数据。通过将一个或多个新帧插入所述特征帧序列中来生成所述原始语音数据的部分延长的副本。输出所述部分延长的副本作为增强语音数据用于训练声学模型。
Description
技术领域
本公开总体上涉及用于语音数据的数据增强技术,更具体地,涉及用于从原始语音数据生成增强数据的技术。
背景技术
数据增强是创建训练数据的改变的副本以增加训练数据集的数量的技术。已经提出了几种用于语音识别的增强技术,包括混响,噪声添加,音量扰动,编解码器增强,声道长度(VTL)扰动,节奏扰动(tempo perturbation),速度扰动(speed perturbation),语音合成,随机特征映射等。使用这些增强数据用于训练和调整用于语音识别的声学模型。
同时,诸如元音之类的特定语音的拉伸是已知的现象,尤其是在诸如自发性对话之类的非正式对话中。它降低了语音识别的准确性。
发明内容
根据本发明的实施例,提供了一种用于语音数据的数据增强的计算机实现的方法。该方法包括获得包括特征帧序列的原始语音数据。该方法还包括通过将一个或多个新帧插入所述特征帧序列中来生成所述原始语音数据的部分延长的副本。该方法还包括输出所述部分延长的副本作为用于训练声学模型的增强语音数据。
在此也描述和要求保护与本发明的一个或多个方面有关的计算机系统和计算机程序产品。
通过本发明的技术实现了附加的特征和优点。在此详细描述本发明的其他实施例和方面,并且将其视为所要求保护的发明的一部分。
附图说明
在说明书的结尾处的权利要求中特别指出并明确要求保护被视为本发明的主题。通过以下结合附图的详细描述,本发明的前述和其他特征和优点将变得显而易见,在附图中:
图1示出了根据本发明示例性实施例的语音识别系统的框图,该语音识别系统包括用于增强语音数据的数据增强模块,该数据增强模块可用于训练声学模型;
图2示出了根据本发明示例性实施例的数据增强模块的详细框图;
图3示出了根据本发明的特定实施例的将伪帧插入到满足预定插入标准的位置中的方式的示意图;
图4示出了根据本发明示例性实施例的通过将一个或多个伪帧插入原始语音数据来生成增强语音数据的过程的流程图;
图5示出了根据本发明示例性实施例的体现数据增强的计算机程序产品的伪代码;以及
图6示出了根据本发明的一个或多个实施例的计算机系统的示意图。
具体实施方式
现在,将使用特定的实施方式描述本发明,并且以下描述的实施方式应理解为仅是示例,而无意于限制本发明的范围。
根据本发明的一个或多个实施例针对用于数据增强的计算机实现的方法、计算机系统和计算机程序产品,用于基于新颖的延长扰动技术(prolongation perturbationtechnique)来训练声学模型,其中原始语音数据是在帧级别扩展以生成原始语音数据的部分延长的副本作为增强语音数据。
在下文中,首先参照图1、2和3,将描述根据本发明示例性实施例的基于新颖的延长扰动技术从原始语音数据生成用于训练声学模型的增强语音数据的计算机系统。然后,参照图4和图5,将描述根据本发明示例性实施例的基于新颖的延长扰动技术的用于从原始语音数据生成用于训练声学模型的增强语音数据的计算机实现的方法。然后,将描述对根据本发明示例性实施方式的新型延长扰动的实验研究。最后,参照图6,将描述根据本发明的一个或多个实施例的计算机系统的硬件配置。
参照图1,示出了根据本发明示例性实施例的包括数据增强模块130的语音识别系统100的框图。
如图1所示,语音识别系统100可以包括:特征提取器104,用于从输入中提取声学特征;语音识别引擎106,用于基于语音识别模型110进行语音识别;域适配模块120,用于执行域适配以获得构成语音识别模型110的声学模型112;话语数据存储装置140,用于存储用于域适配的话语数据的集合。根据本发明示例性实施例的语音识别系统100包括数据增强模块130,该数据增强模块130用于增强用于域适配的语音数据。
特征提取器104可以接收通过采样音频信号而数字化的音频信号数据102作为输入,该音频信号例如可以以预定的采样频率(采样间隔)和预定的比特深度从麦克风输入。特征提取器104还可以通过诸如互联网的网络从远程客户端设备接收音频信号数据102。特征提取器104被配置为通过任何已知的声学特征分析从接收的音频信号数据102中提取声学特征,以生成所提取的声学特征的序列。
声学特征可以包括但不限于MFCC(梅尔频率倒谱系数Mel Frequency CepstralCoefficient),LPC(线性预测编码)系数,PLP(感知线性预测)倒谱系数,对数梅尔谱(logMel spectrum)或其任何组合。声学特征可以进一步包括动态声学特征,诸如前述(静态)声学特征的增量特征(delta features)和增量-增量特征(delta-delta features)。
注意,声学特征序列的元素被称为“帧”,而音频信号数据102包括音频信号的一系列采样值。通常,对于窄带音频,音频信号数据102的采样频率为8,000Hz,对于宽带音频,音频信号数据102的采样频率为16,000Hz。声学特征序列中的每个帧的持续时间长于音频信号数据102的采样间隔,并且可以为大约毫秒。
语音识别引擎106被配置为从所提取的声学特征的输入序列转换为文本。语音识别引擎106基于语音识别模型110为提取的声学特征的输入序列预测最合理的语音内容,并输出解码结果108。
语音识别模型110包括声学模型112。声学模型112是表示输入的声学特征和构成语音或发声的语言单元之间的关系的模型。声学模型112是域适配模块120执行的域适配的目标。
在特定实施例中,声学模型112是基于人工神经网络的声学模型。用于声学模型112的神经网络可以基于任何已知的神经网络架构,包括混合NN-HMM模型,基于串联或“瓶颈特征”方法的其他类型的NN-HMM模型。在混合NN-HMM模型中,神经网络用于直接计算每个HMM状态(例如,单线电话,三线电话,五线电话)的观察概率分布,而不是GMM/HMM系统中标准的高斯混合模型(GMM)。神经网络可以是任何已知的体系结构,包括DNN(深度神经网络),CNN(卷积神经网络),RNN(递归神经网络),LSTM(长短期记忆)等。串联或“瓶颈特征”方法,使用神经网络来提取特征作为后续系统(例如标准GMM/HMM系统和具有与神经网络不同的体系结构或结构的其他基于神经网络的系统)的输入,以代替或补充标准声学特征。在其他特定实施例中,声学模型112可以是常规的GMM/HMM系统。
尽管在图1中省略了,语音识别模型110可以包括语言模型,该语言模型是表示单词序列的概率分布的模型,并且可以是但不限于基于n元语法模型或基于神经网络的模型,例如RNN。语音识别模型110可以进一步包括给出单词和音素之间的关系的字典。
语音识别引擎106基于声学特征的输入序列,通过使用语音识别模型110(包括声学模型112)找到具有最大似然性的单词序列,并输出找到的单词序列作为解码结果108。
域适配模块120被配置为通过使用给定的训练数据从已经受过训练的声学模型库114建立语音模型112,该模型将被语音识别引擎106使用来执行域适配过程。在所描述的实施例中,存在话语数据存储器140,其存储具有转录的话语数据的集合作为训练数据源。话语数据包括多个话语和对应的转录。注意,以语音信号数据的形式给出存储在话语数据存储器140中的话语数据,该音频信号数据与用于推断的音频信号数据102相同。话语数据可以存储在可操作地耦合到处理电路的内部或外部存储设备中。
已知当目标话语中的声学环境不同于训练数据的环境时,自动语音识别(ASR)会降低其性能。这样的声学环境不仅包括噪声的类型,而且包括讲话的风格。自发的交谈,非常快和慢的发声以及模棱两可的发音是众所周知的有害语音识别方式。
为了使已经训练的声学模型库114适配目标域,准备与目标域匹配的原始话语数据的集合以用于域适配。例如,当以成人自发谈话为目标时,可以准备成人自发谈话的话语数据。注意,目标域和话语数据的域通常彼此匹配,因此域适配有助于提高ASR准确性。
此外,诸如元音延长之类的特定语音的拉伸是已知的现象,尤其是在非正式对话中观察到的现象。在阅读语音的语音数据(阅读给定文本)中不会经常观察到元音延长,由于已经给出了与阅读语音相对应的正确的转录本,因此作为训练数据可能很容易获得元音的延长。另一方面,在自发的对话和随意的陈述中经常观察到元音的延长。但是有时候很难为这样的非正式对话获得正确的转录本。
为了进一步改善针对这种非正式或休闲对话的语音识别的性能,数据增强模块130被配置为生成具有特定讲话风格的增强语音数据,该特定讲话风格是诸如语音元音延长之类的特定语音的扩展,通过将原始语音数据转换为增强语音数据。数据增强模块130执行延长扰动以部分地拉伸原始语音数据。
根据本发明示例性实施例的数据增强模块130在帧级别执行数据增强。因为话语数据是以音频信号数据的形式给出的,所以在由数据增强模块130开始数据增强之前,带有标签的声学特征序列(在下文中,具有声学特征的帧被称为特征帧)通过执行特征提取和标签对准,从存储在话语数据存储器140中的话语数据准备代表语音(元音,辅音,静音等)的声音。准备的数据作为适配数据被存储在适配数据存储器142中。在下文中,从话语数据存储器140准备好的数据被称为原始语音数据。
用于准备原始语音数据的特征提取可以与特征提取器104在用于推断的前端处理中执行的提取相同。可以基于诸如强制对准技术的任何已知技术,通过将对应的转录与特征帧序列对准来进行标签对准。通过执行标签对准,将正确的标签分配给序列中的每个特征帧。因此,适配数据被准备做为特征帧序列,每个特征帧具有声学特征和标签。
注意,可以至少在音素(phoneme)或单音水平(元音,辅音,静音等)进行标签对准。出于数据增强的目的,不必在多电话级别(例如,三线电话,五线电话)执行对准。另外,出于数据增强的目的,代替将音素标签对准每个特征帧,可以通过检测与预定语音之一相对应的片段,将标签分配给每个帧或每个片段(包括多个帧)。预定语音可以包括元音,并且可以通过元音识别技术来进行检测。
数据增强模块130被配置为在特征帧级别上延长原始语音数据,以生成原始语音数据的部分延长的副本作为增强语音数据。适配数据存储器142存储原始语音数据和从原始语音数据生成的增强语音数据(延长语音数据)作为用于域适配模块120的适配数据。
参照图2,描述了数据增强模块130的详细框图。数据增强模块130读取存储在适配数据存储器142中的输入的原始语音数据,以获得原始语音数据的特征帧序列。输入的原始语音数据包括向量序列{xi}(={(静态特征xsi(例如40个维度),增量特征xΔi(例如40个维度),增量-增量特征xΔΔi(例如40个维度),标签xLi(例如1维))}),其中原始序列X(={x1,...,xN})的长度为N(N为整数)。
输出的部分延长的语音数据可以存储到适配数据存储器142。输出的延长的语音数据包括向量序列{yi}(={(静态特征ysi(例如40个维度),增量特征yΔi(例如40个维度),增量-增量特征yΔΔi(例如40个维度),标签yΔΔi(例如1个维度))}),其中延长序列Y(={y1,...,yM})的长度是M(M是整数且M>N)。在图2中,yj对应于插入的伪帧。
如图2所示,数据增强模块130可以包括插入位置确定子模块132,用于确定满足原始语音数据中的帧插入标准的位置;以及伪帧插入子模块134,用于将一个或多个新帧插入到原始语音数据的特征帧序列中;动态特征重新计算子模块136,用于为每个插入的新帧周围的相邻帧重新计算动态特征。
注意,在本文中,将插入到特征帧的原始序列中的新帧称为伪帧。还应注意,术语“伪帧”是指不是从实际原始音频信号生成而是人为地创建以便与先前和/或后续的帧具有相似性的帧。
插入位置确定子模块132被配置为基于预定的插入标准来确定原始语音数据中用于伪帧插入的位置。伪帧插入子模块134用于通过将一个或多个伪帧插入特征帧的原始序列中的一个或多个位置来生成原始语音数据的部分延长副本,所述特征帧的原始位置由插入位置确定子模块132确定。
在特定实施例中,预定插入标准定义以预定概率在与具有表示元音之一的标签的特征帧相对应的位置处插入伪帧。这是因为这样的事实,即在元音区域中经常观察到延长。此标准(称为是元音(is-vowel)标准)使原始语音数据得以部分和选择性地扩展。如果xLi∈{'a','i','u','e','o'}(对于日语音素标签而言)和Random<τ,则将is-vowel标准描述为返回“真(True)”的函数,其中Random()是返回范围在[0,1)内的随机值的函数,而τ是插入率。注意,如果在多电话级别(例如,三线电话,五线电话)执行上述对准,则xLi表示多电话序列中的中央单电话单元。对于原始序列中的每个帧位置,进行关于是否满足预定插入标准的确定。如果标准函数返回“真(True)”,则意味着在帧位置插入伪帧。
插入率τ可以在0.1到0.4的范围内,更优选在0.15到0.3的范围内。在特定实施例中,由于插入率τ的最佳值可能与数据集有关,因此通过尝试用暂定值尝试域适配并且通过找到使ASR的精度最大化的最佳值来调整插入率τ的值。
在is-vowel标准下,响应于处理帧与元音中的至少一个相关,同时在扫描伪原始语音数据的序列中的特征帧时,在与处理帧相对应的位置,以预定概率τ插入每个伪帧。
图3示出了根据本发明的特定实施例的将伪帧插入到满足预定插入标准的位置中的方式的示意图。图3的顶部图中示出了在伪帧插入之前特征帧的输入序列的示意图。图3的底部图中示出了伪帧插入之后特征帧的输出序列的示意图。
如图3的上视图中的虚线所示,有几个可能的插入位置,每个插入位置对应于具有元音标签的特征帧的下一个位置。在这些可能的插入位置中,以预定概率τ确定最终的插入位置。
注意,在所描述的实施例中,可能的插入位置对应于具有元音标签的特征框的下一个位置,而与特征框周围的上下文无关。但是,也可以考虑确定可能的插入位置的附加标准。在其他实施例中,将与具有特定标签图案的连续帧有关的位置选择为潜在插入位置。例如,可以将具有标签图案“n-o-X(沉默)”的连续三个帧中的中心帧的下一个位置确定为可能的插入位置,其中,中心符号表示中心帧的标签,被连字号连接到中心符号的左右符号代表先前帧和后续帧的标签。
如上所述,每个特征帧在向量中具有静态声学特征。每个伪帧具有通过对插入的伪帧的前一帧和后一帧进行插值而生成的静态声学特征的新值,如图3的底部图中的箭头所示。在所描述的实施例中,通过使用一个先前帧和一个后续帧进行线性插值。因此,可以将伪帧的静态声学特征的新值设置为一个先前帧和一个后续帧的平均值。然而,插值不限于线性插值,并且插值计算中包含的帧数不限于两个。一个或多个先前帧和/或一个或多个后续帧可以与样条插值、多项式插值等一起使用,以为插入的伪帧计算静态声学特征的新值。
此外,如图3的底部图中的斜角箭头所示,为每个插入的伪帧分配了分配给插入位置的先前帧的标签的副本。可替换地,每个插入的伪帧可以具有分配给插入位置的后续帧的标签的副本。
当每个特征帧除静态声学特征之外还具有动态声学特征时,伪帧的插入将影响插入的伪帧周围的相邻帧的动态特征,因为动态特征可能表示低阶特征的时间变化(这是增量特征的静态特征和增量-增量特征的增量特征)。
动态特征重新计算子模块136被配置为针对插入的伪帧周围的每个相邻帧重新计算动态声学特征的更新值。当动态声学特征包括增量特征和增量-增量特征时,对增量-增量特征的重新计算是针对一组比增量特征宽的相邻帧进行的。
在所描述的实施例中,针对先前的一帧和随后的一帧(±1个相邻帧)重新计算了增量特征,而针对先前的两个帧和随后的两个帧(±2个相邻帧)重新计算了增量-增量特征,如图3的底部图中的粗框所示。动态特征重新计算子模块136还被配置为针对每个插入的伪帧计算动态声学特征的新值。
每个特征帧优选地具有动态声学特征。但是,如果情况允许,可以省略动态声学特征。注意,当每个特征帧没有任何动态声学特征时,围绕插入的伪帧周围的每个相邻帧的重新计算也将被省略。
在具有预定插入标准的所描述的实施例中,所有元音(例如,日语的“a”,“i”,“u”,“e”,“o”)被用作限制伪帧插入的位置的预定语音。然而,用于限制伪帧插入的预定语音不限于元音。如果已知特定辅音或一组特定辅音经常以某种语言被延长,则该特定辅音或一组辅音可以被包括在预定语音中。但这可能取决于语言。
此外,在所描述的实施例中,插入率τ是固定的,而与插入位置和特定语音无关。然而,在其他实施例中,由于已知在起始位置,中间位置和最终位置上出现的延长率是不同的,并且延长通常发生在特定语言的单词的末尾,因此插入率τ可以根据每个单词段中的相对帧位置变化。另外,如果已知某个语音比其他语音更频繁地被延长,则可以根据标签的特定语音来改变插入率τ。
由于一个或多个伪帧被插入到原始序列中,因此序列Y的长度从N扩展到M的插入帧数,如图3底部图中的新旧索引所指示的那样。
返回参考图1,数据增强模块130被配置为将部分延长的副本作为增强的语音数据输出到适配数据存储器142。域适配模块120可以被配置为通过单独地或与原始语音数据和/或其他语音数据结合使用所得的增强语音数据以获得声学模型112对训练后的声学模型库114来执行域适配。当在域适配的训练过程中结合使用时,所得的增强语音数据可以随机作为混合物与原始数据和/或其他语音数据一起使用,可以与原始数据和/或其他语音数据顺序使用,或者可以与原始语音数据和/或其他语音数据交替使用。训练声学模型库114可以是已经使用其他训练数据集进行训练的通用声学模型。
在一个优选的实施例中,将得到的增强语音数据与通过任何已知的其他增强技术生成的其他增强语音数据结合使用,已知的其他增强技术包括混响,噪声添加,音量扰动,编解码器增强,VTL扰动,节奏扰动(tempo perturbation),速度扰动(speechperturbation),语音合成,随机特征映射等。
在所描述的实施例中,域适配是监督适配,因为训练数据源具有相应的转录,该转录可以由人类专家转录,因此可获得正确的标签。但是,也可以考虑无监督适配和半监督适配。请注意,无监督适配意味着使用现有语音识别引擎提供的标签作为正确标签,而不是使用人工手动提供的正确标签。注意,域适配是声学模型112的一种训练。
在特定实施例中,图1中所描述的模块104、106、120和130中的每一个和图2中所描述的数据增强模块130的子模块132、134和136中的每个子模块都可以被配置为包括但不限于实现为与诸如处理器、存储器等的硬件组件结合的包括程序指令和/或数据结构的软件模块;实现为包括电子电路的硬件模块;或实现为其组合。图1中描述的这些模块104、106、120和130和图2中所述的子模块132、134和136可以在诸如个人计算机和服务器机器之类的单个计算机设备上或者在诸如计算机设备,客户端-服务器系统,以及边缘计算系统,云计算系统的分布式的多个设备上的多个设备上实现。可以通过使用任何内部或外部存储设备或介质来提供话语数据存储器140和适配数据存储器142,实现数据增强模块130的计算机系统的处理电路可操作地耦合到该内部或外部存储设备或介质。
在图1中,在图1中描述的这些模块104、106、120和130和图2中描述的子模块132、134和136在多个计算机系统上实现的情况下,多个计算机系统之间的边界的示例也由虚线和点线示出。
在特定的实施例中,如图1中的虚线所示,特征提取器104,语音识别引擎106和包括由域适配模块120训练的声学模型112的语音识别模型110在用户侧的计算机系统上实现,而数据增强模块130和域适配模块120被实现在语音识别系统的提供方的计算机系统上。在另一变形实施例中,仅特征提取器104在用户侧上实现,并且语音识别引擎106和语音识别模型110在提供方侧上实现。在该实施例中,客户端的计算机系统仅将声学特征的序列发送到提供方的计算机系统,并且从提供方侧接收解码结果108。在另一变形实施例中,所有特征提取器104,语音识别引擎106和语音识别模型110都在提供者侧实现,并且客户端侧的计算机系统仅将音频信号数据102发送到提供方侧的计算机系统并从提供方侧接收解码结果108。
在其他实施例中,被描述为在语音识别系统(120、130)的提供方侧实现的前述组件可以进一步划分为不同的计算机系统。在特定实施例中,数据增强模块130仅在增强数据的提供方侧实现。数据增强模块130从给定的原始语音数据集合生成增强语音数据集合,并将增强语音数据集合传递到语音识别系统的提供方侧。由于根据本发明示例性实施例的数据增强是在特征帧级别执行的,因此包括接收一个或多个输入特征帧的输入层的声学模型将通过使用增强的语音数据在语音识别系统的提供方侧进行训练,所述输入特征帧(包括几个连续帧的上下文)与增强后的语音数据匹配。
注意,在所描述的实施例中,语音识别系统100被描述为具有传统架构的模型,其中分别构建的声学模型112和语言模型被分层地使用。然而,最近,已经开发了可以共同学习语音识别系统的传统组件的端到端模型,包括声学模型和语言模型。因此,作为领域适配或训练的目标的声学模型112被定义为具有处理输入声学特征的能力的模型。因此,本数据增强技术可应用于的声学模型可以包括传统的声学模型以及结合了声学模型功能的端到端模型。除了传统的GMM/HMM,混合NN/HMM,瓶颈或串联NN/HMM之外,这种可应用的声学模型的示例包括子词单元端到端模型和词单元端到端模型等。
在下文中,参考图4,示出了根据本发明示例性实施例的描述了通过将一个或多个伪帧插入原始语音数据来生成增强的语音数据的过程流程图。注意,图4中所示的过程可以由诸如实现图1所示的数据增强模块130和图2所示的子模块的计算机系统的处理电路之类的处理电路来执行。
例如,响应于从操作者接收到对数据增强的请求,图4中所示的过程在步骤S100开始。注意,图4中所示的过程被描述为针对话语数据的给定集合执行的过程。
在步骤S101中,处理单元可以从话语数据存储器140中的话语数据的给定集合中准备原始语音数据的集合。通过从包括一系列音频信号的采样值的音频信号数据中提取声学特征来生成原始语音数据。原始语音数据包括特征帧序列,每个特征帧有一个声学特征向量和一个标签。通过将给定的转录与特征帧序列对准或通过检测特征帧序列中的语音片段来分配每个标签。所生成的原始语音数据的集合被存储到适配数据存储器142中。
在步骤S102中,处理单元可以从适配数据存储器142中读取一个原始语音数据。在步骤S103中,处理单元可以在原始语音数据中设置第一帧位置。
在步骤S104中,处理单元可以通过插入位置确定子模块132确定当前正在处理的帧是否满足预定的插入标准。在具有is-vowel标准的特定实施例中,响应于与当前帧相对应的位置被分配了任何元音标签并且满足预定概率标准,确定当前帧满足预定插入标准。
如果处理单元在步骤S104中确定当前帧满足预定的插入标准(是),则处理可以进行到步骤S105。
在步骤S105中,处理单元可以通过对位置的先前帧和后续帧(当前帧及其下一帧)的静态声学特征进行插值,在当前帧之后的位置插入一个伪帧。插入的伪帧具有由插值生成的静态声学特征的新值。
在步骤S106,处理单元可以针对每个插入的伪帧周围的每个相邻帧重新计算动态声学特征的更新值。如果动态声学特征包括增量特征和增量-增量特征,则对一组比增量特征宽的相邻帧进行增量-增量特征的重新计算。在所描述的实施例中,针对前一帧和后一帧(±1个相邻帧)重新计算增量特征,针对前两帧和后两帧(±2个相邻帧)重新计算增量-增量特征。在步骤S106中还计算每个插入的伪帧的动态声学特征的新值。
在步骤S107中,处理单元可以将位置(即当前的处理帧)的前一帧的标签副本分配给新插入的伪帧,并且处理可以进行到步骤S108。
返回到步骤S104,当处理单元在步骤S104中确定当前帧不满足预定插入标准时(否),处理可以直接进行到步骤S108。
在步骤S108中,处理单元可以确定当前帧是否对应于当前正在处理的原始语音数据的最后帧。如果在步骤S108中处理单元确定当前帧未到达数据的最后帧(否),则处理可以分支到步骤S109。在步骤S109,处理单元可以前进到下一帧位置并且循环回到步骤S104以处理后续帧。另一方面,如果处理单元在步骤S108中确定当前帧到达数据的最后帧(是),则处理可以进行到步骤S110。
通过针对一个原始语音数据中的每一帧迭代地执行通过步骤S102至S109的处理,生成了当前正在处理的原始语音数据的部分延长的副本。在步骤S110,处理单元可以将部分延长的副本作为增强数据存储(或输出)到适配数据存储器142中。
在步骤S111,处理单元可以确定是否存在任何未处理的数据。如果在步骤S111中处理单元确定未处理的原始语音数据保留在适配数据存储器142中(是),则处理可以循环回到步骤S102以处理剩余的原始语音数据。另一方面,如果在步骤S111中处理单元确定适配数据存储器142中不再存在未处理的数据(否),则处理可以进行到步骤112,并在步骤S112处结束。
在完成图4所示的处理之后,处理单元可以单独地或与原始语音数据和/或其他语音数据组合地使用增强语音数据来执行声学模型的适配或训练)。
参照图5,描述了体现根据本发明示例性实施例的数据增强方法的计算机程序产品的伪代码。
在伪代码200中,第4-21行的代码210的部分定义了一个for循环,用于扫描原始语音数据中的特征帧。第7行和第14行的代码220的部分在预定的插入标准下定义了一个分支,其中函数“isProlong(xi)”表示上述标准函数,该函数取决于特定的插入标准。在is-vowel标准中,如果xLi是任何元音且Random()<τ,则函数isProlong(xi)返回“真(True)”。
行8-13的代码230的部分定义了根据静态声学特征通过当前处理帧(i)及其后续帧(i+1)的线性内插来插入伪帧。伪帧具有当前处理帧(xsi)和后续帧(xsi+1)的静态声学特征的平均值。插入的伪帧与当前处理帧具有相同的标签(yLi=xLi)。
行15-20的代码240的部分定义了动态声学特征的重新计算(或计算)。更具体地,行15-17定义了增量特征的重新计算(或计算),而行18-20定义了增量-增量特征的重新计算(或计算)。
注意,在前述实施例中,在数据增强之前给出了原始语音数据的动态声学特征,并且在数据增强的过程中至少部分地重新计算了增强语音数据的动态声学特征。但是,动态特征的计算方法不受限制。在其他实施例中,给出了具有空动态特征的原始语音数据,并且在数据增强期间计算了增强语音数据和原始语音数据的动态声学特征的值。
根据前述实施例,通过生成模拟特定语音的扩展(诸如元音延长)的增强数据,使用已与增强数据相适配的声学模型的语音识别性能有望得到改善尤其适用于非正式,随意和/或自发的对话,演示或说话,而对正常说话的性能没有任何有害的副作用,这也将在后面所述的实验结果中得到证明。
由于源自与目标域匹配的原始话语数据的集合的语音数据被准备用于域适配,因此增强语音数据也期望与目标域匹配,并且获得的声学模型112期望具有比经过训练的声学模型库114改善的目标域的音频信号数据102的准确度。
如上所述,出于域适配的目的,目标域和话语数据的域通常彼此匹配。但是,在与通过新颖的延长扰动生成的增强语音数据的域适配中,目标域和话语数据的域不必彼此完全匹配,这也将在后面描述的实验结果中证明。例如,当儿童自发对话是目标域时,成年女性进行的自发对话的话语数据可以单独或与儿童自发对话的话语数据组合来准备。如将在后面描述的实验结果中所证明的那样,即使适配数据仅包括成年女性进行的自发对话的话语数据,使用适配的声学模型的语音识别的性能也将针对儿童自发对话而得到改善。
在所描述的实施例中,已经描述了所得的增强语音数据用作适配数据,以将训练后的声学模型库114适配于目标域。但是,不限于使用适用于新颖的延长扰动的增强语音数据的训练类型。在其他特定实施例中,代替使用域适配模块120,训练模块通过使用包括所得的增强语音数据的训练语音数据的集合从头开始对声学模型112进行训练。
由于通过在特征帧级别插入伪帧来制作延长的语音数据,因此计算成本变低,并且所插入的伪帧仅影响原始语音数据中的有限区域。可以省略从原始波形中重新计算静态特征以及省略从一系列特征向量中重新生成对准,这是常规节奏和速度扰动方法(tempoand speed perturbation methods)通常需要的。注意,常规节奏和速度扰动方法都是音频级语音增强方法,它们直接修改音频信号数据并改变原始话语的速度或节奏,从而产生原始话语数据的改变的副本。由节奏或速度扰动生成的原始话语数据的改变的副本会整体上均匀延长。与常规节奏和速度扰动方法不同,原始语音数据的许多声学特征也会保留在延长的副本中。伪帧插入将少量噪声引入原始语音数据。因此,语音识别的性能期望从诸如噪声添加技术之类的其他增强技术中受益。
注意,根据本发明的实施例的新颖的延长扰动所适用的语言不受限制,并且这些语言可以包括但不限于阿拉伯语,中文,英语,法语,德语,日语,韩语,葡萄牙语,俄语,瑞典语,西班牙语。
实验研究
实现根据示例性实施例的图1和图2中所示的数据增强模块130和图4中所示的数据增强过程的程序针对给定的数据集合进行编码和执行。对于每个集合,将一组给定的数据分为两组数据:适配数据和测试数据。适配数据集用于对已经训练的基准声学模型(对应于图1中的训练声学模型库114)进行域适配。
基准模型
作为基准声学模型,使用了基于宽带(16kHz采样频率)CNN(卷积神经网络)的声学模型,该模型是在来自各种来源的大约2K小时的日本宽带语音上训练的。使用以Δ和ΔΔ特征增强的40维对数梅尔频谱(log-mel-frequency)作为输入声学特征对基于CNN的声学模型进行训练。通过在信号的短分析窗口(25毫秒)内将梅尔标度积分器(mel scaleintegrators)应用于功率谱估计,提取对数梅尔频谱,然后进行对数变换。在应用说话者无关的全局均值和方差归一化之后,每个语音帧还附加有11个连续帧的上下文。基于CNN的声学模型使用两个卷积层(每个具有128和256个隐藏节点)以及四个全连接层(每层具有2048个节点)来估计9300个输出目标的后验概率。第一特征提取层中的所有128个节点都附加有9x9过滤器,这些过滤器通过输入对数梅尔过滤器库表示形式进行二维卷积。第二个特征提取层(具有256个节点)具有一组类似的3x4过滤器,所述过滤器从上一层进行最大池合并后处理了非线性激活。然后将第二个特征提取层的非线性输出传递到后续的完全连接层上。所有层均使用sigmoid非线性函数。
适配之后,将基于CNN的声学模型(每个模型对应于图1中的声学模型112)与Trigram语言模型一起使用。词汇表包含300K个单词并且语言模型包含300M个三字组。
除非另有说明,否则示例和比较示例之间,除了用于声学模型的域适配的适配数据的内容以外,语音识别模型的任何部分都大致相同。实施例中神经网络的最终拓扑也与比较示例相同。除了基准以外,示例中数据增强后的后续适配方法也与比较示例相同。
数据收集
使用多个用于声学模型适配的数据集,在一系列实验中测试了新颖的数据增强技术。在第一组实验中,使用多种适配方法探索了各种模型的训练,其中包括新颖的数据增强技术和其他常规的增强技术。使用了四个数据集,其中包括来自真实自发会话数据集的两个示例和来自阅读语音数据集的两个示例。数据集的特征如下:
SP-Adult(访问):数据包含访问者和被访问者之间的一组对话。访问的主题是事先确定的。发言风格和内容不受限制,这些对话大多是自发的。语音是在录音室录制的。
SP-Child(讨论):数据包含初中班的三个学生之间的一组讨论。讨论的主题是事先由老师给定的。使用了从三个班级的录音中转录的数据。每个班级的学生都不同。两个半被用于声学模型适配并且一个班用于测试。
RD-Adult(朗读故事):数据包含来自提供的文本的阅读语音。成人演讲者在一个安静的房间里朗读简单的故事。
RD-Child(朗读短句):数据包含从小学年龄到高中生的儿童阅读的短句。
实验1(通过域内数据增强的有监督适配)
为了评估新颖的延长扰动技术,进行了声学域适配实验,其中以基于熵衰减的方式将交叉熵适配应用于数据集。基于权重衰减的正则器以及标准的交叉熵准则在各种参数设置下均优于简单的适配方法(微调)。
表1中总结了数据集的训练和测试小时数。
表1
如表1所述,适配数据的范围为2.7个小时到手动转录的自发谈话和朗读语音的10.2小时。来自同一数据集的0.5小时到2小时之间的时间用作实验的测试数据。由于日语分词存在歧义,因此将字符错误率(CER)用作评估指标。
研究了四种不同的适配方法,包括没有增强(比较示例2),节奏扰动(比较示例3),速度扰动(比较示例4)以及具有is-vowel标准的延长扰动(示例1)。注意,基准模型对应于比较示例1。在示例1和比较示例3和4中(除了基准和无增强之外),适配数据是原始语音数据集和通过各个方法获得的增强语音数据的混合。
无增强(比较示例2)仅使用原始适配数据。通过使用音频操纵工具Sox(http://sox.sourceforge.net/)进行节奏扰动(比较示例3)和速度扰动(比较示例4)。该工具可以直接在音频级别上修改语音信号,并更改原始语音的速度和节奏,从而生成原始语音数据的更改后的副本。通过使用Sox节奏功能将节奏修改为原始节奏速率的x0.9和x1.1,可以创建两个附加的节奏扰动的数据集。当c表示原始数据大小时,采样帧的数量更改为1c/0.9=1.11c和1c/1.1=0.90c。因此,重新生成了节奏修改后的数据的对准方式。音调没有因节奏扰动而改变。以类似的方式,通过使用Sox速度函数将速度修改为原始速度的x0.9和x1.1,创建了原始适应数据的两个附加副本以进行速度扰动。速度修改数据的对齐方式也已重新生成。通过增速来改变音高。
表2总结了使用四个数据集的实施例和比较示例的评价结果。
表2
(相对)表示相对改善(%)。
在表2中,SP-Adult列显示了各种适配数据集的CER。与基准(比较示例1)相比,未增强(比较示例2)的绝对值增加了0.19%,但改善幅度较小。当应用来自节奏扰动的数据时,可以看到进一步的改进(比较示例3)。速度扰动(比较示例4)的精度比节奏扰动数据增强(比较示例3)的精度更高。
与单独使用速度和节奏增强(比较示例3和4)相比,使用延长增强(示例1)导致进一步的改善。在实验中,插入率τ被设定为0.2。在is-vowel标准下,尽管大小根据原始数据而有所不同,但使用的适配数据量小于2.2c。在SP-Adult中,原始数据的50.2%被标记为“元音”,而适配数据的总量为2.10c(=1c+1.10c)。延长适配的适配数据总量在数据集中几乎相同。所有数据集的元音/辅音比率约为1.4。
当单独使用速度和节奏增强时,SP-Child列还显示了进一步的改进(比较示例3和4)。在RD-Adult和RD-Child数据集上,新型延长扰动的改进与节奏扰动或速度扰动的改进相当。
实验2(通过域外数据增强的有监督适配)
该实验涉及使成年女性声音集适配自发的儿童数据集(SP-Child)。由于成年女性的言语比成年男性的言语更类似于儿童言语,因此,按性别选择的成年训练数据有望对结果更加有益。假设应用延长的女性声音会导致更有效的适配数据进行修改,因为它模拟了原始女性声音数据中缺少的信息的效果。
自发日语的语料库(CSJ)(K.Maekawa,《自发日语的语料库:它的设计和评估》,在ISCA和IEEE关于自发语音处理和识别的研讨会论文集(SSPR 2003),2003年,第7-12页。)是一个自发日语的大规模数据库,其中包括学术演讲和演讲者的年龄和性别等元数据。从CSJ收集年轻女性的语音数据,并将其作为CSJ-F数据集的子集。如果发言人进行了两个以上的演讲,则使用第一个演讲来避免数据偏差。CSJ-F数据量为5.86小时。数据和适应性数据来自不同来源。测试数据来自SP-Child,适配数据来自CSJ-F。
与实验1相似,研究了四种不同的适配方法,包括不增强(比较示例6),节奏扰动(比较示例7),速度扰动(比较示例8)和is-vowel标准的延长扰动(示例2)。注意,基准模型对应于比较示例4。
表3总结了使用CSJ-F数据集的实施例和比较示例的评价结果。
表3
与基准(比较示例5)相比,将未增强(比较示例6)与CSJ-F数据集一起使用将准确性提高了1.5%CER,尽管与使用SP-Child数据的未增强(比较示例)相比该改善相对较小(如表2中所述)。与对速度和节奏增强进行的测试(比较示例7和8)相比,使用具有is-vowel标准的延长增强(示例2)可以进一步提高精度(相对1.57%)。
总结
在上述实验中,证明了新颖的延长扰动技术表现良好,并且对于自发成人数据提供了高达6.72%的相对改进,并且相对于基准适应性能平均提供了3.04%的相对改进。与速度扰动相比,新颖的延长增强也平均胜过1.28%。
还证明了新颖的延长增强具有较低的实施成本和较低的计算成本(不需要再生标签对准等)并且需要较少的扰动数据。
计算机硬件组件
现在参考图。参考图6,示出了可以用于语音识别系统100的计算机系统10的示例的示意图。图6所示的计算机系统10被实现为计算机系统。计算机系统10仅是合适的处理设备的一个示例,并且无意于对本文所述的本发明的实施例的使用范围或功能提出任何限制。无论如何,计算机系统10能够实现和/或执行以上阐述的任何功能。
计算机系统10可与许多其他通用或专用计算系统环境或配置一起操作。可能适合与计算机系统10一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统,服务器计算机系统,瘦客户端,胖客户端,手持式或笔记本电脑设备,车载设备,多处理器系统,基于微处理器的系统,机顶盒,可编程消费电子产品,网络PC,小型计算机系统,大型机计算机系统以及包括上述任何系统或设备的分布式云计算环境,等等。
可以在由计算机系统执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述计算机系统10。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程,程序,对象,组件,逻辑,数据结构等。
如图6所示,以通用计算设备的形式示出了计算机系统10。计算机系统10的组件可以包括但不限于处理器(或处理单元)12以及通过总线耦合到处理器12的存储器16,其中总线包括用各种总线架构中的任何一种的存储器总线或存储器控制器,以及处理器或本地总线。
计算机系统10包括多种计算机系统可读介质。这种介质可以是计算机系统10可访问的任何可用介质,并且包括易失性和非易失性介质,可移动和不可移动介质。
存储器16可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)。计算机系统10可以进一步包括其他可移动/不可移动,易失性/非易失性计算机系统存储介质。仅作为示例,可以提供存储系统18以用于读取和写入不可移动的非易失性磁性介质。如将在下面进一步示出和描述的,存储系统18可以包括至少一个程序产品,该程序产品具有被配置为执行本发明的实施例的功能的一组(例如,至少一个)程序模块。
具有一组(至少一个)程序模块的程序/实用程序可以作为示例而非限制地存储在存储系统18中,以及一种操作系统,一个或多个应用程序,其他程序模块和程序数据。每个操作系统,一个或多个应用程序,其他程序模块以及程序数据或其某种组合可包括联网环境的实现。程序模块通常执行本文所述的本发明实施例的功能和/或方法。
计算机系统10还可以与一个或多个外围设备24通信,例如键盘,定点设备,汽车导航系统,音频系统等;显示器26,使用户能够与计算机系统10交互的一个或多个设备;和/或使计算机系统10与一个或多个其他计算设备进行通信的任何设备(例如,网卡,调制解调器等)。这种通信可以经由输入/输出(I/O)接口22发生。仍然,计算机系统10可以经由网络适配器20与一个或多个网络通信,例如局域网(LAN),通用广域网(WAN)和/或公共网络(例如,因特网)。如图所示,网络适配器20经由总线与计算机系统10的其他组件通信。应当理解,尽管未示出,但是其他硬件和/或软件组件可以与计算机系统10结合使用。示例包括但不限于:微代码,设备驱动程序,冗余处理单元,外部磁盘驱动器阵列,RAID系统,磁带驱动器和数据档案存储系统等。
计算机程序实现
本发明可以是计算机系统、方法和/或计算机程序产品。该计算机程序产品可以包括其上具有用于使处理器执行本发明的方面的计算机可读程序指令的计算机可读存储介质。
计算机可读存储介质可以是有形设备,其可以保留和存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备,磁存储设备,光存储设备,电磁存储设备,半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机软盘,硬盘,动态或静态随机存取存储器(RAM),只读存储器(ROM),可擦除可编程只读存储器(EPROM或闪存),磁存储设备,便携式光盘只读存储器(CD-ROM),数字多功能磁盘(DVD),记忆棒,软盘,机械编码装置,例如打孔卡或具有其上记录有指令的凹槽中的凸起结构,以及上述内容的任何适当组合。如本文所使用的,计算机可读存储介质不应被理解为本身是瞬时信号,例如无线电波或其他自由传播的电磁波,通过波导传播的电磁波或其他传输介质(例如,穿过光纤电缆的光脉冲)或通过电线传输的电信号。
本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者通过网络(例如,互联网,局域网,广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆,光传输光纤,无线传输,路由器,防火墙,交换机,网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应的计算/处理设备内的计算机可读存储介质中。
用于执行本实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如"C"编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本实施例的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
这里使用的术语仅出于描述特定实施例的目的,并且不旨在限制本发明。如本文所使用的,单数形式“一个(a)”,“一个(an)”和“该(the)”也旨在包括复数形式,除非上下文另外明确指出。还将理解的是,当在本说明书中使用术语“包括(comprises)”和/或“包括(comprising)”时,其指定了所述特征、整数、步骤、操作、元件和/或组件的存在,但并不排除存在或一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组的添加。
所附权利要求中的所有手段或步骤加上功能元件的相应结构、材料、动作和等同物(如果有的话)旨在包括用于与其他权利要求保护的元件组合执行功能的任何结构,材料或动作。已经出于说明和描述的目的给出了对本发明的一个或多个方面的描述,但是其并不旨在是穷举的或将本发明限于所公开的形式。
在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域普通技术人员将是显而易见的。选择这里使用的术语是为了最好地解释实施例的原理,对市场上发现的技术的实际应用或技术上的改进,或者使本领域的其他普通技术人员能够理解这里公开的实施例。
Claims (13)
1.一种用于语音数据的数据增强的计算机实现的方法,该方法包括:
获取包括特征帧序列的原始语音数据;
通过将一个或多个新帧插入所述特征帧序列中,生成所述原始语音数据的部分延长的副本;和
输出所述部分延长的副本作为用于训练声学模型的增强语音数据。
2.根据权利要求1所述的方法,其中所述原始语音数据的所述特征帧序列具有表示语音的标签,并且响应于处理帧与预定语音的至少一个相关,将每个新帧插入与所述处理帧相对应的位置。
3.根据权利要求2所述的方法,其中所述预定语音包括一个或多个元音。
4.根据权利要求2所述的方法,其中每个新帧以预定概率插入到与与所述预定语音中的至少一个相关的所述处理帧相对应的位置处。
5.根据权利要求1所述的方法,其中每个特征帧具有静态声学特征,并且每个新帧具有通过内插先前帧和后续帧而生成的所述静态声学特征的新值。
6.根据权利要求5所述的方法,其中每个特征帧除了具有所述静态声学特征之外,还具有动态声学特征,并且所述方法还包括:
计算每个插入的新帧周围的每个相邻帧的所述动态声学特征的更新值。
7.根据权利要求6所述的方法,其中所述动态声学特征包括增量特征和增量-增量特征,针对所述增量-增量特征的所述计算是针对比所述增量特征更宽的一组相邻帧完成的。
8.根据权利要求2所述的方法,其中每个新帧具有分配给其前一帧或后一帧的标签的副本。
9.根据权利要求1所述的方法,其中所述方法还包括:
仅使用所述增强语音数据或与所述原始语音数据和/或其他语音数据结合使用所述增强语音数据来训练所述声学模型,所述声学模型包括接收一个或多个输入特征帧的输入层。
10.根据权利要求2所述的方法,其中通过从包括一系列音频信号的采样值的音频信号数据中提取声学特征来生成所述原始语音数据的所述特征帧序列,并且每个特征帧具有通过对准转录和所述特征帧序列或通过检测所述特征帧序列中的语音片段而分配的标签。
11.一种用于通过执行程序指令来对语音数据进行数据增强的计算机系统,所述计算机系统包括:
存储所述程序指令的存储器;
与所述存储器通信以执行程序指令的处理电路,其中所述处理电路被配置为执行如权利要求1至10的任何一项所述的方法所包含的步骤。
12.一种用于语音数据的数据增强的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有体现在其上的程序指令,所述程序指令可由计算机执行以使所述计算机执行执行如权利要求1至10的任何一项所述的方法所包含的步骤。
13.一种装置,包括一个或多个模块,所述一个或多个模块被配置得用于实现如权利要求1至10的任何一项所述的方法所包含的对应步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/535,829 US11227579B2 (en) | 2019-08-08 | 2019-08-08 | Data augmentation by frame insertion for speech data |
US16/535829 | 2019-08-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112435654A true CN112435654A (zh) | 2021-03-02 |
CN112435654B CN112435654B (zh) | 2024-05-24 |
Family
ID=74498567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010749013.4A Active CN112435654B (zh) | 2019-08-08 | 2020-07-30 | 通过帧插入对语音数据进行数据增强 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11227579B2 (zh) |
CN (1) | CN112435654B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421554A (zh) * | 2021-07-05 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音关键词检测模型处理方法、装置及计算机设备 |
CN113822044A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市木愚科技有限公司 | 语法纠错数据生成方法、装置、计算机设备及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102321798B1 (ko) * | 2019-08-15 | 2021-11-05 | 엘지전자 주식회사 | 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스 |
US11335329B2 (en) * | 2019-08-28 | 2022-05-17 | Tata Consultancy Services Limited | Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
US11361749B2 (en) * | 2020-03-11 | 2022-06-14 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
US11804212B2 (en) * | 2021-04-23 | 2023-10-31 | Google Llc | Streaming automatic speech recognition with non-streaming model distillation |
CN113593603A (zh) * | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
KR20230024106A (ko) * | 2021-08-11 | 2023-02-20 | 한국전자통신연구원 | 종단형 음성인식기의 학습데이터 증강방법 및 장치 |
CN115862601B (zh) * | 2023-03-01 | 2023-05-02 | 贝壳找房(北京)科技有限公司 | 数据生成方法、电子设备及可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040138888A1 (en) * | 2003-01-14 | 2004-07-15 | Tenkasi Ramabadran | Method and apparatus for speech reconstruction within a distributed speech recognition system |
CN103680496A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 基于深层神经网络的声学模型训练方法、主机和系统 |
US20170032244A1 (en) * | 2015-07-31 | 2017-02-02 | International Business Machines Corporation | Learning a model for recognition processing |
US20170098444A1 (en) * | 2015-10-06 | 2017-04-06 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method with acoustic modelling |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
US20180350347A1 (en) * | 2017-05-31 | 2018-12-06 | International Business Machines Corporation | Generation of voice data as data augmentation for acoustic model training |
CN109346063A (zh) * | 2018-10-12 | 2019-02-15 | 电子科技大学 | 一种语音数据增强方法 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5642466A (en) * | 1993-01-21 | 1997-06-24 | Apple Computer, Inc. | Intonation adjustment in text-to-speech systems |
US5729694A (en) * | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
GB9602701D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Image manipulation |
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
US6253182B1 (en) * | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
JP3450237B2 (ja) * | 1999-10-06 | 2003-09-22 | 株式会社アルカディア | 音声合成装置および方法 |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
WO2001078066A1 (en) * | 2000-04-06 | 2001-10-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech rate conversion |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
US7426470B2 (en) * | 2002-10-03 | 2008-09-16 | Ntt Docomo, Inc. | Energy-based nonuniform time-scale modification of audio signals |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
US20050227657A1 (en) * | 2004-04-07 | 2005-10-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for increasing perceived interactivity in communications systems |
KR20070070217A (ko) * | 2004-10-18 | 2007-07-03 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게통지하는 데이터 프로세싱 장치 및 방법 |
JP4241762B2 (ja) * | 2006-05-18 | 2009-03-18 | 株式会社東芝 | 音声合成装置、その方法、及びプログラム |
US8751229B2 (en) * | 2008-11-21 | 2014-06-10 | At&T Intellectual Property I, L.P. | System and method for handling missing speech data |
US10026407B1 (en) * | 2010-12-17 | 2018-07-17 | Arrowhead Center, Inc. | Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients |
US9031836B2 (en) * | 2012-08-08 | 2015-05-12 | Avaya Inc. | Method and apparatus for automatic communications system intelligibility testing and optimization |
JP6263868B2 (ja) * | 2013-06-17 | 2018-01-24 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP6410491B2 (ja) | 2014-06-27 | 2018-10-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム |
US10062374B2 (en) * | 2014-07-18 | 2018-08-28 | Nuance Communications, Inc. | Methods and apparatus for training a transformation component |
JP6628350B2 (ja) * | 2015-05-11 | 2020-01-08 | 国立研究開発法人情報通信研究機構 | リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置 |
US9818409B2 (en) * | 2015-06-19 | 2017-11-14 | Google Inc. | Context-dependent modeling of phonemes |
US10366687B2 (en) * | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
US10825445B2 (en) * | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
US11106974B2 (en) * | 2017-07-05 | 2021-08-31 | International Business Machines Corporation | Pre-training of neural network by parameter decomposition |
CN107680586B (zh) | 2017-08-01 | 2020-09-29 | 百度在线网络技术(北京)有限公司 | 远场语音声学模型训练方法及系统 |
US10650803B2 (en) * | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
CN108520741B (zh) * | 2018-04-12 | 2021-05-04 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
US11128435B2 (en) * | 2019-07-08 | 2021-09-21 | Tencent America LLC | Distributed and collaborative analytics of encrypted data using deep polynomial networks |
US20210035563A1 (en) * | 2019-07-30 | 2021-02-04 | Dolby Laboratories Licensing Corporation | Per-epoch data augmentation for training acoustic models |
-
2019
- 2019-08-08 US US16/535,829 patent/US11227579B2/en active Active
-
2020
- 2020-07-30 CN CN202010749013.4A patent/CN112435654B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040138888A1 (en) * | 2003-01-14 | 2004-07-15 | Tenkasi Ramabadran | Method and apparatus for speech reconstruction within a distributed speech recognition system |
CN103680496A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 基于深层神经网络的声学模型训练方法、主机和系统 |
US20170032244A1 (en) * | 2015-07-31 | 2017-02-02 | International Business Machines Corporation | Learning a model for recognition processing |
US20170098444A1 (en) * | 2015-10-06 | 2017-04-06 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method with acoustic modelling |
US20180350347A1 (en) * | 2017-05-31 | 2018-12-06 | International Business Machines Corporation | Generation of voice data as data augmentation for acoustic model training |
CN109697977A (zh) * | 2017-10-23 | 2019-04-30 | 三星电子株式会社 | 语音识别方法和设备 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN109346063A (zh) * | 2018-10-12 | 2019-02-15 | 电子科技大学 | 一种语音数据增强方法 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421554A (zh) * | 2021-07-05 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音关键词检测模型处理方法、装置及计算机设备 |
CN113421554B (zh) * | 2021-07-05 | 2024-01-16 | 平安科技(深圳)有限公司 | 语音关键词检测模型处理方法、装置及计算机设备 |
CN113822044A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市木愚科技有限公司 | 语法纠错数据生成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210043186A1 (en) | 2021-02-11 |
US11227579B2 (en) | 2022-01-18 |
CN112435654B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
Xiong et al. | Toward human parity in conversational speech recognition | |
US10726828B2 (en) | Generation of voice data as data augmentation for acoustic model training | |
Ghai et al. | Literature review on automatic speech recognition | |
Chen et al. | Advances in speech transcription at IBM under the DARPA EARS program | |
JP4274962B2 (ja) | 音声認識システム | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
Hemakumar et al. | Speech recognition technology: a survey on Indian languages | |
Demuynck | Extracting, modelling and combining information in speech recognition | |
Ali | Multi-dialect Arabic speech recognition | |
Manasa et al. | Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx | |
Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
Nga et al. | A Survey of Vietnamese Automatic Speech Recognition | |
Raghudathesh et al. | Review of toolkit to build automatic speech recognition models | |
Akther et al. | AUTOMATED SPEECH-TO-TEXT CONVERSION SYSTEMS IN BANGLA LANGUAGE: A SYSTEMATIC LITERATURE REVIEW | |
Rasipuram et al. | Integrated pronunciation learning for automatic speech recognition using probabilistic lexical modeling | |
Kamath et al. | Automatic speech recognition | |
Huy Nguyen | An end-to-end model for Vietnamese speech recognition | |
RU160585U1 (ru) | Система распознавания речи с моделью вариативности произношения | |
Gruhn et al. | Automatic speech recognition | |
Aboelela et al. | A Review of Speech Recognition and Application to Arabic Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |