CN112750446B - 语音转换方法、装置和系统及存储介质 - Google Patents
语音转换方法、装置和系统及存储介质 Download PDFInfo
- Publication number
- CN112750446B CN112750446B CN202011609527.6A CN202011609527A CN112750446B CN 112750446 B CN112750446 B CN 112750446B CN 202011609527 A CN202011609527 A CN 202011609527A CN 112750446 B CN112750446 B CN 112750446B
- Authority
- CN
- China
- Prior art keywords
- loss
- speech
- voice
- source
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 185
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 60
- 230000009466 transformation Effects 0.000 claims abstract description 38
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 35
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims description 117
- 230000006870 function Effects 0.000 claims description 27
- 238000002372 labelling Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 229920001451 polypropylene glycol Polymers 0.000 description 63
- 238000001514 detection method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012885 constant function Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音转换方法、装置和系统及存储介质。方法包括:获取源说话者的源语音;对源语音进行特征提取;将源识别声学特征输入语音识别模型,以获得源说话者的语音后验概率;将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得目标合成声学特征,目标合成声学特征包括与至少部分时间帧一一对应的合成声学特征向量,至少部分时间帧包括多个时间帧中的所有有效时间帧;基于有效声学特征进行语音合成,以获得目标说话者的有效语音;语音识别模型或特征转换模型还输出源音频状态信息,多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于源音频状态信息确定。这种联合建模的方式可有效提升语音转换的实时性。
Description
技术领域
本发明涉及语音信号处理技术领域,具体地,涉及一种语音转换方法、装置和系统及存储介质。
背景技术
在语音信号处理领域中,语音转换(即语音音色转换)技术是当前比较重要的一个研究方向。语音转换旨在修改任意说话者的音色,将其转换为某一固定说话者的音色,同时说话内容保持不变。语音转换涉及到前端信号处理、语音识别和语音合成技术。基于自动语音识别(ASR)技术的语音转换系统可以从任意的源输入语音中提取与说话人无关的特征,进而通过特征转换模型和声码器,转换得到具有指定目标说话者的音色的声音。
现有的语音转换技术,通常会将源语音数据输入预训练好的端点检测网络,检测出有效音频信号的起点和尾点,之后将有效音频信号输入与说话者无关的自动语音识别(SI-ASR)系统提取得到语音后验概率(PPG),并进行后续处理。端点检测网络通常由深度学习模型构建,训练该网络需要耗费一定的时间,并且在通过该网络进行端点检测的过程中,往往需要等到提供了一部分语音数据的时候才能判定有效音频信号的起点位置,这会造成一定的延时。
发明内容
为了至少部分地解决现有技术中存在的问题,提供一种语音转换方法、装置和系统及存储介质。
根据本发明一个方面,提供一种语音转换方法,包括:获取源说话者的源语音;对源语音进行特征提取,以获得源说话者的源识别声学特征;将源识别声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的语音后验概率,语音后验概率包括与多个时间帧一一对应的多个后验概率向量;将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征,其中,目标合成声学特征包括与至少部分时间帧一一对应的合成声学特征向量,多个时间帧中的每个时间帧属于有效时间帧或无效时间帧,有效时间帧是指所对应的源语音音频段是有效音频段的时间帧,无效时间帧是指所对应的源语音音频段是无效音频段的时间帧,至少部分时间帧包括多个时间帧中的所有有效时间帧;基于有效声学特征进行语音合成,以获得目标说话者的有效语音,其中,有效声学特征包括目标合成声学特征中的与所有有效时间帧一一对应的合成声学特征向量;其中,语音识别模型或特征转换模型还输出源音频状态信息,源音频状态信息包括与多个时间帧一一对应的多组帧音频状态信息,每组帧音频状态信息表示对应时间帧下的源语音音频段属于有效音频段还是无效音频段,多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于源音频状态信息确定。
示例性地,在基于有效声学特征进行语音合成,以获得目标说话者的有效语音之后,方法还包括:将有效语音与预设静音音频结合,以获得目标说话者的目标语音,其中,预设静音音频包括与多个时间帧中的所有无效时间帧一一对应的静音音频片段。
示例性地,语音识别模型包括第一共享网络层、语音后验概率输出层和音频状态输出层,将源识别声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的语音后验概率包括:将源识别声学特征输入第一共享网络层,以获得第一共享网络层输出的第一共享特征;将第一共享特征分别输入语音后验概率输出层和音频状态输出层,以获得语音后验概率输出层输出的语音后验概率以及音频状态输出层输出的源音频状态信息。
示例性地,语音识别模型还输出源音频状态信息,将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征包括:基于源音频状态信息确定多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧;从语音后验概率中提取所有有效时间帧所对应的后验概率向量;将所提取的后验概率向量输入特征转换模型,以获得目标合成声学特征。
示例性地,语音识别模型还输出源音频状态信息,在获取源说话者的源语音之前,方法还包括:获取样本说话者的样本训练语音、与样本训练语音相对应的标注语音类别信息和与样本训练语音相对应的标注音频状态信息,标注语音类别信息用于指示样本训练语音所包括的语音类别,标注音频状态信息用于指示样本训练语音中的每个音频段属于有效音频段还是无效音频段;对样本训练语音进行特征提取,以获得样本说话者的样本识别声学特征;将样本识别声学特征输入语音识别模型,以获得语音识别模型输出的样本说话者的预测语音后验概率和预测音频状态信息;基于标注语音类别信息和预测语音后验概率计算第一损失;基于标注音频状态信息和预测音频状态信息计算第二损失;结合第一损失和第二损失计算第一总损失;基于第一总损失对语音识别模型进行训练。
示例性地,结合第一损失和第二损失计算第一总损失包括:
基于以下公式计算第一总损失:
loss_net1=α1*loss1+β1*loss2;
α1+β1=1;
其中,loss_net1是第一总损失,loss1是第一损失,loss2是第二损失,α1和β1是预设系数,α1和β1的取值范围均为(0,1)。
示例性地,结合第一损失和第二损失计算第一总损失包括:
基于以下公式计算第一总损失:
loss_net1=f1(loss1*loss2)+α2*loss1+β2*loss2;
其中,loss_net1是第一总损失,loss1是第一损失,loss2是第二损失,f1(loss1*loss2)是与loss1和loss2相关的预设函数,α2和β2是预设系数,α2和β2的取值范围均为(0,1)。
示例性地,特征转换模型包括第二共享网络层、转换特征输出层和音频状态输出层,将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征包括:将语音后验概率输入第二共享网络层,以获得第二共享网络层输出的第二共享特征;将第二共享特征分别输入转换特征输出层和音频状态输出层,以获得转换特征输出层输出的目标合成声学特征以及音频状态输出层输出的源音频状态信息。
示例性地,特征转换模型还输出源音频状态信息,在基于有效声学特征进行语音合成,以获得目标说话者的有效语音之前,方法还包括:基于源音频状态信息确定多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧;从目标合成声学特征中提取所有有效时间帧所对应的合成声学特征向量,以获得有效声学特征。
示例性地,特征转换模型还输出源音频状态信息,在获取源说话者的源语音之前,方法还包括:获取目标说话者的目标训练语音和与目标训练语音相对应的标注音频状态信息,标注音频状态用于指示目标训练语音中的每个音频段属于有效音频段还是无效音频段;对目标训练语音进行特征提取,以获得目标说话者的标注识别声学特征和标注合成声学特征;将标注识别声学特征输入语音识别模型,以获得语音识别模型输出的目标说话者的预测语音后验概率;将预测语音后验概率输入特征转换模型,以获得特征转换模型输出的目标说话者的预测合成声学特征和预测音频状态信息;基于标注合成声学特征和预测合成声学特征计算第三损失;基于标注音频状态信息和预测音频状态信息计算第四损失;结合第三损失和第四损失计算第二总损失;基于第二总损失对特征转换模型进行训练。
示例性地,结合第三损失和第四损失计算第二总损失包括:
基于以下公式计算第二总损失:
loss_net2=α3*loss3+β3*loss4;
α3+β3=1;
其中,loss_net2是第二总损失,loss3是第三损失,loss4是第四损失,α3和β3是预设系数,α3和β3的取值范围均为(0,1)。
示例性地,结合第三损失和第四损失计算第二总损失包括:
基于以下公式计算第二总损失:
loss_net2=f2(loss3*loss4)+α4*loss3+β4*loss4;
其中,loss_net2是第二总损失,loss3是第三损失,loss4是第四损失,f2(loss3*loss4)是与loss3和loss4相关的预设函数,α4和β4是预设系数,α4和β4的取值范围均为(0,1)。
示例性地,语音识别模型包括以下一种或多种网络模型:长短期记忆网络模型、卷积神经网络模型、时延神经网络模型、深度神经网络模型;和/或,特征转换模型包括以下一种或多种网络模型:张量到张量网络模型、卷积神经网络模型、序列到序列模型、注意力模型。
示例性地,源识别声学特征为梅尔频率倒谱系数特征、感知线性预测特征、滤波器组特征或常Q倒谱系数特征,目标合成声学特征为梅尔倒谱特征、线谱对特征、梅尔频率后的线谱对特征、基于梅尔广义倒谱分析的线谱对特征或线性预测编码特征。
根据本发明另一方面,提供一种语音转换装置,包括:获取模块,用于获取源说话者的源语音;提取模块,用于对源语音进行特征提取,以获得源说话者的源识别声学特征;第一输入模块,用于将源识别声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的语音后验概率,语音后验概率包括与多个时间帧一一对应的多个后验概率向量;第二输入模块,用于将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征,其中,目标合成声学特征包括与至少部分时间帧一一对应的合成声学特征向量,多个时间帧中的每个时间帧属于有效时间帧或无效时间帧,有效时间帧是指所对应的源语音音频段是有效音频段的时间帧,无效时间帧是指所对应的源语音音频段是无效音频段的时间帧,至少部分时间帧包括多个时间帧中的所有有效时间帧;合成模块,用于基于有效声学特征进行语音合成,以获得目标说话者的有效语音,其中,有效声学特征包括目标合成声学特征中的与所有有效时间帧一一对应的合成声学特征向量;其中,语音识别模型或特征转换模型还输出源音频状态信息,源音频状态信息包括与多个时间帧一一对应的多组帧音频状态信息,每组帧音频状态信息表示对应时间帧下的源语音音频段属于有效音频段还是无效音频段,多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于源音频状态信息确定。
根据本发明另一方面,还提供一种语音转换系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述语音转换方法。
根据本发明另一方面,还提供一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述语音转换方法。
根据本发明实施例的语音转换方法、装置和系统及存储介质,通过联合建模的方式在语音识别模型或特征转换模型中增加用于甄别音频状态的功能。该语音转换技术可以在进行语音转换的过程中,与语音识别或特征转换同步地进行音频状态的判断。与采用端点检测网络的现有技术相比,这种方案可以不仅可以节约网络训练的时间,而且可以避免转换过程中的延时,从而可以有效提升语音转换的实时性。
在发明内容中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
以下结合附图,详细说明本发明的优点和特征。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述,用来解释本发明的原理。在附图中,
图1示出根据本发明一个实施例的语音转换方法的示意性流程图;
图2示出根据本发明一个实施例的语音转换系统的训练和转换阶段的示意性流程图;
图3示出根据本发明一个实施例的语音识别模型的训练架构的示意图;
图4示出根据本发明另一个实施例的语音转换系统的训练和转换阶段的示意性流程图;
图5示出根据本发明一个实施例的特征转换模型的训练架构的示意图;
图6示出根据本发明一个实施例的语音转换装置的示意性框图;以及
图7示出根据本发明一个实施例的语音转换系统的示意性框图。
具体实施方式
在下文的描述中,提供了大量的细节以便能够彻底地理解本发明。然而,本领域技术人员可以了解,如下描述仅示例性地示出了本发明的优选实施例,本发明可以无需一个或多个这样的细节而得以实施。此外,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行详细描述。
现有的基于ASR技术的语音转换方案,首先从海量语音训练数据中提取声学特征并从与语音训练数据对应的预标注文本中得到对应的音素状态集合,并采用深度学习模型对声学特征和音素状态之间的关系进行建模,训练得到SI-ASR模型。随后,可以利用训练好的SI-ASR模型从目标说话者的语音中提取PPG。PPG为与说话人无关的语音后验概率,主要用于表征语音的音频内容。随后,可以利用深度学习模型对目标说话者的声学特征和PPG之间的对应关系进行建模,训练得到特征转换模型(Feature Converter,FC)。完成所有模型的训练之后,当任何一个源说话者的语音输入时,可以首先通过SI-ASR模型提取该源说话者的PPG,之后通过FC将源说话者的PPG转换得到目标说话者的声学特征,再经过声码器合成出声音。最后获得的目标语音和源语音的内容相同,而音色与目标说话者的音色基本相同。
如上所述,现有的语音转换技术,通常会将源语音数据输入预训练好的端点检测网络,检测出有效音频信号的起点和尾点,之后再将有效音频信号输入SI-ASR系统提取得到PPG。这种采用端点检测网络的语音转换技术的网络训练时间较长,且在转换过程中会造成延时,难以满足语音转换的实时性要求。
为了至少部分地解决上述技术问题,本发明实施例提供一种语音转换方法、装置和系统及存储介质。根据本发明实施例,通过联合建模的方式在语音识别模型或特征转换模型中增加用于甄别音频状态的功能(模型中会增加相应的建模单元),这样源语音就可以无需再通过端点检测网络进行检测,而是可以随PPG或目标说话者的合成声学特征一起预测出音频状态,并可以仅针对有效音频段所对应的合成声学特征向量进行语音合成,输出与有效音频段对应的语音转换结果。该发明提供的联合建模方式,不但可以节约网络训练的时间,而且可以避免转换过程中的延时,提升语音转换的实时性。此外,上述联合建模方式还有助于提高语音转换结果的准确度。
为方便理解,下文将结合图1-5描述根据本发明实施例的语音转换方法的实现方式。首先,图1示出根据本发明一个实施例的语音转换方法100的示意性流程图。如图1所示,语音转换方法100包括步骤S110-S150。
在步骤S110,获取源说话者的源语音。
在步骤S120,对源语音进行特征提取,以获得源说话者的源识别声学特征。
为进行区分,在本发明中,通过特征提取获得的、可以用于输入语音识别模型进行语音识别的声学特征可以称为识别声学特征(类似于常规语音识别技术中识别出的声学特征),用于输入声码器中进行语音合成的声学特征可以称为合成声学特征(类似于常规语音合成技术中识别出的声学特征)。
本文所述的特征提取可以采用任何现有的或将来可能出现的特征提取方法实现,该特征提取可以视为语音识别的一部分。示例性地,此处提取出的源说话者的源识别声学特征可以为梅尔频率倒谱系数特征(MFCC)、感知线性预测特征(PLP)、滤波器组特征(FBank)或常Q倒谱系数特征(CQCC)。
在步骤S130,将源识别声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的PPG(可以称为源PPG),PPG包括与多个时间帧一一对应的多个后验概率向量。本领域技术人员可以理解,PPG中的每个后验概率向量可以包括与C1个语音类别一一对应的C1个元素,每个元素表示在对应时间帧下对应语音类别的后验概率,其中,C1为大于0的整数。
语音识别模型即上述SI-ASR模型。示例性地,语音识别模型可以包括以下一种或多种网络模型:长短期记忆网络模型(LSTM)、卷积神经网络模型(CNN)、时延神经网络模型(TDNN)、深度神经网络模型(DNN)。
PPG包括与时间范围和语音类别范围相对应的值集合。所述时间范围包括多个时间帧,所述语音类别范围包括多个预设的语音类别,所述值集合中的每个值表示对应的时间帧下对应语音类别的后验概率。具体地,PPG可以是一个时间对类别的矩阵,其表示对于一个话语的每个特定时间帧,每个语音类别的后验概率。语音类别可以指词、音素或音素状态(senone)等。在不同语音话语的语言内容/发音相同的地方,从SI-ASR模型获得的PPG相同。在一些实施例中,从SI-ASR模型获得的PPG可以表示语音数据在说话者归一化空间中的可听清晰度(articulation),并且独立于说话者与语音内容相对应。因此,这些PPG被视为源说话者和目标说话者之间的桥梁。
本文所述的时间帧可以是基于分帧技术获得的,任意两个时间帧的时间跨度是相同的,例如是5ms等。相邻时间帧之间可以存在重叠部分。在对语音数据(例如源语音、样本语音、目标语音等)进行特征提取之前,可以对语音数据进行预处理。预处理可以包括诸如分帧等。本领域技术人员可以理解语音数据的预处理方法,本文不赘述。通过分帧可以获得语音数据在多个时间帧中的每个时间帧下的音频段(例如源语音音频段),对每个时间帧下的音频段进行特征提取,可以获得每个时间帧下的声学特征向量,该声学特征向量例如是MFCC特征向量。假设输入语音识别模型的是第t个时间帧的MFCC特征向量,表示为Xt,则语音识别模型可以输出第t个时间帧下的后验概率向量Pt=(p(s|Xt)|s=1,2,......,C1),其中,p(s|Xt)是每个语音类别s的后验概率。PPG可以包括若干时间帧下的后验概率向量。本领域技术人员可以理解,PPG中的时间帧的数目根据输入语音转换系统的语音数据(例如源语音、样本语音、目标语音等)的长度而定,即在步骤S130及后续的步骤S140中提及的“多个时间帧”的数目根据源语音的长度而定。
在步骤S140,将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征,其中,目标合成声学特征包括与至少部分时间帧一一对应的合成声学特征向量,多个时间帧中的每个时间帧属于有效时间帧或无效时间帧,有效时间帧是指所对应的源语音音频段是有效音频段的时间帧,无效时间帧是指所对应的源语音音频段是无效音频段的时间帧,至少部分时间帧包括多个时间帧中的所有有效时间帧。
如上所述,源语音可以划分为与多个时间帧一一对应的音频段,每个时间帧所对应的音频段可以称为源语音音频段。有效音频段是指所包含的音频内容是语音内容的音频段,无效音频段是指所包含的音频内容是非语言内容的音频段。无效音频段可以包括静音、噪声等。语音数据(例如源语音、样本语音、目标语音等)中的每个音频段可以具有对应的音频状态,音频状态可以分为有效和无效两类,可以可选地分别用数值“1”和“0”表示。有效音频段所对应的时间帧为有效时间帧,无效音频段对应的时间帧为无效时间帧。
目标合成声学特征可以包括与至少部分时间帧一一对应的合成声学特征向量,合成声学特征向量的数目可以是一个或多个,合成声学特征向量的数目根据至少部分时间帧的数目而定。在一个示例中,可以将多个时间帧所对应的所有后验概率向量(即整个PPG)输入特征转换模型,获得与多个时间帧一一对应的合成声学特征向量,这些合成声学特征向量组成目标合成声学特征。在另一个示例中,可以仅将多个时间帧中的所有有效时间帧所对应的所有后验概率向量输入特征转换模型,获得与所有有效时间帧一一对应的合成声学特征向量,这些合成声学特征向量组成目标合成声学特征。
示例性地,特征转换模型可以包括以下一种或多种网络模型:张量到张量网络模型(T2T)、CNN、序列到序列模型(Seq2Seq)、注意力模型(attention)。例如,特征转换模型可以是双向长短期记忆网络模型(DBLSTM)。
示例性地,所述目标说话者的目标合成声学特征为梅尔倒谱特征(MCEP)、线谱对特征(LSP)、梅尔频率后的线谱对特征(Mel-LSP)、基于梅尔广义倒谱分析的线谱对特征(MGC-LSP)或线性预测编码特征(LPC)。
在步骤S150,基于有效声学特征进行语音合成,以获得目标说话者的有效语音,其中,有效声学特征包括目标合成声学特征中的与所有有效时间帧一一对应的合成声学特征向量;其中,语音识别模型或特征转换模型还输出源音频状态信息,源音频状态信息包括与多个时间帧一一对应的多组帧音频状态信息,每组帧音频状态信息表示对应时间帧下的源语音音频段属于有效音频段还是无效音频段,多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于源音频状态信息确定。
示例性而非限制性地,每组帧音频状态信息可以用单个状态数据表示,源音频状态信息可以用一系列状态数据表示。状态数据的取值可以是0或1,其中0代表无效音频段(例如静音、嘈杂的环境音等等);1代表有效音频段。
在一个实施例中,语音识别模型除输出PPG之外,还可以输出源音频状态信息。在另一个实施例中,特征转换模型除输出目标合成声学特征之外,还可以输出源音频状态信息。多个时间帧中的每个时间帧是有效时间帧还是无效时间帧可以基于源音频状态信息确定。
语音生成可以通过不同的声码器实现,本领域技术人员可以理解其实现方式,此处不赘述。声码器可以是诸如WaveRNN、LPCNet、Griffin-Lim等。
在语音合成时,可以仅将有效时间帧所对应的合成声学特征向量输入声码器进行语音合成,而忽略无效时间帧的信息。每个时间帧属于有效时间帧还是无效时间帧可以基于源音频状态信息确定,而源音频状态信息可以由语音识别模型或特征转换模型随PPG或目标合成声学特征一起输出。因此,这种方案可以在进行语音转换的过程中,与语音识别或特征转换同步地进行音频状态的判断。与采用端点检测网络的现有技术相比,这种方案可以不仅可以节约网络训练的时间,而且可以避免转换过程中的延时,从而可以有效提升语音转换的实时性。
此外,对于一些无效音频信号(例如语音数据中包含嘈杂噪声的音频部分),端点检测网络无法精确检测出,使得这些无效音频信号进入后续的语音识别和合成阶段,这不但会造成计算资源的浪费,并且会严重影响语音转换结果的准确度。而根据本发明实施例的语音转换方法,采用联合建模的方式将音频状态的预测功能融入语音识别模型或特征转换模型中,因此,音频状态建模单元(与音频状态判断相关的建模单元)将与语音识别建模单元(与语音识别相关的建模单元)或特征转换建模单元(与特征转换相关的建模单元)一起参与模型的训练。理论上来说,与单独的端点检测相比,这种联合建模的方式训练获得的语音转换系统可以具备更高的端点检测精度,即可以提升对于无效音频的判断精度,有助于减少计算资源的浪费,并有助于提升语音转换结果的准确度。
根据本发明实施例,在基于有效声学特征进行语音合成,以获得目标说话者的有效语音(步骤S150)之后,方法100还可以包括:将有效语音与预设静音音频结合,以获得目标说话者的目标语音,其中,预设静音音频包括与多个时间帧中的所有无效时间帧一一对应的静音音频片段。
预设静音音频可以包括一个或多个静音音频片段。在一个示例中,每个静音音频片段是通过机器生成的。例如,可以通过将音频片段的能量值设置为小于或等于预设值的方式获得静音音频片段。预设值是人为设定的。预设值是比较小的值,例如0。在另一个示例中,每个静音音频片段可以是真实的代表静音的音频片段。在实际的静音场景下,可以采集具有不同时长(即对应于不同帧数)的音频片段,作为上述一个或多个静音音频片段。在本文的描述中,不同的音频片段可以具有相同或不同的时长。“音频段”可以理解为每个时间帧下的音频片段,即不同音频段的时长是相同的。
在无效时间帧所在的时间线位置处,放置对应的静音音频片段。在有效时间帧所在的时间线位置处,放置有效语音的对应的有效音频片段。有效音频片段和静音音频片段按照各自对应的连续时间帧的帧数持续对应的时长。例如,假设源语音中的第1-5帧所对应的5个源语音音频段是无效音频段,第6-20帧所对应的15个源语音音频段是有效音频段,第21-30帧所对应的10个源语音音频段是无效音频段,则在最终生成的目标语音中,在第1-5帧处放置持续帧数为5帧的静音音频片段,在第6-20帧处放置持续帧数为15帧的有效音频片段(该有效音频片段是有效语音的至少一部分),在第21-30帧处放置持续帧数为10帧的静音音频片段,直至源语音划分出的所有时间帧所在的位置处都放置好对应的有效音频片段或静音音频片段为止。这样,可以获得目标语音,即最终的语音转换结果。
通过将有效语音直接与预设静音音频结合,可以简单快捷地生成与源语音大致匹配的目标语音。
根据本发明实施例,语音识别模型还输出源音频状态信息,在获取源说话者的源语音(步骤S110)之前,方法100还可以包括:获取样本说话者的样本训练语音、与样本训练语音相对应的标注语音类别信息和与样本训练语音相对应的标注音频状态信息,标注语音类别信息用于指示样本训练语音所包括的语音类别,标注音频状态信息用于指示样本训练语音中的每个音频段属于有效音频段还是无效音频段;对样本训练语音进行特征提取,以获得样本说话者的样本识别声学特征;将样本识别声学特征输入语音识别模型,以获得语音识别模型输出的样本说话者的预测PPG和预测音频状态信息;基于标注语音类别信息和预测PPG计算第一损失;基于标注音频状态信息和预测音频状态信息计算第二损失;结合第一损失和第二损失计算第一总损失;基于第一总损失对语音识别模型进行训练。
在本实施例中,由语音识别模型在提取PPG的同时,还输出源音频状态信息。
下面结合图2简单描述本发明涉及的一种语音转换系统的训练和实际应用方式。图2示出根据本发明一个实施例的语音转换系统的训练和转换阶段的示意性流程图。语音转换系统可以包括语音识别模型、特征转换模型和声码器。基于PPG的模型训练和实际语音转换的整个流程可以划分为三个阶段:第一训练阶段、第二训练阶段和转换阶段。第一训练阶段是语音识别模型的训练阶段,第二训练阶段是特征转换模型的训练阶段,转换阶段指的是模型训练好之后实际进行语音转换时执行的实际转换阶段。
在训练阶段,可以采用样本说话者的语音(可以称为第一样本训练语音)和目标说话者的语音(可以称为第一目标训练语音)进行模型训练。样本说话者和目标说话者可以是任意说话者,其中,训练模型时涉及的目标说话者与实际语音转换中的目标说话者保持一致,而训练模型时涉及的样本说话者与实际语音转换中的源说话者可以一致,也可以不一致。示例性地,样本说话者的语音可以来自TIMIT语料库。
参见图2,在第一训练阶段,从样本语音库(例如上述TIMIT语料库)获取样本说话者的第一样本训练语音以及与第一样本训练语音相对应的标注语音类别信息(可以称为第一标注语音类别信息)以及与第一样本训练语音相对应的标注音频状态信息(可以称为第一标注音频状态信息)。第一标注语音类别信息和第一标注音频状态信息属于标注数据(ground truth)。第一标注语音类别信息可以从预标注文本中获得,预标注文本中标注有第一样本训练语音所包括的每个语音类别(例如音素状态)。可以对第一样本训练语音进行特征提取,获得样本说话者的样本识别声学特征(可以称为第一样本识别声学特征)。图2示出第一样本识别声学特征为MFCC,但是这仅是示例而非对本发明的限制。随后,可以将第一样本识别声学特征输入语音识别模型net1,获得样本说话者的预测PPG(可以称为第一预测PPG)和预测音频状态信息(可以称为第一预测音频状态信息)。可以参考上述关于源说话者的PPG的描述理解第一预测PPG的数据形式,此处不赘述。类似地,可以参考上述关于源音频状态信息的描述理解第一预测音频状态信息的数据形式,此处不赘述。随后,可以基于第一标注语音类别信息和第一预测PPG计算第一损失,并基于第一标注音频状态信息和第一预测音频状态信息计算第二损失。结合第一损失和第二损失计算第一总损失,计算方式将在下文描述。随后,基于第一总损失对语音识别模型net1进行训练,获得训练好的语音识别模型net1。本领域技术人员可以理解如何基于损失(即损失值)训练网络模型,本文不赘述。
参见图2,在第二训练阶段,从目标语音库获取目标说话者的第一目标训练语音。对第一目标训练语音进行特征提取,获得目标说话者的声学特征。在第二训练阶段的特征提取步骤中,除提取出目标说话者的合成声学特征(可以称为第一标注合成声学特征)之外,还可以提取目标说话者的识别声学特征(可以称为第一标注识别声学特征)。图2示出第一标注合成声学特征为MCEP,第一标注识别声学特征为MFCC,但是这仅是示例而非对本发明的限制。随后,可以将第一标注识别声学特征输入训练好的语音识别模型net1,获得该模型输出的目标说话者的PPG(可以称为第二预测PPG)。随后,基于第二预测PPG和第一标注合成声学特征对特征转换模型net2进行训练,获得训练好的特征转换模型。训练好的特征转换模型可以实现PPG和目标说话者的合成声学特征之间的映射。在图2中,特征转换模型可以为DBLSTM模型,这仅是示例而非对本发明的限制。
声码器可以是预先训练好的,其可以采用类似常规语音合成技术中的声码器来实现。
随后,参见图2,在转换阶段,可以从任意源说话者的源语音中提取源识别声学特征,该源识别声学特征可以为MFCC特征,但这仅是示例。将提取的源识别声学特征输入训练好的语音识别模型net1,以获得源说话者的PPG以及源音频状态信息。可以基于源音频状态信息对源语音中的各源语音音频段进行筛选,确定各个有效音频段及对应的有效时间帧,并确定各个无效音频段及对应的无效时间帧。随后,可以将有效时间帧所对应的后验概率向量输入训练好的特征转换模型net2,获得有效声学特征,再通过声码器进行语音合成,获得有效语音。可选地,可以进一步将有效语音与预设静音音频结合,获得所需的目标语音。可选地,也可以直接将有效语音作为目标语音输出。
示例性地,在转换阶段中,还可以进行附加参数的提取,例如提取出源语音的基频信息F0以及非周期分量AP。此外,可以对F0进行线性转换。在声码器中进行语音合成时,可以将附加参数加入。例如,可以将目标说话者的有效声学特征与转换的F0以及AP一起输入声码器以合成有效语音。
上文已经结合图2描述了一种语音转换系统的训练的大致流程。下面结合图3描述语音识别模型在训练时的损失函数的计算方式。图3示出根据本发明一个实施例的语音识别模型的训练架构的示意图。在图3所示的实施例中,语音识别模型构建为包括第一共享网络层、PPG输出层和音频状态输出层。
如图3所示,将上述第一样本训练语音的声学特征(即第一样本识别声学特征)x输入第一共享网络层,获得第一训练共享特征。第一训练共享特征输入至PPG输出层,可以获得第一预测PPG,第一预测PPG可以用F1(x)表示。第一训练共享特征输入至音频状态输出层,可以获得第一预测音频状态信息,第一预测音频状态信息可以用F2(x)表示。
此外,可以预先获得第一标注语音类别信息和第一标注音频状态信息。第一标注语音类别信息可以从预标注文本获得。预标注文本标注了第一样本训练语音中的各时刻下的语音类别,该语音类别的标注可以是以语音类别为单位的,也可以是以时间帧为单位的。例如,内容为“你好”的样本语音的预标注文本可以标注了“n-i-h-ao”这样的音素序列以及每个音素的持续时间,可以从该音素序列中确定每个时间帧下的音素,进而获得所需的第一标注语音类别信息。又例如,内容为“你好”的样本语音的第一标注语音类别信息可以标注每个时间帧下的音素,例如“n”持续10个时间帧,则第1-10个时间帧可以标注为音素“n”,其他音素以此类推,不再赘述。
类似地,第一标注音频状态信息可以从预标注状态信息获得。预标注状态信息可以标注第一样本训练语音中的各时刻下的音频状态,该音频状态的标注可以是以连续的音频片段为单位的,也可以是以时间帧为单位的。例如,对于第一样本训练语音来说,中间第10-20帧是有效音频段,其他均是无效音频段,则可以将第10-20帧的起点(第10帧)和尾点(第20帧)标注出来,后续由机器自动分析每个时间帧下的音频段属于有效音频段还是无效音频段,并可以用1或0表示每个时间帧下的音频状态,获得一系列由1、0组成的数值序列,即第一标注音频状态信息。又例如,可以直接标注出每个时间帧下的音频状态,这样预标注状态信息即为所需的第一标注音频状态信息。
如图3所示,可以基于第一标注语音类别信息和第一预测PPG计算第一损失loss1,并可以基于第一标注音频状态信息和第一预测音频状态信息计算第二损失loss2。随后,可以结合loss1和loss2获得第一总损失loss_net1。可以基于第一总损失loss_net1对语音识别模型的参数进行迭代优化,直至模型收敛。
根据本发明实施例,结合第一损失和第二损失计算第一总损失可以包括:
基于以下公式计算第一总损失:
loss_net1=α1*loss1+β1*loss2;
α1+β1=1;
其中,loss_net1是第一总损失,loss1是第一损失,loss2是第二损失,α1和β1是预设系数,α1和β1的取值范围均为(0,1)。
根据本发明实施例,结合第一损失和第二损失计算第一总损失可以包括:
基于以下公式计算第一总损失:
loss_net1=f1(loss1*loss2)+α2*loss1+β2*loss2;
其中,loss_net1是第一总损失,loss1是第一损失,loss2是第二损失,f1(loss1*loss2)是与loss1和loss2相关的预设函数,α2和β2是预设系数,α2和β2的取值范围均为(0,1)。
示例性地,f1可以是log函数、sigmoid函数等。示例性地,f1还可以是常数函数,即其函数值为某一固定值。
根据本发明实施例,语音识别模型包括第一共享网络层、PPG输出层和音频状态输出层,将源识别声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的PPG(步骤S130)可以包括:将源识别声学特征输入第一共享网络层,以获得第一共享网络层输出的第一共享特征;将第一共享特征分别输入PPG输出层和音频状态输出层,以获得PPG输出层输出的PPG以及音频状态输出层输出的源音频状态信息。
在本实施例中,由语音识别模型在提取PPG的同时,还输出源音频状态信息。此时,语音识别模型可以构建为包括第一共享网络层、PPG输出层和音频状态输出层。图3示出了本实施例的语音识别模型的模型结构,可以参考图3理解。
示例性地,第一共享网络层可以包括以下一种或多种网络模型:LSTM、CNN、TDNN、DNN等。可选地,第一共享网络层可以通过上述几种网络模型拼接组合而成。示例性地,PPG输出层和音频状态输出层中任一者可以包括基本网络结构以及外接在基本网络结构之后的输出函数层。示例性地,所述基本网络结构可以包括以下一种或多种网络模型:LSTM、CNN、TDNN、DNN等。示例性地,所述输出函数层可以包括softmax函数层等。
根据本发明实施例,语音识别模型还输出源音频状态信息,将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征(步骤S140)可以包括:基于源音频状态信息确定多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧;从PPG中提取所有有效时间帧所对应的后验概率向量;将所提取的后验概率向量输入特征转换模型,以获得目标合成声学特征。
在一个示例中,在语音识别模型输出源音频状态信息的情况下,可以在进行特征转换之前,基于源音频状态信息分析出每个时间帧属于有效时间帧还是无效时间帧,并在特征转换之前将有效时间帧筛选出来,并仅将所有有效时间帧所对应的后验概率向量输入特征转换模型进行特征转换。在另一个示例中,在语音识别模型输出源音频状态信息的情况下,也可以将整个PPG输入特征转换模型进行特征转换,并在进行语音合成之前将有效时间帧筛选出来,仅基于所有有效时间帧所对应的合成声学特征向量进行语音合成。与后一示例相比,前一示例的计算量更小,有利于提高语音转换速度。
根据本发明实施例,特征转换模型还输出源音频状态信息,在获取源说话者的源语音(步骤S110)之前,方法100还可以包括:获取目标说话者的目标训练语音和与目标训练语音相对应的标注音频状态信息,标注音频状态用于指示目标训练语音中的每个音频段属于有效音频段还是无效音频段;对目标训练语音进行特征提取,以获得目标说话者的标注识别声学特征和标注合成声学特征;将标注识别声学特征输入语音识别模型,以获得语音识别模型输出的目标说话者的预测PPG;将预测PPG输入特征转换模型,以获得特征转换模型输出的目标说话者的预测合成声学特征和预测音频状态信息;基于标注合成声学特征和预测合成声学特征计算第三损失;基于标注音频状态信息和预测音频状态信息计算第四损失;结合第三损失和第四损失计算第二总损失;基于第二总损失对特征转换模型进行训练。
下面结合图4简单描述本发明涉及的另一种语音转换系统的训练和实际应用方式。图4示出根据本发明另一个实施例的语音转换系统的训练和转换阶段的示意性流程图。如图2类似地,基于PPG的模型训练和实际语音转换的整个流程可以划分为三个阶段:第一训练阶段、第二训练阶段和转换阶段。
在训练阶段,可以采用样本说话者的语音(可以称为第二样本训练语音)和目标说话者的语音(可以称为第二目标训练语音)进行模型训练。示例性地,第二样本训练语音可以来自TIMIT语料库。
参见图4,在第一训练阶段,从样本语音库(例如上述TIMIT语料库)获取样本说话者的第二样本训练语音以及与第二样本训练语音相对应的标注语音类别信息(可以称为第二标注语音类别信息)。第二标注语音类别信息与上述第一标注语音类别信息类似,此处不赘述。可以对第二样本训练语音进行特征提取,获得样本说话者的样本识别声学特征(可以称为第二样本识别声学特征)。图4示出第二样本识别声学特征为MFCC,但是这仅是示例而非对本发明的限制。随后,可以将第二样本识别声学特征输入语音识别模型net1,获得样本说话者的预测PPG(可以称为第三预测PPG)。随后,可以基于第二标注语音类别信息和第三预测PPG对语音识别模型net1进行训练,获得训练好的语音识别模型net1。
参见图4,在第二训练阶段,从目标语音库获取目标说话者的第二目标训练语音,并获得与第二目标训练语音相对应的标注音频状态信息(可以称为第二标注音频状态信息)。对第二目标训练语音进行特征提取,获得目标说话者的声学特征。在第二训练阶段的特征提取步骤中,除提取出目标说话者的合成声学特征(可以称为第二标注合成声学特征)之外,还可以提取目标说话者的识别声学特征(可以称为第二标注识别声学特征)。图4示出第二标注合成声学特征为MCEP,第二标注识别声学特征为MFCC,但是这仅是示例而非对本发明的限制。随后,可以将第二标注识别声学特征输入训练好的语音识别模型net1,获得该模型输出的目标说话者的PPG(可以称为第四预测PPG)。随后,将第四预测PPG输入特征转换模型net2,获得特征转换模型net2输出的目标说话者的预测合成声学特征和预测音频状态信息(可以称为第二预测音频状态信息)。随后,可以基于第二标注合成声学特征和预测合成声学特征计算第三损失,并基于第二标注音频状态信息和第二预测音频状态信息计算第四损失。结合第三损失和第四损失计算第二总损失,计算方式将在下文描述。随后,基于第二总损失对特征转换模型net2进行训练,获得训练好的特征转换模型net2。本领域技术人员可以理解如何基于损失(即损失值)训练网络模型,本文不赘述。
图4的声码器与图2的声码器类似,不赘述。
随后,参见图4,在转换阶段,可以从任意源说话者的源语音中提取源识别声学特征,该源识别声学特征可以为MFCC特征,但这仅是示例。将提取的源识别声学特征输入训练好的语音识别模型net1,以获得源说话者的PPG。随后,可以将PPG输入训练好的特征转换模型net2,获得目标合成声学特征和源音频状态信息。可以基于源音频状态信息对源语音中的各源语音音频段进行筛选,确定各个有效音频段及对应的有效时间帧,并确定各个无效音频段及对应的无效时间帧。从目标合成声学特征中筛选与所有有效时间帧对应的合成声学特征向量,再通过声码器进行语音合成,获得有效语音。可选地,可以进一步将有效语音与预设静音音频结合,获得所需的目标语音。可选地,也可以直接将有效语音作为目标语音输出。
示例性地,在转换阶段中,还可以进行附加参数的提取,例如提取出源语音的基频信息F0以及非周期分量AP。此外,可以对F0进行线性转换。在声码器中进行语音合成时,可以将附加参数加入。例如,可以将目标说话者的有效声学特征与转换的F0以及AP一起输入声码器以合成有效语音。
上文已经结合图4描述了一种语音转换系统的训练的大致流程。下面结合图5描述特征转换模型在训练时的损失函数的计算方式。图5示出根据本发明一个实施例的特征转换模型的训练架构的示意图。在图5所示的实施例中,特征转换模型构建为包括第二共享网络层、转换特征输出层和音频状态输出层。
如图5所示,将上述语音识别模型net1输出的第四预测PPG(用y表示)输入第二共享网络层,获得第二训练共享特征。第二训练共享特征输入至转换特征输出层,可以获得预测合成声学特征,预测合成声学特征可以用F3(y)表示。第二训练共享特征输入至音频状态输出层,可以获得第二预测音频状态信息,第二预测音频状态信息可以用F4(y)表示。
此外,可以预先获得第二标注音频状态信息。第二标注音频状态信息与上述第一标注音频状态信息类似,不再赘述。
如图5所示,可以基于第二标注合成声学特征和预测合成声学特征计算第三损失loss3,并可以基于第二标注音频状态信息和第二预测音频状态信息计算第四损失loss4。随后,可以结合loss3和loss4获得第二总损失loss_net2。可以基于第二总损失loss_net2对特征转换模型的参数进行迭代优化,直至模型收敛。
根据本发明实施例,结合第三损失和第四损失计算第二总损失包括:
基于以下公式计算第二总损失:
loss_net2=α3*loss3+β3*loss4;
α3+β3=1;
其中,loss_net2是第二总损失,loss3是第三损失,loss4是第四损失,α3和β3是预设系数,α3和β3的取值范围均为(0,1)。
根据本发明实施例,结合第三损失和第四损失计算第二总损失包括:
基于以下公式计算第二总损失:
loss_net2=f2(loss3*loss4)+α4*loss3+β4*loss4;
其中,loss_net2是第二总损失,loss3是第三损失,loss4是第四损失,f2(loss3*loss4)是与loss3和loss4相关的预设函数,α4和β4是预设系数,α4和β4的取值范围均为(0,1)。
示例性地,f2可以是log函数、sigmoid函数等。示例性地,f2还可以是常数函数,即其函数值为某一固定值。
根据本发明实施例,特征转换模型包括第二共享网络层、转换特征输出层和音频状态输出层,将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征(步骤S140)可以包括:将PPG输入第二共享网络层,以获得第二共享网络层输出的第二共享特征;将第二共享特征分别输入转换特征输出层和音频状态输出层,以获得转换特征输出层输出的目标合成声学特征以及音频状态输出层输出的源音频状态信息。
在本实施例中,由特征转换模型在转换获得目标合成声学特征的同时,还输出源音频状态信息。此时,特征转换模型可以构建为包括第二共享网络层、转换特征输出层和音频状态输出层。图5示出了本实施例的特征转换模型的模型结构,可以参考图5理解。
示例性地,第二共享网络层可以包括以下一种或多种网络模型:LSTM、CNN、TDNN、DNN等。可选地,第二共享网络层可以通过上述几种网络模型拼接组合而成。示例性地,转换特征输出层和音频状态输出层中任一者可以包括基本网络结构以及外接在基本网络结构之后的输出函数层。示例性地,所述基本网络结构可以包括以下一种或多种网络模型:LSTM、CNN、TDNN、DNN等。示例性地,所述输出函数层可以包括softmax函数层等。
根据本发明实施例,特征转换模型还输出源音频状态信息,在基于有效声学特征进行语音合成,以获得目标说话者的有效语音(步骤S150)之前,方法100还可以包括:基于源音频状态信息确定多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧;从目标合成声学特征中提取所有有效时间帧所对应的合成声学特征向量,以获得有效声学特征。
可以结合上文描述理解本实施例,不再赘述。
在实际的语音转换应用中,声音转换的场景比较复杂,输入的数据各种各样,不但包括纯净的人声,混有各种背景噪声的人声,也可能包括一些混杂的背景噪声。此外,用户在实际使用中,对语音转换的实时性要求比较高。本发明在建模的过程中融合了音频状态预测功能,无需单独的提前的音频状态检测,而是可以随语音识别或特征转换的步骤一起同步执行音频状态的预测,这样不但可以减少资源消耗,有助于提升语音转换的实时性。此外,这种联合建模方式采用的语音转换系统使得更准确的端点检测成为可能,从而有助于减少不必要的计算以及无效音频对语音转换结果的影响,因此在提升实时性的同时可以提升语音转换结果的准确度。
根据本发明另一方面,提供一种语音转换装置。图6示出了根据本发明一个实施例的语音转换装置600的示意性框图。
如图6所示,根据本发明实施例的语音转换装置600包括获取模块610、提取模块620、第一输入模块630、第二输入模块640和合成模块650。所述各个模块可分别执行上文中结合图1描述的语音转换方法100的各个步骤/功能。以下仅对该语音转换装置600的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块610用于获取源说话者的源语音。
提取模块620用于对源语音进行特征提取,以获得源说话者的声学特征。
第一输入模块630用于将源识别声学特征输入语音识别模型,以获得语音识别模型输出的源说话者的语音后验概率,语音后验概率包括与多个时间帧一一对应的多个后验概率向量。
第二输入模块640用于将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得特征转换模型输出的目标说话者的目标合成声学特征,其中,目标合成声学特征包括与至少部分时间帧一一对应的合成声学特征向量,多个时间帧中的每个时间帧属于有效时间帧或无效时间帧,有效时间帧是指所对应的源语音音频段是有效音频段的时间帧,无效时间帧是指所对应的源语音音频段是无效音频段的时间帧,至少部分时间帧包括多个时间帧中的所有有效时间帧。
合成模块650用于基于有效声学特征进行语音合成,以获得目标说话者的有效语音,其中,有效声学特征包括目标合成声学特征中的与所有有效时间帧一一对应的合成声学特征向量;其中,语音识别模型或特征转换模型还输出源音频状态信息,源音频状态信息包括与多个时间帧一一对应的多组帧音频状态信息,每组帧音频状态信息表示对应时间帧下的源语音音频段属于有效音频段还是无效音频段,多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于源音频状态信息确定。
根据本发明另一方面,提供一种语音转换系统。图7示出了根据本发明一个实施例的语音转换系统700的示意性框图。语音转换系统700包括处理器710和存储器720。
所述存储器720存储用于实现根据本发明实施例的语音转换方法100中的相应步骤的计算机程序指令。
所述处理器710用于运行所述存储器720中存储的计算机程序指令,以执行根据本发明实施例的语音转换方法100的相应步骤。
根据本发明另一方面,提供一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的语音转换方法100的相应步骤,并且用于实现根据本发明实施例的语音转换装置600中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语音转换系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (15)
1.一种语音转换方法,包括:
获取源说话者的源语音;
对所述源语音进行特征提取,以获得所述源说话者的源识别声学特征;
将所述源识别声学特征输入语音识别模型,以获得所述语音识别模型输出的所述源说话者的语音后验概率,所述语音后验概率包括与多个时间帧一一对应的多个后验概率向量;
将所述多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得所述特征转换模型输出的目标说话者的目标合成声学特征,其中,所述目标合成声学特征包括与所述至少部分时间帧一一对应的合成声学特征向量,所述多个时间帧中的每个时间帧属于有效时间帧或无效时间帧,所述有效时间帧是指所对应的源语音音频段是有效音频段的时间帧,所述无效时间帧是指所对应的源语音音频段是无效音频段的时间帧,所述至少部分时间帧包括所述多个时间帧中的所有有效时间帧;
基于有效声学特征进行语音合成,以获得所述目标说话者的有效语音,其中,所述有效声学特征包括所述目标合成声学特征中的与所述所有有效时间帧一一对应的合成声学特征向量;
其中,所述语音识别模型或所述特征转换模型还输出源音频状态信息,所述源音频状态信息包括与所述多个时间帧一一对应的多组帧音频状态信息,每组帧音频状态信息表示对应时间帧下的源语音音频段属于有效音频段还是无效音频段,所述多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于所述源音频状态信息确定;
所述语音识别模型还输出所述源音频状态信息,在所述获取源说话者的源语音之前,所述方法还包括:
获取样本说话者的样本训练语音、与所述样本训练语音相对应的标注语音类别信息和与所述样本训练语音相对应的标注音频状态信息,所述标注语音类别信息用于指示所述样本训练语音所包括的语音类别,所述标注音频状态信息用于指示所述样本训练语音中的每个音频段属于有效音频段还是无效音频段;
对所述样本训练语音进行特征提取,以获得所述样本说话者的样本识别声学特征;
将所述样本识别声学特征输入所述语音识别模型,以获得所述语音识别模型输出的所述样本说话者的预测语音后验概率和预测音频状态信息;
基于所述标注语音类别信息和所述预测语音后验概率计算第一损失;
基于所述标注音频状态信息和所述预测音频状态信息计算第二损失;
结合所述第一损失和所述第二损失计算第一总损失;
基于所述第一总损失对所述语音识别模型进行训练;
或,
所述特征转换模型还输出所述源音频状态信息,在所述获取源说话者的源语音之前,所述方法还包括:
获取所述目标说话者的目标训练语音和与所述目标训练语音相对应的标注音频状态信息,所述标注音频状态用于指示所述目标训练语音中的每个音频段属于有效音频段还是无效音频段;
对所述目标训练语音进行特征提取,以获得所述目标说话者的标注识别声学特征和标注合成声学特征;
将所述标注识别声学特征输入所述语音识别模型,以获得所述语音识别模型输出的所述目标说话者的预测语音后验概率;
将所述预测语音后验概率输入所述特征转换模型,以获得所述特征转换模型输出的所述目标说话者的预测合成声学特征和预测音频状态信息;
基于所述标注合成声学特征和所述预测合成声学特征计算第三损失;
基于所述标注音频状态信息和所述预测音频状态信息计算第四损失;
结合所述第三损失和所述第四损失计算第二总损失;
基于所述第二总损失对所述特征转换模型进行训练。
2.根据权利要求1所述的语音转换方法,其中,在所述基于有效声学特征进行语音合成,以获得所述目标说话者的有效语音之后,所述方法还包括:
将所述有效语音与预设静音音频结合,以获得所述目标说话者的目标语音,其中,所述预设静音音频包括与所述多个时间帧中的所有无效时间帧一一对应的静音音频片段。
3.根据权利要求1所述的语音转换方法,其中,所述语音识别模型包括第一共享网络层、语音后验概率输出层和音频状态输出层,所述将所述源识别声学特征输入语音识别模型,以获得所述语音识别模型输出的所述源说话者的语音后验概率包括:
将所述源识别声学特征输入所述第一共享网络层,以获得所述第一共享网络层输出的第一共享特征;
将所述第一共享特征分别输入所述语音后验概率输出层和所述音频状态输出层,以获得所述语音后验概率输出层输出的所述语音后验概率以及所述音频状态输出层输出的所述源音频状态信息。
4.根据权利要求1所述的语音转换方法,其中,所述语音识别模型还输出所述源音频状态信息,所述将所述多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得所述特征转换模型输出的目标说话者的目标合成声学特征包括:
基于所述源音频状态信息确定所述多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧;
从所述语音后验概率中提取所述所有有效时间帧所对应的后验概率向量;
将所提取的后验概率向量输入所述特征转换模型,以获得所述目标合成声学特征。
5.根据权利要求1所述的语音转换方法,其中,所述结合所述第一损失和所述第二损失计算第一总损失包括:
基于以下公式计算所述第一总损失:
loss_net1 = α 1*loss1+β 1*loss2;
α 1 +β 1 = 1;
其中,loss_net1是所述第一总损失,loss1是所述第一损失,loss2是所述第二损失,α 1和β 1是预设系数,α 1和β 1的取值范围均为(0, 1)。
6.根据权利要求1所述的语音转换方法,其中,所述结合所述第一损失和所述第二损失计算第一总损失包括:
基于以下公式计算所述第一总损失:
loss_net1 = f1(loss1*loss2) + α 2*loss1 + β 2*loss2;
其中,loss_net1是所述第一总损失,loss1是所述第一损失,loss2是所述第二损失,f1(loss1*loss2)是与loss1和loss2相关的预设函数,α 2和β 2是预设系数,α 2和β 2的取值范围均为(0, 1)。
7.根据权利要求1所述的语音转换方法,其中,所述特征转换模型包括第二共享网络层、转换特征输出层和音频状态输出层,所述将所述多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得所述特征转换模型输出的目标说话者的目标合成声学特征包括:
将所述语音后验概率输入所述第二共享网络层,以获得所述第二共享网络层输出的第二共享特征;
将所述第二共享特征分别输入所述转换特征输出层和所述音频状态输出层,以获得所述转换特征输出层输出的所述目标合成声学特征以及所述音频状态输出层输出的所述源音频状态信息。
8.根据权利要求1所述的语音转换方法,其中,所述特征转换模型还输出所述源音频状态信息,在所述基于有效声学特征进行语音合成,以获得所述目标说话者的有效语音之前,所述方法还包括:
基于所述源音频状态信息确定所述多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧;
从所述目标合成声学特征中提取所述所有有效时间帧所对应的合成声学特征向量,以获得所述有效声学特征。
9.根据权利要求1所述的语音转换方法,其中,所述结合所述第三损失和所述第四损失计算第二总损失包括:
基于以下公式计算所述第二总损失:
loss_net2 = α 3*loss3+β 3*loss4;
α 3 +β 3 = 1;
其中,loss_net2是所述第二总损失,loss3是所述第三损失,loss4是所述第四损失,α 3和β 3是预设系数,α 3和β 3的取值范围均为(0, 1)。
10.根据权利要求1所述的语音转换方法,其中,所述结合所述第三损失和所述第四损失计算第二总损失包括:
基于以下公式计算所述第二总损失:
loss_net2 = f2(loss3*loss4) + α 4*loss3*β 4*loss4;
其中,loss_net2是所述第二总损失,loss3是所述第三损失,loss4是所述第四损失,f2(loss3*loss4) 是与loss3和loss4相关的预设函数,α 4和β 4是预设系数,α 4和β 4的取值范围均为(0, 1)。
11.根据权利要求1至10任一项所述的语音转换方法,其中,所述语音识别模型包括以下一种或多种网络模型:长短期记忆网络模型、卷积神经网络模型、时延神经网络模型、深度神经网络模型;和/或,
所述特征转换模型包括以下一种或多种网络模型:张量到张量网络模型、卷积神经网络模型、序列到序列模型、注意力模型。
12.根据权利要求1至10任一项所述的语音转换方法,其中,所述源识别声学特征为梅尔频率倒谱系数特征、感知线性预测特征、滤波器组特征或常Q倒谱系数特征,
所述目标合成声学特征为梅尔倒谱特征、线谱对特征、梅尔频率后的线谱对特征、基于梅尔广义倒谱分析的线谱对特征或线性预测编码特征。
13.一种语音转换装置,包括:
获取模块,用于获取源说话者的源语音;
提取模块,用于对所述源语音进行特征提取,以获得所述源说话者的源识别声学特征;
第一输入模块,用于将所述源识别声学特征输入语音识别模型,以获得所述语音识别模型输出的所述源说话者的语音后验概率,所述语音后验概率包括与多个时间帧一一对应的多个后验概率向量;
第二输入模块,用于将所述多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得所述特征转换模型输出的目标说话者的目标合成声学特征,其中,所述目标合成声学特征包括与所述至少部分时间帧一一对应的合成声学特征向量,所述多个时间帧中的每个时间帧属于有效时间帧或无效时间帧,所述有效时间帧是指所对应的源语音音频段是有效音频段的时间帧,所述无效时间帧是指所对应的源语音音频段是无效音频段的时间帧,所述至少部分时间帧包括所述多个时间帧中的所有有效时间帧;
合成模块,用于基于有效声学特征进行语音合成,以获得所述目标说话者的有效语音,其中,所述有效声学特征包括所述目标合成声学特征中的与所述所有有效时间帧一一对应的合成声学特征向量;
其中,所述语音识别模型或所述特征转换模型还输出源音频状态信息,所述源音频状态信息包括与所述多个时间帧一一对应的多组帧音频状态信息,每组帧音频状态信息表示对应时间帧下的源语音音频段属于有效音频段还是无效音频段,所述多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于所述源音频状态信息确定;
所述语音识别模型还输出所述源音频状态信息,所述装置还用于:
在所述获取源说话者的源语音之前,获取样本说话者的样本训练语音、与所述样本训练语音相对应的标注语音类别信息和与所述样本训练语音相对应的标注音频状态信息,所述标注语音类别信息用于指示所述样本训练语音所包括的语音类别,所述标注音频状态信息用于指示所述样本训练语音中的每个音频段属于有效音频段还是无效音频段;
对所述样本训练语音进行特征提取,以获得所述样本说话者的样本识别声学特征;
将所述样本识别声学特征输入所述语音识别模型,以获得所述语音识别模型输出的所述样本说话者的预测语音后验概率和预测音频状态信息;
基于所述标注语音类别信息和所述预测语音后验概率计算第一损失;
基于所述标注音频状态信息和所述预测音频状态信息计算第二损失;
结合所述第一损失和所述第二损失计算第一总损失;
基于所述第一总损失对所述语音识别模型进行训练;
或,
所述特征转换模型还输出所述源音频状态信息,所述装置还用于:
在所述获取源说话者的源语音之前,获取所述目标说话者的目标训练语音和与所述目标训练语音相对应的标注音频状态信息,所述标注音频状态用于指示所述目标训练语音中的每个音频段属于有效音频段还是无效音频段;
对所述目标训练语音进行特征提取,以获得所述目标说话者的标注识别声学特征和标注合成声学特征;
将所述标注识别声学特征输入所述语音识别模型,以获得所述语音识别模型输出的所述目标说话者的预测语音后验概率;
在所述获取源说话者的源语音之前将所述预测语音后验概率输入所述特征转换模型,以获得所述特征转换模型输出的所述目标说话者的预测合成声学特征和预测音频状态信息;
基于所述标注合成声学特征和所述预测合成声学特征计算第三损失;
基于所述标注音频状态信息和所述预测音频状态信息计算第四损失;
结合所述第三损失和所述第四损失计算第二总损失;
基于所述第二总损失对所述特征转换模型进行训练。
14.一种语音转换系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至12任一项所述的语音转换方法。
15.一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求1至12任一项所述的语音转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609527.6A CN112750446B (zh) | 2020-12-30 | 2020-12-30 | 语音转换方法、装置和系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609527.6A CN112750446B (zh) | 2020-12-30 | 2020-12-30 | 语音转换方法、装置和系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112750446A CN112750446A (zh) | 2021-05-04 |
CN112750446B true CN112750446B (zh) | 2024-05-24 |
Family
ID=75649569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609527.6A Active CN112750446B (zh) | 2020-12-30 | 2020-12-30 | 语音转换方法、装置和系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750446B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113380231B (zh) * | 2021-06-15 | 2023-01-24 | 北京一起教育科技有限责任公司 | 一种语音转换的方法、装置及电子设备 |
CN113470698B (zh) * | 2021-06-30 | 2023-08-08 | 北京有竹居网络技术有限公司 | 一种说话人转换点检测方法、装置、设备及存储介质 |
CN113793591B (zh) * | 2021-07-07 | 2024-05-31 | 科大讯飞股份有限公司 | 语音合成方法及相关装置和电子设备、存储介质 |
CN113724718B (zh) * | 2021-09-01 | 2022-07-29 | 宿迁硅基智能科技有限公司 | 目标音频的输出方法及装置、系统 |
CN113724690B (zh) * | 2021-09-01 | 2023-01-03 | 宿迁硅基智能科技有限公司 | Ppg特征的输出方法、目标音频的输出方法及装置 |
CN114495898B (zh) * | 2022-04-15 | 2022-07-01 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN114999506A (zh) * | 2022-04-27 | 2022-09-02 | 成都爱奇艺智能创新科技有限公司 | 语音处理方法、装置及网络设备 |
CN115065482B (zh) * | 2022-06-16 | 2024-05-17 | 平安银行股份有限公司 | 一种声音识别方法、装置、终端设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101322181A (zh) * | 2005-11-30 | 2008-12-10 | 艾利森电话股份有限公司 | 有效的语音流转换 |
GB201405255D0 (en) * | 2014-03-24 | 2014-05-07 | Toshiba Res Europ Ltd | Voice conversion |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
JP2019109306A (ja) * | 2017-12-15 | 2019-07-04 | 日本電信電話株式会社 | 音声変換装置、音声変換方法及びプログラム |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110738986A (zh) * | 2019-10-24 | 2020-01-31 | 数据堂(北京)智能科技有限公司 | 一种长语音标注装置及方法 |
CN110930981A (zh) * | 2018-09-20 | 2020-03-27 | 深圳市声希科技有限公司 | 多对一语音转换系统 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2853125A1 (fr) * | 2003-03-27 | 2004-10-01 | France Telecom | Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse. |
FR2868587A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme de conversion rapides d'un signal vocal |
US20070213987A1 (en) * | 2006-03-08 | 2007-09-13 | Voxonic, Inc. | Codebook-less speech conversion method and system |
KR20080090034A (ko) * | 2007-04-03 | 2008-10-08 | 삼성전자주식회사 | 음성 화자 인식 방법 및 시스템 |
CN104081453A (zh) * | 2011-07-25 | 2014-10-01 | 索拉公司 | 用于声学变换的系统和方法 |
-
2020
- 2020-12-30 CN CN202011609527.6A patent/CN112750446B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101322181A (zh) * | 2005-11-30 | 2008-12-10 | 艾利森电话股份有限公司 | 有效的语音流转换 |
GB201405255D0 (en) * | 2014-03-24 | 2014-05-07 | Toshiba Res Europ Ltd | Voice conversion |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
JP2019109306A (ja) * | 2017-12-15 | 2019-07-04 | 日本電信電話株式会社 | 音声変換装置、音声変換方法及びプログラム |
CN110930981A (zh) * | 2018-09-20 | 2020-03-27 | 深圳市声希科技有限公司 | 多对一语音转换系统 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110738986A (zh) * | 2019-10-24 | 2020-01-31 | 数据堂(北京)智能科技有限公司 | 一种长语音标注装置及方法 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
《约束条件下的结构化高斯混合模型及非平行语料语音转换》;车滢霞, 俞一彪;《电子学报》;20160915;第44卷(第09期);2282-2288 * |
《融合人脸表情的手语到汉藏双语情感语音转换》;宋南;吴沛文;杨鸿武;《声学技术》;20180815;第37卷(第04期);372-379 * |
Du, Zhihao et,al..《PAN: PHONEME-AWARE NETWORK FOR MONAURAL SPEECH ENHANCEMENT》.《IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)》.2020,6634-6638. * |
Miyoshi, Hiroyuki et,al..《Voice Conversion Using Sequence-to-Sequence Learning of Context Posterior Probabilities》.《18th Annual Conference of the International-Speech-Communication-Association (INTERSPEECH 2017)》.2017,1268-1272. * |
Zhou Yi et,al..《CROSS-LINGUAL VOICE CONVERSION WITH BILINGUAL PHONETIC POSTERIORGRAM AND AVERAGE MODELING》.《44th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》.2019,6790-6794. * |
Also Published As
Publication number | Publication date |
---|---|
CN112750446A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112750446B (zh) | 语音转换方法、装置和系统及存储介质 | |
US20230043916A1 (en) | Text-to-speech processing using input voice characteristic data | |
CN113506562B (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
CN105096940B (zh) | 用于进行语音识别的方法和装置 | |
CN101030369B (zh) | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
CN110706690A (zh) | 语音识别方法及其装置 | |
CN112767958A (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
CN112581963B (zh) | 一种语音意图识别方法及系统 | |
CN102013253A (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
Kadyan et al. | Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation | |
Dave et al. | Speech recognition: A review | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
Hosseini-Kivanani et al. | Automated cross-language intelligibility analysis of Parkinson’s disease patients using speech recognition technologies | |
CN117935789B (zh) | 语音识别方法及系统、设备、存储介质 | |
CN118136005A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
CN117636839A (zh) | 语音合成方法和装置 | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
CN113763992B (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 1201, Building B, Phase 1, Innovation Park, No. 1 Keyuan Weiyi Road, Laoshan District, Qingdao City, Shandong Province, 266101 Applicant after: Beibei (Qingdao) Technology Co.,Ltd. Address before: 100192 a203a, 2 / F, building B-2, Dongsheng Science Park, Zhongguancun, 66 xixiaokou Road, Haidian District, Beijing Applicant before: DATABAKER (BEIJNG) TECHNOLOGY Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |