CN108766413A - 语音合成方法及系统 - Google Patents
语音合成方法及系统 Download PDFInfo
- Publication number
- CN108766413A CN108766413A CN201810517280.1A CN201810517280A CN108766413A CN 108766413 A CN108766413 A CN 108766413A CN 201810517280 A CN201810517280 A CN 201810517280A CN 108766413 A CN108766413 A CN 108766413A
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- frequency information
- information
- speech
- recorded speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 26
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 67
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 67
- 238000001228 spectrum Methods 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音合成方法及系统,通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;具有降低语音录制成本的有益效果,进一步提高了合成语音的自然度。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种语音合成方法及系统。
背景技术
现有的语音合成自然度不是很理想,为了得到较高的合成自然度,有一些场景使用自然语音与合成语音相结合的方法,进行语音合成,对于出现频次较高的文本,预先录制好语音,对于其它文本,使用合成语音。由于出现频次较高的文本会经常发现变化,因此通常需要找发音人重新录制,耗费大量的人力物力和财力,代价比较大;且利用这种技术合成的语音,语音一致性也不理想。
发明内容
本发明提供一种语音合成方法及系统,旨在无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音进行语音合成即可,降低语音录制成本,进一步提高合成语音的自然度。
本发明提供了一种语音合成方法,所述语音合成方法包括:
根据特定文本,获取发音人对应录制的录制语音;
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
优选地,所述对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息,包括:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
优选地,所述语音合成方法还包括:
利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值和标准差s0。
优选地,所述利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息,包括:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02:
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03:
f03=α*f02+(1-α)*f00;
其中,α为加权系数。
优选地,所述预设参数合成模型包括LSTM参数合成模型。
对应于以上实施例所提供的一种语音合成方法,本发明还提供了一种语音合成系统,所述语音合成系统包括:
语音获取模块,用于根据特定文本,获取发音人对应录制的录制语音;
语音合成模块,用于:
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
优选地,所述语音合成模块用于:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
优选地,所述语音合成系统还包括:
模型训练模块,用于利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值和标准差s0。
优选地,所述语音合成模块用于:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02:
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03:
f03=α*f02+(1-α)*f00;
其中,α为加权系数。
优选地,所述预设参数合成模型包括LSTM参数合成模型。
本发明一种语音合成方法及系统可以达到如下有益效果:
通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音并进行语音合成即可,具有降低语音录制成本的有益效果,也进一步提高了合成语音的自然度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明语音合成方法的一种实施方式的流程示意图;
图2是本发明语音合成方法的另一种实施方式的流程示意图;
图3是本发明语音合成系统的一种实施方式的功能模块示意图;
图4是本发明语音合成系统的一种实施方式的功能模块示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种语音合成方法及系统,不需要请特定的发音人进行高频文本的补充录制,方便快捷,且得到的语音比直接采用对应的参数合成模型(例如LSTM参数合成模型)合成的语音的自然度明显高,因此提高了合成语音的自然度。如图1所示,图1是本发明语音合成方法的一种实施方式的流程示意图;本发明一种语音合成方法可以实施为如下描述的步骤S10-S50:
步骤S10、根据特定文本,获取发音人对应录制的录制语音;
本发明实施例中,在实际操作中,可以请发音标准的发音人,根据特定文本,来录制对应的语音,语音合成系统根据上述特定文本,获取发音人对应录制的录制语音。上述“发音标准的发音人”可以是满足条件的任何自然人,比如,只要发音标准的人,均可以录制对应的语音。
步骤S20、从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
语音合成系统从获取的上述录制语音中提取出对应的基频信息f01,对所述录制语音进行分析处理;比如,语音合成系统对上述录制语音进行自动切分,得到对应的音素边界,进而根据得到的上述音素边界,获取所述录制语音对应的音素时长信息。
步骤S30、根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
语音合成系统根据步骤S10中使用的特定文本和上述步骤S20中得到的因素时长信息,采用预设参数合成模型,生成基频信息f00和频谱信息cep0。其中,语音合成系统采用的预设参数合成模型包括但不限于:LSTM(Long-Short Term Memory,长短期记忆模型)参数合成模型。
步骤S40、利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
步骤S50、利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
语音合成系统根据录制语音对应的基频信息f01和上述预设参数合成模型(比如LSTM参数合成模型)生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;进而,利用得到的最终基频信息和上述频谱信息cep0,通过声码器重构得到对应的合成语音。
进一步地,在本发明一优选的实施例中,如图2所示,图2是本发明语音合成方法的另一种实施方式的流程示意图;本发明语音合成方法还包括步骤S60:
步骤S60、利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值和标准差s0。
本发明实施例中的预设参数合成模型,与图1所述实施例中描述的预设参数合成模型完全一致。语音合成系统利用发音人对应的语音数据库,训练上述预设参数合成模型(比如LSTM参数合成模型),并统计上述语音数据库对应的基频信息的均值和标准差s0。
根据得到的上述语音数据库对应的基频信息的均值和标准差s0,语音合成系统利用所述录制语音的基频信息f01,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息。比如,语音合成系统按照如下方式得到对应的最终基频信息:
语音合成系统根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02:
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03:
f03=α*f02+(1-α)*f00;
其中,α为加权系数。
进而,语音合成系统利用得到的最终基频信息f03和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
其中,本发明实施例中的上述步骤S60可以在图1所述实施例中的步骤S40之前的任一步骤实施,图2所述实施例仅以步骤S60在图1的步骤S10之前实施为例,进行描述。
本发明语音合成方法通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音进行语音合成即可,具有降低语音录制成本的有益效果,也进一步提高了合成语音的自然度。
基于图1和图2所述实施例的描述,本发明还提供了一种语音合成系统;所述语音合成系统能够实施图1和图2所描述的语音合成方法,从而提高合成语音的自然度。
如图3所示,图3是本发明语音合成系统的一种实施方式的功能模块示意图;本发明语音合成系统包括:语音获取模块100和语音合成模块200;其中:
所述语音获取模块100,用于根据特定文本,获取发音人对应录制的录制语音;
所述语音合成模块200,用于:
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
在本发明一优选的实施例中,所述语音合成模块200用于:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
在本发明一优选的实施例中,如图4所示,图4是本发明语音合成系统的一种实施方式的功能模块示意图,其中,所述语音合成系统还包括:
模型训练模块300,用于利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值和标准差s0。
在本发明一优选的实施例中,所述语音合成模块200用于:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02:
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03:
f03=α*f02+(1-α)*f00;
其中,α为加权系数。
在本发明一优选的实施例中,所述预设参数合成模型包括LSTM参数合成模型。
本发明语音合成系统通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音进行语音合成即可,具有降低语音录制成本的有益效果,也进一步提高了合成语音的自然度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音合成方法,其特征在于,所述语音合成方法包括:
根据特定文本,获取发音人对应录制的录制语音;
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
2.如权利要求1所述的语音合成方法,其特征在于,所述对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息,包括:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
3.如权利要求1或2所述的语音合成方法,其特征在于,所述语音合成方法还包括:
利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值和标准差s0。
4.如权利要求3所述的语音合成方法,其特征在于,所述利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息,包括:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02:
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03:
f03=α*f02+(1-α)*f00;
其中,α为加权系数。
5.如权利要求1或2所述的语音合成方法,其特征在于,所述预设参数合成模型包括LSTM参数合成模型。
6.一种语音合成系统,其特征在于,所述语音合成系统包括:
语音获取模块,用于根据特定文本,获取发音人对应录制的录制语音;
语音合成模块,用于:
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
7.如权利要求6所述的语音合成系统,其特征在于,所述语音合成模块用于:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
8.如权利要求6或7所述的语音合成系统,其特征在于,所述语音合成系统还包括:
模型训练模块,用于利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值和标准差s0。
9.如权利要求8所述的语音合成系统,其特征在于,所述语音合成模块用于:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02:
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03:
f03=α*f02+(1-α)*f00;
其中,α为加权系数。
10.如权利要求6或7所述的语音合成系统,其特征在于,所述预设参数合成模型包括LSTM参数合成模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810517280.1A CN108766413B (zh) | 2018-05-25 | 2018-05-25 | 语音合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810517280.1A CN108766413B (zh) | 2018-05-25 | 2018-05-25 | 语音合成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108766413A true CN108766413A (zh) | 2018-11-06 |
CN108766413B CN108766413B (zh) | 2020-09-25 |
Family
ID=64006070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810517280.1A Active CN108766413B (zh) | 2018-05-25 | 2018-05-25 | 语音合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766413B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808026A (zh) * | 2019-11-04 | 2020-02-18 | 金华航大北斗应用技术有限公司 | 一种基于lstm的电声门图语音转换方法 |
CN111133506A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN111192566A (zh) * | 2020-03-03 | 2020-05-22 | 云知声智能科技股份有限公司 | 英文语音合成方法及装置 |
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111782867A (zh) * | 2020-05-20 | 2020-10-16 | 厦门快商通科技股份有限公司 | 声纹检索方法、系统、移动终端及存储介质 |
CN111883104A (zh) * | 2020-07-08 | 2020-11-03 | 马上消费金融股份有限公司 | 语音切割方法、语音转换网络模型的训练方法及相关设备 |
CN111968678A (zh) * | 2020-09-11 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
CN113409756A (zh) * | 2020-03-16 | 2021-09-17 | 阿里巴巴集团控股有限公司 | 语音合成方法、系统、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1297561A (zh) * | 1999-03-25 | 2001-05-30 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
CN1622195A (zh) * | 2003-11-28 | 2005-06-01 | 株式会社东芝 | 语音合成方法和语音合成系统 |
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
CN102005205A (zh) * | 2009-09-03 | 2011-04-06 | 株式会社东芝 | 情感语音合成方法和装置 |
CN103377651A (zh) * | 2012-04-28 | 2013-10-30 | 北京三星通信技术研究有限公司 | 语音自动合成装置及方法 |
CN103456295A (zh) * | 2013-08-05 | 2013-12-18 | 安徽科大讯飞信息科技股份有限公司 | 歌唱合成中基频参数生成方法及系统 |
CN103632663A (zh) * | 2013-11-25 | 2014-03-12 | 飞龙 | 一种基于hmm的蒙古语语音合成及前端处理的方法 |
CN104361896A (zh) * | 2014-12-04 | 2015-02-18 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN105679306A (zh) * | 2016-02-19 | 2016-06-15 | 上海语知义信息技术有限公司 | 语音合成中预测基频帧的方法及系统 |
CN106205571A (zh) * | 2016-06-24 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种歌声语音的处理方法和装置 |
-
2018
- 2018-05-25 CN CN201810517280.1A patent/CN108766413B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1297561A (zh) * | 1999-03-25 | 2001-05-30 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
CN1622195A (zh) * | 2003-11-28 | 2005-06-01 | 株式会社东芝 | 语音合成方法和语音合成系统 |
CN101452699A (zh) * | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
CN102005205A (zh) * | 2009-09-03 | 2011-04-06 | 株式会社东芝 | 情感语音合成方法和装置 |
CN103377651A (zh) * | 2012-04-28 | 2013-10-30 | 北京三星通信技术研究有限公司 | 语音自动合成装置及方法 |
CN103456295A (zh) * | 2013-08-05 | 2013-12-18 | 安徽科大讯飞信息科技股份有限公司 | 歌唱合成中基频参数生成方法及系统 |
CN103632663A (zh) * | 2013-11-25 | 2014-03-12 | 飞龙 | 一种基于hmm的蒙古语语音合成及前端处理的方法 |
CN104361896A (zh) * | 2014-12-04 | 2015-02-18 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN105679306A (zh) * | 2016-02-19 | 2016-06-15 | 上海语知义信息技术有限公司 | 语音合成中预测基频帧的方法及系统 |
CN106205571A (zh) * | 2016-06-24 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种歌声语音的处理方法和装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808026A (zh) * | 2019-11-04 | 2020-02-18 | 金华航大北斗应用技术有限公司 | 一种基于lstm的电声门图语音转换方法 |
CN110808026B (zh) * | 2019-11-04 | 2022-08-23 | 金华航大北斗应用技术有限公司 | 一种基于lstm的电声门图语音转换方法 |
CN111133506A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN111192566A (zh) * | 2020-03-03 | 2020-05-22 | 云知声智能科技股份有限公司 | 英文语音合成方法及装置 |
CN111192566B (zh) * | 2020-03-03 | 2022-06-24 | 云知声智能科技股份有限公司 | 英文语音合成方法及装置 |
CN113409756A (zh) * | 2020-03-16 | 2021-09-17 | 阿里巴巴集团控股有限公司 | 语音合成方法、系统、设备及存储介质 |
CN113409756B (zh) * | 2020-03-16 | 2022-05-03 | 阿里巴巴集团控股有限公司 | 语音合成方法、系统、设备及存储介质 |
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111583903B (zh) * | 2020-04-28 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111782867A (zh) * | 2020-05-20 | 2020-10-16 | 厦门快商通科技股份有限公司 | 声纹检索方法、系统、移动终端及存储介质 |
CN111883104A (zh) * | 2020-07-08 | 2020-11-03 | 马上消费金融股份有限公司 | 语音切割方法、语音转换网络模型的训练方法及相关设备 |
CN111968678A (zh) * | 2020-09-11 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
CN111968678B (zh) * | 2020-09-11 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108766413B (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108766413A (zh) | 语音合成方法及系统 | |
US12033611B2 (en) | Generating expressive speech audio from text data | |
Takamichi et al. | Postfilters to modify the modulation spectrum for statistical parametric speech synthesis | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
CN105845125B (zh) | 语音合成方法和语音合成装置 | |
Toda et al. | Spectral conversion based on maximum likelihood estimation considering global variance of converted parameter | |
CN104538024B (zh) | 语音合成方法、装置及设备 | |
US9959657B2 (en) | Computer generated head | |
US8386256B2 (en) | Method, apparatus and computer program product for providing real glottal pulses in HMM-based text-to-speech synthesis | |
CN111489424A (zh) | 虚拟角色表情生成方法、控制方法、装置和终端设备 | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
Tihelka et al. | Current state of text-to-speech system ARTIC: a decade of research on the field of speech technologies | |
US20140210831A1 (en) | Computer generated head | |
US10636412B2 (en) | System and method for unit selection text-to-speech using a modified Viterbi approach | |
Llorach et al. | Web-based live speech-driven lip-sync | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
EP4447040A1 (en) | Speech synthesis model training method, speech synthesis method, and related apparatuses | |
CN116798405B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN101887719A (zh) | 语音合成方法、系统及具有语音合成功能的移动终端设备 | |
CN113571047A (zh) | 一种音频数据的处理方法、装置及设备 | |
CN110517662A (zh) | 一种智能语音播报的方法及系统 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
CN116825090B (zh) | 语音合成模型的训练方法、装置及语音合成方法、装置 | |
CN117037839A (zh) | 一种面部驱动方法、系统、电子设备和可读存储介质 | |
Reddy et al. | Improved HMM-based mixed-language (Telugu–Hindi) polyglot speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096 Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd. Address before: 12 / F, Guanjie building, building 1, No. 16, Taiyanggong Middle Road, Chaoyang District, Beijing Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |