CN104318920A - 具有谱稳定边界的跨音节中文语音合成基元构建方法 - Google Patents
具有谱稳定边界的跨音节中文语音合成基元构建方法 Download PDFInfo
- Publication number
- CN104318920A CN104318920A CN201410523220.2A CN201410523220A CN104318920A CN 104318920 A CN104318920 A CN 104318920A CN 201410523220 A CN201410523220 A CN 201410523220A CN 104318920 A CN104318920 A CN 104318920A
- Authority
- CN
- China
- Prior art keywords
- syllable
- primitive
- frame
- spectrum
- minimum point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 55
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 41
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 41
- 238000010276 construction Methods 0.000 title claims description 15
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 9
- 150000001875 compounds Chemical class 0.000 claims description 22
- 238000009432 framing Methods 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 2
- 230000002195 synergetic effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 2
- 238000012076 audiometry Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种具有谱稳定边界的跨音节中文语音合成基元构建方法,属于语音处理领域。本发明对所述语音流数据进行切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分,从而获得跨音节基元。本方法既能保留音节内及音节间的协同发音,又避免基元过短导致大量的拼接出现,从而有效提高合成语音的自然度和连贯性,且不会影响合成语音的音质表现。
Description
技术领域
本发明涉及一种中文语音合成基元的定义及构建方法,具体地涉及具有谱稳定边界的跨音节中文语音合成基元的自动化构建方法。属于语音处理领域。
背景技术
语音合成基元的选取是语音合成中至关重要的环节。合理的选择语音基元,构建基元数据库,对语音合成具有重要意义。基元的选择没有统一、绝对的评价标准,它会受到语种、应用领域、训练数据量以及存储要求等条件的限制。常见的语音合成基元有音素、双音素、三音素、半音节、音节、词等(见Taylor,Paul.Text-to-speech synthesis.Cambridge University Press,2009)。这些合成基元的选取,是基于语言及语音学知识的,因此基元的边界往往选在音素或音节之间。然而,对于一段连续语音,相邻的音素或音节间往往存在耦合现象,即当前音素或音节的发音受到它前后音素或音节发音的影响。这种现象在语音学中称为协同发音(周迅溢,王蓓,杨玉芳,李晓庆,“语句中协同发音对音节知觉的影响”,心理学报,2003,35(3):340-344),它保证了连续语音的自然度与连贯性。
汉语是一种单音节带调语音,包含23个声母和24个韵母。每个音节由一个声母和一个韵母组成,个别音节没有声母部分(零声母),韵母分为单韵母,复韵母,前鼻韵母和后鼻韵母。由不同的声韵母组成的汉语无调音节约为410个,如果考虑每种音节的五个声调:轻声、阴平、阳平、上声、去声,则共有约1300个带调音节(杨行峻,迟惠生等,《语音信号数字处理》,电子工业出版社,1995年)。在一段连续的汉语语音中存在大量的音节内及音节间的协同发音现象。目前的中文语音合成系统可以分为两个主流方向:基于拼接的单元挑选合成方法和基于隐马尔科夫模型(HMM)的统计参数语音合成方法(Zen,Heiga,Keiichi Tokuda,and Alan W.Black."Statistical parametric speechsynthesis."Speech Communication 51.11(2009):1039-1064)。对于前者,合成基元通常为双音子,它一般包含两个音素,其边界在这两个音素中的稳定段,虽然这种方法也考虑到了协同发音的影响,但双音子的结构导致合成语音中出现大量的拼接点,不仅增加了算法的复杂度,且容易导致衔接不自然;对于后者,通常选取音节作为合成基元,这虽然保证了音节内部的连贯,但音节间的协同发音被破坏。因此,需要构建一种新的合成基元,使其既能保留音节内及音节间的协同发音,又避免基元过短导致大量的拼接出现,从而提高合成语音的自然度和连贯性。
发明内容
为了构建一种能同时保留音节内及音节间协同发音的合成基元,本发明提出一种具有谱稳定边界的跨音节中文语音合成基元构建方法,包括如下步骤:获取语音流数据,对其进行音节标注,并对所述语音流数据进行切分从而获得跨音节基元,切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两部分组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分;
如果该语音流数据的前后均为静音段,则第一个跨音节基元为静音段加上第一个音节韵母的中心元音及其之前的部分;最后一个跨音节基元为最后一个音节韵母的中心元音及其之后的部分加上静音段;
所述中心元音指一个音节韵母部分中发音最稳定,持续时间最长的部分。
通常所述中心元音是音节中可标注声调的元音。
进一步地,切分所述跨音节基元时识别中心元音的方法,包括如下步骤:
S1:分帧:首先对一段数字化的语音流数据进行加窗分帧处理;
所述的语音流数据应至少包含一个音节,帧移应小于等于帧长L,分帧后得到语音信号序列的第n帧记为xn(i),其中1≤n≤N,n为帧编号,N为该语音流数据分帧后获得的帧数,1≤i≤L;
S2:提取参数:对每帧语音信号提取其频谱参数,记第n帧语音的第i个频谱参数为yn(i),1≤i≤P,1≤n≤N,P是频率参数的阶数;
S3:以该语音流数据的音节标注信息为参考,在每个音节中,根据谱稳定准则,迭代计算出每个音节的中心元音位置,即获得基元边界,方法如下:
(1)获得每帧语音信号的频谱参数yn(i)的转移率cn(i):
其中1≤i≤P,m为窗长控制系数,窗长为2M+1,设定的M的初始值应远小于帧数N;
(2)将第n帧语音信号的所有P阶频率参数yn(i)的转移率cn(i)的平方和,定义为第n帧的谱特征转移率s(n),从而获得每帧语音信号的谱特征转移率s(n):
(3)按照如下方法检测谱特征转移率s(n)在时间窗内的局部最小值点:
当1≤n≤M时,在时间窗[1,n+M]内检测局部最小值点;
当M<n≤N-M时,在时间窗[n-M,n+M]内检测局部最小值点;
当N-M<n≤N时,在时间窗[n-M,N]内检测局部最小值点;
此处的局部最小值点存在的条件为:该帧的谱特征转移率s(n)小于它前后帧的谱特征转移率,即:
s(n)≤s(n-1),且s(n)≤s(n+1)
记录s(n)各局部最小值点所对应的帧编号n;
(4)为了避免噪音引起的抖动,根据分帧前的整段语音信号的音节标注信息,判断在每个音节内部是否只存在1个s(n)的局部最小值点;
如果是,则该局部最小值点对应的帧n为中心元音所在位置,即基元边界;结束操作;
如果不是,令M值加1,再次执行步骤(1)—(4),重新计算cn(i)、s(n),并再次判断整段语音信号每个音节内s(n)的局部最小值点的个数,直到一个音节内只存在s(n)的一个局部最小值点,即找到每个音节的中心元音位置。
对比现有技术,本发明的有益效果在于:本发明提供的方法既能保留音节内及音节间的协同发音,又避免基元过短导致大量的拼接出现,从而有效提高合成语音的自然度和连贯性,且不会影响合成语音的音质表现。本发明所述的跨音节基元适用于任何合成系统,例如基于拼接的语音合成以及基于统计参数建模的语音合成。
附图说明
图1是HTS统一化参数观察向量;
图2是基于本发明的HTS训练合成流程;
图3是实施例主观A/B测试结果;
图4是主观对比等级评定(CCR)测试结果。
具体实施方式
下面将结合附图和实施例对本发明加以详细说明,同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明定义该基元从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束。此处的中心元音指一个音节韵母部分中发音相对稳定,持续时间较长的部分,它通常对应音节中可标注声调的元音。本发明以中心元音的中心为边界,构建一种跨音节基元,它包括前一音节中心元音以及之后的韵母部分,后一音节的声母(或零声母则无此),后一音节韵母中心元音以及之前的部分。例如在“联合国(lián hé guó)”这三个音节中,中心元音分别是a,e,o,假设这个词的前后均为静音段sil,则可构成四个跨音节基元:sil+lia,an+he,e+guo,o+sil。其中“+”可以替换为任意连接符号,音调不予考虑(可以在后续合成中引入音调模型或标注等)。对于包含零声母的词段,例如昂首(“ángshǒu”),假设其前后为静音段sil,那么构建的跨音节基元为:sil+ang,ang+sho,ou+sil。在一个设计良好且音节平衡的朗读语音语料库(指有计划的、按照文字朗读的语音库,内容可以是:音节、词和短语、句子、对话语篇或独白语篇)中,大约可以构建1750个这种无声调跨音节基元。例如“棉袄”构成的跨音节基元为:sil+mia,an+a,ao+sil;“天安门”构成的跨音节基元为:sil+tia,an+a,an+me,en+sil;“周恩来”构成的跨音节基元为:sil+zho,ou+e,en+la,ai+sil;“平安符”构成的跨音节基元为:sil+pi,ing+a,an+fu,u+sil;“延安”构成的跨音节基元为:sil+ya,an+a,an+sil。
为了从语料库(至少要有音节级别的标注信息)中自动生成这种跨音节基元,本发明采用谱稳定准则(原用于语音谱参数的暂时分解方法中,见Nandasena,Athaudage CR,and Masato Akagi."Spectral stability based event localizing temporaldecomposition."Acoustics,Speech and Signal Processing,1998.Proceedings of the1998IEEE International Conference on.Vol.2.IEEE,1998.),对输入的每段连续语音信号进行自动切分。所述各音节的中心元音的自动识别方法如下:
S1:分帧。首先对一段数字化的连续语音信号进行加窗分帧处理。分帧是依据语音的准平稳特性,将语音信号划分成短时的语音段,便于后续的分析处理(杨行峻,迟惠生等,《语音信号数字处理》,电子工业出版社,1995年)。所述的连续语音信号应至少包含一个音节,帧长L一般为10ms-30ms,帧移≤帧长,作为优选方案,建议帧长L=25ms,帧移5ms。分帧后得到语音信号序列的第n帧记为xn(i),其中1≤n≤N,n为帧编号,N为输入的连续语音的帧数,1≤j≤L。作为优选,窗函数为汉明窗。
S2:提取参数。对每帧语音提取频谱参数。频谱参数可以是任意类型,作为优选,实施例中提取的是语音信号的P=16阶线谱频率(LSF)参数yn(i),1≤i≤P,1≤n≤N。
S3:以音节标注为参考,在每个音节中,根据谱稳定准则,按照如下方法,迭代计算出中心元音的位置,即基元边界:
(1)设yn(i)为第n帧语音的第i阶频谱参数,它的转移率cn(i)定义为:
其中P在实施例中为线谱频率参数的阶数,m为窗长控制系数,窗长为2M+1,设定的M的初始值应远小于帧数N,作为优选,M初始化为2;
(2)将第n帧语音信号的所有P阶线谱频率参数yn(i)(1≤i≤P)的转移率cn(i)的平方和,定义为第n帧的谱特征转移率s(n):
yn(i)与cn(i)一一对应,每帧计算得到一个谱特征转移率,因此S(n)是N点序列;
(3)按照如下方法检测谱特征转移率s(n)在时间窗内的局部最小值点:
当1≤n≤M时,在时间窗[1,n+M]内检测局部最小值点;
当M<n≤N-M时,在时间窗[n-M,n+M]内检测局部最小值点;
当N-M<n≤N时,在时间窗[n-M,N]内检测局部最小值点;
此处的局部最小值点存在的条件为:该帧的谱特征转移率s(n)小于它前后帧的谱特征转移率,即:
s(n)≤s(n-1),且s(n)≤s(n+1)
记录s(n)局部最小值点所对应的帧编号n;
(4)为了避免噪音引起的抖动,对分帧前的整段语音信号进行音节标注,判断在每个音节内部是否只存在一个s(n)的局部最小值点;
如果是,则该局部最小值点对应的帧n即为中心元音所在位置,即基元边界;结束操作;
如果不是,令M=M+1,再次执行步骤(1)—(4),重新计算cn(i)、s(n),并再次判断整段语音信号每个音节内s(n)的局部最小值点的个数,直到一个音节内只存在s(n)的一个局部最小值点,即获得整个语音流数据各音节的中心元音所在位置;
然后以计算出的中心元音为边界,对所述语音流数据进行切分从而获得跨音节基元,切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两部分组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分;用于进行语音合成。如果该语音流数据的前后均为静音段,则第一个跨音节基元为静音段加上第一个音节韵母的中心元音及其之前的部分;最后一个跨音节基元为最后一个音节韵母的中心元音及其之后的部分加上静音段。
下面的实施例介绍了跨音节基元在基于统计参数建模的语音合成中的应用,并对比了其与传统音节基元合成语音,在音质和自然度两方面的性能。
为了在连续语音中自动生成这种跨音节基元,本发明基于谱稳定准则的合成基元构建方法,对每一句连续语音进行切分,得到一系列具有谱稳定边界的跨音节合成基元,记录下边界的位置。
下面结合实施例对本发明的实施方法进行解释和说明,本实施例包括如下步骤:
S1:分帧。首先对一段数字化语音信号进行加窗分帧处理,所用的窗函数为汉明窗,帧长10ms,帧移5ms。
S2:提取参数。对每帧语音提取频谱参数序列,这里提取的是语音信号的16阶线谱频率(LSF)参数。
S3:以该段语音的音节标注为参考,在每个音节中,根据谱稳定准则,通过迭代的方法定位出中心元音,即基元边界:
(1)设yn(i)为第n帧语音的第i阶谱参数,它的转移率cn(i)定义为:
其中M为窗长控制系数,计算窗长为2M+1,P为谱参数的阶数,这里M初始化为2,P为提取的LSF的阶数,即16;
(2)所有P阶谱参数yn(i)(1≤i≤P)的转移率的平方和,定义为第n帧的谱特征转移率:
(3)检测s(n)在每个时间窗[n-M,n+M]内的局部最小值点,此处的局部最小值点存在的条件为,该帧的谱特征转移率小于它前后帧的谱特征转移率,即:
s(n)≤s(n-1),且s(n)≤s(n+1)
(4)为了避免噪音引起的抖动,判断在一个音节内部是否只存在一个局部最小值点。如果是,则该最小值点对应的帧即为中心元音所在位置,即基元边界,如果不是,令M=M+1,回到步骤(1)重新计算s(n)并判断局部最小值点的个数,直到一个音节内只存在一个局部最小点。
然后,按照本发明定义的跨音节基元,对标注文件进行调整。调整内容包括基元的开始结束时间,基元的内容、上下文和韵律信息等。调整前的单音节基元,以及调整后的跨音节基元的对比标注如下表:
在进行HTS训练前,首先对训练语音进行加窗分帧,所选窗函数为汉明窗,帧长为25ms,帧移5ms。提取每帧语音的基频F0及16阶LSF频谱参数。这里采用SPTK工具进行分帧和参数提取。根据HTS统一化参数观察向量表示方法,每帧语音的参数向量包含四个参数流(stream),如附图1所示。其中第一个流为该帧语音的16阶LSF谱参数,及其一阶、二阶动态形式;第二到第四个流分别为该帧语音的基频,及其一阶、二阶动态形式。
HTS分为训练和合成两个部分。在训练部分,采用隐马尔科夫模型(HMM)对每个合成基元建模,通过对各个基元的所有观察值进行训练,估计出模型参数。在合成部分,根据输入的文本信息,选取合适的模型,由最大似然参数生成算法,预测产生每帧的参数序列。最后将这些参数序列输入合成滤波器,得到数字化的语音波形。其整个过程如附图2所示。
本实施例中使用了公开的HTK-3.4工具包及HTS-2.1.1补丁包。HMM状态数设置为10。其他配置与HTS英文demo中的相同。
本发明在基于HMM的语音合成系统(HTS)上对提出的具有谱稳定边界的跨音节中文语音合成基元进行了测试。
所选的语料为ASCCD中文朗读语音语料库中的三个女声说话人的语音(F002,F003,F004),每个说话人包含600句自然连续语音,我们用其中的500句作为训练语料,剩余100句作为测试语料。每条语料对应着一个完整的上下文标注文件,其中包括声韵母信息、音节信息、以及词汇短语边界等的韵律信息。
在实验中,我们用单音节基元及跨音节基元分别进行HMM训练,然后用训练好的两套模型,分别合成训练集外的100句测试语音并对其进行主观评测。评测从自然度和音质两方面进行。对于自然度的评估,我们采用A/B测试的方法:
1.选择8个母语为汉语且听力正常的听音人;
2.在用两套模型分别合成的100句语音中随机的选取10句语音,组成一对测听语料,这一对语音具有相同的文本内容,但是排列顺序随机;
3.听音人在信噪比低于34dB的封闭环境中,用耳机收听三个说话人,每人10对语音,并根据自然度的好坏,在每对语音中选择一个他们认为自然度更好的进行标记。
4.对所有听音人的标记结果进行统计,得出百分制的统计结果,如附图3所示。
对于音质的评估,我们采用对比等级评定(CCR)方法。具体测听办法与A/B测试类似,不同之处只在于评价准则。CCR测试要求听音人对每对语音中的第二句相对第一句的音质提高或下降程度进行7个等级的打分,如下表:
3分 | 提高很多(Much Better) |
2分 | 有提高(Better) |
1分 | 有微小提高(Slightly Better) |
0分 | 基本一致(About the Same) |
-1分 | 有微小下降(Slightly Worse) |
-2分 | 有下降(Worse) |
-3分 | 下降很多(Much Worse) |
CCR测试结果如附图4所示。
从附图3与附图4的主观评测结果看出,本发明提出的跨音节合成基元能有效地改善合成语音的自然度,且不会影响合成语音的音质表现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换和替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,包括如下步骤:获取语音流数据,对其进行音节标注,并对所述语音流数据进行切分从而获得跨音节基元,切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两部分组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分;
如果该语音流数据的前后均为静音段,则第一个跨音节基元为静音段加上第一个音节韵母的中心元音及其之前的部分;最后一个跨音节基元为最后一个音节韵母的中心元音及其之后的部分加上静音段。
2.根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,所述中心元音指一个音节韵母部分中发音最稳定,持续时间最长的部分。
3.根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,所述中心元音是音节中可标注声调的元音。
4.根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,切分所述跨音节基元时识别中心元音的方法,包括如下步骤:
S1:分帧:首先对一段数字化的语音流数据进行加窗分帧处理;
所述的语音流数据应至少包含一个音节,帧移应小于等于帧长L,分帧后得到语音信号序列的第n帧记为xn(i),其中1≤n≤N,n为帧编号,N为该语音流数据分帧后获得的帧数,1≤i≤L;
S2:提取参数:对每帧语音信号提取其频谱参数,记第n帧语音的第i个频谱参数为yn(i),1≤i≤P,1≤n≤N,P是频率参数的阶数;
S3:以该语音流数据的音节标注信息为参考,在每个音节中,根据谱稳定准则,迭代计算出每个音节的中心元音位置,即获得基元边界,方法如下:
(1)获得每帧语音信号的频谱参数yn(i)的转移率cn(i):
其中1≤i≤P,m为窗长控制系数,窗长为2M+1,设定的M的初始值应远小于帧数N;
(2)将第n帧语音信号的所有P阶频率参数yn(i)的转移率cn(i)的平方和,定义为第n帧的谱特征转移率s(n),从而获得每帧语音信号的谱特征转移率s(n):
(3)按照如下方法检测谱特征转移率s(n)在时间窗内的局部最小值点:
当1≤n≤M时,在时间窗[1,n+M]内检测局部最小值点;
当M<n≤N-M时,在时间窗[n-M,n+M]内检测局部最小值点;
当N-M<n≤N时,在时间窗[n-M,N]内检测局部最小值点;
此处的局部最小值点存在的条件为:该帧的谱特征转移率s(n)小于它前后帧的谱特征转移率,即:
s(n)≤s(n-1),且s(n)≤s(n+1)
记录s(n)各局部最小值点所对应的帧编号n;
(4)为了避免噪音引起的抖动,根据分帧前的整段语音信号的音节标注信息,判断在每个音节内部是否只存在1个s(n)的局部最小值点;
如果是,则该局部最小值点对应的帧n为中心元音所在位置,即基元边界;结束操作;
如果不是,令M值加1,再次执行步骤(1)—(4),重新计算cn(i)、s(n),并再次判断整段语音信号每个音节内s(n)的局部最小值点的个数,直到一个音节内只存在s(n)的一个局部最小值点,即找到每个音节的中心元音位置。
5.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,步骤S1中进行分帧时,帧长L为10ms-30ms。
6.根据权利要求5中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,帧长L为25ms,帧移为5ms。
7.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,步骤S1中进行加窗分帧时,窗函数为汉明窗。
8.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,步骤S2中所述频谱参数是该帧语音信号的P=16阶线谱频率参数yn(i)。
9.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法,其特征在于,步骤S3(1)中,M初始化为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410523220.2A CN104318920A (zh) | 2014-10-07 | 2014-10-07 | 具有谱稳定边界的跨音节中文语音合成基元构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410523220.2A CN104318920A (zh) | 2014-10-07 | 2014-10-07 | 具有谱稳定边界的跨音节中文语音合成基元构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104318920A true CN104318920A (zh) | 2015-01-28 |
Family
ID=52374143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410523220.2A Pending CN104318920A (zh) | 2014-10-07 | 2014-10-07 | 具有谱稳定边界的跨音节中文语音合成基元构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104318920A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062680A1 (zh) * | 2018-09-30 | 2020-04-02 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN111583901A (zh) * | 2020-04-02 | 2020-08-25 | 湖南声广信息科技有限公司 | 一种广播电台智能天气预报系统及天气预报语音切分方法 |
CN114267326A (zh) * | 2021-12-31 | 2022-04-01 | 达闼机器人有限公司 | 语音合成系统的训练方法、装置及语音合成方法、装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1126349A (zh) * | 1995-03-06 | 1996-07-10 | 郑元成 | 用于连续汉语语音合成的半音节方法 |
CN1257271A (zh) * | 1998-12-02 | 2000-06-21 | 松下电器产业株式会社 | 用于中文语音合成的连音处理装置 |
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
-
2014
- 2014-10-07 CN CN201410523220.2A patent/CN104318920A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1126349A (zh) * | 1995-03-06 | 1996-07-10 | 郑元成 | 用于连续汉语语音合成的半音节方法 |
CN1257271A (zh) * | 1998-12-02 | 2000-06-21 | 松下电器产业株式会社 | 用于中文语音合成的连音处理装置 |
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
Non-Patent Citations (1)
Title |
---|
YISHAN JIAO等: "A novel set of synthesis units with stable spectral boundaries for HMM-based Mandarin speech synthesis system", 《3RD INTERNATIONAL CONFERENCE ON MULTIMEDIA TECHNOLOGY》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062680A1 (zh) * | 2018-09-30 | 2020-04-02 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN111583901A (zh) * | 2020-04-02 | 2020-08-25 | 湖南声广信息科技有限公司 | 一种广播电台智能天气预报系统及天气预报语音切分方法 |
CN114267326A (zh) * | 2021-12-31 | 2022-04-01 | 达闼机器人有限公司 | 语音合成系统的训练方法、装置及语音合成方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DiCanio et al. | Using automatic alignment to analyze endangered language data: Testing the viability of untrained alignment | |
Fan et al. | Speaker and language factorization in DNN-based TTS synthesis | |
CN103065626A (zh) | 英语口语考试系统中的朗读题自动评分方法和设备 | |
Middag et al. | Robust automatic intelligibility assessment techniques evaluated on speakers treated for head and neck cancer | |
Chomphan et al. | Implementation and evaluation of an HMM-based Thai speech synthesis system. | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
Mukherjee et al. | A bengali hmm based speech synthesis system | |
CN104318920A (zh) | 具有谱稳定边界的跨音节中文语音合成基元构建方法 | |
Hansakunbuntheung et al. | Thai tagged speech corpus for speech synthesis | |
Sarfraz et al. | Large vocabulary continuous speech recognition for Urdu | |
Fan et al. | Sequence generation error (SGE) minimization based deep neural networks training for text-to-speech synthesis. | |
Sharma et al. | Development of Assamese text-to-speech synthesis system | |
CN107924677B (zh) | 用于异常值识别以移除语音合成中的不良对准的系统和方法 | |
Mahanta et al. | Text to speech synthesis system in Indian English | |
Adi et al. | Interlanguage of Automatic Speech Recognition | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Sharma et al. | Recurrent neural network based approach to recognize assamese vowels using experimentally derived acoustic-phonetic features | |
Ahmed et al. | Text-to-speech synthesis using phoneme concatenation | |
Zinnat et al. | Automatic word recognition for bangla spoken language | |
Chistikov et al. | Improving speech synthesis quality for voices created from an audiobook database | |
Jafri et al. | Statistical formant speech synthesis for Arabic | |
Le Maguer et al. | Toward the use of information density based descriptive features in HMM based speech synthesis | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
Cai et al. | The DKU Speech Synthesis System for 2019 Blizzard Challenge | |
Phan et al. | Extracting MFCC, F0 feature in Vietnamese HMM-based speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150128 |