CN104318920A

CN104318920A - 具有谱稳定边界的跨音节中文语音合成基元构建方法

Info

Publication number: CN104318920A
Application number: CN201410523220.2A
Authority: CN
Inventors: 谢湘; 焦祎姗
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-10-07
Filing date: 2014-10-07
Publication date: 2015-01-28

Abstract

本发明公开了一种具有谱稳定边界的跨音节中文语音合成基元构建方法，属于语音处理领域。本发明对所述语音流数据进行切分基元时从一个音节的中心元音开始，到与它相邻的下一个音节的中心元音结束，切分所得的跨音节基元由两组成：前一音节韵母的中心元音及其之后的部分，当前音节韵母的中心元音以及之前的部分，从而获得跨音节基元。本方法既能保留音节内及音节间的协同发音，又避免基元过短导致大量的拼接出现，从而有效提高合成语音的自然度和连贯性，且不会影响合成语音的音质表现。

Description

具有谱稳定边界的跨音节中文语音合成基元构建方法

技术领域

本发明涉及一种中文语音合成基元的定义及构建方法，具体地涉及具有谱稳定边界的跨音节中文语音合成基元的自动化构建方法。属于语音处理领域。

背景技术

语音合成基元的选取是语音合成中至关重要的环节。合理的选择语音基元，构建基元数据库，对语音合成具有重要意义。基元的选择没有统一、绝对的评价标准，它会受到语种、应用领域、训练数据量以及存储要求等条件的限制。常见的语音合成基元有音素、双音素、三音素、半音节、音节、词等(见Taylor,Paul.Text-to-speech synthesis.Cambridge University Press,2009)。这些合成基元的选取，是基于语言及语音学知识的，因此基元的边界往往选在音素或音节之间。然而，对于一段连续语音，相邻的音素或音节间往往存在耦合现象，即当前音素或音节的发音受到它前后音素或音节发音的影响。这种现象在语音学中称为协同发音(周迅溢，王蓓，杨玉芳，李晓庆，“语句中协同发音对音节知觉的影响”，心理学报，2003，35(3)：340-344)，它保证了连续语音的自然度与连贯性。

汉语是一种单音节带调语音，包含23个声母和24个韵母。每个音节由一个声母和一个韵母组成，个别音节没有声母部分(零声母)，韵母分为单韵母，复韵母，前鼻韵母和后鼻韵母。由不同的声韵母组成的汉语无调音节约为410个，如果考虑每种音节的五个声调：轻声、阴平、阳平、上声、去声，则共有约1300个带调音节(杨行峻，迟惠生等，《语音信号数字处理》，电子工业出版社，1995年)。在一段连续的汉语语音中存在大量的音节内及音节间的协同发音现象。目前的中文语音合成系统可以分为两个主流方向：基于拼接的单元挑选合成方法和基于隐马尔科夫模型(HMM)的统计参数语音合成方法(Zen,Heiga,Keiichi Tokuda,and Alan W.Black."Statistical parametric speechsynthesis."Speech Communication 51.11(2009):1039-1064)。对于前者，合成基元通常为双音子，它一般包含两个音素，其边界在这两个音素中的稳定段，虽然这种方法也考虑到了协同发音的影响，但双音子的结构导致合成语音中出现大量的拼接点，不仅增加了算法的复杂度，且容易导致衔接不自然；对于后者，通常选取音节作为合成基元，这虽然保证了音节内部的连贯，但音节间的协同发音被破坏。因此，需要构建一种新的合成基元，使其既能保留音节内及音节间的协同发音，又避免基元过短导致大量的拼接出现，从而提高合成语音的自然度和连贯性。

发明内容

为了构建一种能同时保留音节内及音节间协同发音的合成基元，本发明提出一种具有谱稳定边界的跨音节中文语音合成基元构建方法，包括如下步骤：获取语音流数据，对其进行音节标注，并对所述语音流数据进行切分从而获得跨音节基元，切分基元时从一个音节的中心元音开始，到与它相邻的下一个音节的中心元音结束，切分所得的跨音节基元由两部分组成：前一音节韵母的中心元音及其之后的部分，当前音节韵母的中心元音以及之前的部分；

如果该语音流数据的前后均为静音段，则第一个跨音节基元为静音段加上第一个音节韵母的中心元音及其之前的部分；最后一个跨音节基元为最后一个音节韵母的中心元音及其之后的部分加上静音段；

所述中心元音指一个音节韵母部分中发音最稳定，持续时间最长的部分。

通常所述中心元音是音节中可标注声调的元音。

进一步地，切分所述跨音节基元时识别中心元音的方法，包括如下步骤：

S1：分帧：首先对一段数字化的语音流数据进行加窗分帧处理；

所述的语音流数据应至少包含一个音节，帧移应小于等于帧长L，分帧后得到语音信号序列的第n帧记为x_n(i),其中1≤n≤N，n为帧编号，N为该语音流数据分帧后获得的帧数，1≤i≤L；

S2：提取参数：对每帧语音信号提取其频谱参数，记第n帧语音的第i个频谱参数为y_n(i),1≤i≤P，1≤n≤N，P是频率参数的阶数；

S3：以该语音流数据的音节标注信息为参考，在每个音节中，根据谱稳定准则，迭代计算出每个音节的中心元音位置，即获得基元边界，方法如下：

(1)获得每帧语音信号的频谱参数y_n(i)的转移率c_n(i)：

c_{n} (i) = \{\begin{matrix} \frac{Σ_{m = - (n - 1)}^{M} {my}_{n + m} (i)}{Σ_{m = - M}^{M} m^{2}}, 1 \leq n \leq M \\ \frac{Σ_{m = - M}^{M} {my}_{n + m} (i)}{Σ_{m = - M}^{M} m^{2}}, M < n \leq N - M \\ \frac{Σ_{m = - M}^{N - n} {my}_{n + m} (i)}{Σ_{m = - M}^{M} m^{2}}, N - M < n \leq N \end{matrix},

其中1≤i≤P，m为窗长控制系数，窗长为2M+1，设定的M的初始值应远小于帧数N；

(2)将第n帧语音信号的所有P阶频率参数y_n(i)的转移率c_n(i)的平方和，定义为第n帧的谱特征转移率s(n)，从而获得每帧语音信号的谱特征转移率s(n)：

s (n) = Σ_{i = 1}^{P} c_{n} {(i)}^{2},

1≤n≤N

(3)按照如下方法检测谱特征转移率s(n)在时间窗内的局部最小值点：

当1≤n≤M时，在时间窗[1,n+M]内检测局部最小值点；

当M<n≤N-M时，在时间窗[n-M,n+M]内检测局部最小值点；

当N-M<n≤N时，在时间窗[n-M,N]内检测局部最小值点；

此处的局部最小值点存在的条件为：该帧的谱特征转移率s(n)小于它前后帧的谱特征转移率，即：

s(n)≤s(n-1)，且s(n)≤s(n+1)

记录s(n)各局部最小值点所对应的帧编号n；

(4)为了避免噪音引起的抖动，根据分帧前的整段语音信号的音节标注信息，判断在每个音节内部是否只存在1个s(n)的局部最小值点；

如果是，则该局部最小值点对应的帧n为中心元音所在位置，即基元边界；结束操作；

如果不是，令M值加1，再次执行步骤(1)—(4)，重新计算c_n(i)、s(n)，并再次判断整段语音信号每个音节内s(n)的局部最小值点的个数，直到一个音节内只存在s(n)的一个局部最小值点，即找到每个音节的中心元音位置。

对比现有技术，本发明的有益效果在于：本发明提供的方法既能保留音节内及音节间的协同发音，又避免基元过短导致大量的拼接出现，从而有效提高合成语音的自然度和连贯性，且不会影响合成语音的音质表现。本发明所述的跨音节基元适用于任何合成系统，例如基于拼接的语音合成以及基于统计参数建模的语音合成。

附图说明

图1是HTS统一化参数观察向量；

图2是基于本发明的HTS训练合成流程；

图3是实施例主观A/B测试结果；

图4是主观对比等级评定(CCR)测试结果。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明定义该基元从一个音节的中心元音开始，到与它相邻的下一个音节的中心元音结束。此处的中心元音指一个音节韵母部分中发音相对稳定，持续时间较长的部分，它通常对应音节中可标注声调的元音。本发明以中心元音的中心为边界，构建一种跨音节基元，它包括前一音节中心元音以及之后的韵母部分，后一音节的声母(或零声母则无此)，后一音节韵母中心元音以及之前的部分。例如在“联合国(lián hé guó)”这三个音节中，中心元音分别是a，e，o，假设这个词的前后均为静音段sil，则可构成四个跨音节基元：sil+lia，an+he，e+guo，o+sil。其中“+”可以替换为任意连接符号，音调不予考虑(可以在后续合成中引入音调模型或标注等)。对于包含零声母的词段，例如昂首(“ángshǒu”)，假设其前后为静音段sil，那么构建的跨音节基元为：sil+ang，ang+sho，ou+sil。在一个设计良好且音节平衡的朗读语音语料库(指有计划的、按照文字朗读的语音库，内容可以是：音节、词和短语、句子、对话语篇或独白语篇)中，大约可以构建1750个这种无声调跨音节基元。例如“棉袄”构成的跨音节基元为：sil+mia，an+a，ao+sil；“天安门”构成的跨音节基元为：sil+tia，an+a，an+me，en+sil；“周恩来”构成的跨音节基元为：sil+zho，ou+e，en+la，ai+sil；“平安符”构成的跨音节基元为：sil+pi，ing+a，an+fu，u+sil；“延安”构成的跨音节基元为：sil+ya，an+a，an+sil。

为了从语料库(至少要有音节级别的标注信息)中自动生成这种跨音节基元，本发明采用谱稳定准则(原用于语音谱参数的暂时分解方法中，见Nandasena,Athaudage CR,and Masato Akagi."Spectral stability based event localizing temporaldecomposition."Acoustics,Speech and Signal Processing,1998.Proceedings of the1998IEEE International Conference on.Vol.2.IEEE,1998.)，对输入的每段连续语音信号进行自动切分。所述各音节的中心元音的自动识别方法如下：

S1：分帧。首先对一段数字化的连续语音信号进行加窗分帧处理。分帧是依据语音的准平稳特性，将语音信号划分成短时的语音段，便于后续的分析处理(杨行峻，迟惠生等，《语音信号数字处理》，电子工业出版社，1995年)。所述的连续语音信号应至少包含一个音节，帧长L一般为10ms-30ms，帧移≤帧长，作为优选方案，建议帧长L＝25ms，帧移5ms。分帧后得到语音信号序列的第n帧记为x_n(i),其中1≤n≤N，n为帧编号，N为输入的连续语音的帧数，1≤j≤L。作为优选，窗函数为汉明窗。

S2：提取参数。对每帧语音提取频谱参数。频谱参数可以是任意类型，作为优选，实施例中提取的是语音信号的P＝16阶线谱频率(LSF)参数y_n(i),1≤i≤P，1≤n≤N。

S3：以音节标注为参考，在每个音节中，根据谱稳定准则，按照如下方法，迭代计算出中心元音的位置，即基元边界：

(1)设y_n(i)为第n帧语音的第i阶频谱参数，它的转移率c_n(i)定义为：

c_{n} (i) = \{\begin{matrix} \frac{Σ_{m = - (n - 1)}^{M} {my}_{n + m} (i)}{Σ_{m = - M}^{M} m^{2}}, 1 \leq n \leq M \\ \frac{Σ_{m = - M}^{M} {my}_{n + m} (i)}{Σ_{m = - M}^{M} m^{2}}, M < n \leq N - M \\ \frac{Σ_{m = - M}^{N - n} {my}_{n + m} (i)}{Σ_{m = - M}^{M} m^{2}}, N - M < n \leq N \end{matrix},

1≤i≤P

其中P在实施例中为线谱频率参数的阶数，m为窗长控制系数，窗长为2M+1，设定的M的初始值应远小于帧数N，作为优选，M初始化为2；

(2)将第n帧语音信号的所有P阶线谱频率参数y_n(i)(1≤i≤P)的转移率c_n(i)的平方和，定义为第n帧的谱特征转移率s(n)：

s (n) = Σ_{i = 1}^{P} c_{n} {(i)}^{2},

1≤n≤N；

y_n(i)与c_n(i)一一对应，每帧计算得到一个谱特征转移率，因此S(n)是N点序列；

当1≤n≤M时，在时间窗[1,n+M]内检测局部最小值点；

当M<n≤N-M时，在时间窗[n-M,n+M]内检测局部最小值点；

当N-M<n≤N时，在时间窗[n-M,N]内检测局部最小值点；

s(n)≤s(n-1)，且s(n)≤s(n+1)

记录s(n)局部最小值点所对应的帧编号n；

(4)为了避免噪音引起的抖动，对分帧前的整段语音信号进行音节标注，判断在每个音节内部是否只存在一个s(n)的局部最小值点；

如果是，则该局部最小值点对应的帧n即为中心元音所在位置，即基元边界；结束操作；

如果不是，令M＝M+1，再次执行步骤(1)—(4)，重新计算c_n(i)、s(n)，并再次判断整段语音信号每个音节内s(n)的局部最小值点的个数，直到一个音节内只存在s(n)的一个局部最小值点，即获得整个语音流数据各音节的中心元音所在位置；

然后以计算出的中心元音为边界，对所述语音流数据进行切分从而获得跨音节基元，切分基元时从一个音节的中心元音开始，到与它相邻的下一个音节的中心元音结束，切分所得的跨音节基元由两部分组成：前一音节韵母的中心元音及其之后的部分，当前音节韵母的中心元音以及之前的部分；用于进行语音合成。如果该语音流数据的前后均为静音段，则第一个跨音节基元为静音段加上第一个音节韵母的中心元音及其之前的部分；最后一个跨音节基元为最后一个音节韵母的中心元音及其之后的部分加上静音段。

下面的实施例介绍了跨音节基元在基于统计参数建模的语音合成中的应用，并对比了其与传统音节基元合成语音，在音质和自然度两方面的性能。

为了在连续语音中自动生成这种跨音节基元，本发明基于谱稳定准则的合成基元构建方法，对每一句连续语音进行切分，得到一系列具有谱稳定边界的跨音节合成基元，记录下边界的位置。

下面结合实施例对本发明的实施方法进行解释和说明，本实施例包括如下步骤：

S1：分帧。首先对一段数字化语音信号进行加窗分帧处理，所用的窗函数为汉明窗，帧长10ms，帧移5ms。

S2：提取参数。对每帧语音提取频谱参数序列，这里提取的是语音信号的16阶线谱频率(LSF)参数。

S3：以该段语音的音节标注为参考，在每个音节中，根据谱稳定准则，通过迭代的方法定位出中心元音，即基元边界：

(1)设y_n(i)为第n帧语音的第i阶谱参数，它的转移率c_n(i)定义为：

c_{n} (i) = \frac{Σ_{m = - M}^{M} {my}_{n + m} (i)}{Σ_{m = - M}^{M} m^{2}},

1≤i≤P

其中M为窗长控制系数，计算窗长为2M+1，P为谱参数的阶数，这里M初始化为2，P为提取的LSF的阶数，即16；

(2)所有P阶谱参数y_n(i)(1≤i≤P)的转移率的平方和，定义为第n帧的谱特征转移率：

s (n) = Σ_{i = 1}^{P} c_{n} {(i)}^{2},

1≤n≤N

(3)检测s(n)在每个时间窗[n-M,n+M]内的局部最小值点，此处的局部最小值点存在的条件为，该帧的谱特征转移率小于它前后帧的谱特征转移率，即：

s(n)≤s(n-1)，且s(n)≤s(n+1)

(4)为了避免噪音引起的抖动，判断在一个音节内部是否只存在一个局部最小值点。如果是，则该最小值点对应的帧即为中心元音所在位置，即基元边界，如果不是，令M＝M+1，回到步骤(1)重新计算s(n)并判断局部最小值点的个数，直到一个音节内只存在一个局部最小点。

然后，按照本发明定义的跨音节基元，对标注文件进行调整。调整内容包括基元的开始结束时间，基元的内容、上下文和韵律信息等。调整前的单音节基元，以及调整后的跨音节基元的对比标注如下表：

在进行HTS训练前，首先对训练语音进行加窗分帧，所选窗函数为汉明窗，帧长为25ms，帧移5ms。提取每帧语音的基频F0及16阶LSF频谱参数。这里采用SPTK工具进行分帧和参数提取。根据HTS统一化参数观察向量表示方法，每帧语音的参数向量包含四个参数流(stream)，如附图1所示。其中第一个流为该帧语音的16阶LSF谱参数，及其一阶、二阶动态形式；第二到第四个流分别为该帧语音的基频，及其一阶、二阶动态形式。

HTS分为训练和合成两个部分。在训练部分，采用隐马尔科夫模型(HMM)对每个合成基元建模，通过对各个基元的所有观察值进行训练，估计出模型参数。在合成部分，根据输入的文本信息，选取合适的模型，由最大似然参数生成算法，预测产生每帧的参数序列。最后将这些参数序列输入合成滤波器，得到数字化的语音波形。其整个过程如附图2所示。

本实施例中使用了公开的HTK-3.4工具包及HTS-2.1.1补丁包。HMM状态数设置为10。其他配置与HTS英文demo中的相同。

本发明在基于HMM的语音合成系统(HTS)上对提出的具有谱稳定边界的跨音节中文语音合成基元进行了测试。

所选的语料为ASCCD中文朗读语音语料库中的三个女声说话人的语音(F002，F003，F004)，每个说话人包含600句自然连续语音，我们用其中的500句作为训练语料，剩余100句作为测试语料。每条语料对应着一个完整的上下文标注文件，其中包括声韵母信息、音节信息、以及词汇短语边界等的韵律信息。

在实验中，我们用单音节基元及跨音节基元分别进行HMM训练，然后用训练好的两套模型，分别合成训练集外的100句测试语音并对其进行主观评测。评测从自然度和音质两方面进行。对于自然度的评估，我们采用A/B测试的方法：

1.选择8个母语为汉语且听力正常的听音人；

2.在用两套模型分别合成的100句语音中随机的选取10句语音，组成一对测听语料，这一对语音具有相同的文本内容，但是排列顺序随机；

3.听音人在信噪比低于34dB的封闭环境中，用耳机收听三个说话人，每人10对语音，并根据自然度的好坏，在每对语音中选择一个他们认为自然度更好的进行标记。

4.对所有听音人的标记结果进行统计，得出百分制的统计结果，如附图3所示。

对于音质的评估，我们采用对比等级评定(CCR)方法。具体测听办法与A/B测试类似，不同之处只在于评价准则。CCR测试要求听音人对每对语音中的第二句相对第一句的音质提高或下降程度进行7个等级的打分，如下表：

3分	提高很多(Much Better)
		2分	有提高(Better)
1分	有微小提高(Slightly Better)
		0分	基本一致(About the Same)
-1分	有微小下降(Slightly Worse)
		-2分	有下降(Worse)
-3分	下降很多(Much Worse)

CCR测试结果如附图4所示。

从附图3与附图4的主观评测结果看出，本发明提出的跨音节合成基元能有效地改善合成语音的自然度，且不会影响合成语音的音质表现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换和替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，包括如下步骤：获取语音流数据，对其进行音节标注，并对所述语音流数据进行切分从而获得跨音节基元，切分基元时从一个音节的中心元音开始，到与它相邻的下一个音节的中心元音结束，切分所得的跨音节基元由两部分组成：前一音节韵母的中心元音及其之后的部分，当前音节韵母的中心元音以及之前的部分；

如果该语音流数据的前后均为静音段，则第一个跨音节基元为静音段加上第一个音节韵母的中心元音及其之前的部分；最后一个跨音节基元为最后一个音节韵母的中心元音及其之后的部分加上静音段。

2.根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，所述中心元音指一个音节韵母部分中发音最稳定，持续时间最长的部分。

3.根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，所述中心元音是音节中可标注声调的元音。

4.根据权利要求1中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，切分所述跨音节基元时识别中心元音的方法，包括如下步骤：

(1)获得每帧语音信号的频谱参数y_n(i)的转移率c_n(i)：

当1≤n≤M时，在时间窗[1,n+M]内检测局部最小值点；

当M<n≤N-M时，在时间窗[n-M,n+M]内检测局部最小值点；

当N-M<n≤N时，在时间窗[n-M,N]内检测局部最小值点；

s(n)≤s(n-1)，且s(n)≤s(n+1)

记录s(n)各局部最小值点所对应的帧编号n；

5.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，步骤S1中进行分帧时，帧长L为10ms-30ms。

6.根据权利要求5中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，帧长L为25ms，帧移为5ms。

7.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，步骤S1中进行加窗分帧时，窗函数为汉明窗。

8.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，步骤S2中所述频谱参数是该帧语音信号的P＝16阶线谱频率参数y_n(i)。

9.根据权利要求4中所述的一种具有谱稳定边界的跨音节中文语音合成基元构建方法，其特征在于，步骤S3(1)中，M初始化为2。