CN1335980A

CN1335980A - 借助于映射矩阵的宽频带语音合成

Info

Publication number: CN1335980A
Application number: CN00802584A
Authority: CN
Inventors: G·米特; A·格里茨
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-11-10
Filing date: 2000-11-01
Publication date: 2002-02-13
Also published as: KR20010101422A; EP1147515A1; US6681202B1; JP2003514263A; WO2001035395A1

Abstract

本发明描述了从电话信号频带(或窄频带:300－3400Hz)语音信号生成宽频带信号(100－7000Hz)以获取扩展频带语音信号(100－3400Hz)的系统。这个技术是显著优越的因为它增加信号自然度和听觉舒适度同时兼容于所有现有的电话系统。所描述的技术采用了线性预测语音编码。语音信号因而分割为谱包络和短期剩余信号。所有信号都各自扩展并重新结合以建立扩展频带信号。

Description

借助于映射矩阵的宽频带语音合成

发明领域

本发明涉及数字传输系统且尤其涉及一种允许在接收端将窄频带接收的语音信号例如电话信号频带(300-3400Hz)扩展到一个较宽频带(例如100-7000Hz)的扩展语音信号的系统。

背景技术

大多数现有的电信系统传送语音带宽限制在300-3400Hz(窄频带语音)。这足以满足电话会谈但是自然语音带宽要更宽一些(100-7000Hz)。实际上，低频带(100-300Hz)和高频带(3400-7000Hz)对于听觉舒适、语音自然度和更好地分辨讲话者的声音是非常重要的。因而这些频段在电话受话器的再生将能强有力地改进电信系统的语音质量。而且，在电话会谈中，尤其当使用移动电话的时候，语音经常被背景噪音干扰破坏。还有，电话网可以传送由交换台播放的音乐。因此，生成低频带和高频带的系统将都尽可能多地适合于语音而且将能减少噪音和提高音乐的主观质量。

专利号为5,581,652的美国专利描述了一种电码本映射方法用于朝着低频方向扩展语音信号的频谱包络。依照这个方法，由于利用如在Y.Linde，A.Buzo，R.M.Gray的论文“An algorithm for Vector Quantizer Design”(IEEE Transactions on Communications，Vol.COM-28，No 1，January 1980)中描述的矢量量化的训练过程，低频带综合型滤波器系数生成于窄频带解析滤波器系数。这个训练过程能计算两种不同的电码本：一个用于扩展频带的扩展电码本和一个用于窄频带的窄电码本。所述窄电码本是利用矢量量化从扩展电码本计算而来以致扩展电码本的每个矢量都和窄频带电码本的矢量相联系。于是低频带综合型滤波器系数由这些电码本计算而来。

但是，这个方法存在一些缺陷，它是导致卡嗒卡嗒背景音的原因。首先综合型滤波器波形数局限于电码本的大小。其次在扩展频带的扩展矢量不是非常地和从窄频带语音信号线性预测获取的矢量相关。因此另一个被称为扩展矩阵的方法得到了发展以便改进接收端信号质量。

发明简介

本发明的一个目的是提供一种方法用于在接收端把窄频带语音信号扩展为较宽频带的语音信号以便增加信号自然度和听觉舒适度，由此得到更好的信号质量。本发明尤其有益于电话系统(telephony systems)。

依照本发明，在扩展矩阵法被应用于语音信号之前检测被接收到的语音信号的语音特性，所述扩展矩阵法具有取决于所述被检测到的语音特性的系数。

在本发明的一个优先实施例中，所述具体特性被称为调声(voicing)，关系到浊音/清音在接收到的语音信号中的检测存在，其可被已知方法检测，已知方法的一个例子披露在W.B.Kleijn和K.K.Paliwal编写的由Elsevier在1995年出版的手册“Speech Coding and Synthesis”中。然后从数据库中计算矩阵，应用如C.L.Lawson和R.J.Hanson在“Solving Least Squares Problems”(Prentice-Hall，1974)中所描述的基于最小平方差准则的算法线性预测编码(LPC)参数，或者基于在P.E.Gill，W.Murray和M.H.Wright的“Practical Optimization”(Academic Press出版，伦敦1981)中描述的约束最小平方的算法，根据检测到的调声划分所述数据库。

附图简要描述

本发明和附加的特征，可以随意地用于实施本发明，从下文绘出的图来看是明白的而且将被参照下文绘出的图阐述。

图1是表示依照本发明所述系统的总的示意图。

图2是说明依照本发明所述宽频带合成的接收机总的方框图。

图3是依照本发明一个优先实施例所述的接收机总的方框图。

图4是说明依照本发明所述一个方法的方框图。

图5是表示在窄频带和扩展频带空间的连续的LSF的路径示意图。

附图详细描述

依照本发明所述系统的一个例子表示在图1中。该系统是移动电话系统而且包括至少一个发射部分1(例如基站)和至少一个接收部分2(例如移动电话)，该移动电话系统能通过传输媒介3传送语音信号。

本发明还包含在接收部分2改进传送语音信号的声频质量的接收机(图2和3)和方法(图4)。

常常是通过下面的源-滤波器模型模拟语音生成。该滤波器模拟语音信号的短期频谱包络。这个综合型滤波器是模拟语音样本之间短期相关的P阶的“全通”滤波器。通常，对于窄频带语音P等于10而对于宽频带语音(100-7000Hz)P等于20。滤波器系数可以用在引用过的手册“Speech Coding and Synthesis”(W.B.Kleijn和K.K.Paliwal编写)中描述的线性预测(LP)获取。因此，该综合型滤波器被称为“线性预测综合型滤波器”。

源信号给这种滤波器馈电，因此它又被称为激励信号。在语音分析中，它对应于语音信号之间的差和它的短期预测。因此，这种被称为剩余信号的信号是通过用逆反于综合型滤波器的“线性预测反向滤波器”过滤语音获取的。对于有声常常以音调频率的脉冲逼近源信号，而对于无声以白噪声逼近源信号。

如图2所示通过在叠加作为结果的信号之前把信号分割成两个互补的部分，这种模拟能简化宽频带合成，适用于低频带信号生成(100-300Hz)以及高频带信号生成(3400-7000Hz)。

在从窄频带语音频谱包络中产生到宽频带频谱包络的过程中，问题是获取综合型滤波器系数。这个问题的解决是通过窄频带语音信号SNB的线性预测分析11，之后是用于控制综合型滤波器13的包络扩展12和用于拒绝最好是从原始的窄频带语音信号中析取的窄频带信号的拒波滤波14。从原始的窄频带语音信号SNB和线性预测分析块11中，生成用于激励综合型滤波器13的宽频带激励信号。

通过上-采样16接收信号SNB和从原始信号获取窄频带进行带通滤波17，从而从窄频带剩余信号(或其导出信号)中产生宽频带激励信号。

大多数源-滤波器方法利用同样的原理测定低频带综合型滤波器。第一步，通过线性预测分析11析取语音信号包络谱参数。这些参数被转化为适当的表达域(representation domain)。然后，一个函数被施加于这些参数以获取低频带综合型滤波器参数13。每个方法的特性主要在于用于建立低频带线性预测综合型滤波器的函数的选择。

当电信标准没有规定低频带最大排斥水平(rejection level)时激励信号的测定也很重要。在这种情况下，试图在从接收到的低频带剩余传送之前恢复语音信号低频带剩余信号的方法是危险的，因为在这个频带信号对量化噪声的比值是未知数。

本发明的要点是建立一个从窄频带谱包络获得扩展频带谱包络的线性函数。依照本发明所述建立这个函数的方法将在下文结合图4描述。

本发明的一个优先实施例表示在图3中介绍了为了应用不同的线性函数的关于接收信号的内容的调声检测。给出了一个低频带扩展的总体方案。同样地这些方案适用于高频带扩展。在这个实施例中，S_N代表窄频带语音，即，例如，00到4KHz之间的信号。合成的宽频带语音是，例如，0到8KHz之间的信号，它被标记为S_W。窄频带语音被分割成20ms的段，称为语音帧。

调声检测器21利用窄频带语音段对帧分类。该帧是浊音的、清音的、过渡或无声帧。这个分类被称为调声决定，如在图3中表示为调声。这个调声检测将在下面描述。调声决定用于选择映射矩阵22。线性预测编码(LPC)解析滤波器的阶数可为40以得到包络的较高阶数的估计。利用当前的语音帧和计算得到的LPC参数，窄频带剩余信号被建立。

包络和剩余并行扩展。为了扩展包络，LPC参数首先被转化为LSF参数。利用调声决定选择映射矩阵22。这里有4种不同的映射矩阵取决于调声决定：浊音的，清音的，过渡和无声。如图4所描述在离线训练其间映射矩阵被建立。利用窄带LSF矢量和适当的映射矩阵，扩展的宽频带LSF矢量被计算出来。这个矢量然后转化为用于综合型滤波器24的直接形式LPC参数。

利用LPC分析结果的宽频带激励生成块25用来激励综合型滤波器24。在带通滤波27之前窄频带信号S_N通过补零被上-采样26以完成宽带频信号S_W。

如果用的是高阶数的LPC分析则剩余扩展执行得更好。由于这个原因系统使用40阶的LPC分析。窄频带和宽频带LPC矢量的阶数都是40。尽管包络扩展的执行稍稍减少，但是上述系统的整个质量通过高阶数的LPC矢量增加了。

常用于调声检测的算法在(TN harmony)中被描述。这个算法区分10ms的段为浊音的或者清音的。引入一个能阈指示无声帧。于是，对一个20ms的帧，得到2个调声决定。基于这两个调声决定对帧进行分类。

在下表中表示如何根据2个调声决定划分为4个种类。

Vuv1	Vuv2	调声决定帧
Vuv1	Vuv2	调声决定帧	浊音	浊音	浊音
浊音	清音	过渡	浊音	浊音	浊音
浊音	清音	过渡	浊音	无声	过渡
清音	清音	清音	浊音	无声	过渡
清音	清音	清音	清音	无声	清音
无声	无声	无声	清音	无声	清音

表1 调声决定

帧的调声决定用于选择映射矩阵和在清音情况时应用增益缩放比例。

结合图4描述执行图3中所示的优先实施例的方法。这个算法需要两个主要阶段运行。第一阶段是训练阶段，在这个阶段中计算用于扩展在接收端的频带宽的扩展矩阵。第二阶段只是简单地在目标产品如移动电话听筒上运行频带宽扩展算法。

图4涉及训练阶段。它表示了从窄频带LSP空间41到扩展频带LSF空间42的LSF扩展。在窄频带LSP空间41中，原始LSF路径用连续的线表示，同时矢量量化LSF转移用不连续的线表示。在扩展频带LSF空间42中，矩阵扩展LSF路径用连续的线表示，同时电码本映射LSF质心( )转移用不连续的线表示。只有扩展矩阵保持接近度和连续性。

生成扩展矩阵如图5所示，例如从16KHz语音平衡语音样品。用方块31到38来说明其步骤：

步骤31：语音样品被分割为，例如，20ms连续的窗口(320个样品)，其将被称作宽频带窗口。

步骤32：这些语音样品用低通滤波器滤波(截断高于4KHz的频率)。

步骤33：然后下采样滤波后的语音样品至8KHz。

步骤34：为了获得窄频带和作为给定的窗口索引的宽频带窗口之间的对应，下采样的语音样品分割为20ms连续的窗口(160个样品)其将被称作窄频带窗口。

步骤35：参照语音标准如浊音的、清音的、过渡和无声等声音的存在，对每个窄或宽频带窗口进行分类。

步骤36：对每一个窗口，一个高阶数LSF矢量被计算出，例如40阶的。

步骤37：每个窄频带LSF矢量和其对应的宽频带LSF矢量被放入在浊音的、清音的、过渡和无声等之中的簇中。

步骤38：对每个簇，扩展矩阵按如下描述计算出。这些矩阵标识M_V；M_UV；M_T：M_S分别代表浊音的、清音的、过渡和无声LSF，这些矩阵根据其分别从窄频带LSF矢量决定宽频带LSF矢量。例如，对于标识为LSF_WB的窄频带LSF矢量，如下计算标识为LSF_NB的宽频带LSP矢量：LSF_WB＝M_V×LSF_NB。

代替调声检测，为了获得接收信号例如基于音素模型或矢量量化的识别信号的不同的分类其它语音信号特征可被检测。

下文阐释依照本发明优先实施例在步骤38中扩展矩阵的建立在从窄频带谱包络得出扩展频带谱包络。

假设标识W_e＝(w_e(1)，w_e(2)，…，w_e(P))^t为扩展频带LSF矢量和标识W_n＝(w_n(1)，w_n(2)，…，w_n(P))^t为窄频带LSF矢量，阶数都为P，其中W_n(i)表示第i个窄频带LSF而w_e(i)表示第i个扩展频带LSF。扩展矩阵M被定义为下式w_e ^t＝w_n ^t·M，其中M是P×P矩阵，其系数标识为m(k，k)，1≤k≤P：

这样，通过窄频带LSF矢量乘以扩展矩阵得出扩展谱包络LSF矢量，由此计算谱包络扩展。如图5描述，表示了在窄频带和扩展频带空间的连续的LSF路径，扩展矩阵能够提供带有下述特性的宽频带LSF矢量：

-宽频带LSF矢量与窄频带LSF矢量相互关联，

-窄频带LSF矢量的连续发展导致宽频带LSF矢量的连续发展，

-扩展频带LSF固定尺寸(set size)是无穷大。

原始的扩展频带LSF的这些特征不能通过电码本映射方法保存。公式(1)需要预先计算好的矩阵M。

依照本发明第一个实施例所述，矩阵M利用最小二乘法算法计算，如在S.Haykin编写的手册“Adaptive Filter Theory”(第3版，Prentice Hall，1996)所描述。

这种情况下，公式(1)首先给定为

W_e＝W_n·M (2)

其中：

而且W_ek是第k个扩展频带LSP，k=[1…N]

这样，W_n和W_e的每一行对应于窄频带LSF和其相应的扩展频带LSF。因而，通过公式计算M：

M=(W_n ^tWn)^-1W_n ^tW_e (3)

尽管公式(3)可提供在最小二乘法意义上的最好的近似值，这多半不是适用于LSF域的最佳的扩展矩阵。事实上，LSF域没有矢量空间结构。因此，(3)很可能得出不属于LSF域的扩展矢量。这一点被扩展矢量的重要的数没有落在LSF域中的模拟确认。确保LSF域的条件是：

0＜w₁＜w₂＜…＜W_p＜π (4)

因此，两种可能性出现了：

●改变谱包络表达域以至于它有矢量空间结构(例如LAR)。

●在扩展矩阵计算的期间应用反映(4)的约束。

因为LSF是谱包络的优先的表达域，它已经决定选择第二种可能性。

依照本发明第二个实施例所述，公式(3)被下面公式(5)取代：

M = \arg \min_{N}

{{tr [(W_{e} - {NW}_{n})}^{t} (W_{e} - {NW}_{n})]}

其中n(i，j)≥0，(i，j)∈ [1..P]² (5)

这个约束条件确保LSF系数为非负数。惯用于求解(5)的这个算法，称为非负数最小二乘法(NNLS)，被C.L.Lawson和R.J.Hanson描述在手册“Solving Least Squares Problems”(Prentice-Hall，1974)中。

然而，这个算法有两个缺陷

-它非常苛刻因为所有的矩阵元素都必须为正数。

-它不能确保LSF排列顺序。

因此，该矩阵不是限制扩展过程的特征实现的最佳的矩阵。此外，还有一些情况是计算得来的We不满足公式(4)约束条件。这会产生不稳定滤波。为了避免它，扩展频带LSF矢量不得不人工地稳定。

虽然，非正式的收听实验显示了NNLS算法提供了令人鼓舞的特性。但是仍然不得不用不同地求出M。

依照本发明一个优先实施例所述，应用约束最小平方(CLS)算法。这里，对矢量进行最佳化计算。因而，连接M的列是必需的。

从(1)，可导出：

于是，

现在，公式(4)的约束条件可以被下式转换

于是，

对所有这些获取，相当于，

因而，矩阵可从CLS算法计算出：

y = \arg \min_{x} | | Ax - b | |,

yCx≤d，及

宽频带激励生成可以利用例如在作为现有技术被引用的美国专利5,581,652中被描述的方法来完成。

Claims

1.电信系统，至少包括用于传送给定频带宽的语音信号的发射机和接收机，接收机包括扩展接收信号频带宽的装置，而且其中所述接收机包括：

-用于过滤所述接收信号的有控制参数的滤波装置和

-用于检测接收到的语音信号语音特性和用于参照所述检测到的语音特性选择所述控制参数的特定语音检测器。

2.如权利要求1所述的电信系统，其中所述语音特性是调声(voicing)。

3.如权利要求1所述的电信系统，其中所述控制参数是映射矩阵的系数。

4.接收机，用于接收给定频带宽的语音信号而且包括扩展所述接收信号频带宽的装置，特征在于它包括有控制参数的滤波装置用于过滤所述接收信号和用于参照所述检测到的语音特性选择所述控制参数。

5.在接收端扩展接收信号频带宽的方法，特征在于它包括下列步骤：

●检测接收到的语音信号特性的语音检测步骤，

●析取接收信号的语音参数的线性预测分析步骤，

●参照检测到的接收语音信号的特性选择映射扩展矩阵的选择步骤，

●利用其系数根据线性预测编码分析结果和选定的矩阵计算的滤波器对接收信号进行滤波的滤波步骤。

6.用于如权利要求4所述接收机的计算机程序产品，计算一组指令，当其被输入接收机的时候，它使接收机执行如权利要求5所要求的方法。

7.用于实现计算机程序的信号，该计算机程序被安排执行下列步骤：

●检测接收语音信号的特性的语音检测步骤，

●析取接收语音信号的语音参数的线性预测分析步骤