CN102576535A

CN102576535A - 用于确定音频系统的感知质量的方法和系统

Info

Publication number: CN102576535A
Application number: CN2010800464063A
Authority: CN
Inventors: J.比伦德斯; J.范武格特
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2009-08-14
Filing date: 2010-08-09
Publication date: 2012-07-11
Anticipated expiration: 2030-08-09
Also published as: JP2013501952A; US20120143601A1; JP5542206B2; EP2465113B1; US8818798B2; WO2011018430A1; KR20120042989A; DK2465113T3; KR101430321B1; EP2465113A1; CN102576535B; ES2531556T3

Abstract

本发明涉及一种用于关于参考信号确定质量指标的方法，该质量指标代表音频系统的输出信号的感知质量。处理和比较参考信号和输出信号。该处理包括将参考信号和输出信号划分成相互对应的时间帧。此外，该处理包括将参考信号的强度缩放成固定声强级、并且然后对缩放的参考信号内的时间帧执行测量用于确定参考信号时间帧特性。然后将参考信号的强度从固定声强级缩放成与输出信号有关的声强级。另外，在该方法中，在感知响度域中将输出信号的响度缩放成固定响度级。这一缩放动作使用参考信号时间帧特性。最后，在感知响度域中将参考信号的响度从与输出信号有关的声强级对应的响度级缩放成与缩放的输出信号的响度级有关的响度级。这一缩放动作也使用参考信号时间帧特性。

Description

用于确定音频系统的感知质量的方法和系统

技术领域

本发明涉及一种用于关于参考信号确定质量指标的方法，该质量指标代表音频系统（例如语音处理设备）的输出信号的感知质量。本发明还涉及一种包括例如存储于计算机可读介质上的计算机可执行代码的计算机程序产品，该计算机可执行代码适于在由处理器执行时执行这样的方法。最后，本发明涉及一种用于关于音频系统的用作参考信号的输入信号确定质量指标的系统，该质量指标代表音频系统的输出信号的感知质量。

背景技术

可以主观或者客观地确定音频设备的质量。主观测试耗费时间、昂贵并且难以再现。因此已经开发若干方法以客观方式测量音频设备的输出信号（特别是语音信号）的质量。在这样的方法中，通过与参考信号比较来确定如从语音信号处理系统接收的输出信号的语音质量。

广泛用于这一目的的当前方法是在标题为“Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”的ITU-T Recommendation P.862中描述的方法。在ITU-T Recommendation P.862中将确定来自语音信号处理系统的输出信号（该信号一般失真）的质量。输出信号和参考信号（例如语音信号处理系统的输入信号）根据人类听觉系统的心理-生理（psycho-physical）感知模型映射到表示信号。基于这些信号，确定差分信号，该差分信号代表如与参考信号相比的输出信号内的失真。通常将代表输出信号的感知质量的质量指标定义为指标，该指标示出与主观感知的语音质量的高相关性。通常将质量指标表达为如在主观测试中确定的平均意见分数（MOS），其中主体（人）按照质量标度表达他们的意见。一般而言，从受测试设备的输出信号的内部表示与到受测试设备的输入信号的内部表示的比较导出质量指标。可以通过将信号从外部物理域变换到内部心理生理域来计算内部表示。在ITU-T Recommendation P.862中，在心理生理信号表示的计算中使用的算法的核心由以下主要操作组成：缩放成固定级、时间对准、从幅度-时间域变换到功率-时间-频率域、功率和频率标度的规整（warping）。操作导致按照响度-时间-音调的内部表示，可以根据该内部表示计算差值函数。这些差值函数然后用来导出单个质量指标。对于每个语音文件，人们因此可以导出MOS分数和质量指标分数，这些分数应当具有在它们之间的最高可能相关性。作为例子，可以通过比较语音编解码器的输出的内部表示与编解码器的输入的内部表示来确定编解码器的质量。对于编解码器编码的每个语音文件，质量指标将产生数字，该数字应当具有与用于该编/解码语音文件的主观确定的MOS分数的高相关性。然后根据其中已经对基于测试的人类听力感知的某些性质建模的认知模型处理差分信号以获得质量信号，该质量信号是输出信号的听觉感知的质量测量。

如ITU-T Recommendation P.862清楚指示的那样，已知PESQ在使用于可变听力水平（listening level）时提供不准确预测。PESQ假设79dB SPL（声压级）的标准听力水平并且补偿输入信号中的非最优信号电平。因此未考虑从最优听力水平偏离的主观影响。在当今电信系统（特别是使用IP语音（VOIP）和相似技术的系统）中，经常出现非最优听力水平。因而PESQ常常未提供在变得越来越流行的这样的电信系统中处理的语音信号的最优感知预测。

发明内容

希望具有一种确定音频系统的传输质量的方法，该方法提供在如客观测量确定的语音质量与如在主观测试中确定的语音质量之间的改进的相关性。出于这一目的，本发明的一个实施例涉及一种用于关于参考信号确定质量指标的方法，该质量指标代表音频系统（例如语音处理设备）的输出信号的感知质量，其中处理和比较参考信号和输出信号，并且该处理包括将参考信号和输出信号划分成相互对应的时间帧，其中该处理还包括：将参考信号的强度缩放成固定声强级（intensity level）；对缩放的参考信号内的时间帧执行测量用于确定参考信号时间帧特性；将参考信号的强度从固定声强级缩放成与输出信号有关的声强级；在感知响度域中将输出信号的响度缩放成固定响度级，输出信号响度缩放使用参考信号时间帧特性；并且在感知响度域中将参考信号的响度从与输出信号有关的声强级对应的响度级缩放成与缩放的输出信号的响度级有关的响度级，参考信号响度缩放使用参考信号时间帧特性。

在某些实施例中，将参考信号的强度从固定声强级缩放成与输出信号有关的声强级是基于参考信号与缩放因子相乘，缩放因子通过以下来定义：为多个时间帧确定平均参考信号声强级；为与参考信号的用来确定平均参考信号声强级的时间帧对应的多个时间帧确定平均输出信号声强级；通过基于平均参考信号声强级和平均输出信号声强级确定分数来导出预备缩放因子；如果预备缩放因子小于阈值，则通过将缩放因子定义成等于预备缩放因子、否则等于用附加的依赖于预备缩放因子的值递增的预备缩放因子来确定缩放因子。

在本发明的一些实施例中，在输出电平到固定响度级的响度缩放之前，该方法还包括：针对参考信号的具有比输出信号的响度级高的响度级的部分将参考信号的响度级局部缩放成输出信号的响度级；并且随后针对输出信号的具有比参考信号的响度级高的响度级的部分将输出信号的响度级局部缩放成参考信号的响度级。这些局部缩放动作的分离允许归因于时间限幅（time clipping）和脉冲的电平变化的分开实现和/或操纵。

在本发明的一些实施例中，该处理还包括：将缩放的参考信号和输出信号从时域变换到时间-频率域；根据参考信号导出参考音调功率密度函数并且根据输出信号导出输出音调功率密度函数，所述声强级差对应于音调功率密度函数的声强级之间的差；局部缩放参考音调功率密度函数以获得局部缩放的参考音调功率密度函数；关于频率部分地补偿局部缩放的参考音调功率密度函数；导出参考响度密度函数和输出响度密度函数，所述响度级差对应于响度密度函数的响度级之间的差；其中响度密度函数代表实现量化可变电平回放对感知质量的影响的密度函数。在又一实施例中，该方法还包括对参考音调功率密度函数和输出音调功率密度函数中的至少一个执行激励操作。这样的激励操作可以允许补偿由于执行对这些信号执行的变换动作的频率分量模糊（smearing）。

该处理还可以包括关于频率补偿局部缩放的参考音调功率密度函数和补偿局部缩放的参考响度密度函数中的至少一个，其包括基于参考信号时间帧特性估计语音处理系统的线性频率响应。例如仅使用具有超过某一阈值的平均声强级的时间帧可以改进这些动作的性能。

在本发明的一些实施例中，感知响度域中的参考信号在缩放成与感知响度域中的输出信号的响度级有关的响度级之前受到用于将噪声抑制直至预定噪声电平的噪声抑制动作。预定噪声电平可以对应于如下噪声电平，该噪声电平被视为期望的如下低噪声电平，该低噪声电平用作用于输出信号的理想表示。类似地或者此外，感知响度域中的输出信号在缩放成固定响度级之前可以受到用于将噪声抑制直至代表干扰的噪声电平的噪声抑制算法。输出信号的噪声抑制可以允许将噪声抑制直至代表受测试设备经历的干扰的噪声电平。

在本发明的一些实施例中，感知响度域中的参考信号和输出信号在比较之前受到全局噪声抑制。已经发现在全局缩放之后的这样的附加噪声抑制进一步改进了在客观测量的语音质量与如在主观听力质量实验中获得的语音质量之间的相关性。

在本发明的一些实施例中，本发明还涉及一种包括例如存储于计算机可读介质上的计算机可执行代码的计算机程序产品，该计算机可执行代码适于在由处理器执行时执行上文提到的方法实施例中的任一方法实施例。

最后，在本发明的一些实施例中，本发明还涉及一种用于关于音频系统（比如语音处理设备）的用作参考信号的输入信号X(t)确定质量指标的系统，该质量指标代表音频系统的输出信号Y(t)的感知质量，该系统包括：预处理设备，用于预处理参考信号和输出信号；用于处理参考信号的第一处理设备和用于处理输出信号的第二处理设备，用于分别获得用于参考信号和输出信号的表示信号R(X)、R(Y)；差分设备，用于组合参考信号和输出信号的表示信号以便获得差分信号D；以及建模设备，用于处理差分信号以获得质量信号Q，该质量信号Q代表语音处理系统的感知质量的估计；其中预处理设备、第一处理设备和第二处理设备形成用于执行上文提到的方法实施例中的任一方法实施例的处理系统。

附图说明

在附图中：

图1示意地示出了包括用于关于参考信号确定质量指标的系统的总体设置，该质量指标代表音频系统的输出信号的感知质量；

图2示意地示出了用于根据PESQ关于参考信号确定质量指标的方法，该质量指标代表音频系统的输出信号的感知质量；

图3示意地示出了根据本发明一个实施例的用于关于参考信号确定质量指标的方法，该质量指标代表音频系统的输出信号的感知质量；并且

图4示意地示出了根据本发明又一实施例的用于关于参考信号确定质量指标的方法，该质量指标代表音频系统的输出信号的感知质量。

具体实施方式

下文是仅通过例子给出的对本发明某些实施例的描述。

在该描述全文中，将关于对信号执行的操作来使用术语“局部”和“全局”。“局部”操作是指对时间信号的部分（例如对单帧）执行的操作。“全局”操作是指对整个信号执行的操作。

在该描述全文中，可以相对于从音频系统（比如语音处理设备）的输出发出的信号使用术语“输出”和“失真”。在该描述全文中，可以相对于作为向音频系统的输入而赋予的信号使用术语“参考”和“原始”，该信号还用作输出或者失真信号将与之比较的信号。

图1示意地示出了包括用于关于参考信号确定质量指标的系统的总体设置，该质量指标代表音频系统（例如语音处理设备）的输出信号的感知质量。此类方法意味着获得音频系统的传输质量的客观测量。该设置包括受考察的音频系统10（例如电信网络、网元或者在网络或者移动台中的语音处理设备）。该设置也包括用于测量音频系统的传输质量的系统20，下文称为质量测量系统20。

质量测量系统20被布置成接收两个输入信号。第一输入信号是向质量测量系统20直接提供（即未经由音频系统10提供）的并且用作参考信号的语音信号X(t)。第二输入信号是与受音频系统10影响的语音信号X(t)对应的语音信号Y(t)。质量测量系统20提供输出质量信号Q，该输出质量信号Q代表经过音频系统10的语音链路的感知质量的估计。

在这一实施例中，质量测量系统20包括用于处理两个输入信号X(t)、Y(t)使得可以提供输出信号Q的预处理部20a、处理部20b和信号组合部20c。

预处理部20a包括被布置成执行一个或者多个预处理动作（诸如固定电平缩放和时间对准）以获得预处理信号X _p (t)和Y _p (t)的预处理设备30。虽然图1示出了单个预处理设备30，但是也有可能具有用于语音信号X(t)和语音信号Y(t)的单独预处理设备。

质量测量系统20的处理部20b被布置成根据人类听觉系统的生理-心理感知模型将预处理信号映射到表示信号。在第一处理设备40a中处理预处理信号X _p (t)以获得表示信号R(X)，而在第二处理设备40b中处理预处理信号Y _p (t)以获得表示信号R(Y)。第一处理设备40a和第二处理设备40b可以容纳于单个处理设备中。

质量测量系统20的信号组合部20c被布置成通过使用差分设备50来组合表示信号R(X)、R(Y)以获得差分信号D。最后，建模设备60根据如下模型处理差分信号D，在该模型中已经对人类的某些性质建模以获得质量信号Q。可以经由对多个人类主体执行的主观听力测试来获得人类性质（例如认知性质）。

预处理设备30、第一处理设备40a和第二处理设备40b可以形成可以用来执行如后文将更详细说明的本发明实施例的处理系统。处理系统或者其部件可以采用硬件处理器（诸如专用集成电路（ASIC））或者计算机设备的形式，用于运行软件或者固件形式的计算机可执行代码。计算机设备可以例如包括处理器和通信耦合到处理器的存储器。存储器的例子包括但不限于只读存储器（ROM）、随机访问存储器（RAM）、可擦除可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）和闪存。

计算机设备还可以包括用于实现外部用户的指令或者通知输入的用户接口。用户接口的例子包括但不限于鼠标、键盘和触屏。

计算机设备可以被布置成加载存储于计算机可读介质（例如紧致盘只读存储器（CD ROM）、数字视频盘（DVD））或者任何其它类型的已知计算机可读数据载体上的计算机可执行代码。出于这一目的，计算机设备可以包括读取单元。

存储于计算机可读介质上的计算机可执行代码在代码加载到计算机设备的存储器中之后可以适于执行后文将描述的本发明实施例。

替代地或者除此之外，这样的本发明实施例可以采用包括计算机可执行代码的计算机程序产品的形式，该计算机可执行代码用于在计算机设备上执行时执行这样的方法。该方法然后可以在计算机可执行代码加载到计算机设备的存储器中之后由计算机设备的处理器执行。

因此，客观感知测量方法以预测音频系统（诸如语音编解码器、电话链路和移动手持社保）的主观感知质量为目标在计算机程序中模拟主体的声音感知。受测试的设备的输入和输出的物理信号映射到与在人类的头部以内的内部表示尽可能接近匹配的生理心理表示。基于内部表示的差值判断受测试设备的质量。最知名的当前可用的客观感知测量方法是PESQ（语音质量的感知评价）。

图2示意地示出了用于根据如在ITU-T Recommendation P.862中制定的PESQ（下文称为PESQ）关于参考信号确定质量指标的方法，该质量指标代表音频系统的输出信号的感知质量。PESQ可以使用于如图1中示意地示出的设置中。在PESQ中，比较参考信号X(t)与输出信号Y(t)，该输出信号Y(t)是经过音频系统（例如语音处理系统（比如通信系统））传递X(t)的结果。PESQ的输出质量信号（也称为PESQ分数）是主体在主观听力测试中将向Y(t)给予的感知质量的预测。PESQ分数采用所谓的平均意见分数（MOS）的形式。出于这一目的，PESQ输出映射到类似于MOS的标度（即范围为-0.5至4.5的单个数字），尽管对于多数情况而言输出范围将在1.0与4.5之间，这是在绝对类别评级（ACR）听力质量实验中发现的MOS值的通常范围。

PESQ中的预处理包括两个信号X(t)、Y(t)的电平对准以分别获得信号X _s (t)、Y _s (t)以及中间参考系统（IRS）滤波以分别获得信号X _IRSS (t)、Y _IRSS (t)。电平对准涉及到将强度缩放成固定电平，在PESQ中为79dB SPL。执行IRS滤波以保证测量传输质量的方法对例如移动电话等电信系统单元的滤波相对不敏感。最后确定在参考信号X _IRSS (t)与Y _IRSS (t)之间的时间延迟从而导致时移输出信号Y _IRSS ’(t)。现在假设在参考信号与输出信号之间的比较关于相同时间发生。

人耳执行时间-频率变换。在PESQ中，通过对时间信号X _IRSS (t)和Y _IRSS ’(t)用汉宁窗执行短期快速傅里叶变换（FFT）来对这一变换建模。汉宁窗通常具有32ms的大小。下文称为帧的相邻时间窗通常重叠50%。丢弃相位信息。复FFT分量（即功率谱）的平方实部与平方虚部之和用来获得功率表示PX _WIRSS (f) _n和PY _WIRSS (f) _n，其中n表示考虑的帧。在下文称为FFT频带的频带中划分功率表示。

人类听觉系统在低频比在高频具有更细微的频率分辨率。音调标度反映这一现象，并且出于这一原因，PESQ将频率规整成音调标度（在这一情况下规整成所谓Bark标度）。（离散）频率轴的转换涉及到使FFT频带入仓（binning）以形成Bark频带（通常为24个）。所得信号称为音调功率密度或者音调功率密度函数并且表示为PPX _WIRSS (f) _n和PPY _WIRSS (f) _n。考虑感知频率，音调功率密度函数提供与音频信号在人类听觉系统中的心理生理表示类似的内部表示。

为了处理在待测试的音频系统中的滤波，参考和输出音调功率密度的功率谱随时间平均。根据输出谱与参考谱之比计算部分补偿因子。每帧n的参考音调功率密度PPX _WIRSS (f) _n然后与该部分补偿因子相乘以均衡参考与输出信号。这产生逆滤波参考音调功率密度PPX ^’ _WIRSS (f) _n。使用这一部分补偿是因为温和滤波几乎不值得注意而严重滤波可能打扰收听者。对参考信号执行补偿是因为输出信号是主体在ACR听力实验中判断的信号。

为了补偿短期增益变化，计算局部缩放因子。局部缩放因子然后与输出音调功率密度函数PPY _WIRSS (f) _n相乘以获得局部缩放音调功率密度函数PPY ^’ _WIRSS (f) _n。

在对参考信号执行的滤波的部分补偿和对输出信号执行的短期增益变化的部分补偿之后，使用Zwicker定律将参考和降级音调功率密度变换成宋（Sone）响度标度。所得二维数组LX(f) _n和LY(f) _n分别称为用于参考信号和输出信号的响度密度函数。对于LX(f) _n，这意味着：

（1）

其中P ₀ (f)是绝对听力阈值，S _l是响度缩放因子，而γ（所谓Zwicker功率）具有约0.23的值。考虑响度感知，响度密度函数代表音频信号在人类听觉系统中的内部心理生理表示。

然后将参考和输出响度密度函数LX(f) _n、LY(f) _n相减从而获得差值响度密度函数D(f) _n。在感知相减之后，可以通过考虑干扰测量D和不对称干扰测量D _A来导出感知质量测量。可以在ITU-T Recommendation P.862中发现关于PESQ的更多细节。

图3示意地示出了根据本发明一个实施例的用于关于参考信号确定质量指标的方法，该质量指标代表音频系统的输出信号的感知质量。在预处理动作（比如IRS滤波和时间延迟）之后，将参考信号和输出信号均从时域信号转换成感知时间-频率域信号。

这可以用与参考PESQ在图2中所示相似的方式来实现。也就是说，先执行加窗函数（例如汉宁窗）以在相互对应时间帧中划分参考信号和输出信号。随后对时间帧执行FFT以将信号从时域转换为时间-频率域。在FFT之后，将信号规整成音调标度（例如Bark频率标度）以获得感知时间-频率域（又称为感知频域）中的表示。

与在如图2中示意地示出的PESQ中采用的方式对照，图3中示意地示出的方法确实考虑电平变化（具体为所谓的全局回放电平变化）。通过考虑全局回放电平，质量指标的准确性可以尤其在回放电平未与在根据ITU-T Recommendation P.862的计算中使用的标准化回放电平匹配的那些情况下明显增加。也就是说，在客观获得的质量指标与主观获得的质量之间的相关性对于其中全局回放电平高于或者低于标准电平的应用而言改进。这样的不同全局回放电平在IP语音（VOIP）系统中例如常用来防止声学反馈。

为了能够考虑声强级变化，没有在预处理中对输出信号执行的电平对准动作。然而如下文将阐明的那样，希望获得独立于全局回放电平的关于参考信号的信息。换而言之，为了获得这样的信息，参考信号的总声强级应当对于其中希望做出质量预测的所有主观测试而言相同。

出于这一原因，将参考信号全局缩放成固定声强级。可以如图3中示意地示出的那样在变换之前（即在时域中）执行参考信号的缩放。替代地，可以在变换到（感知）时间-频率域之后缩放参考信号。

在将参考信号缩放成固定声强级之后，在缩放参考函数内对时间帧执行测量以获得参考信号特性。具体而言，基于执行的测量来确定关于这些时间帧的声强级（例如其中的平均声强级或者峰值声强级）而言的信号特性。

在也称为帧电平检测的帧电平测量之后，将缩放参考信号缩放成与输出信号有关的声强级。优选地，这一缩放仅使用以语音信号为主的频带（例如在500与3500 Hz之间的频带）。执行这一缩放动作是因为作为参考信号更早缩放成固定声强级的结果，参考信号与输出信号之间的声强级差可以使得获得可靠质量指标变得不可能。对缩放参考信号的缩放以产生在缩放参考信号与输出信号之间的声强级差为目标，该声强级差允许评估全局回放电平对感知质量的影响。执行的缩放动作因此部分地补偿在缩放参考信号与输出信号之间的声强级差。可以不完全补偿超过某一阈值的电平差从而允许对总体低呈现电平的影响建模（例如某人将他的回放设备的音量设置成低声强级）。低电平语音回放在VOIP系统中例如常用来应对声学回声控制中的破坏（breakdown）。

缩放可以使用软缩放算法，即以根据在参考信号与输出信号之间的功率比优选每个时间帧补偿小功率偏差而部分地补偿更大偏差的方式缩放待处理信号的算法。可以在全部转让给申请人并且通过引用而结合于此的美国专利申请2005/159944、美国专利7,313,517和美国专利7,315,812中发现关于使用软缩放的更多细节。

在全局缩放动作之后，参考信号可以受到如参考图2描述的频率补偿。类似地，输出信号可以受到局部缩放动作。也可以如图3中示意地示出的那样关于参考信号执行局部缩放。参考信号和输出信号然后受到如参考图2中所示的PESQ讨论的向响度标度的强度规整。现在在感知响度域中表示参考信号和输出信号。

在感知响度域中，与图2中所示PESQ对照，输出信号和参考信号均受到进一步缩放动作。至此尚未明显改变输出信号的信号电平，并且输出信号的很低电平现在将仅引起内部表示的裕度差值。这造成质量估计的误差。

出于这一目的，首先将输出信号缩放成固定响度级。在主观听力质量实验中执行的校准实验可以确定固定响度级。如果起始全局电平校准如在ITU-T Recommendation P.861和/或P.862中描述的那样用于参考信号，则这样的固定响度级落在20（无量纲内部响度相关缩放数）附近。

由于输出信号的响度级缩放，在输出信号与参考信号之间的响度级差使得不能确定可靠质量指标。为了克服这一所不希望的前景，也需要缩放参考信号的响度级。因此在缩放输出信号的响度级之后，将参考信号的响度级缩放成与缩放输出信号有关的响度级。现在参考信号和输出信号均具有如下响度级，该响度级可以用来计算获得音频系统的传输质量的客观测量所需的感知相关内部表示。

在感知响度域中执行的全局缩放动作中，可以使用参考和输出信号的平均响度。可以随着时间帧确定这些信号的平均响度，对于这些时间帧而言，参考信号中的如在帧电平检测期间测量的声强级超过又一阈值（例如语音活动标准值）。语音活动标准值可以对应于绝对听力阈值。如果使用语音活动标准值，则这些帧可以称为语音帧。对于输出信号，出于计算的目的，考虑与如下时间帧对应的时间帧，对于这些时间帧而言声强级超过又一阈值。因此，在使用语音活动标准值的一个实施例中，关于语音帧确定参考信号的平均响度，而关于与参考信号内的语音帧对应的时间帧确定输出信号的平均响度。

在图3中，最后将参考信号和输出信号感知相减。这可以用根据PESQ已知的并且参考图2讨论的方式来完成。也就是说，并行地确定代表总降级的指标D _n和代表附加降级的指标DA _n。

如图3中所示方案允许关于两个指标D _n、DA _n的计算的不同方式。有可能执行如图3中所示的方法两次，即一次用于关于总降级确定代表质量的质量指标，另一次用于关于与参考信号相比添加的降级来确定代表质量的质量指标。执行该方法两次实现了关于不同失真类型的计算优化。这样的优化可以明显改进在客观测量的语音质量与如在主观听力质量实验中获得的语音质量之间的相关性。

在其中执行该方法两次的一个实施例中，可以不同地使用帧电平检测的结果。例如时间帧的选择可以例如基于不同的语音活动阈值而不同。

图4示意地示出了根据本发明又一实施例的用于关于参考信号确定质量指标的方法，该质量指标代表音频系统的输出信号的感知质量。在这一方法中，参考信号和输出信号均经历预处理步骤，例如如根据PESQ已知的并且参考图2描述的IRS滤波和时间延迟。在借助与使用加窗函数（例如如根据PESQ已知的汉宁窗）相组合地执行短快速傅里叶变换来获得信号的时间-频率表示之前，将参考信号全局缩放成固定电平。全局缩放成固定电平与在PESQ中使用的电平对准相似。然而在这一情况下，以这一方式仅缩放参考信号。在这一阶段不缩放输出信号。固定电平优选地与用于双耳（diotically）或者二重听觉（dichotically）呈现的语音片段的约73 dB SPL电平并且与用于单耳（monotically）呈现的语音片段的约79 dB SPL电平重合。以内部表示对应于在主观测试中使用的实际声电平这样的方式用因子缩放输出信号。

在由于对经由加窗函数选择的时间窗（例如汉宁窗）执行的FFT而获得功率-频率表示之后，用如下算法关于全局电平将参考信号缩放成输出信号，该算法仅部分地补偿在参考信号与输出信号之间的声强级差。留下的差值可以用来估计声强级对感知传输质量的影响。

在一个实施例中，将参考信号的强度从固定声强级缩放成与输出信号有关的声强级可以基于参考信号与缩放因子相乘。可以通过为参考和输出信号的至少部分确定平均信号声强级来导出这样的缩放因子。平均参考信号声强级和平均输出信号声强级然后可以在分数计算中用来获得预备缩放因子。最后，如果预备缩放因子小于阈值，则可以通过将缩放因子定义成等于预备缩放因子、否则等于用附加的依赖于预备缩放因子的值递增的预备缩放因子来确定缩放因子。

在全局缩放成输出信号的声强级之后，使用与参考图2中的PESQ讨论的方式相同的方式，参考信号受到感知时间-频率域中的局部缩放以及部分频率补偿。虽然在图4中所示实施例中，关于参考信号执行局部缩放，但是其同样适当地有可能例如以如图2中所示方式关于输出信号应用这一局部缩放步骤。局部缩放动作的目的涉及补偿短期增益变化。是将选择参考信号还是输出信号可以依赖于具体应用。一般地，补偿参考信号，因为一般未在主观质量测量中向测试主体呈现参考信号。

在一个实施例中，第一部分频率补偿使用所谓的软缩放算法。在软缩放算法中，通过以根据在参考信号与输出信号之间的功率比优选每个时间帧补偿小的功率偏差而部分地补偿更大偏差这样的方式缩放来改进待处理信号（即参考信号或者输出信号）。可以在全部转让给申请人并且通过引用而结合于此的美国专利申请2005/159944、美国专利7,313,517和美国专利7,315,812中发现关于使用软缩放的更多细节。

优选地，现在对参考信号和输出信号执行激励步骤以补偿由于关于这些信号用加窗函数（例如汉宁窗）更早执行快速傅里叶变换所致的频率分量模糊。通过使用自掩蔽曲线锐化两个信号的表示来执行激励步骤。可以例如在J.G. Beerends和J.A. Stemerdink的文章“A perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation”，J. Audio.Eng.Soc., Vol.40, No. 12 (1992) pp. 963-978中发现关于计算这样的自掩蔽曲线的更多细节。在这一文章中，计算激励并且通过使用模糊激励表示来确定质量。在一个实施例中，计算的激励然后用来导出自掩蔽曲线，该曲线又可以用来获得锐化的时间-频率表示。自掩蔽曲线以它的最简单形式对应于激励曲线的小部分。

在如PESQ中使用的并且参考图2描述的向响度标度的强度规整之后，在响度域中局部缩放参考信号和输出信号。首先缩放参考信号的比输出信号更响的那些部分。然后缩放输出信号的比参考信号更响的部分。

这些局部缩放动作的分离允许分开实施和/或操纵由于时间限幅以及脉冲的电平变化。如果参考信号的一部分比输出信号的对应部分响，则这一差值可以归因于例如由遗漏帧引起的时间限幅。为了量化时间限幅的感知影响，将参考信号按比例减少成被视为对于（不对称）干扰差值计算而言最优的电平。对输出信号的这一局部缩放动作也将输出信号中的噪声抑制直至对于（不对称）干扰差值计算而言更优的电平。可以通过组合这一局部缩放与对输出信号的噪声抑制动作来更准确地估计噪声对主观感知质量的影响。

接着可以执行第二部分频率补偿。可以用与PESQ中相似、但是现在是在响度域中使用的方式执行这一频率补偿。在一个实施例中，第二部分频率补偿使用如参考第一部分频率补偿更早讨论的软缩放算法。已经发现使用第二部分频率补偿进一步改进了在客观测量的语音质量与如在主观听力质量实验中获得的语音质量之间的相关性。

如更早描述的那样，第一部分频率补偿和第二部分频率补偿可以与如参考图2讨论的PESQ中使用的部分频率补偿相似。因此这些频率补偿动作可以使用平均操作，包括估计基于受测试系统的线性频率响应。在一些实施例中，仅对如下帧执行估计，对于这些帧而言，参考信号声强级值高于阈值（例如语音活动标准值）。如将根据图4的方案容易理解的那样，这样的语音帧选择可以基于在帧电平检测动作检测到的电平。

优选地，在这一点，将参考信号和输出信号两者的高频带设置成零，因为它们显得对待确定的感知传输质量具有可忽略不计的影响。此外，将输出信号的低频带的声强级局部缩放成参考信号的相似频带的声强级。例如与Bark 23和更高频带有关的所有频带可以设置成零，而可以缩放输出信号中的与Bark 0至5有关的Bark频带。参考信号中的与Bark 0-22有关的Bark频带和输出信号中的与Bark 6至22有关的Bark频带然后未受到这些操作中的两者之一的操作。

至此尚未明显改变输出信号的信号电平，并且输出信号的很低电平现在将仅引起内部表示的裕度差异。这造成质量估计的误差。因此将参考信号和输出信号均全局缩放成如下电平，该电平可以用来计算获得音频系统的传输质量的客观测量所需的感知相关内部表示。首先将输出信号的全局电平缩放成固定内部响度级。如果起始全局电平校准如在ITU-T Recommendation P.861和/或P.862中描述的那样用于参考信号，则这样的固定全局内部电平落在20（无量纲内部响度相关缩放数）附近。其次，以相似方式并且出于与参考图3讨论的原因相同的原因将参考信号的电平缩放成输出信号的对应电平。

最后，与参考图2描述的方法相似，将参考信号和输出信号相减从而获得差值信号。在感知相减之后，可以例如以如图2中所示并且在ITU-T Recommendation P.862中描述的方式导出感知质量测量。

替代地，执行该方法两次。一次用于关于与参考信号相比的总降级来确定代表质量的质量指标，而另一次用于关于与参考信号相比添加的降级来确定代表质量的质量指标。

在本发明的一些实施例中，该方法还包括一个或者多个噪声抑制步骤。噪声对音频系统的传输质量（具体为语音质量）的影响依赖于局部电平和/或局部谱改变。在PESQ中，未正确考虑这一影响。PESQ仅使用每帧局部功率电平将噪声抑制成近似地量化噪声影响的电平。一个或者多个噪声抑制步骤可以在预测音频系统的传输质量时提供显著改进。

在一个实施例中，在强度规整成宋响度标度之后对参考信号执行这样的噪声抑制。这一噪声抑制动作可以被布置用于将噪声抑制直至预定噪声电平。预定噪声电平然后可以对应于如下噪声电平，该噪声电平被视为希望的如下低噪声电平，该低噪声电平用作用于输出信号的理想表示。

类似地，在一个实施例中，在强度规整成宋响度标度之后对输出信号执行这样的噪声抑制。在这一情况下，噪声抑制动作可以被布置用于将噪声抑制直至如下噪声电平，该噪声电平代表受测试设备（例如图1中的音频系统10）经历的干扰。

在一些其它实施例中，参考信号和输出信号如虚线在图3中示意地示出的那样在全局缩放之后进一步经历附加噪声抑制动作。已经发现在全局缩放之后的这样的附加噪声抑制进一步改进在客观测量的语音质量与如在主观听力质量实验中获得的语音质量之间的相关性。

在使用一个或者多个噪声抑制步骤的一些实施例中，在缩放参考信号内的时间帧的确定声强级参数用来选择输出信号内的将在一个或者多个噪声抑制计算中包括的时间帧。例如可以基于缩放参考信号内的时间帧的强度值低于某一阈值（例如静默标准值）来选择它们用于计算。在缩放参考信号内的如下时间帧可以称为静默帧，对于该时间帧而言，强度值落在静默标准值以下。在输出信号内的所选时间帧然后对应于缩放参考信号内的静默帧。优选地，这样的选择过程通过标识一系列连续静默帧（例如8个静默帧）来进展。这样的系列连续静默帧可以称为静默区间。在静默帧并且具体为静默区间内的静默帧内的测量声强级表达固有地存在于考虑的参考信号中的噪声电平。换而言之，无受测试设备的影响。

已经通过参考上文讨论的某些实施例描述了本发明。将认识这些实施例易有本领域技术人员公知的各种修改和替代形式。

Claims

1.一种用于关于参考信号确定质量指标的方法，所述质量指标代表音频系统例如语音处理设备的输出信号的感知质量，其中处理和比较所述参考信号和所述输出信号，并且所述处理包括将所述参考信号和所述输出信号划分成相互对应的时间帧，其中所述处理还包括：

- 将所述参考信号的强度缩放成固定声强级；

- 对缩放的参考信号内的时间帧执行测量用于确定参考信号时间帧特性；

- 将所述参考信号的强度从所述固定声强级缩放成与所述输出信号有关的声强级；

- 在感知响度域中将所述输出信号的响度缩放成固定响度级，输出信号响度缩放使用所述参考信号时间帧特性；并且

- 在所述感知响度域中将所述参考信号的响度从与所述输出信号有关的声强级对应的响度级缩放成与缩放的输出信号的响度级有关的响度级，参考信号响度缩放使用所述参考信号时间帧特性。

2.根据权利要求1所述的方法，其中将所述参考信号的强度从所述固定声强级缩放成与所述输出信号有关的声强级是基于所述参考信号与缩放因子相乘，所述缩放因子通过以下来定义：

- 为多个时间帧确定平均参考信号声强级；

- 为与所述参考信号的用来确定所述平均参考信号声强级的时间帧对应的多个时间帧确定平均输出信号声强级；

- 通过基于所述平均参考信号声强级和所述平均输出信号声强级确定分数来导出预备缩放因子；

- 如果所述预备缩放因子小于阈值，则通过将所述缩放因子定义成等于所述预备缩放因子、否则等于用附加的依赖于预备缩放因子的值递增的所述预备缩放因子来确定缩放因子。

3.根据任一前述权利要求所述的方法，其中所述方法在输出电平到固定响度级的响度缩放之前还包括：

- 针对所述参考信号的具有比所述输出信号的响度级高的响度级的部分将所述参考信号的响度级局部缩放成所述输出信号的响度级；并且

- 随后针对所述输出信号的具有比所述参考信号的响度级高的响度级的部分将所述输出信号的响度级局部缩放成所述参考信号的响度级。

4.根据任一前述权利要求所述的方法，其中所述处理还包括：

- 将所述缩放的参考信号和所述输出信号从时域变换到时间-频率域；

- 根据所述参考信号导出参考音调功率密度函数，并且根据所述输出信号导出输出音调功率密度函数，所述声强级差对应于所述音调功率密度函数的声强级之间的差；

- 局部缩放所述参考音调功率密度函数以获得局部缩放的参考音调功率密度函数；

- 关于频率部分地补偿局部缩放的参考音调功率密度函数；

- 导出参考响度密度函数和输出响度密度函数，所述响度级差对应于所述响度密度函数的响度级之间的差；

其中所述响度密度函数代表实现量化可变电平回放对感知质量的影响的密度函数。

5.根据权利要求4所述的方法，其中所述方法还包括对所述参考音调功率密度函数和所述输出音调功率密度函数中的至少一个执行激励操作。

6.根据权利要求3-5中的任一权利要求所述的方法，其中关于频率补偿所述局部缩放的参考音调功率密度函数和补偿所述局部缩放的参考响度密度函数中的至少一个包括基于所述参考信号时间帧特性来估计所述语音处理系统的线性频率响应。

7.根据任一权利要求所述的方法，其中所述感知响度域中的所述参考信号在缩放成与所述感知响度域中的所述输出信号的响度级有关的响度级之前受到用于将噪声抑制直至预定噪声电平的噪声抑制动作。

8.根据任一权利要求所述的方法，其中所述感知响度域中的所述输出信号在缩放成固定响度级之前受到用于将噪声抑制直至代表干扰的噪声电平的噪声抑制算法。

9.根据任一权利要求所述的方法，其中所述感知响度域中的所述参考信号和所述输出信号在比较之前受到全局噪声抑制。

10.一种计算机程序产品，包括例如存储于计算机可读介质上的计算机可执行代码，所述计算机可执行代码适于在由处理器执行时执行如权利要求1-9中的任一权利要求限定的方法。

11.一种用于关于音频系统（10）例如语音处理设备的用作参考信号的输入信号X(t)确定质量指标的系统（20），所述质量指标代表所述音频系统的输出信号Y(t)的感知质量，所述系统包括：

- 预处理设备（30），用于预处理所述参考信号和所述输出信号；

- 用于处理所述参考信号的第一处理设备（40a）和用于处理所述输出信号的第二处理设备（40b），用于分别获得用于所述参考信号和所述输出信号的表示信号R(X)、R(Y)；

- 差分设备（50），用于组合所述参考信号和所述输出信号的表示信号以便获得差分信号D；以及

- 建模设备（60），用于处理所述差分信号以获得质量信号Q，所述质量信号Q代表所述语音处理系统的所述感知质量的估计；

其中所述预处理设备、所述第一处理设备和所述第二处理设备形成用于执行根据权利要求1-9中的任一权利要求所述的方法的处理系统。