CN103325383A

CN103325383A - 音频处理方法和音频处理设备

Info

Publication number: CN103325383A
Application number: CN2012100808688A
Authority: CN
Inventors: 邓惠群; 孙学京
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2013-09-25
Also published as: EP3040990B1; WO2013142724A2; EP2828850B1; US20150104022A1; US9602943B2; EP2828850A2; EP3040990A1; WO2013142724A3

Abstract

描述了音频处理方法和音频处理设备。在一实施例中，第一音频信号的至少一个第一子带被抑制以获得具有保留子带的简化第一音频信号；抑制至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号；然后将二者混频。或者，第一空间听觉属性被赋予第一音频信号以使得第一音频信号可被感知为源自第一位置。或者，检测至少两个音频信号的节奏相似度，响应于一音频信号与其他音频信号的相对高的节奏相似度对该音频信号进行时间缩放；然后对所述至少两个音频信号混频。或者，检测至少两个音频信号中语音开始；在一音频信号中的语音开始与另一音频信号相同或接近的情况下，延迟该音频信号；然后对所述至少两个音频信号混频。

Description

音频处理方法和音频处理设备

技术领域

本发明总体上涉及音频信号处理。更具体而言，本发明的实施例涉及用于改善一个或多个目标说话人的语音可理解度的音频处理方法和音频处理设备。

背景技术

利用现代的信号处理和电信技术，目标音频信号和背景信号可以被分离为多声道信号，或者不同方向或不同位置的不同信号(如来自房间中的不同位置的信号，或来自不同城市的不同信号)可以被单独地拾取、混合并被发送到远处的听者。目前的方案使得多个说话人的语音听起来在不同的水平方向，将多声道语音信号混合到左右声道中，接收方的听者能够通过立体声耳机或者扬声器感知到不同说话人的位置，即使有多人同时说话也能区分出想要的目标说话人。

尽管越来越多的用户已经采用了立体声耳机或者多声道声音再现系统，从而受益于空间化语音通信，但仍然有大量的用户在聆听通过单声道声音设备比如蓝牙头戴式耳机、电话等再现的声音。因此希望向单声道装置用户提供用以在多个同时的音频信号中区分不同声音信号或者理解来自目标说话人的语音的“线索”。

即使对于利用多声道播放装置的听者，如果原始音频信号是在没有空间线索的情况下产生的，或者如果多个声音信号都源自几乎同一位置，则期望向听者提供用于区分不同语音信号的更多线索。

发明内容

根据本发明的实施例，提供了一种音频处理方法，包括：抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，从而改善简化第一音频信号或者至少一个第二音频信号之间的可理解度，或者同时改善所述简化第一音频信号或者至少一个第二音频信号的可理解度；抑制所述至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号；以及将所述简化第一音频信号和所述至少一个简化第二音频信号混频。

根据本发明的实施例，提供了一种音频处理方法，包括：给第一音频信号赋予至少一个第一空间听觉属性，以使得第一音频信号可以被感知为源自相对于听者的第一位置。

根据本发明的实施例，提供了一种音频处理方法，包括：检测至少两个音频信号之间的节奏相似度；响应于一音频信号与其他音频信号之间的相对高的节奏相似度而对该音频信号进行时间缩放；以及对所述至少两个音频信号混频。

根据本发明的实施例，提供了一种音频处理方法，包括：检测至少两个音频信号中的语音开始；在一音频信号中的语音开始与另一音频信号中的语音开始相同或接近的情况下，延迟该音频信号；以及对所述至少两个音频信号混频。

根据本发明的实施例，提供了一种音频处理设备，包括：频谱滤波器，被配置为抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，并抑制至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号，从而改善所述简化第一音频信号或者所述至少一个简化第二音频信号的可理解度，或者同时改善所述简化第一音频信号或者所述至少一个简化第二音频信号的可理解度；以及混频器，被配置为将所述简化第一音频信号和所述至少一个简化第二音频信号混频。

根据本发明的实施例，提供了一种音频处理设备，包括：空间化滤波器，被配置为给第一音频信号赋予至少一个第一空间听觉属性，以使得第一音频信号可以被感知为源自相对于听者的第一位置。

根据本发明的实施例，提供了一种音频处理设备，包括：节奏相似度检测器，被配置为检测至少两个音频信号之间的节奏相似度；时间缩放单元，被配置为响应于一音频信号与其他音频信号之间的相对高的节奏相似度而对该音频信号进行时间缩放；以及混频器，被配置为对所述至少两个音频信号混频。

根据本发明的实施例，提供了一种音频处理设备，包括：语音开始检测器，被配置为检测至少两个音频信号中的语音开始；延迟器，被配置为在一音频信号中的语音开始与另一音频信号中的语音开始相同或接近的情况下延迟该音频信号；以及混频器，被配置为对所述至少两个音频信号混频。

附图说明

在附图的各图中，以示例性和非限制性的方式对本发明进行阐释，在附图中，类似的附图标记指代类似的要素，其中：

图1是示出根据本发明的实施例的示例性音频处理设备100的框图；

图2是示出示例性音频处理设备100的变形例的框图；

图3是示出根据本发明的另一实施例的用于实施频谱区分的示例性音频处理设备的框图；

图4是示出根据本发明的又一实施例的用于实施频谱区分的示例性音频处理设备的框图；

图5是示出根据本发明的实施例的用于实施频谱区分的示例性音频处理方法的流程图；

图6是示出用于将保留子频带分配给音频信号的示例性方案的示图；

图7是示出用于将保留子频带分配给音频信号的示例性方案的另一示图；

图8是示出图5中所示的实施例的变形例的流程图；

图9是示出根据本发明的实施例的示例性音频处理方法中所使用的空间坐标系和术语的示图；

图10是示出可在根据本发明的实施例的示例性音频处理方法中使用的空间滤波器的频率响应的示图；

图11是示出根据本发明的实施例的用于实施空间分离的示例性音频处理设备的框图；

图12是示出根据本发明的实施例的用于实施时间缩放的示例性音频处理方法的流程图；

图13是示出时间缩放的效果的频谱示例；

图14是示出根据本发明的实施例的用于实施时间延迟的示例性音频处理方法的流程图；

图15是示出在电话会议系统中应用这些实施例的示图；

图16是示出根据本发明的实施例的示例性音频处理设备的框图；以及

图17是示出用于实施本发明的实施例的示例性系统的框图。

具体实施方式

下面参考附图描述本发明的实施例。应注意，为清楚起见，在附图和描述中省略了关于本领域技术人员已知但是并非理解本发明所必需的组件和过程的陈述和描述。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统、装置(例如蜂窝电话、便携媒体播放器、个人计算机、服务器、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此，本发明的各方面可以采取以下形式：完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例，本文可以一般地称之为“电路”、“模块”或“系统”。此外，本发明的各方面可以采取在一个或多个其中形成有计算机可读程序代码的计算机可读介质中实现的计算机程序产品的形式。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的或半导体的系统、设备或装置或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置结合使用的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够交换、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置结合使用的程序的任何一种计算机可读介质。

形成在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上作为一个独立的软件包执行，或者部分地在用户的计算机上执行并部分地在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置的处理器执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。总体构造

图1是示出根据本发明的实施例的示例性音频处理设备100的框图，该音频处理设备100在下文中也称作可理解度改善器100。

心理声学研究表明，语音可理解度会严重受到背景信号对目标信号的能量掩蔽效应和信息掩蔽效应的影响。能量掩蔽效应涉及同一频带中的不同语音信号之间的能量重叠。信息掩蔽效应涉及听者因不同语音信号之间的空间重叠和/或时间重叠而产生的混淆。

因此，根据本发明的实施例，提出通过以下技术中的任一个或以下技术的任意组合来改善不同语音信号之间的语音可理解度：尽可能地使背景信号对目标信号的能量掩蔽效应最小化；以及尽可能地减少背景信号对目标信号的信息掩蔽效应。具体地，提出通过以下手段中的任一个或以下技术的任意组合来改善不同语音信号之间的语音可理解度：在频带方面区分不同的语音信号(在下文中称为“频谱区分”)；在空间上区分不同语音信号(在下文中称为“空间区分”)；以及在时间上区分不同的语音信号(在下文中称为“时间区分”)。更具体地，时间区分可以包括两个方面：整体移动语音信号(在下文中称为“延迟”或“时间延迟”)，和/或在时间上缩放语音信号，即在时域上压缩或扩展语音信号(在下文中称为“时间缩放”)。

因此，如图1所示，根据本发明的实施例的音频处理设备可以包括频率滤波器400、空间化滤波器1100、时间缩放单元1200和延迟器1400中的任一个，或这些装置的任意组合。在此，可以假设前述装置中的每个装置都接收时域语音信号作为输入，并输出时域语音信号，尽管在这些装置中的每个装置内部可以涉及频域处理。那么，前述装置的处理效果可以简单地相互结合，如图1中的双向箭头所示。为了简化附图，仅示出了连接紧邻的框的双向箭头，但实际上任意两个装置都可以通过这样的箭头相互连接，这意味着任意两个装置的处理效果可以叠加在一起或相互结合。因此，这些装置所实现的操作的顺序并不重要。

然而，当这些装置中的一个装置执行一种处理如频域处理并获得相应结果并且这些装置中的另一个装置的内部处理需要这样的结果时，那么所述另一个装置可以直接从所述一个装置直接获得所述结果作为输入。当理解图1和任意其他附图的含义时以及当理解所附权利要求的保护范围时，应当包括上述的状况。

尽管前述装置的选择和/或组合可以是任意的，但是这样的选择和/或组合也可以基于用户判断出的一些条件或自动地通过例如图1所示的条件检测器20判断出的一些条件。用户判断出的条件或条件检测器20判断出的条件可以包括语音信号的数量、语音的开始、说话人或语音信号之间的相似度等等。

此外，如果使用空间区分，那么重要的是确保每个改善的语音信号的空间线索在再现期间不失真，以使得最终听者能够正确地感知到通过空间区分(这将在稍后加以描述)赋予改善的语音信号的空间听觉属性。因此，在本实施例的变形例中，可理解度改善器100还可以包括再现装置到耳朵的传递函数补偿器40，以补偿由于装置到耳朵的响应而引起的失真。

理论上，补偿器40可以紧接在空间化滤波器1100之后，或者在频谱滤波器400、空间化滤波器1100、时间缩放单元1200和延迟器1400的所有操作之后。

为了简化附图，图1仅示出了一个音频信号作为输入，多个音频信号输入的情形示于图2中，在该图2中示出了音频处理设备的第一变形例100’。如之前讨论的，音频处理设备100’可以没有补偿器40，如图2所示，补偿器40可以被放置在音频处理设备100’之外，或者可以简单地取消补偿器40。

图2中还示出了音频处理设备的第二变形例100”，音频处理设备100”包括变形例100’加上混频器80。即，如果存在多个音频信号输入，如N个输入(N是大于等于2的整数)，那么在被音频处理设备100’改善之后，多个改善的音频信号可以被混频器80混频为单声道信号。如之前讨论的，补偿器40可以被放置在混频器80之前或之后，或者可以简单地取消混频器80。

根据上面的描述，本领域技术人员将理解到也披露了相应的音频处理方法。将稍后讨论音频处理设备的每个部件和音频处理方法的每个步骤的详情。

在本公开文件中，应当理解到语音信号(或话音信号)只是一种音频信号。尽管本发明的实施例可以用于改善在单声道中发送的多个语音信号的可理解度，但是本发明的实施例不限于语音信号，而可以用于改善其他种类的音频信号的可理解度。因此，在本公开文件中使用了术语“音频信号”，仅在必要时才使用术语“语音信号”和/或“话音信号”。

频谱区分

以下将参照图3-8来讨论实施频谱区分的音频处理设备的实施例和音频处理方法的实施例。

根据本发明的实施例，一种音频处理方法包括抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，从而改善简化第一音频信号或至少一个第二音频信号的可理解度，或者同时改善所述简化第一音频信号和所述至少一个第二音频信号的可理解度。相应地，音频处理设备的实施例包括频谱滤波器400，频谱滤波器400被配置为抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，从而改善简化第一音频信号或至少一个第二音频信号的可理解度，或者同时改善所述简化第一音频信号和所述至少一个第二音频信号的可理解度。

心理声学研究表明，人类听觉系统能够对频率在20Hz和20KHz之间的声音作出响应，并且不同音频信号的频率分布之间的差异将有助于听者区分和跟踪不同的音频信号。因此，本实施例的目的在于通过使多个音频信号通过不同的频带而改善这些音频信号的可理解度。换句话说，每个经处理的音频信号不在其整个可听见的频带内，而是被“缩减”到一些保留子带内。

可以通过许多现有的技术或未来的技术来实现子带的抑制。作为示例，图3是示出音频处理设备的实施例300的框图，该音频处理设备也可以被称为频谱滤波器400并且可以被实现为带通滤波器(BPE，Band PassFilter)组，该带通滤波器(BPF)组的前面可以设置用于滤除低频干扰(如低于200Hz的低频干扰)的高通滤波器(HPF，High Pass Filter)。BPF可以是1/3倍频程、四阶巴特沃兹(Butterworth)IIR(无限冲击响应，Infinite Impulse Filter)滤波器，但是不限于此。如图3所示，假设整个可听见的频带被划分为16个均匀分布的子带，并旨在将音频信号1缩减到到这些子带的一半中。那么，我们可以使用分别对应于8个通带(即，预期的输出音频信号的保留子带)的8个BPF(BPF1、BPF3、......、BPF15)对音频信号进行滤波，以使得在每个BPF中仅保留通带并抑制其他子带。这8个BPF的输出被加在一起，以使得所得到的输出(简化音频信号1)包含8个通带，而其他8个子带被抑制。

返回到图2，在存在多个输入音频信号的情形下，例如两个，我们可以使用另一组BPF(在附图中未示出)来对第二音频信号进行滤波。例如，再次假设整个可听见的频带被划分为16个均匀分布的子带，并且第一音频信号被缩减到8个奇数子带中，那么第二音频信号可以被缩减到8个偶数子带中。

那么，可以看出提供了音频处理方法的另一实施例，该音频处理方法包括：抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，从而改善所述简化第一音频信号或者至少一个第二音频信号的可理解度，或者同时改善所述简化第一音频信号和所述至少一个第二音频信号的可理解度；抑制至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号；以及将简化第一音频信号和至少一个简化第二音频信号混频在一起。

要注意，当将简化第一音频信号和至少一个简化第二音频信号混频在一起时，所得到的音频信号可以在单声道上或者在多声道上。

除了BPF组300之外，还可以通过其他手段来实施频谱滤波器400。例如，首先可以将每个音频信号变换为频域信号，例如通过FFT(快速傅里叶变换)变换为频域信号，然后可以通过去除或抑制一些子带来处理频域信号，然后可以将频域信号变换为时域信号，例如通过逆快速傅里叶变换将频域信号变换为时域信号。

无论采用什么形式作为频谱滤波器400，都可以实现为可编程电路、软件、固件等。因此，在实施例中的音频处理设备中，可以对每个音频信号提供一个频谱滤波器400，或者同一频谱滤波器可以被设置用于所有的音频信号，并且可以被设计为针对不同音频信号抑制不同子带。因此，根据一个实施例，提供了一种音频处理设备，其包括频谱滤波器，被配置为抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，并抑制至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号，从而改善所述简化第一音频信号或者所述至少一个简化第二音频信号的可理解度，或者同时改善所述简化第一音频信号或者所述至少一个简化第二音频信号的可理解度。该音频处理设备还可以包括混频器，该混频器被配置为将简化第一音频信号和至少一个简化第二音频信号混频为单声道或多声道。

如何将保留子带分配给多个音频信号将会影响音频信号的可理解度可以被改善到什么程度。一般而言，要求尽可能清楚地区分不同音频信号的保留子带，即不同音频信号的保留子带完全不同，互相不重叠(如图6(a)和图7中的上方行所示，其中方块“1”和“2”分别表示音频信号1和音频信号2的子带)，甚至在不同的音频信号的子带之间存在间隙(在附图中未示出)。

另一方面，抑制音频信号的一些子带意味着在某种程度上劣化音频质量，应当确保合适的分配方案以避免音频质量的显著劣化。例如，优选地使每个音频信号既覆盖低频子带又覆盖高频子带。作为另一示例，如果要被区分的说话人/音频信号的数量太大，则给每个音频信号分配过少或过窄的保留子带可能是不合适的。在这样的状况下，可以使用于不同音频信号的保留子带相互重叠(如图6(b)所示，其中“1”表示用于音频信号1的子带，而“2”表示用于音频信号2的子带)，但是重叠要尽可能小；或者，一些音频信号，尤其是那些相对重要的音频信号，可以被分配明显宽一些的子带(如图7中的上方行所示，其中音频信号1比音频信号2重要)，在音频信号为最重要的音频信号时，该音频信号甚至可以被分配全频带(如图7中的下方行所示：音频信号3是最重要的)。

在一个实施例中，可以预先设置本实施例的音频处理方法和设备能够处理多少的音频信号、以及如何对每个音频信号分配保留子带。例如，对于每个音频信号，保留子带可以被均匀地分布在音频信号的全频带上，如图6和图7所示(音频信号1和音频信号2)。并且在不同的音频信号之间，不同音频信号的保留子带可以相互交织，仍如图6和图7所示(音频信号1和音频信号2)，优选相互均匀地交织。并且可以相应地配置音频处理设备。

在另一实施例中，可以根据具体情况而实时地配置音频处理方法和设备。图4是示出实施频谱区分的这样一种示例性音频处理设备的框图。图4所示的设备实际上是图1的一部分，该设备包括条件检测器20和频谱滤波器400，其中频谱滤波器400包括保留子带分配器420，该保留子带分配器420根据条件检测器20检测到的条件来确定对每个音频信号分配保留子带的方案，并相应地配置频谱滤波器400。

根据具体情况，条件检测器20可以用作，或被配置为，或包括说话人/音频信号数量检测器(未示出)、基础设施容量/业务量检测器(未示出)、说话人/音频信号重要性检测器(未示出)或说话人相似度检测器(未示出)，或者这些检测器的任意组合。根据条件检测器20检测到的条件，保留子带分配器可以判定是否对音频信号进行滤波、以及多少子带和多宽的子带可以被分配给音频信号，并相应地配置频谱滤波器400。由保留子带分配器420配置的频谱滤波器400相应地对各个音频信号进行滤波。

当条件检测器20用作说话人/音频信号数量检测器时，保留子带分配器420可以被配置为基于说话人/音频信号的数量来确定要分配给每个音频信号的保留子带的宽度和数量。一般而言，说话人对应于音频信号。然而，在存在多个音频信号输入、其中每个音频信号输入包括多个说话人的场景下，说话人的数量不等于音频信号的数量。在这样的情形下，可以考虑说话人数量和音频信号数量之一或两者。对于本公开文件中的其他实施例或变形例，情况是相同的，并在以下将省略其详细描述。当区分不同的说话人时，可以使用将在后面加以讨论的盲信号分离(BSS，Blind SignalSeparation)技术。

例如，如果数量较小，例如是2，则所有音频信号的保留子带可以被均匀地分布在全频带上，并且不同音频信号的保留子带可以相互交织而相互不重叠，如图6(a)所示。如果数量较大，则在一定程度上使不同音频信号的保留子带重叠，如图6(b)所示。

与上面讨论的音频处理设备相对应地，还提供了音频处理方法的实施例，如图5所示。即，该方法还可以包括获取说话人/音频信号的数量的步骤(步骤503)，以及对每个音频信号分配保留子带的步骤(步骤505)，其中基于说话人/音频信号的数量来确定每个音频信号的保留子带的数量和宽度。然后可以相应地对音频信号进行滤波(步骤507)，从而，对于每个音频信号，抑制了除保留子带之外的子带。

当条件检测器20用作基础设施容量/业务量检测器时，保留子带分配器420还可以被配置为响应于在与一音频信号有关的基础设施中的相对高的容量和/或相对低的业务量，而分配更多和/或更宽的保留子带、或全频带给该音频信号。此处，与音频信号有关的基础设施包括音频处理设备(例如，服务器或音频输入终端如电话)以及承载中间音频信号和最终的经处理的音频信号的链路(如网络)。一方面，实施频谱区分处理将占用一些计算资源，因此当音频处理设备的负载较高时，可以降低频谱滤波强度，即，对于部分或全部音频信号，可以保留更多和/或更宽的子带，或者甚至全频带。另一方面，频谱滤波有助于减小数据业务量。因此，当链路如网络上的业务量高时，需要进行更强的频谱滤波。

与上面讨论的音频处理设备对应地，还提供了音频处理方法的实施例。即，该方法还可以包括获取承载音频信号的基础设施的容量和/或业务量信息的步骤；以及相应地，分配步骤可以被配置为响应于在与一音频信号有关的基础设施中的相对高的容量和/或相对低的业务量，而分配更多的和/或更宽的保留子带、或者全频带给该音频信号。

当条件监测器20用作说话人/音频信号重要性检测器时，保留子带分配器420还可以被配置为响应于说话人/音频信号的相对高的重要性，而将更多的和/或更宽的保留子带、或者全频带分配给相应的说话人/音频信号。如之前讨论的，缩减音频信号的一些子带将劣化音频信号的质量。因此，当说话人重要时，自然要按照原样传送和再现承载该重要说话人的话音的音频信号。说话人/音频信号重要性检测器可以被配置为简单地接收表示有关音频信号是否重要的外部指示。例如，音频源(如电话或麦克风)可以被设置有如下按钮，该按钮在“重要”状态和“不重要”状态之间相互切换，并且响应于该按钮的切换，音频处理设备(音频源或服务器)将相应的音频信号作为重要的或不重要的对待。说话人/音频信号重要性检测器还可以被配置为通过检测每个音频信号的语音的幅度和/或出现频率来确定音频信号的重要性。一般而言，如果说话人说话的声音比别人高，或者如果在音频信号中说话人(在特定时段)说的话比别人多很多，则该说话人至少在该特定时段肯定是更加重要的。关于语音出现的检测，可以使用许多技术，如稍后将在“时间区分”部分中加以讨论的话音活动检测器(VAD)。

与上面讨论的音频处理设备对应地，还提供了音频处理方法的实施例。即，该方法还可以包括获取说话人/音频信号的重要性信息的步骤；相应地，分配步骤可以被配置为响应于说话人/音频信号的相对高的重要性而将更多的和/或更宽的保留子带、或全频带分配给相应的说话人/音频信号。

当条件检测器20用作说话人相似度检测器时，保留子带分配器420还可以被配置为响应于该音频信号和其他音频信号之间的相对低的说话人相似度，而分配更多的和/或更宽的保留子带、或者全频带给说话人/音频信号。如之前讨论的，相关基础设施的容量和业务量以及音频质量是要考虑的重要因素。因此，如果能够容易地区分两个说话人的语音本身(如男性说话人和女性说话人，他们的话音彼此明显不同，从而给听者提供了充足的线索来理解语音信号)并且其他条件允许的话，则无需进行意在区分这两个说话人的频谱区分处理。说话人相似度涉及说话人的话音的特征，因此可以通过话音/说话人识别技术来估计说话人相似度。还可以通过其他手段来获取说话人相似度，例如通过比较不同音频信号的节奏结构，这将在“时间区分”部分加以讨论。

与上面讨论的音频处理设备对应地，还提供了音频处理方法的实施例，如图8所示。即，该方法还可以包括检测不同音频信号之间的说话人相似度的步骤(步骤803)。相应地，分配步骤还可以被配置为响应于该音频信号和其他音频信号之间的相对低的说话人相似度(步骤805)，而分配更多的和/或更宽的保留子带、或者全频带给音频信号(步骤807)。然后，可以相应地对音频信号进行滤波(步骤809)，从而对于每个音频信号，抑制了除保留子带之外的子带。

以下是一组示出在理解具有背景噪声或背景语音的闭集词汇语音(目标语音)时频谱区分的效果的试验数据。

上述试验数据是在目标语音和背景噪声/语音位于同一方向时获取的。上述试验数据显示：当背景噪声与目标语音处于不同频带时，理解率是91.25％；当背景语音和目标语音处于不同频带时，理解率是54.88％；当背景噪声与目标语音处于同一频带时，理解率是69.51％；当背景语音和目标语音处理同一频带时，理解率是42.86％。

那么，可以看出来频谱区分的效果是54.88％-42.86％＝12.2％，或87.81％-73.75％＝14.06％，这证明频谱区分是有效的。

空间区分

以下将参照图9-11来讨论实施空间区分的音频处理设备的实施例和音频处理方法的实施例。

如“总体结构”部分中所讨论的，空间区分有助于缓解信息掩蔽，并减小理解语音的难度。根据本发明的实施例，音频处理方法包括给第一音频信号赋予至少一个第一空间听觉属性，以使得第一音频信号可以被感知为源自相对于听者的第一位置。相应地，音频处理设备的实施例包括空间化滤波器1100，空间化滤波器1100被配置为给第一音频信号赋予至少一个第一空间听觉属性，以使得第一音频信号可以被感知为源自相对于听者的第一位置。

返回到图2，在存在多个输入音频信号的情形下，例如2个，我们可以给这两个音频信号赋予不同的空间听觉属性，以使得它们听上去源自不同的位置。那么，这提供了音频处理方法的另一实施例，该音频处理方法包括：给第二音频信号赋予至少一个第二空间听觉属性，以使得第二音频信号可以被感知为源自与第一位置不同的第二位置；以及将第一音频信号和第二音频信号混频在一起。相应地，在该音频处理设备中，空间化滤波器还可以被配置为给第二音频信号赋予至少一个第二空间听觉属性，以使得第二音频信号可以被感知为源自与第一位置不同的第二位置；并且该音频处理设备还可以包括混频器，该混频器被配置为将第一音频信号和第二音频信号混频在一起。

然后，空间化滤波器可以基于HRFT(头部相关传递函数，Head-Related Transfer Function)。HRFT意味着由于头部和外耳的影响，来自不同方向的声音将在内耳中导致不同响应。

心理声学研究显示，除了ITD(双耳时间差，Inter-aural TimeDifference)、IID(双耳强度差，Inter-aural Intensity Difference)和感知到的空间位置之间的关系之外，头部相关传递函数也可以用于预测感知到的空间位置。头部相关传递函数被定义为听者的耳道的位置处的声音压力脉冲响应，其相对于听者的头部中心位置处当听者不在时的声音压力而归一化。图9包含一些相关术语，并描绘了在多数头部相关传递函数文献中使用的空间坐标系，该空间坐标系也用于本公开文件。

如图9所示，方位角表示声源在水平面上的空间方向，前方(在中面中，中面穿过鼻子并垂直于连接双耳的直线)是0度，左方向是90度，右方向是-90度。仰角表示声源在上下方向上的空间方向。如果方位角对应于地球上的经度，则仰角对应于纬度。穿过双耳的水平面对应于0度的仰角，头顶对应于90的仰角。

研究表明：声源的方位角(水平位置)的感知主要依赖于IID和ITD，但是在某种程度上也依赖于频谱线索。而对于声源的仰角的感知，频谱线索(被认为由耳廓引起)扮演重要的角色。心理声学研究甚至表明：仰角定位，尤其是在中面中的仰角定位，基本上是单耳过程。

图10示出了作为中面(方位角＝0°)中的仰角的函数的头部相关传递函数的频域表达。图中在7Hz处有一个“缺口”，随着仰角增大，该缺口的频率上移。在12kHz处还有个矮峰，其在更高的仰角处变平。头部相关传递函数数据中的这些可以注意到的模式暗示了与仰角的感知相关联的线索。当然，7kHz处的“缺口”和12kHz处的矮峰仅是潜在仰角线索的示例。实际上，人类大脑的心理声学感知是非常复杂的过程，至今为止仍未被完全理解。但是，大脑总是通过其经验来进行训练，从而大脑已经将每个方位角和仰角与特定频谱响应相关联。因此，当模拟声源的特定空间方向时，我们可以利用头部相关传递函数数据对来自声源的音频信号简单地进行“调制”或滤波。

例如，当模拟中面(即，方位角＝0度)中仰角为0度的声源时，我们可以使用与图10中所示的

相对应的频谱对音频信号进行滤波。如之前提到的，频谱响应还可以包含方位角线索。因此，通过滤波，我们可以给音频信号赋予方位角和仰角线索。

已知每个空间方向(特定的一对方位角和仰角)与特定频谱对应，可以认为每个空间方向与特定空间滤波器对应。因此，在图2的情形中，其中存在多个音频信号，我们可以将空间滤波器1100理解为包括用于多个方向的多个滤波器，如图11所示。

要注意，当对多个空间化的音频信号进行混频时，所得到的音频信号可以在单声道上或多声道上。

如之前讨论的，方位角/仰角线索在于耳朵处的频谱响应中。因此，在传送和再现的过程中维持音频信号的频谱模式非常重要。然而，在声音再现时，再现装置特有的装置到耳朵传递函数可能引起空间线索的失真。因此，为了实现更好的感知空间化效果，优选地补偿再现装置特有的装置到耳朵传递函数。

因此，根据本发明的实施例，音频处理方法还可以包括在混频步骤之前或在混频步骤之后补偿再现装置特有的装置到耳朵传递函数。相应地，根据实施例的音频处理设备还可以包括补偿器，该补偿器被配置为补偿再现装置特有的装置到耳朵传递函数。

当在混频操作之后执行补偿时，可以在最终听者的再现装置中执行补偿。例如，当最终听者使用头戴式耳机时，则再现装置可以包括滤波器以补偿头戴式耳机特有的装置到耳朵传递函数。如果是一对耳塞式耳机，则需要补偿耳塞式耳机特有的装置到耳朵传递函数。如果未使用头戴式耳机也未使用耳塞式耳机，并且音频信号是直接利用扬声器再现的，则应当补偿从扬声器到听者耳朵的传递函数。在再现装置处，用户可以选择采用那种补偿方法，但是再现装置也可以自动地检测是什么输出装置并确定合适的补偿方法。

类似于“频谱区分”部分中的讨论，不一定在每种情形中都使用空间区分。当基础设施容量低和/或基础设施业务量高时，可以关闭空间区分以节约基础设施资源；当说话人重要时，也可以关闭空间区分以将音频信号直接馈送到混频器，预期的收听体验为：重要的说话人被感知为相比于其他空间化语音信号更接近于听者(或像是在头内发出的声音)。

为了达到上述目的，音频处理设备可以使用与“频谱区分”部分中讨论的实施例中的检测器相同的基础设施容量/业务量检测器和/或说话人/音频信号重要性检测器(即条件检测器20)，或者其他类似的条件检测器。

当条件检测器20用作基础设施容量/业务量检测器时，空间化滤波器还可以被配置为响应于与音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。此处，与音频信号有关的基础设施包括音频处理设备(例如服务器或音频输入终端如电话)以及承载中间音频信号和最终的经处理的音频信号的链路(如网络)。与上面讨论的音频处理设备对应地，还提供了音频处理方法的实施例。即，该方法还可以包括获取用于承载音频信号的基础设施的容量和/或业务量信息的步骤；并且相应地，分配步骤可以被配置为响应于与音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。

当条件检测器20用作说话人/音频信号重要性检测器时，空间化滤波器还可以被配置为响应于说话人/音频信号的相对高的重要性，而对相应的音频信号禁用。说话人/音频信号重要性检测器可以被配置为简单地接收表示有关音频信号是否重要的外部指示。例如，音频源(如电话或麦克风)可以被设置有按钮，该按钮在“重要”状态和“不重要”状态之间相互切换，并且响应于该按钮的切换，音频处理设备(音频源或服务器)将相应的音频信号作为重要的或不重要的对待。说话人/音频信号重要性检测器还可以被配置为通过检测每个音频信号的语音的幅度和/或出现频率来确定音频信号的重要性。一般而言，如果说话人说话的声音比别人高，或者如果在音频信号中说话人(在特定时段)说的话比别人多很多，则该说话人至少在该特定时段肯定是更加重要的。关于语音出现的检测，可以使用许多技术，如稍后将在“时间区分”部分中加以讨论的话音活动检测器。

与上面讨论的音频处理设备相对应地，还提供了音频处理方法的实施例。即，该方法还可以包括：获取说话人/音频信号的重要性信息的步骤；以及相应地，分配步骤可以被配置为响应于说话人/音频信号的相对高的重要性，而对相应的音频信号禁用。

如“总体结构”中讨论的，空间区分可以与频谱区分结合。因此，“空间区分”部分中讨论的所有实施例/变形例可以与“频谱区分”部分中的所有实施例结合。无论是频谱区分还是空间区分还是它们的组合都有良好的改善可理解度的效果。

时间区分

以下将参照图12-15来讨论用于实施时间区分的音频处理设备的实施例和音频处理方法的实施例。

在心理物理学中，听觉场景分析(ASA)是这样的过程：人类听觉系统将声音组织为感知上有意义的单元。已知一些时间线索，比如开始时间和节奏，在多说话人混频情况下的语音识别的分组和流化中扮演关键角色。因此，在本发明的实施例中，提供了实施时间区分以通过改变每一个说话人的时间方面的要素，加大竞争说话人之间的时间差异，从而避免感知上混合进干扰说话人。

在图12的实施例中，提供了一种音频处理方法，其包括：检测至少两个音频信号之间的节奏相似度(步骤1203)；响应于一个音频信号和其他音频信号之间的相对高的节奏相似度(步骤1205)，而对该一个音频信号进行时间缩放(步骤S1207)；以及对所述至少两个音频信号进行混频(在图12中未示出)。根据本实施例，如果两个输入语音信号具有相似的节奏结构，则可以在混频之前将时间缩放应用于输入信号之一或两者，从而实现增大的时间差异。

相应地，还提供了音频处理设备，该音频处理设备包括：节奏相似度检测器，其被配置为检测至少两个音频信号之间的节奏相似度；时间缩放单元，其被配置为响应于一个音频信号和其他音频信号之间的相对高的节奏相似度，而将时间缩放应用于该一个音频信号；以及混频器，其被配置为对至少两个音频信号进行混频。

此处，节奏相似度检测器可以被实施为前述的条件检测器20或条件检测器的一部分，或一个单独的部件。

节奏相似度检测可以包括通过计算两个输入音频流之间的交叉相关而进行的简单相关性分析。如果两个音频片段之间的相关性高，则将这两个声音片段确定为相似。或者，节奏相似度检测可以包括节拍/音高重音检测，该检测识别强能量片段。如果来自两个输入流的音高重音同时出现(在时间上重叠)，则这两个片段被确定为相似。

在此处可以采用许多时间缩放技术，例如，迭接相加(OLA，Overlap-add)合成技术、同步迭接相加(SOLA，synchronizedoverlap-add)方法或WSOLA(基于波形相似度的迭接相加技术，Overlap-Add Technique based on Waveform Similarity)，参见W.Verhelst，M.Roelands，1993，An Overlap-Add Technique based onWaveform Similarity(WSOLA)for High-Quality Time-ScaleModification of Speech.In：proceedings of ICASSP-93，IEEE，pp.554-557，其全部内容通过引用结合于此。图13示出了WSOLA的效果，相比于波形(a)，波形(b)在时间上扩展了(即，语音速度放缓)，但是维持了相似的波形，使得尽可能地保持音高和音色，因而听者仍旧感知到“自然的”话音。

或者，如果使用基于MDCT(改善的离散余弦变换，Modified discretecosine transform)的编解码器，则可以简单地通过插入或去除MDCT数据包来实现。如果数据包的插入或去除没有过多，则由于MDCT中固有的迭接相加操作，所导致的假像常常可以忽略不计。

类似于“频谱区分”部分和“空间区分”部分中的讨论，当基础设施容量低和/或基础业务量高时，则可以关闭时间缩放以节约基础设施资源。为此，音频处理设备可以使用与“频谱区分”部分和“空间区分”部分中讨论的实施例中的检测器相同的基础设施容量/业务量检测器，或者另外的类似的条件检测器。

当条件检测器20用作基础设施容量/业务量检测器时，时间缩放单元还可以被配置为响应于与音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。相应地，还提供了音频处理方法的实施例。即，该方法还可以包括获取承载音频信号的基础设施的容量和/或业务量信息的步骤；以及相应地，时间缩放步骤可以被配置为响应于与音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。

在图14所示的另一实施例中，提供了一种音频处理方法，其包括：检测至少两个语音信号中的语音的开始(步骤1403)；在一音频信号中语音的开始与另一音频信号中的语音的开始相同或者接近的情况下(步骤1405)，延迟该音频信号(步骤1407)；以及将所述至少两个音频信号混频在一起(在图14中未示出)。相应地，还提供了音频处理设备，该音频处理设备包括：语音开始检测器，其被配置为检测至少两个语音信号中的语音的开始；延迟器，其被配置为在一音频信号中语音的开始与另一音频信号中的语音的开始相同或者接近的情况下，延迟该音频信号。

可以通过话音处理技术中很容易获得的话音活动检测器(VAD)来检测语音的开始。可以通过在传送包含语音的音频片段之前简单地插入虚帧或时隙来实现语音开始的延迟。

类似于时间缩放，当基础设施容量低和/或基础设施业务量高时，可以关闭延迟操作以节约基础设施资源。为此，音频处理设备可以使用与“频谱区分”部分和“空间区分”部分中讨论的实施例中的检测器相同的基础设施容量/业务检测器(即，条件检测器20)，或另外的类似的条件检测器。

当条件检测器20用作基础设施容量/业务量检测器时，延迟器还可以被配置为响应于与音频信号相关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。相应地，还提供了音频处理方法的实施例。即，该方法还可以包括：获取承载音频信号的基础设施的容量和/或业务量信息的步骤；以及相应地，延迟步骤可以被配置为响应于与音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。

实施例的组合和应用场景

如“总体结构”部分中讨论的，频谱区分、空间区分和时间区分(包括时间缩放和时间延迟)可以彼此任意组合。因此，在“频谱区分”、“空间区分”和“时间区分”部分中讨论的所有实施例和变形例可以按照任意组合的形式来实施。并且在不同部分/实施例中提到的但具有相同或类似功能的步骤和/或部件可以被实施为同一步骤和/或部件或者单独的步骤和/或部件。

此外，在任意实施例/变形例或实施例/变形例的任意组合中，可以按集中式方式或分布式方式来实施各组成步骤/部件，例如，所有的步骤/部件可以在集中式计算装置如服务器(图15中的1520)中实现，该服务器经由与音频输入装置1540、1560如麦克风连接的通信链路接收原始的音频信号，并将改善的混频音频信号广播给听者装置1580(例如，扬声器)。或者，除了混频器/混频步骤之外，其他步骤/部件都可以在听者侧实现(如补偿步骤和补偿器)，或者在分散布置的音频输入装置中实现(如其他任何步骤和部件)。

图15示出了本发明的应用场景：电话会议系统1500。多个终端1540、1560、1580经由通信链路连接到电话会议中心处的服务器1520。如上所述，除了混合步骤/混频器必须在服务器1520上实现之外，所有其他步骤/部件都既可以在服务器上实现，也可以再终端上实现。

其他类似的情形可以包括接收多个单独音频输入并在单声道中输出音频信号的任意其他音频系统，如舞台音响系统、广播系统以及VoIP(互联网语音)。

在图15所示的场景中，单独地捕获音频信号。然而，也可以想到一起捕获这些音频信号(已经被混频)的场景。例如，在图15所示的电话会议系统1500中，围绕音频输入终端1560存在多个说话人。在一个实施例中，我们可以将包括多个说话人的话音的音频信号1作为要处理的一个单个音频信号，以更好地与其他音频信号，如来自音频输入终端1540的音频信号N区分开。然而，在改进的实施例中，我们可以通过从音频输入终端1560捕获的混频的音频信号中分离每个说话人的话音并将每个说话人话音作为音频信号，来实施说话人级别的可理解度改善。在这样的场景中，如图16所示，音频输入终端1560可以包括用于分离说话人话音的盲信号分离(BSS)系统和可理解度改善器100(即之前讨论的音频处理设备)。

需要BBS处理的场景的另一示例为，辅助难以理解嘈杂语音的听力障碍人群的助听器。在这样的场景中，BBS系统可以分离背景音频信号(噪声)和不同说话人的话音，并且本发明的可理解度改善器可以用于加强话音并衰减噪声，并改善不同说话人之间的可理解度。

图17是示出用于实施本发明的各个方面的示例系统的框图。

在图17中，中央处理单元(CPU)1701根据只读存储器(ROM)1702中存储的程序或从存储部分1708加载到随机访问存储器(RAM)1703的程序执行各种处理。在RAM 1703中，也根据需要存储当CPU1701执行各种处理等等时所需的数据。

CPU 1701、ROM 1702和RAM 1703经由总线1704彼此连接。输入/输出接口1705也连接到总线1704。

下列部件连接到输入/输出接口1705：包括键盘、鼠标等等的输入部分1706；包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分1707；包括硬盘等等的存储部分1708；和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分1709。通信部分1709经由网络比如互联网执行通信处理。

根据需要，驱动器1710也连接到输入/输出接口1705。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质1711根据需要被安装在驱动器1710上，使得从中读出的计算机程序根据需要被安装到存储部分1708。

在通过软件实现上述步骤和处理的情况下，从网络比如互联网或存储介质比如可移除介质1711安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施例的目的，而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，“包括”一词当在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或部件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或部件，以及/或者它们的组合。

以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的，而非用来对具有所公开的形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

根据上面的说明，可以看出描述了下面的示例性实施例(均用“EE”表示)。

EE1.一种音频处理方法，包括：

抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，从而改善所述简化第一音频信号或者至少一个第二音频信号的可理解度，或者同时改善所述简化第一音频信号和所述至少一个第二音频信号的可理解度。

EE2.根据EE1所述的音频处理方法，还包括：

抑制所述至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号；以及

将所述简化第一音频信号和所述至少一个简化第二音频信号混频。

EE3.根据EE2所述的音频处理方法，其中：

不同音频信号的所述保留子带相互不重叠。

EE4.根据EE3所述的音频处理方法，其中每个音频信号的所述保留子带被分布为既覆盖所述音频信号的低频子带又覆盖所述音频信号的高频子带。

EE5.根据EE3所述的音频处理方法，其中不同音频信号的所述保留子带相互交织。

EE6.根据EE3所述的音频处理方法，还包括：

获取说话人/音频信号的数量；以及

对每个音频信号分配保留子带，每个音频信号的保留子带的宽度和数量是基于所述说话人/音频信号的数量来确定的。

EE7.根据EE6所述的音频处理方法，还包括：

获取承载所述音频信号的基础设施的容量和/或业务量信息；以及

其中，在所述分配步骤中，响应于与一音频信号有关的基础设施中的相对高的容量和/或相对低的业务量，而将更多的和/或更宽的保留子带、或全频带分配给该音频信号。

EE8.根据EE6所述的音频处理方法，还包括：

获取所述说话人/音频信号的重要性信息；以及

其中，在所述分配步骤中，响应于说话人/音频信号的相对高的重要性，而将更多的和/或更宽的保留子带、或全频带分配给相应的说话人/音频信号。

EE9.根据EE6所述的音频处理方法，还包括：

检测不同音频信号之间的说话人相似度；以及

其中，在所述分配步骤中，响应于一音频信号和其他音频信号之间的相对低的说话人相似度，而将更多的和/或更宽的保留子带、或全频带分配给该音频信号。

EE10.根据EE2-9中任一项所述的音频处理方法，还包括：

检测不同音频信号之间的节奏相似度；以及

在所述混频步骤之前，响应于一音频信号和其他音频信号之间的相对高的节奏相似度，而对该音频信号进行时间缩放。

EE11.根据EE10所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过计算所述不同音频信号之间的交叉相关性来获得的。

EE12.根据EE10所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过比较所述不同音频信号中的节拍/音高重音时序来获得的。

EE13.根据EE10所述的音频处理方法，还包括：

其中，响应于与一音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而不对该音频信号进行所述时间缩放。

EE14.根据EE2-13中任一项所述的音频处理方法，还包括：

检测不同音频信号中的语音开始；以及

在所述混频步骤之前，在一音频信号中的语音开始与另一音频信号中的语音开始相同或接近的情况下，延迟该音频信号。

EE15.根据EE14所述的音频处理方法，还包括：

其中，响应于与一音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而不延迟该音频信号。

EE16.根据EE1-15中任一项所述的音频处理方法，包括：

给所述第一音频信号分配至少一个空间听觉属性，以使得所述第一音频信号可以被感知为源自相对于听者的某个位置。

EE17.根据EE16所述的音频处理方法，其中所述赋予步骤包括对所述第一音频信号应用空间滤波以使得所述第一音频信号的频谱带有特定仰角和/或方位角线索。

EE18.根据EE17所述的音频处理方法，其中所述空间滤波是基于头部相关传递函数的滤波。

EE19.根据EE16-17中任一项所述的音频处理方法，还包括：

补偿再现装置特有的装置到耳朵的传递函数。

EE20.根据EE16所述的音频处理方法，还包括：

获取承载所述第一音频信号的基础设施的容量和/或业务量信息；以及

其中，响应于所述基础设施中的相对低的容量和/或相对高的业务量，而不给所述第一音频信号赋予任何空间听觉属性。

EE21.根据EE16所述的音频处理方法，还包括：

获取所述第一音频信号的重要性信息；以及

其中，响应于所述第一音频信号的相对高的重要性，而不给所述第一音频信号赋予任何空间听觉属性。

EE22.一种音频处理方法，包括：

给第一音频信号赋予至少一个第一空间听觉属性，以使得所述第一音频信号可以被感知为源自相对于听者的第一位置。

EE23.根据EE22所述的音频处理方法，还包括：

给第二音频信号赋予至少一个第二空间听觉属性，以使得所述第二音频信号可以被感知为源自与所述第一位置不同的第二位置；以及

将所述第一音频信号和所述第二音频信号混频。

EE24.根据EE22或23所述的音频处理方法，其中所述赋予步骤包括对所述第一音频信号或所述第二音频信号应用空间滤波以使得所述第一音频信号或所述第二音频信号的频谱带有仰角和/或方位角线索。

EE25.根据EE24所述的音频处理方法，其中所述空间滤波是基于头部相关传递函数的滤波。

EE26.根据EE23-25中任一项所述的音频处理方法，还包括：

在所述混频步骤之前或之后，补偿再现装置特有的装置到耳朵的传递函数。

EE27.根据EE23所述的音频处理方法，还包括：

其中，响应于与一音频信号有关的基础设施的相对低的容量和/或相对高的业务量，而不给该音频信号赋予任何空间听觉属性。

EE28.根据EE23所述的音频处理方法，还包括：

获取说话人/音频信号的重要性信息；以及

其中，响应于相应的说话人/音频信号的相对高的重要性，而不给相应的音频信号赋予任何空间听觉属性。

EE29.根据EE23-28中任一项所述的音频处理方法，还包括：

检测不同音频信号之间的节奏相似度；以及

EE30.根据EE29所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过计算所述不同音频信号之间的交叉相关性来获得的。

EE31.根据EE29所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过比较所述不同音频信号中的节拍/音高重音时序来获得的。

EE32.根据EE29所述的音频处理方法，还包括：

EE33.根据EE23-32中任一项所述的音频处理方法，还包括：

检测不同音频信号中的语音开始；以及

EE34.根据EE33所述的音频处理方法，还包括：

EE35.一种音频处理方法，包括：

检测至少两个音频信号之间的节奏相似度；

响应于一音频信号与其他音频信号之间的相对高的节奏相似度而对该音频信号进行时间缩放；以及

对所述至少两个音频信号混频。

EE36.根据EE35所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过计算所述不同音频信号之间的交叉相关性来获得的。

EE37.根据EE35所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过比较所述不同音频信号中的节拍/音高重音时序来获得的。

EE38.根据EE35所述的音频处理方法，还包括：

EE39.根据EE35-38中任一项所述的音频处理方法，还包括：

检测所述至少两个音频信号的语音开始；以及

EE40.根据EE39所述的音频处理方法，还包括：

EE41.一种音频处理方法，包括：

检测至少两个音频信号中的语音开始；

在一音频信号中的语音开始与另一音频信号中的语音开始相同或接近的情况下，延迟该音频信号；以及

对所述至少两个音频信号混频。

EE42.根据EE41所述的音频处理方法，还包括：

其中，响应于与一音频信号有关的基础设施中的相对低的容量和/或相对高的业务量而不延迟该音频信号。

EE43.一种音频处理设备，包括：

频谱滤波器，被配置为抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，从而改善所述简化第一音频信号或至少一个第二音频信号的可理解度，或者同时改善所述简化第一音频信号和所述至少一个第二音频信号的可理解度。

EE44.根据EE43所述的音频处理设备，其中所述频谱滤波器还被配置为抑制所述至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号；并且所述音频处理设备还包括：

混频器，被配置为将所述简化第一音频信号和所述至少一个简化第二音频信号混频。

EE45.根据EE44所述的音频处理设备，其中：

所述频谱滤波器还被配置为使得不同音频信号的所述保留子带相互不重叠。

EE46.根据EE45所述的音频处理设备，其中所述频谱滤波器还被配置为使得每个音频信号的所述保留子带被分布为既覆盖所述音频信号的低频子带和又覆盖所述音频信号的高频子带。

EE47.根据EE46所述的音频处理设备，其中所述频谱滤波器还被配置为使得不同音频信号的所述保留子带相互交织。

EE48.根据EE45所述的音频处理设备，还包括：

说话人/音频信号数量检测器，被配置为获取说话人/音频信号的数量；以及

其中所述频谱滤波器包括保留子带分配器，所述保留子带分配器被配置为对每个音频信号分配保留子带，每个音频信号的保留子带的宽度和数量是基于所述说话人/音频信号的数量来确定的。

EE49.根据EE48所述的音频处理设备，还包括：

基础设施容量/业务量检测器，被配置为获取承载所述音频信号的基础设施的容量和/或业务量信息；以及

其中，所述保留子带分配器还被配置为响应于与一音频信号有关的基础设施中的相对高的容量和/或相对低的业务量，而将更多的和/或更宽的保留子带、或全频带分配给该音频信号。

EE50.根据EE48所述的音频处理设备，还包括：

说话人/音频信号重要性检测器，被配置为获取所述说话人/音频信号的重要性信息；以及

其中，所述保留子带分配器还被配置为响应于说话人/音频信号的相对高的重要性，而将更多的和/或更宽的保留子带、或全频带分配给相应的说话人/音频信号。

EE51.根据EE48所述的音频处理设备，还包括：

说话人相似度检测器，被配置为检测不同音频信号之间的说话人相似度；以及

其中，所述保留子带分配器还被配置为响应于一音频信号和其他音频信号之间的相对低的说话人相似度，而将更多的和/或更宽的保留子带、或全频带分配给该音频信号。

EE52.根据EE44-51中任一项所述的音频处理设备，还包括：

节奏相似度检测器，被配置为检测不同音频信号之间的节奏相似度；以及

时间缩放单元，被配置为响应于一音频信号和其他音频信号之间的相对高的节奏相似度，而对该音频信号进行时间缩放。

EE53.根据EE52所述的音频处理设备，其中所述节奏相似度检测器被配置为通过计算所述不同音频信号之间的交叉相关性来检测节奏相似度。

EE54.根据EE52所述的音频处理设备，其中所述节奏相似度检测器被配置为通过比较所述不同音频信号中的节拍/音高重音时序来检测节奏相似度。

EE55.根据EE52所述的音频处理设备，还包括：

其中，所述时间缩放单元被配置为响应于与一音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。

EE56.根据EE44-51中任一项所述的音频处理设备，还包括：

语音开始检测器，被配置为检测不同音频信号中的语音开始；

延迟器，被配置为在一音频信号中的语音开始与另一音频信号中的语音开始相同或接近的情况下，延迟该音频信号。

EE57.根据EE56所述的音频处理设备，还包括：

其中，所述延迟器被配置为响应于与一音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。

EE58.根据EE43-57中任一项所述的音频处理设备，包括：

空间化滤波器，被配置为给所述第一音频信号赋予至少一个空间听觉属性，以使得所述第一音频信号可以被感知为源自相对于听者的某个位置。

EE59.根据EE58所述的音频处理设备，其中所述空间滤波器被配置为对所述第一音频信号滤波以使得所述第一音频信号的频谱带有特定仰角和/或方位角线索。

EE60.根据EE58所述的音频处理设备，其中所述空间化滤波器被配置为执行基于头部相关传递函数的滤波。

EE61.根据EE58-60中任一项所述的音频处理设备，还包括：

补偿器，被配置为补偿再现装置特有的装置到耳朵的传递函数。

EE62.根据EE58所述的音频处理设备，还包括：

基础设施容量/业务量检测器，被配置为获取承载所述第一音频信号的基础设施的容量和/或业务量信息；以及

其中，所述空间化滤波器被配置为响应于基础设施中的相对低的容量和/或相对高的业务量而禁用。

EE63.根据EE58所述的音频处理设备，还包括：

音频信号重要性检测器，被配置为获取所述第一音频信号的重要性信息；以及

其中，所述空间化滤波器被配置为响应于相对高的重要性而禁用。

EE64.一种音频处理设备，包括：

空间化滤波器，被配置为给第一音频信号赋予至少一个第一空间听觉属性，以使得所述第一音频信号可以被感知为源自相对于听者的第一位置。

EE65.根据EE64所述的音频处理设备，其中所述空间化滤波器还被配置为给第二音频信号赋予至少一个第二空间听觉属性，以使得所述第二音频信号可以被感知为源自与所述第一位置不同的第二位置；并且所述音频处理设备还包括：

混频器，被配置为将所述第一音频信号和所述第二音频信号混频。

EE66.根据EE64或65所述的音频处理设备，其中所述空间化滤波器被配置为对所述第一音频信号或所述第二音频信号应用滤波以使得所述第一音频信号或所述第二音频信号的频谱带有仰角和/或方位角线索。

EE67.根据EE66所述的音频处理设备，其中所述空间化滤波器被配置为执行基于头部相关传递函数的滤波。

EE68.根据EE65-67中任一项所述的音频处理设备，还包括：

EE69.据EE65所述的音频处理设备，还包括：

其中，所述空间化滤波器被配置为响应于与一音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。

EE70.根据EE65所述的音频处理设备，还包括：

其中，所述空间化滤波器被配置为响应于说话人/音频信号的相对高的重要性，而对相应的音频信号禁用。

EE71.根据EE65-70中任一项所述的音频处理设备，还包括：

EE72.根据EE71所述的音频处理设备，其中所述节奏相似度检测器被配置为通过计算所述不同音频信号之间的交叉相关性来检测节奏相似度。

EE73.根据EE71所述的音频处理设备，其中所述节奏相似度检测器被配置为通过比较所述不同音频信号中的节拍/音高重音时序来检测节奏相似度。

EE74.根据EE71所述的音频处理设备，还包括：

EE75.根据EE65-74中任一项所述的音频处理设备，还包括：

语音开始检测器，被配置为检测不同音频信号中的语音开始；以及

EE76.根据EE75所述的音频处理设备，还包括：

EE77.一种音频处理设备，包括：

节奏相似度检测器，被配置为检测至少两个音频信号之间的节奏相似度；

时间缩放单元，被配置为响应于一音频信号与其他音频信号之间的相对高的节奏相似度而对该音频信号进行时间缩放；以及

混频器，被配置为对所述至少两个音频信号混频。

EE78.根据EE77所述的音频处理设备，其中所述节奏相似度检测器被配置为通过计算所述不同音频信号之间的交叉相关性来检测节奏相似度。

EE79.根据EE77所述的音频处理设备，其中所述节奏相似度检测器被配置为通过比较所述不同音频信号中的节拍/音高重音时序来检测节奏相似度。

EE80.根据EE77所述的音频处理设备，还包括：

EE其中，所述时间缩放单元被配置为响应于与一音频信号有关的基础设施中的相对低的容量和/或相对高的业务量，而对该音频信号禁用。

EE81.根据EE77-80中任一项所述的音频处理设备，还包括：

语音开始检测器，被配置为检测至少两个音频信号中的语音开始；以及

EE82.根据EE81所述的音频处理设备，还包括：

EE83.一种音频处理设备，包括：

语音开始检测器，被配置为检测至少两个音频信号中的语音开始；

延迟器，被配置为在一音频信号中的语音开始与另一音频信号中的语音开始相同或接近的情况下，延迟该音频信号；以及

混频器，被配置为对所述至少两个音频信号混频。

EE84.根据EE83所述的音频处理设备，还包括：

EE85.一种计算机可读介质，在所述计算机可读介质上记录有计算机程序指令以使得处理器能够执行音频处理，所述计算机程序指令包括：抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号从而改善所述简化第一音频信号或者至少一个第二音频信号的可理解度，或者同时改善所述简化第一音频信号和所述至少一个第二音频信号的可理解度的装置。

EE86.一种计算机可读介质，在所述计算机可读介质上记录有计算机程序指令以使得处理器能够执行音频处理，所述计算机程序指令包括：用于给第一音频信号赋予至少一个第一空间听觉属性以使得所述第一音频信号可以被感知为源自相对于听者的第一位置的装置。

EE87.一种计算机可读介质，在所述计算机可读介质上记录有计算机程序指令以使得处理器能够执行音频处理，所述计算机程序指令包括：用于检测至少两个音频信号之间的节奏相似度的装置；用于响应于一音频信号与其他音频信号之间的相对高的节奏相似度而对该音频信号进行时间缩放的装置；以及用于对所述至少两个音频信号混频的装置。

EE88.一种计算机可读介质，在所述计算机可读介质上记录有计算机程序指令以使得处理器能够执行音频处理，所述计算机程序指令包括：用于检测至少两个音频信号中的语音开始的装置；用于在一音频信号中的语音开始与另一音频信号中的语音开始相同或接近的情况下，延迟该音频信号的装置；以及对所述至少两个音频信号混频的装置。

Claims

1.一种音频处理方法，包括：

抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，从而改善所述简化第一音频信号或者至少一个第二音频信号的可理解度，或者同时改善所述简化第一音频信号和所述至少一个第二音频信号的可理解度；

2.根据权利要求1所述的音频处理方法，其中：

不同音频信号的所述保留子带相互不重叠。

3.根据权利要求2所述的音频处理方法，其中每个音频信号的所述保留子带被分布为既覆盖所述音频信号的低频子带又覆盖所述音频信号的高频子带。

4.根据权利要求2所述的音频处理方法，其中不同音频信号的所述保留子带相互交织。

5.根据权利要求2所述的音频处理方法，还包括：

获取说话人/音频信号的数量；以及

6.根据权利要求5所述的音频处理方法，还包括：

7.根据权利要求5所述的音频处理方法，还包括：

获取所述说话人/音频信号的重要性信息；以及

8.根据权利要求5所述的音频处理方法，还包括：

检测不同音频信号之间的说话人相似度；以及

9.根据权利要求2-8中任一项所述的音频处理方法，还包括：

检测不同音频信号之间的节奏相似度；以及

10.根据权利要求9所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过计算所述不同音频信号之间的交叉相关性来获得的。

11.根据权利要求9所述的音频处理方法，其中不同音频信号之间的所述节奏相似度是通过比较所述不同音频信号中的节拍/音高重音时序来获得的。

12.根据权利要求1-11中任一项所述的音频处理方法，包括：

13.根据权利要求12所述的音频处理方法，其中所述赋予步骤包括对所述第一音频信号应用空间滤波以使得所述第一音频信号的频谱带有特定仰角和/或方位角线索。

14.根据权利要求12所述的音频处理方法，其中所述空间滤波是基于头部相关传递函数的滤波。

15.一种音频处理方法，包括：

检测至少两个音频信号中的语音开始；

对所述至少两个音频信号混频。

16.根据权利要求15所述的音频处理方法，还包括：

17.一种音频处理设备，包括：

频谱滤波器，被配置为抑制第一音频信号的至少一个第一子带以获得具有保留子带的简化第一音频信号，并抑制至少一个第二音频信号的至少一个第二子带以获得具有保留子带的至少一个简化第二音频信号，从而改善所述简化第一音频信号或者所述至少一个简化第二音频信号的可理解度，或者同时改善所述简化第一音频信号或者所述至少一个简化第二音频信号的可理解度；以及

18.根据权利要求178所述的音频处理设备，其中：

19.根据权利要求18所述的音频处理设备，其中所述频谱滤波器还被配置为使得每个音频信号的所述保留子带被分布为既覆盖所述音频信号的低频子带和又覆盖所述音频信号的高频子带。

20.根据权利要求19所述的音频处理设备，其中所述频谱滤波器还被配置为使得不同音频信号的所述保留子带相互交织。

21.根据权利要求18所述的音频处理设备，还包括：

22.一种音频处理设备，包括：

混频器，被配置为对所述至少两个音频信号混频。

23.根据权利要求22所述的音频处理设备，还包括：