CN102982804B

CN102982804B - 音频分类方法和系统

Info

Publication number: CN102982804B
Application number: CN201110269279.XA
Authority: CN
Inventors: 程斌; 芦烈
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-09-02
Filing date: 2011-09-02
Publication date: 2017-05-03
Anticipated expiration: 2031-09-02
Also published as: EP2579256B1; US8892231B2; US20130058488A1; CN102982804A; EP2579256A1

Abstract

描述了用于音频分类的实施例。音频分类系统包含对音频信号执行音频分类的过程的至少一个装置。该至少一个装置能够在需要不同资源的至少两个模式下工作。音频分类系统也包含复杂度控制器，其确定组合并且指示该至少一个装置根据该组合来工作。对于该至少一个装置中的每个，该组合指定该装置的模式之一，而该组合的资源要求不超过最大可用资源。通过控制模式，音频分类系统改善了针对运行环境的可伸缩性。

Description

音频分类方法和系统

技术领域

本发明涉及音频信号处理。更具体地，本发明的实施例涉及音频分类方法和系统。

背景技术

在许多应用中，需要对音频信号进行识别和分类。一种这样的分类是把音频信号自动分类为话音、音乐或静音。通常，音频分类涉及从音频信号中提取音频特征以及用所训练的分类器根据音频特征进行分类。

已经提出音频分类的方法来自动估计输入音频信号的类型，使得能够避免对音频信号进行人工标记。这能够被用于大量多媒体数据的高效分类和浏览。音频分类也被广泛地用于支持其它音频信号处理部件。例如，话音-噪声音频分类器对于语音通信系统中使用的噪声抑制系统有大的益处。作为另一个例子，在无线通信系统设备中，通过音频分类，音频信号处理能够根据信号是话音、音乐还是静音来对信号实现不同的编码和解码算法。

本章节中描述的方案是能够采取的方案，但不一定是先前已经构思或采取的方案。因此，除非另外指出，不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地，根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题，除非另外指出。

发明内容

根据本发明一个实施例，提供一种音频分类系统。该系统包含能够在需要不同资源的至少两个模式下工作的至少一个装置。该系统也包含复杂度控制器，其确定组合并且指示该至少一个装置根据该组合来工作。对于该至少一个装置中的每个，该组合指定该装置的模式之一，而该组合的资源要求不超过最大可用资源。该至少一个装置可以包括预处理器、特征提取器、分类装置和后处理器的至少之一，预处理器使音频信号适配于音频分类系统，特征提取器从音频信号的分段中提取音频特征，分类装置根据提取的音频特征用训练的模型对分段进行分类，后处理器对分段的音频类型进行平滑。

根据本发明一个实施例，提供一种音频分类方法。该方法包含能够在需要不同资源的至少两个模式下执行的至少一个步骤。确定一个组合。该至少一个步骤被指示根据该组合来运行。对于该至少一个步骤中的每个，该组合指定该步骤的模式之一，而该组合的资源要求不超过最大可用资源。该至少一个步骤包括预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一，预处理步骤使音频信号适配于音频分类，特征提取步骤从音频信号的分段中提取音频特征，分类步骤根据提取的音频特征用训练的模型对分段进行分类，后处理步骤对分段的音频类型进行平滑。

根据本发明一个实施例，提供一种音频分类系统。系统包含用于从音频信号的分段中提取音频特征的特征提取器。特征提取器包含系数计算器和统计数据计算器。系数计算器根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数，以作为音频特征。统计数据计算器计算有关长期自相关系数的、用于音频分类的至少一项统计数据，以作为音频特征。系统也包含分类装置，用于通过训练的模型，基于所提取的音频特征来对分段进行分类。

根据本发明一个实施例，提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数，以作为音频特征。计算有关长期自相关系数的、用于音频分类的至少一项统计数据，以作为音频特征。

根据本发明一个实施例，提供一种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。特征提取器包含用于对分段进行滤波的低通滤波器，在该低通滤波器中允许低频敲击分量通过。特征提取器也包含计算器，其用于通过对每个分段应用过零率(ZCR，zero crossing rate)来提取低音指示特征，以作为音频特征。

根据本发明一个实施例，提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，通过低通滤波器对分段进行滤波，在该低通滤波器中允许低频敲击分量通过。通过对每个分段应用过零率(ZCR)来提取低音指示特征，以作为音频特征。

根据本发明一个实施例，提供一种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。特征提取器包含残余计算器和统计数据计算器。对于每个分段，残余计算器通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段，统计数据计算器关于该分段的帧的相同级别的残余计算至少一项统计数据。所计算的残余和统计数据被包含在音频特征中。

根据本发明一个实施例，提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，对于每个分段，通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段，关于该分段的帧的相同级别的残余计算至少一项统计数据。所计算的残余和统计数据被包含在音频特征中。

根据本发明一个实施例，提供一种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。特征提取器包含比值计算器，其计算每个分段的谱区间高能量比以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。

根据本发明一个实施例，提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。为提取音频特征，针对每个分段计算谱区间高能量比，以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。

根据本发明一个实施例，提供一种音频分类系统。系统包含特征提取器和分类装置，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类。分类装置包含具有不同优先级的至少两个分类器级段的链，这些分类器级段按照优先级的降序排列。每个分类器级段包含分类器，分类器根据提取自每个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。每个分类器级段也包含决策单元。如果分类器级段位于链的开始处，则决策单元确定当前置信度是否高于与该分类器级段关联的置信度阈值。如果确定当前置信度高于置信度阈值，则决策单元通过输出当前类别估计来终止音频分类。否则，决策单元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的中间，则决策单元确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型。如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则决策单元通过输出当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类。否则，决策单元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的结束处，则决策单元通过输出当前类别估计来终止音频分类。或者，决策单元确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。如果确定类别估计能够决定音频类型，则决策单元通过输出所决定的音频类型和相应置信度来终止音频分类。否则，决策单元通过输出当前类别估计来终止音频分类。

根据本发明一个实施例，提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。分类包含具有不同优先级的至少两个子步骤的链，这些子步骤按照优先级的降序排列。每个子步骤涉及根据提取自每个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。如果子步骤位于链的开始处，则子步骤涉及确定当前置信度是否高于与该子步骤关联的置信度阈值。如果确定当前置信度高于置信度阈值，则子步骤涉及通过输出当前类别估计来终止音频分类。否则，子步骤涉及把当前类别估计提供给链中的所有后面的子步骤。如果子步骤位于链的中间，则子步骤涉及确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型。如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则子步骤涉及通过输出当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类。否则，子步骤涉及把当前类别估计提供给链中的所有后面的子步骤。如果子步骤位于链的结束处，则子步骤涉及通过输出当前类别估计来终止音频分类。或者，子步骤涉及确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。如果确定类别估计能够决定音频类型，则子步骤涉及通过输出所决定的音频类型和相应置信度来终止音频分类。否则，子步骤涉及通过输出当前类别估计来终止音频分类。

根据本发明一个实施例，提供一种音频分类系统。系统包含特征提取器、分类装置和后处理器，特征提取器用于从音频信号的分段中提取音频特征，分类装置用于通过训练的模型，基于所提取的音频特征来对分段进行分类，后处理器用于对分段的音频类型进行平滑。后处理器包含检测器和平滑器，检测器在音频信号中搜索两个重复部分，平滑器通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。

根据本发明一个实施例，提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征，用训练的模型对分段进行分类。通过下述操作对分段的音频类型进行平滑：在音频信号中搜索两个重复部分，以及通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。

根据本发明一个实施例，提供一种在其上记录有计算机程序指令的计算机可读介质。当被处理器执行时，这些指令使得处理器能够执行一种音频分类方法。该方法包含能够在需要不同资源的至少两个模式下执行的至少一个步骤。确定一个组合。该至少一个步骤被指示根据该组合来运行。对于该至少一个步骤中的每个，该组合指定该步骤的模式之一，而该组合的资源要求不超过最大可用资源。该至少一个步骤包括预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一，预处理步骤使音频信号适配于音频分类，特征提取步骤从音频信号的分段中提取音频特征，分类步骤根据提取的音频特征用训练的模型对分段进行分类，后处理步骤对分段的音频类型进行平滑。

下面参考附图详细描述本发明的进一步特性和优点，以及本发明各个实施例的结构和操作。应当注意，本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。

附图说明

在附图中通过例子图解本发明，但这些例子不对本发明产生限制，图中用类似的附图标记表示类似的元件，其中：

图1是图示根据本发明一个实施例的示例音频分类系统的框图；

图2是图示根据本发明一个实施例的示例音频分类方法的流程图；

图3是图示示例高通滤波器的频率响应的曲线图，该频率响应等价于由等式(1)表示的时域预加重，其中β＝0.98；

图4A是图示敲击信号及其自相关系数的曲线图；

图4B是图示语音信号及其自相关系数的曲线图；

图5是图示根据本发明一个实施例的示例分类装置的框图；

图6是图示根据本发明一个实施例的分类步骤的示例过程的流程图；

图7是图示根据本发明一个实施例的示例音频分类系统的框图；

图8是图示根据本发明一个实施例的示例音频分类方法的流程图；

图9是图示根据本发明一个实施例的示例音频分类系统的框图；

图10是图示根据本发明一个实施例的示例音频分类方法的流程图；

图11是图示根据本发明一个实施例的示例音频分类系统的框图；

图12是图示根据本发明一个实施例的示例音频分类方法的流程图；

图13是图示根据本发明一个实施例的示例音频分类系统的框图；

图14是图示根据本发明一个实施例的示例音频分类方法的流程图；

图15是图示根据本发明一个实施例的示例音频分类系统的框图；

图16是图示根据本发明一个实施例的示例音频分类方法的流程图；

图17是图示根据本发明一个实施例的示例音频分类系统的框图；

图18是图示根据本发明一个实施例的示例音频分类方法的流程图；

图19是图示根据本发明一个实施例的示例音频分类系统的框图；

图20是图示根据本发明一个实施例的示例音频分类方法的流程图；而

图21是图示用于实现本发明的实施例的示例性系统的框图。

具体实施方式

下面参考附图描述本发明实施例。应当注意，出于清楚的目的，在附图和描述中省略了有关所属技术领域的技术人员知道但是对于本发明的理解不是必要的部分和过程的表示和说明。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统(例如，在线数字媒体商店、云计算服务、流媒体服务、电信网络等等)、装置(例如，蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒或数字视频录像机、或任何媒体播放器)、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例，本文可以一般称为″电路″、″模块″或″系统″。此外，本发明的各个方面可以采取体现为一或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是--但不限于--电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如″C″程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

复杂度控制

图1是图示根据本发明一个实施例的示例音频分类系统100的框图。

如图1所示，音频分类系统100包含复杂度控制器102。为对音频信号进行音频分类，涉及到若干过程，例如特征提取和分类。相应地，音频分类系统100可以包含用于执行这些过程的相应装置(共同由附图标记101表示)。一些装置(均称作多模式装置)可以在需要不同资源的不同模式下执行相应过程。图1中图示了这样的多模式装置之一，即装置111。

执行过程能够消耗资源，例如内存、I/O、电力、中央处理单元(CPU)等等。执行过程的相同功能但是需要不同资源的不同算法和配置提供了这样的可能性：装置通过采用这些不同算法和配置的组合(例如，模式)之一来进行操作。每个模式可以决定装置的具体资源要求(消耗)。例如，分类过程可以把音频特征输入到分类器以获得分类结果。为执行这个功能，处理较多音频特征以进行音频分类的分类器所消耗的资源会多于处理较少音频特征的另一个分类器，如果两个分类器基于相同分类算法的话。这是关于不同配置的例子。此外，为执行这个功能，基于多个分类算法的组合的分类器所消耗的资源会多于仅基于这些算法之一的另一个分类器，如果两个分类器处理相同音频特征的话。这是关于不同算法的例子。通过这种方式，一些多模式装置(例如，装置111)可以被配置成能够在需要不同资源的不同模式下工作。任何这样的多模式装置可以具有超过两个的模式，这取决于用于执行装置的功能的可供选择的算法和配置。

在执行音频分类时，每个多模式装置可工作于其模式之一。这个模式被称作活跃模式。复杂度控制器102可以确定多模式装置的活跃模式的组合，并且指示多模式装置根据该组合，即在该组合中定义的相应活跃模式下工作。可以有各种可能的组合。复杂度控制器102可以从中选择资源要求不超过最大可用资源的组合。最大可用资源可以是固定的，或者可通过收集有关音频分类系统100的可用资源的信息来估计，或者可由用户来设置。可以在安装音频分类系统100或启动音频分类系统100时、按照规则时间间隔、在启动音频分类任务时、响应于外部命令、或甚至是随机地确定最大可用资源。

在一个例子中，可以为每个多模式装置建立简表。简表包含表示相应模式的条目。每个条目可以至少包含用于标识相应模式的模式标识和有关该模式下的估计资源要求的信息。复杂度控制器102可以根据与每个可能组合中定义的活跃模式相对应的条目中的估计资源要求来计算总资源要求，并且选择总资源要求在最大资源要求以下的一个组合。

取决于具体实现，多模式装置可以包含预处理器、特征提取器、分类装置和后处理器的至少之一。

预处理器可以使音频信号适配于音频分类系统100。音频信号的采样速率和量化精度可能不同于音频分类系统100要求的采样速率和量化精度。在这样的情况下，预处理器可以调整音频信号的采样速率和量化精度以符合音频分类系统100的要求。另外或可选地，预处理器可以预加重音频信号以加强音频信号的具体频率范围(例如，高频范围)。在音频分类系统100中，预处理器可以是可选的，即使它不是多模式的。

为识别音频信号的分段的音频类型，特征提取器可以从分段中提取音频特征。分类装置中可以有一个或更多个活跃分类器。每个分类器需要若干音频特征以用于对分段执行其分类操作。特征提取器根据分类器的要求提取音频特征。取决于分类器的要求，一些音频特征可以直接提取自分段，而一些音频特征可以是提取自分段中的帧的音频特征(均称作帧级特征)，或帧级特征的派生特征(均称作窗口级特征)。

根据提取自分段的音频特征，分类装置用训练的模型对分段进行分类(即，识别分段的音频类型)。在训练的模型中用决策形成模式来组织一个或更多个活跃分类器。

通过对音频信号的分段执行音频分类，能够生成音频类型的序列。后处理器可以平滑序列的音频类型。通过平滑，可以消除序列中音频类型的不现实的突然改变。例如，大量连续″音乐″音频类型中间的单个″话音″音频类型可能是错误估计，并且能够由后处理器平滑(消除)掉。在音频分类系统100中，后处理器可以是可选的，即使它不是多模式的。

由于能够通过选择适当的活跃模式组合来调整音频分类系统100的资源要求，音频分类系统100可适应于运行环境随时间的变化，或从一个平台迁移到另一个平台(例如，从个人计算机迁移到便携终端)而不需显著修改，因而提高了可用性、可伸缩性和可移植性中至少之一。

图2是图示根据本发明一个实施例的示例音频分类方法200的流程图。

为对音频信号进行音频分类，涉及到若干过程，例如特征提取和分类。相应地，音频分类方法200可以包含用于执行这些过程的相应步骤(共同由附图标记207表示)。一些步骤(均称作多模式步骤)可以在需要不同资源的不同模式下执行相应过程。

如图2所示，音频分类方法200从步骤201开始。在步骤203，确定多模式步骤的活跃模式的组合。

在步骤205，指示多模式步骤根据该组合来工作，即在该组合中定义的相应活跃模式下工作。

在步骤207，执行相应过程以进行音频分类，其中在组合中定义的活跃模式下执行多模式步骤。

在步骤209，音频分类方法200结束。

取决于具体实现，多模式步骤可以包含预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一，预处理步骤使音频信号适配于音频分类，特征提取步骤从音频信号的分段中提取音频特征，分类步骤根据提取的音频特征用训练的模型对分段进行分类，后处理步骤对分段的音频类型进行平滑。预处理步骤和后处理步骤可以是可选的，即使它们不是多模式的。

预处理

在音频分类系统100和音频分类方法200的进一步的实施例中，多模式装置和步骤分别包含预处理器和预处理步骤。预处理器的模式和预处理步骤的模式包含一个模式MP₁和另一个模式MP₂。在模式MP₁下，在进行滤波的情况下转换音频信号的采样速率(需要更多资源)。在模式MP₂下，在不进行滤波的情况下转换音频信号的采样速率(需要更少资源)。

在为音频分类而提取的音频特征中，第一类型的音频特征不适合于预加重，也就是说，如果音频信号被预加重，则该类型的音频特征会降低分类性能，第二类型的音频特征适合于预加重，也就是说，如果音频信号被预加重，则该类型的音频特征能够提高分类性能。

作为预加重的一个例子，可以在特征提取的处理之前对音频信号应用时域预加重。这种预加重能够表示成：

s′(n)＝s(n)-β·s(n-1)(1)

其中n是时间索引，s(n)和s′(n)分别是预加重前后的音频信号，β是预加重系数，通常设置为接近1的值，例如0.98。

另外或可选地，预处理器的模式和预处理步骤的模式包含一个模式MP₃和另一个模式MP₄。在模式MP₃下，音频信号S(t)直接被预加重，并且把音频信号S(t)和预加重的音频信号S′(t)转换到频域，以获得转换音频信号S(ω)和预加重的转换音频信号S′(ω)。在模式MP₄下，音频信号S(t)被转换到频域以获得转换音频信号S(ω)，并且转换音频信号S(ω)被预加重，例如通过使用具有与根据等式(1)导出的频率响应相同的频率响应的高通滤波器，以获得预加重的转换音频信号S′(ω)。图3是图示示例高通滤波器的频率响应的曲线图，该频率响应等价于由等式(1)表示的时域预加重，其中β＝0.98。

在这样的情况下，在提取音频特征的处理中，从没有预加重的转换音频信号S(ω)中提取第一类型的音频特征，从经过预加重的转换音频信号S′(ω)中提取第二类型的音频特征。在模式MP₄下，由于省略了一个转换，因而需要更少的资源。

在预处理器和预处理步骤具有适配和预加重的功能的情况下，模式MP₁到MP₄可以是独立模式。另外，可以有模式MP₁和MP₃、模式MP₁和MP₄、模式MP₂和MP₃、以及模式MP₂和MP₄的组合模式。在这样的情况下，预处理器的模式和预处理步骤的模式可以包含模式MP₁到MP₄和组合模式中的至少两个。

在一个例子中，第一类型可以包含子带能量分布(sub-band energydistribution)、频率分解残余(residual of frequency decomposition)、过零率(ZCR)、谱区间高能量比(spectrum-bin high energy ratio)、低音指示(bass indicator)和长期自相关特征(long-term auto-correlation feature)中的至少之一，第二类型可以包含谱波动(谱通量)和梅尔频率倒谱系数(MFCC)中的至少之一。

特征提取

长期自相关系数

在音频分类系统100的一个进一步的实施例中，多模式装置包含特征提取器。特征提取器可以根据维纳-辛钦定理(Wiener-Khinchin theorem)计算音频信号中长于一个阈值的分段的长期自相关系数。特征提取器也可以计算有关长期自相关系数的、用于音频分类的至少一项统计数据。

在音频分类方法200的一个进一步的实施例中，多模式步骤包含特征提取步骤。特征提取步骤可以包含根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数。特征提取步骤也可以包含计算有关长期自相关系数的、用于音频分类的至少一项统计数据。

某些敲击声音，尤其是具有相对恒定的速度的敲击声音，具有独特的特性，即它们是高度周期性的，尤其是当在敲击开始或节拍之间观察时。通过具有相对长的长度，例如2秒的长度的分段的长期自相关系数，能够利用这种特性。根据定义，长期自相关系数可在敲击开始或节拍后的延迟点上表现出显著的峰。在话音信号中不能找到这种特性，因为话音信号自身几乎不重复。如图4A所示，与图4B图示的话音信号的长期自相关系数相比，在敲击信号的长期自相关系数中能够找到周期性的峰。可以设置上述阈值以保证在长期自相关系数中能够表现出这种特性差异。计算统计数据以捕获能够将敲击信号与话音信号区分开的长期自相关系数的特性。

在这样的情况下，特征提取器的模式可以包含一个模式MF₁和另一个模式MF₂。在模式MF₁下，直接根据分段计算长期自相关系数。在模式MF₂下，分段被进行抽减(decimated)，并且根据经抽减的分段计算长期自相关系数。由于抽减，能够降低计算成本，因而降低资源要求。

在一个例子中，分段具有数目N个样本s(n)，n＝1，2，...，N。在模式MF₁下，根据维纳-辛钦定理计算长期根据相关系数。

根据维纳-辛钦定理，通过2N点快速富立叶变换(FFT)导出频率系数：

S(k)＝FFT(s(n)，2N)(2)

其中FFT(x，2N)表示信号x的2N点FFT分析，于是长期自相关系数被导出为：

A(τ)＝IFFT(S(k)·S^*(k))(3)

其中A(τ)是长期自相关系数的序列，S^＊(k)表示S(k)的复共轭，IFFT()表示逆FFT。

在模式MF₂下，在计算长期自相关系数之前，分段s(n)被抽减(例如，按照系数D抽减，其中D＞10)，而其它计算与模式MF₁中的相同。

例如，如果一个分段具有32000个样本，则其应被填零为2×32768个样本以便进行高效FFT，而模式MF₁下的处理需要大约1.7×10⁶次乘法，包括：

1)用于FFT和IFFT的2×2×32768×log(2×32768)次乘法；和

2)用于频率系数和共轭系数之间的乘法的4×2×32768次乘法。

如果按照系数16把分段抽减为2048个样本，则复杂度被显著降低到大约8.4×10⁴次乘法。在这样的情况下，复杂度被降低到初始复杂度的大约5％。

在一个例子中，统计数据可以包含以下项中的至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

3)High_Average(高平均值)：满足以下条件至少之一的长期自相关系数的平均值：

a)大于一个阈值；以及

b)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不低于所有其它长期自相关系数。例如，如果所有长期自相关系数被表示成按照降序排列的c₁，c₂，...，c_n，则该预定比例的长期自相关系数包含c₁，c₂，...，c_m，其中m/n等于该预定比例；

4)High_Value_Percentage(高值百分比)：High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；

5)Low_Average(低平均值)：满足以下条件至少之一的长期自相关系数的平均值：

c)小于一个阈值；以及

d)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不高于所有其它长期自相关系数。例如，如果所有长期自相关系数被表示成按照升序排列的c₁，c₂，...，c_n，则该预定比例的长期自相关系数包含c₁，c₂，...，c_m，其中m/n等于该预定比例；

6)Low_Value_Percentage(低值百分比)：Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；和

7)对比度：High_Average和Low_Average之间的比值。

作为一个进一步的改进，可以根据零时滞值对上述导出的长期自相关系数进行归一化，以消除绝对能量的影响，即零时滞的长期自相关系数均为1.0。此外，在计算统计数据时不考虑零时滞值和邻近值(例如，时滞＜10个样本)，因为这些值不代表信号的任何自重复。

低音指示

在音频分类系统100和音频分类方法200的进一步的实施例中，通过低通滤波器对每个分段进行滤波，在该低通滤波器中允许低频敲击分量通过。为音频分类而提取的音频特征包含通过对经过滤波的分段应用过零率(ZCR)而获得的低音指示特征。

ZCR能够在话音的浊音和清音部分之间有明显变化。能够利用此特性来有效区别话音和其它信号。然而，为对类话音信号(具有类似话音的信号特征的非话音信号，包含具有恒定速度的敲击声音，以及说唱音乐)进行分类，尤其是对敲击声音进行分类，传统ZCR是低效的，因为敲击声音表现出的变化特性与话音信号中发现的变化特性相似。这是由于在许多敲击片段(从敲击声音中采样的低频敲击分量)中发现的低音响弦击鼓节拍结构(bass-snare drumming measure structure)可产生的ZCR变化与话音信号的浊音-清音结构所产生的ZCR变化相似。

在本发明实施例中，引入低音指示特征以作为低音声音的存在的指示。低通滤波器可具有例如80Hz的低截止频率，使得除低频敲击分量(例如，低音鼓)之外，信号中的任何其他分量(包含话音)均会被显著衰减。结果，这种低音指示能够显示低频敲击声音和话音信号之间的不同特性。这能够导致类话音信号和话音信号之间的有效鉴别，因为许多类话音信号包括大量低音分量，例如说唱音乐。

频率分解残余

在音频分类系统100的一个进一步的实施例中，多模式装置可以包含特征提取器。对于每个分段，特征提取器可以通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段，特征提取器也可以关于该分段的帧的相同级别的残余计算至少一项统计数据。

在音频分类方法200的一个进一步的实施例中，多模式步骤可以包含特征提取步骤。特征提取步骤可以包含，对于每个分段，通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。特征提取步骤也可以包含，对于每个分段，关于该分段的帧的相同级别的残余计算至少一项统计数据。

所计算的残余和统计数据被包含在音频特征中以用于相应分段的音频分类。

通过频率分解，对于某些类型的敲击信号(例如，具有恒定速度的低音击鼓声)，与话音信号相比有较少的频率分量能够近似这样的敲击声音。原因是这些敲击信号本质上比话音信号和其它类型的音乐信号具有更少的复杂频率成分。因此，通过移除不同数目的显著频率分量(例如，具有最高能量的分量)，当与话音和其它音乐信号的特性相比时，这样的敲击声音的残余(剩余能量)能够表现出显著不同的特性，因而提高分类性能。

特征提取器和特征提取步骤的模式可以包含一个模式MF₃和另一个模式MF₄。

在模式MF₃下，第一能量是谱的H₁个最高频率区间的总能量，第二能量是谱的H₂个最高频率区间的总能量，而第三能量是谱的H₃个最高频率区间的总能量，其中H₁＜H₂＜H₃。

在模式MF₄下，第一能量是谱的一个或更多个峰区域的总能量，第二能量是谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含第一能量所涉及的峰区域，而第三能量是谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含第二能量所涉及的峰区域。峰区域可以是全局的，也可以是局部的。

在一个示例实现中，令S(k)是具有功率谱能量E的一个分段的谱系数序列，即

其中K是频率区间的总数。

在模式MF₃下，通过从S(k)中移除H₁个最高频率区间之后的剩余能量来估计一级残余R₁。这能够表示成：

其中

是H₁个最高频率区间的索引。

类似地，令R₂和R₃分别是通过从S(ω)中移除H₂和H₃个最高频率区间而获得的二级残余和三级残余，其中H₁＜H₂＜H₃。对于敲击、话音和音乐信号可以发现(理想情况下)下列事实：

敲击声音：E＞＞R₁≈R₂≈R₃

话音：E＞R₁＞R₂≈R₃

音乐：E＞R₁＞R₂＞R₃。

在模式MF₄下，通过移除谱的最高峰，可以把一级残余R₁估计为：

其中L是最高能量频率区间的索引，W是限定峰区域的宽度的正整数，即峰区域具有2W+1个频率区间。可选地，代替如上所述定位全局峰的方式，也可以搜索和移除局部峰区域以进行残余估计。在这样的情况下，在谱的一部分中搜索L以作为最高能量频率区间的索引，而其它处理保持相同。与一级残余类似，通过从谱中移除更多的峰可以估计后续级别的残余。

在一个例子中，统计数据可以包含以下项中的至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

3)Residual_High_Average(残余高平均值)：相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值：

a)大于一个阈值；以及

b)在预定比例的残余内，该预定比例的残余不低于所有其它残余。例如，如果所有残余被表示成按照降序排列的r₁，r₂，...，r_n，则该预定比例的残余包含r₁，r₂，...，r_m，其中m/n等于该预定比例；

4)Residual_Low_Average(残余低平均值)：相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值：

c)小于一个阈值；以及

d)在预定比例的残余内，该预定比例的残余不高于所有其它残余。例如，如果所有残余被表示成按照升序排列的r₁，r₂，...，r_n，则该预定比例的残余包含r₁，r₂，...，r_m，其中m/n等于该预定比例；以及

5)Residual_Contrast(残余对比度)：Residual_High_Average和Residual_Low_Average之间的比值。

谱区间高能量比

在音频分类系统100和音频分类方法200的进一步的实施例中，被提取用于对每个分段进行音频分类的音频特征包含谱区间高能量比。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。在复杂度严格受限的某些情况下，能够用称作谱区间高能量比的特征来替代上述残余分析。谱区间高能量比特征被用来近似频率分解残余的性能。可以确定该阈值，使得其性能近似频率分解残余的性能。

在一个例子中，该阈值可以被计算为下列之一：

1)分段的谱的平均能量，或该分段周围的分段范围的谱的平均能量；

2)分段的谱的加权平均能量，或该分段周围的分段范围的谱的加权平均能量，其中该分段具有相对较高的权重，该范围中的每个其它分段具有相对较低的权重，或者其中相对较高能量的每个频率区间具有相对较高的权重，相对较低能量的每个频率区间具有相对较低的权重；

3)平均能量或加权平均能量的换算值；以及

4)平均能量或加权平均能量加上或减去标准差。

在音频分类系统100和音频分类方法200的进一步的实施例中，音频特征可以包含自相关系数、低音指示、频率分解残余和谱区间高能量比中的至少两个。在音频特征包含长期自相关系数和频率分解残余的情况下，特征提取器的模式和特征提取步骤的模式可以包含作为独立模式的模式MF₁到MF₄。另外，可以有模式MF₁和MF₃、模式MF₁和MP₄、模式MP₂和MF₃、以及模式MP₂和MP₄的组合模式。在这样的情况下，特征提取器的模式和特征提取步骤的模式可以包含模式MP₁到MF₄和组合模式中的至少两个。

分类装置

图5是图示根据本发明一个实施例的示例分类装置500的框图。

如图5所示，分类装置500包含具有不同优先级的分类器级段502-1，502-2，...，502-n的链。虽然图5中图示了超过两个的分类器级段，然而可以有两个分类器级段。在链中，按照优先级的降序排列分类器级段。在图5中，分类器级段502-1被排列在链的开始处，具有最高优先级，分类器级段502-2被排列在链中的次最高位置，具有次最高优先级，等等。分类器级段502-n被排列在链的结束处，具有最低优先级。

分类装置500也包含级段控制器505。级段控制器505确定从具有最高优先级的分类器级段(例如，分类器级段502-1)开始的子链。子链的长度取决于组合中针对分类装置500的模式。分类装置500的模式的资源要求与子链的长度成比例。因此，分类装置500可以配有对应于不同子链，最长达到整个链的不同模式。

所有分类器级段502-1，502-2，...，502-n具有相同结构和功能，因此这里仅详细描述分类器级段502-1。

分类器级段502-1包含分类器503-1和决策单元504-1。

分类器503-1根据提取自分段的相应音频特征501生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。

决策单元504-1可以具有与其分类器级段在子链中的位置相对应的不同功能。

如果分类器级段位于子链的开始处(例如，分类器级段502-1)，则激活第一功能。在第一功能中，确定当前置信度是否高于与该分类器级段相关联的置信度阈值。如果确定当前置信度高于置信度阈值，则通过输出当前类别估计来终止音频分类。否则，当前类别估计被提供给子链中的所有后面的分类器级段(例如，分类器级段502-2，...，502-n)，并且子链中的下一分类器级段开始工作。

如果分类器级段位于子链的中间(例如，分类器级段502-2)，则激活第二功能。在第二功能中，确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计(例如，分类器级段502-1)是否能够根据第一判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度，各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。

如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则通过输出当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类。否则，当前类别估计被提供给子链中的所有后面的分类器级段，并且子链中的下一分类器级段开始工作。

如果分类器级段位于子链的结束处(例如，分类器级段502-n)，则激活第三功能。可以通过输出当前类别估计来终止音频分类，或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度，各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。

在后一种情况下，如果确定类别估计能够决定音频类型，则通过输出所决定的音频类型和相应置信度来终止音频分类。否则，通过输出当前类别估计来终止音频分类。

以这种方式，通过具有不同长度的决策路径，分类装置的资源要求变得可配置和可伸缩。此外，在估计出具有足够置信度的音频类型的情况下，能够防止遍历整个决策路径，从而提高效率。

子链中可以只包含一个分类器级段。在这样的情况下，决策单元可以通过输出当前类别估计来终止音频分类。

图6是图示根据本发明一个实施例的分类步骤的示例过程600的流程图。

如图6所示，过程600包含具有不同优先级的子步骤S₁，S₂，...，S_n的链。虽然图6中图示了超过两个的子步骤，然而可以有两个子步骤。在链中，按照优先级的降序排列子步骤。在图6中，子步骤S1被排列在链的开始处，具有最高优先级，子步骤S₂被排列在链中的次最高位置，具有次最高优先级，等等。子步骤S_n被排列在链的结束处，具有最低优先级。

过程600从子步骤601开始。在子步骤603，确定从具有最高优先级的子步骤(例如，子步骤S₁)开始的子链。子链的长度取决于组合中针对分类步骤的模式。分类步骤的模式的资源要求与子链的长度成比例。因此，分类步骤可以配有对应于不同子链，最长达到整个链的不同模式。

子步骤S₁，S₂，...，S_n中的进行分类和决策的所有操作具有相同功能，因此这里只详细描述子步骤S₁中的进行分类和决策的操作。

在操作605-1中，利用分类器，根据从分段提取的相应音频特征产生当前类别估计。当前类别估计包含估计的音频类型和相应置信度。

操作607-1可以具有与其子步骤在子链中的位置相对应的不同功能。

如果子步骤位于子链的开始处(例如，子步骤S₁)，则激活第一功能。在第一功能中，确定当前置信度是否高于与该子步骤相关联的置信度阈值。如果确定当前置信度高于置信度阈值，则在操作609-1中确定终止音频分类，并且于是在子步骤613输出当前类别估计。否则，在操作609-1中确定不终止音频分类，于是在操作611-1中把当前类别估计提供给子链中的所有后面的子步骤(例如，子步骤S₂，...，S_n)，并且子链中的下一子步骤开始执行。

如果子步骤位于子链的中间(例如，子步骤S₂)，则激活第二功能。在第二功能中，确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计(例如，子步骤S₁)是否能够根据第一判决准则决定一个音频类型。

如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则在操作609-2中确定终止音频分类，于是在子步骤613输出当前类别估计，或输出所决定的音频类型和相应置信度。否则，在操作609-2中确定不终止音频分类，于是在操作611-2中把当前类别估计提供给子链中的所有后面的子步骤，并且子链中的下一子步骤开始执行。

如果子步骤位于子链的结束处(例如，子步骤S_n)，则激活第三功能。可以终止音频分类并且前进到子步骤613以输出当前类别估计，或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。

在后一种情况下，如果确定类别估计能够决定一个音频类型，由终止音频分类并且过程600前进到子步骤613以输出所决定的音频类型和相应置信度。否则，终止音频分类并且过程600前进到子步骤613以输出当前类别估计。

在子步骤613，输出分类结果。接着过程600在子步骤615结束。

子链中可以只包含一个子步骤。在这样的情况下，子步骤可以通过输出当前类别估计来终止音频分类。

在一个例子中，第一判决准则可以包含以下准则中的至少之一：

1)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的平均置信度高于一个阈值，则能够决定当前音频类型；

2)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的加权平均置信度高于一个阈值，则能够决定当前音频类型；以及

3)如果决定与当前音频类型相同的音频类型的先前分类器级段的数目高于一个阈值，则能够决定当前音频类型，并且

输出的置信度是当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中先前的置信度的权重高于后面的置信度的权重。

在另一个例子中，第二判决准则可以包含以下准则中的至少之一：

1)在所有类别估计中，如果包含相同音频类型的类别估计的数目最高，则此相同音频类型能够被这些相应类别估计决定；

2)在所有类别估计中，如果包含相同音频类型的类别估计的加权数目最高，则此相同音频类型能够被这些相应类别估计决定；以及

3)在所有类别估计中，如果对应于相同音频类型的置信度的平均置信度最高，则此相同音频类型能够被相应类别估计决定，并且

在分类装置500和分类步骤600的进一步的实施例中，如果链中的分类器级段和子步骤之一所采用的分类算法在分类出各音频类型的至少之一方面具有较高的准确性，那么该分类器级段和子步骤被指定较高优先级。

在分类装置500和分类步骤600的进一步的实施例中，用于每个在后分类器级段和子步骤的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由该分类器识别的各音频类型，以及有关对应于每个音频类型的置信度的统计数据，这些置信度是由所有先前的分类器级段根据该音频样本生成的。

在分类装置500和分类步骤600的进一步的实施例中，用于每个在后分类器级段和子步骤的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。

后处理

在音频分类系统100和音频分类方法200的进一步的实施例中，通过音频分类针对音频信号中的每个分段生成类别估计，其中每个类别估计包含所估计的音频类型和相应置信度。

多模式装置和多模式步骤分别包含后处理器和后处理步骤。

后处理器和后处理步骤的模式包含一个模式MO₁和另一个模式MO₂。在模式MO₁下，确定窗口中对应于相同音频类型的置信度的最高和数或平均值，并且当前音频类型被此相同音频类型所代替。在模式MO₂下，采用具有相对短的长度的窗口，并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目，当前音频类型被此相同音频类型所代替。

在音频分类系统100和音频分类方法200的进一步的实施例中，多模式装置和多模式步骤分别包含后处理器和后处理步骤。

后处理器被配置成在音频信号中搜索两个重复部分，并且通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。后处理步骤包括在音频信号中搜索两个重复部分，以及通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。

后处理器和后处理步骤的模式包含一个模式MO₃和另一个模式MO4。在模式MO₃下，采用相对长的搜索范围。在模式MO₄下，采用相对短的搜索范围。

在后处理包含基于置信度的平滑和根据重复模式的平滑的情况下，模式可以包含作为独立模式的模式MO₁到MO₄。另外，可以有模式MO₁和MO₃、模式MO₁和MO₄、模式MO₂和MO₃、以及模式MO₂和MO₄的组合模式。在这样的情况下，模式可以包含模式MO₁到MO₄和组合模式中的至少两个。

图7是图示根据本发明一个实施例的示例音频分类系统700的框图。

如图7所示，在音频分类系统700中，多模式装置包括特征提取器711，分类装置712和后处理器713。特征提取器711具有与在章节“频率分解残余”中描述的特征提取器相同的结构和功能，这里不再详细说明。分类装置712具有与结合图5描述的分类装置相同的结构和功能，这里不再详细说明。后处理器713被配置成在音频信号中搜索两个重复部分，并且通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。后处理器的模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另一个模式。

音频分类系统700也包含复杂度控制器702。复杂度控制器702具有与复杂度控制器102相同的功能，这里不再详细说明。应当注意，因为特征提取器711、分类装置712和后处理器713是多模式装置，由复杂度控制器702确定的组合可以限定特征提取器711、分类装置712和后处理器713的相应活跃模式。

图8是图示根据本发明一个实施例的示例音频分类方法800的流程图。

如图8所示，音频分类方法800从步骤801开始。步骤803和步骤805分别与步骤203和步骤205具有相同功能，这里不再详细说明。多模式步骤包括特征提取步骤807、分类步骤809和后处理步骤811。特征提取步骤807具有与在章节“频率分解残余”中描述的特征提取步骤相同的功能，这里不再详细说明。分类步骤809具有与结合图6描述的分类过程相同的功能，这里不再详细说明。后处理步骤811包括在音频信号中搜索两个重复部分，以及通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。后处理步骤的模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另一个模式。应当注意，因为特征提取步骤807、分类步骤809和后处理步骤811是多模式步骤，在步骤803确定的组合可以限定特征提取步骤807、分类步骤809和后处理步骤811的相应活跃模式。

其它实施例

图9是图示根据本发明一个实施例的示例音频分类系统900的框图。

如图9所示，音频分类系统900包含从音频信号的分段中提取音频特征的特征提取器911，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置912。特征提取器911包含系数计算器921和统计数据计算器922。

系数计算器921根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数，以作为音频特征。统计数据计算器922计算有关长期自相关系数的、用于音频分类的至少一项统计数据，以作为音频特征。

图10是图示根据本发明一个实施例的示例音频分类方法1000的流程图。

如图10所示，音频分类方法1000从步骤1001开始。执行步骤1003到1007以从音频信号的分段中提取音频特征。

在步骤1003，根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数，以作为音频特征。

在步骤1005，计算有关长期自相关系数的、用于音频分类的至少一项统计数据，以作为音频特征。

在步骤1007，确定是否存在尚未处理的另一个分段。如果存在，则方法1000返回到步骤1003。如果没有，则方法1000前进到步骤1009。

在步骤1009，基于所提取的音频特征，用训练的模型对分段进行分类。

方法1000在步骤1011结束。

某些敲击声音，尤其是具有相对恒定的速度的敲击声音，具有独特的特性，即它们是高度周期性的，尤其是当在敲击开始或节拍之间观察时。通过具有相对长的长度，例如2秒的长度的分段的长期自相关系数，能够利用这种特性。根据定义，长期自相关系数可在敲击开始或节拍后的延迟点上表现出显著的峰。在话音信号中不能找到这种特性，因为话音信号自身几乎不重复。计算统计数据以捕获能够将敲击信号与话音信号区分开的长期自相关系数的特性。因此，根据系统900和方法1000，可以降低把敲击信号分类为话音信号的可能性。

在一个例子中，统计数据可以包含以下项中的至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

a)大于一个阈值；以及

b)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不低于所有其它长期自相关系数；

c)小于一个阈值；以及

d)在预定比例的长期自相关系数内，该预定比例的长期自相关系数不高于所有其它长期自相关系数；

6)Low_Value_Percentage(低值百分比)：Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；以及

7)对比度：High_Average和Low_Average之间的比值。

图11是图示根据本发明一个实施例的示例音频分类系统1100的框图。

如图11所示，音频分类系统1100包含从音频信号的分段中提取音频特征的特征提取器1111，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置1112。特征提取器1111包含低通滤波器1121和计算器1122。

低通滤波器1121通过允许低频敲击分量通过来对分段进行滤波。计算器1122通过对分段应用过零率(ZCR)来提取低音指示特征，以作为音频特征。

图12是图示根据本发明一个实施例的示例音频分类方法1200的流程图。

如图12所示，音频分类方法1200从步骤1201开始。执行步骤1203到1207以从音频信号的分段中提取音频特征。

在步骤1203，通过低通滤波器对分段进行滤波，在该低通滤波器中，允许低频敲击分量通过。

在步骤1205，通过对分段应用过零率(ZCR)来提取低音指示特征，以作为音频特征。

在步骤1207，确定是否存在尚未处理的另一个分段。如果存在，则方法1200返回到步骤1203。如果没有，则方法1200前进到步骤1209。

在步骤1209，基于所提取的音频特征，用训练的模型对分段进行分类。

方法1200在步骤1211结束。

ZCR能够在话音的浊音和清音部分之间有明显变化。能够利用此特性来有效区别话音和其它信号。然而，为对类话音信号(具有类似话音的信号特征的非话音信号，包含具有恒定速度的敲击声音，以及说唱音乐)进行分类，尤其是对敲击声音进行分类，传统ZCR是低效的，因为敲击声音表现出的变化特性与话音信号中发现的变化特性相似。这是由于在许多敲击片段中发现的低音响弦击鼓节拍结构可产生的ZCR变化与话音信号的浊音-清音结构所产生的ZCR变化相似。

图13是图示根据本发明一个实施例的示例音频分类系统1300的框图。

如图13所示，音频分类系统1300包含从音频信号的分段中提取音频特征的特征提取器1311，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置1312。特征提取器1311包含残余计算器1321和统计数据计算器1322。

对于每个分段，残余计算器1321通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段，统计数据计算器1322关于该分段的帧的相同级别的残余计算至少一项统计数据。

图14是图示根据本发明一个实施例的示例音频分类方法1400的流程图。

如图14所示，音频分类方法1400从步骤1401开始。执行步骤1403到1407以从音频信号的分段中提取音频特征。

在步骤1403，对于一个分段，通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。

在步骤1405，针对该分段的帧，计算关于相同级别的残余的至少一项统计数据。

在步骤1407，确定是否存在尚未处理的另一个分段。如果存在，则方法1400返回到步骤1403。如果没有，则方法1400前进到步骤1409。

在步骤1409，基于所提取的音频特征，用训练的模型对分段进行分类。

方法1400在步骤1411结束。

此外，第一能量是谱的H₁个最高频率区间的总能量，第二能量是谱的H₂个最高频率区间的总能量，而第三能量是谱的H₃个最高频率区间的总能量，其中H₁＜H₂＜H₃。

可选地，第一能量是谱的一个或更多个峰区域的总能量，第二能量是谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含第一能量所涉及的峰区域，而第三能量是谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含第二能量所涉及的峰区域。峰区域可以是全局的，也可以是局部的。

令S(k)是具有功率谱能量E的一个分段的谱系数序列，即

其中K是频率区间的总数。

在一个例子中，通过从S(k)中移除H₁个最高频率区间之后的剩余能量来估计一级残余R₁。这能够表示成：

其中是H₁个最高频率区间的索引。

敲击声音：E＞＞R₁≈R₂≈R₃

话音：E＞R₁＞R₂≈R₃

音乐：E＞R₁＞R₂＞R₃。

在另一个例子中，通过移除谱的最高峰，可以把一级残余R₁估计为：

此外，统计数据可以包含以下项中的至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

a)大于一个阈值；以及

b)在预定比例的残余内，该预定比例的残余不低于所有其它残余；

a)小于一个阈值；以及

b)在预定比例的残余内，该预定比例的残余不高于所有其它残余；以及

图15是图示根据本发明一个实施例的示例音频分类系统1500的框图。

如图15所示，音频分类系统1500包含从音频信号的分段中提取音频特征的特征提取器1501，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置1502。

如图15所示，分类装置1502包含具有不同优先级的分类器级段1502-1，1502-2，...，1502-n的链。虽然图15中图示了超过两个的分类器级段，然而可以有两个分类器级段。在链中，按照优先级的降序排列分类器级段。在图15中，分类器级段1502-1被排列在链的开始处，具有最高优先级，分类器级段1502-2被排列在链中的次最高位置，具有次最高优先级，等等。分类器级段1502-n被排列在链的结束处，具有最低优先级。

所有分类器级段1502-1，1502-2，...，1502-n具有相同结构和功能，因此这里仅详细描述分类器级段1502-1。

分类器级段1502-1包含分类器1503-1和决策单元1504-1。

分类器1503-1根据提取自一个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。

决策单元1504-1可以具有与其分类器级段在链中的位置相对应的不同功能。

如果分类器级段位于链的开始处(例如，分类器级段1502-1)，则激活第一功能。在第一功能中，确定当前置信度是否高于与该分类器级段相关联的置信度阈值。如果确定当前置信度高于置信度阈值，则通过输出当前类别估计来终止音频分类。否则，当前类别估计被提供给链中的所有后面的分类器级段(例如，分类器级段1502-2，...，1502-n)，并且链中的下一分类器级段开始工作。

如果分类器级段位于链的中间(例如，分类器级段1502-2)，则激活第二功能。在第二功能中，确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计(例如，分类器级段1502-1)是否能够根据第一判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度，各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。

如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则通过输出当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类。否则，当前类别估计被提供给链中的所有后面的分类器级段，并且链中的下一分类器级段开始工作。

如果分类器级段位于链的结束处(例如，分类器级段1502-n)，则激活第三功能。可以通过输出当前类别估计来终止音频分类，或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度，各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。

在后一种情况下，如果确定类别估计能够决定音频类型，由通过输出所决定的音频类型和相应置信度来终止音频分类。否则，通过输出当前类别估计来终止音频分类。

链中可以只包含一个分类器级段。在这样的情况下，决策单元可以通过输出当前类别估计来终止音频分类。

图16是图示根据本发明一个实施例的示例音频分类方法1600的流程图。

如图16所示，音频分类方法1600从步骤1601开始。

在步骤1603，从音频信号的分段中提取音频特征。

如图16所示，分类的过程包含具有不同优先级的子步骤S₁，S₂，...，S_n的链。虽然图16中图示了超过两个的子步骤，然而可以有两个子步骤。在链中，按照优先级的降序排列子步骤。在图16中，子步骤S₁被排列在链的开始处，具有最高优先级，子步骤S₂被排列在链中的次最高位置，具有次最高优先级，等等。子步骤S_n被排列在链的结束处，具有最低优先级。

在操作1605-1中，利用分类器，根据从一个分段提取的相应音频特征产生当前类别估计。当前类别估计包含估计的音频类型和相应置信度。

操作1607-1可以具有与其子步骤在链中的位置相对应的不同功能。

如果子步骤位于链的开始处(例如，子步骤S₁)，则激活第一功能。在第一功能中，确定当前置信度是否高于与该子步骤相关联的置信度阈值。如果确定当前置信度高于置信度阈值，则在操作1609-1中确定终止音频分类，并且于是在子步骤1613输出当前类别估计。否则，在操作1609-1中确定不终止音频分类，于是在操作1611-1中把当前类别估计提供给链中的所有后面的子步骤(例如，子步骤S₂，...，S_n)，并且链中的下一子步骤开始执行。

如果子步骤位于链的中间(例如，子步骤S₂)，则激活第二功能。在第二功能中，确定当前置信度是否高于置信度阈值，或确定当前类别估计和所有先前的类别估计(例如，子步骤S₁)是否能够根据第一判决准则决定一个音频类型。

如果确定当前置信度高于置信度阈值，或类别估计能够决定音频类型，则在操作1609-2中确定终止音频分类，于是在子步骤1613输出当前类别估计，或输出所决定的音频类型和相应置信度。否则，在操作1609-2中确定不终止音频分类，于是在操作1611-2中把当前类别估计提供给链中的所有后面的子步骤，并且链中的下一子步骤开始执行。

如果子步骤位于链的结束处(例如，子步骤S_n)，则激活第三功能。可以终止音频分类并且前进到子步骤1613以输出当前类别估计，或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。

在后一种情况下，如果确定类别估计能够决定一个音频类型，由终止音频分类并且方法1600前进到子步骤1613以输出所决定的音频类型和相应置信度。否则，终止音频分类并且方法1600前进到子步骤1613以输出当前类别估计。

在子步骤1613，输出分类结果。接着方法1600在子步骤1615结束。

链中可以只包含一个子步骤。在这样的情况下，子步骤可以通过输出当前类别估计来终止音频分类。

在系统1500和方法1600的进一步的实施例中，如果链中的分类器级段和子步骤之一所采用的分类算法在分类出各音频类型的至少之一方面具有较高的准确性，那么该分类器级段和子步骤被指定较高优先级。

在系统1500和方法1600的进一步的实施例中，用于每个在后分类器级段和子步骤的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由该分类器识别的各音频类型，以及有关对应于每个音频类型的置信度的统计数据，这些置信度是由所有先前的分类器级段根据该音频样本生成的。

在系统1500和方法1600的进一步的实施例中，用于每个在后分类器级段和子步骤的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。

图17是图示根据本发明一个实施例的示例音频分类系统1700的框图。

如图17所示，音频分类系统1700包含从音频信号的分段中提取音频特征的特征提取器1711，和基于所提取的音频特征，用训练的模型对分段进行分类的分类装置1712。特征提取器1711包含比值计算器1721。比值计算器1721计算每个分段的谱区间高能量比以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。

图18是图示根据本发明一个实施例的示例音频分类方法1800的流程图。

如图18所示，音频分类方法1800从步骤1801开始。执行步骤1803到1807以从音频信号的分段中提取音频特征。

在步骤1803，针对每个分段计算谱区间高能量比，以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。

在步骤1807，确定是否存在尚未处理的另一个分段。如果存在，则方法1800返回到步骤1803。如果没有，则方法1800前进到步骤1809。

在步骤1809，基于所提取的音频特征，用训练的模型对分段进行分类。

方法1800在步骤1811结束。

在复杂度严格受限的某些情况下，能够用称作谱区间高能量比的特征来替代上述残余分析。谱区间高能量比特征被用来近似频率分解残余的性能。可以确定阈值，使得其性能近似频率分解残余的性能。

在一个例子中，该阈值可以被计算为下列之一：

3)平均能量或加权平均能量的换算值；以及

4)平均能量或加权平均能量加上或减去标准差。

图19是图示根据本发明一个实施例的示例音频分类系统1900的框图。

如图19所示，音频分类系统1900包含特征提取器1911、分类装置1912和后处理器1913，特征提取器1911从音频信号的分段中提取音频特征，分类装置1912根据提取的音频特征用训练的模型对分段进行分类，后处理器1913对分段的音频类型进行平滑。后处理器1913包含检测器1921和平滑器1922。

检测器1921在音频信号中搜索两个重复部分。平滑器1922通过把两个重复部分之间的分段当作非话音类型来对分类结果进行平滑。

图20是图示根据本发明一个实施例的示例音频分类方法2000的流程图。

如图20所示，音频分类方法2000从步骤2001开始。在步骤2003，从音频信号的分段中提取音频特征。

在步骤2005，基于所提取的音频特征，用训练的模型对分段进行分类。

在步骤2007，对分段的音频类型进行平滑。具体地，步骤2007包含在音频信号中搜索两个重复部分的子步骤，和通过把两个重复部分之间的分段当作非话音类型来对分类结果进行平滑的子步骤。

方法2000在步骤2011结束。

由于在话音信号部分之间几乎不能发现重复模式，因而能够假定如果识别出一对重复部分，则这对重复部分之间的信号分段是非话音的。因此，这个信号分段中的任何话音分类结果可被看作是误分类，并且能够被修正。例如，考虑具有大量误分类(分类为话音)的一段说唱音乐，如果重复模式搜索发现分别位于音乐的开始和结束附近的一对重复部分，则这两个部分之间的所有分类结果能够被修正为音乐，使得显著降低分类差错率。

此外，作为分类结果，可以通过分类来生成音频信号中每个分段的类别估计。每个类别估计可以包含估计的音频类型和相应置信度。在这样的情况下，可以根据下列准则之一进行平滑：

1)仅对具有低置信度的音频类型应用平滑，使得能够避免平滑信号中的实际突然变化；

2)在重复部分之间的相似度高于一个阈值，使得能够相信输入信号是音乐的情况下，在重复部分之间应用平滑，或者在重复部分之间存在足够″音乐″判决的情况下，例如超过50％的现有分段被分类为音乐，或多于100个的分段被分类为音乐，或分类为音乐的分段的数目多于分类为话音的分段的数目，在重复部分之间应用平滑；

3)仅当分类为音乐音频类型的分段在重复部分之间的所有分段中占大多数的情况下，在重复部分之间应用平滑；

4)仅当重复部分之间分类为音乐音频类型的分段的共同置信度或平均置信度高于重复部分之间分类为除音乐之外的音频类型的分段的共同置信度或平均置信度，或高于另一个阈值的情况下，在重复部分之间应用平滑。

图21是图示用于实现本发明的各个方面的示例性系统的框图。

在图21中，中央处理单元(CPU)2101根据只读存储器(ROM)2102中存储的程序或从存储部分2108加载到随机访问存储器(RAM)2103的程序执行各种处理。在RAM 2103中，也根据需要存储当CPU 2101执行各种处理等等时所需的数据。

CPU 2101、ROM 2102和RAM 2103经由总线2104彼此连接。输入/输出接口2105也连接到总线2104。

下列部件连接到输入/输出接口2105：包括键盘、鼠标等等的输入部分2106；包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分2107；包括硬盘等等的存储部分2108；和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分2109。通信部分2109经由例如因特网的网络执行通信处理。

根据需要，驱动器2110也连接到输入/输出接口2105。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质2111根据需要被安装在驱动器2110上，使得从中读出的计算机程序根据需要被安装到存储部分2108。

在通过软件实现上述步骤和处理的情况下，从例如因特网的网络或例如可移除介质2111的存储介质安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施例的目的，而不意图限定本发明。本文中所用的单数形式的″一″和″该″旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，″包括″一词当在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。前面对本发明进行的描述只是为了图解和描述，不被用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

这里描述了下面的示例性实施例(均用″EE″表示)。

EE 1.一种音频分类系统，包括：

能够在需要不同资源的至少两个模式下工作的至少一个装置；和

复杂度控制器，其确定组合并且指示所述至少一个装置根据所述组合来工作，其中对于所述至少一个装置中的每个，所述组合指定所述装置的模式之一，所述组合的资源要求不超过最大可用资源，

其中所述至少一个装置包括下列至少之一：

预处理器，用于使音频信号适配于所述音频分类系统；

特征提取器，用于从所述音频信号的分段中提取音频特征；

分类装置，用于通过训练的模型，基于所提取的音频特征来对所述分段进行分类；和

后处理器，用于平滑所述分段的音频类型。

EE 2.如EE 1所述的音频分类系统，其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式，和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。

EE 3.如EE 1或2所述的音频分类系统，其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型，并且

其中所述预处理器的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式，和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式，并且

其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号，第二类型的音频特征提取自经预加重的所述转换音频信号。

EE 4.如EE 3所述的音频分类系统，其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一，并且

所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。

EE 5.如EE 1所述的音频分类系统，其中所述特征提取器被配置成：

根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数，和

计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据，

其中所述特征提取器的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式，和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。

EE 6.如EE 5所述的音频分类系统，其中所述统计数据包含以下各项中至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

3)High_Average：满足以下条件至少之一的长期自相关系数的平均值：

a)大于第二阈值；以及

b)在预定比例的长期自相关系数内，所述预定比例的长期自相关系数不低于所有其它长期自相关系数；

4)High_Value_Percentage：High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；

5)Low_Average：满足以下条件至少之一的长期自相关系数的平均值：

c)小于第三阈值；以及

d)在预定比例的长期自相关系数内，所述预定比例的长期自相关系数不高于所有其它长期自相关系数；

7)对比度：High_Average和Low_Average之间的比值。

EE 7.如EE 1或2所述的音频分类系统，其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征，在所述低通滤波器中允许低频敲击分量通过。

EE 8.如EE 1所述的音频分类系统，其中所述特征提取器被配置成：

对于每个所述分段，通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余；以及

对于每个所述分段，关于所述分段的帧的相同级别的残余计算至少一项统计数据，

其中所计算的残余和统计数据被包含在所述音频特征中，并且

其中所述特征提取器的所述至少两个模式包含

所述第一能量是所述谱的H₁个最高频率区间的总能量，所述第二能量是所述谱的H₂个最高频率区间的总能量，而所述第三能量是所述谱的H₃个最高频率区间的总能量的模式，其中H₁＜H₂＜H₃，以及

所述第一能量是所述谱的一个或更多个峰区域的总能量，所述第二能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。

EE 9.如EE 8所述的音频分类系统，其中所述统计数据包含以下各项中至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

3)Residual_High_Average：相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值：

a)大于第四阈值；以及

b)在预定比例的残余内，所述预定比例的残余不低于所有其它残余；

4)Residual_Low_Average：相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值：

c)小于第五阈值；以及

d)在预定比例的残余内，所述预定比例的残余不高于所有其它残余；以及

5)Residual_Contrast：Residual_High_Average和Residual_Low_Average之间的比值。

EE 10.如EE 1或2所述的音频分类系统，其中用于音频分类的音频特征包含谱区间高能量比，所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。

EE 11.如EE10所述的音频分类系统，其中所述第六阈值被计算为下列之一：

1)所述分段的谱的平均能量，或所述分段周围的分段范围的谱的平均能量；

2)所述分段的谱的加权平均能量，或所述分段周围的分段范围的谱的加权平均能量，其中所述分段具有相对较高的权重，所述范围中的每个其它分段具有相对较低的权重，或者其中相对较高能量的每个频率区间具有相对较高的权重，相对较低能量的每个频率区间具有相对较低的权重；

3)所述平均能量或加权平均能量的换算值；以及

4)平均能量或加权平均能量加上或减去标准差。

EE12.如EE 1所述的音频分类系统，其中所述分类装置包括：

具有不同优先级的至少两个分类器级段的链，这些分类器级段按照优先级的降序排列；以及

级段控制器，其确定从具有最高优先级的分类器级段开始的子链，其中所述子链的长度取决于所述组合中针对所述分类装置的模式，

其中每个所述分类器级段包括：

分类器，其根据提取自每个所述分段的相应音频特征生成当前类别估计，其中所述当前类别估计包含所估计的音频类型和相应置信度；以及

决策单元，其

1)在所述分类器级段位于所述子链的开始处的情况下，

确定所述当前置信度是否高于与所述分类器级段相关联的置信度阈值；以及

如果确定所述当前置信度高于所述置信度阈值，则通过输出所述当前类别估计来终止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段，

2)在所述分类器级段位于所述子链的中间的情况下，

确定所述当前置信度是否高于所述置信度阈值，或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型；以及

如果确定所述当前置信度高于所述置信度阈值，或所述类别估计能够决定音频类型，则通过输出所述当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段，以及

3)在所述分类器级段位于所述子链的结束处的情况下，

通过输出所述当前类别估计来终止音频分类，

或者

确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型；以及

如果确定所述类别估计能够决定音频类型，则通过输出所决定的音频类型和相应置信度来终止音频分类，否则通过输出所述当前类别估计来终止音频分类。

EE 13.如EE 12所述的音频分类系统，其中所述第一判决准则包括下列准则之一：

1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值，则能够决定所述当前音频类型；

2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值，则能够决定所述当前音频类型；以及

3)如果决定与所述当前音频类型相同的音频类型的先前分类器级段的数目高于第九阈值，则能够决定所述当前音频类型，并且

其中所输出的置信度是所述当前置信度，或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均，其中所述先前的置信度的权重高于后面的置信度的权重。

EE 14.如EE 12所述的音频分类系统，其中所述第二判决准则包括下列准则之一：

EE 15.如EE 12所述的音频分类系统，其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述分类器级段被指定较高优先级。

EE 16.如EE 12或15所述的音频分类系统，其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的分类器级段根据所述音频样本生成的。

EE 17.如EE 12或15所述的音频分类系统，其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。

EE 18.如EE 1所述的音频分类系统，其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计，其中每个所述类别估计包含所估计的音频类型和相应置信度，并且

其中所述后处理器的所述至少两个模式包含

确定窗口中对应于相同音频类型的置信度的最高和数或平均值，并且所述当前音频类型被所述相同音频类型所代替的模式，以及

采用具有相对短的长度的窗口，并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目，所述当前音频类型被所述相同音频类型所代替的另一个模式。

EE 19.如EE 1所述的音频分类系统，其中所述后处理器被配置成在所述音频信号中搜索两个重复部分，并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且

其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另一个模式。

EE 20.一种音频分类方法，包括：

能够在需要不同资源的至少两个模式下执行的至少一个步骤；

确定组合；以及

指示所述至少一个步骤根据所述组合来运行，其中对于所述至少一个步骤中的每个，所述组合指定所述步骤的模式之一，而所述组合的资源要求不超过最大可用资源，

其中所述至少一个步骤包括下列至少之一：

预处理步骤，使音频信号适配于所述音频分类；

特征提取步骤，从所述音频信号的分段中提取音频特征；

分类步骤，通过训练的模型，基于所提取的音频特征来对所述分段进行分类；以及

后处理步骤，对所述分段的音频类型进行平滑。

EE 21.如EE 20所述的音频分类方法，其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式，和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。

EE 22.如EE 20或21所述的音频分类方法，其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型，并且

其中所述预处理步骤的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式，和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式，并且

EE 23.如EE 22所述的音频分类方法，其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一，并且

EE 24.如EE 20所述的音频分类方法，其中所述特征提取步骤包括：

其中所述特征提取步骤的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式，和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。

EE 25.如EE 24所述的音频分类方法，其中所述统计数据包含以下各项中至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

a)大于第二阈值；以及

c)小于第三阈值；以及

6)Low_Value_Percentage：Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值；以及

7)对比度：High_Average和Low_Average之间的比值。

EE 26.如EE 20或21所述的音频分类方法，其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征，在所述低通滤波器中允许低频敲击分量通过。

EE 27.如EE 20所述的音频分类方法，其中所述特征提取步骤包括：

其中所述特征提取步骤的所述至少两个模式包含

EE 28.如EE 27所述的音频分类方法，其中所述统计数据包含以下各项中至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

a)大于第四阈值；以及

c)小于第五阈值；以及

EE 29.如EE 21或22所述的音频分类方法，其中用于音频分类的音频特征包含谱区间高能量比，所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。

EE 30.如EE 29所述的音频分类方法，其中所述第六阈值被计算为下列之一：

3)所述平均能量或加权平均能量的换算值；以及

4)所述平均能量或加权平均能量加上或减去标准差。

EE 31.如EE 20所述的音频分类方法，其中所述分类步骤包括：

具有不同优先级的至少两个子步骤的链，这些子步骤按照优先级的降序排列；以及

控制步骤，确定从具有最高优先级的所述子步骤开始的子链，其中所述子链的长度取决于所述组合中针对所述分类步骤的模式，

其中每个所述子步骤包括：

根据提取自每个所述分段的相应音频特征生成当前类别估计，其中所述当前类别估计包含所估计的音频类型和相应置信度；

在所述子步骤位于所述子链的开始处的情况下，

确定所述当前置信度是否高于与所述子步骤相关联的置信度阈值；以及

如果确定所述当前置信度高于所述置信度阈值，则通过输出所述当前类别估计来终止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的子步骤，

在所述子步骤位于所述子链的中间的情况下，

如果确定所述当前置信度高于所述置信度阈值，或所述类别估计能够决定音频类型，则通过输出所述当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类，否则将所述当前类别估计提供给所述子链中的所有后面的子步骤，以及

在所述子步骤位于所述子链的结束处的情况下，

通过输出所述当前类别估计来终止音频分类，

或者

EE 32.如EE 31所述的音频分类方法，其中所述第一判决准则包括下列准则之一：

3)如果决定与所述当前音频类型相同的音频类型的先前子步骤的数目高于第九阈值，则能够决定所述当前音频类型，并且

EE 33.如EE 31所述的音频分类方法，其中所述第二判决准则包括下列准则之一：

EE 34.如EE 31所述的音频分类方法，其中如果所述子步骤之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述子步骤被指定较高优先级。

EE 35.如EE 31或34所述的音频分类方法，其中用于每个在后子步骤中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的子步骤根据所述音频样本生成的。

EE 36.如EE 31或34所述的音频分类方法，其中用于每个在后子步骤中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前子步骤误分类或以低置信度分类的音频样本。

EE 37.如EE 20所述的音频分类方法，其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计，其中每个所述类别估计包含所估计的音频类型和相应置信度，并且

其中所述后处理步骤的所述至少两个模式包含

EE 38.如EE 20所述的音频分类方法，其中所述后处理步骤包括在所述音频信号中搜索两个重复部分，以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且

其中所述后处理步骤的所述至少两个模式包含采用相对长的搜索范围的模式，和采用相对短的搜索范围的另一个模式。

EE 39.一种音频分类系统，包括：

特征提取器，用于从所述音频信号的分段中提取音频特征，其中所述特征提取器包括：

系数计算器，其根据维纳-辛钦定理计算所述音频信号中长于阈值的分段的长期自相关系数，以作为音频特征，以及

统计数据计算器，其计算有关所述长期自相关系数的、用于音频分类的至少一项统计数据，以作为音频特征，以及

分类装置，用于通过训练的模型，基于所提取的音频特征来对所述分段进行分类。

EE 40.如EE 39所述的音频分类系统，其中所述统计数据包含以下各项中至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

a)大于第二阈值；以及

c)小于第三阈值；以及

7)对比度：High_Average和Low_Average之间的比值。

EE 41.一种音频分类方法，包括：

从所述音频信号的分段中提取音频特征，包括：

根据维纳-辛钦定理计算所述音频信号中长于阈值的分段的长期自相关系数，以作为音频特征，以及

计算有关所述长期自相关系数的、用于音频分类的至少一项统计数据，以作为音频特征，以及

基于所提取的音频特征，用训练的模型对所述分段进行分类。

EE 42.如EE 41所述的音频分类方法，其中所述统计数据包含以下各项中至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

a)大于第二阈值；以及

c)小于第三阈值；以及

7)对比度：High_Average和Low_Average之间的比值。

EE 43.一种音频分类系统，包括：

特征提取器，用于从所述音频信号的分段中提取音频特征；以及

分类装置，用于通过训练的模型，基于所提取的音频特征来对所述分段进行分类，并且

其中所述特征提取器包括：

用于对所述分段进行滤波的低通滤波器，在所述低通滤波器中允许低频敲击分量通过，以及

计算器，用于通过对每个所述分段应用过零率来提取低音指示特征，以作为音频特征。

EE 44.一种音频分类方法，包括：

从所述音频信号的分段中提取音频特征；以及

基于所提取的音频特征，用训练的模型对所述分段进行分类，并且

其中所述提取包括：

通过低通滤波器对所述分段进行滤波，在所述低通滤波器中允许低频敲击分量通过，以及

通过对每个所述分段应用过零率来提取低音指示特征，以作为音频特征。

EE 45.一种音频分类系统，包括：

其中所述特征提取器包括：

残余计算器，其对于每个所述分段，通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余；以及

统计数据计算器，其对于每个所述分段，关于所述分段的帧的相同级别的残余计算至少一项统计数据，

其中所计算的残余和统计数据被包含在所述音频特征中。

EE 46.如EE 45所述的音频分类系统，其中所述第一能量是所述谱的H₁个最高频率区间的总能量，所述第二能量是所述谱的H₂个最高频率区间的总能量，而所述第三能量是所述谱的H₃个最高频率区间的总能量，其中H₁＜H₂＜H₃。

EE 47.如EE 45所述的音频分类系统，其中所述第一能量是所述谱的一个或更多个峰区域的总能量，所述第二能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第二能量所涉及的峰区域。

EE 48.如EE 45所述的音频分类系统，其中所述统计数据包含以下各项中至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

a)大于第四阈值；以及

c)小于第五阈值；以及

EE 49.一种音频分类方法，包括：

从所述音频信号的分段中提取音频特征；以及

其中所述提取包括：

其中所计算的残余和统计数据被包含在所述音频特征中。

50.如EE 49所述的音频分类方法，其中所述第一能量是所述谱的H₁个最高频率区间的总能量，所述第二能量是所述谱的H₂个最高频率区间的总能量，而所述第三能量是所述谱的H₃个最高频率区间的总能量，其中H₁＜H₂＜H₃。

EE 51.如EE 49所述的音频分类方法，其中所述第一能量是所述谱的一个或更多个峰区域的总能量，所述第二能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第二能量所涉及的峰区域。

EE 52.如EE 49所述的音频分类方法，其中所述统计数据包含以下各项中至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

a)大于第四阈值；以及

c)小于第五阈值；以及

d)在预定比例的残余内，所述预定比例的残余不高于所有其它残余；and

EE 53.一种音频分类系统，包括：

其中所述特征提取器包括：

比值计算器，其计算每个所述分段的谱区间高能量比以作为音频特征，其中所述谱区间高能量比是所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。

EE54.如EE 53所述的音频分类系统，其中所述特征提取器被配置成将所述阈值确定为下列之一：

3)所述平均能量或加权平均能量的换算值；以及

4)所述平均能量或加权平均能量加上或减去标准差。

EE 55.一种音频分类方法，包括：

从所述音频信号的分段中提取音频特征；以及

其中所述提取包括：

计算每个所述分段的谱区间高能量比以作为音频特征，其中所述谱区间高能量比是所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。

EE 56.如EE 55所述的音频分类方法，其中所述提取包括将所述阈值确定为下列之一：

3)所述平均能量或加权平均能量的换算值；以及

4)所述平均能量或加权平均能量加上或减去标准差。

EE 57.一种音频分类系统，包括：

其中所述分类装置包括：

具有不同优先级的至少两个分类器级段的链，这些分类器级段按照优先级的降序排列，

其中每个所述分类器级段包括：

决策单元，其

1)在所述分类器级段位于所述链的开始处的情况下，

如果确定所述当前置信度高于所述置信度阈值，则通过输出所述当前类别估计来终止音频分类，否则将所述当前类别估计提供给所述链中的所有后面的分类器级段，

2)在所述分类器级段位于所述链的中间的情况下，

如果确定所述当前置信度高于所述置信度阈值，或所述类别估计能够决定音频类型，则通过输出所述当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类，否则将所述当前类别估计提供给所述链中的所有后面的分类器级段，以及

3)在所述分类器级段位于所述链的结束处的情况下，

通过输出所述当前类别估计来终止音频分类，

或者

EE 58.如EE 57所述的音频分类系统，其中所述第一判决准则包括下列准则之一：

EE 59.如EE 57所述的音频分类系统，其中所述第二判决准则包括下列准则之一：

EE 60.如EE 57所述的音频分类系统，其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述分类器级段被指定较高优先级。

EE 61.如EE 57或60所述的音频分类系统，其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的分类器级段根据所述音频样本生成的。

EE 62.如EE 57或60所述的音频分类系统，其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。

EE 63.一种音频分类方法，包括：

从所述音频信号的分段中提取音频特征；以及

其中所述分类包括：

具有不同优先级的至少两个子步骤的链，这些子步骤按照优先级的降序排列，并且

其中每个所述子步骤包括：

在所述子步骤位于所述链的开始处的情况下，

如果确定所述当前置信度高于所述置信度阈值，则通过输出所述当前类别估计来终止音频分类，否则将所述当前类别估计提供给所述链中的所有后面的子步骤，

在所述子步骤位于所述链的中间的情况下，

如果确定所述当前置信度高于所述置信度阈值，或所述类别估计能够决定音频类型，则通过输出所述当前类别估计，或输出所决定的音频类型和相应置信度来终止音频分类，否则将所述当前类别估计提供给所述链中的所有后面的子步骤，以及

在所述子步骤位于所述链的结束处的情况下，

通过输出所述当前类别估计来终止音频分类，

或者

EE 64.如EE 63所述的音频分类方法，其中所述第一判决准则包括下列准则之一：

EE 65.如EE 63所述的音频分类方法，其中所述第二判决准则包括下列准则之一：

EE 66.如EE 63所述的音频分类方法，其中如果所述子步骤之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述子步骤被指定较高优先级。

EE 67.如EE 63或66所述的音频分类方法，其中用于每个在后子步骤中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的子步骤根据所述音频样本生成的。

EE 68.如EE 63或66所述的音频分类方法，其中用于每个在后子步骤中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前子步骤误分类或以低置信度分类的音频样本。

EE 69.一种音频分类系统，包括：

特征提取器，用于从所述音频信号的分段中提取音频特征；

分类装置，用于通过训练的模型，基于所提取的音频特征来对所述分段进行分类；以及

后处理器，用于平滑所述分段的音频类型，

其中所述后处理器包括：

检测器，其在所述音频信号中搜索两个重复部分，以及

平滑器，其通过把所述两个重复部分之间的分段当作非话音类型来对分类结果进行平滑。

EE 70.如EE 69所述的音频分类系统，其中所述分类装置被配置成通过音频分类来生成所述音频信号中每个所述分段的类别估计，其中每个所述类别估计包含所估计的音频类型和相应置信度，并且

其中所述平滑器被配置成根据下列准则之一对所述分类结果进行平滑：

1)仅对具有低置信度的音频类型应用平滑，

2)在所述重复部分之间的相似度高于一个阈值的情况下，或者在所述重复部分之间存在足够″音乐″判决的情况下，在所述重复部分之间应用平滑，

3)仅当分类为音乐音频类型的分段在所述重复部分之间的所有分段中占大多数的情况下，在所述重复部分之间应用平滑，

4)仅当所述重复部分之间分类为音乐音频类型的分段的共同置信度或平均置信度高于所述重复部分之间分类为除音乐之外的音频类型的分段的共同置信度或平均置信度，或高于另一个阈值的情况下，在所述重复部分之间应用平滑。

EE 71.一种音频分类方法，包括：

从所述音频信号的分段中提取音频特征；

基于所提取的音频特征，用训练的模型对所述分段进行分类；以及

平滑所述分段的音频类型，

其中所述平滑包括：

在所述音频信号中搜索两个重复部分，以及

通过把所述两个重复部分之间的分段当作非话音类型来对分类结果进行平滑。

EE 72.如EE 71所述的音频分类方法，其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计，其中每个所述类别估计包含所估计的音频类型和相应置信度，并且

其中根据下列准则之一进行所述平滑：

1)仅对具有低置信度的音频类型应用平滑，

EE 73.如EE 12所述的音频分类系统，其中所述至少一个装置包括所述特征提取器、所述分类装置和所述后处理器，并且

其中所述特征提取器被配置成：

其中所述特征提取器的所述至少两个模式包含

所述第一能量是所述谱的一个或更多个峰区域的总能量，所述第二能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第一能量所涉及的峰区域，而所述第三能量是所述谱的一个或更多个峰区域的总能量，这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式，并且

其中所述后处理器被配置成在所述音频信号中搜索两个重复部分，并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且

EE 74.如EE 31所述的音频分类方法，其中所述至少一个步骤包括所述特征提取步骤、所述分类步骤和所述后处理步骤，并且

其中所述特征提取步骤包括：

其中所述特征提取步骤的所述至少两个模式包含

其中所述后处理步骤包括在所述音频信号中搜索两个重复部分，以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且

EE 75.一种计算机可读介质，其上记录有计算机程序指令，所述指令在被处理器执行时使得该处理器能够执行音频分类方法，所述方法包括：

确定组合；以及

其中所述至少一个步骤包括下列至少之一：

预处理步骤，使音频信号适配于所述音频分类；

特征提取步骤，从所述音频信号的分段中提取音频特征；

后处理步骤，对所述分段的音频类型进行平滑。

Claims

1.一种音频分类系统，包括：

能够在需要不同资源的至少两个模式下工作的至少一个装置；以及

其中所述至少一个装置包括下列至少之一：

预处理器，用于使音频信号适配于所述音频分类系统；

特征提取器，用于从所述音频信号的分段中提取音频特征；

后处理器，用于平滑所述分段的音频类型。

2.如权利要求1所述的音频分类系统，其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式，和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。

3.如权利要求1或2所述的音频分类系统，其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型，并且

4.如权利要求3所述的音频分类系统，其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一，其中所述谱区间高能量比是每个所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值，并且

5.如权利要求1所述的音频分类系统，其中所述特征提取器被配置成：

6.如权利要求5所述的音频分类系统，其中所述统计数据包含以下各项中至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

a)大于第二阈值；以及

c)小于第三阈值；以及

7)对比度：High_Average和Low_Average之间的比值。

7.如权利要求1或2所述的音频分类系统，其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征，在所述低通滤波器中允许低频敲击分量通过。

8.如权利要求1所述的音频分类系统，其中所述特征提取器被配置成：

其中所述特征提取器的所述至少两个模式包含

9.如权利要求8所述的音频分类系统，其中所述统计数据包含以下各项中至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

a)大于第四阈值；以及

c)小于第五阈值；以及

10.如权利要求1或2所述的音频分类系统，其中用于音频分类的音频特征包含谱区间高能量比，所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。

11.如权利要求10所述的音频分类系统，其中所述第六阈值被计算为下列之一：

3)所述平均能量或加权平均能量的换算值；以及

4)所述平均能量或加权平均能量加上或减去标准差。

12.如权利要求1所述的音频分类系统，其中所述分类装置包括：

其中每个所述分类器级段包括：

决策单元，其

1)在所述分类器级段位于所述子链的开始处的情况下，

2)在所述分类器级段位于所述子链的中间的情况下，

3)在所述分类器级段位于所述子链的结束处的情况下，

通过输出所述当前类别估计来终止音频分类，

或者

13.如权利要求12所述的音频分类系统，其中所述第一判决准则包括下列准则之一：

14.如权利要求12所述的音频分类系统，其中所述第二判决准则包括下列准则之一：

1)在所有类别估计中，如果包含相同音频类型的类别估计的数目最高，则所述相同音频类型能够被这些相应类别估计决定；

2)在所有类别估计中，如果包含相同音频类型的类别估计的加权数目最高，则所述相同音频类型能够被这些相应类别估计决定；以及

3)在所有类别估计中，如果对应于相同音频类型的置信度的平均置信度最高，则所述相同音频类型能够被相应类别估计决定，并且

15.如权利要求12所述的音频分类系统，其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述分类器级段被指定较高优先级。

16.如权利要求12或15所述的音频分类系统，其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的分类器级段根据所述音频样本生成的。

17.如权利要求12或15所述的音频分类系统，其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。

18.如权利要求12所述的音频分类系统，其中所述至少一个装置包括所述特征提取器、所述分类装置和所述后处理器，并且

其中所述特征提取器被配置成：

其中所述特征提取器的所述至少两个模式包含

19.如权利要求1所述的音频分类系统，其中通过所述音频分类针对所述音频信号中的每个所述分段生成当前类别估计，其中每个所述当前类别估计包含所估计的音频类型和相应置信度，并且

其中所述后处理器的所述至少两个模式包含

确定窗口中对应于相同音频类型的置信度的最高和数或平均值，并且当前音频类型被所述相同音频类型所代替的模式，以及

采用具有相对短的长度的窗口，并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目，当前音频类型被所述相同音频类型所代替的另一个模式。

20.如权利要求1所述的音频分类系统，其中所述后处理器被配置成在所述音频信号中搜索两个重复部分，并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且

21.一种音频分类方法，包括：

确定组合；以及

其中所述至少一个步骤包括下列至少之一：

预处理步骤，使音频信号适配于所述音频分类；

特征提取步骤，从所述音频信号的分段中提取音频特征；

后处理步骤，对所述分段的音频类型进行平滑。

22.如权利要求21所述的音频分类方法，其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式，和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。

23.如权利要求21或22所述的音频分类方法，其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型，并且

其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号，所述第二类型的音频特征提取自经预加重的所述转换音频信号。

24.如权利要求23所述的音频分类方法，其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一，其中所述谱区间高能量比是每个所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值，并且

25.如权利要求21所述的音频分类方法，其中所述特征提取步骤包括：

26.如权利要求25所述的音频分类方法，其中所述统计数据包含以下各项中至少之一：

1)均值：所有长期自相关系数的平均值；

2)方差：所有长期自相关系数的标准差；

a)大于第二阈值；以及

c)小于第三阈值；以及

7)对比度：High_Average和Low_Average之间的比值。

27.如权利要求21或22所述的音频分类方法，其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征，在所述低通滤波器中允许低频敲击分量通过。

28.如权利要求21所述的音频分类方法，其中所述特征提取步骤包括：

其中所述特征提取步骤的所述至少两个模式包含

29.如权利要求28所述的音频分类方法，其中所述统计数据包含以下各项中至少之一：

1)相同分段的帧的相同级别的残余的均值；

2)方差：相同分段的帧的相同级别的残余的标准差；

a)大于第四阈值；以及

c)小于第五阈值；以及

30.如权利要求21或22所述的音频分类方法，其中用于音频分类的音频特征包含谱区间高能量比，所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。

31.如权利要求30所述的音频分类方法，其中所述第六阈值被计算为下列之一：

3)所述平均能量或加权平均能量的换算值；以及

4)所述平均能量或加权平均能量加上或减去标准差。

32.如权利要求21所述的音频分类方法，其中所述分类步骤包括：

其中每个所述子步骤包括：

在所述子步骤位于所述子链的开始处的情况下，

在所述子步骤位于所述子链的中间的情况下，

在所述子步骤位于所述子链的结束处的情况下，

通过输出所述当前类别估计来终止音频分类，

或者

33.如权利要求32所述的音频分类方法，其中所述第一判决准则包括下列准则之一：

34.如权利要求32所述的音频分类方法，其中所述第二判决准则包括下列准则之一：

35.如权利要求32所述的音频分类方法，其中如果所述子步骤之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性，那么所述子步骤被指定较高优先级。

36.如权利要求32或35所述的音频分类方法，其中用于每个在后子步骤中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本，要由所述分类器识别的音频类型，以及有关对应于每个所述音频类型的置信度的统计数据，这些置信度是由所有先前的子步骤根据所述音频样本生成的。

37.如权利要求32或35所述的音频分类方法，其中用于每个在后子步骤中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前子步骤误分类或以低置信度分类的音频样本。

38.如权利要求32所述的音频分类方法，其中所述至少一个步骤包括所述特征提取步骤、所述分类步骤和所述后处理步骤，并且

其中所述特征提取步骤包括：

其中所述特征提取步骤的所述至少两个模式包含

39.如权利要求21所述的音频分类方法，其中通过所述音频分类针对所述音频信号中的每个所述分段生成当前类别估计，其中每个所述当前类别估计包含所估计的音频类型和相应置信度，并且

其中所述后处理步骤的所述至少两个模式包含

40.如权利要求21所述的音频分类方法，其中所述后处理步骤包括在所述音频信号中搜索两个重复部分，以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果，并且