[go: up one dir, main page]

CN102982804B - 音频分类方法和系统 - Google Patents

音频分类方法和系统 Download PDF

Info

Publication number
CN102982804B
CN102982804B CN201110269279.XA CN201110269279A CN102982804B CN 102982804 B CN102982804 B CN 102982804B CN 201110269279 A CN201110269279 A CN 201110269279A CN 102982804 B CN102982804 B CN 102982804B
Authority
CN
China
Prior art keywords
audio
energy
classification
segmentation
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110269279.XA
Other languages
English (en)
Other versions
CN102982804A (zh
Inventor
程斌
芦烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201110269279.XA priority Critical patent/CN102982804B/zh
Priority to US13/591,466 priority patent/US8892231B2/en
Priority to EP12182831.3A priority patent/EP2579256B1/en
Publication of CN102982804A publication Critical patent/CN102982804A/zh
Application granted granted Critical
Publication of CN102982804B publication Critical patent/CN102982804B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

描述了用于音频分类的实施例。音频分类系统包含对音频信号执行音频分类的过程的至少一个装置。该至少一个装置能够在需要不同资源的至少两个模式下工作。音频分类系统也包含复杂度控制器,其确定组合并且指示该至少一个装置根据该组合来工作。对于该至少一个装置中的每个,该组合指定该装置的模式之一,而该组合的资源要求不超过最大可用资源。通过控制模式,音频分类系统改善了针对运行环境的可伸缩性。

Description

音频分类方法和系统
技术领域
本发明涉及音频信号处理。更具体地,本发明的实施例涉及音频分类方法和系统。
背景技术
在许多应用中,需要对音频信号进行识别和分类。一种这样的分类是把音频信号自动分类为话音、音乐或静音。通常,音频分类涉及从音频信号中提取音频特征以及用所训练的分类器根据音频特征进行分类。
已经提出音频分类的方法来自动估计输入音频信号的类型,使得能够避免对音频信号进行人工标记。这能够被用于大量多媒体数据的高效分类和浏览。音频分类也被广泛地用于支持其它音频信号处理部件。例如,话音-噪声音频分类器对于语音通信系统中使用的噪声抑制系统有大的益处。作为另一个例子,在无线通信系统设备中,通过音频分类,音频信号处理能够根据信号是话音、音乐还是静音来对信号实现不同的编码和解码算法。
本章节中描述的方案是能够采取的方案,但不一定是先前已经构思或采取的方案。因此,除非另外指出,不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地,根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题,除非另外指出。
发明内容
根据本发明一个实施例,提供一种音频分类系统。该系统包含能够在需要不同资源的至少两个模式下工作的至少一个装置。该系统也包含复杂度控制器,其确定组合并且指示该至少一个装置根据该组合来工作。对于该至少一个装置中的每个,该组合指定该装置的模式之一,而该组合的资源要求不超过最大可用资源。该至少一个装置可以包括预处理器、特征提取器、分类装置和后处理器的至少之一,预处理器使音频信号适配于音频分类系统,特征提取器从音频信号的分段中提取音频特征,分类装置根据提取的音频特征用训练的模型对分段进行分类,后处理器对分段的音频类型进行平滑。
根据本发明一个实施例,提供一种音频分类方法。该方法包含能够在需要不同资源的至少两个模式下执行的至少一个步骤。确定一个组合。该至少一个步骤被指示根据该组合来运行。对于该至少一个步骤中的每个,该组合指定该步骤的模式之一,而该组合的资源要求不超过最大可用资源。该至少一个步骤包括预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一,预处理步骤使音频信号适配于音频分类,特征提取步骤从音频信号的分段中提取音频特征,分类步骤根据提取的音频特征用训练的模型对分段进行分类,后处理步骤对分段的音频类型进行平滑。
根据本发明一个实施例,提供一种音频分类系统。系统包含用于从音频信号的分段中提取音频特征的特征提取器。特征提取器包含系数计算器和统计数据计算器。系数计算器根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数,以作为音频特征。统计数据计算器计算有关长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征。系统也包含分类装置,用于通过训练的模型,基于所提取的音频特征来对分段进行分类。
根据本发明一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数,以作为音频特征。计算有关长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征。
根据本发明一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。特征提取器包含用于对分段进行滤波的低通滤波器,在该低通滤波器中允许低频敲击分量通过。特征提取器也包含计算器,其用于通过对每个分段应用过零率(ZCR,zero crossing rate)来提取低音指示特征,以作为音频特征。
根据本发明一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,通过低通滤波器对分段进行滤波,在该低通滤波器中允许低频敲击分量通过。通过对每个分段应用过零率(ZCR)来提取低音指示特征,以作为音频特征。
根据本发明一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。特征提取器包含残余计算器和统计数据计算器。对于每个分段,残余计算器通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段,统计数据计算器关于该分段的帧的相同级别的残余计算至少一项统计数据。所计算的残余和统计数据被包含在音频特征中。
根据本发明一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,对于每个分段,通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段,关于该分段的帧的相同级别的残余计算至少一项统计数据。所计算的残余和统计数据被包含在音频特征中。
根据本发明一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。特征提取器包含比值计算器,其计算每个分段的谱区间高能量比以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。
根据本发明一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,针对每个分段计算谱区间高能量比,以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。
根据本发明一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。分类装置包含具有不同优先级的至少两个分类器级段的链,这些分类器级段按照优先级的降序排列。每个分类器级段包含分类器,分类器根据提取自每个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。每个分类器级段也包含决策单元。如果分类器级段位于链的开始处,则决策单元确定当前置信度是否高于与该分类器级段关联的置信度阈值。如果确定当前置信度高于置信度阈值,则决策单元通过输出当前类别估计来终止音频分类。否则,决策单元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的中间,则决策单元确定当前置信度是否高于置信度阈值,或确定当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型。如果确定当前置信度高于置信度阈值,或类别估计能够决定音频类型,则决策单元通过输出当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类。否则,决策单元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的结束处,则决策单元通过输出当前类别估计来终止音频分类。或者,决策单元确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。如果确定类别估计能够决定音频类型,则决策单元通过输出所决定的音频类型和相应置信度来终止音频分类。否则,决策单元通过输出当前类别估计来终止音频分类。
根据本发明一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。分类包含具有不同优先级的至少两个子步骤的链,这些子步骤按照优先级的降序排列。每个子步骤涉及根据提取自每个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。如果子步骤位于链的开始处,则子步骤涉及确定当前置信度是否高于与该子步骤关联的置信度阈值。如果确定当前置信度高于置信度阈值,则子步骤涉及通过输出当前类别估计来终止音频分类。否则,子步骤涉及把当前类别估计提供给链中的所有后面的子步骤。如果子步骤位于链的中间,则子步骤涉及确定当前置信度是否高于置信度阈值,或确定当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型。如果确定当前置信度高于置信度阈值,或类别估计能够决定音频类型,则子步骤涉及通过输出当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类。否则,子步骤涉及把当前类别估计提供给链中的所有后面的子步骤。如果子步骤位于链的结束处,则子步骤涉及通过输出当前类别估计来终止音频分类。或者,子步骤涉及确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。如果确定类别估计能够决定音频类型,则子步骤涉及通过输出所决定的音频类型和相应置信度来终止音频分类。否则,子步骤涉及通过输出当前类别估计来终止音频分类。
根据本发明一个实施例,提供一种音频分类系统。系统包含特征提取器、分类装置和后处理器,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类,后处理器用于对分段的音频类型进行平滑。后处理器包含检测器和平滑器,检测器在音频信号中搜索两个重复部分,平滑器通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。
根据本发明一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。通过下述操作对分段的音频类型进行平滑:在音频信号中搜索两个重复部分,以及通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。
根据本发明一个实施例,提供一种在其上记录有计算机程序指令的计算机可读介质。当被处理器执行时,这些指令使得处理器能够执行一种音频分类方法。该方法包含能够在需要不同资源的至少两个模式下执行的至少一个步骤。确定一个组合。该至少一个步骤被指示根据该组合来运行。对于该至少一个步骤中的每个,该组合指定该步骤的模式之一,而该组合的资源要求不超过最大可用资源。该至少一个步骤包括预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一,预处理步骤使音频信号适配于音频分类,特征提取步骤从音频信号的分段中提取音频特征,分类步骤根据提取的音频特征用训练的模型对分段进行分类,后处理步骤对分段的音频类型进行平滑。
下面参考附图详细描述本发明的进一步特性和优点,以及本发明各个实施例的结构和操作。应当注意,本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。
附图说明
在附图中通过例子图解本发明,但这些例子不对本发明产生限制,图中用类似的附图标记表示类似的元件,其中:
图1是图示根据本发明一个实施例的示例音频分类系统的框图;
图2是图示根据本发明一个实施例的示例音频分类方法的流程图;
图3是图示示例高通滤波器的频率响应的曲线图,该频率响应等价于由等式(1)表示的时域预加重,其中β=0.98;
图4A是图示敲击信号及其自相关系数的曲线图;
图4B是图示语音信号及其自相关系数的曲线图;
图5是图示根据本发明一个实施例的示例分类装置的框图;
图6是图示根据本发明一个实施例的分类步骤的示例过程的流程图;
图7是图示根据本发明一个实施例的示例音频分类系统的框图;
图8是图示根据本发明一个实施例的示例音频分类方法的流程图;
图9是图示根据本发明一个实施例的示例音频分类系统的框图;
图10是图示根据本发明一个实施例的示例音频分类方法的流程图;
图11是图示根据本发明一个实施例的示例音频分类系统的框图;
图12是图示根据本发明一个实施例的示例音频分类方法的流程图;
图13是图示根据本发明一个实施例的示例音频分类系统的框图;
图14是图示根据本发明一个实施例的示例音频分类方法的流程图;
图15是图示根据本发明一个实施例的示例音频分类系统的框图;
图16是图示根据本发明一个实施例的示例音频分类方法的流程图;
图17是图示根据本发明一个实施例的示例音频分类系统的框图;
图18是图示根据本发明一个实施例的示例音频分类方法的流程图;
图19是图示根据本发明一个实施例的示例音频分类系统的框图;
图20是图示根据本发明一个实施例的示例音频分类方法的流程图;而
图21是图示用于实现本发明的实施例的示例性系统的框图。
具体实施方式
下面参考附图描述本发明实施例。应当注意,出于清楚的目的,在附图和描述中省略了有关所属技术领域的技术人员知道但是对于本发明的理解不是必要的部分和过程的表示和说明。
本领域的技术人员可以理解,本发明的各方面可以被实施为系统(例如,在线数字媒体商店、云计算服务、流媒体服务、电信网络等等)、装置(例如,蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒或数字视频录像机、或任何媒体播放器)、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以一般称为″电路″、″模块″或″系统″。此外,本发明的各个方面可以采取体现为一或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上面体现有计算机可读程序代码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是--但不限于--电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。
计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如″C″程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
复杂度控制
图1是图示根据本发明一个实施例的示例音频分类系统100的框图。
如图1所示,音频分类系统100包含复杂度控制器102。为对音频信号进行音频分类,涉及到若干过程,例如特征提取和分类。相应地,音频分类系统100可以包含用于执行这些过程的相应装置(共同由附图标记101表示)。一些装置(均称作多模式装置)可以在需要不同资源的不同模式下执行相应过程。图1中图示了这样的多模式装置之一,即装置111。
执行过程能够消耗资源,例如内存、I/O、电力、中央处理单元(CPU)等等。执行过程的相同功能但是需要不同资源的不同算法和配置提供了这样的可能性:装置通过采用这些不同算法和配置的组合(例如,模式)之一来进行操作。每个模式可以决定装置的具体资源要求(消耗)。例如,分类过程可以把音频特征输入到分类器以获得分类结果。为执行这个功能,处理较多音频特征以进行音频分类的分类器所消耗的资源会多于处理较少音频特征的另一个分类器,如果两个分类器基于相同分类算法的话。这是关于不同配置的例子。此外,为执行这个功能,基于多个分类算法的组合的分类器所消耗的资源会多于仅基于这些算法之一的另一个分类器,如果两个分类器处理相同音频特征的话。这是关于不同算法的例子。通过这种方式,一些多模式装置(例如,装置111)可以被配置成能够在需要不同资源的不同模式下工作。任何这样的多模式装置可以具有超过两个的模式,这取决于用于执行装置的功能的可供选择的算法和配置。
在执行音频分类时,每个多模式装置可工作于其模式之一。这个模式被称作活跃模式。复杂度控制器102可以确定多模式装置的活跃模式的组合,并且指示多模式装置根据该组合,即在该组合中定义的相应活跃模式下工作。可以有各种可能的组合。复杂度控制器102可以从中选择资源要求不超过最大可用资源的组合。最大可用资源可以是固定的,或者可通过收集有关音频分类系统100的可用资源的信息来估计,或者可由用户来设置。可以在安装音频分类系统100或启动音频分类系统100时、按照规则时间间隔、在启动音频分类任务时、响应于外部命令、或甚至是随机地确定最大可用资源。
在一个例子中,可以为每个多模式装置建立简表。简表包含表示相应模式的条目。每个条目可以至少包含用于标识相应模式的模式标识和有关该模式下的估计资源要求的信息。复杂度控制器102可以根据与每个可能组合中定义的活跃模式相对应的条目中的估计资源要求来计算总资源要求,并且选择总资源要求在最大资源要求以下的一个组合。
取决于具体实现,多模式装置可以包含预处理器、特征提取器、分类装置和后处理器的至少之一。
预处理器可以使音频信号适配于音频分类系统100。音频信号的采样速率和量化精度可能不同于音频分类系统100要求的采样速率和量化精度。在这样的情况下,预处理器可以调整音频信号的采样速率和量化精度以符合音频分类系统100的要求。另外或可选地,预处理器可以预加重音频信号以加强音频信号的具体频率范围(例如,高频范围)。在音频分类系统100中,预处理器可以是可选的,即使它不是多模式的。
为识别音频信号的分段的音频类型,特征提取器可以从分段中提取音频特征。分类装置中可以有一个或更多个活跃分类器。每个分类器需要若干音频特征以用于对分段执行其分类操作。特征提取器根据分类器的要求提取音频特征。取决于分类器的要求,一些音频特征可以直接提取自分段,而一些音频特征可以是提取自分段中的帧的音频特征(均称作帧级特征),或帧级特征的派生特征(均称作窗口级特征)。
根据提取自分段的音频特征,分类装置用训练的模型对分段进行分类(即,识别分段的音频类型)。在训练的模型中用决策形成模式来组织一个或更多个活跃分类器。
通过对音频信号的分段执行音频分类,能够生成音频类型的序列。后处理器可以平滑序列的音频类型。通过平滑,可以消除序列中音频类型的不现实的突然改变。例如,大量连续″音乐″音频类型中间的单个″话音″音频类型可能是错误估计,并且能够由后处理器平滑(消除)掉。在音频分类系统100中,后处理器可以是可选的,即使它不是多模式的。
由于能够通过选择适当的活跃模式组合来调整音频分类系统100的资源要求,音频分类系统100可适应于运行环境随时间的变化,或从一个平台迁移到另一个平台(例如,从个人计算机迁移到便携终端)而不需显著修改,因而提高了可用性、可伸缩性和可移植性中至少之一。
图2是图示根据本发明一个实施例的示例音频分类方法200的流程图。
为对音频信号进行音频分类,涉及到若干过程,例如特征提取和分类。相应地,音频分类方法200可以包含用于执行这些过程的相应步骤(共同由附图标记207表示)。一些步骤(均称作多模式步骤)可以在需要不同资源的不同模式下执行相应过程。
如图2所示,音频分类方法200从步骤201开始。在步骤203,确定多模式步骤的活跃模式的组合。
在步骤205,指示多模式步骤根据该组合来工作,即在该组合中定义的相应活跃模式下工作。
在步骤207,执行相应过程以进行音频分类,其中在组合中定义的活跃模式下执行多模式步骤。
在步骤209,音频分类方法200结束。
取决于具体实现,多模式步骤可以包含预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一,预处理步骤使音频信号适配于音频分类,特征提取步骤从音频信号的分段中提取音频特征,分类步骤根据提取的音频特征用训练的模型对分段进行分类,后处理步骤对分段的音频类型进行平滑。预处理步骤和后处理步骤可以是可选的,即使它们不是多模式的。
预处理
在音频分类系统100和音频分类方法200的进一步的实施例中,多模式装置和步骤分别包含预处理器和预处理步骤。预处理器的模式和预处理步骤的模式包含一个模式MP1和另一个模式MP2。在模式MP1下,在进行滤波的情况下转换音频信号的采样速率(需要更多资源)。在模式MP2下,在不进行滤波的情况下转换音频信号的采样速率(需要更少资源)。
在为音频分类而提取的音频特征中,第一类型的音频特征不适合于预加重,也就是说,如果音频信号被预加重,则该类型的音频特征会降低分类性能,第二类型的音频特征适合于预加重,也就是说,如果音频信号被预加重,则该类型的音频特征能够提高分类性能。
作为预加重的一个例子,可以在特征提取的处理之前对音频信号应用时域预加重。这种预加重能够表示成:
s′(n)=s(n)-β·s(n-1)(1)
其中n是时间索引,s(n)和s′(n)分别是预加重前后的音频信号,β是预加重系数,通常设置为接近1的值,例如0.98。
另外或可选地,预处理器的模式和预处理步骤的模式包含一个模式MP3和另一个模式MP4。在模式MP3下,音频信号S(t)直接被预加重,并且把音频信号S(t)和预加重的音频信号S′(t)转换到频域,以获得转换音频信号S(ω)和预加重的转换音频信号S′(ω)。在模式MP4下,音频信号S(t)被转换到频域以获得转换音频信号S(ω),并且转换音频信号S(ω)被预加重,例如通过使用具有与根据等式(1)导出的频率响应相同的频率响应的高通滤波器,以获得预加重的转换音频信号S′(ω)。图3是图示示例高通滤波器的频率响应的曲线图,该频率响应等价于由等式(1)表示的时域预加重,其中β=0.98。
在这样的情况下,在提取音频特征的处理中,从没有预加重的转换音频信号S(ω)中提取第一类型的音频特征,从经过预加重的转换音频信号S′(ω)中提取第二类型的音频特征。在模式MP4下,由于省略了一个转换,因而需要更少的资源。
在预处理器和预处理步骤具有适配和预加重的功能的情况下,模式MP1到MP4可以是独立模式。另外,可以有模式MP1和MP3、模式MP1和MP4、模式MP2和MP3、以及模式MP2和MP4的组合模式。在这样的情况下,预处理器的模式和预处理步骤的模式可以包含模式MP1到MP4和组合模式中的至少两个。
在一个例子中,第一类型可以包含子带能量分布(sub-band energydistribution)、频率分解残余(residual of frequency decomposition)、过零率(ZCR)、谱区间高能量比(spectrum-bin high energy ratio)、低音指示(bass indicator)和长期自相关特征(long-term auto-correlation feature)中的至少之一,第二类型可以包含谱波动(谱通量)和梅尔频率倒谱系数(MFCC)中的至少之一。
特征提取
长期自相关系数
在音频分类系统100的一个进一步的实施例中,多模式装置包含特征提取器。特征提取器可以根据维纳-辛钦定理(Wiener-Khinchin theorem)计算音频信号中长于一个阈值的分段的长期自相关系数。特征提取器也可以计算有关长期自相关系数的、用于音频分类的至少一项统计数据。
在音频分类方法200的一个进一步的实施例中,多模式步骤包含特征提取步骤。特征提取步骤可以包含根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数。特征提取步骤也可以包含计算有关长期自相关系数的、用于音频分类的至少一项统计数据。
某些敲击声音,尤其是具有相对恒定的速度的敲击声音,具有独特的特性,即它们是高度周期性的,尤其是当在敲击开始或节拍之间观察时。通过具有相对长的长度,例如2秒的长度的分段的长期自相关系数,能够利用这种特性。根据定义,长期自相关系数可在敲击开始或节拍后的延迟点上表现出显著的峰。在话音信号中不能找到这种特性,因为话音信号自身几乎不重复。如图4A所示,与图4B图示的话音信号的长期自相关系数相比,在敲击信号的长期自相关系数中能够找到周期性的峰。可以设置上述阈值以保证在长期自相关系数中能够表现出这种特性差异。计算统计数据以捕获能够将敲击信号与话音信号区分开的长期自相关系数的特性。
在这样的情况下,特征提取器的模式可以包含一个模式MF1和另一个模式MF2。在模式MF1下,直接根据分段计算长期自相关系数。在模式MF2下,分段被进行抽减(decimated),并且根据经抽减的分段计算长期自相关系数。由于抽减,能够降低计算成本,因而降低资源要求。
在一个例子中,分段具有数目N个样本s(n),n=1,2,...,N。在模式MF1下,根据维纳-辛钦定理计算长期根据相关系数。
根据维纳-辛钦定理,通过2N点快速富立叶变换(FFT)导出频率系数:
S(k)=FFT(s(n),2N)(2)
其中FFT(x,2N)表示信号x的2N点FFT分析,于是长期自相关系数被导出为:
A(τ)=IFFT(S(k)·S*(k))(3)
其中A(τ)是长期自相关系数的序列,S(k)表示S(k)的复共轭,IFFT()表示逆FFT。
在模式MF2下,在计算长期自相关系数之前,分段s(n)被抽减(例如,按照系数D抽减,其中D>10),而其它计算与模式MF1中的相同。
例如,如果一个分段具有32000个样本,则其应被填零为2×32768个样本以便进行高效FFT,而模式MF1下的处理需要大约1.7×106次乘法,包括:
1)用于FFT和IFFT的2×2×32768×log(2×32768)次乘法;和
2)用于频率系数和共轭系数之间的乘法的4×2×32768次乘法。
如果按照系数16把分段抽减为2048个样本,则复杂度被显著降低到大约8.4×104次乘法。在这样的情况下,复杂度被降低到初始复杂度的大约5%。
在一个例子中,统计数据可以包含以下项中的至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average(高平均值):满足以下条件至少之一的长期自相关系数的平均值:
a)大于一个阈值;以及
b)在预定比例的长期自相关系数内,该预定比例的长期自相关系数不低于所有其它长期自相关系数。例如,如果所有长期自相关系数被表示成按照降序排列的c1,c2,...,cn,则该预定比例的长期自相关系数包含c1,c2,...,cm,其中m/n等于该预定比例;
4)High_Value_Percentage(高值百分比):High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average(低平均值):满足以下条件至少之一的长期自相关系数的平均值:
c)小于一个阈值;以及
d)在预定比例的长期自相关系数内,该预定比例的长期自相关系数不高于所有其它长期自相关系数。例如,如果所有长期自相关系数被表示成按照升序排列的c1,c2,...,cn,则该预定比例的长期自相关系数包含c1,c2,...,cm,其中m/n等于该预定比例;
6)Low_Value_Percentage(低值百分比):Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;和
7)对比度:High_Average和Low_Average之间的比值。
作为一个进一步的改进,可以根据零时滞值对上述导出的长期自相关系数进行归一化,以消除绝对能量的影响,即零时滞的长期自相关系数均为1.0。此外,在计算统计数据时不考虑零时滞值和邻近值(例如,时滞<10个样本),因为这些值不代表信号的任何自重复。
低音指示
在音频分类系统100和音频分类方法200的进一步的实施例中,通过低通滤波器对每个分段进行滤波,在该低通滤波器中允许低频敲击分量通过。为音频分类而提取的音频特征包含通过对经过滤波的分段应用过零率(ZCR)而获得的低音指示特征。
ZCR能够在话音的浊音和清音部分之间有明显变化。能够利用此特性来有效区别话音和其它信号。然而,为对类话音信号(具有类似话音的信号特征的非话音信号,包含具有恒定速度的敲击声音,以及说唱音乐)进行分类,尤其是对敲击声音进行分类,传统ZCR是低效的,因为敲击声音表现出的变化特性与话音信号中发现的变化特性相似。这是由于在许多敲击片段(从敲击声音中采样的低频敲击分量)中发现的低音响弦击鼓节拍结构(bass-snare drumming measure structure)可产生的ZCR变化与话音信号的浊音-清音结构所产生的ZCR变化相似。
在本发明实施例中,引入低音指示特征以作为低音声音的存在的指示。低通滤波器可具有例如80Hz的低截止频率,使得除低频敲击分量(例如,低音鼓)之外,信号中的任何其他分量(包含话音)均会被显著衰减。结果,这种低音指示能够显示低频敲击声音和话音信号之间的不同特性。这能够导致类话音信号和话音信号之间的有效鉴别,因为许多类话音信号包括大量低音分量,例如说唱音乐。
频率分解残余
在音频分类系统100的一个进一步的实施例中,多模式装置可以包含特征提取器。对于每个分段,特征提取器可以通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段,特征提取器也可以关于该分段的帧的相同级别的残余计算至少一项统计数据。
在音频分类方法200的一个进一步的实施例中,多模式步骤可以包含特征提取步骤。特征提取步骤可以包含,对于每个分段,通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。特征提取步骤也可以包含,对于每个分段,关于该分段的帧的相同级别的残余计算至少一项统计数据。
所计算的残余和统计数据被包含在音频特征中以用于相应分段的音频分类。
通过频率分解,对于某些类型的敲击信号(例如,具有恒定速度的低音击鼓声),与话音信号相比有较少的频率分量能够近似这样的敲击声音。原因是这些敲击信号本质上比话音信号和其它类型的音乐信号具有更少的复杂频率成分。因此,通过移除不同数目的显著频率分量(例如,具有最高能量的分量),当与话音和其它音乐信号的特性相比时,这样的敲击声音的残余(剩余能量)能够表现出显著不同的特性,因而提高分类性能。
特征提取器和特征提取步骤的模式可以包含一个模式MF3和另一个模式MF4
在模式MF3下,第一能量是谱的H1个最高频率区间的总能量,第二能量是谱的H2个最高频率区间的总能量,而第三能量是谱的H3个最高频率区间的总能量,其中H1<H2<H3
在模式MF4下,第一能量是谱的一个或更多个峰区域的总能量,第二能量是谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含第一能量所涉及的峰区域,而第三能量是谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含第二能量所涉及的峰区域。峰区域可以是全局的,也可以是局部的。
在一个示例实现中,令S(k)是具有功率谱能量E的一个分段的谱系数序列,即
其中K是频率区间的总数。
在模式MF3下,通过从S(k)中移除H1个最高频率区间之后的剩余能量来估计一级残余R1。这能够表示成:
其中
是H1个最高频率区间的索引。
类似地,令R2和R3分别是通过从S(ω)中移除H2和H3个最高频率区间而获得的二级残余和三级残余,其中H1<H2<H3。对于敲击、话音和音乐信号可以发现(理想情况下)下列事实:
敲击声音:E>>R1≈R2≈R3
话音:E>R1>R2≈R3
音乐:E>R1>R2>R3
在模式MF4下,通过移除谱的最高峰,可以把一级残余R1估计为:
其中L是最高能量频率区间的索引,W是限定峰区域的宽度的正整数,即峰区域具有2W+1个频率区间。可选地,代替如上所述定位全局峰的方式,也可以搜索和移除局部峰区域以进行残余估计。在这样的情况下,在谱的一部分中搜索L以作为最高能量频率区间的索引,而其它处理保持相同。与一级残余类似,通过从谱中移除更多的峰可以估计后续级别的残余。
在一个例子中,统计数据可以包含以下项中的至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average(残余高平均值):相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于一个阈值;以及
b)在预定比例的残余内,该预定比例的残余不低于所有其它残余。例如,如果所有残余被表示成按照降序排列的r1,r2,...,rn,则该预定比例的残余包含r1,r2,...,rm,其中m/n等于该预定比例;
4)Residual_Low_Average(残余低平均值):相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
c)小于一个阈值;以及
d)在预定比例的残余内,该预定比例的残余不高于所有其它残余。例如,如果所有残余被表示成按照升序排列的r1,r2,...,rn,则该预定比例的残余包含r1,r2,...,rm,其中m/n等于该预定比例;以及
5)Residual_Contrast(残余对比度):Residual_High_Average和Residual_Low_Average之间的比值。
谱区间高能量比
在音频分类系统100和音频分类方法200的进一步的实施例中,被提取用于对每个分段进行音频分类的音频特征包含谱区间高能量比。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。在复杂度严格受限的某些情况下,能够用称作谱区间高能量比的特征来替代上述残余分析。谱区间高能量比特征被用来近似频率分解残余的性能。可以确定该阈值,使得其性能近似频率分解残余的性能。
在一个例子中,该阈值可以被计算为下列之一:
1)分段的谱的平均能量,或该分段周围的分段范围的谱的平均能量;
2)分段的谱的加权平均能量,或该分段周围的分段范围的谱的加权平均能量,其中该分段具有相对较高的权重,该范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)平均能量或加权平均能量的换算值;以及
4)平均能量或加权平均能量加上或减去标准差。
在音频分类系统100和音频分类方法200的进一步的实施例中,音频特征可以包含自相关系数、低音指示、频率分解残余和谱区间高能量比中的至少两个。在音频特征包含长期自相关系数和频率分解残余的情况下,特征提取器的模式和特征提取步骤的模式可以包含作为独立模式的模式MF1到MF4。另外,可以有模式MF1和MF3、模式MF1和MP4、模式MP2和MF3、以及模式MP2和MP4的组合模式。在这样的情况下,特征提取器的模式和特征提取步骤的模式可以包含模式MP1到MF4和组合模式中的至少两个。
分类装置
图5是图示根据本发明一个实施例的示例分类装置500的框图。
如图5所示,分类装置500包含具有不同优先级的分类器级段502-1,502-2,...,502-n的链。虽然图5中图示了超过两个的分类器级段,然而可以有两个分类器级段。在链中,按照优先级的降序排列分类器级段。在图5中,分类器级段502-1被排列在链的开始处,具有最高优先级,分类器级段502-2被排列在链中的次最高位置,具有次最高优先级,等等。分类器级段502-n被排列在链的结束处,具有最低优先级。
分类装置500也包含级段控制器505。级段控制器505确定从具有最高优先级的分类器级段(例如,分类器级段502-1)开始的子链。子链的长度取决于组合中针对分类装置500的模式。分类装置500的模式的资源要求与子链的长度成比例。因此,分类装置500可以配有对应于不同子链,最长达到整个链的不同模式。
所有分类器级段502-1,502-2,...,502-n具有相同结构和功能,因此这里仅详细描述分类器级段502-1。
分类器级段502-1包含分类器503-1和决策单元504-1。
分类器503-1根据提取自分段的相应音频特征501生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。
决策单元504-1可以具有与其分类器级段在子链中的位置相对应的不同功能。
如果分类器级段位于子链的开始处(例如,分类器级段502-1),则激活第一功能。在第一功能中,确定当前置信度是否高于与该分类器级段相关联的置信度阈值。如果确定当前置信度高于置信度阈值,则通过输出当前类别估计来终止音频分类。否则,当前类别估计被提供给子链中的所有后面的分类器级段(例如,分类器级段502-2,...,502-n),并且子链中的下一分类器级段开始工作。
如果分类器级段位于子链的中间(例如,分类器级段502-2),则激活第二功能。在第二功能中,确定当前置信度是否高于置信度阈值,或确定当前类别估计和所有先前的类别估计(例如,分类器级段502-1)是否能够根据第一判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度,各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。
如果确定当前置信度高于置信度阈值,或类别估计能够决定音频类型,则通过输出当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类。否则,当前类别估计被提供给子链中的所有后面的分类器级段,并且子链中的下一分类器级段开始工作。
如果分类器级段位于子链的结束处(例如,分类器级段502-n),则激活第三功能。可以通过输出当前类别估计来终止音频分类,或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度,各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。
在后一种情况下,如果确定类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类。否则,通过输出当前类别估计来终止音频分类。
以这种方式,通过具有不同长度的决策路径,分类装置的资源要求变得可配置和可伸缩。此外,在估计出具有足够置信度的音频类型的情况下,能够防止遍历整个决策路径,从而提高效率。
子链中可以只包含一个分类器级段。在这样的情况下,决策单元可以通过输出当前类别估计来终止音频分类。
图6是图示根据本发明一个实施例的分类步骤的示例过程600的流程图。
如图6所示,过程600包含具有不同优先级的子步骤S1,S2,...,Sn的链。虽然图6中图示了超过两个的子步骤,然而可以有两个子步骤。在链中,按照优先级的降序排列子步骤。在图6中,子步骤S1被排列在链的开始处,具有最高优先级,子步骤S2被排列在链中的次最高位置,具有次最高优先级,等等。子步骤Sn被排列在链的结束处,具有最低优先级。
过程600从子步骤601开始。在子步骤603,确定从具有最高优先级的子步骤(例如,子步骤S1)开始的子链。子链的长度取决于组合中针对分类步骤的模式。分类步骤的模式的资源要求与子链的长度成比例。因此,分类步骤可以配有对应于不同子链,最长达到整个链的不同模式。
子步骤S1,S2,...,Sn中的进行分类和决策的所有操作具有相同功能,因此这里只详细描述子步骤S1中的进行分类和决策的操作。
在操作605-1中,利用分类器,根据从分段提取的相应音频特征产生当前类别估计。当前类别估计包含估计的音频类型和相应置信度。
操作607-1可以具有与其子步骤在子链中的位置相对应的不同功能。
如果子步骤位于子链的开始处(例如,子步骤S1),则激活第一功能。在第一功能中,确定当前置信度是否高于与该子步骤相关联的置信度阈值。如果确定当前置信度高于置信度阈值,则在操作609-1中确定终止音频分类,并且于是在子步骤613输出当前类别估计。否则,在操作609-1中确定不终止音频分类,于是在操作611-1中把当前类别估计提供给子链中的所有后面的子步骤(例如,子步骤S2,...,Sn),并且子链中的下一子步骤开始执行。
如果子步骤位于子链的中间(例如,子步骤S2),则激活第二功能。在第二功能中,确定当前置信度是否高于置信度阈值,或确定当前类别估计和所有先前的类别估计(例如,子步骤S1)是否能够根据第一判决准则决定一个音频类型。
如果确定当前置信度高于置信度阈值,或类别估计能够决定音频类型,则在操作609-2中确定终止音频分类,于是在子步骤613输出当前类别估计,或输出所决定的音频类型和相应置信度。否则,在操作609-2中确定不终止音频分类,于是在操作611-2中把当前类别估计提供给子链中的所有后面的子步骤,并且子链中的下一子步骤开始执行。
如果子步骤位于子链的结束处(例如,子步骤Sn),则激活第三功能。可以终止音频分类并且前进到子步骤613以输出当前类别估计,或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。
在后一种情况下,如果确定类别估计能够决定一个音频类型,由终止音频分类并且过程600前进到子步骤613以输出所决定的音频类型和相应置信度。否则,终止音频分类并且过程600前进到子步骤613以输出当前类别估计。
在子步骤613,输出分类结果。接着过程600在子步骤615结束。
子链中可以只包含一个子步骤。在这样的情况下,子步骤可以通过输出当前类别估计来终止音频分类。
在一个例子中,第一判决准则可以包含以下准则中的至少之一:
1)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的平均置信度高于一个阈值,则能够决定当前音频类型;
2)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的加权平均置信度高于一个阈值,则能够决定当前音频类型;以及
3)如果决定与当前音频类型相同的音频类型的先前分类器级段的数目高于一个阈值,则能够决定当前音频类型,并且
输出的置信度是当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中先前的置信度的权重高于后面的置信度的权重。
在另一个例子中,第二判决准则可以包含以下准则中的至少之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则此相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则此相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则此相同音频类型能够被相应类别估计决定,并且
输出的置信度是当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中先前的置信度的权重高于后面的置信度的权重。
在分类装置500和分类步骤600的进一步的实施例中,如果链中的分类器级段和子步骤之一所采用的分类算法在分类出各音频类型的至少之一方面具有较高的准确性,那么该分类器级段和子步骤被指定较高优先级。
在分类装置500和分类步骤600的进一步的实施例中,用于每个在后分类器级段和子步骤的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由该分类器识别的各音频类型,以及有关对应于每个音频类型的置信度的统计数据,这些置信度是由所有先前的分类器级段根据该音频样本生成的。
在分类装置500和分类步骤600的进一步的实施例中,用于每个在后分类器级段和子步骤的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。
后处理
在音频分类系统100和音频分类方法200的进一步的实施例中,通过音频分类针对音频信号中的每个分段生成类别估计,其中每个类别估计包含所估计的音频类型和相应置信度。
多模式装置和多模式步骤分别包含后处理器和后处理步骤。
后处理器和后处理步骤的模式包含一个模式MO1和另一个模式MO2。在模式MO1下,确定窗口中对应于相同音频类型的置信度的最高和数或平均值,并且当前音频类型被此相同音频类型所代替。在模式MO2下,采用具有相对短的长度的窗口,并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目,当前音频类型被此相同音频类型所代替。
在音频分类系统100和音频分类方法200的进一步的实施例中,多模式装置和多模式步骤分别包含后处理器和后处理步骤。
后处理器被配置成在音频信号中搜索两个重复部分,并且通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。后处理步骤包括在音频信号中搜索两个重复部分,以及通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。
后处理器和后处理步骤的模式包含一个模式MO3和另一个模式MO4。在模式MO3下,采用相对长的搜索范围。在模式MO4下,采用相对短的搜索范围。
在后处理包含基于置信度的平滑和根据重复模式的平滑的情况下,模式可以包含作为独立模式的模式MO1到MO4。另外,可以有模式MO1和MO3、模式MO1和MO4、模式MO2和MO3、以及模式MO2和MO4的组合模式。在这样的情况下,模式可以包含模式MO1到MO4和组合模式中的至少两个。
图7是图示根据本发明一个实施例的示例音频分类系统700的框图。
如图7所示,在音频分类系统700中,多模式装置包括特征提取器711,分类装置712和后处理器713。特征提取器711具有与在章节“频率分解残余”中描述的特征提取器相同的结构和功能,这里不再详细说明。分类装置712具有与结合图5描述的分类装置相同的结构和功能,这里不再详细说明。后处理器713被配置成在音频信号中搜索两个重复部分,并且通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。后处理器的模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
音频分类系统700也包含复杂度控制器702。复杂度控制器702具有与复杂度控制器102相同的功能,这里不再详细说明。应当注意,因为特征提取器711、分类装置712和后处理器713是多模式装置,由复杂度控制器702确定的组合可以限定特征提取器711、分类装置712和后处理器713的相应活跃模式。
图8是图示根据本发明一个实施例的示例音频分类方法800的流程图。
如图8所示,音频分类方法800从步骤801开始。步骤803和步骤805分别与步骤203和步骤205具有相同功能,这里不再详细说明。多模式步骤包括特征提取步骤807、分类步骤809和后处理步骤811。特征提取步骤807具有与在章节“频率分解残余”中描述的特征提取步骤相同的功能,这里不再详细说明。分类步骤809具有与结合图6描述的分类过程相同的功能,这里不再详细说明。后处理步骤811包括在音频信号中搜索两个重复部分,以及通过把两个重复部分之间的分段当作非话音类型来平滑分类结果。后处理步骤的模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。应当注意,因为特征提取步骤807、分类步骤809和后处理步骤811是多模式步骤,在步骤803确定的组合可以限定特征提取步骤807、分类步骤809和后处理步骤811的相应活跃模式。
其它实施例
图9是图示根据本发明一个实施例的示例音频分类系统900的框图。
如图9所示,音频分类系统900包含从音频信号的分段中提取音频特征的特征提取器911,和基于所提取的音频特征,用训练的模型对分段进行分类的分类装置912。特征提取器911包含系数计算器921和统计数据计算器922。
系数计算器921根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数,以作为音频特征。统计数据计算器922计算有关长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征。
图10是图示根据本发明一个实施例的示例音频分类方法1000的流程图。
如图10所示,音频分类方法1000从步骤1001开始。执行步骤1003到1007以从音频信号的分段中提取音频特征。
在步骤1003,根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数,以作为音频特征。
在步骤1005,计算有关长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征。
在步骤1007,确定是否存在尚未处理的另一个分段。如果存在,则方法1000返回到步骤1003。如果没有,则方法1000前进到步骤1009。
在步骤1009,基于所提取的音频特征,用训练的模型对分段进行分类。
方法1000在步骤1011结束。
某些敲击声音,尤其是具有相对恒定的速度的敲击声音,具有独特的特性,即它们是高度周期性的,尤其是当在敲击开始或节拍之间观察时。通过具有相对长的长度,例如2秒的长度的分段的长期自相关系数,能够利用这种特性。根据定义,长期自相关系数可在敲击开始或节拍后的延迟点上表现出显著的峰。在话音信号中不能找到这种特性,因为话音信号自身几乎不重复。计算统计数据以捕获能够将敲击信号与话音信号区分开的长期自相关系数的特性。因此,根据系统900和方法1000,可以降低把敲击信号分类为话音信号的可能性。
在一个例子中,统计数据可以包含以下项中的至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average(高平均值):满足以下条件至少之一的长期自相关系数的平均值:
a)大于一个阈值;以及
b)在预定比例的长期自相关系数内,该预定比例的长期自相关系数不低于所有其它长期自相关系数;
4)High_Value_Percentage(高值百分比):High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average(低平均值):满足以下条件至少之一的长期自相关系数的平均值:
c)小于一个阈值;以及
d)在预定比例的长期自相关系数内,该预定比例的长期自相关系数不高于所有其它长期自相关系数;
6)Low_Value_Percentage(低值百分比):Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及
7)对比度:High_Average和Low_Average之间的比值。
作为一个进一步的改进,可以根据零时滞值对上述导出的长期自相关系数进行归一化,以消除绝对能量的影响,即零时滞的长期自相关系数均为1.0。此外,在计算统计数据时不考虑零时滞值和邻近值(例如,时滞<10个样本),因为这些值不代表信号的任何自重复。
图11是图示根据本发明一个实施例的示例音频分类系统1100的框图。
如图11所示,音频分类系统1100包含从音频信号的分段中提取音频特征的特征提取器1111,和基于所提取的音频特征,用训练的模型对分段进行分类的分类装置1112。特征提取器1111包含低通滤波器1121和计算器1122。
低通滤波器1121通过允许低频敲击分量通过来对分段进行滤波。计算器1122通过对分段应用过零率(ZCR)来提取低音指示特征,以作为音频特征。
图12是图示根据本发明一个实施例的示例音频分类方法1200的流程图。
如图12所示,音频分类方法1200从步骤1201开始。执行步骤1203到1207以从音频信号的分段中提取音频特征。
在步骤1203,通过低通滤波器对分段进行滤波,在该低通滤波器中,允许低频敲击分量通过。
在步骤1205,通过对分段应用过零率(ZCR)来提取低音指示特征,以作为音频特征。
在步骤1207,确定是否存在尚未处理的另一个分段。如果存在,则方法1200返回到步骤1203。如果没有,则方法1200前进到步骤1209。
在步骤1209,基于所提取的音频特征,用训练的模型对分段进行分类。
方法1200在步骤1211结束。
ZCR能够在话音的浊音和清音部分之间有明显变化。能够利用此特性来有效区别话音和其它信号。然而,为对类话音信号(具有类似话音的信号特征的非话音信号,包含具有恒定速度的敲击声音,以及说唱音乐)进行分类,尤其是对敲击声音进行分类,传统ZCR是低效的,因为敲击声音表现出的变化特性与话音信号中发现的变化特性相似。这是由于在许多敲击片段中发现的低音响弦击鼓节拍结构可产生的ZCR变化与话音信号的浊音-清音结构所产生的ZCR变化相似。
在本发明实施例中,引入低音指示特征以作为低音声音的存在的指示。低通滤波器可具有例如80Hz的低截止频率,使得除低频敲击分量(例如,低音鼓)之外,信号中的任何其他分量(包含话音)均会被显著衰减。结果,这种低音指示能够显示低频敲击声音和话音信号之间的不同特性。这能够导致类话音信号和话音信号之间的有效鉴别,因为许多类话音信号包括大量低音分量,例如说唱音乐。
图13是图示根据本发明一个实施例的示例音频分类系统1300的框图。
如图13所示,音频分类系统1300包含从音频信号的分段中提取音频特征的特征提取器1311,和基于所提取的音频特征,用训练的模型对分段进行分类的分类装置1312。特征提取器1311包含残余计算器1321和统计数据计算器1322。
对于每个分段,残余计算器1321通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段,统计数据计算器1322关于该分段的帧的相同级别的残余计算至少一项统计数据。
图14是图示根据本发明一个实施例的示例音频分类方法1400的流程图。
如图14所示,音频分类方法1400从步骤1401开始。执行步骤1403到1407以从音频信号的分段中提取音频特征。
在步骤1403,对于一个分段,通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。
在步骤1405,针对该分段的帧,计算关于相同级别的残余的至少一项统计数据。
在步骤1407,确定是否存在尚未处理的另一个分段。如果存在,则方法1400返回到步骤1403。如果没有,则方法1400前进到步骤1409。
在步骤1409,基于所提取的音频特征,用训练的模型对分段进行分类。
方法1400在步骤1411结束。
通过频率分解,对于某些类型的敲击信号(例如,具有恒定速度的低音击鼓声),与话音信号相比有较少的频率分量能够近似这样的敲击声音。原因是这些敲击信号本质上比话音信号和其它类型的音乐信号具有更少的复杂频率成分。因此,通过移除不同数目的显著频率分量(例如,具有最高能量的分量),当与话音和其它音乐信号的特性相比时,这样的敲击声音的残余(剩余能量)能够表现出显著不同的特性,因而提高分类性能。
此外,第一能量是谱的H1个最高频率区间的总能量,第二能量是谱的H2个最高频率区间的总能量,而第三能量是谱的H3个最高频率区间的总能量,其中H1<H2<H3
可选地,第一能量是谱的一个或更多个峰区域的总能量,第二能量是谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含第一能量所涉及的峰区域,而第三能量是谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含第二能量所涉及的峰区域。峰区域可以是全局的,也可以是局部的。
令S(k)是具有功率谱能量E的一个分段的谱系数序列,即
其中K是频率区间的总数。
在一个例子中,通过从S(k)中移除H1个最高频率区间之后的剩余能量来估计一级残余R1。这能够表示成:
其中是H1个最高频率区间的索引。
类似地,令R2和R3分别是通过从S(ω)中移除H2和H3个最高频率区间而获得的二级残余和三级残余,其中H1<H2<H3。对于敲击、话音和音乐信号可以发现(理想情况下)下列事实:
敲击声音:E>>R1≈R2≈R3
话音:E>R1>R2≈R3
音乐:E>R1>R2>R3
在另一个例子中,通过移除谱的最高峰,可以把一级残余R1估计为:
其中L是最高能量频率区间的索引,W是限定峰区域的宽度的正整数,即峰区域具有2W+1个频率区间。可选地,代替如上所述定位全局峰的方式,也可以搜索和移除局部峰区域以进行残余估计。在这样的情况下,在谱的一部分中搜索L以作为最高能量频率区间的索引,而其它处理保持相同。与一级残余类似,通过从谱中移除更多的峰可以估计后续级别的残余。
此外,统计数据可以包含以下项中的至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average(残余高平均值):相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于一个阈值;以及
b)在预定比例的残余内,该预定比例的残余不低于所有其它残余;
4)Residual_Low_Average(残余低平均值):相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)小于一个阈值;以及
b)在预定比例的残余内,该预定比例的残余不高于所有其它残余;以及
5)Residual_Contrast(残余对比度):Residual_High_Average和Residual_Low_Average之间的比值。
图15是图示根据本发明一个实施例的示例音频分类系统1500的框图。
如图15所示,音频分类系统1500包含从音频信号的分段中提取音频特征的特征提取器1501,和基于所提取的音频特征,用训练的模型对分段进行分类的分类装置1502。
如图15所示,分类装置1502包含具有不同优先级的分类器级段1502-1,1502-2,...,1502-n的链。虽然图15中图示了超过两个的分类器级段,然而可以有两个分类器级段。在链中,按照优先级的降序排列分类器级段。在图15中,分类器级段1502-1被排列在链的开始处,具有最高优先级,分类器级段1502-2被排列在链中的次最高位置,具有次最高优先级,等等。分类器级段1502-n被排列在链的结束处,具有最低优先级。
所有分类器级段1502-1,1502-2,...,1502-n具有相同结构和功能,因此这里仅详细描述分类器级段1502-1。
分类器级段1502-1包含分类器1503-1和决策单元1504-1。
分类器1503-1根据提取自一个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。
决策单元1504-1可以具有与其分类器级段在链中的位置相对应的不同功能。
如果分类器级段位于链的开始处(例如,分类器级段1502-1),则激活第一功能。在第一功能中,确定当前置信度是否高于与该分类器级段相关联的置信度阈值。如果确定当前置信度高于置信度阈值,则通过输出当前类别估计来终止音频分类。否则,当前类别估计被提供给链中的所有后面的分类器级段(例如,分类器级段1502-2,...,1502-n),并且链中的下一分类器级段开始工作。
如果分类器级段位于链的中间(例如,分类器级段1502-2),则激活第二功能。在第二功能中,确定当前置信度是否高于置信度阈值,或确定当前类别估计和所有先前的类别估计(例如,分类器级段1502-1)是否能够根据第一判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度,各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。
如果确定当前置信度高于置信度阈值,或类别估计能够决定音频类型,则通过输出当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类。否则,当前类别估计被提供给链中的所有后面的分类器级段,并且链中的下一分类器级段开始工作。
如果分类器级段位于链的结束处(例如,分类器级段1502-n),则激活第三功能。可以通过输出当前类别估计来终止音频分类,或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。因为先前的类别估计可包含各种所决定的音频类型和相关的置信度,各种判决准则可以被用来根据先前的类别估计决定最可能的音频类型和相关的做出决定的类别估计。
在后一种情况下,如果确定类别估计能够决定音频类型,由通过输出所决定的音频类型和相应置信度来终止音频分类。否则,通过输出当前类别估计来终止音频分类。
以这种方式,通过具有不同长度的决策路径,分类装置的资源要求变得可配置和可伸缩。此外,在估计出具有足够置信度的音频类型的情况下,能够防止遍历整个决策路径,从而提高效率。
链中可以只包含一个分类器级段。在这样的情况下,决策单元可以通过输出当前类别估计来终止音频分类。
图16是图示根据本发明一个实施例的示例音频分类方法1600的流程图。
如图16所示,音频分类方法1600从步骤1601开始。
在步骤1603,从音频信号的分段中提取音频特征。
如图16所示,分类的过程包含具有不同优先级的子步骤S1,S2,...,Sn的链。虽然图16中图示了超过两个的子步骤,然而可以有两个子步骤。在链中,按照优先级的降序排列子步骤。在图16中,子步骤S1被排列在链的开始处,具有最高优先级,子步骤S2被排列在链中的次最高位置,具有次最高优先级,等等。子步骤Sn被排列在链的结束处,具有最低优先级。
子步骤S1,S2,...,Sn中的进行分类和决策的所有操作具有相同功能,因此这里只详细描述子步骤S1中的进行分类和决策的操作。
在操作1605-1中,利用分类器,根据从一个分段提取的相应音频特征产生当前类别估计。当前类别估计包含估计的音频类型和相应置信度。
操作1607-1可以具有与其子步骤在链中的位置相对应的不同功能。
如果子步骤位于链的开始处(例如,子步骤S1),则激活第一功能。在第一功能中,确定当前置信度是否高于与该子步骤相关联的置信度阈值。如果确定当前置信度高于置信度阈值,则在操作1609-1中确定终止音频分类,并且于是在子步骤1613输出当前类别估计。否则,在操作1609-1中确定不终止音频分类,于是在操作1611-1中把当前类别估计提供给链中的所有后面的子步骤(例如,子步骤S2,...,Sn),并且链中的下一子步骤开始执行。
如果子步骤位于链的中间(例如,子步骤S2),则激活第二功能。在第二功能中,确定当前置信度是否高于置信度阈值,或确定当前类别估计和所有先前的类别估计(例如,子步骤S1)是否能够根据第一判决准则决定一个音频类型。
如果确定当前置信度高于置信度阈值,或类别估计能够决定音频类型,则在操作1609-2中确定终止音频分类,于是在子步骤1613输出当前类别估计,或输出所决定的音频类型和相应置信度。否则,在操作1609-2中确定不终止音频分类,于是在操作1611-2中把当前类别估计提供给链中的所有后面的子步骤,并且链中的下一子步骤开始执行。
如果子步骤位于链的结束处(例如,子步骤Sn),则激活第三功能。可以终止音频分类并且前进到子步骤1613以输出当前类别估计,或者可以确定当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型。
在后一种情况下,如果确定类别估计能够决定一个音频类型,由终止音频分类并且方法1600前进到子步骤1613以输出所决定的音频类型和相应置信度。否则,终止音频分类并且方法1600前进到子步骤1613以输出当前类别估计。
在子步骤1613,输出分类结果。接着方法1600在子步骤1615结束。
链中可以只包含一个子步骤。在这样的情况下,子步骤可以通过输出当前类别估计来终止音频分类。
在一个例子中,第一判决准则可以包含以下准则中的至少之一:
1)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的平均置信度高于一个阈值,则能够决定当前音频类型;
2)如果当前置信度和对应于与当前音频类型相同的音频类型的先前置信度的加权平均置信度高于一个阈值,则能够决定当前音频类型;以及
3)如果决定与当前音频类型相同的音频类型的先前分类器级段的数目高于一个阈值,则能够决定当前音频类型,并且
输出的置信度是当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中先前的置信度的权重高于后面的置信度的权重。
在另一个例子中,第二判决准则可以包含以下准则中的至少之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则此相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则此相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则此相同音频类型能够被相应类别估计决定,并且
输出的置信度是当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中先前的置信度的权重高于后面的置信度的权重。
在系统1500和方法1600的进一步的实施例中,如果链中的分类器级段和子步骤之一所采用的分类算法在分类出各音频类型的至少之一方面具有较高的准确性,那么该分类器级段和子步骤被指定较高优先级。
在系统1500和方法1600的进一步的实施例中,用于每个在后分类器级段和子步骤的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由该分类器识别的各音频类型,以及有关对应于每个音频类型的置信度的统计数据,这些置信度是由所有先前的分类器级段根据该音频样本生成的。
在系统1500和方法1600的进一步的实施例中,用于每个在后分类器级段和子步骤的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。
图17是图示根据本发明一个实施例的示例音频分类系统1700的框图。
如图17所示,音频分类系统1700包含从音频信号的分段中提取音频特征的特征提取器1711,和基于所提取的音频特征,用训练的模型对分段进行分类的分类装置1712。特征提取器1711包含比值计算器1721。比值计算器1721计算每个分段的谱区间高能量比以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。
图18是图示根据本发明一个实施例的示例音频分类方法1800的流程图。
如图18所示,音频分类方法1800从步骤1801开始。执行步骤1803到1807以从音频信号的分段中提取音频特征。
在步骤1803,针对每个分段计算谱区间高能量比,以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。
在步骤1807,确定是否存在尚未处理的另一个分段。如果存在,则方法1800返回到步骤1803。如果没有,则方法1800前进到步骤1809。
在步骤1809,基于所提取的音频特征,用训练的模型对分段进行分类。
方法1800在步骤1811结束。
在复杂度严格受限的某些情况下,能够用称作谱区间高能量比的特征来替代上述残余分析。谱区间高能量比特征被用来近似频率分解残余的性能。可以确定阈值,使得其性能近似频率分解残余的性能。
在一个例子中,该阈值可以被计算为下列之一:
1)分段的谱的平均能量,或该分段周围的分段范围的谱的平均能量;
2)分段的谱的加权平均能量,或该分段周围的分段范围的谱的加权平均能量,其中该分段具有相对较高的权重,该范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)平均能量或加权平均能量的换算值;以及
4)平均能量或加权平均能量加上或减去标准差。
图19是图示根据本发明一个实施例的示例音频分类系统1900的框图。
如图19所示,音频分类系统1900包含特征提取器1911、分类装置1912和后处理器1913,特征提取器1911从音频信号的分段中提取音频特征,分类装置1912根据提取的音频特征用训练的模型对分段进行分类,后处理器1913对分段的音频类型进行平滑。后处理器1913包含检测器1921和平滑器1922。
检测器1921在音频信号中搜索两个重复部分。平滑器1922通过把两个重复部分之间的分段当作非话音类型来对分类结果进行平滑。
图20是图示根据本发明一个实施例的示例音频分类方法2000的流程图。
如图20所示,音频分类方法2000从步骤2001开始。在步骤2003,从音频信号的分段中提取音频特征。
在步骤2005,基于所提取的音频特征,用训练的模型对分段进行分类。
在步骤2007,对分段的音频类型进行平滑。具体地,步骤2007包含在音频信号中搜索两个重复部分的子步骤,和通过把两个重复部分之间的分段当作非话音类型来对分类结果进行平滑的子步骤。
方法2000在步骤2011结束。
由于在话音信号部分之间几乎不能发现重复模式,因而能够假定如果识别出一对重复部分,则这对重复部分之间的信号分段是非话音的。因此,这个信号分段中的任何话音分类结果可被看作是误分类,并且能够被修正。例如,考虑具有大量误分类(分类为话音)的一段说唱音乐,如果重复模式搜索发现分别位于音乐的开始和结束附近的一对重复部分,则这两个部分之间的所有分类结果能够被修正为音乐,使得显著降低分类差错率。
此外,作为分类结果,可以通过分类来生成音频信号中每个分段的类别估计。每个类别估计可以包含估计的音频类型和相应置信度。在这样的情况下,可以根据下列准则之一进行平滑:
1)仅对具有低置信度的音频类型应用平滑,使得能够避免平滑信号中的实际突然变化;
2)在重复部分之间的相似度高于一个阈值,使得能够相信输入信号是音乐的情况下,在重复部分之间应用平滑,或者在重复部分之间存在足够″音乐″判决的情况下,例如超过50%的现有分段被分类为音乐,或多于100个的分段被分类为音乐,或分类为音乐的分段的数目多于分类为话音的分段的数目,在重复部分之间应用平滑;
3)仅当分类为音乐音频类型的分段在重复部分之间的所有分段中占大多数的情况下,在重复部分之间应用平滑;
4)仅当重复部分之间分类为音乐音频类型的分段的共同置信度或平均置信度高于重复部分之间分类为除音乐之外的音频类型的分段的共同置信度或平均置信度,或高于另一个阈值的情况下,在重复部分之间应用平滑。
图21是图示用于实现本发明的各个方面的示例性系统的框图。
在图21中,中央处理单元(CPU)2101根据只读存储器(ROM)2102中存储的程序或从存储部分2108加载到随机访问存储器(RAM)2103的程序执行各种处理。在RAM 2103中,也根据需要存储当CPU 2101执行各种处理等等时所需的数据。
CPU 2101、ROM 2102和RAM 2103经由总线2104彼此连接。输入/输出接口2105也连接到总线2104。
下列部件连接到输入/输出接口2105:包括键盘、鼠标等等的输入部分2106;包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分2107;包括硬盘等等的存储部分2108;和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分2109。通信部分2109经由例如因特网的网络执行通信处理。
根据需要,驱动器2110也连接到输入/输出接口2105。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质2111根据需要被安装在驱动器2110上,使得从中读出的计算机程序根据需要被安装到存储部分2108。
在通过软件实现上述步骤和处理的情况下,从例如因特网的网络或例如可移除介质2111的存储介质安装构成软件的程序。
本文中所用的术语仅仅是为了描述特定实施例的目的,而不意图限定本发明。本文中所用的单数形式的″一″和″该″旨在也包括复数形式,除非上下文中明确地另行指出。还应理解,″包括″一词当在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。前面对本发明进行的描述只是为了图解和描述,不被用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
这里描述了下面的示例性实施例(均用″EE″表示)。
EE 1.一种音频分类系统,包括:
能够在需要不同资源的至少两个模式下工作的至少一个装置;和
复杂度控制器,其确定组合并且指示所述至少一个装置根据所述组合来工作,其中对于所述至少一个装置中的每个,所述组合指定所述装置的模式之一,所述组合的资源要求不超过最大可用资源,
其中所述至少一个装置包括下列至少之一:
预处理器,用于使音频信号适配于所述音频分类系统;
特征提取器,用于从所述音频信号的分段中提取音频特征;
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类;和
后处理器,用于平滑所述分段的音频类型。
EE 2.如EE 1所述的音频分类系统,其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式,和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。
EE 3.如EE 1或2所述的音频分类系统,其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型,并且
其中所述预处理器的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式,和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式,并且
其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号,第二类型的音频特征提取自经预加重的所述转换音频信号。
EE 4.如EE 3所述的音频分类系统,其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一,并且
所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。
EE 5.如EE 1所述的音频分类系统,其中所述特征提取器被配置成:
根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数,和
计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据,
其中所述特征提取器的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式,和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。
EE 6.如EE 5所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average:满足以下条件至少之一的长期自相关系数的平均值:
a)大于第二阈值;以及
b)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不低于所有其它长期自相关系数;
4)High_Value_Percentage:High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average:满足以下条件至少之一的长期自相关系数的平均值:
c)小于第三阈值;以及
d)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不高于所有其它长期自相关系数;
6)Low_Value_Percentage(低值百分比):Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及
7)对比度:High_Average和Low_Average之间的比值。
EE 7.如EE 1或2所述的音频分类系统,其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征,在所述低通滤波器中允许低频敲击分量通过。
EE 8.如EE 1所述的音频分类系统,其中所述特征提取器被配置成:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取器的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。
EE 9.如EE 8所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于第四阈值;以及
b)在预定比例的残余内,所述预定比例的残余不低于所有其它残余;
4)Residual_Low_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
c)小于第五阈值;以及
d)在预定比例的残余内,所述预定比例的残余不高于所有其它残余;以及
5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之间的比值。
EE 10.如EE 1或2所述的音频分类系统,其中用于音频分类的音频特征包含谱区间高能量比,所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。
EE 11.如EE10所述的音频分类系统,其中所述第六阈值被计算为下列之一:
1)所述分段的谱的平均能量,或所述分段周围的分段范围的谱的平均能量;
2)所述分段的谱的加权平均能量,或所述分段周围的分段范围的谱的加权平均能量,其中所述分段具有相对较高的权重,所述范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)所述平均能量或加权平均能量的换算值;以及
4)平均能量或加权平均能量加上或减去标准差。
EE12.如EE 1所述的音频分类系统,其中所述分类装置包括:
具有不同优先级的至少两个分类器级段的链,这些分类器级段按照优先级的降序排列;以及
级段控制器,其确定从具有最高优先级的分类器级段开始的子链,其中所述子链的长度取决于所述组合中针对所述分类装置的模式,
其中每个所述分类器级段包括:
分类器,其根据提取自每个所述分段的相应音频特征生成当前类别估计,其中所述当前类别估计包含所估计的音频类型和相应置信度;以及
决策单元,其
1)在所述分类器级段位于所述子链的开始处的情况下,
确定所述当前置信度是否高于与所述分类器级段相关联的置信度阈值;以及
如果确定所述当前置信度高于所述置信度阈值,则通过输出所述当前类别估计来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段,
2)在所述分类器级段位于所述子链的中间的情况下,
确定所述当前置信度是否高于所述置信度阈值,或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型;以及
如果确定所述当前置信度高于所述置信度阈值,或所述类别估计能够决定音频类型,则通过输出所述当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段,以及
3)在所述分类器级段位于所述子链的结束处的情况下,
通过输出所述当前类别估计来终止音频分类,
或者
确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型;以及
如果确定所述类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类,否则通过输出所述当前类别估计来终止音频分类。
EE 13.如EE 12所述的音频分类系统,其中所述第一判决准则包括下列准则之一:
1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值,则能够决定所述当前音频类型;
2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值,则能够决定所述当前音频类型;以及
3)如果决定与所述当前音频类型相同的音频类型的先前分类器级段的数目高于第九阈值,则能够决定所述当前音频类型,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 14.如EE 12所述的音频分类系统,其中所述第二判决准则包括下列准则之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则此相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则此相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则此相同音频类型能够被相应类别估计决定,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 15.如EE 12所述的音频分类系统,其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性,那么所述分类器级段被指定较高优先级。
EE 16.如EE 12或15所述的音频分类系统,其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由所述分类器识别的音频类型,以及有关对应于每个所述音频类型的置信度的统计数据,这些置信度是由所有先前的分类器级段根据所述音频样本生成的。
EE 17.如EE 12或15所述的音频分类系统,其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。
EE 18.如EE 1所述的音频分类系统,其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计,其中每个所述类别估计包含所估计的音频类型和相应置信度,并且
其中所述后处理器的所述至少两个模式包含
确定窗口中对应于相同音频类型的置信度的最高和数或平均值,并且所述当前音频类型被所述相同音频类型所代替的模式,以及
采用具有相对短的长度的窗口,并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目,所述当前音频类型被所述相同音频类型所代替的另一个模式。
EE 19.如EE 1所述的音频分类系统,其中所述后处理器被配置成在所述音频信号中搜索两个重复部分,并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
EE 20.一种音频分类方法,包括:
能够在需要不同资源的至少两个模式下执行的至少一个步骤;
确定组合;以及
指示所述至少一个步骤根据所述组合来运行,其中对于所述至少一个步骤中的每个,所述组合指定所述步骤的模式之一,而所述组合的资源要求不超过最大可用资源,
其中所述至少一个步骤包括下列至少之一:
预处理步骤,使音频信号适配于所述音频分类;
特征提取步骤,从所述音频信号的分段中提取音频特征;
分类步骤,通过训练的模型,基于所提取的音频特征来对所述分段进行分类;以及
后处理步骤,对所述分段的音频类型进行平滑。
EE 21.如EE 20所述的音频分类方法,其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式,和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。
EE 22.如EE 20或21所述的音频分类方法,其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型,并且
其中所述预处理步骤的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式,和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式,并且
其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号,第二类型的音频特征提取自经预加重的所述转换音频信号。
EE 23.如EE 22所述的音频分类方法,其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一,并且
所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。
EE 24.如EE 20所述的音频分类方法,其中所述特征提取步骤包括:
根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数,和
计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据,
其中所述特征提取步骤的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式,和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。
EE 25.如EE 24所述的音频分类方法,其中所述统计数据包含以下各项中至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average:满足以下条件至少之一的长期自相关系数的平均值:
a)大于第二阈值;以及
b)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不低于所有其它长期自相关系数;
4)High_Value_Percentage:High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average:满足以下条件至少之一的长期自相关系数的平均值:
c)小于第三阈值;以及
d)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不高于所有其它长期自相关系数;
6)Low_Value_Percentage:Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及
7)对比度:High_Average和Low_Average之间的比值。
EE 26.如EE 20或21所述的音频分类方法,其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征,在所述低通滤波器中允许低频敲击分量通过。
EE 27.如EE 20所述的音频分类方法,其中所述特征提取步骤包括:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取步骤的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。
EE 28.如EE 27所述的音频分类方法,其中所述统计数据包含以下各项中至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于第四阈值;以及
b)在预定比例的残余内,所述预定比例的残余不低于所有其它残余;
4)Residual_Low_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
c)小于第五阈值;以及
d)在预定比例的残余内,所述预定比例的残余不高于所有其它残余;以及
5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之间的比值。
EE 29.如EE 21或22所述的音频分类方法,其中用于音频分类的音频特征包含谱区间高能量比,所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。
EE 30.如EE 29所述的音频分类方法,其中所述第六阈值被计算为下列之一:
1)所述分段的谱的平均能量,或所述分段周围的分段范围的谱的平均能量;
2)所述分段的谱的加权平均能量,或所述分段周围的分段范围的谱的加权平均能量,其中所述分段具有相对较高的权重,所述范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)所述平均能量或加权平均能量的换算值;以及
4)所述平均能量或加权平均能量加上或减去标准差。
EE 31.如EE 20所述的音频分类方法,其中所述分类步骤包括:
具有不同优先级的至少两个子步骤的链,这些子步骤按照优先级的降序排列;以及
控制步骤,确定从具有最高优先级的所述子步骤开始的子链,其中所述子链的长度取决于所述组合中针对所述分类步骤的模式,
其中每个所述子步骤包括:
根据提取自每个所述分段的相应音频特征生成当前类别估计,其中所述当前类别估计包含所估计的音频类型和相应置信度;
在所述子步骤位于所述子链的开始处的情况下,
确定所述当前置信度是否高于与所述子步骤相关联的置信度阈值;以及
如果确定所述当前置信度高于所述置信度阈值,则通过输出所述当前类别估计来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的子步骤,
在所述子步骤位于所述子链的中间的情况下,
确定所述当前置信度是否高于所述置信度阈值,或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型;以及
如果确定所述当前置信度高于所述置信度阈值,或所述类别估计能够决定音频类型,则通过输出所述当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的子步骤,以及
在所述子步骤位于所述子链的结束处的情况下,
通过输出所述当前类别估计来终止音频分类,
或者
确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型;以及
如果确定所述类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类,否则通过输出所述当前类别估计来终止音频分类。
EE 32.如EE 31所述的音频分类方法,其中所述第一判决准则包括下列准则之一:
1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值,则能够决定所述当前音频类型;
2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值,则能够决定所述当前音频类型;以及
3)如果决定与所述当前音频类型相同的音频类型的先前子步骤的数目高于第九阈值,则能够决定所述当前音频类型,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 33.如EE 31所述的音频分类方法,其中所述第二判决准则包括下列准则之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则此相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则此相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则此相同音频类型能够被相应类别估计决定,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 34.如EE 31所述的音频分类方法,其中如果所述子步骤之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性,那么所述子步骤被指定较高优先级。
EE 35.如EE 31或34所述的音频分类方法,其中用于每个在后子步骤中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由所述分类器识别的音频类型,以及有关对应于每个所述音频类型的置信度的统计数据,这些置信度是由所有先前的子步骤根据所述音频样本生成的。
EE 36.如EE 31或34所述的音频分类方法,其中用于每个在后子步骤中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前子步骤误分类或以低置信度分类的音频样本。
EE 37.如EE 20所述的音频分类方法,其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计,其中每个所述类别估计包含所估计的音频类型和相应置信度,并且
其中所述后处理步骤的所述至少两个模式包含
确定窗口中对应于相同音频类型的置信度的最高和数或平均值,并且所述当前音频类型被所述相同音频类型所代替的模式,以及
采用具有相对短的长度的窗口,并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目,所述当前音频类型被所述相同音频类型所代替的另一个模式。
EE 38.如EE 20所述的音频分类方法,其中所述后处理步骤包括在所述音频信号中搜索两个重复部分,以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理步骤的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
EE 39.一种音频分类系统,包括:
特征提取器,用于从所述音频信号的分段中提取音频特征,其中所述特征提取器包括:
系数计算器,其根据维纳-辛钦定理计算所述音频信号中长于阈值的分段的长期自相关系数,以作为音频特征,以及
统计数据计算器,其计算有关所述长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征,以及
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类。
EE 40.如EE 39所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average:满足以下条件至少之一的长期自相关系数的平均值:
a)大于第二阈值;以及
b)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不低于所有其它长期自相关系数;
4)High_Value_Percentage:High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average:满足以下条件至少之一的长期自相关系数的平均值:
c)小于第三阈值;以及
d)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不高于所有其它长期自相关系数;
6)Low_Value_Percentage:Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及
7)对比度:High_Average和Low_Average之间的比值。
EE 41.一种音频分类方法,包括:
从所述音频信号的分段中提取音频特征,包括:
根据维纳-辛钦定理计算所述音频信号中长于阈值的分段的长期自相关系数,以作为音频特征,以及
计算有关所述长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征,以及
基于所提取的音频特征,用训练的模型对所述分段进行分类。
EE 42.如EE 41所述的音频分类方法,其中所述统计数据包含以下各项中至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average:满足以下条件至少之一的长期自相关系数的平均值:
a)大于第二阈值;以及
b)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不低于所有其它长期自相关系数;
4)High_Value_Percentage:High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average:满足以下条件至少之一的长期自相关系数的平均值:
c)小于第三阈值;以及
d)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不高于所有其它长期自相关系数;
6)Low_Value_Percentage:Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及
7)对比度:High_Average和Low_Average之间的比值。
EE 43.一种音频分类系统,包括:
特征提取器,用于从所述音频信号的分段中提取音频特征;以及
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类,并且
其中所述特征提取器包括:
用于对所述分段进行滤波的低通滤波器,在所述低通滤波器中允许低频敲击分量通过,以及
计算器,用于通过对每个所述分段应用过零率来提取低音指示特征,以作为音频特征。
EE 44.一种音频分类方法,包括:
从所述音频信号的分段中提取音频特征;以及
基于所提取的音频特征,用训练的模型对所述分段进行分类,并且
其中所述提取包括:
通过低通滤波器对所述分段进行滤波,在所述低通滤波器中允许低频敲击分量通过,以及
通过对每个所述分段应用过零率来提取低音指示特征,以作为音频特征。
EE 45.一种音频分类系统,包括:
特征提取器,用于从所述音频信号的分段中提取音频特征;以及
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类,并且
其中所述特征提取器包括:
残余计算器,其对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
统计数据计算器,其对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中。
EE 46.如EE 45所述的音频分类系统,其中所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量,其中H1<H2<H3
EE 47.如EE 45所述的音频分类系统,其中所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域。
EE 48.如EE 45所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于第四阈值;以及
b)在预定比例的残余内,所述预定比例的残余不低于所有其它残余;
4)Residual_Low_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
c)小于第五阈值;以及
d)在预定比例的残余内,所述预定比例的残余不高于所有其它残余;以及
5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之间的比值。
EE 49.一种音频分类方法,包括:
从所述音频信号的分段中提取音频特征;以及
基于所提取的音频特征,用训练的模型对所述分段进行分类,并且
其中所述提取包括:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中。
50.如EE 49所述的音频分类方法,其中所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量,其中H1<H2<H3
EE 51.如EE 49所述的音频分类方法,其中所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域。
EE 52.如EE 49所述的音频分类方法,其中所述统计数据包含以下各项中至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于第四阈值;以及
b)在预定比例的残余内,所述预定比例的残余不低于所有其它残余;
4)Residual_Low_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
c)小于第五阈值;以及
d)在预定比例的残余内,所述预定比例的残余不高于所有其它残余;and
5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之间的比值。
EE 53.一种音频分类系统,包括:
特征提取器,用于从所述音频信号的分段中提取音频特征;以及
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类,并且
其中所述特征提取器包括:
比值计算器,其计算每个所述分段的谱区间高能量比以作为音频特征,其中所述谱区间高能量比是所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。
EE54.如EE 53所述的音频分类系统,其中所述特征提取器被配置成将所述阈值确定为下列之一:
1)所述分段的谱的平均能量,或所述分段周围的分段范围的谱的平均能量;
2)所述分段的谱的加权平均能量,或所述分段周围的分段范围的谱的加权平均能量,其中所述分段具有相对较高的权重,所述范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)所述平均能量或加权平均能量的换算值;以及
4)所述平均能量或加权平均能量加上或减去标准差。
EE 55.一种音频分类方法,包括:
从所述音频信号的分段中提取音频特征;以及
基于所提取的音频特征,用训练的模型对所述分段进行分类,并且
其中所述提取包括:
计算每个所述分段的谱区间高能量比以作为音频特征,其中所述谱区间高能量比是所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。
EE 56.如EE 55所述的音频分类方法,其中所述提取包括将所述阈值确定为下列之一:
1)所述分段的谱的平均能量,或所述分段周围的分段范围的谱的平均能量;
2)所述分段的谱的加权平均能量,或所述分段周围的分段范围的谱的加权平均能量,其中所述分段具有相对较高的权重,所述范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)所述平均能量或加权平均能量的换算值;以及
4)所述平均能量或加权平均能量加上或减去标准差。
EE 57.一种音频分类系统,包括:
特征提取器,用于从所述音频信号的分段中提取音频特征;以及
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类,并且
其中所述分类装置包括:
具有不同优先级的至少两个分类器级段的链,这些分类器级段按照优先级的降序排列,
其中每个所述分类器级段包括:
分类器,其根据提取自每个所述分段的相应音频特征生成当前类别估计,其中所述当前类别估计包含所估计的音频类型和相应置信度;以及
决策单元,其
1)在所述分类器级段位于所述链的开始处的情况下,
确定所述当前置信度是否高于与所述分类器级段相关联的置信度阈值;以及
如果确定所述当前置信度高于所述置信度阈值,则通过输出所述当前类别估计来终止音频分类,否则将所述当前类别估计提供给所述链中的所有后面的分类器级段,
2)在所述分类器级段位于所述链的中间的情况下,
确定所述当前置信度是否高于所述置信度阈值,或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型;以及
如果确定所述当前置信度高于所述置信度阈值,或所述类别估计能够决定音频类型,则通过输出所述当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类,否则将所述当前类别估计提供给所述链中的所有后面的分类器级段,以及
3)在所述分类器级段位于所述链的结束处的情况下,
通过输出所述当前类别估计来终止音频分类,
或者
确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型;以及
如果确定所述类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类,否则通过输出所述当前类别估计来终止音频分类。
EE 58.如EE 57所述的音频分类系统,其中所述第一判决准则包括下列准则之一:
1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值,则能够决定所述当前音频类型;
2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值,则能够决定所述当前音频类型;以及
3)如果决定与所述当前音频类型相同的音频类型的先前分类器级段的数目高于第九阈值,则能够决定所述当前音频类型,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 59.如EE 57所述的音频分类系统,其中所述第二判决准则包括下列准则之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则此相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则此相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则此相同音频类型能够被相应类别估计决定,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 60.如EE 57所述的音频分类系统,其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性,那么所述分类器级段被指定较高优先级。
EE 61.如EE 57或60所述的音频分类系统,其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由所述分类器识别的音频类型,以及有关对应于每个所述音频类型的置信度的统计数据,这些置信度是由所有先前的分类器级段根据所述音频样本生成的。
EE 62.如EE 57或60所述的音频分类系统,其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。
EE 63.一种音频分类方法,包括:
从所述音频信号的分段中提取音频特征;以及
基于所提取的音频特征,用训练的模型对所述分段进行分类,并且
其中所述分类包括:
具有不同优先级的至少两个子步骤的链,这些子步骤按照优先级的降序排列,并且
其中每个所述子步骤包括:
根据提取自每个所述分段的相应音频特征生成当前类别估计,其中所述当前类别估计包含所估计的音频类型和相应置信度;
在所述子步骤位于所述链的开始处的情况下,
确定所述当前置信度是否高于与所述子步骤相关联的置信度阈值;以及
如果确定所述当前置信度高于所述置信度阈值,则通过输出所述当前类别估计来终止音频分类,否则将所述当前类别估计提供给所述链中的所有后面的子步骤,
在所述子步骤位于所述链的中间的情况下,
确定所述当前置信度是否高于所述置信度阈值,或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型;以及
如果确定所述当前置信度高于所述置信度阈值,或所述类别估计能够决定音频类型,则通过输出所述当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类,否则将所述当前类别估计提供给所述链中的所有后面的子步骤,以及
在所述子步骤位于所述链的结束处的情况下,
通过输出所述当前类别估计来终止音频分类,
或者
确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型;以及
如果确定所述类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类,否则通过输出所述当前类别估计来终止音频分类。
EE 64.如EE 63所述的音频分类方法,其中所述第一判决准则包括下列准则之一:
1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值,则能够决定所述当前音频类型;
2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值,则能够决定所述当前音频类型;以及
3)如果决定与所述当前音频类型相同的音频类型的先前子步骤的数目高于第九阈值,则能够决定所述当前音频类型,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 65.如EE 63所述的音频分类方法,其中所述第二判决准则包括下列准则之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则此相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则此相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则此相同音频类型能够被相应类别估计决定,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
EE 66.如EE 63所述的音频分类方法,其中如果所述子步骤之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性,那么所述子步骤被指定较高优先级。
EE 67.如EE 63或66所述的音频分类方法,其中用于每个在后子步骤中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由所述分类器识别的音频类型,以及有关对应于每个所述音频类型的置信度的统计数据,这些置信度是由所有先前的子步骤根据所述音频样本生成的。
EE 68.如EE 63或66所述的音频分类方法,其中用于每个在后子步骤中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前子步骤误分类或以低置信度分类的音频样本。
EE 69.一种音频分类系统,包括:
特征提取器,用于从所述音频信号的分段中提取音频特征;
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类;以及
后处理器,用于平滑所述分段的音频类型,
其中所述后处理器包括:
检测器,其在所述音频信号中搜索两个重复部分,以及
平滑器,其通过把所述两个重复部分之间的分段当作非话音类型来对分类结果进行平滑。
EE 70.如EE 69所述的音频分类系统,其中所述分类装置被配置成通过音频分类来生成所述音频信号中每个所述分段的类别估计,其中每个所述类别估计包含所估计的音频类型和相应置信度,并且
其中所述平滑器被配置成根据下列准则之一对所述分类结果进行平滑:
1)仅对具有低置信度的音频类型应用平滑,
2)在所述重复部分之间的相似度高于一个阈值的情况下,或者在所述重复部分之间存在足够″音乐″判决的情况下,在所述重复部分之间应用平滑,
3)仅当分类为音乐音频类型的分段在所述重复部分之间的所有分段中占大多数的情况下,在所述重复部分之间应用平滑,
4)仅当所述重复部分之间分类为音乐音频类型的分段的共同置信度或平均置信度高于所述重复部分之间分类为除音乐之外的音频类型的分段的共同置信度或平均置信度,或高于另一个阈值的情况下,在所述重复部分之间应用平滑。
EE 71.一种音频分类方法,包括:
从所述音频信号的分段中提取音频特征;
基于所提取的音频特征,用训练的模型对所述分段进行分类;以及
平滑所述分段的音频类型,
其中所述平滑包括:
在所述音频信号中搜索两个重复部分,以及
通过把所述两个重复部分之间的分段当作非话音类型来对分类结果进行平滑。
EE 72.如EE 71所述的音频分类方法,其中通过所述音频分类针对所述音频信号中的每个所述分段生成类别估计,其中每个所述类别估计包含所估计的音频类型和相应置信度,并且
其中根据下列准则之一进行所述平滑:
1)仅对具有低置信度的音频类型应用平滑,
2)在所述重复部分之间的相似度高于一个阈值的情况下,或者在所述重复部分之间存在足够″音乐″判决的情况下,在所述重复部分之间应用平滑,
3)仅当分类为音乐音频类型的分段在所述重复部分之间的所有分段中占大多数的情况下,在所述重复部分之间应用平滑,
4)仅当所述重复部分之间分类为音乐音频类型的分段的共同置信度或平均置信度高于所述重复部分之间分类为除音乐之外的音频类型的分段的共同置信度或平均置信度,或高于另一个阈值的情况下,在所述重复部分之间应用平滑。
EE 73.如EE 12所述的音频分类系统,其中所述至少一个装置包括所述特征提取器、所述分类装置和所述后处理器,并且
其中所述特征提取器被配置成:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取器的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式,并且
其中所述后处理器被配置成在所述音频信号中搜索两个重复部分,并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
EE 74.如EE 31所述的音频分类方法,其中所述至少一个步骤包括所述特征提取步骤、所述分类步骤和所述后处理步骤,并且
其中所述特征提取步骤包括:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取步骤的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式,并且
其中所述后处理步骤包括在所述音频信号中搜索两个重复部分,以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理步骤的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
EE 75.一种计算机可读介质,其上记录有计算机程序指令,所述指令在被处理器执行时使得该处理器能够执行音频分类方法,所述方法包括:
能够在需要不同资源的至少两个模式下执行的至少一个步骤;
确定组合;以及
指示所述至少一个步骤根据所述组合来运行,其中对于所述至少一个步骤中的每个,所述组合指定所述步骤的模式之一,而所述组合的资源要求不超过最大可用资源,
其中所述至少一个步骤包括下列至少之一:
预处理步骤,使音频信号适配于所述音频分类;
特征提取步骤,从所述音频信号的分段中提取音频特征;
分类步骤,通过训练的模型,基于所提取的音频特征来对所述分段进行分类;以及
后处理步骤,对所述分段的音频类型进行平滑。

Claims (40)

1.一种音频分类系统,包括:
能够在需要不同资源的至少两个模式下工作的至少一个装置;以及
复杂度控制器,其确定组合并且指示所述至少一个装置根据所述组合来工作,其中对于所述至少一个装置中的每个,所述组合指定所述装置的模式之一,所述组合的资源要求不超过最大可用资源,
其中所述至少一个装置包括下列至少之一:
预处理器,用于使音频信号适配于所述音频分类系统;
特征提取器,用于从所述音频信号的分段中提取音频特征;
分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类;以及
后处理器,用于平滑所述分段的音频类型。
2.如权利要求1所述的音频分类系统,其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式,和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。
3.如权利要求1或2所述的音频分类系统,其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型,并且
其中所述预处理器的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式,和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式,并且
其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号,第二类型的音频特征提取自经预加重的所述转换音频信号。
4.如权利要求3所述的音频分类系统,其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一,其中所述谱区间高能量比是每个所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值,并且
所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。
5.如权利要求1所述的音频分类系统,其中所述特征提取器被配置成:
根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数,和
计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据,
其中所述特征提取器的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式,和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。
6.如权利要求5所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average:满足以下条件至少之一的长期自相关系数的平均值:
a)大于第二阈值;以及
b)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不低于所有其它长期自相关系数;
4)High_Value_Percentage:High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average:满足以下条件至少之一的长期自相关系数的平均值:
c)小于第三阈值;以及
d)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不高于所有其它长期自相关系数;
6)Low_Value_Percentage:Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及
7)对比度:High_Average和Low_Average之间的比值。
7.如权利要求1或2所述的音频分类系统,其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征,在所述低通滤波器中允许低频敲击分量通过。
8.如权利要求1所述的音频分类系统,其中所述特征提取器被配置成:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取器的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。
9.如权利要求8所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于第四阈值;以及
b)在预定比例的残余内,所述预定比例的残余不低于所有其它残余;
4)Residual_Low_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
c)小于第五阈值;以及
d)在预定比例的残余内,所述预定比例的残余不高于所有其它残余;以及
5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之间的比值。
10.如权利要求1或2所述的音频分类系统,其中用于音频分类的音频特征包含谱区间高能量比,所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。
11.如权利要求10所述的音频分类系统,其中所述第六阈值被计算为下列之一:
1)所述分段的谱的平均能量,或所述分段周围的分段范围的谱的平均能量;
2)所述分段的谱的加权平均能量,或所述分段周围的分段范围的谱的加权平均能量,其中所述分段具有相对较高的权重,所述范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)所述平均能量或加权平均能量的换算值;以及
4)所述平均能量或加权平均能量加上或减去标准差。
12.如权利要求1所述的音频分类系统,其中所述分类装置包括:
具有不同优先级的至少两个分类器级段的链,这些分类器级段按照优先级的降序排列;以及
级段控制器,其确定从具有最高优先级的分类器级段开始的子链,其中所述子链的长度取决于所述组合中针对所述分类装置的模式,
其中每个所述分类器级段包括:
分类器,其根据提取自每个所述分段的相应音频特征生成当前类别估计,其中所述当前类别估计包含所估计的音频类型和相应置信度;以及
决策单元,其
1)在所述分类器级段位于所述子链的开始处的情况下,
确定所述当前置信度是否高于与所述分类器级段相关联的置信度阈值;以及
如果确定所述当前置信度高于所述置信度阈值,则通过输出所述当前类别估计来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段,
2)在所述分类器级段位于所述子链的中间的情况下,
确定所述当前置信度是否高于所述置信度阈值,或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型;以及
如果确定所述当前置信度高于所述置信度阈值,或所述类别估计能够决定音频类型,则通过输出所述当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段,以及
3)在所述分类器级段位于所述子链的结束处的情况下,
通过输出所述当前类别估计来终止音频分类,
或者
确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型;以及
如果确定所述类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类,否则通过输出所述当前类别估计来终止音频分类。
13.如权利要求12所述的音频分类系统,其中所述第一判决准则包括下列准则之一:
1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值,则能够决定所述当前音频类型;
2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值,则能够决定所述当前音频类型;以及
3)如果决定与所述当前音频类型相同的音频类型的先前分类器级段的数目高于第九阈值,则能够决定所述当前音频类型,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
14.如权利要求12所述的音频分类系统,其中所述第二判决准则包括下列准则之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则所述相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则所述相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则所述相同音频类型能够被相应类别估计决定,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
15.如权利要求12所述的音频分类系统,其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性,那么所述分类器级段被指定较高优先级。
16.如权利要求12或15所述的音频分类系统,其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由所述分类器识别的音频类型,以及有关对应于每个所述音频类型的置信度的统计数据,这些置信度是由所有先前的分类器级段根据所述音频样本生成的。
17.如权利要求12或15所述的音频分类系统,其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。
18.如权利要求12所述的音频分类系统,其中所述至少一个装置包括所述特征提取器、所述分类装置和所述后处理器,并且
其中所述特征提取器被配置成:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取器的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式,并且
其中所述后处理器被配置成在所述音频信号中搜索两个重复部分,并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
19.如权利要求1所述的音频分类系统,其中通过所述音频分类针对所述音频信号中的每个所述分段生成当前类别估计,其中每个所述当前类别估计包含所估计的音频类型和相应置信度,并且
其中所述后处理器的所述至少两个模式包含
确定窗口中对应于相同音频类型的置信度的最高和数或平均值,并且当前音频类型被所述相同音频类型所代替的模式,以及
采用具有相对短的长度的窗口,并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目,当前音频类型被所述相同音频类型所代替的另一个模式。
20.如权利要求1所述的音频分类系统,其中所述后处理器被配置成在所述音频信号中搜索两个重复部分,并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
21.一种音频分类方法,包括:
能够在需要不同资源的至少两个模式下执行的至少一个步骤;
确定组合;以及
指示所述至少一个步骤根据所述组合来运行,其中对于所述至少一个步骤中的每个,所述组合指定所述步骤的模式之一,而所述组合的资源要求不超过最大可用资源,
其中所述至少一个步骤包括下列至少之一:
预处理步骤,使音频信号适配于所述音频分类;
特征提取步骤,从所述音频信号的分段中提取音频特征;
分类步骤,通过训练的模型,基于所提取的音频特征来对所述分段进行分类;以及
后处理步骤,对所述分段的音频类型进行平滑。
22.如权利要求21所述的音频分类方法,其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式,和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。
23.如权利要求21或22所述的音频分类方法,其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型,并且
其中所述预处理步骤的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式,和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式,并且
其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号,所述第二类型的音频特征提取自经预加重的所述转换音频信号。
24.如权利要求23所述的音频分类方法,其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一,其中所述谱区间高能量比是每个所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值,并且
所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。
25.如权利要求21所述的音频分类方法,其中所述特征提取步骤包括:
根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数,和
计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据,
其中所述特征提取步骤的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式,和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。
26.如权利要求25所述的音频分类方法,其中所述统计数据包含以下各项中至少之一:
1)均值:所有长期自相关系数的平均值;
2)方差:所有长期自相关系数的标准差;
3)High_Average:满足以下条件至少之一的长期自相关系数的平均值:
a)大于第二阈值;以及
b)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不低于所有其它长期自相关系数;
4)High_Value_Percentage:High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;
5)Low_Average:满足以下条件至少之一的长期自相关系数的平均值:
c)小于第三阈值;以及
d)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不高于所有其它长期自相关系数;
6)Low_Value_Percentage:Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及
7)对比度:High_Average和Low_Average之间的比值。
27.如权利要求21或22所述的音频分类方法,其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征,在所述低通滤波器中允许低频敲击分量通过。
28.如权利要求21所述的音频分类方法,其中所述特征提取步骤包括:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取步骤的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。
29.如权利要求28所述的音频分类方法,其中所述统计数据包含以下各项中至少之一:
1)相同分段的帧的相同级别的残余的均值;
2)方差:相同分段的帧的相同级别的残余的标准差;
3)Residual_High_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
a)大于第四阈值;以及
b)在预定比例的残余内,所述预定比例的残余不低于所有其它残余;
4)Residual_Low_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:
c)小于第五阈值;以及
d)在预定比例的残余内,所述预定比例的残余不高于所有其它残余;以及
5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之间的比值。
30.如权利要求21或22所述的音频分类方法,其中用于音频分类的音频特征包含谱区间高能量比,所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。
31.如权利要求30所述的音频分类方法,其中所述第六阈值被计算为下列之一:
1)所述分段的谱的平均能量,或所述分段周围的分段范围的谱的平均能量;
2)所述分段的谱的加权平均能量,或所述分段周围的分段范围的谱的加权平均能量,其中所述分段具有相对较高的权重,所述范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;
3)所述平均能量或加权平均能量的换算值;以及
4)所述平均能量或加权平均能量加上或减去标准差。
32.如权利要求21所述的音频分类方法,其中所述分类步骤包括:
具有不同优先级的至少两个子步骤的链,这些子步骤按照优先级的降序排列;以及
控制步骤,确定从具有最高优先级的所述子步骤开始的子链,其中所述子链的长度取决于所述组合中针对所述分类步骤的模式,
其中每个所述子步骤包括:
根据提取自每个所述分段的相应音频特征生成当前类别估计,其中所述当前类别估计包含所估计的音频类型和相应置信度;
在所述子步骤位于所述子链的开始处的情况下,
确定所述当前置信度是否高于与所述子步骤相关联的置信度阈值;以及
如果确定所述当前置信度高于所述置信度阈值,则通过输出所述当前类别估计来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的子步骤,
在所述子步骤位于所述子链的中间的情况下,
确定所述当前置信度是否高于所述置信度阈值,或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型;以及
如果确定所述当前置信度高于所述置信度阈值,或所述类别估计能够决定音频类型,则通过输出所述当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的子步骤,以及
在所述子步骤位于所述子链的结束处的情况下,
通过输出所述当前类别估计来终止音频分类,
或者
确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型;以及
如果确定所述类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类,否则通过输出所述当前类别估计来终止音频分类。
33.如权利要求32所述的音频分类方法,其中所述第一判决准则包括下列准则之一:
1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值,则能够决定所述当前音频类型;
2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值,则能够决定所述当前音频类型;以及
3)如果决定与所述当前音频类型相同的音频类型的先前子步骤的数目高于第九阈值,则能够决定所述当前音频类型,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
34.如权利要求32所述的音频分类方法,其中所述第二判决准则包括下列准则之一:
1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则所述相同音频类型能够被这些相应类别估计决定;
2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则所述相同音频类型能够被这些相应类别估计决定;以及
3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则所述相同音频类型能够被相应类别估计决定,并且
其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。
35.如权利要求32所述的音频分类方法,其中如果所述子步骤之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性,那么所述子步骤被指定较高优先级。
36.如权利要求32或35所述的音频分类方法,其中用于每个在后子步骤中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由所述分类器识别的音频类型,以及有关对应于每个所述音频类型的置信度的统计数据,这些置信度是由所有先前的子步骤根据所述音频样本生成的。
37.如权利要求32或35所述的音频分类方法,其中用于每个在后子步骤中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前子步骤误分类或以低置信度分类的音频样本。
38.如权利要求32所述的音频分类方法,其中所述至少一个步骤包括所述特征提取步骤、所述分类步骤和所述后处理步骤,并且
其中所述特征提取步骤包括:
对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及
对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,
其中所计算的残余和统计数据被包含在所述音频特征中,并且
其中所述特征提取步骤的所述至少两个模式包含
所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及
所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式,并且
其中所述后处理步骤包括在所述音频信号中搜索两个重复部分,以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理步骤的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
39.如权利要求21所述的音频分类方法,其中通过所述音频分类针对所述音频信号中的每个所述分段生成当前类别估计,其中每个所述当前类别估计包含所估计的音频类型和相应置信度,并且
其中所述后处理步骤的所述至少两个模式包含
确定窗口中对应于相同音频类型的置信度的最高和数或平均值,并且当前音频类型被所述相同音频类型所代替的模式,以及
采用具有相对短的长度的窗口,并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目,当前音频类型被所述相同音频类型所代替的另一个模式。
40.如权利要求21所述的音频分类方法,其中所述后处理步骤包括在所述音频信号中搜索两个重复部分,以及通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且
其中所述后处理步骤的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。
CN201110269279.XA 2011-09-02 2011-09-02 音频分类方法和系统 Expired - Fee Related CN102982804B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201110269279.XA CN102982804B (zh) 2011-09-02 2011-09-02 音频分类方法和系统
US13/591,466 US8892231B2 (en) 2011-09-02 2012-08-22 Audio classification method and system
EP12182831.3A EP2579256B1 (en) 2011-09-02 2012-09-03 Audio classification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110269279.XA CN102982804B (zh) 2011-09-02 2011-09-02 音频分类方法和系统

Publications (2)

Publication Number Publication Date
CN102982804A CN102982804A (zh) 2013-03-20
CN102982804B true CN102982804B (zh) 2017-05-03

Family

ID=47753190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110269279.XA Expired - Fee Related CN102982804B (zh) 2011-09-02 2011-09-02 音频分类方法和系统

Country Status (3)

Country Link
US (1) US8892231B2 (zh)
EP (1) EP2579256B1 (zh)
CN (1) CN102982804B (zh)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
CN104079247B (zh) 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
WO2014188231A1 (en) * 2013-05-22 2014-11-27 Nokia Corporation A shared audio scene apparatus
US9224385B1 (en) * 2013-06-17 2015-12-29 Google Inc. Unified recognition of speech and music
US9473852B2 (en) 2013-07-12 2016-10-18 Cochlear Limited Pre-processing of a channelized music signal
CN106409313B (zh) 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
CN104347068B (zh) * 2013-08-08 2020-05-22 索尼公司 音频信号处理装置和方法以及监控系统
CN103413553B (zh) 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
JP6156012B2 (ja) * 2013-09-20 2017-07-05 富士通株式会社 音声処理装置及び音声処理用コンピュータプログラム
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
WO2015171061A1 (en) * 2014-05-08 2015-11-12 Telefonaktiebolaget L M Ericsson (Publ) Audio signal discriminator and coder
CN112954580B (zh) 2014-12-11 2022-06-28 杜比实验室特许公司 元数据保留的音频对象聚类
US10055674B2 (en) * 2015-03-20 2018-08-21 Texas Instruments Incorporated Confidence estimation for optical flow
CN105608114B (zh) * 2015-12-10 2019-08-30 北京搜狗科技发展有限公司 一种音乐检索方法及装置
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
EP3309777A1 (en) * 2016-10-13 2018-04-18 Thomson Licensing Device and method for audio frame processing
CN106782614B (zh) * 2016-12-26 2020-08-18 广州酷狗计算机科技有限公司 音质检测方法及装置
CN107068125B (zh) * 2017-03-31 2021-11-02 北京小米移动软件有限公司 乐器控制方法及装置
CN107452401A (zh) * 2017-05-27 2017-12-08 北京字节跳动网络技术有限公司 一种广告语音识别方法及装置
GB2578386B (en) * 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
US10403303B1 (en) * 2017-11-02 2019-09-03 Gopro, Inc. Systems and methods for identifying speech based on cepstral coefficients and support vector machines
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
CN108417219B (zh) * 2018-02-22 2020-10-13 武汉大学 一种适应于流媒体的音频对象编解码方法
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
CN109166593B (zh) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US11017774B2 (en) 2019-02-04 2021-05-25 International Business Machines Corporation Cognitive audio classifier
GB2582748A (en) 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
CN110097895B (zh) * 2019-05-14 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 一种纯音乐检测方法、装置及存储介质
CN111684522A (zh) * 2019-05-15 2020-09-18 深圳市大疆创新科技有限公司 声音识别方法、交互方法、声音识别系统、计算机可读存储介质及可移动平台
CN114402389A (zh) * 2019-09-27 2022-04-26 雅马哈株式会社 音响解析方法、音响解析装置及程序
US20240038258A1 (en) * 2020-08-18 2024-02-01 Dolby Laboratories Licensing Corporation Audio content identification
CN112114886B (zh) * 2020-09-17 2024-03-29 北京百度网讯科技有限公司 误唤醒音频的获取方法和装置
CN113823277A (zh) * 2021-11-23 2021-12-21 北京百瑞互联技术有限公司 基于深度学习的关键词识别方法、系统、介质及设备
US11948599B2 (en) * 2022-01-06 2024-04-02 Microsoft Technology Licensing, Llc Audio event detection with window-based prediction
CN115312036B (zh) * 2022-06-29 2025-01-10 北京捷通数智科技有限公司 模型训练数据的筛选方法、装置、电子设备及存储介质
CN116189668B (zh) * 2023-04-24 2023-07-25 科大讯飞股份有限公司 语音分类、认知障碍检测方法、装置、设备及介质
CN118410201B (zh) * 2024-03-27 2024-11-12 深圳市双银科技有限公司 基于物联网平台的语音数据分类存储方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922658A (zh) * 2004-02-23 2007-02-28 诺基亚公司 音频信号的分类
CN101002254A (zh) * 2004-07-26 2007-07-18 M2Any有限公司 音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法和计算机程序
CN101145345A (zh) * 2006-09-13 2008-03-19 华为技术有限公司 音频分类方法
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3236000A1 (de) * 1982-09-29 1984-03-29 Blaupunkt-Werke Gmbh, 3200 Hildesheim Verfahren zum klassifizieren von audiosignalen
JPS59203202A (ja) 1983-04-30 1984-11-17 Sharp Corp ビデオテ−プの信号記録方式
US5902115A (en) 1995-04-14 1999-05-11 Kabushiki Kaisha Toshiba Recording medium on which attribute information on the playback data is recorded together with the playback data and a system for appropriately reproducing the playback data using the attribute information
US5712953A (en) 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
GB9705371D0 (en) * 1997-03-14 1997-04-30 British Telecomm Control of data transfer and distributed data processing
US6466923B1 (en) 1997-05-12 2002-10-15 Chroma Graphics, Inc. Method and apparatus for biomathematical pattern recognition
US6671407B1 (en) 1999-10-19 2003-12-30 Microsoft Corporation System and method for hashing digital images
US6901362B1 (en) 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
EP1244093B1 (en) * 2001-03-22 2010-10-06 Panasonic Corporation Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
US6975743B2 (en) 2001-04-24 2005-12-13 Microsoft Corporation Robust and stealthy video watermarking into regions of successive frames
US6996273B2 (en) 2001-04-24 2006-02-07 Microsoft Corporation Robust recognizer of perceptually similar content
US6973574B2 (en) 2001-04-24 2005-12-06 Microsoft Corp. Recognizer of audio-content in digital signals
US7020775B2 (en) 2001-04-24 2006-03-28 Microsoft Corporation Derivation and quantization of robust non-local characteristics for blind watermarking
US7356188B2 (en) 2001-04-24 2008-04-08 Microsoft Corporation Recognizer of text-based work
US6934694B2 (en) 2001-06-21 2005-08-23 Kevin Wade Jamieson Collection content classifier
AU2002346116A1 (en) 2001-07-20 2003-03-03 Gracenote, Inc. Automatic identification of sound recordings
US7877438B2 (en) 2001-07-20 2011-01-25 Audible Magic Corporation Method and apparatus for identifying new media content
TW561451B (en) 2001-07-27 2003-11-11 At Chip Corp Audio mixing method and its device
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US7373336B2 (en) 2002-06-10 2008-05-13 Koninklijke Philips Electronics N.V. Content augmentation based on personal profiles
US7082394B2 (en) 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US7095873B2 (en) 2002-06-28 2006-08-22 Microsoft Corporation Watermarking via quantization of statistics of overlapping regions
US7006703B2 (en) 2002-06-28 2006-02-28 Microsoft Corporation Content recognizer via probabilistic mirror distribution
JP2006525537A (ja) 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
ATE347143T1 (de) 2003-06-30 2006-12-15 Koninkl Philips Electronics Nv System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen
US7245767B2 (en) 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
US7831832B2 (en) 2004-01-06 2010-11-09 Microsoft Corporation Digital goods representation based upon matrix invariances
JP4296330B2 (ja) 2004-04-20 2009-07-15 株式会社トヨタIt開発センター 受信機、プログラムおよび記録媒体
US7770014B2 (en) 2004-04-30 2010-08-03 Microsoft Corporation Randomized signal transforms and their applications
WO2007070007A1 (en) * 2005-12-14 2007-06-21 Matsushita Electric Industrial Co., Ltd. A method and system for extracting audio features from an encoded bitstream for audio classification
US7417504B2 (en) 2006-08-04 2008-08-26 International Rectifier Corporation Startup and shutdown click noise elimination for class D amplifier
CN101563935B (zh) 2006-12-19 2011-12-28 皇家飞利浦电子股份有限公司 将二维视频转换为三维视频的方法和系统
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
EP2328363B1 (en) 2009-09-11 2016-05-18 Starkey Laboratories, Inc. Sound classification system for hearing aids
US20130070928A1 (en) * 2011-09-21 2013-03-21 Daniel P. W. Ellis Methods, systems, and media for mobile audio event recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922658A (zh) * 2004-02-23 2007-02-28 诺基亚公司 音频信号的分类
CN101002254A (zh) * 2004-07-26 2007-07-18 M2Any有限公司 音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法和计算机程序
CN101145345A (zh) * 2006-09-13 2008-03-19 华为技术有限公司 音频分类方法
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Real-time Speech-music Discriminator";RONALD M.AARTS等;《Journal of the Audio Engineering Society》;19990930;第47卷(第9期);全文 *

Also Published As

Publication number Publication date
EP2579256B1 (en) 2017-05-17
US8892231B2 (en) 2014-11-18
US20130058488A1 (en) 2013-03-07
CN102982804A (zh) 2013-03-20
EP2579256A1 (en) 2013-04-10

Similar Documents

Publication Publication Date Title
CN102982804B (zh) 音频分类方法和系统
US9313593B2 (en) Ranking representative segments in media data
RU2418321C2 (ru) Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала
CN111369982A (zh) 音频分类模型的训练方法、音频分类方法、装置及设备
JP5282548B2 (ja) 情報処理装置、音素材の切り出し方法、及びプログラム
JP2010510534A (ja) 音声アクティビティ検出システム及び方法
Nwe et al. Singing voice detection in popular music
CN106295717A (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
Nwe et al. Automatic Detection Of Vocal Segments In Popular Songs.
Lampropoulos et al. Evaluation of MPEG-7 descriptors for speech emotional recognition
Azarloo et al. Automatic musical instrument recognition using K-NN and MLP neural networks
CN109979428B (zh) 音频生成方法和装置、存储介质、电子设备
WO2013187986A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
Rezaul et al. Enhancing Audio Classification Through MFCC Feature Extraction and Data Augmentation with CNN and RNN Models
CN107133643A (zh) 基于多特征融合及特征选择的乐音信号分类方法
Deb et al. Exploration of phase information for speech emotion classification
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
WO2019053544A1 (en) IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX
Gao et al. Vocal melody extraction via DNN-based pitch estimation and salience-based pitch refinement
CN115938346B (zh) 音准评估方法、系统、设备及存储介质
Wang et al. Revealing the processing history of pitch-shifted voice using CNNs
Sreejith et al. Rāga recognition in Indian carnatic music using transfer learning
EP1914720A1 (en) Information processing apparatus and method, program, and record medium
KR20060029663A (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
CN115662465A (zh) 一种适用于民族弦乐乐器的声音识别算法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170503

Termination date: 20180902