CN102576562B

CN102576562B - 自动生成用于音频占优性效果的元数据

Info

Publication number: CN102576562B
Application number: CN201080045292.0A
Authority: CN
Inventors: J·C·瑞德米勒; R·拉达克里希南; H·缪施
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2009-10-09
Filing date: 2010-10-05
Publication date: 2015-07-08
Anticipated expiration: 2030-10-05
Also published as: US9552845B2; US20120201386A1; EP2486567A1; WO2011044153A1; CN102576562A

Abstract

自动生成包括用于产生占优性效果的一组增益值的元数据。自动生成所述元数据包括：接收多个音频流以及用于所述音频流中的至少一个的占优性准则。基于用于所述至少一个音频流的占优性准则而对于一个或多个音频流计算一组增益，并且通过该组增益而生成元数据。

Description

自动生成用于音频占优性效果的元数据

相关申请的交叉引用

本申请要求于2009年10月9日提交的美国临时专利申请No.61/250,457的优先权，通过引用将其全文合并到此。

技术领域

本发明总体上涉及占优性效果。更具体地说，本发明实施例涉及自动生成用于音频占优性效果的元数据。

背景技术

常常要求广播工作室传送与音频和/或视频节目关联的两个或更多个音频流。例如，主要音频流可以包括节目的主要对话、音乐以及效果，辅助音频流可以包括描述性音频(例如，将用于视觉受损观众的语音)。

音频流可以总是有效(active)或可以并非总是有效。例如，包括描述性音频的辅助音频流可以是在设置并且描述节目中的场景(或场景改变)的时段期间有效的。然而，如果辅助音频流在与主要音频流相同的时间是有效的，则辅助音频流可能位于主要音频流上而用户听不清。

此部分中描述的方法是可以实行的方法，但不一定是先前已经构思或实行的方法。因此，除非另外指示，否则不应假设该部分中描述的任何方法仅由于它们被包括在该部分中而限制为现有技术。相似地，对于一个或多个方法所指出的问题不应基于该部分而假设在任何现有技术中已经识别，除非另外指示。

附图说明

在附图中通过示例的方式而不是限制的方式示出本发明，并且其中，相似标号指代相似元件，并且其中：

图1描述根据实施例的元数据生成单元的示例；

图2描述用于基于自动生成的元数据而产生占优性效果的示例方法；

图3A-图3B示出根据实施例的音频流信号的示例；

图4描述示出在其上可以实现实施例的计算机系统的框图；以及

图5描述根据实施例的示例IC设备。

具体实施方式

在此描述的示例实施例涉及自动生成音频占优性效果。在以下描述中，为了解释，阐述大量细节以提供本发明的透彻理解。然而，本领域技术人员应理解，在没有这些具体细节的情况下仍可以实现本发明。在其它情况下，以框图形式示出公知结构和设备，以免使本发明模糊。

在此根据以下纲要描述示例实施例：

1.0普通概述

2.0架构和功能概述

3.0示例流程图

4.0实现机制-硬件概述

5.0等同物、扩展、替代和其它

1.0普通概述

在可能的实施例中，自动生成包括用于一个或多个音频流以产生占优性效果的增益值的元数据。自动生成所述元数据可以包括：接收第一音频流和第二音频流，计算用于所述第一音频流和所述第二音频流中的至少一个以产生所述第二音频流超过所述第一音频流的占优性效果的一组增益，以及生成包括用于所述第一音频流和所述第二音频流中的至少一个的该组增益的元数据。

在可能的实施例中，基于所述第二音频流超过所述第一音频流的占优性准则而计算该组增益。所述占优性准则的示例包括所述第一音频流与所述第二音频流之间的响度比率、以及所述第一音频流与所述第二音频流之间的功率比率。计算该组增益可以包括：推导所述第一音频流和所述第二音频流中的至少一个的响度值。所述占优性准则可以包括所述第二音频流的清晰度准则，其中，对于一个或多个音频流计算该组增益，以满足所述第二音频流的清晰度准则。所述清晰度准则可以是语音清晰度值，例如语音清晰度指标。所述占优性准则可以基于频率子带而变化。

在可能实施例中，基于所述第一音频流包括语音内容还是非语音内容而计算该组增益。该组增益可以根据与所述第一音频流包括语音内容还是非语音内容相关联的置信度水平而变化。可以对于不同频率子带计算不同的增益组。在实施例中，可以在如下这样的约束下推导该组增益：即在应用对应的一组增益之后，组合的第一音频流和第二音频流的响度不超过第一音频流和第二音频流的响度值中的较大者。

在可能实施例中，当多个音频流有效时，可以识别交叠信号时间间隔。可以仅当多个音频流有效时计算该组增益。可以当仅单个音频流有效时使用中性或其它默认增益值。

本发明其它实施例可以包括具有用于执行上述步骤的功能的系统、包括当被执行时实行上述步骤的指令的计算机可读存储介质、以及用于执行上述步骤的装置。

2.0架构和功能概述

在此描述与自动生成音频占优性效果有关的可能实施例的示例。在以下描述中，为了解释，阐述大量细节以提供本发明的透彻理解。然而，应理解，在没有这些具体细节的情况下仍可以实现本发明。在其它情况下，不详尽地描述公知结构和设备，以避免使本发明闭塞、模糊或混乱。

图1示出根据一个实施例的元数据生成单元(100)的示例。元数据生成单元(100)包括用于自动生成包括一组增益的元数据的硬件和/或软件，该组增益将应用于两个或更多个音频流中的至少一个音频流以产生占优性效果。元数据生成单元(100)可以包括用于对数字数据流或信号进行编码或解码的编解码器(压缩器-解压缩器/编码器-解码器)。在实施例中，可以在从其可以广播自动生成的元数据和对应音频流的广播工作室实现元数据生成单元(100)。在实施例中，元数据生成单元(100)包括信号检测单元(104)、增益计算逻辑(110)、以及传输单元(116)。

这些组件中的每一个被描述如下，并且可以位于相同设备(例如服务器、主计算机、台式PC、膝上型计算机、PDA、电视、分线盒、卫星盒、机房(kiosk)、电话、移动电话等)上，或可以位于通过网络(例如互联网、内联网、外联网、局域网(LAN)、广域网(WAN)等)与有线和/或无线分段耦合的分离设备上。在一个或多个实施例中，可以使用客户机-服务器拓扑来实现元数据生成单元(100)。元数据生成单元(100)自身可以是在一个或多个服务器上运行的企业应用，并且在一些实施例中，可以是对等系统，或驻留在单个计算系统上。此外，可以使用一个或多个接口、web门户或任何另外工具从其它机器访问元数据生成单元(100)。在一个或多个实施例中，一个或多个用户可通过网络连接(例如互联网)访问元数据生成单元(100)。元数据生成单元(100)提供的信息和/或服务也可以被存储并且通过网络连接被访问。

在实施例中，音频流(例如音频流A(102)和音频流B(106))通常表示作为元数据生成单元(100)的输入而提供的包括音频部分的任何信号。音频流可以是压缩的或未压缩的信号。提供为输入的音频流可以是相同或不同的格式。未压缩的格式的示例包括波形音频格式(waveform audio format，WAV)、音频互换文件格式(audiointerchange file format，AIFF)、Au文件格式和脉冲码调制(PulseCode Modulation，PCM)。压缩格式的示例包括有损格式(例如DolbyDigital(也称为AC-3)、增强Dolby Digital、高级音频编码(AdvancedAudio Coding，AAC)、视窗媒体音频(Windows Media Audio，WMA)MPEG-1以及音频层3(Audio Layer 3，MP3))和无损格式(例如Dolby TrueHD)。在实施例中，音频流可以与多通道节目流中的一个或多个通道对应。例如，音频流A(102)可以包括左通道和右通道，音频流B(106)可以包括中央通道。可以为了简化和简明一致而在该说明书中进行示例音频流的选择(例如格式、内容、数量)，除非明确地声明相反，否则不应理解为将实施例限制为特定音频流，因为本发明实施例良好地适合于对于任何媒体格式/内容而起作用。

在实施例中，音频流可以表示包括音乐、声音效果、主要对话等的媒体内容的主要音频流。音频流也可以仅表示与媒体内容关联的主要音频(例如音乐、声音效果、主要对话等中的一个或多个)的一部分。音频流可以表示与媒体内容关联的任何附加和/或替换音频内容。例如，用于视觉受损观众的辅助音频流可以表示描述场景、场景改变、动作顺序或与媒体内容关联的任何其它描述性信息的描述性音频(例如语音)。

音频流A(102)和音频流B(106)可以表示任何两个音频流，其中，应用于至少一个音频流的增益组产生一个音频流超过另一音频流的占优性效果。虽然图1示出两个音频流，但实施例可应用于任何数量的音频流，其中，可以计算一组增益并且应用于音频流中的至少一个以产生占优性效果。

在可能实施例中，信号检测单元(104)与用于检测一个或多个有效信号的软件和/或硬件对应。例如，信号检测单元(104)可以基于能量水平而确定信号是否有效。例如，信号检测单元(104)可以被配置为：如果信号的能量水平满足能量水平阈值，则确定信号有效。在实施例中，信号检测单元可以包括用于识别在其期间两个或更多个信号(例如音频流A(102)、音频流B(106)等)同时有效的交叠信号时间间隔(108)的功能。在实施例中，一个信号(例如主要信号)可以总是有效/ON，信号检测单元(104)可以仅用于检测附加信号的存在。

信号检测单元(104)可以指的是可以被配置为接受两个或更多个电信号(例如音频流A(102)和音频流B(106))作为输入的单个处理模块或一组处理模块。信号检测单元(104)可以包括用于确定对于任何给定帧的或在任何给定时间的电信号的频率的功能。例如，信号检测单元(104)可以确定对于给定音频帧有效的频率子带。信号检测单元(104)可以包括用于检测信号对于任何给定帧是有效还是无效的功能。信号可以被定义为当帧中的信号能量或幅度超过阈值时有效，当帧中的信号能量或幅度不超过阈值时无效。替代地，信号帧可以被定义为仅当信号是特定类型(例如语音)时有效，并且当信号是不同类型(例如音乐)时无效。对于不同音频信号可以使用用于确定信号是有效还是无效的不同准则。信号检测单元(104)可以接收指示音频流有效或无效时的时间间隔的元数据。例如，元数据可以标记音频信号从音频帧120到音频帧250是有效的。信号检测单元(104)可以包括用于计算两个或更多个音频流有效时的交叠信号时间间隔(108)的功能。

信号检测单元(104)也可以产生在一个或多个音频流中的信号是语音的似然率的量度。例如，分类器可以用于基于从输入音频提取的特征而检测语音信号，其中，使用对于语音信号收集的训练数据来训练分类器。在实施例中，可以计算基于音频信号内的特征的语音值，并且信号为语音的似然率基于语音值与指示语音的阈值的接近性。例如，高斯混合模型(Gaussian Mixture Model，GMM)可以用于对特定信号类型(例如语音)的特征的概率密度函数进行建模。在该示例中，可以使用m维随机矢量Y来表示对于每一音频帧提取的特征数量m。可以在训练期间学习用于特定信号类型的高斯混合K、混合系数π、均值μ以及方差R的数量，其中，θ＝(π，μ，R)。也可以使用期望最大算法来估计参数K和θ。包括语音的整个序列Yn(n＝1，2...N)的概率的对数于是可以由下式给出：

\log p_{y} (y | K, θ) = Σ_{n = 1}^{N} \log (Σ_{k = 1}^{K} p_{y_{n}} (y_{n} | k, θ) π_{k})

公式(1)

在此，N表示从被建模的特定信号类型的训练示例提取的特征矢量总数，如下所示计算在第k混合分量下训练数据的似然率：

p_{y_{n}} (y_{n} | k, θ) = \frac{1}{{(2 π)}^{\frac{M}{2}} {| R |}^{\frac{1}{2}}} c^{- \frac{1}{2} {(y_{n} - μ_{k})}^{T} R_{k}^{- 1} (y_{n} - μ_{k})}

公式(2)

一旦已经从训练数据学习了参数K和，就可以对于用于表示(不是训练数据的部分的)音频片段的任何新输入特征矢量使用以上两个公式来计算语音值，以确定音频片段包括语音的似然率。语音值和指示语音的阈值也可以用于推导音频片段包括语音的置信度量度。

在实施例中，增益计算逻辑(110)通常表示包括用于生成元数据(114)的功能的软件和/或硬件。元数据(114)包括可以应用于一个或多个音频流(例如音频流A(102)和音频流B(106))以产生至少一个音频流超过至少一个另外音频流的占优性效果的一组增益。应用于音频流的增益值改变该音频流的声音强度。改变一个音频流的声音强度影响该音频流相对于其余音频流的凸显(salience)。凸显的改变用于产生期望的占优性效果。

在实施例中，增益计算逻辑(110)基于至少一个占优性准则(112)而计算待应用于一个或多个音频流的一组增益。占优性准则(112)表示至少一个音频流被期望优于其余音频流的程度。术语“占优性”或“优于”指的是一个音频流比其余音频流更“凸显”或“更容易感知”。可以通过响度差异、可以理解音频流中的语音的容易性的差异或以其余音频流为代价影响一个音频流被注意到的程度的任何其它措施来实现占优性。占优性准则(112)可以定义特定音频流相对于其它音频流的声压差。占优性准则(112)也可以是信号的物理量度的感知相关变换，例如响度比率或语音清晰度的量度。在实施例中，占优性准则可以(例如基于频率、基于内容、基于音频流的特定部分的优先级等)而变化。

在实施例中，占优性准则(112)可以包括表示特定音频流的清晰度的最小水平的清晰度准则。音频流的清晰度是可以与该音频流的理解性或可懂性关联的值。音频流的清晰度可以直接与和音频流的关联的声压的绝对值有关。例如，音频流可能不足够响得被听到，或可能即使音频流可以被听到也对于优化清晰度而言太响。音频流的清晰度也可以与音频流与其它同时音频流比较的相对声压有关。例如，温柔表达(soft spoken)的教师的课程可以在安静的教室中被很好地理解。然而，同样的温柔表达的教师的课程可能在背景噪声(例如风、车等)可以淹没掉温柔表达的教师的话音的外部难以理解。在此所指的清晰度是普通听者的用于对说出的消息的意义进行解码的能力。可以根据一个或多个模型(例如语音清晰度指标(Speech IntelligibilityIndex(SII，ANSI S3.51997)))从音频信号的特性来预测清晰度。在实施例中，ANSI S3.5的语音清晰度指标被取作清晰度的量度。

在实施例中，清晰度准则定义了当一组增益应用于两个或更多个同时播放的音频流时特定音频流的清晰度的水平。例如，清晰度准则可以定义在一组增益应用于音频流A(102)和音频流B(106)中的一个或多个并且音频流被同时播放之后音频流B(106)的清晰度的最小水平。在实施例中，可以对于音频流的有效部分定义清晰度准则。例如，如果音频流A(102)贯穿特定多媒体内容的播放而有效，音频流B(106)对于特定多媒体内容的播放的一部分有效，则清晰度准则可以定义每当音频流B(106)有效时音频流B(106)的清晰度的最小水平。在实施例中，清晰度准则可以包括特定音频流的声压的绝对最小和/或最大水平。例如，用于特定音频流的清晰度准则可以定义播放音频流的最小和/或最大分贝。

在实施例中，增益计算逻辑(110)可以包括用于从信号检测单元(104)接收交叠信号时间间隔(108)并且生成包括增益值的元数据(114)使得通过对应增益值混合的音频流满足至少一个音频流的占优性准则(112)的功能。增益计算逻辑(110)可以生成包括可应用于音频流的整个范围或交叠信号时间间隔(108)的增益组的元数据。在实施例中，当仅一个音频流有效时，可以使用中性增益值(例如没有增加或减少)或其它默认增益值。在实施例中，增益计算逻辑(110)可以包括用于计算增益使得当一个音频流有效或多个音频流有效时保持一致响度的功能。例如，可以在这样的约束下推导一组增益：在应用该组增益之后，组合的第一音频流和第二音频流的响度不超过第一音频流和第二音频流的响度值中的较大者。

在实施例中，传输单元(116)通常表示用于发送或接收一个或多个音频流的软件和/或硬件。传输单元(116)可以包括用于对音频流进行编码和/或解码以分别获得编码的音频流和解码的音频流的功能。例如，传输单元(116)可以包括获得对于对应音频流(例如音频流A(102)和音频流B(106))的来自增益计算逻辑(110)的元数据(114)的功能。传输单元可以被配置为：对音频流进行编码，并且以元数据(114)对编码的音频流进行打包(package)，并且将包(例如压缩的文件)发送到另一设备。

在实施例中，接收设备(未示出)上的传输单元可以包括用于对接收的音频流进行解码的功能。传输单元可以还包括用于将根据元数据(114)的增益应用于一个或多个音频流的功能。传输单元可以包括用于在多通道音频再现系统中以各自的增益值分别流送多个音频流或将多个音频流混合为单个输出(例如用于立体声或单声)的功能。

3.0示例流程图

图2示出根据一个或多个实施例的用于基于自动生成的元数据产生占优性效果的一个或多个示例方法。

虽然在此可参照特定数量的音频流，但本发明实施例可应用于任何数量的音频流。图2所示的一个或多个步骤可以被修改、重排或全部一起省略。

在该示例中，初始地接收两个或更多个音频流(步骤202)。例如，音频流X₁(t)和X₂(t)可以作为两个分离的电信号被接收，其中，音频流X₁(t)和X₂(t)作为时间“t”的函数被同步。音频流中的每一个可以在任何特定时间间隔是有效的。其中两个或更多个音频流有效的时间间隔可以在此被称为交叠信号时间间隔。图3A和图3B示出作为时间的函数的音频流信号的示例。如可以参照图3A指代的那样，第一音频流(310)和第二音频流(320)在不同时间(330)可以都是有效和无效的，从而可以存在当两个音频流有效时的交叠信号时间间隔(340)。如可以参照图3B指代的那样，音频流中的一个(例如第一音频流(350))可在所有时间或大部分时间是有效的，而另一音频流(例如第二音频流(360))可在小时间间隔期间是有效的。

相应地，在第二示例中，每当第二音频流(360)有效时，可以存在交叠信号时间间隔(380)。

在实施例中，特定时间或音频帧可以进入作为输入，以确定在该时间或音频帧每一音频流是否有效。基于对于每一音频流的确定，在其期间两个或更多个音频流有效的帧可以被识别为交叠信号时间间隔的部分(步骤204)。在另一示例中，可以基于简单地指示对应音频流何时有效或无效的元数据而计算交叠信号时间间隔。例如，在交叠信号时间间隔内识别指示为对于多个音频流有效的任何音频帧。任何其它合适的方法可以用于识别当多个音频流有效时的交叠信号时间间隔。在实施例中，可以一起省略交叠信号时间间隔的检测。例如，如果主要音频流总是有效，则每当辅助音频流有效时，两个流(例如主要音频流和辅助音频流)可以被已知有效。

在实施例中，根据一个或多个实施例，可以接收用于特定音频流的占优性准则(步骤206)。例如，可以接收与指示用于特定音频流的占优性准则的与特定音频流关联的元数据。可以随机地、连续地或周期性地接收对于占优性准则的更新。例如，辅助音频流的关键部分可能需要由占优性准则的临时或持久更新指示的增加的占优性水平。

在实施例中，可以基于占优性准则计算用于一个或多个音频流的一组增益(步骤208)。考虑计算如下这样的一组增益的示例，其当应用于第一音频流和第二音频流时导致第二音频流超过第一音频流占优。在该示例中，可以对于第一音频流和第二音频流的每一帧计算一组增益。计算一组增益可以包括：确定第二音频流中的不同频率子带上的能量。基于第二音频流中的不同频率子带上的能量，可以对于第二音频流计算对应掩蔽(masking)曲线。然后可以将掩蔽曲线与第一音频流中的不同频率子带上的能量的谱进行比较。然后可以对于第一音频流和第二音频流中的至少一个跨频率子带计算正或负增益，使得所得的第二音频流的掩蔽曲线在与得到的第一音频流对应的能量的谱之上，以根据可应用的占优性准则而产生占优性效果。第二音频流的掩蔽曲线与和第一音频流对应的能量的谱之间的差异可以基于频率子带而变化，如上所述。可以计算一组增益，使得第二音频流的掩蔽曲线与和第一音频流对应的能量的谱之间的差异可以基于第一音频流或第二音频流的内容而变化。例如，如果第一音频流和第二音频流都被识别为语音内容，则可以计算在第二音频流的掩蔽曲线与和第一音频流对应的能量的谱之间产生大差异的一组增益。由于第二音频流中的语音可能因第一音频流中的同时语音难以理解，因此可能需要第二音频流的掩蔽曲线与和第一音频流对应的能量的谱之间的大的差异。如果第一音频流反而被确定为背景噪声(例如道路交通)，则由于第二音频流中的语音可以在第一音频流中的同时背景噪声的情况下容易理解，因此第二音频流的掩蔽曲线与和第一音频流对应的能量的谱之间的差异可以不那么大。在实施例中，确定音频流内容是否为语音可以基于置信度水平(例如80％)。可以基于置信度水平而确定第二音频流的掩蔽曲线与和第一音频流对应的能量的谱之间的差异。

在以上示例中计算的增益信号可能在帧之间剧烈地变化，并且可以产生讨厌的赝像。例如，增益的应用可能产生对于听者可听到并且烦人的一个或多个音频流的突然能量改变。在实施例中，增益信号可以被低通滤波，以平滑从帧到帧的增益信号差异，以在应用于第一音频流和/或第二音频流时减少所述能量改变的突然性。在实施例中，低通滤波可以基于音频编码系统定义的时间帧速率。相应地，可以基于使用中的音频编解码器和/或流类型而自适应地生成增益值(以及包括增益值的元数据(步骤210))。在实施例中，可以基于一组帧的平均强度和/或声压使用如上所述的相似的计算对于帧组而计算增益。

在实施例中，一组增益可以应用于音频流中的至少一个(步骤212)。在实施例中，音频流可以基于一组增益而混合(例如，组合为单个音频流)，以产生其中至少一个原始音频流优于至少一个另一原始音频流的单个输出(例如，对于立体声或单声)。可以在接收音频流和一组增益的设备处应用该组增益。可以由生成一组增益并且发送通过应用增益所获得的单个输出的设备应用该组增益。一组增益也可以应用于一个或多个音频流，其中，该音频流可以经由多通道音频再现系统的不同通道被以各自的增益单独地流送。因此，可以通过或不通过将音频流组合为单个音频流来产生至少一个音频流超过至少一个另一音频流的占优性效果。一个音频流超过另一音频流的声压占优性在此可以被称为一个音频流优于另一音频流。

4.0实现机制

图4描述了示出在其上可以实现本发明实施例的计算机系统400的框图。计算机系统400包括：总线402或其它通信机构，用于传送信息；以及与总线402耦合的处理器404，用于处理信息。计算机系统400还包括主存储器406(例如随机存取存储器(random accessmemory，RAM))或其它动态存储设备，耦合到总线402，以用于存储信息和待由处理器404执行的指令。主存储器406也可以用于在执行待由处理器404执行的指令期间存储临时变量或其它中间信息。计算机系统400还包括只读存储器(read only memory，ROM)408或其它静态存储设备，耦合到总线402，以用于存储用于处理器404的静态信息和指令。存储设备410(例如磁盘或光盘)被提供并且耦合到总线402，以用于存储信息和指令。

计算机系统400可以经由总线402耦合到显示器412(例如阴极射线管(cathode ray tube，CRT))，以用于将信息显示给计算机用户。包括字母数字和其它键的输入设备414耦合到总线402，以用于将信息和命令选择传递到处理器404。另一类型的用户输入设备是光标控制416(例如鼠标、轨迹球、或光标方向键)，其用于将方向信息和命令选择传送到处理器404并且控制显示器412上的光标移动。该输入设备可以在两个轴(第一轴(例如x)和第二轴(例如y))中具有两个自由度，这允许设备指定平面中的位置。

本发明涉及用于实现在此描述的技术的计算机系统400的使用。根据本发明实施例，计算机系统400响应于处理器404执行主存储器406中包含的一个或多个指令的一个或多个序列而执行这些技术。这些指令可以从另一机器可读介质(例如存储设备410)读入主存储器406。执行主存储器406中包含的指令序列使得处理器404执行在此描述的处理步骤。在替换实施例中，硬连线电路可以用于代替软件指令或与之组合以实现本发明。因此，本发明实施例不限于硬件电路和软件的任何特定组合。

在此使用的术语“机器可读介质”指的是参与提供使得机器以特定方式操作的数据的任何介质。在使用计算机系统400实现的实施例中，在将指令提供给处理器404以用于执行例如涉及各种机器可读介质。这些介质可以采取很多形式，包括但不限于存储介质和传输介质。存储介质包括非易失性介质和易失性介质。非易失性介质包括例如光盘或磁盘，例如存储设备410。易失性介质包括动态存储器，例如主存储器406。传输介质包括同轴缆线、铜导线和光纤，其包括包含总线402的配线。传输介质也可以采用例如在无线电波和红外数据通信期间生成的声波或光波的形式。所有这些媒体必须是可触知的，以使得将指令读入机器的物理机构能够检测介质所承载的指令。

机器可读介质的常用形式例如包括软盘、柔性盘、硬盘、磁带或任何其它磁介质、CD-ROM、任何其它光介质、穿孔卡、纸带、具有孔的图案的任何其它物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其它存储芯片或盒、下文中描述的载波、或计算机可以从其进行读取的任何其它介质。

各种形式的机器可读介质可以涉及将一个或多个指令的一个或多个序列携带到处理器404以用于执行。例如，在远程计算机的磁盘上可以初始地承载指令。远程计算机可以将指令加载到其动态存储器，并且使用调制解调器通过电话线发送指令。计算机系统400本地的调制解调器可以在电话线上接收数据，并且使用红外发射机将数据转换为红外信号。红外检测器可以接收红外信号中承载的数据，并且适当的电路可以将数据放置在总线402上。总线402将数据携带到主存储器406，处理器404从主存储器406检索并且执行指令。主存储器406接收的指令可以任选地在处理器404执行之前或之后存储在存储设备410上。

计算机系统400还包括耦合到总线402的通信接口418。通信接口418提供耦合到连接到本地网络422的网络链路420的双向数据通信。例如，通信接口418可以是用于提供对于对应类型的电话线路的数据通信连接的综合业务数字网络(integrated services digitalnetwork，ISDN)卡或调制解调器。作为另一示例，通信接口418可以是局域网(local area network，LAN)卡，以提供对于兼容LAN的数据通信连接。也可以实现无线链路。在任何这样实现中，通信接口418发送并且接收承载表示各种类型信息的数字数据流的电、电磁或光信号。

网络链路420典型地通过一个或多个网络将数据通信提供给其它数据设备。例如，网络链路420可以提供通过本地网络420到主机计算机424或由互联网服务提供商(Internet Service Provider，ISP)426操作的数据装备的连接。ISP 426进而通过现在统称为“互联网”428的世界分组数据通信网络提供数据通信服务。本地网络422和互联网428都使用承载数字数据流的电、电磁或光信号。承载到和来自处理系统400的数据的通过各个网络的信号和网络链路420上并且通过通信接口418的信号是传送信息的载波的示例性形式。

计算机系统400可以通过网络、网络链路420和通信接口418来发送消息并且接收包括程序代码的数据。在互联网示例中，服务器430可以通过互联网428、ISP 426、本地网络422和通信接口418发送用于应用程序的请求的代码。

接收的代码可以随着其被接收而由处理器404执行，和/或存储在存储设备410或其它非易失性存储器中，以用于稍后执行。以此方式，计算机系统400可以获得载波形式的应用代码。

图5描述示例IC设备500，通过其可以实现本发明可能实施例。IC设备500可以具有输入/输出(I/O)特征501。I/O特征501接收输入信号，并且经由路由构造510将它们路由到通过存储器503起作用的中央处理单元(central processing unit，CPU)502。I/O特征501还从IC设备500的其它组件特征接收输出信号，并且可以通过路由构造510控制信号流的部分。数字信号处理(digital signal processing，DSP)特征至少执行与数字信号处理有关的功能。接口505存取外部信号并且将它们路由到I/O特征501，并且允许IC设备500输出信号。路由构造510在IC设备500的各个组件特征之间路由信号和功率。

可配置和/或可编程处理元件(configurable and/orprogrammable processing element，CPPE)511(例如逻辑门阵列)可以执行IC设备500的专用功能，其在实施例中可以涉及推导和处理通常对应于媒体内容的媒体指纹。存储器512为CPPE 511指定足够的存储器单元以高效地运作。CPPE可以包括一个或多个专用DSP特征514。

5.0等同物、扩展、替换和杂项

在前面的说明书中，已经参照可以根据实现方式而变化的大量特定细节描述了本发明实施例。因此，本发明的唯独和排他的指示以及申请人对于本发明的意图是从本申请以包括任何后续改正的权利要求发布的特定形式发布的权利要求。对于这些权利要求中包含的术语的在此明确地阐述的任何定义应掌控权利要求中所使用的这些术语的意义。因此，权利要求中未明确地陈述的限制、元件、特性、特征、优点和属性不应以任何方式限制该权利要求的范围。相应地，说明书和附图应被看作是说明性而不是限制性的。

Claims

1.一种用于自动生成用于音频占优性效果的元数据的方法，包括：

接收第一音频流和第二音频流；

接收所述第二音频流超过所述第一音频流的占优性准则；

确定所述第一音频流和所述第二音频流交叠的信号时间间隔；

基于所述占优性准则计算用于所述第一音频流和所述第二音频流中的至少一个以产生所述第二音频流超过所述第一音频流的占优性效果的一组增益，其中该组增益仅对于交叠信号时间间隔被计算；

生成包括用于所述第一音频流和所述第二音频流中的至少一个的该组增益的元数据。

2.如权利要求1所述的方法，其中，所述占优性准则包括所述第一音频流与所述第二音频流之间的响度比。

3.如权利要求1所述的方法，其中，所述占优性准则包括所述第一音频流与所述第二音频流之间的功率比。

4.如权利要求1所述的方法，其中，在以下约束下推导出该组增益：在应用该组增益之后，组合的所述第一音频流和所述第二音频流的响度不超过所述第一音频流和所述第二音频流的响度值的较大者。

5.如权利要求1所述的方法，

其中，接收占优性准则包括：

确定在所述第一音频流和所述第二音频流两者都有效的间隔期间所述第二音频流包括语音的置信度水平，其中所述置信度水平指示所述第二音频流包含语音的似然性；

其中，对于所述第一音频流和所述第二音频流两者都有效的所述间隔的该组增益依赖于所述第二音频流在所述第一音频流和所述第二音频流两者都有效的所述间隔期间包括语音的置信度水平而改变。

6.如权利要求1所述的方法，其中，基于频率子带而计算该组增益，其中，与第一频率子带关联的第一组增益不同于与第二频率子带关联的第二组增益。

7.如权利要求6所述的方法，还包括：

接收用于所述第一频率子带的第一占优性准则，其中，基于所述第一占优性准则而计算所述第一组增益，

接收用于所述第二频率子带的第二占优性准则，其中，基于所述第二占优性准则而计算所述第二组增益。

8.如权利要求1所述的方法，还包括：

发送所述第一音频流、所述第二音频流和所述元数据。

9.如权利要求1所述的方法，还包括：

基于所述元数据而混合所述第一音频流以及所述第二音频流。

10.如权利要求1所述的方法，其中，对于在交叠信号时间间隔之外的有效音频流应用默认增益值。

11.如权利要求1所述的方法，其中，所述第一音频流包括与媒体内容关联的主要音频，并且其中，所述第二音频流包括与所述媒体内容关联的描述性音频。

12.如权利要求1所述的方法，其中，所述第一音频流包括多通道节目中的一个或多个通道的第一集合，其中，所述第二音频流包括所述多通道节目中的一个或多个通道的第二集合。

13.一种用于自动生成用于音频占优性效果的元数据的方法，包括：

接收第一音频流和第二音频流；

计算用于所述第一音频流和所述第二音频流中的至少一个以产生所述第二音频流超过所述第一音频流的占优性效果的一组增益，其中，计算该组增益包括：

接收第二音频流的清晰度准则；

其中，所述清晰度准则代表所述第二音频流的最小清晰度，并且包括所述第二音频流的声压的绝对最小水平和/或绝对最大水平；

其中，计算该组增益以使得将所述第二音频流的清晰度推进到所述清晰度准则之上；

14.一种用于自动生成用于音频占优性效果的元数据的装置，包括：

用于接收第一音频流和第二音频流的部件；

用于接收所述第二音频流超过所述第一音频流的占优性准则的部件；

用于确定所述第一音频流和所述第二音频流交叠的信号时间间隔的部件；

用于基于所述占优性准则计算用于所述第一音频流和所述第二音频流中的至少一个以产生所述第二音频流超过所述第一音频流的占优性效果的一组增益的部件，其中该组增益仅对于交叠信号时间间隔被计算；

用于生成包括用于所述第一音频流和所述第二音频流中的至少一个的该组增益的元数据的部件。

15.如权利要求14所述的装置，其中，所述占优性准则包括所述第一音频流与所述第二音频流之间的响度比。

16.如权利要求14所述的装置，其中，所述占优性准则包括所述第一音频流与所述第二音频流之间的功率比。

17.如权利要求14所述的装置，其中，在以下约束下推导出该组增益：在应用该组增益之后，组合的所述第一音频流和所述第二音频流的响度不超过所述第一音频流和所述第二音频流的响度值的较大者。

18.如权利要求14所述的装置，

其中，用于接收占优性准则的部件包括：

用于确定在所述第一音频流和所述第二音频流两者都有效的间隔期间所述第二音频流包括语音的置信度水平的部件，其中所述置信度水平指示所述第二音频流包含语音的似然性；

19.如权利要求14所述的装置，其中，基于频率子带而计算该组增益，其中，与第一频率子带关联的第一组增益不同于与第二频率子带关联的第二组增益。

20.如权利要求19所述的装置，还包括：

用于接收用于所述第一频率子带的第一占优性准则的部件，其中，基于所述第一占优性准则而计算所述第一组增益，

用于接收用于所述第二频率子带的第二占优性准则的部件，其中，基于所述第二占优性准则而计算所述第二组增益。

21.如权利要求14所述的装置，还包括：

用于发送所述第一音频流、所述第二音频流和所述元数据的部件。

22.如权利要求14所述的装置，还包括：

用于基于所述元数据而混合所述第一音频流以及所述第二音频流的部件。

23.如权利要求14所述的装置，其中，对于在交叠信号时间间隔之外的有效音频流应用默认增益值。

24.如权利要求14所述的装置，其中，所述第一音频流包括与媒体内容关联的主要音频，并且其中，所述第二音频流包括与所述媒体内容关联的描述性音频。

25.如权利要求14所述的装置，其中，所述第一音频流包括多通道节目中的一个或多个通道的第一集合，其中，所述第二音频流包括所述多通道节目中的一个或多个通道的第二集合。

26.一种用于自动生成用于音频占优性效果的元数据的装置，包括：

用于接收第一音频流和第二音频流的部件；

用于计算用于所述第一音频流和所述第二音频流中的至少一个以产生所述第二音频流超过所述第一音频流的占优性效果的一组增益的部件，其中，用于计算该组增益的部件包括：

用于接收第二音频流的清晰度准则的部件；