CN106537929B

CN106537929B - 处理音频数据的方法、处理器及计算机可读存储介质

Info

Publication number: CN106537929B
Application number: CN201580028647.8A
Authority: CN
Inventors: 斯蒂芬·施赖纳; 西蒙·法格; 哈拉尔德·福斯; 简·普洛格施蒂斯; 斯蒂芬·多赫拉
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-05-28
Filing date: 2015-03-27
Publication date: 2019-07-09
Anticipated expiration: 2035-03-27
Also published as: ES2739886T3; CN110177297A; EP3149955B1; PT3522554T; KR20170023870A; US20230396856A1; CA2950197C; EP3149955A1; AR125776A2; EP3800898B1; RU2653858C1; MX2016015388A; ES2883498T3; MX359385B; US20240357212A1; KR101967810B1; MY174199A; AR125774A2; US20220286756A1; EP3800898C0

Abstract

一种音频数据处理器，包括：接收器接口，用于接收编码的音频数据以及与编码的音频数据相关的元数据；元数据解析器，用于解析元数据以确定音频数据操作可能性；交互接口，用于接收交互输入并用于从交互输入生成与音频数据操作可能性相关的交互控制数据；以及数据流生成器，用于获取交互控制数据、编码的音频数据以及元数据，并用于生成输出数据流，输出数据流包括编码的音频数据、元数据的至少部分，以及交互控制数据。

Description

处理音频数据的方法、处理器及计算机可读存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及音频数据处理器，用于处理音频数据的方法以及用于执行处理音频数据的方法的计算机程序。

背景技术

在家用消费性电子产品(CE)设施中，功能遍布于通过标准化接口连接的多个装置之上。另外，(高品质)设备常常不止构建为单个装置，而且可获得复杂的单个装置(考虑机顶盒、电视机、AVR接收器)。这些装置通过标准化接口(诸如HDMI)通信。

在第一装置提取期望流并向用户提供所有接口时，第二装置常常在没有任何接口给用户的情况下以“从属模式”执行解码。就用户交互及解码器的控制而论，在此情形下，有必要将此用户信息从装置#1传输至装置#2。

例如，如图9中所示，电视节目常常通过诸如机顶盒的第一装置接收，该第一装置选择适合的传输信道并提取包括期望编码要素的相关基本流。这些提取的流可被馈送至诸如音频-视频-接收器的第二装置用于再现。可通过传输解码的/解压缩的表示(PCM音频)或以编码的表示(尤其是在对所使用的互连线应用带宽限制的情况下)实现这两个装置之间的传输。

另外，由于选择期望流和/或可选地用户交互在装置#1(例如，机顶盒)中实现，在大多数情况下，仅此装置向用户提供控制接口。第二装置(例如，A/V接收器)仅提供配置接口并在正常操作时间以“从属模式”起作用，该配置接口通常仅可被用户在设定系统时访问一次。

现代音频编解码器方案不仅支持音频信号的编码，并且提供用于用户交互以使得音频播出及渲染适于听者喜好的方法。音频数据流由大量编码的音频信号(例如，信道信号或音频对象)和伴随元数据信息组成，该伴随元数据信息描述这些音频信号如何形成被渲染至扬声器的音频场景。

用于音频对象的示例为：

·以不同语言进行的对话，

·额外对话如音频描述，或

·音乐及音效背景。

用于元数据信息的示例为：

·每个对象信号的默认音量等级(即，其混合成混合信号以用于扬声器呈现所需的响度)，

·默认空间位置(即，其必须被渲染的位置)，

·信息，针对特定对象是否允许用户交互，或

·允许用户如何交互的信息，例如，最小/最大音量等级或对用户可将对象重新平移到的位置的限制。

·音频对象的分类和/或描述。

为了实现用户交互，音频解码器/渲染器(例如装置#2)需要提供用于控制信息的额外 (输入或交互)接口以用于期望的用户交互。

可选地，当在装置#2而不是在装置#1中实施解码和渲染时，在装置#1中实施用于音频对象选择和操作的用户控制并将此数据馈送至装置#2也是可取的。

然而，由于现有的标准化连接不支持用户控制数据和/或渲染器信息的传输的事实，此类数据的传输受到限制。

可选地，如以上针对装置#1所述的流选择和用户交互以及如以上针对装置#2所述的解码可由包含在相同装置中的两个单独的功能部件在对两个部件之间的数据传输具有相同限制的情况下处理，该限制即：仅用于编码的数据及用户交互数据的一个接口是可用的，优选地为装置#1的交互接口，而可以省略用于用户交互数据的第二接口(即通常由装置#2提供的接口)。即使装置#1和装置#2包含或实施于相同(硬件)装置内，此导致如针对单独的装置#1和装置#2的情况所描述的相同情形。

为了实现所述用例并克服以上所述的限制，提出将用户控制信息数据或(通常的)交互数据嵌入至编码的音频数据流中。

发明内容

因此，本发明的目标在于改进现有的音频数据处理器。

一般地，第一装置可被配置为如下定义的音频数据处理器，包括：接收器接口，用于接收编码的音频数据以及与编码的音频数据相关的元数据；元数据解析器，用于解析元数据以确定音频数据操作可能性；交互接口，用于接收交互输入并用于从交互输入生成与音频数据操作可能性相关的交互控制数据；以及数据流生成器，用于获取交互控制数据、编码的音频数据以及元数据，并用于生成输出数据流，输出数据流包括编码的音频数据、元数据的至少部分以及交互控制数据。

编码的音频数据可包括单独的编码的音频对象，其中元数据的至少部分与对应音频对象相关，其中元数据解析器用于解析用于编码的音频对象的对应部分以至少针对音频对象确定对象操作可能性，其中交互接口用于针对至少一个编码的音频对象从与至少一个编码的音频对象相关的交互输入生成交互控制数据。因此，通过使用各自的交互控制数据，可在存储于元数据内的它们的对应对象操作可能性内简单并直接地操作音频对象。

交互接口可用于向用户呈现由元数据解析器从元数据得出的音频数据操作可能性，并用于从用户接收关于数据操作可能性的特定数据操作的用户输入。此可实现切实可行的方法，以向用户提供用户接口用于与所发明的装置进行交互(例如，用于操作音频对象，优选地在外部从解码器)。

数据流生成器可用于处理包括通过接收器接口接收的编码的音频数据和元数据的数据流而不对编码的音频数据进行解码，或用于复制编码的音频数据和元数据的至少部分而不改变输出数据流，其中数据流生成器用于将包含交互控制数据的额外数据部分添加至输出数据流中的编码的音频数据和/或元数据。此提供较小复杂性的优势，因为音频数据处理器不需要解码音频信号。它仅需要解析元数据并将其写回至编码的音频数据流的元数据部分。

数据流生成器可用于在输出数据流中以与元数据相同的格式生成交互控制数据。因此，可将任何交互控制数据有利地整合至输出数据流中。

数据流生成器可用于将交互控制数据与输出数据流中的标识符相关联，标识符不同于与元数据相关联的标识符。使用用于经操作的元数据的不同标识符的优势在于可使能远程解码器以在接收原始数据的同时从接收的经操作的数据流识别交互。

数据流生成器可用于将签名数据添加至交互控制数据，签名数据表示关于执行交互(例如音频数据操作)或提供用户输入的应用、装置或用户的信息。通过传输原始以及经操作的数据，元数据的重置是可能的。元数据中的签名允许追踪操作的起源。

元数据解析器可用于识别用于由编码的音频数据表示的一个或多个音频对象的禁用可能性，其中交互接口用于接收用于一个或多个音频对象的禁用信息，以及其中数据流生成器用于在交互控制数据中将一个或多个音频对象标记为禁用，或用于从编码的音频数据中移除被禁用的一个或多个音频对象，以使得输出数据流不包括用于被禁用的一个或多个音频对象的编码的音频数据。因此，数据流可适于那些实际上或当前可用的音频对象，从而可减少当前比特流的总数据内容。

数据流生成器可用于动态地生成输出数据流，其中响应于新的交互输入，更新交互控制数据以匹配新的交互输入，以及其中数据流生成器用于将更新的交互控制数据包括至输出数据流中。因此，数据流可与实时信息一起发送。换言之，可以以快速方式(优选地，实时地)更新并处理关于任意音频对象特定值的交互输入。

接收器接口可用于接收包括编码的音频数据以及与编码的音频数据相关的元数据的主音频数据流，并用于额外地接收包括可选音频对象的可选音频数据，其中与所述可选音频对象相关的元数据包含在所述主音频数据流中。以此配置，音频数据处理器可将所选可选音频对象的编码的音频数据合并至主音频数据流中，从而导致由数据流生成器生成的完整的输出音频数据流。因此，可随后或按需要向用户额外地提供可选音频对象。

元数据解析器用于针对未包含在编码的音频数据中的缺失音频对象确定音频操作可能性，其中交互接口用于接收针对缺失音频对象的交互输入，以及其中接收器接口用于向音频数据提供者请求用于缺失音频对象的音频数据，或用于从包含在广播流中的不同子流或因特网协议连接接收用于缺失音频对象的音频数据。因此，装置或用户可提前操作可选地可用额外音频对象，即当其实际上缺失时。然后，可随后通过因特网或其他广播流请求该额外音频对象。

数据流生成器可用于在输出数据流中将另外的封包类型分配给交互控制数据，另外的封包类型与用于编码的音频数据和元数据的封包类型不同，或其中数据流生成器用于将填充数据封包类型的填充数据添加至输出数据流，其中基于由音频数据处理器的输出接口确定的数据率需求确定填充数据的量。因此，为了分别实现经操作的元数据或交互控制数据的传输，仅需要分配一个另外的封包类型。此外，音频数据处理器可能希望将额外的填充数据添加至随后的数据传输流以满足对于该链路的给定的、通常较高的数据率需求。此填充数据可不包括信息并且预期将被解码器忽略。

音频数据处理器可被实施为单独装置，其中接收器接口用于形成经由有线或无线连接至单独装置的输入，其中音频数据处理器还可包括连接至数据流生成器的输出接口，输出接口用于输出输出数据流，其中输出接口执行装置的输出，并包括无线接口或有线连接器。因此，可提供例如在网络中的简单连通性。

可通过用于处理音频数据的方法进一步实现本发明，该方法包括：接收编码的音频数据以及与编码的音频数据相关的元数据；解析元数据以确定音频数据操作可能性；接收交互输入并用于从交互输入生成与音频数据操作可能性相关的交互控制数据；以及获取交互控制数据、编码的音频数据以及元数据，并生成输出数据流，输出数据流包括编码的音频数据、元数据的至少部分以及交互控制数据。

可通过计算机程序进一步实现本发明，当其在计算机或处理器上运行时该计算机程序用于执行前述的处理音频数据的方法。

可通过以下实施例进一步实现本发明：

音频数据操作可选自包括对象选择、多种语言的选择、可选额外音频对象的选择、对象操作、一个或多个对象的改变的音量、对象位置的改变(如将额外评论(additionalcommentary)从中心扬声器移动至右侧扬声器或其间的任意位置)以及替代单独地选择及操作每个对象的预设项(preset)的选择中的至少一个的群组，其中选择来自元数据的预设项，其中预设项是由内容创建者针对特定应用或特定使用场景推荐的对象的预选，其中，与默认呈现相比，预设项包括具有例如不同的音量等级、位置以及响度/动态范围压缩数据的对象的组合。

数据流生成器可用于生成交互控制数据作为独立信息或作为相依性信息，其中相依性信息取决于元数据以及结果，在应用于解码的音频数据的情况下，连同在由交互输入定义的数据操作中的元数据。

编码的音频数据可包括可选音频对象，元数据可包括用于可选音频对象的元数据，其中接收器接口可用于额外地接收具有主音频数据的主音频数据流，其中数据流生成器可用于生成输出数据流，以使得输出数据流额外地包括主音频数据。

数据流生成器可用于将错误保护数据添加至输出数据流，并用于将另外的封包类型分配给错误保护数据，其中数据流生成器用于从编码的音频数据、元数据或交互控制数据得出错误保护数据。

数据流生成器可用于生成输出数据流作为用于串流的数据流或作为以诸如ISOMPEG-4文件格式的文件格式的基于容器的文件。

进一步建议音频数据处理器不具有对编码的音频数据进行解码的功能。

可在机顶盒、电视机或音频/视频记录器-接收器中实施音频数据处理器。

音频数据处理器可进一步包括用于通过HDMI连接将输出数据流传输至另外装置的输出接口。

音频数据处理器也可以连同解码器一起提供(即集成或实施)在相同(硬件)装置内。例如，音频数据处理器可和解码器一起提供在电视机(TV)、机顶盒(Set-Top Box)、A/V接收器(A/V Receiver)或类似中。音频数据处理器以及解码器可通过内部数据总线结构通信。在包括系统级芯片(SoC)方案的TV装置中尤其期望此配置。

相应地或可选地，类似于以上针对单独装置的情况所描述的情况，音频数据处理器可被实施为相同装置中的独立且单独的功能部件，唯一的差别在于输出接口在装置内部的连接上(例如使用内部数据总线)执行音频数据处理器的输出。

关于上面提及的特征，根据本发明的音频数据处理器能够提供与装置或用户的容易交互，且同时提供简单的装置设置(优选地，使用现有设施)。

此外，根据本发明的音频数据处理器通过将装置交互或用户交互作为额外交互数据嵌入至音频比特流中提供针对以上所提及问题的解决方案。通过实施上述特征，解码器实施可仅需要取走编码的表示数据以及交互控制数据的一个接口。已经存在的互连无需实施用于控制信息的新的信道，而实施工作被移至编解码器本身。在复杂的设置中，进一步确保交互控制信息被紧密地关联至编码要素，且因此在通过多个处理阶段的馈送时不会丢失。

附图说明

在附图中示出并将在下文中解释根据本发明实施例的示例，其中：

图1展示根据本发明的音频数据处理器；

图2展示根据本发明的用于处理音频数据的方法；

图3展示编码的音频数据以及相关元数据的示例；

图4展示处理输入和输出流的示例；

图5展示处理输入和输出流的另一示例；

图6展示处理可选音频数据的音频数据处理器；

图7展示在单独装置中实施的音频数据处理器；

图8展示具有第一装置和第二装置的示例性用例；以及

图9展示具有机顶盒以及音频-视频接收器的示例性情形。

具体实施方式

在此整个文件中，且特别是在下面的描述中，在通过用户的交互或通过装置的交互以及一般交互(即通常意义上的交互)的意义上使用术语“交互”。换言之，“交互”可意味着“用户交互”或“装置交互”，或通常的交互。在描述的特定部分中，同义地使用术语“用户”和“交互”。例如，可在交互接口及其他方式的意义上同义地使用用户接口。

此外，“用户”可以是人类用户或机器用户，如(硬件)装置或软件实施的装置。

另外，用户接口可呈现为装置特定预设配置，其可取代用户输入或作为用户输入的补充而控制数据操作。

图1展示根据本发明的音频数据处理器1。音频数据处理器1包括用于接收编码的输入流 15的接收器接口2，编码的输入流包括编码的音频数据3以及元数据4。元数据4与编码的音频数据3相关，其相关通过箭头110指示。例如，编码的音频数据3可包含音频对象，而元数据4可包含关于所述音频对象的操作可能性的另外信息。

音频数据处理器1进一步包括用于解析元数据4以确定音频数据操作可能性的元数据解析器5。例如，可调节的音量等级、可调节的空间位置或可选择的语言可表示音频对象的音频数据操作可能性。

此外，音频数据处理器1包括用于接收交互输入7的交互接口6。交互接口6还用于基于交互输入7生成交互控制数据8。所述交互控制数据8与前述音频数据操作可能性相关。例如，通过借由交互接口6调节音频对象的音量等级或空间位置或选择语言，用户可与装置交互。在此情况下，交互接口6是可生成与用户选择相关的对应用户控制数据8的用户接口6。

另外或可选地，交互接口6可以是装置(特定)交互接口6。在此情况下，装置交互接口6用于基于装置交互输入7生成装置交互控制数据8。例如，诸如头戴式耳机或类似的装置可与交互接口6连接。头戴式耳机与交互接口6之间的连接可被音频处理器检测到并因此可被视为交互输入7。因此，在连接头戴式耳机之后，交互接口6提供头戴式耳机特定交互控制数据8，如音频对象操作，例如音量的自动降低、预选的语言或在硬件配置中的调节。

换言之，替代手动的用户交互，交互接口6基于某些装置的检测自动选择对象或调节。交互接口6生成装置特定交互控制数据8。

音频数据处理器1还包括数据流生成器9。数据流生成器9获取交互控制数据8、编码的音频数据3及元数据4。数据流生成器9用于生成包括前述的交互控制数据8、编码的音频数据3及元数据4的输出数据流10。

图2展示根据本发明的用于处理音频数据的对应方法。

在步骤201中，接收编码的音频数据3以及相关元数据4。

在步骤202中，解析元数据4以确定音频数据操作可能性。

在步骤203中，接收交互输入，其中在步骤204中从所述交互输入生成与音频数据操作可能性相关的交互控制数据。

在步骤205中，获取交互控制数据、编码的音频数据以及元数据，并生成输出数据流，其中所述输出数据流包括编码的音频数据、元数据的至少部分以及交互控制数据。

参考图3，编码的音频数据3包括单独的编码的音频对象11、12。此外，元数据4的至少部分13、14与对应音频对象11、12相关(通过箭头110、120指示)。例如，元数据4的部分“MD1”13与对应的编码的音频对象“AO1”11相关，而元数据4的部分“MD2”14与对应的编码的音频对象“AO2”12相关。

元数据解析器5用于解析用于编码的音频对象11、12的对应部分13、14以确定所述音频对象11、12中的至少一个的对象操作可能性。换言之，元数据解析器5针对各个音频对象11、 12解析元数据13、14以确定用于每个音频对象11、12的音频对象操作可能性。例如，元数据解析器5确定音频对象“AO1”11可包括可调节的音量等级。元数据解析器5可通过用户接口6向用户呈现此可能的音量等级可调节性(音频对象操作可能性)。

用户接口6用于针对至少一个音频对象11、12从与至少一个编码的音频对象11、12相关的用户输入7生成用户控制数据8。例如，用户可能希望调节音频对象“AO1”11的音量等级并因此通过用户接口6提供各个输入7。用户接口6生成包含用户希望将音频对象“AO1”11的音量等级调节到何种程度的信息的各个用户控制数据8。

相应地，用户接口6用于向用户呈现由元数据解析器5从元数据4得出的音频对象11、12 的音频对象操作可能性。用户接口6还用于从用户接收关于数据操作可能性(例如音量等级调节范围或可用语言的集合)的特定数据操作(例如特定音量等级或特定语言)的用户输入7。

参考图1及图9，数据流生成器9用于处理包括通过接收器接口2接收的编码的音频数据3 以及元数据4的数据流15而不对编码的音频数据3进行解码。例如，假设根据本发明的音频数据处理器1在机顶盒19、26中实施，则其可将输出数据流10、32转发至包括解码器的外部音频-视频接收器28、33。在此情况下，由于解码不由机顶盒19、26而由音频-视频接收器28、 33执行，输出数据流10、32仍可为经编码的。

可选地，数据流生成器9用于复制编码的音频数据3以及元数据4，而不改变输出数据流 10。

在任一情况下，如图4中可以看出，数据流生成器9用于将包含交互控制数据8的额外数据部分添加至输出数据流10中的编码的音频数据3和/或元数据4。

参考图5，数据流生成器9还用于将两个输入流15a、15b合并至共同的输出流10中，其中包含交互控制数据8的额外数据部分被添加至输出数据流10中的编码的音频数据3和/或元数据4。

优选地，数据流生成器9用于在输出数据流10中以与元数据4相同的格式生成交互控制数据8。因此，交互控制数据8可容易地与可用元数据4组合。

如以上提及的，如果数据流生成器9复制元数据4，则除了包含用于各个音频对象11、 12的额外交互控制数据8的任意经操作的元数据之外，可在输出流10中保留原始元数据4。可发送原始及经操作的元数据至解码器28、33以允许解码器28、33将差异识别为(用户) 交互的结果、得到关于按照内容创建者预期的默认值的所有信息并从原始元数据4和经操作的元数据4'(或交互控制数据8)计算(用户)交互的结果。

进一步参考图1，数据流生成器9用于动态地生成输出数据流10。每当用户或装置提供新的交互输入7至交互接口6时，交互控制数据8被相应地更新从而匹配所述新的交互输入7。数据流生成器9将此更新的交互控制数据8包括在输出数据流10中。

图6展示根据本发明的音频数据处理器1，其中处理可选音频信息。如可看出的，输入数据流15是包括编码的音频数据3和相关元数据4的主音频数据流。此外，接收器接口2额外地接收包括可选音频对象17的可选音频数据16。

然而，与所述额外可选音频对象“AOx”17相关的元数据，即关于所述可选音频对象“AOx”17的操作可能性的信息，包含在主音频数据流15中。因此，音频对象17是已知的但不被呈现，且因此是可选的。

例如，用户收听包含鼓、弦及钢琴的管弦乐。可选地，可包括吹奏乐器。如果收听者此刻希望增加吹奏乐器，则其可通过增加可选吹奏乐器例如小号作为可选音频对象17来实现。由于对于所述小号的操作可能性已包含在主音频数据流15的元数据4中，用户具有根据其期望操作当前增加的小号的可能性。

进一步参考图6，所述额外音频对象“AOx”17可以是未包括在编码的音频数据3和/或元数据4中的缺失音频对象。因此，音频对象17是未知的且因此缺失。

在此情况下，接收器接口2用于向音频数据提供者35请求属于所述缺失音频对象17的音频数据16。接收器接口2还用于从广播流36中包含的不同子流接收所述音频数据16。接收器接口2还用于通过因特网协议连接从因特网37检索所述音频数据16。

例如，观看电影的用户可从包括例如英语、德语以及法语的可用语言集合中选择特定的语言。第四语言是已知的但未被呈现，且因此缺失。然而，可随后通过例如因特网提供第四语言。

再次参考图4及图5，输入数据流15及输出数据流10通常在封包化结构中是可用的。例如，MPEG-H音频经串行接口的传输由MHAS传输语法(见N14459的章节13(ISO/IEC23008-3委员会草案)[1])定义。此语法以封包化方式定义。

因此，为了实现经操作的元数据4或交互控制数据8的传输，仅需要为新的控制信息分配另一封包类型。

此外，包括音频数据处理器1的第一装置“装置#1”19可能希望将额外填充数据18增加至随后的传输流10中以满足对于该链路的给定的、通常更高的数据率需求。此填充数据18 可不包含信息且预期将被接收经操作的输出流10的第二装置忽略。为了实现此，可分配另外的数据封包类型。

另外，由于传入流至“装置#1”19的传输层可具有其自身的错误保护，但传出链路不提供此类安全层，因此装置#1可增加包含奇偶校验数据的数据封包。可将这些数据封包增加至MHAS流作为额外封包类型。

另外，由于传输层可传送额外数据作为边信息(side information)，这些数据封包也可被封包至MHAS音频流中作为另一封包类型。用于此数据的示例为MPEG-2传输及程序流中的描述符。

用于编码的音频数据的存储的另一示例是ISO mp4文件格式。与流格式类似，对于文件格式的情况，也可以读取、操作以及写回元数据至文件，或除原始元数据之外存储用户控制数据而不改变编码的音频信号数据。

参考文献

[1]ISO N14459(ISO/IEC 23008-3Committee Draft Text)

[2]IEC 60958-3:“Digital audio interface–Part 3:Consumer applications”

[3]IEC 61937-11,“Digital audio–Interface for non-linear PCM encodedaudio bitstreams applying IEC 60958–Part 11:MPEG-4AAC and its extensions inLATM/LOAS"

现参考图7，将音频数据处理器1实施为单独装置“装置#1”19。在所述单独装置19中，接收器接口2形成通过有线连接21或无线连接22至单独装置19的输入20。

音频数据处理器1还包括连接至数据流生成器9并提供用于装置19的输出的输出接口 23。另外，输出接口23用于通过无线接口24或有线连接器25输出输出数据流10。

可以在两个单独装置是可用的情形下以示例描述执行本发明的其他方式。第一装置“装置#1”包括根据本发明的音频数据处理器。第二装置“装置#2”从“装置#1”接收经处理的但仍为编码的音频数据以用于解码所述音频数据。

如在图8及图9中可看出，第一装置19、26接收包括编码的音频数据3及相关元数据4的输入流15。第一装置19、26从传入音频数据流15或传输流读取元数据信息4，并使得编码的音频信号数据3不受影响。第一装置19、26解析元数据4并(例如)在交互接口6中向应用呈现关于对象的信息，包括对对象操作的限制(其为元数据4的部分)。从应用或交互接口6，用户可选择并操作对象以使得音频呈现适于其个人喜好：

·对象选择：例如，从多种语言中选择一种，选择可选额外音频对象等

·对象操作：例如，改变对象的音量，改变对象的位置，如将额外评论从中心扬声器移动至右侧扬声器或其间的任意位置，

·预设项选择：替代单独地选择并操作每个对象，用户也可从元数据选择预设项。预设项是由内容创建者针对特定应用或特定使用场景推荐的对象的预选。与默认呈现相比，预设项可包含具有例如不同的音量等级、位置以及响度/动态范围压缩数据的对象的组合。

在接下来的步骤中，第一装置19、26将关于用户交互性的信息(交互控制数据8)存储至编码的音频数据流10、32中。第一装置19、26可将改变的值或操作量(例如偏移值和相乘因数)写回至元数据部分4或编码的音频数据流的专用部分，以使得第一装置19、26的输出再次成为有效的编码的音频流10、32。

第一装置19、26可使用不同的标识符、标签或封包类型以分别封装经操作的元数据或用户控制数据8。除了经操作的元数据之外，可在输出流10、32中保留原始元数据4。不同的标识符、标签或封包类型分别用于经操作的元数据或交互控制数据8，以使得第二装置28、33识别之前是否已对元数据4进行操作。原始元数据4保留在流10、32中以允许第二装置28、 33将差异识别为用户或装置交互的结果并得到关于按照内容创建者预期的默认值的所有信息，或从原始元数据4以及经操作的元数据4'(或用户控制数据8)计算用户或装置交互的结果。

作为经操作的元数据的部分，签名数据可被嵌入元数据4中。签名可包含关于对元数据 4进行操作的应用、装置或用户的信息。

未被用户选择的音频对象可在元数据4或交互控制数据8中被标记为禁用或可选地可从音频流10中移除这些对象的编码的音频部分。

用户或装置交互性的过程可以是动态的，即每当用户或装置改变用于选择和操作的设置时，第一装置19、26将那些改变的值写回至编码的音频数据流10的元数据部分4。

由于自动化过程(例如，使得音频场景适于收听情况)或额外交互接口，第二装置28、 33可额外地操作元数据4。在此情况下，第二装置28、33可将经操作的值写回至编码的音频数据流10，例如重写通过第一装置19、26写入的值。

返回参考图6，在所谓的混合用例(Hybrid Use Case)中以示例描述执行本发明的另外方式。

所选可选音频对象17的编码的音频数据3可以不是主音频数据流15的部分，而可使用其它传输信道传送。例如，在广播信道上传送主音频数据流15，而按需求在IP连接37上传送可选音频对象17的编码的音频数据3。

用于所有对象的完整的元数据4包括在主音频数据流15中，以使得用于交互及对象选择的所有信息在第一装置19中是可用的。因此，交互及交互控制数据8储存至流10的过程与以上描述的情况相同。

如果用户选择对象17且编码的音频数据3不是主音频数据流15的部分，则第一装置19 可在与主音频数据流15不同的数据连接(例如，广播流内的不同子流36或IP连接37)上接收此对象17的编码的音频数据3。

在接下来的步骤中，第一装置19将所选对象17的编码的音频数据3合并至主音频流15 中，导致用以进一步传送至第二装置33的完整的音频数据流10。

此外，提出传输嵌入在MPEG-H相符比特流10中的交互数据8的可能性。

如图9中可看出，高级多媒体系统常常不将所有期望功能整合至一个单个装置中，而例如在诸如机顶盒26、电视机27或AVR接收器28的专用装置中实施不同的功能部件。这些装置通过标准化接口(如HDMI)通信。

然而，至少音频数据处理器以及解码器也有可能被整合在一个单个装置中。音频数据处理器可连同解码器一起提供(即，整合或实施)在相同(硬件)装置内。例如，音频数据处理器可与解码器一起提供在TV、机顶盒、A/V接收器或其类似内。音频数据处理器以及解码器可通过内部数据总线结构通信。在包含系统级芯片(SoC)解决方案的TV装置中可能尤其期望此类配置。

相应地或可选地，与以上针对两个单独装置的情况所描述的情况类似，音频数据处理器可被实施为相同装置中的独立且单独的功能部件，唯一的差别是输出接口在装置内部的连接上(例如使用内部数据总线)执行音频数据处理器的输出。

涉及多个装置的用于MPEG-H内容再现的一个用例是通过第一装置19如机顶盒(STB) 26接收电视节目的情况，该第一装置选择适合的传输信道并提取包含期望编码要素的相关基本流。交互，即用于音频元素选择以及交互/操作的用户控制通常也实施于此。

MPEG-H解码器31可不位于STB 26中而位于音频-视频接收器(AVR)28中。在图9中绘示此用例。

在此情况下，提取的流需被馈送至AVR 28用于再现；可通过传输解码的/解压缩的表示 (具有音频的PCM)或尤其是在对所使用的互连线应用带宽限制的情况下以编码的表示实现此两个装置26、28之间的传输。

然后，AVR 28仅提供通常仅可被用户在设定系统时访问一次的配置接口，并在正常操作时间以“从属模式”起作用。

由于交互发生在STB(装置#1)26中且在AVR(装置#2)28中实施解码及渲染，因此不可避免地能够将用户交互性信息从STB 26发送至AVR 28。

为了实现所描述的用例并克服所描述的限制，提出将交互信息数据8嵌入至编码的音频数据流10中，如图8中可看出。

第一装置19从传入音频数据流15的mpegh3daConfig()或通过诸如MPEG-2TS描述符的带外信令读取元数据信息4。然后，解析音频元素元数据4并在交互接口6中呈现关于对象的信息，其包括作为元数据4的部分的对对象操作的限制。用户可从交互接口6选择并操作音频元素以使得音频呈现适于其个人喜好。“用户交互数据”描述对象选择及操作。

在接下来的步骤中，第一装置19使用新的MHASPacketType写入此数据至MHAS音频数据流32。第一装置19的输出再次为有效的编码的音频流10、32。不修改mpegh3daConfig() 中的原始元数据4以及编码的音频信号数据3。

此MHASPacketType的封包的存在使得第二装置28、33能够识别(用户)交互已发生。在流10、32中保留原始元数据4以允许第二装置10、33得到关于按照内容创建者预期的默认值的所有信息。

未被用户选中的音频元素可在元数据4中被标记为禁用，或可选地可从音频流10中移除该对象的编码的音频部分3。

交互(即，装置或用户交互性)的过程可以是动态的，即每当用户或装置改变用于选择及操作的设置时，第一装置19、26写回那些改变的值至编码的音频数据流10的指定部分。

MHAS-扩展

通过MHAS传输语法(见N14459的章节13(ISO/IEC 23008-3委员会草案)[1])定义MPEG-H音频经串行接口的传输。此语法以封包化方式定义。因此，为了实现用户交互数据的传输，仅需要为新的控制信息分配另一封包类型。

表1—MHASPacketPayload()的语法

表2—MHASPacketType的值

PACTYP_USERINTERACTION

可使用MHASPacketType PACTYP_USERINTERACTION以馈送元素交互数据至解码器。

对于此封包类型，MHASPacketLabel具有与(用户)交互数据8所涉及的MHASPacketType PACTYP_MPEGH3DACFG的封包相同的值。

语法

来自用于用户交互的接口的语法元素mpegh3daElementInteraction()(见[2])重新用于携带嵌入在比特流10中的(用户)交互数据8。

参考文献

[1]ISO/IEC JTC1/SC29/WG11N14459,"Text of ISO/IEC 23008-3/CD,3D audio"

[2]FhG,“Normative Interface for User Interaction”,Input to theMeeting of AHG on 3D Audio, DRC and Audio Maintenance,June 2-3,2014,Paris,France

此外，提出用于用户交互性的规范性接口的可能语法。

提出从用于渲染控制的接口提取用于交互控制的接口。然后，mpegh3daAudioRendering()语法元素定义渲染参数，并且新定义的mpegh3daElementInteraction()语法元素包含(用户)交互所需的信息。

mepegh3daElementInteraction()语法元素的定义

mpegh3daElementInteraction()语法元素提供用于任何可能的(用户)交互的接口。定义两种交互模式。

第一种为高级交互模式，其中对于在音频场景中存在的每个元件群组可用信号表示交互。此模式使得用户能够自由地选择(在切换群组定义的限制内)回放哪些群组并与其全部进行交互(在给定的范围和限制内)。

第二种模式为基本交互模式，其中用户可选择所定义的群组预设项(GroupPreset)中的一个(从mae_AudioSceneInfo()语法元素，见[1]的14.2)作为预设项。然后，在所选群组预设项的条件下所引用的群组的开-关状态被定义，并且不可被用户改变。用户仅可根据定义的限度及范围改变其他群组的开-关状态以及所有群组的位置及增益。

区分四个不同的元素修改：

-开/关交互性：接通或切断成组元件(编者注：先前称为“对象改变”[4])

-

-位置交互性：改变成组元件的位置(方位角、仰角及距离，编者注：先前称为“位置改变”[4])

-增益交互性：改变成组元件的等级/增益(编者注：先前称为“增益改变”[4])

-线(WIRE)交互性：WIRE输出是除了连接的扬声器之外的任意输出。群组中的元件的音频内容被路由至WIRE输出，例如用于听觉缺陷或额外语言轨道(language track) 的内容。

由于群组聚集仅应被联合操作的相关元件，在元件群组的级别上定义所有修改。

引入签名以用信号表示例如已在哪个装置中发生交互性。

表3a mpegh3daElementInteraction()的语法

ei_InteractionSignatureDataLength 此字段以字节定义下面的交互签名的长度。

ei_InteractionSignatureDataType 此字段定义签名的类型。下面的值是可能的：

在表3b中显示mpegh3daElementInteraction()的另一实施例：

表3b mpegh3daElementInteraction()的语法

表4a ei_InteractionSignatureDataType的值

值	含义
		0	通用字符串
1-127	保留以供ISO使用
		128-255	保留以在ISO范围以外使用

ei_InteractionSignatureData 此字段包含定义交互数据的起源的签名。

在表4b中显示ei_InteractionSignatureDataType的另一实施例：

表4b ei_InteractionSignatureDataType的值

hasLocalZoomAreaSize 定义关于本地缩放区域尺寸的信息是否可用的旗标。

如果启用此旗标，应用用于缩放的对象重映射。

表5 ElementInteractionData()的语法

ei_interactionMode 定义选择高级交互类型还是基本交互模式的旗标。

ei_numGroups 此字段包含音频场景中的群组的数目。

ei_groupPresetID 此字段包含在音频场景中定义的groupPresetID。此ID

反映用户的预设项选择。

表6a ei_GroupInteractivityStatus()的语法

ei_groupID 对其描述了交互的当前群组的GroupID。

ei_routeToWIRE 此字段定义群组的音频内容是否应当被路由至WIRE

输出。

ei_routeToWireID 群组应当被路由至的WIRE输出的ID。

ei_onOff 定义当前群组的开-关状态。在选中基本交互模式(关

于群组预设项的交互)的情况下，如果此群组是具有

ei_groupPrersetID的所选群组预设项的条件的部分，则

此值必须与具有ei_groupID的群组的所定义的开-关

状态相同。对于基本交互模式，此处不允许用信号表

示不同的开-关状态。所有群组的开-关状态不是所选

群组预设项的条件的部分，则可任意地用信号表示开

-关状态。

ei_changePosition 此旗标定义群组元件的位置是否已经改变。

ei_azOffset 给定方位角的改变作为偏移。此字段可在AzOffset＝

-180°与AzOffset＝180°之间取值：

AzOffset＝1.5·(ei_azOffset-128)

AzOffset＝min(max(AzOffset,-180),180)；

ei_elOffset 给定方位角的改变作为偏移。此字段可在ElOffset＝

-90°与ElOffset＝90°之间取值：

ElOffset＝3·(ei_elOffset-32)

ElOffset＝min(max(ElOffset,-90),90)；

ei_distFact 给定距离交互性作为相乘因数。此字段可在0至15之

间取值，导致DistFactor在0.00025与8之间：

DistFactor＝2^{((el_distFactorr-8)-4)}

DistFactor＝min(max(DistFactor,0.00025),8)；

ei_changeGain 此旗标定义群组元件的增益/等级是否已改变。

ei_gain 此字段定义当前群组的成员的额外增益。字段可在0

与127之间取值，代表增益值在

增益＝-63dB与增益＝31dB之间，以1dB步进，其中

增益[dB]＝ei_gain–64

增益[dB]＝min(max(增益,-63),31)；

如果ei_gain被设置为0，则增益应被设置为负无穷dB。

在表6b中显示ei_GroupInteractivityStatus()的另一实施例：

表6b ei_GroupInteractivityStatus()的语法

根据元数据音频元素字段定义交互数据(见[1]的14.2)。在元数据音频元素定义中，以 dB给定用于增益交互性的交互性范围，给定用于方位角及仰角的交互性范围作为最小及最大偏移值(具有与此处相同的分辨率：对于方位角为1.5°以及对于仰角为3°)，并给定用于距离的范围作为相乘因数。因此，以类似方式定义接口。

对于用户交互，可在一个ElementInteraction()语法元素内部而不是对于每种交互类型以及每个群组或元件使用语法元素的一次重复，用信号表示对于所有元件群组的所有可能的改变(开/关、增益、位置、WIRE)。

对于被切断的群组还定义WIRE输出，因为只有如此才可以将可选语言轨道路由至WIRE输出。在解码器中必须处理可能违反的切换群组逻辑。

此处移除先前在[4]中提出的内容类型(信道、对象、HOA)。其已通过groupID被隐含地知道，因为每个元件群组具有定义信号内容类型且在语法元素Signals3d()中用信号表示的 signalGroupType(信道、对象、SAOC、HOA)。

通过群组预设项的基本交互

如果设置基本交互模式，则用户可选择所定义的群组预设项中的一个(从 mae_AudioSceneInfo()groupCollection语法元素，在w14464[7]中作为候选技术提出)。

来自所选预设项的条件定义所参考的群组的开-关状态。用户应不能修改用于这些群组的开-关状态。

在语法元素ei_GroupInteractivityStatus[2]中的对应字段ei_onOff必须反映用于在所选群组预设项的条件下所参考的所有群组的所选群组预设项中的条件。

所有其它群组的开-关状态可由用户选择。

结论

此稿件提出对用于用户交互的接口的定义。提供允许两种不同的交互模式(基本及高级)的接口定义。提出对于CD采用所提出的接口。

参考文献

[1]ISO/IEC JTC1/SC29/WG11N14459,"Text of ISO/IEC 23008-3/CD,3D audio"

[2]FhG,“Rendering Interfaces to MPEG-H and Unification of LoudspeakerSignaling”,Input to the Meeting of AHG on 3D Audio,DRC and Audio Maintenance,June 2-3,2014,Paris,France

[3]ISO/IEC JTC1/SC29/WG11N14463,“Normative Interface for BinauralData”,April 2014, Valencia,Spain

[4]ISO/IEC JTC1/SC29/WG11M33134,“3D Audio Decoder Interfaces”,April2014,Valencia, Spain(Input from Philips)

[5]ISO/IEC JTC1/SC29/WG11M31427,“Thoughts on binauralparameterization of MPEG codecs”,October 2013,Geneva,Switzerland(Input fromOrange)

[6]ISO/IEC JTC1/SC29/WG11M30249,“BRIR interface format:update andimplementation”, July 2013,Vienna,Austria(Input from Philips)

[7]ISO/IEC JTC1/SC29/WG11N14464“Candidate Technologies for 3D Audio”

此外，ISO/IEC 23008-3CD文本[1]的章节13定义用于将MPEG-H 3D音频有效载荷封装在(实时)流中的MHAS语法。利用此文献，提出使得MHAS在除MPEG-2传输流以外的其他传输系统中的可靠使用能够实现的额外能力。

填充数据

某些传输信道可能仅以恒定的瞬时比特率操作。为实现此，提出填充数据封包类型以能够填充MHAS流达到某个给定比特率。

CRC

MPEG-2传输流层[2]负责保护封装的MHAS基本流。因此，可识别传输中的数据丢失或数据损坏。

另一方面，常见串行接口(例如，AES/EBU、S/PDIF、[3]、[4]、[5])未提供充分的错误保护。提出可选CRC封包类型以使得在MHAS用于此类接口的情况下能够实现错误检测。

描述符封装

MHAS流用于传送自或至MPEG-2传输流编码器/解码器的编码的音频。提出以额外MHAS封包类型传送相关描述符信息。

表7—MHASPacketPayload()的语法

表8a—MHASPacketType的值

在表8b中显示MHASPacketType的另一实施例：

表8b—MHASPacketType的值

mhasParity16Data 16-比特字段，包含利用以下多项式以及0xFFFF的移

位寄存器的初始状态产生解码器中的16个寄存器的

零输出的CRC值：x¹⁶+x¹⁵+x⁵+1。

mhasParity32Data 32-比特字段，包含利用以下多项式以及0xFFFFFFFF

的移位寄存器的初始状态产生解码器中的32个寄存

器的零输出的CRC值：

x³²+x²⁶+x²³+x²²+x¹⁶+x¹²+x¹¹+x¹⁰+x⁸+x⁷+x⁵+x⁴+x²+x+1。

mhas_fill_data_byte 8-比特数据元素，不施加限制。

随机存取/即时播出标志

当封包有效载荷的第一marker_byte为“0x02”时，遵循在章节5.5.5“音频预载”中给定的规则对具有相同的MHASPacketLabel的类型PACTYP_MPEG3DAFRAME的后续封包进行编码。

程序边界标志

当封包有效载荷的第一marker_byte为“0x03”时，在此时间点出现程序边界以及所有后续封包属于新的程序。

PSCTYP_CRC16及PACTYP_CRC32

MHASPacketType PACTYP_CRC16及PACTYP_CRC32可用于检测先前MHAS封包(其中MHASPacketLabel被设置为相同值)中的错误。其应直接跟在其CRC值所涉及的MHAS 封包之后。在通过易出错的信道传送MHAS流时此是有益的。

错误检测方法使用如分别针对mhasParity16Data或mhasParity32Data定义的生成多项式以及关联移位寄存器状态中的一个。

包括在CRC校验中的比特是用于被分别跟随以mhasParity16Data或mhasParity32Data 字的相关MHAS封包的完整的MHASPacketPayload()。

在没有错误的情况下，移位寄存器的输出中的每个应该是零。在CRC编码器，以值对 mhasParity16Data/mhasParity32Data字段进行编码，以使得此得以确保。

PACTYP_FILLDATA

MHASPacketType PACTYP_FILLDATA提供增加填充数据以调节瞬时比特率的可能性。在使用恒定速率传输信道的某些实时应用中此可能是可取的。

由于此类型的封包不涉及确定的有效载荷数据，MHASPacketLabel被设置为0。

预期解码器忽略在类型PACTYP_FILLDATA的封包中传输的数据。另外，处理MHAS流的中间工具被允许用于从流中移除此类封包。

允许将MHASPacketLength设置为0。此产生2个字节的最小封包大小。

PACTYP_DESCRIPTOR

可使用PACTYP_DESCRIPTOR以将MPEG-2TS/PS描述符嵌入至MHAS流中。作为 mhas_descriptor_data_byte传送的数据具有与针对ISO/IEC 13818-1中的描述符()所定义的相同语法和语义。

对于此封包类型以及在TS_program_map_section()(见ISO/IEC 13818-1)中的第一描述符循环中传输的描述符，将MHASPacketLabel设置为0。

对于此封包类型以及被分配至一个基本流(即，TS_program_map_section()中的第二描述符循环)的描述符，将MHASPacketLabel设置为与来自关联基本流的PACTYPE_CONFIG 相同的值。

参考文献

[1]ISO/IEC JTC1/SC29/WG11N14459,"Text of ISO/IEC 23008-3/CD,3D audio"

[2]ISO/IEC 13818-1:2013,Information technology—Generic Coding ofmoving pictures and associated audio information:Systems

[3]IEC 60958-3:“Digital audio interface–Part 3:Consumer applications”

[4]IEC 61937-11,“Digital audio–Interface for non-linear PCM encodedaudio bitstreams applying IEC 60958–Part 11:MPEG-4AAC and its extensions inLATM/LOAS"

[5]SMPTE 2041:Format for Non-PCM Audio and Data in AES-3-MPEG-4AACand HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers

尽管已经在区块表示实际或逻辑硬件部件的方块图的上下文中描述了本发明，也可通过计算机实施方法实施本发明。在后者的情况下，区块表示对应方法步骤，其中步骤表示由对应逻辑或物理硬件区块执行的功能。

尽管已经在装置的上下文中描述一些方面，显然，这些方面也表示对应方法的描述，其中区块或装置对应方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应区块或细节或特征的描述。通过(或使用)硬件装置(例如，微处理器、可编程计算机或电子电路)可执行方法步骤中的一些或全部。在一些实施例中，可通过此类装置执行最重要的方法步骤中的一些或更多。

本发明的传输的或编码的信号可存储在数字存储介质上，或可在诸如无线传输介质或有线传输介质诸如网络的传输介质上传输。

根据特定的实施需求，本发明的实施例可以以硬件或软件实施。可使用具有电子可读控制信号存储于其上的数字存储介质，例如软盘、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或闪存执行实施方案，这些电子可读控制信号与可编程计算机系统协作(或能够协作)以使得执行各个方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作，以执行本文中描述的方法中的一个。

通常，本发明的实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，可操作程序代码用于执行方法中的一个。例如，程序代码可存储在机器可读载体上。

其他实施例包括用于执行本文中所描述的方法中的一个的存储在机器可读载体上的计算机程序。

换言之，因此，本发明方法的实施例是具有程序代码的计算机程序，当计算机程序在计算机上运行时，该程序代码用于执行本文中所描述的方法中的一个。

因此，本发明方法的另一实施例是包括其上记录有用于执行本文中所描述的方法中的一个的计算机程序的数据载体(或诸如数字存储介质或计算机可读介质的非易失性存储介质)。数据载体、数字存储介质或记录介质通常是有形的和/或非易失的。

因此，本发明方法的另一实施例是表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。例如，数据流或信号序列可被配置为通过数据通信连接(例如，通过因特网)传输。

另一实施例包括用于或适于执行本文中所描述的方法中的一个的处理构件，例如，计算机或可编程逻辑装置。

另一实施例包括其上安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。

根据本发明的另一实施例包括用于传输(例如，电性或光学地)用于执行本文中所描述的方法中的一个的计算机程序至接收器的装置或系统。例如，接收器可以是计算机、移动装置、存储装置或类似。例如，装置或系统可包括用于传输计算机程序至接收器的文件服务器。

在一些实施例中，可编程逻辑装置(例如，现场可编辑门阵列)可用于执行本文中所描述的方法的功能中的一些或全部。在一些实施例中，现场可编辑门阵列可与微处理器协作以执行本文中所描述的方法中的一个。一般地，优选地通过任意硬件裝置执行方法。

以上所描述的实施例仅说明本发明的原理。应理解的是，本文中所描述的配置及细节的修改和变形对本领域其他技术人员是显而易见的。因此，本发明仅由待决权利要求的范围限定，而不由本文中的实施例的描述和解释而呈现的特定细节限定。

Claims

1.一种音频数据处理器(1)，包括：

接收器接口(2)，用于接收编码的音频数据(3)以及与编码的音频数据(3)相关的元数据(4)；

元数据解析器(5)，用于解析所述元数据(4)以确定音频数据操作可能性；

交互接口(6)，用于接收交互输入(7)并用于从所述交互输入(7)生成与所述音频数据操作可能性相关的交互控制数据(8)；以及

数据流生成器(9)，用于获取所述交互控制数据(8)、所述编码的音频数据(3)以及所述元数据(4)，并用于生成输出数据流(10)，所述输出数据流(10)包括所述编码的音频数据(3)、所述元数据(4)的至少部分以及所述交互控制数据(8)，

其中所述数据流生成器(9)用于处理包括通过所述接收器接口(2)接收的所述编码的音频数据(3)和元数据(4)的输入数据流(15)而不对所述编码的音频数据(3)进行解码，用以生成所述输出数据流(10)；或用于复制所述编码的音频数据(3)和元数据(4)的至少部分而不改变所述输出数据流(10)，以及

用于将所述交互控制数据(8)作为额外数据部分嵌入至所述输出数据流(10)。

2.根据权利要求1所述的音频数据处理器，其中所述编码的音频数据(3)包括单独的编码的音频对象(11；12)，其中所述元数据(4)的至少部分(13；14)与对应音频对象(11；12)相关，

其中所述元数据解析器(5)用于解析用于所述编码的音频对象(11；12)的对应部分(13；14)以至少针对音频对象(11)确定对象操作可能性，

其中所述交互接口(6)用于针对至少一个编码的音频对象(11)从与所述至少一个编码的音频对象(11)相关的交互输入(7)生成所述交互控制数据(8)。

3.根据权利要求1所述的音频数据处理器，其中所述交互接口(6)用于向用户呈现由所述元数据解析器(5)从元数据(4)得出的音频数据操作可能性，并用于从用户接收关于所述数据操作可能性的特定数据操作的用户输入(7)。

4.根据权利要求1所述的音频数据处理器，

其中所述交互接口(6)用于生成所述交互控制数据(8)，以便所述交互控制数据(8)由改变的元数据值或由关于所述元数据(4)的操作量表示。

5.根据权利要求1所述的音频数据处理器，

其中所述数据流生成器(9)用于在所述输出数据流(10)中以与所述元数据(4)相同的格式生成所述交互控制数据(8)。

6.根据权利要求1所述的音频数据处理器，

其中所述数据流生成器(9)用于将所述交互控制数据(8)与所述输出数据流(10)中的标识符相关联，所述标识符不同于与所述元数据(4)相关联的标识符。

7.根据权利要求1所述的音频数据处理器，

其中所述数据流生成器(9)用于将签名数据添加至所述交互控制数据(8)，所述签名数据表示关于执行音频数据操作或提供交互输入的应用、装置或用户的信息。

8.根据权利要求1所述的音频数据处理器，

其中所述元数据解析器(5)用于识别用于由所述编码的音频数据(3)表示的一个或多个音频对象(11，12)的禁用可能性，

其中所述交互接口(6)用于接收用于所述一个或多个音频对象(11，12)的禁用信息，以及

其中所述数据流生成器(9)用于在所述交互控制数据(8)中将所述一个或多个音频对象(11，12)标记为禁用。

9.根据权利要求1所述的音频数据处理器，其中所述数据流生成器(9)用于动态地生成所述输出数据流(10)，其中响应于新的交互输入(7)，更新所述交互控制数据(8)以匹配所述新的交互输入(7)，以及其中所述数据流生成器(9)用于将更新的交互控制数据(8)包括在所述输出数据流(10)中。

10.根据权利要求1所述的音频数据处理器，其中所述接收器接口(2)用于接收包括所述编码的音频数据(3)以及与所述编码的音频数据(3)相关的元数据(4)的主音频数据流(15)，并用于额外地接收包括可选音频对象(17)的可选音频数据(16)，

其中与所述可选音频对象(17)相关的元数据(4)包含在所述主音频数据流(15)中。

11.根据权利要求1所述的音频数据处理器，

其中所述元数据解析器(5)用于针对未包含在所述编码的音频数据(3)中的可选音频对象(17)确定音频操作可能性，

其中所述交互接口(6)用于接收针对所述可选音频对象(17)的交互输入(7)，以及

其中所述接收器接口(2)用于向音频数据提供者(35)请求用于所述可选音频对象(17)的音频数据(16)，或用于从包含在广播流(36)中的不同子流或因特网协议连接(37)接收用于所述可选音频对象(17)的所述音频数据(16)。

12.根据权利要求1所述的音频数据处理器，

其中所述数据流生成器(9)用于在所述输出数据流(10)中将另外的封包类型分配给所述交互控制数据(8)，所述另外的封包类型与用于所述编码的音频数据(3)和所述元数据(4)的封包类型不同，或

其中所述数据流生成器(9)用于将填充数据封包类型的填充数据(18)添加至所述输出数据流(10)，其中基于由所述音频数据处理器的输出接口确定的数据率需求确定所述填充数据(18)的量。

13.根据权利要求1所述的音频数据处理器，其被实施为与第二装置(28)分开的单独的第一装置(19)，第二装置用于从所述第一装置(19)接收经处理的但仍为编码的音频数据用以对所述音频数据进行解码，其中所述接收器接口(2)用于形成经由有线连接(21)或无线连接(22)至所述单独的第一装置(19)的输入(20)，其中所述音频数据处理器(1)还包括连接至所述数据流生成器(9)的输出接口(23)，所述输出接口(23)用于输出所述输出数据流(10)，其中所述输出接口(23)执行所述单独的第一装置(19)的输出，并包括无线接口(24)或有线连接器(25)。

14.一种用于处理音频数据的方法，所述方法包括：

接收编码的音频数据(3)以及与编码的音频数据(3)相关的元数据(4)；

解析所述元数据(4)以确定音频数据操作可能性；

接收交互输入(7)并从所述交互输入(7)生成与所述音频数据操作可能性相关的交互控制数据(8)；以及

获取所述交互控制数据(8)、所述编码的音频数据(3)以及所述元数据(4)，并生成输出数据流(10)，所述输出数据流(10)包括所述编码的音频数据(3)、所述元数据(4)的至少部分以及所述交互控制数据(8)，

处理包括所述编码的音频数据(3)和元数据(4)的输入数据流(15)而不对所述编码的音频数据(3)进行解码，用以生成所述输出数据流(10)；或复制所述编码的音频数据(3)和元数据(4)的至少部分而不改变所述输出数据流(10)，以及

将所述交互控制数据(8)作为额外数据部分嵌入至所述输出数据流(10)。

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机或处理器上运行时使得所述计算机或处理器执行权利要求14所述的处理音频数据的方法。