[go: up one dir, main page]

CN111819863A - 用音频信号及相关联元数据表示空间音频 - Google Patents

用音频信号及相关联元数据表示空间音频 Download PDF

Info

Publication number
CN111819863A
CN111819863A CN201980017620.7A CN201980017620A CN111819863A CN 111819863 A CN111819863 A CN 111819863A CN 201980017620 A CN201980017620 A CN 201980017620A CN 111819863 A CN111819863 A CN 111819863A
Authority
CN
China
Prior art keywords
audio
downmix
metadata
audio signal
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980017620.7A
Other languages
English (en)
Inventor
S·布鲁恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Publication of CN111819863A publication Critical patent/CN111819863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供用于表示空间音频的编码及解码方法,所述空间音频是定向声音与扩散声音的组合。实例性编码方法尤其包含:通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号创建单通道或多通道下混音频信号;确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。

Description

用音频信号及相关联元数据表示空间音频
相关申请案的交叉参考
此申请案主张以下专利申请案的优先权权益:2018年11月13日申请的第62/760,262号美国临时专利申请案;2019年1月22日申请的第62/795,248号美国临时专利申请案;2019年4月2日申请的第62/828,038号美国临时专利申请案;及2019年10月28日申请的第62/926,719号美国临时专利申请案,其内容特此以引用方式并入。
技术领域
本文中的揭示内容大体上涉及包括音频对象的音频场景的编码。特定来说,其涉及用于表示空间音频的方法、系统、计算机程序产品及数据格式,及用于编码、解码及渲染空间音频的相关联编码器、解码器及渲染器。
背景技术
将4G/5G高速无线接入引入电信网络,再加上功能日益强大的硬件平台的可用性,已为比以往任何时候都更快且更容易地部署高级通信及多媒体服务提供基础。
第三代合作伙伴计划(3GPP)增强语音服务(EVS)编解码器已通过引入超宽带(SWB)及全带(FB)语音及音频编码以及改进的数据包丢失复原,高度显著地改善用户体验。然而,扩展的音频带宽只是真正沉浸式体验所需的维度之一。理想地,以资源有效的方式使用户沉浸在令人信服的虚拟世界中需要支持超过由EVS当前提供的单声道及多声道-单声道。
另外,3GPP中当前指定的音频编解码器为立体声内容提供合适的质量及压缩,但缺少对话语音及电话会议所需的对话特征(例如足够低的延时)。这些编码器还缺少沉浸式服务(例如实时流、虚拟现实(VR)及沉浸式电话会议)所必需的多通道功能性。
已经为沉浸式语音及音频服务(IVAS)提出对EVS编解码器的扩展,以填补此技术空白并解决对丰富的多媒体服务不断增长的需求。另外,经过4G/5G的电话会议应用将受益于IVAS编解码器用作支持多流编码(例如,基于通道、对象及场景的音频)的改进的会话编码器。此下一代编解码器的用例包含(但不限于)对话语音、多流电话会议、VR对话及用户产生的实时及非实时内容流。
虽然目标是开发具有有吸引力的特征及性能(例如,出色的音频质量、低延迟、空间音频编码支持、适当的比特率范围、高质量的错误复原、实际的实施复杂性)的单个编解码器,但目前尚无关于IVAS编解码器的音频输入格式的最终协议。已提出元数据辅助空间音频格式(MASA)作为一种可能的音频输入格式。然而,常规MASA参数做出某些理想的假设,例如在单个点中完成的音频捕获。然而,在真实世界案例中,在使用移动电话或平板计算机作为音频捕获装置的情况下,单个点中的声音捕获的此假设可能不成立。确切来说,取决于特定装置的形状因子,装置的各种麦克风可能位于相距一定距离处,且不同经捕获麦克风信号可能未完全进行时间对准。当还考虑音频的源如何在空间中四处移动时,尤其是这样。
MASA格式的另一个基本假设是,所有麦克风通道都是以相等电平提供,且其之间的频率与相位响应不存在差异。再有,在真实世界案例中,麦克风通道可能具有不同方向相关频率及相位特性,这也可能随时间变化。例如,可以假设音频捕获装置被临时保持,使得麦克风中的一个被遮挡,或电话附近存在导致到达的声波发生反射或衍射的一些物体。因此,在确定哪个音频格式将适合与编解码器(例如IVAS编解码器)结合使用时,还存在许多额外因素需要考虑。
附图说明
现将参考附图描述实例实施例,其中:
图1是根据实例性实施例的用于表示空间音频的方法的流程图;
图2是根据实例性实施例的(分别地)音频捕获装置及定向及扩散声源的示意图;
图3A展示根据实例性实施例的通道位值参数如何指示有多少通道用于MASA格式的表(表1A)。
图3B展示根据实例性实施例的可用于表示下混到两个MASA通道中的平面FOA及FOA捕获的元数据结构的表(表1B);
图4展示根据实例性实施例的每一麦克风及每TF片(tile)的延迟补偿值的表(表2);
图5展示根据实例性实施例的可用于指示哪一补偿值集应用于哪一TF片的元数据结构的表(表3);
图6展示根据实例性实施例的可用于表示每一麦克风的增益调整的元数据结构的表(表4);
图7展示根据实例性实施例的包含音频捕获装置、编码器、解码器及渲染器的系统。
图8展示根据实例性实施例的音频捕获装置。
图9展示根据实例性实施例的解码器及渲染器。
所有图都是示意性的且大体上仅展示为了阐明本发明所必要的部件,而可省略或仅仅暗示其它部件。除非另外指示,否则相似参考数字指代不同图中的相似部件。
具体实施方式
鉴于上述内容,因此,目的是提供用于空间音频的改进表示的方法、系统及计算机程序产品以及数据格式。还提供用于空间音频的编码器、解码器及渲染器。
I.概述-空间音频的表示
根据第一方面,提供用于表示空间音频的方法、系统、计算机程序产品及数据格式。
根据实例性实施例,提供一种用于表示空间音频的方法,所述空间音频是定向声音与扩散声音的组合,所述方法包括:
·通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号创建单通道或多通道下混音频信号;
·确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
·将所述经创建下混音频信号及所述第一元数据参数组合成空间音频的表示。
在上述布置下,考虑多个麦克风的不同性质及/或空间位置,可实现空间音频的经改进表示。此外,在编码、解码或渲染的后续处理阶段中使用元数据可有助于在表示呈比特率有效编码形式的音频时如实地表示及重构经捕获音频。
根据实例性实施例,将经创建下混音频信号及第一元数据参数组合成空间音频的表示可进一步包括在所述空间音频的所述表示中包含第二元数据参数,所述第二元数据参数指示输入音频信号的下混配置。
此优势在于:其允许在解码器处重构(例如,通过上混操作)输入音频信号。此外,通过提供第二元数据,进一步下混可在将所述空间音频的所述表示编码到位流之前由单独单元执行。
根据实例性实施例,可针对麦克风输入音频信号的一或多个频带确定第一元数据参数。
此优势在于:其允许个别地调试延迟、增益及/或相位调整参数,例如,考虑针对麦克风信号的不同频带的不同频率响应。
根据实例性实施例,用以创建单通道或多通道下混音频信号x的下混可通过以下项来描述:
x=D·m
其中:
D是含有定义针对来自所述多个麦克风的每一输入音频信号的权重的下混系数的下混矩阵,且
m是表示来自所述多个麦克风的所述输入音频信号的矩阵。
根据实例性实施例,可选取下混系数来选择当前具有关于定向声音的最佳信噪比的麦克风的输入音频信号,及丢弃来自任何其它麦克风的信号输入音频信号。
此优势在于:其允许在减小音频捕获单元处的计算复杂性的情况下实现空间音频的良好质量表示。在此实施例中,选取仅一个输入音频信号来表示特定音频帧及/或时间频率片中的空间音频。因此,减小下混操作的计算复杂性。
根据实例性实施例,可以每时间频率(TF)片为基础确定所述选择。
此优势在于:其允许改进下混操作,例如,考虑针对麦克风信号的不同频带的不同频率响应。
根据实例性实施例,所述选择可针对特定音频帧做出。
有利地,此允许关于随时间变化的麦克风捕获信号进行调试,且接着允许改进音频质量。
根据实例性实施例,当组合来自不同麦克风的输入音频信号时,可选取下混系数以最大化关于定向声音的信噪比。
此优势在于:其允许由于并非起源于定向源的非所要信号分量的衰减而改进下混的质量。
根据实例性实施例,所述最大化可针对特定频带进行。
根据实例性实施例,所述最大化可针对特定音频帧进行。
根据实例性实施例,确定第一元数据参数可包含分析以下项中的一或多者:来自多个麦克风的输入音频信号的延迟、增益及相位特性。
根据实例性实施例,可以每时间频率(TF)片为基础确定第一元数据参数。
根据实例性实施例,下混的至少一部分可发生于音频捕获单元中。
根据实例性实施例,下混的至少一部分可发生于编码器中。
根据实例性实施例,当检测到一个以上定向声源时,可针对每一源确定第一元数据。
根据实例性实施例,空间音频的表示可包含以下参数中的至少一者:方向指数;直接能与总能比;扩展相干性;每一麦克风的到达时间、增益及相位;扩散能与总能比;周围相干性;剩余能与总能比;及距离。
根据实例性实施例,第二或第一元数据参数中的元数据参数可指示经创建下混音频信号是从左右立体声信号产生,从平面一阶环境立体声(FOA)信号产生,还是从FOA分量信号产生。
根据实例性实施例,空间音频的表示可含有组织到定义字段及选择符字段中的元数据参数,其中所述定义字段指定与多个麦克风相关联的至少一个延迟补偿参数集,且所述选择符字段指定延迟补偿参数集的选择。
根据实例性实施例,所述选择符字段可指定什么延迟补偿参数集应用于任何给定时间频率片。
根据实例性实施例,相对时间延迟值可大约是在[-2.0ms,2.0ms]的间隔内。
根据实例性实施例,空间音频的表示中的元数据参数可进一步包含指定所应用增益调整的字段及指定相位调整的字段。
根据实例性实施例,增益调整可大约是在[+10dB,-30dB]的间隔内。
根据实例性实施例,使用经存储查找表在音频捕获装置处确定第一及/或第二元数据元素的至少部分。
根据实例性实施例,在连接到音频捕获装置的远程装置处确定第一及/或第二元数据元素的至少部分。
II.概述-系统
根据第二方面,提供一种用于表示空间音频的系统。
根据实例性实施例,提供一种用于表示空间音频的系统,其包括:
接收组件,其经配置以从捕获所述空间音频的音频捕获单元中的多个麦克风接收输入音频信号;
下混组件,其经配置以通过下混所述接收到的音频信号创建单通道或多通道下混音频信号;
元数据确定组件,其经配置以确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
组合组件,其经配置以将所述经创建下混音频信号及所述第一元数据参数组合成空间音频的表示。
III.概述-数据格式
根据第三方面,提供一种用于表示空间音频的数据格式。所述数据格式有利地可结合与空间音频相关的物理组件(例如音频捕获装置、编码器、解码器、渲染器等)及各种类型的计算机程序产品以及用于在装置及/或位置之间传输空间音频的其它设备使用。
根据实例实施例,数据格式包括:
由来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号的下混产生的下混音频信号;及
第一元数据参数,其指示以下项中的一或多者:所述输入音频信号的下混配置、与每一输入音频信号相关联的相对时间延迟值、增益值及相位值。
根据一个实例,可将数据格式存储于非暂时性存储器中。
IV.概述-编码器
根据第四方面,提供一种用于编码空间音频的表示的编码器。
根据实例性实施例,提供一种编码器,其经配置以:
接收空间音频的表示,所述表示包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号创建的单通道或多通道下混音频信号,及
与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
使用所述第一元数据将所述单通道或多通道下混音频信号编码到位流中,或
将所述单通道或多通道下混音频信号及所述第一元数据编码到位流中。
V.概述-解码器
根据第五方面,提供一种用于解码空间音频的表示的解码器。
根据实例性实施例,提供一种解码器,其经配置以:
接收指示经编码空间音频的表示的位流,所述表示包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号创建的单通道或多通道下混音频信号,及
与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
通过使用所述第一元数据参数将所述位流解码成所述空间音频的近似物。
VI.概述-渲染器
根据第六方面,提供一种用于渲染空间音频的表示的渲染器。
根据实例性实施例,提供一种渲染器,其经配置以:
接收空间音频的表示,所述表示包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号创建的单通道或多通道下混音频信号,及
与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
使用所述第一元数据渲染所述空间音频。
VII.概述-一般情况
第二到第六方面通常可具有与第一方面相同的特征及优点。
本发明的其它目的、特征及优点将从以下详细描述、从所附附属权利要求以及从图得出。
本文中揭示的任何方法步骤都无需按所揭示的确切顺序执行,除非明确声明。
VIII.实例实施例
如上文描述,捕获及表示空间音频提出一组特定挑战,使得可在接收端如实地重现经捕获音频。本文中描述的本发明的各种实施例通过在传输下混音频信号时将各种元数据参数与下混音频信号包含在一起而解决这些问题的各种方面。
将通过实例且参考MASA音频格式描述本发明。然而,重要的是要意识到,本发明的一般原理可适用于可用于表示音频的广泛范围的格式,且本文中的描述不限于MASA。
此外,应意识到,下文描述的元数据参数并非是元数据参数的完整列表,而是,可存在可用于将关于下混音频信号的数据传达到用于编码、解码及渲染音频的各种装置的额外元数据参数(或元数据参数的较小子集)。
而且,虽然将在IVAS编码器的上下文中描述本文中的实例,但应注意,此仅仅是本发明的一般原理可应用于其中的一种类型的编码器,且可存在可结合本文中描述的各种实施例使用的许多其它类型的编码器、解码器及渲染器。
最后,应注意,虽然贯穿此档案使用术语“上混”及“下混”,但其可能不一定暗示分别增加及减小通道的数目。虽然可能通常都是这种情况,但应意识到,任一术语都可指代减小或增加通道的数目。因此,两个术语都落在“混合”的更一般概念下。类似地,贯穿说明书将使用术语“下混音频信号”,但应意识到,偶尔可使用其它术语,例如“MASA通道”、“传输通道”或“下混通道”,所有所述术语都具有与“下混音频信号”基本上相同的意义。
现转到图1,描述根据一个实施例的用于表示空间音频的方法100。如图1中可见,所述方法以使用音频捕获装置捕获空间音频(步骤102)开始。图2展示音频捕获装置202(例如手机或平板计算机)(例如)在其中从扩散环境源204及定向源206(例如说话人)捕获音频的声音环境200的示意图。在说明的实施例中,音频捕获装置202具有(分别地)三个麦克风m1、m2及m3。
定向声音从由方位角及仰角表示的到达方向(DOA)入射。假设扩散环境声音是全方向的,即,在空间上不变或在空间上均匀。在后续论述中还考虑第二定向声源(在图2中未展示)的潜在出现。
紧接着,下混来自麦克风的信号以创建单通道或多通道下混音频信号(步骤104)。仅传播单声道下混音频信号有许多原因。举例来说,可存在比特率限制或使高质量的单声道下混音频信号在已做出某些专属增强(例如波束成形及均衡或噪声抑制)之后可用的意图。在其它实施例中,下混导致多通道下混音频信号。一般来说,下混音频信号中的通道的数目低于输入音频信号的数目,然而,在一些情况中,下混音频信号中的通道的数目可等于输入音频信号的数目,且下混是想要实现增加的SNR或减少所得下混音频信号中的数据量(与输入音频信号相比)。此在下文进一步阐述。
将在下混期间使用的相关参数传播到IVAS编解码器作为MASA元数据的部分可给予以最佳可能保真度恢复立体声信号及/或空间下混音频信号的可能性。
在此案例中,单个MASA通道通过以下下混操作获得:
x=D·m,其中
D=(κ1,1 κ1,2 κ1,3)且
Figure BDA0002669060240000081
信号m及x在各种处理阶段期间可能不一定被表示为全带时间信号,而且也可能被表示为时间或频率域(TF片)中的各个子带的分量信号。在那种情况中,其最终将被重新组合且潜在地在被传播到IVAS编解码器之前被变换到时间域。
音频编码/解码系统通常(例如)通过将合适的滤波器组应用于输入音频信号而将时间频率空间分割成时间/频率片。时间/频率片通常意指时间频率空间的一部分对应于时间间隔及频带。时间间隔通常可对应于用于音频编码/解码系统中的时间帧的持续时间。频带是正被编码或解码的音频信号/对象的完整频率范围。频带通常可对应由用于编码/解码系统中的滤波器组定义的一个或若干相邻频带。在频带对应于由滤波器组定义的若干相邻频带的情况中,此允许在下混音频信号的解码过程中具有非均匀频带,例如,针对下混音频信号的更高频率具有更宽的频带。
在使用单个MASA通道的实施方案中,关于可如何定义下混矩阵D至少有两个选择。一个选择是拾取具有关于定向声音的最佳信噪比(SNR)的麦克风信号。在图2中展示的配置中,麦克风m1在其被导引朝向定向声源时捕获最佳信号是很可能的。接着,可丢弃来自其它麦克风的信号。在那种情况中,下混矩阵可为如下:
D=(1 0 0)。
虽然声源相对于音频捕获装置移动,但可选择另一更合适的麦克风,使得信号m2或m3被用作所得MASA通道。
当切换麦克风信号时,重要的是,确保MASA通道信号x未经受任何潜在不连续。不连续可能由于不同麦克风处的定向声源的不同到达时间而出现,或由于从源到麦克风的声学路径的不同增益或相位特性而出现。因此,必须分析及补偿不同麦克风输入的个别延迟、增益及相位特性。实际麦克风信号因此在MASA下混之前可经历特定一些延迟调整及滤波操作。
在另一实施例中,下混矩阵的系数经设置使得MASA通道关于定向源的SNR被最大化。例如,此可通过向不同麦克风信号添加经适当调整的权重κ1,1、κ1,2、κ1,3来实现。为了以有效的方式来进行此工作,必须再次分析及补偿不同麦克风输入的个别延迟、增益及相位特性,也可将此理解为朝向定向源的声学波束成形。
可将增益/相位调整理解为频率选择性滤波操作。因而,对应调整也可经优化以实现定向声音信号的声学噪声减少或增强,例如遵循维纳(Wiener)方法。
作为进一步变型,可存在具有三个MASA通道的实例。在那种情况中,下混矩阵D可由以下3×3矩阵定义:
Figure BDA0002669060240000091
因此,现在存在可用IVAS编解码器编码的三个信号x1、x2、x3(代替在第一实例中的一个)。
可如在第一实例中描述那样产生第一MASA通道。如果有的话,那么第二MASA通道可用于载送第二定向声音。接着,可根据与用于第一MASA通道的类似的原理选择下混矩阵系数,然而,使得第二定向声音的SNR被最大化。第三MASA通道的下混矩阵系数κ3,1、κ3,2、κ3,3可经调试以提取扩散声音分量同时最小化定向声音。
通常,可执行在存在一些环境声音的情况下的主导定向源的立体声捕获,如图2中展示及上文描述。此在某些用例中(例如,在电话学中)可频繁地发生。根据本文中描述的各种实施例,还结合下混确定元数据参数(步骤104),随后将其添加到单个单声道下混音频信号且将其与单个单声道下混音频信号一起传播。
在一个实施例中,三个主要元数据参数与每一经捕获音频信号相关联:相对时间延迟值、增益值及相位值。根据一般方法,MASA通道根据以下操作获得:
·每一麦克风信号mi(i=1,2)按量τi=Δτiref进行延迟调整。
·每一延迟经调整麦克风信号的每一时间频率(TF)分量/片分别按增益及相位调整参数a及
Figure BDA0002669060240000101
进行增益及相位调整。
上文表达式中的延迟调整项τi可被解释为平面声波从定向源的方向的到达时间,且因而,其还被方便地表达为在参考点τref(例如音频捕获装置202的几何中心)处相对于声波的到达时间的到达时间,尽管也可使用任一参考点。举例来说,当使用两个麦克风时,延迟调整可用公式表示为τ1与τ2之间的差,其等效于将参考点移动到第二麦克风的位置。在一个实施例中,到达时间参数允许在[-2.0ms,2.0ms]的间隔内对相对到达时间进行建模,其对应于麦克风相对于原点约68cm的最大位移。
关于增益及相位调整,在一个实施例中,其针对每一TF片参数化,使得可在范围[+10dB,-30dB]内对增益变化进行建模,同时可在范围[-Pi,+Pi]内表示相位变化。
在仅具有单个主导定向源(例如图2中展示的源206)的基本情况中,延迟调整通常跨完整频谱恒定。随着定向源206的位置可能改变,两个延迟调整参数(每一麦克风有一个)将随时间推移而变化。因此,延迟调整参数是信号相关的。
在可能存在多个定向声源206的更复杂的情况中,来自第一方向的一个源在特定频带中可为主导的,而来自另一方向的不同源在另一频带中可为主导的。在此案例中,代替地,有利地针对每一频带实行延迟调整。
在一个实施例中,此可通过相对于被发现是主导的声音方向在给定时间频率(TF)片中延迟补偿麦克风信号来完成。如果在TF片中未检测到主导声音方向,那么不实行延迟补偿。
在不同实施例中,给定TF片中的麦克风信号可以最大化关于如由所有麦克风所捕获的定向声音的信噪比(SNR)为目标进行延迟补偿。
在一个实施例中,可针对其完成延迟补偿的不同源的合适限值是3。此提供关于三个主导源中的一者而在TF片中进行延迟补偿或根本不进行延迟补偿的可能性。可通过每TF片仅2个位来发信号通知对应延迟补偿值集(一集应用于所有麦克风信号)。此覆盖最实际的相关捕获案例且具有元数据量或其比特率保持低的优势。
另一可能案例是其中捕获一阶环境立体声(FOA)信号而非立体声信号且其经下混到(例如)单个MASA通道中。FOA的概念是所属领域的一般技术人员所众所周知的,但可被简洁地描述为用于记录、混合及回放三维360度音频的方法。环境立体声的基本方法是将把音频场景视作来自在记录时麦克风被置放在其处或在回放时听者的“最佳听音位置(sweetspot)”所定位之处的中心点周围的不同方向的声音的完整360度球面。
下混到单个MASA通道的平面FOA及FOA捕获是上文描述的立体声捕获情况的相对简单的扩展。平面FOA情况的特征在于在下混之前进行捕获的麦克风三元组(triple),例如图2中展示的麦克风。在后者FOA情况中,用四个麦克风完成捕获,所述麦克风的布置或定向选择性延伸到所有三个空间维度中。
延迟补偿、振幅及相位调整参数可用于恢复三个或(相应地)四个原始捕获信号,且与仅基于单声道下混信号将可能的情况相比,使用MASA元数据允许更加真实的空间渲染。替代地,延迟补偿、振幅及相位调整参数可用于产生更准确(平面)的FOA表示,其更接近用常规麦克风栅格所捕获的FOA表示。
在又另一案例中,平面FOA或FOA可被捕获及下混到两个或两个以上MASA通道中。此情况是先前情况的扩展,差异是:经捕获三个或四个麦克风信号被下混到两个而非仅单个MASA通道。相同原理在提供延迟补偿、振幅及相位调整参数的目的是在下混之前实现原始信号的最佳可能重构的情况下适用。
如熟练的读者意识到,为了适应所有这些使用案例,空间音频的表示将需要包含不仅仅是关于延迟、增益及相位而且还关于指示下混音频信号的下混配置的参数的元数据。
现参考图1,将经确定元数据参数与下混音频信号一起组合成空间音频的表示(步骤108),此结束过程100。下文是根据本发明的一个实施例可如何表示这些元数据参数的描述。
为了支持上文描述的下混到单个或多个MASA通道的用例,使用两个元数据元素。一个元数据元素是指示下混的信号独立配置元数据。此元数据元素在下文结合图3A到3B进行描述。其它元数据元素与下混相关联。此元数据元素在下文结合图4到6进行描述且可如上文结合图1描述那样进行确定。当发信号通知下混时需要此元素。
图3A中展示的表1A是可用于指示MASA通道的数目的元数据结构,所述数目从单个(单声道)MASA通道起、超过两个(立体声)MASA通道到最多四个MASA通道,分别由通道位值00、01、10及11表示。
图3B中展示的表1B含有来自表1A的通道位值(在此特定情况中,出于说明性目的仅展示通道值“00”及“01”),且展示可如何表示麦克风捕获配置。例如,如表1B中可见,针对单个(单声道)MASA通道,可发信号通知捕获配置是单声道、立体声、平面FOA还是FOA。如表1B中进一步可见,麦克风捕获配置被编码为2位字段(在被命名为位值的栏中)。表1B还包含元数据的额外描述。进一步信号独立配置可(例如)表示音频源自智能电话或类似装置的麦克风栅格。
在其中下混元数据是信号相关的情况中,需要一些进一步细节,如现在将进行描述。如表1B中指示,针对特定情况,当传输信号是通过多麦克风信号下混获得的单声道信号时,在信号相关元数据字段中提供这些细节。提供于那个元数据字段中的信息描述下混之前的所应用延迟调整(可能目的是朝向定向源的声学波束成形)及麦克风信号的滤波(可能目的是均衡/噪声抑制)。此提供可有益于编码、解码及/或渲染的额外信息。
在一个实施例中,下混元数据包括四个字段(分别是):用于发信号通知所应用延迟补偿的定义及选择符字段,接着是发信号通知所应用增益及相位调整的两个字段。
通过表1B的‘位值’字段发信号通知经下混麦克风信号n的数目,即,针对立体声下混(‘位值=01’),n=2,针对平面FOA下混(‘位值=10’),n=3,且针对FOA下混(‘位值=11’),n=4。
每TF片可定义及发信号通知用于高达n个麦克风信号的高达三个不同延迟补偿值集。每一集分别是定向源的方向。延迟补偿值集的定义及发信号通知哪一集应用于哪一TF片以两个单独(定义及选择符)字段完成。
在一个实施例中,定义字段是n×3矩阵,其中8位元素Bi,j编码所应用延迟补偿Δτi,j。这些参数分别是其所属的集,即,分别是定向源的方向(j=1…3)。元素Bi,j进一步分别是捕获麦克风(或相关联捕获信号)(i=1…n,n≤4)。此在图4中展示的表2中示意性地说明。
图4结合图3因此展示其中空间音频的表示含有被组织到定义字段及选择符字段中的元数据参数的实施例。定义字段指定与多个麦克风相关联的至少一个延迟补偿参数集,且选择符字段指定延迟补偿参数集的选择。有利地,麦克风之间的相对时间延迟值的表示是紧凑的且因此在传输到后续编码器或类似物时需要较小比特率。
延迟补偿参数表示来自源的方向的经假设平面声波相较于所述波到达音频捕获装置202的(任意)几何中心点的相对到达时间。用8位整数码字B编码那个参数是根据以下方程式完成的:
Figure BDA0002669060240000131
此使相对延迟参数线性地量化于[-2.0ms,2.0ms]的间隔内,其对应于麦克风相对于原点约68cm的最大位移。也就是说,当然,也可考虑仅一个实例及其它量化特性及解析度。
发信号通知哪一延迟补偿值集应用于哪一TF片是使用表示20ms帧中的4*24个TF片的选择符字段完成的,其假设在20ms帧中有4个子帧且有24个频带。每一字段元素含有用相应码‘01’、‘10’及‘11’编码延迟补偿值集1…3的2位条目。如果无延迟补偿应用于TF片,那么使用‘00’条目。此在图5中展示的表3中示意性地说明。
在2到4个元数据字段中发信号通知增益调整,每一麦克风进行一次增益调整。每一字段是8位增益调整码Ba的矩阵,分别用于20ms帧中的4*24个TF片。用整数码字Ba编码增益调整参数是根据以下方程式完成的:
Figure BDA0002669060240000132
每一麦克风的2到4个元数据字段如图6中展示的表4中展示那样组织。
类似于增益调整那样在2到4个元数据字段中发信号通知相位调整,每一麦克风进行一次相位调整。每一字段是8位相位调整码
Figure BDA0002669060240000133
的矩阵,分别用于20ms帧中的4*24个TF片。用整数码字
Figure BDA0002669060240000134
编码相位调整参数是根据以下方程式完成的:
Figure BDA0002669060240000135
每一麦克风的2到4个元数据字段如表4中展示那样组织,唯一不同在于字段元素是相位调整码字
Figure BDA0002669060240000136
接着,包含相关联元数据的MASA信号的此表示可由编码器、解码器、渲染器及其它类型的音频设备使用以用来传输、接收及如实地恢复经记录空间声音环境。用于这么做的技术是所属领域的一般技术人员所众所周知的,且可容易地经调试以符合本文中描述的空间音频的表示。因此,认为关于这些特定装置的进一步论述在此上下文中是不必要的。
如所属领域的技术人员应理解,上文描述的元数据元素可以不同方式驻存或被确定。举例来说,元数据可在装置(例如音频捕获装置、编码器装置等)本机上确定,可另外从其它数据导出(例如,从云或其它远程服务),或可存储于预定值的表中。举例来说,基于麦克风之间的延迟调整,麦克风的延迟补偿值(图4)可由存储在音频捕获装置处的查找表确定,或基于在音频捕获装置处进行的延迟调整计算从远程装置接收,或基于在此远程装置处执行的延迟调整计算(即,基于输入信号)从那个远程装置接收。
图7展示根据实例性实施例的本发明的上文描述的特征可在其中实施的系统700。系统700包含音频捕获装置202、编码器704、解码器706及渲染器708。系统700的不同组件可通过有线或无线连接或其任何组合彼此通信,且数据通常呈位流的形式在单元之间发送。在上文且结合图2已描述音频捕获装置202,且其经配置以捕获是定向声音与扩散声音的组合的空间音频。音频捕获装置202通过下混来自捕获空间音频的音频捕获单元中的多个麦克风的输入音频信号创建单通道或多通道下混音频信号。接着,音频捕获装置202确定与下混音频信号相关联的第一元数据参数。此将在下文结合图8进一步例示。第一元数据参数指示与每一输入音频信号相关联的相对时间延迟值、增益值及/或相位值。音频捕获装置202最终将下混音频信号及第一元数据参数组合成空间音频的表示。应注意,虽然在当前实施例中,所有音频捕获及组合都在音频捕获装置202上完成,但也可存在替代实施例,其中创建、确定及组合操作的某些部分发生于编码器704上。
编码器704从音频捕获装置202接收空间音频的表示。也就是说,编码器704接收包括由来自捕获空间音频的音频捕获单元中的多个麦克风的输入音频信号的下混产生的单通道或多通道下混音频信号及指示输入音频信号的下混配置、与每一输入音频信号相关联的相对时间延迟值、增益值及/或相位值的第一元数据参数的数据格式。应注意,所述数据格式可在由编码器接收之前/之后存储于非暂时性存储器中。接着,编码器704使用第一元数据将单通道或多通道下混音频信号编码到位流中。在一些实施例中,编码器704可为上文所描述的IVAS编码器,但如所属领域的技术人员意识到,其它类型的编码器704可具有类似能力且也有可能使用。
接着,指示空间音频的经编码表示的经编码位流由解码器706接收。解码器706通过使用包含于来自编码器704的位流中的元数据参数将位流解码成空间音频的近似物。最终,渲染器708接收空间音频的经解码表示且使用元数据来渲染空间音频,以(例如)用一或多个扬声器在接收端处创建空间音频的如实再现。
图8展示根据一些实施例的音频捕获装置202。在一些实施例中,音频捕获装置202可包括存储器802,其具有用于确定第一及/第二元数据的经存储查找表。在一些实施例中,音频捕获装置202可连接到远程装置804(其可定位于云中或可为连接到音频捕获装置202的物理装置),所述远程装置804包括具有用于确定第一及/第二元数据的经存储查找表的存储器806。在一些实施例中,音频捕获装置可进行必要计算/处理(例如,使用处理器803)以(例如)确定与每一输入音频信号相关联的相对时间延迟值、增益值及相位值及将此类参数传输到远程装置以从此装置接收第一及/第二元数据。在其它实施例中,音频捕获装置202正将输入信号传输到远程装置804,所述远程装置804进行必要计算/处理(例如,使用处理器805)及确定用于传输回到音频捕获装置202的第一及/第二元数据。在又另一实施例中,进行必要计算/处理的远程装置804将参数传输回到音频捕获装置202,所述音频捕获装置202基于接收到的参数在本地确定第一及/第二元数据(例如,通过使用具有经存储查找表的存储器806)。
图9展示根据实施例的解码器706及渲染器708(各自包括用于执行各种处理(例如,解码、渲染等)的处理器910、912)。解码器及渲染器可为单独装置或在相同装置中。处理器910、912可共享于解码器与渲染器或单独处理器之间。类似于结合图8描述的内容,第一及/或第二元数据的解释可使用查找表完成,所述查找表存储于解码器706处的存储器902中、存储于渲染器708处的存储器904中、或存储于连接到解码器或渲染器的远程装置905(包括处理器908)处的存储器906中。
等效物、扩展、替代物及其他
所属领域的技术人员在研究上文描述之后,本发明的进一步实施例将变得显而易见。即使本描述及图揭示实施例及实例,但本发明不限于这些特定实例。可作出众多修改及变化而不背离由所附权利要求书定义的本发明的范围。权利要求书中出现的任何参考符号不应被理解为限制其范围。
另外,从对图式、揭示内容及所附权利要求书的研究,所揭示的实施例的变化可被所属领域的技术人员研究理解且由所属领域的技术人员研究在实践本发明时实现。在权利要求书中,词“包括”不排除其它元件或步骤,且不定冠词“一(a/an)”不排除多个。仅仅在互不相同的从属权利要求中引述某些措施的事实并不表示不能有利地使用这些措施的组合。
上文揭示的系统及方法可被实施为软件、固件、硬件或其组合。在硬件实施方案中,在上文描述中提到的功能单元之间的任务划分不一定对应于物理单元的划分;正相反,一个物理组件可具有多种功能,且一个任务可由若干物理组件协作来实施。某些组件或所有组件可被实施为由数字信号处理器或微处理器执行的软件,或被实施为硬件或专用集成电路。此软件可分布于计算机可读媒体上,所述计算机可读媒体可包括计算机存储媒体(或非暂时性媒体)及通信媒体(或暂时性媒体)。如所属领域的技术人员众所周知,术语计算机存储媒体包含实施于任何方法或技术中以用于信息(例如计算机可读指令、数据结构、程序模块或其它数据)的存储的易失性及非易失性、可装卸及非可装卸媒体。计算机存储媒体包含(但不限于)RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置、或可用于存储所要信息且可由计算机存取的任何其它媒体。此外,所属领域的技术人员众所周知,通信媒体通常体现经调制数据信号(例如载波或其它传输媒体)中的计算机可读指令、数据结构、程序模块或其它数据且包含任何信息递送媒体。
所有图都是示意性的且大体上仅展示为了阐明本发明所必要的部件,而可省略或仅仅暗示其它部件。除非另外指示,否则相似参考数字指代不同图中的相似部件。

Claims (38)

1.一种用于表示空间音频的方法,所述空间音频是定向声音与扩散声音的组合,所述方法包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号创建单通道或多通道下混音频信号;
确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。
2.根据权利要求1所述的方法,其中将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示进一步包括:
在所述空间音频的所述表示中包含第二元数据参数,所述第二元数据参数指示所述输入音频信号的下混配置。
3.根据权利要求1或2所述的方法,其中针对所述麦克风输入音频信号的一或多个频带确定所述第一元数据参数。
4.根据权利要求1到3中任一权利要求所述的方法,其中用以创建单通道或多通道下混音频信号x的所述下混通过以下项来描述:
x=D·m
其中:
D是含有定义针对来自所述多个麦克风的每一输入音频信号的权重的下混系数的下混矩阵,且
m是表示来自所述多个麦克风的所述输入音频信号的矩阵。
5.根据权利要求4所述的方法,其中选取所述下混系数来选择当前具有关于所述定向声音的最佳信噪比的所述麦克风的所述输入音频信号,及丢弃来自任何其它麦克风的信号输入音频信号。
6.根据权利要求5所述的方法,其中所述选择是针对每时间频率TF片基础做出的。
7.根据权利要求5所述的方法,其中所述选择是针对特定音频帧的所有频带做出的。
8.根据权利要求4所述的方法,其中当组合来自所述不同麦克风的所述输入音频信号时,选取所述下混系数以最大化关于所述定向声音的所述信噪比。
9.根据权利要求8所述的方法,其中所述最大化是针对特定频带进行的。
10.根据权利要求8所述的方法,其中所述最大化是针对特定音频帧进行的。
11.根据权利要求1到10中任一权利要求所述的方法,其中确定第一元数据参数包含分析以下项中的一或多者:来自所述多个麦克风的所述输入音频信号的延迟、增益及相位特性。
12.根据权利要求1到11中任一权利要求所述的方法,其中所述第一元数据参数是以每时间频率TF片为基础确定的。
13.根据权利要求1到12中任一权利要求所述的方法,其中所述下混的至少一部分发生于所述音频捕获单元中。
14.根据权利要求1到12中任一权利要求所述的方法,其中所述下混的至少一部分发生于编码器中。
15.根据权利要求1到14中任一权利要求所述的方法,其进一步包括:
响应于检测到一个以上定向声源,针对每一源确定第一元数据。
16.根据权利要求1到15中任一权利要求所述的方法,其中所述空间音频的所述表示包含以下参数中的至少一者:方向指数;直接能与总能比;扩展相干性;每一麦克风的到达时间、增益及相位;扩散能与总能比;周围相干性;剩余能与总能比;及距离。
17.根据权利要求1到16中任一权利要求所述的方法,其中所述第二或第一元数据参数中的元数据参数指示所述经创建下混音频信号是从左右立体声信号产生,从平面一阶环境立体声FOA信号产生,还是从一阶环境立体声分量信号产生。
18.根据权利要求1到17中任一权利要求所述的方法,其中所述空间音频的所述表示含有组织到定义字段及选择符字段中的元数据参数,所述定义字段指定与所述多个麦克风相关联的至少一个延迟补偿参数集,且所述选择符字段指定延迟补偿参数集的所述选择。
19.根据权利要求18所述的方法,其中所述选择符字段指定将什么延迟补偿参数集应用于任何给定时间频率片。
20.根据权利要求1到19中任一权利要求所述的方法,其中所述相对时间延迟值大约是在[-2.0ms,2.0ms]的间隔内。
21.根据权利要求18所述的方法,其中所述空间音频的所述表示中的所述元数据参数进一步包含指定经应用增益调整的字段及指定相位调整的字段。
22.根据权利要求21所述的方法,其中所述增益调整大约是在[+10dB,-30dB]的间隔内。
23.根据权利要求1到22中任一权利要求所述的方法,其中使用存储于存储器中的查找表在所述音频捕获装置处确定所述第一及/或第二元数据元素的至少部分。
24.根据权利要求1到23中任一权利要求所述的方法,其中在连接到所述音频捕获装置的远程装置处确定所述第一及/或第二元数据元素的至少部分。
25.一种用于表示空间音频的系统,其包括:
接收组件,其经配置以从捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)接收输入音频信号;
下混组件,其经配置以通过下混所述接收到的音频信号创建单通道或多通道下混音频信号;
元数据确定组件,其经配置以确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
组合组件,其经配置以将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。
26.根据权利要求25所述的系统,其中所述组合组件进一步经配置以在所述空间音频的所述表示中包含第二元数据参数,所述第二元数据参数指示所述输入音频信号的下混配置。
27.一种用于表示空间音频的数据格式,其包括:
由来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号的下混产生的单通道或多通道下混音频信号;及
第一元数据参数,其指示以下项中的一或多者:所述输入音频信号的下混配置、与每一输入音频信号相关联的相对时间延迟值、增益值及相位值。
28.根据权利要求27所述的数据格式,其进一步包括指示所述输入音频信号的下混配置的第二元数据参数。
29.一种包括具有用于执行权利要求1到24中任一权利要求所述的方法的指令的计算机可读媒体的计算机程序产品。
30.一种编码器,其经配置以:
接收空间音频的表示,所述表示包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号创建的单通道或多通道下混音频信号,及
与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
执行以下项中的一者:
使用所述第一元数据将所述单通道或多通道下混音频信号编码到位流中,及
将所述单通道或多通道下混音频信号及所述第一元数据编码到位流中。
31.根据权利要求30所述的编码器,其中:
空间音频的所述表示进一步包含指示所述输入音频信号的下混配置的第二元数据参数;且
所述编码器经配置以使用所述第一及第二元数据参数将所述单通道或多通道下混音频信号编码到位流中。
32.根据权利要求30所述的编码器,其中所述下混的一部分发生于所述音频捕获单元中,且所述下混的一部分发生于所述编码器中。
33.一种解码器,其经配置以:
接收指示空间音频的经编码表示的位流,所述表示包括:
通过下混来自捕获所述空间音频的音频捕获单元(202)中的多个麦克风(m1、m2、m3)的输入音频信号创建的单通道或多通道下混音频信号,及
与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
通过使用所述第一元数据参数将所述位流解码成所述空间音频的近似物。
34.根据权利要求33所述的解码器,其中:
空间音频的所述表示进一步包含指示所述输入音频信号的下混配置的第二元数据参数;且
所述解码器经配置以通过使用所述第一及第二元数据参数将所述位流解码成所述空间音频的近似物。
35.根据权利要求33或34所述的解码器,其进一步包括:
使用第一元数据参数将恢复通道间时间差或调整经解码音频输出的量值或相位。
36.根据权利要求34所述的解码器,其进一步包括:
使用第二元数据参数确定用于定向源信号的恢复或环境声音信号的恢复的上混矩阵。
37.一种渲染器,其经配置以:
接收空间音频的表示,所述表示包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号创建的单通道或多通道下混音频信号,及
与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
使用所述第一元数据渲染所述空间音频。
38.根据权利要求37所述的渲染器,其中:
空间音频的所述表示进一步包含指示所述输入音频信号的下混配置的第二元数据参数;且
所述渲染器经配置以使用所述第一及第二元数据参数渲染空间音频。
CN201980017620.7A 2018-11-13 2019-11-12 用音频信号及相关联元数据表示空间音频 Pending CN111819863A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201862760262P 2018-11-13 2018-11-13
US62/760,262 2018-11-13
US201962795248P 2019-01-22 2019-01-22
US62/795,248 2019-01-22
US201962828038P 2019-04-02 2019-04-02
US62/828,038 2019-04-02
US201962926719P 2019-10-28 2019-10-28
US62/926,719 2019-10-28
PCT/US2019/060862 WO2020102156A1 (en) 2018-11-13 2019-11-12 Representing spatial audio by means of an audio signal and associated metadata

Publications (1)

Publication Number Publication Date
CN111819863A true CN111819863A (zh) 2020-10-23

Family

ID=69160199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980017620.7A Pending CN111819863A (zh) 2018-11-13 2019-11-12 用音频信号及相关联元数据表示空间音频

Country Status (7)

Country Link
US (3) US11765536B2 (zh)
EP (2) EP4462821A3 (zh)
JP (2) JP7553355B2 (zh)
CN (1) CN111819863A (zh)
BR (1) BR112020018466A2 (zh)
ES (1) ES2985934T3 (zh)
WO (1) WO2020102156A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117501362A (zh) * 2021-06-15 2024-02-02 北京字跳网络技术有限公司 音频渲染系统、方法和电子设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2974219T3 (es) 2018-11-13 2024-06-26 Dolby Laboratories Licensing Corp Procesamiento de audio en servicios de audio inversivos
EP4462821A3 (en) * 2018-11-13 2024-12-25 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
GB2586126A (en) * 2019-08-02 2021-02-10 Nokia Technologies Oy MASA with embedded near-far stereo for mobile devices
WO2021053266A2 (en) * 2019-09-17 2021-03-25 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
US20230319465A1 (en) * 2020-08-04 2023-10-05 Rafael Chinchilla Systems, Devices and Methods for Multi-Dimensional Audio Recording and Playback
KR20220017332A (ko) * 2020-08-04 2022-02-11 삼성전자주식회사 오디오 데이터를 처리하는 전자 장치와 이의 동작 방법
KR20220101427A (ko) * 2021-01-11 2022-07-19 삼성전자주식회사 오디오 데이터 처리 방법 및 이를 지원하는 전자 장치
WO2023088560A1 (en) * 2021-11-18 2023-05-25 Nokia Technologies Oy Metadata processing for first order ambisonics
CN114333858B (zh) * 2021-12-06 2024-10-18 安徽听见科技有限公司 音频编码及解码方法和相关装置、设备、存储介质
GB2625990A (en) * 2023-01-03 2024-07-10 Nokia Technologies Oy Recalibration signaling
GB2627482A (en) * 2023-02-23 2024-08-28 Nokia Technologies Oy Diffuse-preserving merging of MASA and ISM metadata

Family Cites Families (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521981A (en) 1994-01-06 1996-05-28 Gehring; Louis S. Sound positioner
JP3052824B2 (ja) 1996-02-19 2000-06-19 日本電気株式会社 オーディオ再生時刻調整回路
FR2761562B1 (fr) 1997-03-27 2004-08-27 France Telecom Systeme de visioconference
GB2366975A (en) 2000-09-19 2002-03-20 Central Research Lab Ltd A method of audio signal processing for a loudspeaker located close to an ear
US7450727B2 (en) * 2002-05-03 2008-11-11 Harman International Industries, Incorporated Multichannel downmixing device
US6814332B2 (en) 2003-01-15 2004-11-09 Ultimate Support Systems, Inc. Microphone support boom movement control apparatus and method with differential motion isolation capability
JP2005181391A (ja) 2003-12-16 2005-07-07 Sony Corp 音声処理装置および音声処理方法
US20050147261A1 (en) 2003-12-30 2005-07-07 Chiang Yeh Head relational transfer function virtualizer
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR100818268B1 (ko) 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
WO2007114624A1 (en) 2006-04-03 2007-10-11 Lg Electronics, Inc. Apparatus for processing media signal and method thereof
CN102892070B (zh) 2006-10-16 2016-02-24 杜比国际公司 多声道下混对象编码的增强编码和参数表示
CN101536086B (zh) 2006-11-15 2012-08-08 Lg电子株式会社 用于解码音频信号的方法和装置
JP5156757B2 (ja) 2006-12-13 2013-03-06 ジーブイビービー ホールディングス エス.エイ.アール.エル. オーディオ・データおよびビデオ・データを取得および編集するシステムおよび方法
WO2009004813A1 (ja) 2007-07-05 2009-01-08 Mitsubishi Electric Corporation デジタル映像伝送システム
US20100228554A1 (en) 2007-10-22 2010-09-09 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
US8457328B2 (en) 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
US8060042B2 (en) 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8831936B2 (en) 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
US8023660B2 (en) 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
US8363716B2 (en) 2008-09-16 2013-01-29 Intel Corporation Systems and methods for video/multimedia rendering, composition, and user interactivity
KR101108060B1 (ko) 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
CN102203854B (zh) 2008-10-29 2013-01-02 杜比国际公司 使用预先存在的音频增益元数据的信号削波保护
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US20100303265A1 (en) 2009-05-29 2010-12-02 Nvidia Corporation Enhancing user experience in audio-visual systems employing stereoscopic display and directional audio
MX2011013829A (es) 2009-06-24 2012-03-07 Fraunhofer Ges Forschung Decodificador de señales de audio, metodo para decodificar una señal de audio y programa de computacion que utiliza etapas en cascada de procesamiento de objetos de audio.
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
JP5417227B2 (ja) 2010-03-12 2014-02-12 日本放送協会 マルチチャンネル音響信号のダウンミックス装置及びプログラム
US9994228B2 (en) 2010-05-14 2018-06-12 Iarmourholdings, Inc. Systems and methods for controlling a vehicle or device in response to a measured human response to a provocative environment
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
KR101697550B1 (ko) 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
US9313597B2 (en) 2011-02-10 2016-04-12 Dolby Laboratories Licensing Corporation System and method for wind detection and suppression
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
AU2012279357B2 (en) 2011-07-01 2016-01-14 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
US9349118B2 (en) 2011-08-29 2016-05-24 Avaya Inc. Input, display and monitoring of contact center operation in a virtual reality environment
US9966080B2 (en) 2011-11-01 2018-05-08 Koninklijke Philips N.V. Audio object encoding and decoding
JP2015509212A (ja) 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
WO2013135940A1 (en) 2012-03-12 2013-09-19 Nokia Corporation Audio source processing
JP2013210501A (ja) 2012-03-30 2013-10-10 Brother Ind Ltd 素片登録装置,音声合成装置,及びプログラム
US9357323B2 (en) 2012-05-10 2016-05-31 Google Technology Holdings LLC Method and apparatus for audio matrix decoding
US9445174B2 (en) 2012-06-14 2016-09-13 Nokia Technologies Oy Audio capture apparatus
GB201211512D0 (en) 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
JP6045696B2 (ja) 2012-07-31 2016-12-14 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
MX350690B (es) 2012-08-03 2017-09-13 Fraunhofer Ges Forschung Método y descodificador para un concepto paramétrico de codificación de objeto de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal.
WO2014023443A1 (en) 2012-08-10 2014-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and method employing a residual concept for parametric audio object coding
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9621991B2 (en) 2012-12-18 2017-04-11 Nokia Technologies Oy Spatial audio apparatus
WO2014100374A2 (en) 2012-12-19 2014-06-26 Rabbit, Inc. Method and system for content sharing and discovery
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
EP2782094A1 (en) 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US20150035940A1 (en) 2013-07-31 2015-02-05 Vidyo Inc. Systems and Methods for Integrating Audio and Video Communication Systems with Gaming Systems
CN105637901B (zh) 2013-10-07 2018-01-23 杜比实验室特许公司 空间音频处理系统和方法
JP6588899B2 (ja) 2013-10-22 2019-10-09 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
CN108712711B (zh) 2013-10-31 2021-06-15 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
CN106104679B (zh) 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
US9521170B2 (en) 2014-04-22 2016-12-13 Minerva Project, Inc. Participation queue system and method for online video conferencing
US10068577B2 (en) 2014-04-25 2018-09-04 Dolby Laboratories Licensing Corporation Audio segmentation based on spatial metadata
US9774976B1 (en) 2014-05-16 2017-09-26 Apple Inc. Encoding and rendering a piece of sound program content with beamforming data
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN110636415B (zh) 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、系统和存储介质
US9930462B2 (en) 2014-09-14 2018-03-27 Insoundz Ltd. System and method for on-site microphone calibration
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN107211061B (zh) 2015-02-03 2020-03-31 杜比实验室特许公司 用于空间会议回放的优化虚拟场景布局
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US10321232B2 (en) 2015-04-02 2019-06-11 Dolby Laboratories Licensing Corporation Distributed amplification for adaptive audio rendering systems
US10062208B2 (en) 2015-04-09 2018-08-28 Cinemoi North America, LLC Systems and methods to provide interactive virtual environments
US10848795B2 (en) 2015-05-12 2020-11-24 Lg Electronics Inc. Apparatus for transmitting broadcast signal, apparatus for receiving broadcast signal, method for transmitting broadcast signal and method for receiving broadcast signal
US10694304B2 (en) 2015-06-26 2020-06-23 Intel Corporation Phase response mismatch correction for multiple microphones
US10085029B2 (en) 2015-07-21 2018-09-25 Qualcomm Incorporated Switching display devices in video telephony
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US20170098452A1 (en) 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
EP3378240B1 (en) 2015-11-20 2019-12-11 Dolby Laboratories Licensing Corporation System and method for rendering an audio program
US9854375B2 (en) 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
US10582329B2 (en) 2016-01-08 2020-03-03 Sony Corporation Audio processing device and method
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
US9986363B2 (en) 2016-03-03 2018-05-29 Mach 1, Corp. Applications and format for immersive spatial sound
US9824500B2 (en) 2016-03-16 2017-11-21 Microsoft Technology Licensing, Llc Virtual object pathing
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
US10652303B2 (en) 2016-04-28 2020-05-12 Rabbit Asset Purchase Corp. Screencast orchestration
US10251012B2 (en) 2016-06-07 2019-04-02 Philip Raymond Schaefer System and method for realistic rotation of stereo or binaural audio
US10026403B2 (en) 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
GB2554446A (en) 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US20180123813A1 (en) 2016-10-31 2018-05-03 Bragi GmbH Augmented Reality Conferencing System and Method
US20180139413A1 (en) 2016-11-17 2018-05-17 Jie Diao Method and system to accommodate concurrent private sessions in a virtual conference
GB2556093A (en) 2016-11-18 2018-05-23 Nokia Technologies Oy Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
GB2557218A (en) 2016-11-30 2018-06-20 Nokia Technologies Oy Distributed audio capture and mixing
AU2017373858B2 (en) 2016-12-05 2022-09-29 Case Western Reserve University Systems, methods, and media for displaying interactive augmented reality presentations
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US10841537B2 (en) 2017-06-09 2020-11-17 Pcms Holdings, Inc. Spatially faithful telepresence supporting varying geometries and moving users
US10541824B2 (en) 2017-06-21 2020-01-21 Minerva Project, Inc. System and method for scalable, interactive virtual conferencing
US10885921B2 (en) 2017-07-07 2021-01-05 Qualcomm Incorporated Multi-stream audio coding
US10304239B2 (en) 2017-07-20 2019-05-28 Qualcomm Incorporated Extended reality virtual assistant
US10854209B2 (en) 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
PT3692523T (pt) 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
US11328735B2 (en) 2017-11-10 2022-05-10 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
JP7175979B2 (ja) 2017-11-17 2022-11-21 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
WO2019106221A1 (en) 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters
WO2019105575A1 (en) 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
WO2019129350A1 (en) 2017-12-28 2019-07-04 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11322164B2 (en) 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
US10819414B2 (en) 2018-03-26 2020-10-27 Intel Corporation Methods and devices for beam tracking
WO2020010064A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for generating or decoding a bitstream comprising immersive audio signals
WO2020008112A1 (en) * 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
EP4462821A3 (en) * 2018-11-13 2024-12-25 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
ES2974219T3 (es) * 2018-11-13 2024-06-26 Dolby Laboratories Licensing Corp Procesamiento de audio en servicios de audio inversivos
EP3930349A1 (en) * 2020-06-22 2021-12-29 Koninklijke Philips N.V. Apparatus and method for generating a diffuse reverberation signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117501362A (zh) * 2021-06-15 2024-02-02 北京字跳网络技术有限公司 音频渲染系统、方法和电子设备

Also Published As

Publication number Publication date
EP3881560B1 (en) 2024-07-24
EP3881560A1 (en) 2021-09-22
BR112020018466A2 (pt) 2021-05-18
WO2020102156A1 (en) 2020-05-22
US20240114307A1 (en) 2024-04-04
ES2985934T3 (es) 2024-11-07
JP2025000644A (ja) 2025-01-07
JP2022511156A (ja) 2022-01-31
EP4462821A3 (en) 2024-12-25
US20220007126A1 (en) 2022-01-06
US12156012B2 (en) 2024-11-26
US11765536B2 (en) 2023-09-19
US20250119698A1 (en) 2025-04-10
RU2020130054A (ru) 2022-03-14
JP7553355B2 (ja) 2024-09-18
EP4462821A2 (en) 2024-11-13
KR20210090096A (ko) 2021-07-19

Similar Documents

Publication Publication Date Title
US12156012B2 (en) Representing spatial audio by means of an audio signal and associated metadata
JP7564295B2 (ja) DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
CN107533843B (zh) 用于捕获、编码、分布和解码沉浸式音频的系统和方法
US11950063B2 (en) Apparatus, method and computer program for audio signal processing
US20230199417A1 (en) Spatial Audio Representation and Rendering
JP2022536676A (ja) DirACベースの空間オーディオ符号化のためのパケット損失隠蔽
RU2809609C2 (ru) Представление пространственного звука посредством звукового сигнала и ассоциированных с ним метаданных
KR102837743B1 (ko) 오디오 신호 및 연관된 메타데이터에 의해 공간 오디오를 표현하는 것
HK40059011B (zh) 用音频信号及相关联元数据表示空间音频
HK40059011A (zh) 用音频信号及相关联元数据表示空间音频
EP4312439A1 (en) Pair direction selection based on dominant audio direction
KR20240152893A (ko) 파라메트릭 공간 오디오 렌더링
GB2620593A (en) Transporting audio signals inside spatial audio signal
CN116940983A (zh) 变换空间音频参数
CN119559954A (zh) 空间音频
HK1248910A1 (zh) 用於捕獲、編碼、分布和解碼沉浸式音頻的系統和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination