[go: up one dir, main page]

CN115691515A - 一种音频编解码方法及装置 - Google Patents

一种音频编解码方法及装置 Download PDF

Info

Publication number
CN115691515A
CN115691515A CN202210816902.7A CN202210816902A CN115691515A CN 115691515 A CN115691515 A CN 115691515A CN 202210816902 A CN202210816902 A CN 202210816902A CN 115691515 A CN115691515 A CN 115691515A
Authority
CN
China
Prior art keywords
audio signal
channel
bit stream
signal
stereo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210816902.7A
Other languages
English (en)
Inventor
孙学京
郭红阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tuoling Intelligent Technology Co ltd
Original Assignee
Nanjing Tuoling Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tuoling Intelligent Technology Co ltd filed Critical Nanjing Tuoling Intelligent Technology Co ltd
Priority to CN202210816902.7A priority Critical patent/CN115691515A/zh
Publication of CN115691515A publication Critical patent/CN115691515A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种音频编解码方法及装置,本方法首先获取待处理的全景声音频信号,全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种;将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流;将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。本发明基于AI,针对多声道音频采用数据驱动的方式进行编解码处理,可以在低延迟下实现音频信号的低码率高质量传输。

Description

一种音频编解码方法及装置
技术领域
本发明涉及音频编解码技术领域,特别涉及一种音频编解码方法及装置。
背景技术
随着生活质量的提高,人们对高质量音频的需求越来越大,如何在低码率下实现音频信号的高质量传输成为研究热点。理想情况下,音频编解码器应该对最终用户是透明的,编解码处理后的音频与原始音频听觉差异不大,且编解码过程中引入的延迟较低。
传统的编解码器利用了人类感知领域的专业知识以及信号处理知识来最大限度地提高压缩算法的效率,比如CELP(Code Excited Linear Prediction,码激励线性预测编码),用线性预测提取声道参数,用一个包含许多典型的激励矢量的码本作为激励参数,每次编码时都在这个码本中搜索一个最佳的激励矢量,这个激励矢量的编码值就是这个序列的码本中的序号。
然而传统的编解码,在高码率下能得到很好的效果,但是这种处理方法在极低比特率时音频质量会急剧下降。
发明内容
基于此,本申请实施例提供了一种音频编解码方法及装置,采用数据驱动的方式来进行音频编解码处理,可以在低延迟下实现音频信号的低码率高质量传输。
第一方面,提供了一种音频编解码方法,该方法包括:
获取待处理的全景声音频信号,所述全景声音频信号至少包括stereo 音频信号、5.1声道音频信号、ambisonics音频信号中的一种,其中,所述stereo音频信号包括左声道音频信号和右声道音频信号;所述 ambisonics音频信号至少包括FOA信号和HOA信号;
将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流;
将所述比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。
可选地,当所述全景声音频信号为stereo音频信号时,在获取待处理的全景声音频信号之后,该方法还包括:
对所述待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数;
将得到的单声道音频信号输入至预先训练的编码神经网络进行编码得到单声道比特流;
针对于立体声参数进行参数量化得到立体声比特流,并和单声道比特流进行同步传输;
将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号;
针对所述立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理,得到重构的左声道音频和右声道音频信号。
可选地,所述立体声参数包括:声道间时间差ITD、声道间能量差参数ILD。
可选地,所述声道间时间差ITD通过目标函数的峰值检测得到,具体根据:
ITD=argmax{φLR(m)}
得到,φLR为归一化互相关函数:
Figure RE-GDA0003872383340000031
其中,xL表示左声道音频信号,xR表示右声道音频信号,n表示音频时域信号对应的索引值,m表示音频时域信号对应的索引值。
可选地,所述声道间能量差参数ILD在对数域定义得到,具体包括:
Figure RE-GDA0003872383340000032
其中,xL表示左声道音频信号,xR表示右声道音频信号,n表示音频时域信号对应的索引值。
可选地,当所述全景声音频信号为5.1声道音频信号时,在获取待处理的全景声音频信号之后,该方法还包括:
对所述待处理的5.1声道音频信号进行下混处理得到单声道信号和立体声参数;
将得到的单声道信号输入至预先训练的编码神经网络进行编码得到单声道比特流;
针对于立体声参数进行参数量化得到立体声比特流,并和单声道比特流进行同步传输;
将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道信号;
针对所述立体声比特流进行参数去量化后结合重构的单声道信号进行后处理,得到重构的5.1声道音频信号。
可选地,当所述全景声音频信号为5.1声道音频信号时,在获取待处理的全景声音频信号之后,该方法还包括:
对所述待处理的5.1声道音频信号基于KLT变换,得到去相关音频和去相关矩阵;
将得到的去相关音频输入至预先训练的编码神经网络进行编码得到去相关信号比特流;
针对于去相关矩阵进行参数量化得到去相关矩阵比特流,与去相关信号比特流进行同步传输;
将所述去相关信号比特流输入至预先训练的解码神经网络进行解码得到重构的去相关音频信号;
针对所述去相关矩阵比特流进行参数去量化后结合重构的单声道信号进行后处理,得到重构的5.1声道音频信号。
可选地,当所述全景声音频信号为ambisonic音频信号时,在获取待处理的全景声音频信号之后,该方法还包括:
对所述待处理的ambisonic音频信号基于KLT变换,得到去相关音频和去相关矩阵;
将得到的去相关音频输入至预先训练的编码神经网络进行编码得到去相关信号比特流;
针对于去相关矩阵进行参数量化得到去相关矩阵比特流,与去相关信号比特流进行同步传输;
将所述去相关信号比特流输入至预先训练的解码神经网络进行解码得到重构的去相关音频信号;
针对所述去相关矩阵比特流进行参数去量化后结合重构的单声道信号进行后处理,得到重构的ambisonic音频信号。
第二方面,提供了一种音频编解码装置,该装置包括:
获取模块,用于获取待处理的全景声音频信号,所述全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种,其中,所述stereo音频信号包括左声道音频信号和右声道音频信号;所述ambisonics音频信号至少包括FOA信号和HOA信号;
编码模块,用于将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流;
解码模块,用于将所述比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。
可选地,当所述全景声音频信号为stereo音频信号时,装置具体包括:
第一处理模块,用于对所述待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数;
第一编码子模块,用于将得到的单声道音频信号输入至预先训练的编码神经网络进行编码得到单声道比特流;
第一参数量化模块,用于针对于立体声参数进行参数量化得到立体声比特流,并和单声道比特流进行同步传输;
第一解码子模块,用于将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号;
第一重构模块,用于针对所述立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理,得到重构的左声道音频和右声道音频信号。
可选地,所述立体声参数包括:声道间时间差ITD、声道间能量差参数ILD。
本申请实施例提供的技术方案中首先获取待处理的全景声音频信号,全景声音频信号至少包括stereo音频信号、5.1声道音频信号、 ambisonics音频信号中的一种;将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流;将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。可以看出,本发明的有益效果在于:基于AI,针对多声道音频采用数据驱动的方式进行编解码处理,可以在低延迟下实现音频信号的低码率高质量传输。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种音频编解码的步骤流程图;
图2为本申请实施例提供的一种音频编解码的技术流程图;
图3为本申请实施例一中stereo音频信号进行编解码处理的流程图;
图4为本申请实施例一中stereo音频信号另一种进行编解码处理的流程图;
图5为本申请实施例二中5.1声道音频信号进行编解码处理的流程图;
图6为本申请实施例二中5.1声道音频信号另一种进行编解码处理的流程图;
图7为本申请实施例二中5.1声道音频信号进行基于KLT变换的流程图;
图8为本申请实施例三中ambisonics音频信号进行编解码处理的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本发明的描述中,除非另有说明“多个”的含义是两个或两个以上。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等旨在区别指代的对象。对于具有时序流程的方案,这种术语表述方式不必理解为描述特定的顺序或先后次序,对于装置结构的方案,这种术语表述方式也不存在对重要程度、位置关系的区分等。
此外,术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、装置、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本发明构思进一步的优化方案所增加的步骤或单元。
本发明技术提出一种基于AI的音频编解码方法和装置,采用数据驱动的方式来进行音频编解码处理,可以在低延迟下实现音频信号的低码率高质量传输。编码端针对输入音频基于AI进行编码处理,得到比特流并进行传输;解码端针对比特流基于AI进行解码处理,得到输出音频。具体图1为音频编解码的步骤流程图,图2为本发明技术流程图,该方法可以包括以下步骤:
步骤101,获取待处理的全景声音频信号。
全景声音频信号至少包括stereo音频信号、5.1声道音频信号、 ambisonics音频信号中的一种,其中,stereo音频信号包括左声道音频信号和右声道音频信号。所述ambisonics音频信号至包括FOA信号和HOA 信号;FOA信号具体是指First orderambisonic,即一阶ambisonics。HOA 信号具体是指Higher OrderAmbisonic,即高阶ambisonics。
步骤102,将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流。
步骤103,将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。
实施例一:
当所述全景声音频信号为stereo音频信号时,即针对stereo音频信号进行编解码处理,如图3,为stereo音频信号进行编解码处理的流程图,具体地:
网络输入为左声道音频和右声道音频信号,基于神经网络进行编解码处理,得到重构的左声道音频和右声道音频信号;
Step1:针对输入的左声道音频信号和右声道音频信号,基于AI进行编码处理,得到比特流并进行传输;
Step2:解码端针对比特流基于AI解码处理,得到重构的左声道音频信号和右声道音频信号。
在本申请中通过训练一个鉴别器来计算对抗性和重建损失函数的组合,使重建的音频听起来接近未压缩的原始音频,从而提供高感知质量的音频输出。例如,所采用的网络可以为encoder(编码器)和decoder (解码器)架构的神经网络架构,例如现有技术中:神经网络编解码器 SoundStream。经过训练后,编码器和解码器可以分别运行在独立的客户端上,以通过网络高效传输高质量的音频。在训练期间,编码器、量化器和解码器参数使用重建和对抗性损失的组合进行优化,并由鉴别器计算;后者经过训练以区分原始输入音频和重建音频。在推理期间,发送器客户端上的编码器和量化器将压缩过的比特流发送到接收器客户端,然后接收器客户端负责解码音频信号。
可选地,图4为当所述全景声音频信号为stereo音频信号时,获取信号之后的流程图,具体为:
Step1:左右声道进行缩混(Downmix)处理,得到单声道音频信号 (mono)和立体声参数(声道间时间差ITD、声道间能量差参数ILD);
ITD是通过相关函数的峰值检测得到的:
ITD=argmax{φLR(m)}
其中,φLR为归一化互相关函数:
Figure RE-GDA0003872383340000081
其中,xL表示左声道音频信号,xR表示右声道音频信号,n表示音频时域信号对应的索引值,m表示音频时域信号对应的索引值。
ILD在对数域定义:
Figure RE-GDA0003872383340000082
其中,xL表示左声道音频信号,xR表示右声道音频信号,n表示音频时域信号对应的索引值。
Step2:针对mono信号基于神经网络在编码端进行Encoder,得到单声道比特流;
Step3:针对立体声参数进行量化,并和单声道比特流进行传输;
Step4:解码端针对单声道比特流进行Decoder处理,得到重构的mono 信号;
Step5:针对立体声比特流去量化得到立体声参数,并结合单声道信号进行后处理,得到左声道音频和右声道音频信号。
实施例二:
针对5.1声道音频信号进行编解码处理,即当全景声音频信号为5.1 声道音频信号时,在获取待处理的全景声音频信号之后的具体过程:
网络输入为5.1声道音频信号,基于神经网络进行Encode和Decode 处理,得到重构的5.1声道音频信号;
图5为实施例二技术流程图,具体为:
Step1:针对输入5.1声道音频信号,基于AI进行编码处理,得到比特流并进行传输;
Step2:解码端针对比特流基于AI解码处理,得到重构的5.1声道音频信号。
图7为5.1声道音频训练和推理图,具体原理同上。
图6为实施例二另一技术流程图,具体为:
Step1:5.1声道音频信号进行Downmix处理,得到mono和立体声参数;
Step2:针对单声道信号基于神经网络在编码端进行Encoder,得到单声道比特流;
Step3:针对立体声参数进行量化,并和单声道比特流进行传输;
Step4:解码端针对单声道比特流进行Decoder处理,得到重构的单声道信号;
Step5:针对立体声比特流去量化得到立体声参数,并结合单声道信号进行后处理,得到5.1声道音频信号。
图7为实施例二又一技术流程图,具体为:
Step1:5.1声道音频信号基于KLT变换,得到去相关音频和去相关矩阵;
Step2:针对U信号基于神经网络在编码端进行Encoder,得到去相关信号比特流;
Step3:针对去相关矩阵M进行量化处理,并和去相关信号比特流进行传输;
Step4:解码端针对去相关信号比特流进行Decoder处理,得到重构的U`信号;
Step5:针对去相关矩阵比特流进行去量化处理,得到去相关参数 M`,并结号U`信号进行后处理,得到5.1声道音频信号。
实施例三:
针对ambisonics音频信号进行编解码处理;网络输入为ambisonics 音频信号,基于神经网络进行Encode和Decode处理,得到重构的 ambisonics音频信号;
图8为实施例三技术流程图,以HOA为例,具体为:
Step1:针对输入HOA音频信号,基于AI进行编码处理,得到比特流并进行传输;
Step2:解码端针对比特流基于AI解码处理,得到重构的HOA音频信号。
First order ambisonic(FOA)或者Higher OrderAmbisonic(HOA),均是多通道音频。其中,FOA为四路音频W,X,Y,Z。HOA就是高阶的,比如三阶,可以是16路音频。两种音频都是先经过KLT变换,得到去相关通道音频,再做AI编解码。
本申请实施例还提供的一种音频编解码装置。装置包括:
获取模块,用于获取待处理的全景声音频信号,全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种,其中,stereo音频信号包括左声道音频信号和右声道音频信号;
编码模块,用于将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流;
解码模块,用于将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。
在本申请一个可选的实施例中,装置具体包括了:第一处理模块,用于对待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数;其中,立体声参数包括:声道间时间差ITD、声道间能量差参数ILD。
第一编码子模块,用于将得到的单声道音频信号输入至预先训练的编码神经网络进行编码得到单声道比特流;
第一参数量化模块,用于针对于立体声参数进行参数量化得到立体声比特流,并和单声道比特流进行同步传输;
第一解码子模块,用于将单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号;
第一重构模块,用于针对立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理,得到重构的左声道音频和右声道音频信号。
本申请实施例提供的音频编解码装置用于实现上述音频编解码方法,关于音频编解码装置的具体限定可以参见上文中对于音频编解码方法的限定,在此不再赘述。上述音频编解码装置中的各个部分可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中,也可以以软件形式存储于设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
综上可以看出,本申请一种音频编解码方法和装置,其中,音频指的是全景声音频,包含stereo、5.1声道、ambisonics等多声道音频;具体音频编解码是基于数据驱动实现的,能够在低码率下实现音频信号的高质量传输。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种音频编解码方法,其特征在于,所述方法包括:
获取待处理的全景声音频信号,所述全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种,其中,所述stereo音频信号包括左声道音频信号和右声道音频信号;所述ambisonics音频信号至少包括FOA信号和HOA信号;
将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流;
将所述比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。
2.根据权利要求1所述的方法,当所述全景声音频信号为stereo音频信号时,其特征在于,在获取待处理的全景声音频信号之后,所述方法还包括:
对所述待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数;
将得到的单声道音频信号输入至预先训练的编码神经网络进行编码得到单声道比特流;
针对于立体声参数进行参数量化得到立体声比特流,并和单声道比特流进行同步传输;
将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号;
针对所述立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理,得到重构的左声道音频和右声道音频信号。
3.根据权利要求2所述的方法,其特征在于,所述立体声参数包括:声道间时间差ITD、声道间能量差参数ILD。
4.根据权利要求3所述的方法,其特征在于,所述声道间时间差ITD通过目标函数的峰值检测得到,具体根据:
ITD=argmax{φLR(m)}
得到,φLR为归一化互相关函数:
Figure FDA0003742773020000021
其中,xL表示左声道音频信号,xR表示右声道音频信号,n表示音频时域信号对应的索引值,m表示音频时域信号对应的索引值。
5.根据权利要求3所述的方法,其特征在于,所述声道间能量差参数ILD在对数域定义得到,具体包括:
Figure FDA0003742773020000022
其中,xL表示左声道音频信号,xR表示右声道音频信号,n表示音频时域信号对应的索引值。
6.根据权利要求1所述的方法,当所述全景声音频信号为5.1声道音频信号时,其特征在于,在获取待处理的全景声音频信号之后,所述方法还包括:
对所述待处理的5.1声道音频信号进行下混处理得到单声道信号和立体声参数;
将得到的单声道信号输入至预先训练的编码神经网络进行编码得到单声道比特流;
针对于立体声参数进行参数量化得到立体声比特流,并和单声道比特流进行同步传输;
将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道信号;
针对所述立体声比特流进行参数去量化后结合重构的单声道信号进行后处理,得到重构的5.1声道音频信号。
7.根据权利要求1所述的方法,当所述全景声音频信号为5.1声道音频信号时,其特征在于,在获取待处理的全景声音频信号之后,所述方法还包括:
对所述待处理的5.1声道音频信号基于KLT变换,得到去相关音频和去相关矩阵;
将得到的去相关音频输入至预先训练的编码神经网络进行编码得到去相关信号比特流;
针对于去相关矩阵进行参数量化得到去相关矩阵比特流,与去相关信号比特流进行同步传输;
将所述去相关信号比特流输入至预先训练的解码神经网络进行解码得到重构的去相关音频信号;
针对所述去相关矩阵比特流进行参数去量化后结合重构的单声道信号进行后处理,得到重构的5.1声道音频信号。
8.一种音频编解码装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的全景声音频信号,所述全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种,其中,所述stereo音频信号包括左声道音频信号和右声道音频信号;所述ambisonics音频信号至少包括FOA信号和HOA信号;
编码模块,用于将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流;
解码模块,用于将所述比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。
9.根据权利要求8所述的装置,当所述全景声音频信号为stereo音频信号时,其特征在于,所述装置具体包括:
第一处理模块,用于对所述待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数;
第一编码子模块,用于将得到的单声道音频信号输入至预先训练的编码神经网络进行编码得到单声道比特流;
第一参数量化模块,用于针对于立体声参数进行参数量化得到立体声比特流,并和单声道比特流进行同步传输;
第一解码子模块,用于将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号;
第一重构模块,用于针对所述立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理,得到重构的左声道音频和右声道音频信号。
10.根据权利要求9所述的装置,其特征在于,所述立体声参数包括:声道间时间差ITD、声道间能量差参数ILD。
CN202210816902.7A 2022-07-12 2022-07-12 一种音频编解码方法及装置 Pending CN115691515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210816902.7A CN115691515A (zh) 2022-07-12 2022-07-12 一种音频编解码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210816902.7A CN115691515A (zh) 2022-07-12 2022-07-12 一种音频编解码方法及装置

Publications (1)

Publication Number Publication Date
CN115691515A true CN115691515A (zh) 2023-02-03

Family

ID=85061061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210816902.7A Pending CN115691515A (zh) 2022-07-12 2022-07-12 一种音频编解码方法及装置

Country Status (1)

Country Link
CN (1) CN115691515A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060133618A1 (en) * 2004-11-02 2006-06-22 Lars Villemoes Stereo compatible multi-channel audio coding
CN101556799A (zh) * 2009-05-14 2009-10-14 华为技术有限公司 一种音频解码方法和音频解码器
US20100198601A1 (en) * 2007-05-10 2010-08-05 France Telecom Audio encoding and decoding method and associated audio encoder, audio decoder and computer programs
CN101982793A (zh) * 2010-10-20 2011-03-02 武汉大学 一种基于立体声信号的移动音源定位方法
CN102664017A (zh) * 2012-04-25 2012-09-12 武汉大学 一种3d音频质量客观评价方法
CN102708868A (zh) * 2006-01-20 2012-10-03 微软公司 使用扩展带频率编码的复变换信道编码
CN107731238A (zh) * 2016-08-10 2018-02-23 华为技术有限公司 多声道信号的编码方法和编码器
CN108885877A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 用于估计声道间时间差的设备及方法
CN109801639A (zh) * 2017-11-16 2019-05-24 全景声科技南京有限公司 一种符合ac-3格式的全景声信号的编解码方法
CN112866896A (zh) * 2021-01-27 2021-05-28 西安时代拓灵科技有限公司 一种沉浸式音频上混方法及系统
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060133618A1 (en) * 2004-11-02 2006-06-22 Lars Villemoes Stereo compatible multi-channel audio coding
CN102708868A (zh) * 2006-01-20 2012-10-03 微软公司 使用扩展带频率编码的复变换信道编码
US20100198601A1 (en) * 2007-05-10 2010-08-05 France Telecom Audio encoding and decoding method and associated audio encoder, audio decoder and computer programs
CN101556799A (zh) * 2009-05-14 2009-10-14 华为技术有限公司 一种音频解码方法和音频解码器
CN101982793A (zh) * 2010-10-20 2011-03-02 武汉大学 一种基于立体声信号的移动音源定位方法
CN102664017A (zh) * 2012-04-25 2012-09-12 武汉大学 一种3d音频质量客观评价方法
CN108885877A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 用于估计声道间时间差的设备及方法
CN107731238A (zh) * 2016-08-10 2018-02-23 华为技术有限公司 多声道信号的编码方法和编码器
CN109801639A (zh) * 2017-11-16 2019-05-24 全景声科技南京有限公司 一种符合ac-3格式的全景声信号的编解码方法
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN112866896A (zh) * 2021-01-27 2021-05-28 西安时代拓灵科技有限公司 一种沉浸式音频上混方法及系统

Similar Documents

Publication Publication Date Title
US12112762B2 (en) Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
RU2576476C2 (ru) Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
KR102696640B1 (ko) 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
JP5930441B2 (ja) マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置
CN1783728A (zh) 通过使用空间信息来处理多声道音频信号的设备和方法
US20230238007A1 (en) Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis
US20230298602A1 (en) Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects
CN115691515A (zh) 一种音频编解码方法及装置
TWI872420B (zh) 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、或使用優化共變異數合成進行解碼的設備和方法
TWI858529B (zh) 轉換音訊串流之設備及方法
RU2823518C1 (ru) Устройство и способ кодирования множества аудиообъектов или устройство и способ декодирования с использованием двух или более релевантных аудиообъектов
US20230335142A1 (en) Processing parametrically coded audio
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
CN116529815A (zh) 对多个音频对象进行编码的装置和方法以及使用两个或更多个相关音频对象进行解码的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230203

RJ01 Rejection of invention patent application after publication