CN115691515A

CN115691515A - 一种音频编解码方法及装置

Info

Publication number: CN115691515A
Application number: CN202210816902.7A
Authority: CN
Inventors: 孙学京; 郭红阳
Original assignee: Nanjing Tuoling Intelligent Technology Co ltd
Current assignee: Nanjing Tuoling Intelligent Technology Co ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2023-02-03

Abstract

本申请公开了一种音频编解码方法及装置，本方法首先获取待处理的全景声音频信号，全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种；将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流；将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。本发明基于AI，针对多声道音频采用数据驱动的方式进行编解码处理，可以在低延迟下实现音频信号的低码率高质量传输。

Description

一种音频编解码方法及装置

技术领域

本发明涉及音频编解码技术领域，特别涉及一种音频编解码方法及装置。

背景技术

随着生活质量的提高，人们对高质量音频的需求越来越大，如何在低码率下实现音频信号的高质量传输成为研究热点。理想情况下，音频编解码器应该对最终用户是透明的，编解码处理后的音频与原始音频听觉差异不大，且编解码过程中引入的延迟较低。

传统的编解码器利用了人类感知领域的专业知识以及信号处理知识来最大限度地提高压缩算法的效率，比如CELP(Code Excited Linear Prediction，码激励线性预测编码)，用线性预测提取声道参数，用一个包含许多典型的激励矢量的码本作为激励参数，每次编码时都在这个码本中搜索一个最佳的激励矢量，这个激励矢量的编码值就是这个序列的码本中的序号。

然而传统的编解码，在高码率下能得到很好的效果，但是这种处理方法在极低比特率时音频质量会急剧下降。

发明内容

基于此，本申请实施例提供了一种音频编解码方法及装置，采用数据驱动的方式来进行音频编解码处理，可以在低延迟下实现音频信号的低码率高质量传输。

第一方面，提供了一种音频编解码方法，该方法包括：

获取待处理的全景声音频信号，所述全景声音频信号至少包括stereo 音频信号、5.1声道音频信号、ambisonics音频信号中的一种，其中，所述stereo音频信号包括左声道音频信号和右声道音频信号；所述 ambisonics音频信号至少包括FOA信号和HOA信号；

将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流；

将所述比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。

可选地，当所述全景声音频信号为stereo音频信号时，在获取待处理的全景声音频信号之后，该方法还包括：

对所述待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数；

将得到的单声道音频信号输入至预先训练的编码神经网络进行编码得到单声道比特流；

针对于立体声参数进行参数量化得到立体声比特流，并和单声道比特流进行同步传输；

将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号；

针对所述立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理，得到重构的左声道音频和右声道音频信号。

可选地，所述立体声参数包括：声道间时间差ITD、声道间能量差参数ILD。

可选地，所述声道间时间差ITD通过目标函数的峰值检测得到，具体根据：

ITD＝argmax{φ_LR(m)}

得到，φ_LR为归一化互相关函数：

其中，x_L表示左声道音频信号，x_R表示右声道音频信号，n表示音频时域信号对应的索引值，m表示音频时域信号对应的索引值。

可选地，所述声道间能量差参数ILD在对数域定义得到，具体包括：

其中，x_L表示左声道音频信号，x_R表示右声道音频信号，n表示音频时域信号对应的索引值。

可选地，当所述全景声音频信号为5.1声道音频信号时，在获取待处理的全景声音频信号之后，该方法还包括：

对所述待处理的5.1声道音频信号进行下混处理得到单声道信号和立体声参数；

将得到的单声道信号输入至预先训练的编码神经网络进行编码得到单声道比特流；

将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道信号；

针对所述立体声比特流进行参数去量化后结合重构的单声道信号进行后处理，得到重构的5.1声道音频信号。

对所述待处理的5.1声道音频信号基于KLT变换，得到去相关音频和去相关矩阵；

将得到的去相关音频输入至预先训练的编码神经网络进行编码得到去相关信号比特流；

针对于去相关矩阵进行参数量化得到去相关矩阵比特流，与去相关信号比特流进行同步传输；

将所述去相关信号比特流输入至预先训练的解码神经网络进行解码得到重构的去相关音频信号；

针对所述去相关矩阵比特流进行参数去量化后结合重构的单声道信号进行后处理，得到重构的5.1声道音频信号。

可选地，当所述全景声音频信号为ambisonic音频信号时，在获取待处理的全景声音频信号之后，该方法还包括：

对所述待处理的ambisonic音频信号基于KLT变换，得到去相关音频和去相关矩阵；

针对所述去相关矩阵比特流进行参数去量化后结合重构的单声道信号进行后处理，得到重构的ambisonic音频信号。

第二方面，提供了一种音频编解码装置，该装置包括：

获取模块，用于获取待处理的全景声音频信号，所述全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种，其中，所述stereo音频信号包括左声道音频信号和右声道音频信号；所述ambisonics音频信号至少包括FOA信号和HOA信号；

编码模块，用于将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流；

解码模块，用于将所述比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。

可选地，当所述全景声音频信号为stereo音频信号时，装置具体包括：

第一处理模块，用于对所述待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数；

第一编码子模块，用于将得到的单声道音频信号输入至预先训练的编码神经网络进行编码得到单声道比特流；

第一参数量化模块，用于针对于立体声参数进行参数量化得到立体声比特流，并和单声道比特流进行同步传输；

第一解码子模块，用于将所述单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号；

第一重构模块，用于针对所述立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理，得到重构的左声道音频和右声道音频信号。

本申请实施例提供的技术方案中首先获取待处理的全景声音频信号，全景声音频信号至少包括stereo音频信号、5.1声道音频信号、 ambisonics音频信号中的一种；将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流；将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。可以看出，本发明的有益效果在于：基于AI，针对多声道音频采用数据驱动的方式进行编解码处理，可以在低延迟下实现音频信号的低码率高质量传输。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本申请实施例提供的一种音频编解码的步骤流程图；

图2为本申请实施例提供的一种音频编解码的技术流程图；

图3为本申请实施例一中stereo音频信号进行编解码处理的流程图；

图4为本申请实施例一中stereo音频信号另一种进行编解码处理的流程图；

图5为本申请实施例二中5.1声道音频信号进行编解码处理的流程图；

图6为本申请实施例二中5.1声道音频信号另一种进行编解码处理的流程图；

图7为本申请实施例二中5.1声道音频信号进行基于KLT变换的流程图；

图8为本申请实施例三中ambisonics音频信号进行编解码处理的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本发明的描述中，除非另有说明“多个”的含义是两个或两个以上。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等旨在区别指代的对象。对于具有时序流程的方案，这种术语表述方式不必理解为描述特定的顺序或先后次序，对于装置结构的方案，这种术语表述方式也不存在对重要程度、位置关系的区分等。

此外，术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、装置、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

本发明技术提出一种基于AI的音频编解码方法和装置，采用数据驱动的方式来进行音频编解码处理，可以在低延迟下实现音频信号的低码率高质量传输。编码端针对输入音频基于AI进行编码处理，得到比特流并进行传输；解码端针对比特流基于AI进行解码处理，得到输出音频。具体图1为音频编解码的步骤流程图，图2为本发明技术流程图，该方法可以包括以下步骤：

步骤101，获取待处理的全景声音频信号。

全景声音频信号至少包括stereo音频信号、5.1声道音频信号、 ambisonics音频信号中的一种，其中，stereo音频信号包括左声道音频信号和右声道音频信号。所述ambisonics音频信号至包括FOA信号和HOA 信号；FOA信号具体是指First orderambisonic，即一阶ambisonics。HOA 信号具体是指Higher OrderAmbisonic，即高阶ambisonics。

步骤102，将待处理的全景声音频信号输入至预先训练的编码神经网络进行编码得到比特流。

步骤103，将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。

实施例一：

当所述全景声音频信号为stereo音频信号时，即针对stereo音频信号进行编解码处理，如图3，为stereo音频信号进行编解码处理的流程图，具体地：

网络输入为左声道音频和右声道音频信号，基于神经网络进行编解码处理，得到重构的左声道音频和右声道音频信号；

Step1：针对输入的左声道音频信号和右声道音频信号，基于AI进行编码处理，得到比特流并进行传输；

Step2：解码端针对比特流基于AI解码处理，得到重构的左声道音频信号和右声道音频信号。

在本申请中通过训练一个鉴别器来计算对抗性和重建损失函数的组合，使重建的音频听起来接近未压缩的原始音频，从而提供高感知质量的音频输出。例如，所采用的网络可以为encoder(编码器)和decoder (解码器)架构的神经网络架构，例如现有技术中：神经网络编解码器 SoundStream。经过训练后，编码器和解码器可以分别运行在独立的客户端上，以通过网络高效传输高质量的音频。在训练期间，编码器、量化器和解码器参数使用重建和对抗性损失的组合进行优化，并由鉴别器计算；后者经过训练以区分原始输入音频和重建音频。在推理期间，发送器客户端上的编码器和量化器将压缩过的比特流发送到接收器客户端，然后接收器客户端负责解码音频信号。

可选地，图4为当所述全景声音频信号为stereo音频信号时，获取信号之后的流程图，具体为：

Step1：左右声道进行缩混(Downmix)处理，得到单声道音频信号 (mono)和立体声参数(声道间时间差ITD、声道间能量差参数ILD)；

ITD是通过相关函数的峰值检测得到的：

ITD＝argmax{φ_LR(m)}

其中，φ_LR为归一化互相关函数：

ILD在对数域定义：

Step2：针对mono信号基于神经网络在编码端进行Encoder，得到单声道比特流；

Step3：针对立体声参数进行量化，并和单声道比特流进行传输；

Step4：解码端针对单声道比特流进行Decoder处理，得到重构的mono 信号；

Step5：针对立体声比特流去量化得到立体声参数，并结合单声道信号进行后处理，得到左声道音频和右声道音频信号。

实施例二：

针对5.1声道音频信号进行编解码处理，即当全景声音频信号为5.1 声道音频信号时，在获取待处理的全景声音频信号之后的具体过程：

网络输入为5.1声道音频信号，基于神经网络进行Encode和Decode 处理，得到重构的5.1声道音频信号；

图5为实施例二技术流程图，具体为：

Step1：针对输入5.1声道音频信号，基于AI进行编码处理，得到比特流并进行传输；

Step2：解码端针对比特流基于AI解码处理，得到重构的5.1声道音频信号。

图7为5.1声道音频训练和推理图，具体原理同上。

图6为实施例二另一技术流程图，具体为：

Step1：5.1声道音频信号进行Downmix处理，得到mono和立体声参数；

Step2：针对单声道信号基于神经网络在编码端进行Encoder，得到单声道比特流；

Step4：解码端针对单声道比特流进行Decoder处理，得到重构的单声道信号；

Step5：针对立体声比特流去量化得到立体声参数，并结合单声道信号进行后处理，得到5.1声道音频信号。

图7为实施例二又一技术流程图，具体为：

Step1：5.1声道音频信号基于KLT变换，得到去相关音频和去相关矩阵；

Step2：针对U信号基于神经网络在编码端进行Encoder，得到去相关信号比特流；

Step3：针对去相关矩阵M进行量化处理，并和去相关信号比特流进行传输；

Step4：解码端针对去相关信号比特流进行Decoder处理，得到重构的U`信号；

Step5：针对去相关矩阵比特流进行去量化处理，得到去相关参数 M`，并结号U`信号进行后处理，得到5.1声道音频信号。

实施例三：

针对ambisonics音频信号进行编解码处理；网络输入为ambisonics 音频信号，基于神经网络进行Encode和Decode处理，得到重构的 ambisonics音频信号；

图8为实施例三技术流程图，以HOA为例，具体为：

Step1：针对输入HOA音频信号，基于AI进行编码处理，得到比特流并进行传输；

Step2：解码端针对比特流基于AI解码处理，得到重构的HOA音频信号。

First order ambisonic(FOA)或者Higher OrderAmbisonic(HOA),均是多通道音频。其中，FOA为四路音频W,X,Y,Z。HOA就是高阶的，比如三阶，可以是16路音频。两种音频都是先经过KLT变换，得到去相关通道音频，再做AI编解码。

本申请实施例还提供的一种音频编解码装置。装置包括：

获取模块，用于获取待处理的全景声音频信号，全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种，其中，stereo音频信号包括左声道音频信号和右声道音频信号；

解码模块，用于将比特流输入至预先训练的解码神经网络进行解码得到重构的音频信号。

在本申请一个可选的实施例中，装置具体包括了：第一处理模块，用于对待处理的stereo音频信号进行下混处理得到单声道音频信号和立体声参数；其中，立体声参数包括：声道间时间差ITD、声道间能量差参数ILD。

第一解码子模块，用于将单声道比特流输入至预先训练的解码神经网络进行解码得到重构的单声道音频信号；

第一重构模块，用于针对立体声比特流进行参数去量化后结合重构的单声道音频信号进行后处理，得到重构的左声道音频和右声道音频信号。

本申请实施例提供的音频编解码装置用于实现上述音频编解码方法，关于音频编解码装置的具体限定可以参见上文中对于音频编解码方法的限定，在此不再赘述。上述音频编解码装置中的各个部分可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中，也可以以软件形式存储于设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

综上可以看出，本申请一种音频编解码方法和装置，其中，音频指的是全景声音频，包含stereo、5.1声道、ambisonics等多声道音频；具体音频编解码是基于数据驱动实现的，能够在低码率下实现音频信号的高质量传输。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频编解码方法，其特征在于，所述方法包括：

获取待处理的全景声音频信号，所述全景声音频信号至少包括stereo音频信号、5.1声道音频信号、ambisonics音频信号中的一种，其中，所述stereo音频信号包括左声道音频信号和右声道音频信号；所述ambisonics音频信号至少包括FOA信号和HOA信号；

2.根据权利要求1所述的方法，当所述全景声音频信号为stereo音频信号时，其特征在于，在获取待处理的全景声音频信号之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述立体声参数包括：声道间时间差ITD、声道间能量差参数ILD。

4.根据权利要求3所述的方法，其特征在于，所述声道间时间差ITD通过目标函数的峰值检测得到，具体根据：

ITD＝argmax{φ_LR(m)}

得到，φ_LR为归一化互相关函数：

5.根据权利要求3所述的方法，其特征在于，所述声道间能量差参数ILD在对数域定义得到，具体包括：

6.根据权利要求1所述的方法，当所述全景声音频信号为5.1声道音频信号时，其特征在于，在获取待处理的全景声音频信号之后，所述方法还包括：

7.根据权利要求1所述的方法，当所述全景声音频信号为5.1声道音频信号时，其特征在于，在获取待处理的全景声音频信号之后，所述方法还包括：

8.一种音频编解码装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，当所述全景声音频信号为stereo音频信号时，其特征在于，所述装置具体包括：

10.根据权利要求9所述的装置，其特征在于，所述立体声参数包括：声道间时间差ITD、声道间能量差参数ILD。