CN112866896A

CN112866896A - 一种沉浸式音频上混方法及系统

Info

Publication number: CN112866896A
Application number: CN202110111130.2A
Authority: CN
Inventors: 孙学京; 李旭阳
Original assignee: Beijing Tuoling Inc; Xi'an Times Tuoling Technology Co ltd
Current assignee: Beijing Tuoling Xinsheng Technology Co ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-28
Anticipated expiration: 2041-01-27
Also published as: CN112866896B

Abstract

本发明公开了一种沉浸式音频上混方法及系统，通过获取输入的立体声音频信号，采用深度学习声源分离模型将立体声音频信号分离为声源信号和环境音信号；采用深度学习声源分离模型将声源信号分离为中置音源信号和低音信号；采用深度学习声源分离模型对环境音信号进行去相关处理，获得左环绕声音频信号和右环绕声音频信号；获取输入的左声道音频信号和右声道音频信号，将中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。本发明基于神经网络对输入立体声音频信号进行实时处理，音源和环境音能够有效区分，能够得到多声道音频信号，进而提升沉浸式效果。

Description

一种沉浸式音频上混方法及系统

技术领域

本发明涉及声音处理技术领域，具体涉及一种沉浸式音频上混方法及系统。

背景技术

近年来，随着高清视频的不断发展，从2K到4K，甚至8K，还有伴随着虚拟现实VR、AR的发展，人们对音频的听觉要求也随之提高。人们已不再满足于流行多年的立体声音响效果，开始追求更具有沉浸感、真实感的3D音效或沉浸式音效。专业影院和家庭影院通常拥有多个扬声器可以播放5.1/7.1和更多声道的沉浸式音频，此外，车载音频也逐步过渡到可以播放多于双声道的内容。

目前，采用upmix算法对立体声音频信号进行处理，以将立体声(stereo)环绕声，如中置音源(Center)、左声道(L)、右声道(R)、左环绕声(LS)、右环绕声(RS)、低音(LFE)。通过对Center信号分别进行BPF和LPF处理，得到C音频信号和LFE音频信号；将RS信号进行时延处理和LPF处理，进一步进行去相关处理(例如，相位进行取反处理)，分别得到LS音频信号和RS音频信号；结合输入左声道音频信号和右声道音频信号，得到环绕声道音频信号。现有技术中，经过上混处理后，音源和环境音不能很好的区分出来，大大减弱了多声道声道音频信号的沉浸式效果。目前市场上还有大量的传统立体声(双声道)内容，如何让最新的沉浸式音频系统兼容传统立体声内容，同时更理想的利用更多通道的优势渲染出更好的沉浸式效果，是亟需解决的痛点问题。

发明内容

为此，本发明提供一种沉浸式音频上混方法及系统，通过将立体声音频转为至少四路的多通道格式音频，提升整体音频体验，解决音源和环境音不能很好的区分减弱多声道声道音频信号的沉浸式效果的问题。

为了实现上述目的，本发明提供如下技术方案：一种沉浸式音频上混方法，包括以下步骤：

获取输入的立体声音频信号，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号；

采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号；

采用深度学习声源分离模型对所述环境音信号进行去相关处理，获得左环绕声音频信号和右环绕声音频信号；

获取输入的左声道音频信号和右声道音频信号，将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。

作为沉浸式音频上混方法的优选方案，还包括，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数；

采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理，获得左环绕声音频信号和右环绕声音频信号。

作为沉浸式音频上混方法的优选方案，所述深度学习声源分离模型采用U-nets结构；所述U-nets结构包含encoder和decoder部分；所述encoder和decoder之间采用长短期记忆网络LSTM进行连接，最后输出掩码mask进行声音分离。

作为沉浸式音频上混方法的优选方案，所述U-nets结构包括下采样处理和上采样处理，所述下采样处理用于进行立体声音频信号浓缩，上采样处理用于进行立体声音频信号像素恢复；

所述U-nets结构中，每一次下采样处理设有一个跳跃连接与对应的上采样处理进行级联。

作为沉浸式音频上混方法的优选方案，所述深度学习声源分离模型直接针对立体声的时域音频信号进行训练；

或根据立体声的频域信号进行训练，所述立体声的频域信号包括左声道实部信息、左声道虚部信息、右声道实部信息和右声道虚部信息；

或根据立体声的频域参数进行训练，所述立体声的频域参数包括左右声道能量比值。

作为沉浸式音频上混方法的优选方案，对输入的立体声音频信号进行模式检测，当所述立体声音频信号为影视内容时，则采用模式A进行处理：

基于深度学习声源分离模型得到声源信号和环境音信号，根据声源信号得到中置音源信号和低音信号，根据环境音信号进行去相关得到左环绕声音频信号和右环绕声音频信号，最后将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。

作为沉浸式音频上混方法的优选方案，对输入的立体声音频信号进行模式检测，当所述立体声音频信号为音乐内容时，则采用模式B进行处理：

给出立体声音频信号的音乐风格类型，根据音乐风格类型，设置中置音源信号为静音，对立体声音频信号进行去相关得到左环绕声音频信号和右环绕声音频信号；最后将低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。

作为沉浸式音频上混方法的优选方案，对输入的立体声音频信号，采用深度学习声源分离模型处理直接得到多声道音频信号；

根据模式检测结果，如果立体声音频信号是影视内容，则使用深度学习神经网络的方法预测多个输出通道。

本发明还提供一种沉浸式音频上混系统，包括：

第一处理模块，用于获取输入的立体声音频信号，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号；

第二处理模块，用于采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号；

第三处理模块，用于采用深度学习声源分离模型对所述环境音信号进行去相关处理，获得左环绕声音频信号和右环绕声音频信号；

音频合并模块，用于获取输入的左声道音频信号和右声道音频信号，将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。

作为沉浸式音频上混系统的优选方案，第一处理模块还用于获取输入的立体声音频信号，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数；

第三处理模块，还用于采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理，获得左环绕声音频信号和右环绕声音频信号。

本发明具有如下优点：通过获取输入的立体声音频信号，采用深度学习声源分离模型将立体声音频信号分离为声源信号和环境音信号；采用深度学习声源分离模型将声源信号分离为中置音源信号和低音信号；采用深度学习声源分离模型对环境音信号进行去相关处理，获得左环绕声音频信号和右环绕声音频信号；获取输入的左声道音频信号和右声道音频信号，将中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。本发明基于神经网络对输入立体声音频信号进行实时处理，音源和环境音能够有效区分，能够得到多声道音频信号，进而提升沉浸式效果。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例中提供的第一种沉浸式音频上混方法流程图；

图2为本发明实施例中提供的第二种沉浸式音频上混方法流程图；

图3为本发明实施例中提供的第三种沉浸式音频上混方法流程图；

图4为本发明实施例中提供的第四种沉浸式音频上混方法流程图；

图5为本发明实施例提供的第一种深度学习声源分离模型训练处理框架；

图6为本发明实施例提供的第二种深度学习声源分离模型训练处理框架；

图7为本发明实施例中提供的沉浸式音频上混系统示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，提供一种沉浸式音频上混方法，包括以下步骤：

参见图2，沉浸式音频上混方法的一个实施例中，还包括，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数；

具体的，所述深度学习声源分离模型采用U-nets结构；所述U-nets结构包含encoder和decoder部分；所述encoder和decoder之间采用长短期记忆网络LSTM进行连接。其中encoder(6层)和decoder(6层)部分由卷积神经网络组成，总共12层。最后输出掩码(mask)进行声音分离。

本实施例中，所述U-nets结构包括下采样处理和上采样处理，所述下采样处理用于进行立体声音频信号浓缩，上采样处理用于进行立体声音频信号像素恢复；所述U-nets结构中，每一次下采样处理设有一个跳跃连接(Skip Connection)与对应的上采样处理进行级联。

具体的，U-nets结构中，包含了下采样处理和上采样处理，其中，下采样用于进行信息浓缩，上采样用于进行像素恢复。模型进行6次最大池化下采样，每一次采样后使用卷积进行信息提取得到特征图，然后再经过6次上采样恢复输入像素尺寸。

此外，U-nets还采用了跳跃连接。每一次下采样都会有一个跳跃连接与对应的上采样进行级联，这种不同尺度的特征融合对上采样恢复像素大有帮助，具体来说就是高层(浅层)下采样倍数小，特征图具备更加细致的图特征，底层(深层)下采样倍数大，信息经过大量浓缩，空间损失大，但有助于目标区域(分类)判断，当高层次(high level)和低层次(low level)的特征进行融合时，能达到非常好的分割效果。

本实施例中，所述深度学习声源分离模型直接针对立体声的时域音频信号进行训练；或根据立体声的频域信号进行训练，所述立体声的频域信号包括左声道实部信息、左声道虚部信息、右声道实部信息和右声道虚部信息；或根据立体声的频域参数进行训练，所述立体声的频域参数包括左右声道能量比值。

参见图5，深度学习声源分离模型(NN)输入包含了立体声音频信号、声源信号、环境音信号以及去相关参数，根据输入立体声音频信号进行训练，task1为重建声源和环境音，task2为重建去相关参数，进一步根据task1和task2设置损失函数；实时处理的时候，根据输入stereo音频信号，能够得到声源信号、环境音信号和去相关参数。

参见图6，本实施例中，深度学习声源分离模型(NN)输入包含了立体声音频信号、声源信号、环境音信号，根据输入立体声音频信号进行训练，重构声源和环境音，并根据mask值来计算去相关参数；实时处理的时候，根据输入立体声音频信号，能够得到声源信号、环境音信号和去相关参数。该训练过程中，不需要用把去相关参数作为ground truth(用于有监督训练的训练集的分类准确性，主要用于统计模型中验证或推翻某种研究假设)。

本实施例中，去相关有很多种方法，最简单的就是相位取反，环境信号A_de,ls反转180度生成另一路环境信号A_de,rs。假设这个是最激进的，然后对应最不激进的是环境信号做成dual mono(两个完全相同的声道拼成的立体声)，复制成两路一样信号A_dm,ls和A_dm,rs。

具体的，根据mask的值在[0,1]区间，以如下方式可以控制去相关算法：

A_ls＝M*A_de,ls+(1-M)*A_dm,ls

A_rs＝M*A_de,rs+(1-M)*A_dm,rs

具体实施过程中，可以直接针对立体声时域音频信号进行训练，也可以根据立体声频域信号(左声道实部信息、左声道虚部信息、右声道实部信息，右声道虚部信息)进行训练，也可以根据立体声频域参数(左右声道能量比值)进行训练。

参见图3，本实施例中，对输入的立体声音频信号进行模式检测，自适应进行上混处理，得到5.1声道音频信号。

具体的，对输入立体声进行影视/音乐模式检测；包括是对整体内容分类，还是在某一帧实时内容分类。当所述立体声音频信号为影视内容时，则采用模式A进行处理，模式A的处理方式参见图1，基于深度学习声源分离模型得到声源信号和环境音信号，根据声源信号得到中置音源信号和低音信号，根据环境音信号进行去相关得到左环绕声音频信号和右环绕声音频信号，最后将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。

具体的，对输入的立体声音频信号进行模式检测，当所述立体声音频信号为音乐内容时，则采用模式B进行处理：

参见图4，本实施例中，基于神经网络对输入立体声音频信号进行实时处理，得到多声道音频信号。对输入的立体声音频信号，采用深度学习声源分离模型处理直接得到多声道音频信号；根据模式检测结果，如果立体声音频信号是影视内容，则使用深度学习神经网络的方法预测多个输出通道。

具体的，根据立体声音频信号，经过深度学习声源分离模型处理直接得到多声道音频信号。根据分类模式检测结果，如果内容是影视内容，则使用深度学习神经网络的方法预测多个输出通道。由于在短时内可能不能准确判断，可能随着时间推移，内容分类越来越准确。因此输出结果也是模式A和模式B的加权平均。

具体的，在训练过程中，输入为立体声音频信号和多声道音频信号。训练过程中，根据输入立体声音频信号得到多声道音频信号，并根据重构的多声道信号和原始多声道音频信号设置损失函数。该实施例可以直接针对时域信号进行处理，也可以根据时频变换后的频域信号进行处理。

参见图7，本发明还提供一种沉浸式音频上混系统，包括：

第一处理模块1，用于获取输入的立体声音频信号，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号；

第二处理模块2，用于采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号；

第三处理模块3，用于采用深度学习声源分离模型对所述环境音信号进行去相关处理，获得左环绕声音频信号和右环绕声音频信号；

音频合并模块4，用于获取输入的左声道音频信号和右声道音频信号，将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。

具体的，第一处理模块1还用于获取输入的立体声音频信号，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数；

第三处理模块3还用于采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理，获得左环绕声音频信号和右环绕声音频信号。

本实施例中，所述U-nets结构包括下采样处理和上采样处理，所述下采样处理用于进行立体声音频信号浓缩，上采样处理用于进行立体声音频信号像素恢复；所述U-nets结构中，每一次下采样处理设有一个跳跃连接与对应的上采样处理进行级联。

具体的，U-nets结构中，包含了下采样处理和上采样处理，其中，下采样用于进行信息浓缩，上采样用于进行像素恢复。模型进行6次的最大池化下采样，每一次采样后使用了卷积进行信息提取得到特征图，然后再经过6次上采样恢复输入像素尺寸。

A_ls＝M*A_de,ls+(1-M)*A_dm,ls

A_rs＝M*A_de,rs+(1-M)*A_dm,rs

本发明通过获取输入的立体声音频信号，采用深度学习声源分离模型将立体声音频信号分离为声源信号和环境音信号；采用深度学习声源分离模型将声源信号分离为中置音源信号和低音信号；采用深度学习声源分离模型对环境音信号进行去相关处理，获得左环绕声音频信号和右环绕声音频信号；获取输入的左声道音频信号和右声道音频信号，将中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。本发明基于神经网络对输入立体声音频信号进行实时处理，音源和环境音能够有效区分，能够得到多声道音频信号，进而提升沉浸式效果。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种沉浸式音频上混方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种沉浸式音频上混方法，其特征在于，还包括，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数；

3.根据权利要求2所述的一种沉浸式音频上混方法，其特征在于，所述深度学习声源分离模型采用U-nets结构；所述U-nets结构包含encoder和decoder部分；所述encoder和decoder之间采用长短期记忆网络LSTM进行连接，最后输出掩码mask进行声音分离。

4.根据权利要求3所述的一种沉浸式音频上混方法，其特征在于，所述U-nets结构包括下采样处理和上采样处理，所述下采样处理用于进行立体声音频信号浓缩，上采样处理用于进行立体声音频信号像素恢复；

5.根据权利要求1所述的一种沉浸式音频上混方法，其特征在于，所述深度学习声源分离模型直接针对立体声的时域音频信号进行训练；

6.根据权利要求1所述的一种沉浸式音频上混方法，其特征在于，对输入的立体声音频信号进行模式检测，当所述立体声音频信号为影视内容时，则采用模式A进行处理：

7.根据权利要求6所述的一种沉浸式音频上混方法，其特征在于，对输入的立体声音频信号进行模式检测，当所述立体声音频信号为音乐内容时，则采用模式B进行处理：

8.根据权利要求7所述的一种沉浸式音频上混方法，其特征在于，对输入的立体声音频信号，采用深度学习声源分离模型处理直接得到多声道音频信号；

9.一种沉浸式音频上混系统，其特征在于，包括：

10.根据权利要求9所述的一种沉浸式音频上混系统，其特征在于，第一处理模块还用于获取输入的立体声音频信号，采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数；