[go: up one dir, main page]

CN112866896A - 一种沉浸式音频上混方法及系统 - Google Patents

一种沉浸式音频上混方法及系统 Download PDF

Info

Publication number
CN112866896A
CN112866896A CN202110111130.2A CN202110111130A CN112866896A CN 112866896 A CN112866896 A CN 112866896A CN 202110111130 A CN202110111130 A CN 202110111130A CN 112866896 A CN112866896 A CN 112866896A
Authority
CN
China
Prior art keywords
signal
audio signal
sound
sound source
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110111130.2A
Other languages
English (en)
Other versions
CN112866896B (zh
Inventor
孙学京
李旭阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuoling Xinsheng Technology Co ltd
Original Assignee
Beijing Tuoling Inc
Xi'an Times Tuoling Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuoling Inc, Xi'an Times Tuoling Technology Co ltd filed Critical Beijing Tuoling Inc
Priority to CN202110111130.2A priority Critical patent/CN112866896B/zh
Publication of CN112866896A publication Critical patent/CN112866896A/zh
Application granted granted Critical
Publication of CN112866896B publication Critical patent/CN112866896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种沉浸式音频上混方法及系统,通过获取输入的立体声音频信号,采用深度学习声源分离模型将立体声音频信号分离为声源信号和环境音信号;采用深度学习声源分离模型将声源信号分离为中置音源信号和低音信号;采用深度学习声源分离模型对环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;获取输入的左声道音频信号和右声道音频信号,将中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。本发明基于神经网络对输入立体声音频信号进行实时处理,音源和环境音能够有效区分,能够得到多声道音频信号,进而提升沉浸式效果。

Description

一种沉浸式音频上混方法及系统
技术领域
本发明涉及声音处理技术领域,具体涉及一种沉浸式音频上混方法及系统。
背景技术
近年来,随着高清视频的不断发展,从2K到4K,甚至8K,还有伴随着虚拟现实VR、AR的发展,人们对音频的听觉要求也随之提高。人们已不再满足于流行多年的立体声音响效果,开始追求更具有沉浸感、真实感的3D音效或沉浸式音效。专业影院和家庭影院通常拥有多个扬声器可以播放5.1/7.1和更多声道的沉浸式音频,此外,车载音频也逐步过渡到可以播放多于双声道的内容。
目前,采用upmix算法对立体声音频信号进行处理,以将立体声(stereo)环绕声,如中置音源(Center)、左声道(L)、右声道(R)、左环绕声(LS)、右环绕声(RS)、低音(LFE)。通过对Center信号分别进行BPF和LPF处理,得到C音频信号和LFE音频信号;将RS信号进行时延处理和LPF处理,进一步进行去相关处理(例如,相位进行取反处理),分别得到LS音频信号和RS音频信号;结合输入左声道音频信号和右声道音频信号,得到环绕声道音频信号。现有技术中,经过上混处理后,音源和环境音不能很好的区分出来,大大减弱了多声道声道音频信号的沉浸式效果。目前市场上还有大量的传统立体声(双声道)内容,如何让最新的沉浸式音频系统兼容传统立体声内容,同时更理想的利用更多通道的优势渲染出更好的沉浸式效果,是亟需解决的痛点问题。
发明内容
为此,本发明提供一种沉浸式音频上混方法及系统,通过将立体声音频转为至少四路的多通道格式音频,提升整体音频体验,解决音源和环境音不能很好的区分减弱多声道声道音频信号的沉浸式效果的问题。
为了实现上述目的,本发明提供如下技术方案:一种沉浸式音频上混方法,包括以下步骤:
获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号;
采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号;
采用深度学习声源分离模型对所述环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;
获取输入的左声道音频信号和右声道音频信号,将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
作为沉浸式音频上混方法的优选方案,还包括,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数;
采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理,获得左环绕声音频信号和右环绕声音频信号。
作为沉浸式音频上混方法的优选方案,所述深度学习声源分离模型采用U-nets结构;所述U-nets结构包含encoder和decoder部分;所述encoder和decoder之间采用长短期记忆网络LSTM进行连接,最后输出掩码mask进行声音分离。
作为沉浸式音频上混方法的优选方案,所述U-nets结构包括下采样处理和上采样处理,所述下采样处理用于进行立体声音频信号浓缩,上采样处理用于进行立体声音频信号像素恢复;
所述U-nets结构中,每一次下采样处理设有一个跳跃连接与对应的上采样处理进行级联。
作为沉浸式音频上混方法的优选方案,所述深度学习声源分离模型直接针对立体声的时域音频信号进行训练;
或根据立体声的频域信号进行训练,所述立体声的频域信号包括左声道实部信息、左声道虚部信息、右声道实部信息和右声道虚部信息;
或根据立体声的频域参数进行训练,所述立体声的频域参数包括左右声道能量比值。
作为沉浸式音频上混方法的优选方案,对输入的立体声音频信号进行模式检测,当所述立体声音频信号为影视内容时,则采用模式A进行处理:
基于深度学习声源分离模型得到声源信号和环境音信号,根据声源信号得到中置音源信号和低音信号,根据环境音信号进行去相关得到左环绕声音频信号和右环绕声音频信号,最后将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
作为沉浸式音频上混方法的优选方案,对输入的立体声音频信号进行模式检测,当所述立体声音频信号为音乐内容时,则采用模式B进行处理:
给出立体声音频信号的音乐风格类型,根据音乐风格类型,设置中置音源信号为静音,对立体声音频信号进行去相关得到左环绕声音频信号和右环绕声音频信号;最后将低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
作为沉浸式音频上混方法的优选方案,对输入的立体声音频信号,采用深度学习声源分离模型处理直接得到多声道音频信号;
根据模式检测结果,如果立体声音频信号是影视内容,则使用深度学习神经网络的方法预测多个输出通道。
本发明还提供一种沉浸式音频上混系统,包括:
第一处理模块,用于获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号;
第二处理模块,用于采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号;
第三处理模块,用于采用深度学习声源分离模型对所述环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;
音频合并模块,用于获取输入的左声道音频信号和右声道音频信号,将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
作为沉浸式音频上混系统的优选方案,第一处理模块还用于获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数;
第三处理模块,还用于采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理,获得左环绕声音频信号和右环绕声音频信号。
本发明具有如下优点:通过获取输入的立体声音频信号,采用深度学习声源分离模型将立体声音频信号分离为声源信号和环境音信号;采用深度学习声源分离模型将声源信号分离为中置音源信号和低音信号;采用深度学习声源分离模型对环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;获取输入的左声道音频信号和右声道音频信号,将中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。本发明基于神经网络对输入立体声音频信号进行实时处理,音源和环境音能够有效区分,能够得到多声道音频信号,进而提升沉浸式效果。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例中提供的第一种沉浸式音频上混方法流程图;
图2为本发明实施例中提供的第二种沉浸式音频上混方法流程图;
图3为本发明实施例中提供的第三种沉浸式音频上混方法流程图;
图4为本发明实施例中提供的第四种沉浸式音频上混方法流程图;
图5为本发明实施例提供的第一种深度学习声源分离模型训练处理框架;
图6为本发明实施例提供的第二种深度学习声源分离模型训练处理框架;
图7为本发明实施例中提供的沉浸式音频上混系统示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,提供一种沉浸式音频上混方法,包括以下步骤:
获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号;
采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号;
采用深度学习声源分离模型对所述环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;
获取输入的左声道音频信号和右声道音频信号,将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
参见图2,沉浸式音频上混方法的一个实施例中,还包括,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数;
采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理,获得左环绕声音频信号和右环绕声音频信号。
具体的,所述深度学习声源分离模型采用U-nets结构;所述U-nets结构包含encoder和decoder部分;所述encoder和decoder之间采用长短期记忆网络LSTM进行连接。其中encoder(6层)和decoder(6层)部分由卷积神经网络组成,总共12层。最后输出掩码(mask)进行声音分离。
本实施例中,所述U-nets结构包括下采样处理和上采样处理,所述下采样处理用于进行立体声音频信号浓缩,上采样处理用于进行立体声音频信号像素恢复;所述U-nets结构中,每一次下采样处理设有一个跳跃连接(Skip Connection)与对应的上采样处理进行级联。
具体的,U-nets结构中,包含了下采样处理和上采样处理,其中,下采样用于进行信息浓缩,上采样用于进行像素恢复。模型进行6次最大池化下采样,每一次采样后使用卷积进行信息提取得到特征图,然后再经过6次上采样恢复输入像素尺寸。
此外,U-nets还采用了跳跃连接。每一次下采样都会有一个跳跃连接与对应的上采样进行级联,这种不同尺度的特征融合对上采样恢复像素大有帮助,具体来说就是高层(浅层)下采样倍数小,特征图具备更加细致的图特征,底层(深层)下采样倍数大,信息经过大量浓缩,空间损失大,但有助于目标区域(分类)判断,当高层次(high level)和低层次(low level)的特征进行融合时,能达到非常好的分割效果。
本实施例中,所述深度学习声源分离模型直接针对立体声的时域音频信号进行训练;或根据立体声的频域信号进行训练,所述立体声的频域信号包括左声道实部信息、左声道虚部信息、右声道实部信息和右声道虚部信息;或根据立体声的频域参数进行训练,所述立体声的频域参数包括左右声道能量比值。
参见图5,深度学习声源分离模型(NN)输入包含了立体声音频信号、声源信号、环境音信号以及去相关参数,根据输入立体声音频信号进行训练,task1为重建声源和环境音,task2为重建去相关参数,进一步根据task1和task2设置损失函数;实时处理的时候,根据输入stereo音频信号,能够得到声源信号、环境音信号和去相关参数。
参见图6,本实施例中,深度学习声源分离模型(NN)输入包含了立体声音频信号、声源信号、环境音信号,根据输入立体声音频信号进行训练,重构声源和环境音,并根据mask值来计算去相关参数;实时处理的时候,根据输入立体声音频信号,能够得到声源信号、环境音信号和去相关参数。该训练过程中,不需要用把去相关参数作为ground truth(用于有监督训练的训练集的分类准确性,主要用于统计模型中验证或推翻某种研究假设)。
本实施例中,去相关有很多种方法,最简单的就是相位取反,环境信号Ade,ls反转180度生成另一路环境信号Ade,rs。假设这个是最激进的,然后对应最不激进的是环境信号做成dual mono(两个完全相同的声道拼成的立体声),复制成两路一样信号Adm,ls和Adm,rs
具体的,根据mask的值在[0,1]区间,以如下方式可以控制去相关算法:
Als=M*Ade,ls+(1-M)*Adm,ls
Ars=M*Ade,rs+(1-M)*Adm,rs
具体实施过程中,可以直接针对立体声时域音频信号进行训练,也可以根据立体声频域信号(左声道实部信息、左声道虚部信息、右声道实部信息,右声道虚部信息)进行训练,也可以根据立体声频域参数(左右声道能量比值)进行训练。
参见图3,本实施例中,对输入的立体声音频信号进行模式检测,自适应进行上混处理,得到5.1声道音频信号。
具体的,对输入立体声进行影视/音乐模式检测;包括是对整体内容分类,还是在某一帧实时内容分类。当所述立体声音频信号为影视内容时,则采用模式A进行处理,模式A的处理方式参见图1,基于深度学习声源分离模型得到声源信号和环境音信号,根据声源信号得到中置音源信号和低音信号,根据环境音信号进行去相关得到左环绕声音频信号和右环绕声音频信号,最后将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
具体的,对输入的立体声音频信号进行模式检测,当所述立体声音频信号为音乐内容时,则采用模式B进行处理:
给出立体声音频信号的音乐风格类型,根据音乐风格类型,设置中置音源信号为静音,对立体声音频信号进行去相关得到左环绕声音频信号和右环绕声音频信号;最后将低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
参见图4,本实施例中,基于神经网络对输入立体声音频信号进行实时处理,得到多声道音频信号。对输入的立体声音频信号,采用深度学习声源分离模型处理直接得到多声道音频信号;根据模式检测结果,如果立体声音频信号是影视内容,则使用深度学习神经网络的方法预测多个输出通道。
具体的,根据立体声音频信号,经过深度学习声源分离模型处理直接得到多声道音频信号。根据分类模式检测结果,如果内容是影视内容,则使用深度学习神经网络的方法预测多个输出通道。由于在短时内可能不能准确判断,可能随着时间推移,内容分类越来越准确。因此输出结果也是模式A和模式B的加权平均。
具体的,在训练过程中,输入为立体声音频信号和多声道音频信号。训练过程中,根据输入立体声音频信号得到多声道音频信号,并根据重构的多声道信号和原始多声道音频信号设置损失函数。该实施例可以直接针对时域信号进行处理,也可以根据时频变换后的频域信号进行处理。
参见图7,本发明还提供一种沉浸式音频上混系统,包括:
第一处理模块1,用于获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号;
第二处理模块2,用于采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号;
第三处理模块3,用于采用深度学习声源分离模型对所述环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;
音频合并模块4,用于获取输入的左声道音频信号和右声道音频信号,将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
具体的,第一处理模块1还用于获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数;
第三处理模块3还用于采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理,获得左环绕声音频信号和右环绕声音频信号。
具体的,所述深度学习声源分离模型采用U-nets结构;所述U-nets结构包含encoder和decoder部分;所述encoder和decoder之间采用长短期记忆网络LSTM进行连接。其中encoder(6层)和decoder(6层)部分由卷积神经网络组成,总共12层。最后输出掩码(mask)进行声音分离。
本实施例中,所述U-nets结构包括下采样处理和上采样处理,所述下采样处理用于进行立体声音频信号浓缩,上采样处理用于进行立体声音频信号像素恢复;所述U-nets结构中,每一次下采样处理设有一个跳跃连接与对应的上采样处理进行级联。
具体的,U-nets结构中,包含了下采样处理和上采样处理,其中,下采样用于进行信息浓缩,上采样用于进行像素恢复。模型进行6次的最大池化下采样,每一次采样后使用了卷积进行信息提取得到特征图,然后再经过6次上采样恢复输入像素尺寸。
此外,U-nets还采用了跳跃连接。每一次下采样都会有一个跳跃连接与对应的上采样进行级联,这种不同尺度的特征融合对上采样恢复像素大有帮助,具体来说就是高层(浅层)下采样倍数小,特征图具备更加细致的图特征,底层(深层)下采样倍数大,信息经过大量浓缩,空间损失大,但有助于目标区域(分类)判断,当高层次(high level)和低层次(low level)的特征进行融合时,能达到非常好的分割效果。
本实施例中,所述深度学习声源分离模型直接针对立体声的时域音频信号进行训练;或根据立体声的频域信号进行训练,所述立体声的频域信号包括左声道实部信息、左声道虚部信息、右声道实部信息和右声道虚部信息;或根据立体声的频域参数进行训练,所述立体声的频域参数包括左右声道能量比值。
参见图5,深度学习声源分离模型(NN)输入包含了立体声音频信号、声源信号、环境音信号以及去相关参数,根据输入立体声音频信号进行训练,task1为重建声源和环境音,task2为重建去相关参数,进一步根据task1和task2设置损失函数;实时处理的时候,根据输入stereo音频信号,能够得到声源信号、环境音信号和去相关参数。
参见图6,本实施例中,深度学习声源分离模型(NN)输入包含了立体声音频信号、声源信号、环境音信号,根据输入立体声音频信号进行训练,重构声源和环境音,并根据mask值来计算去相关参数;实时处理的时候,根据输入立体声音频信号,能够得到声源信号、环境音信号和去相关参数。该训练过程中,不需要用把去相关参数作为ground truth(用于有监督训练的训练集的分类准确性,主要用于统计模型中验证或推翻某种研究假设)。
本实施例中,去相关有很多种方法,最简单的就是相位取反,环境信号Ade,ls反转180度生成另一路环境信号Ade,rs。假设这个是最激进的,然后对应最不激进的是环境信号做成dual mono(两个完全相同的声道拼成的立体声),复制成两路一样信号Adm,ls和Adm,rs
具体的,根据mask的值在[0,1]区间,以如下方式可以控制去相关算法:
Als=M*Ade,ls+(1-M)*Adm,ls
Ars=M*Ade,rs+(1-M)*Adm,rs
具体实施过程中,可以直接针对立体声时域音频信号进行训练,也可以根据立体声频域信号(左声道实部信息、左声道虚部信息、右声道实部信息,右声道虚部信息)进行训练,也可以根据立体声频域参数(左右声道能量比值)进行训练。
参见图3,本实施例中,对输入的立体声音频信号进行模式检测,自适应进行上混处理,得到5.1声道音频信号。
具体的,对输入立体声进行影视/音乐模式检测;包括是对整体内容分类,还是在某一帧实时内容分类。当所述立体声音频信号为影视内容时,则采用模式A进行处理,模式A的处理方式参见图1,基于深度学习声源分离模型得到声源信号和环境音信号,根据声源信号得到中置音源信号和低音信号,根据环境音信号进行去相关得到左环绕声音频信号和右环绕声音频信号,最后将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
具体的,对输入的立体声音频信号进行模式检测,当所述立体声音频信号为音乐内容时,则采用模式B进行处理:
给出立体声音频信号的音乐风格类型,根据音乐风格类型,设置中置音源信号为静音,对立体声音频信号进行去相关得到左环绕声音频信号和右环绕声音频信号;最后将低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
参见图4,本实施例中,基于神经网络对输入立体声音频信号进行实时处理,得到多声道音频信号。对输入的立体声音频信号,采用深度学习声源分离模型处理直接得到多声道音频信号;根据模式检测结果,如果立体声音频信号是影视内容,则使用深度学习神经网络的方法预测多个输出通道。
具体的,根据立体声音频信号,经过深度学习声源分离模型处理直接得到多声道音频信号。根据分类模式检测结果,如果内容是影视内容,则使用深度学习神经网络的方法预测多个输出通道。由于在短时内可能不能准确判断,可能随着时间推移,内容分类越来越准确。因此输出结果也是模式A和模式B的加权平均。
具体的,在训练过程中,输入为立体声音频信号和多声道音频信号。训练过程中,根据输入立体声音频信号得到多声道音频信号,并根据重构的多声道信号和原始多声道音频信号设置损失函数。该实施例可以直接针对时域信号进行处理,也可以根据时频变换后的频域信号进行处理。
本发明通过获取输入的立体声音频信号,采用深度学习声源分离模型将立体声音频信号分离为声源信号和环境音信号;采用深度学习声源分离模型将声源信号分离为中置音源信号和低音信号;采用深度学习声源分离模型对环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;获取输入的左声道音频信号和右声道音频信号,将中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。本发明基于神经网络对输入立体声音频信号进行实时处理,音源和环境音能够有效区分,能够得到多声道音频信号,进而提升沉浸式效果。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种沉浸式音频上混方法,其特征在于,包括以下步骤:
获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号;
采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号;
采用深度学习声源分离模型对所述环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;
获取输入的左声道音频信号和右声道音频信号,将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
2.根据权利要求1所述的一种沉浸式音频上混方法,其特征在于,还包括,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数;
采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理,获得左环绕声音频信号和右环绕声音频信号。
3.根据权利要求2所述的一种沉浸式音频上混方法,其特征在于,所述深度学习声源分离模型采用U-nets结构;所述U-nets结构包含encoder和decoder部分;所述encoder和decoder之间采用长短期记忆网络LSTM进行连接,最后输出掩码mask进行声音分离。
4.根据权利要求3所述的一种沉浸式音频上混方法,其特征在于,所述U-nets结构包括下采样处理和上采样处理,所述下采样处理用于进行立体声音频信号浓缩,上采样处理用于进行立体声音频信号像素恢复;
所述U-nets结构中,每一次下采样处理设有一个跳跃连接与对应的上采样处理进行级联。
5.根据权利要求1所述的一种沉浸式音频上混方法,其特征在于,所述深度学习声源分离模型直接针对立体声的时域音频信号进行训练;
或根据立体声的频域信号进行训练,所述立体声的频域信号包括左声道实部信息、左声道虚部信息、右声道实部信息和右声道虚部信息;
或根据立体声的频域参数进行训练,所述立体声的频域参数包括左右声道能量比值。
6.根据权利要求1所述的一种沉浸式音频上混方法,其特征在于,对输入的立体声音频信号进行模式检测,当所述立体声音频信号为影视内容时,则采用模式A进行处理:
基于深度学习声源分离模型得到声源信号和环境音信号,根据声源信号得到中置音源信号和低音信号,根据环境音信号进行去相关得到左环绕声音频信号和右环绕声音频信号,最后将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
7.根据权利要求6所述的一种沉浸式音频上混方法,其特征在于,对输入的立体声音频信号进行模式检测,当所述立体声音频信号为音乐内容时,则采用模式B进行处理:
给出立体声音频信号的音乐风格类型,根据音乐风格类型,设置中置音源信号为静音,对立体声音频信号进行去相关得到左环绕声音频信号和右环绕声音频信号;最后将低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
8.根据权利要求7所述的一种沉浸式音频上混方法,其特征在于,对输入的立体声音频信号,采用深度学习声源分离模型处理直接得到多声道音频信号;
根据模式检测结果,如果立体声音频信号是影视内容,则使用深度学习神经网络的方法预测多个输出通道。
9.一种沉浸式音频上混系统,其特征在于,包括:
第一处理模块,用于获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号和环境音信号;
第二处理模块,用于采用深度学习声源分离模型将所述声源信号分离为中置音源信号和低音信号;
第三处理模块,用于采用深度学习声源分离模型对所述环境音信号进行去相关处理,获得左环绕声音频信号和右环绕声音频信号;
音频合并模块,用于获取输入的左声道音频信号和右声道音频信号,将所述中置音源信号、低音信号、左环绕声音频信号、右环绕声音频信号、左声道音频信号和右声道音频信号合并得到5.1声道音频信号。
10.根据权利要求9所述的一种沉浸式音频上混系统,其特征在于,第一处理模块还用于获取输入的立体声音频信号,采用深度学习声源分离模型将所述立体声音频信号分离为声源信号、环境音信号和去相关参数;
第三处理模块,还用于采用深度学习声源分离模型对所述环境音信号和去相关参数进行去相关处理,获得左环绕声音频信号和右环绕声音频信号。
CN202110111130.2A 2021-01-27 2021-01-27 一种沉浸式音频上混方法及系统 Active CN112866896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110111130.2A CN112866896B (zh) 2021-01-27 2021-01-27 一种沉浸式音频上混方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110111130.2A CN112866896B (zh) 2021-01-27 2021-01-27 一种沉浸式音频上混方法及系统

Publications (2)

Publication Number Publication Date
CN112866896A true CN112866896A (zh) 2021-05-28
CN112866896B CN112866896B (zh) 2022-07-15

Family

ID=76009551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110111130.2A Active CN112866896B (zh) 2021-01-27 2021-01-27 一种沉浸式音频上混方法及系统

Country Status (1)

Country Link
CN (1) CN112866896B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
WO2024167222A1 (en) * 2023-02-07 2024-08-15 Samsung Electronics Co., Ltd. Deep learning based voice extraction and primary-ambience decomposition for stereo to surround upmixing with dialog-enhanced center channel

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080130918A1 (en) * 2006-08-09 2008-06-05 Sony Corporation Apparatus, method and program for processing audio signal
US20110116638A1 (en) * 2009-11-16 2011-05-19 Samsung Electronics Co., Ltd. Apparatus of generating multi-channel sound signal
CN104704558A (zh) * 2012-09-14 2015-06-10 杜比实验室特许公司 基于多声道音频内容分析的上混检测
WO2018047643A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム
US20190156206A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Analyzing Spatially-Sparse Data Based on Submanifold Sparse Convolutional Neural Networks
CN111429939A (zh) * 2020-02-20 2020-07-17 西安声联科技有限公司 一种双声源的声音信号分离方法和拾音器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080130918A1 (en) * 2006-08-09 2008-06-05 Sony Corporation Apparatus, method and program for processing audio signal
US20110116638A1 (en) * 2009-11-16 2011-05-19 Samsung Electronics Co., Ltd. Apparatus of generating multi-channel sound signal
CN104704558A (zh) * 2012-09-14 2015-06-10 杜比实验室特许公司 基于多声道音频内容分析的上混检测
WO2018047643A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム
CN109661705A (zh) * 2016-09-09 2019-04-19 索尼公司 声源分离装置和方法以及程序
US20190156206A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Analyzing Spatially-Sparse Data Based on Submanifold Sparse Convolutional Neural Networks
CN111429939A (zh) * 2020-02-20 2020-07-17 西安声联科技有限公司 一种双声源的声音信号分离方法和拾音器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
WO2024167222A1 (en) * 2023-02-07 2024-08-15 Samsung Electronics Co., Ltd. Deep learning based voice extraction and primary-ambience decomposition for stereo to surround upmixing with dialog-enhanced center channel

Also Published As

Publication number Publication date
CN112866896B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
US10991379B2 (en) Data driven audio enhancement
Gao et al. 2.5 d visual sound
CN110832883B9 (zh) 以计算机为中介的现实系统的混阶立体混响(moa)音频数据
CN105075293B (zh) 音频设备及其音频提供方法
CN104995681B (zh) 多声道音频数据的视频分析辅助产生
JP6092387B2 (ja) 3dオーディオ階層符号化を用いたラウドスピーカーの位置補償
RU2586842C2 (ru) Устройство и способ преобразования первого параметрического пространственного аудиосигнала во второй параметрический пространственный аудиосигнал
Cobos et al. An overview of machine learning and other data-based methods for spatial audio capture, processing, and reproduction
WO2020231883A1 (en) Separating and rendering voice and ambience signals
CN112863538B (zh) 一种基于视听网络的多模态语音分离方法及装置
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
CN112866896B (zh) 一种沉浸式音频上混方法及系统
WO2022022293A1 (zh) 音频信号渲染方法和装置
US9838790B2 (en) Acquisition of spatialized sound data
EP4207195A1 (en) Speech separation method, electronic device, chip and computer-readable storage medium
WO2022262576A1 (zh) 三维音频信号编码方法、装置、编码器和系统
CN111787464B (zh) 一种信息处理方法、装置、电子设备和存储介质
CN117854535B (zh) 基于交叉注意力的视听语音增强方法及其模型搭建方法
CN114360573A (zh) 说话者分离模型的训练方法和说话者分离方法及相关装置
CN116189651A (zh) 一种用于远程视频会议的多说话人声源定位方法及系统
US12273697B2 (en) Systems and methods for upmixing audiovisual data
CN118714491B (zh) 一种音频处理方法、装置、设备、介质及产品
US20240314509A1 (en) Extracting Ambience From A Stereo Input
CN114944164A (zh) 一种基于多模态的沉浸声生成方法及装置
US20250119701A1 (en) Modification of spatial audio scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210824

Address after: Room 960A, floor 9, No. 11, Zhongguancun Street, Haidian District, Beijing 100190

Applicant after: Beijing Tuoling Xinsheng Technology Co.,Ltd.

Address before: Room F12, 14th floor, building B, latte City, 318 Yanta South Road, Qujiang New District, Xi'an City, Shaanxi Province, 710061

Applicant before: Xi'an times Tuoling Technology Co.,Ltd.

Applicant before: BEIJING TUOLING Inc.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant