CN110958417B - 一种基于语音线索的视频通话类视频去除压缩噪声的方法 - Google Patents
一种基于语音线索的视频通话类视频去除压缩噪声的方法 Download PDFInfo
- Publication number
- CN110958417B CN110958417B CN201911294549.5A CN201911294549A CN110958417B CN 110958417 B CN110958417 B CN 110958417B CN 201911294549 A CN201911294549 A CN 201911294549A CN 110958417 B CN110958417 B CN 110958417B
- Authority
- CN
- China
- Prior art keywords
- video
- image
- voice
- compression noise
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/21—Circuitry for suppressing or minimising disturbance, e.g. moiré or halo
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括:A、构建数据集和数据预处理;B、建立基于语音线索的视频压缩噪声去除模型:构建语音特征编码器模型、带有语音线索的生成式视频压缩噪声去除模型、图像真实性判别器、视频连续性判别器;构造整体损失函数以进行后续模型优化;C、训练基于语音线索的视频压缩噪声去除模型;D、测试基于语音线索的视频压缩噪声去除模型的去噪效果,根据训练好的去噪模型,将低码率低质量的视频通话类视频及对应语音信号输入到模型当中,输出去除了压缩噪声高质量视频。本发明将语音信号作为视频通话类视频去压缩噪声重要线索,得到更好的视频恢复效果。
Description
技术领域
本发明涉及一种基于语音线索的视频通话类视频去除压缩噪声的方法,属于视频恢复和视频增强技术领域。
背景技术
视频压缩噪声是指由于数据压缩技术对原始视频进行有损压缩而产生的模糊效应、振铃效应、色块效应等影响用户观感体验的噪声。目前常见的数据压缩方法有JPEG,WebP和HEVC-MSP等,这类方法使用不精确的近似表示来编码数据以达到节省传输带宽和空间存储的目的。为了在使用了压缩技术的情况下提高视频的质量,保证用户体验,研究人员们针对压缩噪声的去除进行了很多研究工作。然而,对于视频通话这类特殊的视频压缩噪音的去除工作却没有,而且对于自然视频和图像的恢复效果也有待提高。
视频通话类视频指日常生活中人们通过手机和电脑上的摄像头,进行一对一、一对多或者多对多的远程聊天视频,视频中往往只出现人的正面头部或者上半身。这类视频不单单来源于日常视频通话,如微信视频通话、QQ视频通话、FaceTime视频通话等等,还来源于现在非常流行的网络直播行业。这些视频通话和网络直播所产生的流量十分巨大,传输和存储都需要消耗大量成本,而采取压缩技术虽然节省了传输和存储成本,但会严重影响人们的视频通话或者网络直播的实时体验。目前,对于压缩噪声的去除工作主要集中在针对单帧图像或者自然视频,并没有将视频通话类视频做专门研究。而这类视频往往具有比自然视频更多的先验信息,因为人类讲话和人脸变化尤其是嘴部的运动具有极强的相关性。所以,将语音作为线索对视频通话类视频进行去噪和增强在理论上是完全可行且有必要的。
基于深度卷积神经网络(DCNN)的去除压缩噪声模型是将低质量的视频或者图像作为输入,端到端式地输出对应的高质量的视频或者图像。深度卷积神经网络,是多层感知器的正规化版本。它是由一个输入层和一个输出层以及多个隐藏层组成。每层隐藏层通常包括卷积操作和激活操作,可以表示为σ(w*x+b),其中*表示卷积操作,w、x和b分别表示该层卷积核参数、该层输出和该层的偏置项,σ(·)表示激活函数。在优化阶段,深度卷积神经网络通常通过反向传播来优化每层的参数。随着视频通话和网络直播的发展,人们对视频质量的要求越来越高,而现有的基于深度神经网络的视频增强恢复技术忽视了语音的作用。所以,如何借助语音线索,去除视频通话类视频中的压缩噪声成为了一个亟待解决的问题。尤其是在带宽严重不足和存储空间非常有限的严峻情况下保证用户的体验,那么借助语音线索进行视频增强至关重要。
发明内容
针对现有技术的缺失和不足,本发明提供了一种基于语音线索的视频通话类视频去除压缩噪声的方法。
发明概述:
一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括构建数据集和数据预处理、建立基于语音线索的视频压缩噪声去除模型、训练基于语音线索的视频压缩噪声去除模型和测试基于语音线索的视频压缩噪声去除模型的去噪效果四个部分。
为了训练通用的去噪模型,要进行数据采集和预处理,将采集到的人的讲话视频进行裁剪和有损压缩等操作建立数据集。为了将语音信息引入作为视频恢复的先验知识,建立基于语音线索的视频通话类视频去除压缩噪声的生成式模型。为了求解优化模型的未知参数,对模型进行迭代交替训练。
术语解释:
1、GAN,是指Generative Adversarial Network,即生成对抗网络。GAN是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。它至少包含两个模块:生成器(Generator)和判别器(Discriminator)。二者的相互对抗学习会产生越来越接近真实分布的输出。原始GAN理论中,并不要求生成器和判别器都是神经网络,只需要是能拟合相应生成和判别的函数即可。
2、MFCC,是指Mel-scale Frequency Cepstral Coefficients,即梅尔倒谱系数,也称作梅尔频率倒谱系数。MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。它衍生自音讯片段的倒频谱,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示,可以对声音信号有更好的表达,通常作为语音信息的特征表达。
3、H.264,是国际标准化组织(ISO)和国际电信联盟(ITU)共同提出的继MPEG4之后的新一代数字视频压缩算法,是以H.26x系列为名称命名的视频编解码技术标准之一。H.264是现在所有视频压缩技术中使用最广泛、最流行的视频压缩算法算法。
4、低码率视频,是指视频码率(单位时间传送的数据位数)较低且影响人观看体验的视频,一般视频码率的单位是kbps即千位每秒。码率越高,视频质量越好,码率越低则视频质量越差。例如,本发明实施实例2中所采用的低码率视频的码率为90kbps,这已经严重影响用户的视觉体验,视频质量极差。
5、高质量图像,是指基本不存在或者只存在较少色块效应(blockingartifacts)、模糊(Blurring)和振铃效应(Ringing effect)等噪声影响的图像,一般指未经过有损压缩或者压缩程度较小的图像。
6、非同步更新法则,是指在GAN训练时,生成器和判别器的更新不是同步进行的,而是先更新判别器多次,得到较好的判别器后再更新一次生成器。
本发明的技术方案如下:
一种基于语音线索的视频通话类视频去除压缩噪声的方法,包括步骤如下:
A、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
B、建立基于语音线索的视频压缩噪声去除模型
基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
C、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
D、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,输出去除了压缩噪声的高质量的视频。
本发明对视频通话类视频压缩噪声的去除包括二个部分,其中第一部分将低码率视频的语音信号进行MFCC特征提取;第二部分将第一部分提取的语音特征和低码率低质量视频一起输入到训练好的带有语音线索的生成式视频压缩噪声去除模型,完成消除压缩噪声的任务,达到视频增强和视频恢复的目的,提升用户体验。
a、读取N段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行MFCC特征提取,每个单声道语音文件的每个采样区间提取到m维MFCC特征,每个单声道语音文件对应提取到一个n列m行的MFCC特征矩阵A,n是指每个单声道语音文件的采样区间个数,m是指每个采样区间计算得到的MFCC特征的维数;
根据本发明所优选的,所述步骤B,建立基于语音线索的视频压缩噪声去除模型,包括:
式(Ⅰ)中,表示第t帧图像对应的MFCC特征,滞后长度为L,at指MFCC特征矩阵A的第t个列向量;faudio(·)表示语音特征编码器模型,是由长短期记忆网络(Long Short-Term Memory,LSTM)和一系列神经网络的全连接层和反卷积层构成。表示输出C1个大小为W×H的特征图矩阵;所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元,语音特征编码器模型中,MFCC特征先经过LSTM进行时序特征提取后,再经过全连接层(Fully Connected Layer,FC)和变形层(Reshape Layer,Reshape)规范特征图尺寸,第一转置卷积层(Transposing Convolutional Layer,ConvTrans)、第一泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)、第二转置卷积层(Transposing Convolutional Layer,ConvTrans)、第二泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)进一步学习语音特征;
g、将步骤e和步骤f得到的两种特征和送入生成器网络模型G,生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层,生成器网络模型先将两种特征和在通道的维度拼接在一起,将得到的总的特征图xt,先送入第一二维卷积层(Conv2d),经过第三泄漏修正线性单元的激活函数(LeakyRelu)激活后,再由5个残差模块(ResBlock)进行卷积处理,然后经过第二二维卷积层(Conv2d)、第四泄漏修正线性单元的激活函数(LeakyRelu)、像素打散层(Pixel Shuffle Layer)和第三二维卷积层(Conv2d)后,得到去掉压缩噪音后的第t帧图像公式表示如下:
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像Ihigh,将步骤g得到的第t帧图像与高质量图像Ihigh一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器Dimage当中,用来判别输入的图像是来自高质量图像Ihigh还是步骤g所生成的图像;图像真实性判别器由5层二维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假;公式表示如下:
y=Dimage(xin) (Ⅳ)
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列将步骤g得到的连续三帧生成图像序列与连续三帧高质量图像序列一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器Dvideo当中,用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频;视频连续性判别器由8层三维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假,公式表示如下:
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
根据本发明所优选的,所述步骤C,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的优化器为Optimizer1、Optimizer2和Optimizer3,设置迭代次数为M;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo采用非同步更新法则,图像真实性判别器Dimage和视频连续性判别器Dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型G更新1次。
根据本发明所优选的,所述步骤D,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤C得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征MFCC输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算SSIM指标以定量衡量视频恢复的效果,公式如下:
式(Ⅷ)中,SSIM全称为Structural Similarity,即结构相似性,用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频Vx与其真实高清视频Vy的相似性,其中F表示视频包含的帧数,S表示每张图像中所截取滑窗的个数,表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的均值,表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的均值,表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的方差,表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的方差,表示去噪后的视频Vx和真实高清视频Vy在第i帧图像的第j个滑窗内像素值的协方差,c1和c2是两个常数,避免产生除零异常。
本发明的有益效果为:
1、本发明将人讲话的语音信号作为视频通话类视频去压缩噪声的重要线索,能够将语音和人脸变化特别是嘴型变化联系起来,得到更好的视频恢复效果。
2、本发明设计了语音编码器,能够很好地将语音特征和图像特征融合在一起,共同作为视频去噪的先验知识。
3、本发明设计了生成式的恢复网络,不仅构建了图片真实性判别器保证恢复单张图片的真实性,而且还构建了视频连续性判别器来保持恢复视频的连续性,这使得恢复的视频更自然更符合人类视觉体验。
附图说明:
图1为本发明基于语音线索的视频通话类视频去除压缩噪声的方法的整体流程图;
图2为本发明语音特征编码器模型内部结构图;
图3为本发明带有生成器网络模型内部结构图;
图4为本发明图像真实性判别器的内部实现结构图;
图5为本发明视频连续性判别器的内部实现结构图;
图6为本发明基于语音线索的视频压缩噪声去除模型的组成框图;
图7(a)为固定码率为90kbps的低码率低质量视频片段示意图;
图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图;
图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于语音线索的视频通话类视频去除压缩噪声的方法,如图1所示,包括步骤如下:
A、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
B、建立基于语音线索的视频压缩噪声去除模型
如图6所示,基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
C、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
D、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,如图1所示虚线框内流程所示,输出去除了压缩噪声的高质量的视频。
本发明对视频通话类视频压缩噪声的去除包括二个部分,其中第一部分将低码率视频的语音信号进行MFCC特征提取;第二部分将第一部分提取的语音特征和低码率低质量视频一起输入到训练好的带有语音线索的生成式视频压缩噪声去除模型,完成消除压缩噪声的任务,达到视频增强和视频恢复的目的,提升用户体验。
实施例2
根据实施例1所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其区别在于:
a、读取N段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行MFCC特征提取,每个单声道语音文件的每个采样区间提取到m维MFCC特征,每个单声道语音文件对应提取到一个n列m行的MFCC特征矩阵A,n是指每个单声道语音文件的采样区间个数,m是指每个采样区间计算得到的MFCC特征的维数;
步骤B,建立基于语音线索的视频压缩噪声去除模型,包括:
式(Ⅰ)中,表示第t帧图像对应的MFCC特征,滞后长度为L,at指MFCC特征矩阵A的第t个列向量;faudio(·)表示语音特征编码器模型,是由长短期记忆网络(Long Short-Term Memory,LSTM)和一系列神经网络的全连接层和反卷积层构成。表示输出C1个大小为W×H的特征图矩阵;所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元,如图2所示的语音特征编码器模型中,MFCC特征先经过LSTM进行时序特征提取后,再经过全连接层(Fully Connected Layer,FC)和变形层(ReshapeLayer,Reshape)规范特征图尺寸,第一转置卷积层(Transposing Convolutional Layer,ConvTrans)、第一泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)、第二转置卷积层(Transposing Convolutional Layer,ConvTrans)、第二泄漏修正线性单元的激活函数(Leaky Rectified Linear Unit,LeakyRelu)进一步学习语音特征;
g、将步骤e和步骤f得到的两种特征和送入生成器网络模型G,生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层,如图3所示生成器网络模型先将两种特征和在通道的维度拼接在一起,将得到的总的特征图xt,先送入第一二维卷积层(Conv2d),经过第三泄漏修正线性单元的激活函数(LeakyRelu)激活后,再由5个残差模块(ResBlock)进行卷积处理,然后经过第二二维卷积层(Conv2d)、第四泄漏修正线性单元的激活函数(LeakyRelu)、像素打散层(Pixel ShuffleLayer)和第三二维卷积层(Conv2d)后,得到去掉压缩噪音后的第t帧图像公式表示如下:
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像Ihigh,将步骤g得到的第t帧图像与高质量图像Ihigh一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器Dimage当中,用来判别输入的图像是来自高质量图像Ihigh还是步骤g所生成的图像;如图4所示,图像真实性判别器由5层二维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假;公式表示如下:
y=Dimage(xin) (Ⅳ)
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列将步骤g得到的连续三帧生成图像序列与连续三帧高质量图像序列一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器Dvideo当中,用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频;如图5所示,视频连续性判别器由8层三维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化(Average Pooling)操作将输出规整为一个标量,以表示真假,公式表示如下:
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
步骤C,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo的优化器为Optimizer1、Optimizer2和Optimizer3,设置迭代次数为M;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型G、图像真实性判别器Dimage和视频连续性判别器Dvideo采用非同步更新法则,图像真实性判别器Dimage和视频连续性判别器Dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型G更新1次。
步骤D,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤C得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征MFCC输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算SSIM指标以定量衡量视频恢复的效果,公式如下:
式(Ⅷ)中,SSIM全称为Structural Similarity,即结构相似性,用来衡量经过基于语音线索的视频压缩噪声去除模型去噪后的视频Vx与其真实高清视频Vy的相似性,其中F表示视频包含的帧数,S表示每张图像中所截取滑窗的个数,表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的均值,表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的均值,表示去噪后的视频Vx的第i帧图像的第j个滑窗内像素值的方差,表示真实高清视频Vy的第i帧图像的第j个滑窗内像素值的方差,表示去噪后的视频Vx和真实高清视频Vy在第i帧图像的第j个滑窗内像素值的协方差,c1和c2是两个常数,避免产生除零异常。
图7(a)为固定码率为90kbps的低码率低质量视频片段示意图;图7(b)为本发明一种基于语音线索的视频通话类视频去除压缩噪声的生成式方法对图7(a)的去噪结果展示图;图7(c)为图7(a)对应的真实的高码率高质量视频片段示意图。
从图7(b)可以看出,本发明的方法可以很好的消除压缩噪音的影响。去噪后的输出视频在视觉体验上比附图7(a)所展示的原始视频有明显提升,并且图像锐度较高,没有模糊效果。
与附图7(c)所展示的真实的高清视频对比,本发明的方法保留了原始视频的图像真实性和视频连续性。通过计算SSIM指标,得到将原始高清视频压缩到码率为90kbps的视频与原始高清视频的SSIM指标为0.7395,本发明去噪后的视频与原始视频的SSIM指标为0.7645,说明本发明能够明显改善原始低码率视频的质量,提升用户体验。
Claims (5)
1.一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,包括步骤如下:
A、构建数据集和数据预处理
1)搜集包含人的头部的讲话视频,构建视频通话类视频数据集;
2)对步骤1)搜集的人的头部的讲话视频即原始视频依次进行压缩、分帧,对所述原始视频中的语音信号进行特征提取,构建训练集和测试集;
B、建立基于语音线索的视频压缩噪声去除模型
基于语音线索的视频压缩噪声去除模型包括语音特征编码器模型、图像特征编码器、生成器网络模型、图像真实性判别器及视频连续性判别器;语音特征编码器模型用来编码语音特征;图像特征编码器用来编码图像特征;生成器网络模型是将语音特征和图像特征作为输入并经过生成操作得到所恢复的高质量图像;图像真实性判别器的输出和视频连续性判别器的输出作为优化语音特征编码器模型、图像特征编码器和生成器网络模型的两个指标;包括步骤如下:
3)构建语音特征编码器模型;
4)构建生成器网络模型;
5)构建图像真实性判别器;
6)构建视频连续性判别器;
7)构造整体损失函数以进行后续模型优化;
C、训练基于语音线索的视频压缩噪声去除模型
8)建立基于语音线索的视频压缩噪声去除模型的迭代优化策略,以更好地优化基于语音线索的视频压缩噪声去除模型参数;
D、测试基于语音线索的视频压缩噪声去除模型的去噪效果
根据训练好的基于语音线索的视频压缩噪声去除模型,将低码率、低质量的视频通话类视频及对应语音信号输入到基于语音线索的视频压缩噪声去除模型当中,输出去除了压缩噪声的高质量的视频。
2.根据权利要求1所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤A,构建数据集和数据预处理,视频通话类视频数据集即原始视频包括从互联网上挑选并下载了大量包含人的头部的讲话视频,设定共N段,即Vi表示第i段视频,包括步骤如下:
a、读取N段视频,提取出语音信号,并将语音信号标准化为相同频率的单声道语音文件;
b、对步骤a得到的处理后的单声道语音文件进行MFCC特征提取,每个单声道语音文件的每个采样区间提取到m维MFCC特征,每个单声道语音文件对应提取到一个n列m行的MFCC特征矩阵A,n是指每个单声道语音文件的采样区间个数,m是指每个采样区间计算得到的MFCC特征的维数;
3.根据权利要求2所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤B,建立基于语音线索的视频压缩噪声去除模型,包括:
e、经过步骤b得到MFCC特征后,将视频的第t帧图像所对应的长度为L的MFCC特征片段At进行语音特征编码,公式如下:
式(Ⅰ)中,表示第t帧图像对应的MFCC特征,滞后长度为L,at指MFCC特征矩阵A的第t个列向量;faudio(·)表示语音特征编码器模型,表示输出C1个大小为W×H的特征图矩阵;所述语音特征编码器模型包括依次连接的LSTM、全连接层、变形层、第一转置卷积层、第一泄漏修正线性单元、第二转置卷积层、第二泄漏修正线性单元,语音特征编码器模型中,MFCC特征先经过LSTM进行时序特征提取后,再经过全连接层和变形层规范特征图尺寸,第一转置卷积层、第一泄漏修正线性单元的激活函数、第二转置卷积层、第二泄漏修正线性单元的激活函数进一步学习语音特征;
g、将步骤e和步骤f得到的两种特征和送入生成器网络模型G,生成器网络模型G包括依次连接的第一二维卷积层、第三泄漏修正线性单元、5个残差模块、第二二维卷积层、第四泄漏修正线性单元、像素打散层、第三二维卷积层,生成器网络模型先将两种特征和在通道的维度拼接在一起,将得到的总的特征图xt,先送入第一二维卷积层,经过第三泄漏修正线性单元的激活函数激活后,再由5个残差模块进行卷积处理,然后经过第二二维卷积层、第四泄漏修正线性单元的激活函数、像素打散层和第三二维卷积层后,得到去掉压缩噪音后的第t帧图像公式表示如下:
h、从步骤d得到的每个视频的图像序列中随机抽取高质量图像Ihigh,将步骤g得到的第t帧图像与高质量图像Ihigh一同输入到由一系列二维卷积和激活操作构成的图像真实性判别器Dimage当中,用来判别输入的图像是来自高质量图像Ihigh还是步骤g所生成的图像;图像真实性判别器由5层二维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化操作将输出规整为一个标量,以表示真假;公式表示如下:
y=Dimage(xin) (IV)
i、从步骤d得到的每个视频的图像序列中随机抽取连续三帧高质量图像序列将步骤g得到的连续三帧生成图像序列与连续三帧高质量图像序列一同输入到由一系列三维卷积和激活操作构成的视频连续性判别器Dvideo当中,用来判别输入的三帧短视频是来自真实的高清视频还是步骤g所生成的视频;视频连续性判别器由8层三维卷积层构成,激活函数采用LeakyRelu,最后一层采用一个平均池化操作将输出规整为一个标量,以表示真假,公式表示如下:
k、将步骤h、步骤i和步骤j得到的损失结合起来,得到总的优化目标函数即整体损失函数,公式如下:
4.根据权利要求3所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤C,训练基于语音线索的视频压缩噪声去除模型,包括如下步骤:
l、根据步骤k所得到的整体损失函数,随机初始化模型参数,即:分别设置带有语音线索的生成式视频压缩噪声去除模型G′、图像真实性判别器Dimage和视频连续性判别器Dvideo的学习率为lr1、lr2和lr3,分别设置带有语音线索的生成式视频压缩噪声去除模型G′、图像真实性判别器Dimage和视频连续性判别器Dvideo的优化器为Optimizer1、Optimizer2和Optimizer3,设置迭代次数为M;
m、根据步骤k所得到的整体损失函数和根据l所设置的模型参数,带有语音线索的生成式视频压缩噪声去除模型G′、图像真实性判别器Dimage和视频连续性判别器Dvideo采用非同步更新法则,图像真实性判别器Dimage和视频连续性判别器Dvideo每更新k次,带有语音线索的生成式视频压缩噪声去除模型G′更新1次。
5.根据权利要求1-4任一所述的一种基于语音线索的视频通话类视频去除压缩噪声的方法,其特征在于,所述步骤D,测试基于语音线索的视频压缩噪声去除模型的去噪效果,包括如下步骤:
n、根据步骤C得到的训练好的基于语音线索的视频压缩噪声去除模型,将测试视频或者实际待去噪视频及其对应的语音特征MFCC输入到训练好的基于语音线索的视频压缩噪声去除模型当中,输出去噪后的增强的高质量视频,如果是测试视频,计算SSIM指标以定量衡量视频恢复的效果,公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911294549.5A CN110958417B (zh) | 2019-12-16 | 2019-12-16 | 一种基于语音线索的视频通话类视频去除压缩噪声的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911294549.5A CN110958417B (zh) | 2019-12-16 | 2019-12-16 | 一种基于语音线索的视频通话类视频去除压缩噪声的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110958417A CN110958417A (zh) | 2020-04-03 |
CN110958417B true CN110958417B (zh) | 2020-12-08 |
Family
ID=69981850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911294549.5A Expired - Fee Related CN110958417B (zh) | 2019-12-16 | 2019-12-16 | 一种基于语音线索的视频通话类视频去除压缩噪声的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110958417B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116074577B (zh) * | 2022-12-23 | 2023-09-26 | 北京生数科技有限公司 | 视频处理方法、相关装置及存储介质 |
CN118101988B (zh) * | 2024-04-26 | 2024-09-24 | 荣耀终端有限公司 | 一种视频处理方法、系统及电子设备 |
CN119520841A (zh) * | 2025-01-20 | 2025-02-25 | 北京时代奥视科技有限公司 | 一种转播画面实时增强方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766289A (zh) * | 2015-03-20 | 2015-07-08 | 华南理工大学 | 一种图像去噪和压缩处理方法 |
CN105745931A (zh) * | 2013-11-24 | 2016-07-06 | Lg电子株式会社 | 使用自适应采样编码和解码视频信号的方法和装置 |
CN110097512A (zh) * | 2019-04-16 | 2019-08-06 | 四川大学 | 基于Wasserstein生成对抗网络的三维MRI图像去噪模型的构建方法及应用 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8948253B2 (en) * | 2011-12-15 | 2015-02-03 | Flextronics Ap, Llc | Networked image/video processing system |
US9264661B2 (en) * | 2013-06-07 | 2016-02-16 | Apple Inc. | Adaptive post-processing for mobile video calling system |
CN106899820A (zh) * | 2015-12-17 | 2017-06-27 | 中国电信股份有限公司 | 用于视频通话过程中实时去噪的方法、装置和终端设备 |
CN109102462B (zh) * | 2018-08-01 | 2023-04-07 | 中国计量大学 | 一种基于深度学习的视频超分辨率重建方法 |
CN110111251B (zh) * | 2019-04-22 | 2023-04-28 | 电子科技大学 | 一种结合深度监督自编码和感知迭代反投影的图像超分辨率重建方法 |
CN110458189A (zh) * | 2019-06-29 | 2019-11-15 | 天津大学 | 压缩感知和深度卷积神经网络电能质量扰动分类方法 |
CN110458784A (zh) * | 2019-08-31 | 2019-11-15 | 杭州当虹科技股份有限公司 | 一种基于图像感知质量的去压缩噪声方法 |
-
2019
- 2019-12-16 CN CN201911294549.5A patent/CN110958417B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105745931A (zh) * | 2013-11-24 | 2016-07-06 | Lg电子株式会社 | 使用自适应采样编码和解码视频信号的方法和装置 |
CN104766289A (zh) * | 2015-03-20 | 2015-07-08 | 华南理工大学 | 一种图像去噪和压缩处理方法 |
CN110097512A (zh) * | 2019-04-16 | 2019-08-06 | 四川大学 | 基于Wasserstein生成对抗网络的三维MRI图像去噪模型的构建方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN110958417A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
CN112954312B (zh) | 一种融合时空特征的无参考视频质量评估方法 | |
CN110958417B (zh) | 一种基于语音线索的视频通话类视频去除压缩噪声的方法 | |
CN110580704A (zh) | 基于卷积神经网络的et细胞图像自动分割方法及系统 | |
CN110517329A (zh) | 一种基于语义分析的深度学习图像压缩方法 | |
US20220414838A1 (en) | Image dehazing method and system based on cyclegan | |
CN113658122B (zh) | 图像质量评价方法、装置、存储介质与电子设备 | |
CN113077470B (zh) | 一种横竖屏转换画面的裁剪方法、系统、装置及介质 | |
CN112070688A (zh) | 一种基于上下文引导生成对抗网络的单幅图像去雾方法 | |
CN109862350B (zh) | 基于时空域特征提取的无参考视频质量评价方法 | |
CN108550173A (zh) | 基于语音生成口型视频的方法 | |
CN115345785A (zh) | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 | |
CN115115540A (zh) | 基于光照信息引导的无监督低光图像增强方法及装置 | |
CN112289338A (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
CN112200732A (zh) | 一种清晰特征融合的视频去模糊方法 | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
CN116233445A (zh) | 视频的编解码处理方法、装置、计算机设备和存储介质 | |
CN117176998A (zh) | 基于通道注意力的双流网络跨模态嘴型同步方法和系统 | |
CN113450824A (zh) | 一种基于多尺度视频特征融合的语音唇读方法及系统 | |
CN117173783A (zh) | 基于多模态注意力交互学习的唇语识别模型、方法及装置 | |
CN116524387A (zh) | 一种基于深度学习网络的超高清视频压缩损伤等级评估方法 | |
CN114841890A (zh) | 一种基于生成对抗网络的水下图像去模糊方法 | |
CN113628143A (zh) | 一种基于多尺度卷积的加权融合图像去雾方法及装置 | |
CN118658100A (zh) | 唇音同步处理及模型训练方法、电子设备及存储介质 | |
CN112200816A (zh) | 视频图像的区域分割及头发替换方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201208 |