CN113177882B

CN113177882B - 一种基于扩散模型的单帧图像超分辨处理方法

Info

Publication number: CN113177882B
Application number: CN202110474006.2A
Authority: CN
Inventors: 李奇; 李昊颖; 常猛; 王静; 陈跃庭; 冯华君; 徐之海
Original assignee: Zhejiang University ZJU; Beijing Institute of Environmental Features
Current assignee: Zhejiang University ZJU; Beijing Institute of Environmental Features
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-08-05
Anticipated expiration: 2041-04-29
Also published as: CN113177882A

Abstract

本发明公开了一种基于扩散模型的单帧图像超分辨处理方法。方法建立超分辨扩散模型的扩散过程和条件噪声预测器；将高低分辨图像数据集输入到超分辨扩散模型的条件噪声预测器，利用超分辨扩散模型的扩散过程对条件噪声预测器进行训练，获得预训练后的条件噪声预测器；待处理的低分辨图像输入到超分辨扩散模型的逆过程中，获得残差预测图像；残差预测图像与经过上采样操作的低分辨图像相加，得到预测的超分辨图像。本发明对同一张低分辨图像生成具有一致特征的多张超分辨图像，每张超分辨图像具有丰富的纹理和自然性，避免了过平滑问题、模式崩塌问题，在较少时间开销下提高了重建性能。

Description

一种基于扩散模型的单帧图像超分辨处理方法

技术领域

本发明属于图像处理技术、计算机视觉、深度学习领域的一种图像处理方法，尤其涉及图像超分辨技术领域的一种基于扩散模型的单帧图像超分辨处理方法。

背景技术

单帧图像超分辨任务在计算机视觉领域有广泛的应用，如目标识别、多媒体技术、航空航天成像等。单帧图像超分辨任务旨在从低分辨图像中恢复高分辨图像，这是一个病态的问题，因为多个高分辨图像可以退化为同一张低分辨图像。

为了建立高分辨图像和低分辨图像之间的映射，近年来出现了许多基于神经网络的方法，这些方法可分为三种主要类型：面向PSNR前馈超分辨神经网络的方法、基于对抗生成网络(GAN)的方法和基于流(Flow)的方法。然而，面向PSNR的前馈超分辨神经网络方法得到的是多个超分辨潜在解的平均，导致超分辨图像过于平滑；基于GAN的方法容易带来“模式坍塌”，导致生成的超分辨图像趋近于同一解；基于流的方法需要极大的模型参数和计算开销。如何对同一张低分辨图像生成与其一致的多个高质量的高分辨图像同时避免较大的计算开销是现有技术中并没有解决和实现的。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于扩散模型的单帧图像超分辨处理方法，可对同一张低分辨图像，生成与其一致特征的多张高分辨图像。

本发明的目的是通过以下技术方案来实现的：

1)建立超分辨扩散模型的扩散过程和条件噪声预测器ε_θ；

2)将已知的高低分辨图像数据集

输入到超分辨扩散模型的条件噪声预测器ε_θ，其中I_H为高分辨图像，I_L为其对应的低分辨图像，k表示高低分辨图像对的序号，K为高低分辨图像数据集P中高低分辨图像对的总数；利用超分辨扩散模型的扩散过程对条件噪声预测器ε_θ进行训练，获得预训练后的条件噪声预测器ε_θ；

3)由建立超分辨扩散模型的扩散过程反向作为超分辨扩散模型的逆过程，待处理的低分辨图像输入到超分辨扩散模型的逆过程中，获得残差预测图像

即待处理的低分辨图像对应的高分辨图像。

4)残差预测图像

与经过上采样操作的低分辨图像up(I_L)相加，得到预测的超分辨图像I_SR，其中up()为上采样操作，I_L为原始待处理的低分辨图像。

高低分辨图像数据集是由很多已知的高低分辨图像对构成，每一对高低分辨图像主要是由高分辨图像I_H及其对应的低分辨图像up(I_L)组成，高低分辨图像对

高分辨图像对应的低分辨图像是与高分辨图像在同一场景下或者针对同一目标所采集的分辨率不同的图像，可以是由高分辨图像进行分辨率压缩处理获得或者采用不同设备的拍摄获得；高分辨图像的分辨率较高，低分辨图像的分辨率较低。

所述的超分辨扩散模型的扩散过程为：将经过上采样操作的低分辨图像up(I_L)与高分辨图像I_H之间的残差图I₀作为输入，计算残差图像I₀＝I_H－up(I_L)，残差图I₀经过连续依次进行的T步扩散步被逐步添加高斯噪声，T＝1,2,3…，各扩散步添加不同的高斯噪声，输出含有噪声的残差图I_t，t＝1,2,…,T，经T步扩散步累积后，清晰的残差图I₀变为噪声图像I_T，最后的扩散步输出获得映射到隐空间的噪声图像。

结合扩散过程对所述的条件噪声预测器ε_θ进行训练，训练步骤为：

1)输入高低分辨图像数据集

和扩散步的总数T，其中I_H为高分辨图像，I_L为其对应的低分辨图像，k表示高低分辨图像对的序号，K为高低分辨图像数据集P中高低分辨图像对的总数；

2)随机初始化条件噪声预测器ε_θ的神经网络参数；

3)计算不含噪声的残差图

其中up()为上采样操作；

4)条件噪声预测器ε_θ的低分编码器对低分辨图像

进行编码获得低分辨信息

5)根据低分辨信息

残差图

和扩散步的总数T对以下损失函数进行梯度下降运算，优化更新条件噪声预测器ε_θ的神经网络参数：

其中，|| ||表示L1范式，t为整数集合{1,2,…,T}中的整数，

为均值为0方差为I的正态分布，～表示服从，ε为服从

的矩阵，

为高低分辨数据集P中第k对高低分辨图像之间的残差图像经过t步扩散步输出的残差图；

6)循环3)至5)步，迭代k，更新神经网络参数，每次循环更新条件噪声预测器ε_θ的神经网络参数，更新后的神经网络参数作为下一次循环时条件噪声预测器ε_θ的神经网络参数，直到损失函数收敛，条件噪声预测器ε_θ训练完成。

所述的超分辨扩散模型的逆过程为：

逆过程将高斯噪声矩阵

逐步映射为不含噪声的残差预测图像

逆过程的输入为各个扩散步输出的噪声图像、低分辨图像I_L和扩散步的总数T，逆过程中的逆步骤的数量和扩散过程中的扩散步的数量相同，逆过程中迭代进行T次逆步骤，处理顺序和扩散过程的处理顺序颠倒。

逆过程迭代进行T步，迭代序号t与扩散过程相反，即t＝T,T-1,…,1，第t步逆步骤预测第t步扩散步添加的高斯噪声，再由预测的高斯噪声计算残差预测图像

具体地，初始逆步骤(第T步逆步骤)将高斯噪声矩阵

低分辨图像I_L、当前逆步骤的时间特征矩阵T_e共同输入到条件噪声预测器ε_θ中，之后的每一个逆步骤将上一逆步骤输出的残差预测图像

低分辨图像I_L、当前逆步骤的时间特征矩阵t_e共同输入到条件噪声预测器ε_θ中；条件噪声预测器ε_θ预测获得相应扩散步添加的高斯噪声；由预测的高斯噪声再计算获得下一逆步骤的残差预测图像

经T次逆步骤结束后得到最终残差预测图像

经过T次去噪，初始输入逆过程的高斯噪声矩阵

逐渐转变为清晰的残差预测图像

如图3所示，所述的条件噪声预测器ε_θ为一神经网络，主要由低分编码器和噪声预测器组成：

(1)低分辨图像I_L输入到低分编码器，经过编码获得低分辨图像信息I_e，后续将低分辨图像信息I_e输入噪声预测器中作为噪声预测器的隐藏特征，这样可以更好地让条件噪声预测器准确预测扩散过程中每一步扩散步添加的高斯噪声；

(2)噪声预测器为一基于U-Net的神经网络，主要由一个第一卷积模块、连续的四个收缩路径、一个中心模块、连续的四个扩张路径、一个第二卷积模块依次连接构成；

每个收缩路径主要由连续的两个残差模块和一个下采样层依次连接组成；中心模块由连续的两个残差模块组成；每个扩张路径主要由连续的两个残差模块和一个上采样层依次连接组成，收缩路径、扩张路径和中心模块的残差模块结构均相同，每个残差模块主要由连续的两个卷积模块组成，残差模块中第一个卷积模块的输出和当前第t步扩散步的时间特征矩阵t_e相加后再输入到第二个卷积模块中，残差模块的输入经连续两个卷积模块处理后的结果再与自身进行相加后输出作为残差模块的输出，收缩路径、扩张路径和中心模块中的每个残差模块中均输入当前第t步扩散步的时间特征矩阵t_e，均是采用这样的结构；收缩路径、扩张路径、中心模块的残差模块中的卷积模块以及第一卷积模块、第二卷积模块结构均相同，均由一个二维卷积层和Mish激活层依次连接组成；

条件噪声预测器ε_θ的输入为残差预测图像

残差预测图像

首先进入第一卷积模块，第一卷积模块的输出和低分编码器输出的低分辨图像信息I_e进行相加后再输入到第一个收缩路径中，四个收缩路径依次连接，第一个收缩路径的输出和第三个扩张路径的输出相加后再输入到第四个扩张路径，第二个收缩路径的输出和第二个扩张路径的输出相加后再输入到第三个扩张路径，第三个收缩路径的输出和第一个扩张路径的输出相加后再输入到第二个扩张路径，第四个收缩路径的输出和中心模块的输出相加后再输入到第一个扩张路径。t通过嵌入变换为时间特征矩阵t_e后添加到收缩路径、中心路径和扩张路径的每一残差模块。本发明的相加是指将两个结果的逐像素相加。条件噪声预测器的输出为预测的每一步扩散步添加的噪声

其中，卷积模块由一个二维卷积层和Mish激活层依次组成，含有c通道的噪声残差图像I_t经过此卷积模块后，通道数不变；经过第一个收缩路径的隐藏特征通道数仍为c，经过第二个收缩路径的隐藏特征通道数变为2c，经过第三个收缩路径的隐藏特征通道数不变，经过第四个收缩路径的隐藏特征通道数变为4c；经过中心模块的隐藏特征的通道数不变；经过第一、二、三、四个扩张路径的隐藏特征的通道数依次为4c、2c、2c、c；经过最后一个卷积模块的隐藏特征的通道数不变，最终输出c通道的预测噪声。

本发明的有益效果：

本发明可对同一张低分辨图像，生成与其一致特征的多张超分辨图像，每张超分辨图像含有丰富的纹理和自然性，都达到了很好的效果。

相比于面向PSNR的前馈超分辨神经网络，本发明避免了过度平滑；相比于基于GAN的超分辨方法，本发明避免了“模式崩塌”；相比于基于流的超分辨方法，本发明模型参数少。因此，本发明方法同时实现和解决了：避免了面向PSNR的前馈超分辨神经网络带来的过平滑问题、对抗生成网络(GAN)类方法导致的模式崩塌问题以及在较少的模型参数和时间开销下提高了重建性能。

附图说明

图1为本发明方法的超分辨扩散模型示意图；

图2为本发明方法的每一步扩散步骤运算流程图；

图3为本发明方法的条件噪声预测器ε_θ的训练流程图；

图4为本发明方法的条件噪声预测器ε_θ逻辑框架图；

图5为本发明的使用流程图；

图6为本发明实例中由一张低分辨人脸图像生成多张8×超分辨图像的效果图；

图7为本发明实例中人脸图像8×超分辨效果与其他方法的对比图；

图8为本发明实例中自然图像4×超分辨效果与其他方法的对比图；

表1为本发明和其他超分辨方法在8×人脸图像上的主客观评价对比结果图；

表2为本发明和其他超分辨方法在4×自然图像上的主客观评价对比结果图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

本发明的实施例及其实施过程如下：

1、如图1所示为本发明方法的超分辨扩散模型示意图，从右向左为本发明方法中的超分辨扩散模型的扩散过程，扩散过程循环执行T步扩散步，每一步扩散步向残差图I₀添加高斯噪声，T步扩散步后，残差图I₀转变为噪声图像I_T。

每一步扩散步的运算步骤如图2所示，具体为：

1.1、输入当前扩散步序号t，t＝{1,2,…,T}；以及高低分辨图像之间的残差图I₀＝I_H－up(I_L)，其中I_H为高分辨图像，I_L为低分辨图像，up()为上采样操作；

1.2、设定当前扩散步的高斯分布参数β_t，设定方式如：在区间[0.001,0.02]内β_t和扩散步的序号t成正比关系；

1.3、计算当前扩散步的扩散系数

s表示当前扩散步累乘运算中的序号；

1.4、计算当前扩散步输出的残差图I_t：

其中，

为均值为零矩阵0、协方差为单位矩阵I的正态分布，～表示服从，ε为服从

的矩阵，t为{1,2,…,T}中的整数；

2、如图3所示为本发明方法中条件噪声预测器ε_θ的训练流程图，本发明的超分辨扩散模型中的条件噪声器是结合扩散过程训练的，步骤如下：

2.1、将扩散步的总数T和高低分辨图像数据集

输入条件噪声预测器ε_θ，其中I_H为高分辨图像，I_L为其对应的低分辨图像，k表示高低分辨图像对的序号，K为高低分辨图像数据集P中高低分辨图像对的总数；

2.2、随机初始化条件噪声预测器的神经网络参数；

2.3、计算不含噪声的残差图

其中up()为上采样操作；2.4、低分解码器编码低分辨图像

为低分辨信息

2.5、从整数集合{1,2,…,T}中选取某一整数t，t经过嵌入变换变为t_e；

2.6、对以下损失函数进行梯度下降运算：

其中，|| ||表示L1范式，I_t为第t步扩散步输出的残差图，

为第t步扩散步的扩散系数,

的矩阵；

2.6、当k＝1,2…,K，循环2.3～2.5，每次循环更新条件噪声预测器ε_θ的神经网络参数，更新后的神经网络参数作为下一次循环时条件噪声预测器ε_θ的神经网络参数，直到损失函数收敛，条件噪声预测器ε_θ训练完成。

3.如图4所示，为本发明方法中条件噪声预测器ε_θ的模型框架图。所述的条件噪声预测器ε_θ由低分编码器和噪声预测器组成：

1)低分编码器为一基于RRDB的低分编码神经网络，用于编码低分辨图像I_L信为低分辨信息I_e。

2)噪声预测器为一神经网络，由一个第一卷积模块、连续的四个收缩路径、一个中心模块、连续的四个扩张路径、一个第二卷积模块依次连接构成。其中，第一卷积模块和第二卷积模块结构相同，均由一个二维卷积层和一个Mish层组成；每个收缩路径由连续的两个残差模块和一个下采样层依次连接组成；中心模块由连续的两个残差模块组成；每个扩张路径主要由连续的两个残差模块和一个上采样层依次连接组成。收缩路径、中心模块和扩张路径的残差模块结构均相同，每个残差模块由连续的两个卷积模块组成，残差模块中第一个卷积模块的输出和当前第t步扩散步的时间特征矩阵t_e相加后再输入到第二个卷积模块中，残差模块的输入经连续两个卷积模块处理后的结果再与自身进行相加，为残差模块的输出。收缩路径、中心模块、扩张路径的残差模块中的卷积模块与第一卷积模块、第二卷积模块结构均相同。

第一卷积模块的输出和低分编码器输出的低分辨图像信息I_e进行相加后再输入到第一个收缩路径中；第一个收缩路径的输出一方面输入第二个收缩路径，另一方面同时和第三个扩张路径的输出相加后再输入到第四个扩张路径；第二个收缩路径的输出一方面输入到第三个收缩路径，另一方面同时和第二个扩张路径的输出相加后再输入到第三个扩张路径；第三个收缩路径的输出一方面输入第四个收缩路径，另一方面同时和第一个扩张路径的输出相加后再输入到第二个扩张路径；第四个收缩路径的输出一方面输入中心模块，另一方面同时和中心模块的输出相加后再输入到第一个扩张路径。

在逆过程中使用条件噪声预测器ε_θ时，当t＝T时，条件噪声预测器的输入为当前的逆步骤的序号T、高斯噪声矩阵

和三通道的低分辨图像I_L；当t＝T-1,…,1时，网络的输入为当前的扩散步数t、上一逆步骤的残差预测图像

和三通道的低分辨图像I_L。首先，I_L被低分编码器编码为低分辨信息I_e；第二，

经过卷积模块变为隐藏特征；在卷积模块后，I_e和

的隐藏特征融合输入噪声预测器的后续模块；t通过嵌入变换为隐藏特征t_e添加到收缩路径、中心模块和扩张路径的每一模块。

在发明的上述处理中，含有c通道的噪声残差预测图像

经过卷积模块后，通道数不变；经过第一个收缩路径的隐藏特征通道数仍为c，经过第二个收缩路径的隐藏特征通道数变为2c，经过第三个收缩路径的隐藏特征通道数不变，经过第四个收缩路径的隐藏特征通道数变为4c；经过中心模块的隐藏特征的通道数不变；经过第一、二、三、四个扩张路径的隐藏特征的通道数依次为4c、2c、2c、c；经过最后一个卷积模块的隐藏特征的通道数不变，条件噪声预测器最终输出c通道的预测噪声

4.如图5所示为本发明的使用流程图。当条件噪声训练器ε_θ训练完成后，首先执行逆过程，逆过程如图1从左向右进行，经过T步逆步骤将高斯噪声矩阵

转变为残差预测图像

而后执行最终步输出超分辨图像。待测时，本发明的基于扩散模型的单图像超分辨方法具有如下使用步骤：

4.1、将低分辨图像I_L、总扩散步骤T和服从标准正态分布

的高斯噪声矩阵

输入预训练的条件噪声预测器ε_θ；

4.2、低分编码器编码I_L为隐藏层I_e；

4.3、通过嵌入变换计算t的时间特征矩阵t_e；

4.4、利用预训练的条件噪声预测器ε_θ预测扩散过程中每一步添加的噪声

4.5、计算当前逆步骤获得的残差预测图像

其中，

为上一逆步骤输出的残差预测图像，

表示第t步扩散步的方差参数：当

Z是随机高斯矩阵。

为高斯噪声矩阵：当

当t＝1，z＝0；

表示第t步扩散步的扩散系数，β_t为第t步扩散步的高斯分布参数；

4.6、从t＝T,T-1,…,1循环T次3)4)5)步骤，迭代更新

输出最终的残差预测图像

4.7、残差预测图像

加上采样的低分辨图像up(I_L)为预测的超分辨图像，即

5、实施例的超分辨效果：

对于4.1，对于同一张低分辨图片I_L，输入不同的高斯噪声矩阵

最终输出的超分辨图像不同，但都与低分辨图像的特征一致。本发明实例中由一张低分辨人脸图像生成多张8×超分辨图像的效果如图6所示，左上角为低分辨人脸图像，左下角为高分辨人脸原图，a～d依次为低分辨人脸图像的多个超分辨结果，每张超分辨图像之间有细微的五官差别，如：a的鼻子较扁，c的鼻子较挺拔；a～d都与低分辨图像有一致的相貌，能够看出与低分辨图像为同一人。

本发明实例中人脸图像8×超分辨效果与其他方法的对比如图7所示，从左到右每列分别对应低分辨图像、RRDB网络效果图、ESRGAN效果图、ProgFSR效果图、SRFlow效果图、本发明效果图和高分辨原图，相比于RRDB和SRFlow本发明可恢复出丰富的人脸特征，相较于ESRGAN和ProgFSR，本发明避免了伪纹理(女子头发上的网格和男子头顶的条纹)；

本发明实例中自然图像4×超分辨效果与其他方法的对比如图8所示，从左到右每列分别对应低分辨图像、ESDR效果图、RRDB效果图、ESRGAN效果图、RankSRGAN效果图、SRFlow效果图、本发明效果图和高分辨原图，本发明可重建出更自然的景物，如动物绒毛和叶子纹理，(和其他方法相比，只有本发明恢复出和原图一致的黄叶上棕色的条纹，ESRGAN和RankSRGAN误恢复为斑点)；

本发明和其他超分辨方法在8×人脸图像上的主客观评价对比如下表1：

表1本发明与其他超分辨方法在8×人脸图像上的主客观评价对比

由于ProgFSR采用了和其他超分辨方法不同的下采样核，故分组进行评价，评价参数分别为PSNR、SSIM、LPIPS、LR-PSNR和σ(象征解的多样性)，PSNR、SSIM、LR-PSNR和σ的数值越高，超分辨效果越好，LPIPS的数值越低，超分辨效果越好；

本发明和其他超分辨方法在4×自然图像上的主客观评价对比如下表1：

表2本发明与其他超分辨方法在4×自然图像上的主客观评价对比

方法	PSNR↑	SSIM↑	LPIPS↓	LR-PSNR↑	σ↑
						Bicubic	26.70	0.77	0.409	38.70	0.00
EDSR	28.98	0.83	0.270	54.89	0.00
						RRDB	29.44	0.84	0.253	49.20	0.00
RankSRGA	26.55	0.75	0.128	42.33	0.00
						ESRGAN	26.22	0.75	0.124	39.03	0.00
SRFlow	27.09	0.76	0.120	49.96	5.14
						本发明	27.41	0.79	0.136	55.21	6.09

评价参数分别为PSNR、SSIM、LPIPS、LRPSNR和σ(象征解的多样性)，PSNR、SSIM、LR-PSNR和σ的数值越高，超分辨效果越好，LPIPS的数值越低，超分辨效果越好。

Claims

1.一种基于扩散模型的单帧图像超分辨处理方法，其特征在于：该方法包括以下步骤：

1)建立超分辨扩散模型的扩散过程和条件噪声预测器ε_θ；

2)将高低分辨图像数据集

3)待处理的低分辨图像输入到超分辨扩散模型的逆过程中，获得残差预测图像

4)残差预测图像

与经过上采样操作的低分辨图像up(I_L)相加，得到预测的超分辨图像，其中up()为上采样操作，I_L为原始待处理的低分辨图像；

所述的条件噪声预测器ε_θ主要由低分编码器和噪声预测器组成：

(1)低分辨图像I_L输入到低分编码器，经过编码获得低分辨图像信息I_e；

(2)噪声预测器主要由一个第一卷积模块、连续的四个收缩路径、一个中心模块、连续的四个扩张路径、一个第二卷积模块依次连接构成；

每个收缩路径主要由连续的两个残差模块和一个下采样层依次连接组成；中心模块由连续的两个残差模块组成；每个扩张路径主要由连续的两个残差模块和一个上采样层依次连接组成，每个残差模块主要由连续的两个卷积模块组成，残差模块中第一个卷积模块的输出和当前第t步扩散步的时间特征矩阵t_e相加后再输入到第二个卷积模块中，残差模块的输入经连续两个卷积模块处理后的结果再与自身进行相加后输出作为残差模块的输出；收缩路径、扩张路径、中心模块的残差模块中的卷积模块以及第一卷积模块、第二卷积模块结构均相同，均由一个二维卷积层和Mish激活层依次连接组成；

条件噪声预测器ε_θ的输入为残差预测图像

残差预测图像

首先进入第一卷积模块，第一卷积模块的输出和低分编码器输出的低分辨图像信息I_e进行相加后再输入到第一个收缩路径中，第一个收缩路径的输出和第三个扩张路径的输出相加后再输入到第四个扩张路径，第二个收缩路径的输出和第二个扩张路径的输出相加后再输入到第三个扩张路径，第三个收缩路径的输出和第一个扩张路径的输出相加后再输入到第二个扩张路径，第四个收缩路径的输出和中心模块的输出相加后再输入到第一个扩张路径；条件噪声预测器的输出为预测的每一步扩散步添加的噪声

2.根据权利要求1所述的一种基于扩散模型的单帧图像超分辨处理方法，其特征在于：所述的超分辨扩散模型的扩散过程为：将经过上采样操作的低分辨图像up(I_L)与高分辨图像I_H之间的残差图I₀作为输入，残差图I₀经过连续依次进行的T步扩散步被添加高斯噪声，T＝1,2,3…，各扩散步添加不同的高斯噪声，输出含有噪声的残差图I_t，t＝1,2,…,T，经T步扩散步后，残差图I₀变为噪声图像I_T。

3.根据权利要求1所述的一种基于扩散模型的单帧图像超分辨处理方法，其特征在于：结合扩散过程对所述的条件噪声预测器ε_θ进行训练，训练步骤为：

1)输入高低分辨图像数据集