[go: up one dir, main page]

CN113177882B - 一种基于扩散模型的单帧图像超分辨处理方法 - Google Patents

一种基于扩散模型的单帧图像超分辨处理方法 Download PDF

Info

Publication number
CN113177882B
CN113177882B CN202110474006.2A CN202110474006A CN113177882B CN 113177882 B CN113177882 B CN 113177882B CN 202110474006 A CN202110474006 A CN 202110474006A CN 113177882 B CN113177882 B CN 113177882B
Authority
CN
China
Prior art keywords
resolution
image
diffusion
residual
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110474006.2A
Other languages
English (en)
Other versions
CN113177882A (zh
Inventor
李奇
李昊颖
常猛
王静
陈跃庭
冯华君
徐之海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Beijing Institute of Environmental Features
Original Assignee
Zhejiang University ZJU
Beijing Institute of Environmental Features
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Beijing Institute of Environmental Features filed Critical Zhejiang University ZJU
Priority to CN202110474006.2A priority Critical patent/CN113177882B/zh
Publication of CN113177882A publication Critical patent/CN113177882A/zh
Application granted granted Critical
Publication of CN113177882B publication Critical patent/CN113177882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于扩散模型的单帧图像超分辨处理方法。方法建立超分辨扩散模型的扩散过程和条件噪声预测器;将高低分辨图像数据集输入到超分辨扩散模型的条件噪声预测器,利用超分辨扩散模型的扩散过程对条件噪声预测器进行训练,获得预训练后的条件噪声预测器;待处理的低分辨图像输入到超分辨扩散模型的逆过程中,获得残差预测图像;残差预测图像与经过上采样操作的低分辨图像相加,得到预测的超分辨图像。本发明对同一张低分辨图像生成具有一致特征的多张超分辨图像,每张超分辨图像具有丰富的纹理和自然性,避免了过平滑问题、模式崩塌问题,在较少时间开销下提高了重建性能。

Description

一种基于扩散模型的单帧图像超分辨处理方法
技术领域
本发明属于图像处理技术、计算机视觉、深度学习领域的一种图像处理方法,尤其涉及图像超分辨技术领域的一种基于扩散模型的单帧图像超分辨处理方法。
背景技术
单帧图像超分辨任务在计算机视觉领域有广泛的应用,如目标识别、多媒体技术、航空航天成像等。单帧图像超分辨任务旨在从低分辨图像中恢复高分辨图像,这是一个病态的问题,因为多个高分辨图像可以退化为同一张低分辨图像。
为了建立高分辨图像和低分辨图像之间的映射,近年来出现了许多基于神经网络的方法,这些方法可分为三种主要类型:面向PSNR前馈超分辨神经网络的方法、基于对抗生成网络(GAN)的方法和基于流(Flow)的方法。然而,面向PSNR的前馈超分辨神经网络方法得到的是多个超分辨潜在解的平均,导致超分辨图像过于平滑;基于GAN的方法容易带来“模式坍塌”,导致生成的超分辨图像趋近于同一解;基于流的方法需要极大的模型参数和计算开销。如何对同一张低分辨图像生成与其一致的多个高质量的高分辨图像同时避免较大的计算开销是现有技术中并没有解决和实现的。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于扩散模型的单帧图像超分辨处理方法,可对同一张低分辨图像,生成与其一致特征的多张高分辨图像。
本发明的目的是通过以下技术方案来实现的:
1)建立超分辨扩散模型的扩散过程和条件噪声预测器εθ
2)将已知的高低分辨图像数据集
Figure BDA0003046674060000011
输入到超分辨扩散模型的条件噪声预测器εθ,其中IH为高分辨图像,IL为其对应的低分辨图像,k表示高低分辨图像对的序号,K为高低分辨图像数据集P中高低分辨图像对的总数;利用超分辨扩散模型的扩散过程对条件噪声预测器εθ进行训练,获得预训练后的条件噪声预测器εθ
3)由建立超分辨扩散模型的扩散过程反向作为超分辨扩散模型的逆过程,待处理的低分辨图像输入到超分辨扩散模型的逆过程中,获得残差预测图像
Figure BDA0003046674060000021
即待处理的低分辨图像对应的高分辨图像。
4)残差预测图像
Figure BDA0003046674060000022
与经过上采样操作的低分辨图像up(IL)相加,得到预测的超分辨图像ISR,其中up()为上采样操作,IL为原始待处理的低分辨图像。
高低分辨图像数据集是由很多已知的高低分辨图像对构成,每一对高低分辨图像主要是由高分辨图像IH及其对应的低分辨图像up(IL)组成,高低分辨图像对
Figure BDA0003046674060000023
高分辨图像对应的低分辨图像是与高分辨图像在同一场景下或者针对同一目标所采集的分辨率不同的图像,可以是由高分辨图像进行分辨率压缩处理获得或者采用不同设备的拍摄获得;高分辨图像的分辨率较高,低分辨图像的分辨率较低。
所述的超分辨扩散模型的扩散过程为:将经过上采样操作的低分辨图像up(IL)与高分辨图像IH之间的残差图I0作为输入,计算残差图像I0=IH-up(IL),残差图I0经过连续依次进行的T步扩散步被逐步添加高斯噪声,T=1,2,3…,各扩散步添加不同的高斯噪声,输出含有噪声的残差图It,t=1,2,…,T,经T步扩散步累积后,清晰的残差图I0变为噪声图像IT,最后的扩散步输出获得映射到隐空间的噪声图像。
结合扩散过程对所述的条件噪声预测器εθ进行训练,训练步骤为:
1)输入高低分辨图像数据集
Figure BDA0003046674060000024
和扩散步的总数T,其中IH为高分辨图像,IL为其对应的低分辨图像,k表示高低分辨图像对的序号,K为高低分辨图像数据集P中高低分辨图像对的总数;
2)随机初始化条件噪声预测器εθ的神经网络参数;
3)计算不含噪声的残差图
Figure BDA0003046674060000025
其中up()为上采样操作;
4)条件噪声预测器εθ的低分编码器对低分辨图像
Figure BDA0003046674060000026
进行编码获得低分辨信息
Figure BDA0003046674060000027
5)根据低分辨信息
Figure BDA0003046674060000028
残差图
Figure BDA0003046674060000029
和扩散步的总数T对以下损失函数进行梯度下降运算,优化更新条件噪声预测器εθ的神经网络参数:
Figure BDA00030466740600000210
其中,|| ||表示L1范式,t为整数集合{1,2,…,T}中的整数,
Figure BDA00030466740600000211
为均值为0方差为I的正态分布,~表示服从,ε为服从
Figure BDA0003046674060000031
的矩阵,
Figure BDA0003046674060000032
为高低分辨数据集P中第k对高低分辨图像之间的残差图像经过t步扩散步输出的残差图;
6)循环3)至5)步,迭代k,更新神经网络参数,每次循环更新条件噪声预测器εθ的神经网络参数,更新后的神经网络参数作为下一次循环时条件噪声预测器εθ的神经网络参数,直到损失函数收敛,条件噪声预测器εθ训练完成。
所述的超分辨扩散模型的逆过程为:
逆过程将高斯噪声矩阵
Figure BDA0003046674060000033
逐步映射为不含噪声的残差预测图像
Figure BDA0003046674060000034
逆过程的输入为各个扩散步输出的噪声图像、低分辨图像IL和扩散步的总数T,逆过程中的逆步骤的数量和扩散过程中的扩散步的数量相同,逆过程中迭代进行T次逆步骤,处理顺序和扩散过程的处理顺序颠倒。
逆过程迭代进行T步,迭代序号t与扩散过程相反,即t=T,T-1,…,1,第t步逆步骤预测第t步扩散步添加的高斯噪声,再由预测的高斯噪声计算残差预测图像
Figure BDA0003046674060000035
具体地,初始逆步骤(第T步逆步骤)将高斯噪声矩阵
Figure BDA0003046674060000036
低分辨图像IL、当前逆步骤的时间特征矩阵Te共同输入到条件噪声预测器εθ中,之后的每一个逆步骤将上一逆步骤输出的残差预测图像
Figure BDA0003046674060000037
低分辨图像IL、当前逆步骤的时间特征矩阵te共同输入到条件噪声预测器εθ中;条件噪声预测器εθ预测获得相应扩散步添加的高斯噪声;由预测的高斯噪声再计算获得下一逆步骤的残差预测图像
Figure BDA0003046674060000038
经T次逆步骤结束后得到最终残差预测图像
Figure BDA0003046674060000039
经过T次去噪,初始输入逆过程的高斯噪声矩阵
Figure BDA00030466740600000310
逐渐转变为清晰的残差预测图像
Figure BDA00030466740600000311
如图3所示,所述的条件噪声预测器εθ为一神经网络,主要由低分编码器和噪声预测器组成:
(1)低分辨图像IL输入到低分编码器,经过编码获得低分辨图像信息Ie,后续将低分辨图像信息Ie输入噪声预测器中作为噪声预测器的隐藏特征,这样可以更好地让条件噪声预测器准确预测扩散过程中每一步扩散步添加的高斯噪声;
(2)噪声预测器为一基于U-Net的神经网络,主要由一个第一卷积模块、连续的四个收缩路径、一个中心模块、连续的四个扩张路径、一个第二卷积模块依次连接构成;
每个收缩路径主要由连续的两个残差模块和一个下采样层依次连接组成;中心模块由连续的两个残差模块组成;每个扩张路径主要由连续的两个残差模块和一个上采样层依次连接组成,收缩路径、扩张路径和中心模块的残差模块结构均相同,每个残差模块主要由连续的两个卷积模块组成,残差模块中第一个卷积模块的输出和当前第t步扩散步的时间特征矩阵te相加后再输入到第二个卷积模块中,残差模块的输入经连续两个卷积模块处理后的结果再与自身进行相加后输出作为残差模块的输出,收缩路径、扩张路径和中心模块中的每个残差模块中均输入当前第t步扩散步的时间特征矩阵te,均是采用这样的结构;收缩路径、扩张路径、中心模块的残差模块中的卷积模块以及第一卷积模块、第二卷积模块结构均相同,均由一个二维卷积层和Mish激活层依次连接组成;
条件噪声预测器εθ的输入为残差预测图像
Figure BDA0003046674060000041
残差预测图像
Figure BDA0003046674060000042
首先进入第一卷积模块,第一卷积模块的输出和低分编码器输出的低分辨图像信息Ie进行相加后再输入到第一个收缩路径中,四个收缩路径依次连接,第一个收缩路径的输出和第三个扩张路径的输出相加后再输入到第四个扩张路径,第二个收缩路径的输出和第二个扩张路径的输出相加后再输入到第三个扩张路径,第三个收缩路径的输出和第一个扩张路径的输出相加后再输入到第二个扩张路径,第四个收缩路径的输出和中心模块的输出相加后再输入到第一个扩张路径。t通过嵌入变换为时间特征矩阵te后添加到收缩路径、中心路径和扩张路径的每一残差模块。本发明的相加是指将两个结果的逐像素相加。条件噪声预测器的输出为预测的每一步扩散步添加的噪声
Figure BDA0003046674060000043
其中,卷积模块由一个二维卷积层和Mish激活层依次组成,含有c通道的噪声残差图像It经过此卷积模块后,通道数不变;经过第一个收缩路径的隐藏特征通道数仍为c,经过第二个收缩路径的隐藏特征通道数变为2c,经过第三个收缩路径的隐藏特征通道数不变,经过第四个收缩路径的隐藏特征通道数变为4c;经过中心模块的隐藏特征的通道数不变;经过第一、二、三、四个扩张路径的隐藏特征的通道数依次为4c、2c、2c、c;经过最后一个卷积模块的隐藏特征的通道数不变,最终输出c通道的预测噪声。
本发明的有益效果:
本发明可对同一张低分辨图像,生成与其一致特征的多张超分辨图像,每张超分辨图像含有丰富的纹理和自然性,都达到了很好的效果。
相比于面向PSNR的前馈超分辨神经网络,本发明避免了过度平滑;相比于基于GAN的超分辨方法,本发明避免了“模式崩塌”;相比于基于流的超分辨方法,本发明模型参数少。因此,本发明方法同时实现和解决了:避免了面向PSNR的前馈超分辨神经网络带来的过平滑问题、对抗生成网络(GAN)类方法导致的模式崩塌问题以及在较少的模型参数和时间开销下提高了重建性能。
附图说明
图1为本发明方法的超分辨扩散模型示意图;
图2为本发明方法的每一步扩散步骤运算流程图;
图3为本发明方法的条件噪声预测器εθ的训练流程图;
图4为本发明方法的条件噪声预测器εθ逻辑框架图;
图5为本发明的使用流程图;
图6为本发明实例中由一张低分辨人脸图像生成多张8×超分辨图像的效果图;
图7为本发明实例中人脸图像8×超分辨效果与其他方法的对比图;
图8为本发明实例中自然图像4×超分辨效果与其他方法的对比图;
表1为本发明和其他超分辨方法在8×人脸图像上的主客观评价对比结果图;
表2为本发明和其他超分辨方法在4×自然图像上的主客观评价对比结果图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本发明的实施例及其实施过程如下:
1、如图1所示为本发明方法的超分辨扩散模型示意图,从右向左为本发明方法中的超分辨扩散模型的扩散过程,扩散过程循环执行T步扩散步,每一步扩散步向残差图I0添加高斯噪声,T步扩散步后,残差图I0转变为噪声图像IT
每一步扩散步的运算步骤如图2所示,具体为:
1.1、输入当前扩散步序号t,t={1,2,…,T};以及高低分辨图像之间的残差图I0=IH-up(IL),其中IH为高分辨图像,IL为低分辨图像,up()为上采样操作;
1.2、设定当前扩散步的高斯分布参数βt,设定方式如:在区间[0.001,0.02]内βt和扩散步的序号t成正比关系;
1.3、计算当前扩散步的扩散系数
Figure BDA0003046674060000051
s表示当前扩散步累乘运算中的序号;
1.4、计算当前扩散步输出的残差图It
Figure BDA0003046674060000052
其中,
Figure BDA0003046674060000053
为均值为零矩阵0、协方差为单位矩阵I的正态分布,~表示服从,ε为服从
Figure BDA0003046674060000054
的矩阵,t为{1,2,…,T}中的整数;
2、如图3所示为本发明方法中条件噪声预测器εθ的训练流程图,本发明的超分辨扩散模型中的条件噪声器是结合扩散过程训练的,步骤如下:
2.1、将扩散步的总数T和高低分辨图像数据集
Figure BDA0003046674060000055
输入条件噪声预测器εθ,其中IH为高分辨图像,IL为其对应的低分辨图像,k表示高低分辨图像对的序号,K为高低分辨图像数据集P中高低分辨图像对的总数;
2.2、随机初始化条件噪声预测器的神经网络参数;
2.3、计算不含噪声的残差图
Figure BDA0003046674060000061
其中up()为上采样操作;2.4、低分解码器编码低分辨图像
Figure BDA0003046674060000062
为低分辨信息
Figure BDA0003046674060000063
2.5、从整数集合{1,2,…,T}中选取某一整数t,t经过嵌入变换变为te
2.6、对以下损失函数进行梯度下降运算:
Figure BDA0003046674060000064
其中,|| ||表示L1范式,It为第t步扩散步输出的残差图,
Figure BDA0003046674060000065
为第t步扩散步的扩散系数,
Figure BDA0003046674060000066
为均值为零矩阵0、协方差为单位矩阵I的正态分布,~表示服从,ε为服从
Figure BDA0003046674060000067
的矩阵;
2.6、当k=1,2…,K,循环2.3~2.5,每次循环更新条件噪声预测器εθ的神经网络参数,更新后的神经网络参数作为下一次循环时条件噪声预测器εθ的神经网络参数,直到损失函数收敛,条件噪声预测器εθ训练完成。
3.如图4所示,为本发明方法中条件噪声预测器εθ的模型框架图。所述的条件噪声预测器εθ由低分编码器和噪声预测器组成:
1)低分编码器为一基于RRDB的低分编码神经网络,用于编码低分辨图像IL信为低分辨信息Ie
2)噪声预测器为一神经网络,由一个第一卷积模块、连续的四个收缩路径、一个中心模块、连续的四个扩张路径、一个第二卷积模块依次连接构成。其中,第一卷积模块和第二卷积模块结构相同,均由一个二维卷积层和一个Mish层组成;每个收缩路径由连续的两个残差模块和一个下采样层依次连接组成;中心模块由连续的两个残差模块组成;每个扩张路径主要由连续的两个残差模块和一个上采样层依次连接组成。收缩路径、中心模块和扩张路径的残差模块结构均相同,每个残差模块由连续的两个卷积模块组成,残差模块中第一个卷积模块的输出和当前第t步扩散步的时间特征矩阵te相加后再输入到第二个卷积模块中,残差模块的输入经连续两个卷积模块处理后的结果再与自身进行相加,为残差模块的输出。收缩路径、中心模块、扩张路径的残差模块中的卷积模块与第一卷积模块、第二卷积模块结构均相同。
第一卷积模块的输出和低分编码器输出的低分辨图像信息Ie进行相加后再输入到第一个收缩路径中;第一个收缩路径的输出一方面输入第二个收缩路径,另一方面同时和第三个扩张路径的输出相加后再输入到第四个扩张路径;第二个收缩路径的输出一方面输入到第三个收缩路径,另一方面同时和第二个扩张路径的输出相加后再输入到第三个扩张路径;第三个收缩路径的输出一方面输入第四个收缩路径,另一方面同时和第一个扩张路径的输出相加后再输入到第二个扩张路径;第四个收缩路径的输出一方面输入中心模块,另一方面同时和中心模块的输出相加后再输入到第一个扩张路径。
在逆过程中使用条件噪声预测器εθ时,当t=T时,条件噪声预测器的输入为当前的逆步骤的序号T、高斯噪声矩阵
Figure BDA0003046674060000071
和三通道的低分辨图像IL;当t=T-1,…,1时,网络的输入为当前的扩散步数t、上一逆步骤的残差预测图像
Figure BDA0003046674060000072
和三通道的低分辨图像IL。首先,IL被低分编码器编码为低分辨信息Ie;第二,
Figure BDA0003046674060000073
经过卷积模块变为隐藏特征;在卷积模块后,Ie
Figure BDA0003046674060000074
的隐藏特征融合输入噪声预测器的后续模块;t通过嵌入变换为隐藏特征te添加到收缩路径、中心模块和扩张路径的每一模块。
在发明的上述处理中,含有c通道的噪声残差预测图像
Figure BDA0003046674060000075
经过卷积模块后,通道数不变;经过第一个收缩路径的隐藏特征通道数仍为c,经过第二个收缩路径的隐藏特征通道数变为2c,经过第三个收缩路径的隐藏特征通道数不变,经过第四个收缩路径的隐藏特征通道数变为4c;经过中心模块的隐藏特征的通道数不变;经过第一、二、三、四个扩张路径的隐藏特征的通道数依次为4c、2c、2c、c;经过最后一个卷积模块的隐藏特征的通道数不变,条件噪声预测器最终输出c通道的预测噪声
Figure BDA0003046674060000076
4.如图5所示为本发明的使用流程图。当条件噪声训练器εθ训练完成后,首先执行逆过程,逆过程如图1从左向右进行,经过T步逆步骤将高斯噪声矩阵
Figure BDA0003046674060000077
转变为残差预测图像
Figure BDA0003046674060000078
而后执行最终步输出超分辨图像。待测时,本发明的基于扩散模型的单图像超分辨方法具有如下使用步骤:
4.1、将低分辨图像IL、总扩散步骤T和服从标准正态分布
Figure BDA0003046674060000079
的高斯噪声矩阵
Figure BDA00030466740600000710
输入预训练的条件噪声预测器εθ
4.2、低分编码器编码IL为隐藏层Ie
4.3、通过嵌入变换计算t的时间特征矩阵te
4.4、利用预训练的条件噪声预测器εθ预测扩散过程中每一步添加的噪声
Figure BDA00030466740600000711
4.5、计算当前逆步骤获得的残差预测图像
Figure BDA00030466740600000712
其中,
Figure BDA00030466740600000713
为上一逆步骤输出的残差预测图像,
Figure BDA00030466740600000714
表示第t步扩散步的方差参数:当
Figure BDA0003046674060000081
Z是随机高斯矩阵。
Figure BDA0003046674060000082
为高斯噪声矩阵:当
Figure BDA0003046674060000083
Figure BDA0003046674060000084
当t=1,z=0;
Figure BDA0003046674060000085
表示第t步扩散步的扩散系数,βt为第t步扩散步的高斯分布参数;
4.6、从t=T,T-1,…,1循环T次3)4)5)步骤,迭代更新
Figure BDA0003046674060000086
输出最终的残差预测图像
Figure BDA0003046674060000087
4.7、残差预测图像
Figure BDA0003046674060000088
加上采样的低分辨图像up(IL)为预测的超分辨图像,即
Figure BDA0003046674060000089
5、实施例的超分辨效果:
对于4.1,对于同一张低分辨图片IL,输入不同的高斯噪声矩阵
Figure BDA00030466740600000811
最终输出的超分辨图像不同,但都与低分辨图像的特征一致。本发明实例中由一张低分辨人脸图像生成多张8×超分辨图像的效果如图6所示,左上角为低分辨人脸图像,左下角为高分辨人脸原图,a~d依次为低分辨人脸图像的多个超分辨结果,每张超分辨图像之间有细微的五官差别,如:a的鼻子较扁,c的鼻子较挺拔;a~d都与低分辨图像有一致的相貌,能够看出与低分辨图像为同一人。
本发明实例中人脸图像8×超分辨效果与其他方法的对比如图7所示,从左到右每列分别对应低分辨图像、RRDB网络效果图、ESRGAN效果图、ProgFSR效果图、SRFlow效果图、本发明效果图和高分辨原图,相比于RRDB和SRFlow本发明可恢复出丰富的人脸特征,相较于ESRGAN和ProgFSR,本发明避免了伪纹理(女子头发上的网格和男子头顶的条纹);
本发明实例中自然图像4×超分辨效果与其他方法的对比如图8所示,从左到右每列分别对应低分辨图像、ESDR效果图、RRDB效果图、ESRGAN效果图、RankSRGAN效果图、SRFlow效果图、本发明效果图和高分辨原图,本发明可重建出更自然的景物,如动物绒毛和叶子纹理,(和其他方法相比,只有本发明恢复出和原图一致的黄叶上棕色的条纹,ESRGAN和RankSRGAN误恢复为斑点);
本发明和其他超分辨方法在8×人脸图像上的主客观评价对比如下表1:
表1本发明与其他超分辨方法在8×人脸图像上的主客观评价对比
Figure BDA00030466740600000810
Figure BDA0003046674060000091
由于ProgFSR采用了和其他超分辨方法不同的下采样核,故分组进行评价,评价参数分别为PSNR、SSIM、LPIPS、LR-PSNR和σ(象征解的多样性),PSNR、SSIM、LR-PSNR和σ的数值越高,超分辨效果越好,LPIPS的数值越低,超分辨效果越好;
本发明和其他超分辨方法在4×自然图像上的主客观评价对比如下表1:
表2本发明与其他超分辨方法在4×自然图像上的主客观评价对比
方法 PSNR↑ SSIM↑ LPIPS↓ LR-PSNR↑ σ↑
Bicubic 26.70 0.77 0.409 38.70 0.00
EDSR 28.98 0.83 0.270 54.89 0.00
RRDB 29.44 0.84 0.253 49.20 0.00
RankSRGA 26.55 0.75 0.128 42.33 0.00
ESRGAN 26.22 0.75 0.124 39.03 0.00
SRFlow 27.09 0.76 0.120 49.96 5.14
本发明 27.41 0.79 0.136 55.21 6.09
评价参数分别为PSNR、SSIM、LPIPS、LRPSNR和σ(象征解的多样性),PSNR、SSIM、LR-PSNR和σ的数值越高,超分辨效果越好,LPIPS的数值越低,超分辨效果越好。

Claims (4)

1.一种基于扩散模型的单帧图像超分辨处理方法,其特征在于:该方法包括以下步骤:
1)建立超分辨扩散模型的扩散过程和条件噪声预测器εθ
2)将高低分辨图像数据集
Figure FDA0003680573810000011
输入到超分辨扩散模型的条件噪声预测器εθ,其中IH为高分辨图像,IL为其对应的低分辨图像,k表示高低分辨图像对的序号,K为高低分辨图像数据集P中高低分辨图像对的总数;利用超分辨扩散模型的扩散过程对条件噪声预测器εθ进行训练,获得预训练后的条件噪声预测器εθ
3)待处理的低分辨图像输入到超分辨扩散模型的逆过程中,获得残差预测图像
Figure FDA0003680573810000012
4)残差预测图像
Figure FDA0003680573810000013
与经过上采样操作的低分辨图像up(IL)相加,得到预测的超分辨图像,其中up()为上采样操作,IL为原始待处理的低分辨图像;
所述的条件噪声预测器εθ主要由低分编码器和噪声预测器组成:
(1)低分辨图像IL输入到低分编码器,经过编码获得低分辨图像信息Ie
(2)噪声预测器主要由一个第一卷积模块、连续的四个收缩路径、一个中心模块、连续的四个扩张路径、一个第二卷积模块依次连接构成;
每个收缩路径主要由连续的两个残差模块和一个下采样层依次连接组成;中心模块由连续的两个残差模块组成;每个扩张路径主要由连续的两个残差模块和一个上采样层依次连接组成,每个残差模块主要由连续的两个卷积模块组成,残差模块中第一个卷积模块的输出和当前第t步扩散步的时间特征矩阵te相加后再输入到第二个卷积模块中,残差模块的输入经连续两个卷积模块处理后的结果再与自身进行相加后输出作为残差模块的输出;收缩路径、扩张路径、中心模块的残差模块中的卷积模块以及第一卷积模块、第二卷积模块结构均相同,均由一个二维卷积层和Mish激活层依次连接组成;
条件噪声预测器εθ的输入为残差预测图像
Figure FDA0003680573810000014
残差预测图像
Figure FDA0003680573810000015
首先进入第一卷积模块,第一卷积模块的输出和低分编码器输出的低分辨图像信息Ie进行相加后再输入到第一个收缩路径中,第一个收缩路径的输出和第三个扩张路径的输出相加后再输入到第四个扩张路径,第二个收缩路径的输出和第二个扩张路径的输出相加后再输入到第三个扩张路径,第三个收缩路径的输出和第一个扩张路径的输出相加后再输入到第二个扩张路径,第四个收缩路径的输出和中心模块的输出相加后再输入到第一个扩张路径;条件噪声预测器的输出为预测的每一步扩散步添加的噪声
Figure FDA0003680573810000021
2.根据权利要求1所述的一种基于扩散模型的单帧图像超分辨处理方法,其特征在于:所述的超分辨扩散模型的扩散过程为:将经过上采样操作的低分辨图像up(IL)与高分辨图像IH之间的残差图I0作为输入,残差图I0经过连续依次进行的T步扩散步被添加高斯噪声,T=1,2,3…,各扩散步添加不同的高斯噪声,输出含有噪声的残差图It,t=1,2,…,T,经T步扩散步后,残差图I0变为噪声图像IT
3.根据权利要求1所述的一种基于扩散模型的单帧图像超分辨处理方法,其特征在于:结合扩散过程对所述的条件噪声预测器εθ进行训练,训练步骤为:
1)输入高低分辨图像数据集
Figure FDA0003680573810000022
和扩散步的总数T,其中IH为高分辨图像,IL为其对应的低分辨图像,k表示高低分辨图像对的序号,K为高低分辨图像数据集P中高低分辨图像对的总数;
2)随机初始化条件噪声预测器εθ的神经网络参数;
3)计算不含噪声的残差图
Figure FDA0003680573810000023
其中up()为上采样操作;
4)条件噪声预测器εθ的低分编码器对低分辨图像
Figure FDA0003680573810000024
进行编码获得低分辨信息
Figure FDA0003680573810000025
5)根据低分辨信息
Figure FDA0003680573810000026
残差图
Figure FDA0003680573810000027
和扩散步的总数T对以下损失函数进行梯度下降运算,优化更新条件噪声预测器εθ的神经网络参数:
Figure FDA0003680573810000028
其中,|| ||表示L1范式,t为整数集合{1,2,…,T}中的整数,
Figure FDA0003680573810000029
为均值为0方差为I的正态分布,~表示服从,ε为服从
Figure FDA00036805738100000210
的矩阵,
Figure FDA00036805738100000211
为高低分辨数据集P中第k对高低分辨图像之间的残差图像经过t步扩散步输出的残差图;
6)循环3)至5)步,每次循环更新条件噪声预测器εθ的神经网络参数,更新后的神经网络参数作为下一次循环时条件噪声预测器εθ的神经网络参数,直到损失函数收敛,条件噪声预测器εθ训练完成。
4.根据权利要求1所述的一种基于扩散模型的单帧图像超分辨处理方法,其特征在于:所述的超分辨扩散模型的逆过程为:
逆过程迭代进行T步,迭代序号t与扩散过程相反,即t=T,T-1,…,1,第t步逆步骤预测第t步扩散步添加的高斯噪声,再由预测的高斯噪声计算残差预测图像
Figure FDA00036805738100000212
具体地,初始逆步骤将高斯噪声矩阵
Figure FDA00036805738100000213
低分辨图像IL、当前逆步骤的时间特征矩阵Te共同输入到条件噪声预测器εθ中,之后的每一个逆步骤将上一逆步骤输出的残差预测图像
Figure FDA0003680573810000031
低分辨图像IL、当前逆步骤的时间特征矩阵te共同输入到条件噪声预测器εθ中;条件噪声预测器εθ预测获得对应扩散步添加的高斯噪声;由预测的高斯噪声再计算获得下一逆步骤的残差预测图像
Figure FDA0003680573810000032
经T次逆步骤结束后得到最终残差预测图像
Figure FDA0003680573810000033
CN202110474006.2A 2021-04-29 2021-04-29 一种基于扩散模型的单帧图像超分辨处理方法 Active CN113177882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110474006.2A CN113177882B (zh) 2021-04-29 2021-04-29 一种基于扩散模型的单帧图像超分辨处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110474006.2A CN113177882B (zh) 2021-04-29 2021-04-29 一种基于扩散模型的单帧图像超分辨处理方法

Publications (2)

Publication Number Publication Date
CN113177882A CN113177882A (zh) 2021-07-27
CN113177882B true CN113177882B (zh) 2022-08-05

Family

ID=76925372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110474006.2A Active CN113177882B (zh) 2021-04-29 2021-04-29 一种基于扩散模型的单帧图像超分辨处理方法

Country Status (1)

Country Link
CN (1) CN113177882B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920013B (zh) * 2021-10-14 2023-06-16 中国科学院深圳先进技术研究院 一种基于超分辨率的小图像多目标检测方法
CN114757830B (zh) * 2022-05-06 2023-09-08 西安电子科技大学 基于通道-扩散双分支网络的图像超分辨率重建方法
CN114820398B (zh) * 2022-07-01 2022-11-04 北京汉仪创新科技股份有限公司 基于扩散模型的图片字体替换方法、系统、设备和介质
US20240087179A1 (en) * 2022-09-09 2024-03-14 Nec Laboratories America, Inc. Video generation with latent diffusion probabilistic models
CN117078510B (zh) * 2022-11-16 2024-04-30 电子科技大学 一种潜在特征的单幅图像超分辨重建方法
CN115965791B (zh) * 2022-12-19 2024-09-27 北京字跳网络技术有限公司 图像生成方法、装置及电子设备
WO2024212160A1 (en) * 2023-04-13 2024-10-17 Robert Bosch Gmbh Method and apparatus for diffusion model
CN116725560B (zh) * 2023-06-27 2024-05-10 深圳扬奇医芯智能科技有限公司 一种基于空间扩散模型的低剂量dsa血管造影方法
CN116542292B (zh) * 2023-07-04 2023-09-26 腾讯科技(深圳)有限公司 图像生成模型的训练方法、装置、设备及存储介质
CN116645260B (zh) * 2023-07-27 2024-02-02 中国海洋大学 一种基于条件扩散模型的数字水印攻击方法
CN117094888B (zh) * 2023-07-31 2024-06-28 西北工业大学深圳研究院 图像超分辨方法、图像超分辨装置、电子设备及存储介质
CN118781453B (zh) * 2024-09-12 2024-12-06 星凡星启(成都)科技有限公司 一种扩散模型训练方法、装置、设备、介质以及视频生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492249A (zh) * 2018-02-08 2018-09-04 浙江大学 基于小卷积递归神经网络的单帧超分辨重建方法
CN110458759A (zh) * 2019-08-16 2019-11-15 杭州微算智能科技有限公司 一种基于edsr单图超分辨率重建方法
WO2020126023A1 (en) * 2018-12-21 2020-06-25 Huawei Technologies Co., Ltd. Image processor

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270644B (zh) * 2020-10-20 2024-05-28 饶金宝 基于空间特征变换和跨尺度特征集成的人脸超分辨方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492249A (zh) * 2018-02-08 2018-09-04 浙江大学 基于小卷积递归神经网络的单帧超分辨重建方法
WO2020126023A1 (en) * 2018-12-21 2020-06-25 Huawei Technologies Co., Ltd. Image processor
CN110458759A (zh) * 2019-08-16 2019-11-15 杭州微算智能科技有限公司 一种基于edsr单图超分辨率重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付龙等.基于扩散的自适应超分辨率重建.《现代电子技术》.2017,(第10期), *
王琳琳等.基于修正点扩散函数的超分辨率复原算法.《吉林大学学报(信息科学版)》.2017,(第01期), *

Also Published As

Publication number Publication date
CN113177882A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN111754403B (zh) 一种基于残差学习的图像超分辨率重构方法
CN110120011B (zh) 一种基于卷积神经网络和混合分辨率的视频超分辨方法
Batson et al. Noise2self: Blind denoising by self-supervision
Zhang et al. Image restoration: From sparse and low-rank priors to deep priors [lecture notes]
CN106952228B (zh) 基于图像非局部自相似性的单幅图像的超分辨率重建方法
Ren et al. Single image super-resolution using local geometric duality and non-local similarity
CN107274347A (zh) 一种基于深度残差网络的视频超分辨率重建方法
CN104657962B (zh) 基于级联线性回归的图像超分辨重建方法
CN108280804B (zh) 一种多帧图像超分辨率重建方法
CN112150354A (zh) 联合轮廓增强与去噪统计先验的单幅图像超分辨率方法
CN107341776A (zh) 基于稀疏编码与组合映射的单帧超分辨率重建方法
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN106600533B (zh) 单图像超分辨率重建方法
CN105590296B (zh) 一种基于双字典学习的单帧图像超分辨率复原方法
CN108460723B (zh) 基于邻域相似性的双边全变分图像超分辨率重建方法
Mikaeli et al. Single-image super-resolution via patch-based and group-based local smoothness modeling
Kang et al. Efficient swin transformer for remote sensing image super-resolution
CN110569763B (zh) 一种用于细粒度人脸识别的眼镜去除方法
CN114926883B (zh) 一种满足多种降质模型的人脸图像处理方法
CN113628114B (zh) 一种双通道稀疏编码的图像超分辨率重建方法
CN119762378A (zh) 一种基于NAFA-DIKNet的低质量医学图像无监督盲超分去噪方法
CN106651770B (zh) 基于拉普拉斯范数正则化的多光谱超分辨成像重构方法
CN113793269B (zh) 基于改进邻域嵌入与先验学习的超分辨率图像重建方法
CN112529826B (zh) 截断式张量贝叶斯多光谱图像压缩感知重构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant