CN116681584A

CN116681584A - 一种多级扩散图像超分辨算法

Info

Publication number: CN116681584A
Application number: CN202310354266.5A
Authority: CN
Inventors: 付强; 姚汉群; 才华; 王伟刚; 马智勇; 刘广文
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-09-01

Abstract

本发明是一种多级扩散图像超分辨算法，属于计算机视觉技术领域；包括以下步骤：首先进行数据预处理，从原始高分辨率图像创建训练数据集并生成低分辨率图像。接下来，选择U‑Net作为主要网络结构，并定义级联扩散模型。在训练阶段，模型逐步上采样图像，优化高分辨率重建，并根据损失值更新权重。迭代终止后，使用验证集评估性能，最后在测试集上评估超分辨率性能。这种融合设计使其在处理复杂场景和细节恢复方面具有显著优势。此外，通过结合级联的思想和预处理退化模式，本算法能够在保持较高性能的同时，生成更为真实和自然的高分辨率图像。这使得本算法在图像超分辨率领域具有较大的应用潜力。

Description

一种多级扩散图像超分辨算法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种多级扩散图像超分辨算法。

背景技术

超分辨率(Super-Resolution，SR)是一种计算机视觉技术，旨在通过分析和处理低分辨率图像，提高其分辨率和细节，从而生成更高质量的高分辨率图像。超分辨率技术在多个领域具有广泛的应用价值，包括卫星图像处理、医学成像、视频处理和恢复等。随着深度学习和神经网络技术的快速发展，超分辨率领域取得了显著的进展。

随着深度学习的兴起，卷积神经网络(CNN)在图像超分辨率领域取得了显著的进展。SRCNN是第一个使用深度神经网络进行超分辨率的方法。自SRCNN以来，许多基于CNN的超分辨率方法相继被提出，如VDSR、ESPCN、EDSR和RCAN等。这些方法通过学习大量的低分辨率和高分辨率图像对，使得超分辨率性能得到了极大的提升。

近年来，生成对抗网络(GAN)在图像超分辨率领域也取得了重要的突破。GAN由生成器和判别器组成，生成器负责生成高分辨率图像，而判别器负责区分真实高分辨率图像和生成器生成的图像。这种对抗过程使得生成的高分辨率图像在感知质量方面取得了显著提升。SRGAN是第一个将生成对抗网络应用于图像超分辨率的方法，自SRGAN以来，许多基于GAN的超分辨率方法相继被提出，如ESRGAN、BigGAN等。

尽管深度学习在图像超分辨率领域取得了巨大成功，但仍然存在一些挑战。例如，如何处理实际应用中的多样化退化模式，如模糊、压缩、噪声等；如何在保持高性能的同时生成更为真实和自然的高分辨率图像；如何有效地处理大规模图像数据，减小计算复杂度和内存占用。

近年来，扩散模型在图像生成领域取得了显著的成果。相较于传统的深度学习方法，扩散模型表现出更高的性能、更强的泛化能力和鲁棒性。此外，扩散模型支持灵活的模型设计，可根据需求进行定制化优化，并能与其他图像处理方法(如生成对抗网络、卷积神经网络等)相结合，以进一步提升性能。总之，扩散模型为图像处理领域开辟了新的可能性，预示着在超分辨领域未来应用将具有更广阔的发展空间。

发明内容

本发明目的在于提供一种多级扩散图像超分辨算法，以解决上述背景技术中提到的技术问题。

为实现上述目的，本发明的一种多级扩散图像超分辨算法的具体技术方案如下：

扩散模型是一种基于随机过程的生成方法，通过在噪声图像上逐步去噪来生成目标图像。它的核心思想是对原始数据添加噪声，然后通过学习一个去噪模型来逆向恢复原始信号。扩散模型具有稳定的训练过程、较好的噪声鲁棒性和可控的生成过程。在各种图像生成任务中，扩散模型已经展示了令人瞩目的性能，包括图像超分辨率、去模糊和图像生成等。

扩散模型有着稳定的训练过程，通过条件扩散过程进行训练，这使得训练过程相对稳定，不易受到梯度消失或梯度爆炸的影响；并且在处理噪声时具有较好的鲁棒性，能够在图像重建过程中去除不同程度的噪声；以及可控的生成过程，通过逐步去噪的方式生成高分辨率图像，允许对生成过程进行更细粒度的控制。

扩散模型和生成对抗网络在图像超分辨率领域都取得了显著的成果，但它们各自具有一定的优缺点。实际应用中，可以根据具体需求和场景，选择合适的方法或将二者结合以实现最佳性能。

一种多级扩散图像超分辨率算法，包括以下步骤，且以下步骤顺次进行：

步骤S1、数据预处理阶段

首先从原始高分辨率图像创建训练数据集，为生成具有不同退化模式的低分辨率图像，应用高阶退化模块，下采样高分辨率图像以生成低分辨率图像；

实际应用中的低分辨率图像，这些图像通常受到噪声、模糊、压缩等多种退化现象的影响。在训练过程中，为了模拟真实世界中的图像退化，本发明使用一种模拟退化过程来生成训练数据，具体如图2所示，将待处理图像传入高阶退化模块后，分别经历第一次退化，第二次退化以及噪声条件增加三个部分。其中，第一次退化包括模糊，下采样，压缩三个步骤；第二次退化包括模糊，下采样，图像压缩与sinc滤波以及第二次下采样四个步骤；噪声条件增加包括上采样与添加噪声两个步骤。

应用模糊核：将不同类型和参数的模糊核应用于高分辨率图像，模拟图像的模糊效果；

下采样：通过下采样高分辨率图像，进行双三次插值，生成低分辨率图像；

添加噪声：向下采样后的图像中添加不同类型的噪声，以模拟实际场景中的噪声干扰；

图像压缩：对低分辨率图像进行有损压缩，模拟实际应用中的图像压缩效果；

通过这种模拟退化过程，在训练时考虑真实世界的退化模式，从而在处理实际低分辨率图像时表现出更好的性能。

步骤S2、选择U-Net作为扩散模型主要网络结构，适用于每个模型。定义编码器和解码器，以及跳跃连接；定义级联扩散模型；构建多个扩散模型，分别负责处理不同分辨率的图像；

U-Net是一种常用于图像分割和超分辨率等任务的卷积神经网络结构，因为其具有强大的特征捕捉能力和跳跃连接结构，能有效地进行去噪任务并保留图像的细节信息，所以选作扩散模型的训练网络。在本算法中，U-Net作为基础网络结构，负责从低分辨率图像中提取特征并生成高分辨率图像。

图3为本发明的网络结构，图中噪声等级编码为：给定时间步T的固定预算，从分段均匀分布中采样连续噪声等级具体来说，定义T的区间(l_i-1，l_i)，其中l为区间端点，当i＞0时，和然后，为了采样连续的噪声等级随机选取一个区间(l_k-1，l_k)，采样

将初始估计图像x_t和原始低分辨率图像y传入U-Net网络，U-Net网络包括下采样阶段与上采样阶段以及它们之间的跳跃连接。其中，上下采样部分包括卷积层与残差模块。在上下采样阶段，包括多次的卷积处理与残差处理；将尺寸相对应的特征图连接起来即为跳跃连接，这些跳跃连接将下采样阶段中捕获的低级特征直接传递到上采样阶段，有助于保留更多的细节信息；将均匀采样得到的噪声等级编码分别按尺度传入残差模块，最终以估计出当前图像的噪声ε。

网络中使用残差模块如图4所示，首先对输入进行激活函数处理，然后进行上/下采样和卷积操作，并将其与经过激活函数处理和全连接层处理的嵌入噪声相连接。接着，再次进行激活函数处理、随机失活层处理和卷积操作。最后，将这个输出与初始输入相加，得到最终的输出。

通过使用这些具有残差连接的构建模块，使模型能够有效地训练，并生成具有高保真度的自然图像。这些残差块有助于在捕捉图像的多样性和细节方面取得更好的性能。

步骤S3、训练

在训练过程中，首先对最低分辨率的图像应用第一个扩散模型，然后通过超分辨率扩散模型级联，逐步上采样图像并添加更高分辨率细节，计算生成的高分辨率图像与真实图像的损失，反向传播以更新网络权重，每个迭代步骤中，网络优化高分辨率图像重建，生成新的高分辨率图像并在下一迭代中继续优化，根据固定迭代次数或动态停止条件结束训练；

相较于主流超分辨率算法中的GAN，扩散模型具有稳定性、高采样质量、显式似然和无需判别器等优势。避免对抗性训练降低了训练不稳定性风险。扩散模型在生成自然、连贯图像方面表现优异。直接计算与优化似然简化了模型评估和选择，无需判别器减轻了复杂性和计算成本。

如图5所示为基础扩散模型结构，分为两个过程，正向传播过程和反向传播过程。级联是指多个基础扩散模型通过图6的方式相连接。第一个扩散模型实现的功能与第二/三个不一样，但基础结构是一样的。

在正向过程中，扩散模型由在T时间步的过程中逐渐破坏图像x₀～q(x₀)的前向过程定义：

其中x_t是在t时刻的观测值，x₀是初始的干净图像，∈_t是加性高斯噪声，β_t是在扩散过程的第t个时间步中添加的噪声方差，I是单位矩阵，α_t是噪声缩放因子(0≤α_t≤1)，随时间t递增。

以及反向过程p_θ(x₀)＝∫p_θ(x_0：T)dx_1：T，其中：

在前向过程中，超参数β_t被设置为可以使得x_T近似于标准正态分布，所以p(x_T)也被设置为标准正态先验。

反向过程通过优化证据下限，即ELBO(Evidence Lower Bound)，来训练以匹配正向过程的联合分布：

其中L_T(x₀)＝D_KL(q(x_T|x₀)||p_θ(x_T))。前向过程后验q(x_t-1|x_t，x₀)和边缘q(x_T|x₀)是高斯型的，并且ELBO中的KL散度可以以封闭形式计算。因此，可以通过对上式的随机项采取随机梯度步骤来训练扩散模型。综上所述，使逆过程参数化：

其中，α_t＝1-β_t，

正向传播过程是将高分辨率图像逐步降低至低分辨率的过程。在每个时间步，向图像添加噪声，使图像变得更模糊和嘈杂。这个过程模拟了图像在逐渐扩散的过程中逐步失去信息的现象。正向过程的目的是为逆向过程提供一个合适的起点，从而更容易地进行高分辨率图像的重建。

逆向传播过程是从低分辨率图像逐步重建高分辨率图像的过程。在每个时间步，根据已经学到的模型逐渐去除噪声，使图像变得更清晰和详细。重建阶段的目标是生成具有高质量和高分辨率的图像，同时保留图像的原始特征和细节。

在训练阶段，模型学习如何在正向传播过程中添加合适的噪声以及在逆向传播过程中去除噪声。模型通过大量训练数据进行训练，以了解不同类型的图像特征和结构。这使得模型能够在逆向过程中有效地重建高分辨率图像。

在生成阶段，首先利用正向过程将输入的高分辨率图像降低到较低分辨率。然后，使用训练好的模型在逆向过程中从低分辨率图像重建高分辨率图像。在这个过程中，模型逐渐去除噪声并恢复图像的细节。最终，我们得到一个具有高质量和高分辨率的生成图像。

级联模型利用多个扩散模型逐步提高图像分辨率。采用条件增强方法，在低分辨率输入上应用数据增强以提高样本质量。这降低了采样过程中的累积误差，实现高质量图像生成。

在级联模型的训练过程中，不同阶段的扩散模型分别负责处理不同分辨率的图像。通过将这些扩散模型级联，模型能够在每个阶段优化生成图像的细节，有助于降低采样过程中的累积误差，从而实现高质量的图像生成。

在这里，数据x₀有一个相关的条件信号c，在生成的情况下是一个标签，在超分辨率的情况下是一个低分辨率的图像；由于最终目标是学习一个条件模型p_θ(x₀|c)，因此将c作为反向过程的输入。数据和条件信号(x₀，c)从数据分布中联合取样，而正向过程保持不变。唯一需要做的修改是将c作为额外的输入注入到神经网络函数近似器中，即用μ_θ(x_t，t)代替μ_θ(x_t，t，c)，Σ_θ同理。

在本算法中，使用条件扩散模型来实现图像超分辨率。训练过程如下：

步骤S3-1、给定一个高分辨率的图像x₀和一个低分辨率的观测值x_t。

步骤S3-2、使用噪声反向传播方程来计算x_(t-1)，在此过程中，∈_t是从一个预测分布q(∈_t|x_t)中采样的。这个预测分布是由神经网络参数化的。

步骤S3-3、更新网络参数以最小化生成的x_(t-1)与原始高分辨率图像x₀之间的损失。

通过这种方式，扩散模型能够学习在不同时间节点上学习去噪函数，并实现高质量的图像超分辨率。

将超分辨率模型的训练分摊在不同尺度的图片上进行条件增强，意味着可以在训练时尝试不同的高斯噪声和高斯模糊强度。例如在32×32的图像上，于前向过程添加噪声；在64×64的图像上，随机应用高斯模糊；训练完成后，进行超参数搜索，以确定最佳的条件增强方案，使用找到的最佳条件增强方案，生成最终的高分辨率图像。

首先生成低分辨率样本，然后通过第一个扩散模型，将低分辨率样本逐级上采样为高分辨率样本。与此同时，将最开始的图片标签分别传入后续的模型中，使用对样本质量最重要的最有效的低分辨率的训练和采样数据，对每个特定的分辨率进行调整，以达到整个管道的最佳性能。

步骤S4、验证与测试

使用验证集在训练过程中评估网络性能；训练结束后，使用测试集评估最终模型；采用评估指标衡量超分辨率性能。

本算法使用的损失函数为均方误差(Mean Squared Error，MSE)，评价指标使用峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)及结构相似性(Structural SimilarityIndex，SSIM)。

均方误差(Mean Squared Error，MSE)作为损失函数，它衡量了生成的高分辨率图像与目标高分辨率图像之间的像素级差异。MSE损失函数的计算公式如下：

其中，x表示目标高分辨率图像，表示生成的高分辨率图像，N是像素数量，xi和分别是目标图像和生成图像的第i个像素值。

峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)是一种广泛使用的图像质量评价指标，用于衡量图像失真的程度。PSNR基于MSE计算，公式如下：

其中，MAX_x是图像的最大像素值。对于8位深度的图像，MAX_x＝255。

结构相似性指数(Structural Similarity Index Measure，SSIM)是一种基于图像的局部特征来评估图像质量的指标，它考虑了图像的亮度、对比度和结构信息。SSIM的计算公式如下：

其中，μ_x和分别是图像x和的均值，和分别是图像x和的方差，是图像x和的协方差，C₁和C₂是常数，用于避免分母为零。

MSE损失函数直接用于算法的训练过程，而PSNR和SSIM则通常用于评估和比较不同超分辨率方法的性能。

本发明的一种多级扩散图像超分辨算法具有以下优点：本算法基于目前最先进的扩散模型，引入级联的思想，并与性能更优越的高阶退化模型相结合，从而在图像重建中实现更高的精度和感知质量，可以更好地应对不同的退化模式，如模糊、噪声等。这种融合设计使其在处理复杂场景和细节恢复方面具有显著优势。

此外，通过结合级联的思想和预处理退化模式，本算法能够在保持较高性能的同时，生成更为真实和自然的高分辨率图像。这使得本算法在图像超分辨率领域具有较大的应用潜力。

附图说明

图1为本发明的一种多级扩散图像超分辨算法的流程图。

图2为本发明的图1为本发明的一种多级扩散图像超分辨算法的的高阶退化模块。

图3为本发明的一种多级扩散图像超分辨算法的网络结构。

图4为本发明的一种多级扩散图像超分辨算法的残差模块。

图5为本发明的一种多级扩散图像超分辨算法的扩散模型结构。

图6为本发明的一种多级扩散图像超分辨算法的扩散模型级联结构。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种多级扩散图像超分辨算法做进一步详细的描述。

步骤S1、数据预处理阶段

本发明使用一种模拟退化过程来生成训练数据，具体如图2所示，将待处理图像传入高阶退化模块后，分别经历第一次退化，第二次退化以及噪声条件增加三个部分。其中，第一次退化包括模糊，下采样，压缩三个步骤；第二次退化包括模糊，下采样，图像压缩与sinc滤波以及第二次下采样四个步骤；噪声条件增加包括上采样与添加噪声两个步骤。

图像压缩：对低分辨率图像进行有损压缩，模拟实际应用中的图像压缩效果。

步骤S2、选择U-Net作为扩散模型主要网络结构，适用于每个模型。定义编码器和解码器，以及跳跃连接，定义级联扩散模型；构建多个扩散模型，分别负责处理不同分辨率的图像；

在本算法中，U-Net作为基础网络结构，负责从低分辨率图像中提取特征并生成高分辨率图像。

将初始估计图像x_t和原始低分辨率图像y传入U-Net网络，U-Net网络包括下采样阶段与上采样阶段以及它们之间的跳跃连接。其中，上下采样部分包括卷积层与残差模块。在上下采样阶段，包括多次的卷积处理与残差处理；将尺寸相对应的特征图连接起来即为跳跃连接，这些跳跃连接将下采样阶段中捕获的低级特征直接传递到上采样阶段；将均匀采样得到的噪声等级编码分别按尺度传入残差模块，最终以估计出当前图像的噪声ε。

步骤S3、训练

如图5所示为基础扩散模型结构，分为两个过程，正向传播过程和反向传播过程。

以及反向过程p_θ(x₀)＝∫p_θ(x_0：T)dx_1：T，其中：

其中，α_t＝1-β_t，

步骤S4、验证与测试

其中x表示目标高分辨率图像，表示生成的高分辨率图像，N是像素数量，xi和分别是目标图像和生成图像的第i个像素值。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种多级扩散图像超分辨算法，其特征在于，包括以下步骤，且以下步骤顺次进行：

步骤S1、数据预处理阶段

步骤S2、构建扩散模型

选择U-Net作为扩散模型主要网络结构，定义编码器和解码器，以及跳跃连接；定义级联扩散模型；构建多个扩散模型，分别负责处理不同分辨率的图像；

步骤S3、训练

步骤S4、验证与测试

2.根据权利要求1所述的多级扩散图像超分辨算法，其特征在于，所述步骤S1中的退化模块具体包括以下步骤：

将待处理图像传入高阶退化模块后，分别经历第一次退化，第二次退化以及噪声条件增加三个部分；

第一次退化包括模糊，下采样，压缩三个步骤；第二次退化包括模糊，下采样，图像压缩与sinc滤波以及第二次下采样四个步骤；噪声条件增加包括上采样与添加噪声两个步骤；

3.根据权利要求1所述的多级扩散图像超分辨算法，其特征在于，所述步骤S2中的网络结构具体包括以下步骤：将初始估计图像x_t和原始低分辨率图像y传入U-Net网络，U-Net网络包括下采样阶段与上采样阶段以及它们之间的跳跃连接；

上下采样部分包括卷积层与残差模块，在上下采样阶段，包括多次的卷积处理与残差处理；将尺寸相对应的特征图连接起来即为跳跃连接，这些跳跃连接将下采样阶段中捕获的低级特征直接传递到上采样阶段；将均匀采样得到的噪声等级编码分别按尺度传入残差模块，最终以估计出当前图像的噪声ε。

4.根据权利要求3所述的多级扩散图像超分辨算法，其特征在于，所述噪声等级编码为：给定时间步T的固定预算，从分段均匀分布中采样连续噪声等级

定义T的区间(l_i-1，l_i)，其中l为区间端点，当i＞0时，和然后，为了采样连续的噪声等级随机选取一个区间(l_k-1，l_k)，采样

5.根据权利要求3所述的多级扩散图像超分辨算法，其特征在于，所述残差模块包括以下步骤：

首先对输入进行激活函数处理，然后进行上/下采样和卷积操作，并将其与经过激活函数处理和全连接层处理的嵌入噪声相连接；

接着，再次进行激活函数处理、随机失活层处理和卷积操作；

最后，将这个输出与初始输入相加，得到最终的输出。

6.根据权利要求1所述的多级扩散图像超分辨算法，其特征在于，所述步骤S3中的扩散模型分为两个过程，正向传播过程和反向传播过程：

其中x_t是在t时刻的观测值，x₀是初始的干净图像，∈_t是加性高斯噪声，β_t是在扩散过程的第t个时间步中添加的噪声方差，I是单位矩阵，α_t是噪声缩放因子(0≤α_t≤1)，随时间t递增；

以及反向过程p_θ(x₀)＝∫p_θ(x_0：T)d x_1：T，其中：

在前向过程中，超参数β_t被设置为可以使得x_T近似于标准正态分布，所以p(x_T)也被设置为标准正态先验；

反向过程通过优化证据下限，即ELBO：Evidence Lower Bound，来训练以匹配正向过程的联合分布：

其中L_T(x₀)＝D_KL(q(x_T|x₀)||p_θ(x_T))，前向过程后验q(x_t-1|x_t，x₀)和边缘q(x_T|x₀)是高斯型的，并且ELBO中的KL散度以封闭形式计算；

使逆过程参数化：

其中，α_t＝1-β_t，

7.根据权利要求1所述的多级扩散图像超分辨算法，其特征在于，所述步骤S3使用条件扩散模型来实现图像超分辨率，具体训练过程包括以下步骤，且以下步骤顺次进行：

步骤S3-1、给定一个高分辨率的图像x₀和一个低分辨率的观测值x_t；

步骤S3-2、使用噪声反向传播方程来计算x_(t-1)，在此过程中，∈_t是从一个预测分布q(∈_t|x_t)中采样的，这个预测分布是由神经网络参数化的；

8.根据权利要求1所述的多级扩散图像超分辨算法，其特征在于，所述步骤S4中使用的损失函数为均方误差，评价指标使用峰值信噪比及结构相似性；

均方误差损失函数的计算公式如下：

其中x表示目标高分辨率图像，表示生成的高分辨率图像，N是像素数量，x_i和分别是目标图像和生成图像的第i个像素值；

峰值信噪比基于均方误差计算，公式如下：

其中，MAX_x是图像的最大像素值，对于8位深度的图像，MAX_x＝255；

结构相似性的计算公式如下：

其中，μ_x和分别是图像x和的均值，和分别是图像x和的方差，是图像x和的协方差，C₁和C₂是常数。