CN117474764B

CN117474764B - 一种针对复杂退化模型下遥感图像的高分辨率重建方法

Info

Publication number: CN117474764B
Application number: CN202311819893.8A
Authority: CN
Inventors: 蒲立新; 李明欣; 曲建明
Original assignee: Chengdu Chengdian Jinpan Health Data Technology Co ltd; University of Electronic Science and Technology of China
Current assignee: Chengdu Chengdian Jinpan Health Data Technology Co ltd; University of Electronic Science and Technology of China
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-04-16
Anticipated expiration: 2043-12-27
Also published as: CN117474764A

Abstract

本发明涉及一种针对复杂退化模型下遥感图像的高分辨率重建方法，属于高分辨率重建领域。该方法将MAE自监督模型引入高分辨率重建领域，第一阶段利用MAE学习遥感图像的先验信息。第二阶段提出一个重建网络，重建网络利用MAE学习到的先验信息完成低分辨率遥感图像的高分辨率重建任务。同时在重建网络中提出一种边缘注意力模块，边缘注意力模块可以提取特征图的梯度信息，对梯度较大的边缘位置赋予较大的学习权重，使得重建网络关注边缘位置。在公开数据集上证明了重建模型在高分辨率重建任务中的优越性，模型在大多数退化模型上都取得了很好的客观指标结果，视觉上重建出的图像边缘清晰，含有更丰富的细节信息，在高分辨率重建领域具有广泛的应用前景。

Description

一种针对复杂退化模型下遥感图像的高分辨率重建方法

技术领域

本发明属于高分辨率重建领域，具体涉及一种针对复杂退化模型下遥感图像的高分辨率的重建方法。

背景技术

遥感图像包含丰富的地物目标，尺度大、范围广，拥有丰富的细节信息和感知信息，能够有效的进行场景感知与环境分析。因此遥感图像在很多领域都得到广泛的应用：

在灾害监测领域，相关人员可以利用遥感图像对地区进行大范围、长时间的监测，有效预防灾害的发生，减轻灾害带来的财产损失和人员伤亡。在灾害发生后，遥感图像也可以实时、持续地提供灾区信息，有助于救援人员了解灾害进程和等级，从而指导救灾活动的进行。

在资源勘探领域，遥感图像中的空间信息可以帮助人们确定各种地质构造，从而推断煤炭资源的位置信息，另外由于不同物质对于光的吸收、反射等性质不同，因此可以利用遥感图像中的光谱信息来勘探天然气、石油等资源。

在土地监测领域，及时掌握土地面积、利用类型等信息的变化情况对于土地管理，合理利用土地资源，守住耕地红线至关重要。综合利用遥感图像的时空信息可以实现对土地的动态监测，满足现代化土地管理的需求。来自公开数据集AID Dataset中的遥感图像如图1所示。

但在遥感图像成像过程中由于成像设备客观条件的限制，采集到的遥感图像可能存在空间分辨率低、地物边缘细节模糊的问题一次。同时由于数据传输过程中受到网络带宽以及传输时间的限制，常常需要对图像压缩处理，这会导致图像信息的丢失。所以最终得到的遥感图像缺失了部分高频信息，空间分辨率低，而且受到噪声和模糊影响。这样的图像难以满足实际应用的需求。如果从硬件着手来提升遥感图像质量，对设备要求严格，成本高、难度大，因此研究人员致力于通过软件以较小的成本解决这个问题。单一遥感图像超分辨率技术(Single Remote Sensing Image Super Resolution, SRSISR)是指输入一幅低分辨率(Low Resolution, LR)遥感图像，利用图像处理算法模型重建得到高分辨率(HighResolution, HR)遥感图像的过程。SRSISR技术可以增强遥感图像的高频信息，提升空间分辨率，消除噪声和模糊，提高图像质量，使遥感图像更好地应用于实际场景。

传统的SRSISR技术分为三类：（1）基于插值的算法；（2）基于建模的算法；（3）基于浅层学习的算法。基于插值的算法通过待插入像素周围已知的像素值来估计当前未知的像素值，这类算法实现简单、运行速度快，但插值无法恢复降质图像缺失的高频信息，重建图像往往平滑、模糊。基于建模的算法利用先验知识结合数学模型来重建高分辨率图像，可分为频域法、空域法和频域空域结合法三类。这类算法利用图像先验知识约束重建过程，在一定程度上缓解了插值算法带来的模糊效应，但不适用于放大因子较大的高分辨率重建。基于浅层学习的算法收集大量高低分辨率图像对来构造学习库，利用学习模型学习图像对间的映射关系，代表性算法有邻域嵌入，流形学习，稀疏表示等。这些算法由传统机器学习的方法发展而来，需要人为设计特征，因此重建结果依赖于设计特征的好坏。

近年来深度学习在各领域都取得了长足的发展。2016年董超等将深度学习应用于单一图像高分辨率重建领域，提出Super Resolution Convolutional Neural Networks(SRCNN)模型。SRCNN包含三层网络结构，可以实现端到端的高分辨率重建任务。在客观指标上，SRCNN取得了优于传统算法的结果，这表明深度学习在单一图像超分辨率技术领域的可行性和优越性。李强在Super-Resolution Generative Adversarial Network (SRGAN)模型的基础上，在生成网络中引入密集残差块和感受野模块进行特征提取。密集残差块融合了残差块和密集块，在加强特征传播的基础上还可以缓解梯度消失问题。Lei提出Local–Global Combined Network(LGCNet)模型。LGCNet首先利用L层卷积层提取图像特征。在神经网络中浅层卷积的感受野较小关注局部信息，深层卷积的感受野较大关注全局信息。之后LGCNet通过一个多分叉结构融合浅层和深层卷积的结果从而融合遥感图像的局部信息和全局信息，更好地指导遥感图像的高分辨率重建。上述模型都是在已有HR遥感图像的条件下，通过固定的下采样方式（大都采用双三次下采样）得到LR遥感图像，然后利用配对的HR-LR图像对进行固定退化模型下的有监督学习。这样的退化处理虽然简单易实现，但实际场景中遥感图像的退化过程复杂，除了空间分辨率的降低，图像还可能受到模糊和噪声的影响。因此在实际复杂场景下应用时上述模型的性能会受到限制。

发明内容

为解决遥感图像在传输过程中存在图像信息丢失的问题，本发明提出了一种针对复杂退化模型下遥感图像的高分辨率重建方法，具体步骤为：

S1：获取样本图像数据集，数据集中包括不同场景的M张图像，随机选取图像，将数据集分为训练集和测试集；

S2：设计退化模型，将高分辨率遥感图像模糊处理和下采样之后，加入噪声，生成最终的低分辨率遥感图像；

S3：训练带掩码的自编码器模型，学习低分辨率遥感图像的先验信息；

S4：搭建一个新的重建网络；重建网络和带掩码的自编码器模型同时训练，利用带掩码的自编码器模型学习到的先验信息对低分辨率遥感图像进行高分辨率重建；重建网络结构整体上分为三个部分，具体如下：

S41：第一部分进行浅层特征提取；浅层特征提取模块分别利用卷积核大小为3、5、7的卷积层提取多尺度特征，之后将提取到的三种特征在通道维度连结，利用卷积核大小为1×1的卷积层减小通道数，融合多尺度特征；浅层特征提取模块初步提取了遥感图像中的多尺度特征F ₀，表示如式（2）：F ₀ =H _SFE(I _LR) （2）

其中H _SFE表示浅层特征提取的映射函数，I _LR表示输入的低分辨率遥感图像，F ₀表示提取到的多尺度特征特征；

S42：第二部分进行深层特征提取，由残差分支和特征分支组成；

特征分支将第一部分提取到的浅层特征直接传向深层特征提取网络后方；

残差分支使用UNet模型的结构设计，分支中间的一个卷积层将分支分为前后两个部分；前面部分与后面部分均级联r个基础块且结构相互对应，前面部分每个基础块依次由多尺度感受野注意力模块、残差融合块和先验模块组成，后面部分的每个基础块依次由卷积层、多尺度感受野注意力模块、残差融合块和先验模块组成；其中多尺度感受野注意力模块和残差融合块负责解决特征学习子问题，先验模块负责解决先验学习子问题；

前面部分基础块的输入来自先验信息以及上一个基础块的输出，前面部分第r个基础块的输出表示为式（3）：（3）

其中表示前面部分第r个基础块的映射函数；/>表示第r个基础块的输出，表示第r个基础块的前一个基础块的输出；后面部分同样级联多个基础块，后面部分基础块的输入不仅来自先验信息以及上一个基础块的输出，还来自前面部分对应基础块的输出，它们在通道维度上连结，并利用卷积层进行特征融合；后面部分第r个基础块的输出表示为式（4）：/>（4）

其中表示后面部分第r个基础块的输出，/>表示后面部分第r个基础块的映射函数，Concat表示通道维度连结操作，/>表示前面部分对应基础块的输出，其中n是网络中模块的总数量，n=前r个基础块+1个中间部分的卷积块+后r个基础块；

S43：第三部分为上采样模块，上采样方式采用亚像素卷积，避免重建过程中伪影的产生，重建出含有丰富细节信息的图像。

本发明提出一种基于两阶段训练的高分辨率重建模型，第一阶段通过MAE自监督模型学习遥感图像的先验信息，第二阶段提出的重建网络在先验信息的指导下完成遥感图像的高分辨率重建，同时设计一个边缘注意力模块，使得重建图像的边缘更加清晰。在公开数据集上，所设计的重建模型面对复杂的退化模型取得优于其他算法模型的结果。

附图说明

图1为现有技术中的遥感图像。

图2为本发明整体框架图。

图3为重建网络结构图。

图4为SFE模块结构图。

图5为ISAB模块结构图。

图6为退化模型流程图。

图7为双三次下采样为退化模型的可视化重建结果。

图8为为退化模型的可视化重建结果。

实施方式

自监督模型MAE(带掩码的自编码器，Masked Auto-Encoders)是2021年底提出的模型，主要用于图像恢复任务。图像通过MAE学习到的图像特征，可以用于检测、分类等下游视觉任务，本方法创新性地将MAE引入高分辨重建领域，提出了基于两阶段训练的高分辨率重建模型，模型整体框架如图2所示。以下为具体实施例：

S1：下载公开数据集AID Dataset。AID Dataset由华中科技大学和武汉大学于2017年发布，它包含从Google Earth收集的10000张样本图像，场景包括机场、土地、棒球场、沙滩、桥梁、中心、教堂等30类场景，每类约200-420张图像，大小为600×600像素。训练集从AID Dataset的30类场景中随机选取100张图像，共3000张图像，测试集从相同场景剩下的图像中随机选取15张图像，共450张图像。

S2：设计退化模型，将高分辨率遥感图像模糊处理和下采样之后，加入噪声，生成最终的低分辨率(Low Resolution, LR)遥感图像，如图6所示。

本算法设计的退化模型针对两种应用场景。第一种拍摄遥感图像的设备精良，拍摄出的高分辨率图像品质较高，基本不受模糊影响，但是为了将图像传回地面，需要对图像进行下采样和有损压缩，减小传输文件大小，在压缩和传输的过程中会引入噪声。这时退化模型简化为将高分辨率遥感图像下采样之后，加入噪声，得到低分辨率遥感图像。第二种应用场景是在拍摄遥感图像设备质量较差的情况下，拍摄出的高分辨率图像受到模糊影响。对于第二种应用场景，为使模型的泛化性能更好，引入三种模糊方式：各向同性高斯模糊、各向异性高斯模糊和运动模糊。同时将图像添加JEPG压缩噪声，模拟图像退化过程。

S3：进行一阶段MAE模型训练，将LR图像输入MAE模型，使编码器学习遥感图像的先验信息，即学习到输入的低分辨率图像的特征。单独训练MAE，学习遥感图像的先验信息，MAE损失函数计算生成的掩码像素与原始掩码像素间的欧氏距离，表示如式（1）：

（1）

其中表示生成掩码像素，/>表示原始掩码像素，n为图像的像素总数，本方法的输入图像224×224，在此n=224×224。欧式距离在数学中用于计算两点之间的距离，在计算机视觉任务中，计算的是2个图像之间每个像素的距离，衡量的是2个图像之间的差异，欧氏距离/>越小，图像越相像。

S4：搭建一个新的重建网络；重建网络和MAE同时训练，它利用MAE学习到的先验信息对低分辨率遥感图像进行高分辨率重建。针对重建图像边缘不清晰的问题，在重建网络中创新性地提出一种边缘注意力模块，它通过提取梯度信息对边缘位置赋予更大的学习权重，使得边缘位置受到更多关注。第二阶段重建网络结构如图3所示，整体上第二阶段重建网络模型分为三个部分：

S41：第一部分进行浅层特征提取(Shallow Feature Extraction, SFE)，浅层特征提取方法主要侧重于低级别视觉特征的提取，如纹理、颜色、形状等。SFE模块分别利用卷积核大小为3、5、7的卷积层提取多尺度特征，不同卷积核大小代表不同大小的感受野，感受野大小不同，可以提取到的图像特征尺度不同，这样有助于提取遥感图像中不同尺度目标的特征。之后将提取到的三种特征在通道维度连结，利用卷积核大小为1×1的卷积层减小通道数，融合多尺度特征。SFE模块初步提取了遥感图像中的多尺度特征，表示如式（2）：（2）

其中表示浅层特征提取的映射函数，/>表示输入的低分辨率遥感图像，/>表示提取到的特征；

S42：第二部分进行深层特征提取，由残差分支和特征分支组成，通过深度学习模型实现对先验信息和浅层特征的多层次特征提取，能够学习到更高级别的语义特征，并具备更强的表达和泛化能力。特征分支将第一部分提取到的浅层特征直接传向网络后方，可以提供更多的信息流向网络的深层部分，使得网络在训练过程中更快地收敛到最优解，这样残差分支只需要学习输入和输出之间的残差（或差异）部分，加速网络收敛，而且缓解了梯度消失问题；

残差分支借鉴了UNet模型的结构设计，分支中间的一个卷积层将分支分为前后两个部分。前面部分与后面部分均级联r个基础块且结构相互对应，每个基础块依次由多尺度感受野注意力模块(Muti-Scale Receptive Field Attention Block, MRFAB)、残差融合块(Residual Fusing Block, RFB)和先验模块(Prior Block, PB)组成。其中MRFAB和RFB负责解决特征学习子问题，PB负责解决先验学习子问题；

为了更好地提取图像的空间信息和边缘信息，我们在MRFAB中设计了改进注意力模块（Improving Spatial Attention Block, ISAB）；

ISAB具有两条分支，如图5所示，第一条分支经过空间注意力模块(SAB)，它在空间维度上对输入特征图进行平均值池化（AvgPool）和最大值池化（MaxPool），输入特征图大小变为，池化后的结果在通道维度上连结，之后经过卷积层和Sigmoid激活函数将矩阵的每个元素变为0-1之间的概率值，此概率值与空间通道权重相乘，相乘后的结果越大说明空间位置的信息越有用，可以保留有用信息，无用信息受到抑制；

第二条分支采用边缘注意力模块，它利用边缘提取的Sobel算子与输入特征图做卷积，分别提取x方向和y方向上特征图的梯度信息，然后对它们平方求和后开方得到特征图的梯度矩阵；梯度矩阵经过卷积层和Sigmoid激活函数后变为权重矩阵，得到边缘位置的权重参数，其中空间通道权重参数为，边缘位置的权重参数为/>。ISAB对空间注意力和边缘注意力做加权求和后输出，这样既可以关注特征图上空间位置和边缘位置，又可以保留细节信息，经过实验这里设置/>。

前面部分基础块的输入来自先验信息以及上一个基础块的输出，前面部分第r个基础块的输出表示为式（3）：

（3）

其中表示前面部分第r个基础块的映射函数，/>表示第r个基础块的输出，表示第r个基础块的前一个基础块的输出；后面部分同样级联多个基础块，相较于前面部分的基础块，每个基础块的结构上增加一个卷积层。后面部分基础块的输入不仅来自先验信息以及上一个基础块的输出，还来自前面部分对应基础块的输出，它们在通道维度上连结(Concat)，并利用卷积层进行特征融合。这样充分利用了浅层网络学习到的特征，减少特征的流失。后面部分第r个基础块的输出表示为式（4）：

（4）

其中表示后面部分第r个基础块的输出，/>表示后面部分第r个基础块的映射函数，Concat表示通道维度连结操作，/>表示前面部分对应基础块的输出，其中n是网络中模块的总数量，n=r（前r个基础块）+1（中间部分的卷积块）+r（后r个基础块）。

S43：第三部分为上采样模块，实现空间分辨率的提升。上采样方式采用亚像素卷积，避免重建过程中伪影的产生，重建出含有丰富细节信息的图像。

其中上采样模块的损失函数采用L1损失，计算重建图像与真实高分辨率图像的绝对差值，使模型的训练过程更加稳定，表示如式（5）：（5）

其中表示重建图像，/>表示真实高分辨率图像；总损失函数表示如式（6）：（6）。

本发明采用峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)、结构相似性(Structure Similarity Index Measure, SSIM)和学习感知图像相似度（LearnedPerceptual Image Patch Similarity，LPIPS）作为评价指标用以评估模型的性能。PSNR被用作评价重建数字信号的质量，PSNR越大，重建影像的质量越好。SSIM是衡量两张数字影像相似性的指标，SSIM越大，重建影像与真实影像的相似度越高。LPIPS用于衡量两张图像之间的感知相似性，LPIPS越小，重建影像与真实影像之间的相似性越大。3个评价指标分别从像素距离、结构相似度、感知相似度等角度客观、全面地评估模型的重建性能。

我们选取Bicubic、EDSR、RCAN、DASR四种算法模型与本发明提出的模型在相同数据集上训练，对比测试结果。Bicubic是常用的插值算法，可以用于图像空间分辨率的提升。EDSR是2017年CVPR会议提出的一种高分辨率重建模型，它整体上是残差结构，主干分支串联多个残差块，上采样采用亚像素卷积的方式，它的性能超过当时最先进的算法。RCAN是2018年提出的一种高分辨率重建模型，架构与EDSR相似，它提出一种残差注意力块，在残差块的残差分支上串联通道注意力模块，关注重要特征，使模型性能得到提升。DASR是2021年CVPR会议提出的一种解决复杂退化过程的高分辨率重建模型。

此外，选取九种特定参数的退化模型进行测试，其中Bicubic表示仅经过双三次下采样的退化模型，其余退化模型除双三次下采样外均加入了其他处理，用ISO表示各向同性高斯模糊，ANI表示各向异性高斯模糊，Motion表示运动模糊，表示模糊核方差(下标表示大小)，/>表示高斯白噪声方差(下标表示大小)，分别对比五种算法模型面对不同退化模型时的重建结果。九种退化模型默认经过压缩质量为95的JPEG压缩处理。本发明从评价指标PSNR/SSIM/LPIPS的角度，在放大因子为2和4时，重建结果与其他算法的对比如表1、表2所示：

表1 放大因子×2重建结果

表2 放大因子×4重建结果

从客观指标反应的重建结果来看，基于深度学习的重建模型在各种退化模型下都取得了优于Bicubic插值算法的结果，证明基于深度学习的重建模型的优越性。

放大因子为2时，以双三次下采样为退化模型进行训练的EDSR、RCAN模型在面对仅有Bicubic下采样、带有ISO_模糊核和带有ANI_/>模糊核三种退化程度相对较弱的退化模型时取得优于其他模型的结果，说明EDSR、RCAN模型可以更好地解决小放大因子、退化程度较弱地高分辨率重建问题。但当退化程度加强，退化模型更复杂，包括运动模糊、模糊核方差更大和加入噪声时，EDSR和RCAN模型的性能明显下降，例如当退化模型从ISO_/>变为ISO_/>时，EDSR的PSNR指标下降了3.09dB，RCAN下降了3.17dB，而DASR下降了2.65dB，本发明提出的模型只下降了1.70dB。而且重建结果也差于DASR模型和本发明提出的模型。这证明基于两阶段训练的高分辨率重建模型更能应对退化程度高、复杂度高的退化模型。我们提出的高分辨率重建模型不仅在应对退化程度弱的退化模型时取得有竞争性的结果，而且在应对退化程度高、复杂度高的退化模型时取得优于其他算法的结果。放大因子为4时，此时需要重建的细节信息更多，重建任务更加困难，本发明提出的高分辨率重建模型在九种退化模型上都取得了最好的结果。

综上，在小放大因子、应对退化程度较弱的退化模型时本发明提出的高分辨重建模型取得有竞争性的结果，在大放大因子、应对退化程度较强的退化模型时本文提出的高分辨重建模型取得最好的结果，这表明本发明提出的高分辨重建模型可以重建出丰富的细节信息，应对复杂退化模型的鲁棒性更高。

从直观视觉感受的角度，图7展示了放大因子为4，双三次下采样为退化模型时各重建模型的重建结果。可以看到Bicubic算法的重建图像平滑、模糊，重建细节少。EDSR和RCAN模型重建出的图像含有较多噪声，DASR模型和本文提出的重建模型取得的视觉效果更好。但相较于DASR模型，本文模型重建出的图像边缘更加清晰，重建出了更多的细节信息。

图8展示了放大因子为4，为退化模型时各重建模型的重建结果。可以看到，当退化模型引入噪声时，Bicubic算法、EDSR模型和RCAN模型难以消除低分辨率图像中的噪声，重建图像中的噪声明显。DASR和本文提出的模型都有较好的去除噪声的能力，但DASR重建的图像较为平滑，丢失了一些细节信息。本发明提出的模型的重建图像仍可以保持较为清晰的边缘，恢复出更多的图像特征。

Claims

1.一种针对复杂退化模型下遥感图像的高分辨率重建方法，其特征在于，包括以下步骤：

其中表示前面部分第r个基础块的映射函数；/>表示第r个基础块的输出，/>表示第r个基础块的前一个基础块的输出；后面部分同样级联多个基础块，后面部分基础块的输入不仅来自先验信息以及上一个基础块的输出，还来自前面部分对应基础块的输出，它们在通道维度上连结，并利用卷积层进行特征融合；后面部分第r个基础块的输出表示为式（4）：/>（4）

2.根据权利要求1所述的一种针对复杂退化模型下遥感图像的高分辨率重建方法，其特征在于，带掩码的自编码器模型的损失函数采用欧氏距离，表示如式（1）：

（1）

其中表示生成掩码像素，/>表示原始掩码像素，n为图像的像素总数。

3.根据权利要求2所述的一种针对复杂退化模型下遥感图像的高分辨率重建方法，其特征在于，所述上采样模块的损失函数采用L1损失，计算重建图像与真实高分辨率图像的绝对差值，使模型的训练过程更加稳定，表示如式（5）：（5）

其中表示重建图像，/>表示真实高分辨率图像；总损失函数表示如式（6）：

（6）。

4.根据权利要求3所述的一种针对复杂退化模型下遥感图像的高分辨率重建方法，其特征在于，多尺度感受野注意力模块中设计了改进注意力模块；

改进注意力模块具有两条分支，第一条分支经过空间注意力模块，它在空间维度上对输入特征图进行平均值池化和最大值池化，输入特征图（B,C,H,W）大小变为(B,1,H,W)，池化后的结果在通道维度上连结，之后经过卷积层和Sigmoid激活函数将矩阵的每个元素变为0-1之间的概率值，此概率值与空间通道权重参数相乘，相乘后的结果越大说明空间位置的信息越有用；

第二条分支采用边缘注意力模块，它利用边缘提取的Sobel算子与输入特征图做卷积，分别提取x方向和y方向上特征图的梯度信息，然后对它们平方求和后开方得到特征图的梯度矩阵；梯度矩阵经过卷积层和Sigmoid激活函数后变为权重矩阵，得到边缘位置的权重参数，其中空间通道权重参数为，边缘位置的权重参数为/>；改进注意力模块对空间注意力和边缘注意力做加权求和后输出。