CN115761478B

CN115761478B - 基于跨模态下的sar图像建筑物提取模型轻量化方法

Info

Publication number: CN115761478B
Application number: CN202211269905.XA
Authority: CN
Inventors: 康健; 李思江
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2024-09-06
Anticipated expiration: 2042-10-17
Also published as: CN115761478A

Abstract

本发明涉及一种基于跨模态下的SAR图像建筑物提取模型轻量化方法，包括通过多尺度检测单元将编码阶段每一级的输出拉伸成与输入图像相同大小的图像，并将拉伸后的图像进行合并，其中图像包括光学图像和SAR图像；对合并后的光学图像和SAR图像采用注意力模块增强有意义的特征，抑制无用特征；对经过注意力模块的光学图像和SAR图像通过自适应平均池化生成多尺度的图像；最小化多尺度光学图像和SAR图像的KL散度以及总体的损失函数。本发明通过多尺度特征进行知识蒸馏，使用光学图像训练的大模型的知识转移到用SAR图像训练的轻量化模型上，提高轻量化模型在SAR图像上的分割性能。

Description

基于跨模态下的SAR图像建筑物提取模型轻量化方法

技术领域

本发明涉及高分辨率遥感影像信息处理技术领域，尤其是指一种基于跨模态下的SAR图像建筑物提取模型轻量化方法。

背景技术

具有全天时、全天候的特点的合成孔径雷达(Synthetic aperture radar，SAR)能够有效地检测各种伪装下的目标，在各种恶劣条件下都可以利用SAR图像进行分割任务的构建。但与光学图像相比，由于几何畸变、噪声等因素，SAR图像能够解耦出的语义信息较少，而光学图像包含多个波段的灰度信息，更易识别目标和分类提取。

在这种情况下，大多数最先进的方法都专注于设计先进的网络架构或者损失函数来提高分割性能，但这种方法都有着昂贵的计算成本，因此后续有一些方法致力于通过轻量化方法利用不同模态中的知识来提高分割性能。例如基于通道的知识蒸馏方法已被证明了通道信息在密集预测当中的重要性，但如果仅仅对通道信息蒸馏会丢失空间信息，对于最终的分类结果会有影响；还有基于捕捉像素之间结构化信息的知识蒸馏，包括像素间的成对相似性和判别器捕获的整体相似性，但其疏于对编码阶段语义信息的利用。基于此，迫切需要提供一种基于跨模态下的SAR图像建筑物提取模型轻量化方法。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于跨模态下的SAR图像建筑物提取模型轻量化方法，其通过多尺度特征进行知识蒸馏，利用光学图像当中的信息来提高对SAR图像的分割性能，实现跨模态的知识蒸馏，使用光学图像训练的大模型的知识转移到用SAR图像训练的轻量化模型上，提高轻量化模型在SAR图像上的分割性能。

为解决上述技术问题，本发明提供一种基于跨模态下的SAR图像建筑物提取模型轻量化方法，包括：

通过多尺度检测单元将编码阶段每一级的输出拉伸成与输入图像相同大小的图像，并将拉伸后的图像进行合并，其中所述图像包括光学图像和SAR图像；

对合并后的光学图像和SAR图像采用注意力模块增强有意义的特征，抑制无用特征；

对经过注意力模块的光学图像和SAR图像通过自适应平均池化生成多尺度的图像；

最小化多尺度光学图像和SAR图像的KL散度以及总体的损失函数。

在本发明的一个实施例中，通过多尺度检测单元将编码阶段每一级的输出拉伸成与输入图像相同大小的图像的方法包括：

给定输入的光学图像X^O和SAR图像X^S，定义第i个编码阶段的输出为F_i以及多尺度检测单元为M(.)，其中O和S表示光学图像和SAR图像；

将第i个编码阶段的输出F_i输入至多尺度检测单元M(.)，得到其输出M(F_i)＝Upsample(Conv(F_i))，其中所述多尺度检测单元M(.)为卷积层与上采样层的组合。

在本发明的一个实施例中，多尺度检测单元的输出M(F_i)与输入图像相同，通道数与掩码通道相同。

在本发明的一个实施例中，将拉伸后的光学图像进行合并的公式为：

其中，O和S分别表示光学图像和SAR图像。

在本发明的一个实施例中，对合并后的图像采用注意力模块增强有意义的特征，抑制无用特征，包括：

对于合并后的光学图像通过注意力模块后得到G^O＝SCSE(H^O)；对于合并后的SAR图像通过注意力模块后得到G^S＝SCSE(H^S)。

在本发明的一个实施例中，对经过注意力模块的光学图像和SAR图像通过自适应平均池化生成多尺度的图像，包括

对经过注意力模块的光学图像通过自适应平均池化生成多尺度的光学图像对经过注意力模块的SAR图像通过自适应平均池化生成多尺度的SAR图像

在本发明的一个实施例中，最小化多尺度光学图像和SAR图像的KL散度，包括：

最小化多尺度光学图像和SAR图像的KL散度表示为

在本发明的一个实施例中，所述总体的损失函数为L＝L_CE(P^S||Y)+α·KL(P^S||P^O)+β·L_MFD，其中，Y表示标签图像，P^O和P^S分别表示教师网络的输出和学生网络的输出，CE表示交叉熵损失函数。

此外，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述方法的步骤。

并且，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所提出的一种基于跨模态下的SAR图像建筑物提取模型轻量化方法，其通过多尺度特征进行知识蒸馏，利用光学图像当中的信息来提高对SAR图像的分割性能，实现跨模态的知识蒸馏，使用光学图像训练的大模型的知识转移到用SAR图像训练的轻量化模型上，提高轻量化模型在SAR图像上的分割性能。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明所提出的一种基于跨模态下的SAR图像建筑物提取模型轻量化方法的流程示意图。

图2为本发明所提出的一种基于跨模态下的SAR图像建筑物提取模型轻量化方法的流程图。

图3为整体的网络结构。

图4为MSAW数据集，其中，(4a)为合成孔径SAR图像，(4b)为配准的光学图像，(4c)为标签图像。

图5为不同知识蒸馏方法对图(4a)的预测结果，其中，图(5a)为提出的基于跨模态下的SAR图像建筑物提取模型轻量化方法的预测结果，图(5b)为基于通道的知识蒸馏(CWD)的预测结果，图(5c)为基于结构化知识的知识蒸馏(SKD)的预测结果，图(5d)为基于遮掩学生特征然后生成教师全部特征的知识蒸馏(MGD)的预测结果，图(5e)为采用多个教师网络知识蒸馏(IML)的预测结果。

图6为提出的基于跨模态下的SAR图像建筑物提取模型轻量化方法与其他知识蒸馏方法在SAR图像上的准确率(Accuracy)的比较结果，其中，w/od表示没有采用知识蒸馏方法。

图7为提出的基于跨模态下的SAR图像建筑物提取模型轻量化方法与其他知识蒸馏方法在SAR图像上的F1分数(F1score)的比较结果，其中，w/od表示没有采用知识蒸馏方法。

图8为提出的基于跨模态下的SAR图像建筑物提取模型轻量化方法与其他知识蒸馏方法在SAR图像上的交并比(IoU)的比较结果，其中，w/o d表示没有采用知识蒸馏方法。

图9为提出的基于跨模态下的SAR图像建筑物提取模型轻量化方法对于不同轻量化网络的F1score比较结果，其中，w/o distillation表示没有采用知识蒸馏方法。

图10为提出的基于跨模态下的SAR图像建筑物提取模型轻量化方法对于不同轻量化网络的IoU比较结果，其中，w/o distillation表示没有采用知识蒸馏方法。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参考图1所示，本发明实施例提供一种基于跨模态下的SAR图像建筑物提取模型轻量化方法，该方法包括如下步骤：

S1：通过多尺度检测单元将编码阶段每一级的输出拉伸成与输入图像相同大小的图像，并将拉伸后的图像进行合并，其中所述图像包括光学图像和SAR图像；

S2：对合并后的光学图像和SAR图像采用注意力模块增强有意义的特征，抑制无用特征；

S3：对经过注意力模块的光学图像和SAR图像通过自适应平均池化生成多尺度的图像；

S4：最小化多尺度光学图像和SAR图像的KL散度以及总体的损失函数。

具体地，S1：给定输入光学图像X^O，SAR图像X^S，标签图像Y，第i个编码阶段的输出定义为F_i，网络的输出定义为P^O和P^S，多尺度检测单元定义为M(.)。通过多尺度检测单元将编码器每一级的输出拉伸成与输入图像相同大小，其大小与输入图像相同，通道数与掩码图像相同，然后合并拉伸后的图像。多尺度检测单元M(.)为卷积层与上采样层的组合，对于经过多尺度检测单元的编码器输出F_i的表述如下：

M(F_i)＝Upsample(Conv(F_i))

合并拉伸后的图像公式如下：

其中，O和S表示光学图像和SAR图像。

S2：对于拉伸合并后的图像H，经过注意力模块SCSE后增强有意义的特征，抑制无意义的特征，即：

G^O＝SCSE(H^O)

G^S＝SCSE(H^S)。

S3：通过设置自适应平均池化的尺度来控制生成图像的大小，经过注意力模块后的图像G通过自适应平均池化生成多尺度的图像，其公式表述为：

S4：最小化来自光学图像网络的多尺度图像和来自SAR图像网络的多尺度图像相同大小图像的KL散度以及整体的损失函数，最小化多尺度图像的KL散度表示为：

总体的损失函数表示为：

L＝L_CE(P^S||Y)+α·KL(P^S||P^O)+β·L_MFD

其中，Y表示标签图像，P^O和P^S分别表示教师网络的输出和学生网络的输出，CE表示交叉熵损失函数。

下面以实验验证的方式来阐述本发明所提供的一种基于跨模态下的SAR图像建筑物提取模型轻量化方法的有益效果。

1、实验数据：MSAW数据集：

实验所用真实遥感数据集为多传感器全天候映射(MSAW)数据集，该数据集包括高分辨率和配准的光学图像和SAR图像，空间分辨率约为0.5m。SAR图像包含四个偏振波段，即HH、HV、VH和VV，SAR图像是由Capella Space与Metasensing合作的航空传感器捕获的。光学图像由Maxar Worldview-2卫星提供，具有四个全锐化多光谱波段，即蓝色、绿色、红色和近红外(NIR)。配准的SAR图像、光学图像以及标签图像如图(4a)、图(4b)以及图(4c)所示。

2、实验结果：MSAW数据集

本实验中，教师网络与学生网络的编码器的数量均为5，选择1、0.5、0.25、0.125作为尺度因子。实验中选择以efficientnetb3为骨干的Unet结构作为教师网络，学生网络采用以ResNet18以及MobileNetV2为骨干的Unet结构。在训练阶段，对于配准的光学图像在相同位置上进行随机裁剪以及随机旋转90°；在测试阶段，仅通过SAR图像来评估模型的分割性能。在训练过程中采用自适应矩估计(Adam)优化器，学习率设置为0.001，总共训练100个epoch，批次大小为32，总体损失函数中α设置为5，β设置为0.8。所有的实验都是基于Pytorch环境搭建，并在NVIDIA RTX3090 GPU上进行。

用于评估学生网络在SAR图像上的分割性能，选用以下几个评价指标：准确率(Accuracy)，F1分数(F1-score)，交并比(IoU)，召回率(Recall)，精确率(Precision)。表1为教师网络和学生网络在MSAW数据集上的分割性能，包括以efficientnetb3为骨干的U-Net结构的教师网络在光学图像和SAR图像上的分割性能，以ResNet18以及MobileNetV2为骨干的U-Net结构的学生网络在SAR图像上的分割性能。

表1教师网络和学生网络在MSAW数据集上的分割性能(％)

表2为不同知识蒸馏方法的学生网络在MSAW数据集上的分割性能，其中SKD提取成对相似性的成对蒸馏，使用GAN提取整体知识的整体蒸馏；CWD软对齐教师网络和学生网络相应通道间的注意力图；MGD遮掩学生特征的随机像素，并通过一个简单的块强制它生成教师的完整特征；IML使用所有可用数据在每种模式上训练模型，以获取教师模型，然后，这些教师模型用于通过知识蒸馏来培训学生网络。从表中结果可以看出，所提出方法相比于ResNet18-Unet基准方法的F1score从73.44％提升至75.44％，IoU从58.03％提升至60.53％；MobileNetV2-Unet基准方法的F1score从73.39％提升至75.35％，IoU从57.96％提升至60.45％，且优于当前先进的知识蒸馏方法。由于二分类只有背景与前景两类，且背景占比大，Accuracy的提升较小。从图4当中可以直观的看到所提出方法优于其他蒸馏方法。

表2使用不同的知识蒸馏的方法在MSAW数据集上验证学生网络对于SAR图像的分割性能(％)

为了证明本发明所提出的一种基于跨模态下的SAR图像建筑物提取模型轻量化方法不仅在ResNet18-Unet和MobileNetV2-Unet这种特定的轻量化网络中适用，而且同样适用于其它的轻量化网络。在表3为不同轻量化模型的浮点运算量(FLOPS)以及模型参数量(parm)的比较，设置批量大小(batchsize)为32。

表3不同轻量化模型的浮点运算量(FLOPS)和模型参数量大小(parm)的比较

Method	FLOPS(MB)	Parm(MB)
			BiSeNetV1	749.06	23.20
BiSeNetV3	441.55	14.25
			RegSeg	94.25	3.34
ENet	54.25	0.35
			ResNet18-Unet	1621.42	25.51
MobileNetV2-Unet	462.66	8.86

表4当中为四种轻量化网络在没有使用知识蒸馏前的分割性能，以及在使用所提出的跨模态知识蒸馏技术下的SAR图像建筑物提取模型轻量化方法后的分割性能。其中，BiSeNetV1蒸馏后的F1score和IoU分别提高了0.84％、1.09％；BiSeNetV3蒸馏后的F1score和IoU分别提高了0.42％、0.49％；RegSeg蒸馏后的F1score和IoU分别提高了1.24％、1.52％；ENet蒸馏后的F1score和IoU分别提高了5.4％、5.68％；

表4不同轻量化网络在使用知识蒸馏方法前后在SAR图像上的分割性能(％)

本发明提出的一种基于跨模态下的SAR图像建筑物提取模型轻量化方法，主要包含：1)通过多尺度检测单元将编码器每一级的输出拉伸成与输入图像相同大小，其大小与输入图像相同，通道数与掩码图像相同，然后合并拉伸后的图像；2)对于拉伸合并后的图像H，经过注意力模块SCSE后增强有意义的特征，抑制无意义的特征；3)通过自适应池化生成多尺度图像；4)最小化相同尺度图像的KL散度以及整体的损失函数。在大规模多传感器全天候建筑分割数据集上进行了广泛的实验，并使用最先进的方法进行比较，证明了方法的有效性。

相应于上面的方法实施例，本发明实施例还提供了一种计算机设备，包括：

存储器，其用于存储计算机程序；

处理器，其用于执行计算机程序时实现上述基于跨模态下的SAR图像建筑物提取模型轻量化方法的步骤。

在本发明实施例中，处理器可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器可以调用存储器中存储的程序，具体的，处理器可以执行计算归一化轨道角动量通量密度的方法的实施例中的操作。

存储器中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令。

此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述基于跨模态下的SAR图像建筑物提取模型轻量化方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于跨模态下的SAR图像建筑物提取模型轻量化方法，其特征在于，包括：

最小化多尺度光学图像和SAR图像的KL散度以及总体的损失函数；

其中，通过多尺度检测单元将编码阶段每一级的输出拉伸成与输入图像相同大小的图像的方法包括：

给定输入的光学图像和SAR图像，定义第个编码阶段的输出为以及多尺度检测单元为，其中O和S分别表示光学图像和SAR图像；

将第个编码阶段的输出输入至多尺度检测单元，得到其输出，其中所述多尺度检测单元为卷积层与上采样层的组合；

将拉伸后的光学图像进行合并的公式为：；

对合并后的图像采用注意力模块增强有意义的特征，抑制无用特征，包括：

对于合并后的光学图像通过注意力模块后得到：

；

对于合并后的SAR图像通过注意力模块后得到：；

对经过注意力模块的光学图像和SAR图像通过自适应平均池化生成多尺度的图像，包括

对经过注意力模块的光学图像通过自适应平均池化生成多尺度的光学图像；对经过注意力模块的SAR图像通过自适应平均池化生成多尺度的SAR图像；

最小化多尺度光学图像和SAR图像的KL散度，包括：

最小化多尺度光学图像和SAR图像的KL散度表示为；

所述总体的损失函数为：

，

其中，表示标签图像，和分别表示教师网络的输出和学生网络的输出，表示交叉熵损失函数。

2.如权利要求1所述的基于跨模态下的SAR图像建筑物提取模型轻量化方法，其特征在于：多尺度检测单元的输出与输入图像相同，通道数与掩码通道相同。

3.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1或2所述方法。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1或2所述方法。