CN116452805A

CN116452805A - 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法

Info

Publication number: CN116452805A
Application number: CN202310401129.2A
Authority: CN
Inventors: 葛斌; 朱序; 夏晨星; 张梦格; 卢洋; 陆一鸣
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2023-04-15
Filing date: 2023-04-15
Publication date: 2023-07-18

Abstract

发明名称：一种基于Transformer的跨模态融合网络的RGB‑D语义分割方法摘要：本发明提供了一种基于Transformer的跨模态融合的RGB‑D语义分割方法，所述方法利用RGB图像和Depth图像的多模态数据，提取跨模态特征用于计算机视觉中的语义分割任务。本发明的贡献主要在于通过考虑Depth特征出发，意识到深度传感器获得的深度学习存在不可靠信息(如，一些深度传感器读取到的深色的物体或者反光的表面的读数往往不准确或者存在空洞)，提出利用双边滤波来加强Depth特征的作用，并通过一个跨模态残差融合模块有效的融合RGB特征和Depth特征。通过提出的方法可以有效地处理RGB图像语义分割所遭遇的挑战(很难区分具有相似颜色和纹理的实例)，并且可以有效的利用Depth图像。

Description

一种基于Transformer的跨模态融合网络的RGB-D语义分割方法

技术领域

本发明涉及图像处理领域，具体来说，本发明涉及一种基于不同模态的特征提取与融合的语义分割方法。

背景技术

本部分的陈述仅仅是涉及到了与本发明相关的背景技术，并不必然构成现有技术。

语义分割(Semantic Segmentation)是计算机视觉领域中最具挑战性的问题之一，其目的是将图像输入转换为其潜在的语义意义区域，并为许多现实世界的应用程序，实现像素级密集场景理解。随着场景理解、重构和图像处理等计算机视觉领域最热门话题的兴起，图像语义分割作为上述热门话题的基础，也受到了越来越多该领域科研人员的重视。语义分割是计算机视觉中一个基本而永恒的问题，在作为一个多标签分类问题，重点是为每一个像素分配一个类别标签，适用于各种应用(如：自动驾驶、目标分类、图像检索、人机交互手术中医疗器械的检测等)。虽然在语义分割方面有一些优秀的研究成果，但大多数研究只关注了RGB图像。由于RGB学习给出的模型具有明显的颜色和纹理，没有几何信息，因此很难区分具有相似颜色和纹理的实例。为了解决上述问题，研究者开始利用深度信息来辅助RGB语义分割。RGB和深度信息的结合，被称为RGB-D,是相当重要的方法，深度图像能够提供所需的几何信息，从而有可能丰富RGB图像的表示，并更好地区分各种物体。

现在的RGB-D语义分割方法存在两个主要的挑战：一是如何有效的从附加的Depth中提取特征；二是如何有效融合两种模态的不同特征。现在的方法主要是将深度图视作单通道图像，并且使用卷积神经网络(Convolutional Neural Network，CNN)从深度图中提取类似与RGB图的特征，然而这种方法忽略了深度传感器获得的深度并非每一个深度值都是可靠的。由于RGB图像和深度图像属于两个不同的模态，如何有效的融合两种不同模态的特征也是RGB-D语义分割的一项重要的挑战。

基于上文提到基于卷积神经网络的方法的缺点，本发明试图设计一个可以高效提取RGB和深度特征的框架，在特征提取的过程中明确的考虑到输入的深度值的可靠性，对深度图像进行噪声处理，可以有效的利用深度图像的特征。为了解决RGB特征和深度特征融合的问题，本发明设计了一个一种跨模态残差融合模块。

发明内容

针对以上提出的问题，本发明的目的是提供一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，具体的采用的技术方案如下：

1.获取并整理用于训练和测试的RGB-D数据集。

1.1)对获取到的数据集(NYU Depth V2数据集，SUN RGB-D数据集)进行整理并且归纳为以下几类：RGB图像P_RGB，深度图像P_Depth和由人工标注的真值图像P_GT。

1.2)将收到的数据集分成训练集和测试集。其中NYU Depth V2一共右1449张图片，选择795张图片作为训练集，其余的654张图片作为测试集。SUN RGB-D由10335张室内的RGB-D图片组成，将这些图像分为5285个样本的训练集和5050个样本的测试集。

2.本发明的网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成，分别从RGB图像和深度模式中提取特定的模式特征，然后由一个语义解码器生成最终的语义分割结果。

2.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征，并且语义解码器将各个融合模块的融合特征作为输入，生成最终的分割结果。

2.2)RGB和Depth通过两个平行的Encoder主干，将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征，分别命名为和

2.3)由于深度传感器的测量可能受到物理环境的影响，一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器，如Kinect，在深度无法精确测量时，只会返回一个空值。在这些情况下，我们将其不确定性映射表示为二进制映射U∈{0,1}^H×W，其中0表示该位置没有传感器读数，1表示有效传感器读数。对于传感器测得的Depth图像，本发明利用双边滤波来解决深度不确定的问题，先根据像素值对要用来进行滤波的邻域做一个分割或分类，再给该点所属的类别相对较高的权重，然后进行邻域加权求和，得到最终结果。

利用二维高斯函数生成空间域核，一维高斯函数生成颜色域核：

其中，(k,l)为核中心坐标，(i,j)为核内邻域坐标。σ_d为高斯函数的标准差。

其中f(i,j)代表图像在(i,j)处的灰度值，其他标识和空间域一致。

2.4)本发明使用PyTorch框架来实现和训练本发明的网络。本发明的编码器使用Swin-S的默认配置。

3.基于步骤2所提取到的RGB特征和深度特征/> 本发明将每个编码器块的输出，使用本发明提出的跨模态残差融合模块来融合RGB编码器和深度编码器之间的特征，并将两种模态的特征合并成单一的融合特征。融合模块从RGB分支和深度分支获取输入，并将更新后的特征返回到对应的下一个块的编码器，以增强两种不同模态之间特征的互补性。

3.1)首先，本发明设计了一个跨模态残存融合模块(Cross-Model ResidualFeature Fusion Module，CRFFM)，该模块首先从一个模态中选择与另一个模态互补的特征，然后在模态和水平之间进行特征融合。

3.1.1)首先，在融合模块的第一个阶段，本发明将RGB图像特征和深度图像特征分别输入到一个改进的坐标注意力模块(Coordinate attention，CAM)用来增强特征表示能力。接着将RGB特征和深度特征通过一个对称的特征选择阶段，选择不同模态的互补信息进行残差链接，将经过残差连接后的特征作为下一阶段解码器的输出和和融合阶段的输入。

3.1.2)本发明将结果残差连接后的RGB特征和深度特征分别先通过Conv_3×3卷积在进行交叉逐元素乘和最大化操作并将两者产生的特征进行连接操作，再经过一个Conv_3×3卷积进行融合特征的输出。

4.通过上述步骤，本发明能够得到跨模态融合特征F_i。语义解码器将各个融合模块的融合特征作为输入，生成最终的分割结果。本发明中使用的是UperNet解码器作为我们的语义解码器，其效率较高。

5.通过本发明预测出来的语义分割图P_pre与人工标注的语义分割真值图P_GT比较进行损失函数的计算，并通过反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D语义分割算法的结构和权重参数。本发明的损失函数使用的是交叉熵损失函数：

6.在步骤5确定模型的结构和权重参数的基础上，对测试集上的RGB-D图像进行测试，生成语义分割图，并使用PixelAcc.和mIoU评价指标进行评估。

附图说明

图1为本发明的模型结构示意图

图2为双边滤波模块的流程示意图

图3为跨模态残差融合模块示意图

图4为改进的坐标注意力模块示意图

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行完整、清楚的描述，此外，所叙述的实例仅仅是本发明的一部分实例，而不是所有实例。基于本发明中的实例，本研究方向普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实例，都属于本发明保护范围。

参考附图1，一种基于Transformer的跨模态融合网络的RGB-D语义分割方法主要包含以下步骤：

1.获取并整理用于训练和测试的RGB-D数据集。

6.在步骤5确定模型的结构和权重参数的基础上，对测试集上的RGB-D图像进行测试，生成语义分割图，并使用Pixel Acc.和mIoU评价指标进行评估。

以上所述为本申请优先实施而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

1.一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，其特征在于包括用于训练和测试的图像样本的采集和整理，双流编码器的构建，跨模态特征的提取和融合，深度图像处理的双边滤波模块。

2.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，其特征在于所使用的数据包括NYU V2数据集，SUN RGB-D数据集，单个样本分为RGB图像P_RGB，深度图像P_Depth和人工标注的语义分割图像P_GT；训练集由NYU V2数据集中的795个样本和SUN RGB-D数据集中的5285个样本构成的样本集，剩余的样本作为测试集。

3.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，其特征在于网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成，分别从RGB图像和深度模式中提取特定的模式特征，然后由一个语义解码器生成最终的语义分割结果。

3.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征，并且语义解码器将各个融合模块的融合特征作为输入，生成最终的分割结果。

3.2)RGB和Depth通过两个平行的Encoder主干，将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征，分别命名为和

3.3)由于深度传感器的测量可能受到物理环境的影响，一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器，如Kinect，在深度无法精确测量时，只会返回一个空值。在这些情况下，我们将其不确定性映射表示为二进制映射U∈{0,1}^H×W，其中0表示该位置没有传感器读数，1表示有效传感器读数。对于传感器测得的Depth图像，本发明利用双边滤波来解决深度不确定的问题。

4.根据权利要求3所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，其特征在于本发明将每个编码器块的输出，使用本发明提出的跨模态残差融合模块来融合RGB编码器和深度编码器之间的特征，并将两种模态的特征合并成单一的融合特征。融合模块从RGB分支和深度分支获取输入，并将更新后的特征返回到对应的下一个块的编码器，以增强两种不同模态之间特征的互补性。

4.1)首先，本发明设计了一个跨模态残存融合模块(Cross-Model Residual FeatureFusion Module，CRFFM)，该模块首先从一个模态中选择与另一个模态互补的特征，然后在模态和水平之间进行特征融合。

4.1.1)首先，在融合模块的第一个阶段，本发明将RGB图像特征和深度图像特征分别输入到一个改进的坐标注意力模块(Coordinate attention，CAM)用来增强特征表示能力。接着将RGB特征和深度特征通过一个对称的特征选择阶段，选择不同模态的互补信息进行残差链接，将经过残差连接后的特征作为下一阶段解码器的输出和和融合阶段的输入。

4.1.2)本发明将结果残差连接后的RGB特征和深度特征分别先通过Conv_3×3卷积在进行交叉逐元素乘和最大化操作并将两者产生的特征进行连接操作，再经过一个Conv_3×3卷积进行融合特征的输出。

5.根据权利要求4所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，其特征在于语义解码器将各个融合模块的融合特征作为输入，生成最终的分割结果。

6.根据权利要求5所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，其特征在于通过本发明预测出来的语义分割图P_pre与人工标注的语义分割真值图P_GT比较进行损失函数的计算，并通过反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D语义分割算法的结构和权重参数。

7.根据权利要求6所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法，其特征在于对测试集上的RGB-D图像进行测试，生成语义分割图，并使用PixelAcc.和mIoU评价指标进行评估。