CN116206133B - 一种rgb-d显著性目标检测方法 - Google Patents
一种rgb-d显著性目标检测方法 Download PDFInfo
- Publication number
- CN116206133B CN116206133B CN202310450234.5A CN202310450234A CN116206133B CN 116206133 B CN116206133 B CN 116206133B CN 202310450234 A CN202310450234 A CN 202310450234A CN 116206133 B CN116206133 B CN 116206133B
- Authority
- CN
- China
- Prior art keywords
- rgb
- cross
- modal
- features
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000002776 aggregation Effects 0.000 claims abstract description 29
- 238000004220 aggregation Methods 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 230000000295 complement effect Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 230000008521 reorganization Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims 1
- 230000006798 recombination Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000007792 addition Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种RGB‑D显著性目标检测方法,涉及图像处理领域,具体包括如下步骤:输入RGB图像和深度图像;对RGB图像和深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。本发明克服了现有技术中不能对跨模态特征进行有效融合,显著性目标检测精度不高的问题。
Description
技术领域
本发明涉及图像处理领域,具体涉及一种RGB-D显著性目标检测方法。
背景技术
在视觉场景中,人类能够快速地将注意力转移到最重要区域。计算机视觉中的显著性目标检测便是由计算机模拟人眼视觉来识别场景中最显著目标,显著目标检测作为计算机视觉应用中重要的预处理任务,已广泛应用于图像理解、图像检索、语义分割、图像修复和物体识别中。随着Kinect和RealSense等深度相机的发展,各种场景的深度图的获取变得更加容易,深度信息可以和RGB图像进行信息互补,有利于提高显著性检测的能力。因此,基于RGB-D的显著性目标检测得到了研究人员的关注。
传统的RGB-D显著性目标检测方法通过手工特征提取,然后融合RGB图像和深度图。例如,Lang等人利用高斯混合模型来模拟深度诱导的显著性的分布。Ciptadi等人从深度测量中提取了三维布局和形状特征,利用不同区域之间的深度差异来测量深度对比度。尽管传统RGB-D检测方法很有效,但所提取的低级特征限制了模型的泛化能力,而且不适用于复杂场景。
显著性目标检测的一个需求是有效融合跨模态信息,在对RGB图和RGB-D图进行编码后,还需要将学习到的两种模态特征融合起来。基于卷积神经网络(CNN)的显著性目标检测方法取得了许多令人印象深刻的结果。现有基于卷积神经网络的显著性检测方法,存在卷积感受野的限制,在学习全局远程依赖方面存在严重不足。其次,现有技术采用的早期或者后期融合策略,难以捕获RGB和深度图像之间的互补和交互作用信息。不能从两种模态中学习高层次的信息,挖掘出集成融合规则,从而不能有效地检测完整的显著性目标。
因此,现需要一种能够对跨模态特征进行有效融合,有效提高显著性目标检测精度的方法。
发明内容
本发明的主要目的在于提供一种RGB-D显著性目标侧方法,以解决现有技术中不能对跨模态特征进行有效融合,显著性目标检测精度不高的问题。
为实现上述目的,本发明提供了一种RGB-D显著性目标检测方法,具体包括如下步骤:S1,输入RGB图像和深度图像;S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;S5,按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
进一步地,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,重组是将一个token序列重建成一个3D张量/>其中,l是token序列Tok的长度,c是token序列Tok和3D张量I的通道数,h,w分别代表I的高度和宽度,且l=h×w;
软拆分是通过展开操作将I软分割成k×k大小的块,经软拆分后得到token序列,其长度l0可以表示为:
其中,S代表块之间像素重叠个数,p代表块之间像素填充个数,k-S代表卷积运算中的步长,当s<k-1时,tokens序列的长度便可降低。
原始RGB图像其中H,W,C分别代表Iinput的高度、宽度和通道数,经过重组得到的token序列/>经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列T′,T1,T1′,T2,T′2,这一过程可以表示为:
T′=Transformer(T),
T1=Unfold(Reshape(T′)),
T1′=Transformer(T1),
T2=Unfold(Reshape(T1′)),
T′2=Transformer(T2)。
进一步地,步骤S2中,基于轻量级卷积网络MobileNet V2的编码器包括倒残差结构。
进一步地,步骤S3中的跨模态Transformer融合模块CMTFM包括:跨模态交互注意力模块和Transformer层,跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息。
进一步地,经跨模态Transformer融合模块,得到跨模态交互信息的公式,表示为:
其中,QR、QD分别为两种模态的查询,KR、KD分别为两种模态的键,VR、VD分别为两种模态的值。
进一步地,步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,特征聚合模块用于聚合特征和融合跨模态信息。
进一步地,特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
S4.1,RGB特征TR和深度特征TD进行相乘,再经过一个IRB进行卷积后得到过渡的RGB-D特征图D,此过程表示为:
D=IRB(TR×TD)。
其中,TR包括:T′、T1′和T3,TD包括:C2、C3、C4。
S4.2,深度特征TD经CBAM增强后的特征记为T″D,此过程表示为:
TD′=Channel(TD)×TD
TD″=Spatial(TD′)×TD′。
S4.3,D再与深度特征T″D再次相乘强化语义特征后得到D′,此过程表示为:
D′=D×TD″。
S4.4,D′与RGB特征TR相加以重新增强显著特征,同时引入较低层次的输出特征TDC进行元素相加,然后使用IRB,得到跨模态融合后的RGB-D特征D″,此过程表示为:
TR′=TR+D′
D″=IRB(TR′+TDC);
进一步地,步骤S4中,来自T2T-ViT的经重组后的RGB信息T′,T′1,T3和来自MobileNet V2的深度信息C1,C2,C3,C4被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征进行融合。
进一步地,步骤S5中,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为总的损失函数Ltotal计算公式如下:
其中,λi表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为Pi(i=1,2,3,4),Gi表示来自真值图的监督,其分辨率与Pi对应,BCE()表示交叉熵损失函数。
本发明具有如下有益效果:
1、本发明充分考虑到RGB图像和深度图像之间的不同。我们使用基于Transformer的T2T-ViT网络和轻量级MobileNet V2网络,分别实现对RGB信息和深度信息的提取。这种非对称双流学习网络设计使本发明相比其他显著性目标检测方法,降低了模型参数量,同时提高了显著性目标检测速度,并具有优秀的显著性目标检测性能。
2、本发明所设计的解码器包括跨模态Transformer融合模块(CMTFM)和跨模态密集协作聚合模块(CMDCAM)。跨模态Transformer融合模块(CMTFM)作为解码器的块,可以建模RGB数据与深度数据之间的远程跨模态依赖,实现RGB数据与深度数据之间的跨模态信息交互。本发明采用密集连接来增强解码器,设计的跨模态密集协作聚合模块(CMDCAM),通过密集协作融合的方式聚合不同层次的特征,并有效地融合跨模态信息。本发明所设计的解码器有效地融合RGB图像信息和深度信息,提高了显著性目标的检测精度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本发明的一种RGB-D显著性目标检测方法的流程图。
图2示出了本发明的一种RGB-D显著性目标检测方法的结构示意图。
图3示出了图2的基于T2T-ViT的transformer编码器的结构示意图。
图4示出了图2的解码器中的特征聚合模块FAM的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示的一种RGB-D显著性目标检测方法,具体包括如下步骤:
S1,输入RGB图像和深度图像。
S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征。
如图2所示,轻量级卷积网络MobileNet V2的编码器包括:MobileNet V2模块一、MobileNet V2模块二、MobileNet V2模块三和MobileNet V2模块四。其中MobileNet V2模块一、MobileNet V2模块二、MobileNet V2模块三和MobileNet V2模块四分别输出深度信息C1、C2、C3、C4;
T2T-ViT网络是对ViT网络的改进,在ViT的基础上增加了T2T操作,相当于卷积神经网络中的下采样,用于同时建模图像的局部结构信息与全局相关性。T2T能将相邻的tokens聚合成一个新的token,从而减少token的长度。
具体地,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,重组是将一个token序列重建成一个3D张量/>其中,l是token序列Tok的长度,c是token序列Tok和3D张量I的通道数,h,w分别代表I的高度和宽度,且l=h×w。
软拆分是通过展开操作将I软分割成k×k大小的块,经软拆分后得到token序列,其长度l0可以表示为:
其中,S代表块之间像素重叠个数,p代表块之间像素填充个数,k-s代表卷积运算中的步长,当s<k-1时,tokens序列的长度便可降低。
原始RGB图像其中H,W,C分别代表Iinput的高度、宽度和通道数,经过重组得到的token序列/>经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列T′,T1,T1′,T2,T′2,这一过程可以表示为:
T′=Transformer(T),
T1=Unfold(Reshape(T′)),
T1′=Transformer(T1),
T2=Unfold(Reshape(T1′)),
T′2=Transformer(T2)。
具体地,步骤S2中,基于轻量级卷积网络MobileNet V2的编码器包括倒残差结构。语义信息主要存在于RGB图像中,深度图传达了没有对象细节的信息。深度图中所含信息相对于RGB较单一,且量少,而且往往深度图中颜色最深的部位便是显著性目标检测任务所要寻找的显著目标。所以本发明采用轻量级的MobileNet V2网络便能很好地提取深度图的信息。MobileNet V2是对MobileNet V1的改进,提出了倒残差结构(Inverted ResidualBlock,IRB)结构。倒残差结构与残差结构中维度先缩减再扩增正好相反,更有利于特征的学习。如图2所示,将MobileNet V2侧输出的4级深度特征图标注为C1、C2、C3、C4。
S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征。
具体地,步骤S3中的跨模态Transformer融合模块(CMTFM,Cross-modalityTransformer Fusion Module)包括:跨模态交互注意力模块和Transformer层,跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息,从而提高显著性预测的准确性。CMTFM基于视觉显著性转换器(Visual Saliency Transformer,VST)中的RGB-D转化器,为了节省参数和计算资源,我们去掉了RGB-D转化器中的自注意力部分。
具体地,如图2所示,在CMTFM中,融合T′2和C4以整合RGB和深度数据之间的互补信息。通过三个线性投影操作将T′2转化生成查询QR,键KR,值VR。类似地,用另外三个线性投影操作将C4转化成查询QD,键KD,值VD。由Transformer层中的多头注意力中的“缩放点积注意力”公式可以得到跨模态交互信息的公式,表示为:
这样来自RGB块标记的信息流T′2和深度块标记的信息流C4通过4次跨模态交互注意力模块来进行跨模态信息交互后,再经过一个4层Transformer层进行强化得到了token序列T3。
来自编码器的RGB和深度序列必须通过线性投影层,以将其嵌入维度从384转换为64,以减少计算和参数。
S4,利用密集连接卷积神经网络增强特征融合模块,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分。
具体地,步骤S4的跨模态密集协作聚合模块(CMDCAM,Cross-modal densecooperative Aggregation Module)包括:三个特征聚合模块(FAM,Feature AggregationModule)和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,以便进行像素级分类。特征聚合模块既能作为解码器网络的组成,承担起聚合特征的作用,也能有效地融合跨模态信息。
具体地,如图4所示,特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;深度图仅传达了一个先验区域,缺乏对像细节。因此,我们先通过两次乘法增强了RGB的语义特征。基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
S4.1,RGB特征TR和深度特征TD进行相乘,再经过一个IRB进行卷积后得到过渡的RGB-D特征图D,此过程表示为:
D=IRB(TR×TD)。
其中,TR包括:T′、T1′和T3,TD包括:C2、C3、C4。S4.2,深度特征TD经CBAM增强后的特征记为T″D,此过程表示为:
TD′=Channel(TD)×TD
TD″=Spatial(TD′)×TD′。
S4.3,D再与深度特征T″D再次相乘强化语义特征后得到D′,此过程表示为:
D′=D×TD″。
S4.4,D′与RGB特征TR相加以重新增强显著特征,同时引入较低层次的输出特征TDC进行元素相加,然后使用IRB,得到跨模态融合后的RGB-D特征D″,此过程表示为:
TR′=TR+D′
D″=IRB(TR′+TDC)。
具体地,步骤S4中,来自T2T-ViT的经重组后的RGB信息T′,T1′,T3和来自MobileNetV2的深度信息C1,C2,C3,C4被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征进行融合。
S5,按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
具体地,如图1所示,步骤S5中,通过在每个解码器模块的输出中依次添加1×1单通道卷积和Sigmoid激活函数来进行显著性映射。在训练期间,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为总的损失函数Ltotal计算公式如下:
其中,λi表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为Pi(i=1,2,3,4),Gi表示来自真值图的监督,其分辨率与Pi对应,BCE()表示交叉熵损失函数。
按照分辨率由小到大的顺序将四个显著性预测图依次记为Pi(i=1,2,3,4)。Gi表示来自GT的监督,其分辨率与Pi对应。利用交叉熵损失函数(BCE)公式,则可计算总的损失函数Ltotal,计算公式如下:
其中,λi表示每个损失的权重。
在显著性目标检测方法中,使用基于图像分类的经预训练的模型作为主干网,有助于训练过程中损失收敛,从而能够有效的提高显著目标检测的精度。本发明使用了经过预训练的基于T2T-ViT的transformer编码器和基于轻量级卷积网络MobileNet V2的编码器来作为主干网提取特征。
本发明设计了跨模态密集协作聚合模块(CMDCAM),该模块基于倒残差模块,具有计算参数量和计算量小的优点。该模块不但可以融合RGB信息和深度信息两种模态信息,而且可以聚合不同层次的特征信息。该模型可以实现在降低检测方法计算量前提下,明显提高了显著性目标的检测性能,并提高了显著性目标的检测精度。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (4)
1.一种RGB-D显著性目标检测方法,其特征在于,具体包括如下步骤:
S1,输入RGB图像和深度图像;
S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;
轻量级卷积网络MobileNet V2的编码器包括:MobileNet V2模块一、MobileNet V2模块二、MobileNet V2模块三和MobileNet V2模块四;
步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,所述重组是将一个token序列重建成一个3D张量/>其中,l是token序列Tok的长度,c是token序列Tok和3D张量I的通道数,h,w分别代表I的高度和宽度,且l=h×w;
所述软拆分是通过展开操作将I软分割成k×k大小的块,I∈Rh×w×c经所述软拆分后得到token序列,其长度l0可以表示为:
其中,s代表块之间像素重叠个数,p代表块之间像素填充个数,k-s代表卷积运算中的步长,当s<k-1时,tokens序列的长度便可降低;
原始RGB图像其中H,W,C分别代表Iinput的高度、宽度和通道数,经过重组得到的token序列/>经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列T′,T1,T′1,T2,T′2,这一过程可以表示为:
T′=Transformer(T),
T1=Unfold(Reshape(T′)),
T1′=Transformer(T1),
T2=Unfold(Reshape(T1′)),
T2′=Transformer(T2)
S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;
步骤S3中的跨模态Transformer融合模块CMTFM包括:跨模态交互注意力模块和Transformer层,所述跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息;来自RGB块标记的信息流T′2和深度块标记的信息流C4通过4次跨模态交互注意力模块来进行跨模态信息交互后,再经过一个4层Transformer层进行强化得到了token序列T3;
S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;
步骤S4中,来自T2T-ViT的经重组后的RGB信息T′,T1′,T3和来自MobileNet V2的深度信息C1,C2,C3,C4被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征进行融合;其中MobileNet V2模块一、MobileNet V2模块二、MobileNet V2模块三和MobileNet V2模块四分别输出深度信息C1、C2、C3、C4;
S5,按照预测的显著图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果;
步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,所述特征聚合模块用于聚合特征和融合跨模态信息;
所述特征聚合模块包括:一个CBAM和两个倒残差结构IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
S4.1,RGB特征TR和深度特征TD进行相乘,再经过一个IRB进行卷积后得到过渡的RGB-D特征图D,此过程表示为:
D=IRB(TR×TD);
其中,TR包括:T′、T1′和T3,TD包括:C2、C3、C4;
S4.2,深度特征TD经CBAM增强后的特征记为T″D,此过程表示为:
T′D=Channel(TD)×TD;
T″D=Spatial(T′D)×T′D
S4.3,D再与深度特征T″D再次相乘强化语义特征后得到D′,此过程表示为:
D′=D×T″D;
S4.4,D′与RGB特征TR相加以重新增强显著特征,同时引入较低层次的输出特征TDC进行元素相加,然后使用IRB,得到跨模态融合后的RGB-D特征D″,此过程表示为:
TR′=TR+D′
D″=IRB(TR′+TDC)。
2.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S2中,基于轻量级卷积网络MobileNet V2的编码器包括倒残差结构。
3.根据权利要求2所述的一种RGB-D显著性目标检测方法,其特征在于,经跨模态Transformer融合模块,得到跨模态交互信息的公式,表示为:
其中,QR、QD分别为两种模态的查询,KR、KD分别为两种模态的键,VR、VD分别为两种模态的值。
4.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S5中,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为总的损失函数Ltotal计算公式如下:
其中,λi表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为Pi(i=1,2,3,4),Gi表示来自真值图的监督,其分辨率与Pi对应,BCE()表示交叉熵损失函数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450234.5A CN116206133B (zh) | 2023-04-25 | 2023-04-25 | 一种rgb-d显著性目标检测方法 |
GB2403824.2A GB2629483A (en) | 2023-04-25 | 2024-03-18 | RGB-D salient object detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450234.5A CN116206133B (zh) | 2023-04-25 | 2023-04-25 | 一种rgb-d显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116206133A CN116206133A (zh) | 2023-06-02 |
CN116206133B true CN116206133B (zh) | 2023-09-05 |
Family
ID=86513158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310450234.5A Active CN116206133B (zh) | 2023-04-25 | 2023-04-25 | 一种rgb-d显著性目标检测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116206133B (zh) |
GB (1) | GB2629483A (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935052B (zh) * | 2023-07-24 | 2024-03-01 | 北京中科睿途科技有限公司 | 智能座舱环境下的语义分割方法及相关设备 |
CN117173394B (zh) * | 2023-08-07 | 2024-04-02 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及系统 |
CN117036891B (zh) * | 2023-08-22 | 2024-03-29 | 睿尔曼智能科技(北京)有限公司 | 一种基于跨模态特征融合的图像识别方法及系统 |
CN117409214A (zh) * | 2023-12-14 | 2024-01-16 | 南开大学 | 基于自适应交互网络的显著性目标检测方法及系统 |
CN119251896A (zh) * | 2024-12-04 | 2025-01-03 | 杭州小肤科技有限公司 | 一种基于多视觉深度信息的人脸关键点识别方法 |
CN119339085A (zh) * | 2024-12-18 | 2025-01-21 | 西北工业大学 | 基于层级共享架构搜索的轻量级rgb-d图像语义分割方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN113486865A (zh) * | 2021-09-03 | 2021-10-08 | 国网江西省电力有限公司电力科学研究院 | 一种基于深度学习的输电线路悬挂异物目标检测方法 |
CN113763422A (zh) * | 2021-07-30 | 2021-12-07 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN113935433A (zh) * | 2021-11-02 | 2022-01-14 | 齐齐哈尔大学 | 基于深度光谱空间倒残差网络的高光谱图像分类方法 |
WO2022166361A1 (zh) * | 2021-02-04 | 2022-08-11 | 浙江师范大学 | 一种基于跨模态融合的深度聚类方法及系统 |
CN115410046A (zh) * | 2022-09-22 | 2022-11-29 | 河南科技大学 | 基于深度学习的皮肤病舌象分类模型、建立方法及应用 |
CN115908789A (zh) * | 2022-12-09 | 2023-04-04 | 大连民族大学 | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120113133A1 (en) * | 2010-11-04 | 2012-05-10 | Shpigelblat Shai | System, device, and method for multiplying multi-dimensional data arrays |
US11734545B2 (en) * | 2017-11-14 | 2023-08-22 | Google Llc | Highly efficient convolutional neural networks |
CN114283315B (zh) * | 2021-12-17 | 2024-08-16 | 安徽理工大学 | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 |
CN115713679A (zh) * | 2022-10-13 | 2023-02-24 | 北京大学 | 基于多源信息融合、热红外和三维深度图的目标检测方法 |
-
2023
- 2023-04-25 CN CN202310450234.5A patent/CN116206133B/zh active Active
-
2024
- 2024-03-18 GB GB2403824.2A patent/GB2629483A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
WO2022166361A1 (zh) * | 2021-02-04 | 2022-08-11 | 浙江师范大学 | 一种基于跨模态融合的深度聚类方法及系统 |
CN113763422A (zh) * | 2021-07-30 | 2021-12-07 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN113486865A (zh) * | 2021-09-03 | 2021-10-08 | 国网江西省电力有限公司电力科学研究院 | 一种基于深度学习的输电线路悬挂异物目标检测方法 |
CN113935433A (zh) * | 2021-11-02 | 2022-01-14 | 齐齐哈尔大学 | 基于深度光谱空间倒残差网络的高光谱图像分类方法 |
CN115410046A (zh) * | 2022-09-22 | 2022-11-29 | 河南科技大学 | 基于深度学习的皮肤病舌象分类模型、建立方法及应用 |
CN115908789A (zh) * | 2022-12-09 | 2023-04-04 | 大连民族大学 | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
Visual Saliency Transformer;Nian Liu 等;《2021 IEEE/CVF International Conference on Computer Vision (ICCV)》;第2022年卷;摘要、第3节、图1 * |
Also Published As
Publication number | Publication date |
---|---|
CN116206133A (zh) | 2023-06-02 |
GB2629483A (en) | 2024-10-30 |
GB202403824D0 (en) | 2024-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116206133B (zh) | 一种rgb-d显著性目标检测方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN109522966B (zh) | 一种基于密集连接卷积神经网络的目标检测方法 | |
CN110210539B (zh) | 多级深度特征融合的rgb-t图像显著性目标检测方法 | |
CN105701508B (zh) | 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法 | |
Wu et al. | Complementarity-aware cross-modal feature fusion network for RGB-T semantic segmentation | |
CN108520535A (zh) | 基于深度恢复信息的物体分类方法 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN113422952B (zh) | 基于时空传播层次编解码器的视频预测方法 | |
CN108171701A (zh) | 基于u网络和对抗学习的显著性检测方法 | |
CN110399518A (zh) | 一种基于图卷积的视觉问答增强方法 | |
CN116503703A (zh) | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 | |
CN114743027B (zh) | 弱监督学习引导的协同显著性检测方法 | |
CN108664885A (zh) | 基于多尺度级联HourGlass网络的人体关键点检测方法 | |
CN117252892B (zh) | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 | |
Jiang et al. | Mirror complementary transformer network for RGB‐thermal salient object detection | |
Zhang et al. | Multiscale adaptation fusion networks for depth completion | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN116645514A (zh) | 一种改进U2-Net的瓷砖表面缺陷分割方法 | |
CN117808819A (zh) | 一种基于预训练模型迁移和提示学习的图像指示分割方法 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
Qiao et al. | Two-Stream Convolutional Neural Network for Video Action Recognition | |
CN118230106A (zh) | 一种基于增强涂鸦注释的弱监督显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |