CN116452805A - 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 - Google Patents
一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 Download PDFInfo
- Publication number
- CN116452805A CN116452805A CN202310401129.2A CN202310401129A CN116452805A CN 116452805 A CN116452805 A CN 116452805A CN 202310401129 A CN202310401129 A CN 202310401129A CN 116452805 A CN116452805 A CN 116452805A
- Authority
- CN
- China
- Prior art keywords
- rgb
- depth
- features
- semantic segmentation
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 51
- 230000011218 segmentation Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 230000002146 bilateral effect Effects 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 239000003086 colorant Substances 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
发明名称:一种基于Transformer的跨模态融合网络的RGB‑D语义分割方法摘要:本发明提供了一种基于Transformer的跨模态融合的RGB‑D语义分割方法,所述方法利用RGB图像和Depth图像的多模态数据,提取跨模态特征用于计算机视觉中的语义分割任务。本发明的贡献主要在于通过考虑Depth特征出发,意识到深度传感器获得的深度学习存在不可靠信息(如,一些深度传感器读取到的深色的物体或者反光的表面的读数往往不准确或者存在空洞),提出利用双边滤波来加强Depth特征的作用,并通过一个跨模态残差融合模块有效的融合RGB特征和Depth特征。通过提出的方法可以有效地处理RGB图像语义分割所遭遇的挑战(很难区分具有相似颜色和纹理的实例),并且可以有效的利用Depth图像。
Description
技术领域
本发明涉及图像处理领域,具体来说,本发明涉及一种基于不同模态的特征提取与融合的语义分割方法。
背景技术
本部分的陈述仅仅是涉及到了与本发明相关的背景技术,并不必然构成现有技术。
语义分割(Semantic Segmentation)是计算机视觉领域中最具挑战性的问题之一,其目的是将图像输入转换为其潜在的语义意义区域,并为许多现实世界的应用程序,实现像素级密集场景理解。随着场景理解、重构和图像处理等计算机视觉领域最热门话题的兴起,图像语义分割作为上述热门话题的基础,也受到了越来越多该领域科研人员的重视。语义分割是计算机视觉中一个基本而永恒的问题,在作为一个多标签分类问题,重点是为每一个像素分配一个类别标签,适用于各种应用(如:自动驾驶、目标分类、图像检索、人机交互手术中医疗器械的检测等)。虽然在语义分割方面有一些优秀的研究成果,但大多数研究只关注了RGB图像。由于RGB学习给出的模型具有明显的颜色和纹理,没有几何信息,因此很难区分具有相似颜色和纹理的实例。为了解决上述问题,研究者开始利用深度信息来辅助RGB语义分割。RGB和深度信息的结合,被称为RGB-D,是相当重要的方法,深度图像能够提供所需的几何信息,从而有可能丰富RGB图像的表示,并更好地区分各种物体。
现在的RGB-D语义分割方法存在两个主要的挑战:一是如何有效的从附加的Depth中提取特征;二是如何有效融合两种模态的不同特征。现在的方法主要是将深度图视作单通道图像,并且使用卷积神经网络(Convolutional Neural Network,CNN)从深度图中提取类似与RGB图的特征,然而这种方法忽略了深度传感器获得的深度并非每一个深度值都是可靠的。由于RGB图像和深度图像属于两个不同的模态,如何有效的融合两种不同模态的特征也是RGB-D语义分割的一项重要的挑战。
基于上文提到基于卷积神经网络的方法的缺点,本发明试图设计一个可以高效提取RGB和深度特征的框架,在特征提取的过程中明确的考虑到输入的深度值的可靠性,对深度图像进行噪声处理,可以有效的利用深度图像的特征。为了解决RGB特征和深度特征融合的问题,本发明设计了一个一种跨模态残差融合模块。
发明内容
针对以上提出的问题,本发明的目的是提供一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,具体的采用的技术方案如下:
1.获取并整理用于训练和测试的RGB-D数据集。
1.1)对获取到的数据集(NYU Depth V2数据集,SUN RGB-D数据集)进行整理并且归纳为以下几类:RGB图像PRGB,深度图像PDepth和由人工标注的真值图像PGT。
1.2)将收到的数据集分成训练集和测试集。其中NYU Depth V2一共右1449张图片,选择795张图片作为训练集,其余的654张图片作为测试集。SUN RGB-D由10335张室内的RGB-D图片组成,将这些图像分为5285个样本的训练集和5050个样本的测试集。
2.本发明的网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成,分别从RGB图像和深度模式中提取特定的模式特征,然后由一个语义解码器生成最终的语义分割结果。
2.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征,并且语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。
2.2)RGB和Depth通过两个平行的Encoder主干,将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征,分别命名为 和
2.3)由于深度传感器的测量可能受到物理环境的影响,一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器,如Kinect,在深度无法精确测量时,只会返回一个空值。在这些情况下,我们将其不确定性映射表示为二进制映射U∈{0,1}H×W,其中0表示该位置没有传感器读数,1表示有效传感器读数。对于传感器测得的Depth图像,本发明利用双边滤波来解决深度不确定的问题,先根据像素值对要用来进行滤波的邻域做一个分割或分类,再给该点所属的类别相对较高的权重,然后进行邻域加权求和,得到最终结果。
利用二维高斯函数生成空间域核,一维高斯函数生成颜色域核:
其中,(k,l)为核中心坐标,(i,j)为核内邻域坐标。σd为高斯函数的标准差。
其中f(i,j)代表图像在(i,j)处的灰度值,其他标识和空间域一致。
2.4)本发明使用PyTorch框架来实现和训练本发明的网络。本发明的编码器使用Swin-S的默认配置。
3.基于步骤2所提取到的RGB特征和深度特征/> 本发明将每个编码器块的输出,使用本发明提出的跨模态残差融合模块来融合RGB编码器和深度编码器之间的特征,并将两种模态的特征合并成单一的融合特征。融合模块从RGB分支和深度分支获取输入,并将更新后的特征返回到对应的下一个块的编码器,以增强两种不同模态之间特征的互补性。
3.1)首先,本发明设计了一个跨模态残存融合模块(Cross-Model ResidualFeature Fusion Module,CRFFM),该模块首先从一个模态中选择与另一个模态互补的特征,然后在模态和水平之间进行特征融合。
3.1.1)首先,在融合模块的第一个阶段,本发明将RGB图像特征和深度图像特征分别输入到一个改进的坐标注意力模块(Coordinate attention,CAM)用来增强特征表示能力。接着将RGB特征和深度特征通过一个对称的特征选择阶段,选择不同模态的互补信息进行残差链接,将经过残差连接后的特征作为下一阶段解码器的输出和和融合阶段的输入。
3.1.2)本发明将结果残差连接后的RGB特征和深度特征分别先通过Conv3×3卷积在进行交叉逐元素乘和最大化操作并将两者产生的特征进行连接操作,再经过一个Conv3×3卷积进行融合特征的输出。
4.通过上述步骤,本发明能够得到跨模态融合特征Fi。语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。本发明中使用的是UperNet解码器作为我们的语义解码器,其效率较高。
5.通过本发明预测出来的语义分割图Ppre与人工标注的语义分割真值图PGT比较进行损失函数的计算,并通过反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D语义分割算法的结构和权重参数。本发明的损失函数使用的是交叉熵损失函数:
6.在步骤5确定模型的结构和权重参数的基础上,对测试集上的RGB-D图像进行测试,生成语义分割图,并使用PixelAcc.和mIoU评价指标进行评估。
附图说明
图1为本发明的模型结构示意图
图2为双边滤波模块的流程示意图
图3为跨模态残差融合模块示意图
图4为改进的坐标注意力模块示意图
具体实施方式
下面结合本发明实例中的附图,对本发明实例中的技术方案进行完整、清楚的描述,此外,所叙述的实例仅仅是本发明的一部分实例,而不是所有实例。基于本发明中的实例,本研究方向普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实例,都属于本发明保护范围。
参考附图1,一种基于Transformer的跨模态融合网络的RGB-D语义分割方法主要包含以下步骤:
1.获取并整理用于训练和测试的RGB-D数据集。
1.1)对获取到的数据集(NYU Depth V2数据集,SUN RGB-D数据集)进行整理并且归纳为以下几类:RGB图像PRGB,深度图像PDepth和由人工标注的真值图像PGT。
1.2)将收到的数据集分成训练集和测试集。其中NYU Depth V2一共右1449张图片,选择795张图片作为训练集,其余的654张图片作为测试集。SUN RGB-D由10335张室内的RGB-D图片组成,将这些图像分为5285个样本的训练集和5050个样本的测试集。
2.本发明的网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成,分别从RGB图像和深度模式中提取特定的模式特征,然后由一个语义解码器生成最终的语义分割结果。
2.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征,并且语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。
2.2)RGB和Depth通过两个平行的Encoder主干,将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征,分别命名为 和
2.3)由于深度传感器的测量可能受到物理环境的影响,一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器,如Kinect,在深度无法精确测量时,只会返回一个空值。在这些情况下,我们将其不确定性映射表示为二进制映射U∈{0,1}H×W,其中0表示该位置没有传感器读数,1表示有效传感器读数。对于传感器测得的Depth图像,本发明利用双边滤波来解决深度不确定的问题,先根据像素值对要用来进行滤波的邻域做一个分割或分类,再给该点所属的类别相对较高的权重,然后进行邻域加权求和,得到最终结果。
利用二维高斯函数生成空间域核,一维高斯函数生成颜色域核:
其中,(k,l)为核中心坐标,(i,j)为核内邻域坐标。σd为高斯函数的标准差。
其中f(i,j)代表图像在(i,j)处的灰度值,其他标识和空间域一致。
2.4)本发明使用PyTorch框架来实现和训练本发明的网络。本发明的编码器使用Swin-S的默认配置。
3.基于步骤2所提取到的RGB特征和深度特征/> 本发明将每个编码器块的输出,使用本发明提出的跨模态残差融合模块来融合RGB编码器和深度编码器之间的特征,并将两种模态的特征合并成单一的融合特征。融合模块从RGB分支和深度分支获取输入,并将更新后的特征返回到对应的下一个块的编码器,以增强两种不同模态之间特征的互补性。
3.1)首先,本发明设计了一个跨模态残存融合模块(Cross-Model ResidualFeature Fusion Module,CRFFM),该模块首先从一个模态中选择与另一个模态互补的特征,然后在模态和水平之间进行特征融合。
3.1.1)首先,在融合模块的第一个阶段,本发明将RGB图像特征和深度图像特征分别输入到一个改进的坐标注意力模块(Coordinate attention,CAM)用来增强特征表示能力。接着将RGB特征和深度特征通过一个对称的特征选择阶段,选择不同模态的互补信息进行残差链接,将经过残差连接后的特征作为下一阶段解码器的输出和和融合阶段的输入。
3.1.2)本发明将结果残差连接后的RGB特征和深度特征分别先通过Conv3×3卷积在进行交叉逐元素乘和最大化操作并将两者产生的特征进行连接操作,再经过一个Conv3×3卷积进行融合特征的输出。
4.通过上述步骤,本发明能够得到跨模态融合特征Fi。语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。本发明中使用的是UperNet解码器作为我们的语义解码器,其效率较高。
5.通过本发明预测出来的语义分割图Ppre与人工标注的语义分割真值图PGT比较进行损失函数的计算,并通过反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D语义分割算法的结构和权重参数。本发明的损失函数使用的是交叉熵损失函数:
6.在步骤5确定模型的结构和权重参数的基础上,对测试集上的RGB-D图像进行测试,生成语义分割图,并使用Pixel Acc.和mIoU评价指标进行评估。
以上所述为本申请优先实施而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。
Claims (7)
1.一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,其特征在于包括用于训练和测试的图像样本的采集和整理,双流编码器的构建,跨模态特征的提取和融合,深度图像处理的双边滤波模块。
2.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,其特征在于所使用的数据包括NYU V2数据集,SUN RGB-D数据集,单个样本分为RGB图像PRGB,深度图像PDepth和人工标注的语义分割图像PGT;训练集由NYU V2数据集中的795个样本和SUN RGB-D数据集中的5285个样本构成的样本集,剩余的样本作为测试集。
3.根据权利要求1所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,其特征在于网络框架由两个并行编码器(RGB Encoder和Depth Encoder)组成,分别从RGB图像和深度模式中提取特定的模式特征,然后由一个语义解码器生成最终的语义分割结果。
3.1)两个平行独立的主干分别从RGB和Depth模态输入中提取特征,并且语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。
3.2)RGB和Depth通过两个平行的Encoder主干,将会经过四个顺序的Transformer块分别得到4个层次的RGB特征和Depth特征,分别命名为 和
3.3)由于深度传感器的测量可能受到物理环境的影响,一般来说现有的深度传感器在测量高度反射或高光吸收表面的深度时存在困难。传统的深度传感器,如Kinect,在深度无法精确测量时,只会返回一个空值。在这些情况下,我们将其不确定性映射表示为二进制映射U∈{0,1}H×W,其中0表示该位置没有传感器读数,1表示有效传感器读数。对于传感器测得的Depth图像,本发明利用双边滤波来解决深度不确定的问题。
利用二维高斯函数生成空间域核,一维高斯函数生成颜色域核:
其中,(k,l)为核中心坐标,(i,j)为核内邻域坐标。σd为高斯函数的标准差。
其中f(i,j)代表图像在(i,j)处的灰度值,其他标识和空间域一致。
4.根据权利要求3所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,其特征在于本发明将每个编码器块的输出,使用本发明提出的跨模态残差融合模块来融合RGB编码器和深度编码器之间的特征,并将两种模态的特征合并成单一的融合特征。融合模块从RGB分支和深度分支获取输入,并将更新后的特征返回到对应的下一个块的编码器,以增强两种不同模态之间特征的互补性。
4.1)首先,本发明设计了一个跨模态残存融合模块(Cross-Model Residual FeatureFusion Module,CRFFM),该模块首先从一个模态中选择与另一个模态互补的特征,然后在模态和水平之间进行特征融合。
4.1.1)首先,在融合模块的第一个阶段,本发明将RGB图像特征和深度图像特征分别输入到一个改进的坐标注意力模块(Coordinate attention,CAM)用来增强特征表示能力。接着将RGB特征和深度特征通过一个对称的特征选择阶段,选择不同模态的互补信息进行残差链接,将经过残差连接后的特征作为下一阶段解码器的输出和和融合阶段的输入。
4.1.2)本发明将结果残差连接后的RGB特征和深度特征分别先通过Conv3×3卷积在进行交叉逐元素乘和最大化操作并将两者产生的特征进行连接操作,再经过一个Conv3×3卷积进行融合特征的输出。
5.根据权利要求4所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,其特征在于语义解码器将各个融合模块的融合特征作为输入,生成最终的分割结果。
6.根据权利要求5所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,其特征在于通过本发明预测出来的语义分割图Ppre与人工标注的语义分割真值图PGT比较进行损失函数的计算,并通过反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D语义分割算法的结构和权重参数。
7.根据权利要求6所述一种基于Transformer的跨模态融合网络的RGB-D语义分割方法,其特征在于对测试集上的RGB-D图像进行测试,生成语义分割图,并使用PixelAcc.和mIoU评价指标进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310401129.2A CN116452805A (zh) | 2023-04-15 | 2023-04-15 | 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310401129.2A CN116452805A (zh) | 2023-04-15 | 2023-04-15 | 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452805A true CN116452805A (zh) | 2023-07-18 |
Family
ID=87129776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310401129.2A Pending CN116452805A (zh) | 2023-04-15 | 2023-04-15 | 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452805A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036891A (zh) * | 2023-08-22 | 2023-11-10 | 睿尔曼智能科技(北京)有限公司 | 一种基于跨模态特征融合的图像识别方法及系统 |
CN117115061A (zh) * | 2023-09-11 | 2023-11-24 | 北京理工大学 | 一种多模态图像融合方法、装置、设备及存储介质 |
CN118551802A (zh) * | 2024-07-31 | 2024-08-27 | 鹏城实验室 | 锌回转窑数字孪生模型参数更新方法、装置、设备及介质 |
-
2023
- 2023-04-15 CN CN202310401129.2A patent/CN116452805A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036891A (zh) * | 2023-08-22 | 2023-11-10 | 睿尔曼智能科技(北京)有限公司 | 一种基于跨模态特征融合的图像识别方法及系统 |
CN117036891B (zh) * | 2023-08-22 | 2024-03-29 | 睿尔曼智能科技(北京)有限公司 | 一种基于跨模态特征融合的图像识别方法及系统 |
CN117115061A (zh) * | 2023-09-11 | 2023-11-24 | 北京理工大学 | 一种多模态图像融合方法、装置、设备及存储介质 |
CN117115061B (zh) * | 2023-09-11 | 2024-04-09 | 北京理工大学 | 一种多模态图像融合方法、装置、设备及存储介质 |
CN118551802A (zh) * | 2024-07-31 | 2024-08-27 | 鹏城实验室 | 锌回转窑数字孪生模型参数更新方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
Lian et al. | Deep-learning-based small surface defect detection via an exaggerated local variation-based generative adversarial network | |
CN110276316B (zh) | 一种基于深度学习的人体关键点检测方法 | |
CN108288088B (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
CN116452805A (zh) | 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 | |
Zhao et al. | Hi-Fi: Hierarchical feature integration for skeleton detection | |
CN107330453B (zh) | 基于分步识别和融合关键部位检测的色情图像识别方法 | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
WO2023077816A1 (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN111275026B (zh) | 一种三维点云联合语义和实例分割的方法 | |
CN107316307A (zh) | 一种基于深度卷积神经网络的中医舌图像自动分割方法 | |
CN111598098B (zh) | 一种基于全卷积神经网络的水尺水位线检测及有效性识别方法 | |
CN113313668B (zh) | 一种地铁隧道表面病害特征提取方法 | |
Wang et al. | Feature extraction and segmentation of pavement distress using an improved hybrid task cascade network | |
CN116486273B (zh) | 一种小样本遥感图像水体信息提取方法 | |
CN111797920A (zh) | 门控特征融合的深度网络不透水面遥感提取方法及系统 | |
CN116704512A (zh) | 一种融合语义和视觉信息的仪表识别方法及系统 | |
Cheng et al. | Selective feature fusion and irregular-aware network for pavement crack detection | |
Maurya et al. | A global context and pyramidal scale guided convolutional neural network for pavement crack detection | |
CN114266750A (zh) | 一种基于注意力机制神经网络的日常物体材质识别方法 | |
CN104866850B (zh) | 一种文本图像二值化的优化方法 | |
CN112749738A (zh) | 一种融合上下文进行超类推理的零样本对象检测方法 | |
Dong et al. | Combination of modified U‐Net and domain adaptation for road detection | |
Yang et al. | Insulator detection using small samples based on YOLOv5 in natural background | |
CN116189139A (zh) | 一种基于Transformer的交通标志检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |