CN117115061B - 一种多模态图像融合方法、装置、设备及存储介质 - Google Patents
一种多模态图像融合方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117115061B CN117115061B CN202311168798.6A CN202311168798A CN117115061B CN 117115061 B CN117115061 B CN 117115061B CN 202311168798 A CN202311168798 A CN 202311168798A CN 117115061 B CN117115061 B CN 117115061B
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- attention mechanism
- color space
- multimodal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 94
- 230000007246 mechanism Effects 0.000 claims abstract description 49
- 230000009977 dual effect Effects 0.000 claims abstract description 24
- 230000000295 complement effect Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000002603 single-photon emission computed tomography Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 238000002591 computed tomography Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 42
- 230000008569 process Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 238000002600 positron emission tomography Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10104—Positron emission tomography [PET]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10108—Single photon emission computed tomography [SPECT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种多模态图像融合方法、装置、设备及存储介质,获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量、色度分量以及浓度分量;通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果。该方法通过利用迭代的双重注意力机制,能够有效地捕获和聚合来自不同模态的互补信息,从而生成具有丰富、全面特征的高质量融合图像,为多个领域应用提供了一个灵活、高效而又有效的解决方案。
Description
技术领域
本发明涉及多模态图像融合技术领域,特别是涉及一种基于迭代双注意力机制的多模态图像融合方法、装置、设备及存储介质。
背景技术
多模态图像融合是计算机视觉领域中一项重要且具有挑战性的任务,旨在将不同成像方式的互补信息融合,以生成一个单一的高质量图像。该任务在军事防御、视频监控、自动驾驶和医学诊断等领域都有广泛的应用。
近年来,解决多模态图像融合相关挑战的研究与日俱增,大致可分为传统方法和深度学习方法两大类。传统的方法,如稀疏表示、多尺度变换、子空间和显著性方法,主要依赖于领域知识或启发式指导的手工特征提取技术。虽然传统方法具有一定的可解释性和对融合过程的显式控制,但它们往往比较复杂、且鲁棒性较差。
相比之下,深度学习方法主要包括卷积神经网络(CNN)、生成对抗网络(GAN)和Transformers,它们避开人工特征技术,利用深度神经网络的非线性拟合能力自动学习特征,在捕获复杂和高级特征方面表现出优异的性能,在多模态图像融合领域占据主导地位。然而,尽管传统方法和深度学习方法都取得了不错的性能,但仍存在一些局限性有待解决。
首先,如图7所示,现有方法通常采用多阶段处理流程,包括特征提取、特征融合和特征重建,缺乏用于无缝集成不同阶段的统一框架,增加了网络的复杂性。
其次,特征融合阶段依赖于预定义的融合规则,如平均、加权平均、最大或最小选择、连接或加法操作等,以聚合所提取的特征。然而,这些规则没有充分考虑到不同模态图像的内在特征,从而影响了特征的有效利用。
最后,多模态图像融合任务包括各种模态组合、图像特征和应用场景,许多现有的方法通常针对特定的融合任务量身定制,缺乏处理不同融合场景所需的适应性。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种多模态图像融合方法、装置、设备及存储介质。该方法基于迭代双注意力机制,具有精简的融合流程和优越的融合效果。
本发明提供了如下方案:
一种多模态图像融合方法,包括:
获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;
将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量、色度分量以及浓度分量;
通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果;
通过将所述色度分量以及所述浓度分量与所述融合结果进行合并,并从YUV颜色空间转成RGB颜色空间,获得所述多模态图像对的目标融合结果;
其中,所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络;所述主干网络包括双重注意力模块,所述双重注意力模块包括自注意力机制以及交叉注意力机制;所述自注意力机制用于通过对特定模态图像进行长程依赖建模,以便提取并保留各自模态特定的判别特征;所述交叉注意力机制用于建立不同模态之间的关系,以便识别和加强相关的互补信息促进跨模态特征的交互和聚合。
优选地:所述自注意力机制包括基于窗口的局部多头自注意力机制。
优选地:所述交叉注意力机制包括对称约束策略。
优选地:所述主干网络还包括Patch Embedding处理模块以及Swin TransformerBlock模块;所述双重注意力模块位于所述Patch Embedding处理模块与所述SwinTransformer Block模块之间。
优选地:所述图像重建子网络包括两个卷积层,两个所述卷积层包括3×3卷积核、批归一化、带泄露修正线性单元激活函数以及1×1卷积核、批归一化以及Tanh激活函数。
优选地:所述三通道RGB图像包括可见光图像、正电子发射式计算机断层成像图像以及单光子发射式计算机断层图像;所述单通道灰度图像包括红外图像以及磁共振图像。
优选地:所述多模态图像对包括可见光图像与红外图像对、正电子发射式计算机断层成像图像与磁共振图像对、单光子发射式计算机断层图像与磁共振图像对。
一种多模态图像融合装置,包括:
图像对获取单元,用于获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;
分量获取单元,用于将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量、色度分量以及浓度分量;
图像融合单元,用于通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果;
合并单元,用于通过将所述色度分量以及所述浓度分量与所述融合结果进行合并,并从YUV颜色空间转成RGB颜色空间,获得所述多模态图像对的目标融合结果;
其中,所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络;所述主干网络包括双重注意力模块,所述双重注意力模块包括自注意力机制以及交叉注意力机制;所述自注意力机制用于通过对特定模态图像进行长程依赖建模,以便提取并保留各自模态特定的判别特征;所述交叉注意力机制用于建立不同模态之间的关系,以便识别和加强相关的互补信息促进跨模态特征的交互和聚合。
一种多模态图像融合设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的多模态图像融合方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的多模态图像融合方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本申请实施例提供的一种多模态图像融合方法、装置、设备及存储介质,通过利用迭代的双重注意力机制,能够有效地捕获和聚合来自不同模态的互补信息,从而生成具有丰富、全面特征的高质量融合图像,为多个领域应用提供了一个灵活、高效而又有效的解决方案。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种多模态图像融合方法的流程图;
图2是本发明实施例提供的一种多模态图像融合方法的网络架构图;
图3是本发明实施例提供的DAB模块的网络结构图;
图4是本发明实施例提供的STB模块的网络结构图;
图5是本发明实施例提供的一种多模态图像融合装置的结构示意图;
图6是本发明实施例提供的一种多模态图像融合设备的结构示意图;
图7是现有技术中多阶段处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种多模态图像融合方法,如图1所示,该方法可以包括:
S101:获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;具体的,所述三通道RGB图像包括可见光图像VIS、正电子发射式计算机断层成像图像PET以及单光子发射式计算机断层图像SPECT;所述单通道灰度图像包括红外图像IR以及磁共振图像MRI。进一步的,所述多模态图像对包括可见光图像与红外图像对(VIS-IR)、正电子发射式计算机断层成像图像与磁共振图像对(PET-MRI)、单光子发射式计算机断层图像与磁共振图像对(SPECT-MRI)。
S102:将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量Y、色度分量U以及浓度分量V;
S103:通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果;
S104:通过将所述色度分量以及所述浓度分量与所述融合结果进行合并,并从YUV颜色空间转成RGB颜色空间,获得所述多模态图像对的目标融合结果;
其中,所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络;所述主干网络包括双重注意力模块,所述双重注意力模块包括自注意力机制以及交叉注意力机制;所述自注意力机制用于通过对特定模态图像进行长程依赖建模,以便提取并保留各自模态特定的判别特征;所述交叉注意力机制用于建立不同模态之间的关系,以便识别和加强相关的互补信息促进跨模态特征的交互和聚合。
本申请实施例提供的多模态图像融合方法,采用双重注意力模块具有精简的融合流程和优越的融合效果。具体实现时,本申请实施例可以提供所述自注意力机制包括基于窗口的局部多头自注意力机制。所述交叉注意力机制包括对称约束策略。
训练多模态图像融合深度网络的核心在于设计一个即插即用的双重注意力模块(Dual Attention Block,DAB),即利用自注意力和交叉注意力机制将特征提取和特征融合两个阶段无缝衔接起来。自注意力机制通过对特定模态图像进行长程依赖建模,从而提取并保留各自模态特定的判别特征。与此同时,交叉注意力机制建立了不同模态之间的关系,有助于识别和加强相关的互补信息,促进跨模态特征的交互和聚合。
此外,在交叉注意力机制中引入了一种对称约束策略,更有利于约束引导网络优先考虑重要的区域和特征,同时抑制不相关或冗余的信息,从而提高了融合结果的质量和可解释性。
所述主干网络还包括Patch Embedding处理模块以及Swin Transformer Block模块;所述双重注意力模块位于所述Patch Embedding处理模块与所述Swin TransformerBlock模块之间。
所述图像重建子网络包括两个卷积层,两个所述卷积层包括3×3卷积核、批归一化、带泄露修正线性单元激活函数以及1×1卷积核、批归一化以及Tanh激活函数。
为了构建集特征提取和特征融合功能于一体的主干网络,
首先,将输入图像进行常规的Patch Embedding处理,得到合适的token;PatchEmbedding是一种从自然语言处理任务延伸到图像处理任务的嵌入方法,它可以将给定的图像分割成若干个"补丁”patch,然后将每个patch映射到一维序列到最终的二维图像表示,具体来说,通过一个二维卷积、向量展开和转置操作,那么PatchEmbedding就可以通过将图像中的每个像素映射成特征向量,然后将这些特征向量按照一定的方式进行组合得到图像的最终表示。
其次,将得到的token送入DAB模块中进行特征提取和特征融合,输出特征图;
再次,将特征图输入STB(Swin Transformer Block)模块中进一步加强特征的表征;
最后,以“Patch Embedding+DAB+STB”为单元进行堆叠作为主干网络,本发明以3个单元为例。
进一步地,为了构建图像重建子网络,采用1个3×3卷积核、批归一化(BatchNormalization)、Leaky Relu(Leaky Rectified linear unit,带泄露修正线性单元)激活函数和1个1×1卷积核、批归一化(Batch Normalization)、Tanh激活函数构成。
下面对本申请实施例提供的方法进行详细介绍,该方法可以包括以下步骤。
步骤一:构建并训练多模态图像融合深度网络,所述的深度网络包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络。
步骤二:获取待融合的多模态图像对,可以为可见光图像与红外图像对(VIS-IR),正电子发射式计算机断层成像图像与磁共振图像对(PET-MRI),以及单光子发射式计算机断层图像与磁共振图像对(SPECT-MRI)。
步骤三:将VIS、PET或SPECT图像从RGB颜色空间转成YUV颜色空间,获得相应的Y、U、V分量。YUV是编译true-color颜色空间(color space)的种类。YUV分为三个分量:Y表示明亮度(Luminance或Luma),也就是灰度值;U(Cb)表示色度(Chrominance),V(Cr)表示浓度(Chroma),通常UV一起描述影像色彩和饱和度,用于指定像素的颜色。
步骤四:将VIS、PET或SPECT的Y分量和对应IR或MRI图像输入经过训练的多模态图像融合模型中,输出融合结果。
步骤五:将步骤三中U、V分量与步骤四中的融合结果合并,并从YUV颜色空间转成RGB颜色空间,以此作为待融合多模态图像的融合结果。
如图2所示,主干网络的构建主要包括以下步骤:
第一步:获取待融合的多模态图像对,这里是VIS-IR,PET-MRI或SPECT-MRI图像对。由于VIS、PET和SPECT(用Ivis表示)是三通道RGB图像,IR和MRI(用Iir表示)是单通道灰度图像,所以需要将VIS、PET和SPECT模态图像从RGB转化为YUV颜色空间,获得Y,U,V三个颜色分量;然后,将Y分量与单通道灰度图像Iir从通道方向进行堆叠,获得堆叠后的特征图像Iinput输入主干网络,该过程表示为:
式中,H和W分别表示图像的宽和高,VIS-IR图像对时为128和128,PET-MRI、SPECT-MRI图像对时为224和224。
第二步:对所述的堆叠后的特征图像进行Patch Embedding处理,其实就是将堆叠后的特征图像Iinput,经过一个卷积核和层归一化(Layer normalization,LN)等操作输出Zembed。
为了处理任意分辨率图像,将Patch的大小设置为1。
该过程表示为:
第三步:对第二步Patch Embedding处理后得到的特征向量Zembed输入第i个DAB模块中进行特征提取和特征融合,得到相应的特征图。
具体地,如图3所示,多模态双重注意力模块DAB的网络结构主要包括自注意力机制(Self-attention)和跨注意力机制(Cross-attention)两个模块。
在Self-attention模块中,首先,将特征向量Zembed沿着通道方向进行分离,分别获得两个模态的特征向量{Zvis,Zir},该过程可表示为:
然后,采用基于窗口的局部多头自注意力对特征向量Zvis和Zir分别进行特征提取,也就是在窗口内建模像素之间的长程依赖关系,窗口大小为8×8。此时,获得两个模态的特征为{Z″vis,Z″ir},该处理过程可表示为:
和
式中,W-MSA表示基于窗口的自注意力,FFN表示一个前馈神经网络。
由于在自注意力计算过程中查询Q,键K,值V是同等重要的,假定输入特征Z,三个可学习的加权矩阵为(WQ,WK,WV),这样可以获得权重矩阵或关联矩阵下标j表示第j个头,从而加权和的值的计算过程可表示为:
式中,dk表示KZ的维度。
因此,可以通过下式计算得到所有头的注意力加权和并堆叠所有值。
headj=Attention(ZWj Q,ZWj K,ZWj V)
MultiHead(Z)=Concat(head1,…,headh)WO
式中,h表示计算次数。
在Cross-attention模块中,构建了一种包含对称约束策略的交叉注意力机制加强跨模态信息之间地全局建模。
具体为将两个独立分支的K值(Kvis,Kir)和V值(Vvis,Vir)分别进行相加操作,再进行基于滑动窗口的多头自注意力(SW-MSA)操作。
该过程可表示为:
Kd=Add(Kvis,Kir),Vd=Add(Vvis,Vir)
第四步:对第三步得到的特征图输入第i个STB模块中,得到特征加强后的特征图。
具体地,如附图4所示,多模态STB的网络结构采用Swin-Transformer Layer,由W-MSA和SW-MSA两个自注意力模块构成。
该过程可表示为:
因此,主干网络提取和融合特征的整个过程可表示为:
图像重建子网络主要包括两个卷积层,由1个3×3卷积核、批归一化(BatchNormalization)、Leaky Relu(Leaky Rectified linear unit,带泄露修正线性单元)激活函数和1个1×1卷积核、批归一化(Batch Normalization)、Tanh激活函数构成。在反向传播过程中,对于Leaky ReLU激活函数输入小于零的部分,也可以计算得到梯度(而不是像ReLU一样值为0),这样就避免了梯度方向锯齿问题。Tanh是双曲正切函数,它将整个实数区间映射到了(-1,1),Tanh函数也具有软饱和性,它的输出是以0为中心,收敛速度比sigmoid快。两个卷积层分别表示为:HCBL(·)和HCBT(·)。
最后,将图像重建子网络获得融合结果与/>合并转成RGB颜色空间,将该结果输出为融合结果,本申请实施例获得的融合结果可表示为:
总之,本申请提供的多模态图像融合方法,通过利用迭代的双重注意力机制,能够有效地捕获和聚合来自不同模态的互补信息,从而生成具有丰富、全面特征的高质量融合图像,为多个领域应用提供了一个灵活、高效而又有效的解决方案。
参见图5,本申请实施例还可以提供一种多模态图像融合装置,如图5所示,该装置可以包括:
图像对获取单元501,用于获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;
分量获取单元502,用于将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量、色度分量以及浓度分量;
图像融合单元503,用于通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果;
合并单元504,用于通过将所述色度分量以及所述浓度分量与所述融合结果进行合并,并从YUV颜色空间转成RGB颜色空间,获得所述多模态图像对的目标融合结果;
其中,所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络;所述主干网络包括双重注意力模块,所述双重注意力模块包括自注意力机制以及交叉注意力机制;所述自注意力机制用于通过对特定模态图像进行长程依赖建模,以便提取并保留各自模态特定的判别特征;所述交叉注意力机制用于建立不同模态之间的关系,以便识别和加强相关的互补信息促进跨模态特征的交互和聚合。
本申请实施例还可以提供一种多模态图像融合设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的多模态图像融合方法的步骤。
如图6所示,本申请实施例提供的一种多模态图像融合设备,可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行多模态图像融合方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;
将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量、色度分量以及浓度分量;
通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果;
通过将所述色度分量以及所述浓度分量与所述融合结果进行合并,并从YUV颜色空间转成RGB颜色空间,获得所述多模态图像对的目标融合结果;
其中,所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络;所述主干网络包括双重注意力模块,所述双重注意力模块包括自注意力机制以及交叉注意力机制;所述自注意力机制用于通过对特定模态图像进行长程依赖建模,以便提取并保留各自模态特定的判别特征;所述交叉注意力机制用于建立不同模态之间的关系,以便识别和加强相关的互补信息促进跨模态特征的交互和聚合。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如初始化数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图6所示的结构并不构成对本申请实施例中多模态图像融合设备的限定,在实际应用中多模态图像融合设备可以包括比图6所示的更多或更少的部件,或者组合某些部件。
本申请实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的多模态图像融合方法的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种多模态图像融合方法,其特征在于,包括:
获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;
将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量、色度分量以及浓度分量;
通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果;
通过将所述色度分量以及所述浓度分量与所述融合结果进行合并,并从YUV颜色空间转成RGB颜色空间,获得所述多模态图像对的目标融合结果;
其中,所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络;所述主干网络包括双重注意力模块,所述双重注意力模块包括自注意力机制以及交叉注意力机制;所述自注意力机制用于通过对目标模态图像进行长程依赖建模,以便提取并保留各自模态对应的判别特征;所述交叉注意力机制用于建立不同模态之间的关系,以便识别和加强相关的互补信息促进跨模态特征的交互和聚合;
所述主干网络还包括Patch Embedding处理模块以及Swin Transformer Block模块;所述双重注意力模块位于所述Patch Embedding处理模块与所述Swin Transformer Block模块之间。
2.根据权利要求1所述的多模态图像融合方法,其特征在于,所述自注意力机制包括基于窗口的局部多头自注意力机制。
3.根据权利要求1所述的多模态图像融合方法,其特征在于,所述交叉注意力机制包括对称约束策略。
4.根据权利要求1所述的多模态图像融合方法,其特征在于,所述图像重建子网络包括两个卷积层,两个所述卷积层包括3×3卷积核、批归一化、带泄露修正线性单元激活函数以及1×1卷积核、批归一化以及Tanh激活函数。
5.根据权利要求1所述的多模态图像融合方法,其特征在于,所述三通道RGB图像包括可见光图像、正电子发射式计算机断层成像图像以及单光子发射式计算机断层图像;所述单通道灰度图像包括红外图像以及磁共振图像。
6.根据权利要求5所述的多模态图像融合方法,其特征在于,所述多模态图像对包括可见光图像与红外图像对、正电子发射式计算机断层成像图像与磁共振图像对、单光子发射式计算机断层图像与磁共振图像对。
7.一种多模态图像融合装置,其特征在于,包括:
图像对获取单元,用于获取待融合的多模态图像对,所述多模态图像对包括三通道RGB图像以及单通道灰度图像;
分量获取单元,用于将所述三通道RGB图像从RGB颜色空间转成YUV颜色空间,获得相应的明亮度分量、色度分量以及浓度分量;
图像融合单元,用于通过将所述明亮度分量以及所述单通道灰度图像输入到多模态图像融合模型中进行图像融合,以得到融合结果;
合并单元,用于通过将所述色度分量以及所述浓度分量与所述融合结果进行合并,并从YUV颜色空间转成RGB颜色空间,获得所述多模态图像对的目标融合结果;
其中,所述多模态图像融合模型包括集特征提取和特征融合功能于一体的主干网络以及图像重建子网络;所述主干网络包括双重注意力模块,所述双重注意力模块包括自注意力机制以及交叉注意力机制;所述自注意力机制用于通过对目标模态图像进行长程依赖建模,以便提取并保留各自模态对应的判别特征;所述交叉注意力机制用于建立不同模态之间的关系,以便识别和加强相关的互补信息促进跨模态特征的交互和聚合;
所述主干网络还包括Patch Embedding处理模块以及Swin Transformer Block模块;所述双重注意力模块位于所述Patch Embedding处理模块与所述Swin Transformer Block模块之间。
8.一种多模态图像融合设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的多模态图像融合方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-6任一项所述的多模态图像融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168798.6A CN117115061B (zh) | 2023-09-11 | 2023-09-11 | 一种多模态图像融合方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168798.6A CN117115061B (zh) | 2023-09-11 | 2023-09-11 | 一种多模态图像融合方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117115061A CN117115061A (zh) | 2023-11-24 |
CN117115061B true CN117115061B (zh) | 2024-04-09 |
Family
ID=88812727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311168798.6A Active CN117115061B (zh) | 2023-09-11 | 2023-09-11 | 一种多模态图像融合方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115061B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488971A (zh) * | 2020-11-23 | 2021-03-12 | 石家庄铁路职业技术学院 | 基于空间注意力机制和深度卷积生成对抗网络的医学图像融合方法 |
WO2022104618A1 (en) * | 2020-11-19 | 2022-05-27 | Intel Corporation | Bidirectional compact deep fusion networks for multimodality visual analysis applications |
CN115187480A (zh) * | 2022-07-06 | 2022-10-14 | 北京联合大学 | 一种基于Transformer的图像颜色校正方法 |
WO2022232382A1 (en) * | 2021-04-28 | 2022-11-03 | Neumora Therapeutics, Inc. | Multi-modal input processing |
CN115375948A (zh) * | 2022-09-14 | 2022-11-22 | 中国矿业大学 | 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 |
CN115511767A (zh) * | 2022-11-07 | 2022-12-23 | 中国科学技术大学 | 一种自监督学习的多模态图像融合方法及其应用 |
CN115880556A (zh) * | 2023-02-21 | 2023-03-31 | 北京理工大学 | 一种多模态数据融合处理方法、装置、设备及存储介质 |
CN115937590A (zh) * | 2022-12-12 | 2023-04-07 | 长春理工大学 | 一种并联融合CNN和Transformer的皮肤病图像分类方法 |
CN116188410A (zh) * | 2023-02-10 | 2023-05-30 | 广东省人民医院 | 基于多模态Trans-CNN UNet的3D脑胶质瘤MRI病灶分割方法、系统、设备及介质 |
CN116452805A (zh) * | 2023-04-15 | 2023-07-18 | 安徽理工大学 | 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 |
CN116486219A (zh) * | 2023-03-29 | 2023-07-25 | 重庆理工大学 | 一种基于Transformer的区域预估与多层级特征融合抓取检测方法 |
CN116503703A (zh) * | 2023-04-28 | 2023-07-28 | 大连大学 | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 |
CN116597183A (zh) * | 2023-05-17 | 2023-08-15 | 云南大学 | 基于空间和通道双维度注意的多模态图像特征匹配方法 |
CN116630152A (zh) * | 2023-04-17 | 2023-08-22 | 浙江华创视讯科技有限公司 | 图像分辨率重建方法、装置、存储介质及电子设备 |
CN116682140A (zh) * | 2023-05-29 | 2023-09-01 | 北京新清泰克科技有限公司 | 基于注意力机制多模态融合的三维人体姿态估计算法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108419062B (zh) * | 2017-02-10 | 2020-10-02 | 杭州海康威视数字技术股份有限公司 | 图像融合设备和图像融合方法 |
WO2020000369A1 (en) * | 2018-06-29 | 2020-01-02 | Logistics and Supply Chain MultiTech R&D Centre Limited | Multimodal imaging sensor calibration method for accurate image fusion |
EP4181079A1 (en) * | 2021-11-15 | 2023-05-17 | Samsung Electronics Co., Ltd. | Method and apparatus with multi-modal feature fusion |
-
2023
- 2023-09-11 CN CN202311168798.6A patent/CN117115061B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022104618A1 (en) * | 2020-11-19 | 2022-05-27 | Intel Corporation | Bidirectional compact deep fusion networks for multimodality visual analysis applications |
CN112488971A (zh) * | 2020-11-23 | 2021-03-12 | 石家庄铁路职业技术学院 | 基于空间注意力机制和深度卷积生成对抗网络的医学图像融合方法 |
WO2022232382A1 (en) * | 2021-04-28 | 2022-11-03 | Neumora Therapeutics, Inc. | Multi-modal input processing |
CN115187480A (zh) * | 2022-07-06 | 2022-10-14 | 北京联合大学 | 一种基于Transformer的图像颜色校正方法 |
CN115375948A (zh) * | 2022-09-14 | 2022-11-22 | 中国矿业大学 | 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 |
CN115511767A (zh) * | 2022-11-07 | 2022-12-23 | 中国科学技术大学 | 一种自监督学习的多模态图像融合方法及其应用 |
CN115937590A (zh) * | 2022-12-12 | 2023-04-07 | 长春理工大学 | 一种并联融合CNN和Transformer的皮肤病图像分类方法 |
CN116188410A (zh) * | 2023-02-10 | 2023-05-30 | 广东省人民医院 | 基于多模态Trans-CNN UNet的3D脑胶质瘤MRI病灶分割方法、系统、设备及介质 |
CN115880556A (zh) * | 2023-02-21 | 2023-03-31 | 北京理工大学 | 一种多模态数据融合处理方法、装置、设备及存储介质 |
CN116486219A (zh) * | 2023-03-29 | 2023-07-25 | 重庆理工大学 | 一种基于Transformer的区域预估与多层级特征融合抓取检测方法 |
CN116452805A (zh) * | 2023-04-15 | 2023-07-18 | 安徽理工大学 | 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法 |
CN116630152A (zh) * | 2023-04-17 | 2023-08-22 | 浙江华创视讯科技有限公司 | 图像分辨率重建方法、装置、存储介质及电子设备 |
CN116503703A (zh) * | 2023-04-28 | 2023-07-28 | 大连大学 | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 |
CN116597183A (zh) * | 2023-05-17 | 2023-08-15 | 云南大学 | 基于空间和通道双维度注意的多模态图像特征匹配方法 |
CN116682140A (zh) * | 2023-05-29 | 2023-09-01 | 北京新清泰克科技有限公司 | 基于注意力机制多模态融合的三维人体姿态估计算法 |
Non-Patent Citations (7)
Title |
---|
Cross-Modal Attentional Context Learning for RGB-D Object Detection;Guanbin Li,et al;arXiv:1810.12829v1;20181030;1-11 * |
基于Word Embedding的遥感影像检测分割;尤洪峰等;电子学报;20200115(第01期);78-86 * |
多模态融合的高分遥感图像语义分割方法;李万琦等;中南民族大学学报(自然科学版);20200804(第04期);79-86 * |
尤洪峰等.基于Word Embedding的遥感影像检测分割.电子学报.2020,(第01期),78-86. * |
李万琦等.多模态融合的高分遥感图像语义分割方法.中南民族大学学报(自然科学版).2020,(第04期),79-86. * |
融合图像注意力的多模态机器翻译模型;李霞等;中文信息学报;20200715(第07期);68-78 * |
通过细粒度的语义特征与Transformer丰富图像描述;王俊豪等;华东师范大学学报(自然科学版);20200925(第05期);56-67 * |
Also Published As
Publication number | Publication date |
---|---|
CN117115061A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | AIPNet: Image-to-image single image dehazing with atmospheric illumination prior | |
CN109325931A (zh) | 基于生成对抗网络和超分辨率网络的多模态图像融合方法 | |
US20220148291A1 (en) | Image classification method and apparatus, and image classification model training method and apparatus | |
CN111275618A (zh) | 一种基于双支感知的深度图超分辨率重建网络构建方法 | |
CN109871845B (zh) | 证件图像提取方法及终端设备 | |
CN111797882B (zh) | 图像分类方法及装置 | |
EP3874404A1 (en) | Video recognition using multiple modalities | |
CN110866469B (zh) | 一种人脸五官识别方法、装置、设备及介质 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN115511767B (zh) | 一种自监督学习的多模态图像融合方法及其应用 | |
CN113379764A (zh) | 一种基于域对抗自监督学习的病理图像分割方法 | |
Jia et al. | Effective meta-attention dehazing networks for vision-based outdoor industrial systems | |
CN110503052A (zh) | 一种基于改进u-net网络的图像语义分割方法 | |
CN111402145A (zh) | 一种基于深度学习的自监督低照度图像增强方法 | |
CN117197166B (zh) | 基于边缘和邻域信息的息肉图像分割方法及成像方法 | |
CN118411298A (zh) | 一种双分支红外与可见光图像融合方法及系统 | |
CN113313188B (zh) | 一种跨模态融合目标跟踪方法 | |
CN113762264A (zh) | 一种多编码器融合的多光谱图像语义分割方法 | |
Cai et al. | Fcsr-gan: End-to-end learning for joint face completion and super-resolution | |
Wang et al. | A medical image fusion method based on SIFT and deep convolutional neural network in the SIST domain | |
CN115527159B (zh) | 一种基于跨模态间尺度注意聚合特征的计数系统及方法 | |
CN117115061B (zh) | 一种多模态图像融合方法、装置、设备及存储介质 | |
Liu et al. | Knowledge-guided multi-perception attention network for image dehazing | |
CN115829962B (zh) | 医学图像分割装置、训练方法及医学图像分割方法 | |
CN118608396A (zh) | 一种多模态医学图像融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |