CN117975383B - 一种基于多模态图像融合技术的车辆定位和识别方法 - Google Patents
一种基于多模态图像融合技术的车辆定位和识别方法 Download PDFInfo
- Publication number
- CN117975383B CN117975383B CN202410387616.2A CN202410387616A CN117975383B CN 117975383 B CN117975383 B CN 117975383B CN 202410387616 A CN202410387616 A CN 202410387616A CN 117975383 B CN117975383 B CN 117975383B
- Authority
- CN
- China
- Prior art keywords
- visible light
- image
- light image
- model
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005516 engineering process Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000005286 illumination Methods 0.000 abstract description 8
- 238000013461 design Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种基于多模态图像融合技术的车辆定位和识别方法,包括:获取目标车辆在当前环境下红外图像和对应的可见光图像;判断当前环境是否为暗光环境,若为暗光环境,则将红外图像和可见光图像输入至融合生成模型,获得融合生成模型输出的增强可见光图像,否则,将可见光图像作为增强可见光图像;将红外图像和增强可见光图像输入至车辆检测模型,获得车辆检测模型输出的目标车辆的位置和型号;车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的。通过本申请,实现了对目标车辆的被动定位和车型识别,保证了不同光照情况下都可以获取较为准确的车辆定位和识别结果。
Description
技术领域
本申请属于计算机视觉技术领域,更具体地,涉及一种基于多模态图像融合技术的车辆定位和识别方法。
背景技术
车辆定位和识别技术主要是采用目标检测技术在图像或视频中准确定位和识别出多个不同类别的目标车辆,可应用于智能交通,自动驾驶以及安防监控等领域。
在夜间行驶条件下,现有的车辆定位设备,如车牌定位器和车辆GPS设备,存在可见性不足的问题,这直接影响了对车辆的定位和识别的准确性,从而可能威胁到交通安全,削弱交通监控效率,并在紧急情况下延迟车辆追踪。
发明内容
针对现有技术的缺陷,本申请的目的在于提供一种基于多模态图像融合技术的车辆定位和识别方法,旨在解决现有车辆的定位和识别技术在夜间环境下准确性较差的问题。
为实现上述目的,第一方面,本申请提供了一种基于多模态图像融合技术的车辆定位和识别方法,包括以下步骤:
步骤S101,获取目标车辆在当前环境下红外图像和对应的可见光图像;
步骤S102,判断当前环境是否为暗光环境,若为暗光环境,则将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,否则,将所述可见光图像作为增强可见光图像;
所述融合生成模型是基于第一样本红外图像和第一样本可见光图像,结合判别模型进行生成对抗训练得到的,所述判别模型用于判别融合生成模型生成的样本增强可见光图像的真伪;
步骤S103,将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号;
所述车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的。
在一个可选的示例中,将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,具体包括:
将所述红外图像和可见光图像输入至融合生成模型,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,再将拼接处理获得的特征输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像;
或者,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,将拼接处理获得的特征输入至所述融合生成模型中的SE注意力模块,再将SE注意力模块的输出结果输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像。
在一个可选的示例中,所述融合生成模型具体是以样本增强可见光图像与第一样本可见光图像之间的一致性为约束进行训练的;所述样本增强可见光图像是训练过程中的融合生成模型基于模拟可见光图像和第一样本红外图像进行融合生成的;所述模拟可见光图像是对第一样本可见光图像进行随机遮挡和暗化处理得到的。
在一个可选的示例中,将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号,具体包括:
将所述红外图像和所述增强可见光图像输入至车辆检测模型,由所述车辆检测模型先采用双分支分别提取红外图像特征和可见光图像特征,再分别提取所述红外图像特征和可见光图像特征的多尺度特征,利用SE注意力机制计算红外图像特征和可见光图像特征的多尺度特征之间的注意力权重,以分别生成红外增强特征和可见光增强特征,接着对红外增强特征和可见光增强特征进行shuffle操作获得混合特征,最后基于混合特征进行车辆定位和型号分类,获得所述目标车辆的位置和型号。
在一个可选的示例中,所述车辆检测模型的损失函数包括红外增强特征与可见光增强特征之间的交叉熵损失,针对车辆定位任务的CIOU损失以及针对车辆型号分类任务的Focal损失。
在一个可选的示例中,步骤S103之后还包括:
基于红外图像对应摄像机的内参矩阵,将目标车辆的位置转换为目标车辆在相机坐标系下的位置;
基于摄像机的外参矩阵,将目标车辆在相机坐标系下的位置转换为目标车辆在世界坐标系下的位置。
第二方面,本申请提供一种基于多模态图像融合技术的车辆定位和识别系统,包括:
图像获取模块,用于获取目标车辆在当前环境下红外图像和对应的可见光图像;
融合生成模块,用于判断当前环境是否为暗光环境,若为暗光环境,则将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,否则,将所述可见光图像作为增强可见光图像;所述融合生成模型是基于第一样本红外图像和第一样本可见光图像,结合判别模型进行生成对抗训练得到的,所述判别模型用于判别融合生成模型生成的样本增强可见光图像的真伪;
车辆检测模块,用于将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号;所述车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的。
第三方面,本申请提供一种电子设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
第五方面,本申请提供一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
总体而言,通过本申请所构思的以上技术方案与现有技术相比,具有以下有益效果:
本申请提供一种基于多模态图像融合技术的车辆定位和识别方法,通过获取目标车辆在当前环境下红外图像和对应的可见光图像,并判断当前环境是否为暗光环境,若为暗光环境,融合生成模型对输入的红外图像与光线不足的可见光图像进行融合生成,获得高质量的可见光图像,再由车辆检测模型综合红外图像和高质量的可见光图像的有用信息进行联合目标检测,充分利用了两种模态的图像信息,实现了对目标车辆的被动定位和车型识别,保证了不同光照情况下都可以获取较为准确的车辆定位和识别结果。
附图说明
图1是本申请实施例提供的车辆定位和识别方法的流程示意图之一;
图2是本申请实施例提供的车辆定位和识别方法的流程示意图之二;
图3是本申请实施例提供的融合生成模型的网络结构示意图之一;
图4是本申请实施例提供的融合生成模型的网络结构示意图之二;
图5是本申请实施例提供的车辆检测模型的检测流程图;
图6是本申请实施例提供的车辆定位和识别系统的架构图;
图7是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一样本红外图像和第二样本红外图像等是用于区别训练不同模型的样本红外图像,而不是用于描述样本红外图像的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
首先,对本申请实施例中涉及的技术术语进行介绍。
红外成像技术:红外成像技术是指利用红外传感器捕获物体发出的红外辐射,从而生成红外图像。红外图像可用于分析物体的热量分布,适用于夜间或低能见度条件下的监测和识别。
可见光成像技术:可见光成像技术是指利用可见光传感器捕获物体的外观、颜色等视觉信息,生成可见光图像。可见光图像适用于观察物体的细节和特征。
红外双模摄像仪是具备同时采集和处理可见光图像和红外图像的能力摄像设备。这种摄像仪通常包含两个独立的传感器:一个用于捕捉可见光图像,另一个用于捕捉红外辐射图像。通过这种方式,它能够提供关于场景的两个不同视角的信息,这些信息在某些应用中非常有价值。在可见光模式下,红外双模摄像仪能够记录类似于传统摄像机的彩色图像,这些图像适用于观察物体的大小、形状和颜色等视觉特征。而在红外模式下,摄像仪捕捉的是物体发出的红外辐射,这种辐射与物体的温度相关。它结合了可见光摄像和红外热像技术,能够同时获取可见光图像和红外图像。
深度学习(Deep Learning)是一种机器学习的分支,它模仿人脑神经网络的工作方式,通过多层次的神经网络进行数据处理和学习。传统几何的核心思想是通过构建和训练多层次的神经网络模型,从大量数据中学习并提取出高层次的抽象特征,以实现对数据的有效分类和预测。深度学习通过构建多层次的神经网络模型,自动学习图像中的复杂特征,可以实现对车辆的精确定位。结合传统几何方法,如平面几何、空间几何等,可以有效解决定位过程中的姿态估计、尺度变换等问题。
目标检测(Object Detection)是计算机视觉领域的一项重要任务,旨在在图像或视频中准确定位和识别出多个不同类别的目标物体。与图像分类只需要确定图像中是否存在目标不同,目标检测需要在图像中定位目标的位置,并对每个目标进行分类。
红外图像到可见光图像的跨模态重识别,是指将红外图像转换为对应的可见光图像的任务。红外图像和可见光图像是不同的物理模态,它们在图像特征和内容上存在较大差异。通过跨模态重识别,可以将红外图像转换为可见光图像,实现对红外图像内容的理解和可视化。
接下来,对本申请实施例中提供的技术方案进行介绍。
本申请提供一种基于多模态图像融合技术的车辆定位和识别方法,图1是本申请实施例提供的车辆定位和识别方法的流程示意图之一,如图1所示,该方法包括以下步骤:
步骤S101,获取目标车辆在当前环境下红外图像和对应的可见光图像;
步骤S102,判断当前环境是否为暗光环境,若为暗光环境,则将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,否则,将所述可见光图像作为增强可见光图像;
所述融合生成模型是基于第一样本红外图像和第一样本可见光图像,结合判别模型进行生成对抗训练得到的,所述判别模型用于判别融合生成模型生成的样本增强可见光图像的真伪;
步骤S103,将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号;
所述车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的。
此处,目标车辆即需要进行定位和识别的车辆,可以是一辆或多辆车辆,本申请实施例对此不作具体限定。
具体地,可以使用红外双模摄像仪采集目标车辆在当前环境下可见光图像和对应的红外图像。考虑到暗光环境例如夜晚环境下,可见光图像质量较差,对此,本申请实施例判断当前环境是否为暗光环境,如果为暗光环境,应用融合生成模型结合红外图像和可见光图像的优势部分,从而生成高清晰度的增强可见光图像,而对于亮光环境,可以省略这一步,直接将可见光图像作为增强可见光图像。在此基础上,车辆检测模型可以对红外图像和增强可见光图像进行联合目标检测,获得目标车辆的位置和型号。可选地,判断当前环境是否为暗光环境具体可以根据所采集的可见光图像的亮度是否低于预设的亮度阈值进行判断。
可以理解的是,第一样本红外图像和第一样本可见光图像,与第二样本红外图像和第二样本可见光图像分别是用来训练不同模型的高质量的样本图像对,可以使用红外双模摄像仪在光照较为充足的情况下进行采集得到。进一步地,在获取到目标车辆的型号之后,可以根据预先存储的车辆型号与参数信息之间的对应关系,获取目标车辆的参数信息。车辆型号对应的品牌、年份、颜色等参数信息可以是通过网络爬虫获得的。
本申请实施例提供的方法,通过获取目标车辆在当前环境下红外图像和对应的可见光图像,并判断当前环境是否为暗光环境,若为暗光环境,融合生成模型对输入的红外图像与光线不足的可见光图像进行融合生成,获得高质量的可见光图像,再由车辆检测模型综合红外图像和高质量的可见光图像的有用信息进行联合目标检测,充分利用了两种模态的图像信息,实现了对目标车辆的被动定位和车型识别,保证了不同光照情况下都可以获取较为准确的车辆定位和识别结果。
基于上述实施例,将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,具体包括:
将所述红外图像和可见光图像输入至融合生成模型,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,再将拼接处理获得的特征输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像;
或者,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,将拼接处理获得的特征输入至所述融合生成模型中的SE注意力模块,再将SE注意力模块的输出结果输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像。
需要说明的是,融合生成模型采用改进的pix2pix网络结构,可以进一步提升所生成的增强可见光图像的图像质量,进而可以提高车辆定位和识别的准确性。改进的pix2pix网络结构提供了两种结构供选择,其中SE注意力模块是一种通道注意力模块,SE注意力模块能对输入特征图进行通道特征加强,且不改变输入特征图的大小,能进一步提升图像生成效果。
并且,在将红外图像转换为对应的可见光图像的跨模态任务中,还结合了原始的可见光图像,进一步提升了所生成的增强可见光图像的图像质量。
基于上述任一实施例,所述融合生成模型具体是以样本增强可见光图像与第一样本可见光图像之间的一致性为约束进行训练的;所述样本增强可见光图像是训练过程中的融合生成模型基于模拟可见光图像和第一样本红外图像进行融合生成的;所述模拟可见光图像是对第一样本可见光图像进行随机遮挡和暗化处理得到的。
可以理解的是,考虑到如果直接将第一样本红外图像和第一样本可见光图像作为融合生成模型的输入样本,训练标签即融合图像标签将难以获取,对此,本申请实施例先对第一样本可见光图像进行随机遮挡和暗化处理,得到模拟可见光图像,以模拟暗光环境下可见光图像可能存在一块区域都是黑的情况,再将模拟可见光图像和第一样本红外图像作为融合生成模型的输入样本,第一样本可见光图像作为训练标签,即以融合生成模型所生成的样本增强可见光图像与第一样本可见光图像之间的一致性为约束,对初始的融合生成模型进行训练,最终获得训练好的融合生成模型。
此处,增强可见光图像与第一样本可见光图像之间的一致性即可通过判别模型来进行判别,再通过判别结果约束融合生成模型的训练。
基于上述任一实施例,将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号,具体包括:
将所述红外图像和所述增强可见光图像输入至车辆检测模型,由所述车辆检测模型先采用双分支分别提取红外图像特征和可见光图像特征,再分别提取所述红外图像特征和可见光图像特征的多尺度特征,利用SE注意力机制计算红外图像特征和可见光图像特征的多尺度特征之间的注意力权重,以分别生成红外增强特征和可见光增强特征,接着对红外增强特征和可见光增强特征进行shuffle操作获得混合特征,最后基于混合特征进行车辆定位和型号分类,获得所述目标车辆的位置和型号。
需要说明的是,车辆检测模型采用改进的双yolo结构网络,设计Dual-Fusion (D-Fusion)融合模块,包括Inception模块和Attention-Fusion模块组成的注意力融合模块,以及串联的Fusion-Shuffle模块,旨在有效地融合两种不同模态的特征。其中Inception模块提取多尺度特征,减少计算开销;Attention-Fusion模块利用SE注意力机制计算红外和可见图像特征之间的注意力权重,并生成两个增强后的特征,具体来说,就是使用红外图像特征计算可见光图像特征的注意力特征向量再与可见光图像特征结合生成增强后的可见光图像特征,反之亦然,从而获得两个增强后的特征;Fusion-Shuffle模块再对增强后的特征进行进一步增强和shuffle操作。检测模块基于混合特征进行车辆定位和型号分类,检测模块采用四个检测头,每个检测头分别负责检测小、中等、较大和超大等不同尺度的目标对象,覆盖了不同大小的目标对象,确保了检测的全面性。
通过这种设计,Dual-YOLO架构不仅减少了冗余信息,还有效地加速了网络的收敛速度。实验结果表明,该架构显著提升了红外目标检测的性能,为夜间或低光照条件下的目标检测提供了有效的解决方案。
其中,车辆检测模型的输入为红外图像与增强可见光图像,输出包括:
检测框的位置坐标:包括x,y坐标表示框的中心位置,以及宽度和高度;
目标类别概率:每个检测框会输出每个类别车辆的概率,表示该检测框内最可能的类别即型号;
置信度:表示检测框内包含目标车辆的可能性。
基于上述任一实施例,所述车辆检测模型的损失函数包括红外增强特征与可见光增强特征之间的交叉熵损失,针对车辆定位任务的CIOU损失以及针对车辆型号分类任务的Focal损失。
需要说明的是,在损失函数的设计上,红外增强特征与可见光增强特征之间的交叉熵损失即特征熵损失被用来惩罚注意力融合模块中的冗余特征,提高车辆检测模型的泛化能力,而定位损失和分类损失则采用了CIoU损失和Focal损失,以提高检测的精确度和稳定性,其中CIoU损失用于衡量预测框和真实框之间的位置误差,以实现框回归的稳定,Focal损失用于衡量预测类别和真实类别之间的误差。
基于上述任一实施例,步骤S103之后还包括:
基于红外图像对应摄像机的内参矩阵,将目标车辆的位置转换为目标车辆在相机坐标系下的位置;
基于摄像机的外参矩阵,将目标车辆在相机坐标系下的位置转换为目标车辆在世界坐标系下的位置。
可以理解的是,车辆检测模型输出的位置实质上为目标车辆检测框的体素信息,还需要利用摄像机内参和外参计算目标车辆实际位置。红外图像对应摄像机即采集步骤S101中红外图像和可见光图像的摄像机,即红外双模摄像仪。
具体地,本申请实施例首先利用基于双YOLO架构的车辆检测模型获取车辆的检测框信息,包括中心位置(X, Y)和尺寸(W, H)。
车辆模型的中心点在图像坐标系中的位置(u, v)可以通过下列公式得到:
,/>
使用内参矩阵K,以及由旋转矩阵R和平移矩阵T组成的外参矩阵,将(u, v)转换为世界坐标系中的位置。首先,将图像坐标(u, v)转换为相机坐标系中的点:
然后,使用外参矩阵将转换为世界坐标系中的点/>:
这样,就可以得到每辆车在世界坐标系中的精确位置,进而实现高精度的车辆定位。
基于上述任一实施例,目前,车辆定位技术在夜间表现不佳,存在传统的反光材料在低光照条件下的反射效果有限,照明设备的配置不足,以及设备本身设计上未能充分考虑夜间使用环境等问题,这些因素共同作用导致夜间车辆定位设备难以达到白天的可见性水平。
针对现有技术的缺陷,本申请的目的在于提供一种基于多模态图像融合技术的车辆定位和识别方法,通过使用红外双模摄像仪在全天候(白天与黑夜)模式下对车辆进行三维位置重建与坐标计算,实现对车辆的被动定位。
本申请提供的基于多模态图像融合技术的车辆定位和识别方法,可应用于智能交通,自动驾驶以及安防监控等领域。图2是本申请实施例提供的车辆定位和识别方法的流程示意图之二,如图2所示,该车辆定位方法包括步骤 S10~步骤 S40,详述如下:
S10,从互联网获取车辆的图片以及对应的公开车辆参数信息;使用红外双模摄像仪拍摄红外图像和对应的可见光图像,制作对应的数据集;
S20,使用改进的pix2pix模型训练上述红外图像与可见光图像的数据集,在夜晚环境,对输入的红外图像与光线不足的可见光图像进行预测,获得高质量的可见光图像;
S30,采用基于双YOLO架构改进的车辆检测模型对红外图像和可见光图像进行联合目标检测;
S40,根据目标检测的结果,结合相机的内参和外参信息,实现车辆的像素坐标系转世界坐标系,从而实现定位。
本申请通过从互联网和双模摄像仪采集数据集,训练跨模态转换模型和车辆检测模型,获取标注框即检测框内的体素信息,利用摄像机内参和外参计算车辆实际位置,可对红外双模摄像仪下的一辆或多辆车辆进行三维坐标的标定,实现对车辆的被动定位。
在本步骤 S10 中,获取车辆图片以及对应的型号和车辆参数信息的具体步骤可以为:
(1)通过Python编写开发爬虫程序获取车辆图片,并提取其中的参数信息,如型号、品牌、年份、颜色等。通过使用Python的XML库,可以创建XML文件,并按照一定的结构和规范将图片路径和对应的参数信息存储在XML节点中。将获取的车辆图片和型号经过数据清洗,数据处理之后存储为voc格式的数据集,然后使用XML建立型号与其对应的参数信息,使用XML文件存储。
(2)使用红外双模摄像仪在白天拍摄红外图像和对应的可见光图像,制作对应的数据集。
其中,在步骤S20中:
夜晚环境,融合生成模型使用经过改进的pix2pix网络,利用步骤S10中子步骤(2)的数据训练模型,其中模型的输入为低光照环境下的可见光图像和对应的红外图像,模型输出为高清晰度的可见光图像即增强可见光图像。白天环境不进行这一步,直接进入步骤S30。
图3是本申请实施例提供的融合生成模型的网络结构示意图之一,如图3所示,相比于标准的pix2pix网络结构,改进的pix2pix在生成器部分修改了输入部分,并对两个输入分别作卷积,将卷积的特征在特征通道上进行拼接操作,从而获得融合生成模型。图4是本申请实施例提供的融合生成模型的网络结构示意图之二,如图4所示,相比于图3的网络结构,增加了SE注意力模块,SE注意力模块对输入特征图进行通道特征加强,且不改变输入特征图的大小。
得到训练的模型之后,在夜晚环境,输入光线不足的可见光图像以及红外图像,生成清晰度较高的可见光图像。
其中,在步骤S30中:
使用步骤S10中子步骤(2)准备的数据集训练可见光下面的车辆检测模型,首先使用改进的YOLOV8模型,现详细对本申请所改进的YOLOV8模型进行说明。本申请基于双YOLO架构对红外图像和可见光图像进行融合目标检测,获取目标检测的检测框,并按照检测框进行分割。
图5是本申请实施例提供的车辆检测模型的检测流程图,如图5所示,基于双YOLO(Double-YOLO)架构的主要设计如下:基于YOLOv8设计,包含P1到P6的层次识别结构,特征提取方面采用双分支backbone分别提取红外和可见光图像特征。设计Dual-Fusion (D-Fusion) 融合模块,包括Inception模块和Attention-Fusion模块组成的注意力融合模块,以及串联的Fusion-Shuffle模块,旨在有效地融合两种不同模态的特征。其中,Inception模块:提取多尺度特征,减少计算开销。Attention-Fusion模块:利用SE注意力机制,使红外和可见光特征互相增强。Fusion-Shuffle模块:通过shuffle操作整合红外和可见光特征,使网络适应两种模式。
此外,双YOLO架构采用四个检测头,覆盖了不同大小的目标,确保了检测的全面性。在损失函数的设计上,特征熵损失被用来惩罚融合模块中的冗余特征,而定位损失和分类损失则采用了CIoU和Focal Loss,以提高检测的精确度和稳定性。
通过这种设计,Dual-YOLO架构不仅减少了冗余信息,还有效地加速了网络的收敛速度。实验结果表明,该架构显著提升了红外目标检测的性能,为夜间或低光照条件下的目标检测提供了有效的解决方案。
然后,依此配置相关参数,对数据集划分为训练集和验证集,其对应比例为8:2,然后,本申请实施例使用改进的YOLOV8模型的训练模块进行训练,最后得到车辆检测模型。
接下来,收集红外图像和对应的可见光图像作为训练数据。这些图像应该是配对的,即红外图像和可见光图像相互对应。对收集到的图像进行预处理,包括调整图像大小、归一化、去除噪声等。将红外图像和可见光图像配对,并创建一个数据集,使每个样本都包含一对红外图像和可见光图像。
利用预处理后的训练数据集,对模型进行训练。在每个训练迭代中,模型接受一对红外和可见光图像作为输入,计算损失函数,并通过反向传播算法更新模型参数。训练过程持续进行,直至模型性能达到预定阈值。其中模型的输入为红外图像与增强可见光图像,输出为目标检测框和类别信息。
其中,在步骤S40中:
本申请实施例首先利用基于改进双YOLO架构的车辆检测模型获取车辆的检测框信息,包括检测框的中心位置(X, Y)和尺寸(即检测框的宽度和高度)(W, H)。
车辆模型的中心点在图像坐标系中的位置(u, v)可以通过下列公式得到:
,/>
使用内参矩阵K,以及由旋转矩阵R和平移矩阵T组成的外参矩阵,将(u, v)转换为世界坐标系中的位置。首先,将图像坐标(u, v)转换为相机坐标系中的点:
然后,使用外参矩阵将转换为世界坐标系中的点/>:
这样,就可以得到每辆车在世界坐标系中的精确位置,进而实现高精度的车辆定位。通过这一过程,不仅能够确定车辆的位置,还能够估计其朝向和姿态。
基于上述任一实施例,本申请实施例提供一种基于多模态图像融合技术的车辆定位和识别系统。图6是本申请实施例提供的车辆定位和识别系统的架构图,如图6所示,该系统包括:
图像获取模块610,用于获取目标车辆在当前环境下红外图像和对应的可见光图像;
融合生成模块620,用于判断当前环境是否为暗光环境,若为暗光环境,则将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,否则,将所述可见光图像作为增强可见光图像;所述融合生成模型是基于第一样本红外图像和第一样本可见光图像,结合判别模型进行生成对抗训练得到的,所述判别模型用于判别融合生成模型生成的样本增强可见光图像的真伪;
车辆检测模块630,用于将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号;所述车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的。
可以理解的是,上述各个模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
基于上述实施例中的方法,本申请实施例提供了一种电子设备。图7是本申请实施例提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
基于上述实施例中的方法,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
基于上述实施例中的方法,本申请实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
可以理解的是,本申请实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
本领域的技术人员容易理解,以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于多模态图像融合技术的车辆定位和识别方法,其特征在于,包括以下步骤:
步骤S101,获取目标车辆在当前环境下红外图像和对应的可见光图像;
步骤S102,判断当前环境是否为暗光环境,若为暗光环境,则将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,否则,将所述可见光图像作为增强可见光图像;
所述融合生成模型是基于第一样本红外图像和第一样本可见光图像,结合判别模型进行生成对抗训练得到的,所述判别模型用于判别融合生成模型生成的样本增强可见光图像的真伪;
步骤S103,将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号;
所述车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的;
将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,具体包括:
将所述红外图像和可见光图像输入至融合生成模型,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,再将拼接处理获得的特征输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像;
或者,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,将拼接处理获得的特征输入至所述融合生成模型中的SE注意力模块,再将SE注意力模块的输出结果输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像;
将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号,具体包括:
将所述红外图像和所述增强可见光图像输入至车辆检测模型,由所述车辆检测模型先采用双分支分别提取红外图像特征和可见光图像特征,再分别提取所述红外图像特征和可见光图像特征的多尺度特征,利用SE注意力机制计算红外图像特征和可见光图像特征的多尺度特征之间的注意力权重,以分别生成红外增强特征和可见光增强特征,接着对红外增强特征和可见光增强特征进行shuffle操作获得混合特征,最后基于混合特征进行车辆定位和型号分类,获得所述目标车辆的位置和型号。
2.根据权利要求1所述的方法,其特征在于,所述融合生成模型具体是以样本增强可见光图像与第一样本可见光图像之间的一致性为约束进行训练的;所述样本增强可见光图像是训练过程中的融合生成模型基于模拟可见光图像和第一样本红外图像进行融合生成的;所述模拟可见光图像是对第一样本可见光图像进行随机遮挡和暗化处理得到的。
3.根据权利要求1所述的方法,其特征在于,所述车辆检测模型的损失函数包括红外增强特征与可见光增强特征之间的交叉熵损失,针对车辆定位任务的CIOU损失以及针对车辆型号分类任务的Focal损失。
4.根据权利要求1所述的方法,其特征在于,步骤S103之后还包括:
基于红外图像对应摄像机的内参矩阵,将目标车辆的位置转换为目标车辆在相机坐标系下的位置;
基于摄像机的外参矩阵,将目标车辆在相机坐标系下的位置转换为目标车辆在世界坐标系下的位置。
5.一种基于多模态图像融合技术的车辆定位和识别系统,其特征在于,包括:
图像获取模块,用于获取目标车辆在当前环境下红外图像和对应的可见光图像;
融合生成模块,用于判断当前环境是否为暗光环境,若为暗光环境,则将所述红外图像和可见光图像输入至融合生成模型,获得所述融合生成模型输出的增强可见光图像,否则,将所述可见光图像作为增强可见光图像;所述融合生成模型是基于第一样本红外图像和第一样本可见光图像,结合判别模型进行生成对抗训练得到的,所述判别模型用于判别融合生成模型生成的样本增强可见光图像的真伪;
车辆检测模块,用于将所述红外图像和所述增强可见光图像输入至车辆检测模型,获得所述车辆检测模型输出的所述目标车辆的位置和型号;所述车辆检测模型是基于第二样本红外图像和第二样本可见光图像及其对应车辆的位置标签和型号标签训练得到的;
融合生成模块具体用于执行如下步骤获得所述融合生成模型输出的增强可见光图像:
将所述红外图像和可见光图像输入至融合生成模型,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,再将拼接处理获得的特征输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像;
或者,由所述融合生成模型首先对所述红外图像和可见光图像分别作卷积处理,将卷积处理获得的特征在特征通道上进行拼接处理,将拼接处理获得的特征输入至所述融合生成模型中的SE注意力模块,再将SE注意力模块的输出结果输入至所述融合生成模型中的pix2pix生成器,获得所述增强可见光图像;
车辆检测模块具体用于:
将所述红外图像和所述增强可见光图像输入至车辆检测模型,由所述车辆检测模型先采用双分支分别提取红外图像特征和可见光图像特征,再分别提取所述红外图像特征和可见光图像特征的多尺度特征,利用SE注意力机制计算红外图像特征和可见光图像特征的多尺度特征之间的注意力权重,以分别生成红外增强特征和可见光增强特征,接着对红外增强特征和可见光增强特征进行shuffle操作获得混合特征,最后基于混合特征进行车辆定位和型号分类,获得所述目标车辆的位置和型号。
6.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储计算机程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-4任一所述的方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1-4任一所述的方法。
8.一种计算机程序产品,其特征在于,当所述计算机程序产品在处理器上运行时,使得所述处理器执行如权利要求1-4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410387616.2A CN117975383B (zh) | 2024-04-01 | 2024-04-01 | 一种基于多模态图像融合技术的车辆定位和识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410387616.2A CN117975383B (zh) | 2024-04-01 | 2024-04-01 | 一种基于多模态图像融合技术的车辆定位和识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117975383A CN117975383A (zh) | 2024-05-03 |
CN117975383B true CN117975383B (zh) | 2024-06-21 |
Family
ID=90865069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410387616.2A Active CN117975383B (zh) | 2024-04-01 | 2024-04-01 | 一种基于多模态图像融合技术的车辆定位和识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975383B (zh) |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6856873B2 (en) * | 1995-06-07 | 2005-02-15 | Automotive Technologies International, Inc. | Vehicular monitoring systems using image processing |
CN108169765B (zh) * | 2016-12-07 | 2020-08-21 | 法法汽车(中国)有限公司 | 提高自动驾驶可靠性的方法及电子设备 |
GB2586245B (en) * | 2019-08-13 | 2021-09-22 | Univ Of Hertfordshire Higher Education Corporation | Method and apparatus |
CA3147581A1 (en) * | 2019-08-13 | 2021-02-18 | James Edward GEACH | Predicting visible/infrared band images using radar reflectance/backscatter images of a terrestrial region |
CN111327800B (zh) * | 2020-01-08 | 2022-02-01 | 深圳深知未来智能有限公司 | 一种适应复杂光照环境的全天候车载视觉系统及方法 |
CN111291885B (zh) * | 2020-01-20 | 2023-06-09 | 北京百度网讯科技有限公司 | 近红外图像的生成方法、生成网络的训练方法和装置 |
CN111198371A (zh) * | 2020-03-03 | 2020-05-26 | 杭州中车数字科技有限公司 | 前视障碍物检测系统 |
CN114257707A (zh) * | 2020-09-21 | 2022-03-29 | 安霸国际有限合伙企业 | 具有彩色夜间模式的智能ip摄像头 |
CN113935935A (zh) * | 2021-10-19 | 2022-01-14 | 天翼数字生活科技有限公司 | 一种基于可见光与近红外光融合的暗光图像增强方法 |
CN114332655A (zh) * | 2021-12-30 | 2022-04-12 | 西安建筑科技大学 | 一种车辆自适应融合检测方法及系统 |
CN115170430A (zh) * | 2022-07-21 | 2022-10-11 | 西北工业大学 | 基于两阶段条件生成对抗网络的近红外图像着色方法 |
CN115457456A (zh) * | 2022-08-22 | 2022-12-09 | 武汉理工大学 | 一种基于智能车辆的多光谱行人检测方法及系统 |
CN115641514A (zh) * | 2022-09-30 | 2023-01-24 | 宁波大学 | 一种面向夜间海雾监测的伪可见光云图生成方法 |
CN116309228A (zh) * | 2023-03-27 | 2023-06-23 | 西安交通大学 | 基于生成对抗网络的可见光图像转换红外图像方法 |
CN116704450A (zh) * | 2023-05-29 | 2023-09-05 | 招商局公路网络科技控股股份有限公司 | 一种基于深度学习的车辆身份识别方法及装置 |
CN117115630A (zh) * | 2023-08-30 | 2023-11-24 | 安徽大学 | 一种基于循环一致性的强光下多光谱车辆重识别方法 |
CN117152093B (zh) * | 2023-09-04 | 2024-05-03 | 山东奇妙智能科技有限公司 | 基于数据融合和深度学习的轮胎缺陷检测系统及方法 |
-
2024
- 2024-04-01 CN CN202410387616.2A patent/CN117975383B/zh active Active
Non-Patent Citations (1)
Title |
---|
Global-Local Feature Fusion Network for Visible-Infrared Vehicle Detection;Xudong Kang等;《IEEE Geoscience and Remote Sensing Letters》;20240319;第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117975383A (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Traffic light recognition for complex scene with fusion detections | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
CN113281780B (zh) | 对图像数据进行标注的方法、装置及电子设备 | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
CN112861776A (zh) | 一种基于密集关键点的人体姿态分析方法和系统 | |
Mijić et al. | Traffic sign detection using YOLOv3 | |
Wang et al. | V2I-CARLA: A novel dataset and a method for vehicle reidentification-based V2I environment | |
CN115620090A (zh) | 模型训练方法、低照度目标重识别方法和装置、终端设备 | |
CN110717457A (zh) | 用于车辆的行人位姿解算方法 | |
CN110909656B (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
Yu et al. | SignHRNet: Street-level traffic signs recognition with an attentive semi-anchoring guided high-resolution network | |
Pravallika et al. | Deep Learning Frontiers in 3D Object Detection: A Comprehensive Review for Autonomous Driving | |
CN117975383B (zh) | 一种基于多模态图像融合技术的车辆定位和识别方法 | |
CN116664873B (zh) | 图像信息处理方法、装置及存储介质 | |
Zhu et al. | Enhanced detection of small and occluded road vehicle targets using improved YOLOv5 | |
Wen et al. | YOFIR: High precise infrared object detection algorithm based on YOLO and FasterNet | |
Wang et al. | KCDNet: Multimodal Object Detection in Modal Information Imbalance Scenes | |
Yang et al. | Research on automated parking perception based on a multi-sensor method | |
CN116958876B (zh) | 一种基于多光谱双目立体视觉的视频异常行为检测方法和系统 | |
Liu et al. | A Review of Image and Point Cloud Fusion-Based 3D Object Detection for Autonomous Driving | |
CN117994625B (zh) | 基于毫米波雷达的特征融合能见度评估方法及系统 | |
Liu et al. | Mastering adverse weather: a two-stage approach for robust semantic segmentation in autonomous driving | |
Sánchez-García et al. | SalsaNext+: A Multimodal-based Point Cloud Semantic Segmentation with Range and RGB Images | |
CN118840646A (zh) | 一种基于深度学习的图像处理分析系统 | |
Chunsheng et al. | Drone-captured vehicle re-identification via perspective mask segmentation and hard sample learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |