CN117392508A - 一种基于坐标注意力机制的目标检测方法和装置 - Google Patents
一种基于坐标注意力机制的目标检测方法和装置 Download PDFInfo
- Publication number
- CN117392508A CN117392508A CN202311345299.XA CN202311345299A CN117392508A CN 117392508 A CN117392508 A CN 117392508A CN 202311345299 A CN202311345299 A CN 202311345299A CN 117392508 A CN117392508 A CN 117392508A
- Authority
- CN
- China
- Prior art keywords
- network
- target
- layer
- target feature
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像目标检测技术领域,特别是涉及一种基于坐标注意力机制的目标检测方法和装置,包括:获取原始数据样本,并对原始数据样本进行预处理以得到目标数据样本;在ShuffleNet‑V2网络中融合坐标注意力机制作为主干网络,通过对目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;在脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;使用检测算法网络对组合信息进行预测,根据预测结果在输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络;通过目标检测算法网络对待检测的数据样本进行目标特征的检测。
Description
技术领域
本发明涉及图像目标检测技术领域,特别是涉及一种基于坐标注意力机制的目标检测方法和装置。
背景技术
当前,人工智能、云计算、大数据等一系列信息技术的迅猛发展,计算机视觉技术的也正在不断发展,图像目标检测技术作为计算机视觉中的重要研究课题,是诸如实例分割、行为识别、目标跟踪等其他计算机视觉任务的基础,对目标检测方法开展更加深入的研究是大势所趋。
图像目标检测技术,指的是在给定的一张或者多张图像中,通过建立目标的外观模型,判断出图像中存在的物体目标类别,并对目标进行定位,框选出目标存在的区域。虽然现有的目标检测算法在精度和速度方面都有了很大的改进,但是计算过程相对较为复杂,模型结构还是较为复杂,并且在嵌入式设备等计算资源有限的平台上进行部署时,还难以满足高精度和实时性要求。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
本发明要解决的技术问题是:如何减小目标检测网络模型的结构复杂度并提升检测效率。
本发明采用如下技术方案:
第一方面,提供了一种基于坐标注意力机制的目标检测方法,所述方法应用于检测算法网络,检测算法网络包括主干网络、脖颈网络和输出层,包括:
获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本;
在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;
在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;
使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络;
通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
优选的,所述获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本包括:
根据所述原始数据样本的输入图像的特点,通过直方图均衡、图像锐化和运动模糊改变所述输入图像的像素值,以得到多个第一中间数据样本,将所述第一中间数据样本添加到原始数据样本中,以更新所述原始数据样本;
通过将所述原始数据样本的输入图像进行镜像翻转、旋转以及混合增强,以得到多个第二中间数据样本,将所述第二中间数据样本添加到更新后的所述原始数据样本中,得到目标数据样本。
优选的,所述在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络包括:
根据步长将所述ShuffleNet-V2网络设置为第一结构网络,所述第一结构网络通过通道分离将其输入通道分为第一分支和第二分支;所述第一分支直接与联接层连接,第二分支通过预设的层与联接层连接;
将所述坐标注意力机制嵌入所述第一分支,以使所述第一结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;
或,在所述第一分支和第二分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
优选的,所述在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络包括:
根据步长将所述ShuffleNet-V2网络设置为第二结构网络,所述第二结构网络通过通道分离将其输入通道分为第三分支和第四分支,所述第三分支包括依次连接的第一卷积层、归一化层、第二卷积层和激活层,所述第三分支的激活层与联接层连接,第四分支通过预设的层与联接层连接;
将所述坐标注意力机制嵌入到所述第三分支的激活层之后,以使所述第二结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;
或,在所述第三分支和第四分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
优选的,所述在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息包括:
根据所述特征金字塔网络构建第一金字塔结构和第二金字塔结构,具体包括:
提取不同尺度的目标特征图,以得到所述第一金字塔结构;
对所述第一金字塔结构的最顶层的目标特征图进行复制,作为所述第二金字塔结构的最顶层,并对其进行上采样操作,得到第一特征图;
对所述第一金字塔结构的最顶层的下面一层的目标特征图进行第一预设参数的卷积运算,得到第二特征图,将所述第一特征图与第二特征图相加,作为所述第二金字塔结构的最顶层的下面一层,依次完成对所述第一金字塔结构的每一层的运算,以此类推,以生成所述第二金字塔结构;
对所述第二金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
优选的,所述在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息还包括:
构建所述路径聚合网络,所述路径聚合网络设置于所述特征金字塔网络下级,具体包括:构建第三金字塔结构;
复制所述第二金字塔结构的最底层的目标特征图,作为所述第三金字塔结构的最底层;
对所述第二金字塔结构的最底层的目标特征图进行下采样操作,得到第三特征图,并对所述第二金字塔结构的最底层的上面一层的目标特征图进行所述第二预设参数的卷积运算得到第四特征图,将所述第三特征图与所述第四特征图相加,作为所述第三金字塔结构的最底层的上面一层,依次完成对所述第二金字塔结构的每一层的运算,以此类推,以生成所述第三金字塔结构;
对所述第三金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
优选的,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络包括:
所述损失函数包括第一函数,所述第一函数的计算公式为:
其中,A代表检测框,B代表真实框,C代表将A与B包围起来的最小矩形框,IoU表示IoU度量,IoU度量用于表示A和B的重合程度,定义为A和B的交集面积除以A和B的并集面积;
所述第一函数用于考虑检测框和真实框的最小外接矩形,优化检测框的形状,以优化所述目标特征的定位。
优选的,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络还包括:
所述损失函数还包括第二函数,所述第二函数的公式为:
其中,yi代表目标特征的二元标签,是为1,否为0,p(yi)为输出标签yi的概率;
所述第二函数用于优化目标特征检测的置信度以及对目标特征的类别预测。
优选的,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络还包括:
通过所述第一函数和第二函数输出损失结果;
根据所述损失结果调整所述目标检测算法网络的模型参数,通过所述反向传播算法不断计算,直至所述损失结果满足预设条件,以得到训练的最优的目标检测算法网络。
第二方面,提供了一种基于坐标注意力机制的目标检测装置,所述装置包括:获取模块、特征提取模块、组合模块和预测模块;
所述获取模块用于获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本;
所述特征提取模块用于在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;
所述组合模块用于在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;
所述预测模块用于使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络,以通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
与现有技术相比,本发明的有益效果在于:
本发明使用融合了坐标注意力机制的ShuffleNet-V2网络作为主干网络对输入图像进行特征提取,得到不同尺度的特征图;使用特征金字塔网络和路径聚合网络作为脖颈网络来实现不同尺度的特征图之间的信息交流,最后在输出层使用损失函数和反向传播算法来对网络模型进行训练优化,能够实现目标特征的轻量级检测,具有更小的结构复杂度,模型更小,需要的计算资源也更少,检测效率更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的检测算法网络的结构示意图;
图2是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的流程示意图;
图3是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的第一结构网络的结构示意图;
图4是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的坐标注意力机制的结构示意图;
图5是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的在第一结构网络嵌入坐标注意力机制的第一种结构示意图;
图6是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的在第一结构网络嵌入坐标注意力机制的第二种结构示意图;
图7是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的第二结构网络的结构示意图;
图8是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的在第二结构网络嵌入坐标注意力机制的第一种结构示意图;
图9是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的在第二结构网络嵌入坐标注意力机制的第二种结构示意图;
图10是本发明实施例提供的一种基于坐标注意力机制的目标检测方法的检测算法网络中脖颈网络的结构示意图;
图11是本发明实施例提供的一种基于坐标注意力机制的目标检测装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明中术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1
本发明实施例1提供了一种基于坐标注意力机制的目标检测方法,所述方法应用于检测算法网络,如图1所示,由主干网络、脖颈网络和输出层组成,所述方法的具体步骤如图2所示,包括:
步骤101:获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本。
其中,所述步骤101具体包括:根据所述原始数据样本的输入图像的特点,通过直方图均衡、图像锐化和运动模糊改变所述输入图像的像素值,以得到多个第一中间数据样本,将所述第一中间数据样本添加到原始数据样本中,以更新所述原始数据样本,此外,还可以通过将所述原始数据样本的输入图像进行镜像翻转、旋转以及混合增强,以得到多个第二中间数据样本,将所述第二中间数据样本添加到更新后的所述原始数据样本中,得到目标数据样本。
获取原始数据样本,将原始数据样本分为训练集、验证集和测试集,训练集和验证集由带有标签值的图像组成,测试集可不带标签,图像是一个像素矩阵,标签值包含图像中目标的像素位置和类别信息,使用图像增强和数据增强的方式对单个输入图像矩阵进行预处理,提高图像的多样性,扩充数据集的大小。
直方图均衡是一种图像增强技术,它可以增加输入图像对比度和明亮度,通过重新分配像素值来实现直方图的均匀分布,从而增强输入图像中原本较暗区域的亮度;图像锐化可以增强输入图像中边缘和细节部分的对比度,使输入图像看起来更清晰明亮,常用的锐化算法包括拉普拉斯锐化、高通滤波等;运动模糊可以模拟相机快门速度问题造成的模糊效果,通过对输入图像像素进行平滑处理来实现模糊效果。例如,根据水下图像的特点,可以使用对比度受限的直方图均衡、图像锐化和运动模糊等图像增强手段改变图像矩阵的像素值,提升图像多样性。直方图均衡是通过统计图像不同区域的像素值,寻找映射关系T(x)使得目标图像的像素值均匀分布在整个灰度区间,将图像局部的特征信息变得更加明显,有利于水下数据集的特征提取;使用运动模糊,采用滤波核对图像进行局部模糊,模拟现实水下环境造成的影响,使得数据对模糊的情况更加鲁棒;图像锐化通过补偿图像的轮廓,增强目标的边缘信息。
通过上述三种技术来处理原始数据样本中的输入图像,可以从不同角度改变图像的像素值,从而得到多个第一中间数据样本,结合第二中间数据样本,最后这些中间数据样本将被添加到原始数据样本中,以更新和丰富原始数据样本,从而得到目标数据样本。
步骤102:在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图。
在本实施例中,根据步长将所述ShuffleNet-V2网络设置为第一结构网络,所述第一结构网络通过通道分离将其输入通道分为第一分支和第二分支;所述第一分支直接与联接层连接,第二分支通过预设的层与联接层连接;将所述坐标注意力机制嵌入所述第一分支,以使所述第一结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;或,在所述第一分支和第二分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
轻量级特征提取网络ShuffleNet-V2具有纺锤型网络结构,根据步长将所述ShuffleNet-V2网络设置为第一结构网络,具体为,如图3所示为所述第一结构网络的结构示意图,在所述第一结构网络中,首先使用通道分离将特征通道一分为二,分为第一分支和第二分支,这种通道分离的操作可以有效地降低计算复杂度和模型参数。所述第一分支不做任何操作,直接与联接层连接,所述第二分支依次通过预设的层,即1×1卷积层、批归一化+ReLU激活层、3×3深度卷积层、批归一化层、1×1卷积层、批归一化层+ReLU激活层,然后与联接层连接。由于所述第一分支和第二分支的输入通道和输出通道都保持不变,可以将两个分支的特征进行联接,最后再通过一个通道混洗层将不同通道的特征进行分块和重新组合,实现通道间的信息交流。
所述坐标注意力机制通过将目标的空间位置信息嵌入到通道注意力中,为特征图分配更偏向于空间坐标信息的权重,来解决神经网络容易忽略位置信息的问题,提升模型性能,注意力机制的目的是令检测算法网络在提取某类物体特征时对于位置或者通道的关注有明显的侧重,从而提高算法性能。例如,如图4所示,对于一个输入尺寸为C×H×W的特征图xc,将其进行一维对一维特征编码,如下列公式所示:
坐标注意力机制首先分别对其进行x方向和y方向的平均池化,对x方向进行平均池化得到第C个通道第h行的张量,如下列公式所示,大小为C×1×W:
对y方向进行平均池化得到第C个通道第w列的张量,如下列公式所示,大小为C×H×1:
然后在同一维度上对两个方向的张量和/>进行聚合,通过1×1的卷积改变输出的通道数,如下列公式所示:
最后通过批归一化层和Sigmoid非线性激活层重新对f按x方向和y方向进行分割,得到大小为H和W的两部分fh和fw,并恢复为原通道大小C×H×W,使用下列函数可以得到gh和gw,如下列公式所示:
gh=Sigmoid(Fh(fh))
gw=Sigmoid(Fw(fw))
将gh和gw作为水平和垂直方向的坐标注意力,对原特征图xc进行权重的重新分配,输出总的坐标注意力,如下列公式所示:
yc(i,j)=xc(i,j)×gh×gw
通过坐标注意力机制,能够使特征图各通道更加关注空间坐标位置信息。
如图5所示,将所述坐标注意力机制(即,图中所示CA,下同)嵌入所述第一分支,或,如图6所示,在所述第一分支和第二分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理,两中方式均可实现对总的目标特征图进行坐标注意力机制处理,可根据实际检测的需求来进行选择,具体的嵌入方式在本实施例中不作具体限定。
在优选的实施例中,根据步长将所述ShuffleNet-V2网络设置为第二结构网络,所述第二结构网络通过通道分离将其输入通道分为第三分支和第四分支,所述第三分支包括依次连接的第一卷积层、归一化层、第二卷积层和激活层,所述第三分支的激活层与联接层连接,第四分支通过预设的层与联接层连接;;将所述坐标注意力机制嵌入到所述第三分支的激活层之后,以使所述第二结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;或,在所述第三分支和第四分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
如图7所示,为所述第二结构网络的结构示意图,在所述第二结构网络中,首先使用通道分离将特征通道一分为二,分为第三分支和第四分支,所述第四分支与所述第二分支相似,在此不做过多赘述;所述第三分支包括依次连接的第一卷积层、归一化层、第二卷积层和激活层,所述第三分支的激活层和第四分支分别与联接层连接,其中,第一卷积层可以进行3×3卷积运算,第二卷积层可以进行1×1卷积运算,激活层可以为批归一化+ReLU激活层。
如图8所示,将所述坐标注意力机制嵌入所述第三分支,或,如图9所示,在所述第三分支和第四分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理,两中方式均可实现对总的目标特征图进行坐标注意力机制处理,可根据实际检测的需求来进行选择,具体的嵌入方式在本实施例中不作具体限定。
其中,所述坐标注意力机制的具体实现方式在本实施例中不作过多说明。
由于神经网络在对图像的目标特征进行提取时,浅层网络和深层网络特征图分辨率的不同会造成一定程度的信息损失问题,因此,通过对深层网络输出的特征图进行上采样操作,然后与经过卷积运算的浅层网络特征图相加,可以使得来自不同尺度的细节信息和语义信息得到有效的融合。具体过程参见下述步骤103。
步骤103:在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息。
其中,步骤103具体包括:根据所述特征金字塔网络构建第一金字塔结构和第二金字塔结构,具体包括:提取不同尺度的目标特征图,以得到所述第一金字塔结构;对所述第一金字塔结构的最顶层的目标特征图进行复制,作为所述第二金字塔结构的最顶层,并对其进行上采样操作,得到第一特征图;对所述第一金字塔结构的最顶层的下面一层的目标特征图进行第一预设参数的卷积运算,得到第二特征图,将所述第一特征图与第二特征图相加,作为所述第二金字塔结构的最顶层的下面一层,依次完成对所述第一金字塔结构的每一层的运算,以此类推,以生成所述第二金字塔结构;对所述第二金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
其中,可根据所述特征金字塔网络构建两个金字塔结构,即第一金字塔结构和第二金字塔结构。这两个结构通过一系列特定的操作实现了对目标特征图的提取和信息组合。如图10所示,例如,第一金字塔结构包括层1、层2和层3,第一金字塔结构为步骤102得到不同尺度的目标特征图,按尺度大小进行分层得到的,第二金字塔结构包括层4、层5和层6,每一层均包括不同尺度的目标特征图,所述第二金字塔结构的具体构造与检测过程如下:
(1)将层3进行复制变成层4,对层4进行上采样操作,得到第一特征图,再通过1×1(即,第一预设参数)的卷积运算对层2进行降维处理,得到第二特征图,然后将第一特征图和第二特征图所对应的特征元素相加,这里具体就是指由高层特征到低层特征的一个汇总,以此就得到层5;层6以此类推,是由层5和层1进行上述操作得来的,在此不作过多说明。以此就构成了自上而下的结构(即,第二金字塔结构)。
(2)对层4、层5和层6每层分别进行3×3(即,第二预设参数)的卷积运算得到最终的预测。
特征金字塔网络利用了深层网络的语义信息,对浅层网络的特征进行增强,然而却忽略了深层网络中含有的定位信息。在优选的实施例中,针对这一不足,选用路径聚合网络,在特征金字塔网络(即第二金字塔结构)的后面添加了自下而上的第三金字塔。
在优选的实施例中,构建所述路径聚合网络,所述路径聚合网络设置于所述特征金字塔网络下级,具体包括:构建第三金字塔结构;复制所述第二金字塔结构的最底层的目标特征图,作为所述第三金字塔结构的最底层;对所述第二金字塔结构的最底层的目标特征图进行下采样操作,得到第三特征图,并对所述第二金字塔结构的最底层的上面一层的目标特征图进行所述第二预设参数的卷积运算得到第四特征图,将所述第三特征图与所述第四特征图相加,作为所述第三金字塔结构的最底层的上面一层,依次完成对所述第二金字塔结构的每一层的运算,以此类推,以生成所述第三金字塔结构;对所述第三金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
如图10所示,例如,所述第三金字塔结构包括层7、层8和层9,所述第三金字塔结构的具体构造与检测过程如下:
(1)将所述第二金字塔结构中的层6进行复制变成层7,对层7进行下采样操作,得到第三特征图,再通过3×3(即,第二预设参数)的卷积运算对层5进行降维处理,得到第四特征图,然后将第三特征图和第四特征图所对应的特征元素相加,这里具体就是指高低层特征的一个汇总,以此就得到层8;层9以此类推,是由层8和层4进行上述操作得来的,在此不作过多说明。以此就构成了自下而上的结构(即,第三金字塔结构)。
(2)对层7、层8和层9每层分别进行3×3(即,第二预设参数)的卷积运算得到最终的预测。
所述第三金字塔结构用于对特征金字塔网络进行了补充,将浅层的定位特征向上传递,使得最终输出的特征图既结合了语义信息,又囊括了定位信息,进一步加强了网络模型检测的准确度。
损失函数在神经网络训练过程中具有关键作用,是神经网络用来寻找最优权重参数的基准,其通过估计模型的预测值与真值之间的差异程度,然后通过反向传播算法不断迭代优化神经网络的参数,以得到更优的模型,损失函数越小,得到的模型性能就越好。在步骤104中将对本实施例选用的损失函数进行具体说明。
步骤104:使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络。
其中,所述损失函数包括第一函数,所述第一函数的计算公式为:
其中,A代表检测框,B代表真实框,C代表将A与B包围起来的最小矩形框,IoU表示IoU度量,IoU度量用于表示A和B的重合程度,定义为A和B的交集面积除以A和B的并集面积;所述第一函数用于考虑检测框和真实框的最小外接矩形,优化检测框的形状,以优化所述目标特征的定位。
其中,IoU度量考虑了预测框和真实框的最小外接矩形(最小包含矩形),通过计算两个矩形的IoU值来评估预测框的质量,IoU取值范围为0~1,取值越大表示预测框和真实框重合程度越高。通过优化这个IoU损失项,可以促使预测框的形状更贴近真实框,从而有效优化目标特征的定位效果。
在优选的实施例中,所述损失函数还包括第二函数,所述第二函数的公式为:
其中,yi代表目标特征的二元标签,是为1,否为0,p(yi)为输出标签yi的概率;所述第二函数用于优化目标特征检测的置信度以及对目标特征的类别预测。
通过所述第二函数预测正确样本的置信度越高,损失越低,预测错误样本的置信度越低,损失越高,通过优化这个损失项可以同时完成优化目标特征检出的置信度以及优化对目标特征类别(正负类)的预测能力。其中,关于所述第一函数和第二函数的具体计算方法在本实施例中不作过多说明。
在优选的实施例中,通过所述第一函数和第二函数输出损失结果;根据所述损失结果调整所述目标检测算法网络的模型参数,通过所述反向传播算法不断计算,直至所述损失结果满足预设条件,以得到训练的最优的目标检测算法网络。
其中,在优选的实施例中,定义损失函数,包括所述第一函数的损失(第一项损失)和第二函数的损失(第二项损失),根据输入样本,通过目标检测算法网络前计算预测结果,根据预测结果计算所述第一项损失和第二项损失,将两项损失相加,作为总损失输出,并根据总损失输出的结果,采用反向传播算法计算参数梯度,根据该参数梯度,调整目标检测算法网络的参数,使总损失输出下降,重复上述操作,不断迭代计算和优化,直到损失满足预设条件,其中,预设条件可以根据实际目标检测的需求进行调整,可以为0.1、0.2等,最终得到经过充分训练和优化的目标检测网络模型。其中,关于所述反向传播算法的具体步骤在本实施例中不作过多说明。
步骤105:通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
利用经过上述步骤101-步骤104训练以及优化好的最佳目标检测算法网络来对待检测的数据样本进行目标特征的检测,即使用训练好的目标检测算法网络去对输入的样本进行目标特征的检测,得到目标检测的结果,输出检测边界框的位置以及目标类别信息。
本实施例使用融合了坐标注意力机制的ShuffleNet-V2网络作为主干网络对输入图像进行特征提取,得到不同尺度的特征图;使用特征金字塔网络和路径聚合网络作为脖颈网络来实现不同尺度的特征图之间的信息交流,最后在输出层使用损失函数和反向传播算法来对网络模型进行训练优化,能够实现目标特征的轻量级检测,具有更小的结构复杂度,模型更小,需要的计算资源也更少,检测效率更高。
实施例2
在实施例1中提出了一种基于坐标注意力机制的目标检测方法,在本实施例中将提供一种基于坐标注意力机制的目标检测装置,所述装置用于实现如实施例1所述的基于坐标注意力机制的目标检测方法,如图11所示,所述装置包括:获取模块、特征提取模块、组合模块和预测模块;
所述获取模块用于获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本;所述特征提取模块用于在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;所述组合模块用于在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;所述预测模块用于使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络,以通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
其中,所述基于坐标注意力机制的目标检测方法的具体实现步骤参见实施例1,在本实施例中不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于坐标注意力机制的目标检测方法,其特征在于,所述方法应用于检测算法网络,检测算法网络包括主干网络、脖颈网络和输出层,包括:
获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本;
在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;
在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;
使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络;
通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
2.根据权利要求1所述的基于坐标注意力机制的目标检测方法,其特征在于,所述获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本包括:
根据所述原始数据样本的输入图像的特点,通过直方图均衡、图像锐化和运动模糊改变所述输入图像的像素值,以得到多个第一中间数据样本,将所述第一中间数据样本添加到原始数据样本中,以更新所述原始数据样本;
通过将所述原始数据样本的输入图像进行镜像翻转、旋转以及混合增强,以得到多个第二中间数据样本,将所述第二中间数据样本添加到更新后的所述原始数据样本中,得到目标数据样本。
3.根据权利要求1所述的基于坐标注意力机制的目标检测方法,其特征在于,所述在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络包括:
根据步长将所述ShuffleNet-V2网络设置为第一结构网络,所述第一结构网络通过通道分离将其输入通道分为第一分支和第二分支;所述第一分支直接与联接层连接,第二分支通过预设的层与联接层连接;
将所述坐标注意力机制嵌入所述第一分支,以使所述第一结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;
或,在所述第一分支和第二分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
4.根据权利要求1所述的基于坐标注意力机制的目标检测方法,其特征在于,所述在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络包括:
根据步长将所述ShuffleNet-V2网络设置为第二结构网络,所述第二结构网络通过通道分离将其输入通道分为第三分支和第四分支,所述第三分支包括依次连接的第一卷积层、归一化层、第二卷积层和激活层,所述第三分支的激活层与联接层连接,第四分支通过预设的层与联接层连接;
将所述坐标注意力机制嵌入到所述第三分支的激活层之后,以使所述第二结构网络侧重于对所述目标特征的空间坐标的位置信息进行提取;
或,在所述第三分支和第四分支通过联接层和通道混洗层之后,嵌入所述坐标注意力机制,以对总的目标特征图进行坐标注意力机制处理。
5.根据权利要求1所述的基于坐标注意力机制的目标检测方法,其特征在于,所述在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息包括:
根据所述特征金字塔网络构建第一金字塔结构和第二金字塔结构,具体包括:
提取不同尺度的目标特征图,以得到所述第一金字塔结构;
对所述第一金字塔结构的最顶层的目标特征图进行复制,作为所述第二金字塔结构的最顶层,并对其进行上采样操作,得到第一特征图;
对所述第一金字塔结构的最顶层的下面一层的目标特征图进行第一预设参数的卷积运算,得到第二特征图,将所述第一特征图与第二特征图相加,作为所述第二金字塔结构的最顶层的下面一层,依次完成对所述第一金字塔结构的每一层的运算,以此类推,以生成所述第二金字塔结构;
对所述第二金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
6.根据权利要求5所述的基于坐标注意力机制的目标检测方法,其特征在于,所述在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息还包括:
构建所述路径聚合网络,所述路径聚合网络设置于所述特征金字塔网络下级,具体包括:构建第三金字塔结构;
复制所述第二金字塔结构的最底层的目标特征图,作为所述第三金字塔结构的最底层;
对所述第二金字塔结构的最底层的目标特征图进行下采样操作,得到第三特征图,并对所述第二金字塔结构的最底层的上面一层的目标特征图进行所述第二预设参数的卷积运算得到第四特征图,将所述第三特征图与所述第四特征图相加,作为所述第三金字塔结构的最底层的上面一层,依次完成对所述第二金字塔结构的每一层的运算,以此类推,以生成所述第三金字塔结构;
对所述第三金字塔结构的每一层分别进行第二预设参数的卷积运算,以实现不同尺度的目标特征图之间的信息组合。
7.根据权利要求1所述的基于坐标注意力机制的目标检测方法,其特征在于,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络包括:
所述损失函数包括第一函数,所述第一函数的计算公式为:
其中,A代表检测框,B代表真实框,C代表将A与B包围起来的最小矩形框,IoU表示IoU度量,IoU度量用于表示A和B的重合程度,定义为A和B的交集面积除以A和B的并集面积;
所述第一函数用于考虑检测框和真实框的最小外接矩形,优化检测框的形状,以优化所述目标特征的定位。
8.根据权利要求7所述的基于坐标注意力机制的目标检测方法,其特征在于,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络还包括:
所述损失函数还包括第二函数,所述第二函数的公式为:
其中,yi代表目标特征的二元标签,是为1,否为0,p(yi)为输出标签yi的概率;
所述第二函数用于优化目标特征检测的置信度以及对目标特征的类别预测。
9.根据权利要求8所述的基于坐标注意力机制的目标检测方法,其特征在于,所述根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络还包括:
通过所述第一函数和第二函数输出损失结果;
根据所述损失结果调整所述目标检测算法网络的模型参数,通过所述反向传播算法不断计算,直至所述损失结果满足预设条件,以得到训练的最优的目标检测算法网络。
10.一种基于坐标注意力机制的目标检测装置,其特征在于,所述装置用于实现如权利要求1-9任一项所述的基于坐标注意力机制的目标检测方法,所述装置包括:获取模块、特征提取模块、组合模块和预测模块;
所述获取模块用于获取原始数据样本,并对所述原始数据样本进行预处理以得到目标数据样本;
所述特征提取模块用于在ShuffleNet-V2网络中融合坐标注意力机制作为所述主干网络,通过对所述目标数据样本进行目标特征的提取,以得到不同尺度的目标特征图;
所述组合模块用于在所述脖颈网络中通过特征金字塔网络和路径聚合网络,得到不同尺度的目标特征图之间的组合信息;
所述预测模块用于使用所述检测算法网络对所述组合信息进行预测,根据预测结果在所述输出层通过损失函数与反向传播算法不断优化目标特征的定位、目标特征检测的置信度以及对目标特征的类别预测,以得到最优的目标检测算法网络,以通过所述目标检测算法网络对待检测的数据样本进行目标特征的检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345299.XA CN117392508A (zh) | 2023-10-16 | 2023-10-16 | 一种基于坐标注意力机制的目标检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345299.XA CN117392508A (zh) | 2023-10-16 | 2023-10-16 | 一种基于坐标注意力机制的目标检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392508A true CN117392508A (zh) | 2024-01-12 |
Family
ID=89462429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311345299.XA Pending CN117392508A (zh) | 2023-10-16 | 2023-10-16 | 一种基于坐标注意力机制的目标检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392508A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118366008A (zh) * | 2024-06-17 | 2024-07-19 | 珠海市伊特高科技有限公司 | Gis多源局放模式的识别方法、装置、设备、存储介质 |
-
2023
- 2023-10-16 CN CN202311345299.XA patent/CN117392508A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118366008A (zh) * | 2024-06-17 | 2024-07-19 | 珠海市伊特高科技有限公司 | Gis多源局放模式的识别方法、装置、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488865B (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
CN108229519B (zh) | 图像分类的方法、装置及系统 | |
CN110059586B (zh) | 一种基于空洞残差注意力结构的虹膜定位分割系统 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN109711268B (zh) | 一种人脸图像筛选方法及设备 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN116051953A (zh) | 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN111079739A (zh) | 一种多尺度注意力特征检测方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN115861883A (zh) | 一种多目标检测追踪方法 | |
CN115527104A (zh) | 无人艇感知系统检测方法 | |
CN116596792B (zh) | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 | |
CN112633274A (zh) | 一种声呐图像目标检测方法、装置、电子设备 | |
CN112990215B (zh) | 图像去噪方法、装置、设备及存储介质 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN113989612A (zh) | 基于注意力及生成对抗网络的遥感影像目标检测方法 | |
CN117392508A (zh) | 一种基于坐标注意力机制的目标检测方法和装置 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN112329550A (zh) | 基于弱监督学习的受灾建筑快速定位评估方法及装置 | |
CN113706562A (zh) | 图像分割方法、装置、系统及细胞分割方法 | |
CN115223033A (zh) | 一种合成孔径声呐图像目标分类方法及系统 | |
CN115035390B (zh) | 一种基于gan和特征增强的航拍图检测方法 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN116343019A (zh) | 一种遥感图像的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |