CN111126385A - 一种可变形活体小目标的深度学习智能识别方法 - Google Patents
一种可变形活体小目标的深度学习智能识别方法 Download PDFInfo
- Publication number
- CN111126385A CN111126385A CN201911284570.7A CN201911284570A CN111126385A CN 111126385 A CN111126385 A CN 111126385A CN 201911284570 A CN201911284570 A CN 201911284570A CN 111126385 A CN111126385 A CN 111126385A
- Authority
- CN
- China
- Prior art keywords
- deformable
- convolution
- offset
- dimensional
- pooling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000011176 pooling Methods 0.000 claims abstract description 96
- 238000001514 detection method Methods 0.000 claims abstract description 46
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 21
- 230000006872 improvement Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000280 densification Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种可变形活体小目标的深度学习智能识别方法,属于机器人视觉及其智能识别技术领域;本发明将可变形卷积模块和可变形ROI池化模块与Faster R‑CNN进行合理的结合,使用可变形网络的可变形卷积模块和可变形ROI池化模块对模型进行改进,对标准卷积的空间取样点和普通ROI池化加入二维甚至高维偏移,使得卷积的取样点发生形状变化,提高改进后模型的可变形特性,改进模型提高了对可变形目标的检测识别效果;考虑对不同层的特征图进行融合,对底层特征图池化处理降低分辨率,对高层特征逆卷积处理提高分辨率,然后融合低、中、高三层特征图;同时考虑增加一组小尺度预选框,增加小目标预选框的生成数量,改进模型提高了对小目标的检测识别效果。
Description
技术领域
本发明涉及一种可变形活体小目标的深度学习智能识别方法,属于机器人视觉及其智能识别技术领域。
背景技术
机器人视觉及其智能识别技术,是机器人获取外界信息的最主要手段之一,目前已广泛用于机器人领域的探测、目标跟踪、作业等多个领域。然而,随着技术的变革和人们对系统效能提升的需要,视觉智能技术不仅需要机器人针对不同场景对小尺度目标进行检测和识别,而且需要可变形的活体目标进行视觉检测和识别。针对可变形活体目标检测困难的问题,当前主要有两类解决方法。第一类是建立一个目标拥有足够多的变化形状的训练集,这种方法主要通过增广已有数据实现。这种方法主要通过消耗大量的训练和复杂的模型参数来实现鲁棒性的检测可变形目标。第二类方法是使用具有变换不变性的特征和算法,这一类方法包含很多经典算法如SIFT即scale invariant feature transform和基于滑窗的目标检测范例。
然而,上述提及的方法存在这两个缺点。首先,几何变换是固定且已知的,这个先验知识被用来设计增广数据和设计特征和算法,然而,对于活体目标,其形状的变换有多种形式,而增广得到的目标形态是有限的,因此这种方法对与那些未增广到的形态就无法处理其未知的几何变换。第二,对于过分复杂的变换,即使变换已知,人为地设计不变特征和算法也是难以实现和不可行的。
发明内容
本发明的目的是为了提高对可变形目标的检测效果而提供一种可变形活体小目标的深度学习智能识别方法。
本发明的目的是这样实现的,一种可变形活体小目标的深度学习智能识别方法,具体包括以下步骤:
步骤1.可变形卷积模块替换基础卷积单元:对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;
步骤2.可变形ROI池化模块替换ROI池化层:对普通ROI即Region of Interest池化在每一个方格的位置添加一个二维甚至高维偏移,以改善卷积神经网络可变形能力,得到可变形卷积网络,提高卷积神经网络对可变形目标的检测和识别能力;
步骤3.针对小目标的检测和识别,用一种基于逆卷积和多层特征融合的结构对Faster R-CNN模型进行改进,使小目标预选框获得的信息量更丰富;
步骤4.在Faster R-CNN网络中,RPN网络被用来生成预选框,然后算法对这些预选框进行分类和回归,对锚点机制改进,在锚点中增加一组小尺度预选框,使RPN可生成更多的小目标预选框,提高对小目标的检测和识别效果。
本发明还包括这样一些结构特征:
1.所述可变形卷积网络中包含可变形卷积模块、可变形ROI池化模块和可变形位置敏感的ROI池化模块;卷积神经网络中的卷积和特征图都是三维的,可变形卷积是在二维空间域操作的,在不同的通道维度之间,可变形卷积操作都是相同的。
2.所述步骤1是对可变形卷积的二维操作描述,具体包括对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;偏移量通过对同一个输入特征图进行卷积操作得到,卷积操作的卷积核和之前卷积层保持同样的分辨率和膨胀值;输出的偏移域与输入的特征图有相同的空间分辨率,偏移域的通道数是输入特征图通道数的两倍,这对应卷积每个取样位置的二维的偏移,在训练中,生成输出特征图的卷积核和生成偏移域的卷积核同时进行学习,为学习得到偏移域,梯度是通过下面两公式的双线性操作反向运算得到:
式中,p表示任意的取样点位置,在可变形ROI池化模块中梯度相对偏移量Δpij的计算公式中,p=p0+pn+Δpn,q表示输入特征图In中的所有整型空间遍历点,G(.,.)表示双线性插值核,g(a,b)=max(0,1-|a-b);
在可变形卷积公式中,梯度相对于偏移量Δpn的计算公式为:
3.所述步骤2对ROI池化层的可变形ROI池化操作是在二维空间域操作的,在不同的通道维度之间,可变形ROI池化操作都是相同的,可变形ROI池化操作具体包括对普通ROI池化在每一个方格的位置添加了一个二维甚至高维偏移,以改善卷积神经网络可变形能力,提高卷积神经网络对可变形目标的检测和识别能力;首先使用ROI池化操作得到池化后的特征图;然后在特征图后面接一个全连接层得到归一化的偏移量;最后这个归一化的偏移量通过与感兴趣区域宽和高的元素乘积;偏移量的规范化对于偏移量学到对感兴趣区域大小的不变性是必不可少的,后接的全连接层的参数将通过反向传播算法得到;在可变形ROI池化模块中,梯度相对偏移量Δpij的值可计算为:
4.所述可变形卷积网络可对Faster R-CNN网络改进,改进分为两个阶段,第一阶段是一个全卷积网络对输入图片生成特征图,修改版的VGG16网络为了提取特征,去掉了卷积单元后续的一个最大池化层、两个4096单元全连接层和一个1000单元全连接层;将可变形卷积应用于最后一个卷积单元,即conv5_1,conv5_2和conv5_3这三个卷积层。第二阶段是一个轻型的基于任务的网络基于输入特征图而生成结果;Faster R-CNN网络的分类回归部分,主要是使用RPN网络生成预选框,然后预选框和特征图输入到Fast R-CNN网络,首先ROI池化层对边框进行ROI池化得到特征,加两个1024维的全连接层,最后接两个平行的分支,分别是目标回归和分类,得到最终结果。
5.步骤3所述用一种基于逆卷积的结构对Faster R-CNN模型进行改进具体包括在卷积神经网络中插入逆池化层;为了应用逆池化层,首先在池化操作的时候记录下最大激活值的位置;然后反池化的时候将激活值返回其池化时的位置,其余位置则全设为零;最后我们还需要对逆卷积的输出特征图进行裁剪,以使逆卷积处理后特征图的分辨率与逆池化输出特征图的分辨率保持一致。
6.步骤3所述用多层特征融合的结构对Faster R-CNN模型进行改进具体包括首先针对特征信息不足的情况对特征进行融合处理,然后再对多个感兴趣区域进行ROI池化,这样就只需要一次特征融合和一次归一化,节省了重复计算的时间;其次针对感兴趣区域较小的情况,将对最后一层特征做逆卷积处理,对第三层特征最大池化处理,最后再将三个特征图进行融合。
与现有技术相比,本发明的有益效果是:本发明设计了一种可变形活体小目标的深度学习智能识别方法,该发明针对可变形活体小目标的特点,将可变形卷积模块和可变形ROI池化模块与Faster R-CNN进行合理的结合,其中可变形卷积模块用来替换基础卷积单元,可变形ROI池化模块用来替换ROI池化层,可变形卷积和可变形ROI池化模块的引入,能使检测模型的采样能随着检测目标形状的变化而变化,从而提高了对可变形目标的检测效果。使用逆卷积和多层特征融合对Faster R-CNN模型进行改进,逆卷积和多层特征融合使得小目标预选框获得的信息量更丰富,对锚点机制的改进是使得RPN可以生成更多的小目标预选框。同时基于逆卷积和多层特征融合的方法对小目标的检测既有高层特征较强的语义信息,又结合了低层特征的较高分辨率优点。
附图说明
图1是3×3的可变形卷积示意图;
图2是3×3可变形ROI池化示意图;
图3是可变形卷积、可变形ROI池化对Faster R-CNN的改进示意图;
图4是逆卷积和逆池化操作示意图;
图5是多层特征融合示意图;
图6是改进后的多层特征融合示意图;
图7是RPN网络的结构示意图;
图8是可变形卷积、可变形ROI池化实时在线识别视频帧结果;
图9是原始Faster R-CNN(左)和改进的Faster R-CNN(右)海生物目标检测可视化结果。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明设计了一种可变形活体小目标的深度学习智能识别方法,该发明针对可变形活体小目标的特点,将可变形卷积模块和可变形ROI池化模块与Faster R-CNN进行合理的结合,其中可变形卷积模块用来替换基础卷积单元,可变形ROI池化模块用来替换ROI池化层,同时使用逆卷积和多层特征融合对Faster R-CNN模型进行改进,逆卷积和多层特征融合使得小目标预选框获得的信息量更丰富,对锚点机制的改进是使得RPN可以生成更多的小目标预选框。
该发明基于发明人在人工智能研究方面的先进成果,该方法对可变形活体小目标识别准确。其中,可变形卷积和可变形ROI池化模块的引入,能使检测模型的采样能随着检测目标形状的变化而变化,从而提高了对可变形目标的检测效果。而基于逆卷积和多层特征融合的方法对小目标的检测既有高层特征较强的语义信息,又结合了低层特征的较高分辨率优点。
发明实现如下:
a、一种可变形活体小目标的深度学习智能识别方法,主要步骤包括:首先对标准卷积的空间取样点加入二维甚至高维偏移,使得卷积的取样点发生形状变化;其次对普通ROI(Region of Interest)池化在每一个方格的位置添加了一个二维甚至高维偏移,以改善卷积神经网络可变形能力,从而提高卷积神经网络对可变形目标的检测和识别能力。针对小目标的检测和识别,将一种基于逆卷积和多层特征融合的结构首先对Faster R-CNN模型进行改进,使得小目标预选框获得的信息量更丰富;其次对锚点机制的改进,使得RPN可以生成更多的小目标预选框。从而提高对小目标的检测和识别效果。
b、其中,可变形卷积网络中包含有可变形卷积模块、可变形ROI池化模块和可变形位置敏感的ROI池化模块。卷积神经网络中的卷积和特征图都是三维的,可变形卷积是在二维空间域操作的,在不同的通道维度之间,可变形卷积操作都是相同的。不失一般性的,我们为了简化问题,接下来将对模型的二维操作进行描述,延伸到三维情况下也是完全相同的。
对标准卷积的空间取样点加入二维甚至高维偏移,使得卷积的取样点发生形状变化;偏移量是通过对同一个输入特征图进行卷积操作得到的,卷积操作的卷积核是和之前卷积层保持着同样的分辨率和膨胀值的。输出的偏移域与输入的特征图有着相同的空间分辨率,偏移域的通道数是输入特征图通道数的两倍,这对应着卷积每个取样位置的二维的偏移。在训练中,生成输出特征图的卷积核和生成偏移域的卷积核是同时进行学习的。为了学习得到偏移域,梯度是通过公式(1)和公式(2)中的双线性操作反向运算得到的。
式中,p表示任意的取样点位置(对于公式(4-3),p=p0+pn+Δpn),q表示输入特征图In中的所有整型空间遍历点,G(.,.)表示双线性插值核,g(a,b)=max(0,1-|a-b|)。
在可变形卷积公式中,梯度相对于偏移量Δpn的计算公式如下:
c、同样的,可变形ROI池化操作也是在二维空间域操作的,在不同的通道维度之间,可变形ROI池化操作都是相同的。不失一般性的,我们为了简化问题,接下来将对模型的二维操作进行描述,延伸到三维情况下也是完全相同的。
对普通ROI(Region of Interest)池化在每一个方格的位置添加了一个二维甚至高维偏移,以改善卷积神经网络可变形能力,从而提高卷积神经网络对可变形目标的检测和识别能力。首先使用ROI池化操作得到池化后的特征图。然后,特征图后面接一个全连接层得到归一化的偏移量。最后,这个归一化的偏移量通过与感兴趣区域宽和高的元素乘积。偏移量的规范化对于偏移量学到对感兴趣区域大小的不变性是必不可少的,后接的全连接层的参数将通过反向传播算法得到。
在可变形ROI池化模块中,梯度相对偏移量Δpij的值可计算如下:
d、对于Faster R-CNN,拟将该网络分为两个阶段。第一阶段,一个全卷积网络对输入图片生成特征图。第二阶段,一个轻型的基于任务的网络基于输入特征图而生成结果。我们主要用可变形卷积和可变形ROI池化对这两个部分进行改进。
可变形网络对Faster R-CNN网络改进的第一阶段:一个全卷积网络对输入图片生成特征图。修改版的VGG16网络为了提取特征,去掉了卷积单元后续的一个最大池化层、两个4096单元全连接层和一个1000单元全连接层。将权利要求1应用于最后一个卷积单元,即conv5_1,conv5_2和conv5_3这三个卷积层。
可变形网络对Faster R-CNN网络改进的第二阶段:一个轻型的基于任务的网络基于输入特征图而生成结果Faster R-CNN网络的分类回归部分,主要是使用RPN网络生成预选框,然后预选框和特征图输入到Fast R-CNN网络,首先ROI池化层对边框进行ROI池化得到特征,加两个1024维的全连接层,最后接两个平行的分支,分别是目标回归和分类,得到最终结果。
e、针对小目标的检测和识别,设计了一种基于逆卷积和多层特征融合的结构。首先对Faster R-CNN模型进行改进,在卷积神经网络中插入逆池化层。为了应用逆池化层,首先,在池化操作的时候,记录下最大激活值的位置。然后,反池化的时候将激活值返回其池化时的位置,其余位置则全设为零。最后,我们还需要对逆卷积的输出特征图进行裁剪,以使逆卷积处理后特征图的分辨率与逆池化输出特征图的分辨率保持一致。
在多层特征融合方面,首先针对特征信息不足的情况,先对特征进行融合处理,然后再对多个感兴趣区域进行ROI池化,这样就只需要一次特征融合和一次归一化,节省了重复计算的时间。其次针对感兴趣区域较小的情况,将对最后一层特征做逆卷积处理,对第三层特征最大池化处理,最后再将三个特征图进行融合。提高了最后使用特征图的分辨率。
f.对RPN网络中的锚点机制进行了修改,在锚点中增加了一组小尺度预选框,这使得RPN网络最后提取的预选框中包含的小目标预选框更多,有助于小目标的检测和识别。
在Faster R-CNN网络中,RPN网络被用来生成预选框,然后算法对这些预选框进行分类和回归。因此,如果RPN能够生成更加合适的预选框,则检测识别结果也会得到提高。
结合图形对本发明进行具体描述:
实施方式一:图1是可变形卷积的示意图,在可变形卷积中,对常规取样网格加上偏移,取样点就变成不规则的而且有一个偏移量的点,由于偏移量通常是带小数的,所以对于在输入特征图上的取样一般通过双线性插值得到。偏移量是通过对同一个输入特征图进行卷积操作得到的,卷积操作的卷积核是和之前卷积层保持着同样的分辨率和膨胀值的,输出的偏移域与输入的特征图有着相同的空间分辨率,偏移域的通道数是输入特征图通道数的两倍,这对应着卷积每个取样位置的二维的偏移(x轴方向的偏移和y轴方向的偏移)。
实施方式二:图2是可变形ROI池化示意图。首先,使用ROI池化操作得到池化后的特征图。然后,特征图后面接一个全连接层得到归一化的偏移量最后,这个归一化的偏移量通过与感兴趣区域宽和高的元素乘积,如公式得到了下面公式中使用的偏移量Δpij。根据经验,这个量通常被设定为γ=0.1。偏移量的规范化对于偏移量学到对感兴趣区域大小的不变性是必不可少的。后接的全连接层的参数通过反向传播算法得到。
实施方式三:图3是可变形卷积、可变形ROI池化对Faster R-CNN的改进示意图。Faster R-CNN网络特征提取部分,我们使用的是修改版的VGG16网络作为基础网络来提取特征,修改版的VGG16网络为了提取特征,去掉了卷积单元后续的一个最大池化层、两个4096单元全连接层和一个1000单元全连接层。实验表明,当可变形卷积用最后一个卷积单元的时候,可以得到较好的结果。因此考虑将可变形卷积应用最后一个卷积单元,即conv5_1,conv5_2,conv5_3这三个卷积层。
Faster R-CNN网络的分类回归部分,主要是使用RPN网络生成预选框,然后预选框和特征图输入到Fast R-CNN网络,首先ROI池化层对边框进行ROI池化得到特征,加两个1024维的全连接层,最后接两个平行的分支,分别是目标回归和分类,得到最终结果。在Fast R-CNN部分,我们使用可变形ROI池化层替换ROI池化层。
实施方式四:图4是逆卷积和逆池化操作示意图:首先,在池化操作的时候,记录下最大激活值的位置。然后,反池化的时候将激活值返回其池化时的位置,其余位置则全设为零。逆卷积操作通过使用多层的类卷积操作,对逆池化操作的输出特征图经过致密化处理,以生成致密特征图。但是与卷积层一次卷积操作将多个输入卷积处理后得到一个输出相反,一个输入经过逆卷积处理后得到多个输出。最后,我们还需要对逆卷积的输出特征图进行裁剪,以使逆卷积处理后特征图的分辨率与逆池化输出特征图的分辨率保持一致。
实施方式五:用全局特征和局部特征的结合,如多尺度,来强化Faster R-CNN网络对全局纹理和局部信息的获取,以提升对目标检测的鲁棒性,图5为多层特征融合,用全局特征和局部特征的结合,如多尺度,来强化Faster R-CNN网络对全局纹理和局部信息的获取,以提升对目标检测的鲁棒性。为了强化网络的检测能力,考虑结合浅层的特征图,比如conv3,conv4,然后来做ROI池化,这样,网络就可以检测到包含更多的在感兴趣区域以内的低层特征成分,如图所示。
实施方式六:考虑对高层信息进行逆卷积到与低层信息同一个分辨率,之后将同一分辨率的多层特征进行融合。图6为改进后的多层特征融合示意图。首先,取conv3,conv4和conv5这三层的输出特征图。然后,用感兴趣区域对conv3,conv4和conv5对应区域进行ROI池化操作,使用L2归一层对池化后的特征归一化处理并合并,将合并后的特征通道数降低到和conv5的输出特征一致。最后,后接目标分类层和目标回归层。由于需要对三个特征图进行合并,对不同层的特征进行归一化处理,比如L2归一化,然后再合并。
实施方式七:图7是RPN的网络结构图。在原始的RPN网络中每个滑窗处会生成九个预选框,它们分别是尺度[1282,2562,5122]和长宽比[1:1,1:2,2:1]的随机组合。这个尺度和长宽比的选择对于pascal voc数据集能取得最好的测试结果。针对小目标物体增加一组642的预选框尺度,即预选框尺度为[642,1282,2562,5122]。这样,每个滑窗处会生成12个预选框并且预选框倾向于向小目标检测倾斜,最终提高对小目标的检测效率。
实施方式八:图8是可变形卷积、可变形ROI池化实时在线识别视频帧结果,我们使用改进的Faster R-CNN模型进行了在线识别实验,改进算法在实验中的检测速率为12帧每秒。
表1是我们在线识别的测试结果。其中,预测值是算法预测得到的结果各种类的目标值,真值是人工对实时检测视频标注得到的值。由表1可知,算法预测值与真值接近,这说明改进算法对实时检测时遇到的海洋生物变形问题有较好的检测鲁棒性。图8是在线识别视频中的某些帧的测试结果。由图8可知,检测结果稳定,说明改进算法对不稳定摄像环境下对惊扰可变形目标有着较好的检测表现。
表1在线识别测试结果
实施方式九:原始Faster R-CNN算法和改进的Faster R-CNN算法在海洋生物数据不同尺度目标上的检测结果
表2
由表2可知,改进的Faster R-CNN对不同尺度目标的检测结果都得到了提高,小目标检测效果的提升效果明显。原始Faster R-CNN算法和改进的Faster R-CNN算法对小目标的检测结果分别为mAP(IOU阈值去0.5)35.45和42.95,提高了21.16%,说明改进的FasterR-CNN比原始Faster R-CNN算法对小目标检测的提升明显。在更严格的评价指标下,即取IOU阈值为0.7,原始Faster R-CNN算法和改进的Faster R-CNN算法对小目标的检测结果mAP分别为22.40和29.78,提升了32.94%,更说明了算法对小目标检测效果的提升。
综上,本发明引入可变形网络,使用可变形网络的可变形卷积模块和可变形ROI池化模块对模型进行改进,对标准卷积的空间取样点和普通ROI(Region of Interest)池化加入二维甚至高维偏移,使得卷积的取样点发生形状变化,提高改进后模型的可变形特性,改进模型提高了对可变形目标的检测识别效果。考虑对不同层的特征图进行融合,对底层特征图池化处理降低分辨率,对高层特征逆卷积处理提高分辨率,然后融合低、中、高三层特征图。同时,考虑增加一组小尺度预选框,增加小目标预选框的生成数量,改进模型提高了对小目标的检测识别效果。
Claims (7)
1.一种可变形活体小目标的深度学习智能识别方法,其特征在于,具体包括以下步骤:
步骤1.可变形卷积模块替换基础卷积单元:对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;
步骤2.可变形ROI池化模块替换ROI池化层:对普通ROI即Region of Interest池化在每一个方格的位置添加一个二维甚至高维偏移,以改善卷积神经网络可变形能力,得到可变形卷积网络,提高卷积神经网络对可变形目标的检测和识别能力;
步骤3.针对小目标的检测和识别,用一种基于逆卷积和多层特征融合的结构对FasterR-CNN模型进行改进,使小目标预选框获得的信息量更丰富;
步骤4.在Faster R-CNN网络中,RPN网络被用来生成预选框,然后算法对这些预选框进行分类和回归,对锚点机制改进,在锚点中增加一组小尺度预选框,使RPN可生成更多的小目标预选框,提高对小目标的检测和识别效果。
2.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:所述可变形卷积网络中包含可变形卷积模块、可变形ROI池化模块和可变形位置敏感的ROI池化模块;卷积神经网络中的卷积和特征图都是三维的,可变形卷积是在二维空间域操作的,在不同的通道维度之间,可变形卷积操作都是相同的。
3.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:所述步骤1是对可变形卷积的二维操作描述,具体包括对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;偏移量通过对同一个输入特征图进行卷积操作得到,卷积操作的卷积核和之前卷积层保持同样的分辨率和膨胀值;输出的偏移域与输入的特征图有相同的空间分辨率,偏移域的通道数是输入特征图通道数的两倍,这对应卷积每个取样位置的二维的偏移,在训练中,生成输出特征图的卷积核和生成偏移域的卷积核同时进行学习,为学习得到偏移域,梯度是通过下面两公式的双线性操作反向运算得到:
G(q,p)=g(qx,px)·g(qy,py)
式中,p表示任意的取样点位置,在可变形ROI池化模块中梯度相对偏移量Δpij的计算公式中,p=p0+pn+Δpn,q表示输入特征图In中的所有整型空间遍历点,G(.,.)表示双线性插值核,g(a,b)=max(0,1-|a-b|);
在可变形卷积公式中,梯度相对于偏移量Δpn的计算公式为:
4.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:所述步骤2对ROI池化层的可变形ROI池化操作是在二维空间域操作的,在不同的通道维度之间,可变形ROI池化操作都是相同的,可变形ROI池化操作具体包括对普通ROI池化在每一个方格的位置添加了一个二维甚至高维偏移,以改善卷积神经网络可变形能力,提高卷积神经网络对可变形目标的检测和识别能力;首先使用ROI池化操作得到池化后的特征图;然后在特征图后面接一个全连接层得到归一化的偏移量;最后这个归一化的偏移量通过与感兴趣区域宽和高的元素乘积;偏移量的规范化对于偏移量学到对感兴趣区域大小的不变性是必不可少的,后接的全连接层的参数将通过反向传播算法得到;在可变形ROI池化模块中,梯度相对偏移量Δpij的值可计算为:
5.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:所述可变形卷积网络可对Faster R-CNN网络改进,改进分为两个阶段,第一阶段是一个全卷积网络对输入图片生成特征图,修改版的VGG16网络为了提取特征,去掉了卷积单元后续的一个最大池化层、两个4096单元全连接层和一个1000单元全连接层;将可变形卷积应用于最后一个卷积单元,即conv5_1,conv5_2和conv5_3这三个卷积层;第二阶段是一个轻型的基于任务的网络基于输入特征图而生成结果;Faster R-CNN网络的分类回归部分,主要是使用RPN网络生成预选框,然后预选框和特征图输入到Fast R-CNN网络,首先ROI池化层对边框进行ROI池化得到特征,加两个1024维的全连接层,最后接两个平行的分支,分别是目标回归和分类,得到最终结果。
6.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:步骤3所述用一种基于逆卷积的结构对Faster R-CNN模型进行改进具体包括在卷积神经网络中插入逆池化层;为了应用逆池化层,首先在池化操作的时候记录下最大激活值的位置;然后反池化的时候将激活值返回其池化时的位置,其余位置则全设为零;最后我们还需要对逆卷积的输出特征图进行裁剪,以使逆卷积处理后特征图的分辨率与逆池化输出特征图的分辨率保持一致。
7.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:步骤3所述用多层特征融合的结构对Faster R-CNN模型进行改进具体包括首先针对特征信息不足的情况对特征进行融合处理,然后再对多个感兴趣区域进行ROI池化,这样就只需要一次特征融合和一次归一化,节省了重复计算的时间;其次针对感兴趣区域较小的情况,将对最后一层特征做逆卷积处理,对第三层特征最大池化处理,最后再将三个特征图进行融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284570.7A CN111126385A (zh) | 2019-12-13 | 2019-12-13 | 一种可变形活体小目标的深度学习智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284570.7A CN111126385A (zh) | 2019-12-13 | 2019-12-13 | 一种可变形活体小目标的深度学习智能识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111126385A true CN111126385A (zh) | 2020-05-08 |
Family
ID=70498812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911284570.7A Pending CN111126385A (zh) | 2019-12-13 | 2019-12-13 | 一种可变形活体小目标的深度学习智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126385A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709307A (zh) * | 2020-05-22 | 2020-09-25 | 哈尔滨工业大学 | 一种基于分辨率增强的遥感图像小目标检测方法 |
CN111815510A (zh) * | 2020-09-11 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 基于改进的卷积神经网络模型的图像处理方法及相关设备 |
CN111860171A (zh) * | 2020-06-19 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种大规模遥感图像中不规则形状目标的检测方法及系统 |
CN112651346A (zh) * | 2020-12-29 | 2021-04-13 | 青海三新农电有限责任公司 | 一种基于深度学习的流媒体视频识别与检测方法 |
CN112733672A (zh) * | 2020-12-31 | 2021-04-30 | 深圳一清创新科技有限公司 | 基于单目相机的三维目标检测方法、装置和计算机设备 |
CN113177486A (zh) * | 2021-04-30 | 2021-07-27 | 重庆师范大学 | 基于区域建议网络的蜻蜓目昆虫识别方法 |
CN114155246A (zh) * | 2022-02-10 | 2022-03-08 | 国网江西省电力有限公司电力科学研究院 | 一种基于可变形卷积的输电塔销钉缺陷检测方法 |
CN116205967A (zh) * | 2023-04-27 | 2023-06-02 | 中国科学院长春光学精密机械与物理研究所 | 医学影像语义分割方法、装置、设备及介质 |
CN116824333A (zh) * | 2023-06-21 | 2023-09-29 | 中山大学附属第一医院 | 一种基于深度学习模型的鼻咽癌检测系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229904A (zh) * | 2017-04-24 | 2017-10-03 | 东北大学 | 一种基于深度学习的目标检测与识别方法 |
CN107316001A (zh) * | 2017-05-31 | 2017-11-03 | 天津大学 | 一种自动驾驶场景中小且密集的交通标志检测方法 |
CN107766818A (zh) * | 2017-10-18 | 2018-03-06 | 哈尔滨工程大学 | 一种启发式的水下结构化环境线特征提取方法 |
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN109766873A (zh) * | 2019-02-01 | 2019-05-17 | 中国人民解放军陆军工程大学 | 一种混合可变形卷积的行人再识别方法 |
CN110163275A (zh) * | 2019-05-16 | 2019-08-23 | 西安电子科技大学 | 基于深度卷积神经网络的sar图像目标分类方法 |
-
2019
- 2019-12-13 CN CN201911284570.7A patent/CN111126385A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN107229904A (zh) * | 2017-04-24 | 2017-10-03 | 东北大学 | 一种基于深度学习的目标检测与识别方法 |
CN107316001A (zh) * | 2017-05-31 | 2017-11-03 | 天津大学 | 一种自动驾驶场景中小且密集的交通标志检测方法 |
CN107766818A (zh) * | 2017-10-18 | 2018-03-06 | 哈尔滨工程大学 | 一种启发式的水下结构化环境线特征提取方法 |
CN109766873A (zh) * | 2019-02-01 | 2019-05-17 | 中国人民解放军陆军工程大学 | 一种混合可变形卷积的行人再识别方法 |
CN110163275A (zh) * | 2019-05-16 | 2019-08-23 | 西安电子科技大学 | 基于深度卷积神经网络的sar图像目标分类方法 |
Non-Patent Citations (1)
Title |
---|
周浩: "样本不足条件下水下机器人小目标检测识别研究", 《网页在线公开:HTTPS://D.WANFANGDATA.COM.CN/THESIS/CHJUAGVZAXNOZXDTMJAYMTEYMDESCFKZNTUXMDU0GGHYAG10EWXWNW%3D%3D》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709307B (zh) * | 2020-05-22 | 2022-08-30 | 哈尔滨工业大学 | 一种基于分辨率增强的遥感图像小目标检测方法 |
CN111709307A (zh) * | 2020-05-22 | 2020-09-25 | 哈尔滨工业大学 | 一种基于分辨率增强的遥感图像小目标检测方法 |
CN111860171A (zh) * | 2020-06-19 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种大规模遥感图像中不规则形状目标的检测方法及系统 |
CN111815510A (zh) * | 2020-09-11 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 基于改进的卷积神经网络模型的图像处理方法及相关设备 |
CN111815510B (zh) * | 2020-09-11 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 基于改进的卷积神经网络模型的图像处理方法及相关设备 |
CN112651346A (zh) * | 2020-12-29 | 2021-04-13 | 青海三新农电有限责任公司 | 一种基于深度学习的流媒体视频识别与检测方法 |
CN112733672A (zh) * | 2020-12-31 | 2021-04-30 | 深圳一清创新科技有限公司 | 基于单目相机的三维目标检测方法、装置和计算机设备 |
CN113177486A (zh) * | 2021-04-30 | 2021-07-27 | 重庆师范大学 | 基于区域建议网络的蜻蜓目昆虫识别方法 |
CN113177486B (zh) * | 2021-04-30 | 2022-06-03 | 重庆师范大学 | 基于区域建议网络的蜻蜓目昆虫识别方法 |
CN114155246B (zh) * | 2022-02-10 | 2022-06-14 | 国网江西省电力有限公司电力科学研究院 | 一种基于可变形卷积的输电塔销钉缺陷检测方法 |
CN114155246A (zh) * | 2022-02-10 | 2022-03-08 | 国网江西省电力有限公司电力科学研究院 | 一种基于可变形卷积的输电塔销钉缺陷检测方法 |
CN116205967A (zh) * | 2023-04-27 | 2023-06-02 | 中国科学院长春光学精密机械与物理研究所 | 医学影像语义分割方法、装置、设备及介质 |
CN116824333A (zh) * | 2023-06-21 | 2023-09-29 | 中山大学附属第一医院 | 一种基于深度学习模型的鼻咽癌检测系统 |
CN116824333B (zh) * | 2023-06-21 | 2024-08-16 | 中山大学附属第一医院 | 一种基于深度学习模型的鼻咽癌检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
Rocco et al. | Efficient neighbourhood consensus networks via submanifold sparse convolutions | |
Cortinhal et al. | Salsanext: Fast, uncertainty-aware semantic segmentation of lidar point clouds | |
CN112561027B (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
US20160196672A1 (en) | Graph image representation from convolutional neural networks | |
US12307630B2 (en) | Methods and systems for super resolution for infra-red imagery | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN114419732B (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
Tan et al. | Eco-tr: Efficient correspondences finding via coarse-to-fine refinement | |
Song et al. | Deep novel view synthesis from colored 3d point clouds | |
CN113052755A (zh) | 一种基于深度学习的高分辨率图像智能化抠图方法 | |
US20200379481A1 (en) | Localising a vehicle | |
Mueller et al. | Image-to-image translation for enhanced feature matching, image retrieval and visual localization | |
Vaquero et al. | Tracking more than 100 arbitrary objects at 25 FPS through deep learning | |
CN113807354A (zh) | 图像语义分割方法、装置、设备和存储介质 | |
Lee et al. | Connectivity-based convolutional neural network for classifying point clouds | |
CN118247511A (zh) | 一种基于全局特征增强的点云语义分割方法 | |
Guo et al. | Salient object detection from low contrast images based on local contrast enhancing and non-local feature learning | |
CN119648802B (zh) | 基于高分辨率网络的轻量化空间航天器位姿估计方法 | |
Zhang et al. | Planeseg: Building a plug-in for boosting planar region segmentation | |
Chang et al. | Gaussreg: Fast 3d registration with gaussian splatting | |
Ammar et al. | Comparative study of latest cnn based optical flow estimation | |
Hallek et al. | Real-time stereo matching on CUDA using Fourier descriptors and dynamic programming | |
Tang et al. | Two-stage filtering method to improve the performance of object detection trained by synthetic dataset in heavily cluttered industry scenes | |
Lu et al. | UNet-Att: a self-supervised denoising and recovery model for two-photon microscopic image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |
|
RJ01 | Rejection of invention patent application after publication |