CN112348036A

CN112348036A - 基于轻量化残差学习和反卷积级联的自适应目标检测方法

Info

Publication number: CN112348036A
Application number: CN202011342607.XA
Authority: CN
Inventors: 刘芳; 韩笑; 孙亚楠
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-09
Anticipated expiration: 2040-11-26
Also published as: CN112348036B

Abstract

本发明公开了基于轻量化残差网络和反卷积级联的自适应目标检测方法，包括以下步骤：获取图像训练数据集和测试数据集；通过结合深度可分离卷积和残差学习的轻量化残差网络来提取待检测图像的深层次特征，获得目标的深层次表达；采用1x1卷积对提取到的不同层级特征图固定输出特征图维度；利用反卷积级联结构增大深层级特征图分辨率以实现与其前一层特征图的空间尺寸一致；利用语义特征指导候选区域生成网络在多尺度特征图上自适应生成与真实目标更加匹配的目标候选框；最后对生成的目标候选框Anchor进行修正。本发明有效的提高了目标检测的精确性，能够在复杂条件下快速准确地检测目标，有效提高目标检测的实时性。

Description

基于轻量化残差学习和反卷积级联的自适应目标检测方法

技术领域

本发明涉及一种目标检测方法，属于数字图像处理、深度学习、人工智能领域，特别设计一种基于轻量化残差学习和反卷积级联的自适应目标检测方法。

背景技术

随着计算机视觉技术的快速发展，目标检测技术已成为人工智能和计算机视觉领域的研究热点，被广泛应用到军事和民用领域。目标检测主要针对视频图像序列中一种或者多种特定目标，对其进行识别与定位。在多数情况下，视频图像采集设备包含丰富的视觉内容，虽然能提供更全面的场景信息，但是待检测的目标在图像或视频中通常尺度变化较大、分布集中、存在遮挡，且没有足够的检测细节，这导致了目前的目标检测算法无法有效提取目标特征，精准定位目标位置。因此，准确高效地检测目标对象是目标检测任务的关键问题之一。

近年来，基于深度学习的目标检测技术取得了巨大成功，不少学者开始研究利用深度学习方法进行目标检测。当前主流的目标检测算法主要分为两类，一类是基于回归方法的单阶段目标检测，一类是基于区域候选框的两阶段目标检测。前者主要是以YOLO系列为代表，其检测思路是将检测问题视为对目标位置和目标类别信息的回归分析问题，通过卷积神经网络直接输出检测结果；后者主要以R-CNN系列为代表，顾名思义。该方法将目标检测过程分为两个主要阶段，候选区域提取模块是第一个部分，通过主流的骨干网提取网络特征，用于检测背景和前景区域，第二个阶段则是对候选区域进行分类和坐标修正，完成目标的准确检测。前者虽然速度较快，但是精度却不尽如人意；后者由于需要进行两次卷积网络运算，这无疑会导致两阶段检测网络有较高的检测精度，但是在一定程度上降低了检测速度。然而随着卷积神经网络的发展，各种轻量化骨干网(如ShuffleNet、MobileNet等)、卷积方式(如深度卷积、可分离卷积、点卷积等)以及不同的连接方式(比如SkipConnection等)的出现，使得网络复杂度和计算复杂度不断降低，同时，硬件设备不断发展，也为目标检测速度的提升奠定了基础。此外，随着卷积神经网络的广泛应用，反卷积也随之进入人们的视线，反卷积作为卷积的逆过程，能有效的解决深层卷积操作带来特征图分辨率降低、特征丢失等问题，是进行多尺度特征融合的一种重要的手段。

现有的方法存在的不足：一方面，传统的经典目标检测算法受限于人工设计的手工特征和选择性搜索算法，导致目标检测精度低、检测速度慢，算法鲁棒性差；另一方面，基于深度学习的目标检测虽然精度有所提升，但是卷积神经网络存在大量参数，算法结构复杂度高，计算量大，很难满足实时性需求。

发明内容

本发明旨在解决上述缺陷，提出了一种基于轻量化残差学习和反卷积级联的自适应目标检测算法。结合残差学习的优点并将普通卷积操作分成深度卷积层和点卷积层两部分用于压缩网络参数，提高网络的计算效率。之后，在轻量化残差网络的基础上构建多尺度自适应候选区域生成网络，通过反卷积级联结构在低层特征图中加权融入高层语义特征，增强了特征对目标的表达能力，并采用多层级不同尺度特征图用于目标预测，根据图像特征预测候选框的位置和形状，来生成稀疏且形状任意的候选框，从而达到较好的目标检测性能。

为了达到上述目的，本发明提出一种基于轻量化残差学习和反卷积级联的自适应目标检测方法，包括以下步骤：

S1：通过图像采集设备采集数据，获取图像训练数据集和测试数据集；

S2：构建轻量化深度残差网络，输入S1中的图像训练数据集和测试数据集，进行特征提取；

S3：选取轻量化残差网络中后四个层级中提取到的特征图，用1x1卷积固定输出特征图维度；

S4：构建多尺度自适应候选区域生成网络，由于不同层级网络得到的特征图尺寸不同，前一层特征图尺寸大于当前层特征图，为了将不同层级特征图融合，将S3中提取到的不同尺寸的特征图利用反卷积级联结构增大特征图的分辨率，实现与其前一层特征图的空间尺寸一致，并将特征图按照通道维度进行加权融合操作，采用候选区域生成网络产生预测目标框和类别信息；

S5：通过自适应候选区域生成的预测目标框的位置和类别信息，采用如下公式的多任务损失函数进行位置修正和类别回归；

L＝L_cls+L_reg+β₁L_loc+β₂L_shape (1)

其中，L为算法总的损失函数，L_cls表示在对特征进行分类时的分类损失函数，L_reg表示在进行位置回归时的回归损失函数，L_loc表示对目标定位时的定位损失，L_shape表示目标检测框的形状损失，β₁和β₂分别表示多任务损失函数的加权系数，分别取1和0.1。

有益效果

根据本发明实施例的基于轻量化残差学习和反卷积级联的自适应目标检测，本方法在特征提取方面，采用了轻量化残差网络进行特征提取，通过深度可分离卷积结合残差学习的优点建立了轻量化特征提取网络，然后根据反卷积级联进行特征融合，构建多尺度自适应候选区域生成网络，实现不同层级特征图的空间尺寸一致，并进行加权融合操作，最后利用语义特征指导网络来自适应生成与真实目标更加匹配目标候选框。仿真实验表明，本发明能有效提取视频图像序列中的目标特征，增强了特征对目标的表达能力，能够在遮挡、尺度变化、小目标的条件下快速准确的识别与定位目标，具有很高的精度和鲁棒性，同时，轻量化网络大大减少了计算量，满足检测实时性。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得更容易理解，其中：

图1为本发明实施例的基于轻量化残差学习和反卷积级联的自适应目标检测方法的流程图，以及

图2为本发明的一个实施例的轻量化残差网络示意图，以及

图3为本发明一个实施例的反卷积级联结构的多尺度特征融合示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的原件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，根据本发明基于轻量化残差学习和反卷积级联的自适应目标检测方法，包括以下几个步骤：

S1.1：对数据集中的样本通过裁剪、翻转、旋转、尺度变换等预处理，扩充数据集；

S1.2：提取每个图像中的正负样本，对待检测的正样本进行标注，用矩形框标出每个目标的位置和类别；

S2：构建轻量化深度残差网络，输入训练数据集，进行特征提取；

具体分为一下几个步骤：

S2.1：将训练数据集输入到轻量化残差网络中，对图像进行深度可分离卷积；

1)对输入图像进行深度卷积，将输入图像特征F的N个通道中的每一个通道单独分配一个卷积核，每个卷积核只负责对该通道的图像特征进行卷积操作，其中卷积核大小与标准卷积的卷积核大小一致，个数为N，步长为1，包含padding操作；

2)将上一步中的通过深度卷积得到的特征图进行点卷积，卷积核尺寸为1×1，个数为L，得到指定通道维度的特征图；

S2.2：通过跳跃连接(Skip Connection)的方式连接浅层网络与深层网络，将经过卷积过后的不同层级的特征图的特征信息进行融合，相当于把底层的特征信息融合到高层中；

S3：选取轻量化残差网络中后四个层级中的特征图，用1x1卷积固定输出特征图维度；

S4：构建多尺度自适应候选区域生成网络，利用反卷积级联结构增大深层级特征图的分辨率，实现与其前一层特征图的空间尺寸一致，并将空间尺寸一致的特征图按照通道维度进行加权融合操作，采用候选区域生成网络产生预测目标框和类别信息；

具体分为以下几个步骤：

S4.1：选择轻量化残差网络中的多级特征映射{C2、C3、C4、C5}，对应于每个网络级最后一层的输出；

S4.2：在高级特征图P5(由C5经过1x1卷积得到)上使用反卷积运算使得特征图大小与C4一致，然后将它与相应的前级特征图C4加权融合，得到一个新的特征图P4。

S4.3：重复S4.2过程，直到生成与C2大小一致的特征图P2，拥有更多小目标的细节特征信息。因此本文在相同权值直接相加的基础之上，额外为6个不同的特征图分配加权数，加权融合公式为：

其中D(·)为反卷积转化函数，α₁、α₂、α₃、α₄、α₅和α₆表示权重系数，取值分别为0.7，0.3，0.6，0.4，0.45，0.55，为避免特征信息冗余，各层融合的权重系数之和为1。

S4.4：将经过反卷积级联特征融合后的特征图输入到自适应候选区域生成网络中得到Anchor的中心位置和形状，具体步骤如下；

1)根据图像特征自适应生成的Anchor形状是根据位置的不同而变化的，采用Anchor特征自适应分支网络N_T将特征进行转化，使得较大Anchor的特征要编码较大区域内容，较小的Anchor特征能够抽取较小区域的内容，该分支网络采用3×3的可变形卷积层来实现。

f_i'＝N_T(f_i,w_i,h_i) (3)

其中f_i是第i个位置的特征，w_i,h_i是对应的Anchor形状。即先从形状预测分支的输出来预测偏移量，之后在原始特征图上使用可变形卷积来获得f_i'。

2)Anchor的中心预测分支网络N_L产生一个与输入特征图F_I相同尺寸大小的概率图，P(i,j|F_I)表明在特征图(i,j)位置可能出现目标物体的概率，对应与图像I中的坐标[(i+1/2)s,(j+1/2)s]，其中s是特征图的步长。N_L分支网络使用1x1的卷积网络来获得目标的置信图，之后利用sigmoid函数将其转化为概率值。根据生成的概率图，通过选择相应的概率值大于预先定义的阈值的位置(对比实验中取值为0.05)，从而确定目标可能存在的区域；

3)在确定目标的可能位置之后，通过形状预测分支N_S网络分支包含一个1×1大小的卷积层，可以产生两通道映射，包含dw和dh的值。输入特征图F_I，形状预测分支将预测每个位置的最佳形状(w,h)，因为w和h的范围可能很大，所以经过公式(6)的变换，形状预测分支会输出dw和dh，这两个值可以映射出w和h，其中s为步长，λ是经验尺度因子(本实验中取值为8)。该非线性变换映射可以将[0,1000]映射到[-1,1]，使得形状预测分支计算更加简单和稳定。

S5：通过自适应候选区域生成的预测目标框的位置和类别，采用如下公式的多任务损失函数进行位置修正和类别回归；

L＝L_cls+L_reg+β₁L_loc+β₂L_shape (5)

其中L_cls和L_reg分别表示传统网络中的分类损失和回归损失，L_shape和L_loc分别为新增加的anchor定位损失和anchor形状损失。

具体分为以下步骤：

S5.1：得到真实目标框(x_g,y_g,w_g,h_g)的特征映射(x′_g,y′_g,w′_g,h′_g)，采用交叉熵损失函数和均方误差函数分别得到分类损失和回归损失，之后在目标特征映射区域内定义两个区域(x′_g,y′_g,δ₁w′_g,δ₁h′_g)和(x′_g,y′_g,δ₂w′_g,δ₂h′_g)，δ₁、δ₂取值分别为0.2和0.5。(x′_g,y′_g,δ₁w′_g,δ₁h′_g)为中心区域，(x′_g,y′_g,δ₂w′_g,δ₂h′_g)以内不含中心区域的位置为忽略区域，其余部分为外围区域。

S5.2：把中心区域作为正样本，外围区域作为负样本，利用Focal Loss来训练定位分支L_loc；

S5.3：训练形状预测分支，采用以下IOU计算方式：

vIOU(a_wh,G)＝maxIOU(a_wh,G) (6)

其中IOU(·)是传统IOU的定义，G代表真实目标框，a_wh表示anchor变量，枚举9对常见的不同比例和大小的anchor作为a_wh，并使用最大值作为最终的vIOU(a_wh,G)。确定目标框anchor的形状损失L_shape，如下公式(7)所示，其中l₁为smoothL₁损失函数，(w,h)和(w_g,h_g)分别表示预测的anchor形状和对应的真实目标形状。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改替换和变形，本发明的范围有所附权利要求及其等同限定。

Claims

1.基于轻量化残差学习和反卷积级联的自适应目标检测方法，其特征在于：

L＝L_cls+L_reg+β₁L_loc+β₂L_shape (1)

2.根据权利要求1所述的基于轻量化残差学习和反卷积级联的自适应目标检测方法，其特征在于：

S1中，通过图像采集设备采集数据，获取图像训练数据集和测试数据集；

S1.1：对数据集中的样本通过裁剪、翻转、旋转、尺度变换预处理，扩充数据集；

S1.2：提取每个图像中的正负样本，对待检测的正样本进行标注，用矩形框标出每个目标的位置和类别。

3.根据权利要求1所述的基于轻量化残差学习和反卷积级联的自适应目标检测方法，其特征在于：S2中，构建轻量化深度残差网络，输入训练数据集，进行特征提取；

具体分为以下几个步骤：

S2.2：通过跳跃连接的方式连接浅层网络与深层网络，将经过卷积过后的不同层级的特征图的特征信息进行融合，相当于把底层的特征信息融合到高层中。

4.根据权利要求1所述的基于轻量化残差学习和反卷积级联的自适应目标检测方法，其特征在于：

S4中，构建多尺度自适应候选区域生成网络，利用反卷积级联结构增大深层级特征图的分辨率，实现与其前一层特征图的空间尺寸一致，并将空间尺寸一致的特征图按照通道维度进行加权融合操作，采用候选区域生成网络产生预测目标框和类别信息；

具体分为以下几个步骤：

S4.2：在高级特征图P5(由C5经过1x1卷积得到)上使用反卷积运算使得特征图大小与C4一致，然后将它与相应的前级特征图C4加权融合，得到一个新的特征图P4；

S4.3：重复S4.2过程，直到生成与C2大小一致的特征图P2，拥有更多小目标的细节特征信息；因此本文在相同权值直接相加的基础之上，额外为6个不同的特征图分配加权数，加权融合公式为：

其中D(·)为反卷积转化函数，α₁、α₂、α₃、α₄、α₅和α₆表示权重系数，取值分别为0.7，0.3，0.6，0.4，0.45，0.55，为避免特征信息冗余，各层融合的权重系数之和为1；

1)根据图像特征自适应生成的Anchor形状是根据位置的不同而变化的，采用Anchor特征自适应分支网络N_T将特征进行转化，分支网络采用3×3的可变形卷积层来实现；

f_i'＝N_T(f_i,w_i,h_i)

其中f_i是第i个位置的特征，w_i,h_i是对应的Anchor形状；即先从形状预测分支的输出来预测偏移量，之后在原始特征图上使用可变形卷积来获得f_i'；

2)Anchor的中心预测分支网络N_L产生一个与输入特征图F_I相同尺寸大小的概率图，P(i,j|F_I)表明在特征图(i,j)位置可能出现目标物体的概率，对应与图像I中的坐标[(i+1/2)s,(j+1/2)s]，其中s是特征图的步长；N_L分支网络使用1x1的卷积网络来获得目标的置信图，之后利用sigmoid函数将其转化为概率值；根据生成的概率图，通过选择相应的概率值大于预先定义的阈值的位置，从而确定目标可能存在的区域；

3)在确定目标的可能位置之后，通过形状预测分支N_S网络分支包含一个1×1大小的卷积层，产生两通道映射，包含dw和dh的值；输入特征图F_I，形状预测分支将预测每个位置的最佳形状(w,h)，因为w和h的范围可能很大，所以经过变换，形状预测分支会输出dw和dh，这两个值可以映射出w和h，其中s为步长，λ是经验尺度因子；

5.根据权利要求1所述的基于轻量化残差学习和反卷积级联的自适应目标检测方法，其特征在于：S5中，通过自适应候选区域生成的预测目标框的位置和类别，采用如下公式的多任务损失函数进行位置修正和类别回归；

L＝L_cls+L_reg+β₁L_loc+β₂L_shape

其中L_cls和L_reg分别表示传统网络中的分类损失和回归损失，L_shape和L_loc分别为新增加的anchor定位损失和anchor形状损失；

具体分为以下步骤：

S5.1：得到真实目标框(x_g,y_g,w_g,h_g)的特征映射(x′_g,y′_g,w′_g,h′_g)，采用交叉熵损失函数和均方误差函数分别得到分类损失和回归损失，之后在目标特征映射区域内定义两个区域(x′_g,y′_g,δ₁w′_g,δ₁h′_g)和(x′_g,y′_g,δ₂w′_g,δ₂h′_g)，δ₁、δ₂取值分别为0.2和0.5；(x′_g,y′_g,δ₁w′_g,δ₁h′_g)为中心区域，(x′_g,y′_g,δ₁w′_g,δ₁h′_g)为中心区域，(x′_g,y′_g,δ₂w′_g,δ₂h′_g)以内不含中心区域的位置为忽略区域，其余部分为外围区域；

S5.3：训练形状预测分支，采用以下IOU计算方式：

vIOU(a_wh,G)＝maxIOU(a_wh,G)

其中IOU(·)是IOU的定义，G代表真实目标框，a_wh表示anchor变量，枚举9对常见的不同比例和大小的anchor作为a_wh，并使用最大值作为最终的vIOU(a_wh,G)；确定目标框anchor的形状损失L_shape，l₁为smooth L₁损失函数，(w,h)和(w_g,h_g)分别表示预测的anchor形状和对应的真实目标形状；

。