CN108509978A

CN108509978A - 基于cnn的多级特征融合的多类目标检测方法及模型

Info

Publication number: CN108509978A
Application number: CN201810166908.8A
Authority: CN
Inventors: 谭冠政; 刘西亚; 陈佳庆; 赵志祥
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-09-07
Anticipated expiration: 2038-02-28
Also published as: CN108509978B

Abstract

本发明公开了一种基于CNN的多级特征融合的多类目标检测方法及模型，主要步骤包括：准备相关图像数据集，并对数据进行预处理；构建基础卷积神经网络(BaseNet)和特征融合网络(Feature‑fusedNet)模型；对上一步骤中构建的网络模型进行训练，得到相应的权重等参数的模型；用特定数据集微调已训练过的检测模型；输出目标检测模型，进行目标分类及识别，并给出检测的目标框及相应精度。另外，本发明还提供了一种基于CNN的多级特融合的多类目标检测结构模型，在提高整体检测准确度的同时，优化了模型参数量，使得模型结构更加合理。

Description

基于CNN的多级特征融合的多类目标检测方法及模型

技术领域

本发明涉及计算视觉目标检测技术领域，特别是一种基于CNN的多级特征融合的多类目标检测方法及模型。

背景技术

目标检测属于计算视觉领域中基础且十分重要的一个研究课题，涉及图像处理、机器学习及模式识别等多个不同学科领域，其任务是从待处理的图像或者视频中分类并检测出相应的目标，且提供所检测出的目标具体的位置和精度信息。随着对该技术的深入研究与创新，其在汽车自动驾驶、视频监控及分析、人脸识别、车辆追踪及交通流量统计等方面广泛应用；而且目标检测是后续图像分析理解及应用的基础，因此具有重要的研究意义和应用价值。

然而在多数情况下，需要对一张图片或一帧视频中的多个类别的目标进行检测处理，这样要面对不同的图像背景、光照条件等，且目标往往具有不同的长宽比与视角姿态变化，使得目标的定位变得困难，因此多类视觉目标检测的难度超过特定类(如人脸识别、字符识别等)的目标识别。

传统的目标检测算法一般采用滑动窗口的框架，主要包括区域选择、特征提取、分类识别等步骤，如多尺度可形变部件模型DPM，需要在尺度、位置、长宽比等几个维度空间内进行搜索，使得计算量耗费过大。而基于滑动窗口的区域选择策略针对性不行，时间复杂度高，窗口比较冗余；手工设计的特征对多样性的变化鲁棒性不强，难以提取高效的特征，使检测的精度和速度深受其影响。近年来随着深度学习技术在计算视觉、语音、自然语言等领域展现出的巨大优势，以及当前高性能运算的发展，已经涌现出很多基于深度卷积神经网络的目标检测算法，这些方法充分利用卷积神经网络强大的特征表征能力和局部连接机制和权值共享特点，通过大量数据的不断训练，自主提取二维图像中语义信息丰富且判别力强的深度特征，然后进行目标的分类和定位，使得其检测性能远远优于传统的目标检测方法，而且准确率和速度也不断得到改善。

其中，现有流行的基于卷积神经网络的目标检测方法主要分为两类，一类是基于候选区域(Region Proposal)如R-CNN、SPP-net、Faster R-CNN等，另一类是端到端检测(End-to-End)如YOLO、SSD等。但是这些经典的目标检测技术普遍存不足：图像中的目标往往在姿态、尺度、长宽比等方面呈现多样性，无法很好的检测出多类别不同大小的目标，尤其在复杂场景下图像背景多变、目标尺度相对较小时；由于这些模型结构具有层级卷积下采样的特点，对部分尺度相对小的目标提取的特征信息和位置信息经常丢失，造成部分即使获得目标的高语义信息却无法准确定位的后果；另外在一般性目标的检测上准确率和效率方面还是不能很好的平衡。

针对上述问题，现有技术中也出现了几种典型的改进方案，其中专利CN107316058A公开了一种通过提高目标分类和定位准确度改善目标检测性能的方法，主要包括：(1)提取图像特征并选择卷积层的前M层输出进行特征融合，形成多特征的特征图；(2)在卷积层M上进行网格划分，在每个网络中预测固定数目和大小的目标候选框；(3)将候选框映射到特征图上并进行多特征连接；(4)将上述结果进行分类并在线迭代回归定位，得到目标检测的结果。该方法有以下几点不足：(1)将所有的卷积层的特征都进行融合处理，没有考虑图像中目标大小与卷积层输出的高低特征的关系，即过度结合具有高分辨率的低层特征和具有高语义信息的高层特征，会增加不必要的计算复杂度；(2)特征融合的方式是影响小目标检测性能好坏的关键，但并没有给出待融合的多层特征的连接方式，只是将输出的尺寸与某卷积层的输出特征大小一致后连接；(3)该方案没有提供一种应用其方法的速度合适、准确度高的检测网络模型。

专利CN107292306A通过结合目标的感兴趣区域及其相关区域的特征进行目标检测，来提高小尺寸目标的检测成功率和准确率，其步骤是：确定图像中的感兴趣区域；在所述图像中确定所述感兴趣区域的相关区域；根据所述感兴趣区域和所述相关区域进行目标检测。然而，该方法存在的最大问题就是增加了过多的目标感兴趣区域，造成无关片段特征太多，复杂度上升，而且没有区分图像中不同大小目标的检测，若图像含有大量的相对较大的目标更增加了目标检测的计算量。

综上，基于卷积神经网络的目标检测算法在图像或者视频中多类别不同大小目标检测中准确度和效率方面都有很大的提升空间。

本发明中用到的一些名词解释如下：

CNN：卷积神经网络(Convolutional Neural Networks)，是一种多层的可用于图像分类、分割等任务的神经网络，采用局部感受野、权值共享及亚采样思想，一般由卷积层、采样层和全连接层等构成，并通过反向传播算法调整网络的参数以优化学习网络。

特征融合：是指在卷积神经网络的特征提取层中将低分辨率、强语义信息的高层特征与高分辨率、弱语义信息的低层特征相互连接融合，以获取即包含精确的位置信息又有很强的语义特征的融合体。本发明结合融合后的特征来预测不同尺寸的目标进行分类和定位。

RPN：候选区域建议网络(Region Proposal network)，其利用神经网络直接进行候选框的选择，它从任意尺寸的图片中输出一系列带有目标分数和位置信息的目标区域候选框，实质是一种全卷积网络。

卷积、池化、反卷积：均为CNN中的操作，卷积是把输入的图像数据通过卷积核或过滤器平滑处理变成特征并提取出来；池化一般紧跟在卷积操作之后，为了降低特征的维度并保留有效信息，包括平均池化、最大池化等，构成采样层；反卷积是卷积操作的逆过程，称为转置卷积，使图像从卷积生成的稀疏图像表示回到更高图像分辨率，也是上采样技术中的一种。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于CNN的多级特征融合的多类目标检测方法及模型，在对图像或者视频中的目标检测时，充分考虑目标的尺度大小与高低层特征图之间的关系，在平衡目标检测的速度和准确度基础上进一步提高不同尺寸目标的检测，以改善对多类目标的整体检测性能。

为解决上述技术问题，本发明所采用的技术方案是：一种基于CNN的多级特征融合的多类目标检测方法，包括以下步骤：

1)对相关图像数据集进行预处理；

2)构建基础卷积神经网络模型和特征融合网络模型；

3)使用步骤1)中预处理后的数据集对步骤2)构建的基础卷积神经网络和特征融合网络模型进行训练，得到相应的权重参数的模型，即训练过的检测模型；

4)用特定数据集微调已训练过的检测模型，得到目标检测模型。

步骤4)之后，还执行如下步骤：

5)输出目标检测模型，进行目标分类及识别，并给出检测的目标框及相应精度。

步骤1)中，若相关图像数据集是公开的，且待检测目标的位置已标定好，则不再重新制作数据集；若相关图像数据集是未公开的或是某种应用场景专用的数据集，要对包含待检测目标的图片进行选取及类别标注、位置标注以构成目标检测定位数据集，其中，位置标注是通过对各个待检测目标使用矩形框的左上角和右下角信息来进行标注完成。

进一步地，所述步骤1)中对数据的预处理方式主要包括对输入图像进行镜像翻转、尺度调整、归一化等处理。另外，为了防止因图像数据不够而造成模型的欠拟合，本发明考虑对数据进行扩增，主要是随机裁剪或翻转原始图像等。

步骤2)的具体实现过程包括：

1)采用VGG-16网络作为特征融合网络连接的基础网络，其中卷积层Conv1_x为基础网络的第一层，其包含两层卷积操作，均使用64个窗口大小为3x3的卷积核，输出64个特征图；基础网络的第二层Conv2_x包含两层卷积操作，均使用128个窗口大小为3x3的卷积核，输出128个特征图；卷积层Conv3_x作为基础网络第三层，包含三层卷积操作，均使用256个窗口大小为3x3的卷积核，输出256个特征图；卷积层Conv4_x和Conv5_x分别为基础网络的第四和第五层，均使用512个窗口大小为3x3的卷积核，输出为512个特征图；最后将VGG-16网络中原用于分类的三层全连接层全部替换为卷积核为1x1的卷积层，除了基础网络第五层外的每层后面均经过一个下采样进行降维；

2)构建特征融合网络，先选择合适的部分特征层，再选择融合策略进行融合，得到特征融合网络模型；

3)构建一个用于提取相关图像数据集中的感兴趣区域的RPN网络，所述RPN网络采用特征融合网络模型输出的融合特征层，基础卷积神经网络模型构建完毕。

融合后的特征层获取的具体过程包括：Conv5_x层后连接一个由双线性上采样初始化权重的反卷积层；在Conv4_x和反卷积层后均加入3x3的卷积层；接着分别加入正规化层，然后输入到具有可学习权重因子的激活函数中；连接并融合上述处理后的Conv4_x和Conv5_x，形成初步的融合特征层；在初步的融合特征层后加入1x1卷积层，得到最终的融合特征层。

需要说明的是，上述融合后的特征层获取的具体过程是采用本发明提供的级联融合策略实现的，且仅以Conv4_x和Conv5_x输出的特征层融合为例来阐述具体的实现过程。还可以采用本发明提供的与级联策略类似的元素相加策略来实现，这里不再进行赘述，不同之处是两个不同的特征层采用同一权重因子(相同激活函数)进行点到点的相加，最后形成融合特征层。

步骤2)之后，步骤3)之前，进行如下处理：对不同尺度的检测目标与基础卷积神经网络的各层特征图之间的关系进行分析，选取合适的部分特征层进行下一步的特征融合。

所述步骤3)的模型训练分为网络初始化和网络训练两步。其中，网络初始化是采用在ImageNet数据集上预训练得到的模型参数对步骤2)中构建的基础网络的各层进行初始化，特征融合网络中的各层采用均值为0、标准差为d1的MSRA初始化，反卷积层采用双线性初始化，其它层采用均值为0，标准差为d2的高斯分布初始化。

所述步骤3)的网络训练采用一种交叉训练优化策略，具体实现过程包括：

1)将训练数据集输入到基础卷积神经网络和特征融合网络模型中，利用预训练得到的分类模型对基础卷积神经网络和特征融合网络模型进行训练，获取不同的融合特征层，得到初始化的特征融合网络和初始化的分类模型；

2)利用上述初始化的分类模型及初始化的特征融合网络训练RPN网络所有层，生成一定数量候选区域框，得到初始化的RPN网络；

3)利用所述候选区域框，训练初始化的分类模型及初始化的特征融合网络，得到新的分类模型；

4)利用新的分类模型对初始化的融合网络进行微调，即基础卷积神经网络中的基础卷积层，仅对特征融合网络所有网络层进行微调，得到新的特征融合网络；

5)利用新的分类模型和新的特征融合网络训练RPN网络，产生一定数量的候选区域框，得到新的RPN网络；

6)利用新的RPN网络生成的候选区域框，固定共享的基础卷积层，微调新的分类模型的所有网络层，得到最终的分类模型，即训练过的检测模型。

相应的，本发明还提供了一种基于CNN的多级特征融合的多类目标检测的模型，其包括：

基础卷积网络：采用五层卷积结构模式，前三层的每层均以级联块形式进行层间连接，级联块前后均连接一个1x1的卷积层，其中每个级联块均为CReLU结构，在所述CReLU结构加入一个偏置层使CReLU中的两个相关的卷积层具有不同的偏置值；后两层采用Inception结构，后两层间采用级联的方式进行连接；

特征融合网络：包括事先选定的待融合的基础卷积网络特征层和融合结构；

RPN网络：采用Faster R-CNN中的结构；

分类网络：采用三层卷积核为1x1的卷积层，每层的卷积核的数量和原VGG-16网络结构采用的全连接层的维度数相同。

利用预处理后的相关图像数据集对所述基础卷积神经网络、特征融合网络、RPN网络和分类网络依次进行训练，得到最终的目标检测模型。

所述特征融合网络与基础卷积网络结构是非镜像对称的，且融合部分采用双线性上采样初始化权重的反卷积层。

与现有技术相比，本发明所具有的有益效果为：本发明充分考虑了图像中待检测目标尺度大小与卷积神经网络中输出的高低层特征图的关系，结合CNN和具有高分辨率、强语义的融合特征的优势，实现在不同深度的特征层上分类预测不同尺寸的目标，尤其是小目标的检测上准确率有所改善。同时，本法明所提供的检测模型在提高目标检测准确度的同时，优化了模型的网络结构，也改善了目标检测的效率。

附图说明

图1为本发明提供的图像中不同尺度目标的在高、低层特征图中检测情况的示意图；(a)高层特征图中的检测情况；(b)低层特征图中的检测情况；

图2为本发明提供的一种基于CNN的多级特征融合的多类目标检测方法的实施流程图；

图3为本发明所提出的基于CNN的多级特征融合的多类目标检测方法的整体网络结构框图；

图4为本发明提供的两种特征融合策略的具体结构图；(1)级联融合策略；(2)元素相加融合策略；

图5为本发明提供的一种交叉训练优化方法的实施流程图；

图6为本发明提供的新结构模型中基础卷积网络部分使用的两种具体结构图；(a)新结构模型中基础卷积网络部分中的改进的CReLU结构；(b)新结构模型中基础卷积网络部分中的Inception结构；

图7为本发明提供的基于新结构模型与Faster R-CNN模型的图片检测结果；(a)基于新结构模型的检测结果，(b)Faster R-CNN模型的图片检测结果。

具体实施方式

本发明主要思路是充分考虑图像中目标的尺度大小与高、低层特征图之间的关系，在平衡目标检测的速度和准确度基础上进一步提高不同尺寸目标的检测，以改善对多类目标的整体检测性能。

为了使本发明的技术方案更加清晰、易懂，下面将结合附图和具体实施例对本发明进一步描述。

请参阅图1，本发明提供了图像中不同大小目标在高、低层特征图中的检测情况，现存的一般检测网络中仅在最后一层特征图(高层特征图)提取目标候选框，如图1的(a)所示，当设置的anchors(RPN网络中用于提取目标候选框的矩形框，含有多种长宽比和尺度)以32像素为步长在特征图上滑动时，这样大的步长很容易使anchors跳过小尺度目标；而如果所选取的特征图分辨率高(低层特征图)，使用小步长的anchors会提取到小尺度的目标框，如图1的(b)所示。因此，本发明将对低分辨率而强语义信息的高层特征与弱语义信息而高分辨率的低层特征进行融合，以获取即包含精确的位置信息又有强语义特征的融合体并检测不同尺度大小的目标。

如图2所示，本发明提供了一种基于CNN的多级特征融合的多类目标检测方法，其包括以下五个步骤：

步骤S1：准备相关图像数据集，并对数据进行预处理；

具体地，该步骤中如果使用公开的数据集，且所述的目标的位置等其他信息均已标定好，则不需要重新制作数据集；若是未公开的或某种应用场景专用的数据集，要对包含待检测目标的图片进行选取及类别标注、位置标注以构成目标检测定位数据集，其中，位置标注是通过对各个待检测目标用矩形框的左上角和右下角信息进行标注来完成。

其中，本实例采用ImageNet 2012、PASCAL VOC2007和VOC2012等公开的数据集，还有手工标注制作的含有部分小目标的小数据集以用于微调模型。

进一步地，步骤S1中对数据的预处理方式主要包括对输入图像进行镜像翻转、尺度调整、归一化等处理。另外，为了防止因图像数据不够而造成模型的欠拟合，本发明考虑对数据进行扩增，主要是随机裁剪或翻转原始图像等。

步骤S2：构建基础卷积神经网络(BaseNet)和特征融合网络(Feature-fusedNet)模型；

请参阅图3，在本实例中，采用改进的VGG-16网络作为特征融合网络连接的基础网络。具体的参数如下，其中卷积层Conv1_x为基础网络第一层，包含两层卷积操作，均使用64个窗口大小为3x3的卷积核，输出64个特征图；基础网络的第二层Conv2_x包含两层卷积操作，均使用128个窗口大小为3x3的卷积核，输出128个特征图；卷积层Conv3_x作为基础网络第三层，包含三层卷积操作，均使用256个窗口大小为3x3的卷积核，输出256个特征图；卷积层Conv4_x和Conv5_x分别为基础网络的第四和第五层，也均使用512个窗口大小为3x3的卷积核，输出为512个特征图；最后将原用于分类的三层全连接层全部替换为卷积核为1x1的卷积层，以突破输入图片尺寸的限制。除了基础网络第五层外的每层后面均经过一个下采样(最大池化法)进行降维。

需要说明的是，为了能够便于比较本发明所提方法与所述经典算法的优势，这里仅给出基于候选区域的CNN的目标检测模型采用本方法前后的测定结果。

进一步地，本实施例采用参数与基础卷积网络共享的RPN网络提取图像的感兴趣区域(RoI)，其结构与发表NIPS 2015的Faster R-CNN中的RPN网络类似，区别是不再采用基础网络的最后一层特征层作为RoI的映射层，而是融合后的特征层；另外，为了应对网络模型能够适应不同尺寸的目标，本实施例改进原来RPN中anchors的尺度和长宽比，具体如下：共30个anchors，并将其分为三组以用于不同的融合特征层中，尺度分别为{[16,32]、[64、128]、[256、512]}，尺度比分别为0.333、0.5、1、1.5、2。

参考图1的示意，根据对不同尺度的待检测目标与各层特征图之间的关系的分析，为了防止特征的过度融合产生太多的感受野而引入大量无用的背景噪声，本实施例将选取部分特征层进行融合操作，分别为Conv5_3、Conv5_3+Conv4_3、Conv5_3+Conv3_3+Conv2_2这三种，其特征层分别表示为M1、M2、M3，来对图像中不同尺度(大、中、小)目标进行分层检测，其中，相对较大的目标直接使用基础卷积网络的最后特征层，而相对中、小目标则使用上述融合层。

待融合的特征层选择好之后，本发明开始构建特征融合网络，请参阅图4，提供了两种不同的融合策略，分别为级联(Concatenation)和元素相加(Element-Sum)。本实例以Conv4_3和Conv5_3输出的特征层的融合为例进一步阐述融合的详尽步骤。

如图4的(1)所示，所述的级联融合策略具体步骤如下：Conv5_3层后连接一个由双线性上采样初始化权重的反卷积层以便于该层输出的特征图与Conv4_3输出的特征层具有相同的维度大小；在Conv4_3和反卷积层后均加入3x3的卷积层；接着分别加入正规化层，然后输入到具有可学习权重因子的激活函数中；然后连接并融合上述两层，形成初步的融合特征层；在其后加入1x1卷积层以减少维度及特征的重组，得到最终的融合特征层。

进一步地，所述的元素相加策略与级联策略类似，如图4的(2)所示，这里不再进行赘述，不同之处是两个不同的特征层采用同一权重因子(相同激活函数)进行点到点的相加，最后形成融合特征层。

进一步地，所述级联策略能够减少由无用背景噪声所造成的干扰，而所述元素相加策略能够增强上下文信息。

进一步地，上述两种融合策略均采用与基础网络相一致的ReLU激活函数。当然本发明不局限使用某种特定的激活函数，也可以是Leaky-ReLU、Maxout等。

步骤S3：对步骤S2构建的网络模型进行训练，得到相应的权重等参数的模型；

具体地，本实施例所述步骤S3包括：网络模型训练分为网络初始化和网络训练两步，其中，网络初始化是采用在ImageNet 2012数据集上预训练得到的模型参数对上述构建的基础网络各层进行初始化，特征融合网络中的各层采用均值为0、标准差为0.1的MSRA初始化方法，反卷积层采用双线性初始化，其它层采用均值为0，标准差为0.01的高斯分布初始化。注意，在本实施例中这些取值并不对本发明构成限制。

进一步地，针对步骤S3中的网络训练，本实施例提供一种交叉训练优化策略，如图5所示，包括如下步骤：

首先，分别独立地对RPN网络和分类网络进行训练，具体包含步骤A、B和C：

A、将训练数据集(PASCAL VOC 2007)输入到基础卷积神经网络和特征融合网络模型中，利用预训练得到的分类模型对基础卷积神经网络和特征融合网络模型进行训练，获取不同的融合特征层，得到初始化的特征融合网络和初始化的分类模型；

B、利用上述初始化的分类模型及初始化的特征融合网络训练RPN网络所有层，生成一定数量候选区域框(本实施例选取其中大约300个)，得到初始化的RPN网络；

C、使用步骤B中RPN网络生成的候选区域框，训练初始化的分类模型及特征融合网络，得到新的分类模型；

其次，对上述两个网络采用的基础卷积层进行参数共享，联合训练以减少参数量并加快训练速度，具体包括步骤D、E和F：

D、利用步骤C得到的分类模型对初始化的融合网络进行微调，做法是固定前面共享的基础卷积层，仅对特征融合网络所有网络层进行微调，得到新的特征融合网络；

E、利用步骤C得到的分类模型及步骤D得到的特征融合网络训练RPN网络，产生一定数量的候选区域框。同样，固定共享的基础卷积层，得到新的RPN网络；

F、最后使用步骤E中新的RPN网络生成的候选区域框，固定共享的基础卷积层，微调分类模型的所有网络层，得到最终的分类模型。

进一步地，本实施例中，步骤S3的网络训练采用的损失函数为：

其中，M为融合的特征层数(这里M＝3)，分别为分类和回归的批处理大小，t_i分别为真实框和候选框的回归偏量，表示真实分类标签，p_i＝{p_i,k|k＝0,...K}表示估计概率，S表示真实目标和预测目标之间的smooth L1损失，其定义与发表在ICCV2015上的Fast R-CNN中的一致。

进一步地，在本实例中所述步骤S3网络训练的基本训练参数设置如下：训练时采用PASCAL VOC2007和VOC2012的联合训练验证集，再用VOC2007的测试集进行验证；训练过程中迭代次数为120k次，初始学习率为0.0001，momentum设置为0.9，权重衰减值设为0.0005，采用多步自我调整的控制学习率策略，即当某一设定迭代次数内损失函数的移步平均值低于阈值时，学习率减少一个常数因子(0.1)。

步骤S4：用特定数据集微调已训练过的检测模型；

具体地，步骤S4是针对特定图像目标检测任务而设定的，在已训练过的检测模型基础上用特定数据集进行微调以获得优化的网络模型。对于一般的检测任务，该步骤可以跳过。其中的训练微调方法并不局限于本发明提出的交叉训练优化策略。

步骤S5：输出目标检测模型，进行目标分类及识别，并给出检测的目标框及相应精度。

至此，本发明按照上述实施例步骤获得了最终的基于CNN的多级特征融合的多类目标检测模型，这里提供本发明方法在PASCAL VOC 2007数据集上的检测结果，包括采用所述两种融合方式的测试结果，如表1所示。

表1：本发明方法在PASCAL VOC 2007数据集上的检测结果

方法	mAP	aero	bike	bird	boat	bottle	bus	car	cat	chair	cow
												FasterR-CNN	73.2	76.5	79.0	70.9	65.5	52.1	83.1	84.7	86.4	52.0	81.9
Concat	79.4	80.5	85.1	79.5	73.0	68.0	86.1	87.0	88.4	65.6	86.7
												Elt_sum	79.7	81.4	85.2	79.0	71.5	70.1	87.1	85.1	89.6	64.8	83.7
续上	mAP	table	dog	horse	motor	person	plant	sheep	sofa	train	tv
												FasterR-CNN	73.2	65.7	84.8	84.6	77.5	76.7	38.8	73.6	73.9	83.0	72.6
Concat	79.4	71.7	88.2	86.8	80.4	79.5	53.4	77.8	82.3	86.1	80.7
												Elt_sum	79.7	70.8	88.6	87.7	82.9	81.0	58.1	78.9	79.6	87.7	81.4

结果表明，本发明方法应用于Faster R-CNN模型中显示出了明显的优势，尤其是在一些尺寸相对小的目标检测中。两种融合策略在整体mAP方面比原方法分别提高了6.2％和6.5％。可见本发明提供的方法能够充分发挥融合高、低特征的优势，对于图像中不同尺度大小的目标能够合理、有效的进行检测，因此未来在多目标的检测、监控等方面应用会更广。

本发明还提供一种基于CNN的多级特征融合的多类目标检测的新结构模型，基本框架参考图3，主要包括基础卷积网络、特征融合网络、RPN网络和分类网络，结构的主要参数如下表2。

表2：基于CNN的多级特征融合的多类目标检测的新结构模型基础卷积网络主要参数

其中，所述基础卷积网络仍然采用五层卷积结构模式。前三层的每层都是以级联块形式进行层间连接，级联块前后均连接一个1x1的卷积层，其具体结构请参阅图6的(a)，其中每个级联块采用2016年发表ICML上的《Understanding and ImprovingConvolutional Neural Networks via Concatenated Rectified Linear Units》中CReLU结构，这里需要修改的是加入一个偏置层使得CReLU中的两个相关的卷积层具有不同的偏置值。后两层采用能够有效获取不同大小的目标特征的Inception结构，层间仍采用级联的方式进行连接，其具体结构及连接方式请参阅图6的(b)。

进一步地，后两层采用Inception结构中的5x5卷积层替换为两个级联的3x3卷积层，使卷积层具有更大的非线性和更少的参数。

进一步地，所述特征融合网络包括事先选定的待融合的基础卷积网络特征层和融合结构，其中，采用的融合方式分为两种：级联(Concatenation)和元素相加(Element-Sum)，本发明并不局限某一种方式。具体的特征层选择与上述实施例类似，这里不再作赘述。

进一步地，所述特征融合网络中的融合结构与基础卷积网络结构是非镜像对称的，以减少结构过于复杂带来的时间问题，且融合部分采用双线性上采样初始化权重的反卷积层来适应待融合的特征图维度。

进一步地，所述RPN网络仍采用Faster R-CNN中的结构形式，但需要把用于提取感兴趣区域的特征图替换为融合后的特征图。

进一步地，所述分类网络采用三层卷积核为1x1的卷积层，每层的卷积核的数量和原来全连接层的维度数相同。

表3：基于PASCAL VOC的本发明新结构模型与原模型检测结果

表3为本发明提供的使用新结构模型结合本发明方法而得到的结果，可以看出本方法新结构模型在运行效率和整体平均准确率上有了很大的提升。

最后，图7为本发明提供的基于新结构模型的图片检测结果展示。

Claims

1.一种基于CNN的多级特征融合的多类目标检测方法，其特征在于，包括以下步骤：

1)对相关图像数据集进行预处理；

2)构建基础卷积神经网络模型和特征融合网络模型；

2.根据权利要求1所述的基于CNN的多级特征融合的多类目标检测方法，其特征在于，步骤4)之后，还执行如下步骤：

3.根据权利要求1所述的基于CNN的多级特征融合的多类目标检测方法，其特征在于，步骤1)中，若相关图像数据集是公开的，且待检测目标的位置已标定好，则不再重新制作数据集；若相关图像数据集是未公开的或是某种应用场景专用的数据集，要对包含待检测目标的图片进行选取及类别标注、位置标注以构成目标检测定位数据集，其中，位置标注是通过对各个待检测目标使用矩形框的左上角和右下角信息来进行标注完成。

4.根据权利要求1所述的基于CNN的多级特征融合的多类目标检测方法，其特征在于，步骤2)的具体实现过程包括：

5.根据权利要求1所述的基于CNN的多级特征融合的多类目标检测方法，其特征在于，融合后的特征层获取的具体过程包括：Conv5_x层后连接一个由双线性上采样初始化权重的反卷积层；在Conv4_x和反卷积层后均加入3x3的卷积层；接着分别加入正规化层，然后输入到具有可学习权重因子的激活函数中；连接并融合上述处理后的Conv4_x和Conv5_x，形成初步的融合特征层；在初步的融合特征层后加入1x1卷积层，得到最终的融合特征层。

6.根据权利要求1所述的基于CNN的多级特征融合的多类目标检测方法，其特征在于，步骤2)之后，步骤3)之前，进行如下处理：对不同尺度的检测目标与基础卷积神经网络的各层特征图之间的关系进行分析，选取合适的部分特征层进行下一步的特征融合。

7.根据权利要求1所述的基于CNN的多级特征融合的多类目标检测方法，其特征在于，步骤3)的具体实现过程包括：

8.一种基于CNN的多级特征融合的多类目标检测的模型，其特征在于，包括：

RPN网络：采用Faster R-CNN中的结构；

9.根据权利要求8所述的模型，其特征在于，所述特征融合网络与基础卷积网络结构是非镜像对称的，且融合部分采用双线性上采样初始化权重的反卷积层。