CN111898659B

CN111898659B - 一种目标检测方法及系统

Info

Publication number: CN111898659B
Application number: CN202010687963.9A
Authority: CN
Inventors: 张启坤; 吴臻志
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2024-12-27
Anticipated expiration: 2040-07-16
Also published as: CN111898659A

Abstract

本发明公开了一种目标检测方法及系统，对待检测的图像提取多尺度特征，并进行多个尺度的特征融合，得到融合后的多个特征图；对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，所述目标检测结果包括至少一个目标的位置信息以及分类信息。本发明的一种目标检测方法及系统，可以在确保检测准确度的情况下，实现对不同尺度目标的同时检测。

Description

一种目标检测方法及系统

技术领域

本发明涉及目标检测技术领域，具体而言，涉及一种目标检测方法及系统。

背景技术

目前对图像中的小目标例如人头、人脸等进行检测时，一般是基于传统图像特征和级联分类器进行检测，检测准确度较低，泛化性和鲁棒性都比较差。也有基于深度学习的检测，但无法实现对不同尺度目标的同时检测。

发明内容

为解决上述问题，本发明的目的在于提供一种目标检测方法及系统，可以在确保检测准确度的情况下，实现对不同尺度目标的同时检测。

本发明提供了一种目标检测方法，包括：

对待检测的图像提取多尺度特征，并进行多个尺度的特征融合，得到融合后的多个特征图；

对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，所述目标检测结果包括至少一个目标的位置信息以及分类信息。

作为本发明进一步的改进，对待检测的图像提取多尺度特征，并进行多个尺度的特征融合，得到融合后的多个特征图，包括：

对待检测的图像进行下采样处理，提取多尺度特征，得到多个尺度的第一特征图；

对所述多个尺度的第一特征图分别进行上采样处理，得到与第一特征图各尺度分别相同的多个第二特征图；

将尺度相同的第一特征图和第二特征图进行特征融合，得到融合后的多个特征图。

作为本发明进一步的改进，对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，包括：

对所述融合后的多个特征图分别进行检测处理，并通过多个尺寸的宽高校准比例系数矫正检测框的宽高比，得到每个融合后的特征图中至少一个目标的位置信息和分类信息；对所述每个融合后的特征图中至少一个目标的位置信息进行尺寸变换还原到原图像尺寸，得到每个目标在原图上的多个位置信息；

对所述每个目标在原图上的多个位置信息按照分类信息从大到小进行排序，并通过NMS算法进行去重处理，得到每个目标的目标检测结果。

作为本发明进一步的改进，所述方法通过神经网络实现，所述方法还包括：根据训练集训练所述神经网络。

作为本发明进一步的改进，所述神经网络包括：分组卷积层、反卷积层和融合层，所述分组卷积层以及所述反卷积层用于对待检测的图像提取多尺度特征。

作为本发明进一步的改进，所述训练集包括多个样本图像，各所述样本图像包括标注信息，所述方法还包括：根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，其中，所述多个尺寸的宽高校准比例系数用于在所述神经网络训练过程以及目标检测过程中，矫正检测框的宽高比。

作为本发明进一步的改进，所述标注信息包括标注框，其中，根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，包括：

S11，在所述数据集中选取k个不同聚类的初始目标框Ci，i∈{1,2,..,k}，其中，初始目标框Ci表示宽wi和高hi与坐标原点(0，0)围成的检测框；

S21，确定各标注框Xi到每个初始目标框Ci的距离Di，根据所述距离Di将所述各标注框Xi分配至最近的初始目标框Ci所代表的聚类，其中，所述各标注框Xi表示所述数据集中各样本图像的宽和高与坐标原点(0，0)围成的标注框；

其中，Di＝1-GIOU，GIOU表示标注框和初始目标框的广义交并比；

S31，将分配至初始目标框Ci所代表的聚类的所有标注框Xi的宽和高的均值作为该聚类新的目标框CI的宽wi^/和高hi^/，计算初始目标框Ci和新的目标框CI的宽和高的差值S，依次类推，确定各聚类新的目标框；

S41，重复S21-S31，直至所述初始目标框Ci和新的目标框CI的宽和高的差值S小于预设阈值，确定多个尺寸的宽高校准比例系数。

作为本发明进一步的改进，所述方法还包括：

确定标注框和初始目标框的最小闭包区域面积C；

确定所述标注框和所述初始目标框的交并比IOU，其中，IOU＝|A∩B|/|A∪B|，A表示所述标注框的面积，B表示所述初始目标框的面积；

确定所述最小闭包区域面积C中不属于所述标注框和所述初始目标框的区域占所述最小闭包区域面积C的比重|C\(A∪B)|/|C|；

确定所述标注框以及所述初始目标框的广义交并比GIOU，其中，GIOU＝IOU-|C-(A∪B)|/|C|。

作为本发明进一步的改进，所述训练集包括原始训练集，所述方法还包括：对所述原始训练集进行数据增强，得到融合图像训练集，

其中，根据训练集训练所述神经网络，包括：

根据所述原始训练集训练所述神经网络，在满足第一训练条件时，得到预训练的神经网络；

根据所述融合图像训练集训练所述预训练的神经网络，在满足第二训练条件时，得到训练好的神经网络。

作为本发明进一步的改进，所述原始训练集包括多个样本图像，各所述样本图像包括标注信息，

其中，对所述原始训练集进行数据增强，得到融合图像训练集，包括：

获取至少一个应用场景图像；

将各所述应用场景图像分别与各所述样本图像进行融合处理，得到多个融合图像，并将用于融合处理的样本图像的标注信息确定为相应融合图像的标注信息；

将所述多个融合图像组成融合图像训练集。

作为本发明进一步的改进，将各所述应用场景图像分别与各所述样本图像进行融合处理，得到多个融合图像，包括：

确定各所述样本图像的宽高比例系数，其中，所述宽高比例系数包括宽/高系数和高/宽系数；

将各所述应用场景图像分别按照目标系数进行宽高等比缩放，得到缩放后的各应用场景图像，其中，所述目标系数为所述宽/高系数和高/宽系数中大的系数；

将所述缩放后的各应用场景图像分别与各所述样本图像进行加权融处理，得到多个融合图像。

作为本发明进一步的改进，所述目标包括人头。

本发明还提供了一种目标检测系统，包括：

多尺度特征模块，用于对待检测的图像提取多尺度特征，并进行多个尺度的特征融合，得到融合后的多个特征图；

目标检测模块，用于对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，所述目标检测结果包括至少一个目标的位置信息以及分类信息。

作为本发明进一步的改进，所述多尺度特征模块用于：

将尺度相同的第一特征图分别和第二特征图进行特征融合，得到融合后的多个特征图。

作为本发明进一步的改进，所述目标检测模块用于：

作为本发明进一步的改进，所述系统通过神经网络实现，所述系统还包括：根据训练集训练所述神经网络。

作为本发明进一步的改进，所述训练集包括多个样本图像，各所述样本图像包括标注信息，所述系统还包括：根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，其中，所述多个尺寸的宽高校准比例系数用于在所述神经网络训练过程以及目标检测过程中，矫正检测框的宽高比。

S41，重复S21-S31，直至所述初始目标框Ci和新的目标框CI的宽和高的差值S小于预设阈值，确定所述多个尺寸的宽高校准比例系数。

作为本发明进一步的改进，所述系统还包括：

确定标注框和初始目标框的最小闭包区域面积C；

确定所述标注框M和所述初始目标框的交并比IOU，其中，IOU＝|A∩B|/|A∪B|，A表示所述标注框的面积，B表示所述初始目标框的面积；

作为本发明进一步的改进，所述训练集包括原始训练集，所述系统还包括：对所述原始训练集进行数据增强，得到融合图像训练集，

其中，根据训练集训练所述神经网络，包括：

获取至少一个应用场景图像；

将所述多个融合图像组成融合图像训练集。

作为本发明进一步的改进，将各所述应用场景图像分别与各所述样本图像进行融合，得到多个融合图像，包括：

将所述缩放后的各应用场景图像分别与各所述样本图像进行加权融合处理，得到多个融合图像；

依次类推，得到所述多个融合图像。

作为本发明进一步的改进，所述目标包括人头。

本发明还提供了一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现所述的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现所述的方法。

本发明的有益效果为：可以在确保检测准确度的情况下，实现对不同尺度目标的同时检测。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一示例性实施例所述的一种目标检测方法的流程示意图；

图2为图1中S1的流程示意图；

图3为本公开一示例性实施例所述的大、中、小三种尺度的目标检测示意图；

图4为本公开一示例性实施例所述的神经网络的示意图；

图5为本公开一示例性实施例所述的根据各样本图像的标注信息，确定多个尺寸的宽高校准比例系数的流程示意图；

图6为本公开一示例性实施例所述的GIOU的示意图；

图7为本公开一示例性实施例所述的对原始训练集进行数据增强的流程示意图；

图8为本公开一示例性实施例所述的数据增强结果示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明，若本公开实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本公开的描述中，所用术语仅用于说明目的，并非旨在限制本公开的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在，但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件，不代表顺序，且不对这些元件起限定作用。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图，这些和/或其他方面变得显而易见，并且，本领域普通技术人员更容易理解关于本公开所述实施例的说明。附图仅出于说明的目的用来描绘本公开所述实施例。本领域技术人员将很容易地从以下说明中认识到，在不背离本公开所述原理的情况下，可以采用本公开所示结构和方法的替代实施例。

本公开一实施例所述的一种目标检测方法，如图1所示，包括：

S1，对待检测的图像提取多尺度特征，并进行多个尺度的特征融合，得到融合后的多个特征图；

S2，对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，所述目标检测结果包括至少一个目标的位置信息以及分类信息。

在一种可选的实施方式中，对待检测的图像提取多尺度特征，并进行多个尺度的特征融合，得到融合后的多个特征图，如图2所示，包括：

现有技术中，基于深度学习的目标(例如人头)检测，一般是在特征提取后采用位置分支进行检测框边框回归，通过分类分支判断检测框是否有目标(例如人头)，这种分类分支的检测速度较慢。由于图像中可能包含大、中、小等多个不同尺度的目标，现有的单尺度网络(例如FCHD网络)无法将不同尺度的目标都同时检测出来。本公开的方法可以对图像中不同尺度的特征进行提取并融合，得到不同尺度的目标信息，实现更好的检测效果。举例说明，如图3所示，将待检测的图像进行下采样处理得到大、中、小三个尺度的第一特征图，再将三个尺度的第一特征图进行上采样，得到三个第二特征图，将大、中、小尺度的第一特征图分别与大、中、小尺度的第二特征图进行融合，得到融合后的三个特征图，分别用于大、中、小尺度的目标检测。

其中，对所述多个尺度的第一特征图分别进行上采样处理时，最大尺度的第一特征图可以不做处理，对其他尺度的第一特征图进行上采样。例如，小尺度的第一特征图上采样处理后得到一个中尺度的第二特征图，中尺度的第一特征图上采样处理后得到一个大尺度的第二特征图，将中尺度的第二特征图和中尺度的第一特征图进行特征融合，将大尺度的第二特征图和大尺度的第一特征图进行特征融合，可以实现深层特征和浅层特征的反向融合。

在一种可选的实施方式中，对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，包括：

其中，融合后的每个特征图中包含至少一个目标的检测框(位置信息)和类别(分类信息)，融合后的多个特征图中每个目标可能存在重合位置的检测框，通过NMS算法对检测框进行去重处理，可以得到每个目标类别置信度最大的唯一检测框。

在一种可选的实施方式中，该方法可以通过神经网络实现，所述方法还包括：根据训练集训练所述神经网络。

在一种可选的实施方式中，所述神经网络包括：分组卷积层、反卷积层和融合层，所述分组卷积层以及所述反卷积层用于对待检测的图像提取多尺度特征。

现有技术中，基于深度学习的目标检测在进行特征提取时，一般通过卷积层(conv2层)和激活层(relu层)以及最大池化层(maxpool层)进行特征提取，这会使得提取的过程中计算量过大，空间信息丢失过多，造成检测速度较慢，检测框定位不准确。本公开所述的方法采用分组卷积层替换maxpool层，在实现下采样的同时，可以提高空间信息的提取能力，减少网络的参数和计算量，提高网络检测速度和定位精度。通过反卷积层实现上采样，并通过融合层实现深层特征和浅层特征的反向融合。在融合后的多个特征图上分别进行检测，可以提高大、中、小不同尺度的目标的检测效果。

例如，如图4所示，采用三个分组卷积层(以下用GConv层表示分组卷积层)进行下采样，得到大、中、小三个尺度的第一特征图，将第二GConv层和第三GConv层处理得到的第一特征图分别通过一个反卷积层(以下用DeConv层表示反卷积层)进行上采样，得到一个大尺度的第二特征图和一个中尺度的第二特征图，将第一GConv层处理得到的第一特征图和第一DeConv层处理得到的第二特征图通过第一融合层(以下用Concat层表示融合层)进行特征融合，将第二GConv层处理得到的第一特征图和第二DeConv层处理得到的第二特征图通过第二Concat层进行特征融合，将第一Concat层融合得到的大尺度的特征图、第二DeConv层融合得到的中尺度的特征图和第三GConv层处理得到的小尺度的特征图分别输出，实现大、中、小尺度的目标检测。

在一种可选的实施方式中，所述训练集包括多个样本图像，各所述样本图像包括标注信息，所述方法还包括：根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，其中，所述多个尺寸的宽高校准比例系数用于在所述神经网络训练过程以及目标检测过程中，矫正检测框的宽高比。

通过各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，在对所述神经网络训练过程中以及在对待检测图像进行目标检测时，可以提高不同尺度目标检测框的定位精度。

在一种可选的实施方式中，根据各所述样本图像的标注信息，确定多个尺寸的检测框的宽高校准比例系数，如图5所示，包括：

S11，在所述数据集中选取k个不同聚类的初始目标框i∈{1,2,..,k}，其中，初始目标框Ci表示宽wi和高hi与坐标原点(0，0)围成的检测框；

现有技术中，在对小目标例如人头进行检测时，所采用的锚框比例(宽高校准比例系数)单一，一般是1:1，但是拍摄角度、拍摄距离不同时，人头的宽高比不一定是1:1，这使得采用固定比例的宽高校准比例系数来对检测框进行宽高比的矫正时，会使检测框定位不准，影响检测结果。本公开采用kmeans++聚类算法生成多个尺寸的宽高校准比例系数，以适应不同宽高比的目标(例如人头)，可以提升不同拍摄角度和不同拍摄距离场景下的目标检测准确度。

在一种可选的实施方式中，所述方法还包括：

确定标注框和初始目标框的最小闭包区域面积C；

确定所述标注框以及所述初始目标框的广义交并比G|OU，其中，GIOU＝IOU-|C-(A∪B)|/|C|。

如图6所示，A区域所示表示标注框的面积，B区域所示表示初始目标框的面积，C区域表示标注框和初始目标框的最小闭包区域面积，有灰度的区域表示A交B的面积(A∩B)，C\(A U B)表示C减去(A并B的面积)。本公开采用GIOU(Generalized Intersection overUnion)来衡量标注框和初始目标框的重合度，与IOU(Intersection over Union)只关注标注框和初始目标框的重合区域不同，GIOU不仅关注标注框和初始目标框的重合区域，还关注其他非重合区域，可以更好的反应标注框和初始目标框的重合度。

在一种可选的实施方式中，所述训练集包括原始训练集，所述方法还包括：对所述原始训练集进行数据增强，得到融合图像训练集，

其中，根据训练集训练所述神经网络，包括：

在一种可选的实施方式中，所述原始训练集包括多个样本图像，各所述样本图像包括标注信息，

获取至少一个应用场景图像；

将所述多个融合图像组成融合训练集。

本公开所述的方法在对应用场景图像和样本图像进行融合时，例如，可以获取一个应用场景图像，将该应用场景图像和原始训练集中的每个样本图像分别进行融合处理，得到多个融合图像。例如，可以获取一个应用场景图像，将该应用场景图像和原始训练集中的部分样本图像分别进行融合处理，得到至少一个融合图像。例如，可以获取多个应用场景图像，对每个应用场景图像，将其和原始训练集中的每个样本图像分别进行融合处理，得到多个融合图像。例如，可以获取多个应用场景图像，对每个应用场景图像，将其和原始训练集中的部分样本图像分别进行融合处理，得到至少一个融合图像。通过融合应用场景图像对原始训练集进行数据增强，可以提高所述神经网络在不同应用场景时的检测性能。

在一种可选的实施方式中，将各所述应用场景图像分别与各所述样本图像进行融合，得到多个融合图像，包括：

将所述缩放后的各应用场景图像分别与各所述样本图像进行加权融合处理，得到多个融合图像。

由于网络原始训练集中的图像场景与实际的应用场景会有很大差异性，如果单纯采用已有原始训练集中的场景来进行各应用场景的目标检测，会降低检测准确度。本公开通过对已有原始训练集中的图像与实际的应用场景图像进行加权融合保留样本图像的标注信息，对数据进行增强，可以提高网络的泛化性能，本公开对加权系数不做具体限定。例如，如图7所示，对一张样本图像Timg和一张实际应用场景图像Simg以不同加权系数a进行加权融合，并保留样本图像Timg的标注信息，得到多张不同的融合图像TSimg。在对实际的应用场景图像Simg进行缩放时，是以样本图像Timg的宽高(Tw，Th)为参数，计算宽高比例系数，选取其中大的系数进行应用场景图像Simg的等比缩放，短边处补0，得到缩放后的应用场景图像。融合图像如图8所示，其中全黑部分即为缩放处理时对短边补0所得。

在一种可选的实施方式中，所述目标包括人头。

本公开所述的方法，通过多尺度特征融合可以实现多个尺度的目标检测(例如大、中、下不同尺度的人头检测)。相较于分类分支判断，可以提高检测的实时性，也减少了因目标大小不一所致的漏检和误检。在网络结构中通过分组卷积可以减少网络参数和计算量，提升网络特征提取速度，提高网络检测速度。对不同尺度目标的宽高比进行分析，采用GIOU作为聚类算法的度量，生成更合适的宽高校准比例系数以适应不同宽高比的目标，可以提升检测框的定位精度，提升网络对不同角度、不同距离的目标的检测性能。以不同比例对样本图像和应用场景图像进行加权融合并保留样本图像的标注信息，在融合生成的数据上进行迁移学习，提高了网络的泛化能力和实际检测性能。

本公开一实施例所述的一种目标检测系统，包括：

在一种可选的实施方式中，所述多尺度特征模块用于：

现有技术中，基于深度学习的目标检测，一般是在特征提取后采用位置分支进行检测框边框回归，通过分类分支判断检测框是否有目标(例如人头)，这种分类分支的检测速度较慢。由于图像中可能包含大、中、小等多个不同尺寸的目标，现有的单尺度网络(例如FCHD网络)无法将不同尺寸的目标都同时检测出来。本公开的系统可以对图像中不同尺度的特征进行提取并融合，得到不同尺度的目标信息，实现更好的检测效果。举例说明，如图3所示，将待检测的图像进行下采样处理得到大、中、小三个尺度的多一特征图，再将三个尺度的第一特征图进行上采样，得到三个第二特征图，将大、中、小尺度的第一特征图分别与大、中、小尺度的第二特征图进行融合，得到融合后的三个特征图，分别用于大、中、小尺度的目标检测。

在一种可选的实施方式中，所述目标检测模块用于：

目标检测时，融合后的每个特征图中包含至少一个目标的检测框(位置信息)和类别(分类信息)，融合后的多个特征图中每个目标可能存在重合位置的检测框，通过NMS算法去重处理，可以得到每个目标类别置信度最大的唯一检测框。

在一种可选的实施方式中，所述系统通过神经网络实现，所述系统还包括：根据训练集训练所述神经网络。

现有技术中，基于深度学习的目标检测在进行特征提取时，一般通过卷积层(conv2层)和激活层(relu层)以及最大池化层(maxpool层)进行特征提取，这会使得提取的过程中计算量过大，空间信息丢失过多，造成检测速度较慢，检测框定位不准确。本公开所述的系统采用分组卷积层替换maxpool层，在实现下采样的同时，可以提高空间信息的提取能力，减少网络的参数和计算量，提高网络检测速度和定位精度。通过反卷积层实现上采样，并通过融合层实现深层特征和浅层特征的反向融合。在融合后的多个特征图上分别进行检测，可以提高大、中、小不同尺度的目标的检测效果。

在一种可选的实施方式中，所述训练集包括多个样本图像，各所述样本图像包括标注信息，所述系统还包括：根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，其中，所述多个尺寸的宽高校准比例系数用于在所述神经网络训练过程以及目标检测过程中，矫正检测框的宽高比。

在一种可选的实施方式中，根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，包括：

现有技术中，在对小目标例如人头进行检测时，所采用的锚框比例(宽高校准比例系数)单一，一般是1:1，但是拍摄角度、拍摄距离不同时，人头的宽高比不一定是1:1，这使得采用固定比例的宽高校准比例系数来对检测框进行宽高比的矫正时，会使检测框定位不准，影响检测结果。本公开采用kmeans++聚类算法生成合适的多个尺寸的宽高校准比例系数，以适应不同宽高比的目标(例如人头)，可以提升不同拍摄角度和不同拍摄距离场景下的目标检测准确度。

在一种可选的实施方式中，所述系统还包括：

确定标注框和初始目标框的最小闭包区域面积C；

在一种可选的实施方式中，所述训练集包括原始训练集，所述系统还包括：对所述原始训练集进行数据增强，得到融合图像训练集，

其中，根据训练集训练所述神经网络，包括：

获取至少一个应用场景图像；

将所述多个融合图像组成融合训练集。

本公开所述的系统在对应用场景图像和样本图像进行融合时，例如，可以获取一个应用场景图像，将该应用场景图像和原始训练集中的每个样本图像分别进行融合处理，得到多个融合图像。例如，可以获取一个应用场景图像，将该应用场景图像和原始训练集中的部分样本图像分别进行融合处理，得到至少一个融合图像。例如，可以获取多个应用场景图像，对每个应用场景图像，将其和原始训练集中的每个样本图像分别进行融合处理，得到多个融合图像。例如，可以获取多个应用场景图像，对每个应用场景图像，将其和原始训练集中的部分样本图像分别进行融合处理，得到至少一个融合图像。通过融合应用场景图像对原始训练集进行数据增强，可以提高所述神经网络在不同应用场景时的检测性能。

将所述缩放后的各应用场景图像分别与各所述样本图像进行加权融合处理，得到多个融合图像；。

由于网络原始训练集中的图像场景与实际的应用场景会有很大差异性，如果单纯采用已有原始训练集中的场景来进行各应用场景的目标检测，会降低检测准确度。本公开通过对已有原始训练集中的图像与实际的应用场景图像进行加权融合保留样本图像的标注信息，对数据进行增强，可以提高网络的泛化性能，本公开对加权系数不做具体限定。例如，如图7所示，对一张样本图像Timg和一张实际应用场景图像Simg以不同加权系数a进行加权融合，并保留样本图像Timg的标注信息，得到多张不同的融合图像TSimg。在对实际的应用场景图像Simg进行缩放时，是以样本训练图像Timg的宽高(Tw，Th)为参数，计算宽高比例系数，选取其中大的系数进行应用场景图像Simg的等比缩放，短边处补0，得到缩放后的应用场景图像。融合图像如图8所示，其中全黑部分即为缩放处理时对短边补0所得。

在一种可选的实施方式中，所述目标包括人头。

本公开所述的系统，通过多尺度特征融合可以实现多个尺度的目标检测(例如大、中、下不同尺度的人头检测)。相较于分类分支判断，可以提高检测的实时性，也减少了因目标大小不一所致的漏检和误检。在网络结构中通过分组卷积可以减少网络参数和计算量，提升网络特征提取速度，提高网络检测速度。对不同尺寸目标的宽高比进行分析，采用GIOU作为聚类算法的度量，生成更合适的宽高校准比例系数以适应不同宽高比的目标，可以提升检测框的定位精度，提升网络对不同角度、不同距离的目标的检测性能。以不同比例对样本图像和应用场景图像进行加权融合并保留样本图像的标注信息，在融合生成的数据上进行迁移学习，提高了网络的泛化能力和实际检测性能。

本公开还涉及一种电子设备，包括服务器、终端等。该电子设备包括：至少一个处理器；与至少一个处理器通信连接的存储器；以及与存储介质通信连接的通信组件，所述通信组件在处理器的控制下接收和发送数据；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行以实现上述实施例中的目标检测方法。

在一种可选的实施方式中，存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现目标检测方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器中，当被一个或者多个处理器执行时，执行上述任意方法实施例中的目标检测方法。

上述产品可执行本申请实施例所提供的目标检测方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的目标检测方法。

本公开还涉及一种计算机可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的目标检测方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

此外，本领域普通技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本领域技术人员应理解，尽管已经参考示例性实施例描述了本公开，但是在不脱离本公开的范围的情况下，可进行各种改变并可用等同物替换其元件。另外，在不脱离本公开的实质范围的情况下，可进行许多修改以使特定情况或材料适应本公开的教导。因此，本公开不限于所公开的特定实施例，而是本公开将包括落入所附权利要求范围内的所有实施例。

Claims

1.一种目标检测方法，其特征在于，包括：

对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，所述目标检测结果包括至少一个目标的位置信息以及分类信息；

所述方法通过神经网络实现，所述方法还包括：根据训练集训练所述神经网络，所述训练集包括原始训练集；

所述原始训练集包括多个样本图像，各所述样本图像包括标注信息，所述方法还包括：对所述原始训练集进行数据增强，得到融合图像训练集，包括：获取至少一个应用场景图像；将各所述应用场景图像分别与各所述样本图像进行融合处理，得到多个融合图像，并将用于融合处理的样本图像的标注信息确定为相应融合图像的标注信息；将所述多个融合图像组成融合图像训练集；其中，

将各所述应用场景图像分别与各所述样本图像进行融合处理，得到多个融合图像，包括：

确定各所述样本图像的宽高比例系数，其中，所述宽高比例系数包括宽/高系数和高/宽系数；将各所述应用场景图像分别按照目标系数进行宽高等比缩放，得到缩放后的各应用场景图像，其中，所述目标系数为所述宽/高系数和高/宽系数中大的系数；将所述缩放后的各应用场景图像分别与各所述样本图像进行加权融合处理，得到多个融合图像；其中，对一个样本图像和一个应用场景图像以不同加权系数进行加权融合，得到多个融合图像。

2.如权利要求1所述的方法，其中，对待检测的图像提取多尺度特征，并进行多个尺度的特征融合，得到融合后的多个特征图，包括：

3.如权利要求1所述的方法，其中，对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，包括：

4.如权利要求1所述的方法，其中，所述神经网络包括：分组卷积层、反卷积层和融合层，所述分组卷积层以及所述反卷积层用于对待检测的图像提取多尺度特征。

5.如权利要求1所述的方法，其中，所述训练集包括多个样本图像，各所述样本图像包括标注信息，所述方法还包括：

根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，其中，所述多个尺寸的宽高校准比例系数用于在所述神经网络训练过程以及目标检测过程中，矫正检测框的宽高比。

6.如权利要求5所述的方法，其中，所述标注信息包括标注框，其中，根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，包括：

S11，在数据集中选取k个不同聚类的初始目标框Ci，i∈{1,2,...,k}，其中，初始目标框Ci表示宽wi和高hi与坐标原点(0，0)围成的检测框；

7.如权利要求6所述的方法，其中，所述方法还包括：

确定标注框和初始目标框的最小闭包区域面积C；

确定所述标注框和所述初始目标框的交并比IOU，其中，IOU＝IA∩B|/IA∪B|，A表示所述标注框的面积，B表示所述初始目标框的面积；

确定所述标注框以及所述初始目标框的广义交并比GIOU，其中，GIOU＝IOU-|C-(A∪B)I/|C|。

8.如权利要求1所述的方法，其中，根据训练集训练所述神经网络，包括：

9.如权利要求1所述的方法，其中，所述目标包括人头。

10.一种目标检测系统，其特征在于，包括：

目标检测模块，用于对所述融合后的多个特征图进行目标检测处理，得到目标检测结果，所述目标检测结果包括至少一个目标的位置信息以及分类信息；

所述系统通过神经网络实现，所述系统还包括：根据训练集训练所述神经网络，所述训练集包括原始训练集；

所述原始训练集包括多个样本图像，各所述样本图像包括标注信息，所述系统还包括：对所述原始训练集进行数据增强，得到融合图像训练集，包括：获取至少一个应用场景图像；将各所述应用场景图像分别与各所述样本图像进行融合处理，得到多个融合图像，并将用于融合处理的样本图像的标注信息确定为相应融合图像的标注信息；将所述多个融合图像组成融合图像训练集；其中，

将各所述应用场景图像分别与各所述样本图像进行融合，得到多个融合图像，包括：

确定各所述样本图像的宽高比例系数，其中，所述宽高比例系数包括宽/高系数和高/宽系数；将各所述应用场景图像分别按照目标系数进行宽高等比缩放，得到缩放后的各应用场景图像，其中，所述目标系数为所述宽/高系数和高/宽系数中大的系数；将所述缩放后的各应用场景图像分别与各所述样本图像进行加权融合处理，得到多个融合图像；依次类推，得到所述多个融合图；其中，对一个样本图像和一个应用场景图像以不同加权系数进行加权融合，得到多个融合图像。

11.如权利要求10所述的系统，其中，所述多尺度特征模块用于：

12.如权利要求10所述的系统，其中，所述目标检测模块用于：

13.如权利要求10所述的系统，其中，所述神经网络包括：分组卷积层、反卷积层和融合层，所述分组卷积层以及所述反卷积层用于对待检测的图像提取多尺度特征。

14.如权利要求10所述的系统，其中，所述训练集包括多个样本图像，各所述样本图像包括标注信息，所述系统还包括：

15.如权利要求14所述的系统，其中，所述标注信息包括标注框，其中，根据各所述样本图像的标注信息，确定多个尺寸的宽高校准比例系数，包括：

S11，在数据集中选取k个不同聚类的初始目标框Ci，i∈{1,2,..,k}，其中，初始目标框Ci表示宽wi和高hi与坐标原点(0，0)围成的检测框；

其中，Di＝1-GIOU，GIOU表示标注测框和初始目标框的广义交并比；

16.如权利要求15所述的系统，其中，所述系统还包括：

确定标注框和初始目标框的最小闭包区域面积C；

确定所述标注框和所述初始目标框的交并比IOU，其中，IOU＝IA∩B|/IA∪BI，A表示所述标注框的面积，B表示所述初始目标框的面积；

确定所述最小闭包区域面积C中不属于所述标注框和所述初始目标框N的区域占所述最小闭包区域面积C的比重IC\(A∪B)|/|C|；

17.如权利要求10所述的系统，其中，根据训练集训练所述神经网络，包括：

18.如权利要求10所述的系统，其中，所述目标包括人头。

19.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如权利要求1-9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现如权利要求1-9中任一项所述的方法。