CN111275082A

CN111275082A - 一种基于改进端到端神经网络的室内物体目标检测方法

Info

Publication number: CN111275082A
Application number: CN202010039334.5A
Authority: CN
Inventors: 陈略峰; 吴敏; 曹卫华; 张平平
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-12

Abstract

本发明公开了一种基于改进端到端神经网络的室内物体目标检测方法，利用标注框标注训练集中每一个目标，获取到训练集中每一个目标的类别和位置信息；对卷积神经网络进行初始化，对训练集进行预处理；将预处理后的训练集图像分割成M×N的网格；利用网格进行选取初始候选框；对每个网格进行目标的检测，得到目标类别的类别置信度；根据类别置信度设置卷积神经网络输出，得到最终预测框；训练卷积神经网络，得到训练完成的卷积神经网络；利用训练好的卷积神经网络对待检测目标的图像进行测试，从而确定目标物体的类别和定位。本发明在神经网络中提出了先池化后卷积的特征提取模式，减少特征信息的损失的同时实现快速的室内目标检测。

Description

一种基于改进端到端神经网络的室内物体目标检测方法

技术领域

本发明涉及图像识别领域，更具体地说，涉及一种基于改进端到端神经网络的室内物体目标检测方法。

背景技术

智能机器人需要运行在环境、气候、天气、光照、景物都实时变化的复杂环境中，而且运行过程中可能会存在姿态各异，行动不定的行人、障碍物等外界因素。这些因素给机器人带来了很大的挑战性，因此对于智能移动机器人环境感知算法的研究具有很大的意义和难度。室内空间是智能情感机器人常见的工作场景。相比室外环境，室内环境往往更加繁杂，使得机器人对环境的理解更加困难。除此之外，现代社会人们对物品的个性化需求使得物体的外形各式各样，差异很大，这也是环境理解的挑战之一。将环境中的物体建立描述以及与周边物体的关系，对情感机器人的任务执行有着重要的意义。例如机器人的导航需要物体的识别和定位、人机面部和手势的交互需要对周围环境的感知(包括物体和人)和对进行交互的人的识别与追踪。环境感知的建立是机器人也是认知环境的重要一步，为机器人后续的多样化操作提供信息支持。场景对象通常包括人、桌子、椅子等等。当它们出现在同一个场景中时，检测的难度显著增加，尤其是复杂的室内环境。因此，在复杂的室内环境中准确检测物体是环境传感技术的难点之一。

室内物体的目标检测由候选框的提取、待测目标检测、物体目标的检测识别与定位三部分组成。其中，物体目标检测技术经过几十年的研究发展，在检测精度和速度上都取得了很大的进展。主流的检测主要有可变形部件(Deformable Part Models,DPM)、深度网络(Deep Network,DN)、决策树(Decision Forest,DF)。传统的检测方法基于人工设计的特征提取器，通过提取Haar特征、方向梯度直方图(Histogram of Oriented Gradient,HOG)、局部二值模式(Local Binary Pattern，LBP)等训练分类器，以达到物体检测的目的。但人工设计的检测特征很难适应动态物体的大幅度变化。深度网络可以从图像像素中学习特征，提高物体检测器性能。深度网络也在行人检测领域得到了深入运用，随着大规模训练数据集的构建以及硬件计算能力的不断增强，深度网络结构在不同的视觉任务中取得了巨大的成功。在目标检测方面，主要分为一阶段RCNN(Region-CNN)、Fast-RCNN、Faster RCNN系列和二阶段的检测YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、CORNER NET，目标检测的准确率和速度都达到了新的高度。其中YOLO神经网络是目前最优秀的目标检测架构之一，在检测实时性方面表现尤为突出。

基于学习的特征表达方法受到了广泛的关注和研究，与人工设计的特征相比，由于深度学习特征是通过构建深层的网络结构，直接从原始图像像素中提取得到，故其将特征设计问题转换为了网络架构问题。极大地减少不必要的特征设计细节，同时深度神经网络的高层特征映射也显示出一定的语义属性，在PASCAL VOC、Image Net大规模视觉识别挑战赛等相关国际赛事中，基于深度学习的取得了最好的效果。虽然深度学习特征表达具有更本质的特征表现，但由于学习深层神经网络涉及了大量的参数，网络的训练需要大量的数据，因此计算过程比较繁重，需要进一步优化。

可将室内物体的目标检测应用于面向情感机器人系统的环境感知到智能机器的信息处理中，将能够进一步提高智能机器的认知能力及决策分析能力，进而增强人机交互的智能性及适应性。特别是，在不同模态的视觉信息进行分析的基础上，对环境进行感知与反映，将能够获得更加丰富的信息，为更高级的机器智能的实现创造条件。

发明内容

本发明要解决的技术问题在于，针对现有技术的处理速度慢、计算量大的缺陷，提供一种基于改进端到端神经网络的室内物体目标检测方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于改进端到端神经网络的室内物体目标检测方法，包括以下步骤：

S1、构建端到端卷积神经网络，所述端到端卷积神经网络包括若干个用于减少图像像素的池化层，若干个用于提取图像特征的卷积层，1个全连接层和1个分类输出层；

S2、获取目标图像数据集，基于所述目标图像数据集构建训练集，对训练集中的每张图像进行标注框的标注，确定训练集图像中每一个预定义目标的类别和位置信息；

S3、将已利用标注框标注的训练集输入到步骤S1构建的卷积神经网络中，进行网络初始化；其中，输入的图像数据先经过1个池化层进行图像像素减少后，再输入到与池化层连接的卷积层，进行图像特征提取，最后经过全连接层对输入的特征向量做加权和处理，最后经过分类输出层，实现对训练集图像的预处理；

S4、将预处理后的训练集中的每张图像分割成M×N的网络单元格；利用分割得到的M×N个网络单元格，针对每张图像进行初始候选框的选取；其中，每个网络单元格随机生成B个初始候选框，一共生成M×N×B个初始候选框；

S5、针对分割得到的每个网络单元格，进行预定义目标的检测，得到目标类别为M×N×B的类别置信度；其中，根据得到的目标类别类别置信度设置卷积神经网络的输出，确定最终的目标预测框；

S6、将已利用标注框标注的训练集作为卷积神经网络的输入，将步骤S5得到的目标预测框作为卷积神经网络的输出，训练卷积神经网络，得到最终用于目标检测的卷积神经网络；

S7、将待进行目标检测的图像输入到基于步骤S6训练得到的卷积神经网络中，进行室内物体目标检测。

实施本发明的一种基于改进端到端神经网络的室内物体目标检测方法，具有以下有益效果：

1、本发明设计了一种改进端到端的神经模型，在神经网络中提出了先池化后卷积的特征提取模式，减少特征信息的损失的同时实现快速的室内目标检测；

2、在对模型进行改进微调的同时，通过自制有关情感机器人的人机交互室内环境的图片数据集和VOC 2007数据集进行了检测和结果的优化，提高室内环境的检测性能；

3、本发明公开的一种改进端到端神经模型，通过实验结果进行了验证分析，即可以将学习模型从通用模型转换为特定的模型进行目标检测，也可以继续丰富涉及环境信息的情境类别，丰富数据集，并将其应用于情感机器人交互系统。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明基于改进端到端卷积神经网络模型的室内物体目标检测过程图；

图2是基于改进端到端神经模型结构图；

图3是不同网格尺度的目标识别比较图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

基于改进端到端卷积神经网络模型的检测方法将候选框提取、特征提取、目标分类、目标定位统一到一个神经网络中，通过构建的神经网络从图像中提取候选区域，通过整幅图像特征来预测行人位置和概率。将室内环境目标检测问题转化为回归问题，真正实现端到端的检测。

请参考图1，其为本发明基于改进端到端卷积神经网络模型的室内物体目标检测过程图。其中，输入图像被分成M×N个单元，每个单元被给出B个不同规格的初始候选框；参数M、N、B均为正整数且大于等于1。如图1所示，预测候选框经由卷积层网络被提取出来，每幅图像候选框数量为M×N×B。

具体实现的步骤如下：

步骤1：构建端到端卷积神经网络，所述端到端卷积神经网络包括若干个用于减少图像像素的池化层，若干个用于提取图像特征的卷积层，1个全连接层和1个分类输出层；当前步骤下构建的基于改进端到端神经模型结构图，请参考图2，本实施例提出的一种基于改进端到端卷积神经网络模型，包括18个用于提取图像特征的卷积层，6个用于减少图像像素的池化层，1个分类输出层和1个全连接层。这种结构下，一方面通过一个与卷积层连接的全连接层来减少特征信息的丢失；另一方面在基于改进的端到端神经网络中提出了先池化后卷积的特征提取模式，减少特征信息的损失的同时实现快速的室内目标检测；最后，本实施例提出的这种卷积神经网络模块将检测问题转化为回归问题，真正实现端到端的检测。

步骤2：获取目标图像数据集，基于所述目标图像数据集构建训练集，对训练集中的每张图像进行标注框的标注，确定训练集图像中每一个预定义目标的类别和位置信息；

所述目标图像数据集包括进行情感机器人室内交互环境的图像数据集、以及VOC2007相关数据集，其中，依据上述两部分数据集制作室内环境的数据集，并将数据集分为训练集和测试集，通过标注框标注软件，对训练集中的每张图像进行标注框标注，确定训练集图像中每一个目标，得到训练集图像中每一个目标的类别和位置信息；其中：

本步骤下，训练集和测试集的构建过程为：从收集到的情感机器人室内环境图像和VOC数据集中选用一万张图像作为数据集，将该数据集中八千张图像做训练集，剩余两千张图像做测试集；所述训练集用于后续的卷积神经网络训练，所述测试集用于输入到训练好的卷积神经网络下，测试最终得到的定位数据的准确性；

本步骤下，预定义目标设置为：根据情感机器人交互场景和对象，将预定义目标设置为图像中包括行人、有人坐的椅子、桌子、电脑显示器这四类目标；由于现有的PASCALVOC 2007是选择了20个对象类，本实施例中，为了提高物体检测的准确性，需要减少不必要的标签，用以适应室内环境目标物体的识别，其中，上述定义的4个对象类被认为是预定义的特定模型，包括椅子，桌子，人和电脑显示器；本发明总构建的卷积神经网络最后一层(分类输出层)的输出数据直接对应于标签，这样就可以通过控制层输出数来实现；

本步骤下，标注框标注的过程为：利用标注框标注训练集图像中每一个目标(行人、有人坐的椅子、桌子、电脑显示器)，从而得到训练集图像中每一个室内环境物体目标的类别和位置信息；所述类别信息为物体目标的名称所属类别，所述位置信息为标注框中心点坐标和标注框宽、高，当前得到的类别和位置信息以xml格式存储至Annotations文件夹中；

在将标注完成的xml格式文件转换为适用于改进端到端神经模型的目标检测的txt格式文件后，在“HOME”下建立用来存放数据集的文件夹，在文件夹下生成三个文件夹，命名分别为Annotations、Image Sets、JPEG Images文件夹。将室内图像图片数据格式统一调整为“.jpg格式”，并按照PASCAL VOC官方命名方法将图片数据从“000001.jpg”开始统一重命名，最后将处理后的图片数据存放在JPEG Images文件夹中；

对图片数据进行标注，即标出目标的类别和位置信息，具体为：将标注信息保存为同名的“.xml”格式文件，存放至Annotations文件夹中。将已有数据按比例生成训练样本集和测试样本集，生成“train.txt”和“test.txt”文件，里面存放训练样本集和测试样本集的绝对路径信息，将“.txt”文件放至Image Sets文件夹下的Main文件夹中。

步骤3：将已利用标注框标注的训练集输入到步骤1构建的卷积神经网络中，进行网络初始化；其中，输入的图像数据先经过1个池化层进行图像像素减少后，再输入到与池化层连接的卷积层，进行图像特征提取，最后经过全连接层对输入的特征向量做加权和处理，最后经过分类输出层，实现对训练集图像的预处理；其中：

对卷积神经网络进行初始化，将已利用标注框标注的训练集输入到卷积神经网络中；对训练集图像进行预处理；所述预处理包括旋转、对比度增强、倾斜、缩放中的一种或几种，在预处理之后，图像会有一定的失真，通过对失真图像的训练可以增加最后图像识别的准确性。

步骤4：本实施例中，将预处理后的训练集中每张图像分割成14×14的网格；在YOLO中分割成的网格担任着检测目标物体的任务，利用网格进行选取初始候选框；每个网格随机生成两个初始候选框，或根据经验提前定义其初始的候选框的宽度和高度，一共生成14×14×2个候选框。需要说明的是，所述尺寸大小为上述神经网络模型规定的大小；

本实施例考虑多层卷积后的网格和池化网格划分操作从原始的7×7更改为14×14，以增加网络特征映射的大小。图3是不同网格尺寸的目标识别的比较。图3中左边的为7×7网格的目标识别示意图，右边的为14×14网格的目标识别示意图；从图3可以看出，在7×7网格下，系统只能预测1个目标，但本实施例提出的这种改进后的技术方案可以识别14×14网格下的2个目标。当图中有多个目标对象时，特别是包含小目标对象，可以增加小目标特征的提取能力，并且可以实现对小目标的识别。各种目标是构成不同环境的元素，并且可以通过对象的识别来区分环境。

在本发明工件的改进端到端卷积神经网络模型中，一般选取的图像尺寸大小会比待检测图像的尺寸要小，这样可以保证运算处理的速度，可以快速的进行类识别。一般选取448×448或者416×416等。

步骤5：针对分割得到的每个网络单元格，进行预定义目标的检测，得到目标类别为14×14×2的类别置信度；其中，根据得到的目标类别类别置信度设置卷积神经网络的输出，确定最终的目标预测框；

本步骤下，生成目标预测框的步骤具体为：

(1)首先，根据初始预设坐标点位生成初始检测框；

(2)其次，进行动态检测框的预测，对已经生成的检测框进行迭代预测，生成最新的检测框；

(3)其次，计算所述最新的检测框的重合度；若最新的检测框重合度大于等于预设的重合度阈值，则保留所述最新的检测框；若所述最新的检测框重合度小于预设的重合度阈值，则继续进行动态检测框的预测；

(4)最后，基于检测框的重合度，将保留到的最新检测框作为检测物体的目标预测框。

本步骤下，所述目标类别类别置信度的计算过程为：

基于目标预测框进行目标检测，预测每个目标预测框的中是否存在待判别的目标，当前将判别结果定位为：置信度Conf(Object)，所述置信度Conf(Object)的计算公式为：

其中，Pr(Object)说明是否有目标物落入候选框对应的单元格中；若有，则将单元格中对应候选框的目标置信度为

否则，认定候选框中没有目标物，Conf(Object)＝0；具体可将所述目标置信度的计算公式描述为：

说明预测框与实际框的交集面积与并集面积之比：

步骤6：将步骤2中标注框标注的训练集图像作为卷积神经网络的输入，步骤5得到的最终目标预测框的训练集图像作为卷积神经网络的输出，训练卷积神经网络，得到最终权值和训练完的卷积神经网络；其中，训练卷积神经网络分为以下几项步骤：

(1)首先，接收待检测图像，根据预设的要求调整所述待检测图像的尺寸大小，生成第一检测图像；将所述第一检测图像输入到卷积神经网络中进行匹配识别，生成初始候选框、分类识别信息以及分类识别信息对应的分类概率值；其中，训练时，数据集中的每一张图片都对包含物体的中心坐标进行了标注，当某物体落到某网格内时，此网格便担负着检测该物体的任务，此网格生成的两个候选框共享此类别；

(2)其次，基于分类概率值确定每个初始候选框是否识别出目标物，将成功识别出目标物的初始候选框作为目标预测框；基于得到的若干个目标预测框进行目标物体的预测判断，设预测到目标物体的条件概率为Pr(Person|Object)，将目标预测框中包含预测到的目标物体置信度Conf定义为：

其中，Pr(Object)用于判断是否有目标物落入目标预测框对应的网络单元格中；

表示预测框与实际框的交集面积与并集面积之比；

需要进一步说明的是，若检测框中对物体的识别的概率超过分类概率值，则表明检测框中圈出了室内物体，已经识别出来图片中的物体。若所述分类概率值小于预设的分类概率阈值，则将进行重新识别，一直到所述分类概率值大于所述预设的分类概率阈值为止。所述神经网络模型会将图像进行多层的卷积运算。

(3)最后，针对每个目标预测框，预测出其中包含目标物体的概率以及边界框的位置，每个目标预测框输出的预测值为：

[X,Y,W,H,Conf(Object),Conf]；

其中，X、Y为预测框中心相对于网络单元格边界的偏移，W、H为预测框宽高相对于整幅图像之比；对于输入的每张图像数据，最终网络输出为向量M×N×B×[X,Y,W,H,Conf(Object),Conf]。

步骤7：利用训练完的卷积神经网络和最终权值对测试集室内环境的图像进行测试，从而确定室内环境的目标类别和定位。

在本发明提出的一种基于改进端到端神经模型的室内物体目标检测方法，使用深度神经网络进行了情感机器人交互环境物体目标检测的实验。改进端到端神经模型，并对实验结果进行了验证分析。从实验结果来看，自制数据集上的改进端到端神经模型可以提高物体检测的平均精度。基于深度神经网络，可以将学习模型从通用模型转换为特定的模型进行目标检测。可以继续丰富涉及环境信息的情境类别，丰富数据集，并将其应用于情感机器人交互系统。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于改进端到端神经网络的室内物体目标检测方法，其特征在于，包括以下步骤：

S3、将已利用标注框标注的训练集输入到步骤S1构建的卷积神经网络中，进行网络初始化；其中，输入数据先经过1个池化层进行图像像素调整后，再输入到与池化层连接的卷积层，进行图像特征提取，最后经过全连接层做加权和处理，以及分类输出层进行结果输出，实现对训练集图像的预处理；

S4、将预处理后的训练集中的每张图像分割成M×N的网络单元格；利用分割得到的M×N个网络单元格，针对每张图像进行初始候选框的选取；其中，每个网络单元格随机生成B个初始候选框，一共生成M×N×B个初始候选框；参数M、N、B均为正整数且大于等于1；

S6、将已利用标注框标注的训练集作为卷积神经网络的输入，将步骤S5得到的目标预测框作为卷积神经网络的输出，训练卷积神经网络，得到最终的用于室内物体目标检测的卷积神经网络；

S7、将待进行室内物体目标检测的图像输入到基于步骤S6训练得到的卷积神经网络中，得到目标检测结果。

2.根据权利要求1所述的室内物体目标检测方法，其特征在于，步骤S2中，所述目标图像数据集包括情感机器人室内交互环境的图像数据集和VOC2007数据集，在图像标注软件对训练集中的每张图像进行标注框的标注，获取到训练集图像中每一个目标的类别和位置信息。

3.根据权利要求2所述的室内物体目标检测方法，其特征在于，根据情感机器人交互场景和对象，将预定义目标设置为图像中包括的行人、有人坐的椅子、桌子、电脑显示器。

4.根据权利要求1所述的室内物体目标检测方法，其特征在于，步骤S4中，将预处理后的训练集图像分割成14×14的网络单元格；利用网络单元格进行初始候选框的选取，其中，在每个网络单元格中随机生成2个初始候选框，一共生成14×14×2个初始候选框。

5.根据权利要求1所述的室内物体目标检测方法，其特征在于，步骤S5中，针对目标预测框进行目标检测，根据置信度Conf(Object)确定预测每个目标预测框中是否存在待判别目标，将不存在目标物的目标预测框置信度设置为0；其中，置信度的数学公式定义为：

Pr(Object)用于判断是否有目标物落入目标预测框对应的网络单元格中；

若网络单元格中存在目标物，则将目标置信度设置为

否则，认定目标预测框中没有目标物，将置信度设置为Conf(Object)＝0；

表示预测框与实际框的交集面积与并集面积之比。

6.根据权利要求1所述的室内物体目标检测方法，其特征在于，步骤S6中，训练卷积神经网络分为以下几项步骤：

S51、接收待检测图像，根据预设的要求调整所述待检测图像的尺寸大小，生成第一检测图像；将所述第一检测图像输入到卷积神经网络中进行匹配识别，生成初始候选框、分类识别信息以及分类识别信息对应的分类概率值；

S52、基于分类概率值确定每个初始候选框是否识别出目标物，将成功识别出目标物的初始候选框作为目标预测框；基于得到的若干个目标预测框进行目标物体的预测判断，设预测到目标物体的条件概率为Pr(Person|Object)，将目标预测框中包含预测到的目标物体置信度Conf定义为：

表示预测框与实际框的交集面积与并集面积之比；

S53、针对每个目标预测框，预测出其中包含目标物体的概率以及边界框的位置，每个目标预测框输出的预测值为：

[X,Y,W,H,Conf(Object),Conf]；