CN109684906A

CN109684906A - 基于深度学习的检测红脂大小蠹的方法

Info

Publication number: CN109684906A
Application number: CN201810554522.4A
Authority: CN
Inventors: 孙钰; 袁明帅; 任利利; 刘文萍; 张海燕
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2019-04-26
Anticipated expiration: 2038-05-31
Also published as: CN109684906B

Abstract

本发明为一种基于深度学习的检测红脂大小蠹的方法。其首先将从诱捕器中采集的小蠹图像传输至服务器进行图像预处理，然后将预处理后的图像输入针对蠹虫数据集使用k‑means方法优化默认框后的Faster R‑CNN目标检测模型进行检测，对模型检测结果使用非极大值抑制方法排除同类之间IoU大于50％的检测框，然后按分类信心降序排序后，输出前M个结果，再对这M个结果按照分类信心进行筛选，将分类信心高于0.5的检测框和对应分类信心以及计数结果，绘制在输入图像上。本发明可实现林场现场图像数据实时采集和远程在线识别，减少了人力付出。

Description

基于深度学习的检测红脂大小蠹的方法

技术领域

本发明涉及检测红脂大小蠹的方法，尤其涉及一种基于深度学习的检测红脂大小蠹的方法。

背景技术

红脂大小蠹(RTB)是危害超过35种松科植物的蛀干害虫。1998年在我国山西省首次发现该虫后，危害面积迅速扩大。2004年红脂大小蠹扩散到山西、陕西、河北、河南4省，粘死松树达600多万株。2005年扩散到北京市门头沟区。

准确及时的虫情监测预警可指导早期防治，避免重大经济和生态损失。红脂大小蠹虫门监测是森林虫灾防治的重要环节。在红脂大小蠹成虫扬飞期，工作人员根据松林分布情况悬挂诱捕器。传统的监测方法是昆虫专家对诱捕器中，的红脂大小蠹进行人工识别和计数。人工监测存在劳动强度大、费用高、效率低、主观性强等问题，亟待通过自动计数的方法减轻基层人员的劳动强度，提高害虫监测和预测预报的准确度与时效性。

发明内容

为此，本发明提出一种基于深度学习的检测红脂大小蠹的方法，它可自动识别定位出危害最大的红脂大小蠹并计数。

本发明采用的方案如下：

一种基于深度学习的检测红脂大小蠹的方法，其包括以下步骤：

1)采集蠹虫图像步骤

使用电子化的诱捕器定时采集蠹虫图像，并传输至服务器；

2)预处理图像步骤

2.1)先对服务器中的原始蠹虫图像进行高斯降噪处理；

2.2)接着对其进行灰度处理，得到灰度图；

2.3)然后对产生的灰度图进行霍夫圆检测定位诱捕器的圆形杯底；

2.4)最后根据检测出的圆形的圆心坐标和半径对所述灰度图进行裁剪；

3)将预处理后的图像输入模型进行检测步骤

3.1)使用Faster R-CNN目标检测模型；

3.2)Faster R-CNN在第一阶段最后卷积层输出的特征图上添加全卷积 RPN，以密集分布的不同宽高比和尺寸的默认框为基准，生成高质量的感兴趣区域，在第二阶段，Fast R-CNN负责学习感兴趣区域特征并对其进行分类和位置调整，输出最终的预测结果；

3.3)Faster R-CNN对RPN和Fast R-CNN交替运行以下梯度下降方法，分为四步：首先单独训练使用预训练模型初始化的RPN网络；然后单独训练利用第一步生成的感兴趣区域并用预训练模型初始化的Fast R-CNN网络；接着使用第二步训练好的模型初始化RPN的训练，冻结共享的卷积层，只训练对RPN独有的网络层，自此，RPN利Fast R-CNN开始共享卷积层；最后，保持共享层冻结，只训练Fast R-CNN的全连接层，两部分网络形成了一个共享卷积层的统一网络；

3.4)在RPN训练阶段，仅将与标注框的交并比超过70％的默认框记做正默认框，将与标注框的交并比小于30％的默认框记做负默认框，其余的默认框不参与模型训练；

4)使用k-means聚类方法对蠹虫数据集中的标注框进行聚类分析步骤

4.1)从n个标注框中选取k个标注框作为聚类中心；

4.2)计算其余n-k个标注框到k个聚类中心的最小“距离”，把n-k个最小“距离”的和作为loss，并把最小距离对应的标注框和聚类中心归为一簇；

4.3)分别计算k个簇中所有框的长和宽平均值，并把该平均值选做新的 k个聚类中心；

4.4)重复步骤4.2)-4.3)，直至loss不再降低；

4.5)将k个聚类中心的长和宽作为默认框参数；

5)处理模型检测结果步骤

5.1)先对模型检测结果使用非极大值抑制方法排除同类之间交并比大于 50％的检测框，然后按分类信心降序排序后，输出前M个结果；

5.2)再对步骤5.1)中的M个结果按照分类信心进行筛选，将分类信心高于0.5的检测框和对应分类信心以及计数结果，绘制在输入图像上。

进一步地：

在所述采集蠹虫图像步骤中，诱捕器为圆形收集杯，杯壁水平嵌入摄像头，杯壁附有LED补光灯，诱捕器收集杯中含酒精。

在所述预处理图像的高斯降噪处理步骤中，用一个模板扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均值去替代模板中心像素点的值。

在所述预处理图像的定位诱捕器的圆形杯底步骤中，使用霍夫梯度法进行如下圆检测：

用Canny算法在灰度图像上进行边缘检测，检测出图像所有边缘点；

根据每个边缘点的模向量交点来找到所有可能的圆心，并根据累加计数确定候选圆心；

根据所有候选圆心的边缘非零像素对其的支持程度来确定半径。

本发明的有益效果是：

对诱捕器进行电子化改造，集成摄像头和控制逻辑，实现林场现场图像数据实时采集和远程在线识别，减少了人力付出。

克服了蠹虫种类多、虫体破损、酒精蒸发、液面反光等困难。

使用k-means聚类方法，基于采集到的诱捕器内的图像数据，计算出用于深度学习模型的适应于专用数据集检测目标大小和比例的默认框。

提出了自动化虫口监测的完整下作流程：首先使用电子化的诱捕器定时采集图像，上传至服务器后进行预处理图像并提取检测局域，最后使用改进过默认框的FasterR-CNN模型识别红脂大小蠹并输出虫口数。

附图说明

图1是本发明的诱捕器收集杯；

图2是拍摄原图；

图3是裁剪后的图像；

图4是图3的标注图；

图5是原始默认框和聚类后默认框对比图；

图6是红脂大小蠹检测流程。

表1是默认框优化前后尺寸对比，单位是像素。

具体实施方式

近年来，深度学习在目标检测领域表现突出，它可以同时实现目标的定位与识别。当前比较成功的深度学习目标检测网络包括Faster R-CNN、SSD (Single ShotMultibox Detector)、RetinaNet、Mask R-CNN等。其中：

Faster R-CNN是基于RPN(region proposa l network)的Region-Based NeuralNetwork，是典型的二阶段模型。图像第一阶段先经过一个2分类RPN 提取其感兴趣区域(RoI)，第二阶段再经过Fast R-CNN进行感兴趣区域的细分类和位置回归等refine操作。

SSD是典型的单阶段模型，在被截断的基础网络之后增加一个附加网络结构，逐级生成不同分辨率(网络层次越深，分辨率越低，语义解释能力越强)的特征图，在这些不同分辨率的特征图层上预测不同尺寸的目标。

RetinaNet也是单阶段模型，与SSD不同的是使用特征金字塔结构 (FeaturePyramid Network)，逐级生成的不同分辨率的特征图，每级特征图还会融合更深层特征图的特征，使模型具有更强的语义解释能力。

Mask R-CNN是基于Faster R-CNN结构，在第二阶段并联一个Mask层的网络结构，用于语义分割。

为实现自动化的红脂大小蠹虫口监测，本发明提供了基于深度学习的检测红脂大小蠹的方法，其包括以下步骤：

1)采集蠹虫图像步骤

使用电子化的诱捕器定时采集蠹虫图像，并传输至服务器；

2)预处理图像步骤

2.1)先对服务器中的原始蠹虫图像进行高斯降噪处理；

2.2)接着对具进行灰度处理，得到灰度图；

3)将预处理后的图像输入模型进行检测步骤

3.1)使用Faster R-CNN目标检测模型；

3.3)Faster R-CNN对RPN和Fast R-CNN交替运行以下梯度下降方法，分为四步：首先单独训练使用预训练模型初始化的RPN网络；然后单独训练利用第一步生成的感兴趣区域并用预训练模型初始化的Fast R-CNN网络；接着使用第二步训练好的模型初始化RPN的训练，冻结共享的卷积层，只训练对RPN独有的网络层，自此，RPN和Fast R-CNN开始共享卷积层；最后，保持共享层冻结，只训练Fast R-CNN的全连接层，两部分网络形成了一个共享卷积层的统一网络；

3.4)在RPN训练阶段，仪将与标注框的交并比超过70％的默认框记做止默认框，将与标注框的交并比小于30％的默认框记做负默认框，其余的默认框不参与模型训练；

4.1)从n个标注框中选取k个标注框作为聚类中心；

4.4)重复步骤4.2)-4.3)，直至loss不再降低；

4.5)将k个聚类中心的长和宽作为默认框参数；

5)处理模型检测结果步骤

进一步地：

在所述采集蠹虫图像步骤中，诱捕器为网形收集杯，杯壁水平嵌入摄像头，杯壁附有LED补光灯，诱捕器收集杯中含酒精。

本发明在传统信息素诱捕器中集成摄像头，使用k-means算法改进基于深度学习的Faster R-CNN目标检测模型，在诱捕器图像背景下，可从任意姿态及分布的6种常见小蠹中，识别定位出危害最大的红脂大小蠹并计数。

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实例，对本发明进行详细的说明。

1.诱捕器内图像采集与数据集构建

1.1.采集设备介绍

原始图像由嵌入诱捕器收集杯中的图像传感器采集。图1为通过改造诱捕器收集杯实现的图像数据采集。在传统诱捕器收集杯杯壁水平嵌入摄像头 2。摄像头感光元件尺寸为1/2.5″，分辨率为2048×1536，搭配2.1mm焦距定焦镜头，与杯底距离为6.6cm。杯壁附有LED补光灯1。诱捕器收集杯中含酒精3，酒精3最多占收集杯五分之一。

1.2.图像处理与数据集构建

因杯壁部分没有检测意义，采集后直接将其排除，步骤如下：

1).先对原始图像副本进行高斯降噪处理。高斯滤波就是对整幅图像进行加权平均的过程，处理后每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。本发明使用Python中的图像处理模块Opencv进行图像处理，具高斯滤波的具休操作是：用一个模板(或称卷积、掩模)扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均值去替代模板中心像素点的值。

2).接着对其进行灰度处理。灰度处理就是将图像的RGB三通道合为一通道表示，该灰度通道反应之前三通道的像素值分布。

3).然后对产生的灰度图进行霍夫圆检测定位圆形杯底。霍夫圆检测使用霍夫梯度法进行圆检测：第1步用Canny算法在灰度图像上进行边缘检测，检测出图像所有边缘点。(之前的灰度处理就是滤除异常的边缘点)；第2 步根据每个边缘点的模向量交点来找到所有可能的圆心，并根据累加计数确定候选圆心(计数值越高，是圆心的可能性越高)；第3步根据所有候选圆心的边缘非零像素对其的支持程度来确定半径。

4).最后根据检测出的圆形的圆心坐标和半径对原图进行裁剪。图像是存储在一个三维数组(三维分别是行数，列数，通道数)，如 [[[1，2，3，]，[1，2，3]，[1，2，3]]，[[1，2，3，]，[1，2，3]，[1，2，3]]，[[1，2，3， ]，[1，2，3]，[1，2，3]]]就是一张3x3的三通道图像的存储形式，根据霍夫圆检测中得到的圆心坐标(x，y)和半径r，取y-r行到y+r行，x-r列到x+r列，就完成了图像裁剪。

图2为拍摄原图，图3为裁剪后的图像，裁剪后分辨率约为1295×1295 像素。

以上对采集到的图像的处理在训练数据构建和实际检测过程中相同。即，训练使用的数据集构建时，需要对图像进行上述处理；模型训练好后，使用模型进行检测的时候，对输入图像也做同样的处理。

构建训练数据集时，训练图像标注包括边界框坐标和类别两类信息。图 4为图3的标注，边界框为包围小蠹的最小长方形，虚线框代表红脂大小蠹，实线框代表其它种类小蠹。

2.检测方法

2.1.Faster R-CNN目标检测模型

本发明使用tensorflow深度学习框架官方提供的Faster R-CNN目标检测网络。网络是目标检测框架的网络结构，通过训练算法训练好后，具有目标检测能力的网络及其中参数称为模型。

Faster R-CNN目标检测网络由区域建议网络(Region Proposal Network，RPN)和Fast R-CNN组成，是典型的二阶段网络。RPN和Fast R-CNN 共享卷积层，RPN和Fast R-CNN共同组成Faster R-CNN，它们共用一个基础网络(骨架网络，如resnet50)，只不过RPN是在基础网络的中间一层的特征图上进行操作，Fast R-CNN是在该基础网络的末端输出预测结果，两者同一基础网络，共享了RPN之前的卷积层。

Faster R-CNN在第一阶段最后卷积层输出的特征图上添加全卷积RPN， RPN是一种卷积网络结构，具输入是前面卷积层输出的特征图，输出的预测结果作为感兴趣区域(Region of Interest，RoI)，它包含位置坐标(即预测框)、分类及分类信心(即有多大可能性是该分类的目标，用百分数表示)，以密集分布的不同宽高比和尺寸的默认框为基准，生成高质量的感兴趣区域，所谓的默认框就是在原图上密集分布的有一定规格且不变的矩形框，是模型中预先设置好的参数，所有的预测结果都对应一个原始的默认框。

在第二阶段，Fast R-CNN负责学习感兴趣区域特征并对其进行分类和位置调整，输出最终的预测结果，它同样包含每个检测到的物体的位置坐标、分类和对应分类信心。

第一阶段的RPN提供了很多感兴趣区域，即极有可能是检测目标(无具体分类，即是或不是)的小区域，将Fast R-CNN的学习集中在一些小的，更有价值的区域，而不是整张图，这样便提高了学习速度。Fast R-CNN在此基础上可以更快地对目标进行更为精准的具体分类和位置定位，可有效的缩短检测时间。

Faster R-CNN通过对RPN和Fast R-CNN交替运行以下梯度下降方法，分为四步：首先单独训练使用预训练模型(即在大型通用数据集上训练好的模型，主要是使用其基础网络的参数，因为它包含丰富图像特征)初始化的 RPN网络；然后单独训练利用第一步生成的感兴趣区域并用预训练模型初始化的Fast R-CNN网络；接着使用第二步训练好的模型初始化RPN的训练，冻结共享的卷积层，只训练RPN独有的网络层，自此，RPN和Fast R-CNN开始共享卷积层；最后，保持共享层冻结，只训练Fast R-CNN的全连接层。两个网络形成了一个共享卷积层的统一网络。通过上述步骤，不断降低损失函数数值，实现共享参数的快速目标检测。此处的优化(optimize)是指使用梯度下降方法，不断更新网络模型参数，降低目标函数loss的值。

在第一阶段RPN的训练阶段，仅将与标注框(标注框就是构建数据集时，人工将图像中的目标使用矩形框标注出来，并用ymin、ymax、xmin、 xmax四个值表示)的交并比IoU(Intersection over Union，两框交集面积比两框并集面积)超过70％的默认框记做正默认框，将与标注框的IoU小于30％的默认框记做负默认框，其余的默认框不参与模型训练。对于RPN输出的预测结果，公式(1)定义了RPN使用的损失函数(RPN只检测是不是目标，为第二阶段提供候选区域，即RoI。)：

在公式(1)中，p_i表示一个batch(一批尺寸相同的图像的集合)中第i个预测结果被RPN预测是目标的概率，即分类信心，如果该预测结果对应的默认框是正默认框，则为1，否则为0，为单个预测框的分类信心log损失二者差距越小，loss越低。)；对于位置回归损失(平面中一个矩形变换到另一个矩形需要形变和平移，回归损失衡量t_i与之间的差距，即从默认框变换到标注框的形变和平移，与从默认框变换到预测结果的形变和平移之间的差距，差距越小表示预测框越准确，越接近于标注框。)，t_i表示预测框对默认框形变和平移的的参数化坐标，表示标注框对默认框形变和平移的参数化坐标，为位置回归的smooth L1损失，表示该损失只有(即该预测结果对应的默认框为正默认框时)，才被激活；两种loss分别用N_cls和N_reg及平衡权重λ做归一化处理。其中N_cls表示正负默认框数量之和，N_reg表示正默认框数量。(归一化如公式(1)所示，对分类loss和位置回归loss分别除以N_cls，N_reg，并使用平衡权重λ调节两种loss比例。)

2.2.基于k-means的针对蠹虫数据的默认框改进

Faster R-CNN在第一阶段最后卷积层输出的特征图上添加一个3×3的滑动窗口，每个窗口的中心点映射到原始图像，根据映射的中心点并依照表1 所示的长和宽参数，在原始图像上生成不同比例和尺寸的默认框。

表1

原始的Faster R-CNN的默认框是人为指定参数的，如表1所示：以 256×256像素为基础框面积(基础框可以理解为基准框，如表1所示，默认框的长和宽是在基准的长宽基础上进行尺度变换得来的。)，使用默认框3种长宽比(aspect ratio)：0.5、1、2，和默认框与基础框4种面积比 (scale²)：0.25²、0.5²、1²、2²的12种组合(即一种宽高比和一种面积比为一种组合，总共有3x4共12种组合。)。然而，受镜头焦距、拍摄距离和小蠹体型的约束(红脂大小蠹属于小蠹科，大小蠹属，红脂大小蠹种。我们检测目标是从六种小蠹科蠹虫中检测红脂大小蠹。)，小蠹数据集的目标大小和通用大型数据集存在较大差异(深度学习的目标检测，就是要从图像种找出检测目标是什么(类别)，在哪(位置，用坐标表示，把坐标反映在图上就是检测框)，而且标大小就是包含目标的最小标注框的面积(用像素表示)；小蠹数据集是本发明在实验中采集的数据进行标注后构建的数据集，专用性强，种类少，规模小，目标面积占图像面积比例小；通用大型数据集是公司、高校、会议等机构构建的数据集，规模极大，包含种类多，目标面积占图像面积比例大。所以本发明使用k-means聚类方法对蠹虫数据集中的标注框进行聚类分析，一改以往用经验设置默认框的方式，使用科学的方法选取最具代表性且最适合检测诱捕器内蠹虫的模型默认框的长和宽：

distance(gt_box，centroid)＝1-IoU(gt_box，centroid) (2)

公式(2)定义了聚类过程中默认框与标注框之间“距离”评价标准(两框的 IoU越大，“距离”越小)，gt_box(ground truth box)为训练集标注框，centroid 为聚类中心。

k-means聚类步骤如下：

1)从n个标注框中选取k个标注框作为聚类中心；

2)计算其余n-k个标注框到k个聚类中心的最小“距离”，把n-k个最小“距离”的和作为loss，并把最小距离对应的标注框和聚类中心归为一簇；

3)分别计算k个簇中所有框的长和宽平均值，并把该平均值选做新的k个聚类中心；

4)重复2-3的步骤，直至loss不再降低；

5)将k个聚类中心的长和宽作为默认框参数。

以实验中采集到的蠹虫数据为例，我们使用k＝12，聚类前后模型采用默认框的尺寸如表1所示。图5中图像分辨率为600×600像素，是模型的输入分辨率，图像中虚线框为一组原始的默认框，实线框为聚类后的一组默认框，相比之下聚类后的默认框与红脂大小蠹重合度更高，有效减少了消耗计算资源，但不生成训练误差的默认框数量，更加有利梯度生成，同时提高了第一阶段RPN网络为第二阶段提供的感兴趣区域的质量，提高了检测精度。

2.3.红脂大小蠹的检测流程

红脂大小蠹的检测流程如图6所示：

1.首先将从诱捕器中采集的小蠹图像传输至服务器进行图像预处理。预处理将包括1)使用1.2中介绍的方法对原图进行的裁剪；2)将图像缩小至600× 600像素；3)再将图像三通道像素值归一化至标准正态分布，即分别对RGB三通道的所有像素点的像素值减去各自通道所有像素点像素值的均值，并除以方差，归一化至标准止态分布。

2.然后将预处理后的图像输入模型进行检测，然后将预处理后的图像输入针对蠹虫数据集使用k-means方法优化默认框后的Faster R-CNN目标检测模型进行检测，对模型检测结果使用非极大值抑制(non-maximum suppression，NMS) 方法排除同类之间IoU大于50％的预测框，然后按分类信心降序排序后，输出前 M(设100)个结果。

3.再对步骤2中的M个结果按照分类信心进行筛选，将分类信心高于0.5 的检测框和对应分类信心以及计数结果，绘制在输入图像上，如图6所示，方框为检测结果，图像左上角标明红脂大小蠹的个数。

需要说明的是，以上所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

Claims

1.一种基于深度学习的检测红脂大小蠹的方法，其特征在于包括以下步骤：

1)采集蠹虫图像步骤

使用电子化的诱捕器定时采集蠹虫图像，并传输至服务器；

2)预处理图像步骤

2.1)先对服务器中的原始蠹虫图像进行高斯降噪处理；

2.2)接着对其进行灰度处理，得到灰度图；

3)将预处理后的图像输入模型进行检测步骤

3.1)使用Faster R-CNN目标检测模型；

3.2)Faster R-CNN在第一阶段最后卷积层输出的特征图上添加全卷积RPN，以密集分布的不同宽高比和尺寸的默认框为基准，生成高质量的感兴趣区域，在第二阶段，Fast R-CNN负责学习感兴趣区域特征并对其进行分类和位置调整，输出最终的预测结果；

4.1)从n个标注框中选取k个标注框作为聚类中心；

4.3)分别计算k个簇中所有框的长和宽平均值，并把该平均值选做新的k个聚类中心；

4.4)重复步骤4.2)-4.3)，直至loss不再降低；

4.5)将k个聚类中心的长和宽作为默认框参数；

5)处理模型检测结果步骤

5.1)先对模型检测结果使用非极大值抑制方法排除同类之间交并比大于50％的检测框，然后按分类信心降序排序后，输出前M个结果；

2.如权利要求1所述的基于深度学习的检测红脂大小蠹的方法，其特征在于：

3.如权利要求1所述的基于深度学习的检测红脂大小蠹的方法，其特征在于：

4.如权利要求1所述的基于深度学习的检测红脂大小蠹的方法，其特征在于：