CN111461036B - 一种利用背景建模增强数据的实时行人检测方法 - Google Patents
一种利用背景建模增强数据的实时行人检测方法 Download PDFInfo
- Publication number
- CN111461036B CN111461036B CN202010263248.2A CN202010263248A CN111461036B CN 111461036 B CN111461036 B CN 111461036B CN 202010263248 A CN202010263248 A CN 202010263248A CN 111461036 B CN111461036 B CN 111461036B
- Authority
- CN
- China
- Prior art keywords
- background
- pedestrians
- pedestrian
- convolution
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 111
- 230000003190 augmentative effect Effects 0.000 title 1
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000012544 monitoring process Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000002093 peripheral effect Effects 0.000 claims 2
- 238000005286 illumination Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 15
- 238000012360 testing method Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种利用背景建模增强数据的实时行人检测方法,首先利用监控数据的背景图片和含有行人的图片进行背景建模,并对含有行人的图片进行二值化处理,生成遮罩图;然后输入遮罩图和含有行人的图片,利用深度显著性检测网络生成显著图;将显著图转化为伪色彩图;最后建立检测网络,所述检测网络包括两个完全对称的子网A和B,以及最后的目标检测层,并对检测网络进行训练,将含有行人的图片和对应的伪色彩图分别输入到子网A和B,最后将子网A和B获得的结果图都输入到目标检测层,当损失值趋于不变时,停止训练;最后利用训练好的检测网络对待检测的行人图片进行检测。
Description
技术领域
本发明属于计算机视觉领域,尤其是行人检测领域,主要是利用背景建模和显著性检测技术增强数据,最终训练一个实时行人检测模型。
背景技术
行人检测是计算机视觉中一个非常重要的领域,同时也是许多智能装置的基础技术。行人检测在安防,智能交通,自动驾驶,轨迹追踪等领域都有着巨大的应用价值。
虽然行人检测也属于一种目标检测,但是与通用物体检测相比,行人存在多种姿态,多种尺度,相互遮挡等问题。在实际检测中目前主流的行人检测算法大多是在通用目标检测器的基础上针对“行人”这一具体检测对象加以优化。传统的检测方法主要利用了机器学习的算法。这些算法依赖于图像的HOG(Histograms of Oriented Gradient)特征,将特征送入支持向量机(SVM)对行人进行分级级联检测,如ICF,LDCF等。但是这些传统的,基于机器学习的检测算法,检测速度较慢且漏检率较高,模型的鲁棒性也比较差,难以用于实际的生产环境。近十年来,随着卷积深度神经网络模型的兴起,行人检测的准确率和速度都有了巨大的提升。文献《Is Faster R-CNN Doing Well for Pedestrian Detection?》提出采用faster r-cnn检测框架运用于行人检测,在检测准确率和检测速度上均取得了较好的效果,Sermanet等在《High-level Semantic Feature Detection:A New Perspective forPedestrian Detection》引入了多步无监督特征学习的方案使得模型对于特征提取的能力进一步增强,且检测器的锚点设计也更加符合行人检测的具体问题。近年来,也有不少研究者指出,提高行人检测的准确度关键是更加充分的利用图像的语义信息,特别是对于光照条件较差的场景。文献《Fusion of Multispectral Data Through Illumination-awareDeep Neural Networks for Pedestrian Detection》利用多光谱数据构建混合网络以此降低行人检测的漏检率(missing rate)。文献《Pedestrian Detection in ThermalImages using Saliency Maps》利用显著图增强原始检测图片,也大大降低了行人漏检率。
虽然一些方法利用多光谱数据可以在相当程度上提高模型的检测能力,但训练这些模型需要大量彩色图片和对应的显著图或红外图像,而由于设备限制等原因,多光谱数据往往难以获得,而获得显著图所需的大量精确至像素级别的遮罩图也需要耗费大量的人力手工标注。除了上述训练阶段存在的问题,在检测阶段,上述模型也无法达到实时检测的效果。
发明内容
本发明主要针对现有混合网络行人检测器的存在的问题:现有的图像增强或混合网络技术需要的多光谱训练集难以获取,部分数据需要大量手工标注的遮罩图,且训练的模型往往较大难以部署,检测实时性也无法保障。针对这些问题,本发明提出了一种首先利用背景建模和显著性检测网络获取显著图,之后经过处理的显著图与原始的检测图片共同输入一个混合网络,从而降低漏检率的模型。
本发明的技术方案为,一种利用背景建模增强数据的实时行人检测方法,包括以下步骤:
步骤1,利用监控数据的背景图片和含有行人的图片进行背景建模,并对含有行人的图片进行二值化处理,生成遮罩图;
步骤2,输入遮罩图和含有行人的图片,利用深度显著性检测网络生成显著图;
步骤3,将显著图转化为伪色彩图;
步骤4,建立检测网络,所述检测网络包括两个完全对称的子网A和B,以及最后的目标检测层,并对检测网络进行训练,将含有行人的图片和对应的伪色彩图分别输入到子网A和B,最后将子网A和B获得的结果图都输入到目标检测层,当损失值趋于不变时,停止训练,其中子网A和子网B包括并行的RBF模块和BasicRFB-a模块,具体处理过程如下,
首先通过预训练好的VGG16模型提取原始的彩色图片和对应的伪色彩图的特征图,其中VGG16的第4层经过两次卷积获得的特征图conv4_2送入BasicRFB_a模块,输出的结果送入到目标检测层,VGG16的第7层经过两次卷积获得的特征图conv7_2送入RFB模块,输出的结果也送入目标检测层;
对于RFB模块,首先利用1x1卷积来降低特征图的通道数,之后的结构为三个分支;
(1)继续进行3x3空洞卷积,空洞跨度为1;
(2)进行1x1卷积,之后进行3x3空洞卷积,空洞跨度为3;
(3)进行5x5卷积,之后进行3x3空洞卷积,空洞跨度为5;
3分支先进行拼接,再与VGG16提取的特征图conv4_2在批量归一化后的结果进行拼接,然后送入Relu激活层;
对于BasicRFB-a模块,首先利用1x1卷积来降低特征图的通道数,之后的结构为4个分支;
(1a)继续进行3x3空洞卷积,空洞跨度为1;
(2a)进行1x3卷积,之后进行3x3空洞卷积,空洞跨度为3;
(3a)进行3x1卷积,之后进行3x3空洞卷积,空洞跨度为3;
(4a)进行3x3卷积,之后进行3x3空洞卷积,空洞跨度为5;
4分支先进行拼接,再与VGG16提取的特征图conv7_2在批量归一化后的结果进行拼接,然后送入Relu激活层;
步骤5,利用训练好的检测网络对待检测的行人图片进行检测。
进一步的,步骤1的具体实现方式如下,
步骤1.1,数据准备,利用监控拍摄的含有行人的图片和光照条件相同的同一位置不含行人的背景图片,并对含有行人的部分进行矩形框标注;
步骤1.2,将不含有行人的背景图片与含有行人的目标图片,在含有行人的矩形框区域进行逐像素比较并计算欧氏距离,并根据欧式距离初步判断每个像素点属于行人或者背景;
步骤1.3,引入二维高斯分布密度函数来估计某像素点的位置为行人的概率,并结合步骤1.2中的欧氏距离构建一个损失函数;
步骤1.4,将行人像素点在矩形框中所占比重记为μ%,依次计算每个像素点的损失函数值,并降序排序,取前μ%的像素点判定为前景,其它像素点判定为背景;
步骤1.5,像素点纠正,若某点周围点全部为判定为前景,且该点不属于边缘区域,而该点判定为背景,则将其纠正为前景,最终获得前景区域和背景区域;
步骤1.6,二值化处理,将确定为背景区域的所有像素点全部调整成纯白色,背景区域的所有像素点调成纯黑色,生成遮罩图。
进一步的,步骤1.2的具体实现方式如下,
比较每两张图片对应位置像素点的RGB通道值,设背景图片和含有行人图片某个像素点P的R,G,B通道值分别为R1、G1、B1和R2、G2、B2,像素点分为两类,属于行人的部分PP和属于背景的部分Pb,
则P∈PP
否则P∈Pb
其中t为判别阈值。
进一步的,步骤1.3中引入二维高斯分布密度函数来估计某像素点的位置为行人的概率的具体实现方式如下,
其中i,j为像素点的坐标位置,x,y为矩形框中心点坐标,σw和σh为矩形框的宽度和长度的标准差。
进一步的,步骤1.3总的损失函数的表达式为,
其中,第一项为某一像素点与背景图片归一化的像素的欧式距离差,Dmax表示所有像素点与背景图片像素距离最大的值,a为一个确定权重的经验系数,实际上就是决定像素点距离中心的距离和与背景图片距离差值各自对损失函数的贡献。
进一步的,步骤1.5中存在同一个矩形框下有多个前景区域的情况,为了避免行人被割裂的情况,在进行二值化初处理前,先判断标注在同一个矩形框下的多个前景区域是否需要合并,具体实现方式如下,
将在一个矩形框内的多个前景区域进行两两遍历,从而判断是否合并,对于ti,tj∈T,T表示一个矩形框内的多个前景区域的集合,rate为矩形框宽度与高度的平均比,x,y为背景区域外接矩形的中心坐标位置,tk.width,tk.height分别为第k个背景区域的外接矩形的宽度和高度,tk.x,tk.y为第k个背景区域外接矩形的中心坐标,W,H为矩形框宽度和高度,Dr,Dr’为判断阈值;若ti,tj均满足
且
则合并两区域,具体合并方式为:将靠上的部分区域的外接矩形的左下点与靠下区域外接矩形的左上点相连,将靠上部分区域的外接矩形的右下点与靠下区域外接矩形的右上点相连,所围成的区域全部填判定为前景区域。
进一步的,步骤2中所述显著性检测网络采用的是PICA-net。
与现有技术相比,本发明具有如下优点和有益效果:
(1)在保证相当精度的前提下,整个网络的参数量较小,是一个轻型检测网络,便于移植部署。
(2)由于输入伪热图的部分提供了更丰富的语义信息,在昏暗或不良光照条件下该检测模型依然能保持较低的漏检率。
(3)与传统的背景建模相比,该方法并不依赖特定的背景环境,具有更强的普适性。
附图说明
图1为本发明实施例的检测流程图;
图2为本发明实施例采用的数据集示例说明,其中左边为没有行人的图片,右边为含有行人的图片;
图3为显著性检测网络的网络结构图;
图4为背景建模与显著检测网络结果模型对比,1为原始图片,2为利用背景建模初步产生的图片,3为利用PICA-net产生的显著图,4为像素级精确的ground truth;
图5为本发明实施例生成的伪色彩图;
图6为本发明实施例子网A和B的网络结构图。
具体实施方式
下面结合流程图(附图1)对本发明的技术方案的一些细节作进一步具体的说明。
步骤1,利用背景图片和含有行人的图片进行背景建模;
步骤1.1,数据集准备。一般来说行人识别、物体检测的训练集都是将训练图片中的行人用矩形框标注出来,并将相对位置信息输入训练网络,我们利用监控,拍摄含有行人的图片和光照条件基本相同的同一位置的不含行人的背景图片,含有行人的图片和背景图片大小相同,如图2所示。
步骤1.2,将不含有行人的背景图片与含有行人的目标图片,在含有行人的矩形框区域内进行逐像素比较,并计算欧氏距离,并根据欧式距离初步判断每个像素点属于行人或者背景;
具体的,比较每两张图片对应位置像素点的RGB通道值,设背景图片和含有行人图片某个像素点P的R,G,B通道值分别为R1、G1、B1和R2、G2、B2,像素点分为两类,属于行人的部分PP和属于背景的部分Pb,判别阈值为t(这里的阈值t没有固定的取值,实际操作时要根据图像不同的环境确定阈值)
则P∈PP
否则P∈Pb
步骤1.3,初始处理的图像许多不连续的部分,部分明显为前景(即行人)部分的像素点由于颜色与背景图片接近,被判定为背景,一些边缘部分被误判为“行人”。显然,像素点的归属与像素点在检测框中的相对位置有关,例如,中心部分几乎一定是属于行人的像素点。因此我们引入二维高斯分布密度函数来估计某像素点的位置为前景(行人)的概率,并结合前述中利用欧氏距离计算前景与背景的差异程度的方法构建一个损失函数。
引入二维正态分布来估计某一点属于行人的概率密度函数,这样,越靠近边缘位置的像素点被判定为行人的概率就越小,反之,越靠近中心点的像素点被判定为行人的概率就越大,
具体为:
其中i,j为该像素点P的坐标位置,x,y为步骤1.1中矩形框中心点坐标,σw和σh为矩形框的宽度和长度的标准差。除了考虑与背景的差异,相对位置分布对像素点归属的影响,由于行人各部分的形态大致差异不大,我们可以利用含有行人遮罩图的数据集精确至像素级别,实验中我们使用了Daimler数据集(已标定的数据集里面都是遮罩图(二值图像),行人部分为白色,背景为黑色,将数据集中的所有图片统一放缩至于背景图像相同大小后,统计不同图片中相同位置每个点判定为“行人”次数与Daimler数据集总图片数的比值,这样就能得到每个像素点在图片中归属于行人的频率W(i,j))。由此我们可以确定一个损失函数:
其中第一项为某一像素点与背景图片归一化的像素的欧式距离差,D表示像素点的欧氏距离,Dmax表示所有像素点与背景图片像素距离最大的值,具体表达见公式(1),a为一个确定权重的经验系数,实际上就是决定像素点距离中心的距离和与背景图片距离差值各自对损失函数的贡献,不同的背景环境下的α也不同。为了确定这一系数,我们利用了Daimler行人数据集,该数据集提供了精确到像素级别的行人遮罩图,我们将α从0到10,步长为0.01进行测试,比较最终每个像素判断正确的平均概率,最终确定α取2.20。
步骤1.4,利用精确至像素级别的行人标注,我们可以很容易计算出行人在标注的矩形框中所占的面积比例,这里只是阐述这一思想,实践时可以使用不同的数据集或自行标注的数据,将行人像素点在矩形框中所占比重在记为μ%,依次计算每个像素点的前述损失函数值,并降序排序,取前μ%的像素点判定为前景(行人)其它像素点判定为背景。
步骤1.5,为了使判定为“行人”(前景)的像素区域连续,如果某个像素点本身被误判为“背景”而周围全部像素点被判定为“行人”,且该点不是处于边缘位置,则该点也被判定为“行人”。具体的,在测试数据集上,我们利用一个3x3的卷积对图像的中心区域进行腐蚀处理。具体操作时,应根据图像的实际大小和噪声大小对卷积核的大小,腐蚀次数,中心区域的大小做适当调整。
若某点周围点全部为判定为行人,且该点不属于边缘区域,而该点判定为背景,则需要纠正为前景。即,我们要消除像素孤岛(周围像素点均被判定为前景的背景像素点)。具体的,所有周围都被“前景区域”包围且面积占比小于2%的区域都认定为前景区域,从而获得前景区域和背景区域。
步骤1.6,考虑到某些情况下一些行人的不同身体部位衣着颜色差异较大,被判定为“行人”的前景区域(如上身和腿部)可能出现完全割裂的情况,此时需要将两区域重新合并。而又考虑到部分行人矩形框重叠的问题,如由于距离导致的尺度差异可能使距离较远的行人矩形框完全处于距离较近行人的检测框内,此时则不需要将两区域合并。经过前述步骤处理的图片都是较大块的连续区域,不存在较小的噪声点,判断各个前景区域是否需要合并的具体方式如下:
将在一个矩形框内的多个前景区域进行两两遍历元素是否可以合并,如对于ti,tj∈T,T表示一个矩形框内的多个前景区域的集合,rate为矩形框宽度与高度的平均比。x,y为背景区域外接矩形的中心坐标位置。tk.width,tk.height分别为第k个背景区域的外接矩形的宽度和高度,tk.x,tk.y为第k个背景区域外接矩形的中心坐标。W,H为矩形框宽度和高度,Dr,Dr’为判断阈值,可根据具体情况确定。
若ti,tj均满足
且
则合并两区域,具体合并方式为:将靠上的部分区域的外接矩形的左下点与靠下区域外接矩形的左上点相连,将靠上部分区域的外接矩形的右下点与靠下区域外接矩形的右上点相连,所围成的区域全部填判定为前景(行人)。
即如果两区域基本处于上下的位置关系,中心点左右相对偏移不大,且各自宽高比都不符合一般行人的尺度比例,而合并后符合行人尺度比例,则合并两区域,否则不合并,依然判断为两个行人。
步骤1.7,二值化处理,将确定为行人的像素点全部调整成纯白色(即R,G,B均为255),背景区域调成纯黑色(即R,G,B均为0),生成遮罩图。
步骤2,训练显著性检测网络。该网络可以将行人(前景)从背景中标识出来。该网络模型的训练过程为,输入遮罩图和原始图片彩色图片,我们将原始的行人图片作为显著性监测网络的输入,前述步骤生成的遮罩图的作为训练目标(如图3),进行训练,即让这个网络来“学习”行人的大致形状。
利用步骤1中背景建模生成的遮罩图训练一个显著性检测网络。利用步骤1中背景建模生成的遮罩图训练一个显著性检测网络。在实验中我们使用了PICA-net(PiCANet:Learning Pixel-wise Contextual Attention for Saliency Detection)。该网络的结构与大部分语义分割网络类似,大致分为两部分,即基于CNN为编码器-解码器架构。(见图3)。该网络结构对于每个像素生成一个关注图,其中每个注意权重对应于每个对象的上下文相关性。通过有选择地聚合上下文信息来构建一个全局的关注度,该关注度就是每个像素点的“显著性”。我们将背景建模的结果与显著性检测网络生成的结果对比,验证显著性检测网络的有效性(见图4)。
步骤3,将显著性图转化为伪色彩图(如图5),热力图(heatmap)一般是指利用热成像相机拍摄的反应拍摄物体温度的图片,伪“热图”又称伪色彩图,是指将灰度图(显著图)与彩色图建立映射关系。
步骤4,建立检测网络,所述检测网络包括两个完全对称的子网A和B,以及最后的目标检测层,并对检测网络进行训练,将含有行人的图片和对应的伪色彩图分别输入到子网A和B,最后将子网A和B获得的结果图都输入到目标检测层,当损失值趋于不变时,停止训练。
在训练模型时,子网A的输入为预标注含有行人的彩色图,子网B的输入为对应的伪“热图”。由于利用显著性检测网络由彩色图生成伪“热图”的过程要花费较长时间,在不损失过高的检测精度的前提下,为了保证实时性,在检测行人时,两个子网络的输入均为原始的含有行人的彩色检测图。
具体的,子网A和子网B包括并行的RBF模块和BasicRFB-a模块,具体处理过程如下;
对于每个子检测网络A和B,前半部分利用在ILSVRC CLS-LOC上的预训练模型VGG16检测网络来提取图像的特征图。具体的,VGG16的第4层经过两次卷积获得的特征图conv4_2送入BasicRFB_a模块,之后送入检测层,VGG16的第7层经过两次卷积获得的特征图cov7_2送入RFB模块,输出的结果也送入检测层。
对于子检测网络A和B的后半部分,我们利用两个具有完全相同结构的检测网络进行进一步卷积处理,最后送入目标检测层。目标检测层(detection out layer)与ssd(Single Shot MultiBox Detector)结构保持一致,用于整合预选框、预选框偏移以及得分三项结果,最终输出满足条件的目标检测框、目标的得分和目标的类别,此处仅有行人和背景两种。需要特别指出的是,网络的输入是成对的图像(伪彩色图和原始检测图片),而由于结构限制,PICA-net输出的伪色彩图具有固定尺寸(224x224),而检测网络的输入尺寸为300x300。所以需要将原始的彩色图片和“伪彩图”统一调整大小为300x300。输入网络前将前端部分的RFB是一个多分支的conv block,利用不同尺度的卷积核来获取不同尺度的感受野,将产生的多个分支统一池化。RFB和BasicRFB-a模块的具体结构如下(见图6):
对于RFB模块,首先利用1x1卷积来降低特征图的通道数,之后的结构为三个分支;
(1)继续进行3x3空洞卷积,空洞跨度为1;
(2)进行1x1卷积,之后进行3x3空洞卷积,空洞跨度为3;
(3)进行5x5卷积,之后进行3x3空洞卷积,空洞跨度为5;
3分支先进行拼接,再与VGG16提取的特征图在批量归一化(Batchnorm)后的结果进行拼接,然后送入Relu激活函数层。
对于BasicRFB-a模块,与RFB模块一致,首先利用1x1卷积来降低特征图的通道数,之后的结构为4个分支。
(1)继续进行3x3空洞卷积,空洞跨度为1;
(2)进行1x3卷积,之后进行3x3空洞卷积,空洞跨度为3;
(3)进行3x1卷积,之后进行3x3空洞卷积,空洞跨度为3;
(4)进行3x3卷积,之后进行3x3空洞卷积,空洞跨度为5;
4分支先进行拼接,再与VGG16提取的特征图在批量归一化(Batchnorm)后的结果进行拼接,然后送入Relu激活函数层。
步骤4.1,首先对前述步骤中包含行人的彩色图和伪彩图的训练集进行数据增强(翻转,对称等)。对检测网络模型进行训练时,由于我们的检测网络模型是从头开始训练的,为了更快的是模型收敛,在预热阶段(前十个epochs)我们将学习率调整为0.01,后续减少至0.00001。损失函数与原SSD检测网络保持一致,当损失值基本趋于不变时,停止训练。
步骤4.2,对训练的好的检测网络模型在测试集上进行测试,与现有的RFB-net相比,本发明提出的检测网络模型大大降低了漏检率(相较于RFB-net在相同的数据集上漏检率从50.9%下降到16.2%)。
本发明所述的实例是说明性的,而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (5)
1.一种利用背景建模增强数据的实时行人检测方法,其特征在于:包括以下步骤,
步骤1,利用监控数据的背景图片和含有行人的图片进行背景建模,并对含有行人的图片进行二值化处理,生成遮罩图;
步骤1的具体实现方式如下,
步骤1.1,数据准备,利用监控拍摄的含有行人的图片和光照条件相同的同一位置不含行人的背景图片,并对含有行人的部分进行矩形框标注,其中含有行人的图片和背景图片大小相同;
步骤1.2,将不含有行人的背景图片与含有行人的目标图片,在含有行人的矩形框区域进行逐像素比较并计算欧氏距离,并根据欧氏距离初步判断每个像素点属于行人或者背景;
步骤1.3,引入二维高斯分布密度函数来估计某像素点的位置为行人的概率,并结合步骤1.2中的欧氏距离构建一个损失函数;
步骤1.4,将行人像素点在矩形框中所占比重记为μ%,依次计算每个像素点的损失函数值,并降序排序,取前μ%的像素点判定为前景,其它像素点判定为背景;
步骤1.5,像素点纠正,若某点周围点全部为判定为前景,且该点不属于边缘区域,而该点判定为背景,则将其纠正为前景,最终获得前景区域和背景区域;
步骤1.5中存在同一个矩形框下有多个前景区域的情况,为了避免行人被割裂的情况,在进行二值化处理前,先判断标注在同一个矩形框下的多个前景区域是否需要合并,具体实现方式如下,
将在一个矩形框内的多个前景区域进行两两遍历元素,从而判断是否合并,对于ti,tj∈T,T表示一个矩形框内的多个前景区域的集合,rate为矩形框宽度与高度的平均比,x,y为背景区域外接矩形的中心坐标位置,tk.width,tk.height分别为第k个背景区域的外接矩形的宽度和高度,tk.x,tk.y为第k个背景区域外接矩形的中心坐标,W,H为矩形框宽度和高度,Dr,Dr’为判断阈值;若ti,tj均满足
且
则合并两区域,具体合并方式为:将靠上的部分区域的外接矩形的左下点与靠下区域外接矩形的左上点相连,将靠上部分区域的外接矩形的右下点与靠下区域外接矩形的右上点相连,所围成的区域全部填判定为前景区域;
步骤1.6,二值化处理,将确定为背景区域的所有像素点全部调整成纯白色,背景区域的所有像素点调成纯黑色,生成遮罩图;
步骤2,输入遮罩图和含有行人的图片,利用深度显著性检测网络生成显著图;
步骤3,将显著图转化为伪色彩图;
步骤4,建立检测网络,所述检测网络包括两个完全对称的子网A和B,以及最后的目标检测层,并对检测网络进行训练,将含有行人的图片和对应的伪色彩图分别输入到子网A和B,最后将子网A和B获得的结果图都输入到目标检测层,当损失值趋于不变时,停止训练,其中子网A和子网B包括并行的RFB模块和BasicRFB-a模块,具体处理过程如下,
首先通过预训练好的VGG16模型提取原始的彩色图片和对应的伪色彩图的特征图,其中VGG16的第4层经过两次卷积获得的特征图conv4_2送入BasicRFB_a模块,输出的结果送入到目标检测层,VGG16的第7层经过两次卷积获得的特征图conv7_2送入RFB模块,输出的结果也送入目标检测层;
对于RFB模块,首先利用1x1卷积来降低特征图的通道数,之后的结构为三个分支;
(1)继续进行3x3空洞卷积,空洞跨度为1;
(2)进行1x1卷积,之后进行3x3空洞卷积,空洞跨度为3;
(3)进行5x5卷积,之后进行3x3空洞卷积,空洞跨度为5;
3分支先进行拼接,再与VGG16提取的特征图conv4_2在批量归一化后的结果进行拼接,然后送入Relu激活层;
对于BasicRFB-a模块,首先利用1x1卷积来降低特征图的通道数,之后的结构为4个分支;
(1a)继续进行3x3空洞卷积,空洞跨度为1;
(2a)进行1x3卷积,之后进行3x3空洞卷积,空洞跨度为3;
(3a)进行3x1卷积,之后进行3x3空洞卷积,空洞跨度为3;
(4a)进行3x3卷积,之后进行3x3空洞卷积,空洞跨度为5;
4分支先进行拼接,再与VGG16提取的特征图covn7_2在批量归一化后的结果进行拼接,然后送入Relu激活层;
步骤5,利用训练好的检测网络对待检测的行人图片进行检测。
5.根据权利要求1所述的一种利用背景建模增强数据的实时行人检测方法,其特征在于:步骤2中所述显著性检测网络采用的是PICA-net。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010263248.2A CN111461036B (zh) | 2020-04-07 | 2020-04-07 | 一种利用背景建模增强数据的实时行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010263248.2A CN111461036B (zh) | 2020-04-07 | 2020-04-07 | 一种利用背景建模增强数据的实时行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461036A CN111461036A (zh) | 2020-07-28 |
CN111461036B true CN111461036B (zh) | 2022-07-05 |
Family
ID=71685893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010263248.2A Active CN111461036B (zh) | 2020-04-07 | 2020-04-07 | 一种利用背景建模增强数据的实时行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461036B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084874B (zh) * | 2020-08-11 | 2023-12-29 | 深圳市优必选科技股份有限公司 | 一种物体检测方法、装置及终端设备 |
CN112308114A (zh) * | 2020-09-24 | 2021-02-02 | 赣州好朋友科技有限公司 | 白钨矿的分选方法、装置和可读存储介质 |
CN112785582B (zh) * | 2021-01-29 | 2024-03-22 | 北京百度网讯科技有限公司 | 热力图生成模型的训练方法、装置、电子设备和存储介质 |
CN112907616B (zh) * | 2021-04-27 | 2022-05-03 | 浙江大学 | 一种基于热成像背景滤除的行人检测方法 |
CN114724081B (zh) * | 2022-04-01 | 2025-05-27 | 浙江工业大学 | 计数图辅助的跨模态人流监控方法和系统 |
CN114926787A (zh) * | 2022-06-28 | 2022-08-19 | 山东信通电子股份有限公司 | 一种输电线路下地膜破损检测方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136511A (zh) * | 2013-01-21 | 2013-06-05 | 信帧电子技术(北京)有限公司 | 行为检测方法及装置 |
CN103530879A (zh) * | 2013-10-15 | 2014-01-22 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 特定场景下的行人颜色提取方法 |
CN103700114A (zh) * | 2012-09-27 | 2014-04-02 | 中国航天科工集团第二研究院二O七所 | 一种基于可变高斯混合数的复杂背景建模方法 |
CN105139368A (zh) * | 2015-08-12 | 2015-12-09 | 旗瀚科技股份有限公司 | 一种可用于机器视觉的混合型色调映射方法 |
CN105550678A (zh) * | 2016-02-03 | 2016-05-04 | 武汉大学 | 基于全局显著边缘区域的人体动作特征提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101518485B1 (ko) * | 2013-11-29 | 2015-05-11 | 김홍기 | 지능형 객체 추적 시스템 |
-
2020
- 2020-04-07 CN CN202010263248.2A patent/CN111461036B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103700114A (zh) * | 2012-09-27 | 2014-04-02 | 中国航天科工集团第二研究院二O七所 | 一种基于可变高斯混合数的复杂背景建模方法 |
CN103136511A (zh) * | 2013-01-21 | 2013-06-05 | 信帧电子技术(北京)有限公司 | 行为检测方法及装置 |
CN103530879A (zh) * | 2013-10-15 | 2014-01-22 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 特定场景下的行人颜色提取方法 |
CN105139368A (zh) * | 2015-08-12 | 2015-12-09 | 旗瀚科技股份有限公司 | 一种可用于机器视觉的混合型色调映射方法 |
CN105550678A (zh) * | 2016-02-03 | 2016-05-04 | 武汉大学 | 基于全局显著边缘区域的人体动作特征提取方法 |
Non-Patent Citations (4)
Title |
---|
GPOL: Gradient and Probabilistic approach for Object Localization to understand the working of CNNs;Sarthak Gupta等;《2019 IEEE Bombay Section Signature Conference (IBSSC)》;20200130;第1-6页 * |
Receptive Field Block Net for Accurate and Fast Object Detection;Songtao Liu等;《15th European Conference on Computer Vision (ECCV)》;20180930;第409-411页 * |
基于感受野的快速小目标检测算法;王伟锋 等;《激光与光电子学进展》;20190709;第250-255页 * |
视觉注意机制下结合语义特征的行人检测;黎宁 等;《中国图象图形学报》;20160630;第21卷(第06期);第725-728页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111461036A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461036B (zh) | 一种利用背景建模增强数据的实时行人检测方法 | |
CN113160192B (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
Wei et al. | Enhanced object detection with deep convolutional neural networks for advanced driving assistance | |
CN109543606B (zh) | 一种加入注意力机制的人脸识别方法 | |
CN112784869B (zh) | 一种基于注意力感知与对抗学习的细粒度图像识别方法 | |
CN110909690B (zh) | 一种基于区域生成的遮挡人脸图像检测方法 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN104268583B (zh) | 基于颜色区域特征的行人重识别方法及系统 | |
CN111178161B (zh) | 一种基于fcos的车辆追踪方法及系统 | |
Lu et al. | A cross-scale and illumination invariance-based model for robust object detection in traffic surveillance scenarios | |
CN113095263B (zh) | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 | |
CN104778453B (zh) | 一种基于红外行人亮度统计特征的夜间行人检测方法 | |
CN114926456B (zh) | 一种半自动标注和改进深度学习的铁轨异物检测方法 | |
CN108108746A (zh) | 基于Caffe深度学习框架的车牌字符识别方法 | |
CN107316031A (zh) | 用于行人重识别的图像特征提取方法 | |
CN109508675B (zh) | 一种针对复杂场景的行人检测方法 | |
CN110378297A (zh) | 一种基于深度学习的遥感图像目标检测方法 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN104751142A (zh) | 一种基于笔划特征的自然场景文本检测算法 | |
CN108537782A (zh) | 一种基于轮廓提取的建筑物图像匹配与融合的方法 | |
CN107038416A (zh) | 一种基于二值图像改进型hog特征的行人检测方法 | |
CN113361466A (zh) | 一种基于多模态交叉指导学习的多光谱目标检测方法 | |
CN106886778A (zh) | 一种监控场景下车牌字符分割与识别方法 | |
CN105825168A (zh) | 一种基于s-tld的川金丝猴面部检测和追踪算法 | |
CN109840498B (zh) | 一种实时行人检测方法及神经网络、目标检测层 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |