CN111027493A - 一种基于深度学习多网络软融合的行人检测方法 - Google Patents
一种基于深度学习多网络软融合的行人检测方法 Download PDFInfo
- Publication number
- CN111027493A CN111027493A CN201911284456.4A CN201911284456A CN111027493A CN 111027493 A CN111027493 A CN 111027493A CN 201911284456 A CN201911284456 A CN 201911284456A CN 111027493 A CN111027493 A CN 111027493A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- pedestrian candidate
- image
- semantic segmentation
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习多网络软融合的行人检测方法,涉及图像处理、目标检测及深度学习技术领域;其包括S1:输入待处理图像;S2:将待处理图像输入一个以Darknet‑53为基础网络的YOLO v3行人候选区生成器中,生成行人候选区;S3:将待处理图像输入前端预测模块,输出C个特征图;S4:将C个特征图输入语义分割系统,输出C个包含上下文信息的特征图;S5:将语义分割系统的结果与行人候选区生成器产生的行人候选结果进行融合;S6:输出检测图像。本发明并行软融合行人候选区生成器和语义分割两个系统,高效地检测各种挑战场景下的行人,同时提高了对小目标的检测能力。
Description
技术领域
本发明涉及图像处理、目标检测及深度学习技术领域,尤其是一种基于深度学习多网络软 融合的行人检测方法。
背景技术
目标检测是计算机视觉中一个重要的问题,其需要在视频或数字图像中检测对象的位置。 目标检测广泛应用于图像检测、目标识别、视频监控等领域。行人检测作为目标检测问题的 一个分支,涉及到检测特定的人类类别,其在自动驾驶、人员识别、机器人等领域有着广泛 的应用。
行人检测算法的目标是在图像或视频中绘制边界框,实时准确描述出行人的位置。然而, 由于准确性和速度之间的权衡,这是很难实现的。因为低分辨率的输入可以实现快速的目标 检测,但目标检测精确度较差;高分辨率的输入可以实现更精确的目标检测,但处理速度较 慢。当处理相对简单的图像场景和清晰的前景物体时,一般行人检测算法己经可以取得良好 的结果。但是当在一些特定的环境下,如拥挤的场景、非人为的物体遮挡、行人的不同外观 (不同的姿势或服装风格)实时准确描述行人的位置更具有挑战性。
行人检测的主要可以分为生成区域提议、特征提取和行人确认三部分。传统的方法通常 使用基于滑动窗口的技术来生成区域提议,梯度方向直方图(HOG)或尺度不变特征变换(SIFT) 等作为特征提取器,支持向量机(SVM)或自适应增强(AdBoost)等作为行人确认方法;而随着 深度学习的发展,其在行人检测中的应用也越来越多,主流方法分为两类:基于对象候选区 域(Object Proposal Based)的方法和基于回归(Regression Based)的方法。基于对象候选区域的方 法也称为二阶方法,其首先通过使用区域提议(RegionProposal)模块生成一组可能包含行人的 候选边界框(Bounding Box),然后使用深度卷积神经网络对这些边界框进行分类和回归。在各 种基于对象候选区域的行人检测方法中,主要是基于RCNN,Fast RCNN,Faster RCNN系列 进行改进提升检测性能。基于回归的目标检测方法又称为一阶方法,和基于目标候选区域的 方法相比,基于回归的行人检测方法要简单许多,其不需要进行候选区域提取和随后的重采 样操作,同时在一定程度上可以实现实时检测,但是其检测性能低于二阶方法。在各种基于 回归的行人检测方法中,主要是基于YOLO系列,SSD系列进行改进尽可能提升检测性能, 实现实时高效的检测。
发明内容
本发明的目的在于:本发明提供了一种基于深度学习多网络软融合的行人检测方法,克 服现有方法在面对行人检测准确性和速度之间的权衡下不能实现实时准确描述出行人位置的 问题,在实现实时检测情况下能够提高检测能力。
本发明采用的技术方案如下:
一种基于深度学习多网络软融合的行人检测方法,包括如下步骤:
步骤1:输入待处理图像;
步骤2:将步骤1中的图像输入一个以Darknet-53为基础网络的YOLO v3行人候选区生 成器中,生成行人候选区;
步骤3:将步骤1中的图像输入前端预测模块,输出C个特征图;
步骤4:将步骤3中的C个特征图输入语义分割系统,输出C个包含上下文信息的二进 制掩码特征图;
步骤5:将语义分割系统的结果与行人候选区生成器产生的行人候选结果进行软融合;
步骤6:输出检测图像。
优选地,所述步骤2包括如下步骤:
步骤2.1、将输入图片划分为S×S个单元格,为每个单元格分配3个需要预测的行人候 选区边界框,对YOLO v3进行训练,以获得每一个预测的行人候选区边界框所对应的坐标位 置信息和置信度;
步骤2.2、在YOLOv3网络中融合3个尺度,在多个尺度的融合特征图上分别对行人独立 做检测,得到行人候选区的坐标位置信息;
其次,利用K均值聚类算法对数据集聚类产生锚框的初始值,每个尺度下分配3个锚框, 由于每个单元格预测3个行人候选区边界框,对应3个锚框,因此3个尺度下共9个锚框;
每个单元格输出(1+4+C)*3个值,4代表4个预测的定位信息、1代表1个置信度得分、 3代表3个锚框和C代表C个条件类别概率,这里C=1,只有行人一类,所以共输出18个值;
采用逻辑回归对每个行人候选区的边界框坐标位置信息进行预测:
bx=σ(tx)+cx
by=σ(ty)+cy
其中:σ是Sigmoid激活函数,(tx,ty,tw,th)为YOLO v3网络学习的4个预测的定位信息,pw, ph是预设先验框的宽、高,cx,cy为单元格的坐标偏移量,(bx,by,bw,bh)为最终预测的行人候 选区边界框的坐标位置信息;
YOLO v3训练(tx,ty,tw,th)的目标损失函数由以下公式得到:
其中:λcoord和λnoobj为常数是用来平衡有物体的预测框与没有物体预测框的类别比例;t'x、t'y、 t'w和t'h表示标签数值;表示在第i个格点的第j个预测框,若对应的真正的对象(ground truth),则返回1,否则返回0;表示在第i个格点的第j个预测框,若有分配对应的ground truth,则返回0,否则返回1,pi(c)为物体类别的概率,这里指是行人的概率,ci'为包含一个 对象的概率与预测边界框和标签边界框交集IOU的乘积即ci为预测边界框 与标签边界框的交集IOU值即置信度;
步骤2.3、在YOLO v3训练过程中,增加YOLO v3原网络中的置信度接收范围即降低检 测行人候选区的置信度阈值,生成大量的行人候选区,确保候选区覆盖待检测图像中所有的 行人;其训练参数的具体设置如下:初始学习率设置为0.001,40000个batch之后,学习率 缩小为原来的1/10,即变为0.0001,45000个batch之后,学习率继续衰减,减小到0.00001, 共50000个batch。
优选地,所述步骤3包括如下步骤:
步骤3.1、对VGG-16网络进行修改,将其中完全连接层转换成卷积层,删除VGG-16网 络结构中倒数第二个和倒数第三个最大池化(Maxpool)和跨行层,从而得到前端预测模块, 并使用原始分类网络的参数进行初始化训练后,输出更高分辨率的特征图;
步骤3.2、使用前端预测模块,待检测图像进行密集的预测,生成C个64×64初步的语 义特征图。
优选地,所述步骤4包括如下步骤:
步骤4.1、利用聚合多尺度上下文信息构建语义分割系统,语义分割系统的输入为前端预 测模块生成的C个64×64初步语义特征图,语义分割系统共8层网络,前7层为基本的聚 合多尺度上下文信息模块,对前7层分别应用不同扩张因子的3×3×C扩张卷积核进行特征 提取,其中第1层上是直接进行卷积,第2到6层是分别使用不同的扩张因子进行扩张卷积, 第7层直接进行卷积。每次卷积后都进行点截断max(·,0),以截断超出图像的部分,保持卷 积前后图像大小相同。最后一层即第8层执行1×1的卷积。最后对语义分割系统进行训练, 以使语义分割系统输出C个64×64精炼的语义特征图。
步骤4.2、扩张卷积聚合多尺度上下文信息,支持以指数方式扩展感受野,而不会丢失分 辨率或覆盖率。其扩张区域的大小为(2i+2-1)×(2i+2-1),扩张因子为2i,感受野的大小为 ((2i+2-1)-(2i+1-2))×((2i+2-1)-(2i+1-2)),i=0,1,...,n-2表示第几次扩张;扩张过程中,当感 受野的大小基本与输入大小一致时,即停止扩张,因此第2到6层的扩张因子大小分别为1、 2、4、8和16,扩张后的感受野大小分别是5*5、9*9、17*17、33*33和65*65。
步骤4.3、将语义分割系统和步骤3中的前端预测模块联合在Cityscapes数据集上进行训 练,将Cityscapes数据集中的“person”和“rider”类都设置为行人,其余类都是背景。训练 参数具体设置如下:采用随机梯度下降法(SGD),最小批量为14,初始学习率设置为0.001, 40000个batch之后,学习率缩小为原来的1/10,即变为0.0001,45000个batch之后,学习 率继续衰减,减小到0.00001,共60000个batch。
优选地,所述步骤5的具体步骤为:
步骤5.1、将步骤4的语义特征图生成二进制掩码特征图,其中前景像素设置为1以表示 感兴趣的类别(如行人),背景像素设置为0。
步骤5.2、将步骤2中行人候选区生成器生成的行人候选区边界框(bx,by,bw,bh)坐标位置 信息映射到二进制掩码特征图上,得到二进制掩码特征图上的行人候选区边界框;缩放所有 二进制掩码特征图上的行人候选区边界框,使其具有与行人核相同的大小;
步骤5.3、使用软融合比例因子对二进制掩码特征图上的行人候选区边界框内的像素和行 人核进行加权和计算,其计算方式如下:
SResult=SYOLOv3×Sss
其中:Sss表示该语义分割系统输出的语义分割特征图结果是行人的得分;SYOLOv3表示行人候 选区生成器输出行人候选区结果是行人的得分;SResult表示最终输出结果是行人的得分;ABB是 边界框的面积;掩模mask(i,j)是在图像中(i,j)处的二进制掩码像素值;核Kernel(i,j)是在图 像中(i,j)处的行人核。Kernel中心的像素值往往比边界处的像素值高,这与感兴趣的对象在 边界框的中心相一致,Kernel有增强检测的效果,它的边界框适合感兴趣的对象(如,行人)。
步骤5.4、根据SResult得分高低,去除步骤2中行人候选区中错检行人的边界框,最终得到 真正的行人检测框。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明由于利用YOLOv3作为行人候选区生成器产生大量的行人候选框有效提高了行 人的检测精度;
2.本发明利用前端预测模块和语义分割对输入图像进行像素级的分类,避免了YOLOv3 等回归框网络的粗略检测问题,从而提高了目标检测的能力,可有效地解决单一网络检测精 度不够的问题;
3.本发明利用软融合对行人候选框和语义分割二值掩模进行融合,从而精细输出结果;同 时,二者的组合使用,提升了对小目标的检测能力,可适用范围更广;
4.本发明将行人候选区生成器和语义分割两个系统进行并行组网构成行人检测系统框架, 从而实现快速检测;该系统能够准确、高效、鲁棒地检测各种挑战场景下的行人和其他目标 类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简 单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的 限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图 获得其他相关的附图。
图1为本发明的行人检测系统流程图;
图2为本发明图1中行人候选生成器YOLOv3网络结构;
图3为本发明图2中的Bounding Box坐标转换公式图;
图4为本发明图1中前端预测模块基础网络VGG-16网络结构;
图5为本发明图1中语义分割系统中第0次扩张的卷积结构;
图6为本发明图1中语义分割系统中第1次扩张的卷积结构;
图7为本发明图1中软融合的结果图;
图8为本发明图1中语义分割系统中上下文网络体系结构。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发 明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用 于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通 常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本 发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员 在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与 另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际 的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含, 从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有 明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没 有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、 方法、物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
一种基于深度学习多网络软融合的行人检测方法,实施方式的流程图如图1所示,由行 人候选区提取和行人语义分割两个并行运算部分组成,其中语义分割细化整个系统的最终行 人检测结果,系统运算速度取决于处理慢的分支,最后通过软融合的方式将两部分结果进行 融合输出。具体包括如下步骤:
步骤1:输入待处理图像。
步骤2:将步骤1中的图像输入一个以图2的Darknet-53为基础网络的YOLOv3行人候 选区生成器中,生成行人候选区。
进一步,所述步骤2中的YOLOv3具体实施步骤如下:
步骤2.1、首先,在YOLOv3网络中融合3个尺度(13*13、26*26和52*52),在多个尺度的融合特征图上分别独立做检测,增强对小目标的检测效果。其次,利用K-means聚类算法对数据集聚类产生Anchor Box(锚框)的初始值,每个尺度下分配3个Anchor Box,每个单元格预测3个Bounding Box(边界框),对应3个Anchor Box,每个单元格输出(1+4+C)*3个值(4个定位信息、1个置信度得分和C个条件类别概率)。最后,经过如下公式对4维位置 数值tx,ty,tw,th进行解码,如图3所示,得到预测框的中心点坐标(x,y)与宽高(w,h):
bx=σ(tx)+cx
by=σ(ty)+cy
其中:σ(tx),σ(ty)是基于矩形框中心点左上角格点坐标的偏移量,σ是Sigmoid激活函数, pw,ph是先验框的宽、高,通过上述公式,计算出实际预测框的宽高bw,bh。
YOLO v3的多任务训练目标损失函数由以下公式得到:
其中:λ用来平衡有物体的预测框与没有物体预测框的类别比例;t'x、t'y、t'w和t'h表示标签数 值;表示在第i个格点的第j个预测框,若对应的ground truth,则返回1,否则返回0; 表示在第i个格点的第j个预测框,若有分配对应的ground truth,则返回0,否则返回1。
步骤2.2、利用每个行人候选区都是与其定位框坐标和置信度评分相关联的特点,首先降 低YOLO v3检测候选区的置信度阈值,然后生成大量的候选区,最终检测所有真正的行人。
步骤2.3、首先,加载在ImageNet上训练得到的预训练摸型Darknet-53,删除原始分类 器,接着,在Cityscapes数据集上进行微调训练,训练过程中使用Adam优化器,训练模型 时,采用水平翻转、调整角度、曝光度、色调及饱和度等数据增强的方式来扩大模型训练样 本,增强模型的泛化性能,降低过拟合。初始学习率设置为0.001,40000个batch之后,学习率缩小为原来的1/10,即变为0.0001,45000个batch之后,学习率继续衰减,减小到0.00001。
步骤3:将步骤1中的图像输入前端预测模块,输出C个特征图。
进一步,所述步骤3的具体步骤如下:
步骤3.1、将VGG-16中完全连接层转换成卷积层,删除VGG-16网络结构中倒数第二个 和倒数第三个Maxpool和跨行层。具体地,Maxpool层和跨行层中的每一层都被移除,对于 每个被删除的层,其后所有层中的卷积都被放大2倍,且后面的所有层中的卷积对于每个被 删除的层都被放大了2倍。因此,在两个删除层之后的最终层中的卷积被扩大了4倍,并使 用原始分类网络的参数进行初始化,产生更高分辨率的输出。最后以64×64的分辨率生成特 征图。
步骤3.2、对图4中的VGG-16网络结构进行调整得到前端预测模块,以进行密集的预 测。
步骤4:将步骤3中的C个特征图输入语义分割系统,输出C个包含上下文信息的特征 图。
进一步,所述步骤4的具体步骤如下:
步骤4.1、利用聚合多尺度上下文信息构建语义分割系统,语义分割系统的输入为前端预 测模块生成的C个64×64初步语义特征图,语义分割系统共8层网络,其网络结构形式如 图8所示,前7层为基本的聚合多尺度上下文信息模块,对前7层分别应用不同扩张因子的 3×3×C扩张卷积核进行特征提取,其中第1层上是直接进行卷积,第2到6层是分别使用 不同的扩张因子进行扩张卷积,第7层直接进行卷积。每次卷积后都进行点截断 max(·,0),以截断超出图像的部分,保持卷积前后图像大小相同。最后一层即第8层执行 1×1的卷积。最后对语义分割系统进行训练,以使语义分割系统输出C个64×64精炼的语 义特征图。
步骤4.2、扩张卷积聚合多尺度上下文信息,如图4和5所示,支持以指数方式扩展感受 野,而不会丢失分辨率或覆盖率。其扩张区域的大小为(2i+2-1)×(2i+2-1),扩张因子为2i,感 受野的大小为((2i+2-1)-(2i+1-2))×((2i+2-1)-(2i+1-2)),i=0,1,...,n-2表示第几次扩张;扩张 过程中,当感受野的大小基本与输入大小一致时,即停止扩张,因此第2到6层的扩张因子 大小分别为1、2、4、8和16,扩张后的感受野大小分别是5*5、9*9、17*17、33*33和65*65。
步骤4.3、将语义分割系统和步骤3中的前端预测模块联合在Cityscapes数据集上进行训 练,将Cityscapes数据集中的“person”和“rider”类都设置为行人,其余类都是背景。训练 参数具体设置如下:采用随机梯度下降法(SGD),最小批量为14,初始学习率设置为0.001, 40000个batch之后,学习率缩小为原来的1/10,即变为0.0001,45000个batch之后,学习 率继续衰减,减小到0.00001,共60000个batch。步骤5:将语义分割系统的结果与行人候选 区生成器产生的行人候选结果进行融合。
进一步,所述步骤5的具体步骤如下:
步骤5.1、将步骤4的语义特征图生成二进制掩码特征图,其中前景像素设置为1以表示 感兴趣的类别(如行人),背景像素设置为0。
步骤5.2、将步骤2中行人候选区生成器生成的行人候选区边界框(bx,by,bw,bh)坐标位置 信息映射到二进制掩码特征图上,得到二进制掩码特征图上的行人候选区边界框;缩放所有 二进制掩码特征图上的行人候选区边界框,使其具有与行人核相同的大小;
步骤5.3、使用软融合比例因子对二进制掩码特征图上的行人候选区边界框内的像素和行 人核进行加权和计算,其计算方式如下:
SResult=SYOLOv3×Sss
其中:Sss表示该语义分割系统输出的语义分割特征图结果是行人的得分;SYOLOv3表示行人候 选区生成器输出行人候选区结果是行人的得分;SResult表示最终输出结果是行人的得分;ABB是 边界框的面积;掩模mask(i,j)是在图像中(i,j)处的二进制掩码像素值;核Kernel(i,j)是在图 像中(i,j)处的行人核。Kernel中心的像素值往往比边界处的像素值高,这与感兴趣的对象在 边界框的中心相一致,Kernel有增强检测的效果,它的边界框适合感兴趣的对象(如,行人)。
步骤5.4、根据SResult得分高低,去除步骤2中行人候选区中错检行人的边界框,最终得到 真正的行人检测框。
步骤6:输出检测图像。
本发明中,行人检测系统利用YOLOv3作为行人候选区生成器产生大量的行人候选框有 效提高了行人的检测精度;利用前端预测模块和语义分割对输入图像进行像素级的分类,避 免了YOLOv3等回归框网络的粗略检测问题,从而提高了目标检测的能力,可有效地解决单 一网络检测精度不够的问题;利用软融合对行人候选框和语义分割二值掩模进行融合,从而 精细输出结果;同时,二者的组合使用,提升了对小目标的检测能力,可适用范围更广;将 行人候选区生成器和语义分割两个系统进行并行组网构成行人检测系统框架,从而实现快速 检测;该系统能够准确、高效、鲁棒地检测各种挑战场景下的行人和其他目标类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原 则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于深度学习多网络软融合的行人检测方法,其特征在于:包括如下步骤:
步骤1:输入待处理图像;
步骤2:将步骤1中的图像输入一个以Darknet-53为基础网络的YOLO v3行人候选区生成器中,生成行人候选区;
步骤3:将步骤1中的图像输入前端预测模块进行密集预测,输出C个更高分辨率的特征图;
步骤4:将步骤3中的C个特征图输入语义分割系统,输出C个包含上下文信息的二进制掩码特征图;
步骤5:将语义分割系统的结果与行人候选区生成器产生的行人候选结果进行软融合;
步骤6:输出检测图像。
2.根据权利要求1所述的一种基于深度学习多网络软融合的行人检测方法,其特征在于:所述步骤2中的YOLO v3行人候选区生成器生成行人候选区包括如下步骤:
步骤2.1、将输入图片划分为S×S个单元格,为每个单元格分配3个需要预测的行人候选区边界框,对YOLO v3进行训练,以获得图片中每一个预测的行人候选区边界框所对应的坐标位置信息和置信度;
步骤2.2、在YOLOv3网络中融合3个尺度,分别为从第一层跨32、16、8步层上(如输入为416*416,在大小为13*13、26*26和52*52层上进行检测),在多个尺度的融合特征图上分别对行人独立做检测,得到行人候选区的坐标位置信息;
其次,利用K均值聚类算法对数据集聚类产生锚框的初始值,每个尺度下分配3个锚框,由于每个单元格预测3个行人候选区边界框,对应3个锚框,因此3个尺度下共9个锚框;
每个单元格输出(1+4+C)*3个值,4代表4个预测的定位信息、1代表1个置信度得分、3代表3个锚框和C代表C个条件类别概率,这里C=1,只有行人一类,所以共输出18个值;采用逻辑回归对每个行人候选区的边界框坐标位置信息进行预测:
bx=σ(tx)+cx
by=σ(ty)+cy
其中:σ是Sigmoid激活函数,(tx,ty,tw,th)为YOLO v3网络学习的4个预测的定位信息,pw,ph是预设先验框的宽、高,cx,cy为单元格的坐标偏移量,(bx,by,bw,bh)为最终预测的行人候选区边界框的坐标位置信息;
步骤2.3、在YOLO v3训练过程中,增加YOLO v3原网络中的置信度接收范围即降低检测行人候选区的置信度阈值,生成大量的行人候选区,使得候选区覆盖待检测图像中所有的行人。
3.根据权利要求1所述的一种基于深度学习多网络软融合的行人检测方法,其特征在于:所述步骤3包括如下步骤:
步骤3.1、对VGG-16网络进行修改,将其中完全连接层转换成卷积层,删除VGG-16网络结构中倒数第二个和倒数第三个最大池化和跨行层,从而得到前端预测模块,并使用原始分类网络的参数进行初始化训练后,输出更高分辨率的特征图;
步骤3.2、使用前端预测模块,对待检测图像进行密集的预测,生成C个64×64初步的语义特征图。
4.根据权利要求1和3所述的一种基于深度学习多网络软融合的行人检测方法,其特征在于:所述步骤4中的语义分割系统包括如下步骤:
步骤4.1、利用聚合多尺度上下文信息构建语义分割系统,语义分割系统的输入为前端预测模块生成的C个64×64初步语义特征图,语义分割系统共8层网络,前7层为基本的聚合多尺度上下文信息模块,对前7层分别应用不同扩张因子的3×3×C扩张卷积核进行特征提取,其中第1层上是直接进行卷积,第2到6层是分别使用不同的扩张因子进行扩张卷积,第7层直接进行卷积,每次卷积后都进行点截断max(·,0),以截断超出图像的部分,保持卷积前后图像大小相同,最后一层即第8层执行1×1的卷积,最后对语义分割系统进行训练,以使语义分割系统输出C个64×64精炼的语义特征图;
步骤4.2、扩张卷积聚合多尺度上下文信息,支持以指数方式扩展感受野,而不会丢失分辨率或覆盖率,其扩张区域的大小为(2i+2-1)×(2i+2-1),扩张因子为2i,感受野的大小为((2i+2-1)-(2i+1-2))×((2i+2-1)-(2i+1-2)),i=0,1,...,n-2表示第几次扩张;扩张过程中,当感受野的大小基本与输入大小一致时,即停止扩张,因此第2到6层的扩张因子大小分别为1、2、4、8和16,扩张后的感受野大小分别是5*5、9*9、17*17、33*33和65*65;
步骤4.3、将语义分割系统和步骤3中的前端预测模块联合在Cityscapes数据集上进行训练,将Cityscapes数据集中的“person”和“rider”类都设置为行人,其余类都是背景,输出C个包含上下文信息的二进制掩码特征图。
5.根据权利要求1、2和4任一所述的一种基于深度学习多网络软融合的行人检测方法,其特征在于:所述步骤5的软融合具体步骤为:
步骤5.1、将步骤4的语义特征图生成二进制掩码特征图,其中前景像素设置为1以表示感兴趣的类别,背景像素设置为0。
步骤5.2、将步骤2中行人候选区生成器生成的行人候选区边界框(bx,by,bw,bh)坐标位置信息映射到二进制掩码特征图上,得到二进制掩码特征图上的行人候选区边界框;缩放所有二进制掩码特征图上的行人候选区边界框,使其具有与行人核相同的大小;
步骤5.3、使用软融合比例因子对二进制掩码特征图上的行人候选区边界框内的像素和行人核进行加权和计算,其计算方式如下:
SResult=SYOLOv3×Sss
其中:Sss表示语义分割系统输出的语义分割特征图结果是行人的得分;SYOLOv3表示行人候选区生成器输出行人候选区结果是行人的得分;SResult表示最终输出结果是行人的得分;ABB是边界框的面积;掩模mask(i,j)是在图像中(i,j)处的二进制掩码像素值;核Kernel(i,j)是在图像中(i,j)处的行人核。Kernel中心的像素值往往比边界处的像素值高,这与感兴趣的对象在边界框的中心相一致,Kernel有增强检测的效果,它的边界框适合感兴趣的对象;
步骤5.4、根据r得分高低,去除步骤2中行人候选区中错检行人的边界框,最终得到真正的行人检测框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284456.4A CN111027493B (zh) | 2019-12-13 | 2019-12-13 | 一种基于深度学习多网络软融合的行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284456.4A CN111027493B (zh) | 2019-12-13 | 2019-12-13 | 一种基于深度学习多网络软融合的行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027493A true CN111027493A (zh) | 2020-04-17 |
CN111027493B CN111027493B (zh) | 2022-05-20 |
Family
ID=70208997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911284456.4A Active CN111027493B (zh) | 2019-12-13 | 2019-12-13 | 一种基于深度学习多网络软融合的行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027493B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626156A (zh) * | 2020-05-14 | 2020-09-04 | 电子科技大学 | 一种基于行人掩模和多尺度判别的行人生成方法 |
CN111783784A (zh) * | 2020-06-30 | 2020-10-16 | 创新奇智(合肥)科技有限公司 | 建筑的空洞检测方法及装置、电子设备、存储介质 |
CN111860160A (zh) * | 2020-06-16 | 2020-10-30 | 北京华电天仁电力控制技术有限公司 | 一种室内检测口罩佩戴的方法 |
CN111931729A (zh) * | 2020-09-23 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的行人检测方法、装置、设备及介质 |
CN112329660A (zh) * | 2020-11-10 | 2021-02-05 | 浙江商汤科技开发有限公司 | 一种场景识别方法、装置、智能设备及存储介质 |
CN112507904A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112633086A (zh) * | 2020-12-09 | 2021-04-09 | 西安电子科技大学 | 基于多任务EfficientDet的近红外行人监测方法、系统、介质、设备 |
CN112668560A (zh) * | 2021-03-16 | 2021-04-16 | 中国矿业大学(北京) | 一种人流密集区域行人检测方法及系统 |
CN112966697A (zh) * | 2021-03-17 | 2021-06-15 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
CN113011389A (zh) * | 2021-04-23 | 2021-06-22 | 电子科技大学 | 一种基于聚类思想的道路行人小目标检测方法 |
CN113111732A (zh) * | 2021-03-24 | 2021-07-13 | 浙江工业大学 | 一种高速服务区密集行人检测方法 |
CN113536985A (zh) * | 2021-06-29 | 2021-10-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于景深注意力网络的客流分布统计方法及装置 |
CN114005268A (zh) * | 2021-10-21 | 2022-02-01 | 广州通达汽车电气股份有限公司 | 一种公交车区间调度方法、装置、设备及存储介质 |
CN115082954A (zh) * | 2022-03-07 | 2022-09-20 | 湖南中科助英智能科技研究院有限公司 | 一种面向在线考试的人物目标检测方法、装置和设备 |
CN116602663A (zh) * | 2023-06-02 | 2023-08-18 | 深圳市震有智联科技有限公司 | 一种基于毫米波雷达的智能监测方法及系统 |
CN117475389A (zh) * | 2023-12-27 | 2024-01-30 | 山东海润数聚科技有限公司 | 一种人行横道信号灯的控制方法、系统、设备和存储介质 |
CN118411641A (zh) * | 2024-07-02 | 2024-07-30 | 齐鲁空天信息研究院 | 基于语义强化的无人机视角下人体目标检测方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709568A (zh) * | 2016-12-16 | 2017-05-24 | 北京工业大学 | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 |
CN108288075A (zh) * | 2018-02-02 | 2018-07-17 | 沈阳工业大学 | 一种改进ssd的轻量化小目标检测方法 |
CN108875595A (zh) * | 2018-05-29 | 2018-11-23 | 重庆大学 | 一种基于深度学习和多层特征融合的驾驶场景目标检测方法 |
CN108960340A (zh) * | 2018-07-23 | 2018-12-07 | 电子科技大学 | 卷积神经网络压缩方法及人脸检测方法 |
CN109063559A (zh) * | 2018-06-28 | 2018-12-21 | 东南大学 | 一种基于改良区域回归的行人检测方法 |
CN109508710A (zh) * | 2018-10-23 | 2019-03-22 | 东华大学 | 基于改进YOLOv3网络的无人车夜间环境感知方法 |
CN109543754A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于端对端深度学习的目标检测与语义分割的并行方法 |
CN109816100A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于双向融合网络的显著性物体检测方法及装置 |
US20190303731A1 (en) * | 2018-03-28 | 2019-10-03 | Boe Technology Group Co., Ltd. | Target detection method and device, computing device and readable storage medium |
-
2019
- 2019-12-13 CN CN201911284456.4A patent/CN111027493B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709568A (zh) * | 2016-12-16 | 2017-05-24 | 北京工业大学 | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 |
CN108288075A (zh) * | 2018-02-02 | 2018-07-17 | 沈阳工业大学 | 一种改进ssd的轻量化小目标检测方法 |
US20190303731A1 (en) * | 2018-03-28 | 2019-10-03 | Boe Technology Group Co., Ltd. | Target detection method and device, computing device and readable storage medium |
CN108875595A (zh) * | 2018-05-29 | 2018-11-23 | 重庆大学 | 一种基于深度学习和多层特征融合的驾驶场景目标检测方法 |
CN109063559A (zh) * | 2018-06-28 | 2018-12-21 | 东南大学 | 一种基于改良区域回归的行人检测方法 |
CN108960340A (zh) * | 2018-07-23 | 2018-12-07 | 电子科技大学 | 卷积神经网络压缩方法及人脸检测方法 |
CN109508710A (zh) * | 2018-10-23 | 2019-03-22 | 东华大学 | 基于改进YOLOv3网络的无人车夜间环境感知方法 |
CN109543754A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于端对端深度学习的目标检测与语义分割的并行方法 |
CN109816100A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于双向融合网络的显著性物体检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
寇大磊; 权冀川; 张仲伟: "基于深度学习的目标检测框架进展研究", 《计算机工程与应用》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626156A (zh) * | 2020-05-14 | 2020-09-04 | 电子科技大学 | 一种基于行人掩模和多尺度判别的行人生成方法 |
CN111860160B (zh) * | 2020-06-16 | 2023-12-12 | 国能信控互联技术有限公司 | 一种室内检测口罩佩戴的方法 |
CN111860160A (zh) * | 2020-06-16 | 2020-10-30 | 北京华电天仁电力控制技术有限公司 | 一种室内检测口罩佩戴的方法 |
CN111783784A (zh) * | 2020-06-30 | 2020-10-16 | 创新奇智(合肥)科技有限公司 | 建筑的空洞检测方法及装置、电子设备、存储介质 |
CN111931729B (zh) * | 2020-09-23 | 2021-01-08 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的行人检测方法、装置、设备及介质 |
CN111931729A (zh) * | 2020-09-23 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的行人检测方法、装置、设备及介质 |
CN112329660B (zh) * | 2020-11-10 | 2024-05-24 | 浙江商汤科技开发有限公司 | 一种场景识别方法、装置、智能设备及存储介质 |
CN112329660A (zh) * | 2020-11-10 | 2021-02-05 | 浙江商汤科技开发有限公司 | 一种场景识别方法、装置、智能设备及存储介质 |
WO2022100133A1 (zh) * | 2020-11-10 | 2022-05-19 | 浙江商汤科技开发有限公司 | 场景识别方法、装置、智能设备、存储介质和计算机程序 |
CN112633086A (zh) * | 2020-12-09 | 2021-04-09 | 西安电子科技大学 | 基于多任务EfficientDet的近红外行人监测方法、系统、介质、设备 |
CN112633086B (zh) * | 2020-12-09 | 2024-01-26 | 西安电子科技大学 | 基于多任务EfficientDet的近红外行人监测方法、系统、介质、设备 |
CN112507904A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112507904B (zh) * | 2020-12-15 | 2022-06-03 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112668560A (zh) * | 2021-03-16 | 2021-04-16 | 中国矿业大学(北京) | 一种人流密集区域行人检测方法及系统 |
CN112966697A (zh) * | 2021-03-17 | 2021-06-15 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
CN113111732A (zh) * | 2021-03-24 | 2021-07-13 | 浙江工业大学 | 一种高速服务区密集行人检测方法 |
CN113011389A (zh) * | 2021-04-23 | 2021-06-22 | 电子科技大学 | 一种基于聚类思想的道路行人小目标检测方法 |
CN113011389B (zh) * | 2021-04-23 | 2022-07-26 | 电子科技大学 | 一种基于聚类思想的道路行人小目标检测方法 |
CN113536985A (zh) * | 2021-06-29 | 2021-10-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于景深注意力网络的客流分布统计方法及装置 |
CN113536985B (zh) * | 2021-06-29 | 2024-05-31 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于景深注意力网络的客流分布统计方法及装置 |
CN114005268A (zh) * | 2021-10-21 | 2022-02-01 | 广州通达汽车电气股份有限公司 | 一种公交车区间调度方法、装置、设备及存储介质 |
CN115082954A (zh) * | 2022-03-07 | 2022-09-20 | 湖南中科助英智能科技研究院有限公司 | 一种面向在线考试的人物目标检测方法、装置和设备 |
CN116602663A (zh) * | 2023-06-02 | 2023-08-18 | 深圳市震有智联科技有限公司 | 一种基于毫米波雷达的智能监测方法及系统 |
CN116602663B (zh) * | 2023-06-02 | 2023-12-15 | 深圳市震有智联科技有限公司 | 一种基于毫米波雷达的智能监测方法及系统 |
CN117475389A (zh) * | 2023-12-27 | 2024-01-30 | 山东海润数聚科技有限公司 | 一种人行横道信号灯的控制方法、系统、设备和存储介质 |
CN117475389B (zh) * | 2023-12-27 | 2024-03-15 | 山东海润数聚科技有限公司 | 一种人行横道信号灯的控制方法、系统、设备和存储介质 |
CN118411641A (zh) * | 2024-07-02 | 2024-07-30 | 齐鲁空天信息研究院 | 基于语义强化的无人机视角下人体目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111027493B (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN112396002B (zh) | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 | |
CN110619369B (zh) | 基于特征金字塔与全局平均池化的细粒度图像分类方法 | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN110084299B (zh) | 基于多头融合注意力的目标检测方法和装置 | |
CN111274981B (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN108256562A (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
Yang et al. | Real-time pedestrian and vehicle detection for autonomous driving | |
CN112132145B (zh) | 一种基于模型扩展卷积神经网络的图像分类方法及系统 | |
Wang et al. | Hierarchical objectness network for region proposal generation and object detection | |
WO2020077940A1 (en) | Method and device for automatic identification of labels of image | |
CN111461145B (zh) | 一种基于卷积神经网络进行目标检测的方法 | |
CN107633226A (zh) | 一种人体动作跟踪识别方法及系统 | |
CN111368660A (zh) | 一种单阶段半监督图像人体目标检测方法 | |
CN110310305B (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN114998595B (zh) | 弱监督语义分割方法、语义分割方法及可读存储介质 | |
WO2023116632A1 (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN112381030A (zh) | 一种基于特征融合的卫星光学遥感图像目标检测方法 | |
CN116266387A (zh) | 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统 | |
CN112418358A (zh) | 一种强化深度融合网络的车辆多属性分类方法 | |
CN112132130A (zh) | 一种面向全场景的实时性车牌检测方法及系统 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
CN114639101A (zh) | 一种乳状液液滴识别系统、方法、计算机设备及存储介质 | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
CN111914949B (zh) | 基于强化学习的零样本学习模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |