[go: up one dir, main page]

CN107784288A - 一种基于深度神经网络的迭代定位式人脸检测方法 - Google Patents

一种基于深度神经网络的迭代定位式人脸检测方法 Download PDF

Info

Publication number
CN107784288A
CN107784288A CN201711034973.7A CN201711034973A CN107784288A CN 107784288 A CN107784288 A CN 107784288A CN 201711034973 A CN201711034973 A CN 201711034973A CN 107784288 A CN107784288 A CN 107784288A
Authority
CN
China
Prior art keywords
face
net
candidate
model
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711034973.7A
Other languages
English (en)
Other versions
CN107784288B (zh
Inventor
文贵华
罗达志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Kedian Data Service Co ltd
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201711034973.7A priority Critical patent/CN107784288B/zh
Publication of CN107784288A publication Critical patent/CN107784288A/zh
Application granted granted Critical
Publication of CN107784288B publication Critical patent/CN107784288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度神经网络的迭代定位式人脸检测方法,包括如下步骤:基于AFLW公共图像数据集,提取其中的区域图像块作为训练集的输入并进行预处理;定义人脸候选框提取模型P‑Net和人脸偏移微调模型A‑Net,使用上述训练集训练该模型;对上述已训练模型P‑Net采用全卷积化策略,以获得对样本的全局检测结果矩阵;测试过程中将图片输入模型P‑Net获取人脸候选框,再通过模型A‑Net迭代式微调人脸候选框位置,配合极大值抑制方法获得最终结果。本发明方法用于在复杂环境中,利用计算机自动检测人脸,且具有准确性高、识别速度快、性能稳定等优点。

Description

一种基于深度神经网络的迭代定位式人脸检测方法
技术领域
本发明涉及基于图像的人脸检测技术领域,具体涉及一种基于深度神经网络的迭代定位式人脸检测方法。
背景技术
一、人脸检测的定义
人脸检测是指,给定任意一张图像,利用计算机自动检测出其中所有的人脸(如果存在),并返回这些人脸的位置。
二、人脸检测的重要性
人脸是信息量很大的视觉模式,其所反映出的视觉信息,在人们的生活、工作中有着重要的意义和作用。在信息自动化的今天,人脸识别在社会生活中已经得到广泛应用,在这里面,人脸检测是一个关键环节,如果人脸检测算法的效果不好,势必会影响到后续识别算法的效果。除此之外,基于图像的年龄识别,性别识别,情绪识别等识别算法,同样需要人脸检测算法来作为基础环节。这些技术应用的广泛应用,将人脸检测算法的重要性提升到了新的高度。
三、人脸检测的技术发展
对人脸检测的研究可以追溯到20世纪70年代,人脸检测早期的研究主要致力于模板匹配、子空间方法、变形模板匹配等。这些早期的人脸检测方法往往针对简单无变化背景下的正面人脸检测,对于复杂环境下的人脸,并不具备很好的检测效果。20世纪90年代到21世纪初,基于级联结构的人脸检测方法获得很大发展,其中Viola和Jones在Adaboost算法的基础上,使用Haar-like小波特征和积分图方法进行人脸检测,该方法在检测准确性和实时性上获得了很大提升,但同样无法处理复杂场景下的人脸检测。近年来,随着深度学习的快速发展,基于深度学习的人脸检测算法获得了长足的发展,这些方法包括:
吴素雯,战荫伟.基于选择性搜索和卷积神经网络的人脸检测,2016年9月28日[J].计算机应用研究,2017(2);陈伟栋,张杨,杨晓龙.基于肤色特征和深度模型的人脸检测方法[J].工业控制计算机,2017,30(3):26-28;陈锐,林达.基于级联卷积神经网络的人脸关键点定位[J].四川理工学院学报(自科版),2017,30(1):32-37;张百灵,夏翌彰,钱荣强,等.基于深度卷积神经网络的人脸遮挡检测方法,CN 106485215A[P].2017。
四、目前的人脸检测做法的缺点:精确度和速度
但基于深度学习的方法往往在速度方面不具备优势,这是由于深度神经网络的前向过程较为耗时,并且对于一张图片,该前向过程可能需要执行多次,导致耗费过多时间。除此之外,目前已有的方法对人脸检测的定位准确性没有足够多的重视,而实际上定位准确性对后续诸如人脸识别,情绪识别等算法的效果会产生影响。因此本算法利用两种不同任务的卷积神经网络结合检测结果矩阵进行人脸检测以及人脸候选框迭代式定位,在准确性和实时性上均获得良好的效果。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于深度神经网络的迭代定位式人脸检测方法,设计多任务深度神经网络并使用公共数据集的海量数据训练,测试过程中利用人脸候选框提取模型获得初步人脸候选框,再接着使用人脸偏移微调模型多次迭代定位人脸获得更加精确的人脸定位。该算法用于在复杂环境中实时检测人脸,并具有准确性高、性能稳定等特点。
本发明的目的可以通过采取如下技术方案达到:
一种基于深度神经网络的迭代定位式人脸检测方法,所述的人脸检测方法包括如下步骤:
S1、定义人脸候选框提取模型P-Net和人脸偏移微调模型A-Net;
S2、基于AFLW公共图像数据集提取训练P-Net和A-Net所需要的数据以及相应标签;
S3、使用上一个步骤所获得的数据,基于经典卷积神经网络微调训练P-Net和A-Net;
S4、对上述已训练的P-Net模型采用全卷积化策略,以获得对输入图片的全局检测结果矩阵;
S5、对于一张待测试图片,将多尺度形式下的图片输入P-Net获得多个尺度的检测结果矩阵,通过这些矩阵以及窄化非极大值抑制算法获取候选人脸框;
S6、再根据人脸位置判别条件,将候选人脸框迭代式输入至A-Net进行微调,直到满足判别条件;
S7、使用窄化非极大值抑制算法去除重复的人脸候选框,并输出最后检测结果;
进一步地,所述步骤S1中定义的人脸候选框提取模型P-Net和人脸偏移微调模型A-Net,均采用AlexNet模型,并依据实际情况将其输出层修改为2类以及45类。
进一步地,所述步骤S2中P-Net需要的训练数据为二类数据,即人脸与非人脸;A-Net需要的训练数据为45类数据,即各种偏移模式下的人脸候选框。
进一步地,所述步骤S3中的训练方法,采用的是随机梯度下降,同时配合学习率衰减和动量;采用的损失函数为交叉熵损失函数,具体形式如下:
其中x代表原始信号,z代表重构信号,以向量形式表示长度均为d,又可轻易地将其改造为向量内积的形式,K代表一次迭代中样本的个数。
进一步地,所述步骤S4中的全卷积化策略,即将全连接层的参数保存,接着用同样尺寸的卷积层替代全连接层,并将之前保存的全连接层参数赋值给新的卷积层。
进一步地,所述步骤S5中的窄化非极大值抑制,为一种对象形状定制化的极大值抑制算法,其对人脸这种具有不同长宽比的矩形候选框具有更好的效果。具体如下:
在对多个部分重合的候选框进行非极大值抑制之前,对原始的正方形候选框进行中心窄化,窄化公式为
其中(x1,y1)为左上角坐标,(x2,y2)为右下角坐标,narrowrate为窄化率,窄化率设定为0.08,这意味着候选框被窄化为保持原高度和中心点,但宽度缩小为原始宽度的0.84倍大小;
接着对窄化后的数据进行非极大值抑制计算去重,去重结束后,进行窄化复原,复原公式如下:
其中(x1,y1)为左上角坐标,(x2,y2)为右下角坐标,narrowrate为窄化率,窄化率设定为0.08,这意味着候选框被复原为保持原中心点和高度,宽度放大为窄化前的原始宽度大小。
进一步地,所述的步骤S6中,对于前个步骤中模型P-Net获取的人脸候选框,将其候选框图像输入至A-Net进行偏移模式分类,模型A-Net将输出该候选框图像对于45种偏移模式的分类置信度,利用分类结果集成出该候选框的偏移情况,如下:
其中,[s,x,y]为最终集成结果;N为偏移模式个数,取N=45,[sn,xn,yn]为类别n的偏移模式,n为偏移模式下标,遵循前文45个偏移模式的设置;z为超过阈值的偏移模式的个数,I为权重计算公式,用于计算超过阈值的偏移模式各自的权重。z和I的计算公式如下:
其中I的定义与上述权重计算公式I定义相同
其中cn为超过阈值的偏移模式n的权重,t为阈值;
接着根据以上过程获得的分类结果,反分类结果方向微调以获得更加准确的人脸定位,具体如下:
对于某左上角坐标为(x,y),长宽为(w,h)的候选框,通过模型A-Net分类获得其偏移模式为[x,y,s],则其反偏移模式方向微调后的[xnew,ynew,wnew,hnew]为:
进一步地,所述的步骤S6中,在反偏移模式方向微调之后,再次将该已微调候选框输入模型A-Net之中,并通过再次的偏移情况估计来判断目前该候选框是否到达最合适的位置,若是,则停止微调,进入下一步;若否,则继续进行微调步骤,直至满足条件或者迭代次数超过设定阈值为止。
其中判断候选框是否已经达到最佳位置的判断公式如下:
其中,[s,x,y]为根据上述公式计算的当前候选框的集成偏移模式,同时,设定最大迭代次数为10次,即最大迭代10次结束。
本发明相对于现有技术具有如下的优点及效果:
1、本发明方法采用卷积神经网络,通过海量数据训练卷积神经网络,使其自动地学习出具有强表达力的卷积核以及这些卷积核的组合方式,求出更好的人脸特征表达;
2、本发明方法设定了人脸候选框提取模型P-Net和人脸偏移微调模型A-Net,其分别具有人脸/非人脸分类和偏移模式分类两种功能,该两种功能对人脸检测效果起了互相增益的作用。
3、本发明方法采用全卷积化的策略,使得图像可以输入任意尺寸的图片,并通过一次卷积神经网络前向操作获得检测结果矩阵,具有较快的检测速度。
4、本发明方法采用迭代式人脸候选框定位,该定位技术有助于将人脸候选框定位到更加合适的位置,即提高定位的精度。
5、本发明方法与传统方法相比,准确性高、检测速度快、性能稳定,该方法具有一定的市场价值和推广价值。
附图说明
图1是本发明中公开的一种基于深度神经网络的迭代定位式人脸检测方法的步骤流程图;
图2是本发明中公开的一种基于深度神经网络的迭代定位式人脸检测方法中预测过程中迭代式定位方法的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
一种基于深度神经网络的迭代定位式人脸检测方法,包括如下步骤:
S1、定义人脸候选框提取模型P-Net和人脸偏移微调模型A-Net:
上述步骤S1中,定义需要的两个模型功能为人脸候选框提取以及人脸偏移微调,然后从模型公开源下载AlexNet原模型,将其输出修改为2和45,以适应本实施例中的任务需求。
S2、基于AFLW公共图像数据集提取训练模型P-Net和模型A-Net所需要的数据以及相应标签,上述S2步骤中,
1.对于人脸/背景分类任务,通过在AFLW公共图像数据集中裁剪图片来获取数据。其中AFLW数据集具有25000张图片,总共有50000张人脸,每张图片上的人脸真实框位置利用左上角坐标(x1,y1)和右下角坐标(x2,y2)标注,人脸真实框表达为:
(x1,y1,x2,y2)
利用坐标信息裁剪人脸图片,同时为了扩大数据集,允许对裁剪人脸框进行一定的位移,只要满足以下条件:
同时定义背景图片为满足
的图片,并采用随机裁剪的方式获取背景图片。
其中,b为裁剪图片用的候选框,g为数据集中标准的人脸实际框;IOU为交并比,即就是矩形框b、g的重叠面积占b、g并集的面积比例。
2.对于偏移模式分类任务,通过在AFLW公共图像数据集中裁剪图片来获取数据。其中对于每张人脸,通过对应的偏移模式
[xn,yn,sn],
其中,
sn∈{0.83,0.91,1.0,1.10,1.21}
xn∈{-0.17,0,0.17}
yn∈{-0.17,0,0.17}
裁剪出总共45张偏移后的人脸图像(若超出图片尺寸则放弃),并为每张图片标注一个类别,共45个类别。
S3、使用上一个步骤所获得的数据,基于经典卷积神经网络微调训练模型P-Net和模型A-Net;
上述步骤S3中,采用的是随机梯度下降,同时配合学习率衰减和动量,来训练模型,其具体参数为:
参数名称\模型 学习率 最大迭代次数 批量尺寸 学习率衰减率
人脸候选框提取模型 0.001 90000 128 0.1
人脸偏移微调模型 0.002 60000 128 0.12
训练过程在TensorFlow框架上实现。
S4、对上述已训练的模型P-Net采用全卷积化策略,以获得对输入图片的全局检测结果矩阵;
上述步骤S4中的全卷积化策略,即将全连接层的参数保存,接着用同样尺寸的卷积层替代全连接层,并将之前保存的全连接层参数赋值给新的卷积层。
S5、对于一张待测试图片,将多尺度形式下的图片输入模型P-Net获得多个尺度的检测结果矩阵,通过这些矩阵以及窄化非极大值抑制算法获取候选人脸框:
上述的步骤S5中,即对于一张待测试图片,使用0.79、1、1.26、1.59、2.0、5.0共6种缩放率进行缩放,获得6张不同尺度的图片。将这6张图片输入至模型P-Net中,可以获得6张全局检测结果矩阵,该矩阵上的每一个数据点代表原图片中某个正方形区域的是否为人脸的分类结果,通过对6个矩阵的数据信息分析,筛选出分类为人脸的候选框,筛选准则如下:
p(人脸)>0.85
其中p(人脸)代表该候选框为人脸的置信度。
对于筛选出来的候选框,使用窄化非极大值抑制算法获取候选人脸框,具体如下:
在对多个部分重合的候选框进行非极大值抑制之前,对原始的正方形候选框进行中心窄化,窄化公式为:
其中(x1,y1)为左上角坐标,(x2,y2)为右下角坐标,narrowrate为窄化率,窄化率设定为0.08,这意味着候选框被窄化为保持原高度和中心点,但宽度缩小为原始宽度的0.84倍大小;
接着对窄化后的数据进行非极大值抑制计算去重,非极大值抑制算法计算如下:
对于所有的候选框,以其分类为人脸的置信度进行排序,接着取置信度最高的候选框为目标候选框,搜索与其重合率超过0.3的其他候选框,去除这些候选框,并保存目标候选框。接着继续在候选框中选取置信度最大的对象,继续进行该过程直到不存在候选框为止。
去重结束后,进行窄化复原,复原公式如下:
其中(x1,y1)为左上角坐标,(x2,y2)为右下角坐标,narrowrate为窄化率,窄化率设定为0.08,这意味着候选框被窄化为保持原高度和中心点,但宽度缩小为原始宽度的0.84倍大小;
S6、再根据人脸位置判别条件,将候选人脸框迭代式输入至A-Net进行微调,直到满足判别条件;
上述S6的步骤中,根据S5步骤获得的人脸候选框,裁剪出这些候选框代表的图片,并将其缩放至227x 227大小然后输入至A-Net之中。A-Net将输出该候选框图像对于45种偏移模式的分类置信度,即一个长度为45的向量。接着利用分类结果集成出该候选框的偏移情况,如下:
其中,[s,x,y]为最终集成结果;N为偏移模式个数,取N=45,[sn,xn,yn]为类别n的偏移模式,n为偏移模式下标,遵循前文45个偏移模式的设置;z为超过阈值的偏移模式的个数,I为权重计算公式,用于计算超过阈值的偏移模式各自的权重。z和I的计算公式如下:
其中I的定义与上述权重计算公式I定义相同
其中cn为超过阈值的偏移模式n的权重,t为阈值;
以上公式的数学意义为,我们选取置信度大于阈值的那些偏移模式的偏移方向的加权方向作为对该候选框图像偏移模式的估计。
接着根据以上过程获得的分类结果,反分类结果方向微调以获得更加准确的人脸定位。具体如下:
对于某左上角坐标为(x,y),长宽为(w,h)的候选框,通过A-Net分类获得其偏移模式为[x,y,s],则其反偏移模式方向微调后的[xnew,ynew,wnew,hnew]为:
S7、使用窄化非极大值抑制算法去除重复的人脸候选框,并输出最后检测结果;
上述步骤S7所使用的窄化非极大值抑制算法与步骤S5中相同,至此输出结果为最终结果。
实施例二
本实施例从框架搭建、数据集准备、模型训练、实际测试几个方面具体介绍一种基于深度神经网络的迭代定位式人脸检测方法,具体过程如下介绍。
一、框架搭建过程如下:
1、在Linux服务器上安装Nvidia GPU驱动以及相关计算库;
2、编译安装深度学习框架TensorFlow。
二、数据集准备过程如下:
1、使用Python语言编写工具脚本以获取训练集,使用该工具脚本在四线程情况下裁剪AFLW公共图像数据集中的图像并自动记录人脸/背景标签和偏移模式标签;
2、对于上述的数据,对于人脸/非人脸训练集,采用随机复制方法使其保持人脸:非人脸比例为1:3;对于偏移模式,采用工具脚本中的控制参数使其保持各类训练样本的均衡化。
3、对上述图片数据进行归一化处理;
4、将处理完毕的人脸图片连同其标签,转化为可在内存中大量存储且读取速度更快的tfrecords数据格式。
三、训练过程如下:
1、通过Tensorflow公共模型网络发布平台下载AlexNet卷积神经网络模型;
2、保留上述AlexNet的卷积层、下采样层、前两层全连接层的参数,修改最后的输出层输出节点数为2和45,这是为了分别适应人脸候选框提取模型P-Net和人脸偏移微调模型A-Net;
3、将数据集准备过程获得的tfrecords格式数据,按照批次样本数将固定数量的样本输入卷积神经网络;
4、通过AlexNet卷积神经网络模型中的多个卷积层和下采样层输出特征图;
5、通过concatenate操作将特征图特征映射至全连接层;
6、经过Softmax分类器计算得该样本的分类结果,将结果发送到损失函数层;
7、根据结果和损失函数,计算其损失以及回传梯度;
8、通过反向传播算法,调整卷积神经网络参数;其中反向传播算法采用如下超参数,该超参数是由多次交叉验证得到:
参数名称\模型 学习率 最大迭代次数 批量尺寸 学习率衰减率
人脸候选框提取模型 0.001 90000 128 0.1
人脸偏移微调模型 0.002 60000 128 0.12
9、重复以上3-8的过程,直到最大迭代次数达到设定阈值,训练终止。
10、对上述已训练模型P-Net采用全卷积化策略,以获得对样本的全局检测结果矩阵。
四、测试过程如下:
使用Python语言编写测试脚本,其中包括如下操作:
1、将待测试的图片完成归一化操作,并进行多尺度化操作获得多尺度下的至多6张输入图片;
2、载入训练得到模型P-Net和模型A-Net;
3、将处理后的待测试图片输入至模型P-Net,分析得到的至多6个全局结果矩阵,配合窄化非极大值抑制得到人脸候选框;
4、根据以上人脸候选框,在原图片中裁剪出人脸图片,将其都输入至模型A-Net中,并依据结果进行微调以及决定是否进行多次迭代式微调;
5、使用窄化非极大值抑制算法再次处理剩余候选框,输出结果作为最终结果。
综上所述,本发明基于AFLW公共图像数据集,提取其中的区域图像块作为训练集的输入并进行预处理;定义人脸候选框提取模型P-Net和人脸偏移微调模型A-Net,使用上述训练集微调训练该模型;对上述已训练模型P-Net采用全卷积化策略,以获得对样本的全局检测结果矩阵。测试过程中将图片输入模型P-Net获取人脸候选框,再通过模型A-Net迭代式微调人脸候选框位置,配合极大值抑制方法获得最后结果。本发明方法用于在复杂环境中,利用计算机自动检测人脸,且具有准确性高、识别速度快、性能稳定等优点。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的人脸检测方法包括如下步骤:
S1、定义人脸候选框提取模型P-Net和人脸偏移微调模型A-Net;
S2、基于AFLW公共图像数据集提取训练模型P-Net和模型A-Net所需要的数据以及相应标签;
S3、使用上一个步骤所获得的数据,基于经典卷积神经网络微调训练模型P-Net和模型A-Net;
S4、对上述已训练的模型P-Net采用全卷积化策略,以获得对输入图片的全局检测结果矩阵;
S5、对于一张待测试图片,将多尺度形式下的图片输入模型P-Net获得多个尺度的检测结果矩阵,通过这些矩阵以及窄化非极大值抑制算法获取候选人脸框;
S6、再根据人脸位置判别条件,将候选人脸框迭代式输入至模型A-Net进行微调,直到满足判别条件;
S7、使用窄化非极大值抑制算法去除重复的人脸候选框,并输出最后检测结果。
2.根据权利要求1所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的步骤S1中的人脸偏移微调模型A-Net中,设定该模型为N类分类模型,这N类人脸偏移模式用于评估一个人脸候选框其对于人脸真实框的偏移程度,人脸偏移模式采用横轴、纵轴、缩放率三个因素来衡量,采用设定的设定如下:
定义偏移模式集合:
<msubsup> <mrow> <mo>{</mo> <mo>&amp;lsqb;</mo> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>&amp;rsqb;</mo> <mo>}</mo> </mrow> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup>
其中,xn代表该候选框在x轴上相对候选框宽度本身的偏移率,yn代表该候选框在y轴上相对候选框长度本身的偏移率,sn代表该候选框相对本身长度,应该缩放的比率,N代表偏移模式类别数,n为类别下标。
3.根据权利要求2所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,设置偏移模式类别数N=45,n为类别下标,
对xn,yn,sn分别赋值如下,可以获得5x 3x 3=45个类别:
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>&amp;Element;</mo> <mo>{</mo> <mn>0.83</mn> <mo>,</mo> <mn>0.91</mn> <mo>,</mo> <mn>1.0</mn> <mo>,</mo> <mn>1.10</mn> <mo>,</mo> <mn>1.21</mn> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>&amp;Element;</mo> <mo>{</mo> <mo>-</mo> <mn>0.17</mn> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>0.17</mn> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>&amp;Element;</mo> <mo>{</mo> <mo>-</mo> <mn>0.17</mn> <mo>,</mo> <mn>0</mn> <mo>,</mo> <mn>0.17</mn> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> <mo>.</mo> </mrow>
4.根据权利要求1所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的步骤S4中的全卷积化策略,即将全连接层的参数保存,接着用同样尺寸的卷积层替代全连接层,并将之前保存的全连接层参数赋值给新的卷积层。
5.根据权利要求1所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的步骤S5中的检测结果矩阵,其每个点代表原图片中某个227*227像素大小正方形区域的检测结果,通过将其还原至原图中的候选框,再根据候选框的重合情况使用窄化非极大值抑制算法获得人脸候选框。
6.根据权利要求1所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的步骤S5中的窄化非极大值抑制,为一种对象形状定制化的极大值抑制算法,其对人脸这种具有不同长宽比的矩形候选框具有更好的效果,具体如下:
在对多个部分重合的候选框进行非极大值抑制之前,对原始的正方形候选框进行中心窄化,窄化公式为
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>=</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>0.5</mn> <mo>*</mo> <mi>n</mi> <mi>a</mi> <mi>r</mi> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>=</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>=</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>-</mo> <mn>0.5</mn> <mo>*</mo> <mi>n</mi> <mi>a</mi> <mi>r</mi> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>=</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中(x1,y1)为左上角坐标,(x2,y2)为右下角坐标,narrowrate为窄化率,窄化率设定为0.08,这意味着候选框被窄化为保持原高度和中心点,但宽度缩小为原始宽度的0.84倍大小;
接着对窄化后的数据进行非极大值抑制计算去重,去重结束后,进行窄化复原,复原公式如下:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> </mrow> <mn>2</mn> </mfrac> <mo>-</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> </mrow> <mrow> <mn>2</mn> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>n</mi> <mi>a</mi> <mi>r</mi> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>=</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> </mrow> <mn>2</mn> </mfrac> <mo>+</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> </mrow> <mrow> <mn>2</mn> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>n</mi> <mi>a</mi> <mi>r</mi> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mi>r</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>=</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中(x1,y1)为左上角坐标,(x2,y2)为右下角坐标,narrowrate为窄化率,窄化率设定为0.08,这意味着候选框被复原为保持原中心点和高度,宽度放大为窄化前的原始宽度大小。
7.根据权利要求1所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的步骤S6中,对于模型P-Net获取的人脸候选框,将其候选框图像输入至模型A-Net进行偏移模式分类,模型A-Net将输出该候选框图像对于N种偏移模式的分类置信度,利用分类结果集成出该候选框的偏移情况,如下:
<mrow> <mo>&amp;lsqb;</mo> <mi>s</mi> <mo>,</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&amp;rsqb;</mo> <mo>=</mo> <mfrac> <mn>1</mn> <mi>z</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mrow> <mo>(</mo> <mo>&amp;lsqb;</mo> <msub> <mi>s</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>&amp;rsqb;</mo> <mi>I</mi> <mo>(</mo> <mrow> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>&gt;</mo> <mi>t</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,[s,x,y]为最终集成结果;N为偏移模式个数,取N=45,[sn,xn,yn]为类别n的偏移模式,n为偏移模式下标,遵循前文45个偏移模式的设置;z为超过阈值的偏移模式的个数,I为权重计算公式,用于计算超过阈值的偏移模式各自的权重。z和I的计算公式如下:
<mrow> <mi>z</mi> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>&gt;</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>
其中I的定义与上述权重计算公式I定义相同
<mrow> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>&gt;</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>&gt;</mo> <mi>t</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中cn为超过阈值的偏移模式n的权重,t为阈值;
接着根据以上过程获得的分类结果,反分类结果方向微调以获得更加准确的人脸定位,具体如下:
对于某左上角坐标为(x,y),长宽为(w,h)的候选框,通过A-Net分类获得其偏移模式为[x,y,s],则其反偏移模式方向微调后的[xnew,ynew,wnew,hnew]为:
<mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mfrac> <mrow> <mi>x</mi> <mo>*</mo> <mi>w</mi> </mrow> <mi>s</mi> </mfrac> <mo>,</mo> <mi>y</mi> <mo>-</mo> <mfrac> <mrow> <mi>y</mi> <mo>*</mo> <mi>h</mi> </mrow> <mi>s</mi> </mfrac> <mo>,</mo> <mfrac> <mi>w</mi> <mi>s</mi> </mfrac> <mo>,</mo> <mfrac> <mi>h</mi> <mi>s</mi> </mfrac> <mo>)</mo> <mo>.</mo> </mrow>
8.根据权利要求1所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的步骤S6中,在反偏移模式方向微调之后,再次将该已微调候选框输入模型A-Net之中,并通过再次的偏移情况估计来判断目前该候选框是否到达最合适的位置,若是,则停止微调,进入下一步;若否,则继续进行微调步骤,直至满足条件或者迭代次数超过设定阈值为止。
9.根据权利要求8所述的一种基于深度神经网络的迭代定位式人脸检测方法,其特征在于,所述的候选框是否到达最合适的位置的判断公式如下:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mi>s</mi> <mo>-</mo> <mn>1.0</mn> <mo>|</mo> <mo>&lt;</mo> <mn>0.0001</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <mi>x</mi> <mo>-</mo> <mn>0.0</mn> <mo>|</mo> <mo>&lt;</mo> <mn>0.0001</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <mi>y</mi> <mo>-</mo> <mn>0.0</mn> <mo>|</mo> <mo>&lt;</mo> <mn>0.0001</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,[s,x,y]为根据上述公式计算的当前候选框的集成偏移模式,同时,设定最大迭代次数为10次,即最大迭代10次结束。
CN201711034973.7A 2017-10-30 2017-10-30 一种基于深度神经网络的迭代定位式人脸检测方法 Active CN107784288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711034973.7A CN107784288B (zh) 2017-10-30 2017-10-30 一种基于深度神经网络的迭代定位式人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711034973.7A CN107784288B (zh) 2017-10-30 2017-10-30 一种基于深度神经网络的迭代定位式人脸检测方法

Publications (2)

Publication Number Publication Date
CN107784288A true CN107784288A (zh) 2018-03-09
CN107784288B CN107784288B (zh) 2020-01-14

Family

ID=61432442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711034973.7A Active CN107784288B (zh) 2017-10-30 2017-10-30 一种基于深度神经网络的迭代定位式人脸检测方法

Country Status (1)

Country Link
CN (1) CN107784288B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109031262A (zh) * 2018-06-05 2018-12-18 长沙大京网络科技有限公司 一种定位寻车系统及其方法
CN109145798A (zh) * 2018-08-13 2019-01-04 浙江零跑科技有限公司 一种驾驶场景目标识别与可行驶区域分割集成方法
CN109344762A (zh) * 2018-09-26 2019-02-15 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109684920A (zh) * 2018-11-19 2019-04-26 腾讯科技(深圳)有限公司 物体关键点的定位方法、图像处理方法、装置及存储介质
CN109840565A (zh) * 2019-01-31 2019-06-04 成都大学 一种基于眼部轮廓特征点纵横比的眨眼检测方法
CN110321841A (zh) * 2019-07-03 2019-10-11 成都汇纳智能科技有限公司 一种人脸检测方法及系统
CN110472640A (zh) * 2019-08-15 2019-11-19 山东浪潮人工智能研究院有限公司 一种目标检测模型预测框处理方法及装置
CN110647813A (zh) * 2019-08-21 2020-01-03 成都携恩科技有限公司 一种基于无人机航拍的人脸实时检测识别方法
CN112183351A (zh) * 2020-09-28 2021-01-05 普联国际有限公司 结合肤色信息的人脸检测方法、装置、设备及可读存储介质
CN113139460A (zh) * 2021-04-22 2021-07-20 广州织点智能科技有限公司 一种人脸检测模型训练方法、人脸检测方法及其相关装置
CN115830411A (zh) * 2022-11-18 2023-03-21 智慧眼科技股份有限公司 生物特征模型训练方法、生物特征提取方法及相关设备
CN118840778A (zh) * 2024-09-24 2024-10-25 四川省寰宇众恒科技有限公司 人脸识别算法及基于人脸识别和定位检测的智能帽贴

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130108171A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US20160004904A1 (en) * 2010-06-07 2016-01-07 Affectiva, Inc. Facial tracking with classifiers
CN105701467A (zh) * 2016-01-13 2016-06-22 河海大学常州校区 一种基于人体形态特征的多人异常行为识别方法
CN106874868A (zh) * 2017-02-14 2017-06-20 北京飞搜科技有限公司 一种基于三级卷积神经网络的人脸检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160004904A1 (en) * 2010-06-07 2016-01-07 Affectiva, Inc. Facial tracking with classifiers
US20130108171A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
CN105701467A (zh) * 2016-01-13 2016-06-22 河海大学常州校区 一种基于人体形态特征的多人异常行为识别方法
CN106874868A (zh) * 2017-02-14 2017-06-20 北京飞搜科技有限公司 一种基于三级卷积神经网络的人脸检测方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109031262A (zh) * 2018-06-05 2018-12-18 长沙大京网络科技有限公司 一种定位寻车系统及其方法
CN109145798A (zh) * 2018-08-13 2019-01-04 浙江零跑科技有限公司 一种驾驶场景目标识别与可行驶区域分割集成方法
CN109145798B (zh) * 2018-08-13 2021-10-22 浙江零跑科技股份有限公司 一种驾驶场景目标识别与可行驶区域分割集成方法
CN109344762A (zh) * 2018-09-26 2019-02-15 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109684920B (zh) * 2018-11-19 2020-12-11 腾讯科技(深圳)有限公司 物体关键点的定位方法、图像处理方法、装置及存储介质
CN109684920A (zh) * 2018-11-19 2019-04-26 腾讯科技(深圳)有限公司 物体关键点的定位方法、图像处理方法、装置及存储介质
US11450080B2 (en) 2018-11-19 2022-09-20 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus, and storage medium
CN109840565A (zh) * 2019-01-31 2019-06-04 成都大学 一种基于眼部轮廓特征点纵横比的眨眼检测方法
CN110321841A (zh) * 2019-07-03 2019-10-11 成都汇纳智能科技有限公司 一种人脸检测方法及系统
CN110472640A (zh) * 2019-08-15 2019-11-19 山东浪潮人工智能研究院有限公司 一种目标检测模型预测框处理方法及装置
CN110472640B (zh) * 2019-08-15 2022-03-15 山东浪潮科学研究院有限公司 一种目标检测模型预测框处理方法及装置
CN110647813A (zh) * 2019-08-21 2020-01-03 成都携恩科技有限公司 一种基于无人机航拍的人脸实时检测识别方法
CN112183351A (zh) * 2020-09-28 2021-01-05 普联国际有限公司 结合肤色信息的人脸检测方法、装置、设备及可读存储介质
CN112183351B (zh) * 2020-09-28 2024-03-29 普联国际有限公司 结合肤色信息的人脸检测方法、装置、设备及可读存储介质
CN113139460A (zh) * 2021-04-22 2021-07-20 广州织点智能科技有限公司 一种人脸检测模型训练方法、人脸检测方法及其相关装置
CN115830411A (zh) * 2022-11-18 2023-03-21 智慧眼科技股份有限公司 生物特征模型训练方法、生物特征提取方法及相关设备
CN115830411B (zh) * 2022-11-18 2023-09-01 智慧眼科技股份有限公司 生物特征模型训练方法、生物特征提取方法及相关设备
CN118840778A (zh) * 2024-09-24 2024-10-25 四川省寰宇众恒科技有限公司 人脸识别算法及基于人脸识别和定位检测的智能帽贴

Also Published As

Publication number Publication date
CN107784288B (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
Lee et al. Deep saliency with encoded low level distance map and high level features
Thai et al. Image classification using support vector machine and artificial neural network
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN111860171B (zh) 一种大规模遥感图像中不规则形状目标的检测方法及系统
WO2019233166A1 (zh) 一种表面缺陷检测方法、装置及电子设备
Gao et al. A Novel Deep Convolutional Neural Network Based on ResNet‐18 and Transfer Learning for Detection of Wood Knot Defects
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN104537647B (zh) 一种目标检测方法及装置
CN108230278B (zh) 一种基于生成对抗网络的图像去雨滴方法
CN110532900A (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN110070091B (zh) 用于街景理解的基于动态插值重建的语义分割方法及系统
CN112580458B (zh) 人脸表情识别方法、装置、设备及存储介质
CN101667245B (zh) 基于支持向量新颖检测分类器级联的人脸检测方法
CN116206185A (zh) 一种基于改进YOLOv7的轻量级小目标检测方法
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN114842343B (zh) 一种基于ViT的航空图像识别方法
CN110427821A (zh) 一种基于轻量级卷积神经网络的人脸检测方法及系统
CN111986125A (zh) 一种用于多目标任务实例分割的方法
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN113408418A (zh) 一种书法字体与文字内容同步识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210918

Address after: 011599 West third floor and west fourth floor of enterprise headquarters in Shengle modern service industry cluster, Shengle economic Park, Helinger County, Hohhot City, Inner Mongolia Autonomous Region

Patentee after: INNER MONGOLIA KEDIAN DATA SERVICE Co.,Ltd.

Address before: 510006 South China University of Technology, Guangzhou University City, Panyu District, Guangzhou City, Guangdong Province

Patentee before: SOUTH CHINA University OF TECHNOLOGY