CN109543606B

CN109543606B - 一种加入注意力机制的人脸识别方法

Info

Publication number: CN109543606B
Application number: CN201811396296.8A
Authority: CN
Inventors: 郑伟诗; 叶海佳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2022-09-27
Anticipated expiration: 2038-11-22
Also published as: CN109543606A

Abstract

本发明公开了一种加入注意力机制的人脸识别方法，先用级联的神经网络对数据集进行人脸检测和人脸对齐处理，再构建加入注意力机制的深度神经网络，训练注意力机制网络，最后将测试样本输入训练好注意力机制网络进行人脸识别。本发明采用STN模块构建注意力机制，在深度神经网络的每一个阶段后都输入到不同的STN模块，把STN模块的串联输出结果和深度神经网络的输出结果融合起来，作为输出特征。为了让网络能够自适应地学习到具有判别力的感兴趣区域特征，本发明采用通过STN模块对输入进行仿射变换操作的方法，加强了网络对局部信息的理解与学习，在现有的人脸识别网络上，提高了人脸识别的准确率，增强了识别系统的鲁棒性。

Description

一种加入注意力机制的人脸识别方法

技术领域

本发明涉及机器深度学习、图像处理识别领域，尤其涉及一种加入注意力机制的人脸识别方法。

背景技术

人脸识别是近年来计算机视觉领域和机器学习领域中最富挑战性的课题之一，受到了研究者们的广泛关注.成功有效的人脸识别具有广阔的应用前景，可在国防安全、视频监控、人机交互和视频索引等场景发挥巨大作用。

目前，大部分基于CNN的特征提取网络使用分类损失(Softmax Loss)作为网络训练的监督信号，这些网络以分类为学习目标，在训练过程中不同类别之间的距离会逐渐增大。Deepface使用分类网络方法，同时使用复杂的3D对齐方式和大量的训练数据。DeepID则是首先对人脸图片进行分块，然后使用多个分类网络对不同人脸块进行特征提取，最后使用联合贝叶斯算法对这些特征进行融合，由于该技术是对不同人脸块进行特征提取，所以数据集比原图增加了好几倍，训练时间大大增加，计算资源消耗大。另外这些人脸块都是严格固定好划分方式的，对于侧脸或者非规则的人脸图片，则该准确率会大打折扣，算法不够鲁棒。

发明内容

为了克服现有技术存在的缺陷，本发明提供一种加入注意力机制的人脸识别方法，通过注意力模块，神经网络能够自动学习到具有判别性的人脸块特征，而不是固定划分人脸块，用这样的方法提取到的特征更有利于提升分类准确率，鲁棒性更强。同时由于注意力模块结构简洁，所以计算资源消耗少，网络收敛速度快。

为了达到上述目的，本发明采用以下技术方案：

本发明公开一种加入注意力机制的人脸识别方法，包括下述步骤：

S1：使用级联的卷积神经网络进行图像预处理，得到对齐的人脸图像；

S2：对预处理后的图像进行数据增广，所述数据增广包括随机裁剪和随机翻转操作，经过步骤S1处理后的图像随机裁剪出设定的尺寸区域，以设定的概率对图像进行翻转，最后对图像做白化处理，对于测试样本则直接归一化成设定尺寸的图像，然后进行白化处理，所述设定尺寸与随机裁剪的设定尺寸相同；

S3：设置注意力机制模块，用于网络自动学习到具有判别性的人脸块特征，利用注意力机制模块将输入的图像进行卷积操作，然后进行全连接回归输出M个角度值，M为自然数，基于M个角度值构建矩阵，通过矩阵运算提取图像的局部特征；

S4：搭建注意力机制网络，采用深度神经网络提取图像特征,并加入注意力机制模块，所述注意力机制网络包括主路和支路，所述主路为图片通过深度神经网络后得到的输出，所述支路为深度神经网络的每个阶段的输出经过不同的注意力机制模块，再依次进行elementwise-add后得到的输出，最后把主路和支路的输出进行特征拼接，得到最终的图像特征图，用于计算损失函数和作为人脸识别的特征；

S5：训练注意力机制网络，采用人脸识别损失函数对注意力机制网络进行训练并且保存；

S6：提取图像特征，将测试样本输入到训练好的注意力机制网络中，得到优质的图像特征；

S7：人脸识别，把提取得到的图像特征用softmax回归方法进行分类，完成测试样本的识别。

作为优选的技术方案，步骤S1中所述级联的卷积神经网络采用MTCNN，包括P-Net、R-Net和O-Net，给定任意一张待测图像，缩放到不同比例，构建图像金字塔，然后依次输入P-Net、R-Net和O-Net，提取人脸候选框，还包括拟合人脸与非人脸分类、边框回归和人脸特征点坐标回归的目标训练，具体损失函数如下所述：

MTCNN进行人脸与非人脸分类使用交叉熵作为损失函数，记为L_det，计算公式如下：

其中，p⁽ⁱ⁾为模型预测的概率，

为测试样本x⁽ⁱ⁾的标签,

MTCNN进行边框回归使用L2Loss作为损失函数，记为L_box，计算公式如下：

其中，

是模型预测的回归值，

是测试样本x⁽ⁱ⁾真实的坐标值，且

MTCNN进行人脸特征点坐标回归同样使用L2Loss作为损失函数，记为L_landmark，计算公式如下：

其中，

是模型预测的回归值，

是测试样本x⁽ⁱ⁾真实人脸特征点的坐标值，且

作为优选的技术方案，所述MTCNN引入总目标函数，用于排除非人脸数据参与到损失函数的计算，所述总目标函数计算公式如下：

其中，N表示训练样本总数，α_j表示对应目标函数在总的目标函数中的重要程度，对于P-Net或R-Net的相关权重为(α_det＝1,α_box＝0.5,α_landmark＝0.5)；对于ONet的相关权重为(α_det＝1,α_box＝0.5,α_landmark＝1)。

作为优选的技术方案，步骤S3所述注意力机制模块采用STN模块，所述STN模块包括本地化网络模块，网格生成器和采样器，

所述本地化网络模块将输入的图片进行卷积操作，然后进行全连接回归出6个角度值，形成2*3的矩阵，

所述网格生成器通过矩阵运算计算出目标图V中的每个位置对应原图U中的坐标位置，生成T_θ(G_i)，具体计算公式如下所述：

其中，

代表原始图的坐标，

代表目标图的坐标，A_θ为本地化网络模块网络回归出的6个角度值，

所述采样器根据T(G)中的坐标信息，在原始图U中进行采样，将U中的像素复制到目标图V中。

作为优选的技术方案，步骤S4中，所述深度神经网络的基础网络采用resnet50，resnet50包括5个stage，具体如下所述：

Stage0：包括卷积层和池化层，所述卷积层的卷积核大小为7x7，输出通道数为64，步长为2，所述池化层采用maxpooling的池化方式，窗口大小为3x3，步长为2；

Stage1：由3个输出通道数为256的块组成；

Stage2：由4个输出通道数为512的块组成；

Stage3：由5个输出通道数为1024的块组成；

Stage4：由6个输出通道数为2048的块组成；

所述支路网络将基础网络resnet50的stage0,1,2,3,4得到的图像特征图分别输入到各个STN模块中，得到特征L0、L1、L2、L3、L4，所述L1-L4均做一次卷积操作，卷积核大小为1x1，步长为1，输出通道数为上一个特征的通道数，用elementwise-add的方式把这些特征依次相加，具体计算方式为：

L0+f(L1)+f(L2)+f(L3)+f(L4)

其中”+”为elsemenwise-add操作，f(·)为卷积操作。

作为优选的技术方案，所述块的结构形成步骤具体如下所述：

采用一个1x1卷积进行降维，然后进行3x3卷积操作，再用1x1卷积升维，输出与输入进行elementwise-add操作后得到的结果，

最后加入一个128维的全连接层进行降维。

作为优选的技术方案，步骤S5中所述人脸识别损失函数采用Softmax函数，基于Softmax函数的分类模型的第K路输出为：

其中

b_k为Softmax层的两个参数，表示有K组权重和偏置。

作为优选的技术方案，所述Softmax层采用未激活的全连接层。

作为优选的技术方案，所述Softmax层输出变换后第K类的后验概率为：

为了每个测试样本所属类别的概率最大，定义Softmax Loss为：

其中θ表示模型参数，x⁽ⁱ⁾表示测试样本y⁽ⁱ⁾所属类别。

作为优选的技术方案，所述基于Softmax函数的分类模型还包括优化器，优化器采用Adam。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明基于提取更有判别性的人脸局部特征为出发点，在基础神经网络的框架下设计了注意力机制模块，并且以独特的连接方式和深度神经网络结合，形成了独特的加入注意力机制的人脸识别方法，能够提取到丰富类别相关信息的人脸特征。

(2)本发明对预处理后的图像进行数据增广，包括随机裁剪和随机翻转操作，用于增加训练的样本数据，训练集的数据扩增能够加强网络的鲁棒性。

(3)本发明的注意力机制模块采用STN模块，STN模块包括本地化网络模块，网格生成器和采样器，该STN模块结构简洁，计算资源消耗少，网络收敛速度快。

附图说明

图1为本发明人脸对齐网络的结构示意图；

图2为本发明STN模块的结构示意图；

图3为本发明基础深度卷积神经网络的结构示意图；

图4为本发明基础深度卷积神经网络中的块结构示意图；

图5为本发明注意力机制网络的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例公开一种基于加入注意力机制的人脸识别算法，所述算法包括以下步骤：

步骤一：使用级联的神经网络进行人脸检测人脸对齐的数据预处理，采用的级联的卷积神经网络是MTCNN，MTCNN级联结构主要由3个卷积神经网络组成，分别为P-Net、R-Net和O-Net。给定一张待检测图片，图片会首先被缩放到不同的比例，以构建图片的尺度空间，然后依次输入三个网络，以提取人脸候选框。如图1所示，该算法有三个阶段组成：第一阶段，浅层的CNN快速产生候选窗体；第二阶段，通过更复杂的CNN精炼候选窗体，丢弃大量的重叠窗体；第三阶段，使用更加强大的CNN，实现候选窗体去留，同时显示五个面部关键点定位。在进行模型训练的时候，为了融合人脸检测和人脸对齐任务，MTCNN同时拟合3个目标：人脸/非人脸分类、边框回归和人脸特征点坐标回归。三个损失函数分别是：

(1)人脸/非人脸分类

人脸/非人脸是一个二分类问题，所以MTCNN使用交叉熵作为损失函数，记为L_det。对于每个测试样本x⁽ⁱ⁾，

其中，p⁽ⁱ⁾为模型预测的概率，

为测试样本x⁽ⁱ⁾的标签,

(2)边框回归：边框回归的目的在于对于每个人脸候选框估计与附近真实人脸区域的偏移量，包括左边、上边、宽和高。所以边框回归是一个回归问题，以上述4个数值作为回归目标，所以MTCNN使用L2Loss作为损失函数，记为L_box。对于每个测试样本x⁽ⁱ⁾，

其中，是模型预测的回归值，

是测试样本x⁽ⁱ⁾真实的坐标值，因为待回归的目标有4个值，所以

(3)人脸特征点坐标回归

人脸特征点坐标回归同样是一个回归问题，由于MTCNN只检测5个人脸特征点，而每个特征点包含x、y坐标，所以一共有10个回归目标。这里同样使用L2Loss作为损失函数，记为L_landmark。对于每个测试样本x⁽ⁱ⁾：

其中，

是模型预测的回归值，

是测试样本x⁽ⁱ⁾真实人脸特征点的坐标值，因为待回归的目标有10个值，所以

(4)总目标函数

让模型同时拟合不同的目标，需要使用不同类型的训练数据，例如非人脸图片、部分人脸图片、带特征点标注人脸数据等，但并不是所有数据对所有目标函数都有意义，例如非人脸数据对L_landmark并没有意义。因而在训练的时候，并不是每种样本都需要参与所有损失函数的计算，为了进行对不同的样本进行区分，MTCNN引入样本类型标签

表示样本x⁽ⁱ⁾是否属于类型j，于是总目标函数表示为

其中，N表示训练样本总数，α_j表示对应目标函数在总的目标函数中的重要程度，对于P-Net和R-Net，相关权重为(α_det＝1,α_box＝0.5,α_landmark＝0.5)；而对于ONet，为了保证人脸特征点的准确度，提高了特征点坐标回归目标函数的权重，变为(α_det＝1,α_box＝0.5,α_landmark＝1)

步骤二：数据增广

数据增广采用了随机裁剪和随机翻转操作，前者将经过步骤一处理后的图片中随机裁剪出160x160区域，后者以0.5的概率对图片进行翻转。最后对图片进行白化。测试样本则直接归一化成160x160大小的图片，然后同样进行白化。

步骤三：设计注意力机制模块

注意力机制模块采用的是STN模块：如图2所示，STN模块由本地化网络模块(Localisation Network)，网格生成器(Grid generator)，采样器(Sampler)3个部分组成。

Localisation Network：该网络就是一个简单的回归网络。将输入的图片进行几个卷积操作，然后全连接回归出6个角度值(假设是仿射变换)，2*3的矩阵。

Grid generator：网格生成器负责将V中的坐标位置，通过矩阵运算，计算出目标图V中的每个位置对应原图U中的坐标位置，即生成T_θ(G_i)。

这里的Grid采样过程，对于二维仿射变换(旋转，平移，缩放)来说，就是简单的矩阵运算：

上式中，

代表原始图的坐标，

代表目标图的坐标。A_θ为Localisation Network网络回归出的6个角度值。

Sampler：采样器根据T_θ(G_i)中的坐标信息，在原始图U中进行采样，将U中的像素复制到目标图V中。

步骤三：搭建注意力机制网络

特征提取采用深度神经网络的方法，采用的基础网络是resnet50,然后再这个基础上加入注意力机制模块。而注意力机制模块采用的是STN模块：将输入特征进行几个卷积操作，然后全连接回归出6个角度值(假设是仿射变换)，2*3的矩阵。然后输入乘以这个矩阵就能得到局部有意义的特征。

网络分为主路和支路，主路为图片通过resnet50得到的输出，支路为经过不同的STN模块后再依次进行elementwise-add得到的输出。

主路：resnet50，由5个阶段组成，其中每个阶段包括了若干个卷积和池化操作。

如图3所示，首先resnet50按输出特征图尺寸来分，可以分为5个stage，每个stage输出的特征图大小都不一样。

Stage0有一个卷积层和池化层，卷积核大小是7x7，输出通道数为64，步长为2。池化采用的是maxpooling,窗口大小为3x3，步长为2。

Stage1由3个输出通道数为256的块(block)组成。

Stage2由4个输出通道数为512的块(block)组成。

Stage3由5个输出通道数为1024的块(block)组成。

Stage4由6个输出通道数为2048的块(block)组成。

如图4所示，其中每一个block的结构都是先用一个1x1卷积进行降维，然后进行3x3卷积，最后再用1x1卷积升维，输出与输入做elementwise-add操作，得到结果。

最后接一个128维的全连接层进行信息整合。

支路：分别把stage0,1,2,3,4得到的特征图输入到各个STN模块中得到各自的特征：

stage0经过STN后的输出为L0；

Stage1经过STN后的输出为L1；

Stage2经过STN后的输出为L2；

Stage3经过STN后的输出为L3；

Stage4经过STN后的输出为L4；

如图5所示，除第一个特征外，其余的特征都做一次卷积操作，卷积核大小是1x1，步长为1，输出通道数为上一个特征的通道数，用elementwise-add的方式把这些特征依次融合起来，所以做卷积操作的意义就是用于改变特征维度，以便特征相加操作。具体相加方法如下：

L0+f(L1)+f(L2)+f(L3)+f(L4)

其中”+”为elsemenwise-add操作，f(·)为卷积操作。

这样就能得到主路输出和支路输出，最后把两路的输出进行特征拼接，得到最终的特征。这个特征将直接用于计算损失函数和作为人脸识别的特征。

步骤五：训练注意力机制神经网络

在本实施例中，构建Softmax分类模型时，我们将特征输出为x输入K路Softmax层(使用未激活的全连接层实现)，以计算样本关于不同类别的后验概率

其中K代表类别数目。Softmax层包含两个参数，W和b，于是第k路输出

又可以表示成：

但由于全连接层的输出是任意数值，为了样本关于不同类别的归一化概率，我们需要对Softmax层输出变换，则得到的关于第k类的后验概率为：

在本实施例中，为了最大化每个样本关于所属类别的概率最大，我们可以定义Softmax Loss为：

θ表示模型参数，x⁽ⁱ⁾表示样本y⁽ⁱ⁾所属类别。

在本实施例中，优化器采用Adam，权值衰减为5e-5，batch size为128,平均池化层输出采用dropout操作，保持概率为0.8。学习率调整策略为：先以0.1作为学习率对训练集训练3轮，然后降低至0.01训练2轮，接着再降低至0.001训练2轮，共7轮。每训完一轮的分类模型都会在LFW上进行验证，最后把训练好的分类模型保存。

步骤六：学习图像的高层特征和抽象特征

提取图像特征，将测试样本输入到训练好的注意力机制网络中，得到优质的图像特征。

步骤七：人脸识别

把提取得到的图像特征用softmax回归方法进行分类，完成测试样本的识别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种加入注意力机制的人脸识别方法，其特征在于，包括下述步骤：

步骤S3所述注意力机制模块采用STN模块，所述STN模块包括本地化网络模块，网格生成器和采样器，

其中，

代表原始图的坐标，

所述采样器根据T(G)中的坐标信息，在原始图U中进行采样，将U中的像素复制到目标图V中；

步骤S4中，所述深度神经网络的基础网络采用resnet50，resnet50包括5个stage，具体如下所述：

Stage1：由3个输出通道数为256的块组成；

Stage2：由4个输出通道数为512的块组成；

Stage3：由5个输出通道数为1024的块组成；

Stage4：由6个输出通道数为2048的块组成；

L0+f(L1)+f(L2)+f(L3)+f(L4)

其中”+”为elsemenwise-add操作，f(·)为卷积操作；

2.根据权利要求1所述的一种加入注意力机制的人脸识别方法，其特征在于，步骤S1中所述级联的卷积神经网络采用MTCNN，包括P-Net、R-Net和O-Net，给定任意一张待测图像，缩放到不同比例，构建图像金字塔，然后依次输入P-Net、R-Net和O-Net，提取人脸候选框，还包括拟合人脸与非人脸分类、边框回归和人脸特征点坐标回归的目标训练，具体损失函数如下所述：