CN110458021A - 一种基于物理特性和分布特性的人脸运动单元检测方法 - Google Patents
一种基于物理特性和分布特性的人脸运动单元检测方法 Download PDFInfo
- Publication number
- CN110458021A CN110458021A CN201910620049.XA CN201910620049A CN110458021A CN 110458021 A CN110458021 A CN 110458021A CN 201910620049 A CN201910620049 A CN 201910620049A CN 110458021 A CN110458021 A CN 110458021A
- Authority
- CN
- China
- Prior art keywords
- moving cell
- detection method
- cell detection
- face moving
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,该方法基于预训练的人脸运动单元检测模型对一组图片序列进行处理,获取人脸运动单元检测结果,所述人脸运动单元检测模型包括依次连接的交叉拼接网络和长短期记忆网络。与现有技术相比,本发明首次考虑并解决了不同人脸运动单元之间数据分布不均衡问题,进一步提升了人脸运动单元检测效果。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于物理特性和分布特性的人脸运动单元检测方法。
背景技术
人的面部表情分析是人工智能的重要领域,而人脸运动单元(AU,action unit,)的检测对于人面部表情分析来说至关重要。人的面部表情是人的脸部肌肉动作导致的,脸部动作编码系统把一块或多块肌肉的动作称为一个个人脸运动单元。人脸部几乎所有的表情都可以用一个人脸运动单元或多个人脸运动单元的组合表示。例如:笑可以用脸颊上提(AU6)和嘴角上扬(AU12)组合表示,如图3所示。
人脸运动单元检测,就是要根据图片或者视频检测出来某人脸上出现了哪几种人脸运动单元,比如一个人笑了,就很可能会出现脸颊上提(AU6)和嘴角上扬(AU12)。
对于人的面部表情分析而言,研究人员一般会把人的面部表情(Emotion)分为七类:高兴(Happiness)、忧伤(Sadness)、惊讶(Surprise)、恐惧(Fear)、生气(Anger)、厌恶(Disgust)和蔑视(Contempt),称为普适的面部表情。其中的每种表情都可以用AU的组合来表示,这七种面部表情与人脸运动单元的对应关系如表1所示。因此,能检测出人脸运动单元的情况下,普适的面部表情就可以直接根据表1得到。
表1普适表情与AU之间的对应关系
Emotion | Action units |
Happiness | 6+12 |
Sadness | 1+4+15 |
Surprise | 1+2+5B+26 |
Fear | 1+2+4+5+7+20+26 |
Anger | 4+5+7+23 |
Disgust | 9+15+16 |
Contempt | R12A+R14A |
此外,现实应用场景中用普适的七种表情不足以满足人脸面部表情分析的需求,比如医院检测病人疼痛的表情,教学活动中检测学生困惑的表情等,这些表情无法用普适的七种表情来表达,就需要用AU这种详细的肌肉运动来描述。因此,AU检测对于人的面部表情分析,是非常重要的。
AU检测算法就是要提取人脸特征并且分类计算出脸部有哪些AU出现了。现有的AU检测算法基本上着重于利用AU的2大物理特性去设计实验。1)时序特性,对于视频数据而言,因为AU是一个连续的动作,时序信息对于AU检测是非常重要的,比如第1秒的时候这个人在笑,第1.5秒时他还在笑的可能性是非常大的;2)AU之间的相关性,AU之间的相关性是指某些AU经常会一起出现,某些AU具备互斥特性通常不会一起出现,最典型的例子就是普适表情跟AU之间的对应关系,由于普适表情是人们日常生活中经常出现的表情,他们所对应的AU组合是经常一起出现的AU组合;3)区域特性,根据AU的定义和来源,对于具体某一种AU而言,AU是否出现只和脸部某一块区域有关,比如AU12只跟嘴角周围的区域有关,与脸部其他部分包括眼睛额头等区域无关,区域特性也可以称之为稀疏特性。目前为止的AU检测算法基本上都是利用以上提到的AU的物理特性,进行精巧的算法设计,来提升AU的检测结果。而本文所描述的算法,除了考虑到AU的物理特性(包括时序特性和AU相关性)以外,还特别考虑了AU的分布特性(分布不均衡特性),即,不同的AU出现的概率不同,有些AU在日常生活中经常出现,而有些AU则非常少出现,从而实现更高的检测效果。
AU算法基本常识:算法的输入是图片或者视频,算法的输出是判断各种AU是否存在。对于某一特定AU而言,输出只有存在和不存在两种状态,所以是个二分类问题,而由于算法是要求出多种AU都知道是否存在,所以AU检测算法要解决的问题是多标签的二分类问题,也就是说一个算法应该得到多个AU分别是否存在的结果。
文献“Deep region and multi-label learning for facial action unitdetection”(Kaili Zhao,Wen Sheng Chu,Honggang Zhang,in Computer Vision andPattern Recognition,2016,pp.3391–3399)公开了DRML算法,DRML算法是基于典型的深度神经网络AlexNet网络结构,考虑了AU检测中的两大物理特性:区域特性和AU之间的相关性。
如图4所示,DRML算法在典型的深度神经网络AlexNet网络结构基础上,删除了其他池化(pooling)层,只保留了一层池化(pooling)层,并增加一个作者自行设计的region层,用于学习脸部的区域特性。
具体地,DRML网络结构输入图片为校准后的人脸图片(Aligned face image),图片大小是宽和高都是170像素的彩色像素人脸单张图片(见图4)最左侧。图片送到DRML网络,先后经过conv1(卷积层1),region2(region层2),pool3(池化层3),conv4(卷积层4),conv5(卷积层5),conv6(卷积层6),conv7(卷积层7),fc8(全连接层8),fc9(全连接层9),outpout(输出)共10层得到12种AU的输出结果。output也是全连接层。除了region层以外,其他层都可以在深度学习框架中找到并直接调用。
如图5所示,为region层(Region layer)的示意图。图片经过第一层卷积计算之后,得到32张宽和高都是160的特征图(feature map),把160×160的特征图拆分为8×8=64块、每一块是20×20像素的小特征图,然后,把20×20像素的小特征图先后经过BN层(batch normalization layer,批量正则化层)、ReLU层(ReLU函数激活层)、conv层(convolution layer,卷积层),最后把所有的64块计算结果拼接起来,作为输出。因而,region层的主要物理含义是把人脸均匀分块,对每块进行单独的学习,再把对每一块的学习结果进行合并。
此外,为了学习到AU之间的相关性,DRML算法在训练时采用了多标签sigmoid交叉熵函数:
式中L为损失,Y为真实值(ground truth),即这张输入图片实际上这些AU是否存在;为算法计算出来的值,即算法检测出来图片的AU情况;N为图片数目,这是因为深度学习网络中通常是一批一批图片送入网络学习,所以N指一批有多少张图片,N为大于等于1的整数;C为标签数目,即有多少种AU需要检测,图4所示输出(output)层有12个输出,即C=12,有12种AU需要检测是否存在;n为N的索引,c为C的索引。
每种人脸运动单元的真实值可以是-1,+1,0。其中+1为正样本,即这个AU存在,-1为负样本,即这个AU不存在,0为无效。这样,每张图片的真实值都可以用12维向量表示,每一维代表一种AU。例如:[1,1,0,0,-1,-1,-1,-1,-1,-1,-1,-1]代表这张脸上出现了第1第2维所代表的AU,没有出现第5到第12维所代表的AU,不知道第3和第4维所代表的AU是否出现。根据多标签sigmoid交叉熵函数公式,“+”以前的部分是计算真实值为+1即正样本的图片损失,“+”以后的部分计算的是真实值为-1即负样本的图片损失,而当某种AU的真实值为0时,“+”前后都不会参与计算,所以这种会被忽略,不参与计算。
DRML算法存在以下缺点:1)算法基础是AlexNet,网络层数较浅,导致学习效果不好,AU检测检测效果不好;2)没有考虑时序信息和不同AU的分布不均衡特性,必然导致算法对那些样本量多的AU检测效果稍好一些,而对样本量少的AU检测效果非常差。
文献“Action unit detection with region adaptation,multi-labelinglearning and optimal temporal fusing”(Wei Li,Farnaz Abtahi,and Zhigang Zhu,inThe IEEE Conference on Computer Vision and Pattern Recognition(CVPR),July2017)公开了R-T1算法,R-T1算法是基于深度学习网络VGG网络结构,综合利用了AU的三大物理特性(时序特性、AU之间的相关性、区域特性)设计,其中时序特性采用LSTM(longshort term system,长短期记忆网络)网络,AU之间的相关性采用多标签学习,区域特性采用作者自己设计的ROI Nets实现。
如图6所示,R-T1算法基于VGG网络结构,删除了VGG中卷积层conv12以后的部分,拼接了ROI Nets和LSTM网络,最终输出多种AU的结果。训练时进行多标签学习所采用的损失(loss)函数的表达式为:
式中,l为真实值,可取0或者1,0为负样本,即没有出现该AU,1为正样本,即出现了该AU,P为算法计算出来的出现该AU的概率,作者用0.05和1.05来预防损失爆炸,限制损失范围。
具体地,R-T1算法输入数据是24张宽W高H的图片作为一个序列,序列的选取方法是对于当前帧图片,在视频中这张图片前面的部分随机选择23张图片,按照时间顺序排列为图片序列,每次输入N个序列。图片数据首先通过VGG的conv1到conv12层,得到512张14×14的特征图(feature map),然后根据图片的20个与AU相关的特征点(landmarks)在原输入图片中的位置,映射到特征图中,在特征图上,以特征点为中心截取3×3的区域,扩充到6×6大小,再做卷积,最后把所有特征点映射的区域计算结果整合,作为ROI Nets的输出,最后再经过LSTM网络结构获取时序信息,得到AU的输出结果(AU Labels)。
ROI Nets说明:ROI(Region Of Interests)为感兴趣的区域。ROI Nets是用来针对不同AU,参考20个特征点选择不同区域用来提取AU相关的区域特征。特征点会给出眼睛鼻子嘴巴等的位置,由于不同AU涉及到的肌肉位置不同,根据特征点位置可以大致确认AU肌肉位置,由此选择区域中心。根据特征点位置映射到特征图上对应的点,以这20个点为中心,选择区域,从特征图上提取20个区域,进行扩充(upscale)和卷积(conv)操作,并且把最终的结果整合起来,
LSTM网络:LSTM通常被用于处理有时序信息的数据,LSTM是由多个LSTM记忆单元组成的,一个LSTM记忆单元如图7所示。图中,t为当前时刻,t-1为上一时刻,C为状态,h为输出,Sigmoid为Sigmoid激活函数,tanh为tanh激活函数。整个LSTM记忆单元通过输入门、遗忘门和输出门决定更新信息、忘记部分信息,并输出结果和更新后的状态。
R-T1算法存在以下缺点:1)输入数据不仅需要图片,还需要特征点信息,所以R-T1网络的输入数据比只输入图片的数据要多;2)没有考虑时序信息和不同AU的分布不均衡特性,必然导致算法对那些样本量多的AU检测效果稍好一些,而对样本量少的AU检测效果非常差;3)没有考虑同一种AU正负样本数据不均衡的问题,通常数据集中负样(AU没有出现)本数目远远超过正样本(AU出现)数目,正负样本的不均衡会影响到算法的训练,导致AU检测效果不高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于物理特性和分布特性的人脸运动单元检测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,该方法基于预训练的人脸运动单元检测模型对一组图片序列进行处理,获取人脸运动单元检测结果,所述人脸运动单元检测模型包括依次连接的交叉拼接网络和长短期记忆网络。
进一步地,所述交叉拼接网络为基于交叉拼接块的VGG网络,即以交叉拼接块替换了VGG网络中所有的卷积层得到交叉拼接网络。
进一步地,每个所述交叉拼接块包括依次连接的第一卷积层和第一激活函数,所述第一激活函数的输出与第一卷积层的输入拼接,这样便融合了上一层的特征和下一层的特征。
进一步地,所述第一激活函数包括正则化,正则化自动削弱不重要的特征变量,防止过拟合。
进一步地,所述第一激活函数的输出与第一卷积层的输入拼接后连接有第二卷积层,所述第二卷积层的卷积核大小为1×1,为了保持和原来相同的通道数。
特征在提取过程中,越先进行计算的层提取的特征越底层越精细,越高层越是后计算的层提取的特征越偏向于语义特征,通过这种层与层之间特征的融合,强化底层特征的提取,更精细的特征使得在有限的训练数据量时学习到足够充分的特征信息用于判别AU成为可能,因此,交叉拼接块,本身具有对不同AU分布不敏感的特性,即便有些AU样本数量少,也足够我们的算法提取出充足的特征进行AU的检测了。
进一步地,所述图片序列为连续帧的图片。序列图片中,相邻两张的时序关联更加强,由于视频是25帧每秒,每两帧之间的时间间隔仅有40毫秒,人脸部AU很难在40毫秒内有非常大的变化,因而连续帧的图片序列具有非常更强的时序信息。
进一步地,所述图片有32张,经过对比测试发现,32张图片作为一个序列时效果更好。
进一步地,所述人脸运动单元检测模型的预训练所采用的损失函数为多标签sigmoid交叉熵函数,进行多标签学习。该损失函数中设计了对无效标签的处理,通过把一些负样本设置为无效标签的方式,即把真实值为-1的设置为0不参与损失计算,平衡了同一种AU的正负样本分布,使得训练模型时模型能训练得更好。
与现有技术相比,本发明具有以下优点:
(1)本发明人脸运动单元检测方法首次考虑不同人脸运动单元之间数据分布不均衡问题的,并提出了交叉拼接块结构使网络对不同人脸运动单元数据分布不再敏感,在数据量处于劣势的人脸运动单元上面检测效果的提升尤其明显。
(2)本发明交叉拼接块中还增加了一个1×1的卷积层,用以恢复通道数目,这样使得原本VGG的卷积层参数数目得以保留,因而能采用VGG-Face训练好的模型对本发明检测方法进行初始化操作。由于VGG-Face原本在大量人脸数据上进行训练,它提取的特征就是人脸特有的特征信息,在此基础上进行训练,大大加快了本发明模型的收敛速度。
(3)本发明采用多标签sigmoid交叉熵函数作为损失函数,该函数中设计了对无效标签的处理,通过把一些负样本设置为无效标签的方式,平衡同一种AU的正负样本分布,使得训练模型时模型能训练得更好。
(4)本发明采用连续帧的32张图片作为一组输入序列,该序列中相邻两张图片的时序关联更加强,由于视频是25帧每秒,每两帧之间的时间间隔仅有40毫秒,人脸部AU很难在40毫秒内有非常大的变化,因而本发明输入序列具有非常更强的时序信息,且32张图片作为一个序列时效果最好。
附图说明
图1为本发明人脸运动单元检测模型的结构示意图;
图2为VGG网络中的卷积层和交叉拼接块的结构示意图,其中,(2a)为VGG网络中的一个卷积层,(2b)为交叉卷积块;
图3为笑的人脸运动单元组合表示图,(3a)为笑图,(3b)为笑图中的脸颊上提(AU6)图,(3c)为笑图中的嘴角上扬(AU12)图;
图4为DRML算法的结构示意图;
图5为DRML算法中region层的结构示意图;
图6为R-T1算法的结构示意图;
图7为一个LSTM记忆单元的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例提供一种基于物理特性和分布特性的人脸运动单元检测方法,该方法基于预训练的人脸运动单元(AU)检测模型对一组图片序列进行多标签学习分类,获取人脸运动单元检测结果,所述人脸运动单元检测模型包括依次连接的交叉拼接网络和长短期记忆网络。
本实施例基于caffe这一深度学习框架,在Ubuntu系统上实现该人脸运动单元检测模型,该人脸运动单元检测模型不需要增加特殊的层,只需要修改caffe现有的层结构即可完成,实现难度很低,在公共的AU检测算法数据集BP4D、DISFA、GFT上测试表现非常好,超过了目前在这几个数据集上表现好的其他算法。
该检测方法的实现包括人脸运动单元检测模型的建立、训练以及测试,下面进行详细描述:
1、人脸运动单元检测模型的建立
如图1所示,本实施例的人脸运动单元检测模型基于VGG网络进行构建,但设计了交叉拼接块(cross-concat block)替换了VGG中所有的卷积层得到了交叉拼接网络(cross-concat network),交叉拼接网络后连接有一个LSTM网络构成人脸运动单元检测模型。输入图像(Input frames)依次进入交叉拼接网络和LSTM网络后输出为多人脸运动单元标签(AU labels)。
如图2所示,VGG中的卷积层(conv)中,输入数据直接通过卷积层,再经过一个ReLU激活函数得到输出。交叉拼接块依次连接有一个卷积核大小为3×3的卷积层、一个包括正则化(BN)和ReLU的激活函数、一个卷积核大小为1×1的卷积层以及一个ReLU激活函数,并且连接了卷积核大小为3×3卷积层的输入和包括正则化(BN)和ReLU的激活函数的输出进行拼接(C),这样上一层的特征和下一层的特征进行了融合,为了保持和原来相同的通道数。卷积核大小为1×1的卷积层用来调整以保持和原本相同的通道数。
通常来说,特征在提取过程中,越先进行计算的层提取的特征越底层越精细,越高层越是后计算的层提取的特征越偏向于语义特征,通过这种层与层之间特征的融合,强化了底层特征的提取,更精细的特征使得在有限的训练数据量时学习到足够充分的特征信息用于判别AU成为可能,因此,cross-concat block,交叉拼接块,本身具有对不同AU分布不敏感的特性,即便有些AU样本数量少,也足够本人脸运动单元检测模型提取出充足的特征进行AU的检测了。
模型的输入:同R-T1算法类似,本人脸运动单元检测模型的输入是图片序列,对应的采用了LSTM网络来学习AU的时序信息。与R-T1不同的地方在于,R-T1算法每个序列选取的24帧方法是,对于当前帧图片,在视频中这张图片前面的部分随机选择23张图片,按照时间顺序排列为图片序列;而本发明人脸运动单元检测模型采用连续帧的32张图片。序列图片中,相邻两张的时序关联更加强,由于视频是25帧每秒,每两帧之间的时间间隔仅有40毫秒,人脸部AU很难在40毫秒内有非常大的变化,因而本发明图片序列具有非常更强的时序信息。同时,对于一个序列采用多少张图片的选择,经过测试16,24,32三个参数,结果显示32张图片作为一个序列时效果最好,因而选择32张图片作为一个序列。
损失函数:本发明采用了与DRML算法中相同的损失(loss)函数:多标签sigmoid交叉熵函数,其表达式为:
式中L为损失。Y为ground truth,真实值,即这张输入图片实际上这些AU是否存在;为算法计算出来的值,即算法检测出来图片的AU情况;N为图片数目,这是因为深度学习网络中通常是一批一批图片送入网络学习,所以N指一批有多少张图片N是大于等于1的整数;C为标签数目,即有多少种AU需要检测,n为N的索引,c为C的索引。
每种人脸运动单元的真实值可以是-1,+1,0。其中+1为正样本,即这个AU存在,-1为负样本,即这个AU不存在,0为无效。这样,每张图片的真实值都可以用12维向量表示,每一维代表一种AU。例如:[1,1,0,0,-1,-1,-1,-1,-1,-1,-1,-1]代表这张脸上出现了第1第2维所代表的AU,没有出现第5到第12维所代表的AU,不知道第3和第4维所代表的AU是否出现。根据多标签sigmoid交叉熵函数公式,“+”以前的部分是计算真实值为+1即正样本的图片损失,“+”以后的部分计算的是真实值为-1即负样本的图片损失,而当某种AU的真实值为0时,“+”前后都不会参与计算,所以这种会被忽略,不参与计算。
该损失函数的优点在于,设计了对无效标签的处理,因此可以通过把一些负样本设置为无效标签的方式,即,把真实值为-1的设置为0不参与损失(loss)计算,这样可以平衡同一种AU的正负样本分布,使得训练模型时模型能训练得更好。
2、人脸运动单元检测模型的训练
人脸运动单元检测模型的训练包括以下几个步骤:
1)训练数据处理:获取训练用的图片和标签信息
将数据集分成三份,其中一份用来作为训练数据。对训练数据取连续32帧作为输入图片序列。训练数据的标签根据数据集提供的真实值制作标签文件。标签文件是一个txt文件,每一行代表具体一张图的标签,比如某一行为“1.jpg 1 1 0 0 -1 -1 -1 -1 -1 -1-1 -1”则代表名称为1.jpg的图片中出现了第1、2维代表的AU,没有出现第5到第12维代表的AU,而第3、4维代表的AU数据无效。在BP4D和GFT数据集中,每张图是否存在某种AU被直接给出,所以可以直接使用,而DISFA数据集中,AU是否存在没有直接给出,但是给出了不同AU出现的强度(强度可以是0、A、B、C、D、E共6种),我们选择了C、D、E强度的认为是存在这个AU,0、A、B强度的认为是不存在该AU。
2)网络配置参数
训练的参数配置如下:初始学习率设置为0.001,学习率采用逐步下降策略,配置参数gamma为0.1,stepsize为15000;冲量momentum设置为0.9,最大迭代次数为50000次,每次训练输入32张图片作为一个序列进行学习。
3)训练代码
采用caffe深度学习框架,加入DRML公开代码中的多标签输入层和多标签sigmoid交叉熵函数层,在Ubuntu系统中编译,配置好算法网络参数,进行训练。
3、人脸运动单元检测模型的测试
人脸运动单元检测模型的测试先要进行阈值的选择,然后进行测试。
1)阈值选择
把数据集中的第二部分数据用来作为调参数据(第一部分数据用来训练),调整判断AU是否存在的阈值,求不同阈值下在调参数据上面的AU算法检测结果,选择AU算法检测结果最好的时候的阈值作为调整好的阈值参数。
2)测试
把数据集中的第三部分数据用来作为测试数据(第一部分用来训练,第二部分用来调参),采用调参时选择的最佳阈值,进行实验,计算AU是否存在。
实施例2
本实施例为了测试本发明的性能,在3个公共的AU检测数据集上用本发明检测方法进行测试,实验中,本发明检测方法简称为CCT(cross-concat and temporal network),为了更好地显示交叉拼接块(cross-concat block)的作用,把CCT中去掉LSTM的网络简称为CC。
通用的AU检测算法效果的衡量标准包括两种,F1score和AUC。其中F1score是准确率(Precision)和召回率(Recall)的调和平均数,AUC为the area under the ROC curve。F1 score和AUC都是越高代表算法检测效果越好。
表2、表3和表4分别显示了在这三个数据集上面的对比实验结果。
表2 BP4D数据集上的算法对比结果(加中括号的黑体表最优,黑体表次优)
表3 DISFA数据集上算法对比结果(加中括号的黑体表最优,黑体表次优)
表4 GFT数据集上算法F1score对比结果(黑体表最优)
对本发明算法(CCT)和CC算法,DRML算法,R-T1算法,JPML算法,CNN+LSTM算法,APL算法,EAC算法,CPM算法进行了对比。(表格上的数据选自这些算法发表的文章,部分算法数据缺失,比如R-T1算法没有给出AUC的结果,原因是这些算法没有公布相应的测试结果;由于在GFT数据集上其他算法只计算了F1没有计算AUC,所以也只给出了F1的结果,没有做AUC的对比。)
从实验结果可以看出,本发明算法能提升AU检测的效果。而且,在AU1、AU2这种数据量占劣势的AU上面检测的效果提升尤其明显。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (8)
1.一种基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,该方法基于预训练的人脸运动单元检测模型对一组图片序列进行处理,获取人脸运动单元检测结果,所述人脸运动单元检测模型包括依次连接的交叉拼接网络和长短期记忆网络。
2.根据权利要求1所述的基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,所述交叉拼接网络为基于交叉拼接块的VGG网络。
3.根据权利要求2所述的基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,每个所述交叉拼接块包括依次连接的第一卷积层和第一激活函数,所述第一激活函数的输出与第一卷积层的输入拼接。
4.根据权利要求3所述的基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,所述第一激活函数包括正则化。
5.根据权利要求3或4所述的基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,所述第一激活函数的输出与第一卷积层的输入拼接后连接有第二卷积层,所述第二卷积层的卷积核大小为1×1。
6.根据权利要求1所述的基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,所述图片序列为连续帧的图片。
7.根据权利要求6所述的基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,所述图片有32张。
8.根据权利要求1所述的基于物理特性和分布特性的人脸运动单元检测方法,其特征在于,所述人脸运动单元检测模型预训练的损失函数为多标签sigmoid交叉熵函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910620049.XA CN110458021A (zh) | 2019-07-10 | 2019-07-10 | 一种基于物理特性和分布特性的人脸运动单元检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910620049.XA CN110458021A (zh) | 2019-07-10 | 2019-07-10 | 一种基于物理特性和分布特性的人脸运动单元检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110458021A true CN110458021A (zh) | 2019-11-15 |
Family
ID=68482630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910620049.XA Pending CN110458021A (zh) | 2019-07-10 | 2019-07-10 | 一种基于物理特性和分布特性的人脸运动单元检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458021A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486867A (zh) * | 2021-09-07 | 2021-10-08 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731418A (zh) * | 2005-08-19 | 2006-02-08 | 清华大学 | 复杂背景图像中鲁棒的眼睛精确定位方法 |
CN105512624A (zh) * | 2015-12-01 | 2016-04-20 | 天津中科智能识别产业技术研究院有限公司 | 一种人脸图像的笑脸识别方法及其装置 |
CN106683087A (zh) * | 2016-12-26 | 2017-05-17 | 华南理工大学 | 一种基于深度神经网络的舌苔体质辨别方法 |
CN108304788A (zh) * | 2018-01-18 | 2018-07-20 | 陕西炬云信息科技有限公司 | 基于深度神经网络的人脸识别方法 |
CN109508660A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于视频的au检测方法 |
-
2019
- 2019-07-10 CN CN201910620049.XA patent/CN110458021A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731418A (zh) * | 2005-08-19 | 2006-02-08 | 清华大学 | 复杂背景图像中鲁棒的眼睛精确定位方法 |
CN105512624A (zh) * | 2015-12-01 | 2016-04-20 | 天津中科智能识别产业技术研究院有限公司 | 一种人脸图像的笑脸识别方法及其装置 |
CN106683087A (zh) * | 2016-12-26 | 2017-05-17 | 华南理工大学 | 一种基于深度神经网络的舌苔体质辨别方法 |
CN108304788A (zh) * | 2018-01-18 | 2018-07-20 | 陕西炬云信息科技有限公司 | 基于深度神经网络的人脸识别方法 |
CN109508660A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于视频的au检测方法 |
Non-Patent Citations (2)
Title |
---|
胡巧平等: "CCT: A Cross-Concat and Temporal Neural Network for Multi-Label Action Unit Detection", 《2018 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
龚震霆等: "卷积神经网络在脑脊液图像分类上的应用", 《计算机工程与设计》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486867A (zh) * | 2021-09-07 | 2021-10-08 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
CN113486867B (zh) * | 2021-09-07 | 2021-12-14 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113496217B (zh) | 视频图像序列中人脸微表情识别方法 | |
CN106096538B (zh) | 基于定序神经网络模型的人脸识别方法及装置 | |
Chu et al. | Learning spatial and temporal cues for multi-label facial action unit detection | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN107316307B (zh) | 一种基于深度卷积神经网络的中医舌图像自动分割方法 | |
CN104850825B (zh) | 一种基于卷积神经网络的人脸图像颜值计算方法 | |
CN109753950B (zh) | 动态人脸表情识别方法 | |
CN108268859A (zh) | 一种基于深度学习的人脸表情识别方法 | |
Zhang et al. | Identity-aware convolutional neural networks for facial expression recognition | |
Das et al. | SSERBC 2017: Sclera segmentation and eye recognition benchmarking competition | |
CN108961675A (zh) | 基于卷积神经网络的跌倒检测方法 | |
CN111860046B (zh) | 一种改进MobileNet模型的人脸表情识别方法 | |
Ghayoumi | A quick review of deep learning in facial expression | |
CN113903063B (zh) | 基于深度时空网络决策融合的人脸表情识别方法及系统 | |
CN107622261A (zh) | 基于深度学习的人脸年龄估计方法及装置 | |
CN115482595B (zh) | 一种基于语义分割的特定人物视觉伪造检测与鉴别方法 | |
CN112084891A (zh) | 基于多模态特征与对抗学习的跨域人体动作识别方法 | |
Chu et al. | Learning facial action units with spatiotemporal cues and multi-label sampling | |
Tong et al. | Adaptive weight based on overlapping blocks network for facial expression recognition | |
Deshpande et al. | sign language recognition system using CNN | |
CN113343773B (zh) | 基于浅层卷积神经网络的人脸表情识别系统 | |
CN112906549B (zh) | 一种基于时空胶囊网络的视频行为检测方法 | |
CN110458021A (zh) | 一种基于物理特性和分布特性的人脸运动单元检测方法 | |
Bhattacharya et al. | Simplified face quality assessment (SFQA) | |
CN111898454A (zh) | 权重二值化神经网络与迁移学习人眼状态检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 200030 Dongchuan Road, Minhang District, Minhang District, Shanghai Applicant after: SHANGHAI JIAO TONG University Address before: 200030 Huashan Road, Shanghai, No. 1954, No. Applicant before: SHANGHAI JIAO TONG University |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |