CN116912915A - 一种人脸识别方法、装置及电子设备 - Google Patents
一种人脸识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116912915A CN116912915A CN202310914916.7A CN202310914916A CN116912915A CN 116912915 A CN116912915 A CN 116912915A CN 202310914916 A CN202310914916 A CN 202310914916A CN 116912915 A CN116912915 A CN 116912915A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- convolution
- fusion
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000004927 fusion Effects 0.000 claims abstract description 177
- 230000010354 integration Effects 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000007499 fusion processing Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 87
- 239000013598 vector Substances 0.000 claims description 84
- 238000000605 extraction Methods 0.000 claims description 45
- 230000002902 bimodal effect Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 9
- 241000820057 Ithone Species 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000004891 communication Methods 0.000 abstract description 3
- 238000007500 overflow downdraw method Methods 0.000 description 12
- 230000000295 complement effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 3
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种人脸识别方法、装置及电子设备,涉及通信技术领域,以解决现有人脸识别效果较差的问题。该方法包括:分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征;对第一模态特征和第二模态特征进行融合处理,得到第一融合特征;分别对第一模态特征和第二模态特征进行整合处理,得到第一模态整合特征和第二模态整合特征;对第一模态整合特征、第二模态整合特征和第一融合特征进行融合处理,得到第二融合特征;根据第二融合特征,确定人脸识别结果。本申请实施例通过对人脸不同模态的图像数据在特征层进行两阶段融合,能够实现对多模态图像数据更深层次的融合,进而提高人脸识别效果。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种人脸识别方法、装置及电子设备。
背景技术
现有三维人脸识别方法分为基于高质量三维扫描数据的人脸识别方法和基于低质量深度图像数据的人脸识别方法,其中后者通常使用深度学习和模态融合的方式实现,且融合方式为使用多模态图像数据作为网络的输入,在输入层进行融合,具体为将多模态图像数据在通道维度上拼接在一起。但由于网络较低层次的特征往往包含比较多的噪声,导致有可能会在后续的单分支网络中将两种模态的噪声也进行了融合,放大了各自模态噪声的干扰。
为此,现有技术中还提出了在特征层进行融合的方式,具体为将在输入层提取的多模态特征通过一个全连接层进行模态间特征的融合。该方式虽然有可能会丢失部分输入的信息,但过滤了各自模态的噪声,然而,这种简单的一阶段的融合方式不能充分的利用和挖掘模态间互补的信息,进而影响人脸识别效果。
发明内容
本申请实施例提供一种人脸识别方法、装置及电子设备,以解决现有人脸识别方法不能充分的利用和挖掘模态间互补的信息,进而影响人脸识别效果的问题。
第一方面,本申请实施例提供了一种人脸识别方法,包括:
分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;
对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;
分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;
对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;
根据所述第二融合特征,确定人脸识别结果。
可选地,所述对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征,包括:
对所述第一模态特征和所述第二模态特征进行拼接,得到双模态特征;
采用N个卷积分支分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,其中,所述N个卷积分支中的每个卷积分支的结构相同,N为大于1的正整数;
对所述N个卷积结果进行整合处理,得到所述第一融合特征。
可选地,所述N个卷积分支包括第一卷积块和N组第二卷积块,所述第一卷积块和所述第二卷积块的卷积核大小不同;
所述采用N个卷积分支分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,包括:
通过所述第一卷积块对所述双模态特征进行卷积处理,输出第一卷积特征;
分别通过所述N组第二卷积块对所述第一卷积特征进行分组卷积处理,输出所述N个卷积结果。
可选地,所述分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,包括:
利用单模态特征提取网络分别对所述第一图像数据和所述第二图像数据进行特征提取,得到所述第一模态特征和所述第二模态特征;
其中,所述单模态特征提取网络包括M个卷积块、M个池化层和多尺度特征融合模块,所述M个池化层的参数设置不同,用于将所述M个卷积块输出的特征处理成相同的尺寸,M为大于1的正整数;
所述M个卷积块中的第一个卷积块用于对输入的图像数据进行卷积处理,所述M个池化层中的第一个池化层用于对所述M个卷积层分别输出的特征进行池化处理,所述M个卷积块中的第i个卷积块用于对所述M个卷积块中的第i-1个卷积块输出的特征经过池化后的特征进行卷积处理,所述M个池化层中的第j个池化层用于对所述M个卷积块中的第j-1个卷积块输出的特征进行池化处理,所述多尺度特征融合模块用于对目标卷积特征和所述M个池化层中的第二个池化层至第M个池化层输出的特征进行融合处理,其中,所述目标卷积特征为所述第一个池化层对所述M个池化层中的第M个卷积块输出的特征进行池化后的特征,i和j均为大于1且小于或等于M的整数。
可选地,所述分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理之后,所述对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理之前,所述方法还包括:
利用空间注意力矢量化(Spatial Attention Vectorization,SAV)模块分别将所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征转换成特征向量,得到第一模态整合特征向量、第二模态整合特征向量和第一融合特征向量,其中,所述SAV模块用于对输入特征中每个通道的特征进行加权处理,并对加权处理后的特征进行展平处理,得到所述输入特征对应的特征向量;
所述对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征,包括:
对所述第一模态整合特征向量、所述第二模态整合特征向量和所述第一融合特征向量进行融合处理,得到第二融合特征向量;
所述根据所述第二融合特征,确定人脸识别结果,包括:
根据所述第二融合特征向量,确定人脸识别结果。
可选地,所述SAV模块包括K组卷积层和展平层,K等于输入特征的通道数;
所述K组卷积层用于对输入特征中每个通道的特征进行卷积处理,所述展平层用于对所述K组卷积层输出的特征进行展平处理,得到所述输入特征对应的特征向量。
可选地,所述分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征,包括:
利用单模态特征整合模块分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到所述第一模态整合特征和所述第二模态整合特征,其中,所述单模态特征整合模块包括第三卷积块。
第二方面,本申请实施例还提供一种人脸识别装置,包括:
特征提取模块,用于分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;
第一特征融合模块,用于对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;
整合模块,用于分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;
第二特征融合模块,用于对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;
确定模块,用于根据所述第二融合特征,确定人脸识别结果。
可选地,所述第一特征融合模块包括:
拼接单元,用于对所述第一模态特征和所述第二模态特征进行拼接,得到双模态特征;
N个卷积分支,用于分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,其中,所述N个卷积分支中的每个卷积分支的结构相同,N为大于1的正整数;
整合单元,用于对所述N个卷积结果进行整合处理,得到所述第一融合特征。
可选地,所述N个卷积分支包括第一卷积块和N组第二卷积块,所述第一卷积块和所述第二卷积块的卷积核大小不同;
所述第一卷积块用于对所述双模态特征进行卷积处理,输出第一卷积特征;
所述N组第二卷积块用于对所述第一卷积特征进行分组卷积处理,输出所述N个卷积结果。
可选地,所述特征提取模块为单模态特征提取网络,用于分别对所述第一图像数据和所述第二图像数据进行特征提取,得到所述第一模态特征和所述第二模态特征;
其中,所述单模态特征提取网络包括M个卷积块、M个池化层和多尺度特征融合模块,所述M个池化层的参数设置不同,用于将所述M个卷积块输出的特征处理成相同的尺寸,M为大于1的正整数;
所述M个卷积块中的第一个卷积块用于对输入的图像数据进行卷积处理,所述M个池化层中的第一个池化层用于对所述M个卷积层分别输出的特征进行池化处理,所述M个卷积块中的第i个卷积块用于对所述M个卷积块中的第i-1个卷积块输出的特征经过池化后的特征进行卷积处理,所述M个池化层中的第j个池化层用于对所述M个卷积块中的第j-1个卷积块输出的特征进行池化处理,所述多尺度特征融合模块用于对目标卷积特征和所述M个池化层中的第二个池化层至第M个池化层输出的特征进行融合处理,其中,所述目标卷积特征为所述第一个池化层对所述M个池化层中的第M个卷积块输出的特征进行池化后的特征,i和j均为大于1且小于或等于M的整数。
可选地,所述人脸识别装置还包括:
空间注意力矢量化SAV模块,用于分别将所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征转换成特征向量,得到第一模态整合特征向量、第二模态整合特征向量和第一融合特征向量,其中,所述SAV模块用于对输入特征中每个通道的特征进行加权处理,并对加权处理后的特征进行展平处理,得到所述输入特征对应的特征向量;
所述第二特征融合模块用于对所述第一模态整合特征向量、所述第二模态整合特征向量和所述第一融合特征向量进行融合处理,得到第二融合特征向量;
所述确定模块用于根据所述第二融合特征向量,确定人脸识别结果。
可选地,所述SAV模块包括K组卷积层和展平层,K等于输入特征的通道数;
所述K组卷积层用于对输入特征中每个通道的特征进行卷积处理,所述展平层用于对所述K组卷积层输出的特征进行展平处理,得到所述输入特征对应的特征向量。
可选地,所述整合模块为单模态特征整合模块,用于分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到所述第一模态整合特征和所述第二模态整合特征,其中,所述单模态特征整合模块包括第三卷积块。
第三方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的人脸识别方法中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的人脸识别方法中的步骤。
在本申请实施例中,分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;根据所述第二融合特征,确定人脸识别结果。这样,通过对人脸不同模态的图像数据在特征层进行两阶段融合,能够充分利用和挖掘不同模态间的互补信息,实现对多模态图像数据更深层次的融合,进而提高人脸识别效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的基于双流卷积神经网络的RGB-D目标识别网络的结构示意图;
图2是本申请实施例提供的人脸识别方法的流程图;
图3是本申请实施例提供的轻量级分组融合网络的结构示意图;
图4是本申请实施例提供的单模态特征提取网络的结构示意图;
图5是本申请实施例提供的轻量级多分支卷积模态融合模块的结构示意图;
图6是本申请实施例提供的分组卷积模态融合模块的结构示意图;
图7是本申请实施例提供的两种单分支卷积结构示意图;
图8是本申请实施例提供的人脸识别装置的结构图;
图9是本申请实施例提供的电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请实施例更为清楚,下面先对本申请实施例涉及的相关技术知识进行如下介绍:
三维人脸识别是相对于二维人脸识别而言的。二维人脸识别中使用的数据是二维图像,二维图像本质是三维物体在二维平面的投影。由于人脸本身具有三维属性,因此使用三维人脸数据进行人脸识别更具有优势。目前获取三维人脸数据常用的方法是直接利用三维成像设备获取三维形状数据。三维成像设备主要包括高精度的三维扫描仪和低精度的RGB-深度(RGB-D)相机。前者能获得高质量的三维人脸数据,但设备成本较高,采集时间长,采集过程中需要被采集对象保持固定的姿态;后者设备成本低,采集速度快,易于大规模使用,但获取的深度图质量较低,噪声较大。常见的三维人脸数据表达形式有:点云、深度图、法线图和多边形网格等。根据三维人脸数据的来源,可以将三维人脸识别方法分为基于高质量三维扫描数据的人脸识别方法和基于低质量深度图像数据的人脸识别方法。本申请所提出的技术方案着重讨论的是基于低质量深度图像数据的人脸识别方法。
与传统人脸识别方法相比,基于深度学习技术的人脸识别方法在图像处理方面具有很大的优势。传统方法的关键步骤是基于三维人脸数据的几何信息寻找鲁棒的特征点和描述符,这些方法虽然也能实现较好的识别性能,但在检测特征时涉及相对复杂的算法操作。而对于基于深度学习技术的方法,可以通过在大型数据集上训练深度神经网络来表示学习鲁棒的人脸表示。本申请所提技术方案主要使用深度神经网络,特别是卷积神经网络来提取深度人脸图像的特征,并进行人脸识别。
由于低精度的RGB-D相机获得的深度图质量较低,噪声较大,直接使用这种低质量的深度图进行人脸识别往往精度较低。为了获得较高的人脸识别精度,许多研究表明,融合多种模态数据(如深度图、法线图、RGB图等)进行人脸识别的结果要明显优于仅使用单模态数据的识别结果。融合的方式通常包括三个层次,即在输入层、特征层或决策层进行融合。考虑到低质量三维人脸数据的特点和不同层次模态融合方式的特性,本申请所提技术方案使用人脸多模态数据在特征层进行融合,一些实施例中,可使用深度图模态和法线图模态在特征层进行融合。
一些研究学者为低质量数据的三维人脸识别提供了一个高效和准确的深度学习解决方案,提出了一个基于卷积神经网络搭建的轻量且功能强大的深度神经网络模型,称为轻量级高效的低质量三维人脸深度识别方法(Lightweight and Efficient DeepApproach to Recognizing Low-quality 3D Faces,Led3D)。
Led3D模型首先将单通道的深度图和三通道的法线图拼接在一起,得到4通道的图像,然后将该4通道图像输入到由4个卷积块组成的主干网络中进行特征提取,接着通过一个多尺度特征融合(Multi-Scale Feature Fusion,MSFF)模块和一个空间注意力矢量化(Spatial Attention Vectorization,SAV)模块进行处理,其中MSFF模块用于融合每个卷积块的多尺度特征,对融合后的特征进行综合表示,SAV模块则强调重要的空间信息。MSFF模块的具体做法是将4个卷积块输出的特征图(feature maps)通过最大池化层(MaxPooling)下采样到相同的尺寸大小,然后在通道维度上进行拼接,形成多尺度的特征;然后再将拼接得到的多尺度特征再通过一个卷积块进行特征整合。SAV模块的具体做法是为每个通道的特征图添加一个空间尺寸大小相同的注意力权重图,然后,依据注意力权重图对每个通道的特征图在空间维度上进行加权求和,得到最终的特征向量。
即Led3D使用深度图模态和法线图模态作为网络的输入,在输入层进行融合,融合的方式是直接将深度图和法线图在通道维度上拼接在一起。虽然这种融合方式非常简单直接,易于实现,但是因为网络较低层次的特征往往包含比较多的噪声,这样在输入阶段的融合就有可能会在后续的单分支网络中将两种模态的噪声也进行了融合,放大了各自模态噪声的干扰。基于此缺陷,本申请提出将深度图模态和法线图模态在特征层进行融合。在特征层进行融合虽然有可能会丢失部分输入的信息,但是同时也过滤了各自模态的噪声,在特征层次的融合往往能取得更好的结果。
还有一些研究学者提出了一种在特征层次进行RGB模态和深度图模态融合的人脸识别深度学习方法。该方法采用的网络结构如图1所示,即使用两支独立的卷积神经网络来分别提取RGB模态特征和深度图模态特征,提取得到的两个模态的特征分别经过两个全连接层后拼接在一起,然后再通过一个全连接层进行模态间特征的融合,最后将融合后的特征送入分类层进行人脸识别。
该方法使用了RGB模态和深度图模态,在特征层次进行融合。但是,该方法的模态融合仅在分类层前的全连接层进行。这种简单的一阶段的融合方式不能充分的利用和挖掘模态间互补的信息,并且使用全连接层来进行模态融合会大大增加网络的参数量和计算量,增加了网络过拟合的风险,减慢了模型的推理速度,不利于网络在边缘移动设备上的部署和落地。针对该方法的缺陷,本申请提出了一个两阶段的特征融合策略来充分挖掘不同模态间的互补信息,并在一些实施例中,通过使用一个轻量级的多分支卷积结构在实现有效的模态特征融合的同时减少模态特征融合带来的计算开销,为后续模型的部署和落地提供便利。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的人脸识别方法进行详细地说明。
参见图2,图2是本申请实施例提供的人脸识别方法的流程图,如图2所示,包括以下步骤:
步骤201、分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据。
本申请实施例中,为获得较好的人脸识别精度,并降低模态噪声干扰,可在特征层融合人脸多模态图像特征来进行三维人脸识别,即可以获取不同模态的人脸图像数据,分别对不同模态的人脸图像数据进行特征提取后再对不同模态的人脸特征进行融合。
上述第一图像数据和第二图像数据分别为人脸不同模态的图像数据,具体可以为低质量三维人脸不同模态的图像数据,例如,可以分别为人脸的深度图和法线图,或者也可以为人脸的深度图和RGB图,其中,深度图是通过RGB-D相机对人脸进行采集得到的,表示人脸中各点到相机的距离,法线图是通过深度图计算得到的,表示人脸中各点在三维空间中的方向信息。
该步骤中,可以分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一模态特征为对所述第一图像数据提取的图像特征,所述第二模态特征为对所述第二图像数据提取的图像特征。具体可以利用特征提取网络,如卷积网络、编码网络等实现特征提取,例如,可以将人脸的深度图和法线图分别通过一特征提取网络进行特征提取,得到深度图模态特征和法线图模态特征。
其中,深度图和法线图的图像大小可以规范为128×128,深度图是单通道图像,法线图是三通道图像。提取得到的深度图模态特征可以表示为FMd∈RC×H×W,法线图模态特征表示为FMn∈RC×H×W,其中C表示输出特征图的通道数,H和W表示输出特征图的空间大小,分别为高和宽。
可选地,所述步骤201包括:
利用单模态特征提取网络分别对所述第一图像数据和所述第二图像数据进行特征提取,得到所述第一模态特征和所述第二模态特征;
其中,所述单模态特征提取网络包括M个卷积块、M个池化层和多尺度特征融合模块,所述M个池化层的参数设置不同,用于将所述M个卷积块输出的特征处理成相同的尺寸,M为大于1的正整数;
所述M个卷积块中的第一个卷积块用于对输入的图像数据进行卷积处理,所述M个池化层中的第一个池化层用于对所述M个卷积层分别输出的特征进行池化处理,所述M个卷积块中的第i个卷积块用于对所述M个卷积块中的第i-1个卷积块输出的特征经过池化后的特征进行卷积处理,所述M个池化层中的第j个池化层用于对所述M个卷积块中的第j-1个卷积块输出的特征进行池化处理,所述多尺度特征融合模块用于对目标卷积特征和所述M个池化层中的第二个池化层至第M个池化层输出的特征进行融合处理,其中,所述目标卷积特征为所述第一个池化层对所述M个池化层中的第M个卷积块输出的特征进行池化后的特征,i和j均为大于1且小于或等于M的整数。
一种实施方式中,为保证较好的特征提取效果,准确地提取各模态特征,以此保证人脸识别精度,可以利用由多个卷积块、池化层和多尺度特征融合模块组成的单模态特征提取网络,对各模态图像数据进行特征提取,其中,池化层可以采用最大池化层,多尺度特征融合模块可以是MSFF模块。例如,如图3所示,可以将人脸的深度图和法线图分别通过一单模态特征提取网络进行特征提取,得到深度图模态特征和法线图模态特征。
其中,所述单模态特征提取网络的结构可以如图4所示,由4个交替的卷积块和最大池化层以及一个多尺度特征融合MSFF模块组成,其中块(Block)1、Block2、Block3和Block4为4个卷积块,MaxPooling1、MaxPooling2、MaxPooling3和MaxPooling4为4个最大池化层,每个卷积块中包含一个3×3的卷积层(Conv)、一个批归一化层(BatchNormal,BN)和一个修正线性单元(Rectified Linear Unit,ReLU)激活函数层。每个卷积块输入和输出的特征图的空间大小不变,输出的通道数分别为32、64、128和256。卷积块后的最大池化层用于空间维度的下采样。多尺度特征融合MSFF模块用于融合每个卷积块的多尺度特征,MSFF模块的具体做法是将4个卷积块输出的特征图过最大池化层下采样到相同的尺寸大小,然后在通道维度上进行拼接,形成多尺度的特征。
所述单模态特征提取网络分别接受原始的深度图Id∈R1×128×128和法线图In∈R3 ×128×128作为输入,提取各自模态的特征,输出各自模态特征FMd∈R480×8×8、FMn∈R480×8×8。整个单模态提取网络的参数设置可以如下表1所示。
表1单模态特征提取网络参数设置
其中,Conv表示卷积层,BN表示批归一化层;输出尺寸从左到右依次为:通道数、高、宽。
这样,该实施方式中,通过利用图4所示结构的单模态特征提取网络对各模态特征进行提取,能够保证提取得到的各模态特征具备较强的表征能力。
步骤202、对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征。
本申请实施例中,为了实现更深层次的模态信息融合,分为两阶段对不同模态特征进行融合。在提取得到各模态特征后,可以对各模态特征进行第一阶段的融合,即可以对所述第一模态特征和所述第二模态特征进行第一次融合处理,从而得到第一融合特征,其中,第一阶段的融合方式可以是卷积、全连接等特征融合方式。通过该阶段的融合,能够捕捉不同模态间的相关性,挖掘模态间的互补信息。
可选地,所述步骤202包括:
对所述第一模态特征和所述第二模态特征进行拼接,得到双模态特征;
采用N个卷积分支分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,其中,所述N个卷积分支中的每个卷积分支的结构相同,N为大于1的正整数;
对所述N个卷积结果进行整合处理,得到所述第一融合特征。
一种实施方式中,为减少模态特征融合带来的计算开销,即减少融合网络的参数量和计算量,本申请设计了一种轻量级多分支卷积模态融合模块,来实现对各模态特征的第一阶段的融合。
具体地,在第一阶段的融合中,首先将所述第一模态特征和所述第二模态特征在通道维度上拼接起来,得到双模态特征,例如,如图3所示,将深度图模态特征FMd和法线图模态特征FMn在通道维度上拼接(Concatenate)起来,得到双模态特征FMdn=Concatenate(Fd,Fn)∈R2C×H×W;然后将双模态特征FMdn送入一个轻量级多分支卷积模态融合模块中,进行模态融合,得到第一阶段模态融合后的特征FMfuse=fθ(FMdn)∈R2C×H×W,其中f表示轻量级多分支卷积模态融合模块,θ表示为该模块可学习的参数。轻量级多分支卷积模态融合模块能在使用尽可能少的参数量和计算量的情况下,实现模态间特征的多尺度融合。
所述轻量级多分支卷积模态融合模块的结构可以如图5所示,包括N个并行的卷积分支和整合层,整合层可以由拼接(Concatenate)和卷积层实现。从图5中可以看出,该实施方式中的模态融合方法使用了多分支的卷积结构,相较于单分支的卷积结构,该实施方式将输入的双模态特征送入多个并行的卷积分支中,每个卷积分支共享相同的网络拓扑结构,分支数量由超参数N控制,如可以是32、64等。每个卷积分支可由一个1×1的卷积层和一个3×3的卷积层组成,其中1×1的卷积层用于整合深度图模态和法线图模态不同尺度的特征,3×3的卷积层用于进一步实现不同模态特征在空间和通道维度上的融合。每个卷积分支分别对双模态特征中不同通道的特征进行卷积处理,例如,深度图模态特征FMd∈R480×8×8和法线图模态特征FMn∈R480×8×8在通道维度上进行拼接后,得到双模态特征FMdn∈R960×8×8,双模态特征FMdn∈R960×8×8送入所述轻量级多分支卷积模态融合模块,分别经所述N个卷积分支并行处理,每个卷积分支处理双模态特征FMdn∈R960×8×8中960/N个通道的特征。最后,N个卷积分支的输出在通道维度上被汇总在一起,如对N个卷积分支的输出特征在通道维度上进行拼接,并经由最后一个1×1的卷积层对不同卷积分支的特征进行整合,输出最终的融合后的特征FMfuse∈R960×8×8。另外,所述轻量级多分支卷积模态融合模块中每个卷积层后都跟有一个批归一化层BN和ReLU激活函数层。
该实施方式中,由于每一个卷积分支都率先使用了一个1×1的卷积层对输入通道数进行降维,这相当于将输入特征投影到了若干个不同的特征子空间。在不同的特征子空间中,网络能学习和发现更多样性的特征表示,能为模态间特征融合提供更多元的视角。除此之外,这种多分支的操作也能对网络起到正则化的作用。每增加一个分支,都会使网络学到关系更加稀疏的特征。因为不同模态数据如深度图和法线图之间虽然存在着互补的信息,但同时也存在着大量的冗余信息,因此这种稀疏性能大大降低网络的过拟合风险。
该实施方式中,通过采用多分支卷积结构对多模态特征进行融合,能在使用尽可能少的参数量和计算量的情况下,实现模态间特征的多尺度融合,即能大幅度的减少模态融合带来的额外计算开销,提升模型的推理速度。
可选地,所述N个卷积分支包括第一卷积块和N组第二卷积块,所述第一卷积块和所述第二卷积块的卷积核大小不同;
所述采用N个卷积分支分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,包括:
通过所述第一卷积块对所述双模态特征进行卷积处理,输出第一卷积特征;
分别通过所述N组第二卷积块对所述第一卷积特征进行分组卷积处理,输出所述N个卷积结果。
一种实施方式中,为进一步降低多卷积分支结构的复杂性,在工程实现上,可采用分组卷积的方式实现上一实施方式中图5所示的多分支卷积结构。使用分组卷积实现的等效结构可如图6所示,即所述N个卷积分支可以由一个第一卷积块和N组第二卷积块实现,所述第一卷积块和所述第二卷积块的卷积核大小不同,所述第一卷积块可以是由1×1的卷积层、BN层和ReLU激活函数层构成,所述第二卷积块则是由3×3的卷积层、BN层和ReLU激活函数层构成。
这样,可以通过所述第一卷积块对所述双模态特征进行卷积处理,整合不同模态不同尺度的特征,并对输入通道数进行降维,接着再通过所述N组第二卷积块对所述第一卷积块输出的特征进行分组卷积处理,每组第二卷积块处理不同通道的输入特征,进一步实现不同模态特征在空间和通道维度上的融合,最后再经过一个1×1的卷积层对不同组卷积块输出的特征进行整合,输出最终的融合后的特征。
该实施方式中,使用分组卷积可以很方便地实现图5所示的轻量级多分支卷积模态融合模块,该模块的输入为双模态特征FMdn∈R960×8×8,输出为双模态融合后的特征FMfuse∈R960×8×8。该实施方式中的轻量级多分支卷积模态融合模块的具体参数设置如下表2所示:
表2轻量级多分支卷积模态融合模块参数设置
上述三个Block依次对应三个卷积块,超参数N表示分支数。
这样,通过采用该实施方式中的分组卷积方式实现等效的多分支卷积结构,能够进一步降低多卷积分支结构的复杂性,并能减少参数量和计算量。
另外,为了验证该多分支卷积结构具有轻量级的优点,本申请实施例对比了多分支卷积结构与具有相同输入输出尺寸的单分支卷积结构的参数量(Params)和计算量(如每秒浮点运算次数(Floating-point Operations Per second,FLOPs))。对比的两种单分支卷积结构图如图7所示。
分别计算这三种卷积结构的参数量(Params)和计算量(FLOPs),结果如下表2所示:
表3不同卷积结构参数量、计算量对比
模型(Module) | Params(百万个) | FLOPs(百万次浮点运算) |
多分支卷积结构(N=32) | 0.988 | 63.25 |
单分支卷积结构(图7(a)) | 2.997 | 191.82 |
单分支卷积结构(图7(b)) | 8.295 | 530.9 |
表3中多分支卷积结构选取的分支数N=32。从表3可以看出,多分支卷积结构的参数量和计算量都明显要少于具有相同输入和输出尺寸的单分支卷积结构,并且其参数量和计算量会随着分支数增多而进一步减少,这符合本申请轻量级多分支卷积模态融合模块的设计要求。
步骤203、分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征。
本申请实施例中,在分别对第一图像数据和第二图像数据进行特征提取后,为实现第二阶段的多模态特征融合,分别对各单模态不同尺度的特征进行整合,生成更具区分性的三维人脸特征,后续再对整合后的各模态特征与第一阶段融合后的多模态特征进行第二阶段融合,实现更深层次的模态信息融合。
故该步骤中,可以对所述第一模态特征不同尺度的特征进行整合,得到所述第一图像数据的第一模态整合特征,以及对所述第二模态特征不同尺度的特征进行整合,得到所述第二图像数据的第二模态整合特征。其中整合方式可以是采用卷积、全连接等方式实现。需说明的是,所述步骤203可以是与步骤202并行执行的,具体可不做限定。
例如,对于提取的深度图模态特征FMd∈RC×H×W和法线图模态特征FMn∈RC×H×W,分别经过单模态整合后,输出整合后的深度图模态特征FMd′∈RC×H×W和整合后的法线图模态特征FMn′∈RC×H×W。
可选地,所述步骤203包括:
利用单模态特征整合模块分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到所述第一模态整合特征和所述第二模态整合特征,其中,所述单模态特征整合模块包括第三卷积块。
一种实施方式中,可以利用由卷积块结构组成的单模态特征整合模块,对各单模态特征进行整合,即所述单模态特征整合模块包括第三卷积块,所述第三卷积块可以由一个3×3的卷积层、一个批归一化层BN以及一个ReLU激活函数层组成。
例如,如图3所示,可以将深度图模态特征和法线图模态特征分别通过一单模态特征整合模块进行不同尺度特征的整合,得到整合后的深度图模态特征和法线图模态特征。
所述单模态特征整合模块的作用是为了对各自模态通过多尺度特征融合MSFF模块得到的不同尺度的特征进行整合,生成更具区分性的三维人脸特征。同时,该模块并行于第一阶段的模态融合模块,因此能完整地保留各自模态的特征。所述单模态特征整合模块的参数设置可如下表4所示:
表4单模态特征整合模块参数设置
所述单模态特征整合模块接受图4中的多尺度特征融合MSFF模块的输出FMd、FMn∈R480×8×8作为模块的输入,模块的输出为各自模态不同尺度特征整合后的更具区分性的特征FMd′、FMn′∈R480×8×8。
这样,通过利用卷积块结构的单模态特征整合模块对各单模态特征进行整合,不仅参数量和计算量小,且能够对各模态特征生成更具区分性的特征。
步骤204、对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征。
该步骤中,可以根据整合的单模态特征和第一阶段融合的双模态特征,对这些特征进行第二阶段的融合,以对多模态特征实现更深层次的融合,充分利用和挖掘不同模态间的互补信息,得到表征能力更强的三维人脸特征。
具体地,可以对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行拼接,实现模态间特征的第二次融合,得到第二融合特征。
例如,可以将整合后的深度图模态特征FMd′∈R480×8×8、整合后的法线图模态特征FMn′∈R480×8×8和第一阶段模态融合后的特征FMfuse∈R960×8×8进行拼接,得到第二融合特征FMfuse′=Concatenate(FMd′,FMn′,FMfuse),作为最终的人脸特征表示。
通过该阶段的融合,能够保持不同模态间的区分性,减少模态融合带来的单模态信息损失。
步骤205、根据所述第二融合特征,确定人脸识别结果。
该步骤中,可以根据最终的人脸特征表示即所述第二融合特征,进行人脸识别,确定人脸识别结果,具体地,可以如图3所示,将最终的人脸特征表示FMfuse′通过一个全连接层(Fully Connected,FC)和软最大值(SoftMax)进行分类,得到所属的人脸ID。
可选地,所述步骤204之后,所述步骤205之前,所述方法还包括:
利用空间注意力矢量化SAV模块分别将所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征转换成特征向量,得到第一模态整合特征向量、第二模态整合特征向量和第一融合特征向量,其中,所述SAV模块用于对输入特征中每个通道的特征进行加权处理,并对加权处理后的特征进行展平处理,得到所述输入特征对应的特征向量;
所述步骤204包括:
对所述第一模态整合特征向量、所述第二模态整合特征向量和所述第一融合特征向量进行融合处理,得到第二融合特征向量;
所述步骤205包括:
根据所述第二融合特征向量,确定人脸识别结果。
一种实施方式中,在进行第二次阶段的模态特征融合前,可以利用SAV模块对各待融合的特征图,即所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行向量化,以通过所述SAV强调各特征中重要的空间信息,保证第二阶段获得更好地特征融合效果。
所述SAV模块的具体做法是为输入的特征图的每个通道添加一个空间尺寸大小相同的注意力权重图,然后,依据注意力权重图对每个通道的特征图在空间维度上进行加权求和,并将空间维度展平,得到输入的特征图对应的最终特征向量。
这样,可以利用SAV模块分别将所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征转换成特征向量,得到第一模态整合特征向量、第二模态整合特征向量和第一融合特征向量;接着对所述第一模态整合特征向量、所述第二模态整合特征向量和所述第一融合特征向量进行拼接,得到第二融合特征向量;最后根据所述第二融合特征向量,确定人脸识别结果。
例如,如图3所示,通过使用三个SAV模块将FMd′、FMn′和FMfuse分别转换成特征向量FVd′、FVn′∈RC,FVfuse∈R2C。最后,将这三个特征向量拼接在一起,得到的特征向量FVfuse′=Concatenate(FVd′,FVn′,FVfuse)作为最终的人脸特征表示,完成第二阶段模态特征的融合。根据最终的人脸特征表示向量FVfuse′通过一个全连接层FC和SoftMax进行分类,确定所属的人脸ID。
这样,通过该实施方式,能够通过SAV强调各特征中重要的空间信息,保证对经过SAV处理后的模态间特征进行第二阶段融合能够获得更具表征能力的最终人脸特征表示,进而帮助提高人脸识别的准确率。
可选地,所述SAV模块包括K组卷积层和展平层,K等于输入特征的通道数;
所述K组卷积层用于对输入特征中每个通道的特征进行卷积处理,所述展平层用于对所述K组卷积层输出的特征进行展平处理,得到所述输入特征对应的特征向量。
一种实施方式中,所述SAV模块也可以通过使用分组卷积的形式来实现,以降低模块的参数量和计算量,具体地,所述SAV模块包括K组卷积层和展平层(Flatten),K值可以基于输入特征的通道数确定,以输入通道为960为例,其具体的参数设置如下表5所示:
表5SAV模块参数设置
例如,如图3所示,整合后的深度图模态特征FMd′∈R480×8×8和法线图模态特征FMn′∈R480×8×8,以及双模态融合后的特征FMfuse∈R960×8×8分别经过三个SAV模块后,输出各自的特征向量FVd′、FVn′∈R480,FVfuse∈R960。最后,将三个特征向量FVd′、FVn′、FVfuse拼接在一起,实现模态间的第二次融合,得到最终的人脸特征表示FVfuse′∈R1920。
这样,通过该实施方式,能够在帮助更好地融合模态间特征的同时降低模块的复杂性,减少模块的参数量和计算量。
还需说明的是,本申请实施例中,在采用图3所示轻量级分组融合网络模型结构进行三维人脸识别时,在模型训练阶段,可以将最终的人脸特征表示FVfuse′通过一个全连接层和SoftMax进行分类,并使用交叉熵损失函数计算分类损失L2。同时为了增强各自模态特征的区分性,尽可能地保留各自模态的完整信息,还可分别将深度图模态和法线图模态各自计算得到的人脸特征向量FVd′、FVn′也分别通过一个全连接层和SoftMax分类,使用交叉熵损失函数来计算得到损失L1、L3。最终训练阶段总的损失L表示为这三者损失的和,即L=L1+L2+L3。
此外,为了缓解过拟合问题,图3所示模型还可在每个全连接层前都添加了一个随机失活(Dropout)层,每个Dropout层的超参数p=0.2。其中3个全连接的参数设置如下表6所示:
表6全连接层参数设置
其中,C表示训练的人脸ID数。
本申请实施例的人脸识别方法,分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;根据所述第二融合特征,确定人脸识别结果。这样,通过对人脸不同模态的图像数据在特征层进行两阶段融合,能够充分利用和挖掘不同模态间的互补信息,实现对多模态图像数据更深层次的融合,进而提高人脸识别效果。
如图3所示,本申请实施例还提供了一种人脸识别网络,包括两个单模态特征提取网络、两个单模态特征整合模块、多分支卷积模态融合模块、两个拼接模块、三个SAV模块和三个全连接层,各模块的连接关系如图3所示,各模块的功能和信号处理流程可以参见前述实施例中的相关介绍,为避免重复,此处不再赘述。
本申请实施例定义了更为通用的三维人脸模态融合和识别模型,提出了一种两阶段的模态融合方法,实现了深度图模态和法线图模态更深层次的融合;提出了一个轻量级的多分支卷积结构,在减少模态融合带来的计算开销的同时,实现了角度更多元的模态融合;该融合方法不仅可以用在深度图和法线图的融合任务,也可以扩展到其他两种不同的模态融合任务。
本申请实施例选择在特征层进行模态融合,在特征层进行融合的好处是能利用前置的单模态特征提取网络先过滤各自模态的噪声,实现模态间更深层次的融合。同时,为了能更充分、更有效的利用不同模态间的信息,本申请实施例提出一种两阶段的模态特征融合方案,其中第一阶段的融合主要用于捕捉不同模态间的相关性,挖掘模态间的互补信息;第二阶段的融合则主要用于保持不同模态间的区分性,减少模态融合带来的单模态信息损失。总的来说,本申请实施例能更有效地利用多模态信息,在低质量的三维人脸数据上,实现更高精度的人脸识别。
本申请实施例使用了一个创新性的多分支卷积结构来实现第一阶段的模态特征融合。相较于使用全连接层,多分支卷积结构能大幅度的减少模态融合带来的额外的计算开销,提升了模型的推理速度。并且,相较于单分支的卷积结构,多分支卷积结构能促使模型从更多元的角度来探索模态间的融合。因此,本申请实施例能在使用尽可能少的参数量和计算量的前提下,实现更深层次和更多元的模态特征融合,在实现高精度三维人脸识别的情况下,也为后续模型的部署和落地提供了便利。
本申请实施例还提供了一种人脸识别装置。参见图8,图8是本申请实施例提供的人脸识别装置的结构图。由于人脸识别装置解决问题的原理与本申请实施例中人脸识别方法相似,因此该人脸识别装置的实施可以参见方法的实施,重复之处不再赘述。
如图8所示,人脸识别装置800包括:
特征提取模块801,用于分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;
第一特征融合模块802,用于对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;
整合模块803,用于分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;
第二特征融合模块804,用于对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;
确定模块805,用于根据所述第二融合特征,确定人脸识别结果。
可选地,第一特征融合模块802包括:
拼接单元,用于对所述第一模态特征和所述第二模态特征进行拼接,得到双模态特征;
N个卷积分支,用于分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,其中,所述N个卷积分支中的每个卷积分支的结构相同,N为大于1的正整数;
整合单元,用于对所述N个卷积结果进行整合处理,得到所述第一融合特征。
可选地,所述N个卷积分支包括第一卷积块和N组第二卷积块,所述第一卷积块和所述第二卷积块的卷积核大小不同;
所述第一卷积块用于对所述双模态特征进行卷积处理,输出第一卷积特征;
所述N组第二卷积块用于对所述第一卷积特征进行分组卷积处理,输出所述N个卷积结果。
可选地,特征提取模块801为单模态特征提取网络,用于分别对所述第一图像数据和所述第二图像数据进行特征提取,得到所述第一模态特征和所述第二模态特征;
其中,所述单模态特征提取网络包括M个卷积块、M个池化层和多尺度特征融合模块,所述M个池化层的参数设置不同,用于将所述M个卷积块输出的特征处理成相同的尺寸,M为大于1的正整数;
所述M个卷积块中的第一个卷积块用于对输入的图像数据进行卷积处理,所述M个池化层中的第一个池化层用于对所述M个卷积层分别输出的特征进行池化处理,所述M个卷积块中的第i个卷积块用于对所述M个卷积块中的第i-1个卷积块输出的特征经过池化后的特征进行卷积处理,所述M个池化层中的第j个池化层用于对所述M个卷积块中的第j-1个卷积块输出的特征进行池化处理,所述多尺度特征融合模块用于对目标卷积特征和所述M个池化层中的第二个池化层至第M个池化层输出的特征进行融合处理,其中,所述目标卷积特征为所述第一个池化层对所述M个池化层中的第M个卷积块输出的特征进行池化后的特征,i和j均为大于1且小于或等于M的整数。
可选地,人脸识别装置800还包括:
空间注意力矢量化SAV模块,用于分别将所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征转换成特征向量,得到第一模态整合特征向量、第二模态整合特征向量和第一融合特征向量,其中,所述SAV模块用于对输入特征中每个通道的特征进行加权处理,并对加权处理后的特征进行展平处理,得到所述输入特征对应的特征向量;
第二特征融合模块804用于对所述第一模态整合特征向量、所述第二模态整合特征向量和所述第一融合特征向量进行融合处理,得到第二融合特征向量;
确定模块805用于根据所述第二融合特征向量,确定人脸识别结果。
可选地,所述SAV模块包括K组卷积层和展平层,K等于输入特征的通道数;
所述K组卷积层用于对输入特征中每个通道的特征进行卷积处理,所述展平层用于对所述K组卷积层输出的特征进行展平处理,得到所述输入特征对应的特征向量。
可选地,整合模块803为单模态特征整合模块,用于分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到所述第一模态整合特征和所述第二模态整合特征,其中,所述单模态特征整合模块包括第三卷积块。
本申请实施例提供的人脸识别装置800,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本申请实施例的人脸识别装置800,分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;根据所述第二融合特征,确定人脸识别结果。这样,通过对人脸不同模态的图像数据在特征层进行两阶段融合,能够充分利用和挖掘不同模态间的互补信息,实现对多模态图像数据更深层次的融合,进而提高人脸识别效果。
本申请实施例还提供了一种电子设备。由于电子设备解决问题的原理与本申请实施例中人脸识别方法相似,因此该电子设备的实施可以参见方法的实施,重复之处不再赘述。如图9所示,本申请实施例的电子设备,包括:
处理器900,用于读取存储器920中的程序,执行下列过程:
分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;
对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;
分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;
对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;
根据所述第二融合特征,确定人脸识别结果。
收发机910,用于在处理器900的控制下接收和发送数据。
其中,在图9中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器900代表的一个或多个处理器和存储器920代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器900负责管理总线架构和通常的处理,存储器920可以存储处理器900在执行操作时所使用的数据。
可选地,处理器900还用于读取存储器920中的程序,执行如下步骤:
对所述第一模态特征和所述第二模态特征进行拼接,得到双模态特征;
采用N个卷积分支分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,其中,所述N个卷积分支中的每个卷积分支的结构相同,N为大于1的正整数;
对所述N个卷积结果进行整合处理,得到所述第一融合特征。
可选地,所述N个卷积分支包括第一卷积块和N组第二卷积块,所述第一卷积块和所述第二卷积块的卷积核大小不同;
处理器900还用于读取存储器920中的程序,执行如下步骤:
通过所述第一卷积块对所述双模态特征进行卷积处理,输出第一卷积特征;
分别通过所述N组第二卷积块对所述第一卷积特征进行分组卷积处理,输出所述N个卷积结果。
可选地,处理器900还用于读取存储器920中的程序,执行如下步骤:
利用单模态特征提取网络分别对所述第一图像数据和所述第二图像数据进行特征提取,得到所述第一模态特征和所述第二模态特征;
其中,所述单模态特征提取网络包括M个卷积块、M个池化层和多尺度特征融合模块,所述M个池化层的参数设置不同,用于将所述M个卷积块输出的特征处理成相同的尺寸,M为大于1的正整数;
所述M个卷积块中的第一个卷积块用于对输入的图像数据进行卷积处理,所述M个池化层中的第一个池化层用于对所述M个卷积层分别输出的特征进行池化处理,所述M个卷积块中的第i个卷积块用于对所述M个卷积块中的第i-1个卷积块输出的特征经过池化后的特征进行卷积处理,所述M个池化层中的第j个池化层用于对所述M个卷积块中的第j-1个卷积块输出的特征进行池化处理,所述多尺度特征融合模块用于对目标卷积特征和所述M个池化层中的第二个池化层至第M个池化层输出的特征进行融合处理,其中,所述目标卷积特征为所述第一个池化层对所述M个池化层中的第M个卷积块输出的特征进行池化后的特征,i和j均为大于1且小于或等于M的整数。
可选地,处理器900还用于读取存储器920中的程序,执行如下步骤:
利用空间注意力矢量化SAV模块分别将所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征转换成特征向量,得到第一模态整合特征向量、第二模态整合特征向量和第一融合特征向量,其中,所述SAV模块用于对输入特征中每个通道的特征进行加权处理,并对加权处理后的特征进行展平处理,得到所述输入特征对应的特征向量;
对所述第一模态整合特征向量、所述第二模态整合特征向量和所述第一融合特征向量进行融合处理,得到第二融合特征向量;
根据所述第二融合特征向量,确定人脸识别结果。
可选地,所述SAV模块包括K组卷积层和展平层,K等于输入特征的通道数;
所述K组卷积层用于对输入特征中每个通道的特征进行卷积处理,所述展平层用于对所述K组卷积层输出的特征进行展平处理,得到所述输入特征对应的特征向量。
可选地,处理器900还用于读取存储器920中的程序,执行如下步骤:
利用单模态特征整合模块分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到所述第一模态整合特征和所述第二模态整合特征,其中,所述单模态特征整合模块包括第三卷积块。
本申请实施例提供的电子设备,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
此外,本申请实施例的计算机可读存储介质,用于存储计算机程序,所述计算机程序可被处理器执行实现图1所示方法实施例中的各个步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种人脸识别方法,其特征在于,包括:
分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;
对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;
分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;
对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;
根据所述第二融合特征,确定人脸识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征,包括:
对所述第一模态特征和所述第二模态特征进行拼接,得到双模态特征;
采用N个卷积分支分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,其中,所述N个卷积分支中的每个卷积分支的结构相同,N为大于1的正整数;
对所述N个卷积结果进行整合处理,得到所述第一融合特征。
3.根据权利要求2所述的方法,其特征在于,所述N个卷积分支包括第一卷积块和N组第二卷积块,所述第一卷积块和所述第二卷积块的卷积核大小不同;
所述采用N个卷积分支分别对所述双模态特征中不同通道的特征进行卷积处理,得到N个卷积结果,包括:
通过所述第一卷积块对所述双模态特征进行卷积处理,输出第一卷积特征;
分别通过所述N组第二卷积块对所述第一卷积特征进行分组卷积处理,输出所述N个卷积结果。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,包括:
利用单模态特征提取网络分别对所述第一图像数据和所述第二图像数据进行特征提取,得到所述第一模态特征和所述第二模态特征;
其中,所述单模态特征提取网络包括M个卷积块、M个池化层和多尺度特征融合模块,所述M个池化层的参数设置不同,用于将所述M个卷积块输出的特征处理成相同的尺寸,M为大于1的正整数;
所述M个卷积块中的第一个卷积块用于对输入的图像数据进行卷积处理,所述M个池化层中的第一个池化层用于对所述M个卷积层分别输出的特征进行池化处理,所述M个卷积块中的第i个卷积块用于对所述M个卷积块中的第i-1个卷积块输出的特征经过池化后的特征进行卷积处理,所述M个池化层中的第j个池化层用于对所述M个卷积块中的第j-1个卷积块输出的特征进行池化处理,所述多尺度特征融合模块用于对目标卷积特征和所述M个池化层中的第二个池化层至第M个池化层输出的特征进行融合处理,其中,所述目标卷积特征为所述第一个池化层对所述M个池化层中的第M个卷积块输出的特征进行池化后的特征,i和j均为大于1且小于或等于M的整数。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理之后,所述对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理之前,所述方法还包括:
利用空间注意力矢量化SAV模块分别将所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征转换成特征向量,得到第一模态整合特征向量、第二模态整合特征向量和第一融合特征向量,其中,所述SAV模块用于对输入特征中每个通道的特征进行加权处理,并对加权处理后的特征进行展平处理,得到所述输入特征对应的特征向量;
所述对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征,包括:
对所述第一模态整合特征向量、所述第二模态整合特征向量和所述第一融合特征向量进行融合处理,得到第二融合特征向量;
所述根据所述第二融合特征,确定人脸识别结果,包括:
根据所述第二融合特征向量,确定人脸识别结果。
6.根据权利要求5所述的方法,其特征在于,所述SAV模块包括K组卷积层和展平层,K等于输入特征的通道数;所述K组卷积层用于对输入特征中每个通道的特征进行卷积处理,所述展平层用于对所述K组卷积层输出的特征进行展平处理,得到所述输入特征对应的特征向量。
7.根据权利要求1至3中任一项所述的方法,其特征在于,所述分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征,包括:
利用单模态特征整合模块分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到所述第一模态整合特征和所述第二模态整合特征,其中,所述单模态特征整合模块包括第三卷积块。
8.一种人脸识别装置,其特征在于,包括:
特征提取模块,用于分别对第一图像数据和第二图像数据进行特征提取,得到第一模态特征和第二模态特征,其中,所述第一图像数据和所述第二图像数据分别为人脸不同模态的图像数据;
第一特征融合模块,用于对所述第一模态特征和所述第二模态特征进行融合处理,得到第一融合特征;
整合模块,用于分别对所述第一模态特征不同尺度的特征和所述第二模态特征不同尺度的特征进行整合处理,得到第一模态整合特征和第二模态整合特征;
第二特征融合模块,用于对所述第一模态整合特征、所述第二模态整合特征和所述第一融合特征进行融合处理,得到第二融合特征;
确定模块,用于根据所述第二融合特征,确定人脸识别结果。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器,用于读取存储器中的程序实现如权利要求1至7中任一项所述的人脸识别方法中的步骤。
10.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的人脸识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914916.7A CN116912915A (zh) | 2023-07-25 | 2023-07-25 | 一种人脸识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310914916.7A CN116912915A (zh) | 2023-07-25 | 2023-07-25 | 一种人脸识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912915A true CN116912915A (zh) | 2023-10-20 |
Family
ID=88352814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310914916.7A Pending CN116912915A (zh) | 2023-07-25 | 2023-07-25 | 一种人脸识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912915A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118537982A (zh) * | 2024-06-05 | 2024-08-23 | 梵迩佳智能科技有限公司 | 一种基于量子通信的配电房非法入侵监控系统及方法 |
-
2023
- 2023-07-25 CN CN202310914916.7A patent/CN116912915A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118537982A (zh) * | 2024-06-05 | 2024-08-23 | 梵迩佳智能科技有限公司 | 一种基于量子通信的配电房非法入侵监控系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188768B (zh) | 实时图像语义分割方法及系统 | |
WO2024040828A1 (zh) | 遥感高光谱图像与激光雷达图像融合分类方法及装置 | |
CN110084215A (zh) | 一种二值化三元组孪生网络模型的行人重识别方法及系统 | |
CN113128591B (zh) | 基于自监督学习的旋转鲁棒的点云分类方法 | |
CN113326930A (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN113066065B (zh) | 无参考图像质量检测方法、系统、终端及介质 | |
KR101910089B1 (ko) | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN114529982A (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
CN109766918B (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN111639677A (zh) | 一种基于多分路通道扩容网络的垃圾图像分类方法 | |
CN114612802A (zh) | 基于mbcnn的舰船目标细粒度分类系统及方法 | |
CN116189281B (zh) | 基于时空自适应融合的端到端人体行为分类方法及系统 | |
CN116912915A (zh) | 一种人脸识别方法、装置及电子设备 | |
CN110503152B (zh) | 用于目标检测的双路神经网络训练方法及图像处理方法 | |
CN115937567A (zh) | 一种基于小波散射网络和ViT的图像分类方法 | |
CN119229374A (zh) | 一种基于YOLOv8的轻量化密集行人检测方法及系统 | |
CN111626373B (zh) | 多尺度加宽残差网络、小目标识别检测网络及其优化方法 | |
CN118864588A (zh) | 由电子设备执行的方法、电子设备及计算机可读存储介质 | |
CN113963150B (zh) | 一种基于多尺度孪生级联网络的行人重识别方法 | |
CN117576467A (zh) | 一种融合频率域和空间域信息的农作物病害图像识别方法 | |
CN116403237A (zh) | 一种基于关联信息与注意力机制的遮挡行人重识别方法 | |
JP6409463B2 (ja) | パターン認識装置、パターン学習装置、パターン学習方法およびパターン学習プログラム | |
CN111860374A (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN117351246B (zh) | 一种误匹配对去除方法、系统及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |