CN117576312A - 手部模型构建方法、装置以及计算机设备 - Google Patents
手部模型构建方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN117576312A CN117576312A CN202311513317.0A CN202311513317A CN117576312A CN 117576312 A CN117576312 A CN 117576312A CN 202311513317 A CN202311513317 A CN 202311513317A CN 117576312 A CN117576312 A CN 117576312A
- Authority
- CN
- China
- Prior art keywords
- hand
- features
- feature
- vertex
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 95
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 230000002452 interceptive effect Effects 0.000 claims description 58
- 239000013598 vector Substances 0.000 claims description 46
- 230000009466 transformation Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 23
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 19
- 210000002411 hand bone Anatomy 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 10
- 239000002356 single layer Substances 0.000 claims description 10
- 238000004088 simulation Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 51
- 239000010410 layer Substances 0.000 description 27
- 238000007781 pre-processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000036544 posture Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 210000002478 hand joint Anatomy 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000036316 preload Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Geometry (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种手部模型构建方法、装置、计算机设备、存储介质和计算机程序产品。其中方法包括:获取手部的初始图像数据并进行特征编码,得到全局特征;将全局特征进行多层级的二维解码得到多个二维数据;将解码得到的二维数据进行特征融合,得到分层图像特征;将全局特征和分层图像特征输入至交互注意力图网络模型,预测得到网格顶点坐标,根据网格顶点坐标构建单元网格,基于多个单元网格生成目标手部模型。方法能够利用分层图像特征携带的局部上下文信息和全局特征携带的全局上下文信息,使得手部模型的网格图像能够更精准地贴合;最终基于网格顶点坐标形成的单元网格进行整合,所得到目标手部模型能够达到高准确度的双手三维重建效果。
Description
技术领域
本申请涉及三维重建技术领域,特别是涉及一种手部模型构建方法以及装置,并且还涉及对应的计算机设备、存储介质和计算机程序产品。
背景技术
交互式双手重建是面向虚拟现实(Virtual Reality,VR)、人机交互(human–computer interaction,HCI)、机器人技术、全息运输、数字医学等多种工业应用的基本任务之一。由于深度神经网络和大规模数据集的发展,单目单手姿态和形状恢复取得了很大的成功。
自提出了大规模双手数据集InterHand2.6M 以来,基于学习的单图像双手重建方法已经出现。例如,在传统技术方案中使用2.5D热图来估计手部关节位置,方案的核心思想是明确地对图像进行像素级别的语义概率分割,将双手氛围不同的手和它们的部分,从而将每个像素分配给特定的手部位。并且,还可以将2.5D热图作为注意力图提取稀疏的图像特征。
然而,在传统技术方案中,热图中编码的稀疏局部图像特征无法有效建模手部表面的遮挡,并且无法提取密集的交互上下文;因此,传统技术方案难以达到高准确度的双手重建效果。
发明内容
基于此,有必要针对上述技术问题,提供一种准确度更高的手部模型构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种手部模型构建方法。所述方法包括:
获取手部的初始图像数据,对所述初始图像数据进行特征编码,得到全局特征;
将所述全局特征进行多层级的二维解码得到多个二维数据;
基于二维解码的解码层级将所述多个二维数据进行特征融合,得到分层图像特征;
将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,所述交互注意力图网络模型中对所述网格顶点坐标进行上采样的频次与所述分层图像特征的特征层级数量相同;
结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型。
在其中一个实施例中,获取手部的初始图像数据包括:
获取手部的原始图像、以及所述原始图像中的手顶点坐标和手骨节点坐标;
对所述原始图像进行图像增强处理;
对所述手顶点坐标和所述手骨节点坐标进行仿射变换;
将图像增强处理后的原始图像、仿射变换后的所述手顶点坐标、以及仿射变换后的所述手骨节点坐标,组合形成候选图像数据;
将所述候选图像数据进行归一化处理,得到所述初始图像数据。
在其中一个实施例中,所述交互注意力图网络模型包括多个网络单元,所述网络单元的数量与所述网格顶点坐标进行上采样的频次相同,所述网络单元包括图卷积网络模块、层级图像特征注意力模块、以及交叉手注意力模块;
所述将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标包括:
获取网络单元预设的单元层级;
将所述全局特征输入至所述图卷积网络模块进行运算,得到网格顶点特征;
将所述单元层级与所述分层图像特征对应的特征层级进行匹配,得到所述单元层级对应的单层图像特征;
将所述网格顶点特征和所述单层图像特征,输入至所述层级图像特征注意力模块进行运算,得到增强注意力的所述网格顶点特征;
将增强注意力的所述网格顶点特征,输入至所述交叉手注意力模块运算得到左手顶点特征和右手顶点特征;
分别对所述左手顶点特征和所述右手顶点特征进行上采样,得到网格顶点坐标。
在其中一个实施例中,所述将所述全局特征输入至所述图卷积网络模块进行运算,得到网格顶点特征包括:
获取手部图拓扑结构中网格顶点的位置嵌入向量;
将所述全局特征映射得到紧凑特征向量,所述紧凑特征向量表征所有网格顶点共有的特征向量;
将所述位置嵌入向量与所述紧凑特征向量组合,得到所述网格顶点特征。
在其中一个实施例中,所述根据所述网络单元的单元层级,将分层图像特征输入和所述网格顶点特征输入至所述层级图像特征注意力模块,得到增强注意力的所述网格顶点特征包括:
对所述分层图像特征对应的特征图进行划分,得到多个图像块;
将所述多个图像块进行展平和压缩处理,得到特征向量序列;
将所述特征向量序列对应的图像特征、和所述网格顶点特征进行级联,得到增强注意力的所述网格顶点特征。
在其中一个实施例中,所述将增强注意力的所述网格顶点特征,输入至所述交叉手注意力模块运算得到左手顶点特征和右手顶点特征包括:
对增强注意力的所述网格顶点特征进行左右手区分,得到左右手的初始顶点特征;
基于所述初始顶点特征,通过多头注意力机制运算得到跨手注意力特征,所述跨手注意力特征用于表征左右手对应顶点特征之间的相关性;
将所述跨手注意力特征分别与左右手的初始顶点特征进行组合,得到所述左手顶点特征和所述右手顶点特征。
在其中一个实施例中,所述结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型包括:
创建手部仿真模型;
对所述手部仿真模型进行结构简化,得到手部图拓扑结构,所述手部图拓扑结构的拓扑层级与所述分层图像特征的特征层级数量相同;
根据所述网格顶点坐标构建多个单元网格;
基于所述多个单元网格和所述手部图拓扑结构生成目标手部模型。
在其中一个实施例中,所述基于所述多个单元网格和所述手部图拓扑结构生成目标手部模型包括:
获取所述手部图拓扑结构对应的回归矩阵;
根据所述网格顶点坐标和所述回归矩阵进行逆变换运算,得到关节点坐标;
基于所述关节点坐标将所述多个单元网格进行组合,得到目标手部模型。
第二方面,本申请还提供了一种手部模型构建装置。所述装置包括:
特征提取模块,用于获取手部的初始图像数据,对所述初始图像数据进行特征编码,得到全局特征;
特征解码模块,用于将所述全局特征进行多层级的二维解码得到多个二维数据;
特征融合模块,用于基于二维解码的解码层级将所述多个二维数据进行特征融合,得到分层图像特征;
坐标预测模块,用于将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,所述交互注意力图网络模型中对所述网格顶点坐标进行上采样的频次与所述分层图像特征的特征层级数量相同;
模型构建模块,用于结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取手部的初始图像数据,对所述初始图像数据进行特征编码,得到全局特征;
将所述全局特征进行多层级的二维解码得到多个二维数据;
基于二维解码的解码层级将所述多个二维数据进行特征融合,得到分层图像特征;
将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,所述交互注意力图网络模型中对所述网格顶点坐标进行上采样的频次与所述分层图像特征的特征层级数量相同;
结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取手部的初始图像数据,对所述初始图像数据进行特征编码,得到全局特征;
将所述全局特征进行多层级的二维解码得到多个二维数据;
基于二维解码的解码层级将所述多个二维数据进行特征融合,得到分层图像特征;
将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,所述交互注意力图网络模型中对所述网格顶点坐标进行上采样的频次与所述分层图像特征的特征层级数量相同;
结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取手部的初始图像数据,对所述初始图像数据进行特征编码,得到全局特征;
将所述全局特征进行多层级的二维解码得到多个二维数据;
基于二维解码的解码层级将所述多个二维数据进行特征融合,得到分层图像特征;
将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,所述交互注意力图网络模型中对所述网格顶点坐标进行上采样的频次与所述分层图像特征的特征层级数量相同;
结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型。
本申请提供的手部模型构建方法、装置、计算机设备、存储介质和计算机程序产品;针对三维双手重建任务,首先对初始图像数据进行特征编码,得到全局特征,在得到全局特征的基础上,进行多层级的二维解码,并将不同层级的二维数据进行融合,得到分层图像特征,使得重建任务的高分辨率网格能够利用细粒度特征进行手部重建,可以丰富图像特征的上下文信息;并且,通过引入分层图像特征,在交互注意力图网络模型对手部模型的网格顶点坐标进行预测的过程中,利用注意力机制的全局感知能力,使每个网格顶点能够更为准确地描述原始图像中的手部形态或动作;此外,保持网格顶点坐标进行上采样的频次与分层图像特征的特征层级数量相同,使得预测过程能够利用分层图像特征携带的局部上下文信息和全局特征携带的全局上下文信息,使得手部模型的网格图像能够更精准地贴合;最终基于网格顶点坐标形成的单元网格进行整合,所得到目标手部模型能够达到高准确度的双手三维重建效果。
附图说明
图1为一个实施例中手部模型构建方法的应用环境图;
图2为一个实施例中手部模型构建方法的流程示意图;
图3为一个实施例中预测网格顶点坐标子步骤的流程示意图;
图4为一个实施例中交互注意力图网络模型的架构示意图;
图5为另一个实施例中手部模型构建方法的流程示意图;
图6为一个实施例中手部模型构建装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
伴随着深度神经网络和大规模数据集的发展,传统技术方案中提出了通过跟踪密集匹配图提出了基于单目RGB图像的双手重建方法,该方法可以回归多个互补的信息,包括左右手分割、3D手模型的密集匹配图以及2D关键点位置;该方法还能够实现手内部相对深度和手间距离映射,以处理RGB数据固有的深度模糊性。然而,基于单目RGB图像的双手重建方法,其跟踪过程本身对快速运动非常敏感,并且没有充分利用交互双手之间的先验知识。自从提出了大规模双手数据集InterHand2.6M 以来,传统技术方案中又提出基于学习的单图像双手重建方法;这一方法采用2.5D热图来估计手部关节位置,方法的核心思想是明确地对图像进行像素级别的语义概率分割,将双手分为不同的手和它们的部分,从而将每个像素分配给特定的手部位。然而,使用2.5D热图来估计手部关节位置,要么将其作为注意力图提取稀疏的图像特征;热图中编码的稀疏局部图像特征无法有效建模手部表面的遮挡,并且无法提取密集的交互上下文。
综上,传统技术方案所提供的双手重建方法,其存在着以下两个难题尚未攻克:第一,双手严重的相互遮挡和外观相似性混淆了特征提取过程,使得网络难以将手部姿态与图像特征对齐。第二,在网络设计和学习的过程中,难以有效地制定双手之间的交互语境。
为能够解决上述提出的问题,本申请技术方案提供了可以使用单视图图像重建三维场景下人类双手的方案,方案使用单目相机拍摄人类现实生活中双手运动的RGB图像作为输入,重建出图像中人类双手的形状和姿态,以满足人机交互的需求。例如,本申请技术方案中提供的手部模型构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。在该应用环境中服务器104中设有数据存储系统,该数据存储系统可以存储服务器104需要处理的图像数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。此外,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等能够进行人机交互的终端设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
具体在图1所示的应用环境中,在获取用户授权的情况下,终端102通过调用图像采集装置,例如摄像头,对人类双手的图像进行采集,并将采集得到的双手原始图像上传至服务器104,由服务器104基于该原始图像重建出图像中人类双手的形状和姿态。此外,在该应用环境中,服务器104还可以直接从数据存储系统中直接调取得到需要进行重建的双手图像。在服务器104获取得到了双手的原始图像之后,服务器104需要针对原始图像进行预处理,预处理的过程主要是指对原始图像中的关键信息进行标注,并且需要对原始进行图像增强处理。将原始图像进行预处理之后得到手部的初始图像数据,之后服务器104将通过预先加载的图像编码器和解码器,进行图像特征处理。服务器104将初始图像数据输入至编码器中进行特征编码,得到图像的全局特征;并将得到的全局特征输入至解码器中进行多层级的二维解码,得到能够表征局部上下文信息的二维数据;其中,分层图像特征不同层级中的二维数据,其数据的粗糙程度不同。服务器104在完成解码之后,将同一层级中的多个二维数据进行特征融合,以得到分层图像特征;由于分层图像特征呈现出数据粗糙程度随层级变化而变化的特征,因此也记作金字塔特征映射。在服务器104得到全局特征以及分层图像特征之后,进一步将两种特征数据输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标。其中,交互注意力图网络模型中对网格顶点坐标进行上采样的频次与分层图像特征的特征层级数量相同。该交互注意力图网络模型用于逐层提炼顶点特征并完成手部顶点的预测以完成目标手部模型的重建;该网络模型中的层级图像特征注意力模块能够保证网格图像进行更好地对齐,交叉手注意力模块能够用于消除手间遮挡。在服务器104预测得到所有的网格顶点坐标之后,将基于网格顶点坐标确定每个单元网格在手部模型中的位置信息,并进一步将确定位置信息的多个单元网格进行组合,最终构建形成双手的三维Mesh模型。
需要说明的是,在一些其他应用场景中,在终端102具备一定的数据处理能力的情况下,上述的手部模型构建过程可以由终端102单独完成。与传统技术方案中提供的双手重建方法相比,在图1所示的应用环境中执行的手部模型构建方法,能够更准确的提取双手特征,实现基于单视图图像的高精度双手重建。
在本申请的一个实施例中,针对传统技术方案无法获得与图像很好的对齐效果且很难获得高准确度的双手重建效果,如图2所示,提供了一种手部模型构建方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,获取手部的初始图像数据,对初始图像数据进行特征编码,得到全局特征。
在实施例中,初始图像数据是基于人类手部的原始图像进行预处理后得到的图像数据;在该图像数据中可以包括但不限于手部原始图像、以及对原始图像中的关键信息进行标注的信息内容。其中,初始图像数据的关系信息可以进一步具体为双手的关节点、顶点等信息;而预处理的过程可以包括图像增强、以及数据的归一化处理等过程。另外,在实施例中,特征编码是由实施例中预先加载的编码器所实现的;特征编码的过程是将初始图像数据的数据格式转换为后续模型能够理解和使用的数据格式。具体在转换过程中,还将执行特征提取、特征选择等处理步骤,从预处理后的图像数据中提取有意义的特征,这些特征能够捕捉手部姿态或动作的关键属性信息。实施例中的全局特征用于表征初始图像数据中的整体特征属性,其携带有全局上下文信息;但同时全局特征其特征维度数相对更高,计算量相对更大。
具体在实施例中,服务器在接收到进行手部(双手)模型构建的指令之后,响应于这一指令,服务器将可以从终端的采集装置实时获取手部的原始图像;或者从服务器的数据存储系统中直接调取指定的原始图像。在得到手部的原始图像之后,服务器需要对原始图像进行必要的预处理。具体地,在图像数据的预处理阶段,服务器将对获取得到的原始图像数据进行相应的参数标注。示例性地,实施例基于参数化模型(MANO)进行双手重建;因此,在服务器对手部原始图像进行预处理的阶段,可以预先调用InterHand2.6M数据集数据。然后,结合MANO手模型结构以及ManoLayer库,使用OpenCV处理InterHand2.6M数据集原始数据,得到数据集中每张图像中双手的参数标注、双手手部mask掩码图、双手密集映射编码匹配图等2D数据。服务器学习并记录了上述的参数标注方式之后,对于获取的手部原始图像进行相同方式的参数标注处理。在进行参数标注之后,在对原始图像进行图像增强处理,得到初始图像数据。
更进一步地,实施例中服务器还可以预先加载图像编码器和解码器;将预处理后
得到的初始图像数据输入至图像编码器中进行特征编码,以得到初始图像数据对应的全局
特征。示例性地,实施例中可以使用ResNet50作为图像特征提取编码器,图像经过编码器产
生全局特征。
步骤204,将全局特征进行多层级的二维解码得到多个二维数据。
在实施例中,二维解码是基于解码器所实现的解码过程,解码所得到二维数据,包括但不限于二维(2D)手部姿态图、以及密集双手密集映射编码匹配图等内容。为能够得到上述二维数据,实施例中需要通过不同类型的解码器所实现,并且由于解码得到的二维数据的特征维度与数据量之间也存在差异;因此,实施例中多层级的二维解码过程,其层级可以是基于得到二维数据的信息丰富程度所界定的,而信息丰度是对特征维度、以及数据量的体现。需要说明的是,实施例中层级自上而下的排序方式,是基于信息丰富程度的升序或降序所排列形成的。
示例性地,在实施例中服务器在加载图像编码器的同时也会完成对解码器的加
载。进一步地,实施例中的编码器和解码器,能够以图像编码器-解码器结构实现,该结构包
含一个编码器和多个解码器。使用ResNet50作为图像特征提取编码器,图像经过编码器产
生全局特征,全局特征经过不同解码器之后可以形成不同类型的2D数据,例如,2D手
部姿态图、密集双手密集映射编码匹配图等。
步骤206,基于二维解码的解码层级将多个二维数据进行特征融合,得到分层图像特征。
在实施例中,特征融合的目的是将来自多个不同源的特征合并为一个更好的特征表示,以提高交互注意力图网络模型的运算性能;具体在实施例中可以通过CONV函数进行卷积运算以实现特征融合。分层图像特征,因为其具有层级特性,实施例中还可以记作金字塔特征映射;在实施例中,通过多个不同类型的解码器对全局特征进行解码,由于各个解码器的特征尺度(特征维度)不同,因此全局特征通过多层级的解码能够得到多尺度的特征表示;并且每个层级的特征图都具有较强的语义信息,能够携带较多的局部上下文信息,并且在金字塔特征映射中还可以涵盖有高分辨率的特征图。
示例性地,实施例中的服务器通过预先加载的图像编码-解码器来完成手部重建
过程中的图像特征提取,并获取多尺度金字塔特征图;其中,多尺度金字塔特征图可以丰富
图像特征的上下文信息,使得在通过交互注意力图网络模型进行预测过程中能够使得模型
网格和模型图像的对齐。更为具体地,服务器针对初始图像数据中的单个RGB图像,首先将
其输入至图像编码-解码结构中,该结构生成一个中间的全局特征,全局特征经过不
同解码器之后生成不同类型的2D数据,同时将编码器和解码器相对应层的特征层拼接在一
起并使用CONV1X1进行特征融合,最后得到三层捆绑的金字塔特征映射:
以用于在交互注意力图网络模型进行坐标预测的过程中能够保证像素对齐。
更进一步地,实施例中训练图像编码器-解码器的过程,可以使用平滑的L1损失来监督2D密集匹配编码,并使用均方误差(MSE)损失来监督2D热图。
步骤208,将全局特征和分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,交互注意力图网络模型中对网格顶点坐标进行上采样的频次与分层图像特征的特征层级数量相同。
在实施例中,采用交互注意力机制构建图网络模型,对需要进行重建的手部Mesh模型中各个单元网格的网格顶点坐标。实施例中,模型的交互注意力机制的原理在于,在计算每个顶点位置的注意力权重时,将输入的特征(序列)中每个顶点位置的表示与已经计算出的注意力权重相乘,并对所有乘积结果求和。这个过程可以看作是对输入的特征中每个位置的重要程度的加权平均,从而更好地关注特征中的关键信息。实施例中网格顶点坐标是指最终形成的手部Mesh模型中的每个多边形单元(例如,三角形或矩形)的顶点坐标。实施例中的特征层级数量,是指在前述步骤中得到的分层图像特征中特征图的层级数量;例如,特征层级数量为三层,即是指通过特征融合后形成的金字塔特征映射包括三个不同尺度的特征图。实施例中上采样(Upsampling)的过程主要目的是对原特征图像进行放大,以使其具有更高的分辨率能够呈现更多的显示内容。
示例性地,在实施例中在通过生成一个中间的全局特征和三个捆绑的金字塔特
征图Φt,并将两项特征数据(特征图)传递至交互注意力图网络模型。该交互注意力图网络
模型,用于逐层提炼单元网格的顶点特征,并完成手部顶点的预测以完成重建。在该网络中
模型中的金字塔图像特征注意力模块,能够保证网格图像进行更好的对齐,模型中的交叉
手注意力模块能够消除双手间遮挡。交互注意力图网络模型首先接收向量化后的全局特
征,分别生成左右手的顶点特征,然后利用金字塔特征图Φt进行图像的逐层手部对齐,逐
层进行特征提取后并重建手部模型。在一些实施例中,交互注意力图网络模型可以分为三
个单元,每个单元由三个子模块组成,并且在每个子模块中,左右手各有一个分支。每个分
支网络都有一个图卷积网络(Graph Convolutional Network,GCN)和一个金字塔图像特征
注意力模块(Pyramid Feature Attention Network,PFA),同时还有两只手之间的交叉手
注意力模块(Coordinate attention,CA)。GCN模块用以提取手部顶点特征;PFA模块将金字
塔特征图Φt逐级插入GCN提炼后的顶点特征中,以保证利用局部上下文和全局上下文对网
格图像进行更好的对齐;CA模块将交互上下文编码为手顶点特征,CA模块允许每只手的顶
点集中关注另一只手的顶点特征,以消除手间遮挡。
步骤210,结合网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于多个单元网格生成目标手部模型。
在实施例中,采用Mesh模型实现手部重建,而Mesh模型是由一系列相互关联的点、线和面构成的三维对象。其中,点表示模型的顶点,线表示两个顶点之间的连线,而面则是由三个或更多个顶点组成的平面,即为实施例中的单元网格。通过这些基本的几何元素的组合,可以呈现出复杂的手部姿态以及动作。
示例性地,实施例中将全局特征和金字塔特征图输入至交互注意力图网络模型之后,会预测出每只手778个手部模型(单元网格的)顶点坐标;结合网格顶点和Mano模型手部的图拓扑结构构建778个点之间的连接关系,然后在形成单元网格,最终生成目标手部模型。
本申请实施例提供的手部模型构建方法中,针对三维双手重建任务,首先对初始图像数据进行特征编码,得到全局特征,在得到全局特征的基础上,进行多层级的二维解码,并将不同层级的二维数据进行融合,得到分层图像特征,使得重建任务的高分辨率网格能够利用细粒度特征进行手部重建,可以丰富图像特征的上下文信息;并且,通过引入分层图像特征,在交互注意力图网络模型对手部模型的网格顶点坐标进行预测的过程中,利用注意力机制的全局感知能力,使每个网格顶点能够更为准确地描述原始图像中的手部形态或动作;此外,保持网格顶点坐标进行上采样的频次与分层图像特征的特征层级数量相同,使得预测过程能够利用分层图像特征携带的局部上下文信息和全局特征携带的全局上下文信息,使得手部模型的网格图像能够更精准地贴合;最终基于网格顶点坐标形成的单元网格进行整合,所得到目标手部模型能够达到高准确度的双手三维重建效果。
在一个实施例中,为了使交互注意力图网络模型能够更准确地对初始图像数据中的关键性信息进行学习,方法中获取手部的初始图像数据的过程,可以包括以下步骤:
步骤一,获取手部的原始图像、以及原始图像中的手顶点坐标和手骨节点坐标。
在实施例中,手部的原始图像是指明确包含了人类双手,且并未进行任何标注、或图像强化处理的图像。实施例中的手顶点坐标和手骨节点坐标均是通过坐标描述的方式表征原始图像中手部的姿态以及动作。
示例性地,实施例中采用MANO模型来实现手部重建,为此,实施例中首先处理并获取InterHand2.6M数据集数据。结合MANO手模型结构以及ManoLayer库,使用OpenCV处理InterHand2.6M数据集原始数据,处理并获取数据集中每张图像中双手的参数标注、双手手部mask掩码图、双手密集映射编码匹配图等2D数据。根据以上的处理方式对输入的原始图像进行相应的2D数据注解。并且使用ManoLayer库获取该图像对应的手顶点坐标和手骨节点坐标。
步骤二,对原始图像进行图像增强处理。
在实施例中,图像增强处理的过程,是通过图像处理方法对退化的某些图像特征,例如边缘、轮廓、对比度等进行处理,以改善图像的视觉效果,提高图像的清晰度;从而突出图像中的特定的有用信息,并压缩其他无用信息,将图像转换为更适合模型进行学习处理的格式。
示例性地,实施例中将输入的原始图像通过图像增强算法对图像进行翻转、平移、旋转、颜色增强等预处理,以得到增强处理后的图像。
步骤三,对手顶点坐标和手骨节点坐标进行仿射变换。
在实施例中,仿射变换(Affine Transformation)其本质是由线性变换和平移变换所叠加而形成的变换过程。
示例性的,在实施例中,根据前述对图像进行增强处理时的变换逻辑,对获得的手顶点坐标和手骨节点坐标同步进行仿射变换,得到仿射变换之后的坐标数据。
步骤四,将图像增强处理后的原始图像、仿射变换后的手顶点坐标、以及仿射变换后的手骨节点坐标,组合形成候选图像数据。
在实施例中,候选图像数据是将前述步骤中得到的增强处理后的原始图像、以及仿射变换之后得到的坐标数据进行组合所得到的中间态图像数据。
步骤五,将候选图像数据进行归一化处理,得到初始图像数据。
在实施例中,将初步整合之后的中间态图像数据进行归一化处理,以得到可以输入至图像编码-解码结构的初始图像数据,归一化处理是将数据映射到指定范围的处理过程,用于去除不同维度数据的量纲以及量纲单位。实施例中的方法在形成初始图像数据的过程中,引入了图像增强、仿射变换、以及归一化处理等预处理过程,从而使实施例中所得到的初始图像数据可靠性更高、可用性更强。
在一个实施例中,方法中结合网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于多个单元网格生成目标手部模型的过程,可以具体包括以下步骤:
步骤一,创建手部仿真模型。
步骤二,对手部仿真模型进行结构简化,得到手部图拓扑结构,其中,手部图拓扑结构的拓扑层级与图像特征的特征层级数量相同。
步骤三,根据网格顶点坐标构建多个单元网格。
步骤四,基于多个单元网格和手部图拓扑结构生成目标手部模型。
具体在实施例中,服务器在基于网格顶点坐标构建得到最终的目标手部模型之
前,需要预先创建初始的手部模型(或初始双手结构图),并进行简化处理。示例性地,实施
例中的服务器根据MANO手部模型,粗化MANO网格结构,建立单手顶点数量分别为63,126,
252的手部图拓扑结构,以用于交叉注意力网络三层子模块的图结构,同时三层子模块的图
结构也对应了实施例在通过对全局特征进行解码后的金字塔特征图,能够表征三层的金字
塔特征映射的特征图Φt,从而进行逐层的顶点特征提取和
上采样。
在该实施例中,通过图粗化处理,构造了Nb=3个层次的子网格,单手顶点数为n0=63,n1=126,n2=252,并保留相邻层次间的拓扑关系进行上采样,以保证顶点特征在网络中的传递。
在一个实施例中,交互注意力图网络模型包括多个网络单元所构成,并且网络单元的数量与网格顶点坐标进行上采样的频次相同。具体在每个网络单元中,可以包括图卷积网络(GCN)模块、层级图像特征注意力(PFA)模块、以及交叉手注意力模块(CA)。基于上述的交互注意力图网络模型的模型架构,如图3所示,方法中将全局特征和分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标的过程,可以包括以下步骤:
步骤302,获取网络单元预设的单元层级。
在实施例中,单元层级是用于描述每个网络单元在模型中运算处理顺序。具体在实施例中,需要通过网络单元对手部模型(单元网格)的顶点特征进行预测,并将预测得到的结果进行上采样作为下一个网络单元的输入,因此,根据网络单元进行特征运算处理的顺序,即能够确定每个网络单元的单元层级。例如,首次基于全局特征和金字塔特征图进行运算处理得到顶点特征的网络单元,其单元层级为第一级。
步骤304,将全局特征输入至图卷积网络模块进行运算,得到网格顶点特征。
具体地,网格顶点特征是用于表征目标手部模型中各个单元网格顶点的特征。更为具体地,为了最终能够得到手部模型中各个网格单元的顶点坐标,实施例中的网络单元的基础架构,是在传统技术方案中的图卷积网络架构上进行改进所形成的。将传统技术方案中图卷积网络架构的一个手部信息的(顶点)特征信息处理流,扩展成为左右两只手的特征信息处理流。除此之外,与传统技术方案中的不同的是,传统技术方案中的图卷积网络模块更倾向于将潜在的特征向量转换为更大的非共享的逐顶点特征;而本申请技术方案中的图卷积模块,会将输入的全局特征进行更为紧凑的维度映射,以使得全局特征能够概括性地描述所有网格单元的顶点特征,即通过图卷积网络模块得到的网格顶点特征是所有节点之间共享的特征信息。
步骤306,将单元层级与分层图像特征对应的特征层级进行匹配,得到单元层级对应的单层图像特征。
具体在实施例中,基于前述步骤确定网络单元对应的单元层级,从前述由编码器-解码器结构输出得到的金字塔特征图Φt中提取对应的特征图;例如,实施例中当前进行特征运算处理的网络单元为模型中的第一个网络单元,则服务器将会从金字塔特征图中提取得到第一层的特征图Φt,即为实施例中的单层图像特征,并输入至当前网络单元的层级图像特征注意力模块之中。
步骤308,将网格顶点特征和单层图像特征,输入至层级图像特征注意力模块进行运算,得到增强注意力的网格顶点特征。
在实施例中,层级图像特征注意力模块主要用于解决模型的单元网格与手部图像进行对齐的问题。具体在实施例中,通过前述步骤确定每个网络单元的层级以及当前层级与金字塔特征图之间的对应关系之后,服务器将逐步将金字塔特征图Φt,插入至经过网络单元中GCN模块之后的顶点特征中,以确保使用局部和全局上下文进行更好的网格-图像对齐,此处每个图像特征是编码器特征和用于对齐到更丰富上下文的中间解码器特征的组合。
步骤310,将增强注意力的网格顶点特征,输入至交叉手注意力模块运算得到左手顶点特征和右手顶点特征。
在实施例中,交叉手注意力模块采用隐式表达的方式来描述左右手的关联关系;
其中,隐式表达是指用函数来描述场景几何信息。具体在实施例中,基于模型对左右两只手
的特征信息分开进行运算处理的特性,通过前述层级图像特征注意力模块得到强注意力的
网格顶点特征,其中分别包括了左手的网格顶点特征以及右手的网格顶点特征。因此,在网
络单元的交叉手注意力模块同样将基于一只手的网格顶点特征来描述与另一只手的相关
性。示例性地,在实施例中交叉手注意力模块中,用和分别表示左手和右手经过注意
力增强后的顶点特征,交叉手注意力模块首先对每只手执行多头自注意力(Multi-headed
Self-attention,MHSA)运算得到、、表示每只手的查询、键和值特征,然
后使用一只手的查询特征通过多头注意力(MHA)来获取另一只手的关键特征和值特
征。基于一只手相对应另一只手的关键特征和特征值,进一步计算得到跨手注意力特征,
并量化编码两只手之间的相关性特征,最后将量化编码后的相关性特征添加至(初始的)左
手和右手对应的顶点特征,以输出得到左手顶点特征和右手顶点特征。
步骤312,分别对左手顶点特征和右手顶点特征进行上采样,得到网格顶点坐标。
在实施例的交互注意力图网络模型中的每个单元网格输出得到左手顶点特征和右手顶点特征,都将进行一次上采样处理,并将上采样之后得到的(左右手)顶点特征,输入至下一层级的网络单元中,再经过前述步骤S302-S310所描述的特征处理过程,直至完成所有网络单元的特征运算处理流程,对最后一个层级网络单元输出的左手顶点特征和右手顶点特征,进行最后一轮的上采样,所得到的向量即表征手部模型中各个单元网格的顶点位置坐标。示例性的,实施例中经过交互注意力图网络模型中最后一个网络单元运算处理以及上采样之后,网络会预测出1556 * 3的向量,即每只手的778个顶点坐标。
实施例所提供的交互注意力图网络模型,在原GCN的每个上采样步中引入了两个新的基于注意力机制的模块。第一个模块是金字塔图像特征注意模块,该模块利用多分辨率特征隐式获取顶点对图像的对齐;第二个模块是交叉手注意模块,它通过在两个手顶点之间构建密集的交叉注意力来编码交互手的一致性。与传统技术方案中基于热图的双手重建方式相比,本实施例可以在野外图像和现场视频流上产生良好的网格-图像对齐的重建效果,能够更准确的提取双手特征,实现基于单视图图像的高精度双手重建。
在一个实施例中,方法中将全局特征输入至图卷积网络模块进行运算,得到网格顶点特征的过程,具体可以包括以下步骤:
步骤一,获取手部图拓扑结构中网格顶点的位置嵌入向量。
步骤二,将全局特征映射得到紧凑特征向量,紧凑特征向量表征所有网格顶点共有的特征向量。
步骤三,将位置嵌入向量与紧凑特征向量组合,得到网格顶点特征。
在实施例中,手部图拓扑结构是基于实施例中根据MANO手部模型,创建的初始双手图结构,并将这一双手图结构进行粗化处理之后得到的拓扑结构。实施例中的位置嵌入向量是指在手部图拓扑结构各个网格单元初始顶点的坐标位置进行嵌入(Embedding)处理之后的得到的低维度向量。
示例性地,如图4所示,实施例交互注意力图网络模型的网络单元中,首先需要将
输入的全局特征进行分流处理,针对左右手各自的全局特征进行图卷积运算。在对单手进
行图卷积运算的过程中,图卷积网络模块中的全连接层通过函数,将单手的全局特征映射到一个更紧凑的特征向量中;所得到的特征向量是所有单元网格的
顶点所共享的。进一步地,图卷积网络模型将第i个初始单元网格顶点的位置嵌入与共享
向量连接起来形成每个顶点的特征,其中位置嵌入是经过对初始单元网格顶点的坐标
位置进行密集匹配编码所得到的。实施例中特征的计算过程可以通过如下的计算式表
述:
其中,是初始图形特征,=63是手部图拓扑结构中最粗糙的子网格顶点
数量。为特征长度,取值为512,表示左手(L)或右手(R)。上述的运算过程作为注意力机
制的一部分,可以减小模型大小,加快训练速度。
更为具体地,图卷积网络模块通过堆叠,得到;其中。之后,交
互注意力图网络模型在每个网络单元()中,均执行Chebyshev谱图CNN 操作,将
输入顶点特征转换为,具体转换的表达式为:
其中,是指 K阶切比雪夫多项式的第k项,是缩放拉普拉斯矩阵,t指的是第几
个模块(t=0,1,2);组合在一起是一种图卷积算子,作用就是对得到的特征进行图卷
积以进一步提取各个顶点特征之间的关系。实施例在图卷积网络模块中的两层GraphConv
操作中增加残差连接,以辅助梯度传播,增强学习能力。通过前述实施例步骤,实施例中能
够对顶点特征进行更为精确地初步提取。
在一个实施例中,方法中根据网络单元的单元层级,将分层图像特征输入和网格顶点特征输入至层级图像特征注意力模块,得到增强注意力的网格顶点特征的过程,具体可以包括以下步骤:
步骤一,对分层图像特征对应的特征图进行划分,得到多个图像块。
步骤二,将多个图像块进行展平和压缩处理,得到特征向量序列。
步骤三,将特征向量序列对应的图像特征、和网格顶点特征进行级联,得到增强注意力的网格顶点特征。
具体在实施例中,交互注意力图网络模型的网络单元中,层级图像特征注意力模
块主要是用于解决单元网格与手部图像对齐的问题。示例性的,如图4所示,根据实施例中
模型中单元网格的层级结构,服务器逐步将金字塔特征图Φt插入经过图卷积运算之后得
到的顶点特征中;以确保使用局部和全局上下文进行更好的网格-图像对齐,实施例中,每
个图像特征是编码器特征和用于对齐到更丰富上下文的中间解码器特征的组合。更为具体
地,为了有效地使用图像特征,网络单元中的层级图像特征注意力模块首先会将每个网络
单元对应的单层金字塔特征图Φt 均匀地划分为 × 个图像块,每个块
的尺寸为。然后,这些图像块通过线性层进行展平和压缩,生成一
系列具有相同特征大小的特征向量序列,用于描述在当前阶段运算处理
得到的顶点特征。然后,将特征与图卷积网络模块计算得到的顶点特征进行级联,
并输入到多头自注意力模块中,进行注意力增强运算处理,运算过程的计算式如下:
实施例中的金字塔特征图(图像特征)是多尺度的,图像特征是8×8→16×16→32×32,金字塔结构迫使稀疏网格关注全局图像特征,而稠密网格关注局部图像特征,可以产生更好的顶点-图像对齐效果。
在一个实施例中,方法中将增强注意力的网格顶点特征,输入至交叉手注意力模块运算得到左手顶点特征和右手顶点特征的过程,具体包括以下步骤:
步骤一,对增强注意力的网格顶点特征进行左右手区分,得到左右手的初始顶点特征。
步骤二,基于初始顶点特征,通过多头注意力机制运算得到跨手注意力特征,跨手注意力特征用于表征左右手对应顶点特征之间的相关性。
步骤三,将跨手注意力特征分别与左右手的初始顶点特征进行组合,得到左手顶点特征和右手顶点特征。
在实施例中,如图4所示,左右手的初始顶点特征所表征的是经由层级图像特征注意力模块进行特征运算处理之后,输出得到中间态的顶点特征。实施例中的相关性则是用于描述左右手的顶点特征之间的关联关系。
示例性地,为简单表示,实施例中将忽略中的,用和分别表示左手和右
手的。交叉手注意力模块首先对每只手执行多头自注意力(Multi-headed Self-
attention,MHSA)运算得到、、表示每只手的查询、键和值特征,然后使用
一只手的查询特征通过多头注意力(MHA)来获取另一只手的关键特征和值特征。
具体的计算式如下:
其中,和是跨手注意力特征,是量化编码两只手之间的相关性;是一
个归一化常数。然后,交叉手注意力模块通过一个逐点多层感知机(MLP)层的函数,
将跨手注意力特征合并到手部顶点特征中:
其中,和是交叉手注意力模块输出的手部顶点特征,它们作为下一个
模块的两只手的特征。
在一个实施例中,方法中基于多个单元网格和手部图拓扑结构生成目标手部模型的过程,可以具体包括以下步骤:
步骤一,获取手部图拓扑结构对应的回归矩阵。
步骤二,根据网格顶点坐标和回归矩阵进行逆变换运算,得到关节点坐标。
步骤三,基于关节点坐标将多个单元网格进行组合,得到目标手部模型。
在实施例中,回归矩阵是在回归分析的过程中,用于描述自变量和因变量之间线性关系的矩阵;具体在实施例中则是用于描述由交互注意力图网络模型的输出向量,与手部图拓扑结构中手部关节点坐标之间线性关系的矩阵。示例性的,实施例中在通过交互注意力图网络模型预测得到1556 * 3的向量,即每只手的778个顶点坐标,同时利用顶点坐标结合Mano模型的回归矩阵(J_regressor)进行逆变换,从而得到每只手的16个关节点坐标。最终服务器在明确了左右手的关节点坐标的情况下,对应将网格单元进行组合并调整得到最终重建后的目标手部模型。
需要进一步的说明的是,在实施例中,可以采用以下三种损失函数,在训练的过程中对交互注意力图网络模型的模型参数进行调整:
(1)顶点损失函数:
其中,表示第个顶点;,表示左手或右手,表示2D投影操作,下
同。GT是ground truth的缩写,表明该参数是数据的真实顶点坐标,这里的损失就是计算预
测顶点坐标和真实顶点坐标之间的差值,从而进行模型训练。为了简化,实施例也可以选择
忽略每个子网格的顶点损失。
(2)实施例中,通过与预定义的关节回归矩阵J相乘,可以从预测的手顶点回归出手关节,进而回归的关节点损失表示为:
其中,是微调后的MANO手模型中的关节回归矩阵,矩阵形状是[16,778],和顶点
坐标相乘之后将预测的778个顶点坐标回归到16个手部骨节点坐标,即由[778, 3]变换至
[16, 3],从而进行手部16个骨关节点的损失计算。
(3)为了保证预测顶点的几何平滑性(网格平滑损失),实施例中还引入了正则化预测网格和地面真值网格之间的正常一致性损失:
结合说明书附图5,对本申请技术方案中对手部进行重建的过程进行完整的过程描述如下,其重建过程主要包括以下步骤:
步骤一,创建初始双手图结构。根据MANO手部模型,粗化MANO网格结构,建立单手顶点数量分别为63,126,252的手部图拓扑结构,以用于交叉注意力网络三层子模块的图结构,从而进行逐层的顶点特征提取和上采样。
步骤二,处理并获取InterHand2.6M数据集数据。结合MANO手模型结构以及ManoLayer库,使用OpenCV处理InterHand2.6M数据集原始数据,处理并获取数据集中每张图片中双手的参数标注、双手手部mask掩码图、双手密集映射编码匹配图等2D数据。
步骤三,数据预处理。根据输入图片对应的注解,使用ManoLayer库获取该图片对应的手顶点坐标和手骨节点坐标,并将输入图片使用图片增强算法对图片进行翻转、平移、旋转、颜色增强等预处理,同时按相同的操作对获得的手顶点坐标和手骨节点坐标进行仿射变换,最后,对图片数据进行归一化处理。
步骤四,图片特征编码与解码。接受步骤三处理后的数据,首先将其输入到图像编码器-解码器结构中,该结构包含一个编码器和多个解码器。使用ResNet50作为图片特征提取编码器,图片经过编码器产生全局特征向量,全局特征向量经过不同解码器之后生成不同类型的2D数据(包括2D手部姿态图、密集双手密集映射编码匹配图等),最后同时将编码器和解码器相对应层的特征层拼接在一起进行特征融合,最后得到三层捆绑的金字塔特征映射,以用于交互注意力网络中保证像素对齐。图片经过图像编码器-解码器结构后,最终获得全局特征向量和三层捆绑的金字塔特征映射并将其传输到交互注意力网络中。对于训练图像编码器-解码器,本发明使用平滑的L1损失来监督2D密集匹配编码,并使用均方误差(MSE)损失来监督2D热图。
步骤五,交互注意力图网络顶点特征提炼。步骤四获得的全局特征向量和三层捆绑的金字塔特征映射会传输到交互注意力网络层,然后进行进一步的顶点特征提取和上采样以完成手部Mesh的重建。交互注意力图网络分为三个网络单元,特征每经过一个网络单元之后都会进行顶点的上采样,以传输到下一网络单元进行同样的特征提取和注意力操作,而每个块由三个子模块组成(每个子模块中,左右手各有一个分支):每个分支网络都有一个图卷积网络(GCN)和一个金字塔图像特征注意力模块(PFA),同时还有两只手之间的交叉手注意力模块(CA)。GCN模块用以提取手部顶点特征; PFA模块用于将分层特征逐级插入GCN模块提炼后的特征中,以保证利用局部上下文和全局上下文对网格图像进行更好的对齐; CA模块将交互上下文编码为手顶点特征,CA模块允许每只手的顶点集中关注另一只手的顶点特征,以消除手间遮挡。
步骤六,顶点特征上采样和坐标预测。经过步骤五最后一个网络单元的上采样之后,网络会预测出1556 * 3的向量,即每只手的778个顶点坐标,同时利用顶点坐标结合Mano模型的J_regressor矩阵进行逆变换,从而获得每只手16个关节点坐标。基于最终得到的关节点坐标,构建得到目标手部模型。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的手部模型构建方法的手部模型构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个手部模型构建装置实施例中的具体限定可以参见上文中对于手部模型构建方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种手部模型构建装置600,包括:特征提取模块601、特征解码模块602、特征融合模块603、坐标预测模块604和模型构建模块605,其中:
特征提取模块601,用于获取手部的初始图像数据,对初始图像数据进行特征编码,得到全局特征。
特征解码模块602,用于将全局特征进行多层级的二维解码得到多个二维数据。
特征融合模块603,用于基于二维解码的解码层级将多个二维数据进行特征融合,得到分层图像特征。
坐标预测模块604,用于将全局特征和分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,交互注意力图网络模型中对网格顶点坐标进行上采样的频次与分层图像特征的特征层级数量相同。
模型构建模块605,用于结合网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于多个单元网格生成目标手部模型。
在一个实施例中,特征提取模块601还用于获取手部的 原始图像、以及原始图像中的手顶点坐标和手骨节点坐标;对原始图像进行图像增强处理;对手顶点坐标和手骨节点坐标进行仿射变换;将图像增强处理后的原始图像、仿射变换后的手顶点坐标、以及仿射变换后的手骨节点坐标,组合形成候选图像数据;将候选图像数据进行归一化处理,得到初始图像数据。
在一个实施例中,交互注意力图网络模型包括多个网络单元,网络单元的数量与网格顶点坐标进行上采样的频次相同,网络单元包括图卷积网络模块、层级图像特征注意力模块、以及交叉手注意力模块。装置600中的坐标预测模块604,还用于获取网络单元预设的单元层级;将全局特征输入至图卷积网络模块进行运算,得到网格顶点特征;将单元层级与分层图像特征对应的特征层级进行匹配,得到单元层级对应的单层图像特征;将网格顶点特征和单层图像特征,输入至层级图像特征注意力模块进行运算,得到增强注意力的网格顶点特征;将增强注意力的网格顶点特征,输入至交叉手注意力模块运算得到左手顶点特征和右手顶点特征;分别对左手顶点特征和右手顶点特征进行上采样,得到网格顶点坐标。
在一个实施例中,坐标预测模块604还用于获取手部图拓扑结构中网格顶点的位置嵌入向量;将全局特征映射得到紧凑特征向量,紧凑特征向量表征所有网格顶点共有的特征向量;将位置嵌入向量与紧凑特征向量组合,得到网格顶点特征。
在一个实施例中,坐标预测模块604还用于对分层图像特征对应的特征图进行划分,得到多个图像块;将多个图像块进行展平和压缩处理,得到特征向量序列;将特征向量序列对应的图像特征、和网格顶点特征进行级联,得到增强注意力的网格顶点特征。
在一个实施例中,坐标预测模块604还用于对增强注意力的网格顶点特征进行左右手区分,得到左右手的初始顶点特征;基于初始顶点特征,通过多头注意力机制运算得到跨手注意力特征,跨手注意力特征用于表征左右手对应顶点特征之间的相关性;将跨手注意力特征分别与左右手的初始顶点特征进行组合,得到左手顶点特征和右手顶点特征。
在一个实施例中,模型构建模块605还用于创建手部仿真模型;对手部仿真模型进行结构简化,得到手部图拓扑结构,手部图拓扑结构的拓扑层级与分层图像特征的特征层级数量相同;根据网格顶点坐标构建多个单元网格;基于多个单元网格和手部图拓扑结构生成目标手部模型。
在一个实施例中,模型构建模块605还用于获取手部图拓扑结构对应的回归矩阵;根据网格顶点坐标和回归矩阵进行逆变换运算,得到关节点坐标;基于关节点坐标将多个单元网格进行组合,得到目标手部模型。
上述手部模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始的手部图像数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手部模型构建方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种手部模型构建方法,其特征在于,所述方法包括:
获取手部的初始图像数据,对所述初始图像数据进行特征编码,得到全局特征;
将所述全局特征进行多层级的二维解码得到多个二维数据;
基于二维解码的解码层级将所述多个二维数据进行特征融合,得到分层图像特征;
将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,所述交互注意力图网络模型中对所述网格顶点坐标进行上采样的频次与所述分层图像特征的特征层级数量相同;
结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型。
2.根据权利要求1所述的方法,其特征在于,获取手部的初始图像数据包括:
获取手部的原始图像、以及所述原始图像中的手顶点坐标和手骨节点坐标;
对所述原始图像进行图像增强处理;
对所述手顶点坐标和所述手骨节点坐标进行仿射变换;
将图像增强处理后的原始图像、仿射变换后的所述手顶点坐标、以及仿射变换后的所述手骨节点坐标,组合形成候选图像数据;
将所述候选图像数据进行归一化处理,得到所述初始图像数据。
3.根据权利要求1所述的方法,其特征在于,所述交互注意力图网络模型包括多个网络单元,所述网络单元的数量与所述网格顶点坐标进行上采样的频次相同,所述网络单元包括图卷积网络模块、层级图像特征注意力模块、以及交叉手注意力模块;
所述将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标包括:
获取网络单元预设的单元层级;
将所述全局特征输入至所述图卷积网络模块进行运算,得到网格顶点特征;
将所述单元层级与所述分层图像特征对应的特征层级进行匹配,得到所述单元层级对应的单层图像特征;
将所述网格顶点特征和所述单层图像特征,输入至所述层级图像特征注意力模块进行运算,得到增强注意力的所述网格顶点特征;
将增强注意力的所述网格顶点特征,输入至所述交叉手注意力模块运算得到左手顶点特征和右手顶点特征;
分别对所述左手顶点特征和所述右手顶点特征进行上采样,得到网格顶点坐标。
4.根据权利要求3所述的方法,其特征在于,所述将所述全局特征输入至所述图卷积网络模块进行运算,得到网格顶点特征包括:
获取手部图拓扑结构中网格顶点的位置嵌入向量;
将所述全局特征映射得到紧凑特征向量,所述紧凑特征向量表征所有网格顶点共有的特征向量;
将所述位置嵌入向量与所述紧凑特征向量组合,得到所述网格顶点特征。
5.根据权利要求3所述的方法,其特征在于,所述根据所述网络单元的单元层级,将分层图像特征输入和所述网格顶点特征输入至所述层级图像特征注意力模块,得到增强注意力的所述网格顶点特征包括:
对所述分层图像特征对应的特征图进行划分,得到多个图像块;
将所述多个图像块进行展平和压缩处理,得到特征向量序列;
将所述特征向量序列对应的图像特征、和所述网格顶点特征进行级联,得到增强注意力的所述网格顶点特征。
6.根据权利要求3所述的方法,其特征在于,所述将增强注意力的所述网格顶点特征,输入至所述交叉手注意力模块运算得到左手顶点特征和右手顶点特征包括:
对增强注意力的所述网格顶点特征进行左右手区分,得到左右手的初始顶点特征;
基于所述初始顶点特征,通过多头注意力机制运算得到跨手注意力特征,所述跨手注意力特征用于表征左右手对应顶点特征之间的相关性;
将所述跨手注意力特征分别与左右手的初始顶点特征进行组合,得到所述左手顶点特征和所述右手顶点特征。
7.根据权利要求1所述的方法,其特征在于,所述结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型包括:
创建手部仿真模型;
对所述手部仿真模型进行结构简化,得到手部图拓扑结构,所述手部图拓扑结构的拓扑层级与所述分层图像特征的特征层级数量相同;
根据所述网格顶点坐标构建多个单元网格;
基于所述多个单元网格和所述手部图拓扑结构生成目标手部模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述多个单元网格和所述手部图拓扑结构生成目标手部模型包括:
获取所述手部图拓扑结构对应的回归矩阵;
根据所述网格顶点坐标和所述回归矩阵进行逆变换运算,得到关节点坐标;
基于所述关节点坐标将所述多个单元网格进行组合,得到目标手部模型。
9.一种手部模型构建装置,其特征在于,所述装置包括:
特征提取模块,用于获取手部的初始图像数据,对所述初始图像数据进行特征编码,得到全局特征;
特征解码模块,用于将所述全局特征进行多层级的二维解码得到多个二维数据;
特征融合模块,用于基于二维解码的解码层级将所述多个二维数据进行特征融合,得到分层图像特征;
坐标预测模块,用于将所述全局特征和所述分层图像特征输入至已训练的交互注意力图网络模型,预测得到目标手部模型中的网格顶点坐标,所述交互注意力图网络模型中对所述网格顶点坐标进行上采样的频次与所述分层图像特征的特征层级数量相同;
模型构建模块,用于结合所述网格顶点坐标与模型手部的图拓扑结构,生成多个单元网格,并基于所述多个单元网格生成目标手部模型。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311513317.0A CN117576312A (zh) | 2023-11-14 | 2023-11-14 | 手部模型构建方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311513317.0A CN117576312A (zh) | 2023-11-14 | 2023-11-14 | 手部模型构建方法、装置以及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117576312A true CN117576312A (zh) | 2024-02-20 |
Family
ID=89894697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311513317.0A Pending CN117576312A (zh) | 2023-11-14 | 2023-11-14 | 手部模型构建方法、装置以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576312A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118279521A (zh) * | 2024-05-31 | 2024-07-02 | 江西财经大学 | 基于多头令牌自注意力的双手网格重建方法与系统 |
CN118379441A (zh) * | 2024-06-27 | 2024-07-23 | 江西财经大学 | 面向真实场景的实时3d手部网格重建方法与系统 |
CN119295624A (zh) * | 2024-12-16 | 2025-01-10 | 中国计量大学 | 基于扩散加噪的三维手部顶点优化模型的构建方法 |
-
2023
- 2023-11-14 CN CN202311513317.0A patent/CN117576312A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118279521A (zh) * | 2024-05-31 | 2024-07-02 | 江西财经大学 | 基于多头令牌自注意力的双手网格重建方法与系统 |
CN118379441A (zh) * | 2024-06-27 | 2024-07-23 | 江西财经大学 | 面向真实场景的实时3d手部网格重建方法与系统 |
CN119295624A (zh) * | 2024-12-16 | 2025-01-10 | 中国计量大学 | 基于扩散加噪的三维手部顶点优化模型的构建方法 |
CN119295624B (zh) * | 2024-12-16 | 2025-03-14 | 中国计量大学 | 基于扩散加噪的三维手部顶点优化模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Single image 3D object reconstruction based on deep learning: A review | |
Samavati et al. | Deep learning-based 3D reconstruction: a survey | |
Tang et al. | Skeletonnet: A topology-preserving solution for learning mesh reconstruction of object surfaces from rgb images | |
CN114049435B (zh) | 一种基于Transformer模型的三维人体重建方法及系统 | |
CN117576312A (zh) | 手部模型构建方法、装置以及计算机设备 | |
CN115115805B (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
CN114782634A (zh) | 基于表面隐函数的单目图像着装人体重建方法与系统 | |
CN114463511A (zh) | 一种基于Transformer解码器的3D人体模型重建方法 | |
CN116740290B (zh) | 基于可变形注意力的三维交互双手重建方法及系统 | |
CN115937406A (zh) | 三维重建方法、装置、设备及存储介质 | |
CN113781659A (zh) | 一种三维重建方法、装置、电子设备及可读存储介质 | |
CN112818860B (zh) | 基于端到端多任务多尺度神经网络的实时三维人脸重建方法 | |
KR20230071052A (ko) | 이미지 처리 방법 및 장치 | |
CN116758202A (zh) | 人手图像合成方法、装置、电子设备及存储介质 | |
Li et al. | Multi-view convolutional vision transformer for 3D object recognition | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
CN116912296A (zh) | 一种基于位置增强注意力机制的点云配准方法 | |
CN111311732B (zh) | 3d人体网格获取方法及装置 | |
CN116246010A (zh) | 一种基于图像的人体三维重建方法 | |
CN115272608A (zh) | 一种人手重建方法及设备 | |
CN115376209A (zh) | 一种基于深度学习的三维人体姿态估计方法 | |
CN113763539B (zh) | 一种基于图像和三维输入的隐式函数三维重建方法 | |
CN118015192A (zh) | 一种基于2d图像的3d模型快速重建方法 | |
CN118447532A (zh) | 一种基于多视角的人体姿态估计方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |