[go: up one dir, main page]

CN114926860B - 基于毫米波雷达的三维人体姿态估计方法 - Google Patents

基于毫米波雷达的三维人体姿态估计方法 Download PDF

Info

Publication number
CN114926860B
CN114926860B CN202210514662.5A CN202210514662A CN114926860B CN 114926860 B CN114926860 B CN 114926860B CN 202210514662 A CN202210514662 A CN 202210514662A CN 114926860 B CN114926860 B CN 114926860B
Authority
CN
China
Prior art keywords
human body
radar
representing
neural network
body posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210514662.5A
Other languages
English (en)
Other versions
CN114926860A (zh
Inventor
李杨
丁文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN202210514662.5A priority Critical patent/CN114926860B/zh
Publication of CN114926860A publication Critical patent/CN114926860A/zh
Application granted granted Critical
Publication of CN114926860B publication Critical patent/CN114926860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/417Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

基于毫米波雷达的三维人体姿态估计方法,涉及计算机视觉技术领域,针对现有技术中姿态估计精度低的问题,本申请在现有的RF还原方法的基础上进行了大幅改进,通过采用图神经网络来对人体的关节之间的空间关系和运动特点进行编码,使用基于能量的损失模型将回归问题转化为分类问题,并且使用前一帧的输出姿态来辅助当前帧的估计,大幅提升了姿态估计精度和估计速度。

Description

基于毫米波雷达的三维人体姿态估计方法
技术领域
本发明涉及计算机视觉技术领域,具体为基于毫米波雷达的三维人体姿态估计方法。
背景技术
人体姿态作为对人体行为进行分析和预测的重要工具有着诸多应用场景。近几十年随着计算机视觉技术的快速发展,使用视觉传感器对图像中的人体姿态进行估计的方法出现了井喷。由于视觉传感器的局限性,无法获得深度信息,这些方法往往仅会去估计人体的在图像中的二维人体姿态。这些方法中的代表性例子包括2018年上海交通大学YuliangXiu等人提出的使用R-CNN对图像中的人体关节成分进行识别后使用残差神经网络进行特征提取和人体关节位置估计,该方法在公开COCO数据集上达到了较高的准确率[1]。另一个被广泛应用的例子为OpenPose,其由卡内基梅隆大学的Zhe Cao等人于2019年提出[2]。通过使用部分亲和区域(PartAffinity Fields),一种不同人体位置的非参数表达,将其转化为一个关联问题,使用匈牙利算法进行关联。
上述方法均进行人体姿态的二维估计,尽管使用多个摄像头组成的阵列可以在理论上完成对于人体姿态的三维估计,该估计仍然较为困难,需要已知摄像头的相对位置,并且对摄像头的数量有所需求。多伦多大学的Leonid Sigal等人使用7个环形摄像头阵列进行录取,并且使用动捕工具对人体运动进行记录,该HumanEva数据集于2010年公开[3]。但是据笔者所知,目前使用这一数据集的方法较少,并且没有具有显著效果的算法。使用RGB-D传感器,加之红外线传感器添加深度信息的三维重建算法被微软的Kinect所采用[4],其对人体部位进行逐像素识别,之后使用人体的各个部位进行联合估计。然而由于图像传感器本身限制,使用图像的方法都在遮挡和弱光照条件下效果较差。
近些年随着车载雷达等民用雷达领域的发展,具有较高距离和速度分辨率的毫米波雷达开始被广泛应用。利用较高的速度分辨率,该类雷达可以得到人体不同部位运动得到的微小多普勒信息。通过对于人体不同部位的微多普勒进行分离后进行估计,可以得到人体姿态的三维估计。在2015年,麻省理工学院的FadelAdib等人提出RF-Capture,其通过射频天线阵列识别不同的人体部位,用这些人体部位的识别结果拼接为人体姿态[5]。同一研究团体的Mingmin Zhao等人在2018提出RF-Pose[6],其使用距离角度热点图来对人体位置进行检测,并使用垂直和水平的两个射频天线阵列来对人体运动的角度距离热点图进行编码后输入神经网络,来对人体姿态进行还原。亚利桑那州立大学的Arindam Sengupta等人于2020年使用编码后的雷达点云数据通过双头CNN来对人体姿态进行还原,降低计算复杂度的同时,获得了较好的还原效果[7]。但这些方法并没有合理利用到人体本身的关节点之间的空间相对位置关系,同时对于人体各关节点前后帧之间的关系缺少量化和利用,进而导致了姿态估计精度低。
发明内容
本发明的目的是:针对现有技术中姿态估计精度低的问题,提出基于毫米波雷达的三维人体姿态估计方法。
本发明为了解决上述技术问题采取的技术方案是:
基于毫米波雷达的三维人体姿态估计方法,包括以下步骤:
步骤一:利用毫米波雷达获取人体姿态雷达视频数据;
步骤二:将雷达视频数据进行拆分后逐帧进行处理,得到三维人体姿态估计结果;
所述步骤二的步骤具体为:
步骤二一:获取雷达视频数据中首帧对应的雷达图像中的人体姿态,然后将雷达图像中的人体姿态转换为16个节点的人体骨骼模型,并将每个节点由空间三维位置表示,构建48维的人体姿态空间;
步骤二二:在48维的人体姿态空间随机进行采样,得到表示人体姿态的向量,然后将采样得到的表示人体姿态的向量和首帧对应的雷达图像输入神经网络中,得到回归分数;
步骤二三:利用回归分数对采样得到的表示人体姿态的向量进行梯度下降,梯度下降后的结果即为首帧的人体姿态估计结果;
步骤二四:在上一帧得到的人体姿态估计结果周围随机进行采样,得到表示人体姿态的向量集合,然后将集合中表示人体姿态的向量分别与当前帧对应的雷达图像输入神经网络中,得到所有表示人体姿态的向量对应的回归分数;
步骤二五:在所有表示人体姿态的向量对应的回归分数中选取最高的回归分数,并判断最高的回归分数是否小于设定的阈值,若不小于,则将最高的回归分数对应的表示人体姿态的向量作为当前帧的人体姿态估计结果,若小于,则将最高的回归分数对应的表示人体姿态的向量进行梯度下降,并将梯度下降后的结果作为当前帧的人体姿态估计结果;
步骤二六:重复步骤二四和步骤二五,直至得到所有帧的人体姿态估计结果,即为三维人体姿态估计结果;
所述16个节点的人体骨骼模型包括:头部、颈部、左肩、右肩、左肘关节、右肘关节、左腕关节、右腕关节、脊柱中点、脊柱尾端、左髋关节、右髋关节、左膝关节、右膝关节、左踝关节以及右踝关节。
进一步的,所述步骤一的具体步骤为:
首先,使用毫米波雷达录取人体姿态,然后将录取得到的雷达数据进行快速傅里叶变换,得到雷达中不同阵元的雷达距离多普勒图像,之后对得到的雷达距离多普勒图像通过MUSIC算法进行处理,得到雷达距离角度图像;
重复上述步骤,然后将得到的所有雷达距离角度图像进行拼接,得到雷达视频数据。
进一步的,所述神经网络包括卷积神经网络和图神经网络;
所述卷积神经网络对输入的雷达图像进行特征提取;
所述图神经网络根据提取到的特征以及输入的表示人体姿态的向量得到回归分数。
进一步的,所述卷积神经网络采用残差网络。
进一步的,所述图神经网络中第l层节点的特征表示为:
其中,表示第l层节点i的特征,φl表示第l层的聚合方程,表示第l-1层节点i的特征,表示第l-1层节点j的特征。
进一步的,所述图神经网络采用注意力图神经网络。
进一步的,所述注意力图神经网络中第l层的聚合方程表示为:
其中,表示第l-1层的注意力系数,Att表示计算注意力系数的函数,表示第l-1层归一化后的注意力系数,表示第l-1层第i个节点的近邻系数,k表示i的近邻,表示i近邻的集合,fl表示激活函数,表示第l层第i个节点的输出。
进一步的,所述神经网络的损失函数为:
其中fθ(x,y)表示样本与标签的联合概率值,xq表示第q个样本,yq=y(q,0)表示第q个标签,pN(y|yq)表示第q个标签的噪声采样概率,y(q,m)表示根据噪声采样函数进行的第m次采样,M表示采样的总次数,n表示总样本数。
进一步的,所述pN(y|yq)表示为:
其中,K表示高斯概率模型的数量,表示高斯概率模型,表示第k个高斯模型的方差,I表示单位矩阵。
进一步的,所述神经网络包括图像处理部分和特征回归部分;
所述图像处理部分包含七个模块;
其中,
第一模块包含一个具有64个7×7卷积核的卷积层;
第二模块包含3个具有64个1×1卷积核的卷积层,3个具有64个3×3卷积核的卷积层,3个具有512个1×1卷积核的卷积层;
第三模块包含3个具有128个1×1卷积核的卷积层,3个具有128个3×3卷积核的卷积层,3个具有512个1×1卷积核的卷积层;
第四模块包含3个具有256个1×1卷积核的卷积层,3个具有256个3×3卷积核的卷积层,3个具有1024个1×1卷积核的卷积层;
第六模块包含1个7×7的平均池化层;
第七模块包含1个2048×48的全连接层;
所述特征回归部分包含四个模块;
其中,
第一模块包含有1个具有6×8全连接层的图卷积层;
第二模块包含有1个具有8×16全连接层的图卷积层;
第三模块包含有1个具有16×32全连接层的图卷积层;
第四模块包含有1个512×1的全连接层。
本发明的有益效果是:
本申请在现有的RF还原方法的基础上进行了大幅改进,通过采用图神经网络来对人体的关节之间的空间关系和运动特点进行编码,使用基于能量的损失模型将回归问题转化为分类问题,并且使用前一帧的输出姿态来辅助当前帧的估计,大幅提升了姿态估计精度和估计速度。
附图说明
图1为本申请的整体流程示意图;
图2为神经网络结构示意图;
图3为估计得到的人体姿态的结果图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于毫米波雷达的三维人体姿态估计方法,包括以下步骤:
步骤一:利用毫米波雷达获取人体姿态雷达视频数据;
步骤二:将雷达视频数据进行拆分后逐帧进行处理,得到三维人体姿态估计结果;
所述步骤二的步骤具体为:
步骤二一:获取雷达视频数据中首帧对应的雷达图像中的人体姿态,然后将雷达图像中的人体姿态转换为16个节点的人体骨骼模型,并将每个节点由空间三维位置表示,构建48维的人体姿态空间;
步骤二二:在48维的人体姿态空间随机进行采样,得到表示人体姿态的向量,然后将采样得到的表示人体姿态的向量和首帧对应的雷达图像输入神经网络中,得到回归分数;
步骤二三:利用回归分数对采样得到的表示人体姿态的向量进行梯度下降,梯度下降后的结果即为首帧的人体姿态估计结果;
步骤二四:在上一帧得到的人体姿态估计结果周围随机进行采样,得到表示人体姿态的向量集合,然后将集合中表示人体姿态的向量分别与当前帧对应的雷达图像输入神经网络中,得到所有表示人体姿态的向量对应的回归分数;
步骤二五:在所有表示人体姿态的向量对应的回归分数中选取最高的回归分数,并判断最高的回归分数是否小于设定的阈值,若不小于,则将最高的回归分数对应的表示人体姿态的向量作为当前帧的人体姿态估计结果,若小于,则将最高的回归分数对应的表示人体姿态的向量进行梯度下降,并将梯度下降后的结果作为当前帧的人体姿态估计结果;
步骤二六:重复步骤二四和步骤二五,直至得到所有帧的人体姿态估计结果,即为三维人体姿态估计结果;
所述16个节点的人体骨骼模型包括:头部、颈部、左肩、右肩、左肘关节、右肘关节、左腕关节、右腕关节、脊柱中点、脊柱尾端、左髋关节、右髋关节、左膝关节、右膝关节、左踝关节以及右踝关节。
本申请首先提出一种神经网络结构,可以充分利用卷积神经网络的图像特征提取能力,使用图神经网络损失计算的一部分,以利用人体骨骼关节点之间的空间位置关系。具体神经网络结构如图2所示,输入为将距离角度热点图和距离多普勒热点图之中的待分析人体所在部分提取后拼接得到,对待分析的人体位置的提取采用简单的阈值选择方法。
首先将图像通过一个残差神经网络后,本申请得到了对于雷达图像提取出的特征。将这些特征通过一个全连接层后,可以得到人体姿态估计的输出。在得到输出后,采用一种更加有机的方式对人关节点之间的关系进行量化,对输出结果进行限制。首先,人体骨骼可以看作一个由16个节点组成的图,图中节点间的连接关系与人体关节之间的连接关系一致。之后我们可以使用图神经网络来对这一图进行处理,通过人体骨骼关节标签来学习到人体关节之间的空间位置关系。通过将标签和输出结合输入神经网络可以得到回归分数作为输出,该分数可以视为标签与输出的联合概率值,也可以称之为基于能量的损失模型。
上述使用基于能量损失给出的神经网络是一个标签与输入的联合概率密度,在实际使用中,需要输入一个雷达图像,给出一个对应的人体关节姿态的三维位置。基于能量的损失往往使用梯度下降方法来得到对应输入样本的最优输出值,即最优标签值,但是该方法往往计算复杂度较高。为了解决这一问题,同时利用人体运动本身的连续性质,这里借用贝叶斯滤波领域的粒子滤波方法的思想,通过在上一帧输出的人体关节三维位置附近采用特定采样函数进行采样的方法,得到待定输出值后输入到图神经网络中,得到其输出值分别对应的联合概率密度值。将最大的联合概率密度值对应的待定输出值作为人体姿态估计的结果。
本申请针对第一帧图像采用梯度下降方法得到人体骨骼位置的初始值,对之后各帧使用粒子人体姿态跟踪方法来得到人体姿态。以最大化人体跟踪的精度并减少计算量。同时通过设定采样分数阈值的方法,来对偏差较大的姿态估计进行纠正。
本申请采用16个节点的人体骨骼模型,包括人体头部,颈部,左肩,右肩,左肘关节,右肘关节,左腕关节,右腕关节,脊柱中点,脊柱尾端,左髋关节,右髋关节,左膝关节,右膝关节,左踝关节,右踝关节。其中每个节点由空间三维位置表示,构成48维的人体姿态空间。
本申请具体的流程如图1所示,本申请能够充分利用人体运动的连续性质,通过使用前一帧的输出结果,也可以得到更加顺滑的人体连续动作,同时减少使用神经网络的时的计算复杂度。本申请处理流程如下:
步骤一:使用雷达对人体动作进行数据录取,录取得到的雷达数据通过快速傅里叶变换,可以在不同雷达阵元的不同阵元上得到雷达距离多普勒图像。对得到的雷达不同雷达阵元得到的雷达图像通过MUSIC算法进行处理,可以得到雷达距离角度图像。通过对连续不同时刻得到距离角度图像进行拼接,得到雷达视频。
步骤二:对于得到的雷达视频数据进行拆分,逐帧进行处理。
步骤三:如果当前处理帧为首帧的话,转到步骤四。不为首帧则转到步骤六。
步骤四:在48维的人体姿态空间随机采样,对采样得到的代表人体姿态的向量同雷达图像共同输入到姿态估计神经网络,神经网络输出回归分数。
步骤五:使用回归分数相对采样得到的向量进行梯度下降,修改该采样得到的向量。得到人体姿态估计结果,输出该估计结果。
步骤六:在上一帧得到的估计结果周围随机进行任意次采样,采样得到的48维向量集合分别结合该帧雷达图像输入到姿态估计神经网络,每个向量能够得到对应的回归分数。取出回归分数最高的向量作为估计结果。将估计结果和对应的回归分数输入到步骤七。
步骤七:检验估计结果对应的回归分数是否大于一个定值,如果大于,输出估计结果为该帧最终估计结果,如果小于,则转到步骤五。
实施例:
采用常见的走廊环境作为实施例场景,数据录取参数如表1所示:
表1数据录取参数
为了发挥MIMO雷达的多目标检测的性能,并且实现针对室内场景的多径效应的抑制,本申请使用MUSIC方法实现雷达回波中多目标的分离检测,空间超分辨率的实现和多径效应的抑制。
Mr×Mt的MIMO可以视为MrMt×1的SIMO雷达,信号形式如下:
而后可以通过时间差分来消除墙壁,家具等回波,时间差分的大致形式为t时刻的回波信号减去延时tsb之后的信号:
hsb(t,tsb)=h(t)-h(t+tsb)
之后,通过得到的时间差分信号可以计算得出瞬时矩阵R(t,tsb)如下:
R(t,tsb)=hsb(t,tsb)hsb(t,tsb)H
因为使用的是时间差分信号,所以矩阵的秩被减小了。为了恢复矩阵的秩需要对观察时间和差分时间进行平均如下:
之后可以对得到的Rave矩阵进行特征分解得到特征向量U和特征值矩阵Λ如下:
Rave=UΛUH
通过得到的特征值和特征向量可以采用对到达角(AoA)和发射角(DoA)进行遍历搜索的方式或者多项式求解的方式来得到多个目标的到达角和发射角。通过得到的两个角度可以实现对多个目标的二维位置的准确定位和追踪。通过得到的二维位置,可以对探测到的人体目标进行下一步处理。在该场景下单人在水平和垂直摆设的雷达面前进行各种动作,包含行走,蹲起,跳跃等12种动作。在使用雷达进行射频数据进行录取的同时,使用摄像头对运动标签进行录取。录取得到的视频数据通过计算机视觉的OpenPose算法进行二维人体运动的提取,再将其经过多角度三维化处理之后,可以得到人体运动标签。对于录取得到的射频数据,使用雷达数据处理算法,得到距离角度热点图和距离多普勒热点图,将单个雷达生成的这两个图中人体所在的位置提取,并且拼接成一张热点图,将两个雷达生成的拼接图按照通道数结合,形成一个二通道拼接热点图。该输入数据结构能够相对于双头网络结构可以减少网络复杂度,并且保留两个雷达之间的相对关系。
该神经网络包含两个部分,图像处理部分和特征回归部分。其中图像处理部分包含七个特征提取模块。
第一模块包含一个具有64个7×7卷积核的卷积层。
第二模块包含3个具有64个1×1卷积核的卷积层,3个具有64个3×3卷积核的卷积层,3个具有512个1×1卷积核的卷积层。
第三模块包含3个具有128个1×1卷积核的卷积层,3个具有128个3×3卷积核的卷积层,3个具有512个1×1卷积核的卷积层。
第四模块包含3个具有256个1×1卷积核的卷积层,3个具有256个3×3卷积核的卷积层,3个具有1024个1×1卷积核的卷积层。
第六模块包含1个7×7的平均池化层。
第七模块包含1个2048×48的全连接层。
特征回归部分包含四个模块
第一模块包含有1个具有6×8全连接层的图卷积层。
第二模块包含有1个具有8×16全连接层的图卷积层。
第三模块包含有1个具有16×32全连接层的图卷积层。
第四模块包含有1个512×1的全连接层。
在得到雷达数据之后将其输入到图2所示的神经网络中,其中卷积神经网络采用Resnet,图神经网络采用注意力图神经网络。图神经网络以网络节点的特征和网络结构作为输入来得到不同场景任务下的图的特点。在该应用中,使用的是信息传递结构的图神经网络,该图神经网络通过迭代聚合临近网络节点的特征来进行特征更新。该图神经网络经常被称之为卷积图神经网络。在该结构下,图中的每个节点在经过l层之后会包含l跳近邻的特征。图卷积神经网络的第l层节点的特征可以定义为:
其中上标l代表第l层,hi代表节点i的特征,初始化为Xi。聚合方程φ用于在各层之间传递信息,更新节点特征。该方程一般为简单的一次线性函数加上非线性激活函数。在最后L层,经过L次特征聚合与更新的节点特征可以直接用于切割,分类等应用。
对于基于注意力机制的图神经网络,该网络中的聚合方程φ应包含注意力机制,因此第l层的聚合方程为:
其中eij为注意力系数,Att为计算注意力系数的函数,用于量化节点i与节点j之间的关系密切程度。通过softmax计算得到注意力权重,通过将权重与特征相乘叠加,经过非线性函数可以得到下一层的特征。
神经网络的损失计算方式采用基于能量概率密度函数的损失定义——NoiseContrastiveEstimation(NCE)。NCE的公式如下所示
其中fθ(x,y)表示样本与标签的联合概率值,xq表示第q个样本,yq=y(q,0)表示第q个标签,pN(y∣yq)表示第q个标签的噪声采样概率,y(q,m)表示根据噪声采样函数进行的第m次采样,M表示采样的总次数,n表示总样本数。
上式可以视为是一个由正负样本组成的分类损失,负样本的损失大小由噪声采样概率决定,噪声采样概率一般用高斯概率或多高斯概率模型,正如下式所示:
该损失将回归问题转换为分类问题,充分利用率神经网络的分辨能力。但是其使用的联合概率密度fθ(x,y)中的y才是所需要的人体三维骨骼标签,对于此问题多数使用基于能量的损失模型的算法往往使用梯度下降求解,由于我们问题的特殊性,可以采用在上一帧所在位置的附近进行采样,将采样得到的评估三维骨骼向量输入到联合概率密度中,取出对应最大联合概率密度的评估向量作为输出。
本实施例实现过程中共录取了12000帧样本,将其中的6000帧作为训练集,6000帧作为测试集,将训练样本输入上述神经网络进行训练。对于6000帧的训练集,噪声采样函数的采样点数为4096,多高斯采样函数的方差分别为0.01m,0.1m,0.2m,0.4m,共计4个高斯噪声模型。
对于训练得到的神经网络使用上述的粒子人体姿态跟踪方法进行测试集上的推演,其中粒子姿态跟踪方法采样函数为同样的多高斯采样函数,其方差与训练时相同。根据具体测试效果,设定重新进行采样的回归分数阈值为0.7。可以得到测试集上的各关节的平均估计误差为8.12cm,而相对于直接对输出值进行回归的不使用基于能量距离估计和粒子跟踪的方法的估计精度在13.57cm。相较于后者,本文提出的改进方法能够有接近一倍的性能提升,同时具有较强的鲁棒性。具体不同场景和参数设置下的模型测试性能如表2所示。
表2模型性能
本申请相较于直接输出人体姿态的方法更少受到模型过拟合的影响。直接输出人体关节位置的方法本质上在拟合一个高维冲击函数,非常容易过拟合,陷入局部最优,而使用基于能量的损失模型来估计人体关节位置则不会有这样的问题。图3为具体的人体姿态还原效果。
[1]XIUY.Pose Flow:Efficient Online Pose Tracking[J].12.
[2]CAO Z,HIDALGO G,SIMON T,等,2019.OpenPose:Realtime Multi-Person 2DPose Estimation using Part Affinity Fields[J/OL].arXiv:1812.08008[cs][2020-11-07].http://arxiv.org/abs/1812.08008.
[3]SIGAL L,BALAN A O,BLACK M J,2010.HumanEva:Synchronized Video andMotion Capture Dataset and Baseline Algorithm for Evaluation of ArticulatedHuman Motion[J/OL].International Journal of Computer Vision,87(1-2):4-27.DOI:10.1007/s11263-009-0273-6.
[4]SHOTTON J,FITZGIBBON A,COOK M,等.Real-Time Human Pose Recognitionin Parts from Single Depth Images[J].8.
[5]ADIB F,HSU C Y,MAO H,等,2015.Capturing the human figure through awall[J/OL].ACM Transactions on Graphics,34(6):1-13.DOI:10.1145/2816795.2818072.
[6]ZHAO M,TIANY,ZHAO H,等,2018.RF-Based 3D Skeletons[J].16.
[7]SENGUPTA A,JIN F,ZHANG R,等,2020.mm-Pose:Real-Time HumanSkeletalPosture Estimation Using mmWave Radars and CNNs[J/OL].IEEE SensorsJournal,20(17):10032-10044.DOI:10.1109/JSEN.2020.2991741.
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (6)

1.基于毫米波雷达的三维人体姿态估计方法,其特征在于包括以下步骤:
步骤一:利用毫米波雷达获取人体姿态雷达视频数据;
步骤二:将雷达视频数据进行拆分后逐帧进行处理,得到三维人体姿态估计结果;
所述步骤二的步骤具体为:
步骤二一:获取雷达视频数据中首帧对应的雷达图像中的人体姿态,然后将雷达图像中的人体姿态转换为16个节点的人体骨骼模型,并将每个节点由空间三维位置表示,构建48维的人体姿态空间;
步骤二二:在48维的人体姿态空间随机进行采样,得到表示人体姿态的向量,然后将采样得到的表示人体姿态的向量和首帧对应的雷达图像输入神经网络中,得到回归分数;
步骤二三:利用回归分数对采样得到的表示人体姿态的向量进行梯度下降,梯度下降后的结果即为首帧的人体姿态估计结果;
步骤二四:在上一帧得到的人体姿态估计结果周围随机进行采样,得到表示人体姿态的向量集合,然后将集合中表示人体姿态的向量分别与当前帧对应的雷达图像输入神经网络中,得到所有表示人体姿态的向量对应的回归分数;
步骤二五:在所有表示人体姿态的向量对应的回归分数中选取最高的回归分数,并判断最高的回归分数是否小于设定的阈值,若不小于,则将最高的回归分数对应的表示人体姿态的向量作为当前帧的人体姿态估计结果,若小于,则将最高的回归分数对应的表示人体姿态的向量进行梯度下降,并将梯度下降后的结果作为当前帧的人体姿态估计结果;
步骤二六:重复步骤二四和步骤二五,直至得到所有帧的人体姿态估计结果,即为三维人体姿态估计结果;
所述16个节点的人体骨骼模型包括:头部、颈部、左肩、右肩、左肘关节、右肘关节、左腕关节、右腕关节、脊柱中点、脊柱尾端、左髋关节、右髋关节、左膝关节、右膝关节、左踝关节以及右踝关节;
所述神经网络包括卷积神经网络和图神经网络;
所述卷积神经网络对输入的雷达图像进行特征提取;
所述图神经网络根据提取到的特征以及输入的表示人体姿态的向量得到回归分数;
所述图神经网络中第l层节点的特征表示为:
其中,表示第l层节点i的特征,φl表示第l层的聚合方程,表示第l-1层节点i的特征,表示第l-1层节点j的特征;
所述图神经网络采用注意力图神经网络;
所述注意力图神经网络中第l层的聚合方程表示为:
其中,表示第l-1层的注意力系数,Att表示计算注意力系数的函数,表示第l-1层归一化后的注意力系数,表示第l-1层第i个节点的近邻系数,k表示i的近邻,表示i近邻的集合,fl表示激活函数,表示第l层第i个节点的输出。
2.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法,其特征在于所述步骤一的具体步骤为:
首先,使用毫米波雷达录取人体姿态,然后将录取得到的雷达数据进行快速傅里叶变换,得到雷达中不同阵元的雷达距离多普勒图像,之后对得到的雷达距离多普勒图像通过MUSIC算法进行处理,得到雷达距离角度图像;
重复上述步骤,然后将得到的所有雷达距离角度图像进行拼接,得到雷达视频数据。
3.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法,其特征在于所述卷积神经网络采用残差网络。
4.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法,其特征在于所述神经网络的损失函数为:
其中fθ(x,y)表示样本与标签的联合概率值,xq表示第q个样本,yq=y(q,0)表示第q个标签,pN(y|yq)表示第q个标签的噪声采样概率,y(q,m)表示根据噪声采样函数进行的第m次采样,M表示采样的总次数,n表示总样本数。
5.根据权利要求4所述的基于毫米波雷达的三维人体姿态估计方法,其特征在于所述pN(y|yq)表示为:
其中,K表示高斯概率模型的数量,表示高斯概率模型,表示第k个高斯模型的方差,I表示单位矩阵。
6.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法,其特征在于所述神经网络包括图像处理部分和特征回归部分;
所述图像处理部分包含七个模块;
其中,
第一模块包含一个具有64个7×7卷积核的卷积层;
第二模块包含3个具有64个1×1卷积核的卷积层,3个具有64个3×3卷积核的卷积层,3个具有512个1×1卷积核的卷积层;
第三模块包含3个具有128个1×1卷积核的卷积层,3个具有128个3×3卷积核的卷积层,3个具有512个1×1卷积核的卷积层;
第四模块包含3个具有256个1×1卷积核的卷积层,3个具有256个3×3卷积核的卷积层,3个具有1024个1×1卷积核的卷积层;
第六模块包含1个7×7的平均池化层;
第七模块包含1个2048×48的全连接层;
所述特征回归部分包含四个模块;
其中,
第一模块包含有1个具有6×8全连接层的图卷积层;
第二模块包含有1个具有8×16全连接层的图卷积层;
第三模块包含有1个具有16×32全连接层的图卷积层;
第四模块包含有1个512×1的全连接层。
CN202210514662.5A 2022-05-12 2022-05-12 基于毫米波雷达的三维人体姿态估计方法 Active CN114926860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210514662.5A CN114926860B (zh) 2022-05-12 2022-05-12 基于毫米波雷达的三维人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210514662.5A CN114926860B (zh) 2022-05-12 2022-05-12 基于毫米波雷达的三维人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN114926860A CN114926860A (zh) 2022-08-19
CN114926860B true CN114926860B (zh) 2024-08-09

Family

ID=82809186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210514662.5A Active CN114926860B (zh) 2022-05-12 2022-05-12 基于毫米波雷达的三维人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN114926860B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271933A (zh) * 2018-09-17 2019-01-25 北京航空航天大学青岛研究院 基于视频流进行三维人体姿态估计的方法
CN111523377A (zh) * 2020-03-10 2020-08-11 浙江工业大学 一种多任务的人体姿态估计和行为识别的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549863B (zh) * 2018-04-11 2019-11-26 腾讯科技(深圳)有限公司 人体姿态预测方法、装置、设备及存储介质
CN113642379B (zh) * 2021-05-18 2024-03-01 北京航空航天大学 基于注意力机制融合多流图的人体姿态预测方法及系统
CN114241515A (zh) * 2021-11-19 2022-03-25 浙江工业大学 一种基于时空上下文特征感知的三维人体姿态估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271933A (zh) * 2018-09-17 2019-01-25 北京航空航天大学青岛研究院 基于视频流进行三维人体姿态估计的方法
CN111523377A (zh) * 2020-03-10 2020-08-11 浙江工业大学 一种多任务的人体姿态估计和行为识别的方法

Also Published As

Publication number Publication date
CN114926860A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
Gao et al. Dynamic hand gesture recognition based on 3D hand pose estimation for human–robot interaction
Lim et al. A feature covariance matrix with serial particle filter for isolated sign language recognition
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN106097393B (zh) 一种基于多尺度与自适应更新的目标跟踪方法
Khaire et al. Deep learning and RGB-D based human action, human–human and human–object interaction recognition: A survey
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN107169435A (zh) 一种基于雷达仿真图像的卷积神经网络人体动作分类方法
CN110705463A (zh) 基于多模态双流3d网络的视频人体行为识别方法及系统
CN107481264A (zh) 一种自适应尺度的视频目标跟踪方法
CN104794737B (zh) 一种深度信息辅助粒子滤波跟踪方法
CN109325446A (zh) 一种基于加权截断核范数的红外弱小目标检测方法
CN103345735A (zh) 一种基于Kalman滤波器的压缩时空多传感器融合跟踪方法
Ma et al. Human motion gesture recognition based on computer vision
CN113378649A (zh) 身份、位置和动作识别方法、系统、电子设备及存储介质
CN104408760A (zh) 一种基于双目视觉的高精度虚拟装配系统算法
Feng et al. DAMUN: A domain adaptive human activity recognition network based on multimodal feature fusion
CN115343704B (zh) 基于多任务学习的fmcw毫米波雷达的手势识别方法
CN111402303A (zh) 一种基于kfstrcf的目标跟踪架构
CN108985227A (zh) 一种基于空间三角平面特征的动作描述与评价方法
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
CN111105444B (zh) 一种适用于水下机器人目标抓取的连续跟踪方法
CN115761393A (zh) 一种基于模板在线学习的无锚目标跟踪方法
CN114926860B (zh) 基于毫米波雷达的三维人体姿态估计方法
Song et al. High-accuracy gesture recognition using mm-wave radar based on convolutional block attention module
CN110111358B (zh) 一种基于多层时序滤波的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant