CN114926860B

CN114926860B - 基于毫米波雷达的三维人体姿态估计方法

Info

Publication number: CN114926860B
Application number: CN202210514662.5A
Authority: CN
Inventors: 李杨; 丁文博
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2024-08-09
Anticipated expiration: 2042-05-12
Also published as: CN114926860A

Abstract

基于毫米波雷达的三维人体姿态估计方法，涉及计算机视觉技术领域，针对现有技术中姿态估计精度低的问题，本申请在现有的RF还原方法的基础上进行了大幅改进，通过采用图神经网络来对人体的关节之间的空间关系和运动特点进行编码，使用基于能量的损失模型将回归问题转化为分类问题，并且使用前一帧的输出姿态来辅助当前帧的估计，大幅提升了姿态估计精度和估计速度。

Description

基于毫米波雷达的三维人体姿态估计方法

技术领域

本发明涉及计算机视觉技术领域，具体为基于毫米波雷达的三维人体姿态估计方法。

背景技术

人体姿态作为对人体行为进行分析和预测的重要工具有着诸多应用场景。近几十年随着计算机视觉技术的快速发展，使用视觉传感器对图像中的人体姿态进行估计的方法出现了井喷。由于视觉传感器的局限性，无法获得深度信息，这些方法往往仅会去估计人体的在图像中的二维人体姿态。这些方法中的代表性例子包括2018年上海交通大学YuliangXiu等人提出的使用R-CNN对图像中的人体关节成分进行识别后使用残差神经网络进行特征提取和人体关节位置估计，该方法在公开COCO数据集上达到了较高的准确率[1]。另一个被广泛应用的例子为OpenPose，其由卡内基梅隆大学的Zhe Cao等人于2019年提出[2]。通过使用部分亲和区域(PartAffinity Fields)，一种不同人体位置的非参数表达，将其转化为一个关联问题，使用匈牙利算法进行关联。

上述方法均进行人体姿态的二维估计，尽管使用多个摄像头组成的阵列可以在理论上完成对于人体姿态的三维估计，该估计仍然较为困难，需要已知摄像头的相对位置，并且对摄像头的数量有所需求。多伦多大学的Leonid Sigal等人使用7个环形摄像头阵列进行录取，并且使用动捕工具对人体运动进行记录，该HumanEva数据集于2010年公开[3]。但是据笔者所知，目前使用这一数据集的方法较少，并且没有具有显著效果的算法。使用RGB-D传感器，加之红外线传感器添加深度信息的三维重建算法被微软的Kinect所采用[4]，其对人体部位进行逐像素识别，之后使用人体的各个部位进行联合估计。然而由于图像传感器本身限制，使用图像的方法都在遮挡和弱光照条件下效果较差。

近些年随着车载雷达等民用雷达领域的发展，具有较高距离和速度分辨率的毫米波雷达开始被广泛应用。利用较高的速度分辨率，该类雷达可以得到人体不同部位运动得到的微小多普勒信息。通过对于人体不同部位的微多普勒进行分离后进行估计，可以得到人体姿态的三维估计。在2015年，麻省理工学院的FadelAdib等人提出RF-Capture，其通过射频天线阵列识别不同的人体部位，用这些人体部位的识别结果拼接为人体姿态[5]。同一研究团体的Mingmin Zhao等人在2018提出RF-Pose[6]，其使用距离角度热点图来对人体位置进行检测，并使用垂直和水平的两个射频天线阵列来对人体运动的角度距离热点图进行编码后输入神经网络，来对人体姿态进行还原。亚利桑那州立大学的Arindam Sengupta等人于2020年使用编码后的雷达点云数据通过双头CNN来对人体姿态进行还原，降低计算复杂度的同时，获得了较好的还原效果[7]。但这些方法并没有合理利用到人体本身的关节点之间的空间相对位置关系，同时对于人体各关节点前后帧之间的关系缺少量化和利用，进而导致了姿态估计精度低。

发明内容

本发明的目的是：针对现有技术中姿态估计精度低的问题，提出基于毫米波雷达的三维人体姿态估计方法。

本发明为了解决上述技术问题采取的技术方案是：

基于毫米波雷达的三维人体姿态估计方法，包括以下步骤：

步骤一：利用毫米波雷达获取人体姿态雷达视频数据；

步骤二：将雷达视频数据进行拆分后逐帧进行处理，得到三维人体姿态估计结果；

所述步骤二的步骤具体为：

步骤二一：获取雷达视频数据中首帧对应的雷达图像中的人体姿态，然后将雷达图像中的人体姿态转换为16个节点的人体骨骼模型，并将每个节点由空间三维位置表示，构建48维的人体姿态空间；

步骤二二：在48维的人体姿态空间随机进行采样，得到表示人体姿态的向量，然后将采样得到的表示人体姿态的向量和首帧对应的雷达图像输入神经网络中，得到回归分数；

步骤二三：利用回归分数对采样得到的表示人体姿态的向量进行梯度下降，梯度下降后的结果即为首帧的人体姿态估计结果；

步骤二四：在上一帧得到的人体姿态估计结果周围随机进行采样，得到表示人体姿态的向量集合，然后将集合中表示人体姿态的向量分别与当前帧对应的雷达图像输入神经网络中，得到所有表示人体姿态的向量对应的回归分数；

步骤二五：在所有表示人体姿态的向量对应的回归分数中选取最高的回归分数，并判断最高的回归分数是否小于设定的阈值，若不小于，则将最高的回归分数对应的表示人体姿态的向量作为当前帧的人体姿态估计结果，若小于，则将最高的回归分数对应的表示人体姿态的向量进行梯度下降，并将梯度下降后的结果作为当前帧的人体姿态估计结果；

步骤二六：重复步骤二四和步骤二五，直至得到所有帧的人体姿态估计结果，即为三维人体姿态估计结果；

所述16个节点的人体骨骼模型包括：头部、颈部、左肩、右肩、左肘关节、右肘关节、左腕关节、右腕关节、脊柱中点、脊柱尾端、左髋关节、右髋关节、左膝关节、右膝关节、左踝关节以及右踝关节。

进一步的，所述步骤一的具体步骤为：

首先，使用毫米波雷达录取人体姿态，然后将录取得到的雷达数据进行快速傅里叶变换，得到雷达中不同阵元的雷达距离多普勒图像，之后对得到的雷达距离多普勒图像通过MUSIC算法进行处理，得到雷达距离角度图像；

重复上述步骤，然后将得到的所有雷达距离角度图像进行拼接，得到雷达视频数据。

进一步的，所述神经网络包括卷积神经网络和图神经网络；

所述卷积神经网络对输入的雷达图像进行特征提取；

所述图神经网络根据提取到的特征以及输入的表示人体姿态的向量得到回归分数。

进一步的，所述卷积神经网络采用残差网络。

进一步的，所述图神经网络中第l层节点的特征表示为：

其中，表示第l层节点i的特征，φ^l表示第l层的聚合方程，表示第l-1层节点i的特征，表示第l-1层节点j的特征。

进一步的，所述图神经网络采用注意力图神经网络。

进一步的，所述注意力图神经网络中第l层的聚合方程表示为：

其中，表示第l-1层的注意力系数，Att表示计算注意力系数的函数，表示第l-1层归一化后的注意力系数，表示第l-1层第i个节点的近邻系数，k表示i的近邻，表示i近邻的集合，f^l表示激活函数，表示第l层第i个节点的输出。

进一步的，所述神经网络的损失函数为：

其中f_θ(x，y)表示样本与标签的联合概率值，x_q表示第q个样本，y_q＝y^(q，0)表示第q个标签，p_N(y|y_q)表示第q个标签的噪声采样概率，y^(q，m)表示根据噪声采样函数进行的第m次采样，M表示采样的总次数，n表示总样本数。

进一步的，所述p_N(y|y_q)表示为：

其中，K表示高斯概率模型的数量，表示高斯概率模型，表示第k个高斯模型的方差，I表示单位矩阵。

进一步的，所述神经网络包括图像处理部分和特征回归部分；

所述图像处理部分包含七个模块；

其中，

第一模块包含一个具有64个7×7卷积核的卷积层；

第二模块包含3个具有64个1×1卷积核的卷积层，3个具有64个3×3卷积核的卷积层，3个具有512个1×1卷积核的卷积层；

第三模块包含3个具有128个1×1卷积核的卷积层，3个具有128个3×3卷积核的卷积层，3个具有512个1×1卷积核的卷积层；

第四模块包含3个具有256个1×1卷积核的卷积层，3个具有256个3×3卷积核的卷积层，3个具有1024个1×1卷积核的卷积层；

第六模块包含1个7×7的平均池化层；

第七模块包含1个2048×48的全连接层；

所述特征回归部分包含四个模块；

其中，

第一模块包含有1个具有6×8全连接层的图卷积层；

第二模块包含有1个具有8×16全连接层的图卷积层；

第三模块包含有1个具有16×32全连接层的图卷积层；

第四模块包含有1个512×1的全连接层。

本发明的有益效果是：

本申请在现有的RF还原方法的基础上进行了大幅改进，通过采用图神经网络来对人体的关节之间的空间关系和运动特点进行编码，使用基于能量的损失模型将回归问题转化为分类问题，并且使用前一帧的输出姿态来辅助当前帧的估计，大幅提升了姿态估计精度和估计速度。

附图说明

图1为本申请的整体流程示意图；

图2为神经网络结构示意图；

图3为估计得到的人体姿态的结果图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的基于毫米波雷达的三维人体姿态估计方法，包括以下步骤：

步骤一：利用毫米波雷达获取人体姿态雷达视频数据；

所述步骤二的步骤具体为：

本申请首先提出一种神经网络结构，可以充分利用卷积神经网络的图像特征提取能力，使用图神经网络损失计算的一部分，以利用人体骨骼关节点之间的空间位置关系。具体神经网络结构如图2所示，输入为将距离角度热点图和距离多普勒热点图之中的待分析人体所在部分提取后拼接得到，对待分析的人体位置的提取采用简单的阈值选择方法。

首先将图像通过一个残差神经网络后，本申请得到了对于雷达图像提取出的特征。将这些特征通过一个全连接层后，可以得到人体姿态估计的输出。在得到输出后，采用一种更加有机的方式对人关节点之间的关系进行量化，对输出结果进行限制。首先，人体骨骼可以看作一个由16个节点组成的图，图中节点间的连接关系与人体关节之间的连接关系一致。之后我们可以使用图神经网络来对这一图进行处理，通过人体骨骼关节标签来学习到人体关节之间的空间位置关系。通过将标签和输出结合输入神经网络可以得到回归分数作为输出，该分数可以视为标签与输出的联合概率值，也可以称之为基于能量的损失模型。

上述使用基于能量损失给出的神经网络是一个标签与输入的联合概率密度，在实际使用中，需要输入一个雷达图像，给出一个对应的人体关节姿态的三维位置。基于能量的损失往往使用梯度下降方法来得到对应输入样本的最优输出值，即最优标签值，但是该方法往往计算复杂度较高。为了解决这一问题，同时利用人体运动本身的连续性质，这里借用贝叶斯滤波领域的粒子滤波方法的思想，通过在上一帧输出的人体关节三维位置附近采用特定采样函数进行采样的方法，得到待定输出值后输入到图神经网络中，得到其输出值分别对应的联合概率密度值。将最大的联合概率密度值对应的待定输出值作为人体姿态估计的结果。

本申请针对第一帧图像采用梯度下降方法得到人体骨骼位置的初始值，对之后各帧使用粒子人体姿态跟踪方法来得到人体姿态。以最大化人体跟踪的精度并减少计算量。同时通过设定采样分数阈值的方法，来对偏差较大的姿态估计进行纠正。

本申请采用16个节点的人体骨骼模型，包括人体头部，颈部，左肩，右肩，左肘关节，右肘关节，左腕关节，右腕关节，脊柱中点，脊柱尾端，左髋关节，右髋关节，左膝关节，右膝关节，左踝关节，右踝关节。其中每个节点由空间三维位置表示，构成48维的人体姿态空间。

本申请具体的流程如图1所示，本申请能够充分利用人体运动的连续性质，通过使用前一帧的输出结果，也可以得到更加顺滑的人体连续动作，同时减少使用神经网络的时的计算复杂度。本申请处理流程如下：

步骤一：使用雷达对人体动作进行数据录取，录取得到的雷达数据通过快速傅里叶变换，可以在不同雷达阵元的不同阵元上得到雷达距离多普勒图像。对得到的雷达不同雷达阵元得到的雷达图像通过MUSIC算法进行处理，可以得到雷达距离角度图像。通过对连续不同时刻得到距离角度图像进行拼接，得到雷达视频。

步骤二：对于得到的雷达视频数据进行拆分，逐帧进行处理。

步骤三：如果当前处理帧为首帧的话，转到步骤四。不为首帧则转到步骤六。

步骤四：在48维的人体姿态空间随机采样，对采样得到的代表人体姿态的向量同雷达图像共同输入到姿态估计神经网络，神经网络输出回归分数。

步骤五：使用回归分数相对采样得到的向量进行梯度下降，修改该采样得到的向量。得到人体姿态估计结果，输出该估计结果。

步骤六：在上一帧得到的估计结果周围随机进行任意次采样，采样得到的48维向量集合分别结合该帧雷达图像输入到姿态估计神经网络，每个向量能够得到对应的回归分数。取出回归分数最高的向量作为估计结果。将估计结果和对应的回归分数输入到步骤七。

步骤七：检验估计结果对应的回归分数是否大于一个定值，如果大于，输出估计结果为该帧最终估计结果，如果小于，则转到步骤五。

实施例：

采用常见的走廊环境作为实施例场景，数据录取参数如表1所示：

表1数据录取参数

为了发挥MIMO雷达的多目标检测的性能，并且实现针对室内场景的多径效应的抑制，本申请使用MUSIC方法实现雷达回波中多目标的分离检测，空间超分辨率的实现和多径效应的抑制。

M_r×M_t的MIMO可以视为M_rM_t×1的SIMO雷达，信号形式如下：

而后可以通过时间差分来消除墙壁，家具等回波，时间差分的大致形式为t时刻的回波信号减去延时t_sb之后的信号：

h_sb(t,t_sb)＝h(t)-h(t+t_sb)

之后，通过得到的时间差分信号可以计算得出瞬时矩阵R(t,t_sb)如下：

R(t,t_sb)＝h_sb(t,t_sb)h_sb(t,t_sb)^H

因为使用的是时间差分信号，所以矩阵的秩被减小了。为了恢复矩阵的秩需要对观察时间和差分时间进行平均如下：

之后可以对得到的R_ave矩阵进行特征分解得到特征向量U和特征值矩阵Λ如下：

R_ave＝UΛU^H

通过得到的特征值和特征向量可以采用对到达角(AoA)和发射角(DoA)进行遍历搜索的方式或者多项式求解的方式来得到多个目标的到达角和发射角。通过得到的两个角度可以实现对多个目标的二维位置的准确定位和追踪。通过得到的二维位置，可以对探测到的人体目标进行下一步处理。在该场景下单人在水平和垂直摆设的雷达面前进行各种动作，包含行走，蹲起，跳跃等12种动作。在使用雷达进行射频数据进行录取的同时，使用摄像头对运动标签进行录取。录取得到的视频数据通过计算机视觉的OpenPose算法进行二维人体运动的提取，再将其经过多角度三维化处理之后，可以得到人体运动标签。对于录取得到的射频数据，使用雷达数据处理算法，得到距离角度热点图和距离多普勒热点图，将单个雷达生成的这两个图中人体所在的位置提取，并且拼接成一张热点图，将两个雷达生成的拼接图按照通道数结合，形成一个二通道拼接热点图。该输入数据结构能够相对于双头网络结构可以减少网络复杂度，并且保留两个雷达之间的相对关系。

该神经网络包含两个部分，图像处理部分和特征回归部分。其中图像处理部分包含七个特征提取模块。

第一模块包含一个具有64个7×7卷积核的卷积层。

第二模块包含3个具有64个1×1卷积核的卷积层，3个具有64个3×3卷积核的卷积层，3个具有512个1×1卷积核的卷积层。

第三模块包含3个具有128个1×1卷积核的卷积层，3个具有128个3×3卷积核的卷积层，3个具有512个1×1卷积核的卷积层。

第四模块包含3个具有256个1×1卷积核的卷积层，3个具有256个3×3卷积核的卷积层，3个具有1024个1×1卷积核的卷积层。

第六模块包含1个7×7的平均池化层。

第七模块包含1个2048×48的全连接层。

特征回归部分包含四个模块

第一模块包含有1个具有6×8全连接层的图卷积层。

第二模块包含有1个具有8×16全连接层的图卷积层。

第三模块包含有1个具有16×32全连接层的图卷积层。

第四模块包含有1个512×1的全连接层。

在得到雷达数据之后将其输入到图2所示的神经网络中，其中卷积神经网络采用Resnet，图神经网络采用注意力图神经网络。图神经网络以网络节点的特征和网络结构作为输入来得到不同场景任务下的图的特点。在该应用中，使用的是信息传递结构的图神经网络，该图神经网络通过迭代聚合临近网络节点的特征来进行特征更新。该图神经网络经常被称之为卷积图神经网络。在该结构下，图中的每个节点在经过l层之后会包含l跳近邻的特征。图卷积神经网络的第l层节点的特征可以定义为：

其中上标l代表第l层，h_i代表节点i的特征，初始化为X_i。聚合方程φ用于在各层之间传递信息，更新节点特征。该方程一般为简单的一次线性函数加上非线性激活函数。在最后L层，经过L次特征聚合与更新的节点特征可以直接用于切割，分类等应用。

对于基于注意力机制的图神经网络，该网络中的聚合方程φ应包含注意力机制，因此第l层的聚合方程为：

其中e_ij为注意力系数，Att为计算注意力系数的函数，用于量化节点i与节点j之间的关系密切程度。通过softmax计算得到注意力权重，通过将权重与特征相乘叠加，经过非线性函数可以得到下一层的特征。

神经网络的损失计算方式采用基于能量概率密度函数的损失定义——NoiseContrastiveEstimation(NCE)。NCE的公式如下所示

其中f_θ(x,y)表示样本与标签的联合概率值，x_q表示第q个样本，y_q＝y^(q,0)表示第q个标签，p_N(y∣y_q)表示第q个标签的噪声采样概率，y^(q,m)表示根据噪声采样函数进行的第m次采样，M表示采样的总次数，n表示总样本数。

上式可以视为是一个由正负样本组成的分类损失，负样本的损失大小由噪声采样概率决定，噪声采样概率一般用高斯概率或多高斯概率模型，正如下式所示：

该损失将回归问题转换为分类问题，充分利用率神经网络的分辨能力。但是其使用的联合概率密度f_θ(x,y)中的y才是所需要的人体三维骨骼标签，对于此问题多数使用基于能量的损失模型的算法往往使用梯度下降求解，由于我们问题的特殊性，可以采用在上一帧所在位置的附近进行采样，将采样得到的评估三维骨骼向量输入到联合概率密度中，取出对应最大联合概率密度的评估向量作为输出。

本实施例实现过程中共录取了12000帧样本，将其中的6000帧作为训练集，6000帧作为测试集，将训练样本输入上述神经网络进行训练。对于6000帧的训练集，噪声采样函数的采样点数为4096，多高斯采样函数的方差分别为0.01m，0.1m，0.2m，0.4m，共计4个高斯噪声模型。

对于训练得到的神经网络使用上述的粒子人体姿态跟踪方法进行测试集上的推演，其中粒子姿态跟踪方法采样函数为同样的多高斯采样函数，其方差与训练时相同。根据具体测试效果，设定重新进行采样的回归分数阈值为0.7。可以得到测试集上的各关节的平均估计误差为8.12cm，而相对于直接对输出值进行回归的不使用基于能量距离估计和粒子跟踪的方法的估计精度在13.57cm。相较于后者，本文提出的改进方法能够有接近一倍的性能提升，同时具有较强的鲁棒性。具体不同场景和参数设置下的模型测试性能如表2所示。

表2模型性能

本申请相较于直接输出人体姿态的方法更少受到模型过拟合的影响。直接输出人体关节位置的方法本质上在拟合一个高维冲击函数，非常容易过拟合，陷入局部最优，而使用基于能量的损失模型来估计人体关节位置则不会有这样的问题。图3为具体的人体姿态还原效果。

[1]XIUY.Pose Flow:Efficient Online Pose Tracking[J].12.

[2]CAO Z,HIDALGO G,SIMON T,等,2019.OpenPose:Realtime Multi-Person 2DPose Estimation using Part Affinity Fields[J/OL].arXiv:1812.08008[cs][2020-11-07].http://arxiv.org/abs/1812.08008.

[3]SIGAL L,BALAN A O,BLACK M J,2010.HumanEva:Synchronized Video andMotion Capture Dataset and Baseline Algorithm for Evaluation of ArticulatedHuman Motion[J/OL].International Journal of Computer Vision,87(1-2):4-27.DOI:10.1007/s11263-009-0273-6.

[4]SHOTTON J,FITZGIBBON A,COOK M,等.Real-Time Human Pose Recognitionin Parts from Single Depth Images[J].8.

[5]ADIB F,HSU C Y,MAO H,等,2015.Capturing the human figure through awall[J/OL].ACM Transactions on Graphics,34(6):1-13.DOI:10.1145/2816795.2818072.

[6]ZHAO M,TIANY,ZHAO H,等,2018.RF-Based 3D Skeletons[J].16.

[7]SENGUPTA A,JIN F,ZHANG R,等,2020.mm-Pose:Real-Time HumanSkeletalPosture Estimation Using mmWave Radars and CNNs[J/OL].IEEE SensorsJournal,20(17):10032-10044.DOI:10.1109/JSEN.2020.2991741.

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于毫米波雷达的三维人体姿态估计方法，其特征在于包括以下步骤：

步骤一：利用毫米波雷达获取人体姿态雷达视频数据；

所述步骤二的步骤具体为：

所述16个节点的人体骨骼模型包括：头部、颈部、左肩、右肩、左肘关节、右肘关节、左腕关节、右腕关节、脊柱中点、脊柱尾端、左髋关节、右髋关节、左膝关节、右膝关节、左踝关节以及右踝关节；

所述神经网络包括卷积神经网络和图神经网络；

所述卷积神经网络对输入的雷达图像进行特征提取；

所述图神经网络根据提取到的特征以及输入的表示人体姿态的向量得到回归分数；

所述图神经网络中第l层节点的特征表示为：

其中，表示第l层节点i的特征，φ^l表示第l层的聚合方程，表示第l-1层节点i的特征，表示第l-1层节点j的特征；

所述图神经网络采用注意力图神经网络；

所述注意力图神经网络中第l层的聚合方程表示为：

2.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法，其特征在于所述步骤一的具体步骤为：

3.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法，其特征在于所述卷积神经网络采用残差网络。

4.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法，其特征在于所述神经网络的损失函数为：

5.根据权利要求4所述的基于毫米波雷达的三维人体姿态估计方法，其特征在于所述p_N(y|y_q)表示为：

6.根据权利要求1所述的基于毫米波雷达的三维人体姿态估计方法，其特征在于所述神经网络包括图像处理部分和特征回归部分；

所述图像处理部分包含七个模块；

其中，

第一模块包含一个具有64个7×7卷积核的卷积层；

第六模块包含1个7×7的平均池化层；

第七模块包含1个2048×48的全连接层；

所述特征回归部分包含四个模块；

其中，

第一模块包含有1个具有6×8全连接层的图卷积层；

第二模块包含有1个具有8×16全连接层的图卷积层；

第三模块包含有1个具有16×32全连接层的图卷积层；

第四模块包含有1个512×1的全连接层。