CN108985223A

CN108985223A - 一种人体动作识别方法

Info

Publication number: CN108985223A
Application number: CN201810766185.5A
Authority: CN
Inventors: 张德馨; 史玉坤
Original assignee: Tianjin Isecure Technology Co ltd
Current assignee: Tianjin Isecure Technology Co ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2018-12-11
Anticipated expiration: 2038-07-12
Also published as: CN108985223B

Abstract

本发明提出一种人体动作识别方法，该方法基于深度学习技术，所述人体动作识别方法包括训练和识别两个阶段，训练和识别阶段所用的网络中包括序列特征提取模块，序列特征提取模块包括彩色图深度学习网络、光流深度学习网络的CNN网络，所述彩色图深度学习网络包括三层LSTM层，所述光流深度学习网络包括两层LSTM层。增加LSTM层后，使得识别方法有学习长图像序列的能力，因此能够更好的利用序列视频的时序信息，有效提高检测准确度。同时深度学习网络中使用了采用四层结构的卷积网络，卷积网络用于改变特征码的感受野，使得图像序列中的一部分图像也参与到检测结果的确定中。

Description

一种人体动作识别方法

技术领域

本发明属于机器学习领域，尤其是一种人体动作识别方法。

背景技术

传统的人体动作识别是将生物传感器或者力学传感器等采集设备加装到人的身上，是一种接触式的动作检测方法，会给人带来反感或者疲惫感。随着技术的发展，这种识别模式已逐渐被基于图像的识别方法所替代。

深度学习的提出使得机器学习取得突破性的进展，也为人体动作识别带来了新的发展方向。不同于传统的识别方法，深度学习能够自动地从低层次的特征中学习出高层次的特征，解决了特征选取过于依赖任务本身和调整过程耗时长的问题。

发明内容

现有技术中人体动作的识别直接使用全连接层，检测是基于整个特征来做的，这样会产生一些问题，比如当动作比较快时，有动作的图片序列长度比检测时设定的单位完整序列长度小得多，这时就会出现动作检测不出来的问题。同时现有技术中没有考虑序列图像的历史信息，检测精度还有待提高。基于此设计一种人体动作识别方法，采用的技术方案如下：

一种人体动作识别方法，所述人体动作识别方法基于深度学习技术，包括训练和识别两个阶段，训练和识别阶段中所用的网络包括序列特征提取模块，序列特征提取模块包括彩色图深度学习网络、光流深度学习网络的CNN网络，所述彩色图深度学习网络包括三层LSTM层，所述光流深度学习网络包括两层LSTM层。

进一步的，所述LSTM层中的隐藏层中的神经元数目为200。

进一步的，训练阶段包括步骤：

步骤1.获取动作视频，将其拆分成分帧图像，计算光流图，并间隔16帧抽取一帧图像作为序列中心帧，标注出动作位置；

步骤2.将视频序列图像分别生成序列图片样本及标签、中心帧图片样本及位置标签和序列光流图片样本及标签用于训练相应的特征提取模型；

步骤3.将序列图片样本及标签送入彩色图深度学习网络，将中心帧图片样本及位置标签送入CNN网络，将序列光流图片样本送入光流深度学习网络，进行特征提取；

步骤4.将上述三个网络模型提取的特征进行融合，生成与视频序列对应的特征码；

步骤5.将特征码送入卷积网络中，对视频序列特征的感受野进行不同时间尺度的变化；

步骤6.将感受野不同的特征码样本送入视频识别网络，生成识别模型；

步骤7.迭代训练直至识别模型收敛。

进一步的，识别阶段视频序列的特征码由所述序列特征提取模块生成，特征码经卷积网络改变感受野后，再进行识别并分类。

进一步的，所述卷积网络采用四层结构。

与现有技术相比，本发明的有益效果在于：

1.重新设计的深度学习网络结构能更好的提取视频序列的特征，动作识别精度高。

2.采用四层卷积网络对视频序列特征码进行感受野变化，在保证识别实时性的前提下有效的解决了当序列图像中含有动作的图片序列长度比完整序列长度小得多时，动作检测不出来的问题。

附图说明

图1是本发明模型训练流程图；

图2是彩色图深度学习网络工作流程图；

图3是光流深度学习网络工作流程图；

图4是CNN网络工作流程图；

图5是本发明动作识别流程图；

图6是卷积层网络工作流程图。

具体实施方式

如图1所示，本发明一种人体动作识别方法中的训练阶段包括：

步骤2.将视频序列图像分别送入图像序列处理单元、中心帧图像处理单元和光流序列处理单元，生成序列图片样本及标签、中心帧图片样本及位置标签和序列光流图片样本及标签，用于训练相应的特征提取模型；

步骤7.迭代训练直至识别模型收敛。

其中图像序列处理单元、中心帧图像处理单元、光流序列处理单元、彩色图深度学习网络、CNN网络、光流深度学习网络和特征融合单元构成序列特征提取模块。

因为人体动作是连续的，而采集到的图像帧是离散的，因此前一帧图像的历史信息对当前帧的图像是有关联的。深度学习网络主要构架为CNN网络，本发明在其基础上构造了彩色图深度学习网络和光流深度学习网络。其中CNN网络采用SSD网络层，用来提取出关键帧中动作的具体位置信息。如图2和图3所示，所述彩色图深度学习网络增加了三层LSTM层，所述光流深度学习网络增加了两层LSTM层。其中LSTM层中的隐藏层有200个神经元。增加LSTM层后，使得识别方法有学习长图像序列的能力。相比于只采用单帧图片来进行识别的算法，本发明利用重构的深度学习网络的识别方法能够更好的利用序列视频的时序信息，有效提高检测准确度。

如图5所示，本发明一种人体动作识别方法中的识别阶段包括：

步骤2.利用序列特征提取模块生成与视频序列对应的特征码；

步骤3.将特征码送入卷积网络中，对视频序列特征的感受野进行不同时间尺度的变化；

步骤4.将感受野不同的特征码进行分类；

步骤5.得到人体动作识别结果。

如图6所示，训练和识别过程中使用的卷积网络为四层结构，卷积网络用于改变特征码的感受野，特征码经过四层卷积层后，就改变了四次感受野。改变感受野的目的在于使一定长度序列中的一部分图像也参与到检测结果的确定中，即结果是通过整个特征码数据和部分特征码数据共同决定的。所述卷积网是由时序卷积构成，每层卷积使用conv9的一维卷积，步长为1，每个卷积层配合一个池化层。

以上所述仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种人体动作识别方法，本方法基于深度学习技术，其特征在于，所述人体动作识别方法包括训练和识别两个阶段，训练和识别阶段所用的网络中包括序列特征提取模块，序列特征提取模块包括彩色图深度学习网络、光流深度学习网络的CNN网络，所述彩色图深度学习网络包括三层LSTM层，所述光流深度学习网络包括两层LSTM层。

2.如权利要求1所述一种人体动作识别方法，其特征在于，所述LSTM层中的隐藏层中的神经元数目为200。

3.如权利要求1所述一种人体动作识别方法，其特征在于，训练阶段包括步骤：

步骤2.将视频序列图像分别生成序列图片样本及标签；中心帧图片样本位置及标签；序列光流图片样本及标签，用于训练相应的特征提取模型；

步骤7.迭代训练直至识别模型收敛。

4.如权利要求1所述一种人体动作识别方法，其特征在于，识别阶段视频序列的特征码由所述序列特征提取模块生成，特征码经卷积网络改变感受野后，再进行识别。

5.如权利要求3或4所述任意一项一种人体动作识别方法，其特征在于，所述卷积网络采用四层结构。

6.如权利要求5所述任意一项一种人体动作识别方法，其特征在于，所述卷积网络中的每层卷积层使用一维卷积，步长为1，每个卷积层配合一个池化层。