CN108985223A - 一种人体动作识别方法 - Google Patents
一种人体动作识别方法 Download PDFInfo
- Publication number
- CN108985223A CN108985223A CN201810766185.5A CN201810766185A CN108985223A CN 108985223 A CN108985223 A CN 108985223A CN 201810766185 A CN201810766185 A CN 201810766185A CN 108985223 A CN108985223 A CN 108985223A
- Authority
- CN
- China
- Prior art keywords
- network
- sequence
- deep learning
- light stream
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种人体动作识别方法,该方法基于深度学习技术,所述人体动作识别方法包括训练和识别两个阶段,训练和识别阶段所用的网络中包括序列特征提取模块,序列特征提取模块包括彩色图深度学习网络、光流深度学习网络的CNN网络,所述彩色图深度学习网络包括三层LSTM层,所述光流深度学习网络包括两层LSTM层。增加LSTM层后,使得识别方法有学习长图像序列的能力,因此能够更好的利用序列视频的时序信息,有效提高检测准确度。同时深度学习网络中使用了采用四层结构的卷积网络,卷积网络用于改变特征码的感受野,使得图像序列中的一部分图像也参与到检测结果的确定中。
Description
技术领域
本发明属于机器学习领域,尤其是一种人体动作识别方法。
背景技术
传统的人体动作识别是将生物传感器或者力学传感器等采集设备加装到人的身上,是一种接触式的动作检测方法,会给人带来反感或者疲惫感。随着技术的发展,这种识别模式已逐渐被基于图像的识别方法所替代。
深度学习的提出使得机器学习取得突破性的进展,也为人体动作识别带来了新的发展方向。不同于传统的识别方法,深度学习能够自动地从低层次的特征中学习出高层次的特征,解决了特征选取过于依赖任务本身和调整过程耗时长的问题。
发明内容
现有技术中人体动作的识别直接使用全连接层,检测是基于整个特征来做的,这样会产生一些问题,比如当动作比较快时,有动作的图片序列长度比检测时设定的单位完整序列长度小得多,这时就会出现动作检测不出来的问题。同时现有技术中没有考虑序列图像的历史信息,检测精度还有待提高。基于此设计一种人体动作识别方法,采用的技术方案如下:
一种人体动作识别方法,所述人体动作识别方法基于深度学习技术,包括训练和识别两个阶段,训练和识别阶段中所用的网络包括序列特征提取模块,序列特征提取模块包括彩色图深度学习网络、光流深度学习网络的CNN网络,所述彩色图深度学习网络包括三层LSTM层,所述光流深度学习网络包括两层LSTM层。
进一步的,所述LSTM层中的隐藏层中的神经元数目为200。
进一步的,训练阶段包括步骤:
步骤1.获取动作视频,将其拆分成分帧图像,计算光流图,并间隔16帧抽取一帧图像作为序列中心帧,标注出动作位置;
步骤2.将视频序列图像分别生成序列图片样本及标签、中心帧图片样本及位置标签和序列光流图片样本及标签用于训练相应的特征提取模型;
步骤3.将序列图片样本及标签送入彩色图深度学习网络,将中心帧图片样本及位置标签送入CNN网络,将序列光流图片样本送入光流深度学习网络,进行特征提取;
步骤4.将上述三个网络模型提取的特征进行融合,生成与视频序列对应的特征码;
步骤5.将特征码送入卷积网络中,对视频序列特征的感受野进行不同时间尺度的变化;
步骤6.将感受野不同的特征码样本送入视频识别网络,生成识别模型;
步骤7.迭代训练直至识别模型收敛。
进一步的,识别阶段视频序列的特征码由所述序列特征提取模块生成,特征码经卷积网络改变感受野后,再进行识别并分类。
进一步的,所述卷积网络采用四层结构。
与现有技术相比,本发明的有益效果在于:
1.重新设计的深度学习网络结构能更好的提取视频序列的特征,动作识别精度高。
2.采用四层卷积网络对视频序列特征码进行感受野变化,在保证识别实时性的前提下有效的解决了当序列图像中含有动作的图片序列长度比完整序列长度小得多时,动作检测不出来的问题。
附图说明
图1是本发明模型训练流程图;
图2是彩色图深度学习网络工作流程图;
图3是光流深度学习网络工作流程图;
图4是CNN网络工作流程图;
图5是本发明动作识别流程图;
图6是卷积层网络工作流程图。
具体实施方式
如图1所示,本发明一种人体动作识别方法中的训练阶段包括:
步骤1.获取动作视频,将其拆分成分帧图像,计算光流图,并间隔16帧抽取一帧图像作为序列中心帧,标注出动作位置;
步骤2.将视频序列图像分别送入图像序列处理单元、中心帧图像处理单元和光流序列处理单元,生成序列图片样本及标签、中心帧图片样本及位置标签和序列光流图片样本及标签,用于训练相应的特征提取模型;
步骤3.将序列图片样本及标签送入彩色图深度学习网络,将中心帧图片样本及位置标签送入CNN网络,将序列光流图片样本送入光流深度学习网络,进行特征提取;
步骤4.将上述三个网络模型提取的特征进行融合,生成与视频序列对应的特征码;
步骤5.将特征码送入卷积网络中,对视频序列特征的感受野进行不同时间尺度的变化;
步骤6.将感受野不同的特征码样本送入视频识别网络,生成识别模型;
步骤7.迭代训练直至识别模型收敛。
其中图像序列处理单元、中心帧图像处理单元、光流序列处理单元、彩色图深度学习网络、CNN网络、光流深度学习网络和特征融合单元构成序列特征提取模块。
因为人体动作是连续的,而采集到的图像帧是离散的,因此前一帧图像的历史信息对当前帧的图像是有关联的。深度学习网络主要构架为CNN网络,本发明在其基础上构造了彩色图深度学习网络和光流深度学习网络。其中CNN网络采用SSD网络层,用来提取出关键帧中动作的具体位置信息。如图2和图3所示,所述彩色图深度学习网络增加了三层LSTM层,所述光流深度学习网络增加了两层LSTM层。其中LSTM层中的隐藏层有200个神经元。增加LSTM层后,使得识别方法有学习长图像序列的能力。相比于只采用单帧图片来进行识别的算法,本发明利用重构的深度学习网络的识别方法能够更好的利用序列视频的时序信息,有效提高检测准确度。
如图5所示,本发明一种人体动作识别方法中的识别阶段包括:
步骤1.获取动作视频,将其拆分成分帧图像,计算光流图,并间隔16帧抽取一帧图像作为序列中心帧,标注出动作位置;
步骤2.利用序列特征提取模块生成与视频序列对应的特征码;
步骤3.将特征码送入卷积网络中,对视频序列特征的感受野进行不同时间尺度的变化;
步骤4.将感受野不同的特征码进行分类;
步骤5.得到人体动作识别结果。
如图6所示,训练和识别过程中使用的卷积网络为四层结构,卷积网络用于改变特征码的感受野,特征码经过四层卷积层后,就改变了四次感受野。改变感受野的目的在于使一定长度序列中的一部分图像也参与到检测结果的确定中,即结果是通过整个特征码数据和部分特征码数据共同决定的。所述卷积网是由时序卷积构成,每层卷积使用conv9的一维卷积,步长为1,每个卷积层配合一个池化层。
以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。
Claims (6)
1.一种人体动作识别方法,本方法基于深度学习技术,其特征在于,所述人体动作识别方法包括训练和识别两个阶段,训练和识别阶段所用的网络中包括序列特征提取模块,序列特征提取模块包括彩色图深度学习网络、光流深度学习网络的CNN网络,所述彩色图深度学习网络包括三层LSTM层,所述光流深度学习网络包括两层LSTM层。
2.如权利要求1所述一种人体动作识别方法,其特征在于,所述LSTM层中的隐藏层中的神经元数目为200。
3.如权利要求1所述一种人体动作识别方法,其特征在于,训练阶段包括步骤:
步骤1.获取动作视频,将其拆分成分帧图像,计算光流图,并间隔16帧抽取一帧图像作为序列中心帧,标注出动作位置;
步骤2.将视频序列图像分别生成序列图片样本及标签;中心帧图片样本位置及标签;序列光流图片样本及标签,用于训练相应的特征提取模型;
步骤3.将序列图片样本及标签送入彩色图深度学习网络,将中心帧图片样本及位置标签送入CNN网络,将序列光流图片样本送入光流深度学习网络,进行特征提取;
步骤4.将上述三个网络模型提取的特征进行融合,生成与视频序列对应的特征码;
步骤5.将特征码送入卷积网络中,对视频序列特征的感受野进行不同时间尺度的变化;
步骤6.将感受野不同的特征码样本送入视频识别网络,生成识别模型;
步骤7.迭代训练直至识别模型收敛。
4.如权利要求1所述一种人体动作识别方法,其特征在于,识别阶段视频序列的特征码由所述序列特征提取模块生成,特征码经卷积网络改变感受野后,再进行识别。
5.如权利要求3或4所述任意一项一种人体动作识别方法,其特征在于,所述卷积网络采用四层结构。
6.如权利要求5所述任意一项一种人体动作识别方法,其特征在于,所述卷积网络中的每层卷积层使用一维卷积,步长为1,每个卷积层配合一个池化层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766185.5A CN108985223B (zh) | 2018-07-12 | 2018-07-12 | 一种人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766185.5A CN108985223B (zh) | 2018-07-12 | 2018-07-12 | 一种人体动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108985223A true CN108985223A (zh) | 2018-12-11 |
CN108985223B CN108985223B (zh) | 2024-05-07 |
Family
ID=64537893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810766185.5A Active CN108985223B (zh) | 2018-07-12 | 2018-07-12 | 一种人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108985223B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685213A (zh) * | 2018-12-29 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 一种训练样本数据的获取方法、装置和终端设备 |
CN109902565A (zh) * | 2019-01-21 | 2019-06-18 | 深圳市烨嘉为技术有限公司 | 多特征融合的人体行为识别方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN110084259A (zh) * | 2019-01-10 | 2019-08-02 | 谢飞 | 一种结合面部纹理和光流特征的面瘫分级综合评估系统 |
CN110544301A (zh) * | 2019-09-06 | 2019-12-06 | 广东工业大学 | 一种三维人体动作重建系统、方法和动作训练系统 |
CN112257568A (zh) * | 2020-10-21 | 2021-01-22 | 中国人民解放军国防科技大学 | 一种单兵队列动作智能实时监督纠错系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933417A (zh) * | 2015-06-26 | 2015-09-23 | 苏州大学 | 一种基于稀疏时空特征的行为识别方法 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN107292247A (zh) * | 2017-06-05 | 2017-10-24 | 浙江理工大学 | 一种基于残差网络的人体行为识别方法及装置 |
CN107463949A (zh) * | 2017-07-14 | 2017-12-12 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
-
2018
- 2018-07-12 CN CN201810766185.5A patent/CN108985223B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933417A (zh) * | 2015-06-26 | 2015-09-23 | 苏州大学 | 一种基于稀疏时空特征的行为识别方法 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN107292247A (zh) * | 2017-06-05 | 2017-10-24 | 浙江理工大学 | 一种基于残差网络的人体行为识别方法及装置 |
CN107463949A (zh) * | 2017-07-14 | 2017-12-12 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
Non-Patent Citations (5)
Title |
---|
JEFF DONAHUE 等: "Long-term Recurrent Convolutional Networks for Visual Recognition and Description", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 1 * |
JEFF DONAHUE 等: "Long-term Recurrent Convolutional Networks for Visual Recognition and Description", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 15 October 2015 (2015-10-15), pages 1 * |
SHREYANK JYOTI 等: "Expression Empowered ResiDen Network for Facial Action Unit Detection", ARXIV, 14 June 2018 (2018-06-14), pages 1 * |
王昕培: "基于双流CNN的异常行为分类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2018, no. 2, pages 138 - 2191 * |
阳平 等: "一种基于融合多传感器信息的手语手势识别方法", 航天医学与医学工程, vol. 25, no. 4, 31 August 2012 (2012-08-31) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685213A (zh) * | 2018-12-29 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 一种训练样本数据的获取方法、装置和终端设备 |
CN110084259A (zh) * | 2019-01-10 | 2019-08-02 | 谢飞 | 一种结合面部纹理和光流特征的面瘫分级综合评估系统 |
CN110084259B (zh) * | 2019-01-10 | 2022-09-20 | 谢飞 | 一种结合面部纹理和光流特征的面瘫分级综合评估系统 |
CN109902565A (zh) * | 2019-01-21 | 2019-06-18 | 深圳市烨嘉为技术有限公司 | 多特征融合的人体行为识别方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN109919031B (zh) * | 2019-01-31 | 2021-04-09 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN110544301A (zh) * | 2019-09-06 | 2019-12-06 | 广东工业大学 | 一种三维人体动作重建系统、方法和动作训练系统 |
CN112257568A (zh) * | 2020-10-21 | 2021-01-22 | 中国人民解放军国防科技大学 | 一种单兵队列动作智能实时监督纠错系统及方法 |
CN112257568B (zh) * | 2020-10-21 | 2022-09-20 | 中国人民解放军国防科技大学 | 一种单兵队列动作智能实时监督纠错系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108985223B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985223A (zh) | 一种人体动作识别方法 | |
Zhao et al. | Single image action recognition using semantic body part actions | |
Singh et al. | Transforming sensor data to the image domain for deep learning—An application to footstep detection | |
CN106960206A (zh) | 字符识别方法和字符识别系统 | |
CN109815785A (zh) | 一种基于双流卷积神经网络的人脸情绪识别方法 | |
CN110263833A (zh) | 基于编码-解码结构的图像语义分割方法 | |
CN106127108B (zh) | 一种基于卷积神经网络的人手图像区域检测方法 | |
CN111223483A (zh) | 一种基于多粒度知识蒸馏的唇语识别方法 | |
CN106023220A (zh) | 一种基于深度学习的车辆外观部件图像分割方法 | |
Linsley et al. | What are the visual features underlying human versus machine vision? | |
Brunner et al. | Swimming style recognition and lap counting using a smartwatch and deep learning | |
CN104408405B (zh) | 人脸表示和相似度计算方法 | |
Duan et al. | A multitask deep learning approach for sensor-based human activity recognition and segmentation | |
CN108427942A (zh) | 一种基于深度学习的手掌检测与关键点定位方法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN113723312B (zh) | 基于视觉transformer的水稻病害识别方法 | |
CN110073369A (zh) | 时间差分模型的无监督学习技术 | |
CN105303183B (zh) | 一种基于穿戴设备的儿童姿态识别分析系统和方法 | |
CN107909034A (zh) | 一种人脸检测方法、装置和计算机可读存储介质 | |
Narayanan et al. | Yoga pose detection using deep learning techniques | |
CN109508740A (zh) | 基于高斯混合噪声生成式对抗网络的物体硬度识别方法 | |
CN108520215A (zh) | 基于多尺度联合特征编码器的单样本人脸识别方法 | |
CN103489000A (zh) | 一种人体动作识别训练系统的实现方法 | |
CN108717548A (zh) | 一种面向传感器动态增加的行为识别模型更新方法及系统 | |
Tanjaya et al. | Pilates pose classification using mediapipe and convolutional neural networks with transfer learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |