CN116259107A - 一种基于时空信息提取及融合的步态识别方法 - Google Patents
一种基于时空信息提取及融合的步态识别方法 Download PDFInfo
- Publication number
- CN116259107A CN116259107A CN202310021097.3A CN202310021097A CN116259107A CN 116259107 A CN116259107 A CN 116259107A CN 202310021097 A CN202310021097 A CN 202310021097A CN 116259107 A CN116259107 A CN 116259107A
- Authority
- CN
- China
- Prior art keywords
- gait
- space
- time
- spatial
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于时空信息提取及融合的步态识别方法,该方法包含时间信息支路和空间信息支路,分别处理步态数据中的时间信息和空间信息;在时间信息支路中,设计了基于Bi‑LSTM的时间特征提取模块和基于LSTM的时间注意力模块;同时,在空间信息支路中,设计了空间特征提取模块和空间注意力模块;相比于现有的步态识别方法,本发明在时间和空间上均进行了特征的高效提取,并通过注意力机制对影响步态识别精度的部分特征进行了增强,使得神经网络能够关注和利用步态的主要特征;而现有的步态识别方法主要是对步态数据中的所有信息进行无差别的使用,从而导致步态特征受到稀释,导致步态识别的精度产生下降,本发明方法克服了该缺点。
Description
技术领域
本发明属于深度学习技术领域,具体涉及一种基于时空信息提取及融合的步态识别方法。
背景技术
步态是描述一个人行走模式的一种生理和行为生物特征,与人脸识别、指纹识别等其他识别算法相比,步态识别具有无需接触、无需被识别目标配合、难以伪造、不易受到遮挡干扰等优点,在公共安防领域有独特的应用优势和广泛的应用前景。
步态识别的目的是在一个连续的时间段内,对行人行走模式进行特征提取和建模,从而可以在另一个时间段中对该行人进行重新识别。步态的数据来源为视频或连续的视频帧,包含行人空间上的形态学信息以及时间上的运动信息,二者都是步态识别的关键点。因此,如何提取和表征步态的时空特征,有效编码不同的步态信息,一直是基于视频的步态识别的主要难点。在相关的研究中,各种算法逐步认识到了步态中的空间局部特征和时间局部特征的重要性。
2019年Battistone等人在《TGLSTM:A time based graph deep learningapproach to gait recognition》一文中使用LSTM网络和CNN的组合,设计了双流的步态识别网络,分别提取步态的时间特征和空间特征。但该方法使用的特征提取网络均为基础的通用图像特征提取结构,因此提取到的时空特征并不准确。
2019年Hanqing Chao等人在《GaitSet:Regarding Gait as a Set for Cross-View Gait Recognition》一文中将步态识别视频序列视为独立的图像集,设计了GaitSet算法,并不刻意注重步态图的顺序而是让神经网络自主提取步态图中的顺序信息,达到了优秀的效果。但该方法由于需要神经网络对步态顺序进行自主提取,因此存在解释性差、效果不稳定的问题。
2020年Na Li等人在《JointsGait:A model-based gait recognition methodbased on gait graph convolutional networks and joints relationship pyramidmapping》一文中使用图卷积网络,从步态序列中构造基于人体关节的时空图模型,并通过联合学习算法将步态时空特征映射到辨识度更高的子空间,使用金字塔模型和融合损失策略对步态进行识别,取得了较高的鲁棒性。但由于基于关节的时空图不能包含完整的人体形态学信息,因此在识别精度方面有所欠缺。
2020年Chao Fan等人在《GaitPart:Temporal Part-based Model for GaitRecognition》一文中提出了基于人体部位分割的GaitPart模型,该模型认为人体不同部位在行走过程中具有明显不同的形状和运动模式,因此需要对不同部位分别进行特征提取。该模型精度较高,但并未区分重点运动部位,尚有改进的空间。
2021年Beibei Lin等人在《Gait recognition via effective global-localfeature representation and local temporal aggregation》一文中提出了全局和局部特征提取器(GLFE),并采用了局部时间聚合算法,通过降低时间分辨率来进一步保留空间信息以获得更高的空间分辨率。显著提高了视觉特征的判别能力,从而提高了步态识别性能。但该方法并未考虑到不同时间段内步态信息的非线性变化,导致时间信息的提取欠佳。
现有的步态识别方法主要存在以下缺点:(1)大部分方法的思路与其他的视频识别任务算法并无本质上的不同,没有针对步态的特性进行网络设计,从而导致他们在面对步态识别任务特有的问题(如:角度变化)时,精度有较大的下降;(2)少数方法针对行走时人体不同部位的运动模式差异进行了分别处理,但这些方法大多依赖先验知识和人工计算来确定身体不同部位的作用,面对复杂的步态识别场景,缺少灵活性,往往只在少数几个场景(如侧面90°视角时)有较高的性能,网络鲁棒性依然有待提升。
发明内容
有鉴于此,本发明的目的是提供一种基于时空信息提取及融合的步态识别方法,该方法设计了分别针对步态时间特征和空间特征的时空注意力机制,解决了现有的步态识别方法对步态中所有数据进行无重点的特征提取的问题,可以根据步态数据中的多种步态特征对步态识别的不同贡献对其进行针对性的增强,提高了步态识别的精度以及鲁棒性。
一种基于时空信息提取和融合的步态识别方法,包括如下步骤:
步骤1、将原始视频处理为步态剪影图集;
步骤2、通过时间信息支路提取加权后的步态时间特征,具体为:
首先将步骤1中提取的步态剪影图提取出每个人行走时对应的光流图;再将光流图按顺序输入基于Bi-LSTM的时间特征提取模块,得出步态的时间特征;同时,将光流图按照相邻两个一组的方式,输入基于LSTM的时间注意力模块中,得出时间注意力向量;最后将步态时间特征与时间注意力向量相乘,得出注意力加权后的步态时间特征;
步骤3、通过空间信息支路提取加权后的步态空间特征,具体为:
首先将步骤1中提取的步态剪影图提取出步态的空间特征;再将步态空间特征输入空间注意力模块中,得出空间注意力向量;最后将步态空间特征与空间注意力向量相乘,得出注意力加权后的步态空间特征;
步骤4、将步骤2中提取的加权后的步态时间特征与步骤3中提取的加权后的步态空间特征相加,并进行步态判别。
进一步的,所述步骤1中,将原始视频按帧分开,再提取行人轮廓并消除背景和人体细节信息,整理为步态剪影图集。
较佳的,所述步骤2中,使用TV-L1算法提取所述光流图。
较佳的,所述步骤3中,采用空间特征提取模块提取出步态的空间特征,该模块由五层卷积层Conv组成。
较佳的,所述步骤3中,初始训练时采用GoogleNet预训练模型提供的初始化权重。
较佳的,所述步骤3中,所述空间注意力模块包括顺序设置的线性层Linear、线性整流函数层ReLU和S型生长曲线函数层Sigmod。
较佳的,所述步骤4中,进行步态判别是采用顺序设置的全连接层和softmax层组成的判别模块进行判别。
本发明具有如下有益效果:
本发明提出了一种基于时空信息提取及融合的步态识别方法,该方法包含时间信息支路和空间信息支路,分别处理步态数据中的时间信息和空间信息;在时间信息支路中,设计了基于Bi-LSTM的时间特征提取模块和基于LSTM的时间注意力模块;同时,在空间信息支路中,设计了空间特征提取模块和空间注意力模块;
相比于现有的步态识别方法,本发明在时间和空间上均进行了特征的高效提取,并通过注意力机制对影响步态识别精度的部分特征进行了增强,使得神经网络能够关注和利用步态的主要特征;而现有的步态识别方法主要是对步态数据中的所有信息进行无差别的使用,从而导致步态特征受到稀释,导致步态识别的精度产生下降。本发明克服了该缺点;
本发明中的时间特征提取部分使得网络高效地提取时间信息并能够着重于步态变化明显的时间段,解决了现有步态识别算法对所有周期内的步态视频帧进行平均特征提取从而导致的特征稀释问题。
本发明中的空间特征提取部分使得网络着重于行走中步态特征较明显的区域,解决了步态的局部特征难以得到准确提取和重点利用的问题。现有的步态识别方法将身体作为一个整体处理,或人工预定义身体各部位的不同作用,忽略或弱化了不同部位的运动模式对步态识别的贡献,本发明克服了该缺点。
附图说明
图1为本发明的一种基于时空信息提取及融合的步态识别方法的流程图;
图2为时间信息支路流程图;
图3为空间信息支路流程图;
图4为合并特征并判别的流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
一种基于时空信息提取及融合的步态识别方法,包括如下步骤:
步骤1、将原始视频处理为步态剪影图集
原始视频是指监控摄像头等拍摄到的行人行走视频,通常规模较大,并包含同一行人在多视角下的视频。将原始视频按帧分开,再提取行人轮廓并消除背景和人体细节信息,整理为步态剪影图集,便于后续输入空间信息支路和时间信息支路。
步骤2、通过时间信息支路提取加权后的步态时间特征
该部分分为四部分,首先将步骤1中提取的步态剪影图按顺序逐帧输入光流提取模块,提取出每个人行走时对应的光流图。再将光流图按顺序输入基于Bi-LSTM的时间特征提取模块,得出步态的时间特征。同时,将光流图按照相邻两个一组的方式,输入基于LSTM的时间注意力模块中,得出时间注意力向量。最后将步态时间特征与时间注意力向量相乘,得出注意力加权后的步态时间特征。
步骤3、通过空间信息支路提取加权后的步态空间特征
该部分分为三部分,首先将步骤1中提取的步态剪影图按顺序逐帧输入空间特征提取模块,提取出步态的空间特征。再将步态空间特征输入空间注意力模块中,得出空间注意力向量。最后将步态空间特征与空间注意力向量相乘,得出注意力加权后的步态空间特征。
步骤4、合并加权后的时间特征与空间特征,并进行步态识别的判别
将步骤2中提取的加权后的步态时间特征与步骤3中提取的加权后的步态空间特征相加,并输入判别模块中进行步态判别。判别模块由全连接层和softmax层组成。
实施例:
步骤1、将原始视频处理为步态剪影图集
在本实施例中,使用中国科学院自动化研究所提供的CASIA步态数据库中的Dataset B(多视角库)作为原始视频,按照帧的顺序将该视频集分割为独立的RGB静态图像,再通过CENTRIST特征描述子对行人主体进行定位并提取行人的轮廓,最后消除行人的内部细节信息并消除背景,得到步态剪影图集。
步骤2、通过时间信息支路提取加权后的步态时间特征
时间信息支路的流程如图2所示。
首先,将步骤1中提取的剪影图输入光流提取模块中。该模块使用TV-L1(TotalVariation-L1,基于L1范数的全变分法)算法,提取出每个人步行时对应的光流图像;
其次,将光流图按照顺序输入时间特征提取模块中。该模块基于Bi-LSTM,分为两部分,前向LSTM与后向LSTM,分别负责提取前向时间信息与后向时间信息。光流图经过Bi-LSTM后的输出即为步态的时间特征;
同时,将光流图按照每相邻两个一组的方式输入时间注意力模块中。该模块由LSTM和FC层组成,其中LSTM负责生成t-1时刻LSTM神经元在t时刻的预测值,FC(全连接)层计算t时刻预测值与真实值的相关系数,即为步态的时间注意力向量;
最后,将步态的时间特征与时间注意力向量相乘,即使用时间注意力向量中的元素值为每个时间特征进行加权,即为经过注意力加权后的步态时间特征。
步骤3、通过空间信息支路提取加权后的步态空间特征
空间信息支路的流程如图3所示。
首先,将步骤1中提取的剪影图逐帧输入空间特征提取模块中提取步态的空间特征。该模块由五层卷积层Conv组成,并在初始训练时采用GoogleNet预训练模型提供的初始化权重,以缩短训练所需时间;
其次,将步态空间特征按顺序输入空间注意力模块中,该模块由线性层Linear、线性整流函数层ReLU和S型生长曲线函数层Sigmod组成。该模块的输出即为步态的空间注意力向量。
最后,将步态的空间特征向量与空间注意力向量相乘,即使用空间注意力向量中的元素值为每个空间特征进行加权,即为经过空间注意力加权后的步态空间特征。
步骤4、合并加权后的时间特征与空间特征,并进行步态识别的判别
合并特征并判别的流程如图4所示;将步骤2中提取的加权后的步态时间特征与步骤3中提取的加权后的步态空间特征相加,并输入判别模块中进行步态判别。判别模块由全连接层和softmax层组成,输出的结果为概率列表,其中每个概率代表该步态属于某个人的概率,取所得概率最大的目标作为步态识别结果。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于时空信息提取和融合的步态识别方法,其特征在于,包括如下步骤:
步骤1、将原始视频处理为步态剪影图集;
步骤2、通过时间信息支路提取加权后的步态时间特征,具体为:
首先将步骤1中提取的步态剪影图提取出每个人行走时对应的光流图;再将光流图按顺序输入基于Bi-LSTM的时间特征提取模块,得出步态的时间特征;同时,将光流图按照相邻两个一组的方式,输入基于LSTM的时间注意力模块中,得出时间注意力向量;最后将步态时间特征与时间注意力向量相乘,得出注意力加权后的步态时间特征;
步骤3、通过空间信息支路提取加权后的步态空间特征,具体为:
首先将步骤1中提取的步态剪影图提取出步态的空间特征;再将步态空间特征输入空间注意力模块中,得出空间注意力向量;最后将步态空间特征与空间注意力向量相乘,得出注意力加权后的步态空间特征;
步骤4、将步骤2中提取的加权后的步态时间特征与步骤3中提取的加权后的步态空间特征相加,并进行步态判别。
2.如权利要求1所述的一种基于时空信息提取和融合的步态识别方法,其特征在于,所述步骤1中,将原始视频按帧分开,再提取行人轮廓并消除背景和人体细节信息,整理为步态剪影图集。
3.如权利要求1所述的一种基于时空信息提取和融合的步态识别方法,其特征在于,所述步骤2中,使用TV-L1算法提取所述光流图。
4.如权利要求1所述的一种基于时空信息提取和融合的步态识别方法,其特征在于,所述步骤3中,采用空间特征提取模块提取出步态的空间特征,该模块由五层卷积层Conv组成。
5.如权利要求4所述的一种基于时空信息提取和融合的步态识别方法,其特征在于,所述步骤3中,初始训练时采用GoogleNet预训练模型提供的初始化权重。
6.如权利要求1所述的一种基于时空信息提取和融合的步态识别方法,其特征在于,所述步骤3中,所述空间注意力模块包括顺序设置的线性层Linear、线性整流函数层ReLU和S型生长曲线函数层Sigmod。
7.如权利要求1所述的一种基于时空信息提取和融合的步态识别方法,其特征在于,所述步骤4中,进行步态判别是采用顺序设置的全连接层和softmax层组成的判别模块进行判别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310021097.3A CN116259107A (zh) | 2023-01-06 | 2023-01-06 | 一种基于时空信息提取及融合的步态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310021097.3A CN116259107A (zh) | 2023-01-06 | 2023-01-06 | 一种基于时空信息提取及融合的步态识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116259107A true CN116259107A (zh) | 2023-06-13 |
Family
ID=86685572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310021097.3A Pending CN116259107A (zh) | 2023-01-06 | 2023-01-06 | 一种基于时空信息提取及融合的步态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116259107A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373123A (zh) * | 2023-10-17 | 2024-01-09 | 广东工业大学 | 基于局部模糊光流直方能量图的正面视角步态识别方法 |
-
2023
- 2023-01-06 CN CN202310021097.3A patent/CN116259107A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373123A (zh) * | 2023-10-17 | 2024-01-09 | 广东工业大学 | 基于局部模糊光流直方能量图的正面视角步态识别方法 |
CN117373123B (zh) * | 2023-10-17 | 2025-03-18 | 广东工业大学 | 基于局部模糊光流直方能量图的正面视角步态识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN112418095B (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
CN104268583B (zh) | 基于颜色区域特征的行人重识别方法及系统 | |
CN111178208B (zh) | 基于深度学习的行人检测方法、装置及介质 | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN111967379B (zh) | 一种基于rgb视频和骨架序列的人体行为识别方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN108520216A (zh) | 一种基于步态图像的身份识别方法 | |
CN111539320B (zh) | 基于互相学习网络策略的多视角步态识别方法及系统 | |
Liang et al. | Resolving ambiguous hand pose predictions by exploiting part correlations | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
CN112861605A (zh) | 基于时空混合特征的多人步态识别方法 | |
CN116110118A (zh) | 一种基于时空特征互补融合的行人重识别和步态识别方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN110263670A (zh) | 一种面部局部特征分析系统 | |
CN111898566B (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
CN116259107A (zh) | 一种基于时空信息提取及融合的步态识别方法 | |
Liu et al. | Gait recognition of camouflaged people based on UAV infrared imaging | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
Watcharabutsarakham et al. | Comparison of Face Classification with Single and Multi-model base on CNN | |
CN118135659A (zh) | 一种基于多尺度骨架时空特征提取的跨视角步态识别方法 | |
CN114863520B (zh) | 一种基于c3d-sa的视频表情识别方法 | |
CN117636459A (zh) | 一种基于视觉Transformer的步态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |