CN111079507B

CN111079507B - 一种行为识别方法及装置、计算机装置及可读存储介质

Info

Publication number: CN111079507B
Application number: CN201910995333.5A
Authority: CN
Inventors: 陈海波
Original assignee: Shenlan Technology Chongqing Co ltd
Current assignee: Shenlan Robot Shanghai Co ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2023-09-01
Anticipated expiration: 2039-10-18
Also published as: CN111079507A

Abstract

本发明实施例提供了一种行为识别方法及装置、计算机装置及可读存储介质，该方法包括：输入训练样本至待训练的行为识别模型，待训练的行为模型包括全变分网络和双流卷积网络；通过全变分网络从训练样本中提取基础光流场和扭曲光流场；将基础光流场和扭曲光流场，以及从训练样本中提取的每个源视频包括的每帧图像的像素信息，分别输入双流卷积网络，获得对训练样本进行时间流分类和空间流分类的分类结果；对时间流和空间流的分类结果进行卷积计算，获得目标分类结果；将目标分类结果满足预设误差范围时所对应的行为识别模型，作为目标行为识别模型；将待识别视频输入目标行为识别模型，确定待识别视频所包括的行为类别。

Description

一种行为识别方法及装置、计算机装置及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种行为识别方法及装置、计算机装置及可读存储介质。

背景技术

随着互联网技术的飞速发展，各种短视频APP的出现降低了制作短视频的难度和成本，网络上每天会产生大量新的短视频。如何高效识别视频行为是进行视频理解应用的重要方向。

目前，较为主流的基于光流特征的行为识别方法有以下两种。第一种为基于优化的光流特征来识别。具体来讲，首先通过基于LI范式的全变分方法提取每两个连续帧的光流，得出各点的光流场，即目标在连续帧的像素位移变化。然后，对图像像素信息(比如，像素坐标、像素点的RGB值)和光流信息分别训练卷积神经网络模型进行类别判断，使用二维卷积捕捉表观信息，利用光流场捕捉运动和时序的关系特征。最后，利用分类算法识别出相应行为类别。第二种为基于光流网络来识别。具体来讲，首先通过光流网络计算光流场，再输入双流卷积网络进行行为识别。其中，光流网络由深度卷度网络构成，具体通过堆叠优化模块来进行光流计算。

在现有技术中，无论哪种行为识别方法，只适用于运动幅度较小的行为识别。对光流特征的计算过程较为耗时，均不适用于目标运动速度过快的行为识别。而且，当获取场景运动信息过少时，无法保证识别精度和准确度；当获取场景运动信息过多时，计算量大，负载大，耗时长，无法实时识别。

可见，现有基于光流特征的行为识别方法存在识别效率低的技术问题。

发明内容

本发明实施例提供了一种行为识别方法及装置、计算机装置及可读存储介质，用于解决现有基于光流特征的行为识别方法存在识别效率低的技术问题。

第一方面，本发明实施例提供了一种行为识别方法，包括：

输入训练样本至待训练的行为识别模型，所述待训练的行为模型包括全变分网络和双流卷积网络，其中，所述训练样本包括多个源视频，所述多个源视频中每个源视频包括一类特定行为；

通过所述全变分网络从所述训练样本中提取基础光流场和扭曲光流场；

将所述基础光流场和所述扭曲光流场，以及从所述训练样本中提取的每个源视频包括的每帧图像的像素信息，分别输入所述双流卷积网络，获得对所述训练样本进行时间流分类和空间流分类的分类结果；

对所述时间流和所述空间流的分类结果进行卷积计算，获得目标分类结果；

将所述目标分类结果满足预设误差范围时所对应的行为识别模型，作为目标行为识别模型；

将待识别视频输入所述目标行为识别模型，确定所述待识别视频所包括的行为类别。

在本发明实施例的技术方案中，首先，输入训练样本至包括全变分网络和双流卷积网络的待训练的行为识别模型，然后，通过全变分网络提取训练样本中的基础光流场和扭曲光流场，然后，将基础光流场和扭曲光流场，结合训练样本中的像素信息，分别输入双流卷积网络，实现对训练样本的时间流分类和空间流分类，然后，对时间流和空间流的分类结果进行卷积计算，获得目标分类结果。然后，将该目标分类结果满足预设误差范围时所对应的行为识别模型，作为目标行为识别模型(即训练好的行为识别模型)，这样的话，将待识别视频输入该目标行为识别模型，便可以确定该待识别视频所包括的行为类别。也就是说，通过全变分网络提取基础光流场合扭曲光流场，并结合双流卷积网络来进行时间流和空间流分类，最后通过卷积模型进行融合，从而实现了对待识别视频的行为识别。由于基础光流场和扭曲光流场共享全变分网络参数，整个识别过程较快。此外，将基础光流场和扭曲光流场，以及像素信息与双流卷积网络结合起来，有效地抑制了背景移动的影响，提高了识别准确率。可见，整个行为识别方法的识别效率较高。

可选地，在所述输入训练样本至待训练的行为识别模型之前，所述方法还包括：

采集所述多个源视频；

从所述多个源视频中剪辑出与预设行为类别相匹配且持续一预设时长的视频片段；

按照预设规则对所述视频片段分段，获得多段区间；

在每段区间以帧粒度采样，转化为多帧图像；

调整每帧图像的像素尺寸为预设数值；

将调整后的每帧图像作为所述训练样本。

在本发明实施例的技术方案中，首先采集多个源视频，然后剪辑出与预设行为类别相匹配且持续一预设时长的视频片段，然后分段帧粒度采样，转化为多帧图像，然后统一图像尺寸。也就是说，将采样的多个源视频进行剪辑与分段，从而实现了分段采样，减少冗余图像，在统一图像尺寸大小之后，保证了测试样本与训练样本的一致，进而提高了行为识别的准确率。

可选地，所述通过所述全变分网络从所述训练样本中提取基础光流场，包括：

将所述训练样本中的每帧图像输入所述全变分网络，获取经所述全变分网络输出的基础光流场；

其中，通过所述全变分网络对所述训练样本中的包括第一帧图像和第二帧图像的任一相邻两帧图像的基础光流场的提取过程为：

获取所述第一帧图像和所述第二帧图像相同位置处像素点的第一亮度值和第二亮度值，以及两帧图像间的第一初始像素位移差和第一初始对偶矢量场；

将所述第一亮度值、所述第二亮度值、所述第一初始像素位移差和所述第一初始对偶矢量场输入所述全变分网络中的第一模块，输出第一目标像素位移差和第一目标对偶矢量场，其中，所述全变分网络包括按照预设顺序排列的N个模块，所述第一模块位于该预设顺序的首部，N为大于2的正整数；

将所述第一目标像素位移差和所述第一目标对偶矢量场作为学习的参数参与所述全变分网络中各个模块的训练；

获取经所述全变分网络中第N模块输出的第N目标像素位移差和第N目标对偶矢量场；

获取包括所述第N目标像素位移差和所述第N目标对偶矢量场的基础光流场，其中，所述第N模块位于该预设顺序的尾部。

可选地，所述将所述第一亮度值、所述第二亮度值、所述第一初始像素位移差和所述第一初始对偶矢量场输入所述全变分网络中的第一模块，输出第一目标像素位移差和第一目标对偶矢量场，包括：

在所述第一模块中利用双线性插值变形和卷积层，对所述第一亮度值和所述第二亮度值进行转换，获得第一辅助变量；

将所述第一辅助变量分别与所述第一初始像素位移差和所述第一初始对偶矢量场进行卷积计算，经所述第一模块输出所述第一目标像素位移差和所述第一目标对偶矢量场。

可选地，所述通过全变分网络从所述训练样本中提取扭曲光流场，包括：

通过单应性矩阵对所述训练样本中的图像进行映射，获得经映射后的图像；

将所述经映射后的图像输入所述全变分网络，获取经所述全变分网络输出的扭曲光流场；

其中，对所述经映射后的图像中包括第三帧图像和第四帧图像的任一相邻两帧图像的扭曲光流场的提取过程为：

获取所述第三帧图像和所述第四帧图像相同位置处像素点的第三亮度值和第四亮度值，以及两帧图像间的第二初始像素位移差和第二初始对偶矢量场；

将所述第三亮度值、所述第四亮度值、所述第二初始像素位移差和所述第二初始对偶矢量场输入所述第一模块，输出第一像素位移差和第一对偶矢量场；

将所述第一像素位移差和所述第一对偶矢量场作为学习的参数参与所述全变分网络中各个模块的训练；

获取经所述第N模块输出的第N像素位移差和第N对偶矢量场；

获取包括所述第N像素位移差和所述第N对偶矢量场的扭曲光流场。

可选地，所述将所述第三亮度值、所述第四亮度值、所述第二初始像素位移差和所述第二初始对偶矢量场输入所述第一模块，输出第一像素位移差和第一对偶矢量场，包括：

在所述第一模块中利用双线性插值变形和卷积层，对所述第三亮度值和所述第四亮度值进行转换，获得第二辅助变量；

将所述第二辅助变量分别与所述第二初始像素位移差和所述第二初始对偶矢量场进行卷积计算，经所述第一模块输出所述第一像素位移差和所述第一对偶矢量场。

可选地，若所述训练样本中第五帧图像的任一像素点坐标为(x₁,y₁,1),经所述单应性矩阵映射后的该像素点的坐标为(x₂，y₂,1)，则所述通过单应性矩阵对所述第五帧图像进行映射的过程表示为：

其中，所述单应性矩阵为H，H可以表示为：

可选地，所述获得对所述训练样本进行时间流分类和空间流分类的分类结果，包括：

对所述基础光流场和所述扭曲光流场进行加权计算，将加权计算的结果作为所述双流卷积网络中时间流的输入，获得所述训练样本经所述时间流分类后的第一分类结果；

将获取的所述训练样本中每帧图像的像素信息，作为所述双流卷积网络中空间流的输入，获得所述训练样本经所述空间流分类后的第二分类结果。

第二方面，本发明实施例还提供了一种行为识别装置，包括：

输入单元，用于输入训练样本至待训练的行为识别模型，所述待训练的行为模型包括全变分网络和双流卷积网络，其中，所述训练样本包括多个源视频，所述多个源视频中每个源视频包括一类特定行为；

提取单元，通过所述全变分网络从所述训练样本中提取基础光流场和扭曲光流场；

第一获得单元，将所述基础光流场和所述扭曲光流场，以及从所述训练样本中提取的每个源视频包括的每帧图像的像素信息，分别输入所述双流卷积网络，获得对所述训练样本进行时间流分类和空间流分类的分类结果；

第二获得单元，对所述时间流和所述空间流的分类结果进行卷积计算，获得目标分类结果；

确定单元，将所述目标分类结果满足预设误差范围时所对应的行为识别模型，作为目标行为识别模型；

第三获得单元，将待识别视频输入所述目标行为识别模型，确定所述待识别视频所包括的行为类别。

可选地，所述行为识别装置还包括：处理单元，所述处理单元具体用于：

采集所述多个源视频；

按照预设规则对所述视频片段分段，获得多段区间；

在每段区间以帧粒度采样，转化为多帧图像；

调整每帧图像的像素尺寸为预设数值；

将调整后的每帧图像作为所述训练样本。

可选地，所述提取单元具体用于：

其中，所述提取单元通过所述全变分网络对所述训练样本中的包括第一帧图像和第二帧图像的任一相邻两帧图像的基础光流场的提取过程为：

可选地，所述提取单元具体用于：

其中，所述提取单元对所述经映射后的图像中包括第三帧图像和第四帧图像的任一相邻两帧图像的扭曲光流场的提取过程为：

获取经所述第N模块输出的第N像素位移差和第N对偶矢量场；

可选地，所述提取单元具体用于：

可选地，所述第一获得单元具体用于：

第三方面，本发明实施例还提供了一种计算机装置，包括：处理器和存储器，其中，存储器存储有计算机程序，所述处理器用于读取所述存储器中的程序为执行如第一方面所述的行为识别方法的步骤。

第四方面，本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的行为识别方法的步骤。

附图说明

图1为本发明实施例提供的一种行为识别方法的方法流程图；

图2为本发明实施例提供的一种行为识别方法中在步骤S101之前的方法流程图；

图3为本发明实施例提供的一种行为识别方法中通过全变分网络对训练样本中相邻帧图像的基础光流场的提取过程示意图；

图4为本发明实施例提供的一种行为识别方法中全变分网络结构图；

图5为本发明实施例提供的一种行为识别方法中步骤S102中通过全变分网络提取扭曲光流场的过程示意图；

图6为本发明实施例提供的一种行为识别方法中对经映射后的图像中相邻两帧图像的扭曲光流场的提取过程示意图；

图7为本发明实施例提供的一种行为识别方法中步骤S602的方法流程图；

图8为本发明实施例提供的一种行为识别方法中步骤S103的方法流程图；

图9为本发明实施例提供的一种行为识别方法中待训练的行为识别模型示意图；

图10为本发明实施例提供的一种行为识别装置的结构示意图；

图11为本发明实施例提供的一种计算机装置的结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

请参考图1，本发明实施例提供了一种行为识别方法，包括以下步骤：

S101：输入训练样本至待训练的行为识别模型，所述待训练的行为模型包括全变分网络和双流卷积网络，其中，所述训练样本包括多个源视频，所述多个源视频中每个源视频包括一类特定行为；

在本发明实施例中，首先选取各行为类别的源视频，作为需要分类的视频输入待训练的行为识别模型，该待训练的行为模型为利用全变分网络和双流卷积网络所预先构建的模型。其中，特定行为可以是本领域技术人员根据实际需要所选择的任一类行为。比如，刷牙、洗脸、跑步等。

在本发明实施例中，全变分网络主要是模拟全变分LI范式的迭代思想，将迭代过程转化为神经网络中层到层的转换。该全变分网络包括按照预设顺序排列的N个模块，N为大于2的正整数，比如，包括第一模块、第二模块、……、第N模块，其中，第一模块位于该预设顺序的首部，第N模块位于该预设顺序的尾部。

在本发明实施例中，该双流卷积网络包括时间流和空间流。其中，通过时间流能够利用视频的时序特征对视频分类。通过空间流能够利用视频的空间特征(比如视频中图像的像素信息)对视频分类。

S102：通过所述全变分网络从所述训练样本中提取基础光流场和扭曲光流场；

在本发明实施例中，基础光流场具体是从源视频的各帧图像中提取的，扭曲光流场具体是从源视频的各帧图像扭曲变换后的图像中提取的，基础光流场和扭曲光流场可表示不同方位对同一目标对象的行为记录。

S103：将所述基础光流场和所述扭曲光流场，以及从所述训练样本中提取的每个源视频包括的每帧图像的像素信息，分别输入所述双流卷积网络，获得对所述训练样本进行时间流分类和空间流分类的分类结果；

在本发明实施例中，将基础光流场和扭曲光流场协同用于时序特征，具体来讲，将基础光流场和扭曲光流场输入双流卷积网络中的时间流中，获得对训练样本进行时间流分类的分类结果。将从训练样本中提取的每个源视频包括的每帧图像的像素信息输入到双流卷积网络中空间流中，获得对训练样本进行空间分类的分类结果。

S104：对所述时间流和所述空间流的分类结果进行卷积计算，获得目标分类结果；

在本发明实施例中，卷积计算的过程具体为通过卷积核对输入的时间流的分类结果，和空间流的分类结果进行加权计算，得到目标分类结果。整个过程有效地抑制了背景移动的影响，提高了模型识别的准确率，能够实现对快速运动的行为识别。

S105：将所述目标分类结果满足预设误差范围时所对应的行为识别模型，作为目标行为识别模型；

在本发明实施例中，预设误差范围具体为根据目标函数所确定的最小化分类误差。在具体实施过程中，选择小批量随机梯度下降为优化函数，最小化分类误差作为目标函数。其中，优化函数用来优化卷积计算过程的参数，从而使得目标函数达到最优，此时，表明该目标分类结果与实际分类间满足预设误差范围。在目标分类结果满足预设误差范围时的目标行为识别模型为训练好的行为识别模型。

S106：将待识别视频输入所述目标行为识别模型，确定所述待识别视频所包括的行为类别。

在本发明实施例中，为了提高行为识别速度，请参考图2，在步骤S101之前，所述方法还包括：

S201：采集所述多个源视频；

S202：从所述多个源视频中剪辑出与预设行为类别相匹配且持续一预设时长的视频片段；

S203：按照预设规则对所述视频片段分段，获得多段区间；

S204：在每段区间以帧粒度采样，转化为多帧图像；

S205：调整每帧图像的像素尺寸为预设数值；

S206：将调整后的每帧图像作为所述训练样本。

在具体实施过程中，步骤S201至步骤S206的具体实现过程如下：

首先，采集多个源视频，该多个源视频的时长为5s-15s。此外，该多个源视频中每类行为包括多人多组的动作行为。然后，从多个源视频中剪辑出与预设行为类别相匹配且持续一预设时长的视频片段，其中，预设行为类别为本领域技术人员根据实际需要所选择的行为，比如，关门、开窗、炒菜等。预设时长为本领域技术人员根据用户的实际使用习惯所设定的时长，比如，2s、3s，等等。也就是说，对多个源视频进行剪辑，排除无关行为，保证主体动作持续稳定一定时长。其中，无关行为比如噪音或者与主体动作无关的行为。然后，按照预设规则对上述剪辑后的视频片段进行分段，获得多段区间。其中，预设规则可以是根据特定时长所设定规则，比如，在所剪辑后的视频片段对应3s时长时，按照时长为1s对该剪辑后的视频进行分段，获得3个分段区间。然后，在每段区间以帧粒度采样，转化为多帧图像。

在具体实施过程中，为了提高行为识别的速度，在将每段区间的视频转换为多帧图像之后，调整每帧图像的像素尺寸为预设数值，以此来统一图像大小。这样的话，在对训练样本和测试样本进行行为识别时，通过预先调整图像大小，保证训练样本和测试样本数据大小的一致性。比如，预设数值为160×160像素，当然，本领域技术人员可以根据实际需要来设定该预设数值。然后，将调整后的每帧图像作为训练样本。

在本发明实施例中，为了实现对基础光流场的快速提取，提高行为识别效率，步骤S102中通过所述全变分网络从所述训练样本中提取基础光流场包括：将所述训练样本中的每帧图像输入所述全变分网络，获取经所述全变分网络输出的基础光流场；

在具体实施过程中，请参考图3，通过所述全变分网络对所述训练样本中的包括第一帧图像和第二帧图像的任一相邻两帧图像的基础光流场的提取过程为：

S301：获取所述第一帧图像和所述第二帧图像相同位置处像素点的第一亮度值和第二亮度值，以及两帧图像间的第一初始像素位移差和第一初始对偶矢量场；

S302：将所述第一亮度值、所述第二亮度值、所述第一初始像素位移差和所述第一初始对偶矢量场输入所述全变分网络中的第一模块，输出第一目标像素位移差和第一目标对偶矢量场，其中，所述全变分网络包括按照预设顺序排列的N个模块，所述第一模块位于该预设顺序的首部，N为大于2的正整数；

S303：将所述第一目标像素位移差和所述第一目标对偶矢量场作为学习的参数参与所述全变分网络中各个模块的训练；

S304：获取经所述全变分网络中第N模块输出的第N目标像素位移差和第N目标对偶矢量场；

S305：获取包括所述第N目标像素位移差和所述第N目标对偶矢量场的基础光流场，其中，所述第N模块位于该预设顺序的尾部。

在具体实施过程中，步骤S301至步骤S305的具体实现过程如下：

首先，获取第一帧图像和第二帧图像相同位置处像素点的第一亮度值和第二亮度值，以及两帧图像间的第一初始像素位移差和第一初始对偶矢量场。以第一亮度值为I₀，第二亮度值为I₁，第一初始像素位移差为u₀，第一初始对偶矢量场为p₀为例，步骤S302至步骤S304对应的全变分网络结构图如图4所示。具体来讲，将I₀、I₁、u₀、p₀输入全变分网络中的首个模块第一模块，输出第一目标像素位移差u、第一目标对偶矢量场p。将u和p作为学习的参数参与该各个模块的训练。

在具体实施过程中，在将I₀、I₁、u₀、p₀输入全变分网络中的首个模块第一模块之后，在第一模块中利用双线性插值变形和卷积层，对I₀和I₁进行转换，得到第一辅助变量v。将该第一辅助变量v分别与u₀和p₀进行卷积计算，输出p和v。

在第一模块至第N模块中，经每个模块得到的第一辅助变量v均为同一数值。在第一模块输出u和p之后，将其输入第二模块并与辅助变量v进行卷积计算，经第二模块输出第一目标像素位移差u₁和第一对偶矢量场p₁。重复相同的处理，最终获得经第N模块输出的第N目标像素位移差u_N和第N目标对偶矢量场p_N。

在本发明实施例中，由于时长较短的源视频，通常是由固定的摄像头拍摄而成的，在视频的实际录制过程中，摄像头的方位可能发生变化，这样的话，对训练样本的行为识别很容易出现误判。为了提高行为识别的准确率，通过估计单应性矩阵来对训练样本中的图像进行映射变换。请参考图5，步骤S102中通过所述全变分网络从所述训练样本中提取扭曲光流场，包括：

S501：通过单应性矩阵对所述训练样本中的图像进行映射，获得经映射后的图像；

S502：将所述经映射后的图像输入所述全变分网络，获取经所述全变分网络输出的扭曲光流场。

在具体实施过程中，步骤S501至步骤S502的具体实现过程如下：

首先，将单应性矩阵对训练样本中的图像进行映射，获得经映射后的图像。也就是说，利用单应性矩阵调整训练样本中的原始图像帧，获取扭曲后的图像，以此来获取扭曲光流场。以训练样本中第五帧图像的任一像素点坐标为(x₁,y₁,1)为例,经所述单应性矩阵映射后的该像素点的坐标为(x₂，y₂,1)，则所述通过单应性矩阵对所述第五帧图像进行映射的过程表示为：

其中，所述单应性矩阵为H，H可以表示为：

然后，将映射后的图像输入全变分网络，获取经该全变分网络输出的扭曲光流场。

在本发明实施例中，请参考图6，对所述经映射后的图像中包括第三帧图像和第四帧图像的任一相邻两帧图像的扭曲光流场的提取过程为：

S601：获取所述第三帧图像和所述第四帧图像相同位置处像素点的第三亮度值和第四亮度值，以及两帧图像间的第二初始像素位移差和第二初始对偶矢量场；

S602：将所述第三亮度值、所述第四亮度值、所述第二初始像素位移差和所述第二初始对偶矢量场输入所述第一模块，输出第一像素位移差和第一对偶矢量场；

S603：将所述第一像素位移差和所述第一对偶矢量场作为学习的参数参与所述全变分网络中各个模块的训练；

S604：获取经所述第N模块输出的第N像素位移差和第N对偶矢量场；

S605：获取包括所述第N像素位移差和所述第N对偶矢量场的扭曲光流场。

在本发明实施例中，请参考图7，步骤S602的具体实现过程包括：

S701：在所述第一模块中利用双线性插值变形和卷积层，对所述第三亮度值和所述第四亮度值进行转换，获得第二辅助变量；

S702：将所述第二辅助变量分别与所述第二初始像素位移差和所述第二初始对偶矢量场进行卷积计算，经所述第一模块输出所述第一像素位移差和所述第一对偶矢量场。

在具体实施过程中，基础光流场和全变分光流场共享全变分网络参数，步骤S601至S605的具体实现过程同步骤S301至步骤S305的过程，再此就不再赘述了。

在本发明实施例中，为了提高行为识别的准确率，在经全变分网络输出基础光流场和扭曲光流场之后，请参考图8，步骤S103中获得对所述训练样本进行时间流分类和空间流分类的分类结果，包括：

S801：对所述基础光流场和所述扭曲光流场进行加权计算，将加权计算的结果作为所述双流卷积网络中时间流的输入，获得所述训练样本经所述时间流分类后的第一分类结果；

S802：将获取的所述训练样本中每帧图像的RGB信息，作为所述双流卷积网络中空间流的输入，获得所述训练样本经所述空间流分类后的第二分类结果。

在具体实施过程中，步骤S801至步骤S802的具体实现过程如下：

在本发明实施例中，将基础光流场和扭曲光流场进行加权计算，将加权计算的结果作为该双流卷积网络中时间流的输入，这样的话，便获得了训练样本经空间流分类后的第二分类结果。比如，用户A在操场上跑步，通过摄像头来采集的视频中其中一帧图像中有树，与该帧图像相邻的图像中没有树，如果直接进行行为识别很容易导致误判，将获取的基础光流场和扭曲光流场进行加权计算，作为该双流卷积网络中时间流的输入，这样就可以有效避免对行为识别的误判。也就是说，通过对基础光流场和扭曲光流场的加权计算，有效抑制了背景移动的影响，提高了行为识别的准确率。

在本发明实施例中，将获取的训练样本中每帧图像的RGB信息，作为双流卷积网络中空间流的输入，获得训练样本经空间流分类后的第二分类结果。

在具体实施过程中，具体可以通过预训练的VGG-16卷积网络来训练时间流和空间流，从而减少参数学习过程，加快了训练速度，从而提高识别效率。当然，本领域技术人员还可以根据实际需要采用其它的卷积网络来训练时间流和空间流。

在本发明实施例中，在获得训练样本经时间流分类后的第一分类结果，以及训练样本经空间流分类后的第二分类结果之后，为了提高行为识别的准确率，对第一分类结果和第二分类结果进行卷积计算，获得目标分类结果，即确定出待识别视频的行为类别。

在本发明实施例中，在训练样本包括相邻连续帧RGB图像1、RGB图像2和RGB图像3时，本发明实施例所提供的待训练的行为识别模型如图9所示，其中，101表示训练样本，102表示全变分网络，103表示双流卷积网络。该模型对行为识别的具体过程在上述内容中已经详述过了，在此就不再赘述了。

基于同样的发明构思，请参考图10，本发明实施例还提供了一种行为识别装置，包括：

输入单元10，用于输入训练样本至待训练的行为识别模型，所述待训练的行为模型包括全变分网络和双流卷积网络，其中，所述训练样本包括多个源视频，所述多个源视频中每个源视频包括一类特定行为；

提取单元20，通过所述全变分网络从所述训练样本中提取基础光流场和扭曲光流场；

第一获得单元30，将所述基础光流场和所述扭曲光流场，以及从所述训练样本中提取的每个源视频包括的每帧图像的像素信息，分别输入所述双流卷积网络，获得对所述训练样本进行时间流分类和空间流分类的分类结果；

第二获得单元40，对所述时间流和所述空间流的分类结果进行卷积计算，获得目标分类结果；

确定单元50，将所述目标分类结果满足预设误差范围时所对应的行为识别模型，作为目标行为识别模型；

第三获得单元60，将待识别视频输入所述目标行为识别模型，确定所述待识别视频所包括的行为类别。

在本发明实施例中，所述行为识别装置还包括：处理单元，所述处理单元具体用于：

采集所述多个源视频；

按照预设规则对所述视频片段分段，获得多段区间；

在每段区间以帧粒度采样，转化为多帧图像；

调整每帧图像的像素尺寸为预设数值；

将调整后的每帧图像作为所述训练样本。

在本发明实施例中，提取单元20具体用于：

其中，提取单元20通过所述全变分网络对所述训练样本中的包括第一帧图像和第二帧图像的任一相邻两帧图像的基础光流场的提取过程为：

在本发明实施例中，提取单元20具体用于：

其中，提取单元20对所述经映射后的图像中包括第三帧图像和第四帧图像的任一相邻两帧图像的扭曲光流场的提取过程为：

获取经所述第N模块输出的第N像素位移差和第N对偶矢量场；

在本发明实施例中，提取单元20具体用于：

在本发明实施例中，第一获得单元30具体用于：

将获取的所述训练样本中每帧图像的RGB信息，作为所述双流卷积网络中空间流的输入，获得所述训练样本经所述空间流分类后的第二分类结果。

基于同样的发明构思，请参考图11，为本发明实施例提供的一种计算机装置的结构示意图，该计算机装置包括：处理器70、存储器80、收发机90以及总线接口，其中，存储器存储有计算机程序，所述处理器用于读取所述存储器中的程序为执行如第一方面所述的行为识别方法的步骤。

处理器70负责管理总线架构和通常的处理，存储器80可以存储处理器70在执行操作时所使用的数据。收发机90用于在处理器70的控制下接收和发送数据。

总线架构可以包括任意数量的互联的总线和桥，具体由处理器70代表的一个或多个处理器和存储器80代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器70负责管理总线架构和通常的处理，存储器80可以存储处理器70在执行操作时所使用的数据。

本发明实施例揭示的流程，可以应用于处理器70中，或者由处理器70实现。在实现过程中，信号处理流程的各步骤可以通过处理器70中的硬件的集成逻辑电路或者软件形式的指令完成。处理器70可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的路由更新方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器80，处理器70读取存储器80中的信息，结合其硬件完成信号处理流程的步骤。

具体地，所述处理器70，用于读取存储器80中的程序，执行上述路由更新方法所述的任一步骤。

基于相同的技术构思，本申请实施例还提供了一种可读存储介质，其上存储有计算机程序。该计算机程序被处理器执行时实现前述行为识别方法所述的任一步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种行为识别方法，其特征在于，包括：

其中，通过所述全变分网络从所述训练样本中提取基础光流场，包括：

将所述第一目标像素位移差和所述第一目标对偶矢量场作为学习的参数输入第二模块，获得经所述第二模块输出第二目标像素位移差和第二目标对偶矢量场，重复相同的处理，直至第N模块；

获取经所述全变分网络中所述第N模块输出的第N目标像素位移差和第N目标对偶矢量场；

获取包括所述第N目标像素位移差和所述第N目标对偶矢量场的基础光流场，其中，所述第N模块位于该预设顺序的尾部；

2.如权利要求1所述的方法，其特征在于，在所述输入训练样本至待训练的行为识别模型之前，所述方法还包括：

采集所述多个源视频；

按照预设规则对所述视频片段分段，获得多段区间；

在每段区间以帧粒度采样，转化为多帧图像；

调整每帧图像的像素尺寸为预设数值；

将调整后的每帧图像作为所述训练样本。

3.如权利要求2所述的方法，其特征在于，所述将所述第一亮度值、所述第二亮度值、所述第一初始像素位移差和所述第一初始对偶矢量场输入所述全变分网络中的第一模块，输出第一目标像素位移差和第一目标对偶矢量场，包括：

4.如权利要求2所述的方法，其特征在于，所述通过全变分网络从所述训练样本中提取扭曲光流场，包括：

将所述第一像素位移差和所述第一对偶矢量场作为学习的参数输入所述第二模块，获得经所述第二模块输出的第二像素位移差和第二对偶矢量场，重复相同的处理，直至所述第N模块；

获取经所述第N模块输出的第N像素位移差和第N对偶矢量场；

5.如权利要求4所述的方法，其特征在于，所述将所述第三亮度值、所述第四亮度值、所述第二初始像素位移差和所述第二初始对偶矢量场输入所述第一模块，输出第一像素位移差和第一对偶矢量场，包括：

6.如权利要求1所述的方法，其特征在于，所述获得对所述训练样本进行时间流分类和空间流分类的分类结果，包括：

7.一种行为识别装置，其特征在于，包括：

提取单元，通过所述全变分网络从所述训练样本中提取基础光流场和扭曲光流场，其中，通过所述全变分网络从所述训练样本中提取基础光流场，包括：将所述训练样本中的每帧图像输入所述全变分网络，获取经所述全变分网络输出的基础光流场；其中，通过所述全变分网络对所述训练样本中的包括第一帧图像和第二帧图像的任一相邻两帧图像的基础光流场的提取过程为：获取所述第一帧图像和所述第二帧图像相同位置处像素点的第一亮度值和第二亮度值，以及两帧图像间的第一初始像素位移差和第一初始对偶矢量场；将所述第一亮度值、所述第二亮度值、所述第一初始像素位移差和所述第一初始对偶矢量场输入所述全变分网络中的第一模块，输出第一目标像素位移差和第一目标对偶矢量场，其中，所述全变分网络包括按照预设顺序排列的N个模块，所述第一模块位于该预设顺序的首部，N为大于2的正整数；将所述第一目标像素位移差和所述第一目标对偶矢量场作为学习的参数输入第二模块，获得经所述第二模块输出第二目标像素位移差和第二目标对偶矢量场，重复相同的处理，直至第N模块；获取经所述全变分网络中所述第N模块输出的第N目标像素位移差和第N目标对偶矢量场；获取包括所述第N目标像素位移差和所述第N目标对偶矢量场的基础光流场，其中，所述第N模块位于该预设顺序的尾部；

8.一种计算机装置，其特征在于，包括：处理器和存储器，其中，存储器存储有计算机程序，所述处理器用于读取所述存储器中的程序为执行权利要求1至6中任一项所述的行为识别方法的步骤。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。