CN107330362B

CN107330362B - 一种基于时空注意力的视频分类方法

Info

Publication number: CN107330362B
Application number: CN201710379817.8A
Authority: CN
Inventors: 彭宇新; 张俊超
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2020-10-09
Anticipated expiration: 2037-05-25
Also published as: CN107330362A

Abstract

本发明涉及一种基于时空注意力的视频分类方法，包括以下步骤：对训练视频和待预测视频提取帧和光流，将若干光流堆叠为多通道的图像；搭建时空注意力模型，包括空域注意力网络、时域注意力网络和连接网络；联合训练时空注意力模型中的三个组成部分，使空域、时域注意力的效果同时提升，得到能够准确建模空域、时域显著性并适用于视频分类的时空注意力模型；利用学习得到的时空注意力模型对待预测视频的帧和光流提取空域、时域显著性并进行预测，融合帧和光流的预测得分得到待预测视频的最终语义类别。本发明能够同时建模空域、时域注意力，并通过联合训练充分利用二者的协作性能，学习得到更准确的空域、时域显著性，从而提高了视频分类的准确率。

Description

一种基于时空注意力的视频分类方法

技术领域

本发明涉及视频分类技术领域，具体涉及一种基于时空注意力的视频分类方法。

背景技术

随着社交媒体、自媒体的广泛普及和迅速发展，互联网上的视频数量呈现急剧增长的态势。调查研究表明，2016年每分钟上传到YouTube网站的视频时长超过300小时。美国CISCO公司2016年的视频流量统计和预测报告进一步指出，2020年全球视频流量将占据互联网流量的82％，届时一个用户需要花费五百万年的时间才能看完互联网上一个月内所传输的视频。视频等媒体数据已经成为大数据的主体，如何对视频内容进行准确分析和识别，对于满足用户的信息获取需求意义重大。

视频分类是对视频内容进行分析理解以识别其语义类别的技术，在互联网视频监测、人机交互等方面具有广阔的应用前景，长期以来受到学术界和工业界的广泛关注。传统视频分类方法一般采用手工特征表示视频内容，比如首先利用尺度不变特征变换(scale-invariant feature transform，SIFT)描述子、光流直方图(histogram of orientedoptical flow，HOF)表示视频的静态信息和运动信息，再使用词袋(bag of words，BoW)模型进行特征编码，最终用支持向量机(support vector machine，SVM)等分类器预测视频类别。为了优化特征表示，一些方法采用费雪向量(Fisher vector)和局部特征聚合描述符(vector of locally aggregated descriptors，VLAD)等更高效的特征编码方式。此类方法的典型代表是Wang等人2013年发表于ICCV会议的文献“Action Recognition withImproved Trajectories”中提出的IDT(improved dense trajectories)算法，该算法在多个空间尺度上对视频帧密集采样特征点，然后跟踪特征点并提取轨迹、HOF等四种特征，同时通过估计相机运动消除背景上的干扰轨迹和光流，之后采用费雪向量对四种特征进行特征编码得到高效的IDT特征。IDT算法在传统视频分类方法中取得了较好的效果，并具有很好的鲁棒性。然而手工特征难以充分表达视频内容的高层语义信息，在大规模视频数据和大量语义类别条件下的视频分类中表现出一定的局限性。

相比于手工特征，深度网络具备强大的特征学习能力，其学习出的深度特征能够更好地表达视觉对象的高层语义信息。随着深度学习技术在图像分类、目标识别以及语音识别等领域取得的突破性进展，近年来，研究人员也将深度学习技术应用于视频分类研究中，用深度网络学习视频中的静态特征和运动特征并进行分类。这类方法的经典代表是2014年Simonyan等人在发表于NIPS会议的文献“Two-Stream Convolutional Networksfor Action Recognition in Videos”中提出的方法，用两个卷积神经网络(convolutional neural network，CNN)分别从视频帧和光流中建模视频内容的静态信息和运动信息，并融合两路信息进行视频分类。该方法取得了令人鼓舞的视频分类结果，启发了一系列应用深度网络进行两路或多路视频特征学习的方法。然而视频帧内的不同区域以及视频序列中不同的帧对于语义内容表达的贡献各不相同。如视频帧通常可以分为显著区域和非显著区域(空域显著性)，其中显著区域包含更多有语义区分性的信息，对视频语义内容表达的贡献较大，非显著性区域则包含较少的有用信息，对视频语义内容表达的贡献较小，甚至起到混淆作用；视频序列中每一帧对视频语义内容表达的重要性也各有不同(即时域显著性)。基于深度网络的视频分类方法通常不加区别地对待视频序列中的每一帧和帧内的每一个像素，这限制了特征学习的有效性。为了解决这个问题，研究人员将人类的视觉注意力机制引入深度视频分类方法中，以学习视频中的显著性信息。如Sharma等人于2016年发表在ICLR会议上的文献“Action Recognition using Visual Attention”中提出的方法利用软注意力模型选择视频帧中与视频分类任务有高度相关性的区域，并对其赋予较大的权重。该方法用卷积神经网络提取视频帧区域块的特征，用循环神经网络(recurrent neural network，RNN)选择具有显著区分性的区域块，提高了视频分类的效果。然而，现有深度视频分类方法不能同时建模视频中的空域显著性和时域显著性，忽略了这两种显著性之间的联系，因此不能充分利用两种显著性学习更有效的视频特征，限制了视频分类的效果。

发明内容

针对现有技术的不足，本发明提出了一种基于时空注意力的视频分类方法，一方面能够利用空域注意力学习空域显著性，强调视频帧内对于分类起到决定性作用的区域，另一方面能够利用时域注意力学习时域显著性，强调视频序列中对于分类起到决定性作用的帧。本发明联合学习空域、时域注意力并使其相互提升，能够提高空域和时域显著性的准确性，提高了视频分类的效果。

为达到以上目的，本发明采用的技术方案如下：

一种基于时空注意力的视频分类方法，用于分析理解视频内容并识别视频的类别，包括以下步骤：

(1)数据预处理：对训练视频和待预测视频提取帧和光流，将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像；

(2)时空注意力模型构建与训练：用深度网络构建时空注意力模型，并对其三个组成部分(连接网络和空域、时域注意力网络)进行联合训练，用步骤(1)中训练视频的帧和光流分别学习能够用于视频分类的时空注意力模型；

(3)视频分类：利用步骤(2)中训练得到的时空注意力模型对待预测视频的帧和光流计算语义类别的预测得分，融合其预测得分得到待预测视频最终的语义类别。

进一步，上述一种基于时空注意力的视频分类方法，所述步骤(1)中，提取训练视频和待预测视频的帧和光流，并将光流的水平、垂直方向上的分量交替堆叠，以作为时空注意力模型的输入。

进一步，上述一种基于时空注意力的视频分类方法，所述步骤(2)中，首先用深度网络构建时空注意力模型。时空注意力模型包含以下组成部分：连接网络、空域注意力网络和时域注意力网络。连接网络和空域注意力网络都是由卷积神经网络(convolutionalneural network，CNN)构成。连接网络包括若干卷积层、池化层和全连接层，最后一个池化层设计为加权池化(weighted pooling)层，用于连接空域注意力网络；空域注意力网络则包括若干卷积层、池化层和一个全连接层，其中最后一个池化层为全局平均池化(globalaverage pooling，GAP)层；时域注意力网络由基于长短时记忆(long short term memory，LSTM)单元的循环神经网络(recurrent neural network，RNN)构成，包含若干LSTM层和全连接层。连接网络通过加权池化层和全连接层将空域注意力网络和时域注意力网络连接在一起以联合训练，时域注意力和空域注意力网络分别得到对视频分类起到决定性作用的视频帧和帧内区域。

进一步，上述一种基于时空注意力的视频分类方法，所述步骤(2)中，通过联合训练连接网络、空域注意力网络和时域注意力网络，能够使得三个网络相互提升，提取更准确的空域显著性和时域显著性，提高了视频分类效果。

进一步，上述一种基于时空注意力的视频分类方法，所述步骤(2)中，用步骤(1)中训练视频的帧和光流分别训练时空注意力模型，得到两个用于视频分类的时空注意力模型。

进一步，上述一种基于时空注意力的视频分类方法，所述步骤(3)中，将待预测视频的帧和光流作为步骤(2)中训练得到的时空注意力模型的输入，根据深度网络输出计算得到帧和光流的语义类别预测得分并将二者融合，判断待预测视频最终的语义类别。

本发明的效果在于：与现有方法相比，本发明能够同时建模空域、时域注意力，并通过联合训练使得空域、时域注意力相互提升，使得学习到的视频空域、时域显著性信息更加准确，从而提升视频分类的效果。

本发明之所以具有上述发明效果，其原因在于：一方面设计了一个时空注意力模型，能够同时建模空域注意力和时域注意力，既通过空域注意力强调视频帧内对于分类起到决定性作用的区域，又通过时域注意力强调视频序列中对于分类起到决定性作用的帧。另一方面，本方法在训练过程中对空域注意力和时域注意力进行联合学习，充分利用空域、时域注意力的协作性能，共同促进两者的学习效果，提高了视频分类的准确率。

附图说明

图1是本发明的基于时空注意力的视频分类方法的流程图。

图2是本发明的时空注意力模型的网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于时空注意力的视频分类方法，其流程如图1所示，具体包含以下步骤：

(1)数据预处理

数据预处理是对训练视频和待预测视频提取帧和光流，光流是从视频的连续两帧中产生的运动向量，可以分解为水平和垂直两个方向的分量。为了方便深度网络处理光流中的运动信息，本实施例将连续L个光流的水平和垂直分量交替堆叠，得到具有2L个通道(channel)的图像。

(2)时空注意力模型构建与训练

时空注意力模型是一个深度神经网络，其输入是步骤(1)中所得到的帧或光流，输出是语义类别预测得分。本发明所提出的时空注意力模型结构示意图如图2所示，包括三个组成部分：连接网络、空域注意力网络和时域注意力网络。连接网络由CNN构成，其作用是将空域、时域注意力网络连接在一起，并输出特征和预测得分。为了连接两个注意力网络，一方面本发明设计了加权池化层以连接空域注意力网络，使得连接网络可以接受空域注意力网络的指导，输出带有空域显著性的特征和预测得分，另一方面，连接网络的特征输出层(倒数第二个全连接层)连接到时域注意力网络，为时域注意力网络提供输入。空域注意力网络也是由CNN构成，其作用是学习帧内区域的空域显著性，并通过加权池化层指导连接网络的训练。空域注意力网络的卷积层部分和连接网络的卷积层部分共享权值，在卷积层之后连接全局平均池化层和一个用于分类的全连接层。

根据空域注意力网络，对于最后一个卷积层上第k个卷积单元，定义全局平均池化层的输出为：

A^k＝∑_x,ya_k(x,y) (1)

其中a_k(x,y)表示最后一个卷积层上第k个卷积单元在空间位置(x,y)的卷积激活。对于视频类别c，定义全连接层的输出为：

其中

表示第k个卷积单元对于类别c的权值，其表示了A^k对于类别c的重要程度。根据公式(1)和公式(2)，可以得到：

由此，定义空域显著性如下：

其中m_c(x,y)表示空间位置(x,y)的显著性，表示了空间位置(x,y)的卷积激活对于类别c的重要性。对m_c(x,y)进行归一化可以得到：

其中g表示卷积单元对应的帧内区域的像素个数。上式得到的空域显著性作用于加权池化层，首先将空域显著性乘以连接网络对应位置的卷积激活，之后进行池化操作，以此将空域显著性传递给连接网络。

时域注意力网络由LSTM层和一个用于分类的全连接层构成，其作用是学习视频序列的时域显著性。时域注意力网络将连接网络的输出特征作为输入，通过LSTM层的隐状态计算得到时域显著性，判断视频序列中每一帧的重要性。对于视频序列[x₁,x₂,…,x_T](x₁,x₂,…,x_T表示视频序列中的各帧)，将LSTM层对应的隐状态序列堆叠为矩阵形式H＝h₁,h₂,…,h_T∈R^n×T，n为隐状态的维度，计算其关系矩阵：

C＝tanh(H^TH) (6)

那么时域显著性可通过以下公式得到：

[γ₁,γ₂,…γ_T]＝1C (7)

其中1表示全1向量，γ_t表示视频帧(或光流)x_t的时域显著性，t＝1,2,…,T。

用[α₁,α₂,…,α_T]表示连接网络输出的预测得分，其包含了空域显著性信息，进而应用时域显著性，可以得到视频序列的预测得分：

预测得分[β₁,β₂,…,β_T]里包含了空域、时域两方面的显著性信息。

本发明对时空注意力模型的三个组成网络进行联合训练，并以Softmax函数驱动联合训练过程。联合训练即是以端到端的方式同时训练时空注意力模型的三个组成网络，能够使得空域、时域注意力共同促进，充分利用两种注意力的协作性能，学习得到更准确的空域、时域显著性信息。

本发明利用步骤(1)中训练视频所得到的帧和光流分别训练时空注意力模型，用于对待预测视频的帧和光流进行分类预测。

(3)视频分类

对于待预测视频v，由步骤(1)可以得到帧

和光流

利用上一步训练得到的时空注意力模型可以分别得到帧和光流的语义类别预测得分，进一步融合两者的得分得到待预测视频最终的语义类别，完成对待预测视频的分类。具体地，由公式(8)得到帧和光流的语义类别预测得分，分别记作

和

然后对其计算均值或最大值作为待预测视频的语义类别预测得分，公式如下：

选取r中具有最大预测得分的类别作为待预测视频最终的语义类别。

下面的实验结果表明，与现有方法相比，本发明的基于时空注意力的视频分类方法，可以取得更高的分类准确率。

本实施例采用了HMDB51数据集。该数据集共有6766个视频，包含51个语义类别(如：Fencing，Pick，RideHorse，SwingBaseball等)，每个视频与唯一的语义类别对应。该数据集共有三种不同的划分(splits)，最终实验结果由三个划分上的实验结果计算平均值得到。该数据集的视频在镜头运动、视角、视频质量等方面各有不同，因此视频分类有较大的挑战性，有助于证明本方法的有效性。

现有方法一：Fernando等人在文献“Modeling Video Evolution for ActionRecognition”中提出的方法。

现有方法二：Feichtenhofer等人在文献“Convolutional Two-Stream NetworkFusion for Video Action Recognition”中提出的方法。

现有方法三：Wang等人在文献“Deep Alternative Neural Network:ExploringContexts as Early as Possible for Action Recognition”中提出的方法。

本发明：本实施例的方法。

实验采用准确率指标来评测视频分类的准确性，准确率是指测试数据中被正确分类的视频数量和待预测数据总数量之间的比值，准确率越高，说明视频分类的结果越好。

从表1可以看出，本发明取得了更好的视频分类结果。现有方法不能同时建模学习视频中的空域、时域注意力，导致其视频分类的结果低于本发明。本发明利用深度网络设计了时空注意力模型，同时考虑到空域注意力和时域注意力二者的协作性能以进行联合训练，因此能够学习更准确的空域、时域显著性，提高了视频分类的准确率。

表1.与现有方法的对比实验结果

方法	准确率
		现有方法一	0.637
现有方法二	0.654
		现有方法三	0.659
本发明	0.676

本发明中时空注意力模型的三个组成网络均可采用多种深度网络结构，连接网络和空域注意力网络可以由多种卷积神经网络构成，比如AlexNet、GooLeNet和ResNet网络等；时域注意力网络可以由多种循环神经网络构成，其神经单元可以是长短时记忆(LSTM)单元和门限循环单元(gated recurrent unit，GRU)。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于时空注意力的视频分类方法，包括以下步骤：

(1)对训练视频和待预测视频提取帧和光流，将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像；

(2)用深度网络构建时空注意力模型，包含连接网络、空域注意力网络、时域注意力网络三个组成部分；所述连接网络包含若干卷积层、池化层和全连接层，其最后一个池化层为加权池化层；连接网络通过加权池化层和全连接层分别连接空域注意力网络和时域注意力网络；所述空域注意力网络由卷积神经网络构成，用于学习空域显著性；所述时域注意力网络由循环神经网络构成，用于学习时域显著性；

(3)对步骤(2)中时空注意力模型的三个组成网络进行联合训练，利用步骤(1)得到的训练视频的帧和光流分别学习两个能够用于视频分类的时空注意力模型；

(4)利用步骤(3)中训练得到的两个时空注意力模型对待预测视频的帧和光流分别计算语义类别的预测得分，然后融合帧预测得分和光流预测得分，得到待预测视频最终的语义类别。

2.如权利要求1所述的方法，其特征在于，步骤(1)将连续L个光流的水平和垂直分量交替堆叠，得到具有2L个通道的图像。

3.如权利要求1所述的方法，其特征在于，所述空域注意力网络由卷积神经网络构成，包含若干卷积层，池化层和一个用于分类的全连接层；所述空域注意力网络的卷积层部分和所述连接网络共享卷积权值，最后一个池化层为全局平均池化层；所述空域注意力网络通过加权池化层将空域显著性传递给连接网络，以指导连接网络的学习。

4.如权利要求3所述的方法，其特征在于，所述空域显著性以及归一化的空域显著性由下列公式计算得到：

其中m_c(x,y)表示空间位置(x,y)的显著性，a_k(x,y)表示空域注意力网络最后一个卷积层上第k个卷积单元在空间位置(x,y)的卷积激活，

表示第k个卷积单元对于类别c的权值；

表示归一化的空域显著性，g表示卷积层单元对应的帧内区域的像素个数。

5.如权利要求1所述的方法，其特征在于，所述时域注意力网络由基于长短时记忆单元的循环神经网络构成，包含若干长短时记忆层和一个用于分类的全连接层；所述时域注意力网络接收所述连接网络的输出特征作为输入，通过长短时记忆层学习视频中的时域显著性，判断视频序列中每一帧的重要性。

6.如权利要求5所述的方法，其特征在于，所述时域显著性定义为：

[γ₁,γ₂,…γ_L]＝1tanh(H^TH)，

其中[γ₁,γ₂,…γ_L]表示视频序列的时域显著性，1表示全1向量，H表示长短时记忆层隐状态的堆叠矩阵，H^T表示H的转置矩阵。

7.如权利要求6所述的方法，其特征在于，时空注意力模型根据学习得到的空域、时域显著性计算视频帧或光流的预测得分，预测得分定义为：

其中α表示连接网络输出的预测得分，其包含空域显著性；预测得分[β₁,β₂,…,β_L]中同时包含了空域、时域两方面的显著性信息。

8.如权利要求1所述的方法，其特征在于，步骤(4)中视频分类时，利用步骤(3)中训练得到的两个时空注意力模型分别计算待预测视频帧的语义类别预测得分和光流的语义类别预测得分，之后对其计算均值或最大值作为待预测视频的语义类别预测得分，最后选取具有最大预测得分的类别作为待预测视频的语义类别。