CN107330362B - 一种基于时空注意力的视频分类方法 - Google Patents
一种基于时空注意力的视频分类方法 Download PDFInfo
- Publication number
- CN107330362B CN107330362B CN201710379817.8A CN201710379817A CN107330362B CN 107330362 B CN107330362 B CN 107330362B CN 201710379817 A CN201710379817 A CN 201710379817A CN 107330362 B CN107330362 B CN 107330362B
- Authority
- CN
- China
- Prior art keywords
- video
- attention
- network
- spatial
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002123 temporal effect Effects 0.000 claims abstract description 41
- 230000003287 optical effect Effects 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000011176 pooling Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 230000009471 action Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于时空注意力的视频分类方法,包括以下步骤:对训练视频和待预测视频提取帧和光流,将若干光流堆叠为多通道的图像;搭建时空注意力模型,包括空域注意力网络、时域注意力网络和连接网络;联合训练时空注意力模型中的三个组成部分,使空域、时域注意力的效果同时提升,得到能够准确建模空域、时域显著性并适用于视频分类的时空注意力模型;利用学习得到的时空注意力模型对待预测视频的帧和光流提取空域、时域显著性并进行预测,融合帧和光流的预测得分得到待预测视频的最终语义类别。本发明能够同时建模空域、时域注意力,并通过联合训练充分利用二者的协作性能,学习得到更准确的空域、时域显著性,从而提高了视频分类的准确率。
Description
技术领域
本发明涉及视频分类技术领域,具体涉及一种基于时空注意力的视频分类方法。
背景技术
随着社交媒体、自媒体的广泛普及和迅速发展,互联网上的视频数量呈现急剧增长的态势。调查研究表明,2016年每分钟上传到YouTube网站的视频时长超过300小时。美国CISCO公司2016年的视频流量统计和预测报告进一步指出,2020年全球视频流量将占据互联网流量的82%,届时一个用户需要花费五百万年的时间才能看完互联网上一个月内所传输的视频。视频等媒体数据已经成为大数据的主体,如何对视频内容进行准确分析和识别,对于满足用户的信息获取需求意义重大。
视频分类是对视频内容进行分析理解以识别其语义类别的技术,在互联网视频监测、人机交互等方面具有广阔的应用前景,长期以来受到学术界和工业界的广泛关注。传统视频分类方法一般采用手工特征表示视频内容,比如首先利用尺度不变特征变换(scale-invariant feature transform,SIFT)描述子、光流直方图(histogram of orientedoptical flow,HOF)表示视频的静态信息和运动信息,再使用词袋(bag of words,BoW)模型进行特征编码,最终用支持向量机(support vector machine,SVM)等分类器预测视频类别。为了优化特征表示,一些方法采用费雪向量(Fisher vector)和局部特征聚合描述符(vector of locally aggregated descriptors,VLAD)等更高效的特征编码方式。此类方法的典型代表是Wang等人2013年发表于ICCV会议的文献“Action Recognition withImproved Trajectories”中提出的IDT(improved dense trajectories)算法,该算法在多个空间尺度上对视频帧密集采样特征点,然后跟踪特征点并提取轨迹、HOF等四种特征,同时通过估计相机运动消除背景上的干扰轨迹和光流,之后采用费雪向量对四种特征进行特征编码得到高效的IDT特征。IDT算法在传统视频分类方法中取得了较好的效果,并具有很好的鲁棒性。然而手工特征难以充分表达视频内容的高层语义信息,在大规模视频数据和大量语义类别条件下的视频分类中表现出一定的局限性。
相比于手工特征,深度网络具备强大的特征学习能力,其学习出的深度特征能够更好地表达视觉对象的高层语义信息。随着深度学习技术在图像分类、目标识别以及语音识别等领域取得的突破性进展,近年来,研究人员也将深度学习技术应用于视频分类研究中,用深度网络学习视频中的静态特征和运动特征并进行分类。这类方法的经典代表是2014年Simonyan等人在发表于NIPS会议的文献“Two-Stream Convolutional Networksfor Action Recognition in Videos”中提出的方法,用两个卷积神经网络(convolutional neural network,CNN)分别从视频帧和光流中建模视频内容的静态信息和运动信息,并融合两路信息进行视频分类。该方法取得了令人鼓舞的视频分类结果,启发了一系列应用深度网络进行两路或多路视频特征学习的方法。然而视频帧内的不同区域以及视频序列中不同的帧对于语义内容表达的贡献各不相同。如视频帧通常可以分为显著区域和非显著区域(空域显著性),其中显著区域包含更多有语义区分性的信息,对视频语义内容表达的贡献较大,非显著性区域则包含较少的有用信息,对视频语义内容表达的贡献较小,甚至起到混淆作用;视频序列中每一帧对视频语义内容表达的重要性也各有不同(即时域显著性)。基于深度网络的视频分类方法通常不加区别地对待视频序列中的每一帧和帧内的每一个像素,这限制了特征学习的有效性。为了解决这个问题,研究人员将人类的视觉注意力机制引入深度视频分类方法中,以学习视频中的显著性信息。如Sharma等人于2016年发表在ICLR会议上的文献“Action Recognition using Visual Attention”中提出的方法利用软注意力模型选择视频帧中与视频分类任务有高度相关性的区域,并对其赋予较大的权重。该方法用卷积神经网络提取视频帧区域块的特征,用循环神经网络(recurrent neural network,RNN)选择具有显著区分性的区域块,提高了视频分类的效果。然而,现有深度视频分类方法不能同时建模视频中的空域显著性和时域显著性,忽略了这两种显著性之间的联系,因此不能充分利用两种显著性学习更有效的视频特征,限制了视频分类的效果。
发明内容
针对现有技术的不足,本发明提出了一种基于时空注意力的视频分类方法,一方面能够利用空域注意力学习空域显著性,强调视频帧内对于分类起到决定性作用的区域,另一方面能够利用时域注意力学习时域显著性,强调视频序列中对于分类起到决定性作用的帧。本发明联合学习空域、时域注意力并使其相互提升,能够提高空域和时域显著性的准确性,提高了视频分类的效果。
为达到以上目的,本发明采用的技术方案如下:
一种基于时空注意力的视频分类方法,用于分析理解视频内容并识别视频的类别,包括以下步骤:
(1)数据预处理:对训练视频和待预测视频提取帧和光流,将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像;
(2)时空注意力模型构建与训练:用深度网络构建时空注意力模型,并对其三个组成部分(连接网络和空域、时域注意力网络)进行联合训练,用步骤(1)中训练视频的帧和光流分别学习能够用于视频分类的时空注意力模型;
(3)视频分类:利用步骤(2)中训练得到的时空注意力模型对待预测视频的帧和光流计算语义类别的预测得分,融合其预测得分得到待预测视频最终的语义类别。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(1)中,提取训练视频和待预测视频的帧和光流,并将光流的水平、垂直方向上的分量交替堆叠,以作为时空注意力模型的输入。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,首先用深度网络构建时空注意力模型。时空注意力模型包含以下组成部分:连接网络、空域注意力网络和时域注意力网络。连接网络和空域注意力网络都是由卷积神经网络(convolutionalneural network,CNN)构成。连接网络包括若干卷积层、池化层和全连接层,最后一个池化层设计为加权池化(weighted pooling)层,用于连接空域注意力网络;空域注意力网络则包括若干卷积层、池化层和一个全连接层,其中最后一个池化层为全局平均池化(globalaverage pooling,GAP)层;时域注意力网络由基于长短时记忆(long short term memory,LSTM)单元的循环神经网络(recurrent neural network,RNN)构成,包含若干LSTM层和全连接层。连接网络通过加权池化层和全连接层将空域注意力网络和时域注意力网络连接在一起以联合训练,时域注意力和空域注意力网络分别得到对视频分类起到决定性作用的视频帧和帧内区域。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,通过联合训练连接网络、空域注意力网络和时域注意力网络,能够使得三个网络相互提升,提取更准确的空域显著性和时域显著性,提高了视频分类效果。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,用步骤(1)中训练视频的帧和光流分别训练时空注意力模型,得到两个用于视频分类的时空注意力模型。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(3)中,将待预测视频的帧和光流作为步骤(2)中训练得到的时空注意力模型的输入,根据深度网络输出计算得到帧和光流的语义类别预测得分并将二者融合,判断待预测视频最终的语义类别。
本发明的效果在于:与现有方法相比,本发明能够同时建模空域、时域注意力,并通过联合训练使得空域、时域注意力相互提升,使得学习到的视频空域、时域显著性信息更加准确,从而提升视频分类的效果。
本发明之所以具有上述发明效果,其原因在于:一方面设计了一个时空注意力模型,能够同时建模空域注意力和时域注意力,既通过空域注意力强调视频帧内对于分类起到决定性作用的区域,又通过时域注意力强调视频序列中对于分类起到决定性作用的帧。另一方面,本方法在训练过程中对空域注意力和时域注意力进行联合学习,充分利用空域、时域注意力的协作性能,共同促进两者的学习效果,提高了视频分类的准确率。
附图说明
图1是本发明的基于时空注意力的视频分类方法的流程图。
图2是本发明的时空注意力模型的网络结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于时空注意力的视频分类方法,其流程如图1所示,具体包含以下步骤:
(1)数据预处理
数据预处理是对训练视频和待预测视频提取帧和光流,光流是从视频的连续两帧中产生的运动向量,可以分解为水平和垂直两个方向的分量。为了方便深度网络处理光流中的运动信息,本实施例将连续L个光流的水平和垂直分量交替堆叠,得到具有2L个通道(channel)的图像。
(2)时空注意力模型构建与训练
时空注意力模型是一个深度神经网络,其输入是步骤(1)中所得到的帧或光流,输出是语义类别预测得分。本发明所提出的时空注意力模型结构示意图如图2所示,包括三个组成部分:连接网络、空域注意力网络和时域注意力网络。连接网络由CNN构成,其作用是将空域、时域注意力网络连接在一起,并输出特征和预测得分。为了连接两个注意力网络,一方面本发明设计了加权池化层以连接空域注意力网络,使得连接网络可以接受空域注意力网络的指导,输出带有空域显著性的特征和预测得分,另一方面,连接网络的特征输出层(倒数第二个全连接层)连接到时域注意力网络,为时域注意力网络提供输入。空域注意力网络也是由CNN构成,其作用是学习帧内区域的空域显著性,并通过加权池化层指导连接网络的训练。空域注意力网络的卷积层部分和连接网络的卷积层部分共享权值,在卷积层之后连接全局平均池化层和一个用于分类的全连接层。
根据空域注意力网络,对于最后一个卷积层上第k个卷积单元,定义全局平均池化层的输出为:
Ak=∑x,yak(x,y) (1)
其中ak(x,y)表示最后一个卷积层上第k个卷积单元在空间位置(x,y)的卷积激活。对于视频类别c,定义全连接层的输出为:
由此,定义空域显著性如下:
其中mc(x,y)表示空间位置(x,y)的显著性,表示了空间位置(x,y)的卷积激活对于类别c的重要性。对mc(x,y)进行归一化可以得到:
其中g表示卷积单元对应的帧内区域的像素个数。上式得到的空域显著性作用于加权池化层,首先将空域显著性乘以连接网络对应位置的卷积激活,之后进行池化操作,以此将空域显著性传递给连接网络。
时域注意力网络由LSTM层和一个用于分类的全连接层构成,其作用是学习视频序列的时域显著性。时域注意力网络将连接网络的输出特征作为输入,通过LSTM层的隐状态计算得到时域显著性,判断视频序列中每一帧的重要性。对于视频序列[x1,x2,…,xT](x1,x2,…,xT表示视频序列中的各帧),将LSTM层对应的隐状态序列堆叠为矩阵形式H=h1,h2,…,hT∈Rn×T,n为隐状态的维度,计算其关系矩阵:
C=tanh(HTH) (6)
那么时域显著性可通过以下公式得到:
[γ1,γ2,…γT]=1C (7)
其中1表示全1向量,γt表示视频帧(或光流)xt的时域显著性,t=1,2,…,T。
用[α1,α2,…,αT]表示连接网络输出的预测得分,其包含了空域显著性信息,进而应用时域显著性,可以得到视频序列的预测得分:
预测得分[β1,β2,…,βT]里包含了空域、时域两方面的显著性信息。
本发明对时空注意力模型的三个组成网络进行联合训练,并以Softmax函数驱动联合训练过程。联合训练即是以端到端的方式同时训练时空注意力模型的三个组成网络,能够使得空域、时域注意力共同促进,充分利用两种注意力的协作性能,学习得到更准确的空域、时域显著性信息。
本发明利用步骤(1)中训练视频所得到的帧和光流分别训练时空注意力模型,用于对待预测视频的帧和光流进行分类预测。
(3)视频分类
对于待预测视频v,由步骤(1)可以得到帧和光流利用上一步训练得到的时空注意力模型可以分别得到帧和光流的语义类别预测得分,进一步融合两者的得分得到待预测视频最终的语义类别,完成对待预测视频的分类。具体地,由公式(8)得到帧和光流的语义类别预测得分,分别记作和然后对其计算均值或最大值作为待预测视频的语义类别预测得分,公式如下:
选取r中具有最大预测得分的类别作为待预测视频最终的语义类别。
下面的实验结果表明,与现有方法相比,本发明的基于时空注意力的视频分类方法,可以取得更高的分类准确率。
本实施例采用了HMDB51数据集。该数据集共有6766个视频,包含51个语义类别(如:Fencing,Pick,RideHorse,SwingBaseball等),每个视频与唯一的语义类别对应。该数据集共有三种不同的划分(splits),最终实验结果由三个划分上的实验结果计算平均值得到。该数据集的视频在镜头运动、视角、视频质量等方面各有不同,因此视频分类有较大的挑战性,有助于证明本方法的有效性。
现有方法一:Fernando等人在文献“Modeling Video Evolution for ActionRecognition”中提出的方法。
现有方法二:Feichtenhofer等人在文献“Convolutional Two-Stream NetworkFusion for Video Action Recognition”中提出的方法。
现有方法三:Wang等人在文献“Deep Alternative Neural Network:ExploringContexts as Early as Possible for Action Recognition”中提出的方法。
本发明:本实施例的方法。
实验采用准确率指标来评测视频分类的准确性,准确率是指测试数据中被正确分类的视频数量和待预测数据总数量之间的比值,准确率越高,说明视频分类的结果越好。
从表1可以看出,本发明取得了更好的视频分类结果。现有方法不能同时建模学习视频中的空域、时域注意力,导致其视频分类的结果低于本发明。本发明利用深度网络设计了时空注意力模型,同时考虑到空域注意力和时域注意力二者的协作性能以进行联合训练,因此能够学习更准确的空域、时域显著性,提高了视频分类的准确率。
表1.与现有方法的对比实验结果
方法 | 准确率 |
现有方法一 | 0.637 |
现有方法二 | 0.654 |
现有方法三 | 0.659 |
本发明 | 0.676 |
本发明中时空注意力模型的三个组成网络均可采用多种深度网络结构,连接网络和空域注意力网络可以由多种卷积神经网络构成,比如AlexNet、GooLeNet和ResNet网络等;时域注意力网络可以由多种循环神经网络构成,其神经单元可以是长短时记忆(LSTM)单元和门限循环单元(gated recurrent unit,GRU)。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种基于时空注意力的视频分类方法,包括以下步骤:
(1)对训练视频和待预测视频提取帧和光流,将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像;
(2)用深度网络构建时空注意力模型,包含连接网络、空域注意力网络、时域注意力网络三个组成部分;所述连接网络包含若干卷积层、池化层和全连接层,其最后一个池化层为加权池化层;连接网络通过加权池化层和全连接层分别连接空域注意力网络和时域注意力网络;所述空域注意力网络由卷积神经网络构成,用于学习空域显著性;所述时域注意力网络由循环神经网络构成,用于学习时域显著性;
(3)对步骤(2)中时空注意力模型的三个组成网络进行联合训练,利用步骤(1)得到的训练视频的帧和光流分别学习两个能够用于视频分类的时空注意力模型;
(4)利用步骤(3)中训练得到的两个时空注意力模型对待预测视频的帧和光流分别计算语义类别的预测得分,然后融合帧预测得分和光流预测得分,得到待预测视频最终的语义类别。
2.如权利要求1所述的方法,其特征在于,步骤(1)将连续L个光流的水平和垂直分量交替堆叠,得到具有2L个通道的图像。
3.如权利要求1所述的方法,其特征在于,所述空域注意力网络由卷积神经网络构成,包含若干卷积层,池化层和一个用于分类的全连接层;所述空域注意力网络的卷积层部分和所述连接网络共享卷积权值,最后一个池化层为全局平均池化层;所述空域注意力网络通过加权池化层将空域显著性传递给连接网络,以指导连接网络的学习。
5.如权利要求1所述的方法,其特征在于,所述时域注意力网络由基于长短时记忆单元的循环神经网络构成,包含若干长短时记忆层和一个用于分类的全连接层;所述时域注意力网络接收所述连接网络的输出特征作为输入,通过长短时记忆层学习视频中的时域显著性,判断视频序列中每一帧的重要性。
6.如权利要求5所述的方法,其特征在于,所述时域显著性定义为:
[γ1,γ2,…γL]=1tanh(HTH),
其中[γ1,γ2,…γL]表示视频序列的时域显著性,1表示全1向量,H表示长短时记忆层隐状态的堆叠矩阵,HT表示H的转置矩阵。
8.如权利要求1所述的方法,其特征在于,步骤(4)中视频分类时,利用步骤(3)中训练得到的两个时空注意力模型分别计算待预测视频帧的语义类别预测得分和光流的语义类别预测得分,之后对其计算均值或最大值作为待预测视频的语义类别预测得分,最后选取具有最大预测得分的类别作为待预测视频的语义类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710379817.8A CN107330362B (zh) | 2017-05-25 | 2017-05-25 | 一种基于时空注意力的视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710379817.8A CN107330362B (zh) | 2017-05-25 | 2017-05-25 | 一种基于时空注意力的视频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330362A CN107330362A (zh) | 2017-11-07 |
CN107330362B true CN107330362B (zh) | 2020-10-09 |
Family
ID=60193725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710379817.8A Active CN107330362B (zh) | 2017-05-25 | 2017-05-25 | 一种基于时空注意力的视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330362B (zh) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918963A (zh) * | 2017-11-16 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 用于车辆的信息生成方法和装置 |
CN107944915B (zh) * | 2017-11-21 | 2022-01-18 | 北京字节跳动网络技术有限公司 | 一种游戏用户行为分析方法及计算机可读存储介质 |
CN108304856B (zh) * | 2017-12-13 | 2020-02-28 | 中国科学院自动化研究所 | 基于皮层丘脑计算模型的图像分类方法 |
CN108399435B (zh) * | 2018-03-21 | 2020-09-25 | 南京邮电大学 | 一种基于动静特征的视频分类方法 |
CN108446645B (zh) * | 2018-03-26 | 2021-12-31 | 天津大学 | 基于深度学习的车载人脸识别方法 |
CN108492273A (zh) * | 2018-03-28 | 2018-09-04 | 深圳市唯特视科技有限公司 | 一种基于自注意力模型的图像生成方法 |
CN108334910B (zh) * | 2018-03-30 | 2020-11-03 | 国信优易数据股份有限公司 | 一种事件检测模型训练方法以及事件检测方法 |
CN108764050B (zh) * | 2018-04-28 | 2021-02-26 | 中国科学院自动化研究所 | 基于角度无关性的骨架行为识别方法、系统及设备 |
CN108600701B (zh) * | 2018-05-02 | 2020-11-24 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN108764084B (zh) * | 2018-05-17 | 2021-07-27 | 西安电子科技大学 | 基于空域分类网络和时域分类网络融合的视频分类方法 |
CN110147700B (zh) * | 2018-05-18 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、存储介质以及设备 |
CN110533053B (zh) * | 2018-05-23 | 2022-12-06 | 杭州海康威视数字技术股份有限公司 | 一种事件检测方法、装置及电子设备 |
CN108846332B (zh) * | 2018-05-30 | 2022-04-29 | 西南交通大学 | 一种基于clsta的铁路司机行为识别方法 |
CN108875807B (zh) * | 2018-05-31 | 2022-05-27 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN108921087A (zh) * | 2018-06-29 | 2018-11-30 | 国家计算机网络与信息安全管理中心 | 视频理解方法 |
CN109101896B (zh) * | 2018-07-19 | 2022-03-25 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109063911B (zh) * | 2018-08-03 | 2021-07-23 | 天津相和电气科技有限公司 | 一种基于门控循环单元网络的负荷聚合体分组预测方法 |
CN109271854B (zh) * | 2018-08-07 | 2021-02-02 | 北京市商汤科技开发有限公司 | 基于视频处理方法及装置、视频设备及存储介质 |
CN109508642B (zh) * | 2018-10-17 | 2021-08-17 | 杭州电子科技大学 | 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
CN109508677B (zh) * | 2018-11-15 | 2021-07-13 | 电子科技大学 | 一种基于改进的cnn网络空中手写动作识别方法 |
CN109547803B (zh) * | 2018-11-21 | 2020-06-09 | 北京航空航天大学 | 一种时空域显著性检测及融合方法 |
CN109522450B (zh) | 2018-11-29 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种视频分类的方法以及服务器 |
CN109685115B (zh) * | 2018-11-30 | 2022-10-14 | 西北大学 | 一种双线性特征融合的细粒度概念模型及学习方法 |
CN109711277B (zh) * | 2018-12-07 | 2020-10-27 | 中国科学院自动化研究所 | 基于时空频域混合学习的行为特征提取方法、系统、装置 |
CN109376804B (zh) * | 2018-12-19 | 2020-10-30 | 中国地质大学(武汉) | 基于注意力机制和卷积神经网络高光谱遥感图像分类方法 |
CN109753897B (zh) * | 2018-12-21 | 2022-05-27 | 西北工业大学 | 基于记忆单元强化-时序动态学习的行为识别方法 |
CN109740670B (zh) | 2019-01-02 | 2022-01-11 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
CN109726765A (zh) | 2019-01-02 | 2019-05-07 | 京东方科技集团股份有限公司 | 一种视频分类问题的样本提取方法及装置 |
CN110032926B (zh) * | 2019-02-22 | 2021-05-11 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
CN109919110B (zh) * | 2019-03-13 | 2021-06-04 | 北京航空航天大学 | 视频关注区域检测方法、装置及设备 |
CN110059190A (zh) * | 2019-04-18 | 2019-07-26 | 东南大学 | 一种基于社交媒体内容和结构的用户实时观点检测方法 |
CN110070067B (zh) * | 2019-04-29 | 2021-11-12 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN110110651B (zh) * | 2019-04-29 | 2023-06-13 | 齐鲁工业大学 | 基于时空重要性和3d cnn的视频中行为识别方法 |
CN110245263B (zh) * | 2019-05-15 | 2021-08-20 | 北京奇艺世纪科技有限公司 | 一种聚合方法、装置、电子设备及存储介质 |
CN110210358A (zh) * | 2019-05-24 | 2019-09-06 | 北京大学 | 一种基于双向时序图的视频描述生成方法和装置 |
CN112149459B (zh) * | 2019-06-27 | 2023-07-25 | 哈尔滨工业大学(深圳) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 |
CN110348624B (zh) * | 2019-07-04 | 2020-12-29 | 内蒙古工业大学 | 一种基于Stacking集成策略的沙尘暴等级预测方法 |
CN110414377B (zh) * | 2019-07-09 | 2020-11-13 | 武汉科技大学 | 一种基于尺度注意力网络的遥感图像场景分类方法 |
CN110516536B (zh) * | 2019-07-12 | 2022-03-18 | 杭州电子科技大学 | 一种基于时序类别激活图互补的弱监督视频行为检测方法 |
CN110390308B (zh) * | 2019-07-26 | 2022-09-30 | 华侨大学 | 一种基于时空对抗生成网络的视频行为识别方法 |
CN110472732B (zh) * | 2019-08-19 | 2023-02-21 | 杭州凝眸智能科技有限公司 | 基于优化特征提取装置的图像特征提取系统 |
CN111079998B (zh) * | 2019-12-03 | 2020-12-01 | 华东师范大学 | 基于长短时序相关性注意力机制模型的流量预测方法 |
CN111079655B (zh) * | 2019-12-18 | 2022-08-16 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
CN111274995B (zh) * | 2020-02-13 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、设备和计算机可读存储介质 |
CN111310676A (zh) * | 2020-02-21 | 2020-06-19 | 重庆邮电大学 | 基于CNN-LSTM和attention的视频动作识别方法 |
CN111401270A (zh) * | 2020-03-19 | 2020-07-10 | 南京未艾信息科技有限公司 | 一种人体运动姿态识别评价方法及其系统 |
CN111627052B (zh) * | 2020-04-30 | 2023-05-23 | 沈阳工程学院 | 一种基于双流时空注意力机制的动作识别方法t-stam |
CN111967310A (zh) * | 2020-07-03 | 2020-11-20 | 上海交通大学 | 一种联合注意力机制的时空特征聚合方法及系统、终端 |
CN111898458B (zh) * | 2020-07-07 | 2024-07-12 | 中国传媒大学 | 基于注意力机制的双模态任务学习的暴力视频识别方法 |
CN111950717B (zh) * | 2020-08-27 | 2022-07-19 | 桂林电子科技大学 | 一种基于神经网络的舆情量化方法 |
CN112101382B (zh) * | 2020-09-11 | 2022-10-14 | 北京航空航天大学 | 时空联合模型及基于时空联合模型的视频显著性预测方法 |
CN112734696B (zh) * | 2020-12-24 | 2023-01-13 | 华南理工大学 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
CN112926396B (zh) * | 2021-01-28 | 2022-05-13 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
CN112990130B (zh) * | 2021-04-27 | 2021-07-23 | 南京甄视智能科技有限公司 | 训练样本的数据清洗方法、装置及一种分类器 |
CN113326748B (zh) * | 2021-05-17 | 2022-06-14 | 厦门大学 | 一种采用多维相关注意力模型的神经网络行为识别方法 |
CN113408349B (zh) * | 2021-05-17 | 2023-04-18 | 浙江大华技术股份有限公司 | 动作评价模型的训练方法、动作评价方法及相关设备 |
CN113554599B (zh) * | 2021-06-28 | 2023-08-18 | 杭州电子科技大学 | 一种基于人类视觉效应的视频质量评价方法 |
CN115063731B (zh) * | 2022-08-16 | 2022-11-11 | 之江实验室 | 基于两阶段运动建模和注意力的动作视频分类方法和系统 |
CN117612072B (zh) * | 2024-01-23 | 2024-04-19 | 中国科学技术大学 | 一种基于动态时空图的视频理解方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1225769A3 (en) * | 2001-01-17 | 2003-10-15 | Tektronix, Inc. | Spatial temporal visual attention model for a video frame sequence |
WO2007010114A3 (fr) * | 2005-07-22 | 2007-03-08 | Centre Nat Rech Scient | Procede et dispositif de representation d'une image fonctionnelle dynamique du cerveau, par localisation et discrimination des generateurs neuroelectrioues intracerebraux et leurs applications |
CN102542066A (zh) * | 2011-11-11 | 2012-07-04 | 冉阳 | 视频聚类方法、排序方法和视频搜索方法以及相应装置 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
-
2017
- 2017-05-25 CN CN201710379817.8A patent/CN107330362B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1225769A3 (en) * | 2001-01-17 | 2003-10-15 | Tektronix, Inc. | Spatial temporal visual attention model for a video frame sequence |
WO2007010114A3 (fr) * | 2005-07-22 | 2007-03-08 | Centre Nat Rech Scient | Procede et dispositif de representation d'une image fonctionnelle dynamique du cerveau, par localisation et discrimination des generateurs neuroelectrioues intracerebraux et leurs applications |
CN102542066A (zh) * | 2011-11-11 | 2012-07-04 | 冉阳 | 视频聚类方法、排序方法和视频搜索方法以及相应装置 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
基于特征轨迹的人物行为分类的关键技术与应用;薛莹;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215;35-36 * |
Also Published As
Publication number | Publication date |
---|---|
CN107330362A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330362B (zh) | 一种基于时空注意力的视频分类方法 | |
Peng et al. | Two-stream collaborative learning with spatial-temporal attention for video classification | |
Miech et al. | Learnable pooling with context gating for video classification | |
CN109101896B (zh) | 一种基于时空融合特征和注意力机制的视频行为识别方法 | |
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN110503053B (zh) | 基于循环卷积神经网络的人体动作识别方法 | |
CN106778854B (zh) | 基于轨迹和卷积神经网络特征提取的行为识别方法 | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN110598598A (zh) | 基于有限样本集的双流卷积神经网络人体行为识别方法 | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN113536922A (zh) | 一种加权融合多种图像任务的视频行为识别方法 | |
CN111611847A (zh) | 基于尺度注意力空洞卷积网络的视频动作检测方法 | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
CN105138991A (zh) | 一种基于情感显著性特征融合的视频情感识别方法 | |
CN112329604B (zh) | 一种基于多维度低秩分解的多模态情感分析方法 | |
CN113807222B (zh) | 基于稀疏采样进行端到端训练的视频问答方法与系统 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110889375A (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN106845329A (zh) | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 | |
CN112115788A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN110163131A (zh) | 混合卷积神经网络与小生境灰狼优化的人体动作分类方法 | |
CN113936236A (zh) | 一种基于多模态特征的视频实体关系及交互识别方法 | |
CN112052795B (zh) | 一种基于多尺度时空特征聚合的视频行为识别方法 | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN109889923A (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |