CN109522902B

CN109522902B - 空-时特征表示的提取

Info

Publication number: CN109522902B
Application number: CN201710841936.0A
Authority: CN
Inventors: 姚霆; 梅涛
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2023-07-07
Anticipated expiration: 2037-09-18
Also published as: WO2019055093A1; US20200257902A1; CN109522902A; US11538244B2; EP3665614A1

Abstract

根据本公开的实现，提出了一种提取空‑时特征表示的方案。在该方案中，在学习网络的第一层处接收输入，该输入包括多个图像。利用第一层的第一单元在空间维度中从输入提取多个图像的第一特征，第一特征表征多个图像的空间呈现。基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元在时间维度中从第一特征和输入中的至少一个提取多个图像的第二特征，第二特征至少表征跨多个图像的时间变化。至少部分地基于第二特征来生成多个图像的空‑时特征表示。通过该方案，降低了学习网络的尺寸，提高了学习网络的训练和使用效率，同时还获得较准确的空‑时特征表示。

Description

空-时特征表示的提取

背景技术

多媒体内容、特别是图像和视频被频繁应用，例如在电子设备之间被处理、传输和存储等等。这激励了在多媒体处理任务中对更高级处理技术的开发和使用。基于图像或视频的多媒体处理任务包括对象识别、动作识别、内容分类、深度估计等等。这些任务的基础通常是对图像或视频帧的特征表示的学习。特征表示指的是从图像或视频的帧中提取的、用于表征该视频的特征信息。基于所学习的特征表示，可以完成对图像或视频所期望的处理目标。

目前，已经发现神经网络(也被称为学习网络)在学习图像领域中的视觉特征表示时具有非常好的效果。有时还期望提取视频或者一组连续拍摄的图像的特征表示。在一些常规方案中，用于图像的神经网络设计可以被直接用于提取每个图像或视频的每个帧的特征表示。然而，不同于静态图像，一组连续图像或者视频的多个帧在时间上的动态变化也应被考虑在特征表示中。因此，在另外一些方案中，为了提取视频或一组图像在空间维度和时间维度中的特征信息，神经网络可以被设计得更复杂。这就要求更多的处理资源、存储资源用于神经网络的训练、存储和使用。

发明内容

根据本公开的实现，提出了一种提取空-时特征表示的方案。在该方案中，在学习网络的第一层处接收输入，该输入包括多个图像。利用第一层的第一单元在空间维度中从输入提取多个图像的第一特征，第一特征表征多个图像的空间呈现。基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元在时间维度中从第一特征和输入中的至少一个提取多个图像的第二特征，第二特征至少表征跨多个图像的时间变化。至少部分地基于第二特征来生成多个图像的空-时特征表示。通过该方案，降低了学习网络的尺寸，提高了学习网络的训练和使用效率，同时还获得较准确的空-时特征表示。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了根据本公开的一些实现的用于特征提取的系统的框图；

图3A至图3C示出了根据本公开的一些实现的图2中的系统的处理核的示例结构的框图；

图4示出了根据本公开的另一些实现的用于特征提取的系统的框图；

图5A至图5C示出了根据本公开的另一些实现的图2中的系统的处理核的示例结构的框图；

图6A至图6C示出了根据本公开的又一些实现的图2中的系统的处理核的示例结构的框图；以及

图7示出了根据本公开一些实现的用于特征提取的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

示例环境

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括图像识别模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。图像识别模块122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多种实现中的对视频的特征表示的提取。在提取视频的特征表示时，计算设备100能够通过输入设备150接收输入的多个图像170。多个图像170可以是视频片段中的多个帧(例如，多个连续的帧)。在另外一些示例中，多个图像170可以是对场景或事件等进行连续拍摄而获得的一组图像。该组图像因而可以被认为是构成了该场景或时间的动态片段。在下文中，将以视频片段的多个帧作为多个图像170的示例进行讨论。

计算设备100的处理单元110可以通过运行学习网络模块122来学习输入170的特征表示。计算设备100可以将特征表示作为输出180而经由输出设备160输出。在其他实现中，计算设备100的处理设备110还可以运行学习网络模块122或者其他模块，以基于输入170的特征表示来执行进一步的视频处理任务，诸如识别输入170中的对象或对象的动作，对输入170进行分类，等等。

如上文提及的，在处理视频相关的任务时，可以将视频的每个帧认为是图像，然后以与图像处理类似的方式设计学习网络以用于视频任务处理。对于一组连续图像，也可以采用与图像处理相关的学习网络来单独处理其中的每个图像。通常，学习网络可以被设计为在图像处理方面表现出色的卷积神经网络(CNN)。CNN中包括卷积层，每个卷积层具有多个卷积核，用于对输入执行卷积操作。对于每个帧，CNN可以在该帧的二维空间维度中提取空间呈现以作为该帧的特征表示，这样的空间呈现可以包括该帧中呈现的视觉特征，包括但不限于对象轮廓、颜色、灰度、边缘、拐角等等特征信息。

然而，上述2D学习网络的设计将无法捕获跨视频的多个帧或一组图像之间的动态变化，也即时间维度中的特征。因此，还开发了一种被设计用于处理视频的学习网络。该学习网络可以同时提取视频片段的每个帧中的视觉呈现以及跨多个帧的时间变化，用于作为视频片段的特征表示。这样的学习网络也被称为3D CNN，其中卷积层包括一个或多个3D卷积核，用于对视频输入执行3D卷积，以便同时从空间维度和时间维度提取特征表示。尽管已经证明3D CNN在性能上有一些优势，但是3D CNN的训练非常耗费计算资源，而且网络尺寸相比于2D CNN也成倍增长。基于这些原因，通常难以训练出非常深的3D CNN。

能够将多个帧或图像在时间维度中的特征考虑在内的另一方案是：首先采用2DCNN提取视频片段的多个帧的特征表示，然后在这些特征表示上采用池化策略或者递归神经网络(RNN)，以生成视频片段的最终特征表示。然而，由于是在2D CNN的较高层(例如最后的池化层或全连层)的输出基础上构建时间上的联系，一些较低形式(例如在CNN的底层中表现出的拐角或边缘)之间的相关度未被完全利用。这使得最终获得的特征表示没有全面地表征视频片段在时间维度中的特征。

根据本公开的实现，提出了一种提取视频片段或动态图像在空间维度和时间维度中的特征表示的方案。该方案基于学习网络来执行特征提取，该学习网络包括单独的单元，分别用于在空间维度中提取多个图像(例如视频片段的多个帧)的特征以及在时间维度中提取多个图像的另外的特征。取决于这些单元的并联或串联连接关系，这些特征可以相应地相互作用，以用于生成空-时特征表示。通过这种方式，在获得准确空-时特征表示的同时，还显著降低了学习网络的尺寸，使得学习网络易于被训练和使用。

以下通过具体示例来进一步描述本公开的各种实现。在本公开的实现，学习网络也可以被称为“神经网络”或“学习模型”。在下文中，术语“学习模型”、“学习网络”、“神经网络”、“模型”和“网络”可替换地使用。

系统架构和工作原理

现在参照图2，其中示出了根据本公开的一些实现的用于提取视频的特征表示的系统的框图。该系统可以被认为是学习网络122并且可以被实现在图1的计算设备100的学习网络模块122处。如图2所示，该学习网络122包括多个层210-1、210-2和210-3(也可以被统称为或单独称为层210)。层210对输入执行相应处理，并且将输出提供给下一层以供进一步处理。学习网络122的第一个层(例如，层210-1接收视频片段的多个帧170作为输入，学习网络122的最后一个层(例如，层210-3)的输出特征表示180被认为是视频片段的多个帧170的特征表示。除了学习网络122的输入170和输出180之外，在两个层210之间传递的特征表示220被称为中间特征表示。

每个层210可以包括一个或多个处理核202用于对输入进行处理。在一些实现中，学习网络122可以基于卷积神经网络(CNN)来设计。每个层210可以包括一个或多个卷积核(也称为卷积滤波器)202，用于对该层的输入执行卷积操作，以获得输出。处理核202的结构将结合图3A至图3C来具体描述。为了描述方便，下文中基于CNN来描述本公开的实现，然而应当理解，也可以基于其他神经网络架构来设计学习网络122。

输出的特征表示180以及中间特征表示220可以表现为一个或多个特征图的形式。层210输出的每个特征图的大小与该层的输入的每个特征图或视频帧(取决于层210的位置)的大小相同。每个层210输出的特征图的数目可以与多个视频帧170的每个帧的通道数目以及该层包括的卷积核的数目有关。每个层210的输入的维度取决于视频帧170的帧数和帧大小(如果该输入是视频帧)或者前一层210输出的特征图的数目和每个特征图的大小(如果该输入是前一层的输出)。由于每个特征图也可以以二维的形式被表示，虽然特征图可能仅表征一个或多个帧170的某一方面的特征信息，每个特征图也可以被认为是一幅图像或帧。换言之，中间特征表示220也可以被认为是多个特征图或多个经处理的帧。

在一些实现中，除了卷积层210之外，学习网络122还可以包括一个或多个激励层(由非线性激励函数组成，例如ReLU函数)和/或池化层(均未示出)。这些层可以被布置在两个层210之间，以接收前一层210输出的中间特征表示(或经处理的帧)220，并对该中间特征表示进行处理以作为下一层210的输入。激励层用于对中间特征表示220执行非线性变换，而池化层用于对中间特征表示220执行下采样，以改变中间特征表示220的尺寸。学习网络122还可以包括全连层，用于将该层的全部输入进行组合。通常全连层可以被设置为学习网络122的最后一层。

处理核的示例结构

不同于常规神经网络采用3D卷积核来同时提取空间和时间维度的特征，根据本公开的实现，层210的每个处理核202包括两个分离的单元(也被称为卷积核)，分别用于从空间维度和时间维度来提取视频片段的多个帧170的特征。基于这样的特征提取，可以生成多个帧170的最终特征表示180。由于同时表征了多个帧170的空间和时间维度的特征，特征表示180也被称为空-时特征表示。

为了便于理解本公开的实现，下面首先简单介绍常规的3D卷积核。给定尺寸为c×l×h×w的视频片段(其中c，l，h和w分别表示信道数目、片段长度(帧数目)、每个帧的高度和宽度)，如果采用包括3D卷积核的神经网络来提取特征表示，每个3D卷积核将从空间维度和时间维度对输入执行3D卷积，以同时提取多个帧的空间呈现和跨多个帧的时间变化。3D卷积核的参数可以被表示为d×k₁×k₂，其中d表示该卷积核的时间深度(例如，每次执行卷积的帧的数目)，而k₁和k₂表示该卷积核的空间尺寸(例如，各个帧中每次用于执行卷积的采样块的大小)。在一些示例中，k₁和k₂可以相等，例如被表示为k。

在本公开的实现中，取代于直接采用d×k₁×k₂的3D卷积核，可以采用两个分离的单元，分别在空间维度和时间维度中对每一卷积层的输入执行卷积操作。在空间维度中执行特征提取的单元的尺寸可以被表示为1×k₁×k₂，其时间深度为1，即每次在单个帧的二维空间中执行二维卷积处理。这样的单元因而可以被称为空间单元、空间卷积核或2D卷积核。在时间维度中执行特征提取的另一单元的尺寸可以被表示为d×1×1，该单元的时间深度为d，每次在时间维度中对多个(连续)帧执行一维卷积处理，而无需提取各个帧在空间维度上的特征。在时间维度中执行卷积处理的单元也可以被称为时间单元、时间卷积核或1D卷积核。总体而言，在本公开的实现中，由d×k₁×k₂的3D卷积核被分解为1×k₁×k₂的2D卷积核和d×1×1的1D卷积核，用以实现空间和时间维度的特征提取。这样分离的卷积处理可以被称为伪3D(P3D)卷积处理。

在图2的学习网络122中，每个处理核202可以包括两种类型的单元，即空间2D卷积核和时间1D卷积核。在一些实现中，这两种不同类型的单元可以以不同类型的连接彼此相连。两个单元的连接可以至少基于以下两方面的考虑。在第一方面，考虑两种类型的单元应当直接相互影响或间接相互影响。两种类型的单元之间的直接影响意味着空间2D卷积核和时间1D卷积核被串联连接，2D卷积核的输出被提供为1D卷积核的输入。两种类型的单元之间的间接影响意味着这两个单元被并联连接，每个类型的单元都独立地对相应卷积层的输入执行操作。另一方面，还应考虑两种类型的单元的输出是否均直接影响相应卷积层的最终输出。基于上述考虑，图3A至图3C给出了每个处理核202内两种类型的单元的一些示例连接，分别表示为P3D-A、P3D-B和P3D-C。

如图3A所示，处理核202包括串联连接的空间2D卷积核301(被表示为S)和时间1D卷积核302(被表示为T)。在图3A的示例中的串联连接可以被称为第一串联连接。在该连接关系中，卷积核301和302直接相互影响，并且仅卷积核302的输出直接影响处理核202所处的卷积层210的输出。具体地，在处理核202所处的卷积层210接收到输入310后，卷积核301在空间维度中从输入310提取视频片段的多个帧170的第一特征320。具体地，卷积核301可以单独地提取每个帧170的第一特征。该第一特征320表征多个帧的空间呈现，诸如每个帧中呈现的视觉特征，包括但不限于的对象轮廓、颜色、灰度、边缘、拐角等等视觉特征信息。第一特征可以被表示为一个或多个特征图。取决于处理核202的卷积层210在学习网络122中的位置，输入310可以是视频片段的多个帧170，或者可以是由前一层210处理后的帧(也即，中间特征表示220)。

卷积核302接收第一特征320，并且在时间维度中从第一特征320提取第二特征330。由于在卷积核302跨时间上的两个或更多帧来执行卷积操作，因而第二特征330至少表征跨视频片段的多个帧170的时间变化。这样的时间变化例如可以是多个帧中的对象动作的变化，背景变化、或者任何其他方面的变化。第二特征可以被表示为一个或多个特征图。进一步地，由于卷积核302在表征空间呈现的第一特征320的基础上进行处理，因而第二特征330也可以表征视频片段的多个帧170的空间呈现。在图3A的示例中，第二特征330可以被认为是处理核202的输出。因而，第二特征330可以作为相应层210的输出，例如中间特征表示220或学习网络122的空-时特征表示180。

在一些实现中，假设处理核202所处的卷积层为卷积层t，输入310被表示为x_t，那么该层的输出330可以被表示为x_t+1。处理核202中的处理被表示为：

x_t+1＝F(x_t) (1)

其中F表示卷积层t中的总体处理操作。在图3A的示例中，假设卷积核301的处理操作为S，卷积核302的处理操作T，那么上述公式(1)可以被表示为：

x_t+1＝T(S(x_t)) (2)

在图3B中，处理核202的两个卷积核301和302处于并联连接。在该连接关系中，卷积核301和302间接相互影响，并且两个卷积核的输出都直接影响处理核202所处的卷积层210的输出。在操作过程中，卷积核301和302的内部卷积操作与图3A相同，区别在于卷积核301和302均对处理核202的输入310进行处理。卷积核301在空间维度中提取出第一特征320，而卷积核302在时间维度中提取第二特征322。由于第二特征322直接从输入310中被提取，因此第二特征322仅表征跨多个帧的时间变化。处理核202还包括组合器303，用于将第一特征320和第二特征322进行组合，以生成输出330。取决于卷积核202所处的卷积层210的位置，输出330可以作为学习网络122的中间特征表示220以用于进一步处理，或者可以作为学习网络122的空-时特征表示180。在一些实现中，图3B中的处理核202的处理可以被表示为：

x_t+1＝S(x_t)+T(x_t) (3)

在图3C中，处理核202的两个卷积核301和302处于另一种串联连接(被称为第二串联连接)。在该连接关系中，卷积核301和302直接相互影响，并且两个卷积核的输出都直接影响处理核202所处的卷积层210的输出。具体地，在操作过程中，卷积核301在空间维度中从输入310提取第一特征320。卷积核302接收第一特征320，并且在时间维度中从第一特征320提取第二特征322。在该示例中，第二特征322不仅表征跨视频片段的多个帧170的时间变化，而且还可以表征多个帧的空间呈现。处理核202还包括组合器303，用于将第一特征320和第二特征322进行组合，以生成输出330(可以作为中间特征表示220或空-时特征表示180)。在一些实现中，图3C中的处理核202的处理可以被表示为：

x_t+1＝S(x_t)+T(S(x_t)) (4)

以上参照图3A至图3C描述了处理核202中的空间2D卷积核和时间1D卷积核的一些示例连接结构。应当理解，在另外一些实现中，还可以基于以上两方面考虑而设计空间2D卷积核和时间1D卷积核的其他连接结构的变形。例如，在一个示例中，在图3A的基础上，还可以存在一个变形结构，其中卷积核302接收第一特征320以及输入310，并且从第一特征320和输入310中提取第二特征作为输出330。在图3C的基础上，还可以存在一种变形姐欧股，其中卷积核302从第一特征320和输入310两者提取第二特征322，以用于生成输出330。

此外，虽然被示出为单个2D卷积核和单个1D卷积核的连接，在一些示例中，处理核202的输入310可以被多个2D卷积核301处理，以获得第一特征320。这些卷积核301可以构成处理核202中的一个处理子层。类似的，输入310或第一特征320可以被多个1D卷积核302处理，以生成第二特征322(在图3A中是330)。这些卷积核302可以构成处理核202中的另一处理子层。

图2的学习网络122中的每个卷积层210可以包括一个或多个处理核202。在一些实现中，每个卷积层210中的多个处理核202中的两个卷积核301和302可以处于相同类型的连接。在另外一些实现中，对于每个卷积层210中的多个处理核202，它们所包括的卷积核301和302的连接类型可以不同。

在另外一些实现中，不同连接类型的卷积核301和302还可以在卷积层之间交织，也即学习网络122的不同卷积层210中的处理核202可以具有处于不同连接类型的卷积核301和302。通过在学习网络122中混合不同类型的处理核，可以增强学习网络122的结构多样性，从而提高特征提取的性能。

图4示出这样的混合学习网络122的示例。在该示例中，学习网络122的卷积层410-1包括具有如图3A所示的P3D-A类型的处理核，卷积层410-2包括具有如图3B所示的P3D-B类型的处理核，卷积层410-3包括具有如图3C所示的P3D-C类型的处理核，而卷积层410-4包括具有如图3A所示的P3D-A类型的处理核。具有P3D-A、P3D-B或P3D-C类型的处理核的其他卷积层也可以被设置在学习网络122中。应当理解，图4仅以示例的方式示出了混合学习网络122的结构。在其他实现中，两个或更多不同类型的处理核可以以其他混合方式被包括在学习网络122中。

基于处理核202的学习网络122可以利用各种训练数据来训练，以确定学习网络122中的参数，使得处理核202中的单元可以实现相应功能。例如，在一些实现中，可以以用于对象识别或动作识别相关的训练数据来训练学习网络122，因为对象或动作识别的结果也可以作为很多后续视频任务的基础。训练数据可以包括训练视频片段和指示相应训练片段中的对象或动作的信息。为了训练的目的，学习网络122还可以被扩展为包括结果输出(Softmax)层，用于基于提取的特征表示来识别对象或动作。在训练出用于特征提取的卷积层的参数后，可以丢弃所扩展的Softmax层。在一些实现中，还可以采用其他训练数据，例如指示视频内容的类别的信息、指示图像深度的信息等来训练学习网络122。

基于残差神经网络的扩展

以上示出了将常规CNN架构中的3D卷积核分解为空间2D卷积核和时间1D卷积核的示例实现。该常规CNN架构中，各个层处于级联结构中，每一层的输出是下一层的输入。在另外一些实现中，学习网络122还可以基于残差神经网络(ResNet)结构。在该结构中，在由一个层的相应卷积核处理输入后，该输入与卷积核的处理结果相组合来生成该层的输出。在该实现中，卷积核基于非线性残差函数来执行卷积处理。假设卷积层t的输入被表示为x_t，该层的输出被表示为x_t+1并且可以由以下公式获得：

x_t+1＝h(x_t)+F(x_t) (5)

其中F表示卷积层t中的总体处理操作，并且可以是非线性残差函数，h表示单位映射并且＝h(x_t)x_t。上述公式(5)还可以被重写为：

(I+F)·x_t＝x_t+F·x_t：＝x_t+F(x_t)＝x_t+1 (6)

其中I表示单位矩阵，F·x_t表示在x_t上执行残差函数的结果。残差神经网络的主要思想是参照卷积层的单位输入来学习加性残差函数F，这可以通过短路连接来实现，而不是直接学习无参照的非线性函数。

当前，残差神经网络主要被用于2D CNN。在本公开的一些实现中，由于3D卷积核被分解为空间2D卷积核和时间1D卷积核，该残差神经网络的架构也可以被采用。基于残差神经网络结构来设计学习网络122，使学习网络122更易于被训练。在这些实现中，图3A至3C中示出的处理核202还可以基于残差神经网络的结构而有所变化。图5A至图5C分别示出了图3A至图3C中的处理核202的另外的示例。

在图5A的示例中，卷积核301和302处于P3D-A表示的串联连接中，这两个卷积核中的处理与图3A中的处理类似。区别在于，在图5A的示例中，处理核202还包括组合器303，该组合器303将卷积核302输出的第二特征322与处理核202的输入310进行组合，以生成输出330。在该示例中，处理核202中的处理可以基于上述公式(2)和公式(6)而被表示为：

(I+T·S)·x_t:＝x_t+T(S(x_t))＝x_t+1 (7)

在图5B的示例中，卷积核301和302处于P3D-B表示的并联连接中，这两个卷积核中的处理与图3B中的处理类似。区别在于，在图5B的示例中，处理核202的组合器用于将卷积核301和302输出的第一特征320和第二特征322与输入310进行组合，以获得输出330。在该示例中，处理核202中的处理可以基于上述公式(3)和公式(6)而被表示为：

(I+S+T)·x_t:＝x_t+S(x_t)+T(x_t)＝x_t+1 (8)

在图5C的示例中，卷积核301和302处于P3D-C表示的并联连接中，这两个卷积核中的处理与图3C中的处理类似。区别在于，在图5B的示例中，处理核202的组合器用于将卷积核301和302输出的第一特征320和第二特征322与输入310进行组合，以获得输出330。在该示例中，处理核202中的处理可以基于上述公式(4)和公式(6)而被表示为：

(I+S+T·S)·x_t:＝x_t+S(x_t)+T(S(x_t))＝x_t+1 (9)

在一些实现中，图5A至图5C示出的处理核202也可以备选地或者与图3A至图3C示出的处理核202一起被包括在学习网络122的一个或多个卷积层210中。另外，基于残差神经网络架构的不同类型(P3D-A至P3D-C)也可以以交织的方式跨不同卷积层210进行混合。

在另外一些实现中，基于残差神经网络架构的处理核202还可以被修改为具有瓶颈设计。具体而言，处理核202的输入310的维度可以被降低，然后被提供给空间2D卷积核301和/或时间1D卷积核302进行处理。如以上提及的，输入310的维度至少可以基于提供310的前一层中的卷积核的数目、视频片段的帧170的信道数目和/或帧大小来确定。如果输入310是视频片段的帧170，那么维度可以由帧的信道数目来确定。基于卷积核302输出的第二特征(在一些情况下还基于卷积核302输出的第一特征)获得的输出的维度可以被增加，然后与输入310进行组合，以生成处理核202的输出330。第一特征或第二特征的维度也可以至少基于卷积核301或302之前的层的卷积核数目、信道数目和/或卷积核的输入的大小来确定。

图6A至图6C示出了具有瓶颈结构的处理核202的示例。图6A的示例基于图5A的处理核202的结构。然而，在图6A的示例中，处理核202还包括卷积子层601，该卷积子层601包括一个或多个1×1×1的卷积核，用于将输入310的维度从例如第一数目降低到第二数目，从而获得具有第二数目的维度的输入612。卷积子层601可以通过合并输入310中的不同特征图或者帧在不同信道中的数据，来降低输入310中的信道数目，从而降低输入310的维度。

具有第二数目的维度的输入612被提供给2D卷积核301，以空间维度中从输入612提取第一特征320。在串联关系中，卷积核302在时间维度中从第一特征320提取第二特征322。处理核202还包括卷积子层602，该卷积子层602包括多个1×1×1的卷积核，用于将第二特征322的维度从例如第三数目增加到第四数目，从而获得具有第四数目的维度的输出624。在一些实现中，输出624的维度可以被配置为与输出310相同。输出624与处理核202的输入310由组合器303进行组合，以生成处理核202的输出330。

在图6B的示例中，在图5B示出的结构的基础上，处理核202还包括卷积子层601和602，分别用于降低维度和增高维度。具体地，卷积子层601中的卷积核降低输入310的维度。由组合器303对第一特征320和第二特征322进行组合后得到的特征626被提供给卷积子层602。卷积子层602增加组合特征626的维度，以获得输出624。处理核202还包括另一组合器603，用于将输出624与处理核202的输入310进行组合，以生成处理核202的输出330。

在图6C的示例中，在图5C示出的结构的基础上，处理核202还包括卷积子层601和602，分别用于降低维度和增高维度。具体地，卷积子层601中的卷积核降低输入310的维度。由组合器303对第一特征320和第二特征322进行组合后得到的特征626被提供给卷积子层602。卷积子层602增加组合特征626的维度，以获得输出624。处理核202还包括另一组合器603，用于将输出624与处理核202的输入310进行组合，以生成处理核202的输出330。

在图6A至图6C示出的基于瓶颈结构的处理核示例中，通过降低输入的维度，使得卷积核301和302在训练过程中更容易被学习，并且在使用过程中更有效地进行处理。

以上结合图5A至图5C以及图6A至图6C描述的处理核202也可以与图3A至图3C中的处理核202类似的被采用到学习网络122中。此外，如以上关于图3A至图3C所描述的，基于卷积核301和302之间的直接或间接影响以及它们的输出对处理核202的输出的直接或间接影响，卷积核301和302还可以存在其他连接结构变形。这些变形也可以被相应地应用到与图5A至图5C以及图6A至图6C描述的类似实施例中。本公开的范围在此方面不受限制。

以上描述了根据本公开的一些实现的P3D处理核，通过采用这样的处理核，实现了在获得视频片段的空-时特征表示的同时，还可以降低学习网络的复杂度，从而使得学习网络的训练和使用占用更少的处理和存储资源。而且，在同样效率的情况下，学习网络可以被设计得更深(例如，包括更多卷积层)，从而能够获得更准确的特征表示。通过分析已经发现，在相同维度的情况下，基于P3D处理核获得的特征表示相较于常规方案获得的特征表示更准确。

对于处理核中的空间2D卷积核而言，还可以直接采样已有的2DCNN网络的预训练策略，从而提高训练效率。此外，根据本公开的实现的学习网络所提取的特征表示能够被用作通用特征表示，可以作为对输入视频片段的后续不同处理任务的基础。也就是说，根据本公开的实现的学习网络可以在各种视频处理任务中被用作视频片段的空-时特征表示提取器。这种通用性可以特别通过在学习网络中混合不同类型的处理核来提高。

在一些实现中，对于已训练用于通用特征提取的学习网络，为了实现具体的视频处理任务，还可以采用与具体任务有关的训练数据来精细调整该学习网络的参数，从而使得提取的特征表示更适合于相应任务的完成。精细调整相比于训练全新的专用学习网络的过程而言往往耗时更少、效率更高。

示例过程

图7示出了根据本公开一些实现的用于特征提取的过程700的流程图。过程700可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的学习网络模块122处。在710，在学习网络的第一层处接收输入。该输入包括多个图像。在720，利用第一层的第一单元在空间维度中从输入提取多个图像的第一特征。第一特征表征多个图像的空间呈现。在730，基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元在时间维度中从第一特征和输入中的至少一个提取多个图像的第二特征。第二特征至少表征跨多个图像的时间变化。在740，至少部分地基于第二特征来生成多个图像的空-时特征表示。

在一些实现中，多个图像是由学习网络的第二层处理过的图像。

在一些实现中，第一单元与第二单元之间的连接的类型选自包括以下的组：第一串联连接，在第一串联连接中第二单元至少从第一特征提取第二特征；第二串联连接，在第二串联连接中第二单元至少从输入提取第二特征；以及并联连接，在并联连接中第二单元从输入提取第二特征。

在一些实现中，生成空-时特征表示包括：响应于连接的类型是第二串联连接或并联连接，通过组合第一特征和第二特征来生成空-时特征表示。

在一些实现中，生成空-时特征表示还包括：还基于输入来生成空-时特征表示。

在一些实现中，输入具有第一数目的维度，并且从输入提取第一特征包括：将输入的维度从第一数目降低到第二数目；以及利用第一单元从具有第二数目的维度的输入提取第一特征。

在一些实现中，第二特征具有第三数目的维度，并且生成空-时特征表示还包括：将第二特征的维度从第三数目增加到第四数目；以及至少部分地基于具有第四数目的维度的第二特征来生成空-时特征表示。

在一些实现中，生成空-时特征表示还包括：至少部分地基于第二特征，生成第一层的第一中间特征表示；以及利用学习网络的第三层的第三单元，在空间维度中从第一中间特征提取多个图像的第三特征，第三特征表征多个图像的空间呈现；基于第三单元与第三层中的第四单元之间的连接的类型，利用第四单元，在时间维度中从第三特征或第一中间特征表示提取多个图像的第四特征，第四特征至少表征跨多个图像的时间变化，第三单元与第四单元之间的连接的类型不同于第一单元与第二单元之间的连接的类型；以及至少部分地基于第四特征来生成空-时特征表示。

在一些实现中，第一单元和第二单元中的至少一个单元包括卷积滤波器。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种由计算机实现的方法，包括：在学习网络的第一层处接收输入，输入包括多个图像；利用第一层的第一单元，在空间维度中从输入提取多个图像的第一特征，第一特征表征多个图像的空间呈现；基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元，在时间维度中从第一特征和输入中的至少一个提取多个图像的第二特征，第二特征至少表征跨多个图像的时间变化；以及至少部分地基于第二特征来生成多个图像的空-时特征表示。

在又一方面，本公开提供了一种设备，包括：处理单元；以及存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行动作，动作包括：在学习网络的第一层处接收输入，输入包括多个图像；利用第一层的第一单元，在空间维度中从输入提取多个图像的第一特征，第一特征表征多个图像的空间呈现；基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元，在时间维度中从第一特征和输入第一特征和输入中的至少一个提取多个图像的第二特征，第二特征至少表征跨多个图像的时间变化；以及至少部分地基于第二特征来生成多个图像的空-时特征表示。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被存储在计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备：在学习网络的第一层处接收输入，输入包括多个图像；利用第一层的第一单元，在空间维度中从输入提取多个图像的第一特征，第一特征表征多个图像的空间呈现；基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元，在时间维度中从第一特征和输入中的至少一个提取多个图像的第二特征，第二特征至少表征跨多个图像的时间变化；以及至少部分地基于第二特征来生成多个图像的空-时特征表示。在一些示例中，计算机程序产品被有形地存储在非瞬态计算机存储介质中。

在又一方面，本公开提供了一种计算机可读介质，其上存储有计算机可执行指令，计算机可执行指令在由设备执行时使设备执行以上方面中的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种由计算机实现的方法，包括：

在学习网络的第一层处接收输入，所述输入包括多个图像；

利用所述第一层的第一单元，在空间维度中从所述输入提取所述多个图像的第一特征，所述第一特征表征所述多个图像的空间呈现；

从一组类型中选择所述第一单元与所述第一层中的第二单元之间的连接的类型，所述一组类型包括第一串联连接类型、第二串联连接类型、并联连接类型；

在时间维度中从所述第一特征和所述输入中的至少一个提取所述多个图像的第二特征，所述第二特征至少表征跨所述多个图像的时间变化，所述第二单元提取所述第二特征，并且提取所述第二特征包括：

如果确定所述连接的类型是所述第一串联连接类型，至少从所述第一特征提取所述第二特征；

如果确定所述连接的类型是所述第二串联连接类型，至少从所述输入提取所述第二特征；以及

如果确定所述连接的类型是所述并联连接类型，从所述输入提取所述第二特征；以及

至少部分地基于所述第二特征来生成所述多个图像的空-时特征表示。

2.根据权利要求1所述的方法，其中所述多个图像是由所述学习网络的第二层处理过的图像。

3.根据权利要求1所述的方法，其中生成所述空-时特征表示包括：

响应于所述连接的类型是所述第二串联连接类型的第二串联连接或所述并联连接类型的并联连接，通过组合所述第一特征和所述第二特征来生成所述空-时特征表示。

4.根据权利要求1所述的方法，其中生成所述空-时特征表示还包括：

还基于所述输入来生成所述空-时特征表示。

5.根据权利要求1所述的方法，其中所述输入具有第一数目的维度，并且从所述输入提取所述第一特征包括：

将所述输入的维度从所述第一数目降低到第二数目；以及

利用所述第一单元从具有所述第二数目的维度的所述输入提取所述第一特征。

6.根据权利要求5所述的方法，其中所述第二特征具有第三数目的维度，并且生成所述空-时特征表示还包括：

将所述第二特征的维度从所述第三数目增加到第四数目；以及

至少部分地基于具有所述第四数目的维度的所述第二特征来生成所述空-时特征表示。

7.根据权利要求1所述的方法，其中生成所述空-时特征表示还包括：

至少部分地基于所述第二特征，生成所述第一层的第一中间特征表示；以及

利用所述学习网络的第三层的第三单元，在空间维度中从所述第一中间特征提取所述多个图像的第三特征，所述第三特征表征所述多个图像的空间呈现；

基于所述第三单元与所述第三层中的第四单元之间的连接的类型，利用所述第四单元，在时间维度中从所述第三特征或所述第一中间特征表示提取所述多个图像的第四特征，第四特征至少表征跨所述多个图像的时间变化，所述第三单元与所述第四单元之间的连接的类型不同于所述第一单元与所述第二单元之间的连接的类型；以及

至少部分地基于所述第四特征来生成所述空-时特征表示。

8.根据权利要求1所述的方法，其中所述第一单元和所述第二单元中的至少一个单元包括卷积滤波器。

9.一种设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行动作，所述动作包括：

在学习网络的第一层处接收输入，所述输入包括多个图像；

10.根据权利要求9所述的设备，其中所述多个图像是由所述学习网络的第二层处理过的图像。

11.根据权利要求9所述的设备，其中生成所述空-时特征表示包括：

12.根据权利要求9所述的设备，其中生成所述空-时特征表示还包括：

还基于所述输入来生成所述空-时特征表示。

13.根据权利要求9所述的设备，其中所述输入具有第一数目的维度，并且从所述输入提取所述第一特征包括：

将所述输入的维度从所述第一数目降低到第二数目；以及

14.根据权利要求13所述的设备，其中所述第二特征具有第三数目的维度，并且生成所述空-时特征表示还包括：

15.根据权利要求9所述的设备，其中生成所述空-时特征表示还包括：

至少部分地基于所述第四特征来生成所述空-时特征表示。

16.根据权利要求9所述的设备，其中所述第一单元和所述第二单元中的至少一个单元包括卷积滤波器。

17.一种计算机可读存储介质，存储有机器可执行指令，所述机器可执行指令在由设备执行时使所述设备：

在学习网络的第一层处接收输入，所述输入包括多个图像；

18.根据权利要求17所述的计算机可读存储介质，其中用于生成所述空-时特征表示的所述机器可执行指令还包括指令，所述指令在由所述设备执行时，使得所述设备：