CN111314759B

CN111314759B - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN111314759B
Application number: CN202010137626.2A
Authority: CN
Inventors: 毕思远; 江宁; 刘莹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2021-08-10
Anticipated expiration: 2040-03-02
Also published as: CN111314759A

Abstract

本申请公开了一种视频处理方法、装置、电子设备及存储介质，涉及计算机视觉技术，利用计算机视觉技术进行目标对象识别，进而实现视频处理，所述方法包括：播放目标视频，目标视频中包含至少一个目标对象；获取在视频播放界面上输入的操作轨迹；若确定操作轨迹与预设操作轨迹一致，则在视频播放界面上显示操作轨迹针对的目标对象所关联的多媒体内容。本申请实施例提供的视频处理方法、装置、电子设备及存储介质，使得用户能够在观看视频时便捷高效地获取到视频中某个对象的相关内容。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，人们日益喜欢通过网络看剧或看电影。当用户对视频中出现的人物或物品等感兴趣时，需要离开视频播放页面，通过浏览器等相关应用手动检索其感兴趣的内容，待浏览完检索到的内容后，再返回视频播放页面继续观看，操作繁琐且会中断用户观看视频，尤其是在智能手机等无法同时显示多个页面的移动终端，极大地降低了用户体验。

发明内容

本申请实施例提供一种视频处理方法、装置、电子设备及存储介质，使得用户能够在观看视频时便捷高效地获取到视频中某个对象的相关内容，提高了操作便捷性。

一方面，本申请一实施例提供了一种视频处理方法，包括：

播放目标视频，所述目标视频中包含至少一个目标对象；

获取在视频播放界面上输入的操作轨迹；

若确定所述操作轨迹与预设操作轨迹一致，则在所述视频播放界面上显示所述操作轨迹针对的目标对象所关联的多媒体内容。

可选地，所述确定所述目标视频的播放时间处于可触发时间段时，所述方法还包括：

在所述视频播放界面上的设定提示区域，显示所述预设操作轨迹的模拟输入方式。

可选地，所述方法还包括：

响应轨迹设定操作，显示轨迹设定界面；

将在所述轨迹设定界面输入的操作轨迹确定为所述预设操作轨迹，或者将从所述轨迹设定界面显示的多个操作轨迹中选择的操作轨迹确定为所述预设操作轨迹。

可选地，本申请实施例的视频处理方法还包括：

根据所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定所述操作轨迹对应的目标多媒体内容类型，其中，预先为每个多媒体内容类型配置对应的预设操作轨迹；

所述获取对应的目标区域内包含的目标对象所关联的多媒体内容，具体包括：

获取对应的目标区域内包含的目标对象所关联的、且属于所述目标多媒体内容类型的多媒体内容。

可选地，本申请实施例的视频处理方法还包括：

根据所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定所述操作轨迹对应的展示模式，其中，预先为每个展示模式配置对应的预设操作轨迹；

所述在所述视频播放界面上显示所述操作轨迹针对的目标对象所关联的多媒体内容，具体包括：

根据所述操作轨迹对应的展示模式，在所述视频播放界面上显示所述预设操作轨迹针对的目标对象所关联的多媒体内容。

一方面，本申请一实施例提供了一种视频处理方法，包括：

接收终端设备发送的识别请求，所述识别请求包括待识别图像，所述待识别图像为在所述终端设备的视频播放界面上输入的操作轨迹在播放的视频画面中对应的目标区域；

确定所述待识别图像内包含的目标对象；

获取所述目标对象关联的多媒体内容，并发送给所述终端设备。

一方面，本申请一实施例提供了一种视频处理装置，包括：

播放控制模块，用于播放目标视频，所述目标视频中包含至少一个目标对象；

操作响应模块，用于获取在视频播放界面上输入的操作轨迹，若确定所述操作轨迹与预设操作轨迹一致，则在所述视频播放界面上显示所述操作轨迹针对的目标对象所关联的多媒体内容。

可选地，所述操作响应模块，具体用于：

监测到在所述视频播放界面上输入操作轨迹的事件时，获取输入所述操作轨迹过程中所述视频播放界面上播放的至少一个视频画面；

确定所述操作轨迹在每个视频画面中对应的目标区域；

获取对应的目标区域内包含的目标对象所关联的多媒体内容；

在所述视频播放界面上显示所述获取的多媒体内容。

可选地，所述操作响应模块，具体用于：

获取所述目标区域内包含的目标对象所关联的多媒体内容列表并显示；

响应在所述多媒体内容列表中选择多媒体内容的操作，获取被选中的多媒体内容。

可选地，当所述被选中的多媒体内容包括分机位视频时，所述操作响应模块，具体用于：

在所述视频播放界面中播放所述目标视频时，在所述视频播放界面的设定显示区域，播放所述分机位视频，其中，所述分机位视频中包括所述目标对象，所述分机位视频与所述目标视频的拍摄场景相同但拍摄视角不同。

可选地，所述操作响应模块，还用于在监测到在所述视频播放界面上输入操作轨迹的事件时，降低所述目标视频的播放速度。

可选地，所述视频处理装置还包括检测模块，用于在所述操作响应模块执行之前，确定所述目标视频的播放时间处于可触发时间段，并使能所述操作响应模块。

可选地，所述操作响应模块，还用于响应在所述视频播放界面上输入的多媒体内容变更操作，获取所述目标视频包含的其他目标对象关联的多媒体内容。

可选地，所述视频处理装置还包括提示模块，用于在确定所述目标视频的播放时间处于可触发时间段时，在所述视频播放界面上的设定提示区域，显示所述预设操作轨迹的模拟输入方式。

可选地，所述视频处理装置还包括设置模块，用于：

响应轨迹设定操作，显示轨迹设定界面；

可选地，所述操作响应模块，还用于根据所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定所述操作轨迹对应的目标多媒体内容类型，其中，预先为每个多媒体内容类型配置对应的预设操作轨迹；

所述操作响应模块，具体用于获取对应的目标区域内包含的目标对象所关联的、且属于所述目标多媒体内容类型的多媒体内容。

可选地，所述操作响应模块，还用于根据所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定所述操作轨迹对应的展示模式，其中，预先为每个展示模式配置对应的预设操作轨迹；

所述操作响应模块，具体用于根据所述操作轨迹对应的展示模式，在所述视频播放界面上显示所述预设操作轨迹针对的目标对象所关联的多媒体内容。

一方面，本申请一实施例提供了一种视频处理装置，包括：

接收模块，用于接收终端设备发送的识别请求，所述识别请求包括待识别图像，所述待识别图像为在所述终端设备的视频播放界面上输入的操作轨迹在播放的视频画面中对应的目标区域；

对象识别模块，用于确定所述待识别图像内包含的目标对象；

内容获取模块，用于获取所述目标对象关联的多媒体内容；

发送模块，用于将获取的多媒体内容发送给所述终端设备。

可选地，所述内容获取模块，具体用于获取所述目标对象所关联的多媒体内容列表；

所述发送模块，具体用于将获取的多媒体内容列表发送给所述终端设备；

所述接收模块，具体用于接收所述终端设备发送的多媒体内容获取请求，所述多媒体内容获取请求包括从所述多媒体内容列表中选择的多媒体内容的内容标识；

所述内容获取模块，具体用于获取所述内容标识对应的多媒体内容；

所述发送模块，具体用于将获取的所述内容标识对应的多媒体内容发送给所述终端设备。

可选地，所述识别请求还包括所述操作轨迹对应的多媒体内容类型；

所述内容获取模块，具体用于获取所述目标对象关联的、且属于所述识别请求中的多媒体内容类型的多媒体内容。

可选地，当多媒体内容包括分机位视频时，所述识别请求还包括所述终端设备播放的目标视频的视频标识和播放时间；

所述内容获取模块，具体用于：

从所述视频标识对应的目标视频关联的分机位视频中，获取包含所述目标对象、且对应的关联时间段中包含所述播放时间的分机位视频，其中，所述目标视频关联至少一个分机位视频，各个分机位视频包括至少一个目标对象，各个分机位视频与所述目标视频的拍摄场景相同但拍摄视角不同，各个分机位视频的关联时间段为：根据分机位视频的拍摄时间确定的、分机位视频在所述目标视频的播放时间轴上所对应的时间段；

将获取的分机位视频确定为所述目标对象关联的分机位视频。

一方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一种方法的步骤。

基于本申请实施例提供的视频处理方法、装置、电子设备及存储介质，当用户对其观看的目标视频中的某一人物或物品等目标对象感兴趣时，可在视频播放界面上该目标对象呈现的区域输入操作轨迹，终端设备在监测到用户输入的操作轨迹为预设操作轨迹后，获取该操作轨迹对应的区域内的目标对象，然后在视频播放界面上显示该目标对象所关联的多媒体内容。这样，在观看视频过程中，用户可随时通过输入预设操作轨迹圈出视频中的任一目标对象，并在视频播放界面上显示该目标对象关联的多媒体内容，使得用户能够在观看视频时便捷高效地获取到视频中任一目标对象的相关内容，在快速检索到相关内容的同时避免了视频播放的中断，提高了用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频处理方法的应用场景示意图；

图2为本申请一实施例提供的视频处理方法的流程示意图；

图3为本申请一实施例提供的终端设备响应预设操作轨迹显示目标对象关联的多媒体内容的界面示意图；

图4为本申请一实施例提供的终端设备响应预设操作轨迹显示目标对象关联的多媒体内容的流程示意图；

图5A为本申请一实施例提供的在视频播放界面上叠加展示多媒体内容的界面示意图；

图5B为本申请一实施例提供的在视频播放界面上分区域多媒体内容的界面示意图；

图6为本申请一实施例提供的主机位视频和多个分机位视频之间在播放时间上的对应关系的示意图；

图7为本申请一实施例提供的通过多媒体内容列表展示多种多媒体内容的界面示意图；

图8为本申请一实施例提供的在设定提示区域中显示预设操作轨迹的模拟输入方式的示意图；

图9为本申请一实施例提供的通过多媒体内容变更操作获取其他目标对象的多媒体内容的操作示意图；

图10为本申请一实施例提供的轨迹设定界面的一个示意图；

图11为本申请一实施例提供的视频处理方法的流程示意图；

图12为本申请一实施例提供的视频处理方法的流程示意图；

图13为本申请一实施例提供的视频处理装置的结构示意图；

图14为本申请一实施例提供的视频处理装置的结构示意图；

图15为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

操作轨迹：是用户通过操控输入设备在终端设备的屏幕上输入的连续的轨迹。例如，输入设备可以是触摸屏、手写板等可触控设备，用户通过手指或触控笔在可触控设备上滑动，从而输入特殊的操作轨迹，终端设备识别输入的操作轨迹的形状并执行该操作轨迹对应的功能；输入设备还可以是鼠标，用户可通过滑动鼠标输入操作轨迹。操作轨迹可以是圆形、矩形、三角形、心形等各种形状，本申请实施例不作限定。

目标对象：是指视频中出现的物品或人物。

多媒体内容：是指多种媒体的综合，一般包括文本、音频、图像、视频、动画特效等多种媒体形式。

主机位视频：即发布在各个视频网站上的、用户可点击观看的视频。

分机位视频：是与主机位视频的拍摄场景相同但拍摄视角不同的视频。一个主机位视频可关联多个分机位视频。

客户端(Client)或称为用户端，是指与服务器相对应，为客户提供本地服务的程序。除了一些只在本地运行的应用程序之外，一般安装在普通的客户机上，需要与服务端互相配合运行。因特网发展以后，较常用的用户端包括了如万维网使用的网页浏览器，收寄电子邮件时的电子邮件客户端，以及即时通讯的客户端软件等。对于这一类应用程序，需要网络中有相应的服务器和服务程序来提供相应的服务，如数据库服务，电子邮件服务等等，这样在客户机和服务器端，需要建立特定的通信连接，来保证应用程序的正常运行。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，当用户对视频中出现的人物或物品等感兴趣时，需要离开视频播放页面，通过浏览器等相关应用程序手动检索其感兴趣的内容，待浏览完检索到的内容后，再返回视频播放页面继续观看，操作繁琐且会中断用户观看视频，尤其是在智能手机等无法同时显示多个页面的移动终端，极大地降低了用户体验。虽然，一些视频客户端会根据用户的观看记录或喜好，向用户推荐相关的视频内容，例如，当用户在观看电影A时，视频客户端会在推荐列表中显示与电影A同类型的电影或者电影A中的演员参演的其他电影或剧集，但仅仅推荐上述内容显然已经无法满足用户的需求，当视频中出现的一些人物或物品不再上述推荐列表中时，用户依然需要手动检索。

为此，本申请提供了一种视频处理方法，具体包括如下步骤：播放目标视频，目标视频中包含至少一个目标对象；获取在视频播放界面上输入的操作轨迹；若确定操作轨迹与预设操作轨迹一致，则在视频播放界面上显示操作轨迹针对的目标对象所关联的多媒体内容。当用户对其观看的目标视频中的某一人物或物品等目标对象感兴趣时，可在视频播放界面上该目标对象呈现的区域输入操作轨迹，终端设备在监测到用户输入的操作轨迹的事件后，将输入的操作轨迹与预设操作轨迹进行比对，若确定操作轨迹与预设操作轨迹一致，则获取该操作轨迹对应的区域内的目标对象，然后在视频播放界面上显示该目标对象所关联的多媒体内容。这样，在观看视频过程中，用户可随时通过输入预设操作轨迹圈出视频中的任一目标对象，并在视频播放界面上显示该目标对象关联的多媒体内容，使得用户能够在观看视频时便捷高效地获取到视频中任一目标对象的相关内容，在快速检索到相关内容的同时避免了视频播放的中断，提高了用户体验。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

参考图1，其为本申请实施例提供的视频处理方法的应用场景示意图。该应用场景包括终端设备101(包括终端设备101-1、终端设备101-2、……终端设备101-n)、后台服务器102和数据存储服务器103。其中，终端设备101、后台服务器102和数据存储服务器103之间通过无线或有线网络连接。终端设备101可以安装各类客户端，并且能够将已安装的客户端中提供的对象进行显示的设备，终端设备101包括但不限于桌面计算机、智能手机、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备等电子设备。后台服务器102和数据存储服务器103均可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。当然，图1所示的后台服务器102和数据存储服务器103也可以布设在同一个服务器或服务器集群中。

后台服务器102用于提供视频播放、视频直播等视频类相关服务，数据存储服务器103用于存储视频以及视频相关的多媒体内容，多媒体内容的类型包括但不限于视频、图片、音频、文本、动画特效等。终端设备101中安装的客户端可以是浏览器客户端、视频应用客户端等，由后台服务器102提供视频播放服务。用户可以通过终端设备101内安装的客户端来访问后台服务器102，从而使用多后台服务器102所提供的多媒体服务。例如，该终端设备101可以通过视频应用客户端来访问后台服务器102，还可以通过浏览器客户端来访问后台服务器102的门户网站。在使用后台服务器102所提供的视频类相关服务过程中，用户还可以在观看视频的过程中发布评论、弹幕等内容，进行互动。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案进行说明。

参考图2，本申请实施例提供一种视频处理方法，可应用于图1所示的终端设备101，具体包括以下步骤：

S201、播放目标视频，目标视频中包含至少一个目标对象。

具体实施时，用户可打开终端设备上的客户端，选择需要观看的目标视频，终端设备向后台服务器发送获取目标视频的请求，后台服务器将目标视频发送给终端设备，以使终端设备播放目标视频。或者，用户可从终端设备存储的视频中选择需要观看的目标视频，并通过终端设备上安装的客户端播放目标视频。

其中，目标对象可以是视频中出现的物品或人，如视频中的演员MARY、汽车等。

S202、获取在视频播放界面上输入的操作轨迹。

S203、判断获取的操作轨迹与预设操作轨迹是否一致；若确定该操作轨迹与预设操作轨迹一致，则执行步骤S204，否则等待下一次输入操作轨迹的事件。

具体实施时，终端设备可识别用户输入的操作轨迹的形状，将用户输入的操作轨迹的形状与预设操作轨迹的形状进行比对，若用户输入的操作轨迹的形状与预设操作轨迹的形状匹配，则可以确定用户输入的操作轨迹为预设操作轨迹，终端设备执行步骤S204；若用户输入的操作轨迹的形状与预设操作轨迹的形状不匹配，则不执行步骤S204，等待下一次输入操作轨迹的事件。其中，终端设备可通过现有的任意一种轨迹识别方法识别用户输入的操作轨迹的形状，不再赘述。

本申请实施例中的预设操作轨迹的形状不限于圆形、矩形、三角形、心形等。其中，预设操作轨迹的形状可以是客户端预设配置好的，也可以由用户通过客户端自定义设置预设操作轨迹的形状。

S204、在视频播放界面上显示操作轨迹针对的目标对象所关联的多媒体内容。

具体实施时，可根据输入的操作轨迹在视频播放界面中对应的轨迹坐标、以及在输入操作轨迹时视频播放界面中播放的视频画面，确定输入的操作轨迹在视频画面中对应的区域，对该区域内的图像进行图像识别处理，识别图像中包含的目标对象，以确定输入的操作轨迹所针对的目标对象。本申请实施例对采用的图像识别方法不作限定，例如可以使用基于训练深度学习网络获得的图像识别模型，从视频画面中识别出目标对象。

实际应用中，用户可根据目标对象在视频播放界面中的大小，调整输入的操作轨迹的大小，以保证操作轨迹对应的区域内只有一个目标对象，且基于区域内的图像能准确识别出目标对象。例如，目标对象为人，则用户输入的操作轨迹圈定的区域应当覆盖目标对象的人脸区域，目标对象为包，则用户输入的操作轨迹圈定的区域应当覆盖包所在区域。本申请实施例中，通过用户输入的操作轨迹圈定目标对象，使得用户可自主选择需要展示多媒体内容的目标对象，尤其是，当视频画面中同时出现多个目标对象时，用户可通过预设操作轨迹仅圈定出其感兴趣的一个目标对象，进而仅获取该目标对象关联的多媒体内容，提高用户选取目标对象时的自主性和便捷性。

具体实施时，可预先配置好每个目标对象所关联的多媒体内容，可由后台服务器自动从网络上抓取目标对象的相关信息，对抓取信息进行清洗、分类等处理后，与目标对象关联存储到数据存储服务器中，以便在需要时，向终端设备提供目标对象所关联的多媒体内容。

参考图3，以智能手机为例，当用户想查看正在播放的目标视频中的目标对象301的相关信息时，可通过智能手机的触摸屏在视频播放界面30上该目标对象呈现的区域输入操作轨迹302，智能手机在监测到用户输入的操作轨迹302后，判断输入的操作轨迹302是否与预设操作轨迹一致，若一致，则确定操作轨迹302对应的区域内包含的目标对象301，然后在视频播放界面30上显示该目标对象301所关联的多媒体内容303。这样，在观看视频过程中，用户可随时通过输入预设操作轨迹圈出视频中的任一目标对象，并在视频播放界面上显示该目标对象关联的多媒体内容，使得用户能够在观看视频时便捷高效地获取到视频中任一目标对象的相关内容，在快速检索到相关内容的同时避免了视频播放的中断，提高了用户体验。

参考图4，在一种可能的实施方式中，步骤S204具体包括如下步骤：

S401、监测到在视频播放界面上输入操作轨迹的事件时，获取输入操作轨迹过程中视频播放界面上播放的至少一个视频画面。

具体实施时，终端设备在监测到在视频播放界面上输入操作轨迹的事件时，可以在输入操作轨迹过程中对视频播放界面进行至少一次截屏操作，从而获取到输入操作轨迹过程中视频播放界面上播放的至少一个视频画面，在确定输入的操作轨迹与预设操作轨迹后，再基于截取的视频画面确定该操作轨迹对应的目标区域。具体地，终端设备可在监测到输入操作轨迹的起始点时进行截屏操作，也可在监测到输入操作轨迹的终点时进行截屏操作，还可以在输入操作轨迹过程中的任一时刻进行截屏操作。

具体实施时，终端设备可记录下输入操作轨迹时视频播放界面上的播放时间轴所显示的播放时间，然后在确定输入的操作轨迹为预设操作轨迹后，从目标视频中获取该播放时间内对应的至少一个视频帧，作为获取的视频画面。例如，输入操作轨迹时，视频播放界面上的播放时间轴显示的是1分20秒，则从目标视频中1分20秒时的多个视频帧中获取至少一个视频帧作为获取的视频画面。当输入的操作轨迹所花费的时间较长时，记录的播放时间可能时一个时间段，如1分20秒-1分21秒，则从目标视频中1分20秒-1分21秒这个时间段内的多个视频帧中获取至少一个视频帧作为获取的视频画面。为了提高识别目标对象的准确率，可以选择清晰度较高的视频帧作为步骤S402中用于确定目标区域的视频画面。

S402、确定输入的操作轨迹在每个视频画面中对应的目标区域。

具体实施时，终端设备可根据输入的操作轨迹在显示屏上的轨迹坐标、视频播放界面在显示屏中相对位置、以及播放的视频画面在视频播放界面中的相对位置，确定该操作轨迹在视频画面中对应的目标区域。当采用全屏播放时，即视频画面充满整个显示屏，此时，操作轨迹在显示屏上的轨迹坐标即为操作轨迹在视频画面中的轨迹坐标。参考图3，操作轨迹302所圈定的内部区域即为目标区域。

S403、获取对应的目标区域内包含的目标对象所关联的多媒体内容。

具体实施时，可从获取的多个视频画面中，选择清晰度较高的一个视频画面，基于该视频画面对应的目标区域进行图像识别处理，确定目标区域内包含的目标对象，以提高目标对象的识别准确度。

具体实施时，也可以对多个视频画面分别对应的目标区域进行图像识别处理，基于多个图像识别结果，确定目标区域内包含的目标对象，以提高目标对象的识别准确度。例如，一共对6个视频画面进行图像识别处理，其中5个图像识别结果为人物A，1个图像识别结果为人物B，则确定目标区域内包含的目标对象为人物A。

在一种可能的实施方式中，终端设备将通过步骤S402确定的至少一个目标区域对应的待识别图像发送给后台服务器。后台服务器对每个待识别图像进行图像识别处理，获得目标区域内包含的目标对象，并从数据存储服务器中获取该目标对象所关联的多媒体内容，将该目标对象所关联的多媒体内容发送给终端设备。终端设备在视频播放界面上显示获取的多媒体内容。

在另一种可能的实施方式中，步骤S403具体包括：获取目标区域内包含的目标对象所关联的多媒体内容列表并显示；响应在多媒体内容列表中选择多媒体内容的操作，获取被选中的多媒体内容。

具体地，终端设备将通过步骤S402确定的至少一个目标区域对应的待识别图像发送给后台服务器。后台服务器对每个待识别图像进行图像识别处理，获得目标区域内包含的目标对象，并从数据存储服务器中获取该目标对象所关联的多媒体内容列表，该多媒体内容列表中包含与该目标对象所关联的多个多媒体内容，后台服务器将多媒体内容列表发送给终端设备。终端设备获取后台服务器发送的多媒体内容列表并显示，响应在多媒体内容列表中选择多媒体内容的操作，向后台服务器发送多媒体内容获取请求，该多媒体内容获取请求包括从多媒体内容列表中选择的多媒体内容的内容标识。后台服务器获取多媒体内容获取请求中的内容标识对应的多媒体内容，并发送给终端设备。终端设备接收获取后台服务器返回的多媒体内容，并在视频播放界面上显示。

当目标对象关联了多个多媒体内容时，可通过多媒体内容列表向用户展示这多个多媒体内容，以便用户从多媒体内容列表选择其需要查看的多媒体内容。当然，当目标对象关联的多媒体内容的数量有限时，例如仅关联了2～5个多媒体内容，也可以按预设顺序，依次展示关联的多个多媒体内容。

具体实施时，在执行步骤S401-S402的过程中可能存在等待的时间，此时视频播界面上可显示正在识别目标对象的提示信息，以提示用户已经响应其输入的轨迹操作。

S404、在视频播放界面上显示获取的多媒体内容。

具体实施时，在视频播放界面中播放目标视频时，在视频播放界面的设定显示区域显示获取的多媒体内容，即在视频播放界面中同时显示目标视频和获取的目标对象关联的多媒体内容，这样用户可边观看目标视频边获取到目标对象的相关信息。

通过图4所示的方式，在观看视频过程中，当用户对视频中的某个目标对象感兴趣时，只需要在视频播放界面上出现该目标对象的区域输入与预设操作轨迹一致的操作轨迹，终端设备就可以获取到该操作轨迹在视频画面中圈定的目标对象所在的目标区域，基于目标区域对应的画面识别出该目标对象，并在视频播放界面上显示该目标对象关联的多媒体内容。为此，用户只需要在视频播放界面上显示的目标对象所在区域上输入预设操作轨迹，终端设备即可快速识别出用户感兴趣的目标对象，操作简单且无需中断视频播放，提高了用户体验。

图5A为一种可能的显示多媒体内容的方式。图5A中，设定显示区域503可以是在视频播放界面上501增加一个的弹窗或浮层，其中，设定显示区域503仅覆盖部分视频播放界面501。此时用户选中的目标对象为包502，则可以获取包502关联的多媒体内容，在设定显示区域503内显示包502关联的多媒体内容，具体显示的多媒体内容可包括：包502的品牌、型号、价格、以及包502的正面和背面的图片，这样用户就可以快速获知该包502的相关信息。

进一步地，用户可调节设定显示区域的大小以及在视频播放界面中的位置，以将设定显示区域调整到符合该用户观看习惯的方位。例如，设定显示区域可以是在视频播放界面中靠左或靠右的位置。当然，用户也可以随时移动设定显示区域在视频播放界面中的位置，这样，在设定显示区域遮挡住用户关注的区域时，用户可随时调整设定显示区域。

图5B为另一种可能的显示多媒体内容的方式。图5B中，将视频播放界面501划分成第一区域504和第二区域505，在第一区域504中播放目标视频，在第二区域505中显示获取的多媒体内容，即第二区域505为设定显示区域。本申请实施例对具体的划分方式不作限定。其中，第一区域504和第二区域505各自在视频播放界面501中所占的比例以及所处的位置，以及第一区域504和第二区域505的排布方式，均可预先配置好或者由用户自行设定，本申请实施例不作限定。图5B的展示方式保证目标视频和多媒体内容不会相互遮挡，提高了观看体验。

当多媒体内容较多时，可对多媒体内容进行分类展示，以方便用户查看。多媒体内容的分类方式可根据实际应用需求确定。例如，可将多媒体内容分为以下几种类型：文本类、图片类、视频类、音频类。或者，可将多媒体内容划分为以下几种类型：分机位视频、细节追踪视频、目标对象的相关信息和特效道具等。

其中，目标对象的相关信息可以包括：目标对象的简介、照片、作品(例如电影、电视剧、音频、书籍、广告等)等。

其中，目标视频的分机位视频是与目标视频的拍摄场景相同但拍摄视角不同的视频。具体来说，在拍摄同一个节目时，可通过多个不同机位的摄像机同时拍摄，例如，一号摄像机拍摄包含所有人员的全景，二号摄像机拍摄人员A的特写，三号摄像机拍摄人员不同机位的画面，在剪辑出一个主视频后，还可以基于其他机位拍摄的内容剪辑出多个分机位视频，以同时展现同一时间同一场景中不同人员的特写画面，或从不同角度展现同一物品或人员等。每个主机位视频关联至少一个分机位视频，各个分机位视频包括至少一个目标对象。工作人员还需要将各个分机位视频的播放时间与主机位视频的播放时间轴进行关联，具体地，可根据分机位视频的拍摄时间和主机位视频的拍摄时间，确定各个分机位视频在主机位视频的播放时间轴上所对应的时间段，确定出的时间段即为各个分机位视频的关联时间段。然后，将主机位视频、分机位视频以及各个分机位视频的关联时间段打包存储到数据存储服务器中。其中，主机位视频即为发布在各个视频网站上，用户可选择观看的目标视频。

参考图6，给出了主机位视频和多个分机位视频之间在播放时间上的对应关系。根据图6给出的主机位视频的播放时间轴可以看出，主机位视频的视频时长一共为2分50秒，分机位视频1的视频时长为50秒，其在播放时间轴上所对应的时间段为00:30-01:20，分机位视频2的视频时长为40秒，其在播放时间轴上所对应的时间段为01:00-01:40，分机位视频3和分机位视频4的频时长均为30秒，其在播放时间轴上所对应的时间段为02:10-02:40。

具体实施时，可通过如下方式从目标视频关联的多个分机位视频中，获取目标对象关联的分机位视频：从目标视频关联的分机位视频中，获取包含目标对象、且对应的关联时间段中包含目标视频的播放时间的分机位视频，将获取的分机位视频确定为目标对象关联的分机位视频。

其中，目标视频关联至少一个分机位视频，各个分机位视频包括至少一个目标对象，各个分机位视频与目标视频的拍摄场景相同但拍摄视角不同，各个分机位视频的关联时间段为：根据分机位视频的拍摄时间确定的、分机位视频在目标视频的播放时间轴上所对应的时间段。其中，目标视频的播放时间是指：终端设备监测到输入操作轨迹的事件时，目标视频的播放时间轴上所对应的时间点。

上述获取目标对象关联的分机位视频可由后台服务器执行，并将获取到的目标对象关联的分机位视频发送给终端设备。

终端设备获取后台服务器发送的分机位视频后，在视频播放界面中播放目标视频时，在视频播放界面的设定显示区域，播放分机位视频。具体地，可根据目标视频的播放时间和获取的分机位视频的关联时间段，同步播放目标视频和分机位视频，即保持分机位视频的播放进度与目标视频的播放进度一致。以图6为例，分机位视频1的播放时间轴中的时间点00:00对应目标视频(即图6中的主机位视频)的播放时间轴中的00:30，分机位视频1的播放时间轴中的时间点00:50对应目标视频的播放时间轴中的01:20，假设目标视频播放至00:40时终端设备获取到分机位视频1，则从分机位视频1的00:10开始播放，当目标视频播放至00:50时，分机位视频1也同步播放至00:20，直至目标视频播放至01:20时，分机位视频1也就播放完毕。在分机位视频1播放过程中，用户可随机关闭分机位视频1。

以图6为例，分机位视频1中只包括目标对象A，分机位视频2中只包括目标对象B，分机位视频3中包含目标对象A和C，分机位视频4中包含目标对象B和C。当目标视频(即图6中的主机位视频)播放至00:40时，用户针对目标对象A输入了预设操作轨迹，此时只有分机位视频1的关联时间段(00:30-01:20)中包含目标视频的播放时间(00:40)，分机位视频1中包括目标对象A，因此分机位视频1为目标对象A关联的分机位视频，终端设备获取分机位视频1并在视频播放界面中播放。当目标视频播放至01:05时，用户针对目标对象B输入了预设操作轨迹，此时分机位视频1的关联时间段(00:30-01:20)和分机位视频2的关联时间段(01:00-01:40)中包含目标视频的播放时间(01:05)，分机位视频1中不包括目标对象A，因此，只有分机位视频2为目标对象B关联的分机位视频，终端设备获取分机位视频2，此时分机位视频1还没有播放完，终端设备可停止播放分机位视频1，转而播放分机位视频2。当目标视频播放至02:15时，用户针对目标对象C输入了预设操作轨迹，此时分机位视频3和分机位视频4的关联时间段(02:10-02:40)中包含目标视频的播放时间(02:15)，分机位视频3和分机位视频4中均包括目标对象C，因此，分机位视频3和分机位视频4均为目标对象C关联的分机位视频，终端设备通过多媒体内容列表展示分机位视频3和分机位视频4，根据用户的选择，播放分机位视频3或分机位视频4。

用户在观看目标视频的过程中，可通过在视频播放界面上输入预设操作轨迹来圈定其感兴趣的目标对象，然后基于目标视频的播放时间，获取到包含该目标对象的分机位视频，并同步播放目标视频和分机位视频，该分机位视频可以是目标对象的特写镜头，也可以是从与目标视频不同的角度拍摄的目标对象的视频，从而让用户在观看目标视频的同时，能够更清楚、全面地观看到目标视频中的某一目标对象，为用户提供了更好的视频观看体验，提高了视频观看过程中的趣味性。

在视频实时传输领域中，受网络传输速率的影响需要降低传输的视频质量，这会导致一些细节无法很好地展现给用户，如人物的面部表情、物品的细节和纹理等。为此，本申请实施例还提供了细节追踪视频供用户选择观看。细节追踪视频是从分机位视频中截取的包含目标对象的局部细节的视频，具体地，可从高清的分机位视频中截取目标对象的局部细节对应的画面，形成该目标对象的细节追踪视频，细节追踪视频同样需要和主机位视频进行关联，具体关联方式可参考分机位视频与主机位视频进行关联的方式，不再赘述。

例如，可从高清的分机位视频中截取目标对象A的人脸的局部画面，形成面部追踪视频。当用户圈定目标对象A时，终端设备可显示目标对象A的面部追踪视频。这样，用户既可以看到全景画面，又可以看到目标对象A的面部表情，提高了用户体验。且由于面部追踪视频仅截取了高清视频中的局部内容，因此面部追踪视频的数据量较小，可在保证实时传输效率的同时，为用户提供高清画面的观感。

特效道具是指能够在视频中叠加特殊显示效果的应用插件。例如，在视频中增加放烟花的特效，给视频中的人物带上眼镜、假发等。当用户选择的多媒体内容为特效道具时，终端设备可在视频播放界面上预设操作轨迹针对的目标对象所在区域，显示特效道具对应的特殊显示效果。具体地，可根据预设操作轨迹在视频播放界上的轨迹坐标，确定目标对象在视频播放界上所处的区域，在确定出的位置处叠加显示特效道具对应的特殊显示效果。进一步地，还可以结合图像识别技术以及图像分割技术，准确定位出目标对象在视频播放界上所处的区域。

基于针对目标对象的输入操作轨迹触发对该目标对象使用特效道具的方式，使得用户可以根据自身需求，确定针对视频中的哪个目标对象使用特效道具，增加了视频观看过程中的趣味性。

在提供了上述多种类型的多媒体内容的基础上，若一个目标视频同时关联了多种类型的多媒体内容，则可通过多媒体内容列表展示多种类型的多媒体内容。具体实施时，多媒体内容列表中的每一种类型下可包含多个多媒体内容，例如，可提供多种特效道具以及多个分机位视频供用户选择，然后在视频播放界面上显示用户选择的多媒体内容。

参考图7，在多媒体内容列表701的左边栏702中展示了3个类型的多媒体内容，分别是“直拍”、“面部追踪”和“更多作品”。当用户点击“直拍”时，会在多媒体内容列表701的右边栏703中展示目标对象“MARY”关联的至少一个分机位视频，当只有一个分机位视频时，直接在右边栏703中播放该分机位视频，当有多个分机位视频时，可先在右边栏703中展示各个分机位视频对应的封面和简单的描述信息，用户可选择一个分机位视频进行播放。当用户点击“面部追踪”时，在多媒体内容列表701的右边栏703中展示目标对象“MARY”关联的至少一个面部追踪视频，具体展示方式可参考分机位视频的展示方式，不再赘述。当用户点击“更多作品”时，可展示目标对象“MARY”关联的个人信息，如图7中所示的个人简介以及电影、电视剧等作品。

在上述任一实施方式的基础上，本申请实施例的视频处理方法还包括如下步骤：监测到在视频播放界面上输入操作轨迹的事件时，降低目标视频的播放速度。

具体实施时，输入操作轨迹的事件包括：轨迹输入开始事件和轨迹输入结束事件，开始事件即输入操作轨迹的起始点时产生的事件，结束事件即输入操作轨迹的起始点时产生的事件。以智能手机的触控显示屏为例，当用户手指触摸到触控显示屏并开始滑动时产生轨迹输入开始事件，当用户手指离开触控显示屏时产生轨迹输入结束事件。终端设备监测到在轨迹输入开始事件时，降低目标视频的播放速度，例如可将目标视频的播放速度调整为正常速度的0.5倍，这样用户可以准确地通过输入操作轨迹标记出目标对象对应的区域，提高目标对象的识别准确度。终端设备在监测到轨迹输入结束事件时，将目标视频的播放速度调整为正常速度。

通过在用户输入操作轨迹的过程中低目标视频的播放速度的方式，使得用户可以从容不迫地输入圈定目标对象的操作轨迹，降低操作难度，同时防止出现因播放速度过快无法准确定位到目标对象的问题，有助于提高目标对象的识别准确度。

具体实施时，终端设备也可以在监测到轨迹输入开始事件时，停止播放目标视频，并在监测到轨迹输入结束事件时，继续播放目标视频。由于输入操作轨迹的时间较短，短暂的停顿不会影响用户的观看体验。

在上述任一实施方式的基础上，在步骤S203之前，本申请实施例的视频处理方法还包括如下步骤：判断目标视频的播放时间是否处于可触发时间段，若确定目标视频的播放时间处于可触发时间段，则执行步骤S203，否则不执行步骤S203。其中，可触发时间段是指可响应在视频播放界面上输入的与预设操作轨迹一致的操作轨迹的时间段。仅在可触发事件段内才判断输入的操作轨迹是否与预设轨迹一致，并在一致的情况下执行步骤S204，可防止用户误操作。

具体实施时，可通过在目标视频的播放时间轴上设置可触发时间段的开始标签和结束标签，确定可触发时间段，每个目标视频可配置至少一个可触发时间段，一个目标视频种的各个可触发时间段不重叠，在播放时间轴上同一个可触发时间段的开始标签位于结束标签之前。例如，目标视频中的一个可触发时间段的开始标签设置在播放时间轴的00:30处，结束标签设置在00：50处，表示当目标视频播放00：00至00:30之间的视频帧时，即使用户输入的操作轨迹与预设操作轨迹一致，则不会触发终端设备执行步骤S203；当目标视频播放00:30至00：50之间的视频帧时，处于可触发时间段，用户可通过输入预设操作轨迹来触发终端设备执行步骤S203。

具体实施时，可由视频制作方法预先配置好目标视频的触发时间段，也可以根据目标视频关联的分机位视频的关联时间段，确定目标视频的可触发时间段。以图6为例，目标视频的播放时间轴上的关联时间段包括：“00:30-01:20”、“01:00-01:40”和“02:10-02:40”，则可触发时间段可以是“00:30-01:40”和02:10-02:40”。

进一步地，终端设备可在视频播放界面上的设定提示区域，显示预设操作轨迹的模拟输入方式，以提示用户输入预设操作轨迹的方式。

具体实施时，用户可手动关闭设定提示区域显示的提示信息。或者，终端设备可以只在播放目标视频中的前N秒的视频帧时，在视频播放界面上的设定提示区域显示预设操作轨迹的模拟输入方式，之后自动隐藏设定提示区域。这样，即可以起到提示作用，又可以防止提示信息干扰用户观看视频。

具体实施时，还可以在确定目标视频的播放时间处于可触发时间段时，在视频播放界面上的设定提示区域，显示预设操作轨迹的模拟输入方式。当目标视频的播放时间不处于可触发时间段时，自动隐藏设定提示区域。这样，在起到提示预设操作轨迹的模拟输入方式的同时，还可以提示用户何时是可触发时间段，即何时可通过输入预设操作轨迹触发终端设备显示目标对象关联的多媒体内容。

参考图8，在视频播放界面801上的设定提示区域802中显示预设操作轨迹的模拟输入方式，通过设定提示区域802展示的提示信息，用户可获知预设操作轨迹为圆形。还可以在设定提示区域802中显示关闭按钮803，用户可通过点击关闭按钮803来隐藏设定提示区域802。

在上述任一实施方式的基础上，终端设备可响应在视频播放界面上输入的多媒体内容变更操作，获取目标视频包含的其他目标对象关联的多媒体内容。

具体实施时，多媒体内容变更操作包括但不限于：在设定显示区域内输入的上滑操作、左滑操作、长按操作等。参考图9，在视频播放界面901上的设定显示区域901内，通过上滑操作，可查看目标视频中其他目标对象关联的多媒体内容。具体地，终端设备响应在视频播放界面上输入的多媒体内容变更操作，向后台服务器发送多媒体内容变更请求，后台服务器随机获取目标视频中其他目标对象关联的多媒体内容，发送给终端设备，终端设备接收其他目标对象关联的多媒体内容并显示。这样，用户可通过多媒体内容变更操作，快速查看到其他目标对象关联的多媒体内容。

在上述任一实施方式的基础上，用户可自定义设置预设操作轨迹的形状。具体地，终端设备响应轨迹设定操作，显示轨迹设定界面，将在轨迹设定界面输入的操作轨迹确定为预设操作轨迹。或者，终端设备响应轨迹设定操作，显示轨迹设定界面，将从轨迹设定界面显示的多个操作轨迹中选择的操作轨迹确定为预设操作轨迹。其中，轨迹设定操作可以是点击视频播放界面中的设置菜单栏中的轨迹设定按钮，也可以是在视频播放界面中输入特定轨迹或者上滑操作等指定操作。这样，用户可根据自己的操作习惯设置对应的预设操作轨迹，提高操作便捷性。

图10为轨迹设定界面的一个示意图。用户可在从轨迹设定界面1001显示的多个操作轨迹中选择一个操作轨迹作为预设操作轨迹。用户也可以在右边的轨迹输入区域1002内绘制一个操作轨迹，点击确定按钮，将绘制的操作轨迹作为预设操作轨迹，点击清除按钮可清除轨迹输入区域1002内的操作轨迹，从而重新绘制操作轨迹。

在上述任一实施方式的基础上，还可以预先为每一种多媒体内容类型配置对应的预设操作轨迹，例如，分机位视频对应的圆形轨迹，面部追踪视频对应三角形轨迹，目标对象的相关信息对应心形轨迹等。具体实施时，也可以由用户自行配置各个多媒体内容类型和各种预设操作轨迹之间的对应关系。

为此，在执行步骤S203之前，本申请实施例的方法还包括如下步骤：确定输入的操作轨迹匹配的预设操作轨迹，根据操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定该操作轨迹对应的目标多媒体内容类型。相应地，在获取对应的目标区域内包含的目标对象所关联的多媒体内容时，仅获取对应的目标区域内包含的目标对象所关联的、且属于目标多媒体内容类型的多媒体内容。

例如，目标对象关联的多媒体内容包括分机位视频、面部追踪视频和目标对象的相关信息，而用户针对该目标对象输入的预设操作轨迹的形状为圆形，为圆形轨迹配置的类型为分机位视频，则终端设备只获取该目标对象所关联的分机位视频。

通过预先为每一种多媒体内容类型配置对应的预设操作轨迹，用户只需要输入某一多媒体内容类型对应的预设操作轨迹，即可获取到与被圈定的目标对象关联的、属于该多媒体内容类型的多媒体内容，使得用户可通过不同的预设操作轨迹快速获取到不同的多媒体内容，在通过预设操作轨迹圈定目标对象的同时选定获取的多媒体内容类型，提高操作便捷性。

在上述任一实施方式的基础上，还可以预先配置多种显示多媒体内容的展示方式，例如普通模式、酷炫模式等，普通模式即正常显示多媒体内容，酷炫模式即在显示多媒体内容的同时加上特殊的显示效果。展示方式还可以分为图5A所示的叠加展示方式和图5B所示的分区域展示方式。

基于此，还可以预先为每一种展示模式配置对应的预设操作轨迹，例如，叠加展示方式对应圆形轨迹，分区域展示方式对应三角形轨迹。具体实施时，也可以由用户自行配置各个展示模式和各种预设操作轨迹之间的对应关系。

为此，在执行步骤S203之前，本申请实施例的视频处理方法还包括如下步骤：终端设备根据与输入的操作轨迹匹配的预设操作轨迹所对应的展示模式，确定该操作轨迹对应的展示模式。相应地，步骤S203具体包括：终端设备根据该操作轨迹对应的展示模式，在视频播放界面上显示该操作轨迹针对的目标对象所关联的多媒体内容。这样，用户在通过预设操作轨迹圈定目标对象的同时，即可选定对应的展示模式，提高操作便捷性，同时增加了展示方式的多样性。

参考图11，本申请实施例提供另一种视频处理方法，可应用于图1所示的后台服务器102，具体包括以下步骤：

S1101、后台服务器接收终端设备发送的识别请求，识别请求包括待识别图像，待识别图像为在终端设备的视频播放界面上输入的操作轨迹在播放的视频画面中对应的目标区域。

其中，终端设备在确定用户输入的操作轨迹为预设操作轨迹后，通过步骤S402确定出至少一个目标区域对应的待识别图像后，并向后台服务器发送识别请求，该识别请求中包含确定出的待识别图像。

S1102、后台服务器确定待识别图像内包含的目标对象。

具体实施时，后台服务器对识别请求中的每个待识别图像进行图像识别处理，获得目标区域内包含的目标对象。本申请实施例对采用的图像识别方法不作限定，例如可以使用基于训练深度学习网络获得的图像识别模型，从待识别图像中识别出目标对象。

S1103、后台服务器获取目标对象关联的多媒体内容，并发送给终端设备。

本申请实施例中，用户可在观看视频过程中随时通过输入操作轨迹圈出视频中的任一目标对象，然后终端设备将操作轨迹对应的区域的图像发送给后台服务器，后台服务器对图像进行识别以获取图像中包含的目标对象，并将目标对象关联的多媒体内容发送给终端设备，由终端设备在视频播放界面上显示该目标对象关联的多媒体内容，使得用户能够在观看视频时便捷高效地获取到视频中任一目标对象的相关内容，在快速检索到相关内容的同时避免了视频播放的中断，提高了用户体验。

在一种可能的实施方式中，后台服务器从数据存储服务器中获取该目标对象所关联的多媒体内容，将该目标对象所关联的多媒体内容发送给终端设备。

在另一种可能的实施方式中，参考图12，步骤S1103具体包括如下步骤：

S1201、后台服务器获取目标对象所关联的多媒体内容列表，并发送给终端设备。

具体实施时，后台服务器从数据存储服务器中获取该目标对象所关联的多媒体内容列表，该多媒体内容列表中包含与该目标对象所关联的多个多媒体内容，后台服务器将多媒体内容列表发送给终端设备。终端设备获取后台服务器发送的多媒体内容列表并显示，响应在多媒体内容列表中选择多媒体内容的操作，向后台服务器发送多媒体内容获取请求，该多媒体内容获取请求包括从多媒体内容列表中选择的多媒体内容的内容标识。

S1202、后台服务器接收终端设备发送的多媒体内容获取请求，多媒体内容获取请求包括从多媒体内容列表中选择的多媒体内容的内容标识。

S1203、后台服务器获取内容标识对应的多媒体内容，并发送给终端设备。

终端设备接收获取后台服务器返回的多媒体内容，并在视频播放界面上显示。

当目标对象关联了多个多媒体内容时，可通过多媒体内容列表向用户展示这多个多媒体内容，以便用户从多媒体内容列表选择其需要查看的多媒体内容，进而在视频播放界面上显示用户选择的多媒体内容。

进一步地，可预先为每一种多媒体内容类型配置对应的预设操作轨迹，例如，分机位视频对应的圆形轨迹，面部追踪视频对应三角形轨迹，目标对象的相关信息对应心形轨迹等。此时，终端设备需要确定输入的操作轨迹的形状，并与多个预设操作轨迹进行比对，确定与该操作轨迹匹配的预设操作轨迹，将匹配的预设操作轨迹对应的多媒体内容类型确定为该操作轨迹对应的目标多媒体内容类型，在向终端设备发送的识别请求中增加预设操作轨迹对应的目标多媒体内容类型。

基于此，步骤S1103具体包括：后台服务器获取目标对象关联的、且属于识别请求中的目标多媒体内容类型的多媒体内容，并发送给终端设备。

例如，目标对象关联的多媒体内容包括分机位视频、面部追踪视频和目标对象的相关信息，而用户针对该目标对象输入的操作轨迹的形状为圆形，为圆形轨迹配置的类型为分机位视频，则只获取该目标对象所关联的分机位视频，并发送给终端设备。

具体实施时，后台服务器可先获取目标对象关联的多媒体内容，然后，从目标对象关联的多媒体内容中选出属于识别请求中的多媒体内容类型的多媒体内容，将选出的多媒体内容发送给终端设备。

通过预先为每一种多媒体内容类型配置对应的预设操作轨迹，使得用户可通过不同的预设操作轨迹快速获取到不同的多媒体内容，在通过预设操作轨迹圈定目标对象的同时选定获取的多媒体内容类型，提高操作便捷性。

在上述任一实施方式的基础上，当多媒体内容包括分机位视频时，终端设备发送的识别请求还包括终端设备播放的目标视频的视频标识和播放时间。

基于此，可通过如下方式获取目标对象关联的分机位视频：从视频标识对应的目标视频关联的分机位视频中，获取包含目标对象、且对应的关联时间段中包含播放时间的分机位视频，将获取的分机位视频确定为目标对象关联的分机位视频。其中，目标视频关联至少一个分机位视频，各个分机位视频包括至少一个目标对象，各个分机位视频与目标视频的拍摄场景相同但拍摄视角不同，各个分机位视频的关联时间段为：根据分机位视频的拍摄时间确定的、分机位视频在目标视频的播放时间轴上所对应的时间段。

具体实施时，后台服务器可根据识别请求中的视频标识，从数据存储服务器中查询到目标视频关联的分机位视频，然后从目标视频关联的分机位视频中，获取包含目标对象的分机位视频，再从获取的包含目标对象的分机位视频中，找出关联时间段中包含播放时间的分机位视频，将找出的分机位视频确定为目标对象关联的分机位视频。

具体实施时，后台服务器可根据识别请求中的视频标识，从数据存储服务器中查询到目标视频关联的分机位视频，然后从目标视频关联的分机位视频中，获取关联时间段中包含播放时间的分机位视频，再从关联时间段中包含播放时间的分机位视频中确定出包含目标对象的分机位视频，将确定出的分机位视频作为目标对象关联的分机位视频。

通过同步播放目标视频和目标视频中的目标对象对应的分机位视频，让用户能够在观看目标视频的同时，更清楚、全面地观看到目标视频中的某一目标对象，为用户提供了更好的视频观看体验，提高了视频观看过程中的趣味性。

当多媒体内容包括细节追踪视频时，终端设备发送的识别请求还包括终端设备播放的目标视频的视频标识和播放时间。后台服务器根据识别请求中的视频标识和播放时间，找出目标对象关联的细节追踪视频，具体实施方式可参考获取目标对象关联的分机位视频的方法，不再赘述。

如图13所示，基于与上述视频处理方法相同的发明构思，本申请实施例还提供了一种视频处理装置130，具体包括播放控制模块1301和操作响应模块1302。

播放控制模块1301，用于播放目标视频，目标视频中包含至少一个目标对象。

操作响应模块1302，用于获取在视频播放界面上输入的操作轨迹，若确定操作轨迹与预设操作轨迹一致，则在视频播放界面上显示操作轨迹针对的目标对象所关联的多媒体内容。

可选地，操作响应模块1302，具体用于：

监测到在视频播放界面上输入操作轨迹的事件时，获取输入操作轨迹过程中视频播放界面上播放的至少一个视频画面；

确定操作轨迹在每个视频画面中对应的目标区域；

在视频播放界面上显示获取的多媒体内容。

可选地，操作响应模块1302，具体用于：

获取目标区域内包含的目标对象所关联的多媒体内容列表并显示；

响应在多媒体内容列表中选择多媒体内容的操作，获取被选中的多媒体内容。

可选地，当被选中的多媒体内容包括分机位视频时，操作响应模块1302，具体用于：

在视频播放界面中播放目标视频时，在视频播放界面的设定显示区域，播放分机位视频，其中，分机位视频中包括目标对象，分机位视频与目标视频的拍摄场景相同但拍摄视角不同。

可选地，操作响应模块1302，还用于在监测到在视频播放界面上输入操作轨迹的事件时，降低目标视频的播放速度。

可选地，视频处理装置130还包括检测模块，用于在操作响应模块执行之前，确定目标视频的播放时间处于可触发时间段，并使能操作响应模块。

可选地，操作响应模块1302，还用于响应在视频播放界面上输入的多媒体内容变更操作，获取目标视频包含的其他目标对象关联的多媒体内容。

可选地，视频处理装置130还包括提示模块，用于在确定目标视频的播放时间处于可触发时间段时，在视频播放界面上的设定提示区域，显示预设操作轨迹的模拟输入方式。

可选地，视频处理装置还包括设置模块，用于：

响应轨迹设定操作，显示轨迹设定界面；

将在轨迹设定界面输入的操作轨迹确定为预设操作轨迹，或者将从轨迹设定界面显示的多个操作轨迹中选择的操作轨迹确定为预设操作轨迹。

可选地，操作响应模块1302，还用于根据操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定操作轨迹对应的目标多媒体内容类型，其中，预先为每个多媒体内容类型配置对应的预设操作轨迹。

相应地，操作响应模块1302，具体用于获取对应的目标区域内包含的目标对象所关联的、且属于目标多媒体内容类型的多媒体内容。

可选地，操作响应模块1302，还用于根据操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定操作轨迹对应的展示模式，其中，预先为每个展示模式配置对应的预设操作轨迹。

相应地，操作响应模块1302，具体用于根据操作轨迹对应的展示模式，在视频播放界面上显示预设操作轨迹针对的目标对象所关联的多媒体内容。

如图14所示，基于与上述视频处理方法相同的发明构思，本申请实施例还提供了一种视频处理装置140，具体包括：接收模块1401、对象识别模块1402、内容获取模块1403和发送模块1404。

接收模块1401，用于接收终端设备发送的识别请求，识别请求包括待识别图像，待识别图像为在终端设备的视频播放界面上输入的操作轨迹在播放的视频画面中对应的目标区域。

对象识别模块1402，用于确定待识别图像内包含的目标对象。

内容获取模块1403，用于获取目标对象关联的多媒体内容。

发送模块1404，用于将获取的多媒体内容发送给终端设备。

可选地，内容获取模块1403，具体用于获取目标对象所关联的多媒体内容列表。

发送模块1404，具体用于将获取的多媒体内容列表发送给终端设备。

接收模块1401，具体用于接收终端设备发送的多媒体内容获取请求，多媒体内容获取请求包括从多媒体内容列表中选择的多媒体内容的内容标识。

内容获取模块1403，具体用于获取内容标识对应的多媒体内容。

发送模块1404，具体用于将获取的内容标识对应的多媒体内容发送给终端设备。

可选地，识别请求还包括操作轨迹对应的多媒体内容类型。

相应地，内容获取模块1403，具体用于获取目标对象关联的、且属于识别请求中的多媒体内容类型的多媒体内容。

可选地，当多媒体内容包括分机位视频时，识别请求还包括终端设备播放的目标视频的视频标识和播放时间。

相应地，内容获取模块1403，具体用于从视频标识对应的目标视频关联的分机位视频中，获取包含目标对象、且对应的关联时间段中包含播放时间的分机位视频，将获取的分机位视频确定为目标对象关联的分机位视频。其中，目标视频关联至少一个分机位视频，各个分机位视频包括至少一个目标对象，各个分机位视频与目标视频的拍摄场景相同但拍摄视角不同，各个分机位视频的关联时间段为：根据分机位视频的拍摄时间确定的、分机位视频在目标视频的播放时间轴上所对应的时间段。

本申请实施例提的视频处理装置与上述视频处理方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述视频处理方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备具体可以为如图1所示的终端设备或后台服务器等。如图15所示，该电子设备150可以包括处理器1501和存储器1502。

处理器1501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本申请实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述视频处理方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请实施例的方法，不应理解为对本申请实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

播放目标视频，所述目标视频中包含至少一个目标对象；

获取在视频播放界面上输入的操作轨迹；

若确定所述操作轨迹与预设操作轨迹一致，则获取输入所述操作轨迹过程中所述视频播放界面上播放的至少一个视频画面；

确定所述操作轨迹在每个视频画面中对应的目标区域；

根据所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定所述操作轨迹对应的目标多媒体内容类型，其中，预先为每个多媒体内容类型配置对应的预设操作轨迹；所述多媒体内容类型至少包括分机位视频和细节追踪视频；

获取对应的目标区域内包含的目标对象所关联的、且属于所述目标多媒体内容类型的多媒体内容；

当所述多媒体内容为分机位视频时，在所述视频播放界面中播放所述目标视频，并在所述视频播放界面的设定显示区域，播放所述目标对象关联的分机位视频；其中，所述目标对象关联的分机位视频是从目标视频关联的分机位视频中，获取的包含目标对象、且对应的关联时间段中包含目标视频的播放时间的分机位视频；所述目标对象关联的分机位视频与所述目标视频的拍摄场景相同但拍摄视角不同；

当所述多媒体内容为细节追踪视频时，在所述视频播放界面中播放所述目标视频，并在所述视频播放界面的设定显示区域，播放所述目标对象关联的细节追踪视频；所述目标对象关联的细节追踪视频是从所述目标对象关联的分机位视频中截取目标对象的局部细节对应的视频画面。

2.根据权利要求1所述的方法，其特征在于，获取所述目标区域内包含的目标对象所关联的多媒体内容，具体包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

监测到在所述视频播放界面上输入操作轨迹的事件时，降低所述目标视频的播放速度。

4.根据权利要求1或2所述的方法，其特征在于，所述获取在视频播放界面上输入的操作轨迹之前，所述方法还包括：

确定所述目标视频的播放时间处于可触发时间段。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

响应在所述视频播放界面上输入的多媒体内容变更操作，获取所述目标视频包含的其他目标对象关联的多媒体内容。

6.一种视频处理方法，其特征在于，包括：

接收终端设备发送的识别请求，所述识别请求包括待识别图像和操作轨迹对应的多媒体内容类型，所述待识别图像为在所述终端设备的视频播放界面上输入的操作轨迹在播放的视频画面中对应的目标区域；所述操作轨迹对应的多媒体内容类型是所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型；其中，预先为每个多媒体内容类型配置对应的预设操作轨迹；所述多媒体内容类型至少包括分机位视频和细节追踪视频；

确定所述待识别图像内包含的目标对象；

获取所述目标对象关联的多媒体内容，并发送给所述终端设备；所述多媒体内容为属于所述识别请求中的多媒体内容类型的多媒体内容；

当多媒体内容包括分机位视频时，所述识别请求还包括所述终端设备播放的目标视频的视频标识和播放时间，所述获取所述目标对象关联的多媒体内容，具体包括：从所述视频标识对应的目标视频关联的分机位视频中，获取包含所述目标对象、且对应的关联时间段中包含所述播放时间的分机位视频，其中，所述目标视频关联至少一个分机位视频，各个分机位视频包括至少一个目标对象，各个分机位视频与所述目标视频的拍摄场景相同但拍摄视角不同，各个分机位视频的关联时间段为：根据分机位视频的拍摄时间确定的、分机位视频在所述目标视频的播放时间轴上所对应的时间段；将获取的分机位视频确定为所述目标对象关联的分机位视频；

当多媒体内容包括细节追踪视频时，所述获取所述目标对象关联的多媒体内容，具体包括：从所述目标对象关联的分机位视频中截取目标对象的局部细节对应的视频画面，得到所述目标对象关联的细节追踪视频。

7.根据权利要求6所述的方法，其特征在于，所述获取所述目标对象关联的多媒体内容，并发送给所述终端设备，具体包括：

获取所述目标对象所关联的多媒体内容列表，并发送给所述终端设备；

接收所述终端设备发送的多媒体内容获取请求，所述多媒体内容获取请求包括从所述多媒体内容列表中选择的多媒体内容的内容标识；

获取所述内容标识对应的多媒体内容，并发送给所述终端设备。

8.一种视频处理装置，其特征在于，包括：

操作响应模块，用于获取在视频播放界面上输入的操作轨迹，若确定所述操作轨迹与预设操作轨迹一致，则获取输入所述操作轨迹过程中所述视频播放界面上播放的至少一个视频画面；确定所述操作轨迹在每个视频画面中对应的目标区域；根据所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型，确定所述操作轨迹对应的目标多媒体内容类型，其中，预先为每个多媒体内容类型配置对应的预设操作轨迹；所述多媒体内容类型至少包括分机位视频和细节追踪视频；获取对应的目标区域内包含的目标对象所关联的、且属于所述目标多媒体内容类型的多媒体内容；当所述多媒体内容为分机位视频时，在所述视频播放界面中播放所述目标视频，并在所述视频播放界面的设定显示区域，播放所述目标对象关联的分机位视频；其中，所述目标对象关联的分机位视频是从目标视频关联的分机位视频中，获取的包含目标对象、且对应的关联时间段中包含目标视频的播放时间的分机位视频；所述目标对象关联的分机位视频与所述目标视频的拍摄场景相同但拍摄视角不同；当所述多媒体内容为细节追踪视频时，在所述视频播放界面中播放所述目标视频，并在所述视频播放界面的设定显示区域，播放所述目标对象关联的细节追踪视频；所述目标对象关联的细节追踪视频是从所述目标对象关联的分机位视频中截取目标对象的局部细节对应的视频画面。

9.一种视频处理装置，其特征在于，包括：

接收模块，用于接收终端设备发送的识别请求，所述识别请求包括待识别图像和操作轨迹对应的多媒体内容类型，所述待识别图像为在所述终端设备的视频播放界面上输入的操作轨迹在播放的视频画面中对应的目标区域；所述操作轨迹对应的多媒体内容类型是所述操作轨迹匹配的预设操作轨迹所对应的多媒体内容类型；其中，预先为每个多媒体内容类型配置对应的预设操作轨迹；所述多媒体内容类型至少包括分机位视频和细节追踪视频；

内容获取模块，用于获取所述目标对象关联的多媒体内容；

发送模块，用于将获取的多媒体内容发送给所述终端设备；所述多媒体内容为属于所述识别请求中的多媒体内容类型的多媒体内容；

所述发送模块具体用于，当多媒体内容包括分机位视频时，所述识别请求还包括所述终端设备播放的目标视频的视频标识和播放时间，所述获取所述目标对象关联的多媒体内容，具体包括：从所述视频标识对应的目标视频关联的分机位视频中，获取包含所述目标对象、且对应的关联时间段中包含所述播放时间的分机位视频，其中，所述目标视频关联至少一个分机位视频，各个分机位视频包括至少一个目标对象，各个分机位视频与所述目标视频的拍摄场景相同但拍摄视角不同，各个分机位视频的关联时间段为：根据分机位视频的拍摄时间确定的、分机位视频在所述目标视频的播放时间轴上所对应的时间段；将获取的分机位视频确定为所述目标对象关联的分机位视频；当多媒体内容包括细节追踪视频时，所述获取所述目标对象关联的多媒体内容，具体包括：从所述目标对象关联的分机位视频中截取目标对象的局部细节对应的视频画面，得到所述目标对象关联的细节追踪视频。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。