CN108259788A

CN108259788A - 视频编辑方法、终端和计算机可读存储介质

Info

Publication number: CN108259788A
Application number: CN201810086540.4A
Authority: CN
Inventors: 王秀琳
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2018-07-06

Abstract

本发明公开了一种视频编辑方法，该方法包括：解析待编辑视频得到待编辑图片，并根据输入的人物选择指令确定目标对象；识别所述待编辑图片中目标对象的表情类别，将所述目标对象的表情类别设置为所述待编辑图片对应的表情类别；获取与所述待编辑图片的表情类别相同的预设表情图片，使用所述预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图片；将所述目标图片合成目标视频。本发明还公开了一种终端、计算机可读存储介质。本发明编辑后视频中的人脸与替换前的表情相同，使得编辑后的视频更加流畅自然，增强了编辑视频的趣味性，提升了用户体验。

Description

视频编辑方法、终端和计算机可读存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种视频编辑方法、终端和计算机可读存储介质。

背景技术

为了提升视频的趣味性或是保护个人隐私，人们会将视频中的人物替换成指定的人物，例如，将电影中的明星换成自己身边的朋友，做成搞笑视频。

目前比较常用的做法是用户上传其选中的人脸图片，来替换掉视频中待替换的人脸，所得到的编辑后的视频中人物是没有表情变化的，一直都是用户所上传的人脸图片中的表情。而原视频中被替换的人物表情可能是随着视频情节的发展而变化的，这样就导致编辑后的视频表情呆板，丧失了视频的趣味性和生动性。

发明内容

本发明的主要目的在于提供一种视频编辑方法、终端和计算机可读存储介质，旨在解决视频中人脸替换后表情单一的技术问题。

为实现上述目的，本发明提供一种视频编辑方法，所述视频编辑方法包括以下步骤：

解析待编辑视频得到待编辑图片，并根据输入的人物选择指令确定目标对象；

识别所述待编辑图片中目标对象的表情类别，将所述目标对象的表情类别设置为所述待编辑图片对应的表情类别；

获取与所述待编辑图片的表情类别相同的预设表情图片，使用所述预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图片；

将所述目标图片合成目标视频。

可选地，所述解析待编辑视频得到待编辑图片，并根据输入的人物选择指令确定目标对象的步骤包括：

解析待编辑视频的每一帧图片得到初始图片以及所述初始图片在所述待编辑视频中的排序；

对所述初始图片进行人脸识别，提取所述初始图片中的人物对象以供选择；

接收根据所述人物对象输入的人物选择指令，确定选中的人物对象为目标对象；

在所述初始图片中筛选出包含所述目标对象的图片作为待编辑图片，将剩余的图片作为锁定图片；

所述将所述目标图片合成目标视频的步骤包括：

根据所述初始图片在所述待编辑视频中的排序，将所述目标图片和所述锁定图片合成目标视频。

可选地，所述使用所述预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图片的步骤包括：

获取所述待编辑图片中所述目标对象的人脸角度；

依据所述目标对象的人脸角度，调整所述预设表情图片的人脸角度；

使用调整后的预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图像。

可选地，所述视频编辑方法还包括：

对所述目标对象的表情类别进行去重整理，得到不重复的表情类别；

获取针对去重后的表情类别输入的表情图片，分别作为各表情类别对应的预设表情图片。

可选地，所述识别所述待编辑图片中目标对象的表情类别的步骤还包括：

对所述待编辑图片进行剪裁，得到所述目标对象的表情图片；

将所述目标对象的表情图片投入预设的表情识别模型，得到所述目标对象的表情类别。

可选地，所述视频编辑方法还包括：

根据预设的剪裁规则剪裁预设的训练图片，所述训练图片预设有对应的表情类别；

对所述剪裁后的训练图片进行灰度归一化处理以及主成分分析，得到对应的特征图片；

将所述特征图片及对应的表情类别投入预设的训练模型进行表情分类训练，得到表情识别模型。

可选地，所述根据输入的人物选择指令确定目标对象的步骤还包括：

接收输入的人物选择指令，所述人物选择指令包含基于所述待编辑视频的播放画面选中的目标区域；

对所述目标区域进行人脸识别，得到目标对象。

可选地，所述视频编辑方法还包括：

获取原始视频，接收输入的对所述原始视频的剪辑指令，对应剪辑得到待编辑视频。

此外，为实现上述目的，本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频编辑程序，所述视频编辑程序被所述处理器执行时实现如上述任一项所述的视频编辑方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频编辑程序，所述视频编辑程序被处理器执行时实现如上述任一项所述的视频编辑方法的步骤。

本发明实施例提出的一种视频编辑方法、终端和计算机可读存储介质，通过解析待编辑视频得到待编辑图片，以便于人脸图像的编辑和替换，并且，根据输入的人物选择指令确定目标对象，从而确定了需要进行人脸替换的目标；然后，识别待编辑图片中目标对象的表情类别，将目标对象的表情类别设置为待编辑图片对应的表情类别，用以确定替换此待编辑图片中人脸图像所需要使用的表情图片类别；然后，获取与待编辑图片的表情类别相同的预设表情图片，使用预设表情图片替换待编辑图片中目标对象的脸部图像，得到目标图片，目标图片中的目标对象脸部图像虽然被替换掉，但是表情与被替换之前能够保持一致；然后，将得到的目标图片合成目标视频，得到目标对象脸部图像被替换后的新视频。由此，本发明实现了视频中人脸的替换。由于本发明通过人脸表情分析确定人物表情类别，进而使用相同表情类别的表情图片进行脸部图像的替换，因此，替换后视频中的人脸与替换前的表情相同，随着视频的播放、情节的递进而变化，相对于现有的视频中人物脸部替换后保持表情一成不变，本发明使得编辑后的视频更加流畅自然，增强了编辑视频的趣味性，提升了用户体验。

附图说明

图1为实现本发明各个实施例一个可选的终端的硬件结构示意图；

图2为如图1所示的终端的无线通信系统示意图；

图3为本发明视频编辑方法第一实施例的流程示意图；

图4为本发明视频编辑方法第二实施例的流程示意图；

图5为图3中使用所述预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图片的步骤的细化流程示意图；

图6为本发明视频编辑方法第四实施例的流程示意图；

图7为本发明视频编辑方法第六实施例的流程示意图；

图8为本发明实施例中一种人物选择指令输入示意图；

图9为本发明实施例中一种脸部图像替换示意图；

图10为本发明实施例中一种人物对象备选示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：A/V(音频/视频)输入单元101、显示单元102、用户输入单元103、接口单元104、存储器105、处理器106、以及电源107等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

A/V输入单元101用于接收音频或视频信号。A/V输入单元101可以包括图形处理器(Graphics Processing Unit，GPU)1011，图形处理器1011对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元102上。经图形处理器1011处理后的图像帧可以存储在存储器105(或其它存储介质)中。

显示单元102用于显示由用户输入的信息或提供给用户的信息。显示单元102可包括显示面板1021，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1021。

用户输入单元103可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元103可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器106，并能接收处理器106发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，用户输入单元103还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1031可覆盖显示面板1021，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器106以确定触摸事件的类型，随后处理器106根据触摸事件的类型在显示面板1021上提供相应的视觉输出。虽然在图1中，触控面板1031与显示面板1021是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1031与显示面板1021集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元104用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元104可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器105可用于存储软件程序以及各种数据。存储器105可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器105可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器106是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器105内的软件程序和/或模块，以及调用存储在存储器105内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器106可包括一个或多个处理单元；可选地，处理器106可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器106中。

移动终端100还可以包括给各个部件供电的电源107(比如电池)，可选地，电源107可以通过电源管理系统与处理器106逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

作为一种计算机存储介质的存储器105中可以包括操作系统以及视频编辑程序。

处理器106可以用于调用存储器105中存储的视频编辑程序，并执行以下操作：

将所述目标图片合成目标视频。

进一步地，处理器106可以调用存储器105中存储的视频编辑程序，还执行以下操作：

获取所述待编辑图片中所述目标对象的人脸角度；

对所述目标区域进行人脸识别，得到目标对象。

本发明终端的具体实施例与下述视频编辑方法各实施例基本相同，在此不作赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

基于上述移动终端硬件结构以及通信网络系统，提出本发明方法各个实施例。

本发明视频编辑方法通过对视频中待替换的人物表情进行分析归类，使用对应的表情图片分别进行替换，实现了人脸替换后的表情与原始视频中的人物表情一致，增加了编辑后视频的表情的丰富性，使得编辑后的视频更加生动有趣。

参照图3，本发明视频编辑方法第一实施例提供一种视频编辑方法，所述视频编辑方法包括：

步骤S10、解析待编辑视频得到待编辑图片，并根据输入的人物选择指令确定目标对象。

用户在进行视频编辑时，可以主动上传自己录制的视频或网络视频，作为待编辑视频提交给终端。当然，用户也可以输入网络视频的地址提交给终端，终端自动下载对应的网络视频作为待编辑视频。

终端在得到待编辑视频后，将待编辑视频解析为每一帧的图片，作为待编辑图片。同时，终端记载各张待编辑图片在视频中的排序，用以后续的视频合成。

然后，终端分别对各张待编辑图片进行人脸识别，识别出待编辑图片中所出现的人物对象，确定需要进行人脸替换的目标对象。

具体的，作为一种实施方式，用户可以上传其选择的目标对象的图片作为人物选择指令输入，来指定目标对象，则终端可以解析人物选择指令得到用户上传的目标对象图片，然后根据目标对象图片对待编辑图片进行人脸识别，确定目标对象在待编辑图片中的位置，并得到待编辑图片中目标对象的脸部图像。

作为另外一种实施方式，根据输入的人物选择指令确定目标对象的步骤包括：接收输入的人物选择指令，所述人物选择指令包含基于所述待编辑视频的播放画面选中的目标区域；对所述目标区域进行人脸识别，得到目标对象。

用户可以直接在待编辑视频的画面中选取目标对象，例如，用户在待编辑视频播放的过程中暂停播放，或者，用户拖动进度条，使待编辑视频进度停留在包含有目标对象的画面；然后，用户在画面中画出封闭图形等方式选出包含目标对象的区域，作为目标区域，然后，确定提交给终端，生成人物选择指令。人物选择指令中包含有用户基于待编辑视频的播放画面选中的目标区域。

然后，终端对目标区域进行人脸识别，将识别得到的人物对象作为目标对象，由此，终端得到了用户选择的目标对象。

作为一种应用场景，参照图8，用户在待编辑视频画面中用封闭圆圈画圈出目标区域，输入人物选择指令。终端对目标区域进行人脸识别，得到用户选择的目标对象。

然后，终端对待编辑图片进行人脸识别，确定目标对象在待编辑图片中的位置，并得到目标对象的脸部图像。

需要说明的是，用户可以指定一个目标对象，也可以指定多个目标对象。当用户指定多个目标对象时，终端可以分别对各目标对象进行脸部图像的替换。

步骤S20、识别所述待编辑图片中目标对象的表情类别，将所述目标对象的表情类别设置为所述待编辑图片对应的表情类别。

在确定目标对象，得到待编辑图片后，终端分别对各待编辑图片中目标对象的表情进行识别，得到目标对象在各张待编辑图片中的表情类别，例如开心、生气等等。

然后，终端分别将各张待编辑图片中目标对象的表情类别设置为其自身所对应的表情类别，由此，得到各待编辑图片所对应的表情类别。

作为一种实施方式，所述识别所述待编辑图片中目标对象的表情类别的步骤包括：对所述待编辑图片进行剪裁，得到所述目标对象的表情图片；将所述目标对象的表情图片投入预设的表情识别模型，得到所述目标对象的表情类别。

具体的，终端根据人脸识别时得到的目标对象在各张待剪辑图片中的位置，按照预设的尺寸分别对各张待编辑图片进行剪裁，得到大小一致的包含目标对象人脸的图片作为表情图片，尽量减去头发、背景等干扰信息，保留最多的人脸部的表情信息。预设的尺寸可以是以像素为单位，33×48的尺寸。

进一步的，终端还可以对进行归一化处理，使不同成像条件下拍摄的图片具有一致性，排除光照强度、方向、姿势等不同造成的影响。归一化处理可以在各张待编辑图片剪裁前进行，或是剪裁后对各表情图片进行。可选地，终端可以进行灰度归一化处理，克服光照不均或者光照强度不同对图片的影响。

在得到目标对象的各张表情图片后，将表情图片分别投入预设的表情识别模型，由表情识别模型对表情图片中的表情进行识别分类，获取表情识别模型输出的识别结果，作为各表情图片对应的表情类别。

进一步地，在将表情图片投入预设的表情识别模型之前，终端还可以对目标对象的表情图片进行主成分分析，以对表情图片进行降维，提取表达表情的主要陈各分，从而实现对表情图片的线性降维，使得表情识别模型的参数大大降低，提升表情识别正确率和处理速度。

然后，终端将各表情图片的表情类别作为其对应的待编辑图片中目标对象的表情类别，也即待编辑图片对应的表情类别。

由此，通过分类模型对目标对象的表情进行识别分类，提升了表情识别的准确性，从而能够对应提供更加相近的预设表情图片来替换掉目标对象的人脸，使编辑后的视频更加贴近原视频，贴合度更高。

步骤S30、获取与所述待编辑图片的表情类别相同的预设表情图片，使用所述预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图片。

在得到待编辑图片所对应的表情类别后，终端查询预设的图片数据库或是集合，获取与其表情类别相同的预设表情图片，来替换掉待编辑图片中目标对象的脸部图像，将替换过表情图片的待编辑图片作为此待编辑图片对应的目标图片，作为一种实施场景，参照图9，将待编辑图片中目标对象的脸A替换成预设表情图片中的脸B，脸A和脸B的表情类别相同。

其中，预设表情图片可以是用户预先输入的，也可以是系统内置预设的，可根据实际需要灵活配置。预设表情图片可以是仅包含人脸表情的图片。若预设的表情图片中包含了背景图像，则在进行人脸替换时，终端可以对预设表情图片进行剪裁处理，获取预设表情图片中的脸部图像，然后，使用预设表情图片中的脸部图像替换待编辑图片中目标对象的脸部图像，将替换过表情图片的待编辑图片作为此待编辑图片对应的目标图片。

由此，终端分别替换各张待编辑图片中目标对象的脸部图像，得到各待编辑图片对应的各张目标图片。

需要说明的是，若待编辑图片中不包含目标对象，没有目标对象脸部图像，则不对此待编辑图片进行脸部图像替换，将此待编辑图片作为其本身对应的目标图片。由此，得到全部待编辑图片所对应的目标图片。

步骤S40、将所述目标图片合成目标视频。

在得到各张目标图片后，终端将解析待编辑视频时记载的各待编辑图片在视频中的排序，分别一一对应作为各张目标图片在视频中的排序，由此，得到各目标图片的排序。

然后，终端依据各目标图片的排序合成新视频，作为目标视频。

由此，得到了目标对象人脸图像被替换后的目标视频。用户可以播放、下载、分享目标视频。

在本实施例中，解析待编辑视频得到待编辑图片，以便于人脸图像的编辑和替换，并且，根据输入的人物选择指令确定目标对象，从而确定了需要进行人脸替换的目标；然后，识别待编辑图片中目标对象的表情类别，将目标对象的表情类别设置为待编辑图片对应的表情类别，用以确定替换此待编辑图片中人脸图像所需要使用的表情图片类别；然后，获取与待编辑图片的表情类别相同的预设表情图片，使用预设表情图片替换待编辑图片中目标对象的脸部图像，得到目标图片，目标图片中的目标对象脸部图像虽然被替换掉，但是表情与被替换之前能够保持一致；然后，将得到的目标图片合成目标视频，得到目标对象脸部图像被替换后的新视频。由此，本实施例实现了视频中人脸的替换。由于本实施例通过人脸表情分析确定人物表情类别，进而使用相同表情类别的表情图片进行脸部图像的替换，因此，替换后视频中的人脸与替换前的表情相同，随着视频的播放、情节的递进而变化，相对于现有的视频中人物脸部替换后保持表情一成不变，本实施例使得编辑后的视频更加流畅自然，增强了编辑视频的趣味性，提升了用户体验。

进一步的，参照图4，本发明视频编辑方法第二实施例提供一种视频编辑方法，基于上述本发明视频编辑方法第一实施例，所述步骤S10包括：

S11、解析待编辑视频的每一帧图片得到初始图片以及所述初始图片在所述待编辑视频中的排序。

在得到待编辑视频后，终端解析待编辑视频的每一帧图片，作为准备进行进一步处理的初始图片。同时，终端记录这些初始图片在待编辑视频中的排序，用于后续合成编辑后的视频。其中，初始图片在待编辑视频中的排序可以使以播放时间为依据。

步骤S12、对所述初始图片进行人脸识别，提取所述初始图片中的人物对象以供选择。

在得到初始图片后，终端分别对各初始图片进行人脸识别，获取各张初识图片中出现的人物。然后，终端对各张出示图片中出现的人物进行合并去重，得到全部初始图片中出现过得，也即在整个待编辑视频中所出现过的不重复的人物对象。在合并去重时，终端记录包含各人物对象的初始图片，以便于后期确定待编辑图片。

然后，终端将这些人物对象建立一个供用户选择的集合或列表。具体的，作为一种实施方式，终端可以分别针对各人物对象选择一个显示效果最好的初始图片，进行截图，截取出人物对象的脸部图像。然后，将各人物对象的脸部图像填入预设的展示模板.

作为一种应用场景，参照图10，终端将识别出的四个人物对象展示给用户，以供用户选择其需要进行编辑的目标对象。

用户根据终端展示的各人物对象进行目标对象的选择，具体的，用户可以通过点击人物对象的脸部图像等形式进行人物选择指令的输入。

进一步的，还可以对各人物对象进行编号，用户可以输入人物对象对应的编号来进行选择指令的输入。

步骤S13、接收根据所述人物对象输入的人物选择指令，确定选中的人物对象为目标对象。

终端在收到用户输入的人物对象选择指令后，解析人物对象选择指令，获取用户选中的人物对象，作为其选中的目标对象。

步骤S14、在所述初始图片中筛选出包含所述目标对象的图片作为待编辑图片，将剩余的图片作为锁定图片。

在得到用户选出的目标对象后，终端在初始图片中筛选出包含目标对象的图片作为需要进行人物脸部图像替换的待编辑图片。

具体的，可以通过人脸识别的方式查找包含目标对象的初始图片，来确定待编辑图片；也可以根据提取初始图片中的人物对象时所记载的包含目标对象的初始图片，来确定待编辑图片。

在筛选出待编辑图片后，终端将初始图片中剩余的图片作为锁定图片保存，锁定图片也即不包含目标对象的图片，无需进行人脸替换的编辑处理。

对应的，步骤S40包括：

步骤41、根据所述初始图片在所述待编辑视频中的排序，将所述目标图片和所述锁定图片合成目标视频。

在对待编辑图片进行目标对象的脸部图像替换，得到对应的目标图片后，终端依据初始图片在视频中的排序，对应设置各目标图片在视频中的排序以及锁定图片的排序。其中，目标视频在视频中的排序也即其对应的待编辑图片在视频中的排序。

然后，根据各目标图片集锁定图片的排序，合成新视频作为目标视频。用户可以播放、下载、分享目标视频。

在本实施例中，解析待编辑视频的每一帧图片得到初始图片以及初始图片在待编辑视频中的排序；然后，对初始图片进行人脸识别，提取初始图片中的人物对象以供用户选择；接收用户根据所提供的人物对象输入的人物选择指令，确定选中的人物对象为目标对象；在初始图片中筛选出包含目标对象的图片作为待编辑图片，将剩余的图片作为锁定图片；对应的，在得到目标图片后，根据初始图片在待编辑视频中的排序，将目标图片和锁定图片合成目标视频。本实施例通过解析出视频中出现过的全部人物对象供用户选择，便于用户选择出目标对象；并且，仅将包含目标对象的初始图片作为待编辑图片进行人脸替换，减轻了终端的工作量，提升了视频编辑速度。

参照图5，本发明视频编辑方法第三实施例提供一种视频编辑方法，基于上述本发明视频编辑方法第一实施例或第二实施例，所述使用所述预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图片的步骤包括：

步骤S31、获取所述待编辑图片中所述目标对象的人脸角度。

在进行人脸替换前，考虑到视频中目标对象可能有姿态变换，则对应的其面部可能以多种角度显示在视频中。

基于此，本实施例还需要获取待编辑图片中目标对象的人脸角度。具体地，作为一种实施方式，终端提取待编辑图片中目标对象的脸部图像，进行灰度归一化处理及主要成分分析后，投入预设的角度识别模型，识别出目标对象的人脸角度，例如侧脸、仰头、低头等。

步骤S32、依据所述目标对象的人脸角度，调整所述预设表情图片的人脸角度。

在得到目标对象的人脸角度后，终端基于目标对象的人脸角度，调整待编辑图片对应的预设表情图片，使预设表情图片中的人脸角度与目标对象保持一致。

例如，预设表情图片为脸部正面图像，则，若待编辑图片中目标对象的人脸为侧脸，则将其对应的预设表情图片进行水平旋转，仅显示对应的侧脸；若待编辑图片中目标对象的人脸为仰头30°，则对应其对应的预设表情图片进行俯仰旋转，使预设表情图片中的人脸仰头30°。

由此，调整后的预设表情图片中人脸姿态与待编辑图片中目标对象的人脸姿态相同。

若有多张待编辑图片，则终端分别基于各待编辑图片中目标对象的人脸角度，调整各待编辑图片对应的预设表情图片的人脸角度。

步骤S33、使用调整后的预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图像。

使用调整后的预设表情图片替换待编辑图片中目标对象的脸部图像，得到的目标图片中人脸角度与替换前相同，使得视频画面更具连贯性。

在本实施例中，获取待编辑图片中目标对象的人脸角度；依据目标对象的人脸角度，调整待编辑图片所对应的预设表情图片的人脸角度；然后，使用调整后的预设表情图片替换待编辑图片中目标对象的脸部图像，得到目标图像。本实施例通过对预设表情图片的人脸角度进行调整，与待编辑图片中目标对象的人脸角度保持一致，使得合成的目标视频更加流畅，衔接过渡自然，相对于现有人脸替换的生硬粘贴，更加智能，视频效果更好。

进一步地，参照图6，本发明视频编辑方法第四实施例提供一种视频编辑方法，基于上述本发明视频编辑方法第一实施例、第二实施例或第三实施例(本实施例以本发明视频编辑方法第一实施例为例)，所述视频编辑方法还包括：

步骤S50、对所述目标对象的表情类别进行去重整理，得到不重复的表情类别。

在得到目标对象的表情类别后，终端对得到的表情类别进行去重整理，去除重复的表情类别，得到不重复的表情类别，也即视频中目标对象所出现过的全部表情类别。

步骤S60、获取针对去重后的表情类别输入的表情图片，分别作为各表情类别对应的预设表情图片。

在得到目标对象不重复的表情类别后，终端显示这些表情类别，并提示用户上传对应的表情图片，以作为这些表情类别对应的预设表情图片。

用户可以拍摄各表情类别对应的图片，或是下载预设的表情图片库，当然也可以使用绘画图片等，上传到终端作为各表情类别对应的预设表情图片。用户上传图片后，终端将用户上传的各表情类别对应的表情图片，作为各表情类别对应的预设表情图片。

进一步地，作为一种实施方式，终端对用户上传的表情图片进行剪裁处理，得到仅包含人脸表情的图片，作为对应的预设表情图片，减轻背景或是头发等因素的干扰。由此，在对待编辑图片进行人脸替换时，能够使得目标图片中的人脸衔接更加自然，没有杂质。

作为一种具体的实施场景，首先，用户选定待编辑视频片段；终端解析待编辑视频，获得每一帧的图片作为初始图片，将获取到的图片集合标记为：P＝{p₁，p₂，……，p_m}，也即初始图片集合；然后，终端对每一张初始图片进行人物识别，获得其中的主体人物对象，标记为：U＝{u₁，u₂，……，u_m}；然后，终端列出得到的人物对象列表，供用户选择索要替换的目标对象；在用户基于人物对象列表选定目标对象u_i后，终端获取初始图片集合P中包含此目标对象u_i的所有图片，将获取到的初始图片序列标记为：P′＝{p_i，p_j，……，p_k}，也即待编辑图片集合，其中，

然后，终端创建两个个空的表情类别集合，E₁＝{}，E₂＝{}；其中，E₁维护待编辑图片列表P′中，每张待编辑图片中目标对象u_i对应的表情类别；E₂中维护待编辑图片序列P′中，目标对象u_i不重复的表情类别。

针对中P′的每一张待编辑图片p_x，终端获取此待编辑图片中目标对象u_i的位置，并识别目标对象的表情类别e_x；然后，终端将e_x添加到E₁中；同时，检查E₂E中是否存在表情类别e_x，若不存在，则将e_x加入到E₂中。

在完成表情识别后，终端将获取到的E₂呈现给当前用户，并引导用户输入对应表情的照片；如获取到的E₂＝{微笑，愤怒，大笑}；则引导用户拍摄或输入以上表情的人物图片，将用户输入的图片序列标记为E₃，作为预设表情图片集合。

然后，终端对于P′中的每一张图片p′，获取其在E₁中对应的表情类别e′，在E₃获取用户输入的对应表情图片e″；然后，将P′中的人脸图像替换为e″中的人脸图片，获得替换后的图片p″，也即目标图片。

然后，终端将P中P’对应的图片替换为p″，获得新的图片集合P″；将新的图片集合P″合成为新的视频序列，得到目标视频，呈现给用户。

由此，实现了视频中的人脸替换。

在本实施例中，对目标对象的表情类别进行归类整理，得到不重复的表情类别；获取用户针对去重后的表情类别输入的表情图片，分别作为各表情类别对应的预设表情图片。由此，本实施例实现了预设表情图片的自定义，用户可以选择心仪的表情图片进行脸部图像的替换，增强了视频编辑的趣味性。

进一步地，本发明视频编辑方法第五实施例提供一种视频编辑方法，基于上述本发明视频编辑方法第一实施例、第二实施例、第三实施例或第四实施例(本实施例以本发明视频编辑方法第一实施例为例)，所述视频编辑方法还包括：

步骤S70、根据预设的剪裁规则剪裁预设的训练图片，所述训练图片预设有对应的表情类别。

为了提升表情识别的准确性，本实施例中终端预先进行训练、配置表情识别模型。

具体的，作为一种实施方式，收集人脸表情图片作为训练图片，并且，对训练图片进行表情分类，设置各训练图片对应的表情类别。

然后，根据预设的剪裁规则剪裁训练图片，得到大小一致的训练图片，便于进行分类训练。

其中，预设的剪裁规则包括剪裁尺寸，剪裁内容等。剪裁尺寸为训练图片剪裁后得到的图片尺寸，例如33×48。剪裁内容包括人脸，可通过人脸识别到，并且，去除头发、背景等干扰因素。

由此，得到了剪裁后的训练图片，剪裁后的训练图片所对应的表情类别与剪裁前相同。

步骤S80、对所述剪裁后的训练图片进行灰度归一化处理以及主成分分析，得到对应的特征图片。

在得到剪裁后的训练图片后，终端对剪裁后的训练图片进行灰度归一化处理，以减少光照不均或者光照强度不同等造成的影响。

并且，终端还需要对剪裁后的训练图片进行主成分分析处理，以对表情图片进行降维，提取表达表情的主要陈各分，从而实现对训练图片的线性降维，使得表情识别模型的参数大大降低。

终端将灰度归一化处理和主成分分析后得到的训练图片作为对应的特征图片，用来训练表情识别模型。需要说明的是，特征图片的表情类别与其对应的训练图片相同。

步骤S90、将所述特征图片及对应的表情类别投入预设的训练模型进行表情分类训练，得到表情识别模型。

在得到特征图片后，终端将特征图片所对应的训练图片的表情类别作为特征图片的表情类别，投入预设的训练模型进行表情分类训练。

其中，特征图片即为投入的特征数据，特征图片对应的表情类别即为对应的标签数据。训练模型通过大量的训练获取表情的分类规则，用以后续的表情分类。

优选地，预设的训练模型为卷积神经网络模型。

由此，得到了训练好的表情分类模型。

进一步地，还可以将收集的人脸表情图片分为训练集和测试集，例如按照9:1的比例配置训练图片和测试图片的数量。在训练得到表情分类模型后，使用测试集中的测试图片，测试表情分类模型的分类正确率。若表情分类模型的正确率不能达到预设的数值，则继续进行训练；若到达了预设的数值，也即已经满足使用需求，则可以作为合格的表情分类模型投入使用。

进一步地，若表情分类模型的训练是在PC端进行的，而视频编辑需要在移动终端进行，则在表情分类模型训练好后，对表情分类模型进行固化处理，然后安装在移动终端。当移动终端需要进行表情识别时，调用相关的API接口，恢复固化的表情分类模型，然后将需要识别的图片投入表情分类模型，获取表情分类模型输出的表情类别。

在本实施例中，根据预设的剪裁规则剪裁预设的训练图片，训练图片预设有对应的表情类别；然后，对剪裁后的训练图片进行灰度归一化处理以及主成分分析，得到对应的特征图片，以提取出训练图片的关键特征，便于训练；然后，将特征图片及对应的表情类别投入预设的训练模型进行表情分类训练，得到表情识别模型。由此，本实施例实现了表情识别模型的训练，训练得到的表情识别模型能够更加准确识别出视频中的人脸表情类别，进而使用更加准确的预设表情图片进行视频中人脸的替换，保障人脸替换后视频中人脸表情的连贯性。

进一步地，参照图7，本发明视频编辑方法第六实施例提供一种视频编辑方法，基于上述本发明视频编辑方法第一实施例、第二实施例、第三实施例、第四实施例或第五实施例(本实施例以本发明视频编辑方法第一实施例为例)，所述步骤S10之前还包括：

步骤S100、获取原始视频，接收输入的对所述原始视频的剪辑指令，对应剪辑得到待编辑视频。

用户在进行是视频编辑时，可能仅需要对视频中的某一个片段进行人脸替换，此时，用户可以将原始视频上传给终端，终端在收到原始视频后，提供问询界面以询问用户是否需要对原始视频进行剪辑。若用户选择是，则终端提供剪辑界面，用户可以通过拖动视频进度条、输入时间刻度等方式确定需要剪辑的视频片段，然后点击确定剪辑，输入剪辑指令。

终端在收到用户输入的剪辑指令后，根据剪辑指令对应从原始视频中剪出视频片段作为待编辑视频，进行进一步的编辑。

由此，本实施例实现了待编辑视频的自定义剪辑。

在本实施例中，获取原始视频，接收输入的对原始视频的剪辑指令，对应剪辑得到待编辑视频。由此，本实施例中用户可以自由选择需要进行人脸替换的视频片段，提升了视频编辑的灵活性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频编辑程序，所述视频编辑程序被处理器执行时实现如下操作：

将所述目标图片合成目标视频。

进一步地，所述视频编辑程序被处理器执行时还实现如下操作：

获取所述待编辑图片中所述目标对象的人脸角度；

对所述目标区域进行人脸识别，得到目标对象。

本发明计算机可读存储介质的具体实施例与上述视频编辑方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频编辑方法，其特征在于，所述视频编辑方法包括以下步骤：

将所述目标图片合成目标视频。

2.如权利要求1所述的视频编辑方法，其特征在于，所述解析待编辑视频得到待编辑图片，并根据输入的人物选择指令确定目标对象的步骤包括：

所述将所述目标图片合成目标视频的步骤包括：

3.如权利要求1所述的视频编辑方法，其特征在于，所述使用所述预设表情图片替换所述待编辑图片中目标对象的脸部图像，得到目标图片的步骤包括：

获取所述待编辑图片中所述目标对象的人脸角度；

4.如权利要求1所述的视频编辑方法，其特征在于，所述视频编辑方法还包括：

5.如权利要求1所述的视频编辑方法，其特征在于，所述识别所述待编辑图片中目标对象的表情类别的步骤还包括：

6.如权利要求5所述的视频编辑方法，其特征在于，所述视频编辑方法还包括：

7.如权利要求1所述的视频编辑方法，其特征在于，所述根据输入的人物选择指令确定目标对象的步骤还包括：

对所述目标区域进行人脸识别，得到目标对象。

8.如权利要求1-7任一项所述的视频编辑方法，其特征在于，所述视频编辑方法还包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频编辑程序，所述视频编辑程序被所述处理器执行时实现如权利要求1至8中任一项所述的视频编辑方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频编辑程序，所述视频编辑程序被处理器执行时实现如权利要求1至8中任一项所述的视频编辑方法的步骤。