CN108765529A

CN108765529A - 视频生成方法和装置

Info

Publication number: CN108765529A
Application number: CN201810419784.XA
Authority: CN
Inventors: 邓澍军
Original assignee: Beijing Bit Intelligence Technology Co Ltd
Current assignee: Beijing Bit Intelligence Technology Co Ltd
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-11-06

Abstract

本申请提出一种视频生成方法和装置，其中，方法包括：对第一视频中的第一对象进行深度信息采集，基于采集的所述深度信息，构建所述第一对象的3D模型；获取第二对象的脸部图像数据；将所述脸部图像数据，添加到所述第一对象的3D模型中，得到所述第二对象的3D模型；利用所述第二对象的3D模型，替换所述第一视频中的所述第一对象的3D模型，生成第二视频。通过本方法，能够实现对已有视频中的人物形象进行3D模型替换，得到三维立体的个性化视频，用户可以根据需求将视频中的人物替换为自己的形象，从而使用户参与到视频中，提高用户的参与感和体验感。

Description

视频生成方法和装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种视频生成方法和装置。

背景技术

为满足用户自主制作视频的需求，一些视频制作软件应运而生。然而，目前已有的视频制作软件多是通过将多张图片进行拼接得到视频文件的，所得的视频文件中，各个人物形象仍以二维图像的形式出现，立体感差。

此外，相关技术中，对视频文件的编辑操作通常仅支持剪辑、制作字幕、添加图片、背景音乐等简单的处理操作，而不能对视频文件中包含的人物或事物进行个性化编辑。

发明内容

本申请提供一种视频生成方法和装置，以解决现有技术中不能对视频文件中包含的人物或事物进行个性化编辑、制作的视频立体感差的技术问题。

为此，本申请第一方面提出了一种视频生成方法，以实现对已有视频中的人物形象进行3D模型替换，得到三维立体的个性化视频，用户可以根据需求将视频中的人物替换为自己的形象，从而使用户参与到视频中，提高用户的参与感和体验感。

本申请第二方面提出了一种视频生成装置。

本申请第三方面提出了一种电子设备。

本申请第四方面提出了一种非暂态计算机可读存储介质。

本申请第五方面提出了一种计算机程序产品。

本申请第一方面实施例提出了一种视频生成方法，包括：

对第一视频中的第一对象进行深度信息采集，基于采集的所述深度信息，构建所述第一对象的3D模型；

获取第二对象的脸部图像数据；

将所述脸部图像数据，添加到所述第一对象的3D模型中，得到所述第二对象的3D模型；

利用所述第二对象的3D模型，替换所述第一视频中的所述第一对象的3D模型，生成第二视频。

本申请实施例的视频生成方法，通过对第一视频中的第一对象进行深度信息采集，基于采集的深度信息构建第一对象的3D模型，获取第二对象的脸部图像数据，将脸部图像数据添加到第一对象的3D模型中，得到第二对象的3D模型，进而利用第二对象的3D模型替换第一视频中的第一对象的3D模型，得到第二视频。由此，通过将第一视频中包括的第一对象的3D模型替换为第二对象的3D模型，能够实现对已有视频中的人物形象进行3D模型替换，得到三维立体的个性化视频，用户可以根据需求将视频中的人物替换为自己的形象，从而使用户参与到视频中，提高了用户的参与感和体验感。

本申请第二方面实施例提出了一种视频生成装置，包括：

构建模块，用于对第一视频中的第一对象进行深度信息采集，基于采集的所述深度信息，构建所述第一对象的3D模型；

获取模块，用于获取第二对象的脸部图像数据；

贴合模块，用于将所述脸部图像数据，添加到所述第一对象的3D模型中，得到所述第二对象的3D模型；

生成模块，用于利用所述第二对象的3D模型，替换所述第一视频中的所述第一对象的3D模型，生成第二视频。

本申请实施例的视频生成装置，通过对第一视频中的第一对象进行深度信息采集，基于采集的深度信息构建第一对象的3D模型，获取第二对象的脸部图像数据，将脸部图像数据添加到第一对象的3D模型中，得到第二对象的3D模型，进而利用第二对象的3D模型替换第一视频中的第一对象的3D模型，得到第二视频。由此，通过将第一视频中包括的第一对象的3D模型替换为第二对象的3D模型，能够实现对已有视频中的人物形象进行3D模型替换，得到三维立体的个性化视频，用户可以根据需求将视频中的人物替换为自己的形象，从而使用户参与到视频中，提高了用户的参与感和体验感。

本申请第三方面实施例提出了一种电子设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的视频生成方法。

本申请第四方面实施例提出了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的视频生成方法。

本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如第一方面实施例所述的视频生成方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种视频生成方法的流程示意图；

图2为本申请实施例所提供的另一种视频生成方法的流程示意图；

图3为本申请实施例所提供的又一种视频生成方法的流程示意图；

图4为本申请实施例所提供的一种视频生成装置的结构示意图；

图5为本申请实施例所提供的另一种视频生成装置的结构示意图；

图6为本申请实施例所提供的另一种视频生成装置的结构示意图；

图7为本申请实施例所提供的一种电子设备的结构示意图；

图8是图示根据本申请实施例的电子设备的硬件结构示意图；以及

图9是图示根据本申请的实施例的计算机可读存储介质的示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的视频生成方法和装置。

图1为本申请实施例所提供的一种视频生成方法的流程示意图。

如图1所示，该视频生成方法包括以下步骤：

步骤101，对第一视频中的第一对象进行深度信息采集，基于采集的深度信息，构建第一对象的3D模型。

其中，第一对象可以为参与录制第一视频的真人模特，例如为一个外国小孩，也可以是第一视频中的卡通人物形象。

作为一种示例，当第一对象为卡通人物形象时，第一视频可以是包括第一对象的3D动画，3D动画中的卡通人物形象和物体是以三维立体的形式呈现的，3D动画中的卡通人物形象携带有深度信息。从而，本示例中，可以从3D动画中直接获取第一对象的深度信息，并利用获取的深度信息构建第一对象的3D模型。例如，用户可以通过点选的方式，从第一视频中选择一个卡通人物形象作为第一对象，设备接收到用户对第一视频中的卡通人物形象的点击操作后，将该点击操作针对的卡通人物形象确定为用户选择的第一对象，并从第一视频中获取该卡通人物形象(即第一对象)的深度信息，利用深度信息构建第一对象的3D模型。

作为一种示例，当第一对象为真人模特时，第一视频可以为利用第一对象在真实场景、卡通场景等场景中录制的视频文件，例如，第一视频可以是录制的第一对象和一个外教老师在草地上进行对话或唱歌的视频，或者，第一视频可以是利用绿幕或蓝幕作为背景拍摄的第一对象参与的音乐短片片段、故事片段，等等。本示例中，可以在第一视频录制之前或之后，通过深度信息采集装置预先采集第一对象的深度信息并构建3D模型。

例如，可以在设备中设置结构光投射器，通过采集结构光在实际场景上的反射光来形成实际场景的深度信息。在需要获取第一对象的深度信息时，开启结构光投射器，结构光投射器发射的结构光到达第一对象后，第一对象对结构光造成阻碍，使结构光在第一对象处发生反射，形成反射光。此时，可以通过设备中安装的摄像头对结构光在第一对象上形成的反射光进行采集，利用采集到的反射光形成第一对象的深度信息。进而，可以根据采集的深度信息构建第一对象的3D模型。

构建第一对象的3D模型时，可以从深度信息中提取用于形成3D模型的各特征点数据，进而根据提取的特征点数据，将这些特征点连接成网络。比如根据各个点在空间上的距离关系，将相同平面的点，或者距离在阈值范围内的点连接成三角形网络，进而将这些网络进行拼接，即可构建出3D模型。

实际应用中，当第一对象为真人模特时，可以预先建立第一对象的3D模型，以及预先录制包括第一对象的第一视频，并预先存储第一对象的3D模型和对应的至少一个第一视频，以供用户选择。当用户想要参与的第一视频中仅包括一个人物形象时，用户选定第一视频后，第一对象的3D模型也随之确定；当用户想要参与的第一视频中包括至少两个人物形象时，用户选定第一视频后，可以将第一视频中包括的人物形象显示给用户，由用户选择其中一个作为第一对象，并在用户选定第一对象后，从预先存储的3D模型中确定出第一对象对应的3D模型。

步骤102，获取第二对象的脸部图像数据。

其中，第二对象为想要参与至第一视频中的人物，例如可以是用户本人，也可以是用户的家人、朋友等。

作为一种示例，获取第二对象的脸部图像数据时，可以通过图像传感器对第二对象进行人脸检测，获取脸部图像数据。例如，当用户想要参与到第一视频中时，用户可以开启设备的前置摄像头，并将人脸放置在前置摄像头的可视范围内，前置摄像头检测到人脸后，启动图像传感器采集用户的脸部图像数据。

作为一种示例，获取第二对象的脸部图像数据时，可以从第二对象的图像库中，获取包括第二对象的人脸区域的候选图像，再针对每个候选图像，提取人脸区域在候选图像中的占比，如果占比超出预设的阈值，则将候选图像作为目标图像，进而从目标图像中提取脸部图像数据。例如，可以将预设的阈值设置为50％，当人脸区域在候选图像中的占比达到50％时，将候选图像确定为目标图像。如果人脸区域在候选图像中的占比达到阈值的候选图像为多个时，可以将占比最高的候选图像确定为目标图像；如果候选图像中人脸区域的占比均未达到预设的阈值，则可以将占比最高的候选图像确定为目标图像，或者提醒第二对象开启摄像头来获取脸部图像数据。进而，可以采用相关的人脸识别技术，从确定的目标图像中提取出脸部图像数据。

通过将人脸区域在候选图像中的占比达到预设的阈值的图像确定为目标图像来提取脸部图像数据，能够保证获取到清晰度较高的脸部图像数据。

步骤103，将脸部图像数据，添加到第一对象的3D模型中，得到第二对象的3D模型。

本实施例中，获取了第二对象的脸部图像数据后，可以从第一对象的3D模型中识别出第一对象的人脸区域，进而，将第二对象的脸部图像数据放置在从第一对象的3D模型中识别出的第一对象的人脸区域上，得到第二对象的3D模型。

为了保证脸部图像数据贴合的准确性和完整性，避免第二对象的脸部图像数据添加到第一对象的3D模型中后形成的人脸过大或过小，导致得到的3D模型不够协调，在本申请实施例一种可能的实现方式中，可以从第一对象的3D模型中识别出人脸区域，并获取人脸区域的尺寸，进而根据获取的尺寸对第二对象的脸部图像数据所对应人脸图像的大小进行调整，使得调整后的人脸图像与3D模型中人脸区域的尺寸匹配，再将调整后的人脸图像贴合至人脸区域内，得到比较完整、协调的第二对象的3D模型。

步骤104，利用第二对象的3D模型，替换第一视频中的第一对象的3D模型，生成第二视频。

其中，第一视频为第二对象想要参与的视频文件，第一视频中包括第一对象；第二视频中包括第二对象的3D模型。

本实施例中，得到第二对象的3D模型后，可以将第一视频中的第一对象的3D模型替换为第二对象的3D模型，得到包括第二对象的3D模型的第二视频文件。

本实施例的视频生成方法，通过对第一视频中的第一对象进行深度信息采集，基于采集的深度信息构建第一对象的3D模型，获取第二对象的脸部图像数据，将脸部图像数据添加到第一对象的3D模型中的人脸区域内，得到第二对象的3D模型，进而利用第二对象的3D模型替换第一视频中的第一对象的3D模型，得到第二视频。由此，通过将第一视频中包括的第一对象的3D模型替换为第二对象的3D模型，能够实现对已有视频中的人物形象进行3D模型替换，得到三维立体的个性化视频，用户可以根据需求将视频中的人物替换为自己的形象，从而使用户参与到视频中，提高了用户的参与感和体验感。

为了更加清楚地描述前述实施例中利用第二对象的3D模型替换第一视频中的第一对象的3D模型，生成第二视频的具体实现过程，本申请实施例提出了另一种视频生成方法，

图2为本申请实施例所提供的另一种视频生成方法的流程示意图。

如图2所示，在如图1所示实施例的基础上，步骤104可以包括以下步骤：

步骤201，针对第一视频中的每帧第一画面，根据第一对象的特征信息，从第一画面中识别第一对象。

其中，第一对象的特征信息例如可以是第一对象的面部特征信息，包括眼睛、眉毛、鼻子、嘴巴、脸型中的一个或多个。

本实施例中，针对第一视频中的每帧第一画面，可以根据第一对象的特征信息，从第一画面中识别出第一对象。例如，可以将第一画面中所包含的各个人物形象的面部特征信息与第一对象的面部特征信息进行匹配，将匹配度最高的人物形象确定为第一对象。

步骤202，从第一画面中抠出第一对象的3D模型，在抠出第一对象的3D模型后的空白区域内，填补第二对象的3D模型，形成第二画面。

本实施例中，从第一画面中识别出第一对象后，可以将第一画面中第一对象的3D模型抠取出来，进而，将获取的第二对象的3D模型填补至第一画面中抠出第一对象的3D模型后的空白区域内，得到包含第二对象的3D模型的第二画面。

步骤203，利用第二画面，合成第二视频。

本实施例中，将每一帧第一画面中的第一对象的3D模型替换为第二对象的3D模型之后，得到对应的多帧第二画面，进而，利用第二画面，可以合成得到第二视频，其中，第二视频中包括第二对象的3D模型。

具体地，利用第二画面合成第二视频时，可以先从第一画面中提取第一对象的3D模型上的表情数据，再根据表情数据，控制与第一画面同一帧的第二画面中第二对象的3D模型上的表情，进而，利用携带表情的第二画面，合成第二视频。

具体实现时，可以在从第一画面中识别出第一对象之后，提取第一对象的3D模型上的表情数据，并将提取的表情数据进行缓存。进而，得到第二画面之后，利用缓存的第一对象的表情数据，对第二画面中的第二对象的3D模型上的表情进行控制，使第二画面中第二对象的3D模型上的表情与第一画面中第一对象的3D模型上的表情一致。

通过利用第一对象的3D模型上的表情数据控制第二画面中第二对象的3D模型上的表情，能够使得到的第二视频中，第二对象的表情与第一视频中第一对象的表情相符，提高第二视频中第二对象的表情的丰富性，使第二画面中的第二对象更加生动。

由于人与人之间的穿衣风格往往不同，尤其是男生和女生之间，着装的颜色、款式存在较大差别。为了提高第二视频中第二对象的真实性，使得第二视频中的第二对象符合其自身的真实形象，在本申请实施例一种可能的实现方式中，在获取第二对象的脸部图像数据时，还可以同步获取第二对象的服饰特征，其中，服饰特征例如可以包括但不限于第二对象着装的样式、颜色等。从而，在利用第二画面合成第二视频之前，还可以利用获取的第二对象的服饰特征，更新第二画面中第二对象的服饰特征，以为第二画面中服饰特征为第一对象的服饰特征的第二对象，更新服饰特征，使得更新服饰特征后，第二画面中的第二对象的服饰特征与第二对象的实际着装相一致，提高第二视频中第二对象的真实性。

由于参与录制第一视频的第一对象可能与第二对象所属的国别不同，而不同国别的人的肤色可能不同，比如，欧洲国家的人的肤色为白色，而亚洲国家的人的肤色为黄色。为了提高第二视频中第二对象的真实性，使得第二视频中的第二对象的肤色与其真实的肤色一致，在本申请实施例一种可能的实现方式中，在获取第二对象的脸部图像数据时，还可以从脸部图像数据中获取第二对象的肤色特征。例如，可以获取脸部图像数据中人脸区域像素点的颜色值，进而根据颜色值确定第二对象的肤色特征。进而，在利用第二画面合成第二视频之前，还可以利用获取的第二对象的肤色特征，更新第二画面中第二对象的肤色特征，其中，更新前第二对象的肤色特征为第一对象的肤色特征。从而，利用获取的第二对象的肤色特征对第二画面中第二对象的肤色特征进行更新后，能够使得第二画面中第二对象的肤色特征与第二对象自身的肤色一致，提高第二视频中第二对象的真实性。

本实施例的视频生成方法，通过针对第一视频中的每帧第一画面，根据第一对象的特征信息从第一画面中识别出第一对象，再从第一画面中抠出第一对象的3D模型，在抠出第一对象的3D模型后的空白区域内，填补第二对象的3D模型形成第二画面，进而利用第二画面合成第二视频，能够将视频中的人物形象替换为用户自身的形象，实现了视频的个性化编辑，提高了用户的参与感和体验感。

为了更加清楚地描述前述实施例中将脸部图像数据添加到第一对象的3D模型中，以得到第二对象的3D模型，本申请实施例提出了另一种视频生成方法，图3为本申请实施例所提供的又一种视频生成方法的流程示意图。

如图3所示，在如图1所示实施例的基础上，步骤103可以包括以下步骤：

步骤301，从脸部图像数据中，识别第二对象的关键点位置，根据第二对象每个关键点位置，获取第二对象关键点的第一中心点。

其中，第二对象的关键点例如可以是第二对象的眼睛、眉毛、嘴巴、鼻子和耳朵。

本实施例中，获取了第二对象的脸部图像数据后，可以根据耳朵、鼻子等面部器官的形状，从脸部图像数据中识别出第二对象的关键点位置，进而根据第二对象每个关键点的位置，获取第二对象关键点的第一中心点。

示例一，第一中心点可以为一个。本示例中，第一中心点可以是第二对象的鼻子所在的区域；或者，第一中心点可以根据第二对象的所有关键点的位置确定，可以将包括第二对象的所有关键点在内的最小圆形区域的圆点作为第一中心点，或者将包括第二对象的所有关键点在内的最小矩形区域的两条对角线的交点作为第一中心点，本申请对第一中心点的确定方式不做限定。

示例二，第一中心点的个数与关键点的个数一致。本示例中，针对每个关键点，第一中心点可以根据该关键点所覆盖区域的中心位置确定。例如，当关键点为眼睛时，第一中心点可以是眼睛的中心位置所在的像素点；当关键点为嘴巴时，第一中心点可以是嘴角连线的中点。

步骤302，从第一对象的3D模型中，识别第一对象的人脸区域，并从人脸区域中识别第一对象的关键点位置，根据第一对象每个关键点位置，获取第一对象关键点的第二中心点。

本实施例中，对于构建的第一对象的3D模型，可以采用人脸识别技术从第一对象的3D模型中识别出第一对象的人脸区域，并根据耳朵、鼻子等面部器官的形状，从第一对象的人脸区域中识别出第一对象的关键点位置。其中，第一对象的关键点与第二对象的关键点包括相同的面部器官，例如，第二对象的关键点为耳朵和鼻子，识别的第一对象的关键点也包括耳朵和鼻子；第二对象的关键点为嘴巴、眼睛和鼻子，识别的第一对象的关键点也包括嘴巴、眼睛和鼻子。进而，可以采用与获取第二对象关键点的第一中心点相同的方式，根据第一对象每个关键点位置，获取第一对象关键点的第二中心点。

步骤303，根据第一中心点和第二中心点，将脸部图像数据，添加到第一对象的3D模型中的人脸区域内。

本实施例中，获取了第一中心点和第二中心点之后，可以根据第一中心点和第二中心点，将第二对象的脸部图像数据添加到第一对象的3D模型中的人脸区域内，得到第二对象的3D模型。

示例一，当第一中心点和第二中心点的个数为一个时，可以将第一中心点放置在第二中心点所在的位置处，之后再根据第二对象的关键点与第一中心点的相对位置关系，将第二对象的关键点贴合到第一对象的3D模型中的人脸区域内。

示例二，当第一中心点和第二中心点的个数为多个时，可以针对第一对象和第二对象相同的关键点，根据该关键点对应的第一中心点和第二中心点，将第二对象的该关键点贴合在第一对象的3D模型中的人脸区域内。

本实施例的视频生成方法，通过从脸部图像数据中识别第二对象的关键点，并获取第二对象关键点的第一中心点，并从第一对象的3D模型中识别出第一对象的人脸区域，再从人脸区域中识别第一对象的关键点位置，根据第一对象每个关键点位置获取第一对象关键点的第二中心点，进而根据第一中心点和第二中心点，将脸部图像数据添加到第一对象的3D模型中的人脸区域内，得到第二对象的3D模型，能够得到与第一对象的3D模型轮廓一致的第二对象的3D模型，以为利用第二对象的3D模型替换第一视频中第一对象的3D模型提供条件。

为了实现上述实施例，本申请还提出一种视频生成装置。

图4为本申请实施例所提供的一种视频生成装置的结构示意图。

如图4所示，该视频生成装置40包括：构建模块410、获取模块420、贴合模块430，以及生成模块440。

其中，构建模块410，用于对第一视频中的第一对象进行深度信息采集，基于采集的深度信息，构建第一对象的3D模型。

获取模块420，用于获取第二对象的脸部图像数据。

具体地，获取模块420用于通过图像传感器，对第二对象进行人脸检测，获取脸部图像数据；或者，先从第二对象的图像库中，获取包括第二对象的人脸区域的候选图像，再针对每个候选图像，提取人脸区域在候选图像中的占比，如果占比超出预设的阈值，则将候选图像作为目标图像，进而从目标图像中提取脸部图像数据。

贴合模块430，用于将脸部图像数据，添加到第一对象的3D模型中，得到第二对象的3D模型。

生成模块440，用于利用第二对象的3D模型，替换第一视频中的第一对象的3D模型，生成第二视频。

进一步地，在本申请实施例的一种可能的实现方式中，如图5所示，在如图4所示实施例的基础上，生成模块440可以包括：

识别单元441，用于针对第一视频中的每帧第一画面，根据第一对象的特征信息，从第一画面中识别第一对象。

填补单元442，用于从第一画面中抠出第一对象的3D模型，在抠出第一对象的3D模型后的空白区域内，填补第二对象的3D模型，形成第二画面。

合成单元443，用于利用第二画面，合成第二视频。

具体地，合成单元443用于从第一画面中提取第一对象的3D模型上的表情数据；根据表情数据，控制与第一画面同一帧的第二画面中第二对象的3D模型上的表情；利用携带表情的第二画面，合成第二视频。

在本申请实施例一种可能的实现方式中，获取模块420在获取第二对象的脸部图像数据时，还可以获取第二对象的服饰特征。从而，本实施例中，合成单元443还用于在合成第二视频之前，利用获取的第二对象的服饰特征，更新第二画面中第二对象的服饰特征；其中，更新前第二对象的服饰特征为第一对象的服饰特征，以使第二画面中的第二对象的服饰特征与第二对象的实际着装相一致，提高第二视频中第二对象的真实性。

在本申请实施例一种可能的实现方式中，获取模块420在获取第二对象的脸部图像数据时，还可以从脸部图像数据中，获取第二对象的肤色特征。从而，本实施例中，合成单元443还用于在合成第二视频之前，利用获取的第二对象的肤色特征，更新第二画面中第二对象的肤色特征；其中，更新前第二对象的肤色特征为第一对象的肤色特征，以使第二画面中第二对象的肤色特征与第二对象自身的肤色一致，提高第二视频中第二对象的真实性。

通过针对第一视频中的每帧第一画面，根据第一对象的特征信息从第一画面中识别出第一对象，再从第一画面中抠出第一对象的3D模型，在抠出第一对象的3D模型后的空白区域内，填补第二对象的3D模型形成第二画面，进而利用第二画面合成第二视频，能够将视频中的人物形象替换为用户自身的形象，实现了视频的个性化编辑，提高了用户的参与感和体验感。

在本申请实施例一种可能的实现方式中，如图6所示，在如图4所示实施例的基础上，贴合模块430可以包括：

获取单元431，用于从脸部图像数据中，识别第二对象的关键点位置，根据第二对象每个关键点位置，获取第二对象关键点的第一中心点；以及，从第一对象的3D模型中，识别第一对象的人脸区域，并从人脸区域中识别第一对象的关键点位置，根据第一对象每个关键点位置，获取第一对象关键点的第二中心点。

贴合单元432，用于根据第一中心点和第二中心点，将脸部图像数据，添加到第一对象的3D模型中的人脸区域内。

通过获取第二对象关键点的第一中心点以及第一对象关键点的第二中心点，进而根据第一中心点和第二中心点，将脸部图像数据添加到第一对象的3D模型中的人脸区域内，得到第二对象的3D模型，能够得到与第一对象的3D模型轮廓一致的第二对象的3D模型，以为利用第二对象的3D模型替换第一视频中第一对象的3D模型提供条件。

需要说明的是，前述对视频生成方法实施例的解释说明也适用于该实施例的视频生成装置，其实现原理类似，此处不再赘述。

本实施例的视频生成装置，通过对第一视频中的第一对象进行深度信息采集，基于采集的深度信息构建第一对象的3D模型，获取第二对象的脸部图像数据，将脸部图像数据添加到第一对象的3D模型中，得到第二对象的3D模型，进而利用第二对象的3D模型替换第一视频中的第一对象的3D模型，得到第二视频。由此，通过将第一视频中包括的第一对象的3D模型替换为第二对象的3D模型，能够实现对已有视频中的人物形象进行3D模型替换，得到三维立体的个性化视频，用户可以根据需求将视频中的人物替换为自己的形象，从而使用户参与到视频中，提高用户的参与感和体验感。

为了实现上述实施例，本申请还提出一种电子设备。

图7为本申请实施例所提供的一种电子设备的结构示意图。如图7所示，该电子设备80包括：处理器801和存储器802。其中，处理器801通过读取存储器802中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述实施例所述的视频生成方法。

图8是图示根据本申请实施例的电子设备的硬件结构示意图。电子设备可以以各种形式来实施，本申请中的电子设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。

如图8所示，电子设备1100可以包括无线通信单元1110、A/V(音频/视频)输入单元1120、用户输入单元1130、感测单元1140、输出单元1150、存储器1160、接口单元1170、控制器1180和电源单元1190等等。图8示出了具有各种组件的终端设备，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。

其中，无线通信单元1110允许电子设备1100与无线通信系统或网络之间的无线电通信。A/V输入单元1120用于接收音频或视频信号。用户输入单元1130可以根据用户输入的命令生成键输入数据以控制电子设备的各种操作。感测单元1140检测电子设备1100的当前状态、电子设备1100的位置、用户对于电子设备1100的触摸输入的有无、电子设备1100的取向、电子设备1100的加速或减速移动和方向等等，并且生成用于控制电子设备1100的操作的命令或信号。接口单元1170用作至少一个外部装置与电子设备1100连接可以通过的接口。输出单元1150被构造为以视觉、音频和/或触觉方式提供输出信号。存储器1160可以存储由控制器1180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器1160可以包括至少一种类型的存储介质。而且，电子设备1100可以与通过网络连接执行存储器1160的存储功能的网络存储装置协作。控制器1180通常控制电子设备的总体操作。另外，控制器1180可以包括用于再现或回放多媒体数据的多媒体模块。控制器1180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元1190在控制器1180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

本申请提出的视频生成方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，本申请提出的视频生成方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，本申请提出的视频生成方法的各种实施方式可以在控制器1180中实施。对于软件实施，本申请提出的视频生成方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器1160中并且由控制器1180执行。

为了实现上述实施例，本申请还提出一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述实施例所述的视频生成方法。

图9是图示根据本申请的实施例的计算机可读存储介质的示意图。如图9所示，根据本申请实施例的计算机可读存储介质300，其上存储有非暂态计算机可读指令310。当该非暂态计算机可读指令310由处理器运行时，执行前述的本申请各实施例的视频生成方法的全部或部分步骤。

为了实现上述实施例，本申请还提出一种计算机程序产品，当该计算机程序产品中的指令由处理器执行时，实现如前述实施例所述的视频生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频生成方法，其特征在于，包括：

获取第二对象的脸部图像数据；

2.根据权利要求1所述的方法，其特征在于，所述利用所述第二对象的3D模型，替换所述第一视频中的所述第一对象的3D模型，生成第二视频，包括：

针对所述第一视频中的每帧第一画面，根据所述第一对象的特征信息，从所述第一画面中识别所述第一对象；

从所述第一画面中抠出所述第一对象的3D模型，在抠出所述第一对象的3D模型后的空白区域内，填补所述第二对象的3D模型，形成第二画面；

利用所述第二画面，合成所述第二视频。

3.根据权利要求2所述的方法，其特征在于，所述利用所述第二画面合成所述第二视频，包括：

从所述第一画面中提取所述第一对象的3D模型上的表情数据；

根据所述表情数据，控制与所述第一画面同一帧的所述第二画面中所述第二对象的3D模型上的表情；

利用携带表情的所述第二画面，合成所述第二视频。

4.根据权利要求2或3所述的方法，其特征在于，还包括：

在获取所述第二对象的脸部图像数据时，同步获取所述第二对象的服饰特征；

所述合成所述第二视频之前，还包括：

利用获取的所述第二对象的服饰特征，更新所述第二画面中所述第二对象的服饰特征；其中，更新前所述第二对象的服饰特征为所述第一对象的服饰特征。

5.根据权利要求2或3所述的方法，其特征在于，还包括：

从所述脸部图像数据中，获取所述第二对象的肤色特征；

所述合成所述第二视频之前，还包括：

利用获取的所述第二对象的肤色特征，更新所述第二画面中所述第二对象的肤色特征；其中，更新前所述第二对象的肤色特征为所述第一对象的肤色特征。

6.根据权利要求1所述的方法，其特征在于，所述将所述脸部图像数据，添加到所述第一对象的3D模型中，包括：

从所述脸部图像数据中，识别所述第二对象的关键点位置，根据所述第二对象每个关键点位置，获取所述第二对象关键点的第一中心点；

从所述第一对象的3D模型中，识别所述第一对象的人脸区域，并从所述人脸区域中识别所述第一对象的关键点位置，根据所述第一对象每个关键点位置，获取所述第一对象关键点的第二中心点；

根据所述第一中心点和所述第二中心点，将所述脸部图像数据，添加到所述第一对象的3D模型中的人脸区域内。

7.根据权利要求1所述的方法，其特征在于，所述获取第二对象的脸部图像数据，包括：

通过图像传感器，对所述第二对象进行人脸检测，获取所述脸部图像数据；或者，

从所述第二对象的图像库中，获取包括所述第二对象的人脸区域的候选图像；

针对每个候选图像，提取所述人脸区域在所述候选图像中的占比，如果所述占比超出预设的阈值，则将所述候选图像作为目标图像；

从所述目标图像中提取所述脸部图像数据。

8.一种视频生成装置，其特征在于，包括：

获取模块，用于获取第二对象的脸部图像数据；

9.一种电子设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-7中任一项所述的视频生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的视频生成方法。