CN115174825B

CN115174825B - 一种配音方法、装置、电子设备以及存储介质

Info

Publication number: CN115174825B
Application number: CN202210778985.5A
Authority: CN
Inventors: 刘坚; 李秋平; 王明轩
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-11-22
Anticipated expiration: 2042-06-30
Also published as: CN115174825A

Abstract

本公开涉及一种配音方法、装置、电子设备以及存储介质，方法包括：获取与待配音视频对应的第一配音音频；基于所述第一配音音频，对所述待配音视频中与所述第一配音音频对应的图像信息进行口型修正；将口型修正后的所述图像信息与所述第一配音音频进行合成，得到配音后的视频。其通过对图像信息中人物口型进行修正，使得修正后图像中人物口型与配音一致，达到提高配音质量的目的，减少观众观看配音后的视频时因人物口型与人物语音不协调，导致观看过程中出戏的不良状况出现的几率。

Description

一种配音方法、装置、电子设备以及存储介质

技术领域

本公开涉及配音技术领域，尤其涉及一种配音方法、装置、电子设备以及存储介质。

背景技术

为提高海外影视作品在国内的传播度，需要对影视内容的语言做本土化处理，主要有“译制配音”和“原声加字幕”两种处理方式。其中，“译制配音”的方式能够充分降低观众对影视作品的理解难度，深受观众的喜爱。

目前，海外影视作品推广受限。因此，如何提高海外影视作品译制配音的配音质量是目前亟待解决的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种配音方法、装置、电子设备以及存储介质。

第一方面，本公开提供了一种配音方法，包括：

获取与待配音视频对应的第一配音音频；

基于所述第一配音音频，对所述待配音视频中与所述第一配音音频对应的图像信息进行口型修正；

将口型修正后的所述图像信息与所述第一配音音频进行合成，得到配音后的视频。

第二方面，本公开还提供了一种配音装置，包括：

获取模块，用于获取与待配音视频对应的第一配音音频；

修正模块，用于基于所述第一配音音频，对所述待配音视频中与所述第一配音音频对应的图像信息进行口型修正；

合成模块，用于将口型修正后的所述图像信息与所述第一配音音频进行合成，得到配音后的视频。

第三方面，本公开还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的配音方法。

第四方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的配音方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的技术方案获取与待配音视频对应的第一配音音频；基于第一配音音频，对待配音视频中与第一配音音频对应的图像信息进行口型修正；将口型修正后的图像信息与第一配音音频进行合成，得到配音后的视频。其通过对图像信息中人物口型进行修正，使得修正后图像中人物口型与配音一致，达到提高配音质量的目的，减少观众观看配音后的视频时因人物口型与人物语音不协调，导致观看过程中出戏的不良状况出现的几率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种配音方法的流程图；

图2为本公开实施例提供的另一种配音方法的流程图；

图3为本公开实施例提供的一种译文校对界面的示意图；

图4为本公开实施例提供的另一种译文校对界面的示意图；

图5为本公开实施例提供的另一种配音方法的流程图；

图6为本公开实施例提供的另一种配音方法的流程图；

图7为本公开实施例中的一种配音装置的结构示意图；

图8为本公开实施例中的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

图1为本公开实施例提供的一种配音方法的流程图，本实施例可适用于客户端中对视频进行配音的情况，该方法可以由配音装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如终端，具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。或者，本实施例可适用于服务端中对视频进行配音的情况，该方法可以由配音装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器。

如图1所示，该方法具体可以包括：

S110、获取与待配音视频对应的第一配音音频。

待配音视频是指需要配音的视频。可选地，待配音视频包括网剧、纪录片等快制作，也可以为大体量的影视作品，如电影、电视剧等。

第一配音音频是配音后希望呈现的语音信息。第一配音音频可以通过对配音员进行录音得到，也可以通过软件生成。在实际中，第一配音音频是对视频中角色的对话、自白或旁白进行配音，得到的语音信息。

第一配音音频的语种与待配音视频的语种可以相同，也可以不同。语种不同是指语言的类型不同，语言的类型可以按照国家或地域划分，比如，中文和英文属于不同语种，韩文和日文属于不同语种，四川方言和上海方言属于不同语种，英式英语和美式英语属于不同语种。

本步骤的实现方法有多种，本申请对此不作限制，示例性地，本步骤的实现方法包括：获取与待配音视频对应的原始文本；原始文本的语种与待配音视频的语种相同；基于原始文本，得到最终译文文本；最终译文文本对应的音素数与目标音素数的差值的绝对值小于或等于设定阈值；目标音素数基于原始文本对应的音频信息在待配音视频中的持续时长确定；获取与最终译文文本对应的第一配音音频。

S120、基于第一配音音频，对待配音视频中与第一配音音频对应的图像信息进行口型修正。

本步骤的实现方法有多种，本申请对此不作限制。示例性地，本步骤的实现方法包括：确定第一配音音频所包括的音素；确定与各音素对应的口型；利用与各音素对应的口型，对待配音视频中与第一配音音频对应的图像信息进行口型修正。其中，音素是指根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。

在一个实施例中，预先构建口型数据库，口型数据库存储有多个音素与口型的对应关系数据组。通过对第一配音音频进行解析，可以得到第一配音音频对应的所有音素。进一步结合待配音视频，可以得到各音素对应的时间戳。

本领域技术人员可以理解，为了达到配音的效果，后续需要将第一配音音频与待配音视频的图像信息进行合成。在合成后，第一配音音频中的每一个音素将对应一个具体的时间信息，该时间信息为该音素对应的时间戳。通过查询口型数据库，可以得到第一配音音频中各音素对应的口型，基于各音素对应的时间戳，可以得到各音素对应的图像信息，利用各音素对应的口型对各音素对应的图像信息进行修正，即可得到修正后的图像信息。

示例性地，第一配音音频中第一个音素〔m〕的时间戳为1:20:35。该音素〔m〕的口型为口型M，从待配音视频中分离出时间戳为1:20:35 的图像信息，利用口型M对时间戳为1:20:35的图像信息进行修正。如此反复，直至基于第一配音音频中的各个音素，对待配音视频中的图像信息修正完毕，得到最终经过口型修正后的图像信息。

可选地，口型数据库可以根据视频中音频以及图像信息中的唇形进行计算得到，进而得到口型数据库。

可选地，在实际中，可以构建公共的口型数据库，即无论对哪个待配音视频进行配音，均通过查询该公共的口型数据库，以得到第一配音音频中各音素对应的口型。或者，可以针对每一个待配音视频分别建立与之对应的口型数据库。在进行口型修正时，查询与待配音视频对应的口型数据库。或者，可以针对每一个角色的扮演者分别建立与之对应的口型数据库。在进行口型修正时，查询与第一配音音频所属角色的扮演者对应的口型数据库。

S130、将口型修正后的图像信息与第一配音音频进行合成，得到配音后的视频。

上述技术方案获取与待配音视频对应的第一配音音频；基于第一配音音频，对待配音视频中与第一配音音频对应的图像信息进行口型修正；将口型修正后的图像信息与第一配音音频进行合成，得到配音后的视频。其通过对图像信息中人物口型进行修正，使得修正后图像中人物口型与配音一致，达到提高配音质量的目的，减少观众观看配音后的视频时因人物口型与人物语音不协调，导致观看过程中出戏的不良状况出现的几率。

图2为本公开实施例提供的一种用于实现图1中步骤S110方法的流程图。参见图2，该方法包括：

S111、获取与待配音视频对应的原始文本；原始文本的语种与待配音视频的语种相同，执行S112。

原始文本是作为翻译基础的文本信息。在实际中，若待配音视频包括字幕信息，原始文本为从待配音视频直接分离出的字幕信息。若待配音视频不包括字幕信息，原始文本为对待配音视频进行音频提取，并基于提取到的音频进行语音识别获得的文本信息。

S112、基于原始文本，得到中间译文文本，执行S113。

中间译文文本是对原始文本进行翻译，得到的翻译结果。

S113、判断中间译文文本对应的音素数与目标音素数的差值的绝对值是否小于或等于设定阈值；若是，执行S114；若否，执行S115。

在本步骤中，音素的概念与前文中在介绍口型修正部分所提及的音素的概念一致。

中间译文文本对应的音素数是指，如果将该中间译文文本转化为音频后，该音频对应的音素的个数。换言之，中间译文文本对应的音素数，是指说出中间译文文本时，需要说出的音素的总个数。

目标音素数基于原始文本对应的音频信息在音视频中的持续时长确定。具体地，目标音素数是指原始文本对应的音频信息在待配音视频中的持续时长内可以容纳的音素的个数。其中，“可以容纳”应当理解为，以预设语速进行配音，在该持续时长内，可以说出的音素的个数。本申请对预设语速不作限制，但需要确保在该预设语速下，用户可以理解配音所表达的内容。

S114、将中间译文文本作为最终译文文本，执行S116。

如果中间译文文本对应的音素数与目标音素数的差值的绝对值小于或等于设定阈值，认为该中间译文文本达标，因此，将该中间译文文本作为最终译文文本。

S115、响应于对中间译文文本的修改指令，对中间译文文本进行修改，执行S113。

如果中间译文文本对应的音素数与目标音素数的差值的绝对值大于设定阈值，认为该中间译文文本不达标，需要对将该中间译文文本继续修改。修改后，执行S113，即再次判断修改后的中间译文文本是否达标。

S116、获取与最终译文文本对应的第一配音音频。

上述技术方案可以确保最终译文文本对应的音素数较为合适，后续基于最终译文文本得到的第一配音音频对应的音素数较为合适，将第一配音音频与修正后的图像信息合成后，所得到的视频，在达到“声画同步”的效果的前提下，各角色语速恰当，不会出现某一角色说话语速出现过快或过慢的情况，降低视频的理解难度，提高配音质量。

在上述技术方案的基础上，可选地，该方法还包括：展示译文校对界面，译文校对界面包括原始文本、中间译文文本以及校对目标信息；校对目标信息用于指示中间译文文本对应的音素数与目标音素数的差值的绝对值是否小于或等于设定阈值。其中，译文校对界面是指辅助校对员对中间译文文本进行校对的页面。并且，译文校对界面可允许校对员对中间译文文本进行编辑、修改。由于译文校对界面能够直接同步展示原始文本、中间译文文本以及校对目标信息，在校对过程中，校对员根据校对目标信息明确当前中间译文存在的问题，并基于原始文本信息，对中间译文文本信息进行修改，以达到校对的目的，可以降低对中间译文文本的校对难度。

可选地，响应于对中间译文文本的修改指令，对中间译文文本进行修改之后，还包括：更新校对目标信息。这样设置辅助校对员再次了解修改后的中间译文文本是否仍然存在问题。

在上述各技术方案的基础上，原始文本包括一个或多个子原始文本；中间译文文本包括一个或多个子中间译文文本；校对目标信息包括一个或多个子校对目标信息；一个子原始文本、一个子中间译文文本以及一个子校对目标信息构成一个校对信息组；在任意一个校对信息组中，子原始文本、子中间译文文本以及子校对目标信息三者具有对应关系。这样设置的实质是，通过化整为零的方式，降低校对中间译文文本的难度。可选地，在实际中，一句话为一个子原始文本。

在实际中，利用译文校对界面对原始文本、中间译文文本以及校对目标信息进行展示的展示方法有多种，本申请对此不作限制。下面示例性地给出两种展示方法。

方法一

译文校对界面包括第一区域和第二区域。各子原始文本沿竖向依次显示在第一区域，各子中间译文文本沿竖向依次显示在第二区域；各子校对目标信息显示在第二区域，且各子校对目标信息的显示位置和与其对应的子中间译文文本的显示位置之间的距离小于设定距离阈值；在任意一个校对信息组中，子原始文本和子中间译文文本呈横向的对照关系。

其中，各子校对目标信息的显示位置和与其对应的子中间译文文本的显示位置之间的距离小于设定距离阈值，是指，各子校对目标信息和与其对应的子中间译文文本的距离较近，使得校对员可以直观地明确各子校对目标信息和各子中间译文文本的对应关系。

图3为本公开实施例提供的一种译文校对界面的示意图。参见图3，该译文校对界面包括第一区域A和第二区域B。原始文本10包括子原始文本11、子原始文本12、以及子原始文本13。子原始文本11、子原始文本12、以及子原始文本13沿竖向依次均被展示在第一区域A 中。中间译文文本20包括子中间译文文本21、子中间译文文本22、以及子中间译文文本23。子中间译文文本21、子中间译文文本22、以及子中间译文文本23沿竖向依次均被展示在第二区域B中。校对目标信息30包括子校对目标信息31、子校对目标信息32以及子校对目标信息33。子校对目标信息31、子校对目标信息32以及子校对目标信息33沿竖向依次均被展示在第二区域B中。

子原始文本11、子中间译文文本21以及子校对目标信息31构成一个校对信息组。子中间译文文本21是对子原始文本11的翻译结果，子校对目标信息31用于指示子中间译文文本21对应的音素数与该校对信息组的目标音素数的差值的绝对值是否小于或等于设定阈值。该校对信息组的目标音素数基于子原始文本11对应的音频信息在待配音视频中的持续时长确定。因此，子原始文本11、子中间译文文本21以及子校对目标信息31三者具有对应关系。

子原始文本12、子中间译文文本22以及子校对目标信息32三者之间的关系，子原始文本13、子中间译文文本23以及子校对目标信息 33三者之间的关系，与子原始文本11、子中间译文文本21以及子校对目标信息31三者之间的关系类似，此处不再赘述。

继续参见图3，在任意一个校对信息组中，子原始文本和子中间译文文本呈横向的对照关系，子校对目标信息位于与其对应的子中间译文文本的右上角处，以方便校对员明确各子中间译文文本存在的问题，参考各子原始文本，对各子中间译文文本进行校对，有助于提高校对效率与精度。

方法二

译文校对界面包括第三区域；各校对信息组沿竖向依次显示在第三区域；在任意一个校对信息组中，子原始文本、子中间译文文本呈竖向的对照关系；各子校对目标信息的显示位置和与其对应的子中间译文文本的显示位置小于设定距离阈值。

同样地，各子校对目标信息的显示位置和与其对应的子中间译文文本的显示位置之间的距离小于设定距离阈值，是指，各子校对目标信息和与其对应的子中间译文文本的距离较近，使得校对员可以直观地明确各子校对目标信息和各子中间译文文本的对应关系。

图4为本公开实施例提供的另一种译文校对界面的示意图。参见图4，译文校对界面包括第三区域C；各校对信息组沿竖向依次排列在第三区域C。任一校对信息组中的子原始文本和子中间译文文本竖向排列。例如，第一个校对信息组中的子原始文本11、子中间译文文本 21竖向排列。第二个校对信息组中的子原始文本12、子中间译文文本 22竖向排列。第三个校对信息组中的子原始文本13、子中间译文文本23竖向排列。

各子校对目标信息位于与其对应的子中间译文文本的右上角。示例性地，子校对目标信息31位于与其对应的子中间译文文本21的右上角，以方便校对员明确各子中间译文文本存在的问题，参考各子原始文本，对各子中间译文文本进行校对，有助于提高校对效率与精度。

需要说明的是，在上述实施例中，各子校对目标信息的显示位置还可以位于与其对应的子中间译文文本的显示位置的左侧、右侧、上方或下方等。

在一个实施例中，在任意一个校对信息组中，若当前子中间译文文本对应的音素数与校对信息组对应的目标音素数的差值的绝对值小于或等于设定阈值，子校对目标信息处于目标达成状态；若当前子中间译文文本对应的音素数与校对信息组对应的目标音素数的差值的绝对值大于设定阈值，子校对目标信息处于目标未达成状态；校对信息组对应的目标音素数基于校对信息组中子原始文本确定。

示例性地，设置设定阈值为0，继续参见图3或图4，第一个校对信息组中，子中间译文文本21对应的音素数与该校对信息组目标音素数的差值等于0，该校对信息组的子校对目标信息31处于目标达成状态。第二个校对信息组中，子中间译文文本22对应的音素数与该校对信息组对应的目标音素数的差值等于-5，其绝对值(为5)大于0，该校对信息组的子校对目标信息32处于目标未达成状态。第三个校对信息组中，子中间译文文本23对应的音素数与该校对信息组对应的目标音素数的差值等于+1，其绝对值(为1)大于0，该校对信息组的子校对目标信息33处于目标未达成状态。

在一个实施例中，“校对信息组对应的目标音素数基于校对信息组中子原始文本确定”的具体实现方法可以包括：基待配音视频，得到任一子原始文本的开始时刻和结束时刻，进而得到任一子原始文本的持续时长。由于持续时长和其可容纳的音素数成正比，可以预先构建持续时长和其可容纳的音素数的函数关系，该函数关系以持续时长为自变量，以可容纳的音素数为因变量。基于该函数关系以及任一子原始文本的持续时长，可以得到在任一子原始文本的持续时长内可以容纳的音素数，即任一子原始文本所属的校对信息组的目标音素数。

在一个实施例中，处于目标达成状态的子校对目标信息包括目标达成提示符；处于目标未达成状态的子校对目标信息包括当前子中间译文文本对应的音素数与目标音素数的差值。继续参见图3或图4，目标达成提示符为“√”。这样设置可以便于校对员快速明了哪些子中间译文文本达标，不需要继续修改；哪些子中间译文文本未达标，需要继续修改，进而提高校对的效率。

可选地，在实际中，还可以设置处于目标未达成状态的子校对目标信息包括目标音素数与当前子中间译文文本对应的音素数的差值。

在另一个实施例中，处于目标达成状态的子校对目标信息的背景颜色与处于目标未达成状态的子校对目标信息的背景颜色不同；和/或，处于目标达成状态的校对目标信息的边框颜色与处于目标未达成状态的校对目标信息的边框颜色不同。这样设置可以便于校对员快速明了哪些子中间译文文本达标，不需要继续修改；哪些子中间译文文本未达标，需要继续修改，进而提高校对的效率。

在上述各技术方案的基础上，可选地，继续参见图3或图4，译文校对界面还包括音视频播放窗口D，该音视频播放窗口D用于播放待配音视频。这样设置便于校对员能够边看视频和/或边听音频，边进行子中间译文文本的校对，可以满足校对员多样化的校对需求。

图5为本公开实施例提供的另一种配音方法的流程图。图5为图1 中的一个具体示例。参见图5，该方法包括：

S210、获取与待配音视频对应的第一配音音频。

第一配音音频可以通过对配音员进行录音得到，也可以通过软件生成。

若第一配音音频通过对配音员进行录音得到，其包括配音员赋予的情绪特征信息以及语流特征信息，缺少第一配音音频所属角色的音色特征信息。

语流是由字、词、句所组合的表意素材创造出来的语言表达流程。在语流中由于受到相邻音节的相邻音素的影响，一些音节中的声母、韵母或声调会发生语音的变化，这现象被称为语流音变。语流音变包括同化、异化、弱化以及脱落。同化是指，语流中两个相邻的不同的音，其中一个受到另一个的影响，在某一个或几个特征上变得跟它相同或相近。异化是指，两个本来相同或相近的音，其中一个由于某种原因变得跟自己原来的发音不同了。弱化是指，在语流中，有些音的发音可能变得比原来更弱更轻了。脱落是指，语流中有些音在连读时因缩并等原因而不再发音或消失了。语流特征信息包括同化、异化、弱化以及脱落中的至少一种。

若第一配音音频通过软件生成，第一配音音频缺少第一配音音频所属角色的音色特征信息、情绪特征信息以及语流特征信息。

S220、将第一配音音频与目标语音特征信息融合，得到第二配音音频；目标语音特征信息为在待配音视频中，第一配音音频所属角色的语音特征信息。

语音特征信息是指角色在说话时所呈现的特征信息。由于不同角色在说话时所伴随的语音特征不同。根据语音特征信息，观众可以很容易区分是哪个角色在说话。目标语音特征信息为在待配音视频中，第一配音音频所属角色的语音特征信息。

示例性地，若待配音视频包括角色A与角色B进行对话的情节，对角色A进行配音，角色A所说的话为“ZZZZZZZ”，配音员结合待配音的剧情，有感情地说出“ZZZZZZZ”，利用录音设备对配音员所说“ZZZZZZZ”进行语音采集，得到第一配音音频。目标语音特征信息是指角色A的语音特征信息。

第二配音音频是将第一配音音频与目标语音特征信息融合后的结果。

本步骤的实现方法有多种，本申请对此不作限制。示例性地，基于跨语种TTS(语音合成，Text To Speech)模型，将第一配音音频与目标语音特征信息融合，得到第二配音音频；跨语种TTS模型基于对待配音视频对应的原始文本以及原始音频学习得到。

具体地，首先基于待配音视频对应的原始文本以及原始音频进行机器学习，得到跨语种TTS模型。所得到的跨语种TTS模型已习得了目标语音特征信息，将第一配音音频输入到跨语种TTS模型后，跨语种TTS模型可以将第一配音音频与所习得的目标语音特征信息融合，得到第二配音音频。

可选地，若第一配音音频通过对配音员进行录音得到，目标语音特征信息包括第一配音音频所属角色的音色特征信息。或者，若第一配音音频通过软件生成，目标语音特征信息包括第一配音音频所属角色的音色特征信息、情绪特征信息以及语流特征信息中的一个或多个。

S230、对待配音视频中与第一配音音频对应的图像信息进行口型修正。

S240、将口型修正后的图像信息与第二配音音频进行合成，得到配音后的视频。

由于第二配音音频是叠加有目标语音特征信息的第一配音音频，如果配音后视频图像的口型与第一配音音频一致，也就意味着，配音后视频图像的口型与第二配音音频一致。上述技术方案通过将第一配音音频与目标语音特征信息融合，得到第二配音音频；目标语音特征信息为在待配音视频中，第一配音音频所属角色的语音特征信息；对待配音视频中与第一配音音频对应的图像信息进行口型修正；将口型修正后的图像信息与第二配音音频进行合成，得到配音后的视频。其可以使得配音音频具有原角色的语音特征信息，且视频图像的口型与配音一致，进而在一定程度上弥补录音设备、录音场地、配音时长以及配音员自身水平对配音效果的影响，达到提高配音质量，减少视频观众因配音质量太差而出戏的不良状况出现次数的目的。

在上述各技术方案的基础上，可选地，该方法还包括：确定与第一配音音频对应的目标持续时长，对第一配音音频的持续时长进行调整，以使第一配音音频的持续时长与目标持续时长之差的绝对值小于或等于预设时间长度。目标持续时长是指在待配音视频中，可以允许播放第一配音音频的时间长度。在待配音视频包括原始配音的场景下，目标持续时长是指在待配音视频中，第一配音音频所属角色说出原始文本花费的时间。

示例性地，若待配音视频包括角色A与角色B进行对话的情节，对角色A进行配音，角色A以第一语种说出“XXXXXX”，“XXXXXX”为原始文本。将“XXXXXX”进行翻译，得到第二语种的最终译文文本“YYYYYYYY”，配音员基于最终译文文本，说出“YYYYYYYY”。配音员所说出的话为第一配音音频。第一配音音频的持续时长是播放第一配音音频需要的时间长度。第一配音音频对应的目标持续时长是指，在待配音视频中，角色A说出“XXXXXX”需要的时间长度。

对第一配音音频的持续时长进行调整，具体包括但不限于加快或减慢第一配音音频的播放速度。通过设置对第一配音音频的持续时长进行调整，以使第一配音音频的持续时长与目标持续时长之差的绝对值小于或等于预设时间长度，可以进一步实现“声画同步”的效果。

在上述各技术方案的基础上，可选地，该方法还包括：基于待配音视频，确定背景音音频；将背景音音频与第一配音音频合成，得到第三配音音频；S130替换为：将口型修正后的图像信息与第三配音音频进行合成，得到配音后的视频。这样设置的实质是使得配音后的视频仍包括配音前视频的背景音，进而确保配音后视频不存在信息丢失的问题，确保配音后的视频具有较高的艺术效果。

可选地，将背景音音频与第一配音音频合成，得到第三配音音频之前，还包括，对背景音音频进行优化，如消除背景音音频中噪声信息等。将优化后的背景音音频与第一配音音频合成，得到第三配音音频。

图6为本公开实施例提供的另一种配音方法的流程图。图6为图1 中的一个具体示例。参见图6，该配音方法在执行的过程中，可以分为三个阶段，分别为背景音处理、TTS模型训练以及配音口型模拟。

在背景音处理阶段，获取待配音视频；对待配音视频中的原始音频进行音轨分离，得到背景音音频以及人声音频，此时人声音频即为原始音频。对背景音音频进行优化，得到优化后的背景音音频。

在TTS模型训练阶段，判断待配音视频是否包括字幕。若待配音视频包括字幕，此时字幕即为原始文本。若待配音视频不包括字幕，对原始音频进行语音识别，得到原始文本。对原始音频和原始文本进行机器学习，获得有原始音频所属角色的语音特征的跨语种TTS模型。

配音口型模拟阶段，对原始文本进行翻译，得到中间译文文本。判断当前中间译文文本单句对应的音素数与该句对应的目标音素数的差值的绝对值是否小于或等于设定阈值。若中间译文文本单句对应的音素数与该句对应的目标音素数的差值的绝对值小于或等于设定阈值，将该中间译文文本确定为最终译文文本。获取配音员通过对最终译文文本进行朗读，形成的配音音频(即第一配音音频)。若该中间译文文本单句对应的音素数与目标音素数的差值的绝对值大于设定阈值，输出用于提示当前该中间译文文本对应的音素数与该句对应的目标音素数的差值的绝对值大于设定阈值的校对目标信息，以使译文校对员基于该校对目标信息，对该中间译文文本进行修改。当该中间译文文本被修改后，再次判断当前该中间译文文本对应的音素数与目标音素数的差值的绝对值是否小于或等于设定阈值。如此反复，直至该中间译文文本对应的音素数与目标音素数的差值的绝对值小于或等于设定阈值。

将配音音频(即第一配音音频)输入到跨语种TTS模型中，得到合成有目标语音特征信息的配音音频(即第二配音音频)。目标语音特征信息包括配音音频所属角色的音色特征信息。

判断配音音频(即第二配音音频)的持续时长是否与在待配音视频中与配音音频对应的画面对应的音轨(即目标持续时长)之差的绝对值小于或等于预设时间长度，若是，保持配音音频的持续时长不变；若否，对配音音频(即第二配音音频)的持续时长进行调整，直至配音音频(即第二配音音频)的持续时长与目标持续时长之差的绝对值小于或等于预设时间长度。在确定配音音频(即第二配音音频)的持续时长与在待配音视频中与配音音频对应的画面对应的音轨(即目标持续时长)之差的绝对值小于或等于预设时间长度之后，将配音音频与优化后的背景音音频进行混响处理，得到第三配音音频。

通常查询口型数据库确定配音音频(即第一配音音频)中，各音素对应的口型；利用与各音素对应的口型，对待配音视频中与配音音频(即第一配音音频)对应的图像信息进行口型修正。将口型修正后的图像信息与第三配音音频进行合成，得到配音后的视频。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

图7为本公开实施例中的一种配音装置的结构示意图。本公开实施例所提供的配音装置可以配置于客户端中，或者可以配置于服务端中。参见图7，该配音装置具体包括：

获取模块310，用于获取模块，用于获取与待配音视频对应的第一配音音频；

修正模块320，用于基于所述第一配音音频，对所述待配音视频中与所述第一配音音频对应的图像信息进行口型修正；

合成模块330，用于将口型修正后的所述图像信息与所述第一配音音频进行合成，得到配音后的视频。

进一步地，修正模块，用于：

确定所述第一配音音频对应的音素；

确定与各所述音素对应的口型；

利用与各所述音素对应的口型，对所述待配音视频中与所述第一配音音频对应的图像信息进行口型修正。

进一步地，所述第一配音音频的语种与所述待配音视频的语种不同。

进一步地，获取模块，用于：

获取与所述待配音视频对应的原始文本；所述原始文本的语种与所述待配音视频的语种相同；

基于所述原始文本，得到最终译文文本；所述最终译文文本对应的音素数与目标音素数的差值的绝对值小于或等于设定阈值；所述目标音素数基于所述原始文本对应的音频信息在所述待配音视频中的持续时长确定；

获取与所述最终译文文本对应的第一配音音频。

进一步地，获取模块，用于：

基于所述原始文本，得到中间译文文本；

判断所述中间译文文本对应的音素数与目标音素数的差值的绝对值是否小于或等于设定阈值；

若是，将所述中间译文文本作为所述最终译文文本；

若否，响应于对所述中间译文文本的修改指令，对所述中间译文文本进行修改。

进一步地，该装置还包括展示模块，展示模块用于：

展示译文校对界面，所述译文校对界面包括所述原始文本、所述中间译文文本以及校对目标信息；所述校对目标信息用于指示所述中间译文文本对应的音素数与目标音素数的差值的绝对值是否小于或等于设定阈值。

进一步地，展示模块用于：响应于对所述中间译文文本的修改指令，对所述中间译文文本进行修改之后，更新所述校对目标信息。

进一步地，所述原始文本包括一个或多个子原始文本；所述中间译文文本包括一个或多个子中间译文文本；所述校对目标信息包括一个或多个子校对目标信息；

一个所述子原始文本、一个所述子中间译文文本以及一个所述子校对目标信息构成一个校对信息组；在任意一个所述校对信息组中，所述子原始文本、所述子中间译文文本以及所述子校对目标信息三者具有对应关系。

进一步地，在任意一个所述校对信息组中，若当前所述子中间译文文本对应的音素数与所述目标音素数的差值的绝对值小于或等于设定阈值，所述子校对目标信息处于目标达成状态；若当前所述子中间译文文本对应的音素数与所述目标音素数的差值的绝对值大于设定阈值，所述子校对目标信息处于目标未达成状态；所述目标音素数基于所述校对信息组中所述子原始文本确定。

进一步地，处于目标达成状态的所述子校对目标信息包括目标达成提示符；

处于目标未达成状态的所述子校对目标信息包括当前所述子中间译文文本对应的音素数与所述目标音素数的差值；或者，处于目标未达成状态的所述子校对目标信息包括所述目标音素数与当前所述中间译文文本对应的音素数的差值。

进一步地，处于目标达成状态的所述子校对目标信息的背景颜色与处于目标未达成状态的所述子校对目标信息的背景颜色不同；和/或，

处于目标达成状态的所述子校对目标信息的边框颜色与处于目标未达成状态的所述子校对目标信息的边框颜色不同。

进一步地，合成模块还用于：所述获取与待配音视频对应的第一配音音频之后，将所述第一配音音频与目标语音特征信息融合，得到第二配音音频；所述目标语音特征信息为在所述待配音视频中，所述第一配音音频所属角色的语音特征信息；

将口型修正后的所述图像信息与所述第二配音音频进行合成，得到配音后的视频。

进一步地，合成模块还用于：

基于跨语种TTS模型，将所述第一配音音频与目标语音特征信息融合，得到第二配音音频；所述跨语种TTS模型基于对所述待配音视频对应的原始文本以及原始音频学习得到。

进一步地，所述第一配音音频通过对配音员进行录音得到，所述目标语音特征信息包括所述第一配音音频所属角色的音色特征信息；或者，

所述第一配音音频通过软件生成，所述目标语音特征信息包括所述第一配音音频所属角色的音色特征信息和情绪特征信息。

进一步地，该装置还包括调整模块，用于：

确定与所述第一配音音频对应的目标持续时长，

对所述第一配音音频的持续时长进行调整，以使所述第一配音音频的持续时长与所述目标持续时长之差的绝对值小于或等于预设时间长度。

进一步地，合成模块还用于获取与待配音视频对应的第一配音音频之后，基于所述待配音视频，确定背景音音频；

将所述背景音音频与所述第一配音音频合成，得到第三配音音频；

所述将口型修正后的所述图像信息与所述第一配音音频进行合成，得到配音后的视频，包括：

将口型修正后的所述图像信息与所述第三配音音频进行合成，得到配音后的视频。

本公开实施例提供的配音装置，可执行本公开方法实施例所提供的配音方法中客户端或服务端所执行的步骤，具备执行步骤和有益效果，此处不再赘述。

图8为本公开实施例中的一种电子设备的结构示意图。下面具体参考图8，其示出了适于用来实现本公开实施例中的电子设备1000的结构示意图。本公开实施例中的电子设备1000可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD (平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理以实现如本公开所述的实施例的配音方法。在RAM 1003中，还存储有电子设备1000操作所需的各种程序和信息。处理装置1001、ROM 1002以及RAM 1003通过总线1004 彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

通常，以下装置可以连接至I/O接口1005：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置 1007；包括例如磁带、硬盘等的存储装置1008；以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换信息。虽然图8示出了具有各种装置的电子设备1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码，从而实现如上所述的配音方法。在这样的实施例中，该计算机程序可以通过通信装置1009从网络上被下载和安装，或者从存储装置1008被安装，或者从ROM 1002被安装。在该计算机程序被处理装置1001执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的信息信号，其中承载了计算机可读的程序代码。这种传播的信息信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP (HyperText TransferProtocol，超文本传输协议)之类的任何已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字信息通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如， ad hoc端对端网络)，以及任何已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

获取与待配音视频对应的第一配音音频；

可选的，当上述一个或者多个程序被该电子设备执行时，该电子设备还可以执行上述实施例所述的其他步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，本公开提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开提供的任一所述的配音方法。

根据本公开的一个或多个实施例，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开提供的任一所述的配音方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的配音方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种配音方法，其特征在于，包括：

获取与待配音视频对应的第一配音音频；

将口型修正后的所述图像信息与所述第一配音音频进行合成，得到配音后的视频；

所述获取与待配音视频对应的第一配音音频，包括：

获取与所述最终译文文本对应的第一配音音频；

所述基于所述原始文本，得到最终译文文本，包括：

基于所述原始文本，得到中间译文文本；

若是，将所述中间译文文本作为所述最终译文文本；

若否，响应于对所述中间译文文本的修改指令，对所述中间译文文本进行修改；

所述方法还包括：展示译文校对界面，所述译文校对界面包括所述原始文本、所述中间译文文本以及校对目标信息；所述校对目标信息用于指示所述中间译文文本对应的音素数与目标音素数的差值的绝对值是否小于或等于设定阈值。

2.根据权利要求1所述的配音方法，其特征在于，所述基于所述第一配音音频，对所述待配音视频中与所述第一配音音频对应的图像信息进行口型修正，包括：

确定所述第一配音音频对应的音素；

确定与各所述音素对应的口型；

3.根据权利要求1所述的配音方法，其特征在于，所述第一配音音频的语种与所述待配音视频的语种不同。

4.根据权利要求1所述的配音方法，其特征在于，所述响应于对所述中间译文文本的修改指令，对所述中间译文文本进行修改之后，还包括：

更新所述校对目标信息。

5.根据权利要求1所述的配音方法，其特征在于，

所述原始文本包括一个或多个子原始文本；所述中间译文文本包括一个或多个子中间译文文本；所述校对目标信息包括一个或多个子校对目标信息；

6.根据权利要求5所述的配音方法，其特征在于，

在任意一个所述校对信息组中，若当前所述子中间译文文本对应的音素数与所述目标音素数的差值的绝对值小于或等于设定阈值，所述子校对目标信息处于目标达成状态；若当前所述子中间译文文本对应的音素数与所述目标音素数的差值的绝对值大于设定阈值，所述子校对目标信息处于目标未达成状态；所述目标音素数基于所述校对信息组中所述子原始文本确定。

7.根据权利要求6所述的方法，其特征在于，

处于目标达成状态的所述子校对目标信息包括目标达成提示符；

处于目标未达成状态的所述子校对目标信息包括当前所述子中间译文文本对应的音素数与所述目标音素数的差值；或者，处于目标未达成状态的所述子校对目标信息包括所述目标音素数与当前所述子中间译文文本对应的音素数的差值。

8.根据权利要求6所述的方法，其特征在于，

处于目标达成状态的所述子校对目标信息的背景颜色与处于目标未达成状态的所述子校对目标信息的背景颜色不同；和/或，

9.根据权利要求1所述的配音方法，其特征在于，所述获取与待配音视频对应的第一配音音频之后，还包括：

将所述第一配音音频与目标语音特征信息融合，得到第二配音音频；所述目标语音特征信息为在所述待配音视频中，所述第一配音音频所属角色的语音特征信息；

10.根据权利要求9所述的配音方法，其特征在于，所述将所述第一配音音频与目标语音特征信息融合，得到第二配音音频，包括：

11.根据权利要求9所述的配音方法，其特征在于，

所述第一配音音频通过对配音员进行录音得到，所述目标语音特征信息包括所述第一配音音频所属角色的音色特征信息；或者，

所述第一配音音频通过软件生成，所述目标语音特征信息包括所述第一配音音频所属角色的音色特征信息、情绪特征信息以及语流特征信息中的至少一个。

12.根据权利要求1所述的配音方法，其特征在于，还包括：

确定与所述第一配音音频对应的目标持续时长，

13.根据权利要求1所述的配音方法，其特征在于，所述获取与待配音视频对应的第一配音音频之后，还包括：

基于所述待配音视频，确定背景音音频；

14.一种配音装置，其特征在于，包括：

获取模块，用于获取与待配音视频对应的第一配音音频；

合成模块，用于将口型修正后的所述图像信息与所述第一配音音频进行合成，得到配音后的视频；

所述获取模块，具体用于：

获取与所述最终译文文本对应的第一配音音频；

所述获取模块，具体用于：

基于所述原始文本，得到中间译文文本；

若是，将所述中间译文文本作为所述最终译文文本；

所述装置还包括展示模块，展示模块用于：展示译文校对界面，所述译文校对界面包括所述原始文本、所述中间译文文本以及校对目标信息；所述校对目标信息用于指示所述中间译文文本对应的音素数与目标音素数的差值的绝对值是否小于或等于设定阈值。

15.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-13中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-13中任一项所述的方法。