CN119399580B - 装饰元素替换模型的训练方法和人物装饰元素替换方法 - Google Patents
装饰元素替换模型的训练方法和人物装饰元素替换方法 Download PDFInfo
- Publication number
- CN119399580B CN119399580B CN202510001621.XA CN202510001621A CN119399580B CN 119399580 B CN119399580 B CN 119399580B CN 202510001621 A CN202510001621 A CN 202510001621A CN 119399580 B CN119399580 B CN 119399580B
- Authority
- CN
- China
- Prior art keywords
- image
- character
- training
- complete
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 346
- 238000000034 method Methods 0.000 title claims abstract description 139
- 238000004590 computer program Methods 0.000 claims abstract description 29
- 230000000694 effects Effects 0.000 claims abstract description 22
- 230000008859 change Effects 0.000 claims abstract description 13
- 238000005034 decoration Methods 0.000 claims description 261
- 230000008569 process Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 43
- 238000010586 diagram Methods 0.000 claims description 37
- 230000004927 fusion Effects 0.000 claims description 25
- 230000000873 masking effect Effects 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 22
- 230000036961 partial effect Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 14
- 230000002829 reductive effect Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000009792 diffusion process Methods 0.000 description 11
- 238000012216 screening Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请涉及一种装饰元素替换模型的训练方法、人物装饰元素替换、装置、计算机设备、存储介质和计算机程序产品。其中,模型训练方法包括:获取用于实现装饰元素图像替换的预训练模型;基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像;在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的装饰元素替换模型。其中,人物装饰元素的图像展示效果,随着人物头像角度的变化而变化。采用上述方法能够提高工作效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种装饰元素替换模型的训练方法、人物装饰元素替换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。将人工智能技术应用于图像处理领域,通过模型训练可以得到用于实现人物装饰元素替换的装饰元素替换模型。
传统技术中,利用扩散模型的图像处理能力,在文本条件中引入人物装饰元素的文本描述,以实现替换人物装饰元素的目标。采用传统技术,在训练过程中,需要不断调整文本描述,才能得到期望的人物装饰元素,实现损失函数收敛的目的。因此,采用传统技术,存在工作效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高工作效率的装饰元素替换模型的训练方法、人物装饰元素替换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种装饰元素替换模型的训练方法。所述方法包括:
获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;
基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;
使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;
在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。
第二方面,本申请还提供了一种装饰元素替换模型的训练装置。所述装置包括:
预训练模型获取模块,用于获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;
增量样本构建模块,用于基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;
增量训练模块,用于使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;
装饰元素替换模型确定模块,用于在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。
第三方面,本申请还提供了一种人物装饰元素替换方法。所述方法包括:
获取目标人物的人物图像、以及包含参考装饰元素的参考图像;
识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;
将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于上述的装饰元素替换模型训练方法训练得到。
第四方面,本申请还提供了一种人物装饰元素替换装置。所述装置包括:
图像获取模块,用于获取目标人物的人物图像、以及包含参考装饰元素的参考图像;
装饰元素识别模块,用于识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;
装饰元素替换模块,用于将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于上述的装饰元素替换模型训练方法训练得到。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
上述装饰元素替换模型的训练方法、人物装饰元素替换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,在用于实现装饰元素图像替换的预训练模型的基础上,使用基于在不同角度下针对同一样本人物分别采集的完整人物头像构建的增量训练样本,进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像,并在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的装饰元素替换模型。上述过程中,一方面,在训练过程中引入人物装饰元素的装饰元素图像,能够解决采用文本描述人物装饰元素所存在的控制能力弱的问题,避免需要反复调整训练样本以实现训练目标,有利于提高工作效率;另一方面,通过两个阶段的训练,能够确保预训练阶段能够学习到人物装饰元素的替换能力,增量训练阶段能够解决角度不一致带来的泛化性问题,从而可以在训练样本数量较多的预训练阶段,降低学习过程的复杂度,并在学习复杂度较高的增量训练阶段,显著降低所需要的训练样本数量,有利于降低训练成本,同样可以提高工作效率。
附图说明
图1为一个实施例中装饰元素替换模型的训练方法和人物装饰元素替换方法的应用环境图;
图2为一个实施例中装饰元素替换模型的训练方法的流程示意图;
图3为一个实施例中预训练模型的模型结构示意图;
图4为一个实施例中人脸图像区域的矩形框坐标示意图;
图5为一个实施例中BiseNet模型的结构示意图;
图6为一个实施例中BLIP模型的结构示意图;
图7为一个实施例中基于BLIP模型获得完整人物头像的文本描述的过程示意图;
图8为一个实施例中在完整人物头像的基础上,获得各种训练数据的过程示意图;
图9为另一个实施例中预训练模型的模型结构示意图;
图10为一个实施例中预训练模型的输入输出示意图;
图11为另一个实施例中预训练模型的输入输出示意图;
图12为一个实施例中的特征融合原理示意图;
图13为另一个实施例中装饰元素替换模型的训练方法的流程示意图;
图14为一个实施例中装饰元素替换方法的流程示意图;
图15为一个实施例中的发型替换效果示意图;
图16为一个实施例中装饰元素替换模型的训练装置的结构框图;
图17为一个实施例中装饰元素替换装置的结构框图;
图18为一个实施例中计算机设备的内部结构图;
图19为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的装饰元素替换模型的训练方法和人物装饰元素替换方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。该通信网络可以是有线网络或无线网络。因此,终端102和服务器104可以通过有线或无线通信方式进行直接或间接的连接。比如,终端102可以通过无线接入点与服务器104间接地连接,或者终端102通过因特网与服务器104直接地连接,本申请在此不做限制。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。本申请实施例可应用于装饰元素替换模型训练和人物装饰元素替换场景。终端102上可以安装有人物图像处理相关的客户端,该客户端可以是软件(例如浏览器、视频软件等),也可以是网页、小程序等。服务器104则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行装饰元素替换模型训练或人物装饰元素替换的服务器,在一些实施例中,装饰元素替换模型的训练或人物装饰元素替换还可以通过同一服务器实现,本申请不做具体限定。进一步地,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置,可以集成在服务器104上,也可以放在云上或其他服务器上。
需要说明的是,本申请实施例中的装饰元素替换模型的训练方法和人物装饰元素替换方法,可以由终端102或服务器104单独执行,也可以由终端102和服务器104共同执行。以服务器104单独执行的情况为例,服务器104在进行装饰元素替换模型的训练的过程中:获取用于实现装饰元素图像替换的预训练模型;基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像;在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型。其中,预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;装饰元素替换模型用于生成目标人物的目标图像。
训练得到的模型,可以用于进行人物装饰元素的替换。具体来说,服务器104在进行人物装饰元素替换的过程中:获取目标人物的人物图像、以及包含参考装饰元素的参考图像;识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像;将参考元素图像和人物图像输入装饰元素替换模型,得到目标人物的目标图像;该目标人物在目标图像中具有参考装饰元素。其中,目标人物和参考装饰元素各自对应的人物头像角度,可以相同也可以不同。目标图像中的参考装饰元素与目标人物对应相同的人物头像角度。也就是说,在目标人物和参考装饰元素各自对应不同人物头像角度的情况下,由于装饰元素替换模型具备角度补偿能力,能够生成参考装饰元素与目标人物对应相同的人物头像角度的目标图像。
在一个实施例中,如图2所示,提供了一种装饰元素替换模型的训练方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,在本实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取用于实现装饰元素图像替换的预训练模型。
其中,预训练模型是指通过预训练,具备根据装饰元素图像替换人物装饰元素的能力的机器学习模型。该预训练模型的具体网络结构并不唯一,可以包括CNN(Convolutional Neural Network,卷积神经网络)、GAN(Generative AdversarialNetwork,生成对抗网络)或SD(Stable Diffusion,扩散网络)等中的至少一种。在一个可选的实施例中,预训练模型以Stable Diffusion模型为基底模型,可实现文生图功能。如图3所示,服务器可以在以Stable Diffusion为基底的目标网络的基础上,构建与目标网络结构相同的参考网络,该参考网络用于对输入的装饰元素图像进行编码,得到装饰元素特征,而目标网络,则是用于获得完整人物头像中除装饰元素区域以外其他区域的非装饰特征。通过注意力共享,融合装饰元素特征和非装饰特征,实现根据装饰元素图像替换完整人物头像中的人物装饰元素的目的。预训练阶段的训练目标,是使替换人物装饰元素后的模型输出图像,接近完整人物头像。也即,在预训练阶段,预训练样本中的完整人物头像,一方面作为装饰元素特征和非装饰特征的图像信息来源,另一方面作为模型预测结果的对照。在使用包含多个预训练样本的预训练样本集完成预训练的情况下,得到具备根据装饰元素图像替换人物装饰元素的能力的预训练模型。
预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像。装饰元素图像,是指该人物装饰元素的图像。人物装饰元素是指用于装饰人物头像的元素。该人物装饰元素可以包括发型、帽子、眼镜、耳饰等等。进一步的,人物装饰元素的图像展示效果,随着人物头像角度的变化而变化。示例性的,在不同角度下针对同一人物进行采集,所得到的各完整人物头像中的发型、帽子、眼镜或耳饰等人物装饰元素的展示效果均有所不同。实际应用中,人物装饰元素在艺术和设计中扮演着重要的角色,通过不同的装饰手段和风格,可以增强人物形象的表现力和视觉冲击力。基于此,人物装饰元素替换的应用场景非常广泛。在角色设计领域,基于人物装饰元素替换功能,用户可以根据自己的需求,更换人物装饰元素,实现个性化的角色定制;在时尚设计领域,设计师可以通过人物装饰元素替换功能,对人物头像进行局部调整,选择合适的人物装饰元素,提高效率;在虚拟现实和增强现实应用中,该人物装饰元素替换功能可以提升用户体验的真实感和沉浸感。
具体地,服务器可以预先使用包含多个预训练样本的预训练样本集,对初始模型进行模型训练,得到用于实现装饰元素图像替换的预训练模型。可以理解,由于预训练样本中的装饰元素图像,是完整人物头像的一部分,二者对应相同的人物头像角度,因此,预训练阶段得到的预训练模型,并不具备角度补偿能力。而实际应用中,作为替换目标的装饰元素图像与作为替换对象的完整人物头像之间,可能存在角度的差别。若直接使用预训练模型进行装饰元素替换,由于角度差异的存在,可能会导致人物装饰元素图像展示效果的失真。基于此,本申请还在预训练模型的基础上,进行增量训练。
从完整人物头像中分离装饰元素图像的具体方式并不唯一。可选的,服务器可以先识别出完整人物头像中的人物装饰元素,再通过提取人物装饰元素的边框,基于该边框对完整人物头像进行图像分割,得到装饰元素图像;可选的,服务器也可以使用OpenCV和dlib等工具进行人脸检测和关键点提取,以确定完整人物头像中人物装饰元素的所处唯一,再通过灰度化和阈值化等处理,将任务装束元素从图像中分离出来,得到装饰元素图像;可选的,服务器还可以通过使用人工智能算法进行高精度的图像分割,如语义分割和实例分割,识别出完整人物头像中人物装饰元素,并进一步提取人物装饰元素的装饰元素图像。
在其中一个实施例中,完整人物头像的获取过程包括:获取多个候选人物图像;对各候选人物图像分别进行人物识别,确定各候选人物图像各自包含人物的人脸尺寸;针对每一候选人物图像,在候选人物图像中人物的人脸尺寸满足尺寸条件、且该人物包含人物装饰元素的情况下,基于候选人物图像得到具有人物装饰元素的完整人物头像。
其中,候选人物图像是指包含人物的图像。该候选人物图像中所包含人物的数量,可以是一个,也可以是多个。人脸尺寸可以通过人脸在整个候选人物图像中的占比表示,也可以通过人脸所在图像区域的像素量表示。可以理解的是,人脸在整个图片(即候选人物图像)中的占比越低,人脸图像区域的像素量越少,人物模糊的可能性越大。基于此,尺寸条件可以是指人脸图像区域的像素量大于或等于像素量阈值,也可以是指人脸在整个图片中的占比大于或等于比例阈值。该像素阈值例如可以是3万或4万等,该比例阈值例如可以是1/16或1/15等。在一个可选的实施例中,为了保证人脸图像的质量,提出仅保留人脸占比在1/16以上的图片,以1024*1024的图片为例,占比1/16的正方形人脸包含256*256个像素点,足够表征人物细节。
具体来说,服务器可以从开源的图像数据集合中,获取多个候选人物图像。然后对各候选人物图像分别进行人物识别,确定各候选人物图像各自包含人物的人脸尺寸。在候选人物图像中人物的人脸尺寸满足尺寸条件、且该人物包含人物装饰元素的情况下,保留该候选人物图像,并基于该候选人物图像得到具有人物装饰元素的完整人物头像。可选的,在保留的候选人物图像为单人图像的情况下,服务器可以将该候选人物图像,确定为具有人物装饰元素的完整人物头像;在保留的候选人物图像为多人图像的情况下,服务器可以从该候选人物图像中,分离出人脸尺寸满足尺寸条件且包含人物装饰元素的单人图像,得到具有人物装饰元素的完整人物头像。
在一个可选的实施例中,服务器可以使用RetinaFace模型(视网膜人脸检测模型),实现人物识别。RetinaFace模型是一种用于人脸检测和人脸对齐的神经网络模型。其原理是基于单阶段(One-Stage)目标检测器,采用多尺度特征融合和多任务学习的方法,以实现在不同尺度和方向上准确地检测人脸并进行对齐。该RetinaFace模型在多尺度、多方向和遮挡情况下具有较好的鲁棒性,适用于实时人脸检测和相关应用。如图4所示,将候选人物图像输入RetinaFace模型,将返回人脸图像区域的矩形框坐标(x,y,w,h)。其中,(x,y)为矩形左上角坐标,w和h分别为矩形的宽和高。经RetinaFace模型处理后,可获取候选人物图像中所包含的人物数量、以及每个人物各自的人脸尺寸。
在一个可选的实施例中,在进行人物识别之前,可以先进行一轮图像筛选,以进一步确保图像质量,提高工作效率。具体来说,服务器可以根据美学质量评分进行图像筛选。美学质量评分是Laion-5B数据集中使用的一种图片质量评估指标,评分范围为[0,10],评分越高,代表图片的质量越好。参考Laion-5B数据集合筛选的标准,可以仅针对评分值大于6.5的候选人物图像进行人物识别。
在一个可选的实施例中,最终确定的完整人物头像的短边像素数量不低于1024,以进一步确保清晰度。
上述实施例中,基于人脸尺寸满足尺寸条件的候选人物图像,得到具有人物装饰元素的完整人物头像,能够确保完整人物头像的图像质量,进而确保训练效果。
步骤S204,基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本。
其中,在不同角度下针对同一样本人物分别采集的完整人物头像,至少包括在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对该样本人物采集的第二完整人物头像。第一角度和第二角度是指不同的人物头像角度,所使用的术语“第一”和“第二”,仅用于将第一个人物头像角度与另一个人物头像角度区分。示例性的,第一角度和第二角度,可以是指正面角度、四分之三侧面角度、仰视角度、俯视角度或测试角度等中的任意两个。
在预训练阶段,装饰元素图像中的人物装饰元素,与完整人物头像中的人物,对应相同的人物头像角度。而增量训练阶段的训练目标,是为了提升模型的角度补偿能力。基于此,服务器可以获取在不同角度下针对同一样本人物分别采集的完整人物头像。这些完整人物头像,具备同一人物装饰元素。其中,同一人物装饰元素,可以是同一发型、同一个帽子、同一副眼镜等。获取针对同一样本任务采集的多个完整人物头像后,服务器可以基于这些多角度的完整人物头像构建增量训练样本。可选的,服务器可以将两个不同角度下针对同一样本人物分别采集的完整人物头像,作为增量训练样本。可选的,在获取到两个以上不同角度下针对同一样本人物分别采集的完整人物头像的情况下,服务器可以两两组合,得到多个增量训练样本;服务器也可以根据图像质量进行进一步的筛选,选择任意两个完整人物头像,构建增量训练样本。其中,根据图像质量进行进一步筛选的具体方式,参见上文中从多个候选人物图像中筛选完整人物头像的方式,在此不作限定。
在一个可选的实施例中,服务器可以基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建包含第一角度下的装饰元素图像、以及第二角度下删除装饰元素区域的局部人物头像的增量训练样本。具体来说,服务器可以获取在第一角度和第二角度下分别采集的完整人物头像,从第一角度下的完整人物头像中分离出装饰元素图像,并对第二角度下采集的完整人物头像中人物装饰元素所处的装饰元素区域进行掩码,得到第二角度下删除装饰元素区域的局部人物头像。从第二角度下的完整人物头像中分离出装饰元素图像的具体方式参见上文,此处不再赘述。
步骤S206,使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像。
其中,第一元素图像和第二元素图像,是指同一样本人物所具有的同一人物装饰元素,分别在不同角度下呈现的图像信息。例如,第一元素图像和第二元素图像,可以是指样本人物所具有的人物发型,在不同角度下呈现的发型图像;又如,第一元素图像和第二元素图像,可以是指样本人物所佩戴的帽子,在不同角度下呈现的帽子图像。
如前文所述的,在预训练阶段,是将从完整人物头像中分离出的装饰元素图像,替换该完整人物头像中的人物装饰元素,因此,预训练阶段的训练目标,是使替换人物装饰元素后的模型输出图像,接近完整人物头像。在增量训练阶段,模型结构不变,替换目标为从第一角度下完整人物头像中分离出的装饰元素图像,替换对象为第二角度下采集的完整人物头像,因此,增量训练阶段的训练目标,是使替换人物装饰元素后的模型输出图像,接近第二角度下采集的完整人物头像。也就是说,服务器可以使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像。
步骤S208,在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型。
其中,增量训练阶段所需要的训练样本数量,远小于预训练阶段所需要的训练样本数量。
具体来说,服务器使用包含多个增量训练样本的增量训练样本集,对预训练模型进行增量训练,在满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型。该训练结束条件,可以是指验证集的准确率不再提高,也可以是指模型达到了设定的最大迭代次数,还可以是指基于损失函数随迭代次数的变化确定损失函数收敛。
在一个可选的实施例中,预训练模型以扩散模型为基底模型。目标函数为:
扩散模型是一种通过迭代去噪合成所需数据样本的生成模型。扩散训练包含正向扩散过程和反向去噪过程。在正向扩散过程中,噪声为基于预定义的噪声调度对数据样本进行采样和相加。此过程产生时间步长t的噪声样本。相反,在反向去噪过程中,去噪模型取、和可选的附加条件C(文本、图片或语音等)作为输入,以预测添加的噪声为预测目标。在上述目标函数下,使用不同的训练数据集对模型进行训练。以人物装饰元素为发型的情况为例,在第一阶段(即预训练阶段),使用大量包含发型的完整人物头像作为预训练样本,在Inpainting(图像修复)模式下,根据从完整人物头像中分离的参考发型图像,替换完整人物头像中的发型;第二阶段(即增量训练阶段),使用少量在不同角度下分别针对同一个人、且具备同一发型的完整人物头像,进行增量训练,根据从第一角度下完整人物头像中分离的参考发型图像,替换第二角度下完整人物头像中的发型。采用两阶段进行模型训练,可以在确保模型泛化性的同时,显著降低训练成本。
进一步的,装饰元素替换模型用于生成目标人物的目标图像。具体来说,部署有装饰元素替换模型的计算机设备可以获取目标人物的人物图像、以及包含参考装饰元素的参考图像;识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像;将参考元素图像和人物图像输入装饰元素替换模型,得到目标人物的目标图像。其中,目标人物在目标图像中具有参考装饰元素,且目标图像中参考装饰元素与目标人物对应相同的人物头像角度;目标人物和参考装饰元素各自对应的人物头像角度,可以相同,也可以不同。
上述装饰元素替换模型的训练方法,在用于实现装饰元素图像替换的预训练模型的基础上,使用基于在不同角度下针对同一样本人物分别采集的完整人物头像构建的增量训练样本,进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像,并在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的装饰元素替换模型。上述过程中,一方面,在训练过程中引入人物装饰元素的装饰元素图像,能够解决采用文本描述人物装饰元素所存在的控制能力弱的问题,避免需要反复调整训练样本以实现训练目标,有利于提高工作效率;另一方面,通过两个阶段的训练,能够确保预训练阶段能够学习到人物装饰元素的替换能力,增量训练阶段能够解决角度不一致带来的泛化性问题,从而可以在训练样本数量较多的预训练阶段,降低学习过程的复杂度,并在学习复杂度较高的增量训练阶段,显著降低所需要的训练样本数量,有利于降低训练成本,同样可以提高工作效率。
在一个实施例中,基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本,包括:获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对该样本人物采集的第二完整人物头像;识别第一完整人物头像中人物装饰元素所处的第一元素区域,得到第一角度下用于掩码第一元素区域的第一掩码图;融合第一完整人物头像和第一掩码图,从第一完整人物头像中分离出第一元素区域的第一元素图像;构建包含第二完整人物头像和第一元素图像的增量训练样本。
其中,第一角度下的第一掩码图,用于掩码第一完整人物头像中人物装饰元素所处的第一元素区域。也即,第一掩码图中,第一元素区域为黑色,对应的像素值为0,除第一元素区域以外其他区域为白色,对应的像素值为255。
具体来说,服务器可以获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对该样本人物采集的第二完整人物头像。然后,从第一完整人物头像中分离出作为替换目标的第一元素图像,再进一步结合作为替换对象的第二完整人物头像,构建增量训练阶段的增量训练样本。
在从第一完整人物头像中分离出第一元素图像的过程中,服务器可以基于图像语义分割,或者,通过应用图像编辑软件或自动掩码生成工具,识别第一完整人物头像中人物装饰元素所处的第一元素区域,并生成第一角度下用于掩码第一元素区域的第一掩码图。得到第一掩码图之后,服务器可以融合第一完整人物头像和第一掩码图,从第一完整人物头像中分离出第一元素区域的第一元素图像。
在一个可选的实施例中,服务器可以对第一掩码图进行像素值变换,使第一元素区域的像素值由0变为1,并使除第一元素区域以外其他区域的像素值由255变为0,得到第一掩码变换图。并将第一完整人物头像与第一掩码变换图各自的像素矩阵点乘,使得第一完整人物头像中第一元素区域的像素值保持不变,除第一元素区域以外其他区域的像素值变为0,从而实现第一元素区域的分离,得到第一元素图像。
预训练样本构建过程,与增量训练样本构建过程类似。在一个具体的实施例中,预训练样本构建过程,包括:获取具有人物装饰元素的完整人物头像;识别该完整人物头像中人物装饰元素所处的装饰元素区域,得到完整人物头像的装饰元素掩码图;融合完整人物头像和装饰元素掩码图,得到装饰元素区域中的装饰元素图像;构建包含完整人物头像和装饰元素图像的预训练样本。
上述实施例中,从第一完整人物头像中分离出第一元素区域的第一元素图像,作为增量训练样本的一部分,能够明确装饰元素替换目标,提高训练效果。
在一个具体的实现中,融合第一完整人物头像和第一掩码图,从第一完整人物头像中分离出第一元素区域的第一元素图像,包括:对第一掩码图进行归一化处理,得到第一归一化掩码图;使用第一归一化掩码图对第一完整人物头像进行掩码处理,从第一完整人物头像中分离出第一元素区域的第一元素图像。
具体来说,服务器可以对第一掩码图进行归一化处理,得到第一元素区域的像素值为1、除第一元素区域以外其他区域的像素值为0的第一归一化掩码图。然后,再使用第一归一化掩码图对第一完整人物头像进行掩码处理,从第一完整人物头像中分离出第一元素区域的第一元素图像。
示例性的,定义第一掩码图为M1,第一完整人物头像为I1,则人物装饰元素在第一完整人物头像中所呈现的第一元素图像S1的确定过程可以表示为:
S1=1-(M1/255)
其中,“1-(M1/255)”将M1归一化到[0,1]的范围内,原本被掩码的黑色区域(即第一元素区域)的像素值归一化为1,原本未被掩码的其他区域(即除第一元素区域以外其他区域)的像素值归一化为0。归一化之后再和I1点乘,使得I1中第一元素区域以外其他区域的像素值变为0,第一元素区域的像素值保持不变,从而得到第一元素区域的第一元素图像S1。
上述实施例中,通过归一化处理实现像素值的转换,算法简单,能够简化处理过程,有利于进一步提高工作效率。
在一个具体的实现中,增量训练样本还包括第二角度下的局部人物头像;预训练模型具体基于第一元素图像补全局部人物头像。在该实施例的情形下,装饰元素替换模型的训练方法还包括:识别第二完整人物头像中人物装饰元素所处的第二元素区域,得到第二角度下用于掩码第二元素区域的第二掩码图;对第二完整人物头像和第二掩码图分别进行归一化处理,得到归一化头像和第二归一化掩码图;使用第二归一化掩码图对归一化头像进行掩码处理,得到归一化的局部头像信息;对局部头像信息进行反归一化处理,得到删除第二元素区域的局部人物头像。
其中,第二角度下的第二掩码图,用于掩码第二完整人物头像中人物装饰元素所处的第二元素区域。也即,第二掩码图中,第二元素区域为黑色,对应的像素值为0,除第二元素区域以外其他区域为白色,对应的像素值为255。
具体来说,服务器可以识别第二完整人物头像中人物装饰元素所处的第二元素区域,得到第二角度下用于掩码第二元素区域的第二掩码图,然后,对第二完整人物头像进行归一化处理,得到归一化头像,并对第二掩码图进行归一化处理,得到第二元素区域的像素值为0、除第二元素区域以外其他区域的像素值为1的第二归一化掩码图。然后,服务器再使用第二归一化掩码图对归一化头像进行掩码处理,得到归一化的局部头像信息,并对局部头像信息进行反归一化处理,得到删除第二元素区域的局部人物头像。其中,对局部头像信息进行反归一化处理的算法,与对第二完整人物头像进行归一化处理的算法对应。
示例性的,定义第二掩码图为M2,第二完整人物头像为I2,则删除第二元素区域的局部人物头像D2的确定过程可以表示为:
其中,使用将I2归一化到[-1,1]范围,将M2归一化到[0,1]范围,原本被掩码的黑色区域(即第二元素区域)的像素值归一化为0,原本未被掩码的其他区域(即除第二元素区域以外其他区域)的像素值归一化为1。将两个归一化结果点乘后,使得I2中第二元素区域的像素值变为0,第二人元素区域以外其他区域的像素值保持不变。经过反归一化操作,可以将I2恢复到[0,255]的范围。以上操作后,第二完整人物头像I2中的第二元素区域变为灰色,其他区域保持不变,实现了删除第二元素区域的目的。
上述实施例中,一方面,先进行归一化处理再掩码,能够简化掩码过程的运算量,有利于提高工作效率;另一方面,通过归一化处理和反归一化处理结合,使得被删除的第二元素区域为灰色,而不是黑色,能够提供更平滑的过渡效果、增强视觉层次感、提高编辑灵活性,并且可以减少视觉干扰,有利于提高模型的训练效果。
在一个可选的实施例中,服务器可以使用BisNet模型(双关联信息网络模型),分割完整人物头像中人物装饰元素所处的装饰元素区域。其中,完整人物头像,可以包括预训练过程中训练样本中的完整人物头像、以及增量训练过程中的第一完整人物头像和第二完整人物头像。BiseNet模型是一种用于图像分割任务的神经网络模型,可实现将图像中的不同物体或区域进行像素级别的划分,其结构图如图5所示。BiseNet模型包含两个分支网络:细节分支和语义分支。细节分支负责提取空间细节信息,即Low-Level信息。因此,该分支需要配置丰富的通道容量,并且设置滑动距离(Stride)小的浅层结构。也即,细节分支需要通道数大层数少。而对于语义分支,则需要考虑到大感受野和小计算量的要求,具体可以借鉴了轻量型网络如Xception(极深网络)、MobileNet(移动网络)、ShuffleNet(洗牌网络),设计语义分支的结构。与细节分支大通道数浅层的特点相反,语义分支需要小通道数深层的结构。因为细节分支和语义分支关注的特征不同,细节分支提取的是Low-Level细节特征,而语义分支提取的是High-Level语义特征。在此基础上,可以通过双边引导聚合层(bilateral guided aggregation layer)来融合来自两个分支的互补信息。
在一个可选的实施例中,装饰元素替换模型的训练样本还包括完整人物头像的文本描述。在该实施例的情形下,装饰元素替换模型的训练方法还包括:针对每一完整人物头像,使用训练好的多模态模型,生成该完整人物头像的文本描述。
其中,完整人物头像,可以包括预训练过程中训练样本中的完整人物头像、以及增量训练过程中的第一完整人物头像和第二完整人物头像。所生成的文本描述,用于在预训练或增量训练过程中,引导模型进行装饰元素图像的替换。该多模态模型在训练过程中的模型损失,包括图像文本对比损失、图像文本匹配损失和语言模型损失。
示例性的,可以使用BLIP(Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and Generation,引导语言图像预训练)模型生成完整人物头像的描述信息。如图6所示,BLIP模型包含4部分:Image Encoder(图像编码器)、Text Encoder(文本编码器)、Image-grounded Text Encoder(基于图像的文本编码器)和Image-grounded Text Decoder(基于图像的文本解码器)。其中,Image-groundedText Encoder是一个二分类模型,负责判断文本和图片所表达的含义是否一致。在本申请的应用场景下,如图7所示,可以使用BLIP的Image-grounded Text Decoder模块,生成完整人物头像的文本描述。
在其中一个实施例中,以人物装饰元素为发型的情况为例,对训练样本的构建过程进行介绍。在该实施例的情形下,如图8所示,一方面,服务器可以在完整人物头像I的基础上,通过BiseNet模型,分割出其中的发型区域,得到发型掩码图M。并通过结合归一化处理和像素点乘运算,进一步得到删除发型区域的局部人物头像D、以及发型图S。另一方面,服务器可以应用BLIP模型,生成完整人物头像I的文本描述。进而,可以得到包含完整人物头像、完整人物头像的文本描述、发型掩码图、发型图、以及删除发型区域的局部人物头像的训练样本。如图3所示,其中完整人物头像、完整人物头像的文本描述、发型掩码图、以及删除发型区域的局部人物头像,可以作为目标网络的输入,发型图可以作为参考网络的输入。
下面对模型的预训练过程进行介绍。
在一个实施例中,预训练模型的训练过程,包括:针对预训练样本集中的每一完整人物头像,识别该完整人物头像中的装饰元素区域,得到完整人物头像的装饰元素掩码图;对完整人物头像中的装饰元素图像进行图像特征提取,得到装饰元素图像的装饰元素特征;在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征;基于融合装饰元素特征和非装饰特征得到的人物特征,解码得到完整人物头像对应的更新图像;在各完整人物头像的损失统计值收敛的情况下,得到用于实现装饰元素图像替换的预训练模型。
其中,任一完整人物头像对应的模型损失,用于表征该完整人物头像与该完整人物头像对应更新图像之间的差异。也就是说,预训练过程的训练目标,是使替换人物装饰元素后的模型输出图像,接近完整人物头像。
具体来说,服务器可以针对预训练样本集中的每一完整人物头像,基于图像语义分割,或者,通过应用图像编辑软件或自动掩码生成工具,识别该完整人物头像中的装饰元素区域,进而得到完整人物头像的装饰元素掩码图。在得到装饰元素掩码图的情况下,服务器一方面可以基于该装饰元素掩码图,从完整人物头像中分离出装饰元素区域的装饰元素图像,并对该装饰元素图像进行图像特征提取,得到装饰元素特征。另一方面,可以在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征。然后,服务器可以通过融合装饰元素特征和非装饰特征,得到完整的任务特征,并基于该人物特征进行解码,获得完整人物头像对应的更新图像。
对于每一个作为训练样本的完整人物头像而言,其在预训练过程中的模型损失,用于表征该完整人物头像与该完整人物头像对应更新图像之间的差异。在各完整人物头像的损失统计值收敛的情况下,服务器可以得到用于实现装饰元素图像替换的预训练模型。其中,各完整人物头像的损失统计值,可以是各完整人物头像各自模型损失的平均值、加权平均值或和等,在此不作限定。
在一个可选的实施例中,如图3所示,装饰元素替换模型和预训练模型的网络结构相同,包括目标网络、参考网络和解码器。其中,参考网络用于对装饰元素图像进行图像特征提取,得到装饰元素特征;目标网络用于通过图像特征提取,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。参考网络得到的装饰元素特征,将传递给目标网络,因此,目标网络还用于融合装饰元素特征和非装饰特征,得到完整的人物特征。该人物特征作为解码器的输入,以使解码器对该人物特征进行解码,得到完整人物头像对应的更新图像,即模型输出图像。
在一个具体的实现中,如图9所示,预训练模型和装饰元素替换模型以StableDiffusion模型为基底模型,可实现文生图功能。具体来说,原始Stable Diffusion模型中,输入图片通道数为3,经过变分自编码器(Variational Autoencoder,VAE Encoder)编码后通道数为4。为了实现仅改变装饰元素区域,保持完整人物头像中其他部分不变,使用Inpainting模式,额外增加5个通道,分别是1通道的装饰元素掩码图、4通道的删除装饰元素区域后的局部人物头像。其中,装饰元素掩码图表征期望模型保留和改变的部分,其中,黑色部分代表需要改变的部分,白色部分代表需要保留的其他部分。
进一步的,为引入装饰元素特征,新增参考网络编码装饰元素图像。可选的,为减少新引入特征对原始Stable Diffusion模型的影响,可以将该参考网络中Reference-Net(参考U型网络)的网络结构和参数均与Stable Diffusion中的U-net(U型网络)保持一致。对于扩散模型而言,其在测试阶段的输入为纯噪声,经过T步降噪后生成有意义的图片,其中U-net负责预测时间步t和t-1之间的噪声,t越小预测的噪声越少。当t=1时,U-net模型输入为接近无噪声数据,该步去噪后的结果为,经过变分自解码器(VariationalAutodecoder, VAE Decoder)解码后可生成有意义的图片。基于以上原理,可以将装饰元素图像经VAE Encoder编码后直接输入到Reference-Net中,且设置输入的t=1。此时参考网络编码了装饰元素图像,使用编码的特征可以直接还原装饰元素图像。U-net网络主要包含ResNet(残差神经网络)和Transformer(变换器)两种结构,ResNet主要由卷积网络构成,负责编码图片特征。Transformer主要由Attention(注意力)网络构成,负责编码图片特征以及引入条件特征(例如文本、图片和音频等特征)。
可以理解,增量训练过程与预训练过程相比,区别仅在于训练样本。也即,对应于图3中,参考网络的输入为第一角度下完整人物头像中人物装饰元素的第一元素图像;目标网络的输入,则是第二角度对应的人物图像信息,例如第二完整人物头像、删除第二元素区域的局部人物头像、第二掩码图。因此,增量训练的具体过程参考预训练过程,在此不作赘述。
上述实施例中,通过引入装饰元素图像作为参考信息来源,实现装饰元素图像替换,能够确保参考信息的准确性,进而确保装饰元素替换结果符合预期,有利于提高工作效率。
在一个可选的实施例中,在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征,包括:对完整人物头像进行图像编码,得到完整人物头像的潜空间完整表示;在装饰元素掩码图的引导下,对潜空间完整表示进行掩码处理,得到完整人物头像中除装饰元素区域以外其他区域的潜空间局部表示;基于潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。
其中,潜空间完整表示是指完整人物头像在低维潜在空间的潜在空间表示。潜空间局部标识,是指完整人物头像中除装饰元素以外的其他区域在低维潜在空间的潜在空间表示。图像的潜在空间表示是一种用于压缩和表示图像数据的抽象空间。潜在空间的主要作用是通过降维来捕捉图像的关键特征,同时去除不必要的细节,这使得模型能够更高效地进行计算,并在生成新图像时保留重要的视觉信息。
具体来说,服务器可以对完整人物头像进行图像编码,实现图像信息的降维,得到完整人物头像在低维潜在空间的潜空间完整表示。然后,在装饰元素掩码图的引导下,对潜空间完整表示进行掩码处理,得到完整人物头像中除装饰元素区域以外其他区域的潜空间局部表示。最后,服务器可以通过对该潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。
示例性的,如图10所示,在Stable Diffusion模型中,潜在空间用于在生成过程中进行特征调整和噪声去噪,最终通过解码器将潜在空间的数据还原为图像空间的图像。为了复现除装饰元素区域以外的其他区域,服务器可以将完整人物头像作为VAE Encoder的输入,得到完整人物头像在潜在空间的潜空间完整表示。然后,再使用装饰元素掩码图,对潜空间完整表示进行掩码处理,得到潜空间局部表示。之后,再由U-Net对该潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。
上述实施例中,对完整人物头像进行图像编码,得到完整人物头像的潜空间完整表示,能够确保完整人物头像中的视觉信息被充分挖掘,再进一步掩码得到潜空间局部表示,进而得到非装饰特征,可以确保非装饰特征的准确性。
在一个可选的实施例中,在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征,包括:在装饰元素掩码图的引导下,对完整人物头像进行掩码处理,得到删除装饰元素区域的局部人物头像;对局部人物头像进行图像编码,得到局部人物头像的潜空间局部表示;基于潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。
具体来说,服务器可以先使用装饰元素掩码图,对完整人物头像进行掩码处理,得到删除装饰元素区域的局部人物头像。然后,服务器可以通过对局部人物头像进行图像编码,得到局部人物头像在低维潜在空间的潜空间局部表示。最后,服务器再通过对该潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。示例性的,如图11所示,服务器可以使用装饰元素掩码图对完整人物头像进行掩码处理,得到删除装饰元素区域后的局部人物头像,然后,再将该局部人物头像作为VAE Encoder的输入,得到局部人物头像在低维潜在空间的潜空间局部表示。之后,再由U-Net对该潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。
上述实施例中,先对完整人物头像进行掩码,得到删除装饰元素区域的局部人物头像,再进行图像编码,能够减少图像编码过程的工作量,有利于提高工作效率。
在一个具体的实现中,非装饰特征和装饰元素特征均包含查询特征、键特征和值特征。在该实施例的情形下,装饰元素替换模型的训练方法还包括:拼接非装饰特征和装饰元素特征各自的键特征,得到键融合特征;拼接非装饰特征和装饰元素特征各自的值特征,得到值融合特征;基于非装饰特征中的查询特征、键融合特征和值融合特征,得到人物特征。
其中,查询特征(Query,Q)、键特征(Key,K)和值特征(Value,V)在注意力机制中扮演着重要的角色,尤其是在计算机视觉和自然语言处理等领域。这些特征通过对输入进行线性变换生成,并用于计算注意力权重,从而实现特征的融合和信息的传递。查询特征用于与键特征进行相似度计算,以确定哪些部分的特征需要被关注。值特征用于提供实际的特征信息,以便在注意力加权后用于输出特征的生成。在注意力机制中,查询特征和键特征之间的相似度计算通常使用点积或内积来实现,然后通过softmax函数进行归一化,以得到注意力权重。这些权重用于对值特征进行加权求和,从而生成最终的输出特征。即:
其中,dk为超参数,用于表示键特征的维度。
Transformer中Attention主要包含Self-Attention(自注意力机制)和Cross-Attention(交叉注意力机制)两种形式。当Q、K和V均为图片特征时,规定为Self-Attention,负责计算图片特征之间的关系;当Q为图片特征,KV为其他条件特征时,规定为Cross-Attention,负责计算图片特征和其他特征之间的关系。经研究表明,Attention参数量在整个模型中占的比例较少,但在模型中占据重要的作用,以LORA(Low-RankAdaptation of Large Language Models,大语言模型的低阶适应)为例,仅作用在Cross-Attention层Q、K和V的线性投影部分,以及之后的前馈神经网络(Feed Froward Networks,FFN)的线性部分,微调参数量远小于U-net的所有参数,但微调效果和微调整个U-net参数类似。
基于此,本申请将Reference-Net的Attention特征传递到U-net, U-net接收该特征后,有利于生成高度还原的装饰元素图像。考虑到Cross-Attention层除图片特征外还涉及文本特征,引入Reference-Net特征一定程度上影响文本特征发挥作用。另外Reference-Net作用是编码装饰元素图像,帮助U-net还原装饰元素图像,只涉及图片特征,因此本实施例提出将Reference-Net编码的Self-Attention特征以向量拼接的方式传递到U-net中的Self-Attention处。其拼接的效果如图12所示。也即,服务器一方面通过拼接非装饰特征和装饰元素特征各自的键特征,得到键融合特征,另一方面通过拼接非装饰特征和装饰元素特征各自的值特征,得到值融合特征。然后,再基于非装饰特征中的查询特征、键融合特征和值融合特征,得到人物特征。对应的公式为:
其中,、K和代表U-net的Self-Attetnion输入,K和为拼接Reference-Net的Self-Attetnion输入;cat()为拼接函数;y代表人物特征。
上述实施例中,在非装饰特征的基础上,仅拼接装饰元素图像的键特征和值特征,一方面,可以确保装饰元素信息的完整性,另一方面,能够避免信息冗余,有利于提高人物装饰元素的替换效果。
在一个实施例中,如图13所示,提供了一种装饰元素替换模型的训练方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,以该计算机设备是服务器为例,在本实施例中,该方法包括以下步骤:
步骤S1301,获取多个候选人物图像;
步骤S1302,对各候选人物图像分别进行人物识别,确定各候选人物图像各自包含人物的人脸尺寸;
步骤S1303,针对每一候选人物图像,在该候选人物图像中人物的人脸尺寸满足尺寸条件、且人物包含人物装饰元素的情况下,基于该候选人物图像得到具有人物装饰元素的完整人物头像,获得包含多个完整人物头像的预训练样本集;
其中,人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;
步骤S1304,针对预训练样本集中的每一完整人物头像,识别该完整人物头像中的装饰元素区域,得到完整人物头像的装饰元素掩码图;
步骤S1305,对完整人物头像中的装饰元素图像进行图像特征提取,得到装饰元素特征;
步骤S1306,对完整人物头像进行图像编码,得到完整人物头像的潜空间完整表示;
步骤S1307,在装饰元素掩码图的引导下,对潜空间完整表示进行掩码处理,得到完整人物头像中除装饰元素区域以外其他区域的潜空间局部表示;
步骤S1308,基于潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征;
其中,非装饰特征和装饰元素特征均包含查询特征、键特征和值特征;
步骤S1309,拼接非装饰特征和装饰元素特征各自的键特征,得到键融合特征;
步骤S1310,拼接非装饰特征和装饰元素特征各自的值特征,得到值融合特征;
步骤S1311,基于非装饰特征中的查询特征、键融合特征和值融合特征,得到人物特征;
步骤S1312,基于人物特征解码得到完整人物头像对应的更新图像;
步骤S1313,在各完整人物头像的损失统计值收敛的情况下,得到用于实现装饰元素图像替换的预训练模型;
其中,任一完整人物头像对应的模型损失,用于表征完整人物头像与完整人物头像对应更新图像之间的差异;
步骤S1314,获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对样本人物采集的第二完整人物头像;
步骤S1315,识别第一完整人物头像中人物装饰元素所处的第一元素区域,得到第一角度下用于掩码第一元素区域的第一掩码图;
步骤S1316,对第一掩码图进行归一化处理,得到第一归一化掩码图;
其中,第一归一化掩码图中第一元素区域的像素值为1、除第一元素区域以外其他区域的像素值为0;
步骤S1317,使用第一归一化掩码图对第一完整人物头像进行掩码处理,从第一完整人物头像中分离出第一元素区域的第一元素图像;
步骤S1318,识别第二完整人物头像中人物装饰元素所处的第二元素区域,得到第二角度下用于掩码第二元素区域的第二掩码图;
步骤S1319,对第二完整人物头像和第二掩码图分别进行归一化处理,得到归一化头像和第二归一化掩码图;
其中,第二归一化掩码图中第二元素区域的像素值为0、除第二元素区域以外其他区域的像素值为1;
步骤S1320,使用第二归一化掩码图对归一化头像进行掩码处理,得到归一化的局部头像信息;
步骤S1321,对局部头像信息进行反归一化处理,得到删除第二元素区域的局部人物头像;
步骤S1322,构建包含第二完整人物头像、第一元素图像、以及删除第二元素区域的局部人物头像的增量训练样本;
步骤S1323,使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一元素图像补全局部人物头像;
步骤S1324,在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;
其中,装饰元素替换模型用于生成目标人物的目标图像。
上述装饰元素替换模型的训练方法,一方面,在训练过程中引入人物装饰元素的装饰元素图像,能够解决采用文本描述人物装饰元素所存在的控制能力弱的问题,避免需要反复调整训练样本以实现训练目标,有利于提高工作效率;另一方面,通过两个阶段的训练,能够确保预训练阶段能够学习到人物装饰元素的替换能力,增量训练阶段能够解决角度不一致带来的泛化性问题,从而可以在训练样本数量较多的预训练阶段,降低学习过程的复杂度,并在学习复杂度较高的增量训练阶段,显著降低所需要的训练样本数量,有利于降低训练成本,同样可以提高工作效率。
在一个实施例中,还提供了一种人物装饰元素替换方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,以该计算机设备是终端为例,在本实施例中,如图14所示,该方法包括以下步骤:
步骤S1402,获取目标人物的人物图像、以及包含参考装饰元素的参考图像。
其中,目标人物是需要进行装饰元素替换的人物,也即装饰元素替换的替换对象。参考装饰元素是装饰元素替换的替换目标。也即,进行装饰元素替换,是指,将目标人物原本包含的装饰元素,替换为参考装饰元素。参考图像可以仅包含参考装饰元素的参考元素图像,也可以在参考装饰元素的参考元素图像的基础上,还包含其他图像。例如,在人物装饰元素为发型的情况下,参考图像可以是发型图,也可以是具备发型的人物图。
具体来说,用户可以通过终端发起装饰元素替换请求,从而,服务器可以从终端获取目标人物的人物图像、以及包含参考装饰元素的参考图像。进一步的,人物图像和参考图像各自对应的人物头像角度,可以相同,也可以不相同。
步骤S1404,识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像。
其中,目标人物在人物图像中具有目标装饰元素。该目标装饰元素与参考图像中所包含的参考装饰元素的元素类型相同。例如,目标装饰元素和参考装饰元素均为发型;又如,目标装饰元素和参考装饰元素均为眼镜。
具体来说,服务器可以识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像。示例性的,服务器可以从作为参考的人物图中,识别发型区域,得到参考发型的发型图。
步骤S1406,将参考元素图像和人物图像输入装饰元素替换模型,得到目标人物的目标图像。
具体来说,服务器将参考元素图像和人物图像作为装饰元素替换模型的输入,可以从模型输出中获得目标人物的目标图像。其中,目标人物在目标图像中具有参考装饰元素,且目标图像中的参考装饰元素与目标人物对应相同的人物头像角度。装饰元素替换模型,基于上述任意一个装饰元素替换模型的训练方法实施例中装饰元素替换模型的训练方法训练得到。
在一个可选的实施例中,装饰元素替换模型包括参考网络和目标网络。服务器具体可以将参考元素图像作为参考网络的输入,将目标人物的人物图像作为目标网络的输入,从而获得目标网络输出的目标图像。可以理解,由于通过增量训练后得到的装饰元素替换模型具备角度补偿能力,在人物图像和参考图像各自的人物头像角度不同的情况下,目标图像中所包含的参考装饰元素的人物头像角度将与人物图像保持一致,实现在角度补偿的基础上进行装饰元素替换。
在一个可选的实施例中,以人物装饰元素为发型的情况为例。如图15所示,在装饰元素替换模型(发型替换模型)以扩散模型为基底的情况下,模型输入可以包括发型输入和非发型输入,其中,发型输入是指参考发型,非发型输入可以包括目标人物的原始发型掩码图、去除发型区域的局部人物图像、以及噪声图,模型输出为原始发型替换为参考发型的目标图像。从图15中不难看出,目标图像与发型输入中各自包含的参考发型对应的人物头像角度不同,在图像展示效果上有所区别。在发型替换过程中对角度进行补偿,能够确保替换后的参考发型与目标人物在人物图像中的人物头像角度保持一致,有利于提升替换效果。
上述人物装饰元素替换方法,应用经过两个阶段训练的装饰元素替换模型,无需再次训练,即可在保证人物其他部分不变的前提下,将目标人物原本包含的原始装饰元素替换为参考装饰元素,实现zero-shot(零样本学习)替换人物装饰元素的目的,有利于提高工作效率。并且,所使用的装饰元素替换模型能够解决角度不一致带来的泛化性问题,有利于提升替换效果。
在其中一个实施例中,本申请还提供了一种应用场景,在该应用场景下应用上述的装饰元素替换模型训练方法和人物装饰元素替换方法。该应用场景例如可以是发型设计场景。在该应用场景下,人物装饰元素可以是发型,服务器在装饰元素替换模型的训练的过程中:获取用于实现发型图像替换的预训练模型;基于在不同角度下针对同人同发型分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中的第一发型图像,替换第二角度下完整人物头像中的第二发型图像;在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的发型替换模型。其中,预训练模型的每一预训练样本,包括具有发型的完整人物头像;发型的图像展示效果,随着人物头像角度的变化而变化。
训练得到的模型,可以用于进行发型替换。具体来说,服务器可以获取目标人物的人物图像、以及包含参考发型的参考图像;识别参考图像中的发型区域,得到参考发型的发型图像;将发型图像和人物图像输入发型替换模型,得到目标人物的目标图像;该目标人物在目标图像中具有参考发型。
在一个可选的实施例中,本申请在文生图扩散模型的基础上,提出了一种基于两阶段预训练的zero-shot人物发型替换方案。其中,两阶段训练方案,降低了数据收集和训练成本;使用U-net的Inpainting模式,保证仅改变发型,保持其他部分不改变;引入Reference-Net编码发型特征,并在Self-Attention层将发型特征拼接到U-net网络中,实现替换发型。经两阶段预训练后,无需再次训练,通过更换Reference-Net输入的发型,保证人物其他部分不改变的前提下,实现zero-shot替换发型的目的。
在其中一个实施例中,本申请还提供了一种应用场景,在该应用场景下应用上述的装饰元素替换模型训练方法和人物装饰元素替换方法。该应用场景例如可以是虚拟现实场景。在该应用场景下,人物装饰元素可以是头盔,服务器在装饰元素替换模型的训练的过程中:获取用于实现头盔图像替换的预训练模型;基于在不同角度下针对佩戴同一头盔的样本人物分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中的第一头盔图像,替换第二角度下完整人物头像中的第二头盔图像;在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的头盔替换模型。其中,预训练模型的每一预训练样本,包括佩戴有头盔的完整人物头像;头盔的图像展示效果,随着人物头像角度的变化而变化。
训练得到的模型,可以用于进行头盔替换。具体来说,服务器可以获取目标人物的人物图像、以及包含参考头盔的参考图像;识别参考图像中的头盔区域,得到参考头盔的头盔图像;将头盔图像和人物图像输入头盔替换模型,得到目标人物的目标图像;该目标人物在目标图像中佩戴有参考头盔。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的装饰元素替换模型的训练方法的装饰元素替换模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个装饰元素替换模型的训练装置实施例中的具体限定可以参见上文中对于装饰元素替换模型的训练方法的限定,在此不再赘述。
在一个实施例中,如图16所示,提供了一种装饰元素替换模型的训练装置,包括:
预训练模型获取模块1601,用于获取用于实现装饰元素图像替换的预训练模型;预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;
增量样本构建模块1602,用于基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;
增量训练模块1603,用于使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像;
替换模型确定模块1604,用于在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型。
在其中一个实施例中,增量样本构建模块1602包括:获取单元,用于获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对样本人物采集的第二完整人物头像;第一元素区域识别单元,用于识别第一完整人物头像中人物装饰元素所处的第一元素区域,得到第一角度下用于掩码第一元素区域的第一掩码图;融合单元,用于融合第一完整人物头像和第一掩码图,从第一完整人物头像中分离出第一元素区域的第一元素图像;构建单元,用于构建包含第二完整人物头像和第一元素图像的增量训练样本。
在其中一个实施例中,融合单元具体用于:对第一掩码图进行归一化处理,得到第一归一化掩码图;第一归一化掩码图中第一元素区域的像素值为1、除第一元素区域以外其他区域的像素值为0;使用第一归一化掩码图对第一完整人物头像进行掩码处理,从第一完整人物头像中分离出第一元素区域的第一元素图像。
在其中一个实施例中,增量训练样本还包括第二角度下的局部人物头像;预训练模型具体基于第一元素图像补全局部人物头像。在该实施例的情形下,增量样本构建模块1602还包括:第二元素区域识别单元,用于识别第二完整人物头像中人物装饰元素所处的第二元素区域,得到第二角度下用于掩码第二元素区域的第二掩码图;归一化单元,用于对第二完整人物头像和第二掩码图分别进行归一化处理,得到归一化头像和第二归一化掩码图;第二归一化掩码图中第二元素区域的像素值为0、除第二元素区域以外其他区域的像素值为1;掩码单元,用于使用第二归一化掩码图对归一化头像进行掩码处理,得到归一化的局部头像信息;反归一化单元,用于对局部头像信息进行反归一化处理,得到删除第二元素区域的局部人物头像。
在其中一个实施例中,装饰元素替换模型的训练装置还包括完整人物头像获取模块,用于:获取多个候选人物图像;对各候选人物图像分别进行人物识别,确定各候选人物图像各自包含人物的人脸尺寸;针对每一候选人物图像,在候选人物图像中人物的人脸尺寸满足尺寸条件、且人物包含人物装饰元素的情况下,基于候选人物图像得到具有人物装饰元素的完整人物头像。
在其中一个实施例中,装饰元素替换模型的训练装置还包括预训练模型模块,用于:针对预训练样本集中的每一完整人物头像,识别完整人物头像中的装饰元素区域,得到完整人物头像的装饰元素掩码图;对完整人物头像中的装饰元素图像进行图像特征提取,得到装饰元素特征;在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征;基于融合装饰元素特征和非装饰特征得到的人物特征,解码得到完整人物头像对应的更新图像;在各完整人物头像的损失统计值收敛的情况下,得到用于实现装饰元素图像替换的预训练模型;任一完整人物头像对应的模型损失,用于表征完整人物头像与完整人物头像对应更新图像之间的差异。
在其中一个实施例中,预训练模型模块具体用于:对完整人物头像进行图像编码,得到完整人物头像的潜空间完整表示;在装饰元素掩码图的引导下,对潜空间完整表示进行掩码处理,得到完整人物头像中除装饰元素区域以外其他区域的潜空间局部表示;基于潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。
在其中一个实施例中,预训练模型模块具体用于:在装饰元素掩码图的引导下,对完整人物头像进行掩码处理,得到删除装饰元素区域的局部人物头像;对局部人物头像进行图像编码,得到局部人物头像的潜空间局部表示;基于潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。
在其中一个实施例中,非装饰特征和装饰元素特征均包含查询特征、键特征和值特征。在该实施例的情形下,预训练模型模块还用于:拼接非装饰特征和装饰元素特征各自的键特征,得到键融合特征;拼接非装饰特征和装饰元素特征各自的值特征,得到值融合特征;基于非装饰特征中的查询特征、键融合特征和值融合特征,得到人物特征。
上述人物装饰元素替换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的人物装饰元素替换方法的人物装饰元素替换装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个人物装饰元素替换装置实施例中的具体限定可以参见上文中对于人物装饰元素替换方法的限定,在此不再赘述。
在一个实施例中,如图17所示,提供了一种人物装饰元素替换装置,包括:
图像获取模块1701,用于获取目标人物的人物图像、以及包含参考装饰元素的参考图像;
装饰元素识别模块1702,用于识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像;
装饰元素替换模块1703,用于将参考元素图像和人物图像输入装饰元素替换模型,得到目标人物的目标图像;目标人物在目标图像中具有参考装饰元素;装饰元素替换模型,基于上述任意一个装饰元素替换模型的训练方法实施例训练得到。
上述人物装饰元素替换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图18所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述方法实施例中所涉及的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种装饰元素替换模型的训练方法或人物装饰元素替换方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图19所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种装饰元素替换模型的训练方法或人物装饰元素替换方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图18或19中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一方法实施例的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时上述任一方法实施例的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关地域和地区的相关法律法规和标准。并且,对象可以选择不进行对象信息和相关数据的授权,也可以拒绝或可以便捷拒绝推送信息等。
本申请中,在实际应用时进行相关数据收集处理的过程中,应该严格根据相关地区法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种装饰元素替换模型的训练方法,其特征在于,所述方法包括:
获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;
基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;
使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;
在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本,包括:
获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对所述样本人物采集的第二完整人物头像;
识别所述第一完整人物头像中所述人物装饰元素所处的第一元素区域,得到所述第一角度下用于掩码第一元素区域的第一掩码图;
融合所述第一完整人物头像和所述第一掩码图,从所述第一完整人物头像中分离出所述第一元素区域的第一元素图像;
构建包含所述第二完整人物头像和所述第一元素图像的增量训练样本。
3.根据权利要求2所述的方法,其特征在于,所述融合所述第一完整人物头像和所述第一掩码图,从所述第一完整人物头像中分离出所述第一元素区域的第一元素图像,包括:
对所述第一掩码图进行归一化处理,得到第一归一化掩码图;所述第一归一化掩码图中所述第一元素区域的像素值为1、除所述第一元素区域以外其他区域的像素值为0;
使用所述第一归一化掩码图对所述第一完整人物头像进行掩码处理,从所述第一完整人物头像中分离出所述第一元素区域的第一元素图像。
4.根据权利要求2所述的方法,其特征在于,所述增量训练样本还包括所述第二角度下的局部人物头像;所述预训练模型具体基于所述第一元素图像补全所述局部人物头像;
所述方法还包括:
识别所述第二完整人物头像中所述人物装饰元素所处的第二元素区域,得到所述第二角度下用于掩码所述第二元素区域的第二掩码图;
对所述第二完整人物头像和所述第二掩码图分别进行归一化处理,得到归一化头像和第二归一化掩码图;所述第二归一化掩码图中所述第二元素区域的像素值为0、除所述第二元素区域以外其他区域的像素值为1;
使用所述第二归一化掩码图对所述归一化头像进行掩码处理,得到归一化的局部头像信息;
对所述局部头像信息进行反归一化处理,得到删除所述第二元素区域的局部人物头像。
5.根据权利要求1所述的方法,其特征在于,所述完整人物头像的获取过程,包括:
获取多个候选人物图像;
对各所述候选人物图像分别进行人物识别,确定各所述候选人物图像各自包含人物的人脸尺寸;
针对每一所述候选人物图像,在所述候选人物图像中人物的人脸尺寸满足尺寸条件、且所述人物包含人物装饰元素的情况下,基于所述候选人物图像得到具有人物装饰元素的完整人物头像。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述预训练模型的训练过程,包括:
针对预训练样本集中的每一完整人物头像,识别所述完整人物头像中的装饰元素区域,得到所述完整人物头像的装饰元素掩码图;
对所述完整人物头像中的装饰元素图像进行图像特征提取,得到装饰元素特征;
在所述装饰元素掩码图的引导下,对所述完整人物头像进行图像特征提取,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征;
基于融合所述装饰元素特征和所述非装饰特征得到的人物特征,解码得到所述完整人物头像对应的更新图像;
在各所述完整人物头像的损失统计值收敛的情况下,得到用于实现装饰元素图像替换的预训练模型;任一所述完整人物头像对应的模型损失,用于表征所述完整人物头像与所述完整人物头像对应更新图像之间的差异。
7.根据权利要求6所述的方法,其特征在于,所述在所述装饰元素掩码图的引导下,对所述完整人物头像进行图像特征提取,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征,包括:
对所述完整人物头像进行图像编码,得到所述完整人物头像的潜空间完整表示;
在所述装饰元素掩码图的引导下,对所述潜空间完整表示进行掩码处理,得到所述完整人物头像中除所述装饰元素区域以外其他区域的潜空间局部表示;
基于所述潜空间局部表示进行特征编码和注意力池化处理,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征。
8.根据权利要求6所述的方法,其特征在于,所述在所述装饰元素掩码图的引导下,对所述完整人物头像进行图像特征提取,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征,包括:
在所述装饰元素掩码图的引导下,对所述完整人物头像进行掩码处理,得到删除装饰元素区域的局部人物头像;
对所述局部人物头像进行图像编码,得到所述局部人物头像的潜空间局部表示;
基于所述潜空间局部表示进行特征编码和注意力池化处理,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征。
9.根据权利要求6所述的方法,其特征在于,所述非装饰特征和所述装饰元素特征均包含查询特征、键特征和值特征;所述方法还包括:
拼接所述非装饰特征和所述装饰元素特征各自的键特征,得到键融合特征;
拼接所述非装饰特征和所述装饰元素特征各自的值特征,得到值融合特征;
基于所述非装饰特征中的查询特征、所述键融合特征和所述值融合特征,得到人物特征。
10.一种人物装饰元素替换方法,其特征在于,所述方法包括:
获取目标人物的人物图像、以及包含参考装饰元素的参考图像;
识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;
将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于如权利要求1至9中任意一项所述的方法训练得到。
11.一种装饰元素替换模型的训练装置,其特征在于,所述装置包括:
预训练模型获取模块,用于获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;
增量样本构建模块,用于基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;
增量训练模块,用于使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;
装饰元素替换模型确定模块,用于在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。
12.一种人物装饰元素替换装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标人物的人物图像、以及包含参考装饰元素的参考图像;
装饰元素识别模块,用于识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;
装饰元素替换模块,用于将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于如权利要求1至9中任意一项所述的方法训练得到。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202510001621.XA CN119399580B (zh) | 2025-01-02 | 2025-01-02 | 装饰元素替换模型的训练方法和人物装饰元素替换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202510001621.XA CN119399580B (zh) | 2025-01-02 | 2025-01-02 | 装饰元素替换模型的训练方法和人物装饰元素替换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN119399580A CN119399580A (zh) | 2025-02-07 |
CN119399580B true CN119399580B (zh) | 2025-03-21 |
Family
ID=94431516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202510001621.XA Active CN119399580B (zh) | 2025-01-02 | 2025-01-02 | 装饰元素替换模型的训练方法和人物装饰元素替换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN119399580B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563868A (zh) * | 2020-07-20 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的头部装饰处理方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961507B (zh) * | 2019-03-22 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
US20240078434A1 (en) * | 2022-09-02 | 2024-03-07 | Arizona Board Of Regents On Behalf Of Arizona State University | SYSTEMS, METHODS, AND APPARATUSES FOR IMPLEMENTING DISCRIMINATIVE, RESTORATIVE, AND ADVERSARIAL (DiRA) LEARNING USING STEPWISE INCREMENTAL PRE-TRAINING FOR MEDICAL IMAGE ANALYSIS |
-
2025
- 2025-01-02 CN CN202510001621.XA patent/CN119399580B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563868A (zh) * | 2020-07-20 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的头部装饰处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN119399580A (zh) | 2025-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A survey on face data augmentation for the training of deep neural networks | |
Seow et al. | A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities | |
Tomei et al. | Art2real: Unfolding the reality of artworks via semantically-aware image-to-image translation | |
Zhang et al. | Cross-domain correspondence learning for exemplar-based image translation | |
TWI779969B (zh) | 圖像處理方法、處理器、電子設備與電腦可讀存儲介質 | |
Natsume et al. | Fsnet: An identity-aware generative model for image-based face swapping | |
CN110322416B (zh) | 图像数据处理方法、装置以及计算机可读存储介质 | |
Wang et al. | A survey on face data augmentation | |
Singh et al. | Neural style transfer: A critical review | |
Sajid et al. | Data augmentation‐assisted makeup‐invariant face recognition | |
Xu et al. | Saliency prediction on omnidirectional image with generative adversarial imitation learning | |
CN114187165B (zh) | 图像处理方法和装置 | |
Kumar et al. | RETRACTED ARTICLE: A comprehensive survey on generative adversarial networks used for synthesizing multimedia content | |
WO2024109374A1 (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN114360073B (zh) | 一种图像识别方法及相关装置 | |
Pęśko et al. | Comixify: Transform video into comics | |
US12147519B2 (en) | User authentication based on three-dimensional face modeling using partial face images | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene | |
CN116634242A (zh) | 语音驱动的说话视频生成方法、系统、设备和存储介质 | |
Yu et al. | Mask-guided GAN for robust text editing in the scene | |
Sun et al. | Face image-sketch synthesis via generative adversarial fusion | |
Laishram et al. | Challenges and applications of face deepfake | |
Xu et al. | RelightGAN: Instance-level generative adversarial network for face illumination transfer | |
Zhang et al. | Edge aware domain transformation for face sketch synthesis | |
CN118015110B (zh) | 人脸图像生成方法及装置、计算机可读存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |