CN114549557A

CN114549557A - 一种人像分割网络训练方法、装置、设备及介质

Info

Publication number: CN114549557A
Application number: CN202210185908.9A
Authority: CN
Inventors: 黄殿; 周斌; 汪昊
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-27

Abstract

本公开涉及一种人像分割网络训练方法、装置、设备及介质，该方法包括：获取训练样本集；将各图片输入人像分割网络，其包括特征提取网络、人体关键点信息计算网络及分割网络；利用特征提取网络提取所述图片的特征，得到该图片的特征图，利用人体关键点标注所对应的各人像的轮廓范围对特征图进行裁剪，输出各人像对应的特征图；利用人体关键点信息计算网络根据人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出二通道特征图；将各人像对应的特征图和二通道特征图输入分割网络，利用分割网络进行特征提取并进行人像分割标注预测，以输出该图片的人像分割标注为目标进行训练。本公开能够实现多目标分割，并提高了分割准确率。

Description

一种人像分割网络训练方法、装置、设备及介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种人像分割网络训练方法、装置、设备及介质。

背景技术

目前对图片中的目标对象分割方法，使用深度学习方法进行目标对象的关键点检测和分割。

关键点检测是通过算法将图片中的具有目标对象典型特征的关键点筛查出来，常见的关键点检测有传统普通图片的边缘点检测，例如SIFT(Scale-Invariant FeatureTransform，尺度不变特征转换)、ORB(Oriented FAST and Rotated BRIEF，快速特征点提取和描述的算法)、SURF(Speed-Up Robust Features，加速健壮特征方法)等；还有人脸关键点检测(眼睛、鼻子、嘴巴等)和人体关键点(头、手、躯干等主要关节点)。常用的人体关键点检测算法有CPM(Convolutioanl Pose Machine，卷积姿态机)、Hourglass(沙漏)、OpenPose(姿态识别)等。

目标对象分割是通过算法将图片中的目标对象进行像素的分类，以及将图片上每一个像素按照标签进行分类，常见的目标分割有医学图像分割(将医学图像按照器官、组织类别按像素分类)和人体分割。目标分割按照是否将同一类别不同实例进行区分，可以分为实例分割和语义分割。常见的目标分割算法有FCN(Fully Convolutional Networks forSemantic Segmentation，基于全卷积网络的语义分割)、Mask-RCNN(Mask Region-basedConvolutional Neural Networks，掩膜区域卷积神经网络)、Encoder-Decoder basedModel(基于编码器-解码器的模型)(U-net、V-net、SegNet)等。

现有的采用关键点和人体分割融合训练的人像分割方法较少，并且现有技术提取单一的人体关键点特征来进行人像分割，人像分割的准确率不高。

发明内容

本公开提供一种人像分割网络训练方法、装置、设备及介质，提高人像分割的准确率。

根据本公开实施例的第一方面，提供一种人像分割网络训练方法，该方法包括：

获取训练样本集，所述训练样本集包括多张带有标注的图片，所述标注包括人体关键点标注和人像分割标注；

将所述训练样本集中的各图片输入人像分割网络，所述人像分割网络包括特征提取网络、人体关键点信息计算网络及分割网络；

利用所述特征提取网络提取所述图片的特征，得到所述图片的特征图，利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图；

利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图；

将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取并进行人像分割标注预测，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络。

在一种可能的实现方式中，所述获取训练样本集，包括：

获取目标场景下通过摄像装置采集的多张带有人像的图片，构成第一数据集，所述第一数据集中多张带有人像的图片包括单人图片和多人图片；

从开源数据集中获取多张带有人像的图片，构成第二数据集，所述第二数据集中多张带有人像的图片包括单人图片和多人图片。

在一种可能的实现方式中，所述获取训练样本集之后，还包括：

使用聚类算法对所述训练样本集中图片的人体关键点标注进行聚类得到多个聚类中心，将所述多个聚类中心作为标准姿态模板集；

所述利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图，包括：

利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，获得所述图片中的各人像对应的原始特征图；

确定输入的图片中各人像的人体关键点标注所对应的标准姿态模板，并计算将所述人像的人体关键点标注与所述所对应的标注姿态模板进行变换的变换矩阵，使用所述变换矩阵对所述人像对应的第一特征图进行对齐，得到所述人像对应的第一特征图；

对所述各人像对应的第一特征图进行缩放，得到相同尺寸的人像对应的特征图。

在一种可能的实现方式中，计算将所述人像的人体关键点标注与所述所对应的标注姿态模板进行变换的变换矩阵，包括：

针对输入的图片中的人像，计算所述人像对应的人体关键点标注与标准姿态模板集中各标准姿态模板之间的距离；

确定与所述人像的人体关键点标注距离最小的标准姿态模板，计算从所述人像的人体关键点标注变换到所述标准姿态模板的变换矩阵。

在一种可能的实现方式中，所述利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图，包括：

根据所述图片的人体关键点标注，使用高斯核函数计算人体关键点范围，得到热力图；

根据所述图片的人体关键点标注，使用确定任意两个人体关键点标注的连接关系的函数计算人体关键点连接信息，得到部分关联域PAF特征；

将所述热力图和PAF特征进行融合，得到与所述各人像对应的特征图尺寸相同的二通道特征图。

在一种可能的实现方式中，所述将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取之后，还包括：

获取对各人像对应的特征图和二通道特征图进行特征提取后得到的各人像的第二特征图；

将所述各人像的第二特征图进行缩放，恢复为与该人像对应的对齐后的第一特征图相同的尺寸；

对缩放后的第二特征图利用所述人像对应的变换矩阵的逆矩阵进行变换，得到所述人像的原始特征图；

将所述图片中各人像的原始特征图，根据该人像的轮廓范围合并。

在一种可能的实现方式中，所述训练人像分割网络，包括：

在第一训练阶段采用训练样本集固定大小的图片作为输入，根据输入图片的人像分割标注和人像分割网络输出的人像分割标注，确定第一损失函数值；

根据所述第一损失函数值采用第一学习率对所述人像分割网络进行参数调整，其中，所述第一学习率随着训练代数Epoch的增加而减少所述第一学习率；

在第二训练阶段采用训练样本集中不同大小的图片作为输入，根据输入图片的人像分割标注和人像分割网络输出的人像分割标注，确定第二损失函数值；

根据所述第二损失函数值采用固定的第二学习率对所述人像分割网络进行参数调整。

在一种可能的实现方式中，所述方法还包括如下至少一个步骤：

在第一训练阶段，确定当前得到第一损失函数值大于设定阈值时，增加当前输入的图片在之后输入到人像分割网络的次数；

在第二训练阶段，确定当前得到第二损失函数值大于设定阈值时，增加当前输入的图片在之后输入到人像分割网络的次数。

在一种可能的实现方式中，所述训练人像分割网络之后，还包括：

获取待测图片，确定所述待测图片的人体关键点标注；

将所述待测图片和人体关键点标注输入所述人像分割网络，获得所述人像分割网络输出的所述待测图片的人像分割标注。

在一种可能的实现方式中，所述人体关键点标注包括关键点的坐标，以及人体关键点是否被其他人像的人体关键点和/或背景遮挡的标记；

所述人像分割标注包括标注为第一标记值的人像部分像素和标注为第二标记值的背景部分像素。

根据本公开实施例的第二方面，提供一种人像分割网络训练装置，该装置包括：

训练样本集获得模块，用于获取训练样本集，所述训练样本集包括多张带有标注的图片，所述标注包括人体关键点标注和人像分割标注；

图片输入模块，用于将所述训练样本集中的各图片输入人像分割网络，所述人像分割网络包括特征提取网络、人体关键点信息计算网络及分割网络；

人像特征图获得模块，用于利用所述特征提取网络提取所述图片的特征，得到所述图片的特征图，利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图；

二通道特征图获得模块，用于利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图；

人像分割网络训练模块，用于将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取并进行人像分割标注预测，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络。

根据本公开实施例的第三方面，提供一种电子设备包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现上述人像分割网络训练方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述人像分割网络训练方法的步骤。

另外，第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开可以实现单人和多人的人像分割，并且通过使用多维度的人体关键点特征，即人体关键点标注范围和人体关键点连接信息，进行人像分割，提高人像分割的准确度。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的应用场景示意图；

图2是根据一示例性实施例示出的一种人像分割网络训练方法的流程图；

图3是根据一示例性实施例示出的一个人像的人体关键点的示意图；

图4是根据一示例性实施例示出的两个聚类中心的标准姿态模板集的示意图；

图5是根据一示例性实施例示出的三个聚类中心的标准姿态模板集的示意图；

图6是根据一示例性实施例示出的四个聚类中心的标准姿态模板集的示意图；

图7是根据一示例性实施例示出的一种人像分割网络的结构图；

图8是根据一示例性实施例示出的一种人像分割网络中的特征提取网络的示意图；

图9是根据一示例性实施例示出的一种人像分割网络中的分割网络的示意图；

图10是根据一示例性实施例示出的一种人像分割网络训练装置的模块结构示意图；

图11是根据一示例性实施例示出的一种人像分割网络训练方法的电子设备示意图；

图12是根据一示例性实施例示出的一种人像分割网络训练方法的程序产品示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

下面对文中出现的一些词语进行解释：

1、本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前采用关键点和人体分割融合训练的技术方案还比较少，而优化单一任务的方案较多。并且现有技术通过提取单一的人体关键点特征来进行人像分割，人像分割的准确率不高。

因此，为了解决上述问题，本公开提供了一种人像分割网络训练方法、装置、设备及介质，提高人像分割的准确率。

首先参考图1，其为本公开实施例的应用场景示意图，包括采集器11和服务器12。其中采集器11可以为相机、手机/计算机的摄像头和录像机等，用于采集图片；服务器12用于根据采集的图片对人像分割网络进行训练以及根据训练好的人像分割网络对图片中的人像进行分割。

本公开实施例中，服务器12获取采集器11采集的训练样本集，所述训练样本集包括多张带有标注的图片，所述标注包括人体关键点标注和人像分割标注；将所述训练样本集中的各图片输入人像分割网络，所述人像分割网络包括特征提取网络、人体关键点信息计算网络及分割网络；利用所述特征提取网络提取所述图片的特征，得到所述图片的特征图，利用人体关键点标注对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图；利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图；将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取并进行人像分割标注预测，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络。

本公开实施例中，提供了一种人像分割网络训练方法，本公开基于同一构思，还提供了一种人像分割网络训练装置、一种电子设备以及一种计算机可读存储介质。

实施例1

下面通过具体的实施例对本公开提供的一种人像分割网络训练方法进行说明，如图2所示，包括：

步骤201，获取训练样本集，所述训练样本集包括多张带有标注的图片，所述标注包括人体关键点标注和人像分割标注；

上述训练样本集包括目标场景下通过摄像装置采集的多张带有人像的图片构成的第一数据集和从开源数据集中获取多张带有人像的图片构成的第二数据集，其中第一数据集中多张带有人像的图片包括单人图片和多人图片，第二数据集中多张带有人像的图片也包括单人图片和多人图片。

上述人体关键点标注包括关键点的坐标，以及人体关键点是否被其他人像的人体关键点和/或背景遮挡的标记。上述人像分割标注包括标注为第一标记值的人像部分像素和标注为第二标记值的背景部分像素。

步骤202，将所述训练样本集中的各图片输入人像分割网络，所述人像分割网络包括特征提取网络、人体关键点信息计算网络及分割网络；

上述特征提取网络用于提取输入图片的特征，并根据人体关键点标注和该图片的特征图获得输入图片中的各人像对应的特征图；人体关键点信息计算网络用于根据人体关键点标注获得包括人体关键点标注范围和人体关键点连接信息的二通道特征图；分割网络用于根据各人像对应的特征图和二通道特征图进行特征提取并进行人像分割标注预测，以获得该图片的人像分割标注。

步骤203，利用所述特征提取网络提取所述图片的特征，得到所述图片的特征图，利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图；

上述特征提取网络可以为能够保持图像分辨率的轻量卷积神经网络(Convolutional Neural Networks，CNN)结构。

步骤204，利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图；

根据所述图片的人体关键点标注，使用高斯核函数计算人体关键点范围，得到热力图；根据所述图片的人体关键点标注，使用确定任意两个人体关键点标注的连接关系的函数计算人体关键点连接信息，得到部分关联域(Part Affinity Field，PAF)特征；将所述热力图和PAF特征进行融合，得到与所述各人像对应的特征图尺寸相同的二通道特征图。上述根据人体关键点标注得到热力图(heatmap)PAF特征的具体过程为现有技术，不再详细赘述。

步骤205，将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取并进行人像分割标注预测，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络。

本公开可以实现单人和多人的人像分割，并且通过使用多维度的人体关键点信息进行人像分割，提高人像分割的准确度。

目前一种融合关键点的人像分割方法的具体实施方法如下：

步骤1，收集若干带标注单个人像样本剪裁成统一大小(512x512)，同时引入开源数据进行扩充；

步骤2，搭建关键点训练网络，进行训练收敛得到关键点检测模型；

步骤3，准备人像分割网络的输入；

步骤3.1，利用人像图片作为输入送入步骤2所得模型，得到推理关键点结果；

步骤3.2，将步骤3.1得到关键点结果连接生成关节连接图；

步骤3.3，将步骤3.2中关节连接图和原始人像共同构成四通道图，即为分割网络所需输入；

步骤4，设计人像分割网络，以步骤3中的输出四通道图像作为网络输出进行训练，得到分割网络。

上述方案只能用于单人图片的人像分割，在实际场景中使用比较受限；提取单一的人体关键点特征来进行人像分割，人像分割的准确率不高；对于目标输入的尺寸要求比较严格，需要分辨率较高，而实际使用过程中往往很难满足。

本公开提供一种人像分割网络训练方法，其具体步骤如下：

首先，获取训练样本集，所述训练样本集包括多张带有标注的图片，所述标注包括人体关键点标注和人像分割标注。

所述人体关键点标注包括关键点的坐标，以及人体关键点是否被其他人像的人体关键点和/或背景遮挡的标记，例如人体关键点被遮挡标记为1，人体关键点没有被遮挡标记为0。一个人体的人体关键点可以根据需求进行设置，如图3所示，一个人体可以有17个关键点，包含：鼻子-0、左眼-1、右眼-2、左耳朵-3、右耳朵-4、左肩-5、右肩-6、左肘-7、右肘-8、左手腕-9、右手腕-10、左肩-5、左臀-11、右臀-12、左膝盖-13、右膝盖-14、左脚踝-15以及右脚踝-16。

所述人像分割标注包括标注为第一标记值的人像部分像素和标注为第二标记值的背景部分像素，例如将人像部分像素标注为1，将背景部分像素标注为0。

上述训练样本集包括以下两个部分：

例如在一个实际的公园场景下，采用相机进行拍照，获取多张带有人像的图片。

从开源数据集中获取多张带有人像的图片，构成第二数据集，所述第二数据集中多张带有人像的图片包括单人图片和多人图片。获取第二数据集是为了能够增强人像分割网络的泛化能力，例如，从开源的MS COCO(The Microsoft Common Objects in Context)数据集中多张带有人像的图片。

上述训练样本集中，第一数据集的大小可以为4000，第二数据集的大小可以为5000。

在获取训练样本集之后，可以根据以下方法获得标准姿态模板集：

使用聚类算法对所述训练样本集中图片的人体关键点标注进行聚类得到多个聚类中心，将所述多个聚类中心作为标准姿态模板集。

具体方法可以是将训练样本集中图片的人体关键点标注采用k-means算法(k-均值算法)聚类得到k个聚类中心，将所述k个聚类中心作为标准姿态模板集。标准姿态模板集中的一个聚类中心P可以采用如下表示方法：P＝(C1；C2；……；Cm)∈Rm_3，其中m表示人体关键点的数量，Ci表示第i个人体关键点的人体关键点标注，Rm_3表示三维数据，Ci＝(x；y；v)∈R3，其中x表示该人体关键点的横坐标，y表示该人体关键点的纵坐标，v表示人体关键点是否被其他人像的人体关键点和/或背景遮挡的标记，R3表示三维数据。图4是当k＝2时，两个聚类中心的标准姿态模板集的示意图；图5是当k＝3时，三个聚类中心的标准姿态模板集的示意图；图6是当k＝4时，四个聚类中心的标准姿态模板集的示意图。在此三种情况下，通过实验发现当k＝4时在该训练样本集上可以取得最高的分割测试准确率。可以看出，k的取值越大，人像分割的准确率越高，但相应的人像分割网络的速率相应的下降。

其次，将所述训练样本集中的各图片输入人像分割网络，所述人像分割网络包括特征提取网络、人体关键点信息计算网络及分割网络。

如图7所示，将训练样本集中的图片输入特征提取网络得到所述图片中的各人像对应的特征图，所述图片包括人像分割标注和人体关键点标注；可以与上述步骤并行执行的是，将人体关键点标注输入人体关键点信息计算网络得到与所述各人像对应的特征图尺寸相同的二通道特征图；将所述各人像对应的特征图和二通道特征图输入分割网络，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络。

然后，利用所述特征提取网络提取所述图片的特征，得到所述图片的特征图，利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图。

上述特征提取网络可以为能够保持图像分辨率的轻量CNN结构，比如常见的支持多尺度多分辨特征融合的U-net、SegNet、deConv。

本公开以采用一次下采样的HRnet为例，如图8所示为所述HRnet的结构。

上述利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图包括如下步骤：

上述人体关键点标注所对应的各人像的轮廓范围可以根据人体关键点标注外接矩形框实现，而利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪可以采用crop(裁剪)技术实现。

上述对所述各人像对应的第一特征图进行缩放可以采用线性插值的方式，也可以使用其他方式。

可以通过以下方法计算将所述人像的人体关键点标注与所述所对应的标注姿态模板进行变换的变换矩阵：

上述变换矩阵是一个2x3矩阵，包含五个独立变量，即旋转、缩放、水平平移、竖直平移以及是否左右旋转。

本公开通过对图片中的人体关键点特征的引入，加强了对于人体结构特征的描述，使被局部遮挡的目标的形体结构也可以被表达出来，提升目标遮挡分割效果，增强了人像分割网络的适用范围和鲁棒性。

接下来，利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图。

可以根据所述图片的人体关键点标注，使用高斯核函数计算人体关键点范围，得到热力图，热力图是单通道的特征图(17*1)，其中17表示人体的17个人体关键点；

根据所述图片的人体关键点标注，使用确定任意两个人体关键点标注的连接关系的函数计算人体关键点连接信息，得到PAF特征，该PAF特征是一个二通道的特征图；

在上述过程中，若使用单个特征，即PAF特征或热力图等，发现使用PAF特征的分割效果较好。使用多维度的人体关键点计算而得到的特征可以进一步提升人像分割网络的性能。

最后，将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述人像分割网络进行特征提取并进行人像分割标注预测，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络。

上述人像分割网络可以为CNN结构，比如常见的支持多尺度多分辨特征融合的U-net、SegNet、deConv。

本公开以采用三级下采样的HRnet为例，如图9所示，其为所述HRnet的结构。

上述将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取之后，采用如下方法进行逆对变换齐：

为了充分训练人像分割网络，可以使用如下的方式分段进行训练：

根据所述第一损失函数值采用第一学习率对所述人像分割网络进行参数调整，其中，所述第一学习率随着训练时期Epoch的增加而减少所述第一学习率；

例如，采用训练热身(warmup)的方式启动第一阶段的训练，输入人像分割网络的图片大小固定为512x512，其中warmup是一种学习率优化方法，采用以较低学习率逐渐增大至较高学习率的方式实现网络训练的“热身”阶段。该方法可以有效加快此阶段训练的收敛性。

上述第一学习率初始为Lr＝5e-4，在20训练代数(Epoch)之后，第一学习率为Lr＝0.1*Lr，在训练至50Epoch之后停止，其中Epoch是使用训练样本集中的全部图片对人像分割网络进行一次完整训练，为一代训练。在第一训练阶段中，批大小可以为16，第一损失函数值可以根据输入图片的人像分割标注和人像分割网络输出的人像分割标注利用交叉熵函数计算获得。

例如，随机调整训练样本集中的图片的大小，可以为原始图片大小的±20％，上述第二学习率可以固定为1e-4，第二损失函数值可以根据输入图片的人像分割标注和人像分割网络输出的人像分割标注利用交叉熵函数计算获得。

在上述第一训练阶段和第二训练阶段中可以使用随机在线数据增强的方法获取更多的训练样本集中的图片，例如模糊(blur)输入图片、裁剪(crop)输入图片、抖动(jitter)输入图片、随机擦除(random erase)输入图片水平、翻转(flip)输入图片等，以提升训练样本的丰富性，进而使得人像分割网络更加鲁棒。

在上述第一训练阶段和/或第二训练阶段可以使用批量在线难例挖掘(batch-Online Hard Example Mining，batch-OHEM)技术增加人像分割困难图片输入到人像分割网络的次数，具体方法如下：

在第一训练阶段，对训练当前批次图片的损失函数值进行排序，损失函数值较大的15％且第一损失函数值大于设定阈值时，增加当前输入的图片在之后输入到人像分割网络的次数；

在第二训练阶段，对训练当前批次图片的损失函数值进行排序，损失函数值较大的15％且第二损失函数值大于设定阈值时，增加当前输入的图片在之后输入到人像分割网络的次数。

本公开的两个阶段的训练对于小目标的分割准确率有明显提升，由于人体关键点特征的引导，部分小目标的特征也能更加清晰地显现，因此本公开对于小目标的分割性能要更好，可以实现不同尺度的多目标关键点检测和分割。

在人像分割网络训练好后，可以使用以下方法进行人像分割：

获取待测图片，确定所述待测图片的人体关键点标注；

上述确定所述待测图片的人体关键点标注可以是现有的人体关键点检测网络，也可以根据训练样本集中的图片训练一个人体关键点检测网络，具体为：将训练样本集中的图片输入人体关键点检测网络，利用所述人体关键点检测网络进行特征提取并进行人体关键点标注预测，以输出所述图片的人体关键点标注为目标进行训练所述人体关键点检测网络。

实施例2

基于相同的发明构思，本公开实施例还提供一种人像分割网络训练装置，由于该装置即是本公开实施例中的方法中的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图10所示，上述装置包括以下模块：

训练样本集获得模块101，用于获取训练样本集，所述训练样本集包括多张带有标注的图片，所述标注包括人体关键点标注和人像分割标注；

图片输入模块102，用于将所述训练样本集中的各图片输入人像分割网络，所述人像分割网络包括特征提取网络、人体关键点信息计算网络及分割网络；

人像特征图获得模块103，用于利用所述特征提取网络提取所述图片的特征，得到所述图片的特征图，利用人体关键点标注对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图；

二通道特征图获得模块104，用于利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图；

人像分割网络训练模块105，用于将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取并进行人像分割标注预测，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络。

作为一种可选的实施方式，所述训练样本集获得模块，用于获取训练样本集，包括：

作为一种可选的实施方式，所述训练样本集获得模块，用于获取训练样本集之后，还用于：

所述人像特征图获得模块，用于利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图，包括：

作为一种可选的实施方式，所述人像特征图获得模块，用于计算将所述人像的人体关键点标注与所述所对应的标注姿态模板进行变换的变换矩阵，包括：

作为一种可选的实施方式，所述二通道特征图获得模块，用于利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图，包括：

作为一种可选的实施方式，所述人像分割网络训练模块，用于将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述人像分割网络进行特征提取之后，还用于：

作为一种可选的实施方式，所述人像分割网络训练模块，用于训练人像分割网络，包括：

作为一种可选的实施方式，所述装置还用于如下至少一个步骤：

作为一种可选的实施方式，所述人像分割网络训练模块，用于训练人像分割网络之后，还用于：

获取待测图片，确定所述待测图片的人体关键点标注；

作为一种可选的实施方式，所述人体关键点标注包括关键点的坐标，以及人体关键点是否被其他人像的人体关键点和/或背景遮挡的标记；

实施例3

基于相同的发明构思，本公开实施例中还提供了一种人像分割网络训练电子设备，由于该电子设备即是本公开实施例中的方法中的电子设备，并且该电子设备解决问题的原理与该方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。

下面参照图11来描述根据本公开的这种实施方式的电子设备110。图11显示的电子设备110仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备110可以以通用计算设备的形式表现，例如其可以为终端设备。电子设备110的组件可以包括但不限于：上述至少一个处理器111、上述至少一个存储处理器可执行指令的存储器112、连接不同系统组件(包括存储器112和处理器111)的总线113。

所述处理器通过运行所述可执行指令以实现如下步骤：

作为一种可选的实施方式，所述获取训练样本集，包括：

作为一种可选的实施方式，所述获取训练样本集之后，所述处理器还用于：

作为一种可选的实施方式，所述计算将所述人像的人体关键点标注与所述所对应的标注姿态模板进行变换的变换矩阵，包括：

作为一种可选的实施方式，所述利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图，包括：

作为一种可选的实施方式，所述将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述人像分割网络进行特征提取之后，所述处理器还用于：

作为一种可选的实施方式，所述训练人像分割网络，包括：

作为一种可选的实施方式，所述处理器还用于如下至少一个步骤：

作为一种可选的实施方式，所述训练人像分割网络之后，所述处理器还用于：

获取待测图片，确定所述待测图片的人体关键点标注；

总线113表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器112可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。

存储器112还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125，这样的程序模块1124包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备110也可以与一个或多个外部设备114(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备110交互的设备通信，和/或与使得电子设备110能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口115进行。并且，电子设备110还可以通过网络适配器116与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器116通过总线113与电子设备110的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备110使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

实施例4

在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的人像分割网络训练装置中各模块的步骤，例如，终端设备可以用于获取训练样本集，所述训练样本集包括多张带有标注的图片，所述标注包括人体关键点标注和人像分割标注；将所述训练样本集中的各图片输入人像分割网络，所述人像分割网络包括特征提取网络、人体关键点信息计算网络及分割网络；利用所述特征提取网络提取所述图片的特征，得到所述图片的特征图，利用人体关键点标注所对应的各人像的轮廓范围对所述特征图进行裁剪，输出所述图片中的各人像对应的特征图；利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图；将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取并进行人像分割标注预测，以输出所述图片的人像分割标注为目标进行训练所述人像分割网络等操作。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图12所示，描述了根据本公开的实施方式的用于人体分割网络训练的程序产品120，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了系统的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开系统各模块的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些操作，将多个操作合并为一个操作执行，和/或将一个操作分解为多个操作执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种人像分割网络训练方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练样本集，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取训练样本集之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述计算将所述人像的人体关键点标注与所述所对应的标注姿态模板进行变换的变换矩阵，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所述人体关键点信息计算网络根据所述图片的人体关键点标注，计算人体关键点标注范围和人体关键点连接信息，输出与所述各人像对应的特征图尺寸相同的二通道特征图，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述各人像对应的特征图和二通道特征图输入所述分割网络，利用所述分割网络进行特征提取之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述训练人像分割网络，包括：

8.根据权利要求7所述的方法，其特征在于，还包括如下至少一个步骤：

9.根据权利要求1所述的方法，其特征在于，所述训练人像分割网络之后，还包括：

获取待测图片，确定所述待测图片的人体关键点标注；

10.根据权利要求1所述的方法，其特征在于，

所述人体关键点标注包括关键点的坐标，以及人体关键点是否被其他人像的人体关键点和/或背景遮挡的标记；

11.一种人像分割网络训练装置，其特征在于，该装置包括：

12.一种电子设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现权利要求1至10任一项所述方法的步骤。

13.一种计算机可读写存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。