CN113348465A

CN113348465A - 图像中对象的关联性预测方法、装置、设备和存储介质

Info

Publication number: CN113348465A
Application number: CN202180001698.7A
Authority: CN
Inventors: 王柏润; 张学森; 刘春亚; 陈景焕; 伊帅
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2021-02-22
Filing date: 2021-06-08
Publication date: 2021-09-03
Anticipated expiration: 2041-06-08
Also published as: AU2021204581A1; US20220269883A1; KR20220120446A; CN113348465B; PH12021551562A1

Abstract

本申请提出图像中对象的关联性预测方法、装置、设备和存储介质。其中，上述方法包括，检测获取的图像中的第一对象和第二对象，其中，上述第一对象和上述第二对象表征不同的人体部位；确定上述第一对象关于目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息；其中，上述目标区域为上述第一对象和上述第二对象的组合的包围框对应的区域；分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征；基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

Description

图像中对象的关联性预测方法、装置、设备和存储介质

交叉引用声明

本申请要求2021年2月22日递交的新加坡专利申请10202101743P的优先权，该申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及计算机技术，具体涉及图像中对象的关联性预测方法、装置、设备和存储介质。

背景技术

智能视频分析技术可以帮助人类了解物理空间中的对象的状态以及对象之间的关系。在智能视频分析的一个应用场景中，需要根据视频中出现的人体部位识别出该部位对应的人员身份。

人体部位与人员身份的关系可以通过一些中介信息来辨别。例如，中介信息可以是与人体部位和人员的身份均存在比较明确的关联关系的对象的信息。例如，当需要确认图像中检测到的手部所属人员的身份时，可以通过与手部互为关联对象、且指示人员身份的人脸来确定。其中，关联对象，可以是指两个对象与同一个第三对象具有归属关系，或者具有相同的身份信息属性。两个人体部位互为关联对象，可以认为两个人体部位属于同一人员。

通过将图像中的人体部位关联，可以进一步帮助分析多人场景中个体的行为和状态，以及多人之间的关系。

发明内容

有鉴于此，本申请至少公开一种图像中对象的关联性预测方法，上述方法包括：检测获取的图像中的第一对象和第二对象，其中，上述第一对象和上述第二对象表征不同的人体部位；确定上述第一对象关于目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息，其中，上述目标区域为上述第一对象和上述第二对象的组合的包围框对应的区域；分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征；基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述方法还包括按照如下方式确定上述包围框：基于上述第一对象的第一边界框和上述第二对象的第二边界框，确定包含上述第一边界框和上述第二边界框、并且与上述第一边界框以及上述第二边界框均无交点的框作为上述包围框；或，基于上述第一对象的第一边界框与上述第二对象的第二边界框，确定包含上述第一边界框和上述第二边界框、并且与上述第一边界框和/或上述第二边界框外接的框作为上述包围框。

在一些实施例中，上述确定上述第一对象关于上述目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息，包括：对上述第一对象对应的区域进行区域特征提取，确定上述第一对象的第一特征图，对上述第二对象对应的区域进行区域特征提取，确定上述第二对象的第二特征图；将上述第一特征图调整至预设尺寸得到第一权重信息，将上述第二特征图调整至上述预设尺寸得到第二权重信息。

在一些实施例中，上述分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征，包括：对上述目标区域进行区域特征提取，确定上述目标区域的特征图；采用根据上述第一权重信息构建的第一卷积核，对上述目标区域的特征图进行卷积操作得到上述第一加权特征；采用根据上述第二权重信息构建的第二卷积核，对上述目标区域的特征图进行卷积操作得到上述第二加权特征。

在一些实施例中，上述基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性，包括：基于上述第一对象、上述第二对象和上述目标区域中的任意一项或多项，以及上述第一加权特征和上述第二加权特征，预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述基于上述第一对象，上述第二对象和上述目标区域中的任意一项或多项，以及上述第一加权特征和上述第二加权特征，预测上述目标区域内的第一对象和第二对象的关联性，包括：对上述第一对象，上述第二对象和上述目标区域中的任意一项或多项的区域特征，与上述第一加权特征和上述第二加权特征进行特征拼接，得到拼接特征；基于上述拼接特征，预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述方法还包括：基于上述目标区域内的第一对象和第二对象的关联性的预测结果，确定上述图像中的关联对象。

在一些实施例中，上述方法还包括：对从上述图像检测出的各第一对象分别与各第二对象进行组合，得到多个组合，每个上述组合包括一个第一对象和一个第二对象；上述基于上述目标区域内的第一对象和第二对象的关联性的预测结果，确定上述图像中的关联对象，包括：确定上述多个组合分别对应的关联性预测结果；其中，上述关联性预测结果包括关联性预测分数；按照各上述组合对应的上述关联性预测分数由高到低的顺序，依次将各上述组合确定为当前组合，并对上述当前组合执行：基于已确定的关联对象，统计与当前组合内的第一对象关联的第二已确定对象以及与当前组合内的第二对象关联的第一已确定对象；确定上述第二已确定对象的第一数量以及上述第一已确定对象的第二数量；响应于上述第一数量未达到第一预设阈值，且上述第二数量未达到第二预设阈值，将上述当前组合内的第一对象与第二对象确定为上述图像中的关联对象。

在一些实施例中，上述按照各上述组合对应的上述关联性预测分数由高到低的顺序，依次将各上述组合确定为当前组合，包括：按照关联性预测分数由高到低的顺序，依次将关联性预测分数达到预设的分数阈值的组合确定为当前组合。

在一些实施例中，上述方法还包括：输出该图像中的关联对象的检测结果。

在一些实施例中，上述第一对象包括人脸对象；上述第二对象包括人手对象。

在一些实施例中，上述方法还包括：基于第一训练样本集对目标检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象和第二对象的边界框；基于第二训练样本集对上述目标检测模型以及关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括第一对象和第二对象的边界框、以及上述第一对象与上述第二对象之间的关联性标注信息；其中，上述目标检测模型用于检测图像中的第一对象和第二对象，上述关联性预测模型用于预测图像中的第一对象和第二对象的关联性。

本申请还提出一种图像中对象的关联性预测装置，上述装置包括：检测模块，用于检测获取的图像中的第一对象和第二对象，其中，上述第一对象和上述第二对象表征不同的人体部位；确定模块，用于确定上述第一对象关于目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息，其中，上述目标区域为上述第一对象和上述第二对象的组合的包围框对应的区域；加权处理模块，用于分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征；关联性预测模块，用于基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述装置还包括：包围框确定模块，用于基于上述第一对象的第一边界框和上述第二对象的第二边界框，确定包含上述第一边界框和上述第二边界框、并且与上述第一边界框以及上述第二边界框均无交点的框作为上述包围框；或，基于上述第一对象的第一边界框与上述第二对象对应的第二边界框，确定包含上述第一边界框和上述第二边界框、并且与上述第一边界框和/或上述第二边界框外接的框作为上述包围框。

在一些实施例中，上述确定模块具体用于：对上述第一对象对应的区域进行区域特征提取，确定上述第一对象的第一特征图，对上述第二对象对应的区域进行区域特征提取，确定上述第二对象的第二特征图；将上述第一特征图调整至预设尺寸得到第一权重信息，将上述第二特征图调整至上述预设尺寸得到第二权重信息。

在一些实施例中，上述加权处理模块具体用于：对上述目标区域进行区域特征提取，确定上述目标区域的特征图；采用根据上述第一权重信息构建的第一卷积核，对上述目标区域的特征图进行卷积操作得到上述第一加权特征；采用根据上述第二权重信息构建的第二卷积核，对上述目标区域的特征图进行卷积操作得到上述第二加权特征。

在一些实施例中，上述关联性预测模块包括：关联性预测子模块，用于基于上述第一对象、上述第二对象和上述目标区域中的任意一项或多项，以及上述第一加权特征和上述第二加权特征，预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述关联性预测子模块具体用于：对上述第一对象，上述第二对象和上述目标区域中的任意一项或多项的区域特征，与上述第一加权特征和上述第二加权特征进行特征拼接，得到拼接特征；基于上述拼接特征，预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述装置还包括：关联对象确定模块，用于基于上述目标区域内的第一对象和第二对象的关联性的预测结果，确定上述图像中的关联对象。

在一些实施例中，上述装置还包括：组合模块，用于对从上述图像检测出的各第一对象分别与各第二对象进行组合，得到多个组合，每个上述组合包括一个第一对象和一个第二对象；上述关联性预测模块具体用于：确定上述多个组合分别对应的关联性预测结果；其中，上述关联性预测结果包括关联性预测分数；按照各上述组合对应的上述关联性预测分数由高到低的顺序，依次将各上述组合确定为当前组合，并对上述当前组合执行：基于已确定的关联对象，统计与当前组合内的第一对象关联的第二已确定对象以及与当前组合内的第二对象关联的第一已确定对象；确定上述第二已确定对象的第一数量以及上述第一已确定对象的第二数量；响应于上述第一数量未达到第一预设阈值，且上述第二数量未达到第二预设阈值，将上述当前组合内的第一对象与第二对象确定为上述图像中的关联对象。

在一些实施例中，上述关联性预测模块具体用于：按照关联性预测分数由高到低的顺序，依次将关联性预测分数达到预设的分数阈值的组合确定为当前组合。

在一些实施例中，上述装置还包括：输出模块，用于输出该图像中的关联对象的检测结果。

在一些实施例中，上述装置还包括：第一训练模块，用于基于第一训练样本集对目标检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象和第二对象的边界框；联合训练模块，用于基于第二训练样本集对上述目标检测模型以及关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括第一对象和第二对象的边界框、以及上述第一对象与上述第二对象之间的关联性标注信息；其中，上述目标检测模型用于检测图像中的第一对象和第二对象，上述关联性预测模型用于预测图像中的第一对象和第二对象的关联性。

本申请还提出一种电子设备，包括：处理器；用于存储上述处理器可执行指令的存储器；其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如前述任一实施例示出的图像中对象的关联性预测方法。

本申请还提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行如前述任一实施例示出的图像中对象的关联性预测方法。

本申请还提出一种计算机程序产品。所述计算机程序产品包括计算机可读代码，所述计算机可读代码被处理器执行以实现如前述任一实施例示出的图像中对象的关联性预测方法。

在上述方案中，通过分别基于第一对象关于上述目标区域的第一权重信息和第二对象关于上述目标区域的第二权重信息对目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征。然后再基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

从而一方面，在预测第一对象与第二对象之间的关联性时，引入了上述目标区域包含的对预测上述关联性有益的特征信息，进而提升预测结果的精确性。另一方面，在预测第一对象与第二对象之间的关联性时，通过加权机制强化了该目标区域包含的对预测上述关联性有益的特征信息，弱化了无益的特征信息，进而提升了预测结果的精确性。

应当理解的是，以上述的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种图像中对象的关联性预测方法的方法流程图。

图2为本申请示出的一种图像中对象的关联性预测方法的流程示意图。

图3为本申请示出的目标检测的一个流程示意图。

图4a为本申请示出的一种包围框的示例。

图4b为本申请示出的一种包围框的示例。

图5为本申请示出的关联性预测流程示意图。

图6为本申请示出的关联性预测方法的一个示意图。

图7为本申请实施例中目标检测模型和关联性预测模型模型训练方法的一个流程示意图。

图8为本申请示出的一种图像中对象的关联性预测装置的结构示意图。

图9为本申请示出的一种电子设备的硬件结构示意图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式，除非上述下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请旨在提出一种图像中对象的关联性预测方法。该方法通过分别基于第一对象关于目标区域的第一权重信息和第二对象关于上述目标区域的第二权重信息对目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征。然后再基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

从而一方面，在预测第一对象与第二对象之间的关联性时，引入了上述目标区域包含的对预测上述关联性有益的特征信息，进而提升预测结果的精确性。

另一方面，在预测第一对象与第二对象之间的关联性时，通过加权机制强化了该目标区域包含的对预测上述关联性有益的特征信息，弱化了无益的特征信息，进而提升了预测结果的精确性。

需要说明的是，上述目标区域内包含的有益特征信息可以包括除上述第一对象以及上述第二对象之外的其它人体部位特征信息。例如，在桌面游戏场景中，上述有益特征信息包括但不限于手肘、肩膀、大臂、小臂、脖子等其他身体部位对应的特征信息。

请参见图1，图1为本申请示出的一种图像中对象的关联性预测方法的方法流程图。如图1所示，上述方法可以包括：

S102，检测获取的图像中的第一对象和第二对象，其中，上述第一对象和上述第二对象表征不同的人体部位。

S104，确定上述第一对象关于目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息，其中，上述目标区域为上述第一对象和上述第二对象的组合的包围框对应的区域。

S106，分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征。

S108，基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

上述关联性预测方法可以应用于电子设备中。其中，上述电子设备可以通过关联性预测方法对应的软件系统执行上述关联性预测方法。本申请实施例中，上述电子设备的类型可以是笔记本电脑，计算机，服务器，手机，PAD终端等，在本申请中不作特别限定。

可以理解的是，上述关联性预测方法既可以仅通过终端设备或服务端设备单独执行，也可以通过终端设备与服务端设备配合执行。

例如，上述关联性预测方法可以集成于客户端。搭载该客户端的终端设备在接收到关联性预测请求后，可以通过自身硬件环境提供算力执行上述方法。

又例如，上述关联性预测方法可以集成于系统平台。搭载该系统平台的服务端设备在接收到关联性预测请求后，可以通过自身硬件环境提供算力执行上述方法。

还例如，上述关联性预测方法可以分为获取图像与对图像进行处理两个任务。其中，获取图像的任务可以由客户端设备执行，对图像进行处理的任务可以由服务端设备执行。上述客户端设备可以在获取到图像后向上述服务端设备发起关联性预测请求。上述服务端设备在接收到上述请求后，可以响应于上述请求对执行上述关联性预测方法。

以下以执行主体为电子设备(以下简称设备)为例，结合桌面游戏场景对实施例进行说明。

在桌面游戏场景中，以待预测关联性的第一对象和第二对象分别为人手对象和人脸对象为例。可以理解的是，其他场景下的实施可以参照本申请对桌面游戏场景实施例的说明，在此不作详述。

在桌面游戏场景中，通常设置有游戏桌。游戏参与人员围绕在游戏桌周围。可以在桌面游戏场景中部署用于采集桌面游戏场景图像的图像采集设备。该场景图像中可以包括游戏参与人员的人脸与人手。在该场景中，需要确定现场图像中出现的互为关联对象的人手与人脸，从而可以依据与图像中出现的人手关联的人脸确定该人手所属的人员身份信息。

在这里，人手和人脸互为关联对象，或者人手和人脸关联，是指二者归属于同一个人体，即二者是同一个人的人手和人脸。

请参见图2，图2为本申请示出的一种图像中对象的关联性预测方法的流程示意图。

图2示出的图像，具体可以是需要进行处理的图像。该图像可以通过部署在被检测场景中的图像采集设备获取，其可以是图像采集设备采集的视频流中的若干个帧。图像中可以包括若干被检测对象。例如，在桌面游戏场景中，部署在场景中的图像采集设备可以采集图像。该现场图像包括游戏参与人员的人脸与人手。

在一些例子中，上述设备可以通过与用户进行交互，完成图像的输入。例如，上述设备可以通过其搭载的界面为用户提供输入待处理图像的用户接口，供用户输入图像。用户可以基于该用户接口完成图像的输入。

请继续参见图2，上述设备在获取到图像后，可以执行上述S102，检测获取的图像中的第一对象和第二对象。

其中，上述第一对象，第二对象可以表征不同的人体部位。具体地，第一对象、第二对象可以分别表征人脸、人手、肩部、肘部、手臂等人体部位中的任意两个不同的部位。

可以将第一对象和第二对象作为待检测的目标，采用经过训练的目标检测模型对图像进行处理，得出第一对象和第二对象的检测结果。

在桌面游戏场景中，上述第一对象例如可以是人脸对象，上述第二对象例如可以是人手对象。可以将上述图像输入经过训练的人脸-人手检测模型，从而检测出上述图像中的人脸对象以及人手对象。

可以理解的是，针对图像进行目标检测得到的结果可以包括第一对象和第二对象的边界框。边界框的数学表征包括其中至少一个顶点的坐标及边界框的长度信息和宽度信息。

上述目标检测模型，具体可以是用于执行目标检测任务的深度卷积网络模型。例如，上述目标检测模型可以是基于RCNN(Region Convolutional Neural Networks，区域卷积神经网络)，FAST-RCNN(Fast Region Convolutional Neural Networks，快速区域卷积神经网络)或FASTER-RCNN(Faster Region Convolutional Neural Networks，更快速的区域卷积神经网络)构建的神经网络模型。

在实际应用中，在使用该目标检测模型进行目标检测前，可以基于若干具有第一对象和第二对象的边界框位置信息的训练样本对该模型进行训练，直至该模型收敛。

请参见图3，图3为本申请示出的目标检测的一个流程示意图。需要说明的是，图3仅对目标检测的流程进行示意性说明，不对本申请做出特别限定。

如图3所示，上述目标检测模型可以是FASTER-RCNN模型。该模型可以至少包括骨干网络(backbone)，RPN(Region Proposal Network，候选框生成网络)，以及RCNN(Region-based Convolutional Neural Network，基于区域的卷积神经网络)。

其中，上述骨干网络可以将图像进行若干次卷积运算得到与该图像对应的目标特征图。在得到目标特征图后，可以将目标特征图输入上述RPN网络得到与图像包括的各目标对象分别对应的anchors(锚框)。在得到上述锚框后，可以将该锚框以及上述目标特征图输入对应的RCNN网络进行bbox(bounding boxes，边界框)回归和分类，得到上述图像中包含的人脸对象以及人手对象分别对应的边界框。

需要说明的是，本实施例的方案可以采用同一个目标检测模型执行两类不同的人体部位对象的检测，在训练中分别标注样本图像中目标对象的类别及位置，则在执行目标检测任务时，目标检测模型可以输出不同类别的人体部位对象的检测结果。

在确定上述第一对象以及第二对象分别对应的边界框后，可以执行S104-S106，确定上述第一对象关于上述目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息；其中，上述目标区域为上述第一对象和上述第二对象的组合的包围框对应的区域；分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征。

在执行S104前，可以先确定上述目标区域。以下介绍确定目标区域的方法。

上述目标区域，具体为上述第一对象和上述第二对象的组合的包围框对应的区域。例如，在桌面游戏场景中，上述目标区域为覆盖上述第一对象与上述第二对象的组合的包围框的区域，并且，目标区域的面积不小于第一对象和第二对象的组合的包围框的面积。

在一些例子中，上述目标区域可以是上述图像边框围成的区域。此时可以直接将上述图像的边框围成的区域确定为上述目标区域。

在一些例子中，上述目标区域可以是上述图像中的某一个局部区域。

示例性地，在桌面游戏场景中，可以确定上述人脸对象和上述人脸对象的组合的包围框，然后，将上述包围框围成的区域确定为上述目标区域。

上述包围框，具体是指包围上述第一对象以及上述第二对象的封闭框。上述包围框的形状可以是圆形、椭圆形、矩形等，在此不作特别限定。以下以矩形为例进行说明。

在一些例子中，上述包围框可以是与上述第一对象以及上述第二对象对应的边界框均没有交点的封闭框。

请参见图4a，图4a为本申请示出的一种包围框的示例。

如图4a所示，人脸对象对应的边界框为框1；人手对象对应的边界框为框2；人脸对象和人手对象的组合的包围框为框3。其中，框3包含框1与框2，并且框3与框1，框3与框2均没有交点。

在上述确定包围框的方案中，一方面，如图4a示出的包围框同时包含了人脸对象与人手对象，因此可以提供人脸对象与人手对象对应的图像特征以及对预测二者关联性有益的特征，进而保证了上述人脸对象与上述人手对象之间的关联性预测结果的精确性。

另一方面，如图4a示出的包围框对人脸对象与人手对象对应的边界框形成包围，因此，在关联性预测过程中可以引入上述边界框对应的特征，进而提升关联性预测结果的精确性。

在一些例子中，可以基于上述人脸对象对应的第一边界框与上述人手对象对应的第二边界框，获取同时包含上述第一边界框与上述第二边界框，并且与上述第一边界框以及上述第二边界框均无交点的包围框，作为人脸对象和人手对象的包围框。

例如，可以基于上述第一边界框与上述第二边界框对应的8个顶点的位置信息。然后，基于上述8个顶点的坐标数据，确定横坐标与纵坐标上的极值。若X代表横坐标，Y代表纵坐标，上述极值则为，X_min、X_max、Y_min与Y_max。之后，依次将横坐标极小值和横坐标极大值，分别与纵坐标极大值、纵坐标极小值进行组合，得到上述第一边界框与上述第二边界框的外接框的4个顶点坐标，即(X_min，Y_min)、(X_min，Y_max)、(X_max，Y_min)、(X_max，Y_max)。再然后，根据预设的包围框与上述外接框之间的距离D，确定上述包围框上的4个点分别对应的位置信息。在确定包围框上的4个点对应的位置信息后，即可将由上述4个点确定的矩形边框确定为上述包围框。

可以理解的是，图像可能包括多个人脸对象和多个人手对象，由此可以形成多个“人脸-人手”的组合，可以针对各个组合分别确定对应的包围框。

具体地，可以将图像包括的各人脸对象与各人手对象进行任意组合，得到所有可能的人体部位对象组合，然后针对每一人体部位对象组合，分别根据组合内的人脸对象和人手对象的位置，确定对应的包围框。

在一些例子中，上述包围框可以是与上述第一边界框和/或上述第二边界框外接的封闭框。

请参见图4b，图4b为本申请示出的一种包围框的示例。

如图4b所示，人脸对象对应的边界框为框1；人手对象对应的边界框为框2；上述人脸对象和人手对象的组合的包围框为框3。其中，框3包含框1与框2，并且框3与框1以及框3与框2均外接。

在上述确定包围框的方案中，如图4b示出的包围框同时包含了人脸对象与人手对象，并且限定了包围框的大小。一方面，可以控制上述包围框的面积大小，从而控制运算量，提升关联性预测的效率；另一方面，可以减少在包围框中引入的对关联性预测无益的特征，从而降低无关特征对关联性预测结果的精确性的影响。

在确定上述目标区域后，可以继续执行S104-S106，确定上述第一对象关于上述目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息；其中，上述目标区域为上述第一对象和上述第二对象的组合的包围框对应的区域；分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征。

在一些例子中，可以根据图像中第一对象的特征、第一对象与目标区域的相对位置特征、以及目标区域的特征，通过卷积神经网络或卷积神经网络中的部分网络层计算得出上述第一权重信息。采用类似的方法，可以计算得出上述第二权重信息。

第一权重信息和第二权重信息分别代表了第一对象和第二对象在计算二者所在目标区域内的区域特征时的影响力，目标区域的区域特征用于估计其中两个对象之间的关联性。

上述第一加权特征意味着，可以强化上述目标区域对应的区域特征中与上述第一对象关联的区域特征，弱化与第一对象无关的区域特征。在这里，区域特征表示图像中相应的对象所在区域(例如图像中的对象的包围框对应的区域)的特征，例如对象所在区域的特征图、像素矩阵等。

上述第二加权特征意味着，可以强化上述目标区域对应的区域特征中与上述第二对象关联的区域特征，弱化与上述第二对象无关的区域特征。

以下介绍通过上述步骤S104～S106得到第一加权特征和上述第二加权特征的一种示例性方法。

在一些例子中，可以先基于上述第一对象对应的第一特征图确定第一权重信息。第一权重信息用于对目标区域对应的区域特征进行加权处理，从而强化上述目标区域对应的区域特征中与上述第一对象的关联的区域特征。

在一些例子中，可以对上述图像中第一对象对应的区域进行区域特征提取，确定上述第一对象的第一特征图。

在一些例子中，可以将上述第一对象对应的第一边界框以及上述图像对应的目标特征图输入神经网络中进行图像处理，得到上述第一特征图。具体地，神经网络包含用于提取区域特征的区域特征提取单元，区域特征提取单元可以是ROI Align(Region ofinterest Align，感兴趣区域特征对齐)单元或ROI pooling(Region of interestpooling，感兴趣区域特征池化)单元。

然后，可以将上述第一特征图调整至预设尺寸得到第一权重信息。在这里，第一权重信息可以由调整至预设尺寸的第一特征图中的图像像素值表征。上述预设尺寸可以是根据经验设定的值，在此不作特别限定。

在一些例子中，可以对上述第一特征图执行诸如下采样、执行若干次卷积之后下采样、或下采样后进行若干次卷积等操作，以将上述第一特征图缩小至预设尺寸的第一权重信息得到第一卷积核。其中，下采样可以是诸如最大池化，平均池化等池化操作。

在确定上述第一权重信息后，可以对上述目标区域进行区域特征提取，得到上述目标区域的特征图。然后，采用根据上述第一权重信息构建的第一卷积核，对上述目标区域的特征图进行卷积操作得到上述第一加权特征。

需要说明的是，本申请中不对上述第一卷积核的大小作特别限定。上述第一卷积核的大小可以是(2n+1)*(2n+1)，其中，n为正整数。

在进行卷积操作时，可以先确定卷积步长(例如，步长为1)，然后，可以通过上述第一卷积核对上述目标区域的特征图进行卷积操作，得到上述第一加权特征。在一些例子中，为了保持卷积前后特征图的尺寸不变，可以在卷积操作前以像素值0填充目标区域的特征图外围的像素点。

可以理解的是，确定第二加权特征的步骤可以参照上述确定第一加权特征的步骤，在此不作详述。

在一些例子中，还可以采用将上述第一特征图与上述目标区域的特征图相乘的方式得到第一加权特征。可以采用将上述第二特征图与上述目标区域的特征图相乘的方式得到第二加权特征。

可以理解的是，不论是基于卷积操作得到加权特征，还是将特征图相乘得到加权特征，实际上均是分别以第一特征图，第二特征图作为权重信息，对上述目标区域的特征图的各像素点的像素值进行了加权调整，从而强化了上述目标区域的对应的区域特征中与上述第一对象特征和上述第二对象相关联的区域特征，弱化了与上述第一对象特征和上述第二对象无关的区域特征，进而强化了对预测第一对象与第二对象之间关联性预测有益的信息，弱化了无益的信息，提升了关联性预测结果的精确性。

请继续参见图2，在确定上述第一加权特征与上述第二加权特征后，可以执行S108，基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

在一些例子中，可以采用对上述第一加权特征与上述第二加权特征进行求和得到第三加权特征，然后可以基于softmax(柔性最大值传输)函数，对上述第三加权特征进行归一化处理，得到对应的关联性预测分数。

在一些例子中，上述预测上述目标区域内的第一对象和第二对象的关联性，具体是指预测上述第一对象与上述第二对象属于同一人体对象的置信度分数。

例如，在桌面游戏场景中，可以将上述第一加权特征与上述第二加权特征输入经过训练的关联性预测模型，预测上述目标区域内的第一对象和第二对象的关联性。

上述关联性预测模型，具体可以为基于卷积神经网络构建的模型。可以理解的是，该预测模型可以包括全连接层，最终输出关联性预测分数。其中，上述全连接层具体可以是基于诸如线性回归，最小二乘回归等回归算法构建的计算单元。该计算单元可以对区域特征进行特征映射，得到对应的关联性预测分数值。

在实际应用中，上述关联性预测模型在进行预测前，可以基于若干具有第一对象与第二对象的关联性标注信息的训练样本进行训练。

在构建训练样本时，可以先获取若干原始图像，然后利用标注工具对原始图像中包括的第一对象与第二对象进行随机组合，得到多个组合，之后针对各组合内的第一对象与第二对象进行关联性标注。以第一对象和第二对象分别为人脸对象和人手对象为例，如果组合内的人脸对象与人手对象具有关联性(属于同一人员)，则可以标注1，否则标注0；或者，在针对原始图像标注时，可以标注其中各人脸对象与各人手对象所归属的人员对象的信息(如人员标识)，由此可以根据所归属的人员对象的信息是否一致来确定组合内的人脸对象与人手对象是否具有关联性。

请参见图5，图5为本申请示出的关联性预测流程示意图。

示意性的，图5示出的关联性预测模型可以包括特征拼接单元和全连接层。

其中，上述特征拼接单元用于将上述第一加权特征与上述第二加权特征进行合并，得到合并后的加权特征。

在一些例子中，可以采用对上述第一加权特征与上述第二加权特征执行叠加、归一化后取平均等操作的方式实现二者的合并。

然后，将上述合并后的加权特征输入上述关联性预测模型中的全连接层，得到关联性预测结果。

可以理解的是，在实际应用中，基于图像可以确定出多个上述目标区域，在执行上述S108时，可以依次将各目标区域确定为当前目标区域，预测当前目标区域内的第一对象和第二对象的关联性。

由此实现了目标区域内的第一对象和第二对象的关联性预测。

上述方案在预测第一对象与第二对象之间的关联性时，引入了上述目标区域中对预测上述关联性有益的特征信息，进而有助于提升预测结果的精确性。另一方面，在预测人脸对象与人手对象之间的关联性时，通过加权机制强化了该目标区域包含的对预测上述关联性有益的特征信息，弱化了无益的特征信息，进而提升了预测结果的精确性。

在一些实施例中，为了进一步提升第一对象与第二对象的关联性预测结果的精确性，在基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性时，可以基于上述第一对象、上述第二对象和上述目标区域中的任意一项或多项，以及上述第一加权特征和上述第二加权特征，预测上述目标区域内的第一对象和第二对象的关联性。

可以理解的是，上述方案中包括多种可行方案，在本申请中对上述多种可行方案均予以保护。以下以基于上述目标区域，上述第一加权特征与上述第二加权特征，预测上述目标区域内的第一对象和第二对象的关联性为例进行说明。可以理解的是其它可行方案的步骤可以参照以下说明，在本申请不作复述。

请参见图6，图6为本申请示出的关联性预测方法的一个示意图。

如图6所示，在执行S108时，可以将上述第一加权特征，上述第二加权特征以及上述目标区域对应的区域特征进行特征拼接，得到上述拼接特征。

在得到上述拼接特征后，可以基于上述拼接特征，预测上述目标区域内的第一对象和第二对象的关联性。

在一些例子中，可以先对上述拼接特征进行下采样操作，得到一维向量。在得到上述一维向量后可以输入全连接层进行回归或分类，得到上述第一对象与上述第二对象的人体部位组合对应的关联性预测分数。

由于在本例中，引入了上述第一对象，上述第二对象和上述目标区域中的任意一项或多项的区域特征，以及通过特征拼接联合了与第一对象和第二对象相关的更多元化的特征，从而强化了关联性预测中对判断第一对象与第二对象之间关联性有益的信息的影响，进而进一步提升了第一对象与第二对象的关联性预测结果的精确性。

在一些例子中，本申请还提出了一种实施例的方法。该方法先利用前述任一实施例示出的图像中对象的关联性预测方法，预测出基于图像确定的目标区域内的第一对象与第二对象之间的关联性。然后，基于上述目标区域内的第一对象和第二对象的关联性的预测结果，确定上述图像中的关联对象。

在本例中，可以通过关联性预测分数表征第一对象和第二对象的关联性的预测结果。

还可以进一步判断上述第一对象与第二对象之间的关联性预测分数是否达到预设的分数阈值。如果上述关联性预测分数达到上述预设的分数阈值，则可以确定第一对象与第二对象为上述图像中的关联对象。否则可以确定第一对象和第二对象不是关联对象。

其中，上述预设的分数阈值具体是可以根据实际情形进行设定的经验阈值。例如，该预设标准值可以是0.95。

当上述图像包括多个第一对象与多个第二对象时，在确定上述图像中的关联对象时，可以对从上述图像检测出的各第一对象分别与各第二对象进行组合，得到多个组合。然后，确定各个组合分别对应的关联性预测结果，如关联性预测分数。

在实际情形中，通常一个人脸对象最多只能与两个人手对象对应并且一个人手对象最多只能与一个人脸对象对应。

在一些例子中，可以按照各所述组合对应的所述关联性预测分数由高到低的顺序，依次将各上述组合确定为当前组合，并执行以下第一步和第二步：

第一步，基于已确定的关联对象，统计与当前组合内的第一对象关联的第二已确定对象和与当前组合内的第二对象关联的第一已确定对象，确定第二已确定对象的第一数量和第一已确定对象的第二数量，以及确定第一数量是否达到第一预设阈值和第二数量是否达到第二预设阈值。

上述第一预设阈值具体是可以根据实际情形进行设定的经验阈值。例如，在桌面游戏场景中，第一对象为人脸对象，上述第一预设阈值可以为2。

上述第二预设阈值具体是可以根据实际情形进行设定的经验阈值。例如，在桌面游戏场景中，第二对象为人手对象，上述第二预设阈值可以为1。

在一些例子中，可以按照关联性预测分数由高到低的顺序，依次将关联性预测分数达到预设的分数阈值的组合确定为当前组合。

在本实施例中，可以将关联性预测分数达到预设的分数阈值的组合确定为当前组合，由此可以剔除关联性预测分数较低的组合，从而减少需要进一步判断的组合，提升确定关联对象的效率。

在一些例子中，可以为各第一对象和各第二对象分别维护一个计数器，每当确定与任一第一对象关联的第二对象时，将上述第一对象对应的计数器上的值加1。此时，可以通过两个计数器确定与当前组合内的第一对象关联的第二已确定对象的数量是否达到第一预设阈值，以及确定与当前组合内的第二对象关联的第一已确定对象的数量是否达到第二预设阈值。其中，第二已确定对象包括已被确定与当前组合内的第一对象互为关联对象的m个第二对象，m可能等于0或大于0；第一已确定对象包括已被确定与当前组合内的第二对象互为关联对象的n个第一对象，n可能等于0或大于0。

第二步，响应于上述第一数量未达到上述第一预设阈值，且上述第二数量未达到上述第二预设阈值，将上述当前组合内的第一对象和第二对象确定为上述图像中的关联对象。

在上述方案中，在当前组合内包括的第一对象相关联的第二已确定对象的数量未达到上述第一预设阈值且当前组合内包括的第二对象相关联的第一已确定对象的数量未达到上述第二预设阈值的情况下，将当前组合内的第一对象与第二对象确定为关联对象。此时通过上述方案记载的步骤，在复杂场景(例如，人脸、肢体、人手有交叠的场景)中，可以避免预测出一个人脸对象与超过两个人手对象相关联以及一个人手对象与超过一个人脸对象相关联等不合理的情形。

在一些例子中，可以输出该图像中的关联对象的检测结果。

在桌面游戏场景中，可以在图像输出设备(例如显示器)上输出包含上述关联对象指示的人脸对象与人手对象的外接框。通过在图像输出设备上输出关联对象的检测结果可以使观察人员方便直观确定图像输出设备上展示的图像中的关联对象，进而便于对关联对象的检测结果进行进一步的人工校验。

以上所述是对本申请示出的确定图像中的关联对象的方案的介绍，以下介绍该方案中使用的各模型的训练方法。

在一些例子中，上述目标检测模型与上述关联性预测模型可以共用相同的骨干网络。

在一些例子中，可以针对上述目标检测模型与上述关联性预测模型分别构建训练样本集，并基于构建的训练样本集分别对上述目标检测模型与上述关联性预测模型进行训练。

在一些例子中，为了提升关联对象确定结果的精确性，可以采用分段训练的方式对各模型进行训练。其中，第一段为针对目标检测模型的训练；第二段为针对目标检测模型与关联性预测模型的联合训练。

请参见图7，本申请实施例中目标检测模型和关联性预测模型模型训练方法的一个流程示意图。

如图7所示，该方法包括：

S702，基于第一训练样本集对目标检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象和第二对象的边界框。

在执行本步骤时，可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在桌面游戏场景中，在获取到原始图像后，可以使用图像标注工具对原始图像中包括的人脸对象边界框以及人手对象边界框进行标注，以得到若干训练样本。

然后，可以基于预设的损失函数对目标检测模型进行训练，直至该模型收敛。

在该目标检测模型收敛后，可以执行S704，基于第二训练样本集对上述目标检测模型以及上述关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括第一对象和第二对象的边界框、以及上述第一对象与上述第二对象之间的关联性标注信息。

可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在桌面游戏场景中，在获取到原始图像后，一方面，可以使用图像标注工具对原始图像中包括的人脸对象边界框以及人手对象边界框进行标注。另一方面，可以利用标注工具对原始图像中的第一对象与第二对象进行随机组合，得到多个组合结果。然后再针对各组合内的第一对象与第二对象进行关联性标注得到关联性标注信息。在一些例子中，如果人体部位组合内的第一对象与第二对象互为关联对象(属于同一人员)，则标注1，否则标注0。

在确定第二训练样本集后，可以基于目标预测模型以及关联性预测模型各自对应的损失函数确定联合学习损失函数。

在一些例子中，可以将目标预测模型以及关联性预测模型各自对应的损失函数相加、或者求加权和得到上述联合学习损失函数。

需要说明的是，在本申请中还可以为上述联合学习损失函数增加正则化项等超参数。在此不对添加的超参数的类型进行特别限定。

可以基于上述联合学习损失函数以及上述第二训练样本集对上述目标检测模型以及关联性预测模型进行联合训练，直至目标检测模型与关联性预测模型收敛。

由于上述模型训练中采用了有监督式的联合训练方法，因此，可以对目标检测模型与关联性预测模型进行同时训练，使得目标检测模型与关联性预测模型之间在训练过程中可以既可以相互约束，又可以相互促进，从而一方面提高两个模型的收敛效率；另一方面促进两个模型共用的骨干网络可以提取到对关联性预测更有益的特征，从而提升关联对象确定精确性。

与上述任一实施例相对应的，本申请还提出一种图像中对象的关联性预测装置。请参见图8，图8为本申请示出的一种图像中对象的关联性预测装置的结构示意图。

如图8所示，上述装置80包括：

检测模块81，用于检测获取的图像中的第一对象和第二对象，其中，上述第一对象和上述第二对象表征不同的人体部位；

确定模块82，用于确定上述第一对象关于目标区域的第一权重信息和上述第二对象关于上述目标区域的第二权重信息，其中，上述目标区域为上述第一对象和上述第二对象的组合的包围框对应的区域；

加权处理模块83，分别基于上述第一权重信息与上述第二权重信息对上述目标区域进行加权处理，得到上述目标区域的第一加权特征和第二加权特征；

关联性预测模块84，基于上述第一加权特征和上述第二加权特征预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述装置80还包括：包围框确定模块，用于基于上述第一对象的第一边界框和上述第二对象的第二边界框，确定包含上述第一边界框和上述第二边界框、并且与上述第一边界框以及上述第二边界框均无交点的框作为上述包围框；或，基于上述第一对象的第一边界框与上述第二对象对应的第二边界框，确定包含上述第一边界框和上述第二边界框、并且与上述第一边界框和/或上述第二边界框外接的框作为上述包围框。

在一些实施例中，上述确定模块82具体用于：对上述第一对象对应的区域进行区域特征提取，确定上述第一对象的第一特征图，对上述第二对象对应的区域进行区域特征提取，确定上述第二对象的第二特征图；将上述第一特征图调整至预设尺寸得到第一权重信息，将上述第二特征图调整至上述预设尺寸得到第二权重信息。

在一些实施例中，上述加权处理模块83具体用于：对上述目标区域进行区域特征提取，确定上述目标区域的特征图；采用根据上述第一权重信息构建的第一卷积核，对上述目标区域的特征图进行卷积操作得到上述第一加权特征；采用根据上述第二权重信息构建的第二卷积核，对上述目标区域的特征图进行卷积操作得到上述第二加权特征。

在一些实施例中，上述关联性预测模块84包括：关联性预测子模块，基于上述第一对象、上述第二对象和上述目标区域中的任意一项或多项，以及上述第一加权特征和上述第二加权特征，预测上述目标区域内的第一对象和第二对象的关联性。

在一些实施例中，上述装置80还包括：关联对象确定模块，用于基于上述目标区域内的第一对象和第二对象的关联性的预测结果，确定上述图像中的关联对象。

在一些实施例中，上述装置80还包括组合模块，用于对从上述图像检测出的各第一对象分别与各第二对象进行组合，得到多个组合，每个上述组合包括一个第一对象和一个第二对象。相应地，上述关联性预测模块84具体用于：确定上述多个组合分别对应的关联性预测结果；其中，上述关联性预测结果包括关联性预测分数；按照各上述组合对应的上述关联性预测分数由高到低的顺序，依次将各上述组合确定为当前组合，并对上述当前组合执行：基于已确定的关联对象，统计与当前组合内的第一对象关联的第二已确定对象，以及与当前组合内的第二对象关联的第一已确定对象；确定第二已确定对象的第一数量以及第一已确定对象的第二数量；响应于上述第一数量未达到第一预设阈值，且上述第二数量未达到第二预设阈值，将上述当前组合内的第一对象与第二对象确定为上述图像中的关联对象。

在一些实施例中，上述关联性预测模块84具体用于：按照关联性预测分数由高到低的顺序，依次将关联性预测分数达到预设的分数阈值的组合确定为当前组合。

在一些实施例中，上述装置80还包括：输出模块，用于输出该图像中的关联对象的检测结果。

在一些实施例中，上述装置80还包括：第一训练模块，基于第一训练样本集对目标检测模型进行训练；其中，上述第一训练样本集包含具有第一标注信息的训练样本；上述第一标注信息包括第一对象和第二对象的边界框；联合训练模块，基于第二训练样本集对上述目标检测模型以及关联性预测模型进行联合训练；其中，上述第二训练样本集包含具有第二标注信息的训练样本；上述第二标注信息包括第一对象和第二对象的边界框、以及上述第一对象与上述第二对象之间的关联性标注信息；其中，上述目标检测模型用于检测图像中的第一对象和第二对象，上述关联性预测模型用于预测图像中的第一对象和第二对象的关联性。

本申请示出的图像中对象的关联性预测装置的实施例可以应用于电子设备上。相应地，本申请公开了一种电子设备，该设备可以包括：处理器，和用于存储处理器可执行指令的存储器。其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现如上述任一实施例示出的图像中对象的关联性预测方法。

请参见图9，图9为本申请示出的一种电子设备的硬件结构示意图。

如图9所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储关联性预测装置对应指令的非易失性存储器。

其中，图像中对象的关联性预测装置的实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

可以理解的是，为了提升处理速度，图像中对象的关联性预测装置对应指令也可以直接存储于内存中，在此不作限定。

本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行如前述任一实施例示出的图像中对象的关联性预测方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请中的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”可以包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置80也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

1.一种图像中对象的关联性预测方法，包括：

检测获取的图像中的第一对象和第二对象，其中，所述第一对象和所述第二对象表征不同的人体部位；

确定所述第一对象关于目标区域的第一权重信息和所述第二对象关于所述目标区域的第二权重信息，其中，所述目标区域为所述第一对象和所述第二对象的组合的包围框对应的区域；

分别基于所述第一权重信息与所述第二权重信息对所述目标区域进行加权处理，得到所述目标区域的第一加权特征和第二加权特征；

基于所述第一加权特征和所述第二加权特征预测所述目标区域内的第一对象和第二对象的关联性。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括按照如下方式确定所述包围框：

基于所述第一对象的第一边界框和所述第二对象的第二边界框，确定包含所述第一边界框和所述第二边界框、并且与所述第一边界框以及所述第二边界框均无交点的框作为所述包围框；或，

基于所述第一对象的第一边界框与所述第二对象对应的第二边界框，确定包含所述第一边界框和所述第二边界框、并且与所述第一边界框和/或所述第二边界框外接的框作为所述包围框。

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述第一对象关于所述目标区域的第一权重信息和所述第二对象关于所述目标区域的第二权重信息，包括：

对所述第一对象对应的区域进行区域特征提取，确定所述第一对象的第一特征图，

对所述第二对象对应的区域进行区域特征提取，确定所述第二对象的第二特征图；

将所述第一特征图调整至预设尺寸得到第一权重信息，

将所述第二特征图调整至所述预设尺寸得到第二权重信息。

4.根据权利要求1-3任一所述的方法，其特征在于，所述分别基于所述第一权重信息与所述第二权重信息对所述目标区域进行加权处理，得到所述目标区域的第一加权特征和第二加权特征，包括：

对所述目标区域进行区域特征提取，确定所述目标区域的特征图；

采用根据所述第一权重信息构建的第一卷积核，对所述目标区域的特征图进行卷积操作得到所述第一加权特征；

采用根据所述第二权重信息构建的第二卷积核，对所述目标区域的特征图进行卷积操作得到所述第二加权特征。

5.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述第一加权特征和所述第二加权特征预测所述目标区域内的第一对象和第二对象的关联性，包括：

基于所述第一对象、所述第二对象和所述目标区域中的任意一项或多项，以及所述第一加权特征和所述第二加权特征，预测所述目标区域内的第一对象和第二对象的关联性。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一对象，所述第二对象和所述目标区域中的任意一项或多项，以及所述第一加权特征和所述第二加权特征，预测所述目标区域内的第一对象和第二对象的关联性，包括：

对所述第一对象，所述第二对象和所述目标区域中的任意一项或多项的区域特征，与所述第一加权特征和所述第二加权特征进行特征拼接，得到拼接特征；

基于所述拼接特征，预测所述目标区域内的第一对象和第二对象的关联性。

7.根据权利要求1-6任一所述的方法，还包括：

基于所述目标区域内的第一对象和第二对象的关联性的预测结果，确定所述图像中的关联对象。

8.根据权利要求7所述的方法，其特征在于，

所述方法还包括：

对从所述图像检测出的各第一对象分别与各第二对象进行组合，得到多个组合，每个所述组合包括一个第一对象和一个第二对象；

所述基于所述目标区域内的第一对象和第二对象的关联性的预测结果，确定所述图像中的关联对象，包括：

确定所述多个组合分别对应的关联性预测结果；其中，所述关联性预测结果包括关联性预测分数；

按照各所述组合对应的所述关联性预测分数由高到低的顺序，依次将各所述组合确定为当前组合；

对所述当前组合执行：

基于已确定的关联对象，统计与当前组合内的第一对象关联的第二已确定对象，以及与当前组合内的第二对象关联的第一已确定对象；

确定所述第二已确定对象的第一数量以及所述第一已确定对象的第二数量；

响应于所述第一数量未达到第一预设阈值，且所述第二数量未达到第二预设阈值，将所述当前组合内的第一对象与第二对象确定为所述图像中的关联对象。

9.根据权利要求8所述的方法，其特征在于，所述按照各所述组合对应的所述关联性预测分数由高到低的顺序，依次将各所述组合确定为当前组合，包括：

按照关联性预测分数由高到低的顺序，依次将关联性预测分数达到预设的分数阈值的组合确定为当前组合。

10.根据权利要求7-9任一所述的方法，还包括：

输出该图像中的关联对象的检测结果。

11.根据权利要求1-10任一所述的方法，其特征在于，

所述第一对象包括人脸对象；

所述第二对象包括人手对象。

12.根据权利要求1所述的方法，还包括：

基于第一训练样本集对目标检测模型进行训练；其中，所述第一训练样本集包含具有第一标注信息的训练样本；所述第一标注信息包括第一对象和第二对象的边界框；

基于第二训练样本集对所述目标检测模型以及关联性预测模型进行联合训练；其中，所述第二训练样本集包含具有第二标注信息的训练样本；所述第二标注信息包括第一对象和第二对象的边界框、以及所述第一对象与所述第二对象之间的关联性标注信息；

其中，所述目标检测模型用于检测图像中的第一对象和第二对象，所述关联性预测模型用于预测图像中的第一对象和第二对象的关联性。

13.一种图像中对象的关联性预测装置，包括：

检测模块，用于检测获取的图像中的第一对象和第二对象，其中，所述第一对象和所述第二对象表征不同的人体部位；

确定模块，用于确定所述第一对象关于目标区域的第一权重信息和所述第二对象关于所述目标区域的第二权重信息，其中，所述目标区域为所述第一对象和所述第二对象的组合的包围框对应的区域；

加权处理模块，用于分别基于所述第一权重信息与所述第二权重信息对所述目标区域进行加权处理，得到所述目标区域的第一加权特征和第二加权特征；

关联性预测模块，用于基于所述第一加权特征和所述第二加权特征预测所述目标区域内的第一对象和第二对象的关联性。

14.根据权利要求13所述的装置，还包括包围框确定模块，用于：

15.根据权利要求13或14所述的装置，其特征在于，所述确定模块具体用于：

将所述第一特征图调整至预设尺寸得到第一权重信息，

将所述第二特征图调整至所述预设尺寸得到第二权重信息。

16.根据权利要求13-15任一所述的装置，其特征在于，所述加权处理模块具体用于：

17.根据权利要求13-16任一所述的装置，其特征在于，所述关联性预测模块包括：

关联性预测子模块，用于基于所述第一对象、所述第二对象和所述目标区域中的任意一项或多项，以及所述第一加权特征和所述第二加权特征，预测所述目标区域内的第一对象和第二对象的关联性。

18.根据权利要求17所述的装置，其特征在于，所述关联性预测子模块具体用于：

19.根据权利要求13-18任一所述的装置，还包括：

关联对象确定模块，用于基于所述目标区域内的第一对象和第二对象的关联性的预测结果，确定所述图像中的关联对象。

20.根据权利要求19所述的装置，其特征在于，

所述装置还包括：

组合模块，用于对从所述图像检测出的各第一对象分别与各第二对象进行组合，得到多个组合，每个所述组合包括一个第一对象和一个第二对象；

所述关联性预测模块具体用于：

对所述当前组合执行：

基于已确定的关联对象，统计与当前组合内的第一对象关联的第二已确定对象以及与当前组合内的第二对象关联的第一已确定对象；

21.根据权利要求20所述的装置，其特征在于，所述关联性预测模块具体用于：

22.根据权利要求19-21任一所述的装置，还包括：

输出模块，用于输出该图像中的关联对象的检测结果。

23.根据权利要求13-22任一所述的装置，其特征在于，

第一对象包括人脸对象；

所述第二对象包括人手对象。

24.根据权利要求13所述的装置，还包括：

第一训练模块，用于基于第一训练样本集对目标检测模型进行训练；其中，所述第一训练样本集包含具有第一标注信息的训练样本；所述第一标注信息包括第一对象和第二对象的边界框；

联合训练模块，用于基于第二训练样本集对所述目标检测模型以及关联性预测模型进行联合训练；其中，所述第二训练样本集包含具有第二标注信息的训练样本；所述第二标注信息包括第一对象和第二对象的边界框、以及所述第一对象与所述第二对象之间的关联性标注信息；

25.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现如权利要求1-12任一所述的图像中对象的关联性预测方法。

26.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序用于执行如权利要求1-12任一所述的图像中对象的关联性预测方法。

27.一种计算机程序产品，包括计算机可读代码，所述计算机可读代码被处理器执行以实现如权利要求1-12任一所述的图像中对象的关联性预测方法。