CN113449586B

CN113449586B - 目标检测方法、装置、计算机设备和存储介质

Info

Publication number: CN113449586B
Application number: CN202110387750.9A
Authority: CN
Inventors: 张少林; 宁欣; 田伟娟
Original assignee: Shenzhen Wave Kingdom Co ltd; Beijing Wave Wisdom Security And Safety Technology Co ltd
Current assignee: Shenzhen Wave Kingdom Co ltd; Beijing Wave Wisdom Security And Safety Technology Co ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2025-01-21
Anticipated expiration: 2041-04-12
Also published as: CN113449586A

Abstract

本申请涉及一种目标检测方法、装置、计算机设备和存储介质。所述方法包括：获取待检测图像；将所述待检测图像输入至已训练的目标检测模型中，所述目标检测模型包括预处理单元、特征提取单元以及预测单元；通过所述预处理单元提取所述待检测图像对应的第一特征图，得到所述第一特征图对应的第一低维特征图；通过所述特征提取单元对所述第一低维特征图进行特征提取，得到所述待检测图像对应的目标胶囊信息；通过所述预测单元对所述目标胶囊信息进行目标检测，得到所述待检测图像对应的目标检测结果。采用本方法能够在对较小的目标物体或被部分遮挡的目标物体进行目标检测时，降低计算复杂度和内存复杂度。

Description

目标检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种目标检测方法、装置、计算机设备和存储介质。

背景技术

目标检测是指检测图像中的目标物体，并预测每个目标物体的位置和类别。目标检测作为计算机视觉和数字图像处理的重要分支，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资源的消耗，具有重要的现实意义。同时，目标检测也是身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。由于深度学习的广泛运用，目标检测技术得到了较为快速的发展。在传统的目标检测方式中，是通过在图像中提取目标物体对应的特征图实现目标检测，如通过目标检测器DETR(Detection Transformer，基于集合预测的目标检测)进行目标检测。

然而较小的目标物体通过是在高分辨率的特征图上进行检测，通过传统方式来进行目标检测，会导致计算复杂度较高。因此，如何降低目标检测过程中，较小目标物体的计算复杂度称为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低目标检测过程中，较小目标物体的计算复杂度的目标检测方法、装置、计算机设备和存储介质。

一种目标检测方法，所述方法包括：

获取待检测图像；

将所述待检测图像输入至已训练的目标检测模型中，所述目标检测模型包括预处理单元、特征提取单元以及预测单元；

通过所述预处理单元提取所述待检测图像对应的第一特征图，得到所述第一特征图对应的第一低维特征图；

通过所述特征提取单元对所述第一低维特征图进行特征提取，得到所述待检测图像对应的目标胶囊信息；

通过所述预测单元对所述目标胶囊信息进行目标检测，得到所述待检测图像对应的目标检测结果。

在其中一个实施例中，通过所述预处理单元提取所述待检测图像对应的第一特征图包括：

通过所述预处理单元中的卷积神经网络对所述待检测图像进行特征提取，将所述卷积神经网络最后两个卷积层输出的特征图确定为所述待检测图像对应的第一特征图。

在其中一个实施例中，所述对所述第一特征图进行基于注意力的池化处理，得到所述第一特征图对应的第一低维特征图包括：

对所述第一特征图进行多头注意力计算，得到所述第一特征图对应的多头注意力值；

对所述多头注意力值进行归一化处理，得到所述第一特征图对应的第一低维特征图。

在其中一个实施例中，所述特征提取单元包括编码单元和解码单元；所述通过所述特征提取单元对所述第一低维特征图进行特征提取，得到所述待检测图像对应的目标胶囊信息包括：

通过所述编码单元对所述第一低维特征图进行全局特征提取，得到全局特征信息，对所述全局特征信息进行胶囊转换，得到初始胶囊信息；

将所述初始胶囊信息输入至所述解码单元，对所述初始胶囊信息进行类别特征提取，得到类别特征信息，对所述类别特征信息进行胶囊转换，得到目标胶囊信息。

在其中一个实施例中，所述通过所述预测单元对所述目标胶囊信息进行目标检测，得到所述待检测图像对应的目标检测结果包括：

通过所述预测单元基于注意力路由对所述目标胶囊信息进行目标检测，得到第一检测结果；

通过所述预测单元对所述目标胶囊信息进行线性变换，得到第二检测结果；

将所述第一检测结果以及所述第二检测结果进行融合，得到所述待检测图像对应的目标检测结果。

在其中一个实施例中，在所述获取待检测图像之前，所述方法还包括：

获取样本图像集；

将所述样本图像集输入至待训练目标检测模型中，通过所述待训练目标检测模型中的预处理单元提取所述样本图像集对应的第二特征图，对所述第二特征图进行基于注意力的池化处理，得到所述第二特征图对应的第二低维特征图；

通过所述待训练目标检测模型中的特征提取单元对所述第二低维特征图进行特征提取，得到所述样本图像集对应的目标胶囊信息；

通过所述待训练目标检测模型中的预测单元对所述样本图像集对应的目标胶囊信息进行目标检测，得到所述样本图像集对应的目标检测结果；

根据所述样本图像集对应的目标检测结果计算所述待训练目标检测模型的损失值，根据所述损失值更新所述待训练目标检测模型的网络参数，直至满足预设条件，得到已训练的目标检测模型。

在其中一个实施例中，所述样本图像集标注有目标标签信息；所述根据所述样本图像集对应的目标检测结果计算所述待训练目标检测模型的损失值包括：

将所述样本图像集对应的目标检测结果与所述目标标签信息进行二分匹配，得到匹配结果；

根据所述匹配结果计算所述待训练目标检测模型的损失值。

在其中一个实施例中，所述待训练目标检测模型的损失值包括目标位置偏移损失值、分类损失值以及匹配损失值。

一种目标检测装置，所述装置包括：

图像获取模块，用于获取待检测图像；

特征提取模块，用于将所述待检测图像输入至已训练的目标检测模型中，所述目标检测模型包括预处理单元、特征提取单元以及预测单元；通过所述预处理单元提取所述待检测图像对应的第一特征图，得到所述第一特征图对应的第一低维特征图；通过所述特征提取单元对所述第一低维特征图进行特征提取，得到所述待检测图像对应的目标胶囊信息；

目标检测模块，用于通过所述预测单元对所述目标胶囊信息进行目标检测，得到所述待检测图像对应的目标检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述目标检测方法、装置、计算机设备和存储介质，通过已训练的目标检测模型的预处理单元提取待检测图像对应的第一特征图，对第一特征图进行基于注意力的池化处理，得到第一特征图对应的第一低维特征图。从而通过特征提取单元对第一低维特征图进行特征提取，得到待检测图像对应的目标胶囊信息，进而通过预测单元对目标胶囊信息进行目标检测，得到待检测图像对应的目标检测结果。通过对第一特征图进行基于注意力的池化处理，能够去除第一特征图中的无关信息，只关注与目标检测相关的信息，从而降低了计算复杂度，通过对第一特征图进行降维处理，降低了内存复杂度。在对较小的目标物体或被部分遮挡的目标物体进行目标检测时，能够降低计算复杂度和内存复杂度。

附图说明

图1为一个实施例中目标检测方法的应用环境图；

图2为一个实施例中目标检测方法的流程示意图；

图3为一个实施例中对第一特征图进行基于注意力的池化处理，得到第一特征图对应的第一低维特征图步骤的流程示意图；

图4为一个实施例中通过特征提取单元对第一低维特征图进行特征提取，得到待检测图像对应的目标胶囊信息步骤的流程示意图；

图5为一个实施例中通过预测单元对目标胶囊信息进行目标检测，得到待检测图像对应的目标检测结果步骤的流程示意图；

图6为一个实施例中目标检测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的目标检测方法，可应用于计算机设备中，计算机设备可以为终端或服务器。可以理解的是，本申请提供的目标检测方法可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

本申请提供的目标检测方法，可以降低较小目标物体的计算复杂度，适用于目标检测的多个应用场景。例如，在人脸识别的场景中，通过该目标检测方法可提升人脸检测的精度，降低误判率；又如在车辆检测场景中，可更为准确地识别出监控图像中的车辆。

本申请提供的目标检测方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。在需要进行目标检测时，服务器104获取终端102发送的待检测图像，将待检测图像输入至已训练的目标检测模型中，目标检测模型包括预处理单元、特征提取单元以及预测单元，通过预处理单元提取待检测图像对应的第一特征图，对第一特征图进行基于注意力的池化处理，得到第一特征图对应的第一低维特征图，从而通过特征提取单元对第一低维特征图进行特征提取，得到待检测图像对应的目标胶囊信息，进而通过预测单元对目标胶囊信息进行目标检测，得到待检测图像对应的目标检测结果。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种目标检测方法，以该方法应用于以该方法应用于服务器为例进行说明，包括以下步骤：

步骤202，获取待检测图像。

步骤204，将待检测图像输入至已训练的目标检测模型中，目标检测模型包括预处理单元、特征提取单元以及预测单元。

待检测图像是指需要进行目标检测的图像。目标检测是指检测图像中的目标物体，并预测每个目标物体的位置和类别，目标物体如人脸、车辆或建筑等，根据实际应用场景而定。

服务器可以获取终端发送的目标检测请求，对目标检测请求进行解析，得到待检测图像。终端中预先存储的待检测图像可以是图像传感器采集到的包括目标物体的图像，目标物体在该待检测图像中的位置、大小、目标物体的采集角度等可以是任意的。例如，目标物体相对于待检测图像较小，可以仅占据待检测图像的一小部分，此外由于采集角度的影响可能使得目标物体在待检测图像中呈倾斜状，或者目标物体的大小比例相较于其真实大小比例有所失调，如长方形的目标物体相平行的两条边在待检测图像中的长度不等，另两条边呈现出不平行的情形等。

在其中一个实施例中，待检测图像中的目标物体可以具有规则形状的边框，该目标物体可以具有固定数量的顶点，且该顶点之间连接形成该目标物体的边框。例如，目标物体的边框可以为具有四个顶点的正方形、长方形等。

服务器在获取到待检测图像后，调用预先存储的已训练的目标检测模型，已训练的目标检测模型是通过标注有目标类别标签的样本图像集训练得到的。目标检测模型包括预处理单元、特征提取单元以及预测单元，能够有效降低较小目标物体的计算复杂度。

步骤206，通过预处理单元提取待检测图像对应的第一特征图，对第一特征图进行基于注意力的池化处理，得到第一特征图对应的第一低维特征图。

第一特征图可以用于检测图像中较小的目标物体或是被部分遮挡的目标物体。第一低维特征图是指第一特征图对应的低维特征表示。

目标检测模型中的预处理单元用于获取第一特征图对应的第一低维特征图。具体的，预处理单元提取待检测图像对应的第一特征图，并对第一特征进行注意力的池化处理，以得到第一特征图对应的第一低维特征图。其中，第一特征图可以包括两个不同分辨率的特征图，较高分辨率的特征图用于检测图像中的较小目标物体或者被部分遮挡的目标物体。第一特征图中包括待检测图像的全局图像信息。

由于目标检测模型在对较高分辨率的特征图进行处理的过程中，计算复杂度以及内存复杂度较高，为了降低较高分辨率的特征图的计算复杂度和内存复杂度，即降低目标检测过程中，对较小目标物体或者被部分遮挡的目标物体的计算复杂度，服务器在对进行第一特征图进行特征提取之前，对第一特征图进行注意力的池化处理，注意力的池化处理是指去除第一特征中响应值较小的无关点，即通过将第一特征图进行稀疏化，只需提取与目标检测相关的信息，从而减小计算量，降低计算复杂度以及内存复杂度。

步骤208，通过特征提取单元对第一低维特征图进行特征提取，得到待检测图像对应的目标胶囊信息。

目标胶囊信息是指待检测图像中目标物体的胶囊表示，即将目标物体的特征信息用胶囊来表示。

目标检测模型中的特征提取单元用于提取待检测图像中目标物体的目标胶囊信息，目标胶囊信息可以包括多个胶囊向量，每个胶囊向量用于表示相应的目标物体的特征信息，每个胶囊向量包括多个维度，每个维度用于表示相应目标物体的一个局部特征的姿态信息。因此，通过目标胶囊信息可以准确体现待检测图像中目标物体的局部特征信息，从而实现将待检测图像中的目标物体通过局部特征信息进行表示。

步骤210，通过预测单元对目标胶囊信息进行分类处理，得到待检测图像对应的目标检测结果。

特征提取单元提取出待检测图像对应的目标胶囊信息后，将目标胶囊信息作为预测单元的输入，通过预测单元根据目标胶囊信息进行目标检测，预测待检测图像中目标物体的位置和对应的类别。其中，目标物体的位置是指目标物体对应的边框。

基于脑认知原理，大脑在认知的过程中，首先执行的是外界刺激驱动的显著性注意，不需要主动干预，是底层对上层的筛选过程，即应先执行自下而上的推断。从而根据上层的目标信息，筛选相应的下层信息，即实现自上而下的信息传递。因此，本实施例中，预测单元可以通过胶囊的传递方式以及全连接的方式分别对目标胶囊信息进行分类处理，胶囊的传递方式可以实现自下而上的推断，全连接的方式可以实现自上而下的信息传递，胶囊的传递方式采用了目标物体的局部特征信息，通过局部特征信息预测目标物体的位置和类别，而全连接的方式则利用了目标物体的整体信息，通过目标物体的整体信息预测目标物体的位置和类别，通过将上述两种方式进行结合，充分利用了目标物体的局部特征信息和整体信息，有效提高了目标检测的准确性。

传统的目标检测器DETR(Detection Transformer，基于集合预测的目标检测)，存在收敛慢、计算复杂度高的缺陷，尤其是针对较小的目标物体进行目标检测时需要在高分辨率的特征图中进行检测，导致计算复杂度和内存复杂度较高。而本实施例中，通过已训练的目标检测模型的预处理单元提取待检测图像对应的第一特征图，对第一特征图进行基于注意力的池化处理，得到第一特征图对应的第一低维特征图。从而通过特征提取单元对第一低维特征图进行特征提取，得到待检测图像对应的目标胶囊信息，进而通过预测单元对目标胶囊信息进行目标检测，得到待检测图像对应的目标检测结果。通过对第一特征图进行基于注意力的池化处理，能够去除第一特征图中的无关信息，只关注与目标检测相关的信息，从而降低了计算复杂度，通过对第一特征图进行降维处理，降低了内存复杂度。在对较小的目标物体或被部分遮挡的目标物体进行目标检测时，能够降低计算复杂度和内存复杂度。

在一个实施例中，通过预处理单元提取待检测图像对应的第一特征图包括：通过预处理单元中的卷积神经网络对待检测图像进行特征提取，将所述卷积神经网络最后两个卷积层输出的特征图确定为待检测图像对应的第一特征图。

已训练的目标检测模型的预处理单元中可以包括卷积神经网络(ConvolutionalNeural Network，简称CNN)。卷积神经网络用于提取待检测图像对应的第一特征图，以便后续特征提取单元提取待检测图像对应的目标胶囊信息。卷积神经网络可以包括多个网络层，如输入层、多个卷积层、池化层、全连接层等。可以将最后两个卷积层输出的特征图确定为待检测图像对应的第一特征图。随着多个卷积层的先后处理顺序，输出的特征图的分辨率逐渐降低。因此，倒数第二个卷积层输出的特征图的分辨率高于最后一个卷积层输出的特征图的分辨率。为了便于描述，可以将倒数第二各卷积层称为第a-1层，其输出的特征图可以称为F_a-1，大小为[bs,d_a-1,h_a-1,w_a-1]，其中，bs表示F_a-1的batch大小(批处理中的样本数量)，d_a-1表示F_a-1的特征维度，h_a-1表示F_a-1的高，w_a-1表示F_a-1的宽。将最后一个卷积层称为第a层，其输出的特征图可以称为F_a，大小为[bs,d_a,h_a,w_a]，其中，bs表示F_a的batch大小(批处理中的样本数量)，d_a表示F_a的特征维度，h_a表示F_a的高，w_a表示F_a的宽。F_a-1和F_a的大小满足h_a-1>h_a，w_a-1>w_a。

进一步的，由于特征提取单元的结构未使用任何递归结构或卷积结构，为了让特征提取单元能利用待检测图像的顺序信息，就需要引入能表达待检测图像中每个元素的绝对或相对位置的信息。例如，可以利用卷积神经网络对第一特征图进行位置编码，对编码后的第一特征图进行基于注意力的池化处理。位置编码是指对第一特征图中包含的元素的位置进行编码。

在本实施例中，第一特征图中不仅包括最后一个卷积层输出的特征图，还包括分辨率较高的倒数第二个卷积层输出的特征图，由此能够实现对较小的目标物体进行目标检测。

在一个实施例中，如图3所示，对第一特征图进行基于注意力的池化处理，得到第一特征图对应的第一低维特征图的步骤包括：

步骤302，对第一特征图进行多头注意力计算，得到第一特征图对应的多头注意力值。

步骤304，对多头注意力值进行归一化处理，得到第一特征图对应的第一低维特征图。

已训练的目标检测模型中的预处理单元可以包括卷积神经网络和池化单元，卷积神经网络用于提取待检测图像对应的第一特征图，第一特征图中包括最后两个卷积层输出的特征图，可以表示为第a-1层输出的特征图F_a-1和第a层输出的特征图F_a。池化单元用于对特征图F_a-1和特征图F_a分别进行基于注意力的池化处理。基于注意力的池化处理是指先对特征图进行多头注意力计算，在对多头注意力值进行归一化处理。池化单元可以先对特征图F_a-1进行基于注意力的池化处理，再对特征图F_a进行基于注意力的池化处理。

以对特征图F_a-1进行基于注意力的池化处理为例进行说明，具体的，池化单元可以采用多头注意力机制，对特征图F_a-1进行多头注意力计算，得到第一特征图对应的多头注意力值，从而对多头注意力值进行归一化处理，得到第一特征图对应的第一低维特征图。基于注意力的池化处理(PMA(Z))的过程可以用如下公式来表示：

PMA(Z)＝LayerNorm(S+Multihead(S,Z,Z)) (1)

其中，S表示第一低维特征图，Z表示key和value向量，即特征图F_a-1，Multihead(S,Z,Z)表示多头注意力值，LayerNorm表示归一化处理，表示尺度因子，dim表示特征图F_a-1的维度。

可以理解的是，通过上述方式对特征图F_a进行基于注意力的池化处理，得到特征图F_a对应的第一低维特征图。从而得到特征图F_a-1对应的第一低维特征图和特征图F_a对应的第一低维特征图。

在本实施例中，通过对第一特征图进行多头注意力计算以及归一化处理，只需提取与目标检测相关的信息，有效减小了计算量，降低了后续特征提取单元中注意力计算导致的计算消耗，从而有效降低了计算复杂度以及内存复杂度。

在一个实施例中，如图4所示，通过特征提取单元对第一低维特征图进行特征提取，得到待检测图像对应的目标胶囊信息的步骤包括：

步骤402，通过编码单元对第一低维特征图进行全局特征提取，得到全局特征信息，对全局特征信息进行胶囊转换，得到初始胶囊信息。

步骤404，将初始胶囊信息输入至解码单元，对初始胶囊信息进行类别特征提取，得到类别特征信息，对类别特征信息进行胶囊转换，得到目标胶囊信息。

特征提取单元可以是基于胶囊表示的transformer网络。特征提取单元包括编码单元和解码单元。编码单元和解码单元中均包括胶囊转换单元，用于将信息转换为胶囊的形式。

特征提取单元中的编码单元用于提取第一低维特征图中的全局特征信息，如颜色特征、纹理特征和形状特征等，从而通过编码单元中的胶囊转换单元将全局特征信息进行胶囊转换，得到初始胶囊信息。初始胶囊信息是指全局特征信息对应的胶囊表示。对全局特征信息进行胶囊转换，是指将全局特征信息中同一目标物体的特征信息聚到一起，生成一个胶囊。胶囊是通过胶囊向量的形式体现的，因此胶囊向量中包括目标物体的多个局部特征。每个胶囊对应的胶囊向量的模长表示目标物体中各局部特征存在的概率，该胶囊向量的维度表示目标物体中各局部特征对应的姿态信息。第一低维特征图包括特征图F_a-1对应的第一低维特征图和特征图F_a对应的第一低维特征图，因此，初始胶囊信息中包括特征图F_a-1对应的初始胶囊表示以及特征图F_a对应的初始胶囊表示，特征图F_a-1对应的初始胶囊表示为P_a-1，大小为[bs,mum_a-1,d_a-1/mum_a-1,s_a-1]，其中，bs表示F_a-1对应的初始胶囊表示的batch大小(批处理中的样本数量)，mum_a-1表示F_a-1对应的初始胶囊表示的胶囊个数，d_a-1/mum_a-1表示F_a-1对应的初始胶囊表示中每个胶囊的胶囊向量。特征图F_a对应的初始胶囊表示为P_a，大小为[bs,mum_a,d_a/mum_a,s_a]，其中，bs表示F_a对应的初始胶囊表示的batch大小(批处理中的样本数量)，mum_a表示F_a对应的初始胶囊表示的胶囊个数，d_a/mum_a表示F_a对应的初始胶囊表示中每个胶囊的胶囊向量。通过对全局特征信息进行胶囊转换，能够将全局特征信息中相同实例类型的特征信息划分为一类，如将同一目标物体的眼睛、嘴巴、鼻子等划分为一类。

特征提取单元中的解码单元用于提取初始胶囊信息中的类别特征信息以及目标物体的边界信息，通过解码单元中的胶囊转换单元将提取的类别特征信息和目标物体的边界信息进行胶囊转换，得到目标胶囊信息。目标胶囊信息中包括P_a-1对应的目标胶囊表示O_a-1和P_a对应的目标胶囊表示O_a。目标胶囊表示O_a-1的大小可以为[100,bs,mum_a-1,d_a-1/mum_a-1]，其中，100表示待检测图像中，需要检测的胶囊个数。目标胶囊表示O_a的大小可以为[100,bs,mum_a,d_a/mum_a]。通过将提取的类别特征信息和目标物体的边界信息进行胶囊转换，能够将同一目标物体的特征信息和对应的边界信息聚类到一起，因此，目标胶囊信息中包括每个目标物体对应的局部特征信息、目标物体的特征信息和对应的边界信息。

在本实施例中，通过在编码单元以及解码单元中加入胶囊转换的过程，能够将准确识别目标物体的不同姿态，实现通过局部特征信息来表示目标物体，对于目标物体的局部表示更为准确，有利于提高目标检测的准确性。

在一个实施例中，如图5所示，通过预测单元对目标胶囊信息进行目标检测，得到待检测图像对应的目标检测结果步骤包括：

步骤502，通过预测单元基于注意力路由路由对目标胶囊信息进行目标检测，得到第一检测结果。

步骤504，通过预测单元对目标胶囊信息进行线性变换，得到第二检测结果。

步骤506，将第一检测结果以及第二检测结果进行融合，得到待检测图像对应的目标检测结果。

由于目标胶囊信息中包括P_a-1对应的目标胶囊表示O_a-1和P_a对应的目标胶囊表示O_a，预测单元可以分别对目标胶囊表示O_a-1和目标胶囊表示O_a进行目标检测，目标检测是指根据目标胶囊信息识别待检测图像中的目标物体，并预测每个目标物体的位置和类别。预测单元的目标检测过程包括两种目标检测方式，一种是通过胶囊传递的方式来实现根据局部特征信息进行目标检测，一种是通过全连接的方式来实现根据整体信息进行目标检测。预测单元可以同时通过两种目标检测方式对目标胶囊信息进行处理，并将两种目标检测方式的结果进行融合，使得目标检测的准确性更高。第一检测结果中包括目标胶囊表示O_a-1对应的第一检测结果和目标胶囊表示O_a对应的第一检测结果，第二检测结果中包括目标胶囊表示O_a-1对应的第二检测结果和目标胶囊表示O_a对应的第二检测结果。

以对目标胶囊表示O_a-1进行目标检测为例进行说明，当通过胶囊传递的方式进行目标检测时，预测单元可以基于自下而上的注意力路由算法，分别对目标胶囊表示O_a-1和目标胶囊表示O_a进行目标检测。自下而上的注意力路由算法是指基于多头注意力机制的路由算法，其需要获取下层胶囊分配到上层胶囊的概率值，如将眼睛、鼻子、嘴巴等下层胶囊分配至目标物体的脸部的概率，其中，下层胶囊可以是目标胶囊表示O_a-1中的胶囊，上层胶囊可以是经过目标检测后的第一检测结果中的胶囊。自下而上的注意力路由算法通过将目标胶囊表示O_a-1对应的胶囊个数作为多头注意力机制的头，沿着目标胶囊表示O_a-1对应的胶囊个数所在的维度，采用多头注意力机制计算各上层胶囊经过仿射变换后与下层胶囊之间的相关性，从而实现胶囊间的信息传递，得到目标胶囊表示O_a-1对应的第一检测结果，其计算公式可以如(2)所示。第一检测检测结果中可以包括多个胶囊，以及各胶囊对应的目标物体的类别以及位置。胶囊的数量与目标胶囊信息中需要检测的胶囊个数。全连接的方式是一种自上而下的信息传递方式，在通过全连接的方式进行目标检测时，预测单元对目标胶囊表示O_a-1进行线性变换，利用目标物体的整体信息来确定目标物体的类别和位置，得到目标胶囊表示O_a-1对应的第二检测结果。

通过上述目标检测方式可以预测得到目标胶囊表示O_a-1和目标胶囊表示O_a对应的第一检测结果和第二检测结果。第一检测结果是通过目标物体的局部特征信息预测得到的，第二检测结果是通过目标物体的整体信息预测得到的，从而预测单元将第一检测结果与第二检测结果进行融合，能够充分利用目标物体的局部特征信息和整体信息，有效提高了目标检测结果的准确性。

在一个实施例中，在获取待检测图像之前，上述方法还包括：获取样本图像集；将样本图像集输入至待训练目标检测模型中，通过待训练目标检测模型中的预处理单元提取样本图像集对应的第二特征图，对第二特征图进行基于注意力的池化处理，得到第二特征图对应的第二低维特征图；通过待训练目标检测模型中的特征提取单元对第二低维特征图进行特征提取，得到样本图像集对应的目标胶囊信息；通过待训练目标检测模型中的预测单元对样本图像集对应的目标胶囊信息进行目标检测，得到样本图像集对应的目标检测结果；根据样本图像集对应的目标检测结果计算待训练目标检测模型的损失值，根据损失值更新待训练目标检测模型的网络参数，直至满足预设条件，得到已训练的目标检测模型。

样本图像集是指用于训练目标检测模型的训练样本，样本图像集可以包括多个样本图像，多个是指两个或以上。样本图像集可以根据应用场景来选择，如在车辆检测场景中，样本图像集中的样本图像中可以包括车辆、行人等。在其中一个实施例中，样本图像集的存储位置可以有多个，可以存储在数据库中获取的，也可以存储在终端中，从而在训练目标检测模型时，从数据库或者终端中获取相应的样本图像集。

目标检测模型在训练过程中和应用过程中的目标检测方式是相同的。待训练目标检测模型包括预处理单元、特征提取单元和预测单元。待训练目标检测模型中的预处理单元用于提取样本图像集中各样本图像对应的第二特征图，第二特征图是指在预处理单元中的卷积神经网络对各样本图像进行特征提取时，卷积神经网络最后两个卷积层输出的特征图。预测单元对第二特征图进行基于注意力的池化处理，得到第二特征图对应的第二低维特征图，第二低维特征图是指第二特征图对应的低维特征表示。从而将第二低维特征图作为特征提取单元的输入，进行特征提取，得到样本图像集对应的目标胶囊信息。样本图像集对应的目标胶囊信息包括样本图像集中目标物体的局部特征信息。进而通过待训练目标检测模型中的预测单元对样本图像集对应的目标胶囊信息进行目标检测，具体的，预测单元可以通过胶囊的传递方式以及全连接的方式分别对目标胶囊信息进行分类处理，胶囊的传递方式可以实现自下而上的推断，利用了目标物体的局部特征信息，全连接的方式可以实现自上而下的信息传递，利用了目标物体的整体信息，通过将上述两种方式进行结合，充分利用了目标物体的局部特征信息和整体信息，有效提高了目标检测结果的准确性。

进一步的，当待训练目标检测模型中的预测单元通过胶囊的传递方式进行目标检测时，预测单元可以利用自下而上的注意力路由算法，对样本图像集对应的目标胶囊信息进行目标检测，得到相应的检测结果。具体的，样本图像集中可以包括类别数量，预测单元可以利用自下而上的注意力路由算法将目标胶囊信息按照该类别数量进行扩充，由此可以保证输出胶囊的维度对应该类别数量，即检测结果中包括该类别数量的目标物体。扩充的方式可以是在目标胶囊信息的原有维度的基础上，添加1维，并将其前4个维度按照类别数量进行复制。从而将目标胶囊信息对应的胶囊个数作为多头注意力机制的头，沿着目标胶囊信息对应的胶囊个数所在的维度，采用多头注意力机制计算各输出胶囊经过仿射变换后与目标胶囊信息中各胶囊之间的相关性，从而实现胶囊间的信息传递，获取到相应的检测结果。

在得到目标检测结果后，可根据样本图像集对应的目标检测结果计算待训练目标检测模型的损失值。损失值是用于评价模型预测效果的一个参数，网络损失值越小，表明模型的预测效果越好。对应地，待训练目标检测模型的损失值用于评价目标检测网络的目标检测效果的一个参数，其损失值越小，表明目标检测效果越好。

根据损失值以及预设的网络参数更新方式对待训练目标检测模型的网络参数进行更新，得到更新后的目标检测模型。每经过一次更新，判断更新后的待训练目标检测模型是否满足预设条件。若满足，则停止模型训练，将更新后的待训练目标检测模型作为已训练的目标检测模型。若不满足，则返回将样本图像集输入至待训练目标检测模型中的步骤，直至满足预设条件，将更新后的待训练目标检测模型确定为已训练的目标检测模型。其中，预设的网络参数更新方式可以是梯度下降法、反向传播算法等误差修正算法中的任意一种。例如，Adam(Adaptive Moment Estimation，自适应矩估计)算法。预设条件可以是生成网络损失值达到损失阈值，也可以是迭代次数达到迭代次数阈值，在此不作限定。

在本实施例中，通过待训练目标检测模型的预处理单元提取样本图像集对应的第二特征图，对第二特征图进行基于注意力的池化处理，得到第二特征图对应的第二低维特征图。从而通过特征提取单元对第二低维特征图进行特征提取，得到样本图像集对应的目标胶囊信息，进而通过预测单元对目标胶囊信息进行目标检测，得到样本图像集对应的目标检测结果。通过对第二特征图进行基于注意力的池化处理，能够在提取有效信息的同时，降低了计算复杂度和内存消耗，大大减少了训练时间，加快了模型收敛速度。使得已训练的目标检测模型在对较小的目标物体或被部分遮挡的目标物体进行目标检测时，能够降低计算复杂度和内存复杂度。

在一个实施例中，样本图像集标注有目标标签信息；根据样本图像集对应的目标检测结果计算待训练目标检测模型的损失值包括：将样本图像集对应的目标检测结果与目标标签信息进行二分匹配，得到匹配结果；根据匹配结果计算待训练目标检测模型的损失值。

样本图像集中标注有目标标签信息，目标标签信息包括样本图像集中各样本图像中目标物体的类别标签和目标物体对应的边框。

具体的，可以采用匈牙利算法将样本图像集对应的目标检测结果与目标标签信息进行二分匹配，得到匹配结果匈牙利算法能够将目标检测结果与目标标签信息进行唯一匹配，通过将预测单元与匈牙利算法进行结合，能够并行预测多个目标物体。从而根据匹配结果计算待训练目标检测模型的损失值。在其中一个实施例中，待训练目标检测模型的损失值包括目标位置偏移损失值、分类损失值以及匹配损失值。目标位置偏移损失值是指目标检测结果中目标物体的边框与目标标签信息中相应目标物体的边框之间位置拟合的损失，用于提高目标物体边框检测的准确性。目标位置偏移损失值可以是IOU(交并比)损失。分类损失值即类别损失值，可以采用常用的交叉熵损失，用于实现目标检测模型的多分类过程，并直接输出目标物体的类别。匹配损失值用于实现目标检测结果中目标物体的边框与目标标签信息中相应目标物体的边框的唯一匹配，是通过匹配结果之间的距离进行度量得到的，用于提高目标检测结果与目标标签信息的匹配准确性。

应该理解的是，虽然图2至5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种目标检测装置，包括：图像获取模块602、预处理模块604、特征提取模块606和目标检测模块608，其中：

图像获取模块602，用于获取待检测图像。

预处理模块604，用于将待检测图像输入至已训练的目标检测模型中，目标检测模型包括预处理单元、特征提取单元以及预测单元；通过预处理单元提取待检测图像对应的第一特征图，得到第一特征图对应的第一低维特征图。

特征提取模块606，通过特征提取单元对第一低维特征图进行特征提取，得到待检测图像对应的目标胶囊信息。

目标检测模块608，用于通过预测单元对目标胶囊信息进行目标检测，得到待检测图像对应的目标检测结果。

在一个实施例中，预处理模块604还用于通过预处理单元中的卷积神经网络对待检测图像进行特征提取，将卷积神经网络最后两个卷积层输出的特征图确定为待检测图像对应的第一特征图。

在一个实施例中，预处理模块604还用于对第一特征图进行多头注意力计算，得到第一特征图对应的多头注意力值；对多头注意力值进行归一化处理，得到第一特征图对应的第一低维特征图。

在一个实施例中，特征提取单元包括编码单元和解码单元，特征提取模块606还用于通过编码单元对第一低维特征图进行全局特征提取，得到全局特征信息，对全局特征信息进行胶囊转换，得到初始胶囊信息；将初始胶囊信息输入至解码单元，对初始胶囊信息进行类别特征提取，得到类别特征信息，对类别特征信息进行胶囊转换，得到目标胶囊信息。

在一个实施例中，目标检测模块608还用于通过预测单元基于注意力路由对目标胶囊信息进行目标检测，得到第一检测结果；通过预测单元对目标胶囊信息进行线性变换，得到第二检测结果；将第一检测结果以及第二检测结果进行融合，得到待检测图像对应的目标检测结果。

在一个实施例中，上述装置还包括：

样本获取模块，用于获取样本图像集。

样本预处理模块，用于将样本图像集输入至待训练目标检测模型中，通过待训练目标检测模型中的预处理单元提取样本图像集对应的第二特征图，对第二特征图进行基于注意力的池化处理，得到第二特征图对应的第二低维特征图。

样本特征提取模块，用于通过待训练目标检测模型中的特征提取单元对第二低维特征图进行特征提取，得到样本图像集对应的目标胶囊信息。

样本目标检测模块，用于通过待训练目标检测模型中的预测单元对样本图像集对应的目标胶囊信息进行目标检测，得到样本图像集对应的目标检测结果。

参数更新模块，用于根据样本图像集对应的目标检测结果计算待训练目标检测模型的损失值，根据损失值更新待训练目标检测模型的网络参数，直至满足预设条件，得到已训练的目标检测模型。

在一个实施例中，样本图像集标注有目标标签信息；参数更新模块还用于将样本图像集对应的目标检测结果与目标标签信息进行二分匹配，得到匹配结果；根据匹配结果计算待训练目标检测模型的损失值。

在一个实施例中，参数更新模块还用于计算待训练目标检测模型的目标位置偏移损失值、分类损失值以及匹配损失值。

关于目标检测装置的具体限定可以参见上文中对于目标检测方法的限定，在此不再赘述。上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、单元接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种目标检测方法的数据。该计算机设备的单元接口用于与外部的终端通过单元连接通信。该计算机程序被处理器执行时以实现一种目标检测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

通过所述预处理单元提取所述待检测图像对应的第一特征图，对所述第一特征图进行基于注意力的池化处理，得到所述第一特征图对应的第一低维特征图；

通过所述特征提取单元对所述第一低维特征图进行特征提取，得到所述待检测图像对应的目标胶囊信息；所述目标胶囊信息为通过胶囊表示的所述待检测图像中目标物体的特征信息；

2.根据权利要求1所述的方法，其特征在于，所述通过所述预处理单元提取所述待检测图像对应的第一特征图包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第一特征图进行基于注意力的池化处理，得到所述第一特征图对应的第一低维特征图包括：

4.根据权利要求1所述的方法，其特征在于，所述特征提取单元包括编码单元和解码单元；所述通过所述特征提取单元对所述第一低维特征图进行特征提取，得到所述待检测图像对应的目标胶囊信息包括：

5.根据权利要求1所述的方法，其特征在于，所述通过所述预测单元对所述目标胶囊信息进行目标检测，得到所述待检测图像对应的目标检测结果包括：

6.根据权利要求1所述的方法，其特征在于，在所述获取待检测图像之前，所述方法还包括：

获取样本图像集；

7.根据权利要求6所述的方法，其特征在于，所述样本图像集标注有目标标签信息；所述根据所述样本图像集对应的目标检测结果计算所述待训练目标检测模型的损失值包括：

根据所述匹配结果计算所述待训练目标检测模型的损失值。

8.根据权利要求7所述的方法，其特征在于，所述待训练目标检测模型的损失值包括目标位置偏移损失值、分类损失值以及匹配损失值。

9.一种目标检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

预处理模块，用于将所述待检测图像输入至已训练的目标检测模型中，所述目标检测模型包括预处理单元、特征提取单元以及预测单元；通过所述预处理单元提取所述待检测图像对应的第一特征图，对所述第一特征图进行基于注意力的池化处理，得到所述第一特征图对应的第一低维特征图；

特征提取模块，用于通过所述特征提取单元对所述第一低维特征图进行特征提取，得到所述待检测图像对应的目标胶囊信息；所述目标胶囊信息为通过胶囊表示的所述待检测图像中目标物体的特征信息；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。