CN110689081B

CN110689081B - 一种基于分歧学习的弱监督目标分类和定位方法

Info

Publication number: CN110689081B
Application number: CN201910942565.4A
Authority: CN
Inventors: 万方; 薛昊岚; 刘畅; 付梦莹; 叶齐祥; 韩振军; 焦建彬
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-08-21
Anticipated expiration: 2039-09-30
Also published as: CN110689081A

Abstract

本发明提供了一种基于分歧学习的弱监督目标分类和定位方法，实现过程为：构建训练样本集；基于层次分歧激活模块或者层次分歧激活模块‑差异性分歧激活模块构建分类和定位网络；将训练样本集中的样本输入到初步构建的分类和定位网络中进行多尺度的目标特征提取；设计损失函数，根据损失函数计算梯度，对整个卷积层网络进行梯度反传，并更新卷积层网络参数，实现网络的优化。本发明方法提出了两种分歧学习形式：差异分歧学习和层次分歧学习，两种分歧学习从不同的角度挖掘目标的定位信息，最终激活出完整的目标区域，该方法能够发现目标的互补和具有辨别力的视觉模式，能够在精确目标定位的同时保持图像分类的高性能，具有非常好的实用性和扩展性。

Description

一种基于分歧学习的弱监督目标分类和定位方法

技术领域

本发明涉及计算机视觉和图像处理领域，尤其涉及一种基于分歧学习的弱监督目标分类和定位方法，利用分歧的思想学习目标的不同表示，并利用联合优化的方法训练网络，在仅有弱监督标注的情况下定位图像中的目标，在图像标注工作量大、存在噪声的情况下能更好的推广到大规模数据的定位工作。

背景技术

目标检测作为视觉领域中的基本问题，是很多视觉应用的基础。传统的监督目标检测模型往往需要在大量的图像中精确标注每一个目标的位置。虽然这类方法能够依靠大量的标注信息学习目标识别和定位信息，但是其对数据集的搜集和制作提出了非常高的要求。对图像数据集中的每一个目标精确标注的这一过程耗时耗力，尤其是在数据集规模变大的情况下，这很大程度上影响了算法在海量数据上的扩展，限制了深度学习算法对大数据集的利用。

为了减少目标建模过程中的人工标注和监督，人们提出了弱监督的目标检测框架。弱监督的目标检测框架只要求对图像中是否出现过某类目标给出标注，该标注工作和图像分类的标注工作一致，因此目前已经被标注过的图像分类数据集均可以成为弱监督目标检测算法的输入数据。这种标注方式极大的降低了标注的工作量，同时也能够直接利用海量的图像分类数据集。然而，目前的弱监督目标检测算法训练过程中因为缺少精确的位置信息而产生了较大的定位随机性，影响了检测的稳定性和精度，对目标检测算法的定位能力提出了更高的要求。

为了解决卷积神经网络(CNN)的弱监督目标定位问题，人们对寻找辨识性区域的定位方法进行了分析，即利用从图像级别监督激励反向传播学习用于目标定位的类激活图。通过将全局平均池化(GAP)模块引入分类网络，以端到端的方式激发目标对象范围。在前向传播过程中，CNN中的卷积滤波器充当目标检测器，在反向传播过程中，激发特征映射以产生类激活图来识别特定对象类的具有辨别力的区域。

寻找辨识性区域的目标定位方法对于弱监督对象定位来说简单而有效。然而，通常观察到它们激活对象的一部分而不是完整对象范围，如图1所示。这种现象背后的原因是，网络倾向于学习用于图像分类的最具辨别力的特征，同时抑制具有较少辨别性的特征。特定的激活目标部分能够最小化图像分类损失，但是在优化对象定位时遇到困难。

增强目标定位的一种方法是自定进度学习。例如，自生引导(SPG)方法使用分类网络来学习高度自信区域，然后利用注意力图在高置信度区域的指导下学习对象范围；追求完整目标范围的另一种方式是对抗性擦除和隐藏，其通过替代优化迭代地激活(寻找)和擦除(隐藏)具有判别力的区域。自定进度和对抗性擦除方法以渐进方式工作，即发现和融合判别区域。虽然实际上看似合理，但它们在理论上是次优的，因为它以启发式搜索的方式工作。

大多数存在的方法以步进式或替代优化的方式解决问题。理论上，在图像分类性能的约束下，用于定位整体对象范围的框架仍然有待探索。

发明内容

为了克服上述问题，本发明人进行了锐意研究，提出了一种简单而有效的分歧激活方法，目的是从差异的角度学习弱监督图像分类和对象定位的互补和具有辨别力的视觉模式。为此，本发明提出了两种分歧学习的形式：差异性分歧学习和层次分歧学习，其中差异性分歧使用了卷积神经网络的多层输出，对定位结果同时进行层间和层内的分歧学习；层次分歧学习是利用目标标号的分层特性，将标号分为不同层级，利用不同层级的标号之间的分歧特性进行弱监督学习。两种分歧学习从不同的角度挖掘目标的定位信息，最终激活出完整的目标区域，通过计算该激活的最小包围框得到弱监督的框定位结果，从而完成本发明。

本发明的目的在于提供以下技术方案：

本发明的目的在于提供一种基于分歧学习的弱监督目标分类和定位方法，该方法包括训练分类和定位网络用以进行目标分类和定位的过程，分类和定位网络的训练过程包括以下步骤：

S1，融合层次分歧激活模块构建分类和定位网络：融合层次分歧激活模块后的卷积神经网络的最后N层卷积层均作为特征输出层，各特征输出层均能够输出对应图像不同类别层级的分类和定位结果；

S2，构建训练样本集；

S3，将训练样本集中的样本输入到构建的分类和定位网络中进行多尺度的目标特征提取，各层输出对应各相应类别的激活图及其属于各相应类别的概率，得到各层分类结果；

S4，设计损失函数，根据损失函数计算梯度，对整个卷积层网络进行梯度反传，并更新卷积层网络参数；

S5，判定网络是否收敛或达到最大迭代次数，如果已经收敛或达到最大迭代次数，停止网络训练，否则回到S3继续实施网络的训练。

根据本发明提供的一种基于分歧学习的弱监督目标分类和定位方法，具有包括以下的有益效果：

(1)本发明方法利用弱监督标注学习目标分类和定位模型，在对图像进行标注时只需要简单的指定图像的标号，不需要对图像中目标的具体位置进行精确标注，从而显著减少了人工标注的成本；

(2)本发明方法，为了扩展压缩特征并探索更丰富的对象定位视觉部分，提出了分歧激活并将其与图像分类网络集成，从差异学习的角度来实现分歧激活，并将其部署为层次分歧激活模块和差异性分歧激活模块，这两个模块的目标是在图像分类性能的约束下学习互斥的视觉部分和扩展对象激活区域；

层次分歧激活受图像类别结构的启发，也就是来自不同类别的图像可以通过它们的相似性合并、分配给分层类别标签。用分层类别标签训练的分类模型可以有效地扩展视觉部分并为具有判别力的定位提供额外的指导；差异性分歧激活基于互补的空间结构，目标可以在空间上被分解为多个独立的视觉模式，在训练期间激活和融合这些视觉部分有助于定位整个物体范围。两种分歧学习从不同的角度挖掘目标的定位信息，最终激活出完整的目标区域。

(3)本发明方法还定义了一个联合目标函数，以便可以同时优化图像分类损失和分歧损失，通过端到端的学习过程优化目标函数，弱监督分类和定位网络能够发现互补和具有辨别力的视觉模式，用于目标整体精确定位的同时保持图像分类的高性能。

附图说明

图1示出训练期间激活图的演变；在训练的早期阶段，CAM(累激活映射图)和本发明的WDNet都会激活部分对象；随着学习过程，CAM的激活区域缩小到一个小的物体部分，而本发明方法由一部分激活区域发散到完整的物体；

图2示出本发明一种优选实施方式中所提出的弱监督分歧网络的体系结构；

图3示出本发明中层次分歧激活利用图像类别层次的语义差异来学习被图像分类抑制的视觉部分；

图4示出本发明中差异性分歧激活利用特征图的空间差异来学习被图像分类抑制的视觉部分；

图5示出对本发明所提出的层次分歧激活和差异性分歧激活的解释；

图6示出CUB-200-2011上的层次分歧图示例；

图7示出本发明提出的差异分歧模块在CUB数据集上的影响，包括激活图个数K和正则化因子λ；

图8示出本发明在cub-200-2011测试集上显示的差异激活图。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

如图2所示，本发明提供了一种基于网络监督的目标分类和定位方法，该方法包括训练分类和定位网络用以进行目标分类和定位的过程，分类和定位网络的训练过程包括以下步骤：

S2，构建训练样本集；

本发明S1)中，融合层次分歧激活模块构建分类和定位网络的具体步骤包括：选用卷积神经网络作为该分类和定位网络的主干，将卷积神经网络最后一层卷积层后的池化层和所有的全连接层删除，最后N层卷积层均作为特征输出层，其后各依次连接内核大小为3*3和1*1的卷积层，再通过全局平均池化层(GAP)和一个softmax回归层，构建得到分类和定位网络。

其中，卷积神经网络可以选自AlexNet、ResNet、VGGNet、GoogLeNet等中的任意一种。

卷积神经网络不但可以用于目标分类，其中的卷积层是一个很好的目标定位器，卷积层本身在提取特征时就带有能够定位物体的能力，能够保持物体的空间信息，特征图中激活值较大的区域往往是目标物体所在区域。以往用于分类的卷积神经网络往往在卷积层的最后加几层全连接层，把网络中每一层卷积层输出的特征值通过权值矩阵计算加权平均数中的每个数的频数形成一个完整的特征图，实现分类功能。但是，全连接层是将卷积层产生的特征图中所有位置信息组合后输出，与目标物体所处位置无关，卷积层良好的定位能力在使用全连接层中丢失了。为此，本发明放弃使用全连接层，使用全局平均池化层作为特征图和分类结果之间的连接，全局平均池化层的作用不仅是对整个网络结构做正则化减少参数，避免网络过拟合，还能够一直保持网络的定位能力。

在本发明一种优选的实施方式中，作为特征输出层的最后N层卷积层为主干网络的最后三层卷积层。原因在于：在一定范围内，特征输出层数越多定位效果越好，但是当选择较浅的卷积层如第二层也作为特征输出层时，过浅的网络特征并不足以得到具备有判别力的特征来依据进行分类。这也可以由实验例2“特征输出层数量选择的影响”中的数据结果得到证实。

在本发明一种优选的实施方式中，各特征输出层中内核大小为1*1的卷积层的通道数为该层对应的预测类别总数C，该预测类别总数C为训练样本集中图像不同类别层级对应的类别总数。

各特征输出层中内核大小为1*1的卷积层的通道数为该层对应的预测类别总数C，在正向传播的过程中产生用于定位的对应特定类别的特征图，避免产生额外的计算量，节省计算成本。

对于图像分类，卷积神经网络学习通过激活具有辨别力的视觉部分来区分图像类别与另一图像类别。同时，类之间的相似视觉部分被抑制。为了定位整个对象范围，关键在于如何激活被抑制的视觉部分。

常识是，对于两个语义相似的类，例如“狗”和“狼”，存在许多相似的视觉部分(该相似的视觉部分属于目标部分)。如果我们将类似(子)类合并到父类中并为父类训练分类器(例如，“狗+狼”类)，则如果它们与其他父级有区别，那么子类共享的那些相似视觉部分将被激活类。递归地，将父类视为新的子类并将它们合并以获得新的父类，进一步激活更多的视觉部分(对象部分)。

基于这种思想，我们提出了层次分歧激活。将传统的卷积神经网络构建为有多层输出的网络，利用图像类别标号之间的层级关系，将图像类别相应分为有层级结构的父类-子类的关系结构。结合卷积神经网络由浅到深的结构特性，浅层网络学习父类标号分类，深层网络依次学习子类标号分类，依次类推。这样能够利用不同层级的标号之间的分歧特性定位不同的目标区域。

如图3所示，层次分歧激活可以激活类之间的相似区域。给定一个包含C^h类对象的图像数据集，例如CUB-200-2011中的200种鸟类，我们首先根据子类之间的语义相似性将它们合并到C^h+1父类中，然后将C^h+1类合并为C^h+2父类，其中C^h+2<C^h+1<C^h。

关于层级结构类别，层次分歧激活的损失函数定义为：

其中，L_h表示第h类层的损失，

表示第c类的标签，

表示类别置信度，其中c∈C^h，C^h是第h类层的类别序号。

层次分歧激活的本质在于，通过使用子-父类来分层地改变判别条件，可以收集越来越多的信息性视觉部分，并且激活图从小部分对象发散到完整对象范围。层次分歧激活仅依赖于类层次结构，并且可以在构建层次结构后应用于任何图像数据集。

本发明S2)中，构建训练样本集。

本发明在传统卷积神经网络中融入层次分歧激活模块，得到具有分层输出功能的分类和定位网络，用以获得对应不同层级标号的特征输出。

为此，与该分类和定位网络相对应，对图像类别标号进行层次划分，使训练样本集中样本的图像类别标号具有父类-子类的层级结构。如将哈士奇狗的图像类别标号定义为动物-犬科-狗-哈士奇，VGG16的conv3、conv4、和conv5层分别提取特征后进行分类，三层对应的类别中分别包括动物、犬科和哈士奇，这样，实现浅层网络学习父类标号分类，深层网络依次学习子类标号分类。选择图像类别标号中的哪些层级作为输出类别根据具体的分类模型设计和分类效果确定。

在本发明中，训练样本集中样本只给定图片标号、不标注目标位置。只需要标注图片标号，无需标注目标的具体位置，方法的可行性和实用性大大提高。

获取样本数据后进行预处理，所述预处理包括重置图像分辨率和归一化处理。其中，重置图像分辨率是将所有样本图像分辨率调整为相同像素大小，例如对于输入VGG16网络的图像，将所有图像的分辨率调整为256*256像素大小，再裁剪为224*224像素大小。

本发明S3)中，将训练样本集中的样本输入到构建的分类和定位网络中进行多尺度的目标特征提取，各层输出对应各相应类别的激活图及其属于各相应类别的概率，得到各层分类结果。

各层得到的分类误差可用于衡量网络分类的优化程度，但是训练过程中得到的各层的定位结果对后续网络定位优化无明确的指导意义，这是由于训练样本集中的样本不带有目标位置标注。虽然如此，但是网络分层的结构本身即对定位具有增强意义。

层次分歧激活倾向于通过融合来自多个类的互补语义来激活整个对象范围，但是不考虑针对单个类对象的激活映射的空间互补。因此，本发明进一步提出了差异性分歧激活来聚合视觉部分，如图4所示。

为了实现差异性分歧激活的目的，将差异性分歧激活模块与步骤S1中构建的分类和定位网络融合：在网络结构上，将内核大小为1*1的卷积层的通道数变为该层对应的预测类别总数C×K个，进而在正向传播过程中将每层对应于单个类别的单个类激活图扩展为K个激活图；在实现方式上，利用相似度(优选余弦相似度)计算层间和层内激活结果(激活图)两两之间的相似性，并约束使其最小，达到差异性分歧激活的目的。

例如对于第c类，我们引入差异性分歧激活损失，以便K个激活图尽可能彼此不一致。这相当于最小化激活图之间的相似性，使得第c类的激活图彼此间最不相似。如果激活图发现对象的一个部分，则其他的激活图将被强制激活其他空间专有部分。这意味着每两个激活图发现的视觉部分彼此不同，并且图上的激活区域是互补的。

差异性分歧激活的损失计算公式如下：

通过计算各类别各目标表示的余弦相似度来约束激活结果，其中，

和

分别表示输入图像对于类别c的第k和k’张激活图，

表示两张激活图

之间的余弦相似性。

在一种优选的实施方式中，对于每一种类别，输出相同数量的目标表示激活，即各类别输出的激活图的数目K相等，可以通过调整该表示的数量，来达到神经网络表达能力与计算资源的最优权衡。

在本发明中，如图5所示，利用层次分歧激活模块，学习每个类别(A1或A2)的具有辨别力的视觉部分是统一的。父类(A)可以学习跨越特征空间的视觉部分，这种视觉部分被子类(A1或A2)忽略，因为它们对子类而言是不具有辨别力的。利用差异性分歧激活模块，丰富了每个类(A1或A2)学习的辨别性视觉部分，因为差异约束驱动学习用于图像分类的不同且有判别力的特征图。因此，本发明构建的分歧网络增强了用于图像分类和对象定位功能的特征的表示能力，为弱监督目标定位问题提供了新的见解。

从集成学习的角度来看，分歧网络实际上组装了多个有差异的学习器。将每个激活图作为图像分类和对象定位的学习器，层次分歧激活模块在语义空间中实现分层集合，而差异性分歧激活模块在特征空间中实现并行集合。

在本发明S4中，设计损失函数，根据损失函数计算梯度，对整个卷积层网络进行梯度反传，并更新卷积层网络参数。

对于仅融合层次分歧激活模块的分类和定位网络而言，根据不同层次的标号预测的执行度即各层次的分类置信度结果，构造损失函数，根据损失函数计算梯度，对整个卷积层网络进行梯度反传，并更新卷积层网络参数。

对于融合层次分歧激活模块和差异性分歧激活模块的分类和定位网络而言，根据不同层次的标号预测的执行度即各层次的分类置信度结果，构造分类损失函数；根据目标激活值即每层每个类别的K个激活图的相似度计算差异分歧损失函数；利用两种损失函数联合优化弱监督分类和定位网络。

对于分类置信度结果，从分类网络中提取类激活图，利用全局平均池化层对提取出的类激活映射图分类，得到该图像属于每个类别的概率，按类别分别将该概率结果聚合，得到图像对于每种类别的分类置信度结果。

设F∈R^P×P×N表示CNN的特征图，其中P指特征图的分辨率，N指信道编号。设

表示1×1卷积滤波器，其中c＝1,…C表示类别索引，k＝1,…K表示特征映射索引。类c的第k个激活图

由

计算得到。汇总激活图以产生单个类激活图，

其中，

表示输入图像对于类别c的第k张激活图在位置(i,j)的激活值，对于M*N大小的激活图，对其取全局平均，再对共K张激活图全局平均结果取平均，再经过softmax层得到类别置信度p_c。

在本发明中，联合优化损失公式表示为：

其中，α为模型参数，卷积神经网络训练的目标为找到合适的α使得联合优化的损失函数最小；λ为两种损失的平衡项。分类损失argmin_αL_C(α)使用交叉熵损失，y_c∈(0，1)表示该图像的标号是否为类别c，p_c为类别置信度；分歧损失argmin_αL_D(α)使用目标表示相似度S得到，将每一类的各目标表示两两计算其相似性，为保证训练的稳定性，此处采用随机选取K/2目标表示激活结果的策略，当网络朝着降低损失函数的方向优化，同类别的多个目标表示激活图相似性降低，最终得到分歧的目标表示激活图。

相应地，在步骤S5中，根据损失函数计算得到的分类误差、或者分类误差和同类别下激活图之间的相似性判定网络是否收敛。

本发明中，该基于分歧的弱监督目标分类和定位方法，还包括利用训练完成的分类和定位网络对未知图像(没有任何标注信息的图像)进行分类预测以及定位信息预测的过程，以融合层次分歧激活模块和差异性分歧激活模块的网络作为测试网络，具体步骤如下：

S6.1)：将给定的未知图像输入训练好的分类和定位网络；

S6.2)：根据最深层上各类别的分类置信度得分得到预测的分类结果；

融合差异激活结果(层内)和各层次(层间)的分类激活结果(激活图)，得到最终的目标激活图，将激活图缩放到原图尺寸以确定其在原图上的激活区域，该激活区域的最小包围框即为弱监督定位结果。

在一种优选的实施方式中，根据各类别的分类置信度结果p_c得到预测的分类类别c₀，并选取该类别的多种目标表示(K张激活图)

为得到更好的目标定位结果，在多种目标表示融合之前，在每种激活表示上添加ReLu层来忽略背景信息，上采样至原图大小，再通过点对点相加的形式得到最终的激活结果，其形式如：

本发明可以得到较为完整的目标区域，即选取合适的阈值得到激活区域的最小包围框即为框定位结果；但同时满足点定位需求，对于弱监督点定位任务，可以选取激活结果上激活值最大的点作为点定位结果。

实施例

实施例1

1、数据库和样本分类

分歧网络在常用的CUB-200-2011和ILSVRC2016数据集上进行评估。CUB-200-2011包含11,788幅200种鸟类图像，其中5,994张用于训练，5,794张用于测试。根据生物分类学，我们将200种鸟类划分为三级层次，其中包括122个属，37个科和11个目。对于ILSVRC2016，我们使用了120万张图像和1,000个类进行训练，并在验证集中使用了5,000张图像进行测试。我们应用与ILSVRC 2016数据集一起出现的现成类别层次结构。例如，“狗”、“猫”和“兔子”被分组为父类“动物”，“椅子”和“桌子”被分组为父类“家具”。

分类和定位网络的构建：将分歧激活模块与VGGnet和GoogLeNet集成在一起，包括VGGnet和GoogLeNet：删除了VGG-16网络及GoogLeNet最后一层卷积层后的池化层和所有的全连接层；最后三层卷积层均作为特征输出层，其后各依次添加两个卷积层，内核大小为3*3，步幅为1的卷积层，内核大小为1*1，步幅为1的卷积层，三个特征输出层中内核大小为1*1的卷积层的通道数为该层对应的预测类别总数C。最后各特征输出层再通过全局平均池化层(GAP)和一个softmax回归层，得到构建后的分类和定位网络。

如图2所示，可以在GAP层之前从特征图方便地获得差异激活图。输入图像的大小重新调整大小为256*256像素后，被随机裁剪为224*224像素。

2、性能评测准则

2.1分类性能评测准则

两个指标用于弱监督目标定位性能评估。第一个是框定位正确率度量：图像标签分类预测正确并且与真实标签的IoU大于50％，与其相对的是定位错误率(计算方法为1减定位正确率，也就是分类错误或IoU小于50％的样例所占比例)。第二个是正确定位(CorLoc)率，它表示给定每个测试图像的类别标签的定位性能，仅考虑定位是否准确，不考虑图像标签分类是否正确。

本发明设置两个分类评价指标：Top1分类错误率和Top5分类错误率。

Top1分类错误率指输出分类得分排名第一的预测类别是错误的测试图像占全部测试图像的百分比。Top5分类错误率指输出分类得分排名前五的预测类别中全部错误类别的测试图像占全部测试图像的百分比。

本发明还设置两个定位评价指标：Top1定位错误率和Top5定位错误率。

Top1定位错误率：若测试图像输出分类得分排名第一的分类结果和定位结果其中一个错误，则认为测试图像中的目标定位错误。目标定位错误的图像占全部测试图像的百分比即为Top1定位错误率。

Top5定位错误率：若测试图像输出分类得分排名前五的分类结果和定位结果全部预测错误，则认为测试图像中的目标定位错误。目标定位错误的图像占全部测试图像的百分比即为Top5定位错误率。

3、实验结果与分析

3.1分类和定位性能

基于VGGnet网络和GoogLeNet网络的分歧学习网络模型在CUB-200-2011测试集上进行试验验证。结果如表1所示，其中WDNet表示本发明提出的弱监督分歧网络。

表1分歧学习弱监督定位方法在CUB数据集上实验结果

由表1可知，本发明在CUB数据集上表现良好，VGGnet网络下分类任务Top1错误率为24.6％，定位任务Top1错误率为47.48％，正确定位率为67.7％；GoogLeNet网络下分类任务Top1错误率为28.8％，定位任务Top1错误率为50.55％，正确定位率为67.03％；正确定位率消除了来自图像分类的干扰，该度量可以明确的反映定位性能。

3.2分类和定位性能对比(基于CUB-200-2011测试集)

使用目前已有的弱监督目标定位方法CAM(累激活映射图)、SPG(自生产指导)、ACoL(对抗性擦除)等方法进行测试。采用CUB-200-2011测试集，评估网络分类错误率和定位错误率性能。

CAM在文献“B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba.Learningdeep features for discriminative localization.In Proc.IEEEInt.Conf.Comput.Vis.Pattern Recognit.(CVPR),pages 2921–2929,2016.”中提出。

SPG在文献“X.Zhang,Y.Wei,G.Kang,Y.Yang,and T.Huang.Selfproducedguidance for weakly-supervised object localization.InProc.Europ.Conf.Comput.Vis.(ECCV),pages597–613,2018.”中提出。

ACoL在文献“X.Zhang,Y.Wei,J.Feng,Y.Yang,and T.Huang.Adversarialcomplementary learning for weakly supervised object localization.In Proc.IEEEInt.Conf.Comput.Vis.Pattern Recognit.(CVPR),pages 1325–1334,2018.”中提出。

对比实验结果如表2所示。

表2弱监督定位方法在CUB上对比实验结果

在具有VGGnet主干的CUB-200-2011测试集上，WDNet比对抗性擦除方法ACoL在top-1/top-5定位错误率性能上降低了6.60％/5.45％，在top-1分类错误率性能上降低了3.5％。与自生产指导(SPG)方法相比，WDNet的top-1/top-5定位误差降低3.59％/4.11％，分类性能降低了0.1％。使用GoogLeNet骨干网，WDNet比最先进的SPG方法定位性能提升了2.81％/2.74％。

3.3分类和定位性能对比(基于ILSVRC2016测试集)

使用目前已有的弱监督目标定位方法CAM(累激活映射图)、SPG(自生产指导)、ACoL(对抗性擦除)、Backprop、GMP、Has-32等方法进行测试。采用ILSVRC2016验证集，评估网络分类错误率和定位错误率性能。

Backprop在文献“K.Simonyan,A.Vedaldi,and A.Zisserman.Deep insideconvolutional networks:Visualising image classification models and saliencymaps.In ICLR,2014.”中提出。

GMP在文献“B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba.Learningdeep features for discriminative localization.In Proc.IEEEInt.Conf.Comput.Vis.Pattern Recognit.(CVPR),pages 2921–2929,2016.”中提出。

Has-32在文献“K.Kumar Singh and Y.Jae Lee.Hide-and-seek:Forcing anetwork to be meticulous for weakly-supervised object and actionlocalization.In Proc.IEEE Int.Conf.Comput.Vis.(ICCV),pages 3524–3533,2017.”中提出。

对比实验结果如表3所示。

表3弱监督定位方法在ILSVRC2016上对比实验结果

在大规模的ILSVRC数据集中，可以看出带有GoogLeNet主干的WDNet与最先进的ACoL方法相比，同时提高了分类和定位性能。它还报告了与最先进的SPG方法相当的性能。这验证了所提出的联合优化框架优先于比较方法中采用的步进优化方法。

3.4正确定位率对比(基于CUB-200-2011测试集)

使用目前已有的弱监督目标定位方法CAM(累激活映射图)、SPG(自生产指导)、ACoL(对抗性擦除)、TSC、Friend or Foe等方法进行测试。采用CUB-200-2011测试集，样本分类同实施例1，评估正确定位率指标。对比实验结果如表4所示。

表4弱监督定位方法在CUB上正确定位率对比实验结果

方法	正确定位率
		GoogLeNet-CAM	55.1
GoogLeNet-Friend or Foe	56.51
		GoogLeNet-WDNet(本发明)	67.03
VGGnet-ACoL	54.1
		VGGnet-CAM	56.0
VGGnet-SPG	58.9
		VGGnet-TSC	65.5
VGGnet-WDNet(本发明)	67.7

在表4中，我们评估了CUB-200-2011测试集上的正确定位率性能。通过消除来自图像分类的干扰，该度量可以明确地反映定位性能。可以看出，具有VGGnet骨架的WDNet分别比ACoL和SPG性能上提高了13.6％(67.7％对54.1％)和8.8％(67.7％对58.9％)，它还显著优于其他最先进方法。具有GoogLeNet骨架的WDNet分别比CAM和Friend or Foe性能上提高了11.93％(67.03％对55.1％)和10.52％(67.03％对56.51％)。

实验例

实验例1

针对网络中的层次分歧激活模块和差异性分歧激活模块(差异分歧)以及提出的正则化因子λ分别验证其有效性。

1)层次分歧激活模块和差异性分歧激活模块的影响

表5层次分歧激活模块和差异性分歧激活模块的影响

如表5所示，与基线CAM方法相比，层次分歧激活模块的引入减少了5.14％/4.36％的top-1/top-5定位错误率。在图6中，激活图的示例显示了层次分歧激活模块的影响。只有来自子类标签的监督，CAM倾向于激活对象部分，例如鸟头。通过引入的图像类别分级监督，激活图丰富了属于同一父类鸟类的共同视觉部分。例如，家族Warbler纤细的身体和类似的羽毛颜色被层次分歧激活模块激活，激活区域从鸟头发散到鸟的身体。层次分歧激活模块和差异性分歧激活模块的引入，相较于单独引入层次分歧激活模块虽然略微牺牲了分类性能，但定位性能得到提升；相较于基线CAM方法，减少了8.37％/9.80％的top-1/top-5定位错误率。

在表5中，“CAM+多重损失”是指在不使用分歧激活模块的情况下将相同的监督应用于图2中的网络的特征金字塔。可以看出“CAM+多损失”的分类错误率和定位错误率都大于基线CAM方法的大小。由此可见，简单地将CAM的骨干网络更新为功能金字塔网络并不一定能提高弱监督目标定位的性能。原因在于，没有分歧激活模块，特征金字塔上的CAM无法激活互补的视觉模式。

2)差异性分歧激活时类激活图扩展个数的影响

在图7a中，我们评估在不同数量(K)的差异激活图下的定位错误率。可以看出，适当数量的差异激活图(K＝8)产生最低的定位误差。差异激活图太少，即K＝4，很难产生足够的空间差异。差异激活图过多，即K>8，参数显着增加，这增加了过度拟合的风险。为了减轻学习其他参数的难度，我们在每个训练小批量中随机丢弃一半的差异激活图，这些操作被验证可以实现更高的性能和更快的网络收敛。

3)正则化因子λ的影响

arg_αmin{L_H(α)+λL_D(α)} 式(11)

在图7b中，我们评估正则化因子λ并且观察到K＝8，λ＝0.01时得到最佳性能。通过适当的参数，可以在差异激活图中发现互补的视觉模式，这些激活图的组合覆盖了整个对象范围，如图8所示。

实验例2特征输出层数量选择的影响

基于VGGnet网络的分歧学习网络模型在CUB-200-2011测试集上进行试验验证了特征输出层数量选择的影响。结果如下表6所示。

表6特征输出层数量对定位的影响

特征输出层数	定位错误率
		1	55.85
2	52.8
		3	50.71
4	51.34

在表6中可以看出，随着特征输出层数的增加，定位错误率整体在下降，这说明采用层次分歧激活模块可以有效地提高定位效果，而当特征输出层数从三层增加到四层时，定位结果出现下降，这是由于过浅的特征不足以辨别物体类别，从而影响了定位结果。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种基于分歧学习的弱监督目标分类和定位方法，该方法包括训练分类和定位网络用以进行目标分类和定位的过程，分类和定位网络的训练过程包括以下步骤：

S2，构建训练样本集；

S5，判定网络是否收敛或达到最大迭代次数，如果已经收敛或达到最大迭代次数，停止网络训练，否则回到S3继续实施网络的训练；

所述方法还包括将差异性分歧激活模块与步骤S1中构建的分类和定位网络融合的步骤：

在网络结构上，将内核大小为1*1的卷积层的通道数变为该层对应的预测类别总数C×K个，进而在正向传播过程中将每层对应于单个类别的单个类激活图扩展为K个激活图；

在实现方式上，利用相似度计算层间和层内激活结果两两之间的相似性，并约束使其最小，实施差异性分歧激活。

2.根据权利要求1所述的方法，其特征在于，在S1)中，融合层次分歧激活模块构建分类和定位网络的具体步骤包括：

选用卷积神经网络作为该分类和定位网络的主干，将卷积神经网络最后一层卷积层后的池化层和所有的全连接层删除，最后N层卷积层均作为特征输出层，其后各依次连接内核大小为3*3和1*1的卷积层，再通过全局平均池化层和一个softmax回归层，构建得到分类和定位网络。

3.根据权利要求1所述的方法，其特征在于，在S1)中，作为特征输出层的最后N层卷积层为主干网络的最后三层卷积层。

4.根据权利要求1所述的方法，其特征在于，在S1)中，各特征输出层中内核大小为1*1的卷积层的通道数为该层对应的预测类别总数C。

5.根据权利要求1所述的方法，其特征在于，在S2)中，

训练样本集中样本只给定图片标号、不标注目标位置；

对图像类别标号进行层次划分，使训练样本集中样本的图像类别标号具有父类-子类的层级结构。

6.根据权利要求1所述的方法，其特征在于，通过计算各类别各目标表示的余弦相似度来约束激活结果，差异性分歧激活损失计算公式如下：

其中，

和

分别表示输入图像对于类别c的第k和k’张激活图，

表示两张激活图

之间的余弦相似性。

7.根据权利要求1所述的方法，其特征在于，在S4中，对于仅融合层次分歧激活模块的分类和定位网络而言，根据不同层次的标号预测的执行度即各层次的分类置信度结果，构造损失函数，根据损失函数计算梯度，对整个卷积层网络进行梯度反传，并更新卷积层网络参数。

8.根据权利要求1所述的方法，其特征在于，S4中，对于融合层次分歧激活模块和差异性分歧激活模块的分类和定位网络而言，根据不同层次的标号预测的执行度即各层次的分类置信度结果，构造分类损失函数；根据目标激活值即每层每个类别的K个激活图的相似度计算差异分歧损失函数；利用两种损失函数联合优化弱监督分类和定位网络：

联合优化损失公式表示为：

其中，α为模型参数；λ为两种损失的平衡项，分类损失函数argmin_αL_C(α)使用交叉熵损失，y_c∈(0，1)表示该图像的标号是否为类别c，p_c为类别置信度；分歧损失函数argmin_αL_D(α)使用两张激活图的相似度S得到。

9.根据权利要求6至8之一所述的方法，其特征在于，该基于分歧的弱监督目标分类和定位方法，还包括利用训练完成的分类和定位网络对未知图像进行分类预测以及定位信息预测的过程，具体步骤如下：

S6.1)：将给定的未知图像输入训练好的分类和定位网络；

融合差异激活结果和各层次的分类激活结果，得到最终的目标激活图，将激活图缩放到原图尺寸以确定其在原图上的激活区域，该激活区域的最小包围框即为弱监督定位结果。