CN110796183A

CN110796183A - 基于相关性引导的判别学习的弱监督细粒度图像分类算法

Info

Publication number: CN110796183A
Application number: CN201910986800.8A
Authority: CN
Inventors: 王智慧; 王世杰; 李豪杰; 唐涛
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-14

Abstract

本发明属于计算机视觉技术领域，提供了一种基于相关性引导的判别学习的弱监督细粒度图像分类算法。提出了一种端到端的相关性引导的判别学习模型，以充分挖掘和利用弱监督细粒度图像分类的相关性提升判别性。首先，提出了判别性区域分组子网络，该子网络首先在区域之间建立相关性，然后通过加权汇总来自其他区域的所有相关性来增强每个区域来引导网络去发现更具有判别性区域组。最后，提出了判别性特征增强子网络，以挖掘和学习每个patch的特征向量元素之间的内部空间相关性，通过联合地增强信息元素同时抑制无用元素来提高其局部的判别能力。大量实验证明了DRG和DFS有效性，并达到了最先进的性能。

Description

基于相关性引导的判别学习的弱监督细粒度图像分类算法

技术领域

本发明属于计算机视觉技术领域，以提高细粒度图像分类准确性和效率为出发点，提出基于相关性引导的判别学习的弱监督细粒度图像分类算法。

背景技术

与一般的图像分类不同，弱监督的细粒度图像分类(WFGIC)仅使用图像级标签来识别更详细的类别和粒度下的对象。由于其在图像理解和计算机视觉系统中的大量潜在应用，WFGIC引起了学术界和工业界的广泛关注。WFGIC是计算机视觉领域的一个开放问题，这有两个原因。首先，属于同一子类别的图像在大小，姿势，颜色和背景上有很大差异，而不同子类别的图像在这些方面可能非常相似。其次，除了目标或部位注释之外，WFGIC仅提供图像级标签，这给提取有效的判别性特征以区分子类别之间的细微差异带来了更大的困难，

因为细粒度子类别图像之间的关键差异是细微的，且通常是局部的在对象的某些特定部分，最新的性能最佳的WFGIC系统致力于使用基于启发式方案或学习的方法查找局部判别性patch。首先使用显著性提取和共分割来定位对象，然后应用两个定义的空间约束从大量候选patch中选择可区分的部分。启发式方案的局限性在于它们不能保证所选patch足够有区别性。因此，最近的工作集中在设计端到端深度学习过程，以指导通过适当的损失函数自动发现有判别性的patch。然而，所有先前的工作都试图独立地找到判别性的区域/patch，仅利用了区域特征，而忽略了区域之间的相关性。我们认为，由于区域组合比单个区域更具描述性和判别性，因此使用这种相关性在区分细粒度图像方面非常有帮助。这促使我们将区域之间的相关性纳入判别性patch选择中。为此，我们提出了一种判别性区域分组(DRG)子网络，以对区域之间的相关性进行建模，并通过学习相关性来隐式发现对WFGIC更为强大的判别性区域组。图1显示了我们的动机，从(b)中我们可以看出，当独立地考虑每个区域时，头部和胸部更加突出。在考虑了相关性(c)之后，由于头尾组合可能更有效地将这种类型的禽类与其他子类别区分开，因此头和尾部的判别分数变大。

特征表示是WFGIC的另一个关键点。最近，一些工作通过端到端机制将CNN特征向量编码为高阶信息，以提高特征的判别能力。他们的方法之所以有效，是因为它们对物体的平移和姿势的不变性。因为特征向量基于无序方式的局部图像特征聚合，特征向量在设计上是平移不变性的。但是，这些方法忽略了内部空间相关性。此外，在判别性patch中还存在一些判别性或噪声较小的上下文内容，例如图1(d)(e)中的背景区域。这样的背景信息或较少的判别性信息可能对细粒度分类有害，因为所有子类别都具有相似的背景信息(例如，所有鸟类通常栖息在树上或在天空中飞翔)。基于以上直观但重要的观察和分析，我们提出了一种判别性特征增强子网络，以探索特征向量中判别元素之间的内部空间相关性，以获得更好的判别能力。我们通过联合学习特征向量元素之间的相互依赖性，并强调信息性元素同时抑制判别性较小的元素来实现这一目标

发明内容

本发明提出了一个基于相关性引导的判别学习的弱监督细粒度图像分类算法，如图2所示。

本发明的技术方案：

一种基于相关性引导的判别学习的弱监督细粒度图像分类算法，两个子网络：

(1)判别性区域分组(DRG)子网络

在该子网络中我们提出了一种新的方法去建立区域之间的联系。给定输入特征表示M_I∈R^C×H×W，我们建议将输入的特征表示输入到判别区域分组模块F中：

M_R＝f(M_I)， (1)

其中，F由三个区域生成层，一个关系层和一个融合层组成。M_R∈R^C×H×W，其中W，H表示特征表示的宽度和高度，C表示通道数。

区域生成层是通过简单的卷积运算和矩阵变换来计算的，如下所示：

M_T＝f(W_I·M_I+b_T)， (2)

其中W_T∈R^C×1×1×C和b_T分别是卷积层的学习权重参数和偏差向量。1×1是卷积核的大小。M_T∈R^C×H×W表示新特征图。具体来说，我们将1×1卷积滤波器视为小区域检测器。M_T的固定空间位置处的通道上的每个V_T∈R^C×1×1向量代表原始图像中相应位置的一个小区域。

为了获得区域之间的相关权重系数，我们引入了一个相关层去进行两个由上面生成层计算得来的特征图

和

的乘法域的比较。

让我们仅以两个位置的单个相关为例。将第一张特征图中的p₁和第二张特征图的p₂两个位置的相关性定义为

其中V₁和V₂分别表示不同特征图中的区域特征向量。在实际操作中，对于第一张特征图中的每个位置p₁，我们计算其与第二张地图中所有位置的相关性。

对于两个位置的每个组合，我们都获得一个相关值。具体来说，我们在通道中组织相对位移，并获得一个输出相关特征图M_C∈R^K×H×W，其中K＝W×H是输入特征图的区域。然后，M_C经过softmax层以生成判别性相关权重图R∈R^K×H×W：

在正向传播的过程中，区域的判别性越高，它们之间的相关性就越大。对于反向传播，我们相应地针对每个bottom blob进行求导。当分类的概率值较低时，惩罚将被反向传播以降低两个区域的相关性权重，并且同时更新通过区域生成层计算出的特征表示。

接下来，我们将由第三个区域生成器层生成的特征向量和相关性权重图R输入融合层f中：

其中是

的w^th行和wh^th列的向量，R^ijk是第i^th行第j^th列第k^th通道的权重系数。在M_F中第i^th行第j^th列的向量

可以通过将所有位置向量与相应的相关性系数进行组合来计算，其中特征图

与相关性权重系数图R之间的索引映射关系是k＝(w-1)×W+h。这样一来，便考虑了区域聚集的判别能力。

收到ResNet的启发，我们提出了残差学习：

M_R＝α·M_F+M_I， (7)

其中α是自适应权重参数，并逐渐训练学习为判别性相关特征分配更多权重。它的范围是[0，1]，初始化值大约为0。M_R包含自适应判别性相关特征和原始输入特征，以挑选出更多判别性patch。集成全局语义信息和局部细节信息可带来更稳定的性能。

(2)挑选判别性patch

在这项工作中，我们根据目标检测的启发，从三个不同尺度的特征图生成默认patch。不同层的特征图具有不同的感受野(RF)。我们根据每个特征图的相应RF精心设计了patch的尺度大小，缩放步长和纵横比，以使不同的特征图可以对不同大小的判别区域负责。

让我们仅以特征图M_R为例。我们将残差特征M_R输入评分层。具体来说，我们添加一个1×1×N卷积层和一个sigmoid函数σ来学习判别性概率图S∈R^K×H×W，这表明的是判别性区域对最终分类结果的影响。

S＝σ(W_s·M_R+b_S)， (8)

其中W_S∈R^C×1×1×N是卷积核的参数，N是特征图M_R中给定位置的默认patch数，b_S表示偏差。

同时，我们将判别性概率值分配给每个默认patch记为p_i,j,k。每个patch有其默认坐标(t_x，t_y，t_w，t_h)和判别性概率值s_i,j,k，其中s_i,j,k表示第i^th行第j^th列第k^th通道的值：

p_i,j,k＝[t_x，t_y，t_w，t_h，s_i,j,k]， (9)

最后，网络选择出具有判别性概率值的前M个patch，其中M是超参数。

(3)判别性特征增强(DFS)子网络

所选patch通常包含噪声，因此提取的特征往往包含非判别性信息。同时，大多数当前的工作直接从CNN的输出中形成区域的特征表示，很少考虑特征向量中的空间相关性。为了解决上述问题，我们提出了一种判别性特征增强子网络，以挖掘和利用特征向量元素之间的相关性，它由一个特征感知过滤层和一个增强层组成。特征感知过滤层旨在生成全局过滤器，用来通过将特征向量中的负值取反这样的非线性运算过滤掉无用的信息。增强层用于通过使用特征向量中判别性元素间的加权之和来自适应学习相互依赖关系，以提高特征向量的判别能力。

我们将特征向量V'_P∈R^C×1输入到特征感知过滤层中去过滤掉无用信息，如下所示：

V_P＝ReLU(BN(W*V'_P+b_P)) (10)

其中W_P和b_P是线性层的权重矩阵和偏差，BN和ReLU表示批次归一化和线性校正单元(ReLU)函数。V^～ _P∈R^C×1表示过滤后的判别性特征向量。

然后，我们将V^～ _P输入到增强层。具体来说，判别性元素的相互依赖得分图S_E∈R^C×C是通过V^～ _P和V^～ _P的转置之间的矩阵乘法运算生成，如下所示：

其中σ是用于归一化的softmax函数。

是归一化之前的第i^th个判别性元素与第j^th判别性元素之间的相互依赖关系，

代表归一化之后第i^th个判别性元素与第j^th判别性元素之间的相互依赖关系；任何两个元素之间的判别值越大，它们的相互依存关系就越强。

接下来，我们通过patch特征向量V^～ _P和相互依赖性评分图S^～ _E之间的矩阵乘法运算提高特征向量的判别能力:

V＝V^～ _P⊙S^～ _E (12)

考虑特征向量的判别性元素之间的内部空间相互依赖关系，可以增强信息元素而抑制作用较小的元素。我们还引出了残差学习机制以保证网络的鲁棒性：

V^～＝β·V+V_P， (13)

其中β是从0逐渐学习并通过反向传播进行调整以达到准确值的一个权重。V^～包含增强的特征向量V和用于最终分类的原始输入特征向量V_P。

(4)损失函数

完整的多任务损失函数L可以表示为：

其中代表细粒度分类损失。

和

分别表示引导损失，相关损失和等级损失。这些损失之间的平衡由超参数λ₁，λ₂，λ₃控制。经过多次实验验证，我们设置参数λ₁＝λ₂＝λ₃＝1。

我们将选定的判别性patch表示为P＝{P₁，P₂，...，P_N}，并将相应的判别概率分数表示为S＝{S₁，S₂，...，S_N}。然后，将引导损失和相关损失以及等级损失定义如下：

其中X是原始图像，函数C是反映分类为正确类别的概率的置信度函数，P_c是所有选定patch特征的串联。

引导损失函数的目的是引导网络选择更判别性的区域。当所选区域的预测概率值低于整个图像的预测概率值时，网络将受到惩罚并通过反向传播进行权重调整。相关损失函数可以保证组合特征的预测概率大于单个patch特征的预测概率。等级损失以同等顺序激励判别分数和最终分类概率值，尽力使所选patch的两者保持一致。

本发明的有益效果：

(1)据我们所知，我们是第一个探索并利用判别性区域与特征向量元素之间的相关性，来提高区域及其代表对WFGIC的区分能力的方法。

(2)我们提出了一种端到端的相关性引导的判别学习(CDL)模型，该模型将判别性区域分组和判别特征增强加入到一个统一的框架中，从而可以高效联合地学习两个层级的相关性。

(3)我们在具有挑战性Caltech-UCSD Birds-200-2011上评估了我们提出的方法。实验结果表明，该方法在分类精度和效率上均达到了最佳性能。特别是与之前的最好技术相比，我们的方法实现了约1.4％的精度提升，以及12FPS的运行速度加快。

附图说明

图1为本发明提出的相关性引导判别学习方法的动机说明图。

图2为本发明提出的相关性引导的判别学习(CDL)模型的网络框架图。

图3为本发明提出的判别性区域分组的说明图。

图4为本发明提出的判别特征增强的说明图。

图5为本发明的区域相关性的可视化结果，(a)是原始图像。(b)(c)(d)(e)表示特定位置的区域与所有其他区域之间的相关性。

图6为本发明的判别性区域分组的可视化中间结果，(a)是原始图像。(b)指示相关性聚合特征图。(c)表示残差特征图。(d)是定位结果。

图7为本发明的有无区域相关性对比的可视化定位结果，(a)是原始图像。(b)(c)分别是在没有相关性和有相关性的情况下通过评分阶段的区分性得分图。(d)(e)是分别不具有相关性和具有相关性的定位结果。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面对本发明的具体实施方式作进一步的详细描述。

数据集：实验评估是在两个基准数据集上进行的：Caltech-UCSD Birds-200-2011和Stanford Cars，它们是用于细粒度图像分类的广泛使用的竞赛数据集。CUB-200-2011数据集涵盖200种鸟类，并包含11788个鸟类图像，这些图像分为5994张图像的训练集和5794张图像的测试集。斯坦福汽车数据集包含196个类别的16,185张图像，每个类别约有50个分组。

实施细节：在我们所有的实验中，所有图像的大小均调整为448×448。我们使用全卷积网络ResNet-50作为特征提取器，并应用“批量归一化”作为正则化器。我们优化器使用初始学习率为0.001的Momentum SGD，并在每60个epoch后乘以0.1。我们将权重衰减率设为1e-4。为了减少patch冗余，我们基于默认patch的判别性得分对默认patch采用非最大抑制(NMS)，并将NMS阈值设置为0.25。

消融实验：我们方法的主要优点是根据区域之间的相关性选择更具判别性的patch，并通过挖掘特征向量中判别性元素的相互依赖关系来增强特征向量。我们进行了一些消融实验，以说明我们提出的模块的有效性，包括判别性区域分组和判别性特征增强的影响。

首先，我们通过Resnet-50从整个图像中提取特征，不进行任何对象或部分注释来进行细粒度分类，并将其设置为基线。然后，我们选择默认patch作为本地特征以提高分类准确性。但是，大量的冗余默认patch导致分类速度低。当我们引入评分机制以仅保留具有高度判别性的patch并将patch的数量减少到个位数时，CUB-200-2011数据集的top-1分类准确性提高了0.6％，并以50fps的速度实现了实时分类。此外，我们考虑到区域聚集的判别能力后，分类精度又提高了1.3％。最后，我们引入了特征感知过滤器，并挖掘了特征向量值的相互依赖性，分类精度达到了88.4％的最新结果。我们还分析了DFS中的特征感知过滤器，并证明了其在没有增加额外计算成本下带来的有效性。结果报告在表2中。消融实验表明，我们所提议的网络确实已经学习到了判别性区域，过滤了无用的信息并增强了判别性特征值，有效地提高了准确性。

表2本发明方法的不同变种的消融实验的识别结果

定性比较：准确度比较：我们的比较集中在弱监督方法上，因为提出的模型仅使用图像级注释，而不使用任何对象或部位注释。在表3和表4中，我们分别显示了不同方法在CUB-200-2011数据集和Stanford Cars-196数据集上的性能。在每个表的自上而下，方法分为六组，分别是(1)有监督的多级方法，(2)弱监督的多级框架，(3)弱监督的端到端特征编码，(4)端到端定位分类子网络，(5)其他方法(例如强化学习，知识表示)和(6)我们的CDL。

表3在CUB-200-2011上的不同方法的比较

表4在Stanford Cars-196上的不同方法的比较

早期的多阶段方法通常可以依赖对象甚至部位注释，因此可以获得较好的结果。但是，使用对象或部位批注会限制性能，原因是批注仅给出坐标而不是实际的判别性区域信息。弱监督的多阶段框架通过挑选判别性区域逐渐击败了强有力的监督方法。端到端特征编码方法通过将CNN特征向量编码为高阶信息而具有良好的性能，同时又导致较高的计算成本。尽管定位分类子网络可以在各种数据集上很好地工作，但是它们仍然缺乏判别区域之间的相关性。由于使用了额外的信息(例如，语义嵌入)，其他方法也获得了良好的性能。我们的端到端CDL方法无需任何额外注释即可实现最佳效果，并在各种数据集上均具有一致的性能。

我们的方法在第一组中优于这些强大的监督方法，这表明所提出的方法可以在没有任何监督注释的情况下找到判别性patch。与其他弱监督方法相比，我们所提出的方法可以达到最好的性能。提出的CDL在CUB上的性能要比KERL高出1.4％，这是因为我们可以从全局图像级别和局部区域级别进行区域表示，编码了更丰富的信息。DT-RAM使用强化学习来选择准确的判别性区域，而我们通过学习区域之间的相关性并挖掘特征向量中元素的相互依赖关系以强调信息性元素并抑制无用元素来挑选出更多的判别性patch，表现比DT-RAM更出色，准确率在CUB上提升了2.4％，在汽车上提升了1.1％。

速度比较：我们以批处理大小8测量速度在Titan X显卡上进行实验。表4显示了与其他方法的比较。WSDL还应用了多尺度特征来生成patch，并通过检测分数选择patch。虽然我们是根据判别得分图选择了2个判别patch，但在速度和准确性上均胜过其他方法。当我们将判别patch数从2增加到4时，所提出的模型可以达到最先进的分类精度，而且可以保持40fps的实时性。

表5在CUB-200-2011上不同方法的效率和有效性的对比

定量分析：为了更好地说明区域之间相关性的影响，我们将图5中的相关权重系数图可视化。相关系数图表示某个固定区域与所有区域之间的相关性。我们可以观察到，通过联合学习的特征图倾向于注意一些固定区域(突出显示的区域)。区域越有判别性，它们的相关性就越大。最具判别性的区域在聚集过程中占据较高的比例。

如图6所示，我们可视化了通过权重和的运算和残差特征图组合所有区域而得到的相关性聚合特征图。残差特征图是通过将原始特征图和相关性聚合特征图融合而获得的。原始特征映射了对判别性区域的特定大小的响应，并着重于多个局部细节。相关性聚合特征图具有全局视图，注意于最有判别性的区域。残差特征图同时包含局部详细信息和全局判别性信息，以实现稳定的性能。

为了说明判别性区域分组模块的有效性，我们在图7中可视化了带有和不带有判别性区域分组子网络的判别得分图。我们可以看到，没有关联阶段的判别得分图仅关注在一个判别性区域上，选择的patch集中在其临近的区域。但是，我们的判别性区域分组子网络可以注意到多个有效区域，如图7(c)所示。为了更直观地呈现图像，我们在原始图像中显示出定位结果。可以观察到，所选patch集中在几个不同的区域，因此导致区域聚集特征更具判别性。

本发明的方法中，提出了CDL方法用于弱监督的细粒度图像分类，该方法将判别性区域分组子网络和判别性特征增强子网络共同集成到一个统一的框架中。判别性区域分组子网络可以学习区域之间的相关权重系数，以指导发现判别性patch，而判别性特征增强子网络可以挖掘特征向量中内部判别元素之间的相互依赖性，从而增强信息元素和抑制无用元素。实验表明，我们的方法在两个细粒度的图像数据集上均具有一致的改进结果。我们实现了最先进的准确性和42fps的实时速度。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于相关性引导的判别学习的弱监督细粒度图像分类算法，其特征在于，两个子网络：

(1)判别性区域分组DRG子网络

在该子网络中提出一种新的方法去建立区域之间的联系；给定输入特征表示M_I∈R^C ^×H×W，将输入的特征表示输入到判别区域分组模块F中：

M_R＝f(M_I)， (1)

其中，F由三个区域生成层、一个关系层和一个融合层组成；M_R∈R^C×H×W，其中W，H表示特征表示的宽度和高度，C表示通道数；

区域生成层是通过卷积运算和矩阵变换来计算的，如下所示：

M_T＝f(W_I·M_I+b_T)， (2)

其中，W_T∈R^C×1×1×C和b_T分别是卷积层的学习权重参数和偏差向量；1×1是卷积核的大小；M_T∈R^C×H×W表示新特征图；具体来说，将1×1卷积滤波器视为小区域检测器；M_T的固定空间位置处的通道上的每个V_T∈R^C×1×1向量代表原始图像中相应位置的一个小区域；

为了获得区域之间的相关权重系数，引入一个关系层去进行两个由区域生成层计算得来的特征图

和

的乘法域的比较；

两个位置的单个相关：将第一张特征图中的p₁和第二张特征图的p₂两个位置的相关性定义为

其中，V₁和V₂分别表示不同特征图中的区域特征向量；在实际操作中，对于第一张特征图中的每个位置p₁，计算其与第二张地图中所有位置的相关性；

对于两个位置的每个组合，都获得一个相关值；具体来说，在通道中组织相对位移，并获得一个输出相关特征图M_C∈R^K×H×W，其中K＝W×H是输入特征图的区域；然后，M_C经过softmax层以生成判别性相关权重图R∈R^K×H×W：

在正向传播的过程中，区域的判别性越高，它们之间的相关性就越大；对于反向传播，相应地针对每个bottom blob进行求导；当分类的概率值较低时，惩罚将被反向传播以降低两个区域的相关性权重，并且同时更新通过区域生成层计算出的特征表示；

接下来，将由第三个区域生成器层生成的特征向量和相关性权重图R输入融合层f中：

其中，是

的w^th行和wh^th列的向量，R^ijk是第i^th行第j^th列第k^th通道的权重系数；在M_F中第i^th行第j^th列的向量

通过将所有位置向量与相应的相关性系数进行组合来计算，其中特征图与相关性权重系数图R之间的索引映射关系是k＝(w-1)×W+h；

提出残差学习：

M_R＝α·M_F+M_I， (7)

其中，α是自适应权重参数，并逐渐训练学习为判别性相关特征分配更多权重；α的范围是[0，1]，初始化值为0；M_R包含自适应判别性相关特征和原始输入特征，以挑选出更多判别性patch；

(2)挑选判别性patch

根据目标检测，从三个不同尺度的特征图生成默认patch；不同层的特征图具有不同的感受野RF；根据每个特征图的相应RF设计patch的尺度大小，缩放步长和纵横比，以使不同的特征图对不同大小的判别区域负责；

对于特征图M_R，将残差特征M_R输入评分层；具体来说，添加一个1×1×N卷积层和一个sigmoid函数σ来学习判别性概率图S∈R^K×H×W，表明的是判别性区域对最终分类结果的影响；

S＝σ(W_s·M_R+b_S)， (8)

其中，W_S∈R^C×1×1×N是卷积核的参数，N是特征图M_R中给定位置的默认patch数，b_S表示偏差；

同时，将判别性概率值分配给每个默认patch记为p_i,j,k；每个patch有其默认坐标(t_x，t_y，t_w，t_h)和判别性概率值s_i,j,k，其中s_i,j,k表示第i^th行第j^th列第k^th通道的值：

p_i,j,k＝[t_x，t_y，t_w，t_h，s_i,j,k]， (9)

最后，网络选择出具有判别性概率值的前M个patch，其中M是超参数；

(3)判别性特征增强DFS子网络

一种判别性特征增强子网络，以挖掘和利用特征向量元素之间的相关性，由一个特征感知过滤层和一个增强层组成；特征感知过滤层旨在生成全局过滤器，用来通过将特征向量中的负值取反；增强层用于通过使用特征向量中判别性元素间的加权之和来自适应学习相互依赖关系；

将特征向量V'_P∈R^C×1输入到特征感知过滤层中去过滤掉无用信息，如下所示：

V_P＝ReLU(BN(W*V'_P+b_P))(10)

其中，W和b_P是线性层的权重矩阵和偏差，BN和ReLU表示批次归一化和线性校正单元函数；V^～ _P∈R^C×1表示过滤后的判别性特征向量；

然后，将V^～ _P输入到增强层；具体来说，判别性元素的相互依赖得分图S_E∈R^C×C是通过V^～ _P和V^～ _P的转置之间的矩阵乘法运算生成，如下所示：

其中σ是用于归一化的softmax函数；

代表归一化之后第i^th个判别性元素与第j^th判别性元素之间的相互依赖关系；任何两个元素之间的判别值越大，它们的相互依存关系就越强；

接下来，通过patch特征向量V^～ _P和相互依赖性评分图S^～ _E之间的矩阵乘法运算提高特征向量的判别能力：

V＝V^～ _P⊙S^～ _E(12)

考虑特征向量的判别性元素之间的内部空间相互依赖关系，增强信息元素而抑制作用较小的元素；还引出了残差学习机制以保证网络的鲁棒性：

V^～＝β·V+V_P，(13)

其中，β是从0逐渐学习并通过反向传播进行调整以达到准确值的一个权重；V^～包含增强的特征向量V和用于最终分类的原始输入特征向量V_P；

(4)损失函数

完整的多任务损失函数L表示为：

其中，

代表细粒度分类损失；和

分别表示引导损失、相关损失和等级损失；这些损失之间的平衡由超参数λ₁，λ₂，λ₃控制；经过多次实验验证，设置参数λ₁＝λ₂＝λ₃＝1；

将选定的判别性patch表示为P＝{P₁，P₂，...，P_N}，并将相应的判别概率分数表示为S＝{S₁，S₂，...，S_N}；然后，将引导损失和相关损失以及等级损失定义如下：

其中，X是原始图像，函数C是反映分类为正确类别的概率的置信度函数，P_c是所有选定patch特征的串联；

引导损失函数的目的是引导网络选择更判别性的区域；当所选区域的预测概率值低于整个图像的预测概率值时，网络将受到惩罚并通过反向传播进行权重调整；相关损失函数保证组合特征的预测概率大于单个patch特征的预测概率；等级损失以同等顺序激励判别分数和最终分类概率值，尽力使所选patch的两者保持一致。