CN111062438A - 基于相关学习的图传播的弱监督细粒度图像分类算法 - Google Patents
基于相关学习的图传播的弱监督细粒度图像分类算法 Download PDFInfo
- Publication number
- CN111062438A CN111062438A CN201911303397.0A CN201911303397A CN111062438A CN 111062438 A CN111062438 A CN 111062438A CN 201911303397 A CN201911303397 A CN 201911303397A CN 111062438 A CN111062438 A CN 111062438A
- Authority
- CN
- China
- Prior art keywords
- discriminative
- correlation
- feature
- node
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007635 classification algorithm Methods 0.000 title claims abstract description 7
- 239000013598 vector Substances 0.000 claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000004807 localization Effects 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 238000002679 ablation Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 241000269799 Perca fluviatilis Species 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- RYYVLZVUVIJVGH-UHFFFAOYSA-N trimethylxanthine Natural products CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,一种基于相关学习的图传播的弱监督细粒度图像分类算法。在判别区域定位阶段,提出了一个交叉图传播子网络以学习区域相关性,该方法建立区域之间的相关性,然后通过交叉加权其他区域的方法来增强每个区域。通过这种方式,每个区域的表示是同时对全局图像级上下文和局部空间上下文进行的编码,因此可以指导网络隐式发现对于WFGIC更有力的判别性区域组。在判别性特征表示阶段,提出了相关特征加强子网络,以探索判别性patch的特征向量间的内部语义相关性,通过迭代增强信息元素同时抑制无用元素来提高其判别能力。
Description
技术领域
本发明属于计算机视觉技术领域,以提高细粒度图像分类准确性和效率为出发点,提出基于相关学习的图传播的弱监督细粒度图像分类算法。
背景技术
作为一个新兴的研究主题,弱监督细粒度图像分类(WFGIC)专注于判别性细微差异,其仅使用图像级标签来区分子类别的对象。由于同一子类别中的图像之间的差异细微,拥有几乎相同的整体几何形状和外观,因此区分细粒度图像仍然是一项艰巨的任务。
在WFGIC中,学习如何从细粒度图像中定位判别性部分起着关键作用。最近的工作可以分为两组。第一组是基于启发式方案来定位判别性部分。启发式方案的局限性在于,它们很难保证所选区域具有足够的判别性。第二类是通过学习机制进行的端到端本地化分类方法。但是,所有先前的工作都试图独立地定位判别性区域/patch,而忽略了区域的局部空间上下文以及区域之间的相关性。
利用局部空间上下文可以提高区域的判别能力,而且挖掘区域之间的相关性比单个区域更具判别性。这启发将区域的局部空间上下文和区域之间的相关性纳入判别性patch选择中。为此,提出了一个交叉图传播(CGP)子网络,以学习区域之间的相关性。具体而言,CGP以交叉方式迭代计算区域之间的相关性,然后通过对其他区域进行相关权重加权来增强每个区域。通过这种方式,每个区域的特征都是对全局图像级上下文进行编码,即整个图像中聚合区域和其他区域之间的所有相关性,以及局部空间上下文,即该区域越靠近聚合区域,交叉图传播期间的聚合频率越高。在CGP中通过学习各区域之间的相关性,可以指导网络隐式发现对WFGIC更有效的判别性区域组。图l显示了的动机,当独立考虑每个区域时,可以看到得分图(图l(b))突出显示了头部区域,而得分图(图l(d))在交错图传播的多次迭代之后加强了最具判别性的区域,这有助于对判别性区域组(头部和尾部区域)进行精确定位。
判别性特征表示对于WFGIC起到了另一个关键作用。最近,一些端到端网络通过编码卷积特征向量为高阶信息来增强特征表示的判别能力。这些方法之所以有效,是因为它们对对象平移和姿势变化具有不变性,这得益于特征的无序聚合方式。这些特征编码方法的局限性在于它们忽略了局部判别特征对 WFGIC的重要性。因此,某些方法结合了局部判别特征,以通过合并选定的区域特征向量来提高特征判别能力。但是,值得注意的是,所有先前的工作都忽略了判别性区域特征向量之间的内部语义相关性。此外,还有一些噪声上下文,例如图1(c)(e)中的选择判别性区域内的背景区域。这样的背景信息或是含有很少判别性的信息可能对WFGIC有害,因为所有子类别都具有相似的背景信息(例如,鸟类通常栖息在树上或在天空中飞翔)。基于以上直观但重要的观察和分析,提出了一个相关特征增强(CFS)子网络,以探索区域特征向量之间的内部语义相关性,以获得更好的判别能力。的做法是通过用选择区域的特征向量来构造图,然后在CFS中联合学习特征向量节点之间的相互依赖性,来指导判别信息的传播。图l(g)和(f)是有无CFS学习的特征向量。
发明内容
本发明提出了一个基于相关学习的图传播的弱监督细粒度图像分类算法,以充分挖掘和利用WFGIC的相关性的判别潜力。在CUB-200-2011和Cars-196 数据集上的实验结果表明,提出的模型是有效的,并且达到了最佳水平。
本发明的技术方案如下:
一种基于相关学习的图传播的弱监督细粒度图像分类算法,包括四个方面:
(1)交叉图传播(CGP)
CGP模块的图传播过程包括两个阶段:第一阶段是CGP学习每两个区域之间的相关权重系数(即相邻矩阵计算)。在第二阶段,该模型通过交叉加权求和运算组合其相邻区域的信息,以寻找真正的判别性区域(即图更新)。具体来说,通过计算整个图像中每两个区域之间的相关性,将全局图像级上下文集成到CGP中,并通过迭代的交叉聚合操作对局部空间上下文信息进行编码。
给定输入特征图Mo∈RC×H×W,其中W,H,C分别是特征图的宽,高和通道数,将它输入到CGP模块F:Ms=F(Mo), (1)
其中F由节点表示,相邻矩阵计算和图更新组成。Ms∈RC×H×W是输出特征图。节点表示:节点表示是通过简单的卷积运算f来生成的:
MG=f(WT·Mo+bT), (2)
其中WT∈RC×1×1×C和bT分别是学习的权重参数和卷积层的偏差向量。MG∈ RC×H×W表示节点特征图。具体来说,将1×1卷积核视为小区域检测器。在MG的固定空间位置上的通道的每个VT∈RC×1×1向量代表图像对应位置上的一个小区域。使用生成的小区域作为节点表示。值得注意,WT是随机初始化的,并且初始的三个节点特征图是通过三种不同的f计算获得的:
相邻矩阵计算:在特征图中获得带有C维向量的W×H个节点后,构造了一个相关图以计算节点之间的语义相关性。相关图的相邻矩阵中的每个元素反映节点之间的相关强度。具体地,通过在两个特征图和 之间计算节点向量内积来获得相邻矩阵。
其中和分别代表p1和p2的节点表示向量。请注意,p1和p2必须满足特定的空间限制,即p2只能位于p1的同一行或同一列(即交叉的位置)上。然后获得了中每个节点的W+H-1相关值。具体而言,组织通道中的相对位移,并获得输出相关矩阵Mc∈RK×H×W,其中K=W+H-1。然后Mc通过softmax层以生成相邻矩阵R∈RK×H×W:
其中Rijk是第i行,第j列和第k个通道的相关权重系数。
在向前传播的过程中,区域越有判别性,它们之间的相关性就越大。在反向传播中,针对节点向量的每个blob实施导数。当分类的概率值较低时,惩罚将会被反向传播以降低两个节点的相关权重,并且将同时更新通过节点表示生成操作计算出的节点向量。
与ResNet类似,采用残差学习:
Ms=α·MU+MO (6)
其中,α是自适应权重参数,它逐渐学习为判别性相关特征分配更多权重。它的范围是[0,1],并初始化为接近0。这样,Ms会汇总相关特征和原始输入特征以挑选出更多判别性patch。然后,将Ms作为新输入输入到CGP的下一个迭代中。在多次图传播之后,每个节点可以以不同频率聚合所有区域,从而间接学习全局相关性,并且该区域越靠近聚合区域,则在图传播过程中聚合频率越高,这反映了局部空间上下文信息。
(2)判别性patch的采样
在这项工作中,根据目标检测中特征金字塔网络(FPN)的启发,从三个不同尺度的特征图生成默认patch。该设计可以使网络负责不同大小的判别性区域。
在获得聚合了相关特征和原始输入特征的残差特征图Ms后,将其馈入判别式响应层。具体来说,引入一个1×1×N卷积层和一个sigmoid函数σ来学习判别概率图S∈RN×H×W,这表明了判别性区域对最终分类的影响。N是特征图中给定位置的默认patch数。
此后,将相应地为每个默认patch pijk分配判别概率值。公式表示如下:
pijk=[tx,ty,tw,th,sijk], (7)
其中(tx,ty,tw,th)是每个patch的默认坐标,sijk表示第i行,第j列和第 k个通道的判别概率值。最终,网络根据概率值选择前M个patch,其中M为超参数。
(3)相关性特征加强(CFS)
当前大多数工作都忽略了判别性区域特征向量之间的内部语义相关性。此外,在选择的判别性区域中存在一些具有较少的判别性或是存在上下文噪声。提出了一个CFS子网络来探索区域特征向量之间的内部语义相关性,以获得更好的判别能力。CFS的详细信息如下:
节点表示和相邻矩阵计算:要构造图以挖掘所选patch之间的相关性,从M 个所选patch中提取具有D维特征向量的M个节点作为图卷积网络(GCN)的输入。在检测到M个节点之后,计算相关系数的相邻矩阵,该矩阵反映了节点之间的相关强度。因此,可以如下计算相邻矩阵的每个元素:
Ri,j=ci,j·<ni,nj> (8)
其中Ri,j表示每两个节点(ni,nj)之间的相关系数,ci,j是加权矩阵C∈RM×M中的相关权重系数,可以学习ci,j通过反向传播来调整相关系数Ri,j。然后,对相邻矩阵的每一行执行归一化,以确保连接到一个节点的所有边的总和等于1。相邻矩阵A∈RM×M的归一化通过softmax函数实现,如下所示:
最终构造的相关图计算了所选patch之间的关系强度。
图形更新:在获得相邻矩阵之后,将具有M个节点的特征表示N∈RM×D和相应的相邻矩阵A∈RM×M都作为输入,并将节点特征更新为N′∈RM×D′。正式地, GCN的这一层过程可以表示为:
N′=f(N,A)=h(ANW), (10)
其中W∈RD×D′是学习的权重参数,h是非线性函数(在实验中使用整流线性单位函数(ReLU))。多次传播后,所选patch中的判别信息可以进行更广泛的交互以获得更好的判别能力。
(4)损失函数
提出了一个端到端模型,该模型将CGP和CFS合并到一个统一的框架中。CGP 和CFS在多任务损失L的监督下一起训练,L由基本的细粒度分类损失组成。提出了一个端到端模型,该模型将CGP和CFS合并到一个统一的框架中。CGP和CFS在多任务损失的监督下一起训练,包括基本的细粒度分类损失一个引导损失一个等级损失一个特征增强损失完整的多任务损失函数L可以表示为:
其中λ1,λ2,λ3是平衡这些损失的超参数。经过多次实验验证,设置参数λ1=λ2=λ3=1。
让用X代表原始图像,并分别用P={P1,P2,...,PN}和 P′={P′1,P′2,...,P′N}代表有无CFS模块选择的判别性patch。C是置信度函数,它反映了分类为正确类别的概率,而S={S1,S2,...,SN}表示判别概率分数。然后,引导损失,等级损失和特征增强损失定义如下:
在这里,引导损失指导网络选择最具判别性的区域,等级损失则使所选择 patch的判别性分数和最终分类概率值保持一致。这两个损失函数直接调整CGP 的参数,并间接影响CFS。特征增强损失可以保证使用CFS的选择区域特征的预测概率大于无CFS的选择特征的预测概率,并且网络可以调整相关权重矩阵C和 GCN权重参数W来影响所选patch之间的信息传播。
本发明是第一个基于图传播来探索和利用区域相关性,以隐式发现判别性区域组并提高其对WFGIC的特征判别能力的方法。所采用的基于端到端图传播的关联学习(GCL)模型,将交叉图传播(CGP)子网络和相关特征增强(CFS) 子网络整合到一个统一的框架中进行有效联合地学习判别性特征。在 Caltech-UCSD Birds-200-2011(CUB-200-2011)和Stanford Cars数据集上评估提出的模型。本发明的方法在分类精度(例如,CUB-200-2011上的88.3%vs 87.0% (Chen等))和效率(例如CUB-200-2011上的56FPS vs 30FPS(Lin,Roy Chowdhury和Maji))上均达到了最佳性能。
附图说明
图1:判别性特征导向的高斯混合模型(DF-GMM)的动机。其中DRD表示区域扩散的问题;FHL表示高层语义特征图;FLR表示低秩特征图;(a)是原始图像;(b)(c)是用来指导网络对判别性区域进行采样的判别响应图;(e) (d)是分别在有无使用DF-GMM学习的情况下的定位结果。我们可以看到,减少DRD之后,(c)比(b)更加紧凑和稀疏,并且(e)中的结果区域比(d) 中的更加准确和具有判别性。
图2为本发明提出的基于相关学习的图传播(GCL)模型的框架图。通过交叉图传播(CGP)子网生成判别性相邻矩阵(AM),并通过计分网络(Sample) 生成判别性得分图(ScoreMap)。然后,GCL根据判别性得分图从默认patch(DP) 中选择更具判别性的patch。同时,将从原始图像得来的patch裁剪并调整为224 ×224的大小,并通过图传播相关特征增强(CFS)子网络生成判别特征。最后,将多个特征连接起来以获得WFGIC的最终特征表示。
图4为本发明的区域之间有无相关性的可视化结果。(a)表示原始图像。 (c)(b)分别是有无相关性的特定对应通道特征图。
图5为本发明相关权重系数图的可视化结果。第一行表示原始图像。第二,第三和第四行分别表示通过第一,第二和第三次图传播后的相关权重系数图。
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实施方式。
数据集:实验评估是在下面三个基准数据集上进行的:Caltech-UCSD Birds-200-2011,Stanford Cars和FGVC Aircraft,它们是用于细粒度图像分类的广泛使用的竞赛数据集。CUB-200-2011数据集涵盖200种鸟类,并包含11788个鸟类图像,图像分为5994张图像的训练集和5794张图像的测试集。斯坦福汽车数据集包含196个类别的16,185张图像,这些图像分为8144张训练集和8041张测试集。飞机数据集包含100个类别的10000张图片,训练集和测试集大约为2:1。
实施细节:在的实验中,所有图像的大小均调整为448×448。使用全卷积网络ResNet-50作为特征提取器,用“批量归一化”作为正则化器。优化器使用初始学习率为0.001的Momentum SGD,学习率在每60个epoch后乘以0.1。将权重衰减率设为1e-4。此外,为了减少patch冗余,基于patch的判别性得分对 patch采用非最大抑制(NMS),并将NMS阈值设置为0.25。
消融实验:如表1所示,进行了一些消融实验,以说明所提出模块的有效性,包括交叉图传播(CGP)和相关特征增强(CFS)。
在没有任何对象或局部标注的情况下,通过ResNet-50从整个图像中提取特征并将其设置为基线(BL)。然后,引入默认patch(DP)作为本地特征,以提高分类准确性。当采用评分机制(Score)时,它不仅可以保留高度判别性的 patch,还可以将patch的数目减少到个位数,然后在CUB-200-2011数据集的top-1 分类准确性提高了1.7%。此外,通过CGP模块考虑了区域组的判别能力,消融实验结果表明,如果每个区域以相同的频率(CGP-SF)聚合所有其他区域,则其在CUB上准确度为87.2%,而交叉传播可以实现更好的性能,即能达到87.7%。最后,介绍了CFS模块,以探索和利用选出的patch之间的内部相关性,并获得88.3%的最新结果。消融实验已经证明,所提出的网络确实可以学习判别性区域组,提高判别性特征值,有效地提高了准确率。
表1本发明方法的不同变种在CUB-200-2011上的消融实验的识别结果
定性比较:准确度比较:因为提出的模型仅使用图像级标注,而不使用任何对象或部位标注,的比较集中在弱监督方法上。在表2和表3中,分别显示了不同方法在CUB-200-2011数据集,Stanford Cars-196数据集和FGVC Aircraft 数据集上的性能。在表2的自上而下,将不同方法分为六组,分别是(1)有监督的多阶段方法,该方法通常依赖于对象甚至部位标注来获得可用的结果。(2) 弱监督多级框架,通过选择判别性区域逐渐击败了强监督方法。(3)弱监督的端到端特征编码,通过将CNN特征向量编码为高阶信息而具有良好的性能,但是依赖于较高的计算成本。(4)端到端定位分类子网络,可以在各种数据集上很好地工作,但是却忽略了判别性区域之间的相关性。(5)由于使用了额外的信息(例如语义嵌入),其他方法也取得了良好的性能。(6)的端到端GCL 方法无需任何额外注释即可实现最佳效果,并且在各种数据集上均具有一致的性能。
表2在CUB-200-2011,Cars19和Aircraft上的不同方法的比较
该方法优于第一组中这些强监督方法,这表明所提出的方法可以真正找到判别性的patch,而无需任何细粒度的标注。提出的方法考虑了区域之间的相关性以选择判别性区域组,然后通过选择判别性patch胜过第四组中其他方法。同时,很好地挖掘了所选判别性patch之间的内部语义相关性,来增强信息特征,而抑制那些无用特征。因此,通过加强特征表示,的工作优于第三组中其他方法,并实现了最优准确度,在CUB数据集上为88.3%,汽车数据集上为94.0%,飞机数据集上为93.5%。
与MA-CNN相比,MA-CNN通过通道分组损失函数隐含地考虑patch之间的相关性,是通过反向传播的方式在部分注意力图上应用空间约束。的工作是通过迭代的交叉图传播找到最具判别性的区域组,而且以前向传播的方式将空间上下文融合到了网络中。表2中的实验结果显示,在CUB,CAR和AIRCRAFT 数据集上,GCL模型的性能优于MA-CNN。
表1中的结果显示,的模型优于大多数其他模型,但在CAR数据集上比DCL稍低。认为原因是CAR数据集的图像比CUB和AIRCRAFT的图像具有更简单,更清晰的背景。具体而言,提出的GCL模型着重于增强判别性区域组的响应,从而更好地定位具有复杂背景的图像中的判别性patch。但是,在具有简单背景的图像中定位判别性patch相对容易,因此可能不会明显受益于判别性区域组的响应。另一方面,DCL模型在区域混淆机制中的混洗操作可能会引入一些视觉模式的噪声,因此图像背景的复杂性是影响DCL对判别性patch定位精度的关键因素之一。最终,DCL在CAR数据集上较简单的背景下在表现出更好的性能,而的GCL模型在CUB和AIRCRAFT上在复杂背景下表现更好。
速度分析:以批处理大小8在Titan X显卡上测量了速度。表3显示了与其他方法的比较。请注意,其他方法的参考在表2中。WSDL使用了faster RCNN 的框架,该框架可以保留大约300个候选patch。在这项工作中,利用具有秩损失的评分机制将patch数量减少到个位数,以实现实时效率。当根据判别性得分图选择2个判别性patch时,在速度和准确性上均优于其他方法。此外,当将判别性patch的数量增加到4个时,提出的模型不仅达到了最佳的分类精度,而且还保持了55fps的实时性。
表3在CUB-200-2011上不同方法的效率和有效性的对比 K表示每个图像选择的判别性区域的数量
定量分析:为了验证CGP的有效性,进行了消融实验,并将MO(图4(b)) 和MU(图4(c))进行了可视化。可视化结果表明,MO突出显示了多个连续区域,而MU在多次交叉传播之后增强了最具判别性的区域,这有助于准确地确定判别性区域组。
如图5所示,将CGP模块生成的相关权重系数图可视化,以更好地说明区域之间的相关影响。相关系数图表示某个区域和另一个在交叉位置的区域之间的相关性。可以观察到,相关系数图倾向于集中在几个固定区域(图5中的突出显示区域),并通过CGP联合学习逐渐整合更多判别区域,而且越靠近聚集的区域计算的频率越高。
Claims (1)
1.一种基于相关学习的图传播的弱监督细粒度图像分类算法,其特征在于下面四个方面:
(1)交叉图传播CGP
CGP模块的图传播过程包括两个阶段:第一阶段是CGP学习每两个区域之间的相关权重系数;第二阶段,该模型通过交叉加权求和运算组合其相邻区域的信息,以寻找真正的判别性区域;通过计算整个图像中每两个区域之间的相关性,将全局图像级上下文集成到CGP中,并通过迭代的交叉聚合操作对局部空间上下文信息进行编码;
给定输入特征图Mo∈RC×H×W,其中W,H,C分别是特征图的宽,高和通道数,将它输入到CGP模块F:
Ms=F(Mo), (1)
其中F由节点表示,相邻矩阵计算和图更新组成;Ms∈RC×H×W是输出特征图;节点表示:节点表示是通过简单的卷积运算f来生成的:
MG=f(WT·Mo+bT), (2)
其中WT∈RC×1×1×C和bT分别是学习的权重参数和卷积层的偏差向量;MG∈RC×H×W表示节点特征图;具体来说,我们将1×1卷积核视为小区域检测器;在MG的固定空间位置上的通道的每个VT∈RC×1×1向量代表图像对应位置上的一个小区域;使用生成的小区域作为节点表示;值得注意,WT是随机初始化的,并且初始的三个节点特征图是通过三种不同的f计算获得的:
相邻矩阵计算:在特征图中获得带有C维向量的W×H个节点后,构造了一个相关图以计算节点之间的语义相关性;相关图的相邻矩阵中的每个元素反映节点之间的相关强度;通过在两个特征图和之间计算节点向量内积来获得相邻矩阵;
其中和分别代表p1和p2的节点表示向量;p1和p2必须满足特定的空间限制,即p2只能位于p1的同一行或同一列上;然后我们获得了中每个节点的W+H-1相关值;组织通道中的相对位移,并获得输出相关矩阵Mc∈RK×H×W,其中K=W+H-1;然后Mc通过softmax层以生成相邻矩阵R∈RK×H×W:
其中Rijk是第i行,第j列和第k个通道的相关权重系数;
与ResNet类似,采用残差学习:
Ms=α·MU+MO (6)
其中,α是自适应权重参数,它逐渐学习为判别性相关特征分配更多权重;它的范围是[0,1],并初始化为接近0;Ms会汇总相关特征和原始输入特征以挑选出更多判别性patch;将Ms作为新输入输入到CGP的下一个迭代中;
(2)判别性patch的采样
根据目标检测中特征金字塔网络的启发,从三个不同尺度的特征图生成默认patch;
在获得聚合了相关特征和原始输入特征的残差特征图Ms后,将其馈入判别式响应层;引入一个1×1×N卷积层和一个sigmoid函数σ来学习判别概率图S∈RN×H×W,这表明了判别性区域对最终分类的影响;N是特征图中给定位置的默认patch数;
将相应地为每个默认patch pijk分配判别概率值;公式表示如下:
pijk= [tx,ty,tw,th,sijk], (7)
其中(tx,ty,tw,th)是每个patch的默认坐标,sijk表示第i行,第j列和第k个通道的判别概率值;最终,网络根据概率值选择前M个patch,其中M为超参数;
(3)相关性特征加强
节点表示和相邻矩阵计算:要构造图以挖掘所选patch之间的相关性,从M个所选patch中提取具有D维特征向量的M个节点作为图卷积网络的输入;在检测到M个节点之后,计算相关系数的相邻矩阵,该矩阵反映了节点之间的相关强度;计算相邻矩阵的每个元素:
Ri,j=ci,j·<ni,nj> (8)
其中Ri,j表示每两个节点(ni,nj)之间的相关系数,ci,j是加权矩阵C∈RM×M中的相关权重系数,学习ci,j通过反向传播来调整相关系数Ri,j;对相邻矩阵的每一行执行归一化,以确保连接到一个节点的所有边的总和等于1;相邻矩阵A∈RM×M的归一化通过softmax函数实现,如下所示:
最终构造的相关图计算了所选patch之间的关系强度;
图形更新:在获得相邻矩阵之后,将具有M个节点的特征表示N∈RM×D和相应的相邻矩阵A∈RM×M都作为输入,并将节点特征更新为N′∈RM×D′;正式地,GCN的这一层过程表示为:
N′=f(N,A)=h(ANW), (10)
其中W∈RD×D′是学习的权重参数,h是非线性函数;多次传播后,所选patch中的判别信息进行更广泛的交互以获得更好的判别能力;
(4)损失函数
一个端到端模型,该模型将CGP和CFS合并到一个统一的框架中;CGP和CFS在多任务损失的监督下一起训练,包括基本的细粒度分类损失一个引导损失一个等级损失一个特征增强损失完整的多任务损失函数L表示为:
其中λ1,λ2,λ3是平衡这些损失的超参数;设置参数λ1=λ2=λ3=1;
用X代表原始图像,并分别用P={P1,P2,...,PN}和P′={P′1,P′2,...,P′N}代表有无CFS模块选择的判别性patch;C是置信度函数,它反映了分类为正确类别的概率,而S={S1,S2,...,SN}表示判别概率分数;然后,引导损失,等级损失和特征增强损失定义如下:
引导损失指导网络选择最具判别性的区域,等级损失则使所选择patch的判别性分数和最终分类概率值保持一致;这两个损失函数直接调整CGP的参数,并间接影响CFS;特征增强损失保证使用CFS的选择区域特征的预测概率大于无CFS的选择特征的预测概率,并且网络调整相关权重矩阵C和GCN权重参数W来影响所选patch之间的信息传播。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303397.0A CN111062438B (zh) | 2019-12-17 | 2019-12-17 | 基于相关学习的图传播的弱监督细粒度图像分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303397.0A CN111062438B (zh) | 2019-12-17 | 2019-12-17 | 基于相关学习的图传播的弱监督细粒度图像分类算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062438A true CN111062438A (zh) | 2020-04-24 |
CN111062438B CN111062438B (zh) | 2023-06-16 |
Family
ID=70302137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911303397.0A Active CN111062438B (zh) | 2019-12-17 | 2019-12-17 | 基于相关学习的图传播的弱监督细粒度图像分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062438B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598112A (zh) * | 2020-05-18 | 2020-08-28 | 中科视语(北京)科技有限公司 | 多任务的目标检测方法、装置、电子设备及存储介质 |
CN111639652A (zh) * | 2020-04-28 | 2020-09-08 | 博泰车联网(南京)有限公司 | 一种图像处理方法、装置及计算机存储介质 |
CN113240904A (zh) * | 2021-05-08 | 2021-08-10 | 福州大学 | 基于特征融合的交通流预测方法 |
CN117173422A (zh) * | 2023-08-07 | 2023-12-05 | 广东第二师范学院 | 基于图融合多尺度特征学习的细粒度图像识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160307072A1 (en) * | 2015-04-17 | 2016-10-20 | Nec Laboratories America, Inc. | Fine-grained Image Classification by Exploring Bipartite-Graph Labels |
US20180060652A1 (en) * | 2016-08-31 | 2018-03-01 | Siemens Healthcare Gmbh | Unsupervised Deep Representation Learning for Fine-grained Body Part Recognition |
CN107766890A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种细粒度识别中判别性图块学习的改进方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN109002845A (zh) * | 2018-06-29 | 2018-12-14 | 西安交通大学 | 基于深度卷积神经网络的细粒度图像分类方法 |
CN109359684A (zh) * | 2018-10-17 | 2019-02-19 | 苏州大学 | 基于弱监督定位和子类别相似性度量的细粒度车型识别方法 |
CN109582782A (zh) * | 2018-10-26 | 2019-04-05 | 杭州电子科技大学 | 一种基于用弱监督深度学习的文本聚类方法 |
CN110197202A (zh) * | 2019-04-30 | 2019-09-03 | 杰创智能科技股份有限公司 | 一种局部特征细粒度目标检测算法 |
CN110309858A (zh) * | 2019-06-05 | 2019-10-08 | 大连理工大学 | 基于判别学习的细粒度图像分类算法 |
-
2019
- 2019-12-17 CN CN201911303397.0A patent/CN111062438B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160307072A1 (en) * | 2015-04-17 | 2016-10-20 | Nec Laboratories America, Inc. | Fine-grained Image Classification by Exploring Bipartite-Graph Labels |
US20180060652A1 (en) * | 2016-08-31 | 2018-03-01 | Siemens Healthcare Gmbh | Unsupervised Deep Representation Learning for Fine-grained Body Part Recognition |
CN107766890A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种细粒度识别中判别性图块学习的改进方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN109002845A (zh) * | 2018-06-29 | 2018-12-14 | 西安交通大学 | 基于深度卷积神经网络的细粒度图像分类方法 |
CN109359684A (zh) * | 2018-10-17 | 2019-02-19 | 苏州大学 | 基于弱监督定位和子类别相似性度量的细粒度车型识别方法 |
CN109582782A (zh) * | 2018-10-26 | 2019-04-05 | 杭州电子科技大学 | 一种基于用弱监督深度学习的文本聚类方法 |
CN110197202A (zh) * | 2019-04-30 | 2019-09-03 | 杰创智能科技股份有限公司 | 一种局部特征细粒度目标检测算法 |
CN110309858A (zh) * | 2019-06-05 | 2019-10-08 | 大连理工大学 | 基于判别学习的细粒度图像分类算法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639652A (zh) * | 2020-04-28 | 2020-09-08 | 博泰车联网(南京)有限公司 | 一种图像处理方法、装置及计算机存储介质 |
CN111598112A (zh) * | 2020-05-18 | 2020-08-28 | 中科视语(北京)科技有限公司 | 多任务的目标检测方法、装置、电子设备及存储介质 |
CN111598112B (zh) * | 2020-05-18 | 2023-02-24 | 中科视语(北京)科技有限公司 | 多任务的目标检测方法、装置、电子设备及存储介质 |
CN113240904A (zh) * | 2021-05-08 | 2021-08-10 | 福州大学 | 基于特征融合的交通流预测方法 |
CN113240904B (zh) * | 2021-05-08 | 2022-06-14 | 福州大学 | 基于特征融合的交通流预测方法 |
CN117173422A (zh) * | 2023-08-07 | 2023-12-05 | 广东第二师范学院 | 基于图融合多尺度特征学习的细粒度图像识别方法 |
CN117173422B (zh) * | 2023-08-07 | 2024-02-13 | 广东第二师范学院 | 基于图融合多尺度特征学习的细粒度图像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062438B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Gao et al. | Topology-aware graph pooling networks | |
Zhang et al. | Hyperspectral classification based on lightweight 3-D-CNN with transfer learning | |
Bahri et al. | Deep k-nn for noisy labels | |
CN110689081B (zh) | 一种基于分歧学习的弱监督目标分类和定位方法 | |
Quattoni et al. | Hidden-state conditional random fields | |
CN111062438A (zh) | 基于相关学习的图传播的弱监督细粒度图像分类算法 | |
Bayati et al. | MLPSO: a filter multi-label feature selection based on particle swarm optimization | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN115908908B (zh) | 基于图注意力网络的遥感图像聚集型目标识别方法及装置 | |
Jiang et al. | Active object detection in sonar images | |
CN110796183A (zh) | 基于相关性引导的判别学习的弱监督细粒度图像分类算法 | |
Li et al. | WDAN: A weighted discriminative adversarial network with dual classifiers for fine-grained open-set domain adaptation | |
Lin et al. | Rethinking crowdsourcing annotation: Partial annotation with salient labels for multilabel aerial image classification | |
Fu et al. | A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos | |
Wang et al. | Visual relationship detection with recurrent attention and negative sampling | |
CN110309858A (zh) | 基于判别学习的细粒度图像分类算法 | |
Chen et al. | Learning to segment object candidates via recursive neural networks | |
CN110909785B (zh) | 基于语义层级的多任务Triplet损失函数学习方法 | |
Pan et al. | Few-shot classification with task-adaptive semantic feature learning | |
CN111242102B (zh) | 基于判别性特征导向的高斯混合模型的细粒度图像识别算法 | |
CN109858543B (zh) | 基于低秩稀疏表征和关系推断的图像可记忆度预测方法 | |
CN113191996A (zh) | 一种遥感影像变化检测方法、装置及其电子设备 | |
Wu et al. | Localize, assemble, and predicate: Contextual object proposal embedding for visual relation detection | |
Zhou et al. | The triple refinement of self-paced learning style for unsupervised cross-domain person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |