CN113326731A - 一种基于动量网络指导的跨域行人重识别算法 - Google Patents
一种基于动量网络指导的跨域行人重识别算法 Download PDFInfo
- Publication number
- CN113326731A CN113326731A CN202110436422.3A CN202110436422A CN113326731A CN 113326731 A CN113326731 A CN 113326731A CN 202110436422 A CN202110436422 A CN 202110436422A CN 113326731 A CN113326731 A CN 113326731A
- Authority
- CN
- China
- Prior art keywords
- network
- momentum
- model
- domain
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明针对跨域行人重识别任务中存在的域偏移现象导致的伪标签噪声干扰问题,提出了一种基于动量网络指导的跨域行人重识别算法。该方法包括:步骤S1、用ImageNet数据集上预训练的模型初始化骨干网络;步骤S2、利用源域数据集上带标记的数据进行模型的预先微调以充分利用源域带标记信息;步骤S3、利用源域数据集上通过设置不同随机参数训练的模型初始化提出的动量学习框架,并使用聚类算法根据模型提取的特征进行聚类生成置信度为1的硬伪标签;步骤S4、设计新的软化的伪标签和损失函数与传统损失联合进行训练优化模型;步骤S5、硬伪标签每轮迭代开始前进行更新,软伪标签实时动态更新,不断迭代进行伪标签生成和优化步骤,直至模型收敛。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于动量网络指导的跨域行人重识别算法。
背景技术
行人重识别的任务是给定一个目标图像,需要通过某种方法从行人数据库中找出与目标图像最为接近的一张或数张图像。近年来许多大规模行人数据集的公开促进了行人重识别技术的研究,可以说数据集的质量和规模是提升行人重识别技术性能的关键。但是数据集的标注是非常耗费人力物力的,同时环境因素也一定程度上阻碍着有效数据的收集,考虑到在实际应用中,模型的鲁棒性直接决定了其实用性。而研究发现,对于一个在大规模数据集上训练好了的行人重识别模型,若直接部署于一个新的监控系统,由于领域之间存在的数据分布差异,模型性能会出现“断崖式下降”。
为了解决该问题,研究者们做出了很多努力。早期有一些利用手工设计的特征解决无监督行人重识别任务的工作,但是这些特征通常判别性不强从而达不到很好的效果。基于图像生成的方法]通常设置约束来完成源域图像到目标域图像的风格转换,其能在保持源域数据的标签信息的同时转换成带有目标域数据风格的图像,新生成的风格数据集或与目标域数据混合一起组成更大的数据集进行学习或单独进行训练再将模型迁移到目标数据集上,这类方法通常只关注于将图像进行风格变换而忽略了样本间存在的潜在联系,从而生成的数据集丢失了很重要的类内信息。基于实例分类的方法通常首先将每个行人图像看成单个类别,从图像特征之间的相似性入手,设计算法找出某个图像的相似邻域,从而实现目标域的图像检索,该类方法的关键在于如何有效地进行样本关联度匹配。严格的基于领域自适应的方法]考虑消除或减小源域和目标域间的差异来将具备判别力的信息在域间迁移,有的通过两域对抗“求同存异”,有的尝试假设源域和目标域之间存在一组共享的中间层语义属性来提高行人重识别的准确性,但考虑到行人重识别是一个开放集问题,源域和目标域不重叠,其共享子空间包含的信息仅为目标域中判别性信息的极小一部分,相当于二者做交集,所以损失了许多更鲁棒的信息,从而影响模型性能。在研究者们的诸多尝试中,应用最广泛且性能最领先的方法是基于伪标签生成的方法,其中基于聚类的伪标签生成方法的算法流程为:第一步用聚类算法对目标域数据集上的行人进行聚类打上伪标签,其次将该伪标签看作一种监督,在目标域上进行类似有监督训练,但该方法在训练过程中往往被“伪标签噪声”干扰。伪标签噪声主要是由于:目标域行人类别数未知、聚类算法本身局限、域偏移导致源域上预训练的网络在目标域上表现力有限等等。如果初始伪标签可靠性低、噪声很大,模型很可能直接崩溃,偏离正确训练轨迹,现有方法并没有有效解决该问题。
本发明基于聚类算法,提出了一种基于动量网络指导的跨域行人重识别方法。该方法结构简洁,利用动量网络的输出指导主干网络训练;同时使用数据增强方式增强网络的随机性,设计的软标签及损失能充分优化模型而不局限于对伪标签的盲目学习,与传统损失一起从不同角度优化网络,由此减轻了伪标签噪声的干扰,增强了模型的鲁棒性。
发明内容
发明目的:本发明针对无监督行人重识别任务中存在的由域偏移、目标域行人类别数未知、算法本身局限等导致的伪标签噪声干扰问题,提出了一种基于动量网络指导的跨域行人重识别方法,来减轻跨域场景下的伪标签噪声,提高无监督域适应行人重识别模型检索性能。
技术方案:一种基于动量网络指导的跨域行人重识别方法,重点在于以下三个方面:第一方面是如何利用源域数据集的标签信息,从而为后续训练提供质量较好的初始伪标签,保证优化能够不偏离正确轨迹;第二方面在于软化生成的伪标签,因为无监督训练过程中目标域的行人类别数以及行人ID都是未知的,仅靠生成的伪标签进行训练,而生成的伪标签可能是噪声;第三方面是如何保证模型的时间复杂度和空间复杂度。本发明的技术方案提供了如下的步骤:
步骤1、利用在大型图像数据集ImageNet上预训练的模型对本发明的backbone网络进行初始化以迁移利用一些先验的图像判别性特征;
步骤2、初始化的网络在源数据集上微调优化;
步骤3、将目标域数据集分为训练集和测试集,动量学习框架分为主干网络和动量网络,然后两个网络的初始化分别使用源域数据集上通过设置不同随机参数训练得到的模型进行初始化,以实现对源域数据集标签信息的利用,并通过聚类算法对目标域的行人图像进行分类并赋予每张行人图像伪标签;
步骤4、对伪标签进行软化,新的软化的伪标签与原先硬伪标签协同监督网络,从而能使网络更平滑稳定地进行训练学习;
步骤5、离线更新硬伪标签,在线更新软伪标签,迭代进行伪标签生成和优化;训练完成后将动量框架中的动量网络所在部分用于后续的测试过程。
步骤1至2,属于源域数据集训练部分,步骤3至5,属于目标域数据集上的优化部分。其中步骤5还包括测试阶段的操作。本发明的网络架构图如图1所示。深度学习行人重识别训练阶段框架如图2所示,测试阶段框架如图3所示。
在所述步骤1中,对ResNet-50网络层进行修改后作为本发明的网络结构:将其最后一层所包含的池化、全连接、softmax去除后额外加入两层FC层,分别命名为FC-1000和FC-MS;第一层全连接层用于提取特征,用于三元组损失;第二层全连接层产生属于每个类别的概率预测,用于分类损失中。
在所述步骤2中,源域和目标域数据集是不相交的,通常采集于不同时点、地点、摄像头下,两个数据集之间通常有很大的数据分布差异,源域数据集表示为:其中,x表示行人图像,y表示对应行人的标签。Ns表示数据集规模。
在源域数据集上进行有监督训练,使用的是交叉熵分类损失和传统基于阈值的三元组损失,计算形式分别表示如下:
其中,F表示特征编码,C表示分类器,θ表示模型参数,m表示距离阈值,通常取0.5,下标p和n分别表示原样本的正例和负例。源域预训练阶段,给定带标记的源域数据集,通过两种损失函数联合训练网络,得到用于目标域训练的初始化模型。
在所述步骤3中,不带标签信息的目标域数据集可以表示为:选取源域上性能表现更好的两个模型来初始化动量框架的两个网络,并且两个网络的输入是对同一张行人图像采用不同的数据增强方式处理得到的,目的是提高模型的随机性。聚类算法选择简单有效的K均值聚类,在不同任务集上分别设置不同的聚类数K,设置的值通常包含大于或小于目标域真实类别数的各种情况。
在所述步骤4中,动量网络第一个FC层输出的特征以及第二个FC层输出的分类预测分别为主干网络提供软的标签;软分类标签是一个概率向量,可以表示为:cls=[0.10,0.32,0.21,0.05,0.13,0.11,...,0.05],每一维的值表示输入图像属于该类别的概率,共有Mt维。
对于软三元组标签,涉及到三个样本,分别为原样本、正样本和负样本;正负样本的定义来自于聚类算法生成的伪标签,同类为正,异类为负。本发明利用Wasserstein距离衡量样本之间特征的分布差异,设计了一种新的软三元组标签,可以表示为:
其中Sim表示分布相似性度量,θ表示平均网络参数,该三元组标签取值范围为0到1,将平均网络的输出作为软标签更为平滑和稳定。
在所述步骤5中,动量网络是带历史记忆的,它的更新方式并不是像主干网络一样通过损失进行梯度回传,而是采用一种加权计算的方式,将动量网络本身过去的表现与主干网络即时更新之后的性能进行权衡,选择一个合适的超参数,将其定义为:
E(T)[θ]=αE(T-1)[θ]+(1-α)θ
T表示迭代时间,α表示权值超参数,通常取为0.999。
有益效果:本发明提出了一种基于动量网络指导的跨域行人重识别算法,提出利用神经网络本身捕捉和学习数据分布的能力,设计了动量学习框架,来减轻训练过程中伪标签噪声的干扰,提升行人重识别检索性能;提出了一种新的学习特征分布的方式:利用传统基于L2距离的三元组损失和新提出的基于Wasserstein距离的三元组损失联合训练,从直线距离与分布距离两方位拉近与正样本的特征距离远离与负样本特征距离,在无监督任务中还能保持一种对伪标签的批判性信任;同时,在多个行人重识别跨域任务上进行了大量的实验,相对现有前沿技术有不错的性能提升,具有一定的参考价值。
附图说明
图1是本发明的网络框架图。
图2是深度学习行人重识别任务训练框架图。
图3是深度学习行人重识别任务测试框架图。
图4是验证超参数λid和λtri不同取值对性能影响示意图。
图5是本发明中行人重识别任务数据集图像示例图。
具体实施方式
下面结合具体的实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。
一种基于动量网络指导的跨域行人重识别方法,网络框架如图1所示。该框架利用动量网络的输出指导主干网络训练来减轻伪标签噪声干扰,训练阶段,对一张行人图像采用不同的数据增强如随机裁剪、翻转等处理得到的结果作为两个网络的输入。为了充分利用源数据集的标签信息,本发明将在源数据集上通过不同随机种子等信息训练得到的不同模型参数来初始化动量学习框架的两个网络;同时,使用K-Means聚类算法根据提取得到的目标域行人特征进行聚类生成置信度为1的分类硬伪标签。聚类算法能挖掘并发挥同类样本之间本身存在的潜在联系。但是由于伪标签噪声的存在,聚类算法生成的伪标签并不总是正确的,若是让网络学习一个置信度为1的错误伪标签,模型会被严重干扰。本发明提出一种软化的标签,其置信度小于1,能减轻伪标签噪声干扰让模型平滑稳定地进行训练,具体做法是将动量网络的分类预测结果以及特征分布输出分别设计作为主干网络的分类“软”伪标签和三元组“软”伪标签。基于此提出了新的“软”分类损失和“软”三元组损失。本发明还间接提出一种从不同角度学习特征分布的方式。测试阶段,只需使用动量网络进行特征提取,并且未采用重排序方法。具体的步骤如下:
步骤1、对骨干网络采用ImageNet数据集上预训练的模型进行初始化;
步骤2、在源域数据集上进行有监督训练微调模型,并使用不同随机参数得到多个模型,选出其中性能更优的两个;
步骤3、源域数据集上选出的两个模型初始化提出的动量学习框架中的主干网络和动量网络,初始模型在目标域数据集上提取特征,K-Means聚类算法利用这些特征生成置信度为1的硬伪标签;
步骤4、利用动量网络的输出设计新的软化的伪标签和损失函数与传统损失联合训练,观察每一轮的误差变化;
步骤5、离线进行硬伪标签更新,在线进行软伪标签更新,动量网络线性更新,主干网络梯度更新,最终模型收敛;选取性能表现较好的动量网络部分进行测试,对每一张查询行人图像返回排序结果。
接下来具体展示本发明内容以及具体设置,并结合实验结果进行分析,验证本发明的有效性。
本发明采用了两阶段的训练方式:
阶段1、源域预训练:源域上进行有监督预训练。首先采用在ImageNet上预训练的参数初始化网络模型,在每一个mini-batch中,使用分类损失和三元组损失进行监督训练。该阶段的训练周期epoch为80,初始的学习速率为0.00035,学习速率在第40个训练周期和第70个训练周期后衰减10倍,硬三元组损失中的边界阈值m设置为0.5。
阶段2、目标域优化阶段:通过使用不同的随机种子训练得到的不同参数值的模型用来初始化动量框架的主干网络和动量网络。输入采用对同一行人图像的不同数据增强形式。通过总损失函数进行训练,其超参数λid和λtri分别设置为0.5和0.8,动量网络参数更新公式中的权值α设置为0.999,该阶段训练周期设置为50,学习率固定为0.0003不变。使用K均值聚类算法时,为了符合无监督域适应任务中目标域类别数未知的设定,在Market-1501和DukeMTMC-reID数据集上,类别数分别设置为500、700和900;在MSMT17数据集上,类别数设置为500、1000、1500和2000。这些数字与数据集真实行人类别数是不同的。
目标域训练阶段用到的损失函数有如下几种:
硬分类损失函数:
基于阈值的硬三元组损失函数:
软分类损失函数:
基于特征分布的软三元组损失:
至此,总损失函数可以表示成:
实验中使用了三个经典主流的大规模公开行人重识别数据集:Market-1501、DukeMTMC-reID和MSMT17。其具体信息如表1所示。在实验结果分析中采用均值平均精度mAP和累计匹配特征CMC曲线的rank-1、rank-5和rank-10衡量模型性能。无监督域适应行人重识别任务需要带标记源域数据集和不带标记目标域数据集两种数据集,所以对于Market-1501、DukeMTMC-reID和MSMT17数据集,依次选择其中的一个作为源域数据集,另一个数据集作为目标域数据集进行实验,实验部分将其表示为“源域数据集-目标域数据集”的形式,如Duke-Market、Market-Duke、Duke-MSMT、Market-MSMT等。测试过程中,本发明采用在单张行人图像检索的设置计算评价指标,并且不使用其他后期处理方法如重排序等。
此外,实验环节每个mini-batch包含16个行人,每个行人4张图像,一共64张。生成硬伪标签的操作于每一轮epoch结束后进行更新,初始硬伪标签根据源域预训练的模型在目标域提取的行人图像特征进行聚类生成。所以目标域数据集图像的mini-batch需要在每轮硬伪标签更新后重组。所有图像尺寸调整到256×128之后送入网络。
表1行人重识别公开主流图像数据集
本发明提出的算法模型基于深度学习框架——PyTorch实现,模型的训练和测试在部署了4块GTX-1080TI GPU的Linux服务器上完成。
与本发明进行比较的算法包括2种传统手工提取特征进行无监督学习的模型LOMO和BoW和4种不同类型的基于深度学习的先进算法,具体是:
基于伪标记的方法:TJ-AIDL、PCB-R-PAST、SSG、ACT、MMT、AD-Cluster和NRMT;
基于图像生成的方法:HHL、PTGAN、SPGAN、CR-GAN和SDA;
基于实例分类的方法:ECN、MPLP]和LAIM;
基于域自适应的方法:UCDA。
在Duke-Market、Market-Duke任务上的性能表现如表2所示。表3展示了各类方法在Duke-MSMT、Market-MSMT任务上的对比结果(当前任务上性能最优的结果采用字体加粗表示)从表中分析,本发明明显优于相同设置下的其他方法。
首先,与直接利用手工特征进行无监督的行人重识别方法LOMO和BoW相比,本发明具有显著的优越性。例如,BoW算法在Duke-Market上取得了14.8%的mAP指标和35.8%的rank-1准确率,本发明在mAP指标和rank-1准确率上相对BoW分别提升了59.6和54.5个百分点,并且BoW、LOMO两方法性能相较表中其他方法也逊色很多。由此可知基于手工提取特征方法的性能与基于深度学习的方法相比存在非常大的差距。仅靠手工设计提取的特征无法充分表达数据中蕴藏的信息,从而方法性能较差。
对比基于实例分类的方法、基于图像生成的方法以及基于域自适应的方法,本发明在性能上皆实现了较大幅度的超越。基于图像生成的方法通常只关注于将图像进行风格变换而忽略了同类样本间存在的潜在联系,导致生成的图像丢失了重要信息;基于实例分类的方法往往关注如何建立样本间关系,而如何有效进行样本关联度匹配仍然是一个亟需解决的问题。宏观来说,基于领域自适应的方法是从特征表示层面来缩小域间差异,属于隐式解决无标记问题。基于实例分类或伪标记的方法是显式地通过对无标记数据直接产生伪标签或是建立这些样本间的关联来进行学习。因此,从整体上看,基于伪标记和实例分类的方法相较于其他方法能够更为直接地处理无监督行人重识别问题。
本发明在Duke-Market、Market-Duke、Duke-MSMT、Market-MSMT四个任务上的mAP指标分别达到了74.4%、66.0%、25.3%和24.7%,相较表中最优算法其mAP指标和rank-1指标分别提升了2.7%、0.9%、2.0%和1.8%。通过设置不同的聚类数值,模型性能也有不同的表现,但本发明都处于领域内较领先水平。
在三个行人重识别标准数据集上实验结果的对比验证了本发明的框架结构简洁,利用动量网络的输出指导主干网络训练。同时使用数据增强方式增强网络随机性,设计的软标签及损失能充分优化模型而不局限于对伪标签的盲目学习,与传统损失一起从不同角度提优网络,由此减轻了伪标签噪声的干扰,增强了网络判别性从而提升模型性能。
表2 Duke-Market/Market-Duke任务上的性能表现(%)
表3 Duke-MSMT/Market-MSMT任务上的性能表现(%)
表4展示了在Duke-Market、Market-Duke任务上进行的消融实验,以验证本发明的各个组成模块的有效性。实验采用ResNet-50为backbone网络,类别数设置为700。首先介绍表格中部分符号命名的含义。Supervised表示的是在已知数据集真实行人身份标签的情况下训练深度网络模型所取得的实验结果;Pre-trained表示将在源域上仅通过分类损失和三元组损失预训练的模型直接应用于无标记目标域数据集中;baseline表示将只保留本发明框架中的硬伪标签监督部分,即最基本的基于聚类的伪标签法的处理流程,使用K均值聚类方法生成硬伪标签并利用硬分类损失和原始硬三元组损失进行训练得到结果;only表示仅使用括号内的损失进行训练优化;w/o表示除括号内模块以外的其他部分都用来训练网络;数字“500、700、900、1000、1500、2000”表示K均值聚类中设定的目标域类别数。
从有监督学习和直接迁移的结果对比中可以发现,行人重识别技术在有标记的情况下已经达到了令人较为满意的水平,但是当把某一个数据集上预训练的模型直接“照搬”到另一个数据集上时,由于两个数据集之间存在显著的数据分布差异,模型的性能出现剧烈的下降。比如在Market-1501数据集上训练的模型直接应用到DukeMTMC-reID数据集上时,mAP指标由原来的83.7%下降到了30.0%。所以,需要研究跨域行人重识别方法来提升模型的泛化能力。
为了验证基于聚类的伪标签法中存在伪标签噪声问题设置了baseline对照,其只使用了硬伪标签监督。baseline方法相对直接迁移已经有了很大的提升,但是相对于本发明,在Duke-Market、Market-Duke任务上mAP分别有19.4%和17.5%的差距,说明该类方法存在严重的伪标签噪声干扰。而本发明在处理伪标签噪声上发挥了重要作用。
为了验证提出的软三元组损失的有效性,超参数λtri=0。由表中可知,方法没有了“软”三元组损失的监督,模型性能出现了明显下降。这说明了“硬”伪标签及传统“硬”三元组损失并不能有效应对伪标签噪声的干扰,从侧面反映出了提出的基于特征分布的“软”三元组损失的价值。
为了验证动量网络设计的巧妙性,将动量网络替换成跟主干相同的网络进行了实验,方法Baseline+MN-700(E[θ]→θ')。也就是说,将两个网络自己的输出作为一种监督输送给对方网络,如初始化两个网络net1和net2,利用net1的输出监督net2、net2的输出监督net1。该方案存在两处缺陷,其一,两个网络本身利用梯度回传参数更新较快,如果噪声很多,则会快速放大,影响非常严重,这种监督方式是不稳定的,容易干扰网络的学习;其二,两种网络的输出直接输送给对方,会使得二者迅速收敛至相似,输出的互补性大大减小,反而成为了冗余结构。所以,该方案不可行。从实验结果来看,替换后的模型mAP和rank-n表现都明显下降,Market-Duke任务上mAP和rank-1分别较本章提出的模型下降了7.9%和5.7%,验证了这一观点。
除了提出的软标签及损失和动量学习框架有效地提升了实验性能外,硬伪标签同样对无标记目标域的特征学习有着重大意义。对此设计了两种实验分别验证硬分类损失和传统硬三元组损失的作用。验证硬分类损失时,方法超参数λid=1;验证传统三元组损失时,方法超参数λtri=1。观察表中结果可知,模型性能均出现了不同程度的下降,硬分类损失的去除甚至导致网络性能低于Pre-trained方法设置下的性能,由此说明硬分类损失的有效性。这是因为初始网络通常会为每个身份输出相对统一的概率,这些概率充当软分类损失的软标签,因为它一开始无法正确地区分目标域上的不同身份,直接使用这种平滑且嘈杂的软伪标签进行训练,则框架中的网络很快会由于偏差过大而崩溃。用于分类损失的置信度为1的硬伪标签对于学习目标域上的判别性特征表示至关重要。
表4消融实验对比分析Duke-Market/Market-Duke(%)
方法 | mAP | rank-1 | rank-5 | rank-10 |
Supervised(Duke) | 72.0 | 90.2 | 96.3 | 96.9 |
Supervised(Market) | 83.7 | 93.0 | 97.3 | 98.3 |
Pre-trained | 32.0/30.0 | 62.1/46.7 | 76.5/61.8 | 82.4/67.5 |
Baseline | 55.0/48.5 | 76.0/66.9 | 88.5/80.1 | 91.8/84.3 |
Baseline+MN-700(w/o L<sup>t</sup><sub>id</sub>) | 30.1/20.4 | 55.1/30.8 | 69.8/42.3 | 74.5/48.0 |
Baseline+MN-700(w/o L<sup>t</sup><sub>tri</sub>) | 73.2/64.0 | 89.3/76.7 | 94.5/87.8 | 96.1/92.9 |
Baseline+MN-700(w/o L<sup>t</sup><sub>sid</sub>) | 65.2/61.5 | 87.3/75.7 | 94.1/87.8 | 95.1/91.0 |
Baseline+MN-700(w/o L<sup>t</sup><sub>stri</sub>) | 68.2/62.5 | 87.8/75.7 | 93.9/87.8 | 95.1/92.5 |
Baseline+MN-700(E[θ]→θ’) | 64.2/58.1 | 83.8/72.7 | 92.9/85.8 | 94.1/89.4 |
MN-Guided(ours)-700 | 74.4/66.0 | 90.3/78.4 | 95.3/90.2 | 97.0/94.0 |
针对权值超参数λid和λtri的选取,在Duke-Market任务上对聚类数取值为700进行了实验。实验结果如图4所示。当λid和λtri分别取值为0.5和0.8时性能最优。所有实验均基于这两个取值进行。
本实施例提供了基于动量网络指导的跨域行人重识别方法的核心思想、步骤和参数。此外,本实施仅为本发明较佳的具体实施方式,具体的实施过程中还需要根据具体的变量和数据调整参数的设置,以达到更好的实际效果。
Claims (6)
1.一种基于动量网络指导的跨域行人重识别算法,其特征在于,包括如下步骤:
步骤S1、用ImageNet数据集上预训练的模型初始化骨干网络;
步骤S2、利用源域数据集上带标记的数据进行模型的预先微调以充分利用源域带标记信息;
步骤S3、利用源域数据集上通过设置不同随机参数训练的模型初始化提出的动量学习框架,并使用聚类算法根据模型提取的特征进行聚类生成置信度为1的硬伪标签;
步骤S4、设计新的软化的伪标签和损失函数与传统损失联合进行训练优化模型;
步骤S5、硬伪标签每轮迭代开始前进行更新,软伪标签实时动态更新,不断迭代进行伪标签生成和优化步骤,直至模型收敛,将动量网络特征编码部分用于测试。
2.如权利要求1所述的一种基于动量网络指导的跨域行人重识别算法,其特征在于,所述步骤S1进一步为:
步骤S101、利用ResNet-50网络作为backbone网络,将其最后一层全连接层去除后额外加入两层FC层,分别命名为FC-1000和FC-MS;
步骤S102、利用在大型数据集ImageNet上预训练的模型对相同参数进行初始化。
3.如权利要求1所述的一种基于动量网络指导的跨域行人重识别算法,其特征在于,所述步骤S2进一步为:
步骤S201、将行人图像调整为相同尺寸256×128,设置网络训练相关参数;
步骤S202、设置不同随机种子进行多次有监督训练得到多个预训练模型,训练过程中采用交叉熵分类损失和基于阈值的三元组损失。
4.如权利要求1所述的一种基于动量网络指导的跨域行人重识别算法,其特征在于,所述步骤S3进一步为:
步骤S301、源域数据集训练好的两个更优模型分别用来初始化动量框架中的主干网络和动量网络,将目标域划分为训练集和测试集;
步骤S302、指定目标域具体形成的类别数Mt,聚类算法首先根据模型对目标域图像提取的特征进行无监督聚类,生成置信度为1的硬伪标签。
5.如权利要求1所述的一种基于动量网络指导的跨域行人重识别算法,其特征在于,所述步骤S4进一步为:
步骤S401、利用动量网络输出的分类预测为主干网络提供置信度小于1的软分类伪标签,利用动量网络输出的特征分布设计基于Wasserstein分布距离的三元组标签;
步骤S402、更新软损失,包括基于分类预测的软交叉熵损失和基于特征分布的软三元组损失,与硬损失一起联合更新训练网络;
步骤S403、主干网络通过梯度回传进行更新,动量网络通过对历史的记忆和主干网络实时参数进行加权更新。
6.如权利要求1所述的一种基于动量网络指导的跨域行人重识别算法,其特征在于,所述步骤S5进一步为:
步骤S501、聚类算法生成的硬伪标签在每一轮epoch结束后根据新特征进行重新分配,而动量网络提供的软伪标签随着网络的优化不断在线更新;
步骤S502、硬伪标签更新后,相应的三元组样本中的正例和负例也要进行重组;
步骤S503、返回步骤S302重复上述流程,不断迭代进行伪标签生成和优化步骤直至模型收敛;
步骤S504、测试阶段,利用动量网络特征编码部分提取目标域测试集中查询图像和搜索集图像的特征,度量二者之间相似度,返回相似度从高到低的排序结果,计算评价指标,完成行人重识别检索任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110436422.3A CN113326731B (zh) | 2021-04-22 | 2021-04-22 | 一种基于动量网络指导的跨域行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110436422.3A CN113326731B (zh) | 2021-04-22 | 2021-04-22 | 一种基于动量网络指导的跨域行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326731A true CN113326731A (zh) | 2021-08-31 |
CN113326731B CN113326731B (zh) | 2024-04-19 |
Family
ID=77415041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110436422.3A Active CN113326731B (zh) | 2021-04-22 | 2021-04-22 | 一种基于动量网络指导的跨域行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326731B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435546A (zh) * | 2021-08-26 | 2021-09-24 | 广东众聚人工智能科技有限公司 | 基于区分置信度水平的可迁移图像识别方法及系统 |
CN113642547A (zh) * | 2021-10-18 | 2021-11-12 | 中国海洋大学 | 一种基于密度聚类的无监督域适应人物重识别方法及系统 |
CN113723345A (zh) * | 2021-09-09 | 2021-11-30 | 河北工业大学 | 基于风格转换和联合学习网络的域自适应行人再识别方法 |
CN113807420A (zh) * | 2021-09-06 | 2021-12-17 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN113822262A (zh) * | 2021-11-25 | 2021-12-21 | 之江实验室 | 一种基于无监督学习的行人重识别方法 |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
CN114333062A (zh) * | 2021-12-31 | 2022-04-12 | 江南大学 | 基于异构双网络和特征一致性的行人重识别模型训练方法 |
CN114373100A (zh) * | 2022-01-06 | 2022-04-19 | 中南大学 | 一种浮选工况跨域识别方法 |
CN114565799A (zh) * | 2022-04-27 | 2022-05-31 | 南京邮电大学 | 一种基于多网络框架的对比自监督学习方法 |
CN114692732A (zh) * | 2022-03-11 | 2022-07-01 | 华南理工大学 | 一种在线标签更新的方法、系统、装置及存储介质 |
CN114724075A (zh) * | 2022-03-04 | 2022-07-08 | 中山大学 | 一种基于动量网络和对比学习的行人重识别方法及系统 |
CN114863200A (zh) * | 2022-03-21 | 2022-08-05 | 北京航空航天大学 | 视线估计方法、设备及存储介质 |
CN114882531A (zh) * | 2022-05-19 | 2022-08-09 | 重庆大学 | 一种基于深度学习的跨域行人再识别方法 |
CN114913372A (zh) * | 2022-05-10 | 2022-08-16 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别算法 |
CN114937289A (zh) * | 2022-07-06 | 2022-08-23 | 天津师范大学 | 一种基于异构伪标签学习的跨域行人检索方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163117A (zh) * | 2019-04-28 | 2019-08-23 | 浙江大学 | 一种基于自激励判别性特征学习的行人重识别方法 |
CN110443174A (zh) * | 2019-07-26 | 2019-11-12 | 浙江大学 | 一种基于解耦自适应判别性特征学习的行人重识别方法 |
US20200125897A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-Supervised Person Re-Identification Using Multi-View Clustering |
US20200226421A1 (en) * | 2019-01-15 | 2020-07-16 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN111860678A (zh) * | 2020-07-29 | 2020-10-30 | 中国矿业大学 | 一种基于聚类的无监督跨域行人重识别方法 |
CN112232439A (zh) * | 2020-11-06 | 2021-01-15 | 四川云从天府人工智能科技有限公司 | 非监督ReID中的伪标签更新方法及系统 |
CN112232241A (zh) * | 2020-10-22 | 2021-01-15 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
WO2021022752A1 (zh) * | 2019-08-07 | 2021-02-11 | 深圳先进技术研究院 | 一种多模态三维医学影像融合方法、系统及电子设备 |
-
2021
- 2021-04-22 CN CN202110436422.3A patent/CN113326731B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125897A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-Supervised Person Re-Identification Using Multi-View Clustering |
US20200226421A1 (en) * | 2019-01-15 | 2020-07-16 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN110163117A (zh) * | 2019-04-28 | 2019-08-23 | 浙江大学 | 一种基于自激励判别性特征学习的行人重识别方法 |
CN110443174A (zh) * | 2019-07-26 | 2019-11-12 | 浙江大学 | 一种基于解耦自适应判别性特征学习的行人重识别方法 |
WO2021022752A1 (zh) * | 2019-08-07 | 2021-02-11 | 深圳先进技术研究院 | 一种多模态三维医学影像融合方法、系统及电子设备 |
CN111860678A (zh) * | 2020-07-29 | 2020-10-30 | 中国矿业大学 | 一种基于聚类的无监督跨域行人重识别方法 |
CN112232241A (zh) * | 2020-10-22 | 2021-01-15 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
CN112232439A (zh) * | 2020-11-06 | 2021-01-15 | 四川云从天府人工智能科技有限公司 | 非监督ReID中的伪标签更新方法及系统 |
Non-Patent Citations (2)
Title |
---|
何爱清: ""基于伪标签优化的跨域行人重识别方法研究"", 《中国优秀硕士学位论文全文数据库》 * |
杨昌东;余烨;徐珑刀;付源梓;路强;: "基于AT-PGGAN的增强数据车辆型号精细识别", 中国图象图形学报, no. 03 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435546B (zh) * | 2021-08-26 | 2021-12-24 | 山东力聚机器人科技股份有限公司 | 基于区分置信度水平的可迁移图像识别方法及系统 |
CN113435546A (zh) * | 2021-08-26 | 2021-09-24 | 广东众聚人工智能科技有限公司 | 基于区分置信度水平的可迁移图像识别方法及系统 |
CN113807420B (zh) * | 2021-09-06 | 2024-03-19 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN113807420A (zh) * | 2021-09-06 | 2021-12-17 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN113723345A (zh) * | 2021-09-09 | 2021-11-30 | 河北工业大学 | 基于风格转换和联合学习网络的域自适应行人再识别方法 |
CN113723345B (zh) * | 2021-09-09 | 2023-11-14 | 河北工业大学 | 基于风格转换和联合学习网络的域自适应行人再识别方法 |
CN113642547A (zh) * | 2021-10-18 | 2021-11-12 | 中国海洋大学 | 一种基于密度聚类的无监督域适应人物重识别方法及系统 |
CN113642547B (zh) * | 2021-10-18 | 2022-02-11 | 中国海洋大学 | 一种基于密度聚类的无监督域适应人物重识别方法及系统 |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
CN113822262A (zh) * | 2021-11-25 | 2021-12-21 | 之江实验室 | 一种基于无监督学习的行人重识别方法 |
CN114333062A (zh) * | 2021-12-31 | 2022-04-12 | 江南大学 | 基于异构双网络和特征一致性的行人重识别模型训练方法 |
CN114333062B (zh) * | 2021-12-31 | 2022-07-15 | 江南大学 | 基于异构双网络和特征一致性的行人重识别模型训练方法 |
CN114373100A (zh) * | 2022-01-06 | 2022-04-19 | 中南大学 | 一种浮选工况跨域识别方法 |
CN114724075A (zh) * | 2022-03-04 | 2022-07-08 | 中山大学 | 一种基于动量网络和对比学习的行人重识别方法及系统 |
CN114692732A (zh) * | 2022-03-11 | 2022-07-01 | 华南理工大学 | 一种在线标签更新的方法、系统、装置及存储介质 |
CN114863200A (zh) * | 2022-03-21 | 2022-08-05 | 北京航空航天大学 | 视线估计方法、设备及存储介质 |
CN114565799B (zh) * | 2022-04-27 | 2022-07-08 | 南京邮电大学 | 一种基于多网络框架的对比自监督学习方法 |
CN114565799A (zh) * | 2022-04-27 | 2022-05-31 | 南京邮电大学 | 一种基于多网络框架的对比自监督学习方法 |
CN114913372A (zh) * | 2022-05-10 | 2022-08-16 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别算法 |
CN114913372B (zh) * | 2022-05-10 | 2023-05-26 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别方法 |
CN114882531A (zh) * | 2022-05-19 | 2022-08-09 | 重庆大学 | 一种基于深度学习的跨域行人再识别方法 |
CN114882531B (zh) * | 2022-05-19 | 2025-04-01 | 重庆大学 | 一种基于深度学习的跨域行人再识别方法 |
CN114937289A (zh) * | 2022-07-06 | 2022-08-23 | 天津师范大学 | 一种基于异构伪标签学习的跨域行人检索方法 |
CN114937289B (zh) * | 2022-07-06 | 2024-04-19 | 天津师范大学 | 一种基于异构伪标签学习的跨域行人检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326731B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Zhang et al. | Discovering new intents with deep aligned clustering | |
CN111178432B (zh) | 多分支神经网络模型的弱监督细粒度图像分类方法 | |
CN109034205B (zh) | 基于直推式半监督深度学习的图像分类方法 | |
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
US11182602B2 (en) | Method and system for person re-identification | |
CN112765352A (zh) | 基于具有自注意力机制的图卷积神经网络文本分类方法 | |
CN108399428A (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN110717526A (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
CN110647907B (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
CN110443257B (zh) | 一种基于主动学习的显著性检测方法 | |
CN114170333B (zh) | 基于直推式半监督深度学习的图像哈希编码方法 | |
CN111079847A (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN114357221B (zh) | 一种基于图像分类的自监督主动学习方法 | |
CN111368920A (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN113361627A (zh) | 一种面向图神经网络的标签感知协同训练方法 | |
CN114299362B (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN113743474A (zh) | 基于协同半监督卷积神经网络的数字图片分类方法与系统 | |
CN111695531B (zh) | 一种基于异构卷积网络的跨域行人再识别方法 | |
CN116977730A (zh) | 一种基于迁移学习的无监督低质量图像分类方法 | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |