CN109359684A

CN109359684A - 基于弱监督定位和子类别相似性度量的细粒度车型识别方法

Info

Publication number: CN109359684A
Application number: CN201811208757.4A
Authority: CN
Inventors: 戴兴华; 王朝晖; 刘纯平; 钟珊; 龚声蓉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-02-19
Anticipated expiration: 2038-10-17
Also published as: CN109359684B

Abstract

本发明公开了一种基于弱监督定位和子类别相似性度量的细粒度车型识别方法，包括：1）弱监督定位：用预训练好的VGG‑Net网络对图像目标定位，对卷积层的掩码图进行处理，获取目标物体的边界框；2）构建模糊相似矩阵：将训练集中定位后的图片利用B‑CNN网络提取特征，根据softmax分类结果得到度量各子类别相似性的模糊相似矩阵；3）采样组建三元组集：在模糊相似矩阵基础上采样组建三元组；4）联合学习改进的损失函数：利用改进的损失函数联合学习改进的triplet损失和加权的softmax损失对同一子类别样本间距离进行限制，增大不同子类别样本间的距离。本发明较原始模型定位更加准确、并且在分类准确性上有明显提升，能够很好地对车辆目标进行定位。

Description

基于弱监督定位和子类别相似性度量的细粒度车型识别方法

技术领域

本发明涉及一种基于弱监督定位和子类别相似性度量的细粒度车型识别方法。

背景技术

细粒度车型识别作为细粒度图像分类问题的子问题，在传统车型识别只识别出车辆生产商的基础上，还要区分出同一车辆品牌旗下不同车辆的型号，如奥迪S5和奥迪S4等。

细粒度车型识别的目的是识别任意角度及场景下的车辆外观图像判断出车辆生产厂家、车辆型号等信息，在智慧交通、安防、汽车销售等领域具有重要意义。细粒度车型识别问题中不同车型类别间的差别往往很细微，具有显著区分度的信息只存在于细小的区域，因此需要对这些区域的信息进行特征编码。近年来随着大数据、硬件计算能力的提升，利用深度学习提取特征来改善细粒度车型识别效果已逐渐成为一种新的需求，与传统识别方法相比，有效的利用卷积神经网络可在训练数据驱动下自适应地构建深度特征描述，从而获取数据更抽象、更本质的表征。利用细粒度车型识别技术，可以在智能交通领域对道路交通情况进行统计，在汽车销售领域帮助潜在购车用户更好地了解感兴趣的车辆信息。

尽管细粒度车型识别的方法不同，但基本研究主要集中在以下两个方面：第一类是通过人工设计的特征提取方法来对输入图片进行特征提取，这类方法往往会通过对齐、校准、3D重建等方法消除车辆姿势及视角的影响。大多数基于人工设计特征的方法都是使用人为设计的特征提取方法将输入车辆图片转换为特征向量，再基于特征向量和分类算法来训练模型。Deng等人提出气泡集方法(BB)，人为划分具有区分度的图像区域，提取该区域的尺度不变特征变换及颜色直方图特征，使用支持向量机分类在车型识别数据集上取得了较好的识别效果，但缺点是需要大量人工标注信息。Krause等人通过建立图像的3维几何估计，将BB方法提升到了3维空间来消除不同视角的影响，大幅提升了识别准确率，但由于数据处理的复杂性因此难以扩展到较大的数据集。总得来说，基于人工特征的方法特征表征能力相对较弱，并且为了消除车辆姿势及视角的影响加大了整体模型的复杂度，计算也更耗时；

第二类是基于深度学习的方法，这类方法利用卷积神经网络在训练数据驱动下自适应地构建特征描述，找出具有区分度的部件信息来预测每款车辆的具体型号。当前，机器学习、深度学习研究方兴未艾，很多学者提出了基于卷积神经网络的细粒度车型识别方法，充分利用卷积神经网络的特征提取能力，并针对细粒度分类视觉差异主要集中在局部部件的特点进行优化。Yang等人建立了一个大规模的车辆数据库“CompCars”，通过深度网络的训练将结果用于车型分类、车型验证和车辆属性研究。Fu等人提出循环注意力卷积神经网络(RACNN)以相互强化的方式学习区域定位与特征表征，由粗到细迭代生成区域注意力，以端到端的训练方式大幅提升了识别精度。Hu等人则结合车辆位置信息与视觉显著性来对车辆精确定位，联合优化车型识别及车辆的视角分类两个任务，引入更多信息对视角变化的情况进行处理。Lin等人提出端到端的B-CNN模型，用两个神经网络在每个位置同时提取特征，然后将两个特征外积得到双线性特征，虽然提取的是全局特征，但是也包含了局部信息，因此它在不需要人工标记的同时，准确率也可以和基于部件的模型相媲美。基于深度学习的方法抛弃了人工特征改用卷积神经网络提取深度特征取得了显著的成果，但是深度学习模型计算量巨大，因此需要在网络优化的同时进一步提高网络的分类能力。

就细粒度车型识别而言，现有方法主要存在两个问题：

1、精准的车辆定位。在细粒度车型识别问题中，带有区分性的信息往往存在于细小的局部区域，且由于光照强度不同、背景复杂、车辆被遮挡等因素，使得针对具有显著区分度的区域的检测非常困难，因此需要先对图像进行定位获取目标物体的边界框。目前主流的目标检测和定位算法大多依赖于额外的标注信息，导致实用性大打折扣。虽然出现了一些弱监督的目标检测定位方法，但其通常重点关注某一局部区域的定位，丢失了其他局部细节信息，因此需要先对车辆进行精准的目标定位。

2、另外一个值得关注的问题是子类别相似。细粒度图像分类各子类别存在类间差异小，类内差异大的现象，且各子类别间的模糊相似程度不同，奥迪S4和S5间相似度就远远高于奥迪S4与宝马Z4之间的相似度。现有的细粒度车型识别方法都是对所有子类别同等对待，导致相似度高的子类别之间的区分度不高，因此车型识别时需要对各类别间的整体相似度进行度量，并扩大类间差异且减少类内差异。

发明内容

本发明解决的技术问题是提供一种基于弱监督定位和子类别相似性度量的细粒度车型识别方法。

本发明的技术方案是：一种基于弱监督定位和子类别相似性度量的细粒度车型识别方法，包括以下步骤：1)弱监督定位：首先用预训练好的VGG-Net网络对图像目标定位，以减少背景干扰，接着对卷积层的掩码图进行处理，获取目标物体的边界框；2)构建模糊相似矩阵：将训练集中定位后的图片利用B-CNN网络提取特征，之后根据softmax分类结果得到度量各子类别相似性的模糊相似矩阵；3)采样组建三元组集：在模糊相似矩阵基础上采样组建三元组，相似度越高的两个不同子类别采样比率越高，特征间距越大的同一子类别的图像越容易被选中；4)联合学习改进的损失函数：利用改进的损失函数联合学习改进的triplet损失和加权的softmax损失对同一子类别样本间距离进行限制，同时增大不同子类别样本间的距离。

进一步的，本发明中步骤1)具体包括：

1.1)获取掩码图

输入图像I送入VGG-Net，“pool5”表示经过最大池化后最后一层卷积层的响应，即d张h×w的二维特征图，记为F＝{F_n}(n＝1,...,d)，其中F_n对应第n个通道h×w的二维特征图，F共有h×w个位置，每个位置(i,j)含有一个1×d维的卷积描述子x_(i,j)∈R^d(i∈{1,...,h},j∈{1,...,w})；然后将pool₅响应沿深度方向加和，得到二维矩阵最后选取F所有位置响应的平均值作为阈值来指导弱监督定位，并将F中大于阈值的这部分区域称作掩码图M；

1.2)两层掩码图融合

获取比pool₅浅三层的relu_{5_2}层的掩码图M'，根据M'大小将pool₅层对应的掩码图上采样，对两个掩码图进行融合，只有当两个掩码图在同一位置(i,j)处对应元素均为1时该位置才予以保留，得到最终relu_{5_2}层的目标掩码图

1.3)获取边界框

在二值图像上标记连通区域，选出最大连通区域并在对应的掩码图进行凸包处理，确保连通区域包含更多的目标，将最大连通区域所对应的最小外接矩形作为最终的目标边界框。

进一步的，本发明中步骤1)还包括在步骤1.3)之后，对定位准确性进行判别，通过采用交并比来验证目标边界框是否为目标位置，A是定位得到的边界框，B为真实标注框，IoU是A和B的交集占A和B的并集的比率，选取0.5作为阈值进行判断，即定位所得的边界框与标注框重合度大于等于0.5就认为定位正确，否则定位错误。

进一步的，本发明中步骤2)具体包括：对于图像I，提取双线性特征f后采用softmax分类，将k个分类返回值连接成一个新的特征向量f_s，f_s(i)表示将图像I分为第i类的softmax返回值；然后对属于同一子类别内所有样本的softmax返回值求期望，得到该子类别整体上被分类为所有类别的平均概率值；最后求出每个子类别的softmax平均分类返回值，得到一个k×k维的模糊相似矩阵S，表示为：

S_ij＝E(f_s) (1)

其中矩阵元素S_ij表示类别i和类别j的相似性，S_ij值越大越相似。

进一步的，本发明中步骤3)具体包括：

3.1)计算三元组集采样分布矩阵

将模糊相似矩阵S的所有主对角元素提取出来构成一个对角矩阵diag(S₁₁,S₂₂,...,S_kk)，构建抽样分布矩阵C，表示为：

C＝S-diag(S₁₁,S₂₂,...,S_kk) (2)

对抽样分布矩阵C的所有元素归一化，使得C中所有元素之和为1，其中C_ij表示三元组中正负样本对由子类别C_i和C_j组成的概率，给定三元组总数t，由C_i和C_j组成的三元组数即为t×C_ij；

3.2)选择三元组

使用当前的网络获取每张图像的特征表达，对于某张参考图像，根据公式(3)计算概率来选取k张相同子类别的正样本图像，即特征间距越大的同一子类别的图像越容易被选中；对于负样本的选取，则根据模糊相似矩阵选择不是相同子类别的特征距离最近的k张图像：

其中，P_ij表示对图像i选中同类别图像j作为正样本的概率，D(i,j)表示图像i、j在特征空间上的欧式距离。

进一步的，本发明中步骤4)具体包括：

4.1)改进的triplet损失

在triplet损失函数中增加一个新的约束条件来对同一子类别内正样本对的距离进行约束，使得属于相同子类别的样本对间的距离小于λ₂，即：

则改进后的triplet loss函数表达式为：

其中λ₂为类内差异距离阈值，要求λ₁＞λ₂＞0，β是类内距离所占的比重；

4.2)加权的softmax损失

根据模糊相似矩阵S得到某子类别i被错分为其他类别的概率P_i：

则加权的softmax损失被定义为：

其中f_s(i)表示将图像I分为第i类的softmax返回值；

4.3)级联学习损失

双线性特征经过l₂标准化后分别输入到三元组损失层和softmax层计算L_triplet和L_softmax，最后通过公式(8)组合来整合这两类损失：

L＝αL_softmax+(1-α)L_triplet (8)

其中α为控制两种损失函数比重的参数，α值越大即softmax损失所占比重越大。

本发明与现有技术相比具有以下优点：

1)本发明提出一种基于VGG-Net的弱监督定位算法。将得到掩码图与原图进行重叠得到最终的车辆区域边界框。该模型对现有的一个图像检索模型进行改进，原模型有“图像中仅存在一个主要物体”的潜在假设，得到的掩码图缺失了部分细节，并且混杂了部分细小的噪声区域，本方法对得到的掩码图挑选出最大连通区域并删除其他零散的、小块区域，并对最大连通区域对应的掩码图部分进行凸包处理，以保证目标区域更大部分在连通区域中，修补重要细节区域的同时去除疑似噪声区域。实验结果充分证明该方法较原始模型定位更加准确。

2)本发明中，为增强对相似子类别的区分能力，提出了基于相似性度量的细粒度图像分类方法。该方法的核心是利用双线性模型提取特征，在训练集上得到度量各子类别间相似度的模糊相似矩阵，接着根据模糊相似矩阵自适应的对两个不同子类别采样组成三元组，最后利用改进的损失函数联合学习改进的triplet损失和加权的softmax损失对同一子类别样本间距离进行限制，同时增大不同子类别样本间的距离，得到最终的分类结果。实验结果证明提出的方法在分类准确性上有明显提升。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明方法的框架构图；

图2为本发明中弱监督定位过程示意图；

图3为本发明中三种损失函数与迭代次数的关系曲线图(其中①号曲线为B-CNN+improved triplet loss，②号曲线为B-CNN+weighted softmax loss，③号曲线为B-CNN+weighted softmax&improved triplet loss)。

具体实施方式

实施例：

结合附图所示为本发明一种基于弱监督定位和子类别相似性度量的细粒度车型识别方法的具体实施方式，其包括弱监督定位、构建模糊相似矩阵、采样组建三元组集、联合学习改进的损失函数四个步骤。

1)弱监督定位

弱监督定位不依赖除类别标签外的额外标注信息。由于各卷积层得到的深度特征逐渐从底层特征过渡到高层语义特征，不同卷积特征集成可以相互补充，提升最终的定位精度。因此对卷积描述子筛选，选出描述主要物体有价值的卷积描述子同时摒弃噪声，得到修正的掩码图，将掩码图与原图重合，得到目标车辆边界框对应的图片。

具体的，弱监督定位首先是用预训练好的VGG-Net网络对图像目标定位，以减少背景干扰，接着对卷积层的掩码图进行处理，获取目标物体的边界框，其主要分为以下三个步骤：

1.1)获取掩码图

在CNN前向计算过程中，不同卷积核提取的图像特征不同，将卷积输出中所有通道的卷积结果称为“响应”，使用“特征图”表示卷积输出某一单独通道对应的结果，将一个维度为1×d的响应向量叫做卷积特征描述子。输入图像I送入VGG-Net，“pool5”表示经过最大池化后最后一层卷积层的响应，即d张h×w的二维特征图，记为F＝{F_n}(n＝1,...,d)，其中F_n对应第n个通道h×w的二维特征图，F共有h×w个位置，每个位置(i,j)含有一个1×d维的卷积描述子x_(i,j)∈R^d(i∈{1,...,h},j∈{1,...,w})。对VGG-Net卷积层各通道的特征图可视化，发现随着网络层数增加，各卷积层得到的特征逐渐从底层特征如边缘、纹理逐渐过渡到高层语义特征，且不同输入图片在同一通道的特征图上对应的最强响应差异很大，仅依赖单张特征图完成目标定位并不现实。考虑到物体分类的像素与物体的位置一致，将pool₅响应沿深度方向加和，得到二维矩阵如果(i,j)处响应越强，那么该位置为物体的可能性越大。最后选取F所有位置响应的平均值作为阈值来指导弱监督定位：若(i,j)处加和大于均值则该位置以大概率出现目标。将F中大于阈值的这部分区域称作掩码图M；

1.2)两层掩码图融合

由于不同卷积核提取的图像特征不同，将不同卷积层掩码图融合，可在保留高层语义信息的同时加入局部信息。因此获取比pool₅浅三层的relu_{5_2}层的掩码图M'，根据M'大小将pool₅层对应的掩码图上采样，对两个掩码图进行融合，只有当两个掩码图在同一位置(i,j)处对应元素均为1时该位置才予以保留，得到最终relu_{5_2}层的目标掩码图

1.3)获取边界框

将双三次插值调整为原输入图像大小。如图2所示，发现融合后的掩码图虽然检测到目标的轮廓区域，但缺失了部分细节，并且混杂了左右两边的噪声区域，因此需对调整后的掩码图进行处理，修补重要细节区域的同时去除疑似噪声区域。考虑到B-CNN优异的提取特征的能力，因此弱监督定位的目标是得到目标的外形轮廓。因此在二值图像上标记连通区域，选出最大连通区域并在对应的掩码图进行凸包处理，确保连通区域包含更多的目标，将最大连通区域所对应的最小外接矩形作为最终的目标边界框。

最后，对定位准确性进行判别，采用交并比(intersection over union,IoU)来验证目标边界框是否为目标位置，A是定位得到的边界框，B为真实标注框，IoU是A和B的交集占A和B的并集的比率，选取0.5作为阈值进行判断，即定位所得的边界框与标注框重合度大于等于0.5就认为定位正确，否则定位错误；

2)构建模糊相似矩阵

将训练集中定位后的图片利用B-CNN网络提取特征，根据softmax分类结果得到一个度量各子类别相似性的k×k(k为总的类别数)维的模糊相似矩阵。

具体对于图像I，提取双线性特征f后采用softmax分类，将k个分类返回值连接成一个新的特征向量f_s，f_s(i)表示将图像I分为第i类的softmax返回值。同时由于同一子类别的不同样本之间可能存在较大的类内差异，为了减小类内差异带来的影响，对属于同一子类别内所有样本的softmax返回值求期望，得到该子类别整体上被分类为所有类别的平均概率值，平均值越高表示这两个子类别越相似。求出每个子类别的softmax平均分类返回值，最终得到一个k×k维的模糊相似矩阵S，表示为：

S_ij＝E(f_s) (1)

其中矩阵元素S_ij表示类别i和类别j的相似性，S_ij值越大越相似；

3)采样组建三元组集

选择三元组时，若随机选择可能导致选中的三元组样本损失函数值为0，使得反向传播中对网络权值的更新影响很小，因此通过模糊相似矩阵来自适应的尽可能选取对triplet损失有较大贡献的样本。

具体的，该步骤主要是在模糊相似矩阵基础上采样组建三元组，相似度越高的两个不同子类别采样比率越高，特征间距越大的同一子类别的图像越容易被选中，其主要分为以下两个步骤：

3.1)计算三元组集采样分布矩阵

为了避免采集的三元组中的三张图片来自同一类别，将模糊相似矩阵S的所有主对角元素提取出来构成一个对角矩阵diag(S₁₁,S₂₂,...,S_kk)，构建抽样分布矩阵C，表示为：

C＝S-diag(S₁₁,S₂₂,...,S_kk) (2)

对抽样分布矩阵C的所有元素归一化，使得C中所有元素之和为1，其中C_ij表示三元组中正负样本对由子类别C_i和C_j组成的概率，给定三元组总数t，由C_i和C_j组成的三元组数即为t×C_ij。通过这样的方式，相似度更高的两个子类别会被更多的采样以提高对这两个子类别的区分能力。同时其他子类别间常规采样以确保分类模型能够正常的将其区分开；

3.2)选择三元组

具体采样时，首先使用当前的网络获取每张图像的特征表达；对于某张参考图像，根据公式(3)计算概率来选取k张相同子类别的正样本图像，即特征间距越大的同一子类别的图像越容易被选中；对于负样本的选取，则根据模糊相似矩阵选择不是相同子类别的特征距离最近的k张图像：

其中，P_ij表示对图像i选中同类别图像j作为正样本的概率，D(i,j)表示图像i、j在特征空间上的欧式距离；

4)联合学习改进的损失函数

由于三元组增加了输入且提取的特征更加精细化，与传统的softmax损失函数相比，triplet损失收敛速度较慢且更容易过拟合。为了提高网络模型的收敛速度，利用改进的损失函数联合学习改进的triplet损失和加权的softmax损失对同一子类别样本间距离进行限制，同时增大不同子类别样本间的距离。主要分为以下三个步骤：

4.1)改进的triplet损失

与传统triplet损失函数只考虑正负样本对的相对距离不同，为了减小类内差异，在triplet损失函数中增加一个新的约束条件来对同一子类别内正样本对的距离进行约束，使得属于相同子类别的样本对间的距离小于λ₂，即：

则改进后的triplet loss函数表达式为：

4.2)加权的softmax损失

传统的softmax损失函数使用的是对数损失函数，对所有的子类别同等对待。鉴于前面已经得到了能够有效度量各子类别间相似度的模糊相似矩阵，能够容易的求出某一子类别被错分类为其他子类别的概率，故对softmax损失进行改进，使得模型对于错分的惩罚更大，从而增强该模型对细粒度图像的分类能力。根据模糊相似矩阵S得到某子类别i被错分为其他类别的概率P_i：

则加权的softmax损失被定义为：

其中f_s(i)表示将图像I分为第i类的softmax返回值；

4.3)级联学习损失

L＝αL_softmax+(1-α)L_triplet (8)

本发明的验证实验使用数据集是：Stanford BMW-10和Cars-196。Stanford BMW-10数据集包含宝马10个车系的不同角度图片，每类车型训练集约25幅。由于训练样本较少且类别间差异极小，基于深度学习的方法通常会因过拟合而难以取得较好的识别效果。Stanford Cars-196数据集包含196类共16185张汽车图片，其中8144张训练图片，8041张测试数据。利用B-CNN提取训练集特征，获取模糊相似矩阵。在模糊相似矩阵基础上构建三元组抽样分布矩阵，采用构成三元组集，将改进的triplet损失与加权的softmax损失联合学习得到分类结果。

实验硬件环境：Ubuntu 16.04，GTX1080ti，显存12G，Core(TM)i7处理器，主频为3.4G，内存为16G。

代码运行环境：深度学习框架(Caffe)，python2.7，Matlab 2014a。

1、弱监督定位

有效的目标定位能够有效的去除背景对分类的影响，使用预训练的VGG-Net来进行弱监督定位。采用IoU来验证定位的准确率，由于很多基于部件定位的方法使用了额外的标注信息，或者没有给出整个目标物体的定位准确度。因此选取四种典型的弱监督定位算法的结果作为对比，实验结果如表1所示，从表中可以明显看出，本文的方法可取得比其他方法显著优异或相当的定位精度。

表1弱监督定位使用效果

为了验证弱监督定位在该模型中的有效性，将原始图像和利用目标框截取的图像分别作为输入进行对比实验，实验结果如表2。原始图像在Cars-196数据集上的正确率为91.3％，利用目标框截取的图像正确率为91.84％，因此随着弱监督定位使用，能够有效去除背景干扰，从而提升分类准确度。

表2目标框使用效果

方法	分类准确率
		原始图像	91.3
BBox图像	91.84

2、改进的损失函数实验分析

本文网络训练方法为随机梯度下降，由于设备限制将初始学习率设为0.001，每经过1000次迭代将学习速率衰减为原来的1/10，动量设为0.9，权值衰减系数设置为0.0002。在评价指标方面则采取了top-1准确率，即模型对测试集正确预测样本数除以总的测试样本数。

图3显示了3种训练方式的迭代次数与损失值的相关曲线，截取了前500次。其中①号曲线表示仅使用改进的triplet损失函数(B-CNN+improved triplet loss)，②号曲线为使用加权的softmax损失(B-CNN+weighted softmax loss)，而③号曲线则是两种损失函数联合学习的卷积网络(B-CNN+weighted softmax&improved triplet loss)。仔细观察能够发现相比于加权的softmax损失，改进的triplet损失网络因为增加了输入参数，学习信息较多，导致收敛速度最慢，在500次迭代之后还未稳定收敛。而联合学习的方式由于共享学到的信息，模型收敛速度较快并稳定在相对较低的值，这证明了本文方法的实用性。

3、与前人的工作比较

近两年不断涌现的深度学习方法不断刷新Cars-196数据集的识别准确率。表3显示了当前正确率表现最好的几种方法以及本文完整方法的结果。本文方法在不借助额外标注框的前提下取得了92.41％的识别准确率。从表中可以看出，本文的方法比基于传统B-CNN模型改进的方法如Improved B-CNN和LRBP效果都要好，但是低于在训练阶段使用额外标注信息的BoT和HSnet算法。也略低于采用多尺度网络的RA-CNN和获得多个强区分性区域的MA-CNN算法。同时本方法也低于分层的双线性池化(hierarchical bilinear pooling,HBP)算法，该算法改进了传统B-CNN，将最后一层卷积层的特征与低层特征融合后参与分类，保留高层语义特征的同时加入例如低层局部信息，是目前已知的B-CNN系列算法在Cars-196数据集上的最高识别效率。

表3 Cars-196数据集上与前人的工作比较

算法	边界框	正确率
			BoT(CNNWithGeo)	√	92.5
Hsnet	√	93.9
			B-CNN		91.3
ImprovedB-CNN		92.0
			LRBP		90.92
KernelPooling		92.4
			RA-CNN		92.5
MA-CNN		92.8
			HBP		93.7
Ours		92.41

表4显示了本文识别方法与典型细粒度识别方法在BMW-10数据集上的识别效果对比。因为车型类别之间视觉差异极其细微，传统基于手工特征的方法识别效率不佳。BB方法通过人工选择具有区分度的图像区域增强对于局部特征的表征，取得了69.3％的识别效果，充分证明了具有辨识力的局部特征能够有效提高细粒度识别准确度。通过将该方法提升到3D空间消除视角的影响，使得识别准确率提升至76.0％。本文方法在不借助额外标注框的前提下，将最后一层卷积层的掩码图与低层掩码图融合完成对目标车辆的定位，在模糊相似矩阵的指导下参与分类，取得了78.14％的识别准确率，比BB提升至3D的方法提高了2.14％，从而进一步验证了本方法的有效性。

表4 Stanford BMW-10数据集上与前人的工作比较

算法	边界框	正确率
			SPM	√	66.1
BB	√	69.3
			SPM-3D-L		67.3
BB-3D-G		76.0
			Ours		78.14

当然上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于弱监督定位和子类别相似性度量的细粒度车型识别方法，其特征在于，包括以下步骤：

1)弱监督定位

首先用预训练好的VGG-Net网络对图像目标定位，以减少背景干扰，接着对卷积层的掩码图进行处理，获取目标物体的边界框；

2)构建模糊相似矩阵

将训练集中定位后的图片利用B-CNN网络提取特征，之后根据softmax分类结果得到度量各子类别相似性的模糊相似矩阵；

3)采样组建三元组集

在模糊相似矩阵基础上采样组建三元组，相似度越高的两个不同子类别采样比率越高，特征间距越大的同一子类别的图像越容易被选中；

4)联合学习改进的损失函数

利用改进的损失函数联合学习改进的triplet损失和加权的softmax损失对同一子类别样本间距离进行限制，同时增大不同子类别样本间的距离。

2.根据权利要求1所述的基于弱监督定位和子类别相似性度量的细粒度车型识别方法，其特征在于：步骤1)具体包括：

1.1)获取掩码图

1.2)两层掩码图融合

1.3)获取边界框

3.根据权利要求2所述的基于弱监督定位和子类别相似性度量的细粒度车型识别方法，其特征在于：步骤1)还包括在步骤1.3)之后，对定位准确性进行判别，通过采用交并比来验证目标边界框是否为目标位置，A是定位得到的边界框，B为真实标注框，IoU是A和B的交集占A和B的并集的比率，选取0.5作为阈值进行判断，即定位所得的边界框与标注框重合度大于等于0.5就认为定位正确，否则定位错误。

4.根据权利要求1所述的基于弱监督定位和子类别相似性度量的细粒度车型识别方法，其特征在于：步骤2)具体包括：对于图像I，提取双线性特征f后采用softmax分类，将k个分类返回值连接成一个新的特征向量f_s，f_s(i)表示将图像I分为第i类的softmax返回值；然后对属于同一子类别内所有样本的softmax返回值求期望，得到该子类别整体上被分类为所有类别的平均概率值；最后求出每个子类别的softmax平均分类返回值，得到一个k×k维的模糊相似矩阵S，表示为：

S_ij＝E(f_s) (1)

5.根据权利要求1所述的基于弱监督定位和子类别相似性度量的细粒度车型识别方法，其特征在于：步骤3)具体包括：

3.1)计算三元组集采样分布矩阵

C＝S-diag(S₁₁,S₂₂,...,S_kk) (2)

3.2)选择三元组

6.根据权利要求1所述的基于弱监督定位和子类别相似性度量的细粒度车型识别方法，其特征在于：步骤4)具体包括：

4.1)改进的triplet损失

则改进后的triplet loss函数表达式为：

4.2)加权的softmax损失

则加权的softmax损失被定义为：

其中f_s(i)表示将图像I分为第i类的softmax返回值；

4.3)级联学习损失

L＝αL_softmax+(1-α)L_triplet (8)