发明内容
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,优化了MMAL-Net网络结构,通过减少网络分支层数,来减少整体模型的计算量,也降低了训练模型对硬件的要求;在新分支结构的基础上,加入软阈值惩罚机制模块,来抵制图像中出现的噪声;有效屏蔽干扰信息,从而使得整体精度提升。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,包括:
步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
步骤2:获取待分类图像;
步骤3:对所述待分类图像进行预处理;
步骤4:基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
优选的,所述步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络,包括:
构建第一网络分支,所述第一网络分支包括:依次连接的Input448*448*3、第一ResNet50、Feature14*14*2048、第一GAP、第一FC和第一Softmax;
构建第二网络分支,所述第二网络分支包括:依次连接的Input224*224*3*mult、第二ResNet50、Feature*7*7*2048*mult、第二GAP、第二FC和第二Softmax;
将所述第二网络分支中的Input224*224*3*mult通过crop与所述第一网络分支中的Input448*448*3连接;
将所述第一网络分支中的Feature14*14*2048通过APPM与所述crop连接;
为所述第一网络分支设置第一损失函数RawLoss;
为所述第二网络分支设置第二损失函数PartLoss;
在所述APPM中设置软阈值惩罚机制;
所述第一网络分支、第二网络分支、APPM和crop组成二级级联网络结构的细粒度图像分类网络。
优选的,所述APPM是基于SCDA形成,将所述APPM对特征提取出来的所述Feature14*14*2048沿着池化层的通道方向进行合拢,得到14*14*1的二维图,用预设的多个不同尺寸的滑窗对所述二维图进行滑窗计算,计算过程如公式(2-1)所示:
其中,H和W分别为滑窗的高度和宽度,A(x,y)为合拢好的二维图的坐标位置对应的数值,aw为滑窗计算结果。
优选的,所述第一损失函数RawLoss的公式如公式(2-2)所示:
其中,mi为第i个样本图像,ni为第一卷积神经网络CNN对应于第i个样本图像的预测概率。
优选的,所述第二损失函数PartLoss的公式如公式(2-3)所示:
其中,q为由所述第二ResNet50筛选出的局部特征区域个数,miq为第i个样本图像对应的第q个局部特征区域个数,niq为第二卷积神经网络CNN对应于第i个样本图像对应的第q个局部特征区域个数的预测概率。
优选的,所述软阈值惩罚机制包括:
设F(x,y)为不含噪声的图像,N(x,y)为噪声,G(x,y)为噪声影响之后的图像,选用L1/2范式进行模型的建立如公式(2-5)所示:
i表示的是图像的序号,当进行图像迭代处理时,G(xi,yi)-F(xi,yi)出现残差,说明图像中出现噪声,并造成影响;
通过软阈值来限定残差状态,先构造惩罚因子||G(xi,yi)-F(xi,yi)||h,来限制G(xi,yi)-F(xi,yi)不大于0,从而降低图像被噪声干扰的程度,如公式(2-6)所示:
公式中λ表示惩罚系数,调节该系数可以使结果接近真实值,由于又软阈值的限制,近似值也可能会出现在真实值的之上,因此软阈值可以有效降低噪声干扰的影响。
优选的,为进一步优化软阈值方法,可进一步修改目标函数,如公式(2-7)所示:
其中,V为辅助变量,λ1和λ2均为惩罚系数,在计算过程中,使用软阈值算法对V进行迭代更新处理。
优选的,所述步骤2:获取待分类图像,包括:
当用户在相册的查看界面触控圈选多个第一照片形成圈选框且所述圈选框在预设的第一时间内沿同一扩大方向扩大时,获取并输出预设的免触圈选提示信息,同时,控制所述圈选框沿所述扩大方向以预设的第一扩大速度继续进行扩大;
动态获取所述用户当前的眼部视线;
确定所述查看界面内对应于所述眼部视线的第一注视点位;
若所述第一注视点位落在所述查看界面内的所述圈选框内,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第一垂直距离;
基于所述第一垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-8)所示:
其中,v
1′为调整后的所述第一扩大速度,v
1为调整前的所述第一扩大速度,l
1为所述第一垂直距离,
为预设的第一关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在预设的第二时间内发生变化,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第二垂直距离;
基于所述第二垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-9)所示:
其中,v
2′为调整后的所述第一扩大速度,v
2为调整前的所述第一扩大速度,l
2为所述第二垂直距离,
为预设的第二关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在所述第二时间内未发生变化,获取所述查看界面内对应于所述第一注视点位的第二照片;
当所述第二照片刚好进入所述圈选框时,控制所述圈选框停止扩大;
获取所述圈选框的所述扩大方向上的目标框边的移动类型;
当所述移动类型为向下换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片右侧的全部第三照片;
当所述移动类型为向上换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片左侧的全部第四照片;
当所述移动类型为向右换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片下侧的全部第五照片;
当所述移动类型为向左换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片上侧的全部第六照片;
退选完成后,将所述圈选框内圈选的全部第七照片作为待分类图像,完成获取。
优选的,所述获取所述查看界面内对应于所述第一注视点位的第二照片,包括:
获取显示界面当前的缩略比例;
获取对应于所述显示界面的大小的预设的缩略比例阈值;
若所述缩略比例大于等于所述缩略比例阈值,确定所述查看界面内位于所述第一注视点位的第八照片,并作为第二照片,完成获取;
否则,确定所述查看界面内位于所述第一注视点位的多个第九照片;
基于所述第九照片,生成截止照片放大确认框;
在所述显示界面内悬浮显示所述截止照片放大确认框;
确定所述查看界面内对应于所述用户当前的眼部视线的第二注视点位;
当所述第二注视点位落在所述截止照片放大确认框内且在预设的第三时间内所述第二注视点位未发生改变时,将所述截止照片放大确认框内位于所述第二注视点位的所述第九照片,并作为第二照片,完成获取。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类系统,包括:
构建模块,用于基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
获取模块,用于获取待分类图像;
预处理模块,用于对所述待分类图像进行预处理;
分类模块,用于基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,如图1所示,包括:
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,包括:
步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
步骤2:获取待分类图像;
步骤3:对所述待分类图像进行预处理;
步骤4:基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
所述步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络,包括:
构建第一网络分支,所述第一网络分支包括:依次连接的Input448*448*3、第一ResNet50、Feature14*14*2048、第一GAP、第一FC和第一Softmax;
构建第二网络分支,所述第二网络分支包括:依次连接的Input224*224*3*mult、第二ResNet50、Feature*7*7*2048*mult、第二GAP、第二FC和第二Softmax;
将所述第二网络分支中的Input224*224*3*mult通过crop与所述第一网络分支中的Input448*448*3连接;
将所述第一网络分支中的Feature14*14*2048通过APPM与所述crop连接;
为所述第一网络分支设置第一损失函数RawLoss;
为所述第二网络分支设置第二损失函数PartLoss;
在所述APPM中设置软阈值惩罚机制;
所述第一网络分支、第二网络分支、APPM和crop组成二级级联网络结构的细粒度图像分类网络。
所述APPM是基于SCDA形成,将所述APPM对特征提取出来的所述Feature14*14*2048沿着池化层的通道方向进行合拢,得到14*14*1的二维图,用预设的多个不同尺寸的滑窗对所述二维图进行滑窗计算,计算过程如公式(2-1)所示:
其中,H和W分别为滑窗的高度和宽度,A(x,y)为合拢好的二维图的坐标位置对应的数值,aw为滑窗计算结果。
所述第一损失函数RawLoss的公式如公式(2-2)所示:
其中,mi为第i个样本图像,ni为第一卷积神经网络CNN对应于第i个样本图像的预测概率。
所述第二损失函数PartLoss的公式如公式(2-3)所示:
其中,q为由所述第二ResNet50筛选出的局部特征区域个数,miq为第i个样本图像对应的第q个局部特征区域个数,niq为第二卷积神经网络CNN对应于第i个样本图像对应的第q个局部特征区域个数的预测概率。
所述软阈值惩罚机制包括:
设F(x,y)为不含噪声的图像,N(x,y)为噪声,G(x,y)为噪声影响之后的图像,选用L1/2范式进行模型的建立如公式(2-5)所示:
i表示的是图像的序号,当进行图像迭代处理时,G(xi,yi)-F(xi,yi)出现残差,说明图像中出现噪声,并造成影响;
通过软阈值来限定残差状态,先构造惩罚因子||G(xi,yi)-F(xi,yi)||h,来限制G(xi,yi)-F(xi,yi)不大于0,从而降低图像被噪声干扰的程度,如公式(2-6)所示:
公式中λ表示惩罚系数,调节该系数可以使结果接近真实值,由于又软阈值的限制,近似值也可能会出现在真实值的之上,因此软阈值可以有效降低噪声干扰的影响。
为进一步优化软阈值方法,可进一步修改目标函数,如公式(2-7)所示:
其中,V为辅助变量,λ1和λ2均为惩罚系数,在计算过程中,使用软阈值算法对V进行迭代更新处理。
上述技术方案的工作原理及有益效果为:
本发明把MMAL-Net模型的三级级联网络修改成二级级联方式,把最后一级的推理任务放到了第一分支上。也就是说,在整个网络模型的运行过程中,仅需要通过一个普通的网络分类模型,就能得到分类细粒度网络的效果。其结构如图3所示。
Input448*448*3为图像输入(图像大小为448像素*448像素,R(红)、G(绿)、B(蓝)三个颜色通道);
第一ResNet50为一种网络模型,深度残差网络,50是指网络层数;
Feature14*14*2048为2048张14像素*14像素特征二维图;
第一GAP为全局平均池化(Global Average Pooling);
第一FC为全连接层(Fully Connection);
第一Softmax为作为输出层的激励函数,在机器学习中常被看作是一种多分类器。通俗的意思就是,将一个物品输入,得出其中可能属于的类别概率。
Input224*224*3*mult为对Input448*448*3进行crop方法所得到的固定大小的图像输入(第一分支图像输入的部分区块,图像大小为224像素*224像素,R(红)、G(绿)、B(蓝)三个颜色通道),mult是指图像裁剪后所得到固定区块数目。
第二ResNet50与第一ResNet50同理;
Feature*7*7*2048*mult为mult份2048张7像素*7像素特征二维图;
第二GAP、第二FC和第二Softmax分别与第一GAP、第一FC和第一Softmax同理;
Crop为裁剪,是直接从图像中截出一部分,保留原图像的真实尺寸比。根据图像裁剪的方法不同,所得到的裁剪图像的数量也不同。
经过图像预处理(滤波降噪、灰度化和缩至448像素*448像素大小),将缩至448像素*448像素大小的图像作为网络的第一级输入。在网络模型的设计过程中,以ResNet50作为特征提取的主干网络。残差块经过特殊的结构设计得到ResNet50网络,其中50是指深度网络中卷积层和全连接层的总层数,整体精度适中,总体的计算量也适中,ResNet50的残差块采用了BottleNeck结构,既不会影响精度,也不会降低整体的计算量,特征通道的数量为2048,也更有助于选择出具有辨识性的区域。整体上,网络的两个分支特征提取采用了参数共享的方式,不仅减少了整个网络的参数量,还能使个网络适用于不同尺寸、不同部位的图像。
网络的局部特征提取选用了APPM结构,是基于SCDA(Selective ConvolutionalDescriptor Aggregation,选择性卷积描述符聚合)的研究形成的。首先,将模块对特征提取出来的14*14*2048沿着通道方向进行合拢,便得到了14*14*1的二维图。14*14*1的二维图为1张14像素*14像素大小的图像特征二维图。
然后,用几种预先设定好的不同尺寸的滑窗来计算,滑窗内部的计算过程如公式(2-1)所示
预设好滑窗的高度和宽度分别是公式中的H和W,A(x,y)指合拢好的二维图坐标位置的对应数值,aw即表示通过当前的滑窗所计算出来的数值。A(x,y)为合拢好的二维图的坐标位置对应的数值具体为14*14*1的二维图在对应待分类图像即原始图像中位置坐标值。其次,对不同位置的aw值排序,其中输出值越大的区域就是具有辨识性特征的区域。最后,在存在特征区域重叠,不能简单排序的区域,使用NMS(non maximum suppression,非极大抑制)的方式选取多个高辨识性、低冗余度的候选区作为局部特征区域,成为第二层的输入图像。
本发明所采用的损失函数就是多分类问题中最常用的Cross-Entropy(交叉熵)损失。第一层Raw Loss公式如(2-2)所示
其中,i表示的是样本图像,mi表示的是样本图像的真实标号,通常代入1来计算,ni指的是此类别神经网络的预测概率。mi为第i个样本图像,该样本图像来源于上文滑窗截取的图像,共2048张,即i取值从1到2048。
第二层Part Loss公式如(2-3)所示
此处的q表示筛选出的局部特征区域个数,对每一块区域计算并得出损失值,最后求出平均值。miq为第i个样本图像对应的第q个局部特征区域具体为:该样本图像来源于第一分支预处理后的图像crop(裁剪)之后的图像,其对应的第q个局部特征区域。第二ResNet50筛选出的局部特征区域来自于待分类图像即原始图像预处理后的图像,即经过滤波降噪、灰度化后的图像,共2048个局部特征区域。
第一卷积神经网络CNN来自于第一ResNet50中,ResNet50就是卷积神经网络的一种网络模型;第二卷积神经网络与之同理。
总的损失函数公式如(2-4)所示
Losstotal=μLossraw+ωLosspart, (2-4)
Lossraw,losspart分别表示第一层和第二层的损失值,Losstotal即表示整体损失,μ和ω是取0-1之间的值,表示的是两层分支对整体网络的影响权重,用以调节。
为降低网络的复杂度,能够更好的被使用,本发明使用的轻量化方法使用的是SqueezeNet(轻量化卷积神经网)结构,首先采用1*1的卷积核对局部特征卷积,起到降维作用即减少输入的通道数量,然后在Expand层分别用1*1和3*3的卷积核进行卷积运算,最后将运行结果拼接得到最终的输出特征数据。
整体网络结构层次的减少,能够在识别准确率依旧高的条件下有效减少总的计算量。但是就原始数据集而言存在很多的环境噪声,又缺失主体监测的分支。本发明引入软阈值惩罚机制,来对局部特征提取能力进一步的提升。噪声对图像的影响可分为加法模型和乘法模型,设定F(x,y)为不含噪声的图像,N(x,y)为噪声,G(x,y)为噪声影响之后的图像,即原始图像,为了能够更好地提取特征,本发明选用L1/2范式进行模型的建立如公式(2-5)所示
i表示的是样本图像,当进行图像迭代处理时,G(xi,yi)-F(xi,yi)出现残差,说明图像中出现噪声,并造成影响。本发明提出的软阈值方法,通过软阈值来限定残差状态。
(x
i,y
i)为第i个特征图像的坐标;
为在数学上表示真实值,在式中表示后面式中取得最小值时(x
i,y
i)的值;arg为复数辐角,指的是复数的辐角主值,在此式中argmin即表示后面函数取最小值时,xi和yi的取值;F、N、G仅为函数名。
先构造惩罚因子||G(xi,yi)-F(xi,yi)||h,来限制G(xi,yi)-F(xi,yi)不大于0,从而降低图像被噪声干扰的程度,如公式(2-6)所示
公式中λ表示惩罚系数,调节该系数可以使结果接近真实值,由于又软阈值的限制,近似值也可能会出现在真实值的之上,因此软阈值可以有效降低噪声干扰的影响。s.t.全称subject to,意思是使得...满足...在式中的意思是:在N(xi,yi)>0,F(xi,yi)>0条件下使上式成立。
h为预设的常数,优先取1/2。
为进一步优化软阈值方法,可进一步修改目标函数
其中V为辅助变量,在计算过程中,使用软阈值算法对V进行迭代更新处理。利用软阈值惩罚机制有效抵抗数据中的噪声。
本申请优化了MMAL-Net网络结构,通过减少网络分支层数,来减少整体模型的计算量,也降低了训练模型对硬件的要求;在新分支结构的基础上,加入软阈值惩罚机制模块,来抵制图像中出现的噪声;有效屏蔽干扰信息,从而使得整体精度提升。
细粒度图像分类最初是采用强监督的深度学习来完成分类任务,强监督细粒度图像分类方法的监督信息依赖过多的标注,除了用于细粒度分类的网络外,整个算法框架中需要一个部件定位的目标检测网络或是语义分割网络。这导致了数据标注的成本与网络结构的成本都是高昂的,使得强监督方法无法在实际生产过程中得到较好的应用。因此,本申请仅使用类别标签,不需要额外标注信息,属于弱监督方法。
在一个实施例中,所述步骤2:获取待分类图像,包括:
当用户在相册的查看界面触控圈选多个第一照片形成圈选框且所述圈选框在预设的第一时间内沿同一扩大方向扩大时,获取并输出预设的免触圈选提示信息,同时,控制所述圈选框沿所述扩大方向以预设的第一扩大速度继续进行扩大;
动态获取所述用户当前的眼部视线;
确定所述查看界面内对应于所述眼部视线的第一注视点位;
若所述第一注视点位落在所述查看界面内的所述圈选框内,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第一垂直距离;
基于所述第一垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-8)所示:
其中,v
1′为调整后的所述第一扩大速度,v
1为调整前的所述第一扩大速度,l
1为所述第一垂直距离,
为预设的第一关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在预设的第二时间内发生变化,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第二垂直距离;
基于所述第二垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-9)所示:
其中,v
2′为调整后的所述第一扩大速度,v
2为调整前的所述第一扩大速度,l
2为所述第二垂直距离,
为预设的第二关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在所述第二时间内未发生变化,获取所述查看界面内对应于所述第一注视点位的第二照片;
当所述第二照片刚好进入所述圈选框时,控制所述圈选框停止扩大;
获取所述圈选框的所述扩大方向上的目标框边的移动类型;
当所述移动类型为向下换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片右侧的全部第三照片;
当所述移动类型为向上换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片左侧的全部第四照片;
当所述移动类型为向右换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片下侧的全部第五照片;
当所述移动类型为向左换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片上侧的全部第六照片;
退选完成后,将所述圈选框内圈选的全部第七照片作为待分类图像,完成获取。
上述技术方案的工作原理及有益效果为:
一般的,当用户选择需要进行图像分类的图像时,由于选择的量一定较多,在智能终端(例如:手机和平板等)上触控操作时,需要用户持续触控操作,体验较差,若时间过长,可能会造成用户手指不适;特别是一些从事图像分类工作的用户,更是体验不佳。例如:用户打开手机相册,手指在手机屏幕左上角向右侧触控移动,使得全选界面内需要选择的照片,当需要继续向下选择照片时,手指需向下触控移动,使得界面向下滑动并同时全选新的界面内出现需要选择的照片,但是,手指需要保持不动,直至到截止照片时,手指才能松开。因此,亟需进行解决。
当用户触控圈选相册内的第一照片时,已选的第一照片组成圈选框,当圈选框在预设的第一时间(例如:2秒)内沿同一扩大方向(例如:竖直向下)扩大时,说明用户需要继续选择相册内更多的第一照片(例如:相册的显示界面在向下移动),此时,可以进行自动圈选介入,输出预设的免触圈选提示信息(例如:在显示界面上显示“手指可以移开的哦!开始自动圈选”),并控制圈选框沿扩大方向(例如:竖直向下)以预设的第一扩大速度(例如:1.2cm/s)继续进行扩大。
此时,用户会不断查看圈选框已圈选的第一照片或查看圈选框即将圈选的第一照片,确定是否到截止照片。获取用户的眼部视线(视线获取属于现有技术范畴,不作赘述),确定查看界面内对应于眼部视线的第一注视点位,第一注视点位为用户正在注视的位置。若第一注视点位落在圈选框内,说明用户在查看圈选框已圈选的第一照片,不太跟得上圈选框的第一扩大速度,基于第一注视点位与目标框边的第一垂直距离,对第一扩大速度进行降速,第一垂直距离越大,说明第一扩大速度较快,应越对第一扩大速度进行降速。若第一注视点位落在查看界面内圈选框外扩大方向上的待圈选范围内且第一注视点位在预设的第二时间(例如:3秒)内发生变化,说明用户在查看圈选框即将圈选的第一照片且未到截止照片,第一注视点位与目标框边的第二垂直距离越大,说明第一扩大速度较慢,越需要对第一扩大速度提速。充分保证了圈选框的扩大速度能够贴近用户,提升了人性化,更提升了免触圈选的智能化。当第一注视点位落在待圈选范围内且第一注视点位在第二时间未发生变化,说明已到达截止照片;但是,截止照片不一定是一行中最后一张照片或一列中最后一张照片,需要对截止照片之后的第一照片进行剔除。进一步提升免触圈选的智能化和人性化。获取为截止照片的第二照片。当第二照片刚好进入圈选框时,基于目标框边的移动类型,剔除无用照片。一般的,移动类型为向下换行,用户查看照片是以从左到右循环查看,因此,控制圈选框退选第二照片所在行右侧的全部第三照片。当移动类型为向上换行时,与之同理。当移动类型为向右换列时,用户查看照片是以从上到小循环查看,因此,控制圈选框退选第二照片下侧的全部第五照片。当移动类型为向左换列时,与之同理。
在一个实施例中,所述获取所述查看界面内对应于所述第一注视点位的第二照片,包括:
获取显示界面当前的缩略比例;
获取对应于所述显示界面的大小的预设的缩略比例阈值;
若所述缩略比例大于等于所述缩略比例阈值,确定所述查看界面内位于所述第一注视点位的第八照片,并作为第二照片,完成获取;
否则,确定所述查看界面内位于所述第一注视点位的多个第九照片;
基于所述第九照片,生成截止照片放大确认框;
在所述显示界面内悬浮显示所述截止照片放大确认框;
确定所述查看界面内对应于所述用户当前的眼部视线的第二注视点位;
当所述第二注视点位落在所述截止照片放大确认框内且在预设的第三时间内所述第二注视点位未发生改变时,将所述截止照片放大确认框内位于所述第二注视点位的所述第九照片,并作为第二照片,完成获取。
上述技术方案的工作原理及有益效果为:
获取为截止照片的第二照片时,一般的,只需确定查看界面内位于第一注视点位的照片即可。但是,由于一些智能终端的手机屏幕大小较小或者一些相册的缩略比例较小(例如:1:50,一个界面内显示50张照片),视线获取的精度有限,使得第一注视点位无法用于精准定位用户注视的截止照片。
因此,获取显示界面当前的缩略比例,同时,获取显示界面的大小的缩略比例阈值;缩略比例阈值为该显示界面的大小下,第一注视点位可用于精准定位用户注视的截止照片最小缩略比例。若缩略比例大于等于缩略比例阈值,说明第一注视点位可用于精准定位用户注视的截止照片,确定位于第一注视点位的第八照片作为第二照片即可。否则(缩略比例小于缩略比例阈值),确定第一注视点位的第九照片,基于第九照片,生成截止照片放大确认框,供用户进一步确认,当用户当前的第二注视点位落在截止照片放大确认框内且在预设的第三时间(例如:2秒)内未发生改变时,说明用户注视截止照片,确定位于第二注视点位的第九照片作为第二照片即可。极大程度上提升了应用于不同智能终端的适用性,更提升了截止照片确定的精准性。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类系统,如图4所示,包括:
构建模块1,用于基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
获取模块2,用于获取待分类图像;
预处理模块3,用于对所述待分类图像进行预处理;
分类模块4,用于基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。