[go: up one dir, main page]

CN114821180B - 一种基于软阈值惩罚机制的弱监督细粒度图像分类方法 - Google Patents

一种基于软阈值惩罚机制的弱监督细粒度图像分类方法 Download PDF

Info

Publication number
CN114821180B
CN114821180B CN202210487333.6A CN202210487333A CN114821180B CN 114821180 B CN114821180 B CN 114821180B CN 202210487333 A CN202210487333 A CN 202210487333A CN 114821180 B CN114821180 B CN 114821180B
Authority
CN
China
Prior art keywords
photo
network
frame
image
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210487333.6A
Other languages
English (en)
Other versions
CN114821180A (zh
Inventor
董琴
范浩楠
刘柱
杨国宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aifenghuan Information Technology Co ltd
Original Assignee
Yancheng Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Institute of Technology filed Critical Yancheng Institute of Technology
Priority to CN202210487333.6A priority Critical patent/CN114821180B/zh
Publication of CN114821180A publication Critical patent/CN114821180A/zh
Application granted granted Critical
Publication of CN114821180B publication Critical patent/CN114821180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,包括:步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;步骤2:获取待分类图像;步骤3:对所述待分类图像进行预处理;步骤4:基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。本发明的基于软阈值惩罚机制的弱监督细粒度图像分类方法,优化了MMAL‑Net网络结构,通过减少网络分支层数,来减少整体模型的计算量,也降低了训练模型对硬件的要求;在新分支结构的基础上,加入软阈值惩罚机制模块,来抵制图像中出现的噪声;有效屏蔽干扰信息,从而使得整体精度提升。

Description

一种基于软阈值惩罚机制的弱监督细粒度图像分类方法
技术领域
本发明涉及图像分类和智能优化技术领域,特别涉及一种基于软阈值惩罚机制的弱监督细粒度图像分类方法。
背景技术
MMAL-Net是多分支多尺度学习网络,基于全局特征的弱监督细粒度分类方法。沿用了另一种局部特征分类所用到的方法,以三级级联作为整体架构。MMAL-Net模型分类的准确性较高,在诸多的数据集上能够到达SOTA的准确率,甚至在飞行器数据集上达到94.7%,是目前该数据集的最高准确率。MMAL-Net的算法流程如图2所示。
MMAL-Net以RA-CNN网络作为基础结构,选用了三级级联网络的方式来进行,在每一级网络上,采用ResNet进行特征的提取与分类,与之不同的是,在每一级网络之间,穿插有两个模块,分别是AOLM(Attention Object Location Module)和APPM(Attention PartProposal Module)模块,这两个模块将整个三级网络分成了三个分支,分别是原始图像分支、主体图像分支和部分图像分支。
ALOM用来预测物体的位置。采用了特征图的聚合操作,在特征提取的最后阶段,让特征图在通道维度进行聚合,设置相应阈值提取响应较高的最大连通域,并将该相应区域的感受野映射回原始图像,便可以找到原始图像中主体部分的位置,再将此部分的切割出来,然后再次进行特征的提取。
APPM在不需要边界边框或者标注的情况下,预测物体重点区域的信息。选用了一些固定大小的滑窗,并对滑窗中的数据进行池化操作,从而算出来每一个区域的计算结果,并对这些结果进行排序,选择结果比较大的区域,在对该区域进行非极大抑制操作后,再将该部件的图像输入网络。
在MMAL-Net三级网络中所用到的Loss函数均是基础的Cross-entropy loss,最后对三级网络的loss值求和,得出最终的loss。
但是,MMAL-Net存在以下两点缺点:
(1)在整个三级级联网络结构中,虽然通过共用一组参数让整体网络的参数数量减少,但计算量却因为复杂的三次级联结构显著提升,又因为前两级网络的输入都是448*448像素的图片,让整个网络的计算量又一步提升,因此训练网络的速度变慢很多,也占用了很大一部分显存。
(2)在中部分支的设置中,可以通过原图得到主体的定位信息,从而得到具有辨识性的区域。但是在一些不存在明显主体的细粒度图像分类任务中,这一分支的存在反而会削弱整个的特征提取能力。
发明内容
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,优化了MMAL-Net网络结构,通过减少网络分支层数,来减少整体模型的计算量,也降低了训练模型对硬件的要求;在新分支结构的基础上,加入软阈值惩罚机制模块,来抵制图像中出现的噪声;有效屏蔽干扰信息,从而使得整体精度提升。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,包括:
步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
步骤2:获取待分类图像;
步骤3:对所述待分类图像进行预处理;
步骤4:基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
优选的,所述步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络,包括:
构建第一网络分支,所述第一网络分支包括:依次连接的Input448*448*3、第一ResNet50、Feature14*14*2048、第一GAP、第一FC和第一Softmax;
构建第二网络分支,所述第二网络分支包括:依次连接的Input224*224*3*mult、第二ResNet50、Feature*7*7*2048*mult、第二GAP、第二FC和第二Softmax;
将所述第二网络分支中的Input224*224*3*mult通过crop与所述第一网络分支中的Input448*448*3连接;
将所述第一网络分支中的Feature14*14*2048通过APPM与所述crop连接;
为所述第一网络分支设置第一损失函数RawLoss;
为所述第二网络分支设置第二损失函数PartLoss;
在所述APPM中设置软阈值惩罚机制;
所述第一网络分支、第二网络分支、APPM和crop组成二级级联网络结构的细粒度图像分类网络。
优选的,所述APPM是基于SCDA形成,将所述APPM对特征提取出来的所述Feature14*14*2048沿着池化层的通道方向进行合拢,得到14*14*1的二维图,用预设的多个不同尺寸的滑窗对所述二维图进行滑窗计算,计算过程如公式(2-1)所示:
Figure GDA0003916478080000031
其中,H和W分别为滑窗的高度和宽度,A(x,y)为合拢好的二维图的坐标位置对应的数值,aw为滑窗计算结果。
优选的,所述第一损失函数RawLoss的公式如公式(2-2)所示:
Figure GDA0003916478080000032
其中,mi为第i个样本图像,ni为第一卷积神经网络CNN对应于第i个样本图像的预测概率。
优选的,所述第二损失函数PartLoss的公式如公式(2-3)所示:
Figure GDA0003916478080000041
其中,q为由所述第二ResNet50筛选出的局部特征区域个数,miq为第i个样本图像对应的第q个局部特征区域个数,niq为第二卷积神经网络CNN对应于第i个样本图像对应的第q个局部特征区域个数的预测概率。
优选的,所述软阈值惩罚机制包括:
设F(x,y)为不含噪声的图像,N(x,y)为噪声,G(x,y)为噪声影响之后的图像,选用L1/2范式进行模型的建立如公式(2-5)所示:
Figure GDA0003916478080000042
i表示的是图像的序号,当进行图像迭代处理时,G(xi,yi)-F(xi,yi)出现残差,说明图像中出现噪声,并造成影响;
通过软阈值来限定残差状态,先构造惩罚因子||G(xi,yi)-F(xi,yi)||h,来限制G(xi,yi)-F(xi,yi)不大于0,从而降低图像被噪声干扰的程度,如公式(2-6)所示:
Figure GDA0003916478080000043
公式中λ表示惩罚系数,调节该系数可以使结果接近真实值,由于又软阈值的限制,近似值也可能会出现在真实值的之上,因此软阈值可以有效降低噪声干扰的影响。
优选的,为进一步优化软阈值方法,可进一步修改目标函数,如公式(2-7)所示:
Figure GDA0003916478080000044
其中,V为辅助变量,λ1和λ2均为惩罚系数,在计算过程中,使用软阈值算法对V进行迭代更新处理。
优选的,所述步骤2:获取待分类图像,包括:
当用户在相册的查看界面触控圈选多个第一照片形成圈选框且所述圈选框在预设的第一时间内沿同一扩大方向扩大时,获取并输出预设的免触圈选提示信息,同时,控制所述圈选框沿所述扩大方向以预设的第一扩大速度继续进行扩大;
动态获取所述用户当前的眼部视线;
确定所述查看界面内对应于所述眼部视线的第一注视点位;
若所述第一注视点位落在所述查看界面内的所述圈选框内,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第一垂直距离;
基于所述第一垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-8)所示:
Figure GDA0003916478080000051
其中,v1′为调整后的所述第一扩大速度,v1为调整前的所述第一扩大速度,l1为所述第一垂直距离,
Figure GDA0003916478080000052
为预设的第一关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在预设的第二时间内发生变化,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第二垂直距离;
基于所述第二垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-9)所示:
Figure GDA0003916478080000053
其中,v2′为调整后的所述第一扩大速度,v2为调整前的所述第一扩大速度,l2为所述第二垂直距离,
Figure GDA0003916478080000054
为预设的第二关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在所述第二时间内未发生变化,获取所述查看界面内对应于所述第一注视点位的第二照片;
当所述第二照片刚好进入所述圈选框时,控制所述圈选框停止扩大;
获取所述圈选框的所述扩大方向上的目标框边的移动类型;
当所述移动类型为向下换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片右侧的全部第三照片;
当所述移动类型为向上换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片左侧的全部第四照片;
当所述移动类型为向右换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片下侧的全部第五照片;
当所述移动类型为向左换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片上侧的全部第六照片;
退选完成后,将所述圈选框内圈选的全部第七照片作为待分类图像,完成获取。
优选的,所述获取所述查看界面内对应于所述第一注视点位的第二照片,包括:
获取显示界面当前的缩略比例;
获取对应于所述显示界面的大小的预设的缩略比例阈值;
若所述缩略比例大于等于所述缩略比例阈值,确定所述查看界面内位于所述第一注视点位的第八照片,并作为第二照片,完成获取;
否则,确定所述查看界面内位于所述第一注视点位的多个第九照片;
基于所述第九照片,生成截止照片放大确认框;
在所述显示界面内悬浮显示所述截止照片放大确认框;
确定所述查看界面内对应于所述用户当前的眼部视线的第二注视点位;
当所述第二注视点位落在所述截止照片放大确认框内且在预设的第三时间内所述第二注视点位未发生改变时,将所述截止照片放大确认框内位于所述第二注视点位的所述第九照片,并作为第二照片,完成获取。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类系统,包括:
构建模块,用于基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
获取模块,用于获取待分类图像;
预处理模块,用于对所述待分类图像进行预处理;
分类模块,用于基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于软阈值惩罚机制的弱监督细粒度图像分类方法的流程图;
图2为本发明实施例中MMAL-Net的结构示意图;
图3为本发明实施例中细粒度图像分类网络的结构示意图;
图4为本发明实施例中一种基于软阈值惩罚机制的弱监督细粒度图像分类系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,如图1所示,包括:
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,包括:
步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
步骤2:获取待分类图像;
步骤3:对所述待分类图像进行预处理;
步骤4:基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
所述步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络,包括:
构建第一网络分支,所述第一网络分支包括:依次连接的Input448*448*3、第一ResNet50、Feature14*14*2048、第一GAP、第一FC和第一Softmax;
构建第二网络分支,所述第二网络分支包括:依次连接的Input224*224*3*mult、第二ResNet50、Feature*7*7*2048*mult、第二GAP、第二FC和第二Softmax;
将所述第二网络分支中的Input224*224*3*mult通过crop与所述第一网络分支中的Input448*448*3连接;
将所述第一网络分支中的Feature14*14*2048通过APPM与所述crop连接;
为所述第一网络分支设置第一损失函数RawLoss;
为所述第二网络分支设置第二损失函数PartLoss;
在所述APPM中设置软阈值惩罚机制;
所述第一网络分支、第二网络分支、APPM和crop组成二级级联网络结构的细粒度图像分类网络。
所述APPM是基于SCDA形成,将所述APPM对特征提取出来的所述Feature14*14*2048沿着池化层的通道方向进行合拢,得到14*14*1的二维图,用预设的多个不同尺寸的滑窗对所述二维图进行滑窗计算,计算过程如公式(2-1)所示:
Figure GDA0003916478080000081
其中,H和W分别为滑窗的高度和宽度,A(x,y)为合拢好的二维图的坐标位置对应的数值,aw为滑窗计算结果。
所述第一损失函数RawLoss的公式如公式(2-2)所示:
Figure GDA0003916478080000091
其中,mi为第i个样本图像,ni为第一卷积神经网络CNN对应于第i个样本图像的预测概率。
所述第二损失函数PartLoss的公式如公式(2-3)所示:
Figure GDA0003916478080000092
其中,q为由所述第二ResNet50筛选出的局部特征区域个数,miq为第i个样本图像对应的第q个局部特征区域个数,niq为第二卷积神经网络CNN对应于第i个样本图像对应的第q个局部特征区域个数的预测概率。
所述软阈值惩罚机制包括:
设F(x,y)为不含噪声的图像,N(x,y)为噪声,G(x,y)为噪声影响之后的图像,选用L1/2范式进行模型的建立如公式(2-5)所示:
Figure GDA0003916478080000093
i表示的是图像的序号,当进行图像迭代处理时,G(xi,yi)-F(xi,yi)出现残差,说明图像中出现噪声,并造成影响;
通过软阈值来限定残差状态,先构造惩罚因子||G(xi,yi)-F(xi,yi)||h,来限制G(xi,yi)-F(xi,yi)不大于0,从而降低图像被噪声干扰的程度,如公式(2-6)所示:
Figure GDA0003916478080000094
公式中λ表示惩罚系数,调节该系数可以使结果接近真实值,由于又软阈值的限制,近似值也可能会出现在真实值的之上,因此软阈值可以有效降低噪声干扰的影响。
为进一步优化软阈值方法,可进一步修改目标函数,如公式(2-7)所示:
Figure GDA0003916478080000101
其中,V为辅助变量,λ1和λ2均为惩罚系数,在计算过程中,使用软阈值算法对V进行迭代更新处理。
上述技术方案的工作原理及有益效果为:
本发明把MMAL-Net模型的三级级联网络修改成二级级联方式,把最后一级的推理任务放到了第一分支上。也就是说,在整个网络模型的运行过程中,仅需要通过一个普通的网络分类模型,就能得到分类细粒度网络的效果。其结构如图3所示。
Input448*448*3为图像输入(图像大小为448像素*448像素,R(红)、G(绿)、B(蓝)三个颜色通道);
第一ResNet50为一种网络模型,深度残差网络,50是指网络层数;
Feature14*14*2048为2048张14像素*14像素特征二维图;
第一GAP为全局平均池化(Global Average Pooling);
第一FC为全连接层(Fully Connection);
第一Softmax为作为输出层的激励函数,在机器学习中常被看作是一种多分类器。通俗的意思就是,将一个物品输入,得出其中可能属于的类别概率。
Input224*224*3*mult为对Input448*448*3进行crop方法所得到的固定大小的图像输入(第一分支图像输入的部分区块,图像大小为224像素*224像素,R(红)、G(绿)、B(蓝)三个颜色通道),mult是指图像裁剪后所得到固定区块数目。
第二ResNet50与第一ResNet50同理;
Feature*7*7*2048*mult为mult份2048张7像素*7像素特征二维图;
第二GAP、第二FC和第二Softmax分别与第一GAP、第一FC和第一Softmax同理;
Crop为裁剪,是直接从图像中截出一部分,保留原图像的真实尺寸比。根据图像裁剪的方法不同,所得到的裁剪图像的数量也不同。
经过图像预处理(滤波降噪、灰度化和缩至448像素*448像素大小),将缩至448像素*448像素大小的图像作为网络的第一级输入。在网络模型的设计过程中,以ResNet50作为特征提取的主干网络。残差块经过特殊的结构设计得到ResNet50网络,其中50是指深度网络中卷积层和全连接层的总层数,整体精度适中,总体的计算量也适中,ResNet50的残差块采用了BottleNeck结构,既不会影响精度,也不会降低整体的计算量,特征通道的数量为2048,也更有助于选择出具有辨识性的区域。整体上,网络的两个分支特征提取采用了参数共享的方式,不仅减少了整个网络的参数量,还能使个网络适用于不同尺寸、不同部位的图像。
网络的局部特征提取选用了APPM结构,是基于SCDA(Selective ConvolutionalDescriptor Aggregation,选择性卷积描述符聚合)的研究形成的。首先,将模块对特征提取出来的14*14*2048沿着通道方向进行合拢,便得到了14*14*1的二维图。14*14*1的二维图为1张14像素*14像素大小的图像特征二维图。
然后,用几种预先设定好的不同尺寸的滑窗来计算,滑窗内部的计算过程如公式(2-1)所示
Figure GDA0003916478080000111
预设好滑窗的高度和宽度分别是公式中的H和W,A(x,y)指合拢好的二维图坐标位置的对应数值,aw即表示通过当前的滑窗所计算出来的数值。A(x,y)为合拢好的二维图的坐标位置对应的数值具体为14*14*1的二维图在对应待分类图像即原始图像中位置坐标值。其次,对不同位置的aw值排序,其中输出值越大的区域就是具有辨识性特征的区域。最后,在存在特征区域重叠,不能简单排序的区域,使用NMS(non maximum suppression,非极大抑制)的方式选取多个高辨识性、低冗余度的候选区作为局部特征区域,成为第二层的输入图像。
本发明所采用的损失函数就是多分类问题中最常用的Cross-Entropy(交叉熵)损失。第一层Raw Loss公式如(2-2)所示
Figure GDA0003916478080000121
其中,i表示的是样本图像,mi表示的是样本图像的真实标号,通常代入1来计算,ni指的是此类别神经网络的预测概率。mi为第i个样本图像,该样本图像来源于上文滑窗截取的图像,共2048张,即i取值从1到2048。
第二层Part Loss公式如(2-3)所示
Figure GDA0003916478080000122
此处的q表示筛选出的局部特征区域个数,对每一块区域计算并得出损失值,最后求出平均值。miq为第i个样本图像对应的第q个局部特征区域具体为:该样本图像来源于第一分支预处理后的图像crop(裁剪)之后的图像,其对应的第q个局部特征区域。第二ResNet50筛选出的局部特征区域来自于待分类图像即原始图像预处理后的图像,即经过滤波降噪、灰度化后的图像,共2048个局部特征区域。
第一卷积神经网络CNN来自于第一ResNet50中,ResNet50就是卷积神经网络的一种网络模型;第二卷积神经网络与之同理。
总的损失函数公式如(2-4)所示
Losstotal=μLossraw+ωLosspart, (2-4)
Lossraw,losspart分别表示第一层和第二层的损失值,Losstotal即表示整体损失,μ和ω是取0-1之间的值,表示的是两层分支对整体网络的影响权重,用以调节。
为降低网络的复杂度,能够更好的被使用,本发明使用的轻量化方法使用的是SqueezeNet(轻量化卷积神经网)结构,首先采用1*1的卷积核对局部特征卷积,起到降维作用即减少输入的通道数量,然后在Expand层分别用1*1和3*3的卷积核进行卷积运算,最后将运行结果拼接得到最终的输出特征数据。
整体网络结构层次的减少,能够在识别准确率依旧高的条件下有效减少总的计算量。但是就原始数据集而言存在很多的环境噪声,又缺失主体监测的分支。本发明引入软阈值惩罚机制,来对局部特征提取能力进一步的提升。噪声对图像的影响可分为加法模型和乘法模型,设定F(x,y)为不含噪声的图像,N(x,y)为噪声,G(x,y)为噪声影响之后的图像,即原始图像,为了能够更好地提取特征,本发明选用L1/2范式进行模型的建立如公式(2-5)所示
Figure GDA0003916478080000131
i表示的是样本图像,当进行图像迭代处理时,G(xi,yi)-F(xi,yi)出现残差,说明图像中出现噪声,并造成影响。本发明提出的软阈值方法,通过软阈值来限定残差状态。
(xi,yi)为第i个特征图像的坐标;
Figure GDA0003916478080000132
为在数学上表示真实值,在式中表示后面式中取得最小值时(xi,yi)的值;arg为复数辐角,指的是复数的辐角主值,在此式中argmin即表示后面函数取最小值时,xi和yi的取值;F、N、G仅为函数名。
先构造惩罚因子||G(xi,yi)-F(xi,yi)||h,来限制G(xi,yi)-F(xi,yi)不大于0,从而降低图像被噪声干扰的程度,如公式(2-6)所示
Figure GDA0003916478080000133
公式中λ表示惩罚系数,调节该系数可以使结果接近真实值,由于又软阈值的限制,近似值也可能会出现在真实值的之上,因此软阈值可以有效降低噪声干扰的影响。s.t.全称subject to,意思是使得...满足...在式中的意思是:在N(xi,yi)>0,F(xi,yi)>0条件下使上式成立。
h为预设的常数,优先取1/2。
为进一步优化软阈值方法,可进一步修改目标函数
Figure GDA0003916478080000141
其中V为辅助变量,在计算过程中,使用软阈值算法对V进行迭代更新处理。利用软阈值惩罚机制有效抵抗数据中的噪声。
本申请优化了MMAL-Net网络结构,通过减少网络分支层数,来减少整体模型的计算量,也降低了训练模型对硬件的要求;在新分支结构的基础上,加入软阈值惩罚机制模块,来抵制图像中出现的噪声;有效屏蔽干扰信息,从而使得整体精度提升。
细粒度图像分类最初是采用强监督的深度学习来完成分类任务,强监督细粒度图像分类方法的监督信息依赖过多的标注,除了用于细粒度分类的网络外,整个算法框架中需要一个部件定位的目标检测网络或是语义分割网络。这导致了数据标注的成本与网络结构的成本都是高昂的,使得强监督方法无法在实际生产过程中得到较好的应用。因此,本申请仅使用类别标签,不需要额外标注信息,属于弱监督方法。
在一个实施例中,所述步骤2:获取待分类图像,包括:
当用户在相册的查看界面触控圈选多个第一照片形成圈选框且所述圈选框在预设的第一时间内沿同一扩大方向扩大时,获取并输出预设的免触圈选提示信息,同时,控制所述圈选框沿所述扩大方向以预设的第一扩大速度继续进行扩大;
动态获取所述用户当前的眼部视线;
确定所述查看界面内对应于所述眼部视线的第一注视点位;
若所述第一注视点位落在所述查看界面内的所述圈选框内,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第一垂直距离;
基于所述第一垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-8)所示:
Figure GDA0003916478080000142
其中,v1′为调整后的所述第一扩大速度,v1为调整前的所述第一扩大速度,l1为所述第一垂直距离,
Figure GDA0003916478080000151
为预设的第一关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在预设的第二时间内发生变化,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第二垂直距离;
基于所述第二垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-9)所示:
Figure GDA0003916478080000152
其中,v2′为调整后的所述第一扩大速度,v2为调整前的所述第一扩大速度,l2为所述第二垂直距离,
Figure GDA0003916478080000153
为预设的第二关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在所述第二时间内未发生变化,获取所述查看界面内对应于所述第一注视点位的第二照片;
当所述第二照片刚好进入所述圈选框时,控制所述圈选框停止扩大;
获取所述圈选框的所述扩大方向上的目标框边的移动类型;
当所述移动类型为向下换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片右侧的全部第三照片;
当所述移动类型为向上换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片左侧的全部第四照片;
当所述移动类型为向右换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片下侧的全部第五照片;
当所述移动类型为向左换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片上侧的全部第六照片;
退选完成后,将所述圈选框内圈选的全部第七照片作为待分类图像,完成获取。
上述技术方案的工作原理及有益效果为:
一般的,当用户选择需要进行图像分类的图像时,由于选择的量一定较多,在智能终端(例如:手机和平板等)上触控操作时,需要用户持续触控操作,体验较差,若时间过长,可能会造成用户手指不适;特别是一些从事图像分类工作的用户,更是体验不佳。例如:用户打开手机相册,手指在手机屏幕左上角向右侧触控移动,使得全选界面内需要选择的照片,当需要继续向下选择照片时,手指需向下触控移动,使得界面向下滑动并同时全选新的界面内出现需要选择的照片,但是,手指需要保持不动,直至到截止照片时,手指才能松开。因此,亟需进行解决。
当用户触控圈选相册内的第一照片时,已选的第一照片组成圈选框,当圈选框在预设的第一时间(例如:2秒)内沿同一扩大方向(例如:竖直向下)扩大时,说明用户需要继续选择相册内更多的第一照片(例如:相册的显示界面在向下移动),此时,可以进行自动圈选介入,输出预设的免触圈选提示信息(例如:在显示界面上显示“手指可以移开的哦!开始自动圈选”),并控制圈选框沿扩大方向(例如:竖直向下)以预设的第一扩大速度(例如:1.2cm/s)继续进行扩大。
此时,用户会不断查看圈选框已圈选的第一照片或查看圈选框即将圈选的第一照片,确定是否到截止照片。获取用户的眼部视线(视线获取属于现有技术范畴,不作赘述),确定查看界面内对应于眼部视线的第一注视点位,第一注视点位为用户正在注视的位置。若第一注视点位落在圈选框内,说明用户在查看圈选框已圈选的第一照片,不太跟得上圈选框的第一扩大速度,基于第一注视点位与目标框边的第一垂直距离,对第一扩大速度进行降速,第一垂直距离越大,说明第一扩大速度较快,应越对第一扩大速度进行降速。若第一注视点位落在查看界面内圈选框外扩大方向上的待圈选范围内且第一注视点位在预设的第二时间(例如:3秒)内发生变化,说明用户在查看圈选框即将圈选的第一照片且未到截止照片,第一注视点位与目标框边的第二垂直距离越大,说明第一扩大速度较慢,越需要对第一扩大速度提速。充分保证了圈选框的扩大速度能够贴近用户,提升了人性化,更提升了免触圈选的智能化。当第一注视点位落在待圈选范围内且第一注视点位在第二时间未发生变化,说明已到达截止照片;但是,截止照片不一定是一行中最后一张照片或一列中最后一张照片,需要对截止照片之后的第一照片进行剔除。进一步提升免触圈选的智能化和人性化。获取为截止照片的第二照片。当第二照片刚好进入圈选框时,基于目标框边的移动类型,剔除无用照片。一般的,移动类型为向下换行,用户查看照片是以从左到右循环查看,因此,控制圈选框退选第二照片所在行右侧的全部第三照片。当移动类型为向上换行时,与之同理。当移动类型为向右换列时,用户查看照片是以从上到小循环查看,因此,控制圈选框退选第二照片下侧的全部第五照片。当移动类型为向左换列时,与之同理。
在一个实施例中,所述获取所述查看界面内对应于所述第一注视点位的第二照片,包括:
获取显示界面当前的缩略比例;
获取对应于所述显示界面的大小的预设的缩略比例阈值;
若所述缩略比例大于等于所述缩略比例阈值,确定所述查看界面内位于所述第一注视点位的第八照片,并作为第二照片,完成获取;
否则,确定所述查看界面内位于所述第一注视点位的多个第九照片;
基于所述第九照片,生成截止照片放大确认框;
在所述显示界面内悬浮显示所述截止照片放大确认框;
确定所述查看界面内对应于所述用户当前的眼部视线的第二注视点位;
当所述第二注视点位落在所述截止照片放大确认框内且在预设的第三时间内所述第二注视点位未发生改变时,将所述截止照片放大确认框内位于所述第二注视点位的所述第九照片,并作为第二照片,完成获取。
上述技术方案的工作原理及有益效果为:
获取为截止照片的第二照片时,一般的,只需确定查看界面内位于第一注视点位的照片即可。但是,由于一些智能终端的手机屏幕大小较小或者一些相册的缩略比例较小(例如:1:50,一个界面内显示50张照片),视线获取的精度有限,使得第一注视点位无法用于精准定位用户注视的截止照片。
因此,获取显示界面当前的缩略比例,同时,获取显示界面的大小的缩略比例阈值;缩略比例阈值为该显示界面的大小下,第一注视点位可用于精准定位用户注视的截止照片最小缩略比例。若缩略比例大于等于缩略比例阈值,说明第一注视点位可用于精准定位用户注视的截止照片,确定位于第一注视点位的第八照片作为第二照片即可。否则(缩略比例小于缩略比例阈值),确定第一注视点位的第九照片,基于第九照片,生成截止照片放大确认框,供用户进一步确认,当用户当前的第二注视点位落在截止照片放大确认框内且在预设的第三时间(例如:2秒)内未发生改变时,说明用户注视截止照片,确定位于第二注视点位的第九照片作为第二照片即可。极大程度上提升了应用于不同智能终端的适用性,更提升了截止照片确定的精准性。
本发明提供一种基于软阈值惩罚机制的弱监督细粒度图像分类系统,如图4所示,包括:
构建模块1,用于基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
获取模块2,用于获取待分类图像;
预处理模块3,用于对所述待分类图像进行预处理;
分类模块4,用于基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,其特征在于,包括:
步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
步骤2:获取待分类图像;
步骤3:对所述待分类图像进行预处理;
步骤4:基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果;
所述步骤1:基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络,包括:
构建第一网络分支,所述第一网络分支包括:依次连接的Input448*448*3、第一ResNet50、Feature14*14*2048、第一GAP、第一FC和第一Softmax;
构建第二网络分支,所述第二网络分支包括:依次连接的Input224*224*3*mult、第二ResNet50、Feature*7*7*2048*mult、第二GAP、第二FC和第二Softmax;
将所述第二网络分支中的Input224*224*3*mult通过crop与所述第一网络分支中的Input448*448*3连接;
将所述第一网络分支中的Feature14*14*2048通过APPM与所述crop连接;
为所述第一网络分支设置第一损失函数RawLoss;
为所述第二网络分支设置第二损失函数PartLoss;
在所述APPM中设置软阈值惩罚机制;
所述第一网络分支、第二网络分支、APPM和crop组成二级级联网络结构的细粒度图像分类网络;
所述步骤2:获取待分类图像,包括:
当用户在相册的查看界面触控圈选多个第一照片形成圈选框且所述圈选框在预设的第一时间内沿同一扩大方向扩大时,获取并输出预设的免触圈选提示信息,同时,控制所述圈选框沿所述扩大方向以预设的第一扩大速度继续进行扩大;
动态获取所述用户当前的眼部视线;
确定所述查看界面内对应于所述眼部视线的第一注视点位;
若所述第一注视点位落在所述查看界面内的所述圈选框内,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第一垂直距离;
基于所述第一垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-8)所示:
Figure FDA0003916478070000021
其中,v1′为调整后的所述第一扩大速度,v1为调整前的所述第一扩大速度,l1为所述第一垂直距离,
Figure FDA0003916478070000024
为预设的第一关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在预设的第二时间内发生变化,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第二垂直距离;
基于所述第二垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-9)所示:
Figure FDA0003916478070000022
其中,v2′为调整后的所述第一扩大速度,v2为调整前的所述第一扩大速度,l2为所述第二垂直距离,
Figure FDA0003916478070000023
为预设的第二关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在所述第二时间内未发生变化,获取所述查看界面内对应于所述第一注视点位的第二照片;
当所述第二照片刚好进入所述圈选框时,控制所述圈选框停止扩大;
获取所述圈选框的所述扩大方向上的目标框边的移动类型;
当所述移动类型为向下换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片右侧的全部第三照片;
当所述移动类型为向上换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片左侧的全部第四照片;
当所述移动类型为向右换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片下侧的全部第五照片;
当所述移动类型为向左换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片上侧的全部第六照片;
退选完成后,将所述圈选框内圈选的全部第七照片作为待分类图像,完成获取;
所述获取所述查看界面内对应于所述第一注视点位的第二照片,包括:
获取显示界面当前的缩略比例;
获取对应于所述显示界面的大小的预设的缩略比例阈值;
若所述缩略比例大于等于所述缩略比例阈值,确定所述查看界面内位于所述第一注视点位的第八照片,并作为第二照片,完成获取;
否则,确定所述查看界面内位于所述第一注视点位的多个第九照片;
基于所述第九照片,生成截止照片放大确认框;
在所述显示界面内悬浮显示所述截止照片放大确认框;
确定所述查看界面内对应于所述用户当前的眼部视线的第二注视点位;
当所述第二注视点位落在所述截止照片放大确认框内且在预设的第三时间内所述第二注视点位未发生改变时,将所述截止照片放大确认框内位于所述第二注视点位的所述第九照片,并作为第二照片,完成获取。
2.如权利要求1所述的一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,其特征在于,所述APPM是基于SCDA形成,将所述APPM对特征提取出来的所述Feature14*14*2048沿着池化层的通道方向进行合拢,得到14*14*1的二维图,用预设的多个不同尺寸的滑窗对所述二维图进行滑窗计算,计算过程如公式(2-1)所示:
Figure FDA0003916478070000041
其中,H和W分别为滑窗的高度和宽度,A(x,y)为合拢好的二维图的坐标位置对应的数值,aw为滑窗计算结果。
3.如权利要求1所述的一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,其特征在于,所述第一损失函数RawLoss的公式如公式(2-2)所示:
Figure FDA0003916478070000042
其中,mi为第i个样本图像,ni为第一卷积神经网络CNN对应于第i个样本图像的预测概率。
4.如权利要求1所述的一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,其特征在于,所述第二损失函数PartLoss的公式如公式(2-3)所示:
Figure FDA0003916478070000043
其中,q为由所述第二ResNet50筛选出的局部特征区域个数,miq为第i个样本图像对应的第q个局部特征区域个数,niq为第二卷积神经网络CNN对应于第i个样本图像对应的第q个局部特征区域个数的预测概率。
5.如权利要求1所述的一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,其特征在于,所述软阈值惩罚机制包括:
设F(x,y)为不含噪声的图像,N(x,y)为噪声,G(x,y)为噪声影响之后的图像,选用L1/2范式进行模型的建立如公式(2-5)所示:
Figure FDA0003916478070000044
i表示的是图像的序号,当进行图像迭代处理时,G(xi,yi)-F(xi,yi)出现残差,说明图像中出现噪声,并造成影响;
通过软阈值来限定残差状态,先构造惩罚因子||G(xi,yi)-F(xi,yi)||h,来限制G(xi,yi)-F(xi,yi)不大于0,从而降低图像被噪声干扰的程度,如公式(2-6)所示:
Figure FDA0003916478070000051
公式中λ表示惩罚系数,调节该系数可以使结果接近真实值。
6.如权利要求5所述的一种基于软阈值惩罚机制的弱监督细粒度图像分类方法,其特征在于,为进一步优化软阈值方法,可进一步修改目标函数,如公式(2-7)所示:
Figure FDA0003916478070000052
其中,V为辅助变量,λ1和λ2均为惩罚系数,在计算过程中,使用软阈值算法对V进行迭代更新处理。
7.一种基于软阈值惩罚机制的弱监督细粒度图像分类系统,其特征在于,包括:
构建模块,用于基于软阈值惩罚机制,构建二级级联网络结构的细粒度图像分类网络;
获取模块,用于获取待分类图像;
预处理模块,用于对所述待分类图像进行预处理;
分类模块,用于基于所述细粒度图像分类网络,对预处理结果进行图像分类,并输出图像分类结果;
所述构建模块执行如下操作:
构建第一网络分支,所述第一网络分支包括:依次连接的Input448*448*3、第一ResNet50、Feature14*14*2048、第一GAP、第一FC和第一Softmax;
构建第二网络分支,所述第二网络分支包括:依次连接的Input224*224*3*mult、第二ResNet50、Feature*7*7*2048*mult、第二GAP、第二FC和第二Softmax;
将所述第二网络分支中的Input224*224*3*mult通过crop与所述第一网络分支中的Input448*448*3连接;
将所述第一网络分支中的Feature14*14*2048通过APPM与所述crop连接;
为所述第一网络分支设置第一损失函数RawLoss;
为所述第二网络分支设置第二损失函数PartLoss;
在所述APPM中设置软阈值惩罚机制;
所述第一网络分支、第二网络分支、APPM和crop组成二级级联网络结构的细粒度图像分类网络;
所述获取模块执行如下操作:
当用户在相册的查看界面触控圈选多个第一照片形成圈选框且所述圈选框在预设的第一时间内沿同一扩大方向扩大时,获取并输出预设的免触圈选提示信息,同时,控制所述圈选框沿所述扩大方向以预设的第一扩大速度继续进行扩大;
动态获取所述用户当前的眼部视线;
确定所述查看界面内对应于所述眼部视线的第一注视点位;
若所述第一注视点位落在所述查看界面内的所述圈选框内,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第一垂直距离;
基于所述第一垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-8)所示:
Figure FDA0003916478070000061
其中,v1′为调整后的所述第一扩大速度,v1为调整前的所述第一扩大速度,l1为所述第一垂直距离,
Figure FDA0003916478070000062
为预设的第一关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在预设的第二时间内发生变化,获取所述第一注视点位与所述圈选框的所述扩大方向上的目标框边之间的第二垂直距离;
基于所述第二垂直距离,对所述第一扩大速度进行调整,调整公式如公式(2-9)所示:
Figure FDA0003916478070000071
其中,v2′为调整后的所述第一扩大速度,v2为调整前的所述第一扩大速度,l2为所述第二垂直距离,
Figure FDA0003916478070000072
为预设的第二关系系数;
若所述第一注视点位落在所述查看界面内的所述圈选框外所述扩大方向上的待圈选范围内且所述第一注视点位在所述第二时间内未发生变化,获取所述查看界面内对应于所述第一注视点位的第二照片;
当所述第二照片刚好进入所述圈选框时,控制所述圈选框停止扩大;
获取所述圈选框的所述扩大方向上的目标框边的移动类型;
当所述移动类型为向下换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片右侧的全部第三照片;
当所述移动类型为向上换行时,控制所述圈选框退选所述查看界面内所述第二照片所在行内所述第二照片左侧的全部第四照片;
当所述移动类型为向右换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片下侧的全部第五照片;
当所述移动类型为向左换列时,控制所述圈选框退选所述查看界面内所述第二照片所在列内所述第二照片上侧的全部第六照片;
退选完成后,将所述圈选框内圈选的全部第七照片作为待分类图像,完成获取;
所述获取所述查看界面内对应于所述第一注视点位的第二照片,包括:
获取显示界面当前的缩略比例;
获取对应于所述显示界面的大小的预设的缩略比例阈值;
若所述缩略比例大于等于所述缩略比例阈值,确定所述查看界面内位于所述第一注视点位的第八照片,并作为第二照片,完成获取;
否则,确定所述查看界面内位于所述第一注视点位的多个第九照片;
基于所述第九照片,生成截止照片放大确认框;
在所述显示界面内悬浮显示所述截止照片放大确认框;
确定所述查看界面内对应于所述用户当前的眼部视线的第二注视点位;
当所述第二注视点位落在所述截止照片放大确认框内且在预设的第三时间内所述第二注视点位未发生改变时,将所述截止照片放大确认框内位于所述第二注视点位的所述第九照片,并作为第二照片,完成获取。
CN202210487333.6A 2022-05-06 2022-05-06 一种基于软阈值惩罚机制的弱监督细粒度图像分类方法 Active CN114821180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210487333.6A CN114821180B (zh) 2022-05-06 2022-05-06 一种基于软阈值惩罚机制的弱监督细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210487333.6A CN114821180B (zh) 2022-05-06 2022-05-06 一种基于软阈值惩罚机制的弱监督细粒度图像分类方法

Publications (2)

Publication Number Publication Date
CN114821180A CN114821180A (zh) 2022-07-29
CN114821180B true CN114821180B (zh) 2022-12-06

Family

ID=82511752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210487333.6A Active CN114821180B (zh) 2022-05-06 2022-05-06 一种基于软阈值惩罚机制的弱监督细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN114821180B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108139813A (zh) * 2015-10-19 2018-06-08 鸥利研究所股份有限公司 视线输入装置、视线输入方法以及视线输入程序
CN110969116A (zh) * 2019-11-28 2020-04-07 Oppo广东移动通信有限公司 注视点位置确定方法及相关装置
CN111010449A (zh) * 2019-12-25 2020-04-14 南京医睿科技有限公司 图像信息输出方法、系统、装置、介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170115742A1 (en) * 2015-08-01 2017-04-27 Zhou Tian Xing Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command
EP3893090B1 (en) * 2020-04-09 2022-06-01 Irisbond Crowdbonding, S.L. Method for eye gaze tracking
CN111860612B (zh) * 2020-06-29 2021-09-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 无监督高光谱图像隐低秩投影学习特征提取方法
CN112507799B (zh) * 2020-11-13 2023-11-24 幻蝎科技(武汉)有限公司 基于眼动注视点引导的图像识别方法、mr眼镜及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108139813A (zh) * 2015-10-19 2018-06-08 鸥利研究所股份有限公司 视线输入装置、视线输入方法以及视线输入程序
CN110969116A (zh) * 2019-11-28 2020-04-07 Oppo广东移动通信有限公司 注视点位置确定方法及相关装置
CN111010449A (zh) * 2019-12-25 2020-04-14 南京医睿科技有限公司 图像信息输出方法、系统、装置、介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于软阈值注意力的弱监督细粒度图像分类网络的研究;韩沛奇;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20220215(第2期);第19-35页 *
基于软阈值的高光谱遥感图像分类研究;陈楠;《电子测试》;20191130;第40-41页 *

Also Published As

Publication number Publication date
CN114821180A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN112329658B (zh) 一种对于yolov3网络的检测算法改进方法
CN108154118B (zh) 一种基于自适应组合滤波与多级检测的目标探测系统及方法
US20190354194A1 (en) Methods and apparatuses for recognizing dynamic gesture, and control methods and apparatuses using gesture interaction
CN113627228B (zh) 一种基于关键点回归与多尺度特征融合的车道线检测方法
CN110276765A (zh) 基于多任务学习深度神经网络的图像全景分割方法
CN110084299A (zh) 基于多头融合注意力的目标检测方法和装置
CN110569782A (zh) 一种基于深度学习目标检测方法
CN109801297B (zh) 一种基于卷积实现的图像全景分割预测优化方法
CN111461145B (zh) 一种基于卷积神经网络进行目标检测的方法
CN109544559B (zh) 图像语义分割方法、装置、计算机设备和存储介质
CN117237867B (zh) 基于特征融合的自适应场面监视视频目标检测方法和系统
CN110807384A (zh) 低能见度下的小目标检测方法和系统
CN114299303A (zh) 一种船舶目标检测方法、终端设备及存储介质
CN110310305B (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN110008953A (zh) 基于卷积神经网络多层特征融合的潜在目标区域生成方法
CN115147745A (zh) 一种基于城市无人机图像的小目标检测方法
CN107564032A (zh) 一种基于外观网络的视频跟踪对象分割方法
CN118314606B (zh) 一种基于全局-局部特征的行人检测方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法
CN111931572B (zh) 一种遥感影像的目标检测方法
CN116503726A (zh) 一种多尺度轻量化的烟雾图像分割方法及装置
CN114004966A (zh) 一种道路场景车辆和行人的目标检测算法
CN117636296A (zh) 一种基于改进LEP-YOLO v7的城市道路交通标志检测与识别方法
CN116403133A (zh) 一种基于YOLO v7改进的车辆检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240825

Address after: A101, 1st Floor, Building 106, Lize Zhongyuan, Chaoyang District, Beijing, 100000

Patentee after: Beijing Aifenghuan Information Technology Co.,Ltd.

Country or region after: China

Address before: 224000 Room 401, building 1, No. 20, Xinyuan Road, Xinyi Community, Xinhe sub district office, Yannan high tech Zone, Yancheng City, Jiangsu Province

Patentee before: YANCHENG INSTITUTE OF TECHNOLOGY

Country or region before: China

Patentee before: Yancheng Institute of Technology Technology Transfer Center Co.,Ltd.