[go: up one dir, main page]

CN108874900A - 一种样本图片数据集合的获取方法和系统 - Google Patents

一种样本图片数据集合的获取方法和系统 Download PDF

Info

Publication number
CN108874900A
CN108874900A CN201810506155.0A CN201810506155A CN108874900A CN 108874900 A CN108874900 A CN 108874900A CN 201810506155 A CN201810506155 A CN 201810506155A CN 108874900 A CN108874900 A CN 108874900A
Authority
CN
China
Prior art keywords
image data
pictures
data
confidence level
positive sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810506155.0A
Other languages
English (en)
Inventor
罗培元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Feixun Information Technology Co Ltd
Original Assignee
Sichuan Feixun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Feixun Information Technology Co Ltd filed Critical Sichuan Feixun Information Technology Co Ltd
Priority to CN201810506155.0A priority Critical patent/CN108874900A/zh
Publication of CN108874900A publication Critical patent/CN108874900A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种样本图片数据集合的获取方法和系统,其方法包括:待清洗图片数据的清洗过程具体包括:获取正样本图片集和负样本图片集;正样本图片集中的图片数据的特征信息与目标图片的特征信息相同;负样本图片集中的图片数据的特征信息与目标图片的特征信息不相同;根据正样本图片集和负样本图片集,训练得到神经网络分拣器;根据神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合;样本图片数据集合的获取过程具体包括:获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合。本发明实现自动筛选和分类获取样本图片数据集合,提高筛选分类效率和准确度。

Description

一种样本图片数据集合的获取方法和系统
技术领域
本发明涉及数据处理领域,尤指一种样本图片数据集合的获取方法和系统。
背景技术
众所周知,在深度学习卷积神经网络中的训练中,我们需要海量的数据。而一个成熟的神经网络的数据量可以轻易地达到tb级,以卷积神经网络为例,数据的输入源一般为图片,比较大的图片,一张大约几兆,即使比较小的图片一般几百k,按照tb级的数据量来计算,这将是非常庞大的工作量。
目前行业的做法是,采用网络爬虫海量的爬取,随后全部由人工进行筛选和分类获取样本图片数据集合,这种处理方式带来的问题是工作量异常巨大,筛选结果主观性大,筛选结果容易出错。同时,后期采用错误的样本图片数据集合对神经网络进行训练,会带来错误的分类结果。
发明内容
本发明的目的是提供一种样本图片数据集合的获取方法和系统,实现自动筛选和分类获取样本图片数据集合,提高筛选分类效率和准确度。
本发明提供的技术方案如下:
本发明提供一种样本图片数据集合的获取方法,包括步骤:
待清洗图片数据的清洗过程具体包括:
获取正样本图片集和负样本图片集;所述正样本图片集中的图片数据的特征信息与目标图片的特征信息相同;所述负样本图片集中的图片数据的特征信息与目标图片的特征信息不相同;
根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器;
根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合;
样本图片数据集合的获取过程具体包括:
获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合;所述样本图片数据集合中的图片数据的特征信息与目标图片的特征信息相同,且所述样本图片数据集合的图片数据数量大于所述正样本图片集的图片数据数量。
进一步的,所述获取正样本图片集和负样本图片集包括步骤:
从源图片数据集中获取第一预设数目的正样本图片数据作为所述正样本图片集;所述正样本图片数据为与所述目标图片特征信息相同的图片数据;
从源图片数据集中获取第二预设数目的负样本图片数据作为所述负样本图片集;所述负样本图片数据为与所述目标图片特征信息不相同的图片数据。
进一步的,所述根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器包括步骤:
删除预训练的神经网络模型的最后一个全连接层;
在删除最后一个全连接层处依次添加一个全连接层和一个激活层;
根据所述正样本图片集和所述负样本图片集训练新添加的全连接层和激活层得到所述神经网络分拣器。
进一步的,所述根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合包括步骤:
将所有待清洗图片数据输入所述神经网络分拣器,获取每个待清洗图片数据的置信度;
根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合。
进一步的,所述根据所述根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合之后包括步骤:
获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据添加至所述正样本图片集。
进一步的,所述获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合之后包括步骤:
统计置信度等级在预设等级范围的置信度集合中的图片数据的图片数目;
当所述图片数目达到目标需求数量时,停止待清洗图片数据的清洗过程;
当所述图片数目未达到目标需求数量时,继续待清洗图片数据的清洗过程。
本发明还提供一种样本图片数据集合的获取系统,包括:清洗模块和获取模块;所述清洗模块与所述获取模块连接;
所述清洗模块,获取正样本图片集和负样本图片集;所述正样本图片集中的图片数据的特征信息与目标图片的特征信息相同;所述负样本图片集中的图片数据的特征信息与目标图片的特征信息不相同;根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器;根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合;
所述获取模块,获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合;所述样本图片数据集合中的图片数据的特征信息与目标图片的特征信息相同,且所述样本图片数据集合的图片数据数量大于所述正样本图片集的图片数据数量。
进一步的,所述清洗模块包括:正样本数据获取单元,负样本数据获取单元,分拣器训练单元和分类储存单元;所述分拣器训练单元分别与所述正样本数据获取单元,所述负样本数据获取单元和所述分类储存单元连接;
所述正样本数据获取单元,从源图片数据集中获取第一预设数目的正样本图片数据作为所述正样本图片集;所述正样本图片数据为与所述目标图片特征信息相同的图片数据;
所述负样本数据获取单元,从源图片数据集中获取第二预设数目的负样本图片数据作为所述负样本图片集;所述负样本图片数据为与所述目标图片特征信息不相同的图片数据;
所述分拣器训练单元,删除预训练的神经网络模型的最后一个全连接层;在删除最后一个全连接层处依次添加一个全连接层和一个激活层;根据所述正样本图片集和所述负样本图片集训练新添加的全连接层和激活层得到所述神经网络分拣器;
所述分类储存单元,将所有待清洗图片数据输入所述神经网络分拣器,获取每个待清洗图片数据的置信度;根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合。
进一步的,所述正样本数据获取单元与所述分类储存单元连接;
所述正样本数据获取单元,还获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据添加至所述正样本图片集。
进一步的,还包括:统计模块和控制模块;所述统计模块分别与所述获取模块和所述控制模块连接,所述控制模块与所述清洗模块连接;
所述统计模块,统计置信度等级在预设等级范围的置信度集合中的图片数据的图片数目;
当所述图片数目达到目标需求数量时,所述控制模块控制所述清洗模块停止待清洗图片数据的清洗过程;
当所述图片数目未达到目标需求数量时,所述控制模块控制所述清洗模块继续待清洗图片数据的清洗过程。
通过本发明提供的一种样本图片数据集合的获取方法和系统,能够带来以下至少一种有益效果:
1)本发明通过神经网络分拣器对待清洗图片进行分类,减少人工筛选分类的劳动力和主观性,提升筛选分类效率,从而在部分图片特征信息对应的图片数据的数量不够时,高效,高质量的筛选扩增对应的图片数据作为神经网络模型的样本。
2)本发明为获取样本图片数据集合过程中提供一种待清洗图片数据自动清洗的辅助数据清洗策略,用于提高人工清洗效率,甚至完全自动化清洗,并解决人工清洗带来的种种问题,降低人工清洗筛选分类的主观性,提升筛选分类的准确度和效率。
3)本发明在使用神经网络分拣器分拣待清洗图片数据的同时,使用神经网络分拣器筛选分类得到的高置信度的图片数据加入到正样本中,对神经网络分拣器进行训练,可以有效地提高模型精度,加快神经网络分拣器训练的速度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种样本图片数据集合的获取方法和系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种样本图片数据集合的获取方法的一个实施例的流程图;
图2是本发明一种样本图片数据集合的获取方法的一个实例的流程图;
图3是本发明一种样本图片数据集合的获取系统的一个实施例的结构示意图;
图4是本发明一种样本图片数据集合的获取系统的一个实施例的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
迁移学习(Transfer learning),顾名思义就是就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习我们可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习。
数据清洗,就是指:在海量的数据集中将需要的数据挑选出来。比如分类问题,举个例子:筛选海量的番茄炒蛋图片,清洗任务就是将这些图片中的是番茄炒蛋的图片筛选出来。
本发明第一实施例,如图1所示:
一种样本图片数据集合的获取方法,包括:
待清洗图片数据的清洗过程具体包括:
获取正样本图片集和负样本图片集;所述正样本图片集中的图片数据的特征信息与目标图片的特征信息相同;所述负样本图片集中的图片数据的特征信息与目标图片的特征信息不相同;
具体的,特征信息包括但是不限于图片内容,图片类别等图片特征。可以对从网络上爬取的图片通过人工筛选预设数目与目标图片的特征信息相同的图片数据作为正样本图片集,人工筛选预设数目与目标图片的特征信息不相同的图片数据负样本图片集;也可以对从网络上爬取的图片通过人工筛选一张与目标图片的特征信息相同的图片数据,并以该与目标图片的特征信息相同的图片数据为模板图片进行数据增广,如像素变换数据增广和几何变换数据增广中的任意一种或者多种对模板图片进行数据增广得到正样本图片集。同理,负样本图片集也可以依据数据增广的方式进行获取。任何获取正样本图片集和负样本图片集在此不作限定,均属于本发明的保护范围。
其中,像素变换包括:1、增加噪声和滤波,噪声的方式包括但是不限于椒盐噪声,高斯噪声,中值滤波;2、变换通道,调整RBG三个通道的顺序;3、调整对比度、亮度和饱和度,色彩抖动。
几何变换包括:1、翻转,例如:水平翻转,竖直翻转,根据实际情况来翻转,比如,关于人脸,上下翻转了就变成倒的人脸了,翻转没有了实际意义;2、平移,模拟现实生活中的图片不居中的情况,发生位置的变换;3、旋转;4、置黑,模拟被部分遮挡的数据样本;5、裁剪;6、缩放。
根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器;
具体的,可以将正样本图片数据集和负样本图片集中的图片数据均输入预训练神经网络模型中,对预训练神经网络模型中的所有层级的参数进行微调,然后进行对所有层级进行训练得到神经网络分拣器;也可以将正样本图片数据集和负样本图片集中的图片数据均输入预训练神经网络模型中,对预训练神经网络模型中的最后一层全连接层的参数进行微调,然后进行对最后一层全连接层进行训练得到神经网络分拣器。
根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合;
具体的,通过训练得到的神经网络分拣器对获取的待清洗图片数据进行筛选分类,例如从网络上爬取10万张待清洗图片数据,将这10万张待清洗图片数据输入到神经网络分拣器中,通过神经网络分拣器中对每个待清洗图片数据进行计算得到对应的待清洗图片数据的预测值,根据各个待清洗图片数据对应的预测值识别每个待清洗图片的类别,从而对所有待清洗图片数据进行分类。
样本图片数据集合的获取过程具体包括:
获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合;所述样本图片数据集合中的图片数据的特征信息与目标图片的特征信息相同,且所述样本图片数据集合的图片数据数量大于所述正样本图片集的图片数据数量。
具体的,本实施例中,置信度等级达到预设等级的置信度集合中的图片数据就是与目标图片的特征信息对应的目标图片之间相似度达到预设相似度阈值的图片,这些图片数据就是用户需求的图片。本发明通过神经网络分拣器对待清洗图片进行分类,减少人工筛选分类的劳动力和主观性,提升筛选分类效率,从而在部分图片特征信息对应的图片数据的数量不够时,高效,高质量的筛选扩增对应的图片数据作为神经网络模型的样本。
本发明第二实施例,本实施例是第一实施例的优选实施例,与上述第一实施例相比,进一步优化的,获取正样本图片集和负样本图片集包括:
从源图片数据集中获取第一预设数目的正样本图片数据作为所述正样本图片集;所述正样本图片数据为与所述目标图片特征信息相同的图片数据;
从源图片数据集中获取第二预设数目的负样本图片数据作为所述负样本图片集;所述负样本图片数据为与所述目标图片特征信息不相同的图片数据。
具体的,在很多场合中,没有必要从头开始训练整个神经网络模型(随机初始化参数),因为没有足够丰富的数据集,而且训练也是非常耗时、耗资源的过程。因此,直接根据此前已经训练过的预训练的神经网络模型分类得到的源图片数据集中获取一定数量如第一预设数量的正样本图片数据作为正样本图片集,然后从源图片数据集中获取一定数量如第二预设数量的正样本图片数据作为负样本图片集。第一预设数量与第二预设数量可以相等也可以不相等。例如此前已经对各种菜品图片进行过训练得到过对应于菜品图片的预训练的神经网络模型,为了获取番茄炒蛋菜品的子神经网络模型,那么就直接根据预训练的神经网络模型的分类器分类得到的源图片数据集中筛选出番茄炒蛋的正样本图片数据,直至数量累计达到第一预设数量后作为番茄炒蛋菜品的子神经网络模型的正样本图片集,并根据预训练的神经网络模型的分类器分类得到的源图片数据集中筛选出不是番茄炒蛋的负样本图片数据,直至数量累计达到第二预设数量后作为番茄炒蛋菜品的子神经网络模型的负样本图片集。
本发明第三实施例,本实施例是第一实施例的优选实施例,与上述第一实施例相比,进一步优化的,根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器包括步骤:
删除预训练的神经网络模型的最后一个全连接层;
在删除最后一个全连接层处依次添加一个全连接层和一个激活层;
根据所述正样本图片集和所述负样本图片集训练新添加的全连接层和激活层得到所述神经网络分拣器。
具体的,迁移学习训练分拣器的操作,实际上是删除预训练的神经网络模型如(mobilenetv1)的最后一个全连接层后,再依次在最后一个全连接层处添加了一个全连接层和一个激活层。根据正样本图片集和负样本图片集训练新添加的全连接层和激活层得到神经网络分拣器,神经网络分拣器是对已存在的根据上述删除添加处理后的预训练的神经网络模型对神经网络维度和神经网络模型参数进行训练微调,使得网络拟合得到正确的结果。假设有400张菜品图片数据需要清洗,新增的全连接层是1×1001×401的滤波器,新增的一个全连接层参数随机初始化(如高斯随机初始化),并在训练后,反向传导得到固定参数。新增的一个激活层可以使用softMax,保证神经网络在正向和反向传导的过程中,利于计算和数学的回归拟合。这种添加了一个全连接层和一个激活层的迁移学习模型,因为不涉及对整个模型参数的修改,在正向传播和反向传播的过程中只需要确定新增的这两层的参数,而其他层的参数可以复用,因此可以极大地节约训练时间,在保证精度的情况下节约了深度学习的时间。
本发明第四实施例,本实施例是第一实施例的优选实施例,与上述第一实施例相比,进一步优化的,根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合包括步骤:
将所有待清洗图片数据输入所述神经网络分拣器,获取每个待清洗图片数据的置信度;
根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合。
具体的,训练得到神经网络分拣器后,就将所有的待清洗图片数据输入神经网络分拣器,通过神经网络分拣器对每个待清洗图片数据进行预测得到对应的置信度,每个置信度代表的是该待清洗图片数据为目标图片特征信息的概率,置信度越大,这个待清洗图片数据与目标图片的特征信息相符的可能性越大,即待清洗图片数据与目标图片越相似。本发明通过实时对采集获取的待清洗图片数据进行计算置信度,以便根据置信度将每个待清洗图片数据归类划分至对应的置信度集合中,便于后续对各个置信度集合中的图片数据进行筛选得到需要的样本图片数据集合。
本发明第五实施例,本实施例是第四实施例的优选实施例,与上述第四实施例相比,进一步优化的,根据所述根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合之后包括步骤:
获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据添加至所述正样本图片集。
具体的,在迁移学习构建模型时,模型的正样本图片的样本量偏少,实际上,在训练完之后模型处于一个类似于欠拟合的状态,这时,分拣出的置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据添加至正样本图片集,将置信度等级达到预设等级的置信度集合中的图片数据再次加入到正样本图片集中对神经网络分拣器进行再次训练。这样在第一次人工筛选得到正样本图片集后,持续训练神经网络分拣器的过程中,直接以置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据进行迭代训练,这种迭代式的训练,可以有效地提高模型进度。能够提高神经网络分拣器的精准度的同时,还能够减少正样本图片集和负样本图片集的人工筛选,大幅度降低人工工作量,减少人工筛选识别的主观性导致的数据分类出错,提高神经网络模型的鲁棒性。
本发明第六实施例,本实施例是第一至第五实施例的优选实施例,与上述第一至第五实施例相比,进一步优化的,所述获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合之后包括步骤:
统计置信度等级在预设等级范围的置信度集合中的图片数据的图片数目;
当所述图片数目达到目标需求数量时,停止待清洗图片数据的清洗过程;
当所述图片数目未达到目标需求数量时,继续待清洗图片数据的清洗过程。
具体的,优选的,可以计算每个待清洗图片数据的置信度后,通过数据分拣自动化脚本,数据分拣自动化脚本会根据预设置信度区间划分范围对待清洗图片数据进行分类,分别放入不同置信度集合,统计置信度等级在预设等级范围的置信度集合中的图片数据的图片数目,当图片数目达到目标需求数量时,停止待清洗图片数据的清洗过程;当图片数目未达到目标需求数量时,继续待清洗图片数据的清洗过程。例如对于高置信度集合(如0.95及以上的置信度)内,基本上就是所需要的图片,这时的清洗工作会比较简单,只需要对图片集一扫而过,去掉明显错误的图片即可,对于低置信度集合(如0.3及以下的置信度)内,里面的数据集基本上是所不需要的图片这时的清洗工作会比较简单,只需要对图片集一扫而过,选出明显正确的图片即可。通过上述方式筛选分拣出神经网络分拣器对高置信度集合识别分类错误的图片数据,然后统计删除错误的图片数据后的高置信度集合中剩余的图片数据的图片数目,如果图片数目达到目标需求数量时,停止待清洗图片数据的清洗过程,反之,继续待清洗图片数据的清洗过程。同理,对于低置信度集合也可以采取上述方式进行筛选。这样就能提升待清洗图片数据的清洗效率,减少人工肉眼主观性的筛选的工作量,提高了工作效率。
此外,还可以根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合后,在认为互联网图片数据集非常广阔的假设下,可以直接丢弃置信度等级在预设等级范围外的置信度集合中的图片数据,网络爬虫进行不断的爬取图片数据,不断地累积这些高置信度的图片,直到高置信度集合中的图片数据的图片数目已经达到目标需求数量为止。例如需要高置信度集合中的图片数据时,可以直接丢弃中置信度集合和低置信度集合的图片数据,仅保留高置信度集合中的图片数据,而前面的爬虫进行不断的爬取,不断地累积这些高置信度的图片,直到图片数量达到目标需求数量为止。使用神经网络分拣器分拣数据同时,使用神经网络分拣器分类筛选得到的置信度集合中的图片数据对神经网络分拣器进行了精度提高,加强了神经网络分拣器的精度。
基于上述实施例,例举一个实例,如图2所示,包括:
S1、获取少量正样本图片;
S2、迁移学习训练神经网络分拣器;
S3、数据分拣自动化脚本分拣待清洗图片数据,得到三个置信度等级的图片数据;进入步骤S4或S5;
S4、人工筛选高置信度图片数据;
S5、判断图片数据是否是高置信度;若是,进入步骤S6和S7;否则,进入步骤S8;
S6、丢弃;
S7、将高置信度图片数据储存至目标数据集;
S8、将高置信度图片数据作为正样本图片,并进入步骤S2;
S9、判断目标数据集中高置信度图片数据的图片数目是否达到目标需求数量;若是,进入步骤S10;否则,返回步骤S3;
S10、获得样本图片数据集合。
具体的,本实施例中,假设经过神经网络分拣器的处理后,待清洗图片数据被分为三类。第一类,高置信度的数据集,第二类,中置信度的数据集,中等置信度数据集中的图片数据,也就是像常规清洗任务一样需要人工逐个检查的图片,一般而言,中置信度的数据集合的图片数据数量一般不会太大。第三类低置信度的数据集。从网络上爬取下来的图片往往有非常多的干扰图片,甚至是完全不相关的图片。即得到海量的待清洗的数据集,筛选出少量的正样本图片和负样本图片,一般而言,几十张就够了,对于动辄几万张几十万张的图片数据量,这是极其微量的工作。使用正样本图片和负样本图片进行迁移学习,训练得到一个神经网络分拣器,即以迁移学习的方式,将预训练的神经网络模型删除最后一层,并依次新加入一个全连接层以及一个激活层,使用正样本图片和负样本图片对新加入的全连接层以及激活层进行训练,具有训练时间短,并且能够达到比较高的精度。使用训练得到的神经网络分拣器对待清洗图片数据进行预测得到对应的置信度。这个置信度代表图片是否是我们所需要的目标种类的概率。
得到每个待清洗图片数据的置信度之后,可以通过数据分拣自动化脚本对待清洗图片数据进行分类储存,数据分拣自动化脚本会根据低中高三个区间对待清洗图片数据进行分类储存,分别放入三个不同的置信度集合中。对于高置信度集合中的图片数据基本上就是所需的图片。这时的清洗工作会比较简单,只需要对高置信度集合中的图片数据进行一扫而过,去掉明显不是目标图片的图片数据即可。对于低置信度集合中的图片数据基本上就是不需要的图片,这时的清洗工作会比较简单,只需要对低置信度集合中的图片数据进行一扫而过,去掉明显是目标图片的图片数据即可。这两种方式都极大的提高了工作效率。
得到每个待清洗图片数据的置信度之后,还可以通过神经网络分拣器计算每个待清洗图片数据的置信度,并根据置信度以及预设置信度区间划分范围进行分类后,在认为互联网图片数据集非常广阔的假设下,可以直接丢弃掉中置信度和低置信度的图片数据,仅保留高置信度的图片数据,而通过网络爬虫进行不断的爬取待清洗图片数据,不断地累积高置信度的图片数据,直到高置信度的图片数据的图片数目达到目标需求数量即可。在使用神经网络分拣器分拣待清洗图片数据的同时,使用神经网络分拣器筛选分类得到的高置信度的图片数据加入到正样本中,对神经网络分拣器进行训练,可以有效地提高模型精度。
本发明在图片质量非常好,和图片质量非常差的时候可以起到非常好的作用,甚至到基本可以不需要人工清洗的理想状态。但是,一般而言,从保守而言,还是需要人工最后的检查,即使如此也非常大的提高了数据清洗任务的效率以及避免了数据清洗的主观性和疲劳带来的准确度降低。本发明为获取样本图片数据集合过程中提供一种待清洗图片数据自动清洗的辅助数据清洗策略,用于提高人工清洗效率,甚至完全自动化清洗,并解决人工清洗带来的种种问题,降低人工清洗筛选分类的主观性,提升筛选分类的准确度和效率。
本发明第七实施例,如图3所示,一种样本图片数据集合的获取系统包括:
数据清洗模块100和样本获取模块200;所述数据清洗模块100与所述样
本获取模块200连接;
所述数据清洗模块100,获取正样本图片集和负样本图片集;所述正样本图片集中的图片数据的特征信息与目标图片的特征信息相同;所述负样本图片集中的图片数据的特征信息与目标图片的特征信息不相同;根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器;根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合;
所述样本获取模块200,获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合;所述样本图片数据集合中的图片数据的特征信息与目标图片的特征信息相同,且所述样本图片数据集合的图片数据数量大于所述正样本图片集的图片数据数量。
具体的,本实施例是上述方法实施例对应的系统实施例,具体效果参见上述第一实施例,在此不再一一赘述。
本发明第八实施例,如图4所示,本实施例是第七实施例的优选实施例,与上述第七实施例相比,所述数据清洗模块100包括:正样本数据获取单元,负样本数据获取单元,分拣器训练单元和分类储存单元;所述分拣器训练单元分别与所述正样本数据获取单元,所述负样本数据获取单元和所述分类储存单元连接;
所述正样本数据获取单元,从源图片数据集中获取第一预设数目的正样本图片数据作为所述正样本图片集;所述正样本图片数据为与所述目标图片特征信息相同的图片数据;
所述负样本数据获取单元,从源图片数据集中获取第二预设数目的负样本图片数据作为所述负样本图片集;所述负样本图片数据为与所述目标图片特征信息不相同的图片数据;
所述分拣器训练单元,删除预训练的神经网络模型的最后一个全连接层;在删除最后一个全连接层处依次添加一个全连接层和一个激活层;根据所述正样本图片集和所述负样本图片集训练新添加的全连接层和激活层得到所述神经网络分拣器;
所述分类储存单元,将所有待清洗图片数据输入所述神经网络分拣器,获取每个待清洗图片数据的置信度;根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合。
具体的,本实施例是上述方法实施例对应的系统实施例,具体效果参见上述第二实施例,第三实施例和第四实施例,在此不再一一赘述。
本发明第九实施例,本实施例是第八实施例的优选实施例,与上述第八实施例相比,所述正样本数据获取单元与所述分类储存单元连接;
所述正样本数据获取单元,还获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据添加至所述正样本图片集。
具体的,本实施例是上述方法实施例对应的系统实施例,具体效果参见上述第五实施例,在此不再一一赘述。
本发明第十实施例,本实施例是第七至第八实施例的优选实施例,与上述第七至第八实施例相比,还包括:统计模块和控制模块;所述统计模块分别与所述样本获取模块200和所述控制模块连接,所述控制模块与所述数据清洗模块100连接;
所述统计模块,统计置信度等级在预设等级范围的置信度集合中的图片数据的图片数目;
当所述图片数目达到目标需求数量时,所述控制模块控制所述数据清洗模块100停止待清洗图片数据的清洗过程;
当所述图片数目未达到目标需求数量时,所述控制模块控制所述数据清洗模块100继续待清洗图片数据的清洗过程。
具体的,本实施例是上述方法实施例对应的系统实施例,具体效果参见上述第六实施例,在此不再一一赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种样本图片数据集合的获取方法,其特征在于,包括步骤:
待清洗图片数据的清洗过程具体包括:
获取正样本图片集和负样本图片集;所述正样本图片集中的图片数据的特征信息与目标图片的特征信息相同;所述负样本图片集中的图片数据的特征信息与目标图片的特征信息不相同;
根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器;
根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合;
样本图片数据集合的获取过程具体包括:
获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合;所述样本图片数据集合中的图片数据的特征信息与目标图片的特征信息相同,且所述样本图片数据集合的图片数据数量大于所述正样本图片集的图片数据数量。
2.根据权利要求1所述的样本图片数据集合的获取方法,其特征在于,所述获取正样本图片集和负样本图片集包括步骤:
从源图片数据集中获取第一预设数目的正样本图片数据作为所述正样本图片集;所述正样本图片数据为与所述目标图片特征信息相同的图片数据;
从源图片数据集中获取第二预设数目的负样本图片数据作为所述负样本图片集;所述负样本图片数据为与所述目标图片特征信息不相同的图片数据。
3.根据权利要求1所述的样本图片数据集合的获取方法,其特征在于,所述根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器包括步骤:
删除预训练的神经网络模型的最后一个全连接层;
在删除最后一个全连接层处依次添加一个全连接层和一个激活层;
根据所述正样本图片集和所述负样本图片集训练新添加的全连接层和激活层得到所述神经网络分拣器。
4.根据权利要求1所述的样本图片数据集合的获取方法,其特征在于,所述根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合包括步骤:
将所有待清洗图片数据输入所述神经网络分拣器,获取每个待清洗图片数据的置信度;
根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合。
5.根据权利要求4所述的样本图片数据集合的获取方法,其特征在于,所述根据所述根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合之后包括步骤:
获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据添加至所述正样本图片集。
6.根据权利要求1-5任一项所述的样本图片数据集合的获取方法,其特征在于,所述获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合之后包括步骤:
统计置信度等级在预设等级范围的置信度集合中的图片数据的图片数目;
当所述图片数目达到目标需求数量时,停止待清洗图片数据的清洗过程;
当所述图片数目未达到目标需求数量时,继续待清洗图片数据的清洗过程。
7.一种样本图片数据集合的获取系统,其特征在于,包括:清洗模块和获取模块;所述清洗模块与所述获取模块连接;
所述清洗模块,获取正样本图片集和负样本图片集;所述正样本图片集中的图片数据的特征信息与目标图片的特征信息相同;所述负样本图片集中的图片数据的特征信息与目标图片的特征信息不相同;根据所述正样本图片集和所述负样本图片集,训练得到神经网络分拣器;根据所述神经网络分拣器对待清洗图片数据进行分类得到若干个置信度集合;
所述获取模块,获取置信度等级达到预设等级的置信度集合中的图片数据,得到样本图片数据集合;所述样本图片数据集合中的图片数据的特征信息与目标图片的特征信息相同,且所述样本图片数据集合的图片数据数量大于所述正样本图片集的图片数据数量。
8.根据权利要求7所述的样本图片数据集合的获取系统,其特征在于,所述清洗模块包括:正样本数据获取单元,负样本数据获取单元,分拣器训练单元和分类储存单元;所述分拣器训练单元分别与所述正样本数据获取单元,所述负样本数据获取单元和所述分类储存单元连接;
所述正样本数据获取单元,从源图片数据集中获取第一预设数目的正样本图片数据作为所述正样本图片集;所述正样本图片数据为与所述目标图片特征信息相同的图片数据;
所述负样本数据获取单元,从源图片数据集中获取第二预设数目的负样本图片数据作为所述负样本图片集;所述负样本图片数据为与所述目标图片特征信息不相同的图片数据;
所述分拣器训练单元,删除预训练的神经网络模型的最后一个全连接层;在删除最后一个全连接层处依次添加一个全连接层和一个激活层;根据所述正样本图片集和所述负样本图片集训练新添加的全连接层和激活层得到所述神经网络分拣器;
所述分类储存单元,将所有待清洗图片数据输入所述神经网络分拣器,获取每个待清洗图片数据的置信度;根据所述待清洗图片数据的置信度以及预设置信度区间划分范围,将所述待清洗图片数据归类到对应的置信度集合。
9.根据权利要求8所述的样本图片数据集合的获取系统,其特征在于,所述正样本数据获取单元与所述分类储存单元连接;
所述正样本数据获取单元,还获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据添加至所述正样本图片集。
10.根据权利要求7-9任一项所述的样本图片数据集合的获取系统,其特征在于,还包括:统计模块和控制模块;所述统计模块分别与所述获取模块和所述控制模块连接,所述控制模块与所述清洗模块连接;
所述统计模块,统计置信度等级在预设等级范围的置信度集合中的图片数据的图片数目;
当所述图片数目达到目标需求数量时,所述控制模块控制所述清洗模块停止待清洗图片数据的清洗过程;
当所述图片数目未达到目标需求数量时,所述控制模块控制所述清洗模块继续待清洗图片数据的清洗过程。
CN201810506155.0A 2018-05-24 2018-05-24 一种样本图片数据集合的获取方法和系统 Pending CN108874900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810506155.0A CN108874900A (zh) 2018-05-24 2018-05-24 一种样本图片数据集合的获取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810506155.0A CN108874900A (zh) 2018-05-24 2018-05-24 一种样本图片数据集合的获取方法和系统

Publications (1)

Publication Number Publication Date
CN108874900A true CN108874900A (zh) 2018-11-23

Family

ID=64334141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810506155.0A Pending CN108874900A (zh) 2018-05-24 2018-05-24 一种样本图片数据集合的获取方法和系统

Country Status (1)

Country Link
CN (1) CN108874900A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083728A (zh) * 2019-04-03 2019-08-02 上海联隐电子科技合伙企业(有限合伙) 一种优化自动化图片数据清洗质量的方法、装置和系统
CN110210536A (zh) * 2019-05-22 2019-09-06 北京邮电大学 一种光互连系统的物理损伤诊断方法及装置
CN111160406A (zh) * 2019-12-10 2020-05-15 北京达佳互联信息技术有限公司 图像分类模型的训练方法、图像分类方法及装置
CN111652257A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN111652259A (zh) * 2019-04-16 2020-09-11 上海铼锶信息技术有限公司 一种清洗数据的方法及系统
CN111651433A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN112149704A (zh) * 2019-06-28 2020-12-29 杭州光启人工智能研究院 模型的训练方法、处理器和存储装置
CN112287923A (zh) * 2020-12-24 2021-01-29 德联易控科技(北京)有限公司 卡证信息识别方法、装置、设备及存储介质
US12222978B2 (en) 2019-07-26 2025-02-11 Huawei Technologies Co., Ltd. Image display method and electronic device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814149A (zh) * 2010-05-10 2010-08-25 华中科技大学 一种基于在线学习的自适应级联分类器训练方法
US20140355871A1 (en) * 2012-06-15 2014-12-04 Vufind, Inc. System and method for structuring a large scale object recognition engine to maximize recognition accuracy and emulate human visual cortex
CN104850832A (zh) * 2015-05-06 2015-08-19 中国科学院信息工程研究所 一种基于分级迭代的大规模图像样本标注方法及系统
CN105224947A (zh) * 2014-06-06 2016-01-06 株式会社理光 分类器训练方法和系统
CN107705256A (zh) * 2017-09-13 2018-02-16 西南交通大学 一种基于接触网语义的前向车载视频图像增强方法
CN108062341A (zh) * 2016-11-08 2018-05-22 中国移动通信有限公司研究院 数据的自动标注方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814149A (zh) * 2010-05-10 2010-08-25 华中科技大学 一种基于在线学习的自适应级联分类器训练方法
US20140355871A1 (en) * 2012-06-15 2014-12-04 Vufind, Inc. System and method for structuring a large scale object recognition engine to maximize recognition accuracy and emulate human visual cortex
CN105224947A (zh) * 2014-06-06 2016-01-06 株式会社理光 分类器训练方法和系统
CN104850832A (zh) * 2015-05-06 2015-08-19 中国科学院信息工程研究所 一种基于分级迭代的大规模图像样本标注方法及系统
CN108062341A (zh) * 2016-11-08 2018-05-22 中国移动通信有限公司研究院 数据的自动标注方法及装置
CN107705256A (zh) * 2017-09-13 2018-02-16 西南交通大学 一种基于接触网语义的前向车载视频图像增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HOO-CHANG SHIN ET AL.: "Deep Convolutional Neural Networks for Computer-Aided Detection: CNN Architectures,Dataset Characteristics and Transfer Learning", 《IEEE TRANSACTIONS ON MEDICAL IMAGING》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652257A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN111651433A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN111651433B (zh) * 2019-03-27 2023-05-12 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN110083728A (zh) * 2019-04-03 2019-08-02 上海联隐电子科技合伙企业(有限合伙) 一种优化自动化图片数据清洗质量的方法、装置和系统
CN110083728B (zh) * 2019-04-03 2021-08-20 上海铼锶信息技术有限公司 一种优化自动化图片数据清洗质量的方法、装置和系统
CN111652259A (zh) * 2019-04-16 2020-09-11 上海铼锶信息技术有限公司 一种清洗数据的方法及系统
CN111652259B (zh) * 2019-04-16 2024-03-08 上海铼锶信息技术有限公司 一种清洗数据的方法及系统
CN110210536A (zh) * 2019-05-22 2019-09-06 北京邮电大学 一种光互连系统的物理损伤诊断方法及装置
CN112149704A (zh) * 2019-06-28 2020-12-29 杭州光启人工智能研究院 模型的训练方法、处理器和存储装置
US12222978B2 (en) 2019-07-26 2025-02-11 Huawei Technologies Co., Ltd. Image display method and electronic device
CN111160406A (zh) * 2019-12-10 2020-05-15 北京达佳互联信息技术有限公司 图像分类模型的训练方法、图像分类方法及装置
CN112287923A (zh) * 2020-12-24 2021-01-29 德联易控科技(北京)有限公司 卡证信息识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108874900A (zh) 一种样本图片数据集合的获取方法和系统
Gyawali et al. Comparative analysis of multiple deep CNN models for waste classification
CN107622233A (zh) 一种表格识别方法、识别系统及计算机装置
KR102354995B1 (ko) 머신러닝 기반의 생장 분석 시스템
CN108596338A (zh) 一种神经网络训练集的获取方法及其系统
US20210272245A1 (en) Sky filter method for panoramic images and portable terminal
CN106951925A (zh) 数据处理方法、装置、服务器及系统
Jin et al. Design and implementation of anti-leakage planting system for transplanting machine based on fuzzy information
CN108686978A (zh) 基于arm的水果类别和色泽的分拣方法及系统
CN111652326A (zh) 基于MobileNet v2网络改进的果实成熟度识别方法和识别系统
CN111582234B (zh) 基于uav和深度学习的大范围油茶林果智能检测与计数方法
CN106841209A (zh) 一种基于大数据自学习化纤丝锭智能外观检测系统及方法
CN110119662A (zh) 一种基于深度学习的垃圾种类识别系统
CN107633511A (zh) 一种基于自编码神经网络的风机视觉检测系统
CN103324937A (zh) 标注目标的方法和装置
CN109508741A (zh) 基于深度学习筛选训练集的方法
CN113592813B (zh) 基于深度学习语义分割的新能源电池焊接缺陷检测方法
CN108038415A (zh) 一种基于机器视觉的无人机自动检测与跟踪方法
CN109241397A (zh) 一种清洗数据的方法和装置
CN107463881A (zh) 一种基于深度增强学习的人物图像搜索方法
CN104050687A (zh) 一种浮选泡沫运动模式的分析处理方法
CN108039044A (zh) 基于多尺度卷积神经网络的车辆智能排队的系统及方法
CN107121436A (zh) 一种硅料品质的智能鉴别方法及鉴别装置
CN106645180A (zh) 检查基板玻璃缺陷的方法、现场终端及服务器
CN107545254A (zh) 路面洁净度的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181123