CN113139906A - 一种生成器的训练方法、装置与存储介质 - Google Patents
一种生成器的训练方法、装置与存储介质 Download PDFInfo
- Publication number
- CN113139906A CN113139906A CN202110521283.4A CN202110521283A CN113139906A CN 113139906 A CN113139906 A CN 113139906A CN 202110521283 A CN202110521283 A CN 202110521283A CN 113139906 A CN113139906 A CN 113139906A
- Authority
- CN
- China
- Prior art keywords
- image
- sample image
- generator
- countermeasure network
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及模型训练技术领域,本申请提供一种生成器的训练方法、装置与存储介质,生成器的训练方法包括:获取待训练的第一样本图像;对所述第一样本图像进行处理,获得第二样本图像;将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率;基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器。实施本申请,可以利用训练得到的生成器来提高图像的分辨率,进而提高物体检测网络对目标物体的检测率。
Description
技术领域
本申请涉及模型训练技术领域,尤其涉及一种生成器的训练方法、装置与存储介质。
背景技术
物体检测是指对于给定的图片或者视频流,利用一些手段自动识别出其中已知的物体,具体的,识别该物体在图片/视频中的位置以及该物体的类别。物体检测是计算机视觉领域中很重要的问题。而深度学习在计算机视觉中应用广泛,基于深度学习的物体检测方法在大量数据集上取得了很好的效果。
但是,对于图像中尺寸较小的物体(面积小于预设阈值,可以称为目标物体,对应为小物体),目前的检测方法准确率都不高。一些检测网络在检测过程中,会对包含目标物体的原始图像进行处理,以增加该图像的分辨率,方便后续进行检测。例如,采用图像金字塔等多尺度方法,或放大图像尺寸来实现图像分辨率的提高。但是由于原始图像的分辨率较低,通过这些方法放大后的图像缺乏高频信息,还是比较模糊,因而会影响检测网络的检测效果。
发明内容
基于此,有必要针对上述技术问题,提供一种生成器的训练方法、装置与存储介质,训练得到一种生成器,通过该生成器对包含目标物体的分辨率较低的图像进行处理,以提高图像的分辨率,进而提高物体检测网络针对目标物体的检测率。
第一方面,本申请提供一种生成器的训练方法,所述方法包括:
获取待训练的第一样本图像,所述第一样本图像属于高分辨率类别图像,其中,所述第一样本图像包含目标物体,所述目标物体的尺寸小于预设阈值;
对所述第一样本图像进行处理,获得第二样本图像,所述第二样本图像属于低分辨率类别图像;
将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;
通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率,所述目标概率的大小用于指示输入所述判别器的图像是所述第一样本图像的概率大小;
基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,所述训练后的生成对抗网络中的生成器用于根据低分辨率类别图像获得高分辨率类别图像。
结合第一方面,在一些实施例中,所述基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,包括:
基于所述目标概率计算所述生成对抗网络的损失函数;
基于所述损失函数对所述生成对抗网络进行对抗训练,并在所述损失函数收敛的情况下,获取训练后的生成对抗网络中的生成器。
结合第一方面,在一些实施例中,所述对所述第一样本图像进行处理,获得第二样本图像,包括:
对所述第一样本图像进行下采样,获得所述第二样本图像。
结合第一方面,在一些实施例中,所述对所述第一样本图像进行下采样,包括:
采用双线性插值法对所述第一样本图像进行下采样;
或者,采用双三次插值法对所述第一样本图像进行下采样。
结合第一方面,在一些实施例中,所述将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像,包括:
对所述第二样本图像进行上采样,获得和所述第一样本图像尺寸相同的中间图像;
将所述中间图像输入所述生成器中的卷积层,获得第一特征图,并将所述第一样本图像输入所述卷积层,获得第二特征图;
从所述第一特征图中确定第一区域,获取所述第二特征图中第二区域的第二像素值,将所述第一特征图中第一区域的第一像素值替换为所述第二像素值,获得第三特征图,其中,所述第二区域在所述第二特征图中的位置和所述第一区域在所述第一特征图中的位置满足预设关系;
将所述第三特征图输入所述生成器中的反卷积层,获得所述待判别图像。
结合第一方面,在一些实施例中,所述从所述第一特征图中确定第一区域,包括:
基于预设的随机算法获取所述第一区域的位置信息;
基于所述位置信息从所述第一特征图中确定所述第一区域。
结合第一方面,在一些实施例中,所述获取训练后的生成对抗网络中的生成器之后,所述方法还包括:
获取待检测图像,基于所述待检测图像和区域生成网络,获得至少一个候选框;
从所述至少一个候选框中确定目标候选框,并基于所述目标候选框,从所述待检测图像中截取包含目标物体的子图像作为第一物体图像,所述第一物体图像属于低分辨率类别图像;
采用所述训练后的生成对抗网络中的生成器,对所述第一物体图像进行处理,从所述待检测图像中截取获取第二物体图像,所述第二物体图像属于高分辨率类别图像;
对所述第二物体图像进行识别,获得所述第二物体图像中包含的目标物体所属的类别信息,作为所述待检测图像的检测结果。
第二方面,本申请提供一种生成器的训练装置,该装置包括:
第一获取单元,用于获取待训练的第一样本图像,所述第一样本图像属于高分辨率类别图像,其中,所述第一样本图像包含目标物体,所述目标物体的尺寸小于预设阈值;
第二获取单元,用于对所述第一样本图像进行处理,获得第二样本图像,所述第二样本图像属于低分辨率类别图像;
生成单元,用于将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;
判别单元,用于通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率,所述目标概率的大小用于指示输入所述判别器的图像是所述第一样本图像的概率大小;
模型获取单元,用于基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,所述训练后的生成对抗网络中的生成器用于根据低分辨率类别图像获得高分辨率类别图像。
结合第二方面,在一些实施例中,所述模型获取单元具体用于:
基于所述目标概率计算所述生成对抗网络的损失函数;
基于所述损失函数对所述生成对抗网络进行对抗训练,并在所述损失函数收敛的情况下,获取训练后的生成对抗网络中的生成器。
结合第二方面,在一些实施例中,所述第二获取单元具体用于:
对所述第一样本图像进行下采样,获得所述第二样本图像。
结合第二方面,在一些实施例中,所述第二获取单元具体用于:
采用双线性插值法对所述第一样本图像进行下采样;
或者,采用双三次插值法对所述第一样本图像进行下采样。
结合第二方面,在一些实施例中,所述生成单元具体用于:
对所述第二样本图像进行上采样,获得和所述第一样本图像尺寸相同的中间图像;
将所述中间图像输入所述生成器中的卷积层,获得第一特征图,并将所述第一样本图像输入所述卷积层,获得第二特征图;
从所述第一特征图中确定第一区域,获取所述第二特征图中第二区域的第二像素值,将所述第一特征图中第一区域的第一像素值替换为所述第二像素值,获得第三特征图,其中,所述第二区域在所述第二特征图中的位置和所述第一区域在所述第一特征图中的位置满足预设关系;
将所述第三特征图输入所述生成器中的反卷积层,获得所述待判别图像。
结合第二方面,在一些实施例中,所述生成单元具体用于:
基于预设的随机算法获取所述第一区域的位置信息;
基于所述位置信息从所述第一特征图中确定所述第一区域。
结合第二方面,在一些实施例中,所述装置还包括:
第三获取单元,用于获取待检测图像,基于所述待检测图像和区域生成网络,获得至少一个候选框;
第四获取单元,用于从所述至少一个候选框中确定目标候选框,并基于所述目标候选框,从所述待检测图像中截取包含目标物体的子图像作为第一物体图像,所述第一物体图像属于低分辨率类别图像;
处理单元,用于采用所述训练后的生成对抗网络中的生成器,对所述第一物体图像进行处理,从所述待检测图像中截取获取第二物体图像,所述第二物体图像属于高分辨率类别图像;
识别单元,用于对所述第二物体图像进行识别,获得所述第二物体图像中包含的目标物体所属的类别信息,作为所述待检测图像的检测结果。
第三方面,本申请提供一种生成器的训练装置,包括处理器、存储器以及通信接口,该处理器、存储器和通信接口相互连接,其中,该通信接口用于接收和发送数据,该存储器用于存储程序代码,该处理器用于调用该程序代码,执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序;当该计算机程序在一个或多个处理器上运行时,使得该终端设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
本申请实施例中,获取属于高分辨率类别的第一样本图像和属于低分辨率类别的第二样本图像,将该第一样本图像和第二样本图像都输入生成对抗网络中的生成器,获得待判别图像,并通过生成对抗网络中的判别器对该待判别图像和第一样本图像进行判别,获得目标概率。基于该目标概率使生成对抗网络进行对抗训练,训练完成后获取生成器,以进行物体检测。采用本申请提供的技术方案,可以训练得到一种生成器,通过该生成器对包含目标物体的分辨率较低的图像进行处理,以提高图像的分辨率,进而提高物体检测网络针对目标物体的检测率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种生成器的训练方法的流程示意图;
图2为本申请实施例提供的一种生成对抗网络训练过程的示意图;
图3为本申请实施例提供的一种生成器的训练装置的示意图;
图4为本申请实施例提供的另一种生成器的训练装置的示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。
在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”。
本申请实施例提供了一种生成器的训练方法,为了更清楚地描述本申请的方案,下面对本申请涉及的一些附图作进一步介绍。
请参阅图1,图1为本申请实施例提供的一种生成器的训练方法的流程示意图。如图1所示,所述方法包括以下步骤:
步骤110,获取待训练的第一样本图像,所述第一样本图像属于高分辨率类别图像,其中,所述第一样本图像包含目标物体,所述目标物体的尺寸小于预设阈值;
本申请实施例中,先获取待训练的第一样本图像,该第一样本图像可以是真实的高分辨率图像,即属于高分辨率类别图像,和低分辨率类别图像相比其分辨率更高。其中,分辨率以长*宽的形式标识图像中所含像素的数量。在物体检测领域,可以根据图像中包含的物体的尺寸,把物体分为三种类型:小物体、中物体,大物体。其中,小物体可以是指面积小于32*32像素的物体。而中物体的面积大于32*32像素,且小于96*96像素。大物体的面积大于96*96像素。相对于中物体或大物体,一般小物体的图像比较模糊,携带的信息少,因此难以检测。本申请中,目标物体可以是指尺寸较小的物体,即对应为上述三种物体中的小物体,因此预设阈值可以为32*32像素。
步骤120,对所述第一样本图像进行处理,获得第二样本图像,所述第二样本图像属于低分辨率类别图像;
因为实际上往往无法同时获得同一场景的高分辨率图像和对应的低分辨率图像,本申请可以采取模拟方式来获取这两种图像,即获取第一样本图像后,对第一样本图像进行处理来获得第二样本图像。具体的,可以对第一样本图像进行下采样,来获得第二样本图像。下采样又叫降采样,即采样点减少,实际上是指缩小图像。对于一幅面积为M*N像素的图像,对其进行下采样,下采样倍数为s倍,那么下采样之后可以得到面积为(M/s)*(N/s)像素的图像,其中s是M和N的公约数。下采样的方法可以包括双线性插值法或者双三次插值法等,本申请对此不作限制。
步骤130,将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;
本申请中,通过训练生成对抗网络来实现生成器的训练。其中,生成对抗网络(Generative Adversarial Networks,GAN)是一种深度学习模型。该GAN模型中包括两部分:生成模型(Generative Model)和判别模型(Discriminative Model),也称为生成器和判别器,训练生成对抗网络即让生成器和判别器互相博弈学习,来获得较好的输出。
具体的,将第一样本图像和第二样本图像输入生成器中,获得待判别图像,该待判别图像也属于高分辨率类别图像,而且和第一样本图像的分辨率相同。待判别图像和第一样本图像可以作为判别器的输入图像,通过让判别器对输入图像进行判别,并基于判别结果调整网络参数,来实现生成器和判别器的训练。
而在本申请实施例中,将第一样本图像和第二样本图像输入生成器,获得待判别图像的具体过程可以包括以下步骤:
对所述第二样本图像进行上采样,获得和所述第一样本图像尺寸相同的中间图像;
将所述中间图像输入所述生成器中的卷积层,获得第一特征图,并将所述第一样本图像输入所述卷积层,获得第二特征图;
从所述第一特征图中确定第一区域,获取所述第二特征图中第二区域的第二像素值,将所述第一特征图中第一区域的第一像素值替换为所述第二像素值,获得第三特征图,其中,所述第二区域在所述第二特征图中的位置和所述第一区域在所述第一特征图中的位置满足预设关系;
将所述第三特征图输入所述生成器中的反卷积层,获得所述待判别图像。
其中,先对第二样本图像进行上采样,获得中间图像。上采样是指放大图像,通过上采样可以得到比原图尺寸更大的图像。一般可以采用插值法进行上采样,即在原有图像像素的基础上,在像素点之间采用合适的插值算法插入新的元素。上采样的方法可以包括最近邻插值法等。本申请中,获得中间图像后,将此中间图像和第一样本图像输入卷积层。卷积用于对图像进行卷积处理,得到特征图,卷积处理通过卷积核来进行,通过设定合适的卷积核的大小和步长,可将输入的图像转换为特征图。
通过卷积层获得第一特征图和第二特征图后,利用第二特征图中第二区域的第二像素值,对第一特征图中第一区域的第一像素值进行替换,进而得到第三特征图。因为输入生成器的第一样本图像属于高分辨率图像类别,第二样本图像属于低分辨率图像类别,所以第三特征图中包含了低分辨率图像的特征和部分高分辨率图像特征。用第三特征图作为最终的特征输入反卷积层得到待判别图像,该待判别图像属于高分辨率图像类别。由于第三特征图融合了高分辨率图像和低分辨图像的特征,给模型添加了干扰信息,可以防止模型过拟合。
在本申请实施例中,从所述第一特征图中确定第一区域的过程可以包括:
基于预设的随机算法获取所述第一区域的位置信息;
基于所述位置信息从所述第一特征图中确定所述第一区域。
即可以通过随机算法来确定第一区域在第一特征图中的位置。而第二区域在第二特征图中的位置和第一区域在第一特征图中的位置满足预设关系,该预设关系可以是指位置相同,因而确定了第一区域的位置,也就可以确定第二区域的位置。在训练过程中,每次生成器获得待判别图像,第一区域的位置均是随机的,即将相同的图像输入生成器,在不同的训练时刻对应的第一区域的位置均随机确定,那么获得的第三特征图可能存在区别,在训练迭代中能够增加数据的多样性,训练得到的生成器的效果更好。
步骤140,通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率,所述目标概率的大小用于指示输入所述判别器的图像是所述第一样本图像的概率大小;
在本申请实施例中,通过生成器获得和第一样本图像分辨率相同的待判别图像之后,利用生成对抗网络中的判别器对第一样本图像和待判别图像进行判别,获得目标概率,即判断输入图像是生成器生成的图像,还是真实的高分辨率图像。目标概率越大,判别器认为输入图像是真实的高分辨率图像的可能性越大。
步骤150,基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,所述训练后的生成对抗网络中的生成器用于根据低分辨率类别图像获得高分辨率类别图像。
基于该目标概率训练生成对抗网络,在训练完成后获得生成器,该训练完成的生成器可以用于根据低分辨率类别图像获得高分辨率类别图像,即可以使用训练完成的生成器来提升图像的分辨率,进而提高物体检测网络的检测效果,如图2所示,图2为本申请实施例提供的一种生成对抗网络训练过程的示意图。
具体的,基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,具体过程可以包括:基于所述目标概率计算所述生成对抗网络的损失函数;基于所述损失函数对所述生成对抗网络进行对抗训练,并在所述损失函数收敛的情况下,获取训练后的生成对抗网络中的生成器。
其中,该生成对抗网络的损失函数可以为:
G表示生成器,D表示判别器,θG和θD分别为生成器和判别器的网络参数。
V(D,G)表示生成器生成的图像和真实的高分辨率图像的差异度。
判别器D的目标是尽可能正确地区分真实的图像和生成器生成的图像,即区分第一样本图像和待判别图像,判别第一样本图像为真(目标概率接近1),判别待判别图像为假(目标概率接近0)。生成器G的目标则和判别器D相反,是尽可能让判别器无法识别出生成器生成的图像,即尽可能最小化判别器D成功判别待判别图像为假的概率。这样生成器G和判别器D就组成了一个最大最小游戏。在训练过程中双方都不断优化自己,直到达到平衡,即双方都无法变得更好,也就是判别器无法区分生成器生成的图像与真实的图像。
训练时,先固定生成器G,更新判别器D的参数,训练判别器D来最大化区分真实的图像和由生成器生成的图像的概率。判别器D经过学习,更新参数,使得E[logD]+E[log(1-D(G))]最大。然后再固定判别器D,更新生成器G的参数,生成器G的目的是让D(G)概率最大,所以生成器G经过学习,更新参数,使得D(G)最大,即1og(1-D(G))最小化。如此交替更新判别器D和生成器G的参数,直到判别器将无法区分生成器生成的图像和真实的图像。此时,该生成对抗模型达到一个稳定的状态:纳什均衡。在纳什均衡状态,损失函数收敛。
在该生成对抗网络训练完成后,得到训练完成的生成器,可以将该生成器应用于物体检测过程,以提高图像的分辨率。
在一个实施例中,使用训练完成的生成器进行物体检测的过程可以包括以下步骤:
获取待检测图像,基于所述待检测图像和区域生成网络,获得至少一个候选框;
从所述至少一个候选框中确定目标候选框,并基于所述目标候选框,从所述待检测图像中截取包含目标物体的子图像作为第一物体图像,所述第一物体图像属于低分辨率类别图像;
采用所述训练后的生成对抗网络中的生成器,对所述第一物体图像进行处理,获得第二物体图像,所述第二物体图像属于高分辨率类别图像;
对所述第二物体图像进行识别,获得所述第二物体图像中包含的目标物体所属的类别信息,作为所述待检测图像的检测结果。
其中,区域生成网络(Region Proposal Network,RPN)是一种神经网络结构,可以用于生成候选物体的边框。获取待检测图像后,待检测图像经过该区域生成网络,获得至少一个候选框。从该至少一个候选框中确定目标候选框,目标候选框可以是面积小于参考阈值(参考阈值根据目标物体的尺寸确定)的候选框,这样,基于目标候选框可以确定待检测图像中可能包含目标物体的子图像所在的区域。进一步的,从待检测图像中截取此子图像作为第一物体图像。一般的,待检测图像的分辨率不高,因而第一物体图像的分辨率较低,属于低分辨率图像类别。在本申请实施例中,得到第一物体图像的具体过程如下:RPN包括多个卷积层,输入的图像经过卷积得到特征图,并经过池化和激活函数得到特征向量,根据特征向量得到候选框,获得每个候选框时,还可以获取该候选框对应区域是否存在物体的信息以及该区域的位置信息。从上述候选框中挑选出面积小于50*50像素的候选框,并从原始的待检测图像的相应位置截取子图像,获得包含目标物体的低分辨率图像,作为第一物体图像。
进一步的,可以利用本申请中训练完成的生成对抗网络中的生成器,对第一物体图像进行处理,得到属于高分辨率类别图像的第二物体图像,即利用训练好的生成器来提高第一物体图像的分辨率,得到第二物体图像。之后对第二物体图像进行识别,获得第二物体图像中包含的目标物体所属的类别信息,作为待检测图像的检测结果。因此,通过训练生成对抗网络中的生成器,并将该生成器应用于物体检测过程,可以提高包含目标物体的图像的分辨率,进而提高检测网络针对目标物体的检测率。另外,在检测的过程中,可以只利用训练好的生成器对于可能存在目标物体的区域图像进行处理,提高该图像的分辨率,而对于其他区域图像仍按一般的检测方法进行检测,这样可以避免对整张图像进行放大和分辨率提高处理,因而可以有效利用计算资源,提升检测效率。
请参见图3,为本申请实施例提供了一种生成器的训练装置的结构示意图。如图3所示,该生成器的训练装置可以包括:
第一获取单元10,用于获取待训练的第一样本图像,所述第一样本图像属于高分辨率类别图像,其中,所述第一样本图像包含目标物体,所述目标物体的尺寸小于预设阈值;
第二获取单元11,用于对所述第一样本图像进行处理,获得第二样本图像,所述第二样本图像属于低分辨率类别图像;
生成单元12,用于将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;
判别单元13,用于通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率,所述目标概率的大小用于指示输入所述判别器的图像是所述第一样本图像的概率大小;
模型获取单元14,用于基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,所述训练后的生成对抗网络中的生成器用于根据低分辨率类别图像获得高分辨率类别图像。
在一种可能的设计中,所述模型获取单元14具体用于:
基于所述目标概率计算所述生成对抗网络的损失函数;
基于所述损失函数对所述生成对抗网络进行对抗训练,并在所述损失函数收敛的情况下,获取训练后的生成对抗网络中的生成器。
在一种可能的设计中,所述第二获取单元11具体用于:
对所述第一样本图像进行下采样,获得所述第二样本图像。
在一种可能的设计中,所述第二获取单元11具体用于:
采用双线性插值法对所述第一样本图像进行下采样;
或者,采用双三次插值法对所述第一样本图像进行下采样。
在一种可能的设计中,所述生成单元12具体用于:
对所述第二样本图像进行上采样,获得和所述第一样本图像尺寸相同的中间图像;
将所述中间图像输入所述生成器中的卷积层,获得第一特征图,并将所述第一样本图像输入所述卷积层,获得第二特征图;
从所述第一特征图中确定第一区域,获取所述第二特征图中第二区域的第二像素值,将所述第一特征图中第一区域的第一像素值替换为所述第二像素值,获得第三特征图,其中,所述第二区域在所述第二特征图中的位置和所述第一区域在所述第一特征图中的位置满足预设关系;
将所述第三特征图输入所述生成器中的反卷积层,获得所述待判别图像。
在一种可能的设计中,所述生成单元12具体用于:
基于预设的随机算法获取所述第一区域的位置信息;
基于所述位置信息从所述第一特征图中确定所述第一区域。
在一种可能的设计中,所述装置还包括:
第三获取单元,用于获取待检测图像,基于所述待检测图像和区域生成网络,获得至少一个候选框;
第四获取单元,用于从所述至少一个候选框中确定目标候选框,并基于所述目标候选框,从所述待检测图像中截取包含目标物体的子图像作为第一物体图像,所述第一物体图像属于低分辨率类别图像;
处理单元,用于采用所述训练后的生成对抗网络中的生成器,对所述第一物体图像进行处理,从所述待检测图像中截取获取第二物体图像,所述第二物体图像属于高分辨率类别图像;
识别单元,用于对所述第二物体图像进行识别,获得所述第二物体图像中包含的目标物体所属的类别信息,作为所述待检测图像的检测结果。
其中,图3所示装置实施例的具体描述可以参照前述图1或图2所示方法实施例的具体说明,在此不进行赘述。
请参照图4,为本申请实施例提供的另一种生成器的训练装置的结构示意图,如图4所示,该生成器的训练装置1000可以包括:至少一个处理器1001,例如CPU,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块以及程序指令。
在图4所示的生成器的训练装置1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
获取待训练的第一样本图像,所述第一样本图像属于高分辨率类别图像,其中,所述第一样本图像包含目标物体,所述目标物体的尺寸小于预设阈值;
对所述第一样本图像进行处理,获得第二样本图像,所述第二样本图像属于低分辨率类别图像;
将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;
通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率,所述目标概率的大小用于指示输入所述判别器的图像是所述第一样本图像的概率大小;
基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,所述训练后的生成对抗网络中的生成器用于根据低分辨率类别图像获得高分辨率类别图像。
需要说明的是,具体执行过程可以参见图1或图2所示方法实施例的具体说明,在此不进行赘述。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1或图2所示实施例的方法步骤,具体执行过程可以参见图1或图2所示实施例的具体说明,在此不进行赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (10)
1.一种生成器的训练方法,其特征在于,所述方法包括:
获取待训练的第一样本图像,所述第一样本图像属于高分辨率类别图像,其中,所述第一样本图像包含目标物体,所述目标物体的尺寸小于预设阈值;
对所述第一样本图像进行处理,获得第二样本图像,所述第二样本图像属于低分辨率类别图像;
将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;
通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率,所述目标概率的大小用于指示输入所述判别器的图像是所述第一样本图像的概率大小;
基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,所述训练后的生成对抗网络中的生成器用于根据低分辨率类别图像获得高分辨率类别图像。
2.如权利要求1所述的方法,其特征在于,所述基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,包括:
基于所述目标概率计算所述生成对抗网络的损失函数;
基于所述损失函数对所述生成对抗网络进行对抗训练,并在所述损失函数收敛的情况下,获取训练后的生成对抗网络中的生成器。
3.如权利要求2所述的方法,其特征在于,所述对所述第一样本图像进行处理,获得第二样本图像,包括:
对所述第一样本图像进行下采样,获得所述第二样本图像。
4.如权利要求3所述的方法,其特征在于,所述对所述第一样本图像进行下采样,包括:
采用双线性插值法对所述第一样本图像进行下采样;
或者,采用双三次插值法对所述第一样本图像进行下采样。
5.如权利要求4所述的方法,其特征在于,所述将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像,包括:
对所述第二样本图像进行上采样,获得和所述第一样本图像尺寸相同的中间图像;
将所述中间图像输入所述生成器中的卷积层,获得第一特征图,并将所述第一样本图像输入所述卷积层,获得第二特征图;
从所述第一特征图中确定第一区域,获取所述第二特征图中第二区域的第二像素值,将所述第一特征图中第一区域的第一像素值替换为所述第二像素值,获得第三特征图,其中,所述第二区域在所述第二特征图中的位置和所述第一区域在所述第一特征图中的位置满足预设关系;
将所述第三特征图输入所述生成器中的反卷积层,获得所述待判别图像。
6.如权利要求5所述的方法,其特征在于,所述从所述第一特征图中确定第一区域,包括:
基于预设的随机算法获取所述第一区域的位置信息;
基于所述位置信息从所述第一特征图中确定所述第一区域。
7.如权利要求1-6任一项所述的方法,其特征在于,所述获取训练后的生成对抗网络中的生成器之后,所述方法还包括:
获取待检测图像,基于所述待检测图像和区域生成网络,获得至少一个候选框;
从所述至少一个候选框中确定目标候选框,并基于所述目标候选框,从所述待检测图像中截取包含目标物体的子图像作为第一物体图像,所述第一物体图像属于低分辨率类别图像;
采用所述训练后的生成对抗网络中的生成器,对所述第一物体图像进行处理,获得第二物体图像,所述第二物体图像属于高分辨率类别图像;
对所述第二物体图像进行识别,获得所述第二物体图像中包含的目标物体所属的类别信息,作为所述待检测图像的检测结果。
8.一种生成器的训练装置,其特征在于,包括:
第一获取单元,用于获取待训练的第一样本图像,所述第一样本图像属于高分辨率类别图像,其中,所述第一样本图像包含目标物体,所述目标物体的尺寸小于预设阈值;
第二获取单元,用于对所述第一样本图像进行处理,获得第二样本图像,所述第二样本图像属于低分辨率类别图像;
生成单元,用于将所述第一样本图像和所述第二样本图像输入生成对抗网络中的生成器进行转换处理,获得待判别图像;
判别单元,用于通过所述生成对抗网络中的判别器对所述第一样本图像和所述待判别图像进行判别处理,获得目标概率,所述目标概率的大小用于指示输入所述判别器的图像是所述第一样本图像的概率大小;
模型获取单元,用于基于所述目标概率,对所述生成对抗网络进行训练,并获取训练后的生成对抗网络中的生成器,所述训练后的生成对抗网络中的生成器用于根据低分辨率类别图像获得高分辨率类别图像。
9.一种生成器的训练装置,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序;当所述计算机程序在一个或多个处理器上运行时,执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521283.4A CN113139906B (zh) | 2021-05-13 | 2021-05-13 | 一种生成器的训练方法、装置与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521283.4A CN113139906B (zh) | 2021-05-13 | 2021-05-13 | 一种生成器的训练方法、装置与存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139906A true CN113139906A (zh) | 2021-07-20 |
CN113139906B CN113139906B (zh) | 2023-11-24 |
Family
ID=76817672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110521283.4A Active CN113139906B (zh) | 2021-05-13 | 2021-05-13 | 一种生成器的训练方法、装置与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139906B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610787A (zh) * | 2021-07-27 | 2021-11-05 | 广东省科技基础条件平台中心 | 图像缺陷检测模型的训练方法、装置、计算机设备 |
CN113902029A (zh) * | 2021-10-25 | 2022-01-07 | 北京达佳互联信息技术有限公司 | 图像标注方法、装置、电子设备及存储介质 |
CN114078213A (zh) * | 2021-11-23 | 2022-02-22 | 航天宏图信息技术股份有限公司 | 一种基于生成对抗网络的农田轮廓检测方法和装置 |
CN114494876A (zh) * | 2022-01-27 | 2022-05-13 | 杭州喔影网络科技有限公司 | 图像下采样方法和图像下采样系统 |
CN114842015A (zh) * | 2022-07-04 | 2022-08-02 | 煤炭科学技术研究院有限公司 | 一种煤流量检测方法及条件生成对抗网络的训练方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080433A1 (en) * | 2017-09-08 | 2019-03-14 | Baidu Online Network Technology(Beijing) Co, Ltd | Method and apparatus for generating image |
US20190304118A1 (en) * | 2018-03-27 | 2019-10-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating image generative model |
CN111080528A (zh) * | 2019-12-20 | 2020-04-28 | 北京金山云网络技术有限公司 | 图像超分辨率和模型训练方法、装置、电子设备及介质 |
CN111461134A (zh) * | 2020-05-18 | 2020-07-28 | 南京大学 | 一种基于生成对抗网络的低分辨率车牌识别方法 |
CN112001847A (zh) * | 2020-08-28 | 2020-11-27 | 徐州工程学院 | 相对生成对抗超分辨率重建模型生成高质量图像的方法 |
-
2021
- 2021-05-13 CN CN202110521283.4A patent/CN113139906B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080433A1 (en) * | 2017-09-08 | 2019-03-14 | Baidu Online Network Technology(Beijing) Co, Ltd | Method and apparatus for generating image |
US20190304118A1 (en) * | 2018-03-27 | 2019-10-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating image generative model |
CN111080528A (zh) * | 2019-12-20 | 2020-04-28 | 北京金山云网络技术有限公司 | 图像超分辨率和模型训练方法、装置、电子设备及介质 |
CN111461134A (zh) * | 2020-05-18 | 2020-07-28 | 南京大学 | 一种基于生成对抗网络的低分辨率车牌识别方法 |
CN112001847A (zh) * | 2020-08-28 | 2020-11-27 | 徐州工程学院 | 相对生成对抗超分辨率重建模型生成高质量图像的方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610787A (zh) * | 2021-07-27 | 2021-11-05 | 广东省科技基础条件平台中心 | 图像缺陷检测模型的训练方法、装置、计算机设备 |
CN113902029A (zh) * | 2021-10-25 | 2022-01-07 | 北京达佳互联信息技术有限公司 | 图像标注方法、装置、电子设备及存储介质 |
CN114078213A (zh) * | 2021-11-23 | 2022-02-22 | 航天宏图信息技术股份有限公司 | 一种基于生成对抗网络的农田轮廓检测方法和装置 |
CN114494876A (zh) * | 2022-01-27 | 2022-05-13 | 杭州喔影网络科技有限公司 | 图像下采样方法和图像下采样系统 |
CN114842015A (zh) * | 2022-07-04 | 2022-08-02 | 煤炭科学技术研究院有限公司 | 一种煤流量检测方法及条件生成对抗网络的训练方法 |
CN114842015B (zh) * | 2022-07-04 | 2022-09-20 | 煤炭科学技术研究院有限公司 | 一种煤流量检测方法及条件生成对抗网络的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113139906B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275129B (zh) | 一种图像数据的增广策略选取方法及系统 | |
CN113139906A (zh) | 一种生成器的训练方法、装置与存储介质 | |
US11222211B2 (en) | Method and apparatus for segmenting video object, electronic device, and storage medium | |
CN109801221B (zh) | 生成对抗网络的训练方法、图像处理方法、装置和存储介质 | |
CN108154222B (zh) | 深度神经网络训练方法和系统、电子设备 | |
CN108280455B (zh) | 人体关键点检测方法和装置、电子设备、程序和介质 | |
KR20180109665A (ko) | 객체 검출을 위한 영상 처리 방법 및 장치 | |
CN112949520B (zh) | 一种基于多尺度小样本的航拍车辆检测方法及检测系统 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN110852349A (zh) | 一种图像处理方法、检测方法、相关设备及存储介质 | |
CN109284673B (zh) | 对象跟踪方法及装置、电子设备及存储介质 | |
CN111476226B (zh) | 一种文本定位方法、装置及模型训练方法 | |
JP2019164618A (ja) | 信号処理装置、信号処理方法およびプログラム | |
CN115082667A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111292331A (zh) | 图像处理的方法与装置 | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和系统 | |
CN109543556B (zh) | 动作识别方法、装置、介质及设备 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 | |
CN116311290A (zh) | 基于深度学习的手写及打印文本检测方法和装置 | |
CN113971671B (zh) | 实例分割方法、装置、电子设备及存储介质 | |
EP4497112A1 (en) | Methods and systems for image generation | |
JP7238510B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN116824129A (zh) | 人像抠图方法、装置、设备及存储介质 | |
CN118279576B (zh) | 一种目标检测方法、装置以及计算机存储介质 | |
CN119181011B (zh) | 自适应多尺度特征融合的图像识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |