CN111950346A - 一种基于生成式对抗网络的行人检测数据扩充方法 - Google Patents
一种基于生成式对抗网络的行人检测数据扩充方法 Download PDFInfo
- Publication number
- CN111950346A CN111950346A CN202010595052.3A CN202010595052A CN111950346A CN 111950346 A CN111950346 A CN 111950346A CN 202010595052 A CN202010595052 A CN 202010595052A CN 111950346 A CN111950346 A CN 111950346A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- layer
- picture
- network
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于生成式对抗网络的行人检测数据扩充方法,包括:S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U‑net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;S2、训练数据预处理;S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。采用本发明的方案生成的行人与背景融合更加自然,通过生成器的U‑net结构进行改进,使生成的行人细节更加精细;基于级联结构生成多尺度的行人图片,提高了大尺寸、高分辨率行人图片的质量;能够生成多样化的行人,提高了数据扩充的效率。
Description
技术领域
本发明涉及图像处理领域,特别涉及一种基于生成式对抗网络的行人检测数据扩充方法。
背景技术
本发明涉及行人检测是视频处理中的一项基本任务,广泛应用于智能视频监控、自动驾驶、机器人自动化等场景中,训练高精度的行人检测模型需要大规模、高质量的行人图片数据集。目前,行人检测相关研究主要是使用已有的公开数据集,这些数据集大多来自巨头互联网公司,他们投入了大量的人工标注和矫正成本来保证数据集的可靠性。在这些公开数据集上训练模型时,研究者们常使用传统数据扩充方法,例如图片翻转、随机剪裁、调整颜色等对训练集图片进行扩充。然而,这些方法本质上并没能丰富数据集的内容,数据扩充的效果有限。面对这个问题,我们提出了一种级联结构的生成式对抗神经网络,它能够自动生成多尺寸、高质量、服饰各异的行人,从而达到自动化地大规模扩充行人检测数据集的目的。
生成式对抗神经网络(Generative Adversarial Network,GAN)是一种深度学习网络结构,它包含两个基本部分:生成器和判别器。在利用GAN进行图片生成的过程中,生成器的目标是生成尽可能真实的图片,判别器的目标是判断出哪些数据是真实的,哪些数据是生成的。通过训练网络,生成器和判别器不断地对抗,最终使网络学会生成与真实图片足够相近的图片。
近年来,基于GAN网络进行数据扩充成为了一个研究热点,已有的研究有生成植物图片用于植物识别的、生成医学CT图片用于辅助智能诊断的等等,但行人图片生成的研究还比较少,生成的行人图片质量也有待提高。前人工作基于GAN网络的行人生成方法主要思路是:给出一幅背景图(如街道图片),在背景图片中希望生成行人的位置上添加一个行人框,将框内的背景图替换成噪声(如高斯噪声),将其作为GAN网络的输入,基于U-net网络结构构建生成器,使用一个局部判别器来判断生成的行人是否真实,使用一个全局判别器来判断整幅行人图片是否真实,使用空间金字塔池化技术(Spatial Pyramid Pooling)来处理大小各异的多分辨率行人。这种方法存在几点问题:第一,添加的方框和背景的交界处有明显的边缘痕迹,生成的图片看起来像是在背景上贴了一个方形贴纸,不真实。第二,模型生成的行人细节粗糙,质量不高,这在大尺寸的高分辨率行人上尤其严重。第三,该方法训练的模型缺乏多样性,生成的行人衣着、颜色相似,这对数据扩充来说不够好。
发明内容
本发明所要解决的技术问题是:1.解决生成的行人图片中行人框与背景融合时边缘痕迹明显的问题;2.解决生成的行人细节粗糙的问题;3.解决大尺寸的高分辨率行人质量低的问题;4.解决生成的行人图片缺乏多样性的问题。针对上述存在的问题,提供了一种基于生成式对抗网络的行人检测数据扩充方法。
本发明采用的技术方案如下:一种基于生成式对抗网络的行人检测数据扩充方法,包括:
S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;
S2、训练数据预处理;
S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;
S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。
进一步的,所述S1中,搭建三层级联生成式对抗神经网络模型具体过程包括:
S11、构建残差U-net结构的生成器,生成器的编码器部分加入多尺度残差块,生成器的解码器部分加入通道注意力残差块;具体的,所述残差U-net结构的生成器在U-net的基础上进行改进,在编码器部分,将U-net的每个基本块中第二个3×3卷积替换为一个多尺度残差块作为新的基本块;在解码器部分,将U-net的每个基本块中第一个3×3卷积替换为一个通道注意力残差块作为新的基本块;向编码器的每个中间层注入一个经掩码遮掩的16维隐层向量。
S12、基于PatchGAN的判别器进行构建判别器;
S13、基于残差网络构建编码器;
S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256;两层生成式对抗网络之间通过一个卷积层相连,形成三层级联生成式对抗神经网络;
S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。
进一步的,所述步骤11中,生成器的编码器部分的每个中间层注入一个16维的隐层向量z,所述隐层向量z经过行人实例掩码遮掩。
进一步的,所述步骤15中三层级联生成式对抗神经网络模型的目标函数具体为:
其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,和LGAN(·)分别代表BicycleGAN网络结构中的cVAE-GAN和cLR-GAN的对抗损失目标函数;是L1损失,它使生成器的输入尽可能与行人样本图片相似;也是L1损失,它使编码器的输出尽可能贴近高斯分布;LKL是cLR-GAN中的KL距离,LVGG是感知损失;λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。
进一步的,所述S2的具体包括:
S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图,得到行人样本图集合;
S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将每个标签图与对应样本图对齐并剪裁,重复该过程,得到行人样本图集合对应的实例标签图集合L;
S23、将每张实例标签图中最中间的行人的像素点值置为1,其他像素点值置为0,得到每张样本图的行人实例掩码M;
S24、利用得到的行人实例掩码对对应行人样本图进行处理,得到经行人实例掩码后的图像BM;
S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图E;
S26、将步骤S22、S23、S24、S25得到的集合中每张图片所对应的BM,M,L,E依次拼接,获得三层级联生成式对抗神经网络模型输入集合A,A={BM,M,L,E}。
进一步的,所述步骤21中,针对每层生成对抗式神经网格提取不同的行人样本图,
对于第一层网络,取出数据集中高度在[64,256]像素的行人样本,每一个行人样本是一张正方形图片,边长与行人等高,图片的中心为行人的中心,调整取出图片的大小(resize)为64*64像素;
对于第二层网络,取出高度在[100,1024]像素的行人样本,调整图片大小到128*128像素;
对于第三层网络,取出高度在[150,1024]像素的行人样本,调整图片大小到256*256*像素。
进一步的,所述S3的具体包括:在训练级联网络时,训练N轮,
第一层网络的目标是学习生成器G1和编码器E1的权重,训练第一层时,目标函数不使用感知损失;
训练第二层时,前N/2轮固定生成器G1和编码器E1的权重,只更新生成器G2和编码器E2的权重,后N/2轮同时更新生成器G1、G2和编码器E1、E2的权重。
训练第三层时,前N/2轮固定生成器G1、G2和编码器E1、E2的权重,只更新生成器G3和编码器E3的权重,后N/2轮同时更新生成器G1、G2、G3和编码器E1、E2、E3的权重。
其中,G1、G2、G3分别指第一层、第二层、第三层生成式对抗神经网络的生成器;E1、E2、E3分别指第一层、第二层、第三层生成式对抗神经网络的编码器。
进一步的,S3中,采用Adam优化方法更新权重,其学习率为wh-i*lr,其中lr是基础学习率,h是级联的总层数,i是当前所训练层的序数,w是权重参数。
进一步的,所述S4的具体包括:
S41、建立图片中行人高度Ph与行人位置Ppos的线性关系;
S42、根据数据集提供的实例标签标注,得到路面位置坐标集合;
S43、统计数据集提供的实例标签中已有行人的行人框底边10*10像素内的位置坐标,得到行人位置坐标集合;
S44、对于一张给定的需要生成行人的图片I,随机从路面位置坐标集合和行人位置坐标集合中选择一个数据集,再随机从这两个数据集中选一个位置,作为生成行人的位置Ppos,根据步骤S41的线性关系,计算出新生成行人的高度Ph;
从图片I中剪裁出一个Ph*Ph大小的背景图片Ibg,其中心与生成的新的行人的中心一致;从行人实例掩码数据集中随机选择一个掩码M,以及它对应的实例掩码L和边缘图片E,根据Ibg和掩码M计算得到经掩码后的图片BM,将掩码M、实例掩码L、边缘图片E以及经掩码后的图片BM一起输入训练好的三层级联生成式对抗神经网络模型,得到生成图片Iped,在图片I中将背景图片Ibh逐像素替换为生成图片Iped,完成一次数据扩充;
S45、重复步骤41,得到大量扩充数据。
进一步的,所述S1中,行人高度Ph与行人位置Ppos的线性关系的具体为:
Ph global=aglobal*Ppos global+bglobal
其中,Ph global为整个数据集中行人高度Ph的统计值,Ppos global为整个数据集中行人位置Ppos的统计值。
与现有技术相比,采用上述技术方案的有益效果为:
1.使用行人实例掩码解决了行人框掩码在背景图中边缘明显的问题;行人实例掩码能够提供行人的形状,生成的行人身体边缘更加清晰,姿态更加真实;
2.引入多尺度残差块、通道注意力残差块,对生成器的U-net结构进行改进,使生成的行人细节更加精细;
3.基于级联结构生成多尺度的行人图片,提高了大尺寸、高分辨率行人图片的质量;
4.能够生成多样化的行人,提高了数据扩充的效率。
附图说明
图1为本发明中的基于GAN网络的行人检测数据扩充方法过程示意图。
图2为本发明中的三层级联生成式对抗神经网络整体结构示意图。
图3为本发明中的生成器残差U-net网络结构示意图。
图4为本发明中的生成器中多尺度残差块结构示意图。
图5为本发明中的生成器中通道注意力残差块结构示意图。
图6为本发明中的判别器结构示意图。
图7为本发明中的编码器结构示意图。
图8为本发明中的级联层与层之间连接结构示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明要解决的技术问题:
1.解决生成的行人图片中行人框与背景融合时边缘痕迹明显的问题;
2.解决生成的行人细节粗糙的问题;
3.解决大尺寸的高分辨率行人质量低的问题;
4.解决生成的行人图片缺乏多样性的问题。
基于此,本发明提供了一种基于生成式对抗网络的行人检测数据扩充方法,具体方案如下:
步骤1:搭建级联生成式对抗神经网络。本方案提出一个三层级联生成式对抗神经网络(如图2),每一层生成式对抗神经网络都使用BicycleGAN的结构,但将其中生成器的网络结构改进为残差U-net网络,本实施例提出的神经网络是为学习从BM到B的映射,其中,BM是输入域集合,它的每个元素是一张被行人实例掩码遮掩的背景图片;B是输出域集合,它的每一个元素是一张包含背景的行人图片。为了给网络提供更多的信息,在训练网络时我们不仅输入BM,还输入它对应的行人实例掩码集合M、计算M所用的实例标签图集合L,以及通过L得到的实例边缘图集合E。所以,网络的输入为A={BM,M,L,E},输出为B。需注意的是,本实施例的网络学习“1对多”的映射,对于一个输入,有多个可能的输出,但在训练时我们只输入“1对1”的映射,在测试时可以获得多个输出。具体如下:
步骤11、构建残差U-net结构的生成器。残差U-net生成器在U-net的基础上进行改进:在编码器部分,将U-net的每个基本块中第二个3×3卷积替换为一个多尺度残差块作为新的基本块;在解码器部分,将U-net的每个基本块中第一个3×3卷积替换为一个通道注意力残差块作为新的基本块;向编码器的每个中间层注入一个经掩码遮掩的16维隐层向量。对于本发明的三层级联生成式对抗神经网络,每个层级上,生成器编码器和解码器部分的基本块个数相等,其基本块总数分别为n1=12,n2=14,n3=16,第j个和第n-j个基本块之间跳连,跳连的连接方式与原始的U-net一致。
具体的,编码器部分的每个多尺度残差块定义为:
Mn=S'+Mn-1
其中,w和b是权重和偏置,上角标代表该网络层的位置,下角标代表代表卷积网络中的卷积核大小,与已有工作的多尺度残差块的不同在于,本发明的激活函数δ(·)不使用ReLU,而是使用LeakyReLU,方括号[]代表连接操作,Mn和Mn-1分别代表多尺度残差块的输出和输入。
在解码器的通道注意力残差块中,通道注意力CA(X)由以下三步定义:
s=f(WUδ(WDy)),
其中,输入数据为X=[x1,x2,...,xC],C是一个大小为H×W大小的特征图,y是对每个通道的统计信息,xc(i,j)是在位置(i,j)上的值,AA(·)是Average Pooling,f(·)是sigmoid,δ(·)是LeakyReLU,W是权重。基于CA(X),通道注意力残差块A(X)表示为:
An=CA(X)·X+An-1
X=W2δ(W1An-1)
其中,W1和W2是两个卷积层的权重。
如图3所示为第一层对抗式神经网络中的生成器结构示意图,其中C(in,out,k,s)代表一个卷积层,它的输入通道数为in,输出通道数为out,卷积核的大小是k*k,步长是s;CT(in,out,k,s)代表一个转置卷积层;CAT是拼接操作;DS(t)是下采样操作,其系数为t;M(in,out)是一个多尺度特征残差块,A(in,inter)是一个通道注意力残差块。图4为多尺度特征残差块的结构示意图,图5为通道注意力残差块的结构示意图,其中inter是该残差块里中间卷积层的通道数,通过输入通道数in和衰减率r计算得到,本实施例取r=16。
步骤12、构建判别器。所有判别器均使用PatchGAN提出的判别器结构,其结构示意如图6。其中,C(in,out,k,s)代表一个卷积层,AvgPool(k,s)代表一个平均池化层。
网络使用Leaky ReLU为激活函数,参数为0.2,Instance Normalization是实例正则化。
步骤13、构建BicycleGAN网络的编码器。编码器基于残差网络,结构示意如图7。R(in,out,k,s)代表一个标准的残差块,Linear(in,out)代表一个线性层,代表逐元素相加操作,网络使用Leaky ReLU为激活函数,参数为0.2,Instance Normalization是实例正则化。
步骤14、搭建三层级联生成式对抗神经网络。
级联网络的每一层使用步骤11、12、13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256。两层GAN网络之间靠一个卷积层相连,其示意图见图8。
步骤15、设定模型训练的目标函数。因为级联的每一层都是一个BicycleGAN结构的网络,所以本实施例采用了BicycleGAN提出的目标函数。另外,为了促使生成的行人更像人,文本还加入了基于VGG-19的感知损失为目标函数。最终的目标函数为:
其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,和LGAN(·)分别代表BicycleGAN中的cVAE-GAN和cLR-GAN的对抗损失目标函数。是L1损失,它使生成器的输入尽可能与行人样本图片相似;也是L1损失,它使编码器的输出尽可能贴近高斯分布。LKL是cLR-GAN中的KL距离,LVGG是感知损失。λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。
步骤2:数据预处理。本方案在公开数据集Cityscapes提供的训练集上进行模型训练,在它的验证集上进行测试。该数据集中的每张街景图片的分辨率都是1920*1080,训练本发明的模型只关注图片中有行人的部分。具体如下:
步骤21、从数据集中取出行人样本。为训练第一层GAN网络,我们取出数据集中高度在[64,256]像素的行人样本,每一个行人样本是一张正方形图片,边长与行人等高,图片的中心为行人的中心。调整取出图片的大小(resize)为64*64像素;为训练第二层GAN网络,取出高度在[100,1024]像素的行人样本,调整图片大小到128*128像素;为训练第三层GAN网络,取出高度在[150,1024]像素的行人样本,调整图片大小到256*256*像素。
步骤22、获得行人样本对应的实例标签图集合L。通过Cityscapes提供的实例标签图集合和步骤21得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将标签图与每个样本图对齐并剪裁,得到实例标签图集合。
步骤23、获得行人样本对应的行人实例掩码M。对于每张标签图,将属于它中最中间的行人的像素点值置为1,其他像素点值置为0,则得到了每张样本图的行人实例掩码。
步骤24、获得经行人实例掩码后的图像BM。通过步骤21获得的样本和步骤22获得的行人实例掩码得到经行人实例掩码后的图像,图像中最中间的行人被掩码为白色,图片的其他部分仍保留。
步骤25、获得行人样本对应的实例边缘图集合E。将Cityscapes提供的实例标签图与步骤21获得的样本图集合对其,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图。
步骤26、得到模型的输入集合A,A={BM,M,L,E}。将步骤22、23、24、25得到的集合中每张图片所对应的BM,M,L,E依次拼接,获得输入集合。
步骤3:训练三层级联生成式对抗神经网络模型。超参数λ、λKL、λlatent、λVGG分别设置为10,0.01,0.5和1,设置批度为1,训练轮数为200。
在训练第一层GAN网络时不使用感知损失,因为我们发现该损失在这种分辨率下会导致训练不稳定。
在训练级联网络时,第一层网络的目标是学习生成器G1和编码器E1的权重,训练200轮;训练第二层时,前100轮固定G1和E1的权重,只更新G2和E2,后100轮同时更新G1、E1、G2和E2;第三层与第二层采用相同的策略。
使用Adam优化方法更新权重,其学习率为wh-i*lr,其中lr是基础学习率,h是级联的总层数,i是当前所训练层的序数,w是权重参数,本实施例取lr=0.0002,h=3,i={1,2,3},w=0.01。
步骤4:使用步骤3训练的模型扩充CityPersons数据集行人检测数据。CityPersons是从Cityscapes数据集中延伸出来的一个公开数据集,也提供了城市街景图片、实例标签标注等数据。
数据扩充具体步骤如下:
步骤41、确定数据集中行人高度与位置间的关系。行人的高度用Ph表示,行人的位置用Ppos表示,二者之间存在关联:行人所处的位置离拍摄图片的相机位置越近则其高度越大。Ph和Ppos可根据数据集提供的行人框标签获得,Ph取值为行人框的高度,Ppos取值为行人框底边在纵轴上的坐标。这里,取图片的左上角为原点,图片上边缘所在的直线为横轴,向右为正方向,图片左边缘所在的直线为纵轴,向下为正方向。根据整个数据集上Ph的统计值Ph global和Ppos的统计Ppos global,可以拟合一个全局的线性关系:
Ph global=aglobal*Ppos global+bglobal
步骤42、取适合生成行人的位置。根据现实世界的认知,行人出现的位置必须在人行道或者马路上(统称路面),天空或者树上等位置是不合适的。那么,根据数据集提供的实例标签标注,可以得到路面位置坐标集合{Ground}。在此基础上,我们假设一个新生成的行人可以出现在已有的行人的旁边,或者在路面的任意位置。根据数据集提供的实例标签,统计已有行人的行人框底边10*10像素内的位置坐标为行人位置坐标{Person}。
步骤43、扩充行人数据。对于一张给定的需要生成行人的图片I,随机从{Ground}和{Person}中选择一个数据集,再随机从这两个数据集中选一个位置,作为生成行人的位置Ppos。根据步骤41的线性关系,计算出新生成行人的高度Ph。从图片I中剪裁出一个Ph*Ph大小的背景图片Ibg,其中心与生成的新的行人的中心一致。接着,从行人实例掩码数据集中随机选择一个掩码M,以及它对应的实例掩码L和边缘图片E,根据Ibg和掩码M计算得到经掩码后的图片BM,将掩码M、实例掩码L、边缘图片E以及经掩码后的图片BM一起输入步骤3训练好的级联GAN网络模型,得到一张生成图片Iped,在图片I中将背景图片Ibg逐像素替换为生成图片Iped,完成一次数据扩充。根据实际需求,可自动地选择I、Ppos和M,反复进行步骤43,得到大量的扩充数据。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
Claims (10)
1.一种基于生成式对抗网络的行人检测数据扩充方法,其特征在于,包括:
S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;
S2、训练数据预处理;
S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;
S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。
2.根据权利要求1所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S1中,搭建三层级联生成式对抗神经网络模型具体过程包括:
S11、构建残差U-net结构的生成器,生成器的编码器部分加入多尺度残差块,生成器的解码器部分加入通道注意力残差块;所述生成器在第一层、第二层、第三层网络中包含的基本块个数分别为n1=12,n2=14,n3=16,在每层的第j个和第n-j个基本块之间跳连;所述基本块包括多尺度残差块和通道注意力残差块;
S12、基于PatchGAN的判别器进行构建判别器;
S13、基于残差网络构建编码器;
S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256;两层生成式对抗网络之间通过一个卷积层相连,形成三层级联生成式对抗神经网络;
S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。
3.根据权利要求2所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤11中,生成器的编码器部分的每个中间层注入一个16维的隐层向量z,所述隐层向量z经过行人实例掩码遮掩。
5.根据权利要求1或4所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S2的具体包括:
S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图,得到行人样本图集合;
S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将每个标签图与对应样本图对齐并剪裁,重复该过程,得到行人样本图集合对应的实例标签图集合L;
S23、将每张实例标签图中最中间的行人的像素点值置为1,其他像素点值置为0,得到每张样本图的行人实例掩码M;
S24、利用得到的行人实例掩码对对应行人样本图进行处理,得到经行人实例掩码后的图像BM;
S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图E;
S26、将步骤S22、S23、S24、S25得到的集合中每张图片所对应的BM,M,L,E依次拼接,获得三层级联生成式对抗神经网络模型输入集合A,A={BM,M,L,E}。
6.根据权利要求5所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤21中,针对每层生成对抗式神经网格提取不同的行人样本图,
对于第一层网络,取出数据集中高度在[64,256]像素的行人样本,每一个行人样本是一张正方形图片,边长与行人等高,图片的中心为行人的中心,调整取出图片的大小(resize)为64*64像素;
对于第二层网络,取出高度在[100,1024]像素的行人样本,调整图片大小到128*128像素;
对于第三层网络,取出高度在[150,1024]像素的行人样本,调整图片大小到256*256像素。
7.根据权利要求6所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S3的具体包括:在训练级联网络时,训练N轮,
第一层网络的目标是学习生成器G1和编码器E1的权重,训练第一层时,目标函数不使用感知损失;
训练第二层时,前N/2轮固定生成器G1和编码器E1的权重,只更新生成器G2和编码器E2的权重,后N/2轮同时更新生成器G1、G2和编码器E1、E2的权重。
训练第三层时,前N/2轮固定生成器G1、G2和编码器E1、E2的权重,只更新生成器G3和编码器E3的权重,后N/2轮同时更新生成器G1、G2、G3和编码器E1、E2、E3的权重。
其中,G1、G2、G3分别指第一层、第二层、第三层生成式对抗神经网络的生成器;E1、E2、E3分别指第一层、第二层、第三层生成式对抗神经网络的编码器。
8.根据权利要求7所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,S3中,采用Adam优化方法更新权重,其学习率为wh-i*lr,其中lr是基础学习率,h是级联的总层数,i是当前所训练层的序数,w是权重参数。
9.根据权利要求8所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S4的具体包括:
S41、建立图片中行人高度Ph与行人位置Ppos的线性关系;
S42、根据数据集提供的实例标签标注,得到路面位置坐标集合;
S43、统计数据集提供的实例标签中已有行人的行人框底边10*10像素内的位置坐标,得到行人位置坐标集合;
S44、对于一张给定的需要生成行人的图片I,随机从路面位置坐标集合和行人位置坐标集合中选择一个数据集,再随机从这两个数据集中选一个位置,作为生成行人的位置Ppos,根据步骤S41的线性关系,计算出新生成行人的高度Ph;
从图片I中剪裁出一个Ph*Ph大小的背景图片Ibg,其中心与生成的新的行人的中心一致;从行人实例掩码数据集中随机选择一个掩码M,以及它对应的实例掩码L和边缘图片E,根据Ibg和掩码M计算得到经掩码后的图片BM,将掩码M、实例掩码L、边缘图片E以及经掩码后的图片BM一起输入训练好的三层级联生成式对抗神经网络模型,得到生成图片Iped,在图片I中将背景图片Ibg逐像素替换为生成图片Iped,完成一次数据扩充;
S45、重复步骤41,得到大量扩充数据。
10.根据权利要求9所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S1中,行人高度Ph与行人位置Ppos的线性关系的具体为:
Ph global=aglobal*Ppos global+bglobal
其中,Ph global为整个数据集中行人高度Ph的统计值,Ppos global为整个数据集中行人位置Ppos的统计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010595052.3A CN111950346A (zh) | 2020-06-28 | 2020-06-28 | 一种基于生成式对抗网络的行人检测数据扩充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010595052.3A CN111950346A (zh) | 2020-06-28 | 2020-06-28 | 一种基于生成式对抗网络的行人检测数据扩充方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950346A true CN111950346A (zh) | 2020-11-17 |
Family
ID=73337331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010595052.3A Pending CN111950346A (zh) | 2020-06-28 | 2020-06-28 | 一种基于生成式对抗网络的行人检测数据扩充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950346A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634284A (zh) * | 2020-12-22 | 2021-04-09 | 上海体素信息科技有限公司 | 基于权重图损失的分阶段神经网络ct器官分割方法及系统 |
CN114519798A (zh) * | 2022-01-24 | 2022-05-20 | 东莞理工学院 | 一种基于对抗神经网络的多目标图像数据增强方法 |
TWI779760B (zh) * | 2021-08-04 | 2022-10-01 | 瑞昱半導體股份有限公司 | 資料擴增方法與非暫態電腦可讀取媒體 |
CN115526874A (zh) * | 2022-10-08 | 2022-12-27 | 哈尔滨市科佳通用机电股份有限公司 | 闸调器控制杆圆销和圆销开口销丢失检测方法 |
WO2023246921A1 (zh) * | 2022-06-23 | 2023-12-28 | 京东方科技集团股份有限公司 | 目标属性识别方法、模型训练方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2948816A1 (fr) * | 2009-07-30 | 2011-02-04 | Univ Paris Sud | Dispositifs electro-optiques bases sur la variation d'indice ou d'absorption dans des transitions isb. |
US20120069342A1 (en) * | 2010-04-19 | 2012-03-22 | Fraser Dalgleish | MEMS Microdisplay Optical Imaging and Sensor Systems for Underwater Scattering Environments |
US20170365038A1 (en) * | 2016-06-16 | 2017-12-21 | Facebook, Inc. | Producing Higher-Quality Samples Of Natural Images |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN110021051A (zh) * | 2019-04-01 | 2019-07-16 | 浙江大学 | 一种基于生成对抗网络通过文本指导的人物图像生成方法 |
CN110969589A (zh) * | 2019-12-03 | 2020-04-07 | 重庆大学 | 基于多流注意对抗网络的动态场景模糊图像盲复原方法 |
-
2020
- 2020-06-28 CN CN202010595052.3A patent/CN111950346A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2948816A1 (fr) * | 2009-07-30 | 2011-02-04 | Univ Paris Sud | Dispositifs electro-optiques bases sur la variation d'indice ou d'absorption dans des transitions isb. |
US20120069342A1 (en) * | 2010-04-19 | 2012-03-22 | Fraser Dalgleish | MEMS Microdisplay Optical Imaging and Sensor Systems for Underwater Scattering Environments |
US20170365038A1 (en) * | 2016-06-16 | 2017-12-21 | Facebook, Inc. | Producing Higher-Quality Samples Of Natural Images |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN110021051A (zh) * | 2019-04-01 | 2019-07-16 | 浙江大学 | 一种基于生成对抗网络通过文本指导的人物图像生成方法 |
CN110969589A (zh) * | 2019-12-03 | 2020-04-07 | 重庆大学 | 基于多流注意对抗网络的动态场景模糊图像盲复原方法 |
Non-Patent Citations (2)
Title |
---|
JIE WU 等: "PMC-GANs:Generating Multi-Scale High-Quality Pedestrian with Multimodal Cascaded GANs", 《ARXIV》 * |
梁礼明 等: "自适应尺度信息的U型视网膜血管分割算法", 《光学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634284A (zh) * | 2020-12-22 | 2021-04-09 | 上海体素信息科技有限公司 | 基于权重图损失的分阶段神经网络ct器官分割方法及系统 |
CN112634284B (zh) * | 2020-12-22 | 2022-03-25 | 上海体素信息科技有限公司 | 基于权重图损失的分阶段神经网络ct器官分割方法及系统 |
TWI779760B (zh) * | 2021-08-04 | 2022-10-01 | 瑞昱半導體股份有限公司 | 資料擴增方法與非暫態電腦可讀取媒體 |
CN114519798A (zh) * | 2022-01-24 | 2022-05-20 | 东莞理工学院 | 一种基于对抗神经网络的多目标图像数据增强方法 |
WO2023246921A1 (zh) * | 2022-06-23 | 2023-12-28 | 京东方科技集团股份有限公司 | 目标属性识别方法、模型训练方法和装置 |
CN115526874A (zh) * | 2022-10-08 | 2022-12-27 | 哈尔滨市科佳通用机电股份有限公司 | 闸调器控制杆圆销和圆销开口销丢失检测方法 |
CN115526874B (zh) * | 2022-10-08 | 2023-05-12 | 哈尔滨市科佳通用机电股份有限公司 | 闸调器控制杆圆销和圆销开口销丢失检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950346A (zh) | 一种基于生成式对抗网络的行人检测数据扩充方法 | |
CN112734845B (zh) | 一种融合场景语义的室外单目同步建图与定位方法 | |
CN105894045B (zh) | 一种基于空间金字塔池化的深度网络模型的车型识别方法 | |
CN105069746B (zh) | 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其系统 | |
CN113657388B (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN111080659A (zh) | 一种基于视觉信息的环境语义感知方法 | |
CN106022363B (zh) | 一种适用于自然场景下的中文文字识别方法 | |
CN109711413A (zh) | 基于深度学习的图像语义分割方法 | |
CN112784736B (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
CN109726627A (zh) | 一种神经网络模型训练及通用接地线的检测方法 | |
CN110781773A (zh) | 一种基于残差神经网络的道路提取方法 | |
CN108416292A (zh) | 一种基于深度学习的无人机航拍图像道路提取方法 | |
CN108648197A (zh) | 一种基于图像背景掩膜的目标候选区域提取方法 | |
CN109002752A (zh) | 一种基于深度学习的复杂公共场景快速行人检测方法 | |
CN112633220B (zh) | 一种基于双向序列化建模的人体姿态估计方法 | |
CN113486764A (zh) | 一种基于改进的YOLOv3的坑洼检测方法 | |
CN117765373A (zh) | 一种自适应裂缝尺寸的轻量化道路裂缝检测方法及系统 | |
CN113076804A (zh) | 基于YOLOv4改进算法的目标检测方法、装置及系统 | |
CN112288776A (zh) | 一种基于多时间步金字塔编解码器的目标跟踪方法 | |
CN114399533B (zh) | 一种基于多层次注意力机制的单目标追踪方法 | |
CN111209858A (zh) | 一种基于深度卷积神经网络的实时车牌检测方法 | |
CN116682021A (zh) | 一种高分辨率遥感影像建筑物矢量轮廓数据提取方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN113159158A (zh) | 一种基于生成对抗网络的车牌矫正与重构方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201117 |