CN106529589A - 采用降噪堆叠自动编码器网络的视觉目标检测方法 - Google Patents
采用降噪堆叠自动编码器网络的视觉目标检测方法 Download PDFInfo
- Publication number
- CN106529589A CN106529589A CN201610959069.6A CN201610959069A CN106529589A CN 106529589 A CN106529589 A CN 106529589A CN 201610959069 A CN201610959069 A CN 201610959069A CN 106529589 A CN106529589 A CN 106529589A
- Authority
- CN
- China
- Prior art keywords
- layer
- noise reduction
- input
- image
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 230000000007 visual effect Effects 0.000 title abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000035807 sensation Effects 0.000 claims 2
- 238000000605 extraction Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种采用降噪堆叠自动编码器网络的视觉目标检测方法,其特征在于,包括步骤:包括步骤:S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。可以提高检测精度,可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。
Description
技术领域
本发明涉及视觉目标检测技术领域,更具体地说,涉及一种采用降噪堆叠自动编码器网络的视觉目标检测方法。
背景技术
从场景图像中检测目标,思路主要有三条:1)去除背景,剩余的就是目标;2)采用模板卷积图像增强目标,然后图像分割直接定位;3)是采用能够抑制背景、突出目标的特征,将图像转换到特征空间,采用机器学习模式识别的方法判断是否存在缺陷。无论是去除背景还是直接定位目标,或者转换到特征空间,往往都使用阈值来分辨缺陷、背景和干扰,而阈值适应复杂多变的场景。边缘检测难以处理边缘模糊和弱对比度对象,形态学易受非均匀照明和对比度的影响,模板匹配方法难以适应目标的形变,也难以确定合适的尺度参数,因此在处理类内变化、类间相似性、复杂干扰等方面表现欠佳,在复杂环境和干扰下鲁棒性差。
自动编码器捕捉可以代表输入数据的最重要的因素,以复现输入信号,像PCA一样找到代表原信息的主要成分,这些主要成分就是输入信号的特征,也就是中间层的结果;降噪自动编码器设定模型从含有部分噪声的输入数据中重构不含有噪声的原始输入;降噪自动编码器找到样本中不同维度间的联系,根据部分数据恢复丢失的信息,即模型能够抗噪声和抗遮挡。
因此,现有技术亟待有很大的进步。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述的缺陷,提供一种采用降噪堆叠自动编码器网络的视觉目标检测方法,包括步骤:
S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;
S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;
S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。
其中,步骤S2还包括步骤:A1、生成第一层自动编码器,将输入信息经过编码和解码后得到与原始输入一样的输出信息,将训练样本的场景图像和目标位置的标记图像作为共同输入F1,经过编码O1=s1(W1F1+b1)成为中间层O1,然后解码重构成F1’=s1(W2O1+b2),模型的参数应该尽可能使重构数据逼近原始向量,即
用平方差表示表示重构数据与原始向量间的差异Loss,再加入L1限制,即稀疏要求,约束每一层中的大部分节点为0,少数不为0。因此上式演变成
纯净、无噪声的原始数据下,W2≈W1 T;
A2、将第一层编码器的输出当成第二层降噪自动编码器的输入,同样最小化第二层降噪自动编码器的重构误差,使得第二层经过编码、解码后所重构的输出与第二层输入一样;
A3、生成中间若干层降噪自动编码器;
A4、堆叠各层降噪自动编码器,输入依次经过第一层编码、第二层编码…第n层编码,再依次经过第n层解码…第二层解码、第一层编码,输出与输入一样的信息;
A5、使用时,用场景图像和空白的标记图像作为共同输入,将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息,经过多层的降噪自动编码器,从场景图像恢复丢失的信息,在最后一层得到场景图像和标记图像,但只取标记图像作为输出。
实施本发明的采用降噪堆叠自动编码器网络的视觉目标检测方法,降噪堆叠自动编码器网络包括多层,逐层抽取特征并恢复丢失信息,可以提高检测精度,可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明采用降噪堆叠自动编码器网络的视觉目标检测方法的第一实施例的方法流程图。
图2是图1中步骤S2包括的方法流程图。
具体实施方式
请参阅图1,为本发明采用降噪堆叠自动编码器网络的视觉目标检测方法的第一实施例的模块示意图。图2是图1中步骤S2包括的方法流程图。如图1、图2所示,在本发明第一实施例提供的采用降噪堆叠自动编码器网络的视觉目标检测方法中,至少包括步骤:
S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;
S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;
具体实施时,S2还包括步骤:
A1、生成第一层自动编码器,将输入信息经过编码和解码后得到与原始输入一样的输出信息,将训练样本的场景图像和目标位置的标记图像作为共同输入F1,经过编码O1=s1(W1F1+b1)成为中间层O1,然后解码重构成F1’=s1(W2O1+b2),模型的参数应该尽可能使重构数据逼近原始向量,即
用平方差表示表示重构数据与原始向量间的差异Loss,再加入L1限制,即稀疏要求,约束每一层中的大部分节点为0,少数不为0。因此上式演变成
纯净、无噪声的原始数据下,W2≈W1 T;
A2、将第一层编码器的输出当成第二层降噪自动编码器的输入,同样最小化第二层降噪自动编码器的重构误差,使得第二层经过编码、解码后所重构的输出与第二层输入一样;
A3、生成中间若干层降噪自动编码器;
A4、堆叠各层降噪自动编码器,输入依次经过第一层编码、第二层编码…第n层编码,再依次经过第n层解码…第二层解码、第一层编码,输出与输入一样的信息;
A5、使用时,用场景图像和空白的标记图像作为共同输入,将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息,经过多层的降噪自动编码器,从场景图像恢复丢失的信息,在最后一层得到场景图像和标记图像,但只取标记图像作为输出;
S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。通过逐层抽取特征并恢复丢失信息,可以提高所述采用降噪堆叠自动编码器网络的检测精度。
本发明通过以上实施例的设计,可以做到降噪堆叠自动编码器网络包括多层,逐层抽取特征并恢复丢失信息,可以提高检测精度,可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。
本发明是根据特定实施例进行描述的,但本领域的技术人员应明白在不脱离本发明范围时,可进行各种变化和等同替换。此外,为适应本发明技术的特定场合,可对本发明进行诸多修改而不脱离其保护范围。因此,本发明并不限于在此公开的特定实施例,而包括所有落入到权利要求保护范围的实施例。
Claims (2)
1.一种采用降噪堆叠自动编码器网络的视觉目标检测方法,其特征在于,包括步骤:
S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;
S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;
S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。
2.根据权利要求1所述的采用降噪堆叠自动编码器网络的视觉目标检测方法,其特征在于,所述步骤S2还包括步骤:
A1、生成第一层自动编码器,将输入信息经过编码和解码后得到与原始输入一样的输出信息,将训练样本的场景图像和目标位置的标记图像作为共同输入F1,经过编码O1=s1(W1F1+b1)成为中间层O1,然后解码重构成F1’=s1(W2O1+b2),模型的参数应该尽可能使重构数据逼近原始向量,即
用平方差表示表示重构数据与原始向量间的差异Loss,再加入L1限制,即稀疏要求,约束每一层中的大部分节点为0,少数不为0。因此上式演变成
纯净、无噪声的原始数据下,W2≈W1 T;
A2、将第一层编码器的输出当成第二层降噪自动编码器的输入,同样最小化第二层降噪自动编码器的重构误差,使得第二层经过编码、解码后所重构的输出与第二层输入一样;
A3、生成中间若干层降噪自动编码器;
A4、堆叠各层降噪自动编码器,输入依次经过第一层编码、第二层编码…第n层编码,再依次经过第n层解码…第二层解码、第一层编码,输出与输入一样的信息;
A5、使用时,用场景图像和空白的标记图像作为共同输入,将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息,经过多层的降噪自动编码器,从场景图像恢复丢失的信息,在最后一层得到场景图像和标记图像,但只取标记图像作为输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610959069.6A CN106529589A (zh) | 2016-11-03 | 2016-11-03 | 采用降噪堆叠自动编码器网络的视觉目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610959069.6A CN106529589A (zh) | 2016-11-03 | 2016-11-03 | 采用降噪堆叠自动编码器网络的视觉目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106529589A true CN106529589A (zh) | 2017-03-22 |
Family
ID=58325941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610959069.6A Pending CN106529589A (zh) | 2016-11-03 | 2016-11-03 | 采用降噪堆叠自动编码器网络的视觉目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106529589A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194418A (zh) * | 2017-05-10 | 2017-09-22 | 中国科学院合肥物质科学研究院 | 一种基于对抗特征学习的水稻蚜虫检测方法 |
CN109886210A (zh) * | 2019-02-25 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 一种交通图像识别方法、装置、计算机设备和介质 |
US10726525B2 (en) | 2017-09-26 | 2020-07-28 | Samsung Electronics Co., Ltd. | Image denoising neural network architecture and method of training the same |
CN112861625A (zh) * | 2021-01-05 | 2021-05-28 | 深圳技术大学 | 一种堆叠去噪自编码器模型确定方法 |
WO2023050433A1 (zh) * | 2021-09-30 | 2023-04-06 | 浙江大学 | 视频编解码方法、编码器、解码器及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361328A (zh) * | 2014-11-21 | 2015-02-18 | 中国科学院重庆绿色智能技术研究院 | 一种基于自适应多列深度模型的人脸图像正规化方法 |
CN104641644A (zh) * | 2012-05-14 | 2015-05-20 | 卢卡·罗萨托 | 基于沿时间的样本序列的混合的编码和解码 |
-
2016
- 2016-11-03 CN CN201610959069.6A patent/CN106529589A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104641644A (zh) * | 2012-05-14 | 2015-05-20 | 卢卡·罗萨托 | 基于沿时间的样本序列的混合的编码和解码 |
CN104361328A (zh) * | 2014-11-21 | 2015-02-18 | 中国科学院重庆绿色智能技术研究院 | 一种基于自适应多列深度模型的人脸图像正规化方法 |
Non-Patent Citations (3)
Title |
---|
PASCAL VINCENT 等: "Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
XUGANG LU 等: "Speech Enhancement Based on Deep Denoising Autoencoder", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/283600839 》 * |
王宪保 等: "基于堆叠降噪自动编码器的胶囊缺陷检测方法", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194418A (zh) * | 2017-05-10 | 2017-09-22 | 中国科学院合肥物质科学研究院 | 一种基于对抗特征学习的水稻蚜虫检测方法 |
CN107194418B (zh) * | 2017-05-10 | 2021-09-28 | 中国科学院合肥物质科学研究院 | 一种基于对抗特征学习的水稻蚜虫检测方法 |
US10726525B2 (en) | 2017-09-26 | 2020-07-28 | Samsung Electronics Co., Ltd. | Image denoising neural network architecture and method of training the same |
CN109886210A (zh) * | 2019-02-25 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 一种交通图像识别方法、装置、计算机设备和介质 |
CN109886210B (zh) * | 2019-02-25 | 2022-07-19 | 百度在线网络技术(北京)有限公司 | 一种交通图像识别方法、装置、计算机设备和介质 |
CN112861625A (zh) * | 2021-01-05 | 2021-05-28 | 深圳技术大学 | 一种堆叠去噪自编码器模型确定方法 |
CN112861625B (zh) * | 2021-01-05 | 2023-07-04 | 深圳技术大学 | 一种堆叠去噪自编码器模型确定方法 |
WO2023050433A1 (zh) * | 2021-09-30 | 2023-04-06 | 浙江大学 | 视频编解码方法、编码器、解码器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529589A (zh) | 采用降噪堆叠自动编码器网络的视觉目标检测方法 | |
Rasti et al. | Hyperspectral image denoising using first order spectral roughness penalty in wavelet domain | |
Tillmann | On the computational intractability of exact and approximate dictionary learning | |
JP5922841B2 (ja) | パターンのシンボル空間ベースの圧縮のための多層システム | |
US8863044B1 (en) | Layout assessment method and system | |
US20080159403A1 (en) | System for Use of Complexity of Audio, Image and Video as Perceived by a Human Observer | |
CN108898639A (zh) | 一种图像描述方法及系统 | |
CN106251375B (zh) | 一种通用隐写分析的深度学习堆栈式自动编码方法 | |
CN114667522A (zh) | 将数据样本转换为正常数据 | |
Kashyap et al. | Detection of copy-move forgery using wavelet decomposition | |
WO2023036045A1 (zh) | 模型训练方法、视频质量评估方法、装置、设备及介质 | |
CN110752894B (zh) | 一种基于cnn的ldpc码盲信道译码方法及译码器 | |
CN102741861B (zh) | 基于级联过完备字典的图像识别系统 | |
CN110007341B (zh) | 一种基于IfnoGAN和SSD模型的微地震有效信号的识别方法及系统 | |
CN105447808A (zh) | 可逆数据隐藏方法以及恢复方法 | |
CN102663686A (zh) | 基于Treelet变换和高斯尺度混合模型的图像去噪方法 | |
Liu et al. | Text detection in natural scene images using morphological component analysis and Laplacian dictionary | |
CN107622267B (zh) | 一种基于嵌入双边卷积激活的场景文字识别方法 | |
CN108171325B (zh) | 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置 | |
Ardizzone et al. | Detection of duplicated regions in tampered digital images by bit-plane analysis | |
CN117710295B (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN105956606B (zh) | 一种基于不对称变换的行人再标识方法 | |
CN116342363B (zh) | 基于两阶段深度神经网络的可见水印去除方法 | |
Dagher et al. | Image denoising using fourth order wiener filter with wavelet quadtree decomposition | |
CN110390941A (zh) | 基于系数相关模型的mp3音频隐写分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 325000 Science Park, Dongfang South Road, Ouhai District, Zhejiang, Wenzhou Applicant after: Wenzhou University Address before: 325000 Zhejiang city of Wenzhou province Wenzhou Higher Education Park (Chashan town of Ouhai District) Applicant before: Wenzhou University |
|
CB02 | Change of applicant information | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170322 |
|
WD01 | Invention patent application deemed withdrawn after publication |