[go: up one dir, main page]

CN106529589A - 采用降噪堆叠自动编码器网络的视觉目标检测方法 - Google Patents

采用降噪堆叠自动编码器网络的视觉目标检测方法 Download PDF

Info

Publication number
CN106529589A
CN106529589A CN201610959069.6A CN201610959069A CN106529589A CN 106529589 A CN106529589 A CN 106529589A CN 201610959069 A CN201610959069 A CN 201610959069A CN 106529589 A CN106529589 A CN 106529589A
Authority
CN
China
Prior art keywords
layer
noise reduction
input
image
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610959069.6A
Other languages
English (en)
Inventor
罗胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN201610959069.6A priority Critical patent/CN106529589A/zh
Publication of CN106529589A publication Critical patent/CN106529589A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种采用降噪堆叠自动编码器网络的视觉目标检测方法,其特征在于,包括步骤:包括步骤:S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。可以提高检测精度,可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。

Description

采用降噪堆叠自动编码器网络的视觉目标检测方法
技术领域
本发明涉及视觉目标检测技术领域,更具体地说,涉及一种采用降噪堆叠自动编码器网络的视觉目标检测方法。
背景技术
从场景图像中检测目标,思路主要有三条:1)去除背景,剩余的就是目标;2)采用模板卷积图像增强目标,然后图像分割直接定位;3)是采用能够抑制背景、突出目标的特征,将图像转换到特征空间,采用机器学习模式识别的方法判断是否存在缺陷。无论是去除背景还是直接定位目标,或者转换到特征空间,往往都使用阈值来分辨缺陷、背景和干扰,而阈值适应复杂多变的场景。边缘检测难以处理边缘模糊和弱对比度对象,形态学易受非均匀照明和对比度的影响,模板匹配方法难以适应目标的形变,也难以确定合适的尺度参数,因此在处理类内变化、类间相似性、复杂干扰等方面表现欠佳,在复杂环境和干扰下鲁棒性差。
自动编码器捕捉可以代表输入数据的最重要的因素,以复现输入信号,像PCA一样找到代表原信息的主要成分,这些主要成分就是输入信号的特征,也就是中间层的结果;降噪自动编码器设定模型从含有部分噪声的输入数据中重构不含有噪声的原始输入;降噪自动编码器找到样本中不同维度间的联系,根据部分数据恢复丢失的信息,即模型能够抗噪声和抗遮挡。
因此,现有技术亟待有很大的进步。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述的缺陷,提供一种采用降噪堆叠自动编码器网络的视觉目标检测方法,包括步骤:
S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;
S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;
S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。
其中,步骤S2还包括步骤:A1、生成第一层自动编码器,将输入信息经过编码和解码后得到与原始输入一样的输出信息,将训练样本的场景图像和目标位置的标记图像作为共同输入F1,经过编码O1=s1(W1F1+b1)成为中间层O1,然后解码重构成F1’=s1(W2O1+b2),模型的参数应该尽可能使重构数据逼近原始向量,即
用平方差表示表示重构数据与原始向量间的差异Loss,再加入L1限制,即稀疏要求,约束每一层中的大部分节点为0,少数不为0。因此上式演变成
纯净、无噪声的原始数据下,W2≈W1 T
A2、将第一层编码器的输出当成第二层降噪自动编码器的输入,同样最小化第二层降噪自动编码器的重构误差,使得第二层经过编码、解码后所重构的输出与第二层输入一样;
A3、生成中间若干层降噪自动编码器;
A4、堆叠各层降噪自动编码器,输入依次经过第一层编码、第二层编码…第n层编码,再依次经过第n层解码…第二层解码、第一层编码,输出与输入一样的信息;
A5、使用时,用场景图像和空白的标记图像作为共同输入,将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息,经过多层的降噪自动编码器,从场景图像恢复丢失的信息,在最后一层得到场景图像和标记图像,但只取标记图像作为输出。
实施本发明的采用降噪堆叠自动编码器网络的视觉目标检测方法,降噪堆叠自动编码器网络包括多层,逐层抽取特征并恢复丢失信息,可以提高检测精度,可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明采用降噪堆叠自动编码器网络的视觉目标检测方法的第一实施例的方法流程图。
图2是图1中步骤S2包括的方法流程图。
具体实施方式
请参阅图1,为本发明采用降噪堆叠自动编码器网络的视觉目标检测方法的第一实施例的模块示意图。图2是图1中步骤S2包括的方法流程图。如图1、图2所示,在本发明第一实施例提供的采用降噪堆叠自动编码器网络的视觉目标检测方法中,至少包括步骤:
S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;
S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;
具体实施时,S2还包括步骤:
A1、生成第一层自动编码器,将输入信息经过编码和解码后得到与原始输入一样的输出信息,将训练样本的场景图像和目标位置的标记图像作为共同输入F1,经过编码O1=s1(W1F1+b1)成为中间层O1,然后解码重构成F1’=s1(W2O1+b2),模型的参数应该尽可能使重构数据逼近原始向量,即
用平方差表示表示重构数据与原始向量间的差异Loss,再加入L1限制,即稀疏要求,约束每一层中的大部分节点为0,少数不为0。因此上式演变成
纯净、无噪声的原始数据下,W2≈W1 T
A2、将第一层编码器的输出当成第二层降噪自动编码器的输入,同样最小化第二层降噪自动编码器的重构误差,使得第二层经过编码、解码后所重构的输出与第二层输入一样;
A3、生成中间若干层降噪自动编码器;
A4、堆叠各层降噪自动编码器,输入依次经过第一层编码、第二层编码…第n层编码,再依次经过第n层解码…第二层解码、第一层编码,输出与输入一样的信息;
A5、使用时,用场景图像和空白的标记图像作为共同输入,将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息,经过多层的降噪自动编码器,从场景图像恢复丢失的信息,在最后一层得到场景图像和标记图像,但只取标记图像作为输出;
S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。通过逐层抽取特征并恢复丢失信息,可以提高所述采用降噪堆叠自动编码器网络的检测精度。
本发明通过以上实施例的设计,可以做到降噪堆叠自动编码器网络包括多层,逐层抽取特征并恢复丢失信息,可以提高检测精度,可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。
本发明是根据特定实施例进行描述的,但本领域的技术人员应明白在不脱离本发明范围时,可进行各种变化和等同替换。此外,为适应本发明技术的特定场合,可对本发明进行诸多修改而不脱离其保护范围。因此,本发明并不限于在此公开的特定实施例,而包括所有落入到权利要求保护范围的实施例。

Claims (2)

1.一种采用降噪堆叠自动编码器网络的视觉目标检测方法,其特征在于,包括步骤:
S1、将训练样本的场景图像和目标位置的标记图像作为共同输入,经过多层编码解码后得到同样的输出,然后将输出中的标记图像作为目标检测结果;
S2、降噪堆叠自动编码器网络包括多层,第一层作为输入端和输出端,经过简单的编码解码而没有降噪功能,中间若干层通过多次编码解码,找到不同维度间的联系,从样本中学习从场景图像中恢复丢失的标记图像功能,得到场景图像的标记图像;
S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。
2.根据权利要求1所述的采用降噪堆叠自动编码器网络的视觉目标检测方法,其特征在于,所述步骤S2还包括步骤:
A1、生成第一层自动编码器,将输入信息经过编码和解码后得到与原始输入一样的输出信息,将训练样本的场景图像和目标位置的标记图像作为共同输入F1,经过编码O1=s1(W1F1+b1)成为中间层O1,然后解码重构成F1’=s1(W2O1+b2),模型的参数应该尽可能使重构数据逼近原始向量,即
用平方差表示表示重构数据与原始向量间的差异Loss,再加入L1限制,即稀疏要求,约束每一层中的大部分节点为0,少数不为0。因此上式演变成
纯净、无噪声的原始数据下,W2≈W1 T
A2、将第一层编码器的输出当成第二层降噪自动编码器的输入,同样最小化第二层降噪自动编码器的重构误差,使得第二层经过编码、解码后所重构的输出与第二层输入一样;
A3、生成中间若干层降噪自动编码器;
A4、堆叠各层降噪自动编码器,输入依次经过第一层编码、第二层编码…第n层编码,再依次经过第n层解码…第二层解码、第一层编码,输出与输入一样的信息;
A5、使用时,用场景图像和空白的标记图像作为共同输入,将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息,经过多层的降噪自动编码器,从场景图像恢复丢失的信息,在最后一层得到场景图像和标记图像,但只取标记图像作为输出。
CN201610959069.6A 2016-11-03 2016-11-03 采用降噪堆叠自动编码器网络的视觉目标检测方法 Pending CN106529589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610959069.6A CN106529589A (zh) 2016-11-03 2016-11-03 采用降噪堆叠自动编码器网络的视觉目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610959069.6A CN106529589A (zh) 2016-11-03 2016-11-03 采用降噪堆叠自动编码器网络的视觉目标检测方法

Publications (1)

Publication Number Publication Date
CN106529589A true CN106529589A (zh) 2017-03-22

Family

ID=58325941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610959069.6A Pending CN106529589A (zh) 2016-11-03 2016-11-03 采用降噪堆叠自动编码器网络的视觉目标检测方法

Country Status (1)

Country Link
CN (1) CN106529589A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194418A (zh) * 2017-05-10 2017-09-22 中国科学院合肥物质科学研究院 一种基于对抗特征学习的水稻蚜虫检测方法
CN109886210A (zh) * 2019-02-25 2019-06-14 百度在线网络技术(北京)有限公司 一种交通图像识别方法、装置、计算机设备和介质
US10726525B2 (en) 2017-09-26 2020-07-28 Samsung Electronics Co., Ltd. Image denoising neural network architecture and method of training the same
CN112861625A (zh) * 2021-01-05 2021-05-28 深圳技术大学 一种堆叠去噪自编码器模型确定方法
WO2023050433A1 (zh) * 2021-09-30 2023-04-06 浙江大学 视频编解码方法、编码器、解码器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361328A (zh) * 2014-11-21 2015-02-18 中国科学院重庆绿色智能技术研究院 一种基于自适应多列深度模型的人脸图像正规化方法
CN104641644A (zh) * 2012-05-14 2015-05-20 卢卡·罗萨托 基于沿时间的样本序列的混合的编码和解码

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104641644A (zh) * 2012-05-14 2015-05-20 卢卡·罗萨托 基于沿时间的样本序列的混合的编码和解码
CN104361328A (zh) * 2014-11-21 2015-02-18 中国科学院重庆绿色智能技术研究院 一种基于自适应多列深度模型的人脸图像正规化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PASCAL VINCENT 等: "Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
XUGANG LU 等: "Speech Enhancement Based on Deep Denoising Autoencoder", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/283600839 》 *
王宪保 等: "基于堆叠降噪自动编码器的胶囊缺陷检测方法", 《计算机科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194418A (zh) * 2017-05-10 2017-09-22 中国科学院合肥物质科学研究院 一种基于对抗特征学习的水稻蚜虫检测方法
CN107194418B (zh) * 2017-05-10 2021-09-28 中国科学院合肥物质科学研究院 一种基于对抗特征学习的水稻蚜虫检测方法
US10726525B2 (en) 2017-09-26 2020-07-28 Samsung Electronics Co., Ltd. Image denoising neural network architecture and method of training the same
CN109886210A (zh) * 2019-02-25 2019-06-14 百度在线网络技术(北京)有限公司 一种交通图像识别方法、装置、计算机设备和介质
CN109886210B (zh) * 2019-02-25 2022-07-19 百度在线网络技术(北京)有限公司 一种交通图像识别方法、装置、计算机设备和介质
CN112861625A (zh) * 2021-01-05 2021-05-28 深圳技术大学 一种堆叠去噪自编码器模型确定方法
CN112861625B (zh) * 2021-01-05 2023-07-04 深圳技术大学 一种堆叠去噪自编码器模型确定方法
WO2023050433A1 (zh) * 2021-09-30 2023-04-06 浙江大学 视频编解码方法、编码器、解码器及存储介质

Similar Documents

Publication Publication Date Title
CN106529589A (zh) 采用降噪堆叠自动编码器网络的视觉目标检测方法
Rasti et al. Hyperspectral image denoising using first order spectral roughness penalty in wavelet domain
Tillmann On the computational intractability of exact and approximate dictionary learning
JP5922841B2 (ja) パターンのシンボル空間ベースの圧縮のための多層システム
US8863044B1 (en) Layout assessment method and system
US20080159403A1 (en) System for Use of Complexity of Audio, Image and Video as Perceived by a Human Observer
CN108898639A (zh) 一种图像描述方法及系统
CN106251375B (zh) 一种通用隐写分析的深度学习堆栈式自动编码方法
CN114667522A (zh) 将数据样本转换为正常数据
Kashyap et al. Detection of copy-move forgery using wavelet decomposition
WO2023036045A1 (zh) 模型训练方法、视频质量评估方法、装置、设备及介质
CN110752894B (zh) 一种基于cnn的ldpc码盲信道译码方法及译码器
CN102741861B (zh) 基于级联过完备字典的图像识别系统
CN110007341B (zh) 一种基于IfnoGAN和SSD模型的微地震有效信号的识别方法及系统
CN105447808A (zh) 可逆数据隐藏方法以及恢复方法
CN102663686A (zh) 基于Treelet变换和高斯尺度混合模型的图像去噪方法
Liu et al. Text detection in natural scene images using morphological component analysis and Laplacian dictionary
CN107622267B (zh) 一种基于嵌入双边卷积激活的场景文字识别方法
CN108171325B (zh) 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置
Ardizzone et al. Detection of duplicated regions in tampered digital images by bit-plane analysis
CN117710295B (zh) 图像处理方法、装置、设备、介质及程序产品
CN105956606B (zh) 一种基于不对称变换的行人再标识方法
CN116342363B (zh) 基于两阶段深度神经网络的可见水印去除方法
Dagher et al. Image denoising using fourth order wiener filter with wavelet quadtree decomposition
CN110390941A (zh) 基于系数相关模型的mp3音频隐写分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 325000 Science Park, Dongfang South Road, Ouhai District, Zhejiang, Wenzhou

Applicant after: Wenzhou University

Address before: 325000 Zhejiang city of Wenzhou province Wenzhou Higher Education Park (Chashan town of Ouhai District)

Applicant before: Wenzhou University

CB02 Change of applicant information
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170322

WD01 Invention patent application deemed withdrawn after publication