CN106529589A

CN106529589A - 采用降噪堆叠自动编码器网络的视觉目标检测方法

Info

Publication number: CN106529589A
Application number: CN201610959069.6A
Authority: CN
Inventors: 罗胜
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2017-03-22

Abstract

本发明涉及一种采用降噪堆叠自动编码器网络的视觉目标检测方法，其特征在于，包括步骤：包括步骤：S1、将训练样本的场景图像和目标位置的标记图像作为共同输入，经过多层编码解码后得到同样的输出，然后将输出中的标记图像作为目标检测结果；S2、降噪堆叠自动编码器网络包括多层，第一层作为输入端和输出端，经过简单的编码解码而没有降噪功能，中间若干层通过多次编码解码，找到不同维度间的联系，从样本中学习从场景图像中恢复丢失的标记图像功能，得到场景图像的标记图像；S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。可以提高检测精度，可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。

Description

采用降噪堆叠自动编码器网络的视觉目标检测方法

技术领域

本发明涉及视觉目标检测技术领域，更具体地说，涉及一种采用降噪堆叠自动编码器网络的视觉目标检测方法。

背景技术

从场景图像中检测目标，思路主要有三条：1)去除背景，剩余的就是目标；2)采用模板卷积图像增强目标，然后图像分割直接定位；3)是采用能够抑制背景、突出目标的特征，将图像转换到特征空间，采用机器学习模式识别的方法判断是否存在缺陷。无论是去除背景还是直接定位目标，或者转换到特征空间，往往都使用阈值来分辨缺陷、背景和干扰，而阈值适应复杂多变的场景。边缘检测难以处理边缘模糊和弱对比度对象，形态学易受非均匀照明和对比度的影响，模板匹配方法难以适应目标的形变，也难以确定合适的尺度参数，因此在处理类内变化、类间相似性、复杂干扰等方面表现欠佳，在复杂环境和干扰下鲁棒性差。

自动编码器捕捉可以代表输入数据的最重要的因素，以复现输入信号，像PCA一样找到代表原信息的主要成分，这些主要成分就是输入信号的特征，也就是中间层的结果；降噪自动编码器设定模型从含有部分噪声的输入数据中重构不含有噪声的原始输入；降噪自动编码器找到样本中不同维度间的联系，根据部分数据恢复丢失的信息，即模型能够抗噪声和抗遮挡。

因此，现有技术亟待有很大的进步。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述的缺陷，提供一种采用降噪堆叠自动编码器网络的视觉目标检测方法，包括步骤：

S1、将训练样本的场景图像和目标位置的标记图像作为共同输入，经过多层编码解码后得到同样的输出，然后将输出中的标记图像作为目标检测结果；

S2、降噪堆叠自动编码器网络包括多层，第一层作为输入端和输出端，经过简单的编码解码而没有降噪功能，中间若干层通过多次编码解码，找到不同维度间的联系，从样本中学习从场景图像中恢复丢失的标记图像功能，得到场景图像的标记图像；

S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。

其中，步骤S2还包括步骤：A1、生成第一层自动编码器，将输入信息经过编码和解码后得到与原始输入一样的输出信息，将训练样本的场景图像和目标位置的标记图像作为共同输入F₁，经过编码O₁＝s₁(W₁F₁+b₁)成为中间层O₁，然后解码重构成F₁’＝s₁(W₂O₁+b₂)，模型的参数应该尽可能使重构数据逼近原始向量，即

用平方差表示表示重构数据与原始向量间的差异Loss，再加入L₁限制，即稀疏要求，约束每一层中的大部分节点为0，少数不为0。因此上式演变成

纯净、无噪声的原始数据下，W₂≈W₁ ^T；

A2、将第一层编码器的输出当成第二层降噪自动编码器的输入，同样最小化第二层降噪自动编码器的重构误差，使得第二层经过编码、解码后所重构的输出与第二层输入一样；

A3、生成中间若干层降噪自动编码器；

A4、堆叠各层降噪自动编码器，输入依次经过第一层编码、第二层编码…第n层编码，再依次经过第n层解码…第二层解码、第一层编码，输出与输入一样的信息；

A5、使用时，用场景图像和空白的标记图像作为共同输入，将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息，经过多层的降噪自动编码器，从场景图像恢复丢失的信息，在最后一层得到场景图像和标记图像，但只取标记图像作为输出。

实施本发明的采用降噪堆叠自动编码器网络的视觉目标检测方法，降噪堆叠自动编码器网络包括多层，逐层抽取特征并恢复丢失信息，可以提高检测精度，可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明采用降噪堆叠自动编码器网络的视觉目标检测方法的第一实施例的方法流程图。

图2是图1中步骤S2包括的方法流程图。

具体实施方式

请参阅图1，为本发明采用降噪堆叠自动编码器网络的视觉目标检测方法的第一实施例的模块示意图。图2是图1中步骤S2包括的方法流程图。如图1、图2所示，在本发明第一实施例提供的采用降噪堆叠自动编码器网络的视觉目标检测方法中，至少包括步骤：

具体实施时，S2还包括步骤：

A1、生成第一层自动编码器，将输入信息经过编码和解码后得到与原始输入一样的输出信息，将训练样本的场景图像和目标位置的标记图像作为共同输入F₁，经过编码O₁＝s₁(W₁F₁+b₁)成为中间层O₁，然后解码重构成F₁’＝s₁(W₂O₁+b₂)，模型的参数应该尽可能使重构数据逼近原始向量，即

纯净、无噪声的原始数据下，W₂≈W₁ ^T；

A3、生成中间若干层降噪自动编码器；

A5、使用时，用场景图像和空白的标记图像作为共同输入，将标记图像作为噪声干扰下的丢失信息或者遮挡住的信息，经过多层的降噪自动编码器，从场景图像恢复丢失的信息，在最后一层得到场景图像和标记图像，但只取标记图像作为输出；

S3、降噪堆叠自动编码器网络逐层抽取特征并恢复丢失信息。通过逐层抽取特征并恢复丢失信息，可以提高所述采用降噪堆叠自动编码器网络的检测精度。

本发明通过以上实施例的设计，可以做到降噪堆叠自动编码器网络包括多层，逐层抽取特征并恢复丢失信息，可以提高检测精度，可以广泛用于车牌检测、自然环境中字符检测、行人检测、缺陷检测等各种检测应用。

本发明是根据特定实施例进行描述的，但本领域的技术人员应明白在不脱离本发明范围时，可进行各种变化和等同替换。此外，为适应本发明技术的特定场合，可对本发明进行诸多修改而不脱离其保护范围。因此，本发明并不限于在此公开的特定实施例，而包括所有落入到权利要求保护范围的实施例。

Claims

1.一种采用降噪堆叠自动编码器网络的视觉目标检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的采用降噪堆叠自动编码器网络的视觉目标检测方法，其特征在于，所述步骤S2还包括步骤：

纯净、无噪声的原始数据下，W₂≈W₁ ^T；

A3、生成中间若干层降噪自动编码器；