CN104346622A

CN104346622A - 卷积神经网络分类器及其分类方法和训练方法

Info

Publication number: CN104346622A
Application number: CN201310329465.7A
Authority: CN
Inventors: 吴春鹏; 范伟; 何源; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2015-02-11
Also published as: US9697444B2; EP2833295A3; EP2833295A2; US20150036920A1; JP2015032308A

Abstract

本发明涉及一种卷积神经网络分类器、利用卷积神经网络分类器进行分类的方法和训练卷积神经网络分类器的方法。卷积神经网络分类器包括：多个特征图层，多个特征图层中的至少一个特征图层中的至少一个特征图被划分成多个区域；以及多个卷积模板，多个卷积模板与多个区域分别对应，每个卷积模板用于获得相应区域中的神经元的响应值。

Description

卷积神经网络分类器及其分类方法和训练方法

技术领域

本发明涉及图像识别领域，具体涉及一种卷积神经网络分类器、利用卷积神经网络分类器进行分类的方法和训练卷积神经网络分类器的方法。

背景技术

卷积神经网络（Convolutional Neural Network，简称CNN）分类器常被用于图像识别。图1示出了一种传统的卷积神经网络分类器，图4至图7示出了用传统的卷积神经网络分类器来计算神经元的响应值的过程。在利用该传统的卷积神经网络分类器进行识别的过程中，以手写数字为例，输入一幅图像，经过多次重复的卷积、空间最大采样和全连接操作后，卷积神经网络分类器输出在每种数字上的置信度，置信度最高的输出就是识别结果。图1和图4至图7中的每个方框为一个特征图，比如F1、F2和F3，输入图像也可以被看作特征图。

在上述方法中，卷积操作的作用是从前一层的特征图上提取特征。但是，传统卷积神经网络分类器的卷积操作在很大程度上限制了所能提取到的特征数量，导致卷积神经网络分类器的结构不够灵活。

因此，期望一种能够解决上述问题的技术。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供一种卷积神经网络分类器、利用卷积神经网络分类器进行分类的方法和训练卷积神经网络分类器的方法。

根据本发明的一个实施例，提供了一种卷积神经网络分类器，卷积神经网络分类器包括：多个特征图层，多个特征图层中的至少一个特征图层中的至少一个特征图被划分成多个区域；以及多个卷积模板，多个卷积模板与多个区域分别对应，每个卷积模板用于获得相应区域中的神经元的响应值。

根据本发明的另一个实施例，提供了一种利用卷积神经网络分类器进行分类的方法，其中，卷积神经网络分类器包括多个特征图层，该方法包括：将多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域；将分类对象送入卷积神经网络分类器以进行前向传播从而获得输出结果，在前向传播的过程中，采用与多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值；以及根据输出结果来对分类对象进行分类。

根据本发明的又一个实施例，提供了一种训练卷积神经网络分类器的方法，其中，卷积神经网络分类器包括多个特征图层，该方法包括：将多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域；将具有已知标记的训练样本送入卷积神经网络分类器以进行前向传播从而获得输出结果，在前向传播的过程中，采用与多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值；根据输出结果与已知标记之间的差异来进行反向传播以修正包括卷积模板中的权值在内的、卷积神经网络分类器的参数；以及重复上述步骤，直到满足预定条件为止。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出一种传统的卷积神经网络分类器的示意图；

图2是示出根据本发明的实施例的卷积神经网络分类器的示意图；

图3是示出从图1或2中选出的局部的示意图；

图4至图7是示出用传统的卷积神经网络分类器来计算神经元的响应值的过程的示意图；

图8至图11是示出用根据本发明的实施例的卷积神经网络分类器来计算神经元的响应值的过程的示意图；

图12是示出根据本发明的实施例的卷积神经网络分类器的特征图的划分方案的示意图；

图13是示出根据本发明的实施例的训练卷积神经网络分类器的方法的流程图；

图14是示出根据本发明的实施例的利用卷积神经网络分类器进行分类的方法的流程图；以及

图15是示出可以用于实施本发明的利用卷积神经网络分类器进行分类的方法和训练卷积神经网络分类器的方法的计算设备的举例的结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图2是示出根据本发明的实施例的卷积神经网络分类器的示意图，图3是示出从图1或图2中选出的局部的示意图，图8至图11是示出用根据本发明的实施例的卷积神经网络分类器来计算神经元的响应值的过程的示意图。

如图2、图3、图8至图11所示，根据本发明的实施例的卷积神经网络分类器包括多个特征图层，多个特征图层中的至少一个特征图层中的至少一个特征图被划分成多个区域。根据本发明的实施例的卷积神经网络分类器还包括多个卷积模板，这些卷积模板分别与划分的多个区域对应，每个卷积模板用于获得相应区域中的神经元的响应值。

具体而言，图2所示的卷积神经网络分类器与图1所示的传统卷积神经网络分类器相比，图2中的松弛卷积操作1’和2’分别替代了图1中的卷积操作1和2。此外，与图1相比，在图2中，在全连接操作前多增加了一个松弛操作3’。图2中的松弛卷积操作就是上述提到的采用多个卷积模板进行卷积的操作。

本文中的术语“松弛卷积操作”指的是在计算同一特征图中的神经元的响应值时采用不同的卷积模板，该特征图所在的层被称作“松弛卷积层”。

在其他实施例中，可以适当地调整卷积神经网络分类器的网络结构。例如，增加或减少“松弛卷积-空间最大采样”成对操作的数量，增加或减少全连接操作的数量，增加或减少单独出现的松弛卷积操作的数量，将空间最大采样操作替换成空间子采样操作，等等。

为了进一步阐述松弛卷积操作的具体细节，以下只选择图2中有关特征图F1、F2和F3的局部来举例说明。从图2中所选取的局部见图3。如图3所示，选取了相邻的两层，L层和L+1层。以下将基于图3来比较传统的卷积神经网络分类器和根据本发明的卷积神经网络分类器的区别。

图4至图7示出了用传统的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T1、T2、T3和T4的响应值（响应值也相应地标记为T1、T2、T3和T4）的过程。图8至图11示出了用根据本发明的实施例的卷积神经网络分类器来计算图3中L+1层特征图F3的神经元T1、T2、T3和T4的响应值（响应值也相应地标记为T1、T2、T3和T4）的过程。以下将通过比较的方式来阐述根据本发明的实施例的卷积神经网络分类器。

首先，为了便于理解，对图4到图11做如下几点说明。

（1）图4至图11中的每个圆圈代表一个神经元。

（2）图4至图11中的所有w值是卷积模板值，在神经网络训练过程中通过后向传播进行学习所有w值。

（3）图4至图11中所有卷积模板的大小均为2x2，但是容易理解到，在实际使用时卷积模板大小可为任意值。

（4）图8至图11中L+1层特征图F3中的虚线表示特征图F3中的所有神经元被划分成了两类，每类神经元采用相同的模板，即T1和T2采用一组卷积模板，T3和T4采用另一组卷积模板。但是容易理解到，将一个特征图中的神经元划分成的类别数可以任意指定，划分的方式可根据具体任务决定。例如，对于手写字符识别，可以根据笔画像素密度分布来进行划分，将在稍后各种划分方案。

（5）图4至图11下方列出了计算神经元T1、T2、T3和T4的响应值的具体公式。L+1层神经元响应值的计算过程是通过在L层施加滑动窗口，并把L层滑动窗口中的神经元响应值与卷积模板值对应相乘得到的。公式中的b、b1和b2表示偏置项（在神经网络训练过程中通过后向传播进行学习）。公式中的函数Func()表示一个非线性变换函数，传统方法中多采用双曲正切函数，而根据本发明的实施例，可以将采用非线性截断函数以达到加快收敛速度的目的，将在稍后对此进行描述。

首先，参照图4至图7来描述利用传统的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T1、T2、T3和T4的响应值（响应值也相应地标记为T1、T2、T3和T4）的过程。

图4示出了用传统的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T1的响应值的过程。如图4所示，在传统的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S1、S2、S4和S5（即，特征图F1左上方的四个神经元）的响应值（响应值也相应地标记为S1、S2、S4和S5）与特征图F2中的神经元S10、S11、S13和S14（即，特征图F2左上方的四个神经元）的响应值（响应值也相应地标记为S10、S11、S13和S14）以及由权重w1、w2、w3和w4构成的模板和由权重w5、w6、w7和w8构成的模板来获得特征图F3中的神经元T1的响应值。因此，响应值T1如下：

T1＝Func(w1*S1+w2*S2+w3*S4+w4*S5+w5*S10+w6*S11+w7*S13+w8*S14)+b

（1）

图5示出了用传统的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T2的响应值的过程。如图5所示，在传统的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S2、S3、S5和S6（即，特征图F1右上方的四个神经元）的响应值（响应值也相应地标记为S2、S3、S5和S6）与特征图F2中的神经元S11、S12、S14和S15（即，特征图F2右上方的四个神经元）的响应值（响应值也相应地标记为S11、S12、S14和S15）以及由权重w1、w2、w3和w4构成的模板和由权重w5、w6、w7和w8构成的模板来获得特征图F3中的神经元T2的响应值。因此，响应值T2如下：

T2＝Func(w1*S2+w2*S3+w3*S5+w4*S6+w5*S11+w6*S12+w7*S14+w8*S15)+b

（2）

图6示出了用传统的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T3的响应值的过程。如图6所示，在传统的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S4、S5、S7和S8（即，特征图F1左下方的四个神经元）的响应值（响应值也相应地标记为S4、S5、S7和S8）与特征图F2中的神经元S13、S14、S16和S17（即，特征图F2右上方的四个神经元）的响应值（响应值也相应地标记为S13、S14、S16和S17）以及由权重w1、w2、w3和w4构成的模板和由权重w5、w6、w7和w8构成的模板来获得特征图F3中的神经元T3的响应值。因此，响应值T3如下：

T3＝Func(w1*S4+w2*S5+w3*S7+w4*S8+w5*S13+w6*S14+w7*S16+w8*S17)+b

（3）

图7示出了用传统的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T4的响应值的过程。如图7所示，在传统的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S5、S6、S8和S9（即，特征图F1右下方的四个神经元）的响应值（响应值也相应地标记为S5、S6、S8和S9）与特征图F2中的神经元S14、S15、S17和S18（即，特征图F2右上方的四个神经元）的响应值（响应值也相应地标记为S14、S15、S17和S18）以及由权重w1、w2、w3和w4构成的模板和由权重w5、w6、w7和w8构成的模板来获得特征图F3中的神经元T4的响应值。因此，

响应值T4如下：

T4＝Func(w1*S5+w2*S6+w3*S8+w4*S9+w5*S14+w6*S15+w7*S17+w8*S18)+b

（4）

参照图4到图7（特别是其中的计算式）可知，对于传统卷积方式，计算L+1层特征图F3中的任意神经元响应值时：L层的特征图F1始终采用相同的卷积模板（w1,w2,w3,w4），L层的特征图F2始终采用相同的卷积模板（w5,w6,w7,w8）。

现在参照图8至图11来描述用根据本发明的实施例的卷积神经网络分类器来计算图3中L+1层特征图F3的神经元T1、T2、T3和T4响应值的过程。

如图8至图11所示，特征图F3被划分为上下两个区域，上方区域的两个神经元T1和T2的响应值是用一组模板计算出的，而下方区域的两个神经元T3和T4的响应值是用另一组模板计算出的。

图8示出了用根据本发明的实施例的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T1的响应值的过程。如图8所示，在根据本发明的实施例的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S1、S2、S4和S5（即，特征图F1左上方的四个神经元）的响应值（响应值也相应地标记为S1、S2、S4和S5）与特征图F2中的神经元S10、S11、S13和S14（即，特征图F2左上方的四个神经元）的响应值（响应值也相应地标记为S10、S11、S13和S14）以及由权重w1、w2、w3和w4构成的模板和由权重w5、w6、w7和w8构成的模板来获得特征图F3中的神经元T1的响应值。因此，响应值T1如下：

T1＝Func(w1*S1+w2*S2+w3*S4+w4*S5+w5*S10+w6*S11+w7*S13+w8*S14)+b1

（5）

图9示出了用根据本发明的实施例的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T2的响应值的过程。如图9所示，在根据本发明的实施例的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S2、S3、S5和S6（即，特征图F1右上方的四个神经元）的响应值（响应值也相应地标记为S2、S3、S5和S6）与特征图F2中的神经元S11、S12、S14和S15（即，特征图F2右上方的四个神经元）的响应值（响应值也相应地标记为S11、S12、S14和S15）以及由权重w1、w2、w3和w4构成的模板和由权重w5、w6、w7和w8构成的模板来获得特征图F3中的神经元T2的响应值。因此，响应值T2如下：

T2＝Func(w1*S2+w2*S3+w3*S5+w4*S6+w5*S11+w6*S12+w7*S14+w8*S15)+b1

（6）

可见，在计算特征图F3上方区域中的神经元T1和T2的响应值时采用同一套模板。

图10示出了用根据本发明的实施例的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T3的响应值的过程。如图10所示，在根据本发明的实施例的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S4、S5、S7和S8（即，特征图F1左下方的四个神经元）的响应值（响应值也相应地标记为S4、S5、S7和S8）与特征图F2中的神经元S13、S14、S16和S17（即，特征图F2右上方的四个神经元）的响应值（响应值也相应地标记为S13、S14、S16和S17）以及由权重w9、w10、w11和w12构成的模板和由权重w13、w14、w15和w16构成的模板来获得特征图F3中的神经元T3的响应值。因此，响应值T3如下：

T3＝Func(w9*S4+w10*S5+w11*S7+w12*S8+w13*S13+w14*S14+w15*S16+w16*S17)+b2

（7）

图11示出了用根据本发明的实施例的卷积神经网络分类器来计算图3中的L+1层特征图F3的神经元T4的响应值的过程。如图11所示，在根据本发明的实施例的卷积神经网络分类器中，利用L层中的特征图F1中的神经元S5、S6、S8和S9（即，特征图F1右下方的四个神经元）的响应值（响应值也相应地标记为S5、S6、S8和S9）与特征图F2中的神经元S14、S15、S17和S18（即，特征图F2右上方的四个神经元）的响应值（响应值也相应地标记为S14、S15、S17和S18）以及由权重w9、w10、w11和w12构成的模板和由权重w13、w14、w15和w16构成的模板来获得特征图F3中的神经元T4的响应值。因此，响应值T4如下：

T4＝Func(w9*S5+w10*S6+w11*S8+w12*S9+w13*S14+w14*S15+w15*S17+w16*S18)+b2

（8）

通过对比图8到图11（特别是其中的计算式）可知，对于松弛卷积操作，计算L+1层特征图F3中的任意神经元响应值时：对于属于同一类的神经元T1和T2，L层的特征图F1采用相同的卷积模板（w1,w2,w3,w4），L层的特征图F2采用相同的卷积模板（w5,w6,w7,w8）。对于另一类神经元T3和T4，L层的特征图F1采用卷积模板（w9,w10,w11,w12），L层的特征图F2采用相同的卷积模板（w13,w14,w15,w16）。对于松弛卷积操作，计算同一特征图内的各神经元的响应值时，属于同一类的神经元使用相同的卷积模板。

在上面的实施例中，通过将卷积操作放松为两个特征图之间采用多个卷积模板进行卷积（如F3用多个模板和F1卷积），可以提取到更多的特征。根据模式识别理论，一个统计分类器的识别效果主要依赖于对样本所提取特征的数量和有效性。由于采用多个模板和单一模板的特征提取基本操作一致（都是卷积），而采用多个模板能够提取更多的特征，所以采用多个模板的方法在提升分类正确率方面比采用单一模板的方式具有优势。

此外，为了加快收敛速度，根据本发明的实施例，计算所述响应值时所采用的激活函数可以被配置为获取正响应值。

图8至图11中的非线性变换函数Func()（也称为激活函数）被配置为将负卷积结果转换为正的小值。卷积结果是指函数Func()的括号中的内容。例如，在计算每个神经元的响应值时，采用非线性截断函数作为图8至图11中的非线性变换函数Func()，如下公式（9）：

Func (x) = \{\begin{matrix} ϵ & x \leq 0, ϵ &Element; (0, 10^{- 6}) \\ x & x > 0 \end{matrix} - - - (9)

其中x表示卷积结果。例如，在公式（5）中，x表示w1*S1+w2*S2+w3*S4+w4*S5+w5*S10+w6*S11+w7*S13+w8*S14。

上述公式（9）的含义是将所有小于等于0的x值均截断为稍大于0的一个小量ε，而将本来大于0的x值保持不变。这里，将小量设定为0至10^-6的范围内仅是一个示例，实际上，根据需要，可以设计其他范围内的值。

在本发明的另一个实施例中，作为图8至图11的非线性变换函数Func()，可以采用被配置为对负的卷积结果取绝对值的非线性截断函数。如下公式（10）：

Func(x)=|x| (10)

容易理解到，上述的公式（9）和（10）仅是示例，根据需要可以采用其他的非线性变换函数，只要该函数被配置为获取正响应值就可以。

通过采用新的激活函数，即，被配置为获取正响应值的激活函数，能够加快收敛速度。因为松弛卷积增加了提取的特征数量，造成整个卷积神经网络的参数总数大幅增加，在训练样本总数不变的情况下会造成网络训练时的收敛速度下降，训练时间延长，采用获取正响应值的激活函数能够加快收敛速度，这是非常有利的。

以下描述根据本发明的实施例的卷积神经网络分类器中的特征图的划分方案。

对于根据本发明的实施例的卷积神经网络分类器，在训练阶段，需要预先决定特征图的划分方案。在一个实施例中，对于图2中所示的卷积神经网络分类器，首先决定左起第1个松弛卷积层中所有特征图上的神经元划分方案，然后再决定其余松弛卷积层中的特征图上的神经元划分方案。

首先描述确定划分方案的物理基础。

划分方案的物理基础可以与具体任务相关。例如，在一个实施例中，特征图的多个区域（每个区域包含一定数量的神经元）的划分是基于图像的像素分布进行的。以下用手写字符识别为例介绍一种基于笔画像素分布的划分方案，该方案的基本思想是寻找一种划分方案，使得保证划分区域之间的笔画像素分布差异较小。为了简明起见，只针对图2所示的卷积神经网络分类器介绍左起第1个松弛卷积层中所有特征图上的神经元划分方案，所有特征图可以采用相同划分方案。

假设共有N个训练样本。对训练所用的所有字符样本image_k(k=1,…,N)按常用方法进行二值化，再归一化到相同大小（高为H，宽为W）。然后把所有字符样本点对点加在一起，得到笔画像素汇总图StrokeMap：

StrokeMap (i, j) = \frac{1}{N} \cdot Σ_{k = 1}^{N} {image}_{k} (i, j), i = 1, . . ., H, j = 1, . . ., W - - - (11)

由于执行了二值化操作，所以字符样本上为1的区域代表有笔画像素，为0的区域代表没有笔画像素。笔画像素汇总图StrokeMap上每个像素的值就是所有训练图像在该像素位置有笔画像素的次数平均值。

遍历笔画像素汇总图StrokeMap上所有的像素，执行如下操作：

（1）在笔画像素汇总图StrokeMap上确定当前点（i,j）

（2）通过这个点的水平线和垂直线将笔画像素汇总图StrokeMap分成预定数量的区域，例如，四个区域，计算每个区域内笔画像素次数平均值之和（即所有像素值之和）

（3）将四个区域分为两两一组，共可以分6组计算每组内两个区域的笔画像素次数平均值之和的差异。将6组差异求和，然后记录。

在笔画像素汇总图StrokeMap中寻找所记录的6组差异求和值最小的点。通过这个点的水平线和垂直线将笔画像素汇总图StrokeMap分成四个区域，就把这种划分方案用作特征图上的神经元划分方案，即特征图上的所有神经元也对应分为四类，每类神经元使用相同的卷积模板。

在上面的示例中，特征图的多个区域的划分是基于图像的像素分布进行的，具体而言，是基于图像的二值图像的前景像素的数量分布来进行的。但是容易理解到，也可以基于图像的二值图像的密度分布来进行多个区域的划分。例如，可以使所划分出的每个区域的密度相同。

此外，在一个实施例中，可以基于图像的结构来进行多个区域的划分。仍以字符图像为例，例如，要划分的图像是手写字符“化”。“化”是左右结构的字符，所以可以按照偏旁部首将“化”划分为左右两个区域，即，包含“イ”的图像区域和包含“匕”的图像区域。例如，要划分的图像是手写字符“6”，可以将“6”划分为上下两部分，即，大体包含“o”的图像区域和大体包含上面的圆弧部分的图像区域。要注意的是，由于每个人的手写习惯不同，因此，在实际的划分过程中，划分的图像比例不是固定的，而是在一定的比例基础上有所浮动。

尽管此处以手写字符为例来描述了基于图像的结构或图像的二值图像的像素分布来进行区域的划分，但是容易理解到，所针对的图像不局限于手写字符，而可以是其他任意适当的图像，例如，细胞分裂图像、地图图像等等。

以上描述的是确定划分方案的物理基础。接下来按照多个松弛卷积层之间以及多个特征图之间的划分方案是否相同来描述划分方案。这里存在两个层次的划分方案：第一个层次是每个样本所对应的所有特征图是否采用相同的划分方案；第二个层次是样本和样本之间是否采用相同的划分方案。就此而言，对于一个卷积神经网络分类器中的所有特征图，可以采用的划分方案有四种：

（1）所有样本采用相同的划分方案，其中每个样本所对应的所有特征图采用相同的划分方案。这里的“所有特征图”是指松弛卷积层上的所有特征图。

（2）所有样本采用相同的划分方案，其中每个样本所对应的所有特征图采用不同的划分方案。这里的“所有特征图”是指松弛卷积层上的所有特征图。所有特征图采用不同的划分方案主要包括两种：（a）每层上的所有特征图采用相同的划分方案，但层与层之间采用的划分方案不相同；以及（b）每层上的所有特征图之间采用不同的划分方案

（3）所有样本采用不同的划分方案，其中每个样本所对应的所有特征图采用相同的划分方案。这里的“所有特征图”是指松弛卷积层上的所有特征图。

（4）所有样本采用不同的划分方案，其中每个样本所对应的所有特征图采用不同的划分方案。这里的“所有特征图”是指松弛卷积层上的所有特征图。所有特征图采用不同的划分方案主要包括两种：（a）每层上的所有特征图采用相同的划分方案，但层与层之间采用的划分方案不相同；以及（b）每层上的所有特征图之间采用不同的划分方案。

以下举例说明上述第（4）种划分方案的一个示例。图12示出了输入样本“6”的三种划分方案（图中红线）分别作用于3个松弛卷积层的过程。所有样本采用不同的划分方案，并且每层上的所有特征图采用相同的划分方案，但层与层之间采用的划分方案不相同。

以上按照多个松弛卷积层之间以及多个特征图之间的划分方案是否相同描述了划分方案。以下按照在多个不同样本的划分方案是否固定来描述划分方案。

在一个实施例中，可以按照固定方案将作为样本的图像划分成多个图像区域，划分得到的多个图像区域分别对应于松弛卷积层上的特征图的多个区域。此处，例如，可以基于训练样本的总体特征来确定固定方案。换句话说，基于训练样本的总体特征确定一个固定方案，然后按照该固定方案来划分每个训练样本。具体的固定方案可以是上述方案中的任一个。

在另一个实施例中，卷积神经网络分类器还包括图像分割单元（未示出），图像分割单元可以将作为样本的图像划分成多个图像区域，划分得到的多个图像区域分别对应于松弛卷积层上的多个区域。此处，可以基于训练样本的个体特征来确定动态方案。换句话说，由于一个训练样本与另一个训练样本的个体特征可能不同，因而不同训练样本的划分方案可能是不同的。这时，图像分割单元可以基于训练样本的个体特征有区别地将作为样本的图像划分成多个图像区域。而具体的划分方案也可以是上述方案中的任一个。

以下参照图13来描述根据本发明的实施例的训练卷积神经网络分类器的方法1300。

如图13所示，在步骤S1302中，将卷积神经网络分类器所包括的多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域。

例如，可以采用上述的划分方案之一将至少一个特征图层中的至少一个特征图划分成多个区域。

此外，根据本发明的实施例的卷积神经网络分类器的布局是给定的，例如，该布局包括网络层数、每层上的操作（松弛卷积、空间最大采样、全连接）、每层上的特征图个数和特征图大小。其中输出层的特征图个数和具体任务的类别数一致。例如，对于数字识别任务，输出层的特征图个数是10个，而对于大写英文字母识别任务，输出层的特征图个数是26个。

在步骤S1304中，将具有已知标记的训练样本送入卷积神经网络分类器以进行前向传播从而获得输出结果，在前向传播的过程中，采用与多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值。优选地，可以利用被配置为获取正响应值的激活函数来计算响应值。例如，该激活函数可以是被配置为对负的卷积结果取绝对值或者将负的卷积结果转换为正的小值的激活函数。

例如，对于网络中所有模板的权值，可以用0-1分布进行随机初始化。然后，把所有训练样本依次送入根据本发明的实施例的卷积神经网络分类器进行训练。对于其中的每个训练样本，按照前向传播得到输出结果，即，输出层的值。

在步骤S1306中，根据输出结果与已知标记之间的差异来进行反向传播以修正包括卷积模板中的权值在内的、卷积神经网络分类器的参数。换句话说，卷积神经网络分类器的参数不仅包括卷积模板中的权值，还包括其他参数。

在步骤S1308中，判断是否满足预定条件。例如，判断根据本发明的实施例的卷积神经网络分类器在训练集上的错误率是否达到或低于预定值。但是容易理解到，所述预定条件也可以是其他条件，例如，预定次数或者其他收敛条件等等。

如果在步骤S1308中满足预定条件，则结束处理，否则返回到步骤S1302。

以下参照图14来描述根据本发明的实施例的利用卷积神经网络分类器进行分类的方法1400。

如图14所示，在步骤S1402中，将卷积神经网络分类器所包括的多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域。此处，采用与训练时相同的划分方式来划分特征图。

在步骤S1404中，将分类对象送入卷积神经网络分类器以进行前向传播从而获得输出结果，在前向传播的过程中，采用与多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值。优选地，可以利用被配置为获取正响应值的激活函数来计算响应值。例如，该激活函数可以是被配置为对负的卷积结果取绝对值或者将负的卷积结果转换为正的小值的激活函数。

根据本发明的实施例，通过将卷积操作改进为松弛卷积操作，能够提高卷积神经网络分类器的灵活度，从而达到提取更多特征从而进一步提升识别正确率的目的。此外，通过将现有的激活函数改进为获取正响应值的激活函数，能够加快收敛速度。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图15所示的通用计算机1500安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图15中，中央处理单元(CPU)1501根据只读存储器(ROM)1502中存储的程序或从存储部分1508加载到随机存取存储器(RAM)1503的程序执行各种处理。在RAM1503中，也根据需要存储当CPU1501执行各种处理等等时所需的数据。CPU1501、ROM1502和RAM1503经由总线1504彼此链路。输入/输出接口1505也链路到总线1504。

下述部件链路到输入/输出接口1505：输入部分1506（包括键盘、鼠标等等）、输出部分1507（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分1508（包括硬盘等）、通信部分1509（包括网络接口卡比如LAN卡、调制解调器等）。通信部分1509经由网络比如因特网执行通信处理。根据需要，驱动器1510也可链路到输入/输出接口1505。可拆卸介质1511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1510上，使得从中读出的计算机程序根据需要被安装到存储部分1508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图15所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1511。可拆卸介质1511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM1502、存储部分1508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机（例如图15所示的通用计算机1500）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

技术方案1.一种卷积神经网络分类器，包括：

多个特征图层，所述多个特征图层中的至少一个特征图层中的至少一个特征图被划分成多个区域；以及

多个卷积模板，所述多个卷积模板与所述多个区域分别对应，每个卷积模板用于获得相应区域中的神经元的响应值。

技术方案2．根据技术方案1所述卷积神经网络分类器，其中，所述卷积神经网络分类器用于对图像进行分类，所述图像被按照固定方案划分成多个图像区域，所述多个图像区域分别对应于所述多个区域。

技术方案3.根据技术方案1所述的卷积神经网络分类器，其中，所述卷积神经网络分类器用于对图像进行分类，并且所述卷积神经网络分类器还包括图像分割单元，所述图像分割单元用于将所述图像划分成多个图像区域，所述多个图像区域分别对应于所述多个区域。

技术方案4.根据技术方案3所述的卷积神经网络分类器，其中所述多个区域的划分是基于所述图像的像素分布进行的。

技术方案5.根据技术方案4所述的卷积神经网络分类器，其中，所述多个区域的划分是基于所述图像的二值图像的前景像素的数量分布或者前景像素的密度分布进行的。

技术方案6.根据技术方案3所述的卷积神经网络分类器，其中，所述多个区域的划分是基于所述图像的结构进行的。

技术方案7.根据技术方案1至6中任一项所述的卷积神经网络分类器，其中，对于同一特征图层中的不同特征图，或者对于不同特征图层中的特征图，采用不同的方式划分所述多个区域。

技术方案8.根据技术方案1至6中任一项所述的卷积神经网络分类器，其中，计算所述响应值时所采用的激活函数被配置为获取正响应值。

技术方案9.根据技术方案8所述的卷积神经网络分类器，其中，所述激活函数被配置为对负的卷积结果取绝对值或者将负的卷积结果转换为正的小值。

技术方案10.一种利用卷积神经网络分类器进行分类的方法，其中，所述卷积神经网络分类器包括多个特征图层，所述方法包括：

将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域；

将分类对象送入所述卷积神经网络分类器以进行前向传播从而获得输出结果，在前向传播的过程中，采用与所述多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值；以及

根据所述输出结果来对所述分类对象进行分类。

技术方案11.根据技术方案10所述的方法，其中，所述分类对象为图像，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

将所述图像划分成多个图像区域，所述多个图像区域分别对应于所述多个区域。

技术方案12.根据技术方案11所述的方法，其中，所述分类对象为图像，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

按照固定方案将所述图像划分成多个图像区域，所述多个图像区域分别对应于所述多个区域。

技术方案13.根据技术方案11所述的方法，其中所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

基于所述图像的像素分布将所述至少一个特征图划分成所述多个区域。

技术方案14.根据技术方案13所述的方法，其中，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

基于所述图像的二值图像的前景像素的数量分布或者前景像素的密度分布将所述至少一个特征图划分成所述多个区域。

技术方案15.根据技术方案11所述的方法，其中，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

基于所述图像的结构将所述至少一个特征图划分成所述多个区域。

技术方案16.根据技术方案10至15中任一项所述的方法，其中，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

对于同一特征图层中的不同特征图，或者对于不同特征图层中的特征图，采用不同的方式划分所述多个区域。

技术方案17.根据技术方案10至15中任一项所述的方法，其中，所述采用与所述多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值的步骤包括：

利用被配置为获取正响应值的激活函数来计算所述响应值。

技术方案18.根据技术方案17所述的方法，其中，所述采用与所述多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值的步骤包括：

利用被配置为对负的卷积结果取绝对值或者将负的卷积结果转换为正的小值的激活函数来计算所述响应值。

技术方案19．一种训练卷积神经网络分类器的方法，其中，所述卷积神经网络分类器包括多个特征图层，所述方法包括：

将具有已知标记的训练样本送入所述卷积神经网络分类器以进行前向传播从而获得输出结果，在前向传播的过程中，采用与所述多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值；

根据所述输出结果与所述已知标记之间的差异来进行反向传播以修正包括所述卷积模板中的权值在内的、所述卷积神经网络分类器的参数；以及

重复上述步骤，直到满足预定条件为止。

技术方案20.根据技术方案19所述的方法，其中，所述训练样本为图像，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

分别按照固定方案将所述图像划分成多个图像区域，所述多个图像区域分别对应于所述多个区域，其中，基于所述训练样本的总体特征来确定所述固定方案。

技术方案21.根据技术方案19所述的方法，其中，所述训练样本为图像，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

基于每个所述图像的个体特征分别将每个图像划分成多个图像区域，所述多个图像区域分别对应于所述多个区域。

技术方案22.根据技术方案21所述的方法，其中，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

技术方案23.根据技术方案22所述的方法，其中，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

技术方案24.根据技术方案21所述的方法，其中，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

技术方案25.根据技术方案19至25中任一项所述的方法，其中，所述将所述多个特征图层中的至少一个特征图层中的至少一个特征图划分成多个区域的步骤包括：

技术方案26.根据技术方案19至25中任一项所述的方法，其中，所述采用与所述多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值的步骤包括：

利用被配置为获取正响应值的激活函数来计算所述响应值。

技术方案27.根据技术方案26所述的方法，其中，所述采用与所述多个区域分别对应的多个卷积模板中的各模板来获得相应区域中的神经元的响应值的步骤包括：

Claims

1.一种卷积神经网络分类器，包括：

2.根据权利要求1所述卷积神经网络分类器，其中，所述卷积神经网络分类器用于对图像进行分类，所述图像被按照固定方案划分成多个图像区域，所述多个图像区域分别对应于所述多个区域。

3.根据权利要求1所述的卷积神经网络分类器，其中，所述卷积神经网络分类器用于对图像进行分类，并且所述卷积神经网络分类器还包括图像分割单元，所述图像分割单元用于将所述图像划分成多个图像区域，所述多个图像区域分别对应于所述多个区域。

4.根据权利要求3所述的卷积神经网络分类器，其中所述多个区域的划分是基于所述图像的像素分布进行的。

5.根据权利要求4所述的卷积神经网络分类器，其中，所述多个区域的划分是基于所述图像的二值图像的前景像素的数量分布或者前景像素的密度分布进行的。

6.根据权利要求3所述的卷积神经网络分类器，其中，所述多个区域的划分是基于所述图像的结构进行的。

7.根据权利要求1至6中任一项所述的卷积神经网络分类器，其中，对于同一特征图层中的不同特征图，或者对于不同特征图层中的特征图，采用不同的方式划分所述多个区域。

8.根据权利要求1至6中任一项所述的卷积神经网络分类器，其中，计算所述响应值时所采用的激活函数被配置为获取正响应值。

9.一种利用卷积神经网络分类器进行分类的方法，其中，所述卷积神经网络分类器包括多个特征图层，所述方法包括：

根据所述输出结果来对所述分类对象进行分类。

10.一种训练卷积神经网络分类器的方法，其中，所述卷积神经网络分类器包括多个特征图层，所述方法包括：

重复上述步骤，直到满足预定条件为止。