CN105184265A

CN105184265A - 一种基于自学习的手写表格数字字符串快速识别的方法

Info

Publication number: CN105184265A
Application number: CN201510582707.2A
Authority: CN
Inventors: 关宇东; 吴梦蝶; 朱瑞锋; 提纯利; 仲小挺
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2015-09-14
Filing date: 2015-09-14
Publication date: 2015-12-23

Abstract

一种基于自学习的手写表格数字字符串快速识别的方法，本发明涉及基于自学习的手写表格数字字符串快速识别的方法。本发明的目的是为了解决现有方法表格识别率低的问题。通过以下技术方案实现的：步骤一、对表格图像进行预处理；步骤二、对预处理后的表格图像中的数字字符进行提取与分割；步骤三、对提取分割后的数字字符进行识别。本发明应用于表格数字字符串识别领域。

Description

一种基于自学习的手写表格数字字符串快速识别的方法

技术领域

本发明涉及基于自学习的手写表格数字字符串快速识别的方法。

背景技术

在日常生活中，人们每天都要接触到数字表格，如财务、成绩统计、实验数据等，这些表格数字的数据处理不仅工作量大，而且枯燥。所以，如果找到一种自动识别扫描后的表格文档的方法，把数据的处理交给电脑来做，就极大地节省了时间，提高了效率。想要识别出表格文档的数据首先要对表格的结构进行处理。首先，表格的格式千变万化，目前还没有找到一种方法能使用于所有的表格的情况，表格结构的识别处理仍需要进一步深入的研究；其次，尽管表格的格式复杂，但是，需要待识别的往往是那些简单的矩阵形式的单元格，只要找到它们的位置并识别就可以了，利用这种方法就可以节约了处理多余的复杂表格框的情况，提高了运行速度。

通常的表格文档的结构是由一系列的直线所构成的单元格所组成的，表格的内容部分(即手写数字部分)的单元格通常是矩形的单元格，这些单元格比起三角形或者其他形状的单元格相对容易处理。通常情况下，表格手写数字字符识别的处理过程如下：(1)根据表格线的结构，对表格进行处理，得到表格内容部分；(2)对单元格进行定位并提取出里面的数字字符图像；(3)对这些数字进行分割并分类结果。

目前的一些表格数字识别软件不能很好的将字符与背景区分开，不能进行字符的分割识别，不能对单元格字符串的整体特征进行识别，导致表格识别率低。

发明内容

本发明的目的是为了解决现有方法表格识别率低的问题，而提出了一种基于自学习的手写表格数字字符串快速识别的方法。

上述的发明目的是通过以下技术方案实现的：

步骤一、对表格图像进行预处理；

步骤二、对预处理后的表格图像中的数字字符进行提取与分割；

步骤三、对提取分割后的数字字符进行识别。

发明效果

采用本发明的一种基于自学习的手写表格数字字符串快速识别的方法，

一、预处理时，采用大津法进行二值化，有效地将字符与背景区分开；

二、利用连接成分的思想来提取单元格字符串的笔画，同时记录单元格的顶点的位置信息，以方便再次扫描同类型表格直接定位单元格，采用连接成分进行笔画提取能很好地提取出一个完整的字符笔画，能够获取字符的笔画位置信息，方便字符的分割识别；

三、本发明设计了一个整体识别的神经网络，提取单元格字符串的整体特征进行识别；

四、平均识别率达到98.2％，运行时间为35s。

附图说明

图1为具体实施方式四中BP神经网络模型；

图2为具体实施方式三中数字字符串分割流程图；

图3为具体实施方式四中初期神经网络的训练流程；

图4为具体实施方式四中后期识别框图；

图5为具体实施方式三中断裂点修补模板图；

图6为具体实施方式三中数字“78”轮廓分析图；

图7为具体实施方式三中数字“78”候选切分点图；

图8为具体实施方式三中提取出的表头内容图；

图9为实施例中表格文档的局部图像；

图10为实施例中局部识别结果；

图11为实施例中识别软件界面。

具体实施方式

具体实施方式一：一种基于自学习的手写表格数字字符串快速识别的方法，其特征在于，一种基于自学习的手写表格数字字符串快速识别的方法具体是按照以下步骤进行的：

步骤一、对表格图像进行预处理；

步骤三、对提取分割后的数字字符进行识别。

具体实施方式二、本实施方式与具体实施方式一不同的是，所述步骤一中对表格图像进行预处理；具体过程为：

步骤一一、对表格图像二值化；

设0为前景(即目标)值即为黑色，255为背景值即白色，阈值T_th选择为使类间方差δ最大；

步骤一二、对表格图像去噪；

采用中值滤波法去噪。

其它步骤及参数与具体实施方式一相同。

具体实施方式三、本实施方式与具体实施方式一或二不同的是，所述步骤二中对预处理后的表格图像中的数字字符进行提取与分割；具体过程为：

步骤二一、检测预处理后的表格图像中各个单元格的行坐标和列坐标，对检测出的预处理后的表格图像中各个单元格的行坐标和列坐标定位，具体过程为：单元格的行坐标即单元格的水平线，单元格的列坐标即单元格的垂直线；采用Viterbi算法进行单元格的水平线和垂直线检测，Viterbi算法是一种动态规划算法，用于寻找最有可能产生观测事件序列的维特比路径，检测直线(水平线和竖直线)，即把水平线和竖直线中的每个前景点作为当前水平线和竖直线的点，保存检测出的每个单元格的水平线和竖直线的点，用数组A存储行的坐标，用数组B存储列的坐标，建立一个表格图像中各个单元格的行坐标和列坐标位置的信息库；当再次扫描到同一类型的表格图像时，则在已经保存的表格图像中各个单元格的行坐标和列坐标位置的信息库里面的信息中确定再次扫描到同一类型的表格图像中各个单元格的行坐标和列坐标位置的信息；节省了时间；

若不同表格图像的表头的harris角点特征相同，则表格为同一类型的表格；

步骤二二、去除检测出的预处理后的表格图像中各个单元格的水平线和垂直线，并对数据断裂点进行修补；具体过程为：

去除检测出的表格图像中各个单元格的水平线和垂直线的过程为：把检测到的每个单元格的水平线和竖直线像素值设为225，即白色背景色；

修补数据断裂点的方法为扫描直线的像素，具体过程为：如图5所示模板进行判断：

设P22为当前表格图像中像素点的位置，设置一个三行三列的表格，P11位于第一行第一列，P12位于第一行第二列，P13位于第一行第三列，P21位于第二行第一列，P22位于第二行第二列，P23位于第二行第三列，P31位于第三行第一列，P32位于第三行第二列，P33位于第三行第三列，判断P11，P12，P13，P21，P22，P23，P31，P32，P33中是否至少有两个点的像素为0，若是，则将当前表格图像中像素点设置为0，即为前景点；若否，则将当前表格图像中像素点设置为255，即为背景点，去除背景点的表格图像中像素；

步骤二三、对预处理后的表格图像中各个单元格中的数字字符进行连接成分提取；

对预处理后的表格图像中各个单元格中的数字字符进行连接成分提取可将不粘连的数字字符分开；连接成分为在预处理后的表格图像中把相互连接的相同像素汇集为一组的像素组；

将汇集为一组的像素组视为一个手写数字，如单元格中的手写数字若为8.97，个位数“8”其像素值相同且相互连接，汇集起来就组成了“8”，同理可用相同的且相互连接的像素值点汇集出小数点后的“9”和“7”，这样就完成了连接成分提取；

步骤二四、字符分割；具体过程为：

步骤二三中已将不粘连的数字字符分开，对于粘连的数字字符用sobel算子进行轮廓提取、轮廓线分析选择候选分割点及切分线；

sobel算子进行轮廓提取：

Sobel算子利用一阶导数进行提取边界的算子，其原理是，利用一个窗口逐行扫描图像，该窗口是3×3的模板，然后与图像中每个像素点做卷积和运算，确定阈值，提取出边界部分；

轮廓线分析选择候选分割点及切分线：

经轮廓提取后得到数字字符的上下轮廓，候选分割点往往为上轮廓的最低点即波谷点及下轮廓的最高点即波峰点，两点连接得到切分线；如图6和图7所示：

候选分割点大于等于一对，切分线大于等于一条，需要对n条切分线进行筛选，n为正整数，根据切分线对数字字符进行分割，每分割一次就用已经训练好的初期BP神经网络对切分出来的字符进行识别，计算识别结果的置信度，若置信度大于或等于0.9，则分割的结果是正确的，候选分割点就是正确的分割点；若置信度小于0.9，则分割结果错误，删除这个候选分割点，选择下一个候选分割点进行分割识别，过程如图2；

判断候选分割点是否为小数点：

小数点从其高度和中心位置两点来确定，设小数点高度为h_cell，小数点中心位置为(x_cel,y_cel)，统计出单元格的平均高度为h_ave，则小数点的判断依据为：

式中，&为逻辑与，y_cel为小数点横坐标位置，x_cel为小数点横坐标位置；

若是小数点，则记录小数点的横纵坐标，并将其像素值置为0；

若不是小数点，则选择下一个候选分割点进行分割识别。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四、本实施方式与具体实施方式一、二或三不同的是，所述步骤三中对提取分割后的数字字符进行识别；具体过程为：

步骤三一、采用形态学滤波中的腐蚀方法对提取分割后的数字字符图像进行细化，细化之后进行归一化，得到归一化数字字符图像，归一化是将所有的提取分割后的数字字符图像大小尺寸归一化为64×64，得到单个数字字符特征；

步骤三二、初期BP神经网络的训练

对步骤三一得到的单个数字字符特征值进行初期BP神经网络的训练，如图3；具体过程为：

初期BP神经网络包括三层，输入层、隐含层、输出层各一层，如图1，使用70-45-10的神经网络，输入层的输入向量为：X＝(x₁,x₂,.......,x_p)，x₁为输入层第1个神经元的特征值，x₂为输入层第2个神经元的特征值，x_p为输入层第p个神经元的特征值，p取值为70，隐含层输出向量为：Y＝(y₁,y₂,.......,y_q)，y₁为隐含层第1个神经元的输出值隐含层第2个神经元的输出值，y_q为隐含层第q个神经元的输出值，q取值为45，输出层的输出向量为：T_out＝(t₁,t₂,.......,t_s)，t₁为输出层第1个神经元的输出值，t₂为输出层第2个神经元的输出值，t_s为输出层第s个神经元的输出值，T_out为输出层的输出向量，s取值为10，理想输出向量为：Z＝(z₁,z₂,......,z_s)，z₁为输出层第1个神经元的理想输出值，z₂为输出层第2个神经元的理想输出值，z_s为输出层第s个神经元的理想输出值，s取值为10；输入层到隐含层的权值矩阵为：V＝(v₁,v₂,......,v_p)^T，其中，v₁,v₂,......,v_p为q维向量，v₁为输入层第1个神经元到隐含层各个神经元的连接权值，v₂为输入层第2个神经元到隐含层各个神经元的连接权值，v_p为输入层第p个神经元到隐含层各个神经元的连接权值，p取值为70，q取值为45，T为转置；隐含层到输出层的权值矩阵为：W＝(w₁,w₂,......,w_q)^T，其中，w₁,w₂,......,w_q为s维向量，w₁为隐含层第1个神经元到输出层各个神经元的连接权值，w₂为隐含层第2个神经元到输出层各个神经元的连接权值，w_q为隐含层第q个神经元到输出层各个神经元的连接权值，s取值为10，T为转置；

转移函数为sigmoid函数：

g (x) = \frac{1}{1 + e^{- x}} - - - (2)

其中，g'(x)为转移函数，g(+∞)＝1，g(-∞)＝0，g'(x)的值域为(0,0.25)，e为自然常数，x为转移函数输入；

(1)初期BP神经网络初始化：开始创建神经网络时，需要

对参数进行初始化，包括对隐含层到输出层的权值矩阵W和输入层到隐含层的权值矩阵V赋予初值，设置模式计数器counter1和训练次数计数器counter2均为500，均方误差设为0.001，学习率ξ设为0.01，初期BP神经网络经训练后所达到的精度，即误差门限Umin为0.001；

(2)开始进行训练，

将步骤三一得到的单个数字字符特征值输入初期BP神经网络，获得隐含层和输出层的输出值，具体方法如下：

将输入层的输入向量X与输入层到隐含层的权值矩阵相乘，计算出隐含层的输入为：

net＝XV(3)

其中，net为隐含层的输入向量，X为输入层的输入向量，V为输入层到隐含层的权值矩阵；

隐含层的输出为：

y_{j_{2}} = g ({net}_{j_{2}}), {net}_{j_{2}} = Σ_{i_{2} = 0}^{p} v_{i_{2} j_{2}} x_{i_{2}},

其中j₂＝1,2......q(4)

其中，为隐含层第j₂个的输出值，为隐含层第j₂个的输入值，为输入层第i₂个与隐含层第j₂个的连接权值，为输入层第i₂个输入值，为输入为时转移函数的取值，i₂取值为1～70，j₂取值为1～45，p取值为70，q取值为45；

输出层输出为：

t_{k} = g ({net}_{k}), {net}_{k} = Σ_{j_{2} = 0}^{q} w_{j_{2} k} y_{j_{2}},

其中k＝1,2......s(5)

其中，t_k为输出层第k个的实际输出值，net_k为输出层第k个的输入值，为隐含层第j₂个与输出层第k个的连接权值，为隐含层第j₂个输出值，g(net_k)为输入为net_k时转移函数的取值，s取值为10，k取值为1到10；

(3)通过理想输出向量Z和输出层输出向量T计算初期BP神经网络的输出误差U_i，

U_{i} = \frac{1}{2} Σ_{k = 1}^{s} {(z_{k} - t_{k})}^{2} - - - (6)

其中，z_k为输出层第k个理想输出值，t_k为输出层第k个实际输出值；

设共有h对的训练样本数据，h为正整数，则人工神经网络的输出总误差为：

U = \sqrt{\frac{1}{h} Σ_{i = 1}^{h} {(U_{i})}^{2}} - - - (7)

(4)输出层和隐层的权值调整公式为：

{Δw}_{j_{2} k} = - ξ \frac{\partial U}{\partial w_{j_{2} k}}; j_{2} = 0, 1......, q; k = 1, 2, ......., s - - - (8)

{Δv}_{i_{2} j_{2}} = - ξ \frac{\partial U}{\partial v_{i_{2} j_{2}}}; i_{2} = 0, 1, ......, p; j_{2} = 1, 2, ......., q - - - (9)

其中，为隐含层第j个与输出层第k个之间的权值调整量，为输入层第i₂个与隐含层第j₂个之间的权值调整量，为人工神经网络的输出总误差对的偏导数，为人工神经网络的输出总误差对的偏导数；比例系数ξ∈(0,1)即学习率；这个过程所用的算法被称为误差的梯度下降算法；

(5)判断训练是否结束，即是否有单个数字字符特征值剩下，若有单个数字字符特征值剩下，计数器counter1、counter2各自增1并将剩下的单个数字字符特征值进行训练，若没有单个数字字符特征值剩下，转到(6)判断人工神经网络的输出总误差是否小于误差门限U_min；

(6)判断人工神经网络的输出总误差，若U<U_min，则训练结束，否则继续训练，令U＝0，counter1＝1，U为人工神经网络的输出总误差，U_min为误差门限，counter1为模式计数器，counter2为训练次数计数器，重新执行步骤三二的(2)；

步骤三三、初期神经网络训练后进行初期识别

单个数字字符特征值进行初期BP神经网络训练后，初期神经网络对整个表格图像中的单个数字字符进行识别；

经过步骤三一处理后的图像，先进行表格中表头特征提取与先先，过程为：

提取表头特征，将表头特征与模板库中的表头特征进行先先，若表头特征相同，则视为有同样的表头，即表格与模即库中的表格若有相同的表头则先先成即，若找不到，则将新的表格中的行坐标列坐标信息则则的模即库中；重复步骤三一得到单个数字字符的特征值后的入已经训练好的初期神经网络去进行识别；识别后根据识别结果提取单元格字符串的整体特征，如字符串“8.97”，训练整体识别的神经网络，即后期BP神经网络，后期BP神经网络的训练方法与初期神经网络训练方法相同，重复执行步骤三二，使用三层，输入层、隐含层、输出层各一层，不同之处在于采用17-16-10型的神经网络，输入特征值为入网格特征值，入网格特征值粗粗单个数字字符特征值；

步骤三四、后初BP期神经网络训练后进行后初期识别，重复步骤三三。

后期识别当后期神经网络训练成熟，能够投入使用时，就用后期BP神经网络进行整体识别，如图4。

其它步骤及参数与具体实施方式一、二或三相同。

具体实施方式五、本实施方式与具体实施方式一、二、三或四不同的是，所述步骤三三中的表头特征提取与先先的过程为：

首先要提取出表格表头，过程为：表格表头为n行，n为正整数，当扫描到前景点时记录其为第一行，记为H1，继续扫描，直到某一行全都为背景点时停止扫描，记录其为第n行，记为Hn，H1为表头的上边界，Hn为表头的下边界，在H1行和Hn行之间搜索，表格表头为n列，方向为从表格表头的第1列到表格表头的第n列扫描，当扫描到前景点时记录其为第一列，记为L1，继续扫描，直到某一列全都为背景点时停止扫描，记录其为第n列，记为Ln，得到表头的左边界L1和右边界Ln，即可提取出表头；如图8所示：

利用表头的harris角点特征，若不同表格图像的表头的harris角点特征相同，则表格为同一类型的表格，当扫描到同一类型的表格时，直接从表格图像中各个单元格的行坐标和列坐标位置的信息库中找到表格的单元格位置信息，完成先先；

Harris角点检测算法的基本原理采用窗口法，沿任意方向移动窗口，计算窗口内中心像素点的灰度变化。

表头的harris角点特征的求取过程为：

设一个窗口的中心像素点为(x,y)，其水平方向移动v₁，垂直方向上移动v₂，则其灰度变化度量为：

E_{x, y} = {Σw}_{x, y} (I_{x | v_{1}, y | v_{2}} - I_{x, y}) = {Σw}_{x, y} {(v_{1} \frac{\partial I}{\partial X} + v_{2} \frac{\partial I}{\partial Y} + o (\sqrt{{v_{1}}^{2} + {v_{2}}^{2}}))}^{2} - - - (10)

式中，E_x,y为窗口内的灰度变化量；w_x,y为窗口函数，采用高斯窗e为自然常数，σ为常数，用于调节高斯窗的衰减速度；I为数字化后字符图像灰度矩阵，其中x为字符图像矩阵的横坐标，y为字符图像矩阵的纵坐标，为水平方向移动v₁，垂直方向上移动v₂的窗口矩阵，v₁为水平方向移动，v₂为垂直方向上移动，I_x,y为未移动的窗口矩阵，为字符图像灰度在水平方向的变化率，为字符图像灰度在垂直方向的变化率，为高阶余量；

则：

E_x,y＝∑w_x,y[v₁ ²(I_x)²+v₂ ²(I_y)²+2v₁v₂I_xI_y]＝Av₁ ²+2Cv₁v₂+Bv₂ ²(11)

式中，I_x为I_y为A、B、C为系数；

将E_x,y化为二次型有：

E_{x, y} = [\begin{matrix} v_{1} & v_{2} \end{matrix}] M [\begin{matrix} v_{1} \\ ν_{2} \end{matrix}] - - - (12)

M为实对称矩阵：

M = {Σw}_{x, y} [\begin{matrix} I_{x}^{2} & I_{x} \cdot I_{y} \\ I_{x} \cdot I_{y} & I_{y}^{2} \end{matrix}] - - - (13)

Harris的角点响应函数CRF为：

CRF(x,y)＝det(M)-ks(trace(M))²(14)

式中：det(M)为M的行列式，trace(M)为M的迹，阈值T为最大响应函数的0.01倍，当图像中像素点的角点响应函数CRF大于T时，ks为常数，取0.04，则把该像素点选取为表头的harris角点特征。

其它步骤及参数与具体实施方式一、二、三或四相同。

具体实施方式六、本实施方式与具体实施方式一、二、三、四或五不同的是，所述步骤三一中得到单个数字字符特征，具体过程为：

包括统计特征和结构特征；

统计特征包括傅立叶变换特征、重心重力矩特征；

结构特征包括轮廓特征、入网格特征以及投影特征；

傅立叶变换特征：

对步骤三一处理后的归一化数字字符图像进行傅里叶变换，归一化图像可表示为f(m,n)，归一化图像进行傅立叶变换后得到其傅立叶频谱函数：

F (u, v) = \frac{1}{\sqrt{M} \sqrt{N}} Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} f (m, n) e^{- j 2 π (\frac{m v}{M} + \frac{n v}{N})} - - - (15)

其中，u＝0，1，2……，M-1，v＝0，1，2……，N-1，M为图像高度，N为图像宽度，f(m,n)为归一化的字符图像，f(m,n)的取值为0或1；m为归一化图像的横坐标，n为归一化图像的纵坐标，u为变换后频域频谱图的实轴，v为变换后频域频谱图的虚轴，F(u,v)为归一化图像的频谱函数，e为自然常数，j为虚数；

M＝N，M的取值为字符图像的长，N的取值为字符图像的宽，傅里叶变换的频谱函数分解为如下形式：

F (u, v) = \frac{1}{\sqrt{N}} Σ_{m = 0}^{N - 1} [\frac{1}{\sqrt{N}} Σ_{n = 0}^{N - 1} f (m, n) e^{- j 2 π \frac{n v}{N}}] e^{- j 2 π \frac{m u}{N}} - - - (16)

F = (\begin{matrix} F (0, 0) & .. & F (0, N - 1) \\ . & .. & . \\ . & .. & . \\ F (N - 1, 0) & .. & F (N - 1, N - 1) \end{matrix}) - - - (17)

在F矩阵的四个角区域的点F(0,0)，F(0,1)，F(0,2)，F(0,3)，F(1,0)，F(2,0)，F(3,0)，F(24,0)，F(25,0)，F(26,0)，F(27,0)，F(27,1)，F(27,2)，F(27,3)，F(27,24)，F(27,25)，F(27,26)，F(27,27)，F(26,27)，F(25,27)，F(24,27)，F(0,27)，F(1,27)，F(2,27)，F(3,27)，F(0,26)，F(0,25)，F(0,24)的幅值大于其他矩阵元素，其他矩阵元素是F矩阵的四个角区域外的点，选取F矩阵的四个角区域的点的幅值作为傅里叶变换特征；

重心重力矩特征：

字符重心的位置为：

\overset{&OverBar;}{m} = Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n} \frac{m}{Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n}} - - - (18)

\overset{&OverBar;}{n} = Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n} \frac{n}{Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n}} - - - (19)

f_m,n为归一化数字图像第m行第n列的象素值，m为归一化图像横坐标，n为归一化图像纵坐标，为重力力矩横坐标，为重力力矩纵坐标；

重心重力矩特征定义如下：

L_{i_{1}, j_{1}} = Σ_{n = (j_{1} - 1) \frac{N}{2}}^{j_{1} \frac{N}{2}} Σ_{m = (i_{1} - 1) \frac{M}{2}}^{i_{1} \frac{M}{2}} (m - \overset{&OverBar;}{m}) (n - \overset{&OverBar;}{n}) - - - (20)

其中，j₁为横坐标，i₁为纵坐标，i₁＝1,2；j₁＝1,2；为重心重力矩特征；

轮廓特征：

设L(ky)为数字图像第ky行的左轮廓，R(ky)为数字图像第ky行的右轮廓，则：

L(ky)＝jj₀，jj₀满足f(ky,jj₀)＝1且当jj<jj₀，f(ky,jj)＝0；jj为横坐标，ii为纵坐标，jj₀为左轮廓的横坐标，f(ky,jj)为数字图像第ky行第jj列的像素值，f(ky,jj₀)为数字图像第ky行第jj₀列的像素值，ky为纵坐标；

R(ky)＝jj₁，jj₁满足f(ky,jj₁)＝1且当jj>jj₁，f(ky,jj₁)＝0，jj₁为右轮廓的横坐标，f(ky,jj)为数字图像第ky行第jj列的像素值，f(ky,jj₁)为数字图像第ky行第jj₁列的像素值

左右边缘线的一阶有限差分别为：

L_dif(ky)＝L(ky)-L(ky-1)(21)

R_dif(ky)＝R(ky)-R(ky-1)(22)

字符轮廓线最大值和最小值所在的位置

L_max＝{s|s＝max(L(ky))}(23)

R_max＝{s|s＝max(R(ky))}(24)

R_min＝{s|s＝min(R(ky))}(25)

L_min＝{s|s＝min(L(ky))}(26)

式中，R_max为右轮廓最大值，s为坐标位置，L_max为左轮廓最大值，R_min为右轮廓最小值，L_min为左轮廓最小值；R_max、L_max、R_min、L_min为轮廓特征；

字符左右边缘线的正负峰为：

L_peak+＝max{L_dif(ky)}(27)

R_peak+＝max{R_dif(ky)}(28)

R_peak-＝min{R_dif(ky)}(29)

L_peak-＝min{L_dif(ky)}(30)

式中，L_peak+为左边缘正峰，R_peak+为右边缘正峰，R_peak-为右边缘负峰，L_peak-为左边缘负峰；

L_max，R_max，R_min，L_min，L_peak+，R_peak+，R_peak-，L_peak-为重心重力矩特征的8个特征值；

入网格特征：

是把字符图像分成N个局部区域，统计局部区域的像素百分数，寻找局部区域的分布规律，规律为入网格特征，N为正整数；

单元格字符串特征采用入网格整体分布的特征；

投影特征：

将数字字符图像平均划分成N个区域，得到N条相应的边线，将每个区域中的前景像素点向最近的边线投影，然后统计每条边线上的投影长度，并用它作为特征值。

实施例：

本手写表格数字字符串快速识别是基于VS平台MFC编程，程序运行平台是Windows7，机器的处理器是AMDAthlon(tm)IIP340Dual-CoreProcessor2.20GHZ，2G的内存。整个程序界面简单，如图11，方便用户读入图片。

点击：文件->打开就能打开图片。本文中，扫描后的图片格式统一为BMP位图文件格式。对随机收取的20张样本进行测试后进行统计，每张表格是21×11的表格线，识别一张样本的时间平均为35秒，识别结果直接以excel的形式输出，方便用户进行修改、排序、保存等操作。识别结果对比如图9和图10所示：

统计抽取的20个手写表格样本的识别正确率、识别错误率及拒识率，见表1：

表1样本识别正确率、识别错误率

表4-1(续表)

Claims

1.一种基于自学习的手写表格数字字符串快速识别的方法，其特征在于，一种基于自学习的手写表格数字字符串快速识别的方法具体是按照以下步骤进行的：

步骤一、对表格图像进行预处理；

步骤三、对提取分割后的数字字符进行识别。

2.根据权利要求1所述的一种基于自学习的手写表格数字字符串快速识别的方法，其特征在于，所述步骤一中对表格图像进行预处理；具体过程为：

步骤一一、对表格图像二值化；

设0为前景值即为黑色，255为背景值即白色，阈值T_th选择为使类间方差δ最大；

步骤一二、对表格图像去噪；

采用中值滤波法去噪。

3.根据权利要求2所述的一种基于自学习的手写表格数字字符串快速识别的方法，其特征在于，所述步骤二中对预处理后的表格图像中的数字字符进行提取与分割；具体过程为：

步骤二一、检测预处理后的表格图像中各个单元格的行坐标和列坐标，对检测出的预处理后的表格图像中各个单元格的行坐标和列坐标定位，具体过程为：单元格的行坐标即单元格的水平线，单元格的列坐标即单元格的垂直线；采用Viterbi算法进行单元格的水平线和垂直线检测，即把水平线和竖直线中的每个前景点作为当前水平线和竖直线的点，保存检测出的每个单元格的水平线和竖直线的点，用数组A存储行的坐标，用数组B存储列的坐标，建立一个表格图像中各个单元格的行坐标和列坐标位置的信息库；当再次扫描到同一类型的表格图像时，则在已经保存的表格图像中各个单元格的行坐标和列坐标位置的信息库里面的信息中确定再次扫描到同一类型的表格图像中各个单元格的行坐标和列坐标位置的信息；

修补数据断裂点的方法为扫描直线的像素，具体过程为：

步骤二四、字符分割；具体过程为：

步骤二三中已将不粘连的数字字符分开，对于粘连的字符，用sobel算子进行轮廓提取、轮廓线分析选择候选分割点及切分线；

轮廓线分析选择候选分割点及切分线：

经轮廓提取后得到数字字符的上下轮廓，候选分割点为上轮廓的最低点及下轮廓的最高点，两点连接得到切分线；

候选分割点大于等于一对，切分线大于等于一条，对n条切分线进行筛选，n为正整数，根据切分线对数字字符进行分割，每分割一次就用已经训练好的初期BP神经网络对切分出来的字符进行识别，计算识别结果的置信度，若置信度大于或等于0.9，则分割的结果是正确的，候选分割点就是正确的分割点；若置信度小于0.9，则分割结果错误，删除这个候选分割点，选择下一个候选分割点进行分割识别；

判断候选分割点是否为小数点：

若不是小数点，则选择下一个候选分割点进行分割识别。

4.根据权利要求3所述的一种基于自学习的手写表格数字字符串快速识别的方法，其特征在于，所述步骤三中对提取分割后的数字字符进行识别，具体过程为：

步骤三二、初期BP神经网络的训练

对步骤三一得到的单个数字字符特征值进行初期BP神经网络的训练；具体过程为：

初期BP神经网络包括三层，输入层、隐含层、输出层各一层，输入层的输入向量为：X＝(x₁,x₂,.......,x_p)，x₁为输入层第1个神经元的特征值，x₂为输入层第2个神经元的特征值，x_p为输入层第p个神经元的特征值，p取值为70，隐含层输出向量为：Y＝(y₁,y₂,.......,y_q)，y₁为隐含层第1个神经元的输出值隐含层第2个神经元的输出值，y_q为隐含层第q个神经元的输出值，q取值为45，输出层的输出向量为：T_out＝(t₁,t₂,.......,t_s)，t₁为输出层第1个神经元的输出值，t₂为输出层第2个神经元的输出值，t_s为输出层第s个神经元的输出值，T_out为输出层的输出向量，s取值为10，理想输出向量为：Z＝(z₁,z₂,......,z_s)，z₁为输出层第1个神经元的理想输出值，z₂为输出层第2个神经元的理想输出值，z_s为输出层第s个神经元的理想输出值，s取值为10；输入层到隐含层的权值矩阵为：V＝(v₁,v₂,......,v_p)^T，其中，v₁,v₂,......,v_p为q维向量，v₁为输入层第1个神经元到隐含层各个神经元的连接权值，v₂为输入层第2个神经元到隐含层各个神经元的连接权值，v_p为输入层第p个神经元到隐含层各个神经元的连接权值，p取值为70，q取值为45，T为转置；隐含层到输出层的权值矩阵为：W＝(w₁,w₂,......,w_q)^T，其中，w₁,w₂,......,w_q为s维向量，w₁为隐含层第1个神经元到输出层各个神经元的连接权值，w₂为隐含层第2个神经元到输出层各个神经元的连接权值，w_q为隐含层第q个神经元到输出层各个神经元的连接权值，s取值为10，T为转置；

转移函数为sigmoid函数：

g (x) = \frac{1}{1 + e^{- x}} - - - (2)

其中，g(x)为转移函数，g(+∞)＝1，g(-∞)＝0，g(x)的值域为(0,0.25)，e为自然常数，x为转移函数输入；

(1)初期BP神经网络初始化：

对参数进行初始化，包括对隐含层到输出层的权值矩阵W和输入层到隐含层的权值矩阵V赋予初值，设置模式计数器counter1和训练次数计数器counter2均为500，均方误差设为0.001，学习率ξ设为0.01，初期BP神经网络经训练后所达到的精度，即误差门限U_min为0.001；

(2)将步骤三一得到的单个数字字符特征值输入初期BP神经网络，获得隐含层和输出层的输出值，具体方法如下：

net＝XV(3)

隐含层的输出为：

y_j2＝g(net_j2)，其中j₂＝1,2......q(4)

输出层输出为：

t_k＝g(net_k)，其中k＝1,2......s(5)

U_{i} = \frac{1}{2} Σ_{k = 1}^{s} {(z_{k} - t_{k})}^{2} - - - (6)

U = \sqrt{\frac{1}{h} Σ_{i = 1}^{h} {(U_{i})}^{2}} - - - (7)

(4)输出层和隐含层的权值调整公式为：

{Δw}_{j_{2} k} = - ξ \frac{\partial U}{\partial w_{j_{2} k}}; j_{2} = 0, 1......, q; k = 1, 2, ......., s - - - (8)

{Δv}_{i_{2} j_{2}} = - ξ \frac{\partial U}{\partial v_{i_{2} j_{2}}}; i_{2} = 0, 1, ... ..., p; j_{2} = 1, 2, ... ..., q - - - (9)

其中，为隐含层第j个与输出层第k个之间的权值调整量，为输入层第i₂个与隐含层第j₂个之间的权值调整量，为人工神经网络的输出总误差对的偏导数，为人工神经网络的输出总误差对的偏导数；比例系数ξ∈(0,1)即学习率；

步骤三三、初期神经网络训练后进行初期识别

经过步骤三一处理后的图像，先进行表格中表头特征提取与匹配，过程为：

提取表头特征，将表头特征与模板库中的表头特征进行匹配，若表头特征相同，则视为有同样的表头，即表格与模版库中的表格若有相同的表头则匹配成功，若找不到，则将新的表格中的行坐标列坐标信息添加的模版库中；重复步骤三一得到单个数字字符的特征值后送入已经训练好的初期神经网络去进行识别；识别后根据识别结果提取单元格字符串的整体特征，训练整体识别的神经网络，即后期BP神经网络，重复执行步骤三二，使用三层，输入层、隐含层、输出层各一层，不同之处在于输入特征值为粗网格特征值，粗网格特征值代替单个数字字符特征值；

步骤三四、后初BP期神经网络训练后进行后初期识别。

5.根据权利要求4所述的一种基于自学习的手写表格数字字符串快速识别的方法，其特征在于，所述步骤三三中的表头特征提取与匹配的过程为：

首先要提取出表格表头，过程为：表格表头为n行，n为正整数，当扫描到前景点时记录其为第一行，记为H1，继续扫描，直到某一行全都为背景点时停止扫描，记录其为第n行，记为Hn，在H1行和Hn行之间搜索，表格表头为n列，方向为从表格表头的第1列到表格表头的第n列扫描，当扫描到前景点时记录其为第一列，记为L1，继续扫描，直到某一列全都为背景点时停止扫描，记录其为第n列，记为Ln，即可提取出表头；

利用表头的harris角点特征，若不同表格图像的表头的harris角点特征相同，则表格为同一类型的表格，当扫描到同一类型的表格时，直接从表格图像中各个单元格的行坐标和列坐标位置的信息库中找到表格的单元格位置信息，完成匹配；

表头的harris角点特征的求取过程为：

E_{x, y} = {Σw}_{x, y} (I_{x | v_{1}, y | v_{2}} - I_{x, y}) = {Σw}_{x, y} {(v_{1} \frac{\partial I}{\partial X} + v_{2} \frac{\partial I}{\partial Y} + o (\sqrt{{v_{1}}^{2} + {v_{2}}^{2}}))}^{2} - - - (10)

则：

式中，I_x为I_y为A、B、C为系数；

将E_x,y化为二次型有：

E_{x, y} = [\begin{matrix} v_{1} & v_{2} \end{matrix}] M [\begin{matrix} v_{1} \\ v_{2} \end{matrix}] - - - (12)

M为实对称矩阵：

M = {Σw}_{x, y} [\begin{matrix} I_{x}^{2} & I_{x} \cdot I_{y} \\ I_{x} \cdot I_{y} & I_{y}^{2} \end{matrix}] - - - (13)

Harris的角点响应函数CRF为：

CRF(x,y)＝det(M)-ks(trace(M))²(14)

6.根据权利要求5所述的一种基于自学习的手写表格数字字符串快速识别的方法，其特征在于，所述步骤三一中得到单个数字字符特征，具体过程为：

包括统计特征和结构特征；

统计特征包括傅立叶变换特征、重心重力矩特征；

结构特征包括轮廓特征、粗网格特征以及投影特征；

傅立叶变换特征：

F (u, v) = \frac{1}{\sqrt{M} \sqrt{N}} Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} f (m, n) e^{- j 2 π (\frac{m v}{M} + \frac{n v}{N})} - - - (15)

F (u, v) = \frac{1}{\sqrt{N}} Σ_{m = 0}^{N - 1} [\frac{1}{\sqrt{N}} Σ_{n = 0}^{N - 1} f (m, n) e^{- j 2 π \frac{n v}{N}}] e^{- j 2 π \frac{m u}{N}} - - - (16)

F = (\begin{matrix} F (0, 0) & .. & F (0, N - 1) \\ . & .. & . \\ . & .. & . \\ F (N - 1, 0) & .. & F (N - 1, N - 1) \end{matrix}) - - - (17)

在F矩阵的四个角区域的点F(0,0)，F(0,1)，F(0,2)，F(0,3)，F(1,0)，F(2,0)，F(3,0)，F(24,0)，F(25,0)，F(26,0)，F(27,0)，F(27,1)，F(27,2)，F(27,3)，F(27,24)，F(27,25)，F(27,26)，F(27,27)，F(26,27)，F(25,27)，F(24,27)，F(0,27)，F(1,27)，F(2,27)，F(3,27)，F(0,26)，F(0,25)，F(0,24)的幅值大于其他矩阵元素，选取F矩阵的四个角区域的点的幅值作为傅里叶变换特征；

重心重力矩特征：

字符重心的位置为：

\overset{&OverBar;}{m} = Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n} \frac{m}{Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n}} - - - (18)

\overset{&OverBar;}{n} = Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n} \frac{n}{Σ_{n = 0}^{N - 1} Σ_{m = 0}^{M - 1} f_{m, n}} - - - (19)

重心重力矩特征定义如下：

L_{i_{1}, j_{1}} = Σ_{n = (j_{1} - 1) \frac{N}{2}}^{j_{1} \frac{N}{2}} Σ_{m = (i_{1} - 1) \frac{M}{2}}^{i_{1} \frac{M}{2}} (m - \overset{&OverBar;}{m}) (n - \overset{&OverBar;}{n}) - - - (20)

轮廓特征：

左右边缘线的一阶有限差分别为：

L_dif(ky)＝L(ky)-L(ky-1)(21)

R_dif(ky)＝R(ky)-R(ky-1)(22)

字符轮廓线最大值和最小值所在的位置

L_max＝{s|s＝max(L(ky))}(23)

R_max＝{s|s＝max(R(ky))}(24)

R_min＝{s|s＝min(R(ky))}(25)

L_min＝{s|s＝min(L(ky))}(26)

字符左右边缘线的正负峰为：

L_peak+＝max{L_dif(ky)}(27)

R_peak+＝max{R_dif(ky)}(28)

R_peak-＝min{R_dif(ky)}(29)

L_peak-＝min{L_dif(ky)}(30)

粗网格特征：

是把字符图像分成N个局部区域，统计局部区域的像素百分数，寻找局部区域的分布规律，规律为粗网格特征；N为正整数；

投影特征：