CN101763516B

CN101763516B - 一种基于拟合函数的文字识别方法

Info

Publication number: CN101763516B
Application number: CN2010100179333A
Authority: CN
Inventors: 皮德常; 彭立勋; 王明涛
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Shanxing Nanjing Network Engineering Co ltd
Priority date: 2010-01-15
Filing date: 2010-01-15
Publication date: 2012-02-29
Anticipated expiration: 2030-01-15
Also published as: CN101763516A

Abstract

本发明公布了一种基于拟合函数的文字识别方法。本发明方法对构成待识别的文字的线条进行拟合，将文字转化为多个多项式函数来描述，然后通过分析拟合函数与模板库的标准函数的相似度，取出相似度最高的模板作为识别结果。本发明不仅能够识别汉字，还能够识别数字、字母和一些特殊的符号，且具有较高的执行效率和准确率。

Description

一种基于拟合函数的文字识别方法

技术领域

本发明属于模式识别、人工智能和文字信息处理领域，特别涉及一种基于拟合函数的文字识别方法。

背景技术

随着计算机技术的推广应用，尤其是互联网的日益普及，人类越来越多地依靠计算机获得各种信息。大量地信息处理工作也都转移到计算机上进行。在日常的生活和工作中，存在着大量的文字信息处理问题，因而将文字信息快速输入到计算机这一要求变得非常迫切。

现在一般的文字识别算法是基于对待识别图形的点阵分析，对构成文字的线条较复杂的文字进行识别有很大的局限性，例如对汉字有专门的汉字识别方法，对字母有专门的字母识别方法，即使用同一类算法思想也是需要不同的程序来实现。尤其将多种类型符号混在一起时，大部分算法都很难识别出来。如果是手写输入，识别的难度就更大。

现有的通用文字识别算法，例如模板匹配算法，一般用训练样本特征的平均值来描述，分类器根据输入样本特征与各个文字的参照特征的距离进行识别。由于汉字存在各种各样字体，手写汉字中还存在各种各样的变形，因此文件的任何特征都存在一个分布空间。只有把这些分布考虑进去，才能更精确地进行分类识别，因此只用特征平均值来描述特征是不够的。

贝叶斯分类算法则是采用一种用分段线性函数描述汉字特征的概率密度函数方法，能很好的识别出汉字的特征分布，但是由于特征值的分布通常不是某种简单的统计分布，如果没有简单的方法描述这些概率密度函数，则表示所有的汉字的各维特征的概率密度函数需要的存储空间将是实用系统所不能承受的。

以上这两种方法都不能很好的将复杂图形分类，对文字识别执行的准确率和效率很低。

发明内容

本发明目的是针对现有技术存在的缺陷，根据文字图像的特点，应用拟合函数的技术和特征，提出一种有效的基于拟合函数的文字识别方法。本发明更好的兼顾了文字识别的准确度和速度。

本发明为实现上述目的，采用如下技术方案：

本发明是一种基于拟合函数的文字识别方法，其特征在于包括如下步骤：

(1)在联机或者在离线的情况下读入待识别的文字样本；

(2)文字图像预处理：首先将步骤(1)所述的待识别的文字样本图像二值化，然后线条消抖，再进行断点连接，最后把文字图像规范化；

(3)分析样本：先从步骤(2)所述的规范化后的待识别的文字样本图像中拆分出文字笔画，然后将拆分出的每个笔画归类到笔画集中，并以此生成可识别的符号序列；对笔画集中的每条线段寻找特征点，根据特征点集拟合多项式找出最佳拟合函数，选取最佳拟合函数的系数作为最佳拟合向量；用最佳拟合向量匹配笔画写入符号向量；

(4)识别样本：首先根据步骤(3)所述的符号序列在知识库中寻找与之匹配的多个模板；然后提取这多个模板图案的符号向量并与步骤(3)所述的待识别的文字样本图像的符号向量进行匹配；

(5)输出结果：将与步骤(3)所述的待识别的文字样本图像的符号向量相似度最高的那个模板文字图案作为识别结果。

本发明是针对二值文字图像的识别，二值化后的图像能使图像的处理速度高、成本低，此外，由于最终是对字符串进行匹配，使用索引提高了匹配速度，因此具有较高的执行效率；本发明将各种复杂的文字图形转化为多项式函数进行描述，生成符号向量，然后通过分析与知识库中模板的相似度进行文字识别，对文字识别正确率高，稳定性好。

附图说明

图1：本发明方法的总体框图；

图2：联机情况下笔画拆分流程图。

具体实施方式

为了便于叙述本发明提供的基于拟合函数的文字识别方法，首先给出关于本方法如下的基本定义：

定义一线段(LS，Line Segment)与线段集(LSS，Line Segment Set)：

一段连续的，由若干个点构成，可以被拟合的点序列称为线段(可以为曲线段或直线段)，由线段组成的序列称为线段集。

定义：LS＝((X₁，Y₁)，(X₂，Y₂)，...，(X_Npi，Y_Npi)，...，(X_Np，Y_Np))，Np为点的数量。

LSS＝(LS₁，LS₂，..LS_Nli，...，LS_Nl)，Nl为线段的数量。

其中：Np_i、Nl_i、Np、Nl∈Z+，X_Npi、Y_Npi∈Z，LS∈LSS，|X_Npi-X_Npi-1|≤1，|Y_Npi-Y_Npi-1|≤1。

定义二特征点(LC，Line Character points)与特征点集(LCS，Line Character pointsSet)：

对于一条由Np个点构成的线段LS，选取其中Ncp个点进行拟合，每个被选取的点称为线段LS的特征点，由这Ncp个特征点组成的序列称为特征点集。

定义：LC∈LS。

LCS＝{LC₁，LC₂，...，LC_Ncpi，...，LC_Ncp}，Ncp为特征点的数量。

其中：LC_Ncpi∈LS，0≤Ncp_i≤Ncp≤Np。

定义三最佳拟合函数(BFF，Best-Fitting Function)：

利用一条线段LS的一个特征点集LCS对线段进行拟合得到的p阶多项式Y(X)或X(Y)称为这条线段的拟合函数，其中最优的拟合函数称为最佳拟合函数。

定义：BFF(X)＝A_p*X^p+A_p-1*X^p-1+...A_j*X^j+...+A₀*X⁰，Flag标志位0。

BFF(Y)＝A_p*Yⁿ+A_p-1*Y^p-1+...A_j*X^j+...+A₀*Y⁰，Flag标志位1.

其中：A_j∈R，j、p∈Z⁺。

定义四最佳拟合向量(BFV，Best-Fitting Vector)：

最佳拟合函数的系数A_j和Y(X)型或X(Y)型的标志位Flag组成的向量称为最佳拟合向量。

定义：BFV＝(Flag，A_p，A_p-1，...，A_j，...A₀)。

其中：A_j∈R，j、p∈Z⁺。

定义五笔画(SK，Strokes)：

由一些具有类似属性的最佳拟合向量组成的集合称为笔画，是可识别符号集中的元素所能被分割的最小单位。

定义：SK＝{BFV₁，BFV₂，...，BFV_Nski，...，BFV_Nsk}，Nsk是笔画的模板样本数。

其中：Nsk_i，Nsk∈Z⁺。

例如：汉字中所有的与X轴近似平行的拟合向量构成的集合定义为“横”这个笔画。

定义六笔画集(SKS，Strokes Set)：

由可识别符号集中所有笔画所构成的集合，称为笔画集。

定义：SKS＝{SK₁，SK₂，...，SK_Nsksi，...，SK_Nsks}，Nsks是笔画的数量。

其中：Nsks_i，Nsks∈Z⁺。

例如：汉字由“横”“竖”“撇”“捺”等一系列基本笔画的集合构成。

定义七符号向量(SV，Symbol Vector)：

由n个笔画元素构成的可以表示一个待识别或可识别符号的向量称为符号向量。必要时可包含一个图像元素记录符号的图像信息以便更精确地识别。

定义：SV＝(SK₁，SK₂，...，Sk_Nsvi，...，SK_Nsv)，Nsv是构成这个符号的笔画数。

其中：Nsv_i，Nsv∈Z⁺。

例如：汉字“十”，由一个汉字笔画集中的“横”笔画和一个“竖”笔画组成，因而“十”这个符号由(横，竖)这个向量构成。

定义八符号集(SVS，Symbol Vector Set)：

由所有可识别符号向量构成的集合称为符号集。

定义：SVS＝{SV₁，SV₂，...，SV_Nsvsi，...，SV_Nsvs}，Nsvs是可识别符号向量的数量。

其中：Nsvs_i，Nsvs∈Z⁺。

定义九知识库(KB，Knowledge Base)：

由笔画集模板和符号集模板所组成的模板库称为知识库。

定义：KB＝<SKS，SVS>。

定义十相似度(Smlt，Similarity)：

待识别样本与知识库中符号集模板的相似程度称为相似度。

本发明提供的基于拟合函数的文字识别方法具体的实现步骤是：在联机或者在离线的情况下输入待识别文字样本，然后对输入的文字图像样本进行二值化、线条消抖、断点连接、规范化等相关的预处理工作；接着进行线段的拆分、选取特征点，利用一条线段LS的一个特征点集LCS对线段进行拟合，得到最佳的拟合函数和最佳拟合向量，进而从图形中拆分出笔画的图案，将拆分出的笔画图案进行分析归类到笔画集中最匹配的笔画，并以此生成可识别的符号序列；而后在知识库中找出与之最匹配的若干个模板，并提取这若干个模板的图案和待识别的样本进行匹配，最后分别计算待识别样本与知识库中这几个模板的相似程度，把其中相似度最高的文字作为待识别文字的最终识别结果。

具体过程如下：

如图1所示。一种基于拟合函数的文字识别方法，其特征在于包括如下步骤：

(1)在联机或者在离线的情况下读入待识别的文字样本；

所述的一种基于拟合函数的文字识别方法，其特征在于步骤(5)输出结果后，将步骤(3)所述的待识别的文字样本图像存为模板。

所述的一种基于拟合函数的文字识别方法，其特征在于步骤(2)所述的二值化方法如下：

首先取T₁＝70作为第一次选用的阈值，对步骤(1)所述的待识别的文字样本图像进行整体阈值二值化，区分待识别的文字样本图像的背景和图像；再分别求出对应阈值T₁的待识别的文字样本图像的图像和背景的灰度平均值F_a和B_a，定出二次选用的阈值为：

T_{2} = \frac{1}{2} (F_{a} + B_{a})

最后再用二次选用的阈值T₂对原图进行整体阈值二值化。

所述的一种基于拟合函数的文字识别方法，其特征在于步骤(2)所述的线条消抖方法如下：

在二值化后的待识别的文字样本图像中的文字笔迹中随机抽取占总数据点50％的点，用直线连接最近的点并且距离不超过3个像素点的相邻点。

所述的一种基于拟合函数的文字识别方法，其特征在于步骤(2)所述的文字断点连接方法如下：

在线条消抖后的待识别的文字样本图像中的文字笔迹中随机抽取占总数据点60％的点，用直线连接最近的点并且距离不超过3个像素点的相邻点。

如图2所示。所述的一种基于拟合函数的文字识别方法，其特征在于步骤(3)所述的拆分文字笔画的方法如下：

联机情况：

①初始化两个覆盖表CovX和CovY，分别用于记录X轴和Y轴的被覆盖情况，并将所有项置为False，表示两个覆盖表CovX和CovY都未被覆盖；初始化一个数组LS，用来存储拆分出来的线段，Nl_j＝0；

②建立两个空队列QueueX和QueueY，分别用于压入按Y(X)方式记录和按X(Y)方式记录的点序列；

③每当获取一个点(X_i，Y_i)时，分别判断在两个覆盖表CovX和CovY的X_i位置和Y_i位置是否为False：若CovX的X_i位置为False，则将(X_i，Y_i)压入队列QueueX并在覆盖表CovX的X_i位置写入True；若覆盖表CovY的Y_i位置为False则将(X_i，Y_i)压入队列QueueY并在覆盖表CovY的Y_i位置写入True；直到遇到两个覆盖表CovX和CovY表中的一个Cov表突即对应位置为True的X_i或Y_i位置已经为True，则进入步骤④；当点全部处理完，则进入步骤⑤；

④如果有一个Cov表冲突，则将对应的队列Queue中的元素全部出队列清空并且将Cov表复位；另一个Cov表继续进行步骤③中的操作，直到也出现冲突，则将对应队列Queue全部出队列到线段LS[Nl_j]，Nl_j＝Nl_j+1，清空Cov表；

⑤如果是一条文字笔画线画完，则进入步骤①拆分下一条文字笔画；如果没有点可以获取了，则结束；

离线情况：

A.按照从左向右，从上到下的扫描方法，只要扫描到一个点，就用这个点用种子填充法的方法扩散，把能连通的线段全部连通，然后用联机识别的方法生成LS，转步骤(B)；

B.每取走一条线段，判断这条线段是否与其他线段交叉，如果不交叉则从图中删掉这条线段，如有交叉则补上交叉点，转步骤(A)，直到图中没有点了为止。

其中点(X_i，Y_i)表示构成一条文字笔画的第i点，i∈Z⁺，0≤i≤Np，Np为一条文字笔画的点数。

所述的一种基于拟合函数的文字识别方法，其特征在于步骤(3)所述的特征点选取方法如下：

线段的起点(X₁，Y₁)和终点(X_Np，Y_Np)应当被选取，其余的点应当以一定规则从线段的各个部分取，本发明每隔5个点取一个特征点，保证特征点能较好的描述原线段的轮廓。

所述的一种基于拟合函数的文字识别方法，其特征在于步骤(3)所述的确定最佳拟合向量的方法如下：

确定最佳拟合函数中阶数p和系数A_j，j＝1，2...p，然后选取最佳拟合函数的系数最为最佳拟合向量；

最佳拟合函数中阶数p通过以下方式获得：p从1开始拟合，求出拟合相似度R²，每当p+1可以使拟合相似度R²增加一个阈值α＝5％，则取p+1为当前的p，再次进行判断，直到p+1阶拟合不能使拟合相似度R²增加α为止；

最佳拟合函数中各系数A_j通过以下方式获得：对于系数A_j，如果A_j的绝对值小于一个阈值β＝1E-3，那么测试去掉A_j*X^j项后，拟合相似度R²会不会减小一个阈值γ＝5％，如果不会减小γ那么多，就去掉A_j*X^j项即把A_j赋值为0。

所述的一种基于拟合函数的文字识别方法，其特征在于步骤(4)所述的寻找相似度最高的模板作为识别结果的方法如下：

(a)根据图形拆分出的各个最佳拟合向量，在知识库的笔画集里查找最匹配的笔画，生成符号向量；

(b)利用符号向量在知识库的符号集里查找最匹配的符号，如果笔画是有序的那么在查找过程中笔画和顺序都要匹配；如果笔画无序那么按照笔画的数量和类型进行查找，不考虑顺序能否匹配；

(c)如果在笔画有序和无序的情况下既不能找到笔画数相同的也不能找到所用笔画完全相同的，则用最接近匹配原则，找最接近的符号：对于笔画有序的字符向量，则取各个位按顺序能匹配到正确笔画数量最多的字符；如果笔画无序的，则取所有笔画中能匹配到所用笔画最多的字符，然后根据需要，可以取出字符向量的图像，用图像进行对比确认结果。

本发明算法的执行过程为：

S1.KB＝CreatKB()或LoadKB(KB)；//建立知识库或载入知识库

S2.SV.Pic＝ReadSV()；//读入样本

S3.AnalysisSV(SV) //分析样本

Begin

LSS＝GetLSS(SV.Pic)；//将图像拆分成笔画集

For k：＝1 To LSS.size()Do

Begin //生成特征点集合

LCS＝GetLCS(LSS[k])；//生成最佳拟合向量写入符号向量

SV.SKV[k].BFV.add(GetBFV(LCS))；//用最佳拟合向量匹配笔画

SV.SKV[k]＝MatchingSK(SV.SKV[k].BFV)；

End

return SUCCESS；

End

S4.SVS＝MatchingTP(SV)；//匹配模板

S5.Begin //按向量匹配得若干个符号向量

SVS＝MatchingSV(SV.SKV)；

//如果需要，比较样本的图像和每个可能的符号的图像进行匹配

SVS＝MatchingPIC(SV.Pic)；

If(用户需要更新知识库)

Then

StoreKB(SV)；

return SVS；

End

Write(SVS[0])；//输出最匹配的结果

Claims

1.一种基于拟合函数的文字识别方法，其特征在于包括如下步骤：

(1)在联机或者在离线的情况下读入待识别的文字样本；

(5)输出结果：将与步骤(3)所述的待识别的文字样本图像的符号向量相似度最高的那个模板文字图案作为识别结果；

其中线段LS与线段集LSS：

一段连续的，由若干个点构成，可以被拟合的点序列称为线段，由线段组成的序列称为线段集；

LS＝((X₁，Y₁)，(X₂，Y₂)，...，(X_Npi，Y_Npi)，...，(X_Np，Y_Np))，Np为点的数量；

LSS＝(LS₁，LS₂，..LS_Nli，...，LS_Nl)，Nl为线段的数量；

其中：Np_i、Nl_i、Np、Nl∈Z+即正整数，X_Npi、Y_Npi∈Z即整数，LS∈LSS，|X_Npi-X_Npi-1|≤1，|Y_Npi-Y_Npi-1|≤1；

特征点LC与特征点集LCS：

对于一条由Np个点构成的线段LS，选取其中Ncp个点进行拟合，每个被选取的点称为线段LS的特征点，由这Ncp个特征点组成的序列称为特征点集；

LC∈LS；

LCS＝{LC₁，LC₂，...，LC_Ncpi，...，LC_Ncp}，Ncp为特征点的数量；

其中：LC_Ncpi∈LS，0≤Ncp_i≤Ncp≤Np；

最佳拟合函数BFF：

利用一条线段LS的一个特征点集LCS对线段进行拟合得到的p阶多项式Y(X)或X(Y)称为这条线段的拟合函数，其中最优的拟合函数称为最佳拟合函数；

BFF(X)＝A_p*X^p+A_p-1*X^p-1+...A_j*X^j+...+A₀*X⁰，Flag标志位0；

BFF(Y)＝A_p*Yⁿ+A_p-1*Y^p-1+...A_j*X^j+...+A₀*Y⁰，Flag标志位1；

其中：A_j∈R，j、p∈Z⁺；

最佳拟合向量BFV：

最佳拟合函数的系数A_j和Y(X)型或X(Y)型的标志位Flag组成的向量称为最佳拟合向量；

BFV＝(Flag，A_p，A_p-1，...，A_j，...A₀)；

其中：A_j∈R，j、p∈Z⁺；

笔画SK：

由一些具有类似属性的最佳拟合向量组成的集合称为笔画，是可识别符号集中的元素所能被分割的最小单位；

SK＝{BFV₁，BFV₂，...，BFV_Nski，...，BFV_Nsk}，Nsk是笔画的模板样本数；

其中：Nsk_i，Nsk∈Z⁺；

笔画集SKS：

由可识别符号集中所有笔画所构成的集合，称为笔画集；

SKS＝{SK₁，SK₂，...，SK_Nsksi，...，SK_Nsks}，Nsks是笔画的数量；

其中：Nsks_i，Nsks∈Z⁺；

符号向量SV：

由n个笔画元素构成的可以表示一个待识别或可识别符号的向量称为符号向量；

SV＝(SK₁，SK₂，...，Sk_Nsvi，...，SK_Nsv)，Nsv是构成这个符号的笔画数；

其中：Nsv_i，Nsv∈Z⁺；

符号集SVS：

由所有可识别符号向量构成的集合称为符号集；

SVS＝{SV₁，SV₂，...，SV_Nsvsi，...，SV_Nsvs}，Nsvs是可识别符号向量的数量；

其中：Nsvs_i，Nsvs∈Z⁺；

知识库KB：

由笔画集模板和符号集模板所组成的模板库称为知识库；

KB＝<SKS，SVS>；

相似度Smlt，Similarity：

待识别样本与知识库中符号集模板的相似程度称为相似度。

2.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(5)输出结果后，将步骤(3)所述的待识别的文字样本图像存为模板。

3.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(2)所述的二值化方法如下：

最后再用二次选用的阈值T₂对原图进行整体阈值二值化。

4.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(2)所述的线条消抖方法如下：

5.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(2)所述的断点连接方法如下：

6.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(3)所述的拆分文字笔画的方法如下：

联机情况：

①初始化两个覆盖表CovX和CovY，分别用于记录X轴和Y轴的被覆盖情况，并将所有项置为False，表示两个覆盖表CovX和CovY都未被覆盖；初始化一个数组LS[Nl_j]，用来存储拆分出来的线段，Nl_j＝0；

③每当获取一个点(X_i，Y_i)时，分别判断在两个覆盖表CovX和CovY的X_i位置和 Y_i位置是否为False：若CovX的X_i位置为False，则将(X_i，Y_i)压入队列QueueX并在覆盖表CovX的X_i位置写入True；若覆盖表CovY的Y_i位置为False则将(X_i，Y_i)压入队列QueueY并在覆盖表CovY的Y_i位置写入True；直到遇到两个覆盖表CovX和CovY表中的一个Cov表突即对应位置为True的X_i或Y_i位置已经为True，则进入步骤④；当点全部处理完，则进入步骤⑤；

④如果有一个Cov表冲突，则将对应的队列Queue中的元素全部出队列清空并且将Cov表复位；另一个Cov表继续进行步骤③中的操作，直到也出现冲突，则将对应队列Queue全部出队列到线段LS[Nl_j]，Nl_j←Nl_j+1，清空Cov表，其中←表示赋值；

离线情况：

A.按照从左向右，从上到下的扫描方法，只要扫描到一个点，就用这个点用种子填充法的方法扩散，把能连通的线段全部连通，然后用联机识别的方法生成LS，转步骤B；

B.每取走一条线段，判断这条线段是否与其他线段交叉，如果不交叉则从图中删掉这条线段，如有交叉则补上交叉点，转步骤A，直到图中没有点了为止；

其中点(X_i，Y_i)表示构成一条文字笔画的第i点，i∈Z⁺即正整数，0≤i≤Np，Np为一条文字笔画的点数。

7.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(3)所述的寻找特征点方法如下：

8.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(3)所述最佳拟合向量的确定方法如下：

确定最佳拟合函数中阶数p和系数A_j，j＝1，2...p，然后选取最佳拟合函数的系数为最佳拟合向量；

9.根据权利要求1所述的一种基于拟合函数的文字识别方法，其特征在于步骤(5)所述的寻找符号向量相似度最高的模板作为识别结果的方法如下：