[go: up one dir, main page]

CN105184265A - 一种基于自学习的手写表格数字字符串快速识别的方法 - Google Patents

一种基于自学习的手写表格数字字符串快速识别的方法 Download PDF

Info

Publication number
CN105184265A
CN105184265A CN201510582707.2A CN201510582707A CN105184265A CN 105184265 A CN105184265 A CN 105184265A CN 201510582707 A CN201510582707 A CN 201510582707A CN 105184265 A CN105184265 A CN 105184265A
Authority
CN
China
Prior art keywords
image
value
layer
output
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510582707.2A
Other languages
English (en)
Inventor
关宇东
吴梦蝶
朱瑞锋
提纯利
仲小挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN201510582707.2A priority Critical patent/CN105184265A/zh
Publication of CN105184265A publication Critical patent/CN105184265A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于自学习的手写表格数字字符串快速识别的方法,本发明涉及基于自学习的手写表格数字字符串快速识别的方法。本发明的目的是为了解决现有方法表格识别率低的问题。通过以下技术方案实现的:步骤一、对表格图像进行预处理;步骤二、对预处理后的表格图像中的数字字符进行提取与分割;步骤三、对提取分割后的数字字符进行识别。本发明应用于表格数字字符串识别领域。

Description

一种基于自学习的手写表格数字字符串快速识别的方法
技术领域
本发明涉及基于自学习的手写表格数字字符串快速识别的方法。
背景技术
在日常生活中,人们每天都要接触到数字表格,如财务、成绩统计、实验数据等,这些表格数字的数据处理不仅工作量大,而且枯燥。所以,如果找到一种自动识别扫描后的表格文档的方法,把数据的处理交给电脑来做,就极大地节省了时间,提高了效率。想要识别出表格文档的数据首先要对表格的结构进行处理。首先,表格的格式千变万化,目前还没有找到一种方法能使用于所有的表格的情况,表格结构的识别处理仍需要进一步深入的研究;其次,尽管表格的格式复杂,但是,需要待识别的往往是那些简单的矩阵形式的单元格,只要找到它们的位置并识别就可以了,利用这种方法就可以节约了处理多余的复杂表格框的情况,提高了运行速度。
通常的表格文档的结构是由一系列的直线所构成的单元格所组成的,表格的内容部分(即手写数字部分)的单元格通常是矩形的单元格,这些单元格比起三角形或者其他形状的单元格相对容易处理。通常情况下,表格手写数字字符识别的处理过程如下:(1)根据表格线的结构,对表格进行处理,得到表格内容部分;(2)对单元格进行定位并提取出里面的数字字符图像;(3)对这些数字进行分割并分类结果。
目前的一些表格数字识别软件不能很好的将字符与背景区分开,不能进行字符的分割识别,不能对单元格字符串的整体特征进行识别,导致表格识别率低。
发明内容
本发明的目的是为了解决现有方法表格识别率低的问题,而提出了一种基于自学习的手写表格数字字符串快速识别的方法。
上述的发明目的是通过以下技术方案实现的:
步骤一、对表格图像进行预处理;
步骤二、对预处理后的表格图像中的数字字符进行提取与分割;
步骤三、对提取分割后的数字字符进行识别。
发明效果
采用本发明的一种基于自学习的手写表格数字字符串快速识别的方法,
一、预处理时,采用大津法进行二值化,有效地将字符与背景区分开;
二、利用连接成分的思想来提取单元格字符串的笔画,同时记录单元格的顶点的位置信息,以方便再次扫描同类型表格直接定位单元格,采用连接成分进行笔画提取能很好地提取出一个完整的字符笔画,能够获取字符的笔画位置信息,方便字符的分割识别;
三、本发明设计了一个整体识别的神经网络,提取单元格字符串的整体特征进行识别;
四、平均识别率达到98.2%,运行时间为35s。
附图说明
图1为具体实施方式四中BP神经网络模型;
图2为具体实施方式三中数字字符串分割流程图;
图3为具体实施方式四中初期神经网络的训练流程;
图4为具体实施方式四中后期识别框图;
图5为具体实施方式三中断裂点修补模板图;
图6为具体实施方式三中数字“78”轮廓分析图;
图7为具体实施方式三中数字“78”候选切分点图;
图8为具体实施方式三中提取出的表头内容图;
图9为实施例中表格文档的局部图像;
图10为实施例中局部识别结果;
图11为实施例中识别软件界面。
具体实施方式
具体实施方式一:一种基于自学习的手写表格数字字符串快速识别的方法,其特征在于,一种基于自学习的手写表格数字字符串快速识别的方法具体是按照以下步骤进行的:
步骤一、对表格图像进行预处理;
步骤二、对预处理后的表格图像中的数字字符进行提取与分割;
步骤三、对提取分割后的数字字符进行识别。
具体实施方式二、本实施方式与具体实施方式一不同的是,所述步骤一中对表格图像进行预处理;具体过程为:
步骤一一、对表格图像二值化;
设0为前景(即目标)值即为黑色,255为背景值即白色,阈值Tth选择为使类间方差δ最大;
步骤一二、对表格图像去噪;
采用中值滤波法去噪。
其它步骤及参数与具体实施方式一相同。
具体实施方式三、本实施方式与具体实施方式一或二不同的是,所述步骤二中对预处理后的表格图像中的数字字符进行提取与分割;具体过程为:
步骤二一、检测预处理后的表格图像中各个单元格的行坐标和列坐标,对检测出的预处理后的表格图像中各个单元格的行坐标和列坐标定位,具体过程为:单元格的行坐标即单元格的水平线,单元格的列坐标即单元格的垂直线;采用Viterbi算法进行单元格的水平线和垂直线检测,Viterbi算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的维特比路径,检测直线(水平线和竖直线),即把水平线和竖直线中的每个前景点作为当前水平线和竖直线的点,保存检测出的每个单元格的水平线和竖直线的点,用数组A存储行的坐标,用数组B存储列的坐标,建立一个表格图像中各个单元格的行坐标和列坐标位置的信息库;当再次扫描到同一类型的表格图像时,则在已经保存的表格图像中各个单元格的行坐标和列坐标位置的信息库里面的信息中确定再次扫描到同一类型的表格图像中各个单元格的行坐标和列坐标位置的信息;节省了时间;
若不同表格图像的表头的harris角点特征相同,则表格为同一类型的表格;
步骤二二、去除检测出的预处理后的表格图像中各个单元格的水平线和垂直线,并对数据断裂点进行修补;具体过程为:
去除检测出的表格图像中各个单元格的水平线和垂直线的过程为:把检测到的每个单元格的水平线和竖直线像素值设为225,即白色背景色;
修补数据断裂点的方法为扫描直线的像素,具体过程为:如图5所示模板进行判断:
设P22为当前表格图像中像素点的位置,设置一个三行三列的表格,P11位于第一行第一列,P12位于第一行第二列,P13位于第一行第三列,P21位于第二行第一列,P22位于第二行第二列,P23位于第二行第三列,P31位于第三行第一列,P32位于第三行第二列,P33位于第三行第三列,判断P11,P12,P13,P21,P22,P23,P31,P32,P33中是否至少有两个点的像素为0,若是,则将当前表格图像中像素点设置为0,即为前景点;若否,则将当前表格图像中像素点设置为255,即为背景点,去除背景点的表格图像中像素;
步骤二三、对预处理后的表格图像中各个单元格中的数字字符进行连接成分提取;
对预处理后的表格图像中各个单元格中的数字字符进行连接成分提取可将不粘连的数字字符分开;连接成分为在预处理后的表格图像中把相互连接的相同像素汇集为一组的像素组;
将汇集为一组的像素组视为一个手写数字,如单元格中的手写数字若为8.97,个位数“8”其像素值相同且相互连接,汇集起来就组成了“8”,同理可用相同的且相互连接的像素值点汇集出小数点后的“9”和“7”,这样就完成了连接成分提取;
步骤二四、字符分割;具体过程为:
步骤二三中已将不粘连的数字字符分开,对于粘连的数字字符用sobel算子进行轮廓提取、轮廓线分析选择候选分割点及切分线;
sobel算子进行轮廓提取:
Sobel算子利用一阶导数进行提取边界的算子,其原理是,利用一个窗口逐行扫描图像,该窗口是3×3的模板,然后与图像中每个像素点做卷积和运算,确定阈值,提取出边界部分;
轮廓线分析选择候选分割点及切分线:
经轮廓提取后得到数字字符的上下轮廓,候选分割点往往为上轮廓的最低点即波谷点及下轮廓的最高点即波峰点,两点连接得到切分线;如图6和图7所示:
候选分割点大于等于一对,切分线大于等于一条,需要对n条切分线进行筛选,n为正整数,根据切分线对数字字符进行分割,每分割一次就用已经训练好的初期BP神经网络对切分出来的字符进行识别,计算识别结果的置信度,若置信度大于或等于0.9,则分割的结果是正确的,候选分割点就是正确的分割点;若置信度小于0.9,则分割结果错误,删除这个候选分割点,选择下一个候选分割点进行分割识别,过程如图2;
判断候选分割点是否为小数点:
小数点从其高度和中心位置两点来确定,设小数点高度为hcell,小数点中心位置为(xcel,ycel),统计出单元格的平均高度为have,则小数点的判断依据为:
式中,&为逻辑与,ycel为小数点横坐标位置,xcel为小数点横坐标位置;
若是小数点,则记录小数点的横纵坐标,并将其像素值置为0;
若不是小数点,则选择下一个候选分割点进行分割识别。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四、本实施方式与具体实施方式一、二或三不同的是,所述步骤三中对提取分割后的数字字符进行识别;具体过程为:
步骤三一、采用形态学滤波中的腐蚀方法对提取分割后的数字字符图像进行细化,细化之后进行归一化,得到归一化数字字符图像,归一化是将所有的提取分割后的数字字符图像大小尺寸归一化为64×64,得到单个数字字符特征;
步骤三二、初期BP神经网络的训练
对步骤三一得到的单个数字字符特征值进行初期BP神经网络的训练,如图3;具体过程为:
初期BP神经网络包括三层,输入层、隐含层、输出层各一层,如图1,使用70-45-10的神经网络,输入层的输入向量为:X=(x1,x2,.......,xp),x1为输入层第1个神经元的特征值,x2为输入层第2个神经元的特征值,xp为输入层第p个神经元的特征值,p取值为70,隐含层输出向量为:Y=(y1,y2,.......,yq),y1为隐含层第1个神经元的输出值隐含层第2个神经元的输出值,yq为隐含层第q个神经元的输出值,q取值为45,输出层的输出向量为:Tout=(t1,t2,.......,ts),t1为输出层第1个神经元的输出值,t2为输出层第2个神经元的输出值,ts为输出层第s个神经元的输出值,Tout为输出层的输出向量,s取值为10,理想输出向量为:Z=(z1,z2,......,zs),z1为输出层第1个神经元的理想输出值,z2为输出层第2个神经元的理想输出值,zs为输出层第s个神经元的理想输出值,s取值为10;输入层到隐含层的权值矩阵为:V=(v1,v2,......,vp)T,其中,v1,v2,......,vp为q维向量,v1为输入层第1个神经元到隐含层各个神经元的连接权值,v2为输入层第2个神经元到隐含层各个神经元的连接权值,vp为输入层第p个神经元到隐含层各个神经元的连接权值,p取值为70,q取值为45,T为转置;隐含层到输出层的权值矩阵为:W=(w1,w2,......,wq)T,其中,w1,w2,......,wq为s维向量,w1为隐含层第1个神经元到输出层各个神经元的连接权值,w2为隐含层第2个神经元到输出层各个神经元的连接权值,wq为隐含层第q个神经元到输出层各个神经元的连接权值,s取值为10,T为转置;
转移函数为sigmoid函数:
g ( x ) = 1 1 + e - x - - - ( 2 )
其中,g'(x)为转移函数,g(+∞)=1,g(-∞)=0,g'(x)的值域为(0,0.25),e为自然常数,x为转移函数输入;
(1)初期BP神经网络初始化:开始创建神经网络时,需要
对参数进行初始化,包括对隐含层到输出层的权值矩阵W和输入层到隐含层的权值矩阵V赋予初值,设置模式计数器counter1和训练次数计数器counter2均为500,均方误差设为0.001,学习率ξ设为0.01,初期BP神经网络经训练后所达到的精度,即误差门限Umin为0.001;
(2)开始进行训练,
将步骤三一得到的单个数字字符特征值输入初期BP神经网络,获得隐含层和输出层的输出值,具体方法如下:
将输入层的输入向量X与输入层到隐含层的权值矩阵相乘,计算出隐含层的输入为:
net=XV(3)
其中,net为隐含层的输入向量,X为输入层的输入向量,V为输入层到隐含层的权值矩阵;
隐含层的输出为:
y j 2 = g ( net j 2 ) , net j 2 = Σ i 2 = 0 p v i 2 j 2 x i 2 , 其中j2=1,2......q(4)
其中,为隐含层第j2个的输出值,为隐含层第j2个的输入值,为输入层第i2个与隐含层第j2个的连接权值,为输入层第i2个输入值,为输入为时转移函数的取值,i2取值为1~70,j2取值为1~45,p取值为70,q取值为45;
输出层输出为:
t k = g ( net k ) , net k = Σ j 2 = 0 q w j 2 k y j 2 , 其中k=1,2......s(5)
其中,tk为输出层第k个的实际输出值,netk为输出层第k个的输入值,为隐含层第j2个与输出层第k个的连接权值,为隐含层第j2个输出值,g(netk)为输入为netk时转移函数的取值,s取值为10,k取值为1到10;
(3)通过理想输出向量Z和输出层输出向量T计算初期BP神经网络的输出误差Ui
U i = 1 2 Σ k = 1 s ( z k - t k ) 2 - - - ( 6 )
其中,zk为输出层第k个理想输出值,tk为输出层第k个实际输出值;
设共有h对的训练样本数据,h为正整数,则人工神经网络的输出总误差为:
U = 1 h Σ i = 1 h ( U i ) 2 - - - ( 7 )
(4)输出层和隐层的权值调整公式为:
Δw j 2 k = - ξ ∂ U ∂ w j 2 k ; j 2 = 0 , 1...... , q ; k = 1 , 2 , ....... , s - - - ( 8 )
Δv i 2 j 2 = - ξ ∂ U ∂ v i 2 j 2 ; i 2 = 0 , 1 , ...... , p ; j 2 = 1 , 2 , ....... , q - - - ( 9 )
其中,为隐含层第j个与输出层第k个之间的权值调整量,为输入层第i2个与隐含层第j2个之间的权值调整量,为人工神经网络的输出总误差对的偏导数,为人工神经网络的输出总误差对的偏导数;比例系数ξ∈(0,1)即学习率;这个过程所用的算法被称为误差的梯度下降算法;
(5)判断训练是否结束,即是否有单个数字字符特征值剩下,若有单个数字字符特征值剩下,计数器counter1、counter2各自增1并将剩下的单个数字字符特征值进行训练,若没有单个数字字符特征值剩下,转到(6)判断人工神经网络的输出总误差是否小于误差门限Umin
(6)判断人工神经网络的输出总误差,若U<Umin,则训练结束,否则继续训练,令U=0,counter1=1,U为人工神经网络的输出总误差,Umin为误差门限,counter1为模式计数器,counter2为训练次数计数器,重新执行步骤三二的(2);
步骤三三、初期神经网络训练后进行初期识别
单个数字字符特征值进行初期BP神经网络训练后,初期神经网络对整个表格图像中的单个数字字符进行识别;
经过步骤三一处理后的图像,先进行表格中表头特征提取与先先,过程为:
提取表头特征,将表头特征与模板库中的表头特征进行先先,若表头特征相同,则视为有同样的表头,即表格与模即库中的表格若有相同的表头则先先成即,若找不到,则将新的表格中的行坐标列坐标信息则则的模即库中;重复步骤三一得到单个数字字符的特征值后的入已经训练好的初期神经网络去进行识别;识别后根据识别结果提取单元格字符串的整体特征,如字符串“8.97”,训练整体识别的神经网络,即后期BP神经网络,后期BP神经网络的训练方法与初期神经网络训练方法相同,重复执行步骤三二,使用三层,输入层、隐含层、输出层各一层,不同之处在于采用17-16-10型的神经网络,输入特征值为入网格特征值,入网格特征值粗粗单个数字字符特征值;
步骤三四、后初BP期神经网络训练后进行后初期识别,重复步骤三三。
后期识别当后期神经网络训练成熟,能够投入使用时,就用后期BP神经网络进行整体识别,如图4。
其它步骤及参数与具体实施方式一、二或三相同。
具体实施方式五、本实施方式与具体实施方式一、二、三或四不同的是,所述步骤三三中的表头特征提取与先先的过程为:
首先要提取出表格表头,过程为:表格表头为n行,n为正整数,当扫描到前景点时记录其为第一行,记为H1,继续扫描,直到某一行全都为背景点时停止扫描,记录其为第n行,记为Hn,H1为表头的上边界,Hn为表头的下边界,在H1行和Hn行之间搜索,表格表头为n列,方向为从表格表头的第1列到表格表头的第n列扫描,当扫描到前景点时记录其为第一列,记为L1,继续扫描,直到某一列全都为背景点时停止扫描,记录其为第n列,记为Ln,得到表头的左边界L1和右边界Ln,即可提取出表头;如图8所示:
利用表头的harris角点特征,若不同表格图像的表头的harris角点特征相同,则表格为同一类型的表格,当扫描到同一类型的表格时,直接从表格图像中各个单元格的行坐标和列坐标位置的信息库中找到表格的单元格位置信息,完成先先;
Harris角点检测算法的基本原理采用窗口法,沿任意方向移动窗口,计算窗口内中心像素点的灰度变化。
表头的harris角点特征的求取过程为:
设一个窗口的中心像素点为(x,y),其水平方向移动v1,垂直方向上移动v2,则其灰度变化度量为:
E x , y = &Sigma;w x , y ( I x | v 1 , y | v 2 - I x , y ) = &Sigma;w x , y ( v 1 &part; I &part; X + v 2 &part; I &part; Y + o ( v 1 2 + v 2 2 ) ) 2 - - - ( 10 )
式中,Ex,y为窗口内的灰度变化量;wx,y为窗口函数,采用高斯窗e为自然常数,σ为常数,用于调节高斯窗的衰减速度;I为数字化后字符图像灰度矩阵,其中x为字符图像矩阵的横坐标,y为字符图像矩阵的纵坐标,为水平方向移动v1,垂直方向上移动v2的窗口矩阵,v1为水平方向移动,v2为垂直方向上移动,Ix,y为未移动的窗口矩阵,为字符图像灰度在水平方向的变化率,为字符图像灰度在垂直方向的变化率,为高阶余量;
则:
Ex,y=∑wx,y[v1 2(Ix)2+v2 2(Iy)2+2v1v2IxIy]=Av1 2+2Cv1v2+Bv2 2(11)
式中,IxIyA、B、C为系数;
将Ex,y化为二次型有:
E x , y = v 1 v 2 M v 1 &nu; 2 - - - ( 12 )
M为实对称矩阵:
M = &Sigma;w x , y I x 2 I x &CenterDot; I y I x &CenterDot; I y I y 2 - - - ( 13 )
Harris的角点响应函数CRF为:
CRF(x,y)=det(M)-ks(trace(M))2(14)
式中:det(M)为M的行列式,trace(M)为M的迹,阈值T为最大响应函数的0.01倍,当图像中像素点的角点响应函数CRF大于T时,ks为常数,取0.04,则把该像素点选取为表头的harris角点特征。
其它步骤及参数与具体实施方式一、二、三或四相同。
具体实施方式六、本实施方式与具体实施方式一、二、三、四或五不同的是,所述步骤三一中得到单个数字字符特征,具体过程为:
包括统计特征和结构特征;
统计特征包括傅立叶变换特征、重心重力矩特征;
结构特征包括轮廓特征、入网格特征以及投影特征;
傅立叶变换特征:
对步骤三一处理后的归一化数字字符图像进行傅里叶变换,归一化图像可表示为f(m,n),归一化图像进行傅立叶变换后得到其傅立叶频谱函数:
F ( u , v ) = 1 M N &Sigma; m = 0 M - 1 &Sigma; n = 0 N - 1 f ( m , n ) e - j 2 &pi; ( m v M + n v N ) - - - ( 15 )
其中,u=0,1,2……,M-1,v=0,1,2……,N-1,M为图像高度,N为图像宽度,f(m,n)为归一化的字符图像,f(m,n)的取值为0或1;m为归一化图像的横坐标,n为归一化图像的纵坐标,u为变换后频域频谱图的实轴,v为变换后频域频谱图的虚轴,F(u,v)为归一化图像的频谱函数,e为自然常数,j为虚数;
M=N,M的取值为字符图像的长,N的取值为字符图像的宽,傅里叶变换的频谱函数分解为如下形式:
F ( u , v ) = 1 N &Sigma; m = 0 N - 1 &lsqb; 1 N &Sigma; n = 0 N - 1 f ( m , n ) e - j 2 &pi; n v N &rsqb; e - j 2 &pi; m u N - - - ( 16 )
F = F ( 0 , 0 ) .. F ( 0 , N - 1 ) . .. . . .. . F ( N - 1 , 0 ) .. F ( N - 1 , N - 1 ) - - - ( 17 )
在F矩阵的四个角区域的点F(0,0),F(0,1),F(0,2),F(0,3),F(1,0),F(2,0),F(3,0),F(24,0),F(25,0),F(26,0),F(27,0),F(27,1),F(27,2),F(27,3),F(27,24),F(27,25),F(27,26),F(27,27),F(26,27),F(25,27),F(24,27),F(0,27),F(1,27),F(2,27),F(3,27),F(0,26),F(0,25),F(0,24)的幅值大于其他矩阵元素,其他矩阵元素是F矩阵的四个角区域外的点,选取F矩阵的四个角区域的点的幅值作为傅里叶变换特征;
重心重力矩特征:
字符重心的位置为:
m &OverBar; = &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n m &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n - - - ( 18 )
n &OverBar; = &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n n &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n - - - ( 19 )
fm,n为归一化数字图像第m行第n列的象素值,m为归一化图像横坐标,n为归一化图像纵坐标,为重力力矩横坐标,为重力力矩纵坐标;
重心重力矩特征定义如下:
L i 1 , j 1 = &Sigma; n = ( j 1 - 1 ) N 2 j 1 N 2 &Sigma; m = ( i 1 - 1 ) M 2 i 1 M 2 ( m - m &OverBar; ) ( n - n &OverBar; ) - - - ( 20 )
其中,j1为横坐标,i1为纵坐标,i1=1,2;j1=1,2;为重心重力矩特征;
轮廓特征:
设L(ky)为数字图像第ky行的左轮廓,R(ky)为数字图像第ky行的右轮廓,则:
L(ky)=jj0,jj0满足f(ky,jj0)=1且当jj<jj0,f(ky,jj)=0;jj为横坐标,ii为纵坐标,jj0为左轮廓的横坐标,f(ky,jj)为数字图像第ky行第jj列的像素值,f(ky,jj0)为数字图像第ky行第jj0列的像素值,ky为纵坐标;
R(ky)=jj1,jj1满足f(ky,jj1)=1且当jj>jj1,f(ky,jj1)=0,jj1为右轮廓的横坐标,f(ky,jj)为数字图像第ky行第jj列的像素值,f(ky,jj1)为数字图像第ky行第jj1列的像素值
左右边缘线的一阶有限差分别为:
Ldif(ky)=L(ky)-L(ky-1)(21)
Rdif(ky)=R(ky)-R(ky-1)(22)
字符轮廓线最大值和最小值所在的位置
Lmax={s|s=max(L(ky))}(23)
Rmax={s|s=max(R(ky))}(24)
Rmin={s|s=min(R(ky))}(25)
Lmin={s|s=min(L(ky))}(26)
式中,Rmax为右轮廓最大值,s为坐标位置,Lmax为左轮廓最大值,Rmin为右轮廓最小值,Lmin为左轮廓最小值;Rmax、Lmax、Rmin、Lmin为轮廓特征;
字符左右边缘线的正负峰为:
Lpeak+=max{Ldif(ky)}(27)
Rpeak+=max{Rdif(ky)}(28)
Rpeak-=min{Rdif(ky)}(29)
Lpeak-=min{Ldif(ky)}(30)
式中,Lpeak+为左边缘正峰,Rpeak+为右边缘正峰,Rpeak-为右边缘负峰,Lpeak-为左边缘负峰;
Lmax,Rmax,Rmin,Lmin,Lpeak+,Rpeak+,Rpeak-,Lpeak-为重心重力矩特征的8个特征值;
入网格特征:
是把字符图像分成N个局部区域,统计局部区域的像素百分数,寻找局部区域的分布规律,规律为入网格特征,N为正整数;
单元格字符串特征采用入网格整体分布的特征;
投影特征:
将数字字符图像平均划分成N个区域,得到N条相应的边线,将每个区域中的前景像素点向最近的边线投影,然后统计每条边线上的投影长度,并用它作为特征值。
实施例:
本手写表格数字字符串快速识别是基于VS平台MFC编程,程序运行平台是Windows7,机器的处理器是AMDAthlon(tm)IIP340Dual-CoreProcessor2.20GHZ,2G的内存。整个程序界面简单,如图11,方便用户读入图片。
点击:文件->打开就能打开图片。本文中,扫描后的图片格式统一为BMP位图文件格式。对随机收取的20张样本进行测试后进行统计,每张表格是21×11的表格线,识别一张样本的时间平均为35秒,识别结果直接以excel的形式输出,方便用户进行修改、排序、保存等操作。识别结果对比如图9和图10所示:
统计抽取的20个手写表格样本的识别正确率、识别错误率及拒识率,见表1:
表1样本识别正确率、识别错误率
表4-1(续表)

Claims (6)

1.一种基于自学习的手写表格数字字符串快速识别的方法,其特征在于,一种基于自学习的手写表格数字字符串快速识别的方法具体是按照以下步骤进行的:
步骤一、对表格图像进行预处理;
步骤二、对预处理后的表格图像中的数字字符进行提取与分割;
步骤三、对提取分割后的数字字符进行识别。
2.根据权利要求1所述的一种基于自学习的手写表格数字字符串快速识别的方法,其特征在于,所述步骤一中对表格图像进行预处理;具体过程为:
步骤一一、对表格图像二值化;
设0为前景值即为黑色,255为背景值即白色,阈值Tth选择为使类间方差δ最大;
步骤一二、对表格图像去噪;
采用中值滤波法去噪。
3.根据权利要求2所述的一种基于自学习的手写表格数字字符串快速识别的方法,其特征在于,所述步骤二中对预处理后的表格图像中的数字字符进行提取与分割;具体过程为:
步骤二一、检测预处理后的表格图像中各个单元格的行坐标和列坐标,对检测出的预处理后的表格图像中各个单元格的行坐标和列坐标定位,具体过程为:单元格的行坐标即单元格的水平线,单元格的列坐标即单元格的垂直线;采用Viterbi算法进行单元格的水平线和垂直线检测,即把水平线和竖直线中的每个前景点作为当前水平线和竖直线的点,保存检测出的每个单元格的水平线和竖直线的点,用数组A存储行的坐标,用数组B存储列的坐标,建立一个表格图像中各个单元格的行坐标和列坐标位置的信息库;当再次扫描到同一类型的表格图像时,则在已经保存的表格图像中各个单元格的行坐标和列坐标位置的信息库里面的信息中确定再次扫描到同一类型的表格图像中各个单元格的行坐标和列坐标位置的信息;
若不同表格图像的表头的harris角点特征相同,则表格为同一类型的表格;
步骤二二、去除检测出的预处理后的表格图像中各个单元格的水平线和垂直线,并对数据断裂点进行修补;具体过程为:
去除检测出的表格图像中各个单元格的水平线和垂直线的过程为:把检测到的每个单元格的水平线和竖直线像素值设为225,即白色背景色;
修补数据断裂点的方法为扫描直线的像素,具体过程为:
设P22为当前表格图像中像素点的位置,设置一个三行三列的表格,P11位于第一行第一列,P12位于第一行第二列,P13位于第一行第三列,P21位于第二行第一列,P22位于第二行第二列,P23位于第二行第三列,P31位于第三行第一列,P32位于第三行第二列,P33位于第三行第三列,判断P11,P12,P13,P21,P22,P23,P31,P32,P33中是否至少有两个点的像素为0,若是,则将当前表格图像中像素点设置为0,即为前景点;若否,则将当前表格图像中像素点设置为255,即为背景点,去除背景点的表格图像中像素;
步骤二三、对预处理后的表格图像中各个单元格中的数字字符进行连接成分提取;
对预处理后的表格图像中各个单元格中的数字字符进行连接成分提取可将不粘连的数字字符分开;连接成分为在预处理后的表格图像中把相互连接的相同像素汇集为一组的像素组;
步骤二四、字符分割;具体过程为:
步骤二三中已将不粘连的数字字符分开,对于粘连的字符,用sobel算子进行轮廓提取、轮廓线分析选择候选分割点及切分线;
轮廓线分析选择候选分割点及切分线:
经轮廓提取后得到数字字符的上下轮廓,候选分割点为上轮廓的最低点及下轮廓的最高点,两点连接得到切分线;
候选分割点大于等于一对,切分线大于等于一条,对n条切分线进行筛选,n为正整数,根据切分线对数字字符进行分割,每分割一次就用已经训练好的初期BP神经网络对切分出来的字符进行识别,计算识别结果的置信度,若置信度大于或等于0.9,则分割的结果是正确的,候选分割点就是正确的分割点;若置信度小于0.9,则分割结果错误,删除这个候选分割点,选择下一个候选分割点进行分割识别;
判断候选分割点是否为小数点:
小数点从其高度和中心位置两点来确定,设小数点高度为hcell,小数点中心位置为(xcel,ycel),统计出单元格的平均高度为have,则小数点的判断依据为:
式中,&为逻辑与,ycel为小数点横坐标位置,xcel为小数点横坐标位置;
若是小数点,则记录小数点的横纵坐标,并将其像素值置为0;
若不是小数点,则选择下一个候选分割点进行分割识别。
4.根据权利要求3所述的一种基于自学习的手写表格数字字符串快速识别的方法,其特征在于,所述步骤三中对提取分割后的数字字符进行识别,具体过程为:
步骤三一、采用形态学滤波中的腐蚀方法对提取分割后的数字字符图像进行细化,细化之后进行归一化,得到归一化数字字符图像,归一化是将所有的提取分割后的数字字符图像大小尺寸归一化为64×64,得到单个数字字符特征;
步骤三二、初期BP神经网络的训练
对步骤三一得到的单个数字字符特征值进行初期BP神经网络的训练;具体过程为:
初期BP神经网络包括三层,输入层、隐含层、输出层各一层,输入层的输入向量为:X=(x1,x2,.......,xp),x1为输入层第1个神经元的特征值,x2为输入层第2个神经元的特征值,xp为输入层第p个神经元的特征值,p取值为70,隐含层输出向量为:Y=(y1,y2,.......,yq),y1为隐含层第1个神经元的输出值隐含层第2个神经元的输出值,yq为隐含层第q个神经元的输出值,q取值为45,输出层的输出向量为:Tout=(t1,t2,.......,ts),t1为输出层第1个神经元的输出值,t2为输出层第2个神经元的输出值,ts为输出层第s个神经元的输出值,Tout为输出层的输出向量,s取值为10,理想输出向量为:Z=(z1,z2,......,zs),z1为输出层第1个神经元的理想输出值,z2为输出层第2个神经元的理想输出值,zs为输出层第s个神经元的理想输出值,s取值为10;输入层到隐含层的权值矩阵为:V=(v1,v2,......,vp)T,其中,v1,v2,......,vp为q维向量,v1为输入层第1个神经元到隐含层各个神经元的连接权值,v2为输入层第2个神经元到隐含层各个神经元的连接权值,vp为输入层第p个神经元到隐含层各个神经元的连接权值,p取值为70,q取值为45,T为转置;隐含层到输出层的权值矩阵为:W=(w1,w2,......,wq)T,其中,w1,w2,......,wq为s维向量,w1为隐含层第1个神经元到输出层各个神经元的连接权值,w2为隐含层第2个神经元到输出层各个神经元的连接权值,wq为隐含层第q个神经元到输出层各个神经元的连接权值,s取值为10,T为转置;
转移函数为sigmoid函数:
g ( x ) = 1 1 + e - x - - - ( 2 )
其中,g(x)为转移函数,g(+∞)=1,g(-∞)=0,g(x)的值域为(0,0.25),e为自然常数,x为转移函数输入;
(1)初期BP神经网络初始化:
对参数进行初始化,包括对隐含层到输出层的权值矩阵W和输入层到隐含层的权值矩阵V赋予初值,设置模式计数器counter1和训练次数计数器counter2均为500,均方误差设为0.001,学习率ξ设为0.01,初期BP神经网络经训练后所达到的精度,即误差门限Umin为0.001;
(2)将步骤三一得到的单个数字字符特征值输入初期BP神经网络,获得隐含层和输出层的输出值,具体方法如下:
将输入层的输入向量X与输入层到隐含层的权值矩阵相乘,计算出隐含层的输入为:
net=XV(3)
其中,net为隐含层的输入向量,X为输入层的输入向量,V为输入层到隐含层的权值矩阵;
隐含层的输出为:
yj2=g(netj2),其中j2=1,2......q(4)
其中,为隐含层第j2个的输出值,为隐含层第j2个的输入值,为输入层第i2个与隐含层第j2个的连接权值,为输入层第i2个输入值,为输入为时转移函数的取值,i2取值为1~70,j2取值为1~45,p取值为70,q取值为45;
输出层输出为:
tk=g(netk),其中k=1,2......s(5)
其中,tk为输出层第k个的实际输出值,netk为输出层第k个的输入值,为隐含层第j2个与输出层第k个的连接权值,为隐含层第j2个输出值,g(netk)为输入为netk时转移函数的取值,s取值为10,k取值为1到10;
(3)通过理想输出向量Z和输出层输出向量T计算初期BP神经网络的输出误差Ui
U i = 1 2 &Sigma; k = 1 s ( z k - t k ) 2 - - - ( 6 )
其中,zk为输出层第k个理想输出值,tk为输出层第k个实际输出值;
设共有h对的训练样本数据,h为正整数,则人工神经网络的输出总误差为:
U = 1 h &Sigma; i = 1 h ( U i ) 2 - - - ( 7 )
(4)输出层和隐含层的权值调整公式为:
&Delta;w j 2 k = - &xi; &part; U &part; w j 2 k ; j 2 = 0 , 1...... , q ; k = 1 , 2 , ....... , s - - - ( 8 )
&Delta;v i 2 j 2 = - &xi; &part; U &part; v i 2 j 2 ; i 2 = 0 , 1 , ... ... , p ; j 2 = 1 , 2 , ... ... , q - - - ( 9 )
其中,为隐含层第j个与输出层第k个之间的权值调整量,为输入层第i2个与隐含层第j2个之间的权值调整量,为人工神经网络的输出总误差对的偏导数,为人工神经网络的输出总误差对的偏导数;比例系数ξ∈(0,1)即学习率;
(5)判断训练是否结束,即是否有单个数字字符特征值剩下,若有单个数字字符特征值剩下,计数器counter1、counter2各自增1并将剩下的单个数字字符特征值进行训练,若没有单个数字字符特征值剩下,转到(6)判断人工神经网络的输出总误差是否小于误差门限Umin
(6)判断人工神经网络的输出总误差,若U<Umin,则训练结束,否则继续训练,令U=0,counter1=1,U为人工神经网络的输出总误差,Umin为误差门限,counter1为模式计数器,counter2为训练次数计数器,重新执行步骤三二的(2);
步骤三三、初期神经网络训练后进行初期识别
单个数字字符特征值进行初期BP神经网络训练后,初期神经网络对整个表格图像中的单个数字字符进行识别;
经过步骤三一处理后的图像,先进行表格中表头特征提取与匹配,过程为:
提取表头特征,将表头特征与模板库中的表头特征进行匹配,若表头特征相同,则视为有同样的表头,即表格与模版库中的表格若有相同的表头则匹配成功,若找不到,则将新的表格中的行坐标列坐标信息添加的模版库中;重复步骤三一得到单个数字字符的特征值后送入已经训练好的初期神经网络去进行识别;识别后根据识别结果提取单元格字符串的整体特征,训练整体识别的神经网络,即后期BP神经网络,重复执行步骤三二,使用三层,输入层、隐含层、输出层各一层,不同之处在于输入特征值为粗网格特征值,粗网格特征值代替单个数字字符特征值;
步骤三四、后初BP期神经网络训练后进行后初期识别。
5.根据权利要求4所述的一种基于自学习的手写表格数字字符串快速识别的方法,其特征在于,所述步骤三三中的表头特征提取与匹配的过程为:
首先要提取出表格表头,过程为:表格表头为n行,n为正整数,当扫描到前景点时记录其为第一行,记为H1,继续扫描,直到某一行全都为背景点时停止扫描,记录其为第n行,记为Hn,在H1行和Hn行之间搜索,表格表头为n列,方向为从表格表头的第1列到表格表头的第n列扫描,当扫描到前景点时记录其为第一列,记为L1,继续扫描,直到某一列全都为背景点时停止扫描,记录其为第n列,记为Ln,即可提取出表头;
利用表头的harris角点特征,若不同表格图像的表头的harris角点特征相同,则表格为同一类型的表格,当扫描到同一类型的表格时,直接从表格图像中各个单元格的行坐标和列坐标位置的信息库中找到表格的单元格位置信息,完成匹配;
表头的harris角点特征的求取过程为:
设一个窗口的中心像素点为(x,y),其水平方向移动v1,垂直方向上移动v2,则其灰度变化度量为:
E x , y = &Sigma;w x , y ( I x | v 1 , y | v 2 - I x , y ) = &Sigma;w x , y ( v 1 &part; I &part; X + v 2 &part; I &part; Y + o ( v 1 2 + v 2 2 ) ) 2 - - - ( 10 )
式中,Ex,y为窗口内的灰度变化量;wx,y为窗口函数,采用高斯窗e为自然常数,σ为常数,用于调节高斯窗的衰减速度;I为数字化后字符图像灰度矩阵,其中x为字符图像矩阵的横坐标,y为字符图像矩阵的纵坐标,为水平方向移动v1,垂直方向上移动v2的窗口矩阵,v1为水平方向移动,v2为垂直方向上移动,Ix,y为未移动的窗口矩阵,为字符图像灰度在水平方向的变化率,为字符图像灰度在垂直方向的变化率,为高阶余量;
则:
Ex,y=∑wx,y[v1 2(Ix)2+v2 2(Iy)2+2v1v2IxIy]=Av1 2+2Cv1v2+Bv2 2(11)
式中,IxIyA、B、C为系数;
将Ex,y化为二次型有:
E x , y = &lsqb; v 1 v 2 &rsqb; M v 1 v 2 - - - ( 12 )
M为实对称矩阵:
M = &Sigma;w x , y I x 2 I x &CenterDot; I y I x &CenterDot; I y I y 2 - - - ( 13 )
Harris的角点响应函数CRF为:
CRF(x,y)=det(M)-ks(trace(M))2(14)
式中:det(M)为M的行列式,trace(M)为M的迹,阈值T为最大响应函数的0.01倍,当图像中像素点的角点响应函数CRF大于T时,ks为常数,取0.04,则把该像素点选取为表头的harris角点特征。
6.根据权利要求5所述的一种基于自学习的手写表格数字字符串快速识别的方法,其特征在于,所述步骤三一中得到单个数字字符特征,具体过程为:
包括统计特征和结构特征;
统计特征包括傅立叶变换特征、重心重力矩特征;
结构特征包括轮廓特征、粗网格特征以及投影特征;
傅立叶变换特征:
对步骤三一处理后的归一化数字字符图像进行傅里叶变换,归一化图像可表示为f(m,n),归一化图像进行傅立叶变换后得到其傅立叶频谱函数:
F ( u , v ) = 1 M N &Sigma; m = 0 M - 1 &Sigma; n = 0 N - 1 f ( m , n ) e - j 2 &pi; ( m v M + n v N ) - - - ( 15 )
其中,u=0,1,2……,M-1,v=0,1,2……,N-1,M为图像高度,N为图像宽度,f(m,n)为归一化的字符图像,f(m,n)的取值为0或1;m为归一化图像的横坐标,n为归一化图像的纵坐标,u为变换后频域频谱图的实轴,v为变换后频域频谱图的虚轴,F(u,v)为归一化图像的频谱函数,e为自然常数,j为虚数;
M=N,M的取值为字符图像的长,N的取值为字符图像的宽,傅里叶变换的频谱函数分解为如下形式:
F ( u , v ) = 1 N &Sigma; m = 0 N - 1 &lsqb; 1 N &Sigma; n = 0 N - 1 f ( m , n ) e - j 2 &pi; n v N &rsqb; e - j 2 &pi; m u N - - - ( 16 )
F = F ( 0 , 0 ) .. F ( 0 , N - 1 ) . .. . . .. . F ( N - 1 , 0 ) .. F ( N - 1 , N - 1 ) - - - ( 17 )
在F矩阵的四个角区域的点F(0,0),F(0,1),F(0,2),F(0,3),F(1,0),F(2,0),F(3,0),F(24,0),F(25,0),F(26,0),F(27,0),F(27,1),F(27,2),F(27,3),F(27,24),F(27,25),F(27,26),F(27,27),F(26,27),F(25,27),F(24,27),F(0,27),F(1,27),F(2,27),F(3,27),F(0,26),F(0,25),F(0,24)的幅值大于其他矩阵元素,选取F矩阵的四个角区域的点的幅值作为傅里叶变换特征;
重心重力矩特征:
字符重心的位置为:
m &OverBar; = &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n m &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n - - - ( 18 )
n &OverBar; = &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n n &Sigma; n = 0 N - 1 &Sigma; m = 0 M - 1 f m , n - - - ( 19 )
fm,n为归一化数字图像第m行第n列的象素值,m为归一化图像横坐标,n为归一化图像纵坐标,为重力力矩横坐标,为重力力矩纵坐标;
重心重力矩特征定义如下:
L i 1 , j 1 = &Sigma; n = ( j 1 - 1 ) N 2 j 1 N 2 &Sigma; m = ( i 1 - 1 ) M 2 i 1 M 2 ( m - m &OverBar; ) ( n - n &OverBar; ) - - - ( 20 )
其中,j1为横坐标,i1为纵坐标,i1=1,2;j1=1,2;为重心重力矩特征;
轮廓特征:
设L(ky)为数字图像第ky行的左轮廓,R(ky)为数字图像第ky行的右轮廓,则:
L(ky)=jj0,jj0满足f(ky,jj0)=1且当jj<jj0,f(ky,jj)=0;jj为横坐标,ii为纵坐标,jj0为左轮廓的横坐标,f(ky,jj)为数字图像第ky行第jj列的像素值,f(ky,jj0)为数字图像第ky行第jj0列的像素值,ky为纵坐标;
R(ky)=jj1,jj1满足f(ky,jj1)=1且当jj>jj1,f(ky,jj1)=0,jj1为右轮廓的横坐标,f(ky,jj)为数字图像第ky行第jj列的像素值,f(ky,jj1)为数字图像第ky行第jj1列的像素值
左右边缘线的一阶有限差分别为:
Ldif(ky)=L(ky)-L(ky-1)(21)
Rdif(ky)=R(ky)-R(ky-1)(22)
字符轮廓线最大值和最小值所在的位置
Lmax={s|s=max(L(ky))}(23)
Rmax={s|s=max(R(ky))}(24)
Rmin={s|s=min(R(ky))}(25)
Lmin={s|s=min(L(ky))}(26)
式中,Rmax为右轮廓最大值,s为坐标位置,Lmax为左轮廓最大值,Rmin为右轮廓最小值,Lmin为左轮廓最小值;Rmax、Lmax、Rmin、Lmin为轮廓特征;
字符左右边缘线的正负峰为:
Lpeak+=max{Ldif(ky)}(27)
Rpeak+=max{Rdif(ky)}(28)
Rpeak-=min{Rdif(ky)}(29)
Lpeak-=min{Ldif(ky)}(30)
式中,Lpeak+为左边缘正峰,Rpeak+为右边缘正峰,Rpeak-为右边缘负峰,Lpeak-为左边缘负峰;
Lmax,Rmax,Rmin,Lmin,Lpeak+,Rpeak+,Rpeak-,Lpeak-为重心重力矩特征的8个特征值;
粗网格特征:
是把字符图像分成N个局部区域,统计局部区域的像素百分数,寻找局部区域的分布规律,规律为粗网格特征;N为正整数;
投影特征:
将数字字符图像平均划分成N个区域,得到N条相应的边线,将每个区域中的前景像素点向最近的边线投影,然后统计每条边线上的投影长度,并用它作为特征值。
CN201510582707.2A 2015-09-14 2015-09-14 一种基于自学习的手写表格数字字符串快速识别的方法 Pending CN105184265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510582707.2A CN105184265A (zh) 2015-09-14 2015-09-14 一种基于自学习的手写表格数字字符串快速识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510582707.2A CN105184265A (zh) 2015-09-14 2015-09-14 一种基于自学习的手写表格数字字符串快速识别的方法

Publications (1)

Publication Number Publication Date
CN105184265A true CN105184265A (zh) 2015-12-23

Family

ID=54906332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510582707.2A Pending CN105184265A (zh) 2015-09-14 2015-09-14 一种基于自学习的手写表格数字字符串快速识别的方法

Country Status (1)

Country Link
CN (1) CN105184265A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938547A (zh) * 2016-04-14 2016-09-14 河海大学 一种纸质水文年鉴数字化方法
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN106203496A (zh) * 2016-07-01 2016-12-07 河海大学 基于机器学习的水文曲线提取方法
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106709474A (zh) * 2017-01-23 2017-05-24 无锡职业技术学院 一种手写电话号码识别、校验及信息发送系统
CN106874911A (zh) * 2017-03-03 2017-06-20 沈阳工程学院 一种应用划分法得到的面积比例来进行印刷体数字识别的方法
CN107038451A (zh) * 2016-11-17 2017-08-11 上海西井信息科技有限公司 适用于灰度图片的神经网络学习方法以及训练方法
CN107437085A (zh) * 2017-08-09 2017-12-05 厦门商集企业咨询有限责任公司 一种提升ocr识别率的方法、装置及可读存储介质
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
CN109034160A (zh) * 2018-07-06 2018-12-18 江苏迪伦智能科技有限公司 一种基于卷积神经网络的带小数点数字仪表自动识别方法
CN109271986A (zh) * 2018-07-02 2019-01-25 国家海洋局东海标准计量中心(国家海洋计量站上海分站) 一种基于Second-Confirm的数字识别方法
CN109635729A (zh) * 2018-12-12 2019-04-16 厦门商集网络科技有限责任公司 一种表格识别方法及终端
CN109858468A (zh) * 2019-03-04 2019-06-07 汉王科技股份有限公司 一种表格线识别方法及装置
CN110100251A (zh) * 2016-12-30 2019-08-06 华为技术有限公司 用于处理文档的设备、方法和图形用户界面
CN110874618A (zh) * 2020-01-19 2020-03-10 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN112200117A (zh) * 2020-10-22 2021-01-08 长城计算机软件与系统有限公司 表格识别方法及装置
CN113435240A (zh) * 2021-04-13 2021-09-24 北京易道博识科技有限公司 一种端到端的表格检测和结构识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573795A (zh) * 2003-05-26 2005-02-02 诺日士钢机株式会社 区域检测方法及其装置
CN101727581A (zh) * 2009-12-10 2010-06-09 上海名图软件有限公司 基于字符预分割的车牌倾斜校正方法
CN103488998A (zh) * 2013-09-11 2014-01-01 东华大学 一种基于神经网络和图像处理技术的身份证识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573795A (zh) * 2003-05-26 2005-02-02 诺日士钢机株式会社 区域检测方法及其装置
CN101727581A (zh) * 2009-12-10 2010-06-09 上海名图软件有限公司 基于字符预分割的车牌倾斜校正方法
CN103488998A (zh) * 2013-09-11 2014-01-01 东华大学 一种基于神经网络和图像处理技术的身份证识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仲小挺: "基于自学习的手写表格数字字符串快速识别方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN105938547A (zh) * 2016-04-14 2016-09-14 河海大学 一种纸质水文年鉴数字化方法
CN105938547B (zh) * 2016-04-14 2019-02-12 河海大学 一种纸质水文年鉴数字化方法
CN106203496B (zh) * 2016-07-01 2019-07-12 河海大学 基于机器学习的水文曲线提取方法
CN106203496A (zh) * 2016-07-01 2016-12-07 河海大学 基于机器学习的水文曲线提取方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107038451B (zh) * 2016-11-17 2018-09-21 上海西井信息科技有限公司 适用于灰度图片的神经网络学习方法以及训练方法
CN107038451A (zh) * 2016-11-17 2017-08-11 上海西井信息科技有限公司 适用于灰度图片的神经网络学习方法以及训练方法
CN110100251A (zh) * 2016-12-30 2019-08-06 华为技术有限公司 用于处理文档的设备、方法和图形用户界面
US11158057B2 (en) 2016-12-30 2021-10-26 Huawei Technologies Co., Ltd. Device, method, and graphical user interface for processing document
CN106709474A (zh) * 2017-01-23 2017-05-24 无锡职业技术学院 一种手写电话号码识别、校验及信息发送系统
CN106874911A (zh) * 2017-03-03 2017-06-20 沈阳工程学院 一种应用划分法得到的面积比例来进行印刷体数字识别的方法
CN107437085A (zh) * 2017-08-09 2017-12-05 厦门商集企业咨询有限责任公司 一种提升ocr识别率的方法、装置及可读存储介质
CN108734089B (zh) * 2018-04-02 2023-04-18 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
CN109271986A (zh) * 2018-07-02 2019-01-25 国家海洋局东海标准计量中心(国家海洋计量站上海分站) 一种基于Second-Confirm的数字识别方法
CN109271986B (zh) * 2018-07-02 2021-11-26 国家海洋局东海标准计量中心(国家海洋计量站上海分站) 一种基于Second-Confirm的数字识别方法
CN109034160A (zh) * 2018-07-06 2018-12-18 江苏迪伦智能科技有限公司 一种基于卷积神经网络的带小数点数字仪表自动识别方法
CN109635729A (zh) * 2018-12-12 2019-04-16 厦门商集网络科技有限责任公司 一种表格识别方法及终端
CN109858468B (zh) * 2019-03-04 2021-04-23 汉王科技股份有限公司 一种表格线识别方法及装置
CN109858468A (zh) * 2019-03-04 2019-06-07 汉王科技股份有限公司 一种表格线识别方法及装置
CN110874618B (zh) * 2020-01-19 2020-11-27 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN110874618A (zh) * 2020-01-19 2020-03-10 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN112200117A (zh) * 2020-10-22 2021-01-08 长城计算机软件与系统有限公司 表格识别方法及装置
CN112200117B (zh) * 2020-10-22 2023-10-13 长城计算机软件与系统有限公司 表格识别方法及装置
CN113435240A (zh) * 2021-04-13 2021-09-24 北京易道博识科技有限公司 一种端到端的表格检测和结构识别方法及系统

Similar Documents

Publication Publication Date Title
CN105184265A (zh) 一种基于自学习的手写表格数字字符串快速识别的方法
CN111325764B (zh) 一种果实图像轮廓识别方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN108805076B (zh) 环境影响评估报告书表格文字的提取方法及系统
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN111723675A (zh) 基于多重相似性度量深度学习的遥感图像场景分类方法
CN107423760A (zh) 基于预分割和回归的深度学习目标检测方法
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
CN105574534A (zh) 基于稀疏子空间聚类和低秩表示的显著性目标检测方法
CN104573731A (zh) 基于卷积神经网络的快速目标检测方法
CN110008853B (zh) 行人检测网络及模型训练方法、检测方法、介质、设备
CN104504383B (zh) 一种基于肤色和Adaboost算法的人脸检测方法
CN111738367B (zh) 一种基于图像识别的零件分类方法
CN105718889A (zh) 基于GB(2D)2PCANet深度卷积模型的人脸身份识别方法
CN112085126B (zh) 一种侧重于分类任务的单样本目标检测方法
CN101140625A (zh) 一种多分辨率退化字符自适应识别系统及方法
CN105913053A (zh) 一种基于稀疏融合的单演多特征的人脸表情识别方法
CN111598854A (zh) 基于丰富鲁棒卷积特征模型的复杂纹理小缺陷的分割方法
CN106446890A (zh) 一种基于窗口打分和超像素分割的候选区域提取方法
CN113920516A (zh) 一种基于孪生神经网络的书法字骨架匹配方法及系统
CN108734200A (zh) 基于bing特征的人体目标视觉检测方法和装置
CN117275048A (zh) 一种基于全局特征和局部细节点特征融合的指纹识别方法
CN111368856A (zh) 一种基于视觉的图书盘点系统的书脊提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151223