CN113139457A

CN113139457A - 一种基于crnn的图片表格提取方法

Info

Publication number: CN113139457A
Application number: CN202110430702.3A
Authority: CN
Inventors: 励建科; 许化; 顾淼; 陈再蝶; 朱晓秋; 樊伟东; 章星星
Original assignee: Zhejiang Kangxu Technology Co ltd
Current assignee: Zhejiang Kangxu Technology Co ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-20

Abstract

本发明公开了一种基于CRNN的图片表格提取方法，包括以下步骤：S1、对待检测图片做透视变换，校正图片；S2、使用深度神经网络对校正后的图片做表格骨架提取；S3、从表格骨架中获取单元格ROI；S4、通过OCR识别模型识别所有单元格ROI中的文本内容；S5、将文本内容通过步骤S2中的表格骨架排版还原到表格，从而将图片表格转换为数据表格，完成图片表格的提取。本发明中，对待识别图片做一次透视变换，校正图片角度，再使用深度神经网络模型提取整体表格骨架，克服现有技术当单元格边缘被手写字连笔的情况，或者图片中表格存在不清晰，图片光线、倾斜、模糊等问题，克服需要大量人为手动调参而费时费力的问题。

Description

一种基于CRNN的图片表格提取方法

技术领域

本发明涉及图像表格提取技术领域，尤其涉及一种基于CRNN的图片表格提取方法。

背景技术

在人工智能时代，AI技术发展出两大最贴近人们生活的方向，自然语言处理和图像识别技术，其中图像识别技术尤其在各行各业崭露头角，产生十分重要的影响其中，表格是图像文字资料中非常重要的表达方式之一，是各种数据分析工具中的基础工具，表格表达方式在网络资料中十分常见，其中很多资料中的表格都是以图片的格式提供下载，比如各种扫描档案文件、PDF文件。

如果要将这些资料进行快速处理和分析,需要自动识别这些图像表格资料，从图片表格内容抽取并恢复排版的算法，在一套完整的图像表格提取算法实施流程中通常包含多个步骤，典型的步骤包括：图像预处理、提取表格骨架、切割表格单元格、对单元格做文本识别、将单元格排序合并，恢复排版。

然而，现有图像表格提取算法在实施过程中存在如下几个弊端：

(1)现有技术在图片表格骨架提取一般使用连通域分析，但在表格周围内容连笔到表格边缘的情况，或者图片中表格存在不清晰，图片光线、倾斜、模糊等都会影响连通域分析的结果，需要大量人为手动调参而费时费力；

(2)现有识别文本技术通常是构建单字符识别模型，单字符识别模型需要对单元格内字符序列进行切割，印刷体字体一般通过投影法，但在手写体出现连笔等，增加字符切割难度，字符切割算法设计复杂；

(3)手写体文本数字的识别准确率低。

发明内容

为了解决上述背景技术中所提到的问题，而提出的一种基于CRNN的图片表格提取方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于CRNN的图片表格提取方法，包括以下步骤：

S1、对待检测图片做透视变换，校正图片；

S2、使用深度神经网络对校正后的图片做表格骨架提取；

S3、从表格骨架中获取单元格ROI；

S31、从步骤S2提取的表格骨架中获取检测出表格骨架的所有横线和竖线；

S32、使用cv2.bitwise_and()求得横线和竖线的交点坐标，记录所有交点的横坐标xs和纵坐标ys；

S33、根据横坐标xs和纵坐标ys求得单元格行位置listy和列位置listx；

S34、手动设置最小单元格高度min_ceil_height，过滤横噪声框，手动设置最小单元格宽度min_ceil_width，过滤列噪声框；

S35、循环遍历每一行位置listy，找到对应的横轴坐标点x_list，判断两顶点中是否存在横线，如果存在，找到这条横线的下对边横线，求得单元格高度，从而获得单元格ROI，如果两顶点间不存在横线，则不存在单元格ROI；

S4、通过OCR识别模型识别所有单元格ROI中的文本内容；

S5、将文本内容通过步骤S2中的表格骨架排版还原到表格，从而将图片表格转换为数据表格，完成图片表格的提取。

作为上述技术方案的进一步描述：

在步骤S1中，图片校正的具体步骤如下：

S11、使用cv2.findContours()检测出待检测图片表格单元格轮廓并取最大表格轮廓，即四个顶点坐标；

S12、通过检测参照图片和待检测图片的顶点，并通过opencv-API的cv2.getPerspectiveTransform()获得变换矩阵M；

S13、通过opencv-API的cv2.warpPerspective()计算倾斜校正后的图像。

作为上述技术方案的进一步描述：

所述深度神经网络为unet网络，所述unet网络包括encoder-decoder结构和skip-connection结构。

作为上述技术方案的进一步描述：

所述OCR识别模型包括DB算法模型和CRNN识别模型，所述CRNN识别模型采用轻量级骨架网络MobileNet或者Resnet34中的一种。

作为上述技术方案的进一步描述：

所述CRNN识别模型通过采用百度paddleocr提供的CRNN开源预训练模型进行加入手写体数据二次训练获得。

作为上述技术方案的进一步描述：

在步骤S5中，图片表格转换为数字表格的具体步骤如下：

S51、在步骤S4获得的文本内容中，通过replace('\n\x0c',”)去除换行符，对同一单元格ROI内的文本内容做文本分行拼接处理，获得单元格文本text；

S52、在步骤S35中的横轴坐标点x_list和行位置listy，可知单元格ROI的位置信息；

S53、通过write_merge()方法将单元格文本text写进excel数据表格对应的单元格位置内即可。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，对待识别图片做一次透视变换，校正图片角度，再使用深度神经网络模型提取整体表格骨架，克服现有技术当单元格边缘被手写字连笔的情况，或者图片中表格存在不清晰，图片光线、倾斜、模糊等问题，克服需要大量人为手动调参而费时费力的问题。

2、本发明中，通过一系列数学方法检测出待识别图像表格中的单元格ROI及相应的坐标位置，将每个单元格中的信息内容切分出来输入到经过训练的OCR识别模型中，自动识别出图像表格中的文本内容，克服单字符识别模型需要对单元格内字符序列进行字符级切割在手写体出现连笔等，字符切割难度大，字符切割算法设计复杂的问题，使用CRNN作为文本序列识别模型，实现端到端的模型训练，可以避开字符切割操作。

3、本发明中，采用CRNN作为文本识别模型，不需要再做切割字符操作，实现端到端模型训练，经过手写体数据二次训练，识别精度在手写文字上较高，解决了图像文字识别领域中一直难以克服的图像表格识别困难的问题，在银行金融行业产生的各类票据、证照(如房产证等)的图像表格文字识别，通过OCR技术识别所拍摄图片中的表格文字信息用于信息录入或信息审核比对可以提高效率降低成本，提升用户体验。

附图说明

图1示出了根据本发明实施例提供的一种基于CRNN的图片表格提取方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，本发明提供一种技术方案：一种基于CRNN的图片表格提取方法，包括以下步骤：

S1、对待检测图片做透视变换，校正图片，有效保持直线不变形，对输入图像有更强的适应性；

图片校正的具体步骤如下：

S13、通过opencv-API的cv2.warpPerspective()计算倾斜校正后的图像；

S2、使用深度神经网络对校正后的图片做表格骨架提取，有效减少人为调参，且具有更强的鲁棒性，减少反光，噪声带来的检测误差；

具体的，深度神经网络为unet网络，unet网络包括encoder-decoder结构和skip-connection结构；

使用一个包含不同形状的表格图片数据集，在表格边框上标注描线，横线为0，竖线为1，基于已有项目的预训练模型，对加上自定义标注数据的表格图片数据集进行二次训练，获得unet模型，通过unet模型生成表格线条分割图，即获得表格骨架；

S3、从表格骨架中获取单元格ROI；

S33、根据横坐标xs和纵坐标ys求得单元格行位置listy和列位置listx，如xs＝{a,b,c,d,e,f},ys＝{A,B,C,D}，则listy＝[A,B,C,D]，listx＝[a,b,c,d,e,f]；

如对于某一张特定的表格描述为listy＝[A,B,C,D],listx＝[a,b,c,d,e,f],x_list[0]＝[a,b,f],x_list[1]＝[a,b,c,d,e,f],x_list[2]＝[a,b,c,d,e,f],x_list[3]＝[a,b,c,d,e,f],

则，首先通过np.array.sum()求和判断a,b之间是否存在横线，如果存在，则取横线中点b1，再通过sum()计算中点b1所在竖线，从而向下判断是否为0，如果不为0则判断为存在对边横线，通过np.where()找到对边及对边的列坐标B，即得到单元格的高度xs3＝B-A,从而得到单元格ROI,即对应于为原图的坐标[A:B,a:b]；

S4、通过OCR识别模型识别所有单元格ROI中的文本内容；

具体的，OCR识别模型包括DB算法模型和CRNN识别模型，CRNN识别模型采用轻量级骨架网络MobileNet或者Resnet34中的一种，CRNN识别模型通过采用百度paddleocr提供的CRNN开源预训练模型进行加入手写体数据二次训练获得，由于CRNN开源预训练模型的训练数据大部分是街景中文、英文、数字和字符等，但手写体识别数据较少，因此结合业务场景，自己人为标注8835张白底黑字的手写数字图片对CRNN开源预训练模型进行训练，提高手写数字的识别准确率；

CRNN识别模型作为文本序列识别模型，不需要对文本进行字符分割，避免大量的人为调参和手写连体分割算法设计困难的问题，CRNN识别模型网络结构清晰，首先由CNN提取图像特征，然后LSTM进一步提取图像卷积特征中的序列特征，最后引入CTCloss解决训练时字符无法对齐的问题，提供了一种end2end的文字识别算法；

RNN从每一个卷积特征生成一个字符序列，RNN有很强的能力捕捉到一个序列的上下文信息，对基于图像的序列识别使用上下文比将单个字符单独对待要更加有效，而且对于一些含糊的字符，观察其上下文信息后也会很好区分，另外，因为RNN也能够后向传播(back-propagates)进行权重更新，从而使得可以将CNN和RNN连接成一个完整的网络，最后，因为RNN可以处理任意长度的序列，前提是需要固定输入图片高度，然后固定CNN在原图上感受野的宽度，可以对任意宽度的图像进行处理；

CTC模型即ConnectionistTemporalClassification，主要用于解决输入数据与给定标签的对齐问题，这也是CRNN能够端到端训练的原因之一，输出不定长的序列结果，CTC的目标本质上是寻找概率最大的文本序列识别结果，引入blank实现字符的对齐和合并操作问题，如下所示；

B(π₁)＝B(--stta-t--e)＝state；

B(π₂)＝B(sst-aaa-tee-)＝state；

B(π₃)＝B(--sttaa-tee-)＝state；

B(π₄)＝B(sst-aa-t---e)＝state；

CTC的训练过程，本质上是通过概率的梯度后向传播调正LSTM的参数，最终使对于一个输入x,输出为label的概率最大。从而实现end2end的模型训练；

训练模型时使用准确率、精准率和召回率和F1分数来评估模型的性能，检测模型评估的F1分数可达到85％以上，在使用ICDAR中文街景数据集中取得了业界较好的水准；

准确率(Accuracy)＝(TP+TN)/(TP+TN+FP+FN)，精确率(Precision)＝TP/(TP+FP)，精准率代表对正样本结果中的预测准确程度。

对于一些负样本的评估，我们使用召回率＝TP/(TP+FN)，召回率越高，代表实际负样本被预测出来的概率越高，需要结合这些负样本去分析，模型对于某些特殊场景是否泛化能够不够，提出一些调优的方式，比如说图像增强等，当检测模型训练完成后，可以通过调用预测脚本对模型进行快速预测，通过指定预测图片或文件夹路径，批量预测，预测结果会返回目标文本的文本框区域和一个置信度，同理，OCR识别模型预测可以获得预测结果和一个概率；

S5、将文本内容通过步骤S2中的表格骨架排版还原到表格，从而将图片表格转换为数据表格，完成图片表格的提取；

图片表格转换为数字表格的具体步骤如下：

本发明中，首先，对待识别图片做一次透视变换，校正图片角度，再使用深度神经网络模型提取整体表格骨架，克服现有技术当单元格边缘被手写字连笔的情况，或者图片中表格存在不清晰，图片光线、倾斜、模糊等问题，克服需要大量人为手动调参而费时费力的问题；

其次，通过一系列数学方法检测出待识别图像表格中的单元格ROI及相应的坐标位置，将每个单元格中的信息内容切分出来输入到经过训练的OCR识别模型中，自动识别出图像表格中的文本内容，克服单字符识别模型需要对单元格内字符序列进行字符级切割在手写体出现连笔等，字符切割难度大，字符切割算法设计复杂的问题，使用CRNN作为文本序列识别模型，实现端到端的模型训练，可以避开字符切割操作；

最后，将文本内容恢复排版，在数字表格中输入正确的文字识别结果。

本发明计算逻辑清晰，识别效率高，适用性强，且本发明表格提取采用unet网络，检测效率高，抗干扰能力强，预测阶段调参少，采用CRNN作为文本识别模型，不需要再做切割字符操作，实现端到端模型训练，经过手写体数据二次训练，识别精度在手写文字上较高，解决了图像文字识别领域中一直难以克服的图像表格识别困难的问题，在银行金融行业产生的各类票据、证照(如房产证等)的图像表格文字识别，通过OCR技术识别所拍摄图片中的表格文字信息用于信息录入或信息审核比对可以提高效率降低成本，提升用户体验。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于CRNN的图片表格提取方法，其特征在于，包括以下步骤：

S1、对待检测图片做透视变换，校正图片；

S2、使用深度神经网络对校正后的图片做表格骨架提取；

S3、从表格骨架中获取单元格ROI；

S4、通过OCR识别模型识别所有单元格ROI中的文本内容；

2.根据权利要求1所述的一种基于CRNN的图片表格提取方法，其特征在于，在步骤S1中，图片校正的具体步骤如下：

S13、通过opencv-API的cv2.warpPerspective()计算倾斜校正后的图像。

3.根据权利要求1所述的一种基于CRNN的图片表格提取方法，其特征在于，所述深度神经网络为unet网络，所述unet网络包括encoder-decoder结构和skip-connection结构。

4.根据权利要求1所述的一种基于CRNN的图片表格提取方法，其特征在于，所述OCR识别模型包括DB算法模型和CRNN识别模型，所述CRNN识别模型采用轻量级骨架网络MobileNet或者Resnet34中的一种。

5.根据权利要求4所述的一种基于CRNN的图片表格提取方法，其特征在于，所述CRNN识别模型通过采用百度paddleocr提供的CRNN开源预训练模型进行加入手写体数据二次训练获得。

6.根据权利要求1所述的一种基于CRNN的图片表格提取方法，其特征在于，在步骤S5中，图片表格转换为数字表格的具体步骤如下：