CN110738203B - 字段结构化输出方法、装置及计算机可读存储介质 - Google Patents
字段结构化输出方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110738203B CN110738203B CN201910850994.9A CN201910850994A CN110738203B CN 110738203 B CN110738203 B CN 110738203B CN 201910850994 A CN201910850994 A CN 201910850994A CN 110738203 B CN110738203 B CN 110738203B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- field
- image data
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013528 artificial neural network Methods 0.000 claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 21
- 230000009467 reduction Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012847 principal component analysis method Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000003711 image thresholding Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 241001584785 Anavitrinella pampinaria Species 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种字段结构化输出方法,包括:获取包含待识别字段的图片组成产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;对所述字段进行正则匹配,完成所述字段的结构化输出。本发明还提出一种字段结构化输出装置以及一种计算机可读存储介质。本发明实现了字段结构化的精准输出。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于正则匹配和位置检测的字段结构化输出方法、装置及计算机可读存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指通过图像处理和模式识别技术对图片中的光学字符进行识别,并将光学字符翻译成计算机文字的过程,其主要过程为输入图像并进行预处理、二值化处理、去噪、字符切割和字符识别。图像识别OCR,广泛应用于各种证件、卡类甚至发票和单据,快速把图片内容转化为文字;主要用于解决快速卡证的信息输入,以及卡证的接口调用查询。目前通过图像识别OCR对场景文本位置检测和内容识别,在数据质量较好的情况下可以达到较高精度,但是输出的文本框位置和对应的内容具有一定程度的不确定性,并且识别的文本位置和内容识别的准确性不能得到保证。
发明内容
本发明提供一种字段结构化输出方法、装置及计算机可读存储介质,其主要目的在于当用户进行字段结构化输出时,给用户呈现出精准的输出结果。
为实现上述目的,本发明提供的一种字段结构化输出方法,包括:
获取基于识别图像字段的图片组合产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;
利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;
对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;
利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;
对所述字段进行正则匹配,完成所述字段的结构化输出。
可选地,所述对所述图像数据集进行预处理操作,得到目标图像数据集包括:
通过各比例法将所述图像数据集中的图像转换为灰度图像,通过高斯滤波对所述灰度图像进行降噪;
对降噪后的所述灰度图像进行对比度增强,根据OTSU算法将对比度增强后的所述灰度图像进行阈值化操作,得到二值化图像;
利用主成分分析法对所述二值化图像进行降维,得到目标图像数据,产生所述目标图像数据集。
可选地,所述对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,包括:
在所述图像特征谱集的图像文本区域生成一个几何图,并对所述几何图按照预设的比例进行缩放;
将缩放后的所述几何图作为训练集,通过预先构建的卷积神经网对所述训练集进行训练并得到所述几何图的损失;
利用类平衡交叉熵计算缩放后的所述几何图中的文本信息图损失;
将所述得到缩放后的所述几何图和文本信息图的损失输入至预设的损失函数中计算损失函数值,当所述损失函数值小于预设的阈值时,确定所述几何图的形状以及所述几何图中的文本信息,从而得到所述图像特征谱集中文本的位置信息。
可选地,所述利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框的字段,包括:
通过所述文字识别神经网络的卷积层对所述文本框进行卷积操作,得到所述文本框的特征映射;
利用所述文字识别神经网络的Bi-LSTM层将所述特征映射转化为特征向量,并将所述特征向量输入至所述文字识别神经网络的全连接层中;
通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本进行预测,完成所述文本框的文字识别,得到所述文本框的字段。
可选地,所述正则匹配包含正则表达式和自动机;及所述对所述字段进行正则匹配,完成所述字段的结构化输出,包括:
根据所述正则表达式对所述字段赋予规则字符串,并将赋予规则字符串后的所述字段中字符输入至所述自动机中;
记录所述自动机接收所述字段中字段时的活动状态;
根据所述活动状态,完成所述字段中字符的匹配,从而完成所述字段的结构化输出。
此外,为实现上述目的,本发明还提供一种字段结构化输出装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的字段结构化输出程序,所述字段结构化输出程序被所述处理器执行时实现如下步骤:
获取基于识别图像字段的图片组合产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;
利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;
对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;
利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;
对所述字段进行正则匹配,完成所述字段的结构化输出。
可选地,所述对所述图像数据集进行预处理操作,得到目标图像数据集包括:
通过各比例法将所述图像数据集中的图像转换为灰度图像,通过高斯滤波对所述灰度图像进行降噪;
对降噪后的所述灰度图像进行对比度增强,根据OTSU算法将对比度增强后的所述灰度图像进行阈值化操作,得到二值化图像;
利用主成分分析法对所述二值化图像进行降维,得到目标图像数据,产生所述目标图像数据集。
可选地,所述对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,包括:
在所述图像特征谱集的图像文本区域生成一个几何图,并对所述几何图按照预设的比例进行缩放;
将缩放后的所述几何图作为训练集,通过预先构建的卷积神经网对所述训练集进行训练并得到所述几何图的损失;
利用类平衡交叉熵计算缩放后的所述几何图中的文本信息图损失;
将所述得到缩放后的所述几何图和文本信息图的损失输入至预设的损失函数中计算损失函数值,当所述损失函数值小于预设的阈值时,确定所述几何图的形状以及所述几何图中的文本信息,从而得到所述图像特征谱集中文本的位置信息。
可选地,所述利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框的字段,包括:
通过所述文字识别神经网络的卷积层对所述文本框进行卷积操作,得到所述文本框的特征映射;
利用所述文字识别神经网络的Bi-LSTM层将所述特征映射转化为特征向量,并将所述特征向量输入至所述文字识别神经网络的全连接层中;
通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本进行预测,完成所述文本框的文字识别,得到所述文本框的字段。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有字段结构化输出程序,所述字段结构化输出程序可被一个或者多个处理器执行,以实现如上所述的字段结构化输出方法的步骤。
本发明提出的字段结构化输出方法、装置及计算机可读存储介质,在用户进行图像字段结构化输出时,对获取的图像进行处理分析,得到所述图像中的文本信息位置,确定对应文本框,进行字段识别,并对所述识别后的字段进行正则匹配,实现所述图像的字段结构化输出,从而可以给用户呈现出精准的输出结果。
附图说明
图1为本发明一实施例提供的字段结构化输出方法的流程示意图;
图2为本发明一实施例提供的字段结构化输出装置的内部结构示意图;
图3为本发明一实施例提供的字段结构化输出装置中字段结构化输出程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种字段结构化输出方法。参照图1所示,为本发明一实施例提供的字段结构化输出方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,字段结构化输出方法包括:
S1、获取包含待识别字段的图片组合产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集。
本发明较佳实施例中,所述图像数据集为需要识别图像字段的图片组合产生的图像数据集,例如,证件图片,发票图片等等。其中,所述图像数据集可以从各大图像库中下载得到,所述图像库可以为证件图像库,发票图像库等。
本发明较佳实施例中,所述预处理操作包括:通过各比例法将所述图像数据集中的图像转换为灰度图像,通过高斯滤波对所述灰度图像进行降噪;利用对比度拉伸方式对降噪后的所述灰度图像进行对比度增强,根据OTSU算法将对比度增强后的所述灰度图像进行阈值化操作,得到二值化图像;利用主成分分析法对所述二值化图像进行降维,得到目标图像数据,从而产生目标图像数据集。其中,所述主成分分析法是一种通过正交变换将一组可能存在相关性的变量为一组线性不相关变量的方法。
优选地,为保证预处理后的图像具有高效性高识别性,本发明进一步对所述图像数据集中的图像进行旋转倾斜,即resize,使所述图像数据集中的图像处在一个正的位置。
本发明较佳实施例中,所述图像灰度化处理、降噪、对比度增强以及图像阈值化操作具体实施步骤如下所示:
a.图像灰度化处理:
所述图像灰度化处理是将彩色图像转换为灰度图像。所述灰度图像的亮度信息完全能够表达图像的整体和局部的特征,并且对图像进行灰度化处理之后可以大大降低后续工作的计算量。
本发明较佳实施例通过各比例法对所述图像数据集中的图像进行灰度化处理。详细地,所述各比例法为:将所述图像数据集中的图像中像素点的R、G、B分量转换为YUV的颜色空间的Y分量,即亮度值,其中,所述Y分量的计算方法如下式所示:
Y=0.3R+0.59G+0.11B
其中,R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。
b.降噪:
所述高斯滤波是一种线性平滑滤波,适用于消除高斯噪声。本发明通过所述高斯滤波对所述灰度图像集中的图像进行减噪。其中,所述高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值,其N维空间正态分布方程为:
其中σ是正态分布的标准差,σ值越大,图像越模糊(平滑)。r为模糊半径,模糊半径是指模板元素到模板中心的距离。
c.对比度增强:
所述对比度指的是成像系统中亮度最大值与最小值之间的对比,其中,对比度低会使图像处理难度增大。本发明较佳实施例中采用的是对比度拉伸方法,利用提高灰度级动态范围的方式,达到图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸,是目前常用的灰度变换方式。
进一步地,本发明根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸,进一步提高输出图像的对比度。当进行对比度拉伸时,本质上是实现灰度值变换。本发明通过线性拉伸实现灰度值变换,所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算,灰度变换公式如下所示:
Db=f(Da)=a*Da+b
其中a为线性斜率,b为在Y轴上的截距。当a>1时,此时输出的图像对比度相比原图像是增强的。当a<1时,此时输出的图像对比度相比原图像是削弱的,其中Da代表输入图像灰度值,Db代表输出图像灰度值。
d.图像阈值化操作:
所述图像阈值化处理通过OTSU算法将对比度增强后的所述灰度图像进行二值化的高效算法,以得到二值化图像。本发明较佳实施例预设灰度t为灰度图像的前景与背景的分割阈值,并假设前景点数占图像比例为w0,平均灰度为u0;背景点数占图像比例为w1,平均灰度为u1,则灰度图像的总平均灰度为:
u=w0*u0+w1*u1,
灰度图像的前景和背景图象的方差为:
g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1),
其中,当方差g最大时,则此时前景和背景差异最大,此时的灰度t为最佳阈值,并将对比度增强后的所述灰度图像中大于所述灰度t的灰度值设置为255,小于所述灰度t的灰度值设置为0,得到对比度增强后的所述灰度图像的二值化图像。
S2、利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集。
本发明较佳实施例中,所述利用残差块神经网络对目标图像数据集进行特征提取具体实施步骤为:预设所述目标图像数据集中的图像尺寸为m*n*p(长*宽*通道数),将所述图像输入至所述残差块神经网络中;通过所述残差块神经网络的1*1卷积缩小通道,其尺寸变为m*n*p’;对其p’个通道进行步长为2的逐通道卷积,得到尺寸为p’*p’*p’的特征图谱;利用1*1卷积串联逐通道进行卷积,并恢复通道尺寸p’*p’*k,得到图像特征图谱,从而产生图像特征图谱集。其中,本发明实施例中预设m和n的值为64,p值为128,p’值为32,k值为20最终提取尺寸为32*32*20的图像特征图谱。
S3、对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框。
本发明较佳实施例中,所述文本检测步骤为:在所述图像特征谱集的图像文本区域生成一个几何图,并对所述几何图按照预设的比例进行缩放,将缩放后的所述几何图作为训练集,通过预先构建的卷积神经网络对所述训练集进行训练并得到所述几何图的损失Lg;利用类平衡交叉熵计算缩放后的所述几何图中的文本信息图损失Ls。其中,所述类平衡交叉熵计算公式为:
其中,Y*表示缩放后的所述几何图,为对几何图形状的预测,参数β是正和负样本之间的平衡因子。
进一步地,本发明将缩放后的所述几何图和文本信息图的损失输入至预设的损失函数中计算损失函数值。当所述损失函数值小于预设的阈值时,确定所述几何图的形状以及所述几何图中的文本信息,从而得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框。
优选地,所述预设的阈值为0.01。其中,所述损失函数为:
L=Ls+λgLg
其中,L表示损失函数值,Ls和Lg分别表示文本信息图和几何图的损失,λg表示两个损失之间的重要等级值。
进一步,所述通过预先构建的卷积神经网对所述训练集进行预测包括:将所述训练集输入到预先构建的卷积神经网络的输入层中,通过所述卷积神经网络的隐藏层对所述训练集进行特征合并,得到特征图,并通过所述卷积神经网络的输出层对所述特征图进行边框回归,输出所述几何图的损失。其中,所述隐藏层包含卷积层和池化层。
S4、利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框的字段。
本发明较佳实施例中,所述文字识别神经网络(Connectionist Text ProposalNetwork,CTPN)包含卷积层、Bi-LSTM层、全连接层。
本发明所述文字识别具体实施步骤包括:通过所述卷积层对所述文本框进行卷积操作,得到所述文本框的特征映射;利用所述Bi-LSTM层将所述特征映射转化为特征向量,并将所述特征向量输入至所述文字识别神经网络的全连接层中;通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本分数进行预测,完成所述文本框的文字识别,得到所述文本框中的字段。其中,本发明通过对所述特征向量引入anchor的机制,即对每一个特征向量的点用k个anchor进行预测,所述anchor是一个盒子,其高度逐渐递减。优选地,本发明实施例采用全连接层的三个分支分别对所述特征向量的横坐标、纵坐标以及文本进行预测。
进一步地,所述通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本分数进行预测的步骤包括:所述全连接层的第一个分支对k个auchor的纵坐标进行预测,每一个anchor的纵坐标有两个,分别是auchor的y坐标中心和高度,因此,总共的维度是2k;所述全连接层的第二个分支对k个anchor的文本进行预测,即该auchor是否包含文本的概率,每个盒子对应一个二分类,因此,总共是2k个维度,本发明中,当文本的概率>0.7时,认为该auchor包含文本;所述全连接层的第三个分支是对k个anchor的横坐标进行预测,可以是每个anchor的左侧或右侧的横坐标,因此,k个auchor对应的维度就是k。其中,所述横坐标的具体表示如下:
其中,xside是预测出来的距离anchor水平坐标(左或右坐标)最近的坐标,是anchor的x坐标中心,ωα是anchor的宽度。于是,通过所述全连接层的三个分支对上述得到的文本框中的文字进行识别,得到所述文本框的字段。
S5、对所述字段进行正则匹配,完成所述字段的结构化输出。
本发明较佳实施例中,所述正则匹配包含:正则表达式、自动机。所述正则表达式是对字符串进行描述和通配操作的一种逻辑公式,所述正则表达式实现过程为:按照约定好的特殊意义赋予某些特定字符或所述特定字符的组合,及通过事先定义好的语义规则来组成一个“规则字符串”,所述“规则字符串”用于表达对字符串的一种过滤逻辑。所述自动机指的是计算机控制系统的控制程序具有有限状态自动机(FA)的特征,可以用有限状态机理论来描述。优选地,本发明采用的是NFA自动机。
进一步地,本发明较佳实施例中,根据所述自动机的定义,所述NFA自动机可以表示成{Q,∑,δ,I,F}。若Q中包含m个状态,则该状态集合可以表示成{q0,q1,…qm}。其中,Q中所有的状态对应于一个计算机的机器字,是第i个状态与第i位相对应。I是唯一的并且是q0,则可以表表示为0m-11。F则是将所有的结束状态进行或运算得到的结果,则δ需要两个表Bn和En。其中Bn记录了在不考虑空转移的情况下,从自动机中所有状态通过字符集中的字符所到达的状态,则/>表En则记录了自动机中任何以状态的空闭包,则/>
进一步地,本发明实施例中,所述正则匹配操作步骤为:根据所述正则表达式对所述字段赋予规则字符串,并将赋予规则字符串后的所述字段中字符输入至所述自动机中;记录所述自动机接收所述字段中字段时的活动状态;根据所述活动状态,完成所述字段中字符的匹配,从而完成所述字段的结构化输出。例如,对于字段T=TATGGAC,所述NFA自动机的初始活动状态为0,所述NFA自动机的活动状态接收所述字段中字符T后活动状态依然为0状态;当自动机接收所述字段中字符A时,其活动状态由状态0转换成状态1,采用同样的方法对读入的每个字符进行相应的状态转移计算;当读入所述字段T中的最后一个字符C时,到达所述NFA自动机的结束状态,则说明匹配成功,并记录匹配成功的字符在文本中的最后一个位置,从而完成所述字段T的结构化输出。
发明还提供一种字段结构化输出装置。参照图2所示,为本发明一实施例提供的字段结构化输出装置的内部结构示意图。
在本实施例中,所述字段结构化输出装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该字段结构化输出装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是字段结构化输出装置1的内部存储单元,例如该字段结构化输出装置1的硬盘。存储器11在另一些实施例中也可以是字段结构化输出装置1的外部存储设备,例如字段结构化输出装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括字段结构化输出装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于字段结构化输出装置1的应用软件及各类数据,例如字段结构化输出程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行字段结构化输出程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在字段结构化输出装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及字段结构化输出程序01的字段结构化输出装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对字段结构化输出装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有字段结构化输出程序01;处理器12执行存储器11中存储的字段结构化输出程序01时实现如下步骤:
步骤一、获取包含待识别字段的图片组合产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集。
本发明较佳实施例中,所述图像数据集为需要识别图像字段的图片组合产生的图像数据集,例如,证件图片,发票图片等等。其中,所述图像数据集可以通过关键字搜索,从各大图像库中下载得到,所述图像库可以为证件图像库,发票图像库等。
本发明较佳实施例中,所述预处理操作包括:通过各比例法将所述图像数据集中的图像转换为灰度图像,通过高斯滤波对所述灰度图像进行降噪;利用对比度拉伸方式对降噪后的所述灰度图像进行对比度增强,根据OTSU算法将对比度增强后的所述灰度图像进行阈值化操作,得到二值化图像;利用主成分分析法对所述二值化图像进行降维,得到目标图像数据,从而产生目标图像数据集。其中,所述主成分分析法是一种通过正交变换将一组可能存在相关性的变量为一组线性不相关变量的方法。
优选地,为保证预处理后的图像具有高效性高识别性,本发明进一步对所述图像数据集中的图像进行旋转倾斜,即resize,使所述图像数据集中的图像处在一个正的位置。
本发明较佳实施例中,所述图像灰度化处理、降噪、对比度增强以及图像阈值化操作具体实施步骤如下所示:
a.图像灰度化处理:
所述图像灰度化处理是将彩色图像转换为灰度图像。所述灰度图像的亮度信息完全能够表达图像的整体和局部的特征,并且对图像进行灰度化处理之后可以大大降低后续工作的计算量。
本发明较佳实施例通过各比例法对所述图像数据集中的图像进行灰度化处理。详细地,所述各比例法为:将所述图像数据集中的图像中像素点的R、G、B分量转换为YUV的颜色空间的Y分量,即亮度值,其中,所述Y分量的计算方法如下式所示:
Y=0.3R+0.59G+0.11B
其中,R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。
b.降噪:
所述高斯滤波是一种线性平滑滤波,适用于消除高斯噪声。本发明通过所述高斯滤波对所述灰度图像集中的图像进行减噪。其中,所述高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值,其N维空间正态分布方程为:
其中σ是正态分布的标准差,σ值越大,图像越模糊(平滑)。r为模糊半径,模糊半径是指模板元素到模板中心的距离。
c.对比度增强:
所述对比度指的是成像系统中亮度最大值与最小值之间的对比,其中,对比度低会使图像处理难度增大。本发明较佳实施例中采用的是对比度拉伸方法,利用提高灰度级动态范围的方式,达到图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸,是目前常用的灰度变换方式。
进一步地,本发明根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸,进一步提高输出图像的对比度。当进行对比度拉伸时,本质上是实现灰度值变换。本发明通过线性拉伸实现灰度值变换,所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算,灰度变换公式如下所示:
Db=f(Da)=a*Da+b
其中a为线性斜率,b为在Y轴上的截距。当a>1时,此时输出的图像对比度相比原图像是增强的。当a<1时,此时输出的图像对比度相比原图像是削弱的,其中Da代表输入图像灰度值,Db代表输出图像灰度值。
d.图像阈值化操作:
所述图像阈值化处理通过OTSU算法将对比度增强后的所述灰度图像进行二值化的高效算法,以得到二值化图像。本发明较佳实施例预设灰度t为灰度图像的前景与背景的分割阈值,并假设前景点数占图像比例为w0,平均灰度为u0;背景点数占图像比例为w1,平均灰度为u1,则灰度图像的总平均灰度为:
u=w0*u0+w1*u1,
灰度图像的前景和背景图象的方差为:
g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1),
其中,当方差g最大时,则此时前景和背景差异最大,此时的灰度t为最佳阈值,并将对比度增强后的所述灰度图像中大于所述灰度t的灰度值设置为255,小于所述灰度t的灰度值设置为0,得到对比度增强后的所述灰度图像的二值化图像。
步骤二、利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集。
本发明较佳实施例中,所述利用残差块神经网络对目标图像数据集进行特征提取具体实施步骤为:预设所述目标图像数据集中的图像尺寸为m*n*p(长*宽*通道数),将所述图像输入至所述残差块神经网络中;通过所述残差块神经网络的1*1卷积缩小通道,其尺寸变为m*n*p’;对其p’个通道进行步长为2的逐通道卷积,得到尺寸为p’*p’*p’的特征图谱;利用1*1卷积串联逐通道进行卷积,并恢复通道尺寸p’*p’*k,得到图像特征图谱,从而产生图像特征图谱集。其中,本发明实施例中预设m和n的值为64,p值为128,p’值为32,k值为20最终提取尺寸为32*32*20的图像特征图谱。
步骤三、对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框。
本发明较佳实施例中,所述文本检测步骤为:在所述图像特征谱集的图像文本区域生成一个几何图,并对所述几何图按照预设的比例进行缩放,将缩放后的所述几何图作为训练集,通过预先构建的卷积神经网络对所述训练集进行训练并得到所述几何图的损失Lg;利用类平衡交叉熵计算缩放后的所述几何图中的文本信息图损失Ls。其中,所述类平衡交叉熵计算公式为:
其中,Y*表示缩放后的所述几何图,为对几何图形状的预测,参数β是正和负样本之间的平衡因子。
进一步地,本发明将缩放后的所述几何图和文本信息图的损失输入至预设的损失函数中计算损失函数值。当所述损失函数值小于预设的阈值时,确定所述几何图的形状以及所述几何图中的文本信息,从而得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框。
优选地,所述预设的阈值为0.01。其中,所述损失函数为:
L=Ls+λgLg
其中,L表示损失函数值,Ls和Lg分别表示文本信息图和几何图的损失,λg表示两个损失之间的重要等级值。
进一步,所述通过预先构建的卷积神经网对所述训练集进行预测包括:将所述训练集输入到预先构建的卷积神经网络的输入层中,通过所述卷积神经网络的隐藏层对所述训练集进行特征合并,得到特征图,并通过所述卷积神经网络的输出层对所述特征图进行边框回归,输出所述几何图的损失。其中,所述隐藏层包含卷积层和池化层。
步骤四、利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框的字段。
本发明较佳实施例中,所述文字识别神经网络(Connectionist Text ProposalNetwork,CTPN)包含卷积层、Bi-LSTM层、全连接层。
本发明所述文字识别具体实施步骤包括:通过所述卷积层对所述文本框进行卷积操作,得到所述文本框的特征映射;利用所述Bi-LSTM层将所述特征映射转化为特征向量,并将所述特征向量输入至所述文字识别神经网络的全连接层中;通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本分数进行预测,完成所述文本框的文字识别,得到所述文本框中的字段。其中,本发明通过对所述特征向量引入anchor的机制,即对每一个特征向量的点用k个anchor进行预测,所述anchor是一个盒子,其高度逐渐递减。优选地,本发明实施例采用全连接层的三个分支分别对所述特征向量的横坐标、纵坐标以及文本进行预测。
进一步地,所述通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本分数进行预测的步骤包括:所述全连接层的第一个分支对k个auchor的纵坐标进行预测,每一个anchor的纵坐标有两个,分别是auchor的y坐标中心和高度,因此,总共的维度是2k;所述全连接层的第二个分支对k个anchor的文本进行预测,即该auchor是否包含文本的概率,每个盒子对应一个二分类,因此,总共是2k个维度,本发明中,当文本的概率>0.7时,认为该auchor包含文本;所述全连接层的第三个分支是对k个anchor的横坐标进行预测,可以是每个anchor的左侧或右侧的横坐标,因此,k个auchor对应的维度就是k。其中,所述横坐标的具体表示如下:
其中,xside是预测出来的距离anchor水平坐标(左或右坐标)最近的坐标,是anchor的x坐标中心,ωα是anchor的宽度。于是,通过所述全连接层的三个分支对上述得到的文本框中的文字进行识别,得到所述文本框的字段。
步骤五、对所述字段进行正则匹配,完成所述字段的结构化输出
本发明较佳实施例中,所述正则匹配包含:正则表达式、自动机。所述正则表达式是对字符串进行描述和通配操作的一种逻辑公式,所述正则表达式实现过程为:按照约定好的特殊意义赋予某些特定字符或所述特定字符的组合,及通过事先定义好的语义规则来组成一个“规则字符串”,所述“规则字符串”用于表达对字符串的一种过滤逻辑。所述自动机指的是计算机控制系统的控制程序具有有限状态自动机(FA)的特征,可以用有限状态机理论来描述。优选地,本发明采用的是NFA自动机
进一步地,本发明较佳实施例中,根据所述自动机的定义,所述NFA自动机可以表示成{Q,∑,δ,I,F}。若Q中包含m个状态,则该状态集合可以表示成{q0,q1,...qm}。其中,Q中所有的状态对应于一个计算机的机器字,是第i个状态与第i位相对应。I是唯一的并且是q0,则可以表表示为0m-11。F则是将所有的结束状态进行或运算得到的结果,则δ需要两个表Bn和En。其中Bn记录了在不考虑空转移的情况下,从自动机中所有状态通过字符集中的字符所到达的状态,则/>表En则记录了自动机中任何以状态的空闭包,则/>
进一步地,本发明实施例中,所述正则匹配操作步骤为:根据所述正则表达式对所述字段赋予规则字符串,并将赋予规则字符串后的所述字段中字符输入至所述自动机中;记录所述自动机接收所述字段中字段时的活动状态;根据所述活动状态,完成所述字段中字符的匹配,从而完成所述字段的结构化输出。例如,对于字段T=TATGGAC,所述NFA自动机的初始活动状态为0,所述NFA自动机的活动状态接收所述字段中字符T后活动状态依然为0状态;当自动机接收所述字段中字符A时,其活动状态由状态0转换成状态1,采用同样的方法对读入的每个字符进行相应的状态转移计算;当读入所述字段T中的最后一个字符C时,到达所述NFA自动机的结束状态,则说明匹配成功,并记录匹配成功的字符在文本中的最后一个位置,从而完成所述字段T的结构化输出。
可选地,在其他实施例中,字段结构化输出程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述字段结构化输出程序在字段结构化输出装置中的执行过程。
例如,参照图3所示,为本发明字段结构化输出装置一实施例中的字段结构化输出程序的程序模块示意图,该实施例中,所述字段结构化输出程序可以被分割为图像预处理模块10、文本检测模块20、文字识别模块30以及匹配模块40,示例性地:
所述图像预处理模块10用于:获取基于识别图像字段的图片组合产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集,利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集。
所述文本检测模块20用于:利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集。
所述文字识别模块30用于:利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段。
所述匹配模块40用于:对所述字段进行正则匹配,完成所述字段的结构化输出。
上述图像预处理模块10、文本检测模块20、文字识别模块30以及匹配模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有字段结构化输出程序,所述字段结构化输出程序可被一个或多个处理器执行,以实现如下操作:
获取基于识别图像字段的图片组合产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;
利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;
对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;
利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;
对所述字段进行正则匹配,完成所述字段的结构化输出。
本发明计算机可读存储介质具体实施方式与上述字段结构化输出装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种字段结构化输出方法,其特征在于,所述方法包括:
获取包含待识别字段的图片组成的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;
利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;
对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;
利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;
对所述字段进行正则匹配,完成所述字段的结构化输出;
所述对所述图像数据集进行预处理操作,得到目标图像数据集,包括:通过各比例法将所述图像数据集中的图像转换为灰度图像,通过高斯滤波对所述灰度图像进行降噪;对降噪后的所述灰度图像进行对比度增强,根据OTSU算法将对比度增强后的所述灰度图像进行阈值化操作,得到二值化图像;利用主成分分析法对所述二值化图像进行降维,得到目标图像数据,产生所述目标图像数据集;
所述对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,包括:在所述图像特征谱集的图像文本区域生成一个几何图,并对所述几何图按照预设的比例进行缩放;将缩放后的所述几何图作为训练集,通过预先构建的卷积神经网对所述训练集进行训练并得到所述几何图的损失;利用类平衡交叉熵计算缩放后的所述几何图中的文本信息图损失;将缩放后的所述几何图和文本信息图的损失输入至预设的损失函数中计算损失函数值,当所述损失函数值小于预设的阈值时,确定所述几何图的形状以及所述几何图中的文本信息,从而得到所述图像特征谱集中文本的位置信息;
所述正则匹配包含正则表达式和自动机;及所述对所述字段进行正则匹配,完成所述字段的结构化输出,包括:根据所述正则表达式对所述字段赋予规则字符串,并将赋予规则字符串后的所述字段中字符输入至所述自动机中;记录所述自动机接收所述字段中字段时的活动状态;
根据所述活动状态,完成所述字段中字符的匹配,完成所述字段的结构化输出。
2.如权利要求1所述的字段结构化输出方法,其特征在于,所述利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段,包括:
通过所述文字识别神经网络的卷积层对所述文本框进行卷积操作,得到所述文本框的特征映射;
利用所述文字识别神经网络的Bi-LSTM层将所述特征映射转化为特征向量,并将所述特征向量输入至所述文字识别神经网络的全连接层中;
通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本进行预测,完成所述文本框的文字识别,得到所述文本框的字段。
3.一种字段结构化输出装置,用于实现如权利要求1所述的字段结构化输出方法,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的字段结构化输出程序,所述字段结构化输出程序被所述处理器执行时实现如下步骤:
获取基于识别图像字段的图片组合产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;
利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;
对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;
利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;
对所述字段进行正则匹配,完成所述字段的结构化输出。
4.如权利要求3所述的字段结构化输出装置,其特征在于,所述利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段,包括:
通过所述文字识别神经网络的卷积层对所述文本框进行卷积操作,得到所述文本框的特征映射;
利用所述文字识别神经网络的Bi-LSTM层将所述特征映射转化为特征向量,并将所述特征向量输入至所述文字识别神经网络的全连接层中;
通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本进行预测,完成所述文本框的文字识别,得到所述文本框的字段。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有字段结构化输出程序,所述字段结构化输出程序可被一个或者多个处理器执行,以实现如权利要求1至2中任一项所述的字段结构化输出方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910850994.9A CN110738203B (zh) | 2019-09-06 | 2019-09-06 | 字段结构化输出方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910850994.9A CN110738203B (zh) | 2019-09-06 | 2019-09-06 | 字段结构化输出方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738203A CN110738203A (zh) | 2020-01-31 |
CN110738203B true CN110738203B (zh) | 2024-04-05 |
Family
ID=69267859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910850994.9A Active CN110738203B (zh) | 2019-09-06 | 2019-09-06 | 字段结构化输出方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738203B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414916B (zh) * | 2020-02-29 | 2024-05-31 | 中国平安财产保险股份有限公司 | 图像中文本内容提取生成方法、装置及可读存储介质 |
CN111428725A (zh) * | 2020-04-13 | 2020-07-17 | 北京令才科技有限公司 | 数据结构化处理方法、装置和电子设备 |
CN111695441B (zh) * | 2020-05-20 | 2024-05-10 | 平安科技(深圳)有限公司 | 图像文档处理方法、装置及计算机可读存储介质 |
CN112016438B (zh) * | 2020-08-26 | 2021-08-10 | 北京嘀嘀无限科技发展有限公司 | 一种基于图神经网络识别证件的方法及系统 |
CN112364857B (zh) * | 2020-10-23 | 2024-04-26 | 中国平安人寿保险股份有限公司 | 基于数值抽取的图像识别方法、装置及存储介质 |
CN112597773B (zh) * | 2020-12-08 | 2022-12-13 | 上海深杳智能科技有限公司 | 文档结构化方法、系统、终端及介质 |
CN112364837A (zh) * | 2020-12-09 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种基于目标检测和文本识别的票据信息识别方法 |
CN112733639B (zh) * | 2020-12-28 | 2023-01-06 | 贝壳技术有限公司 | 文本信息结构化提取方法及装置 |
CN113849552B (zh) * | 2021-09-27 | 2024-05-31 | 中国平安财产保险股份有限公司 | 结构化数据转换方法、装置、电子设备及介质 |
CN113947678A (zh) * | 2021-10-08 | 2022-01-18 | 浪潮云信息技术股份公司 | 一种适用于文本图像的图像对齐方法 |
CN118711206A (zh) * | 2024-06-19 | 2024-09-27 | 雅昌文化(集团)有限公司 | 线上拍卖预展的艺术品自动化数据采集方法及系统 |
CN119338614B (zh) * | 2024-12-18 | 2025-03-28 | 广东百望云科技有限公司 | 一种电子税务发票的智能填充与校验方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
US10032072B1 (en) * | 2016-06-21 | 2018-07-24 | A9.Com, Inc. | Text recognition and localization with deep learning |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108846379A (zh) * | 2018-07-03 | 2018-11-20 | 南京览笛信息科技有限公司 | 面单识别方法、系统、终端设备及存储介质 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599900B (zh) * | 2015-10-20 | 2020-04-21 | 华中科技大学 | 一种识别图像中的字符串的方法和装置 |
US10628668B2 (en) * | 2017-08-09 | 2020-04-21 | Open Text Sa Ulc | Systems and methods for generating and using semantic images in deep learning for classification and data extraction |
-
2019
- 2019-09-06 CN CN201910850994.9A patent/CN110738203B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10032072B1 (en) * | 2016-06-21 | 2018-07-24 | A9.Com, Inc. | Text recognition and localization with deep learning |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108846379A (zh) * | 2018-07-03 | 2018-11-20 | 南京览笛信息科技有限公司 | 面单识别方法、系统、终端设备及存储介质 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络的航班跟踪视频关键信息识别;宁煜西;周铭;李广强;王宁;;空军预警学院学报(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110738203A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738203B (zh) | 字段结构化输出方法、装置及计算机可读存储介质 | |
CN112016543B (zh) | 一种文本识别网络、神经网络训练的方法以及相关设备 | |
CN110853047B (zh) | 智能图像分割及分类方法、装置及计算机可读存储介质 | |
CN110516544B (zh) | 基于深度学习的人脸识别方法、装置及计算机可读存储介质 | |
JP3345350B2 (ja) | 文書画像認識装置、その方法、及び記録媒体 | |
CN110717497B (zh) | 图像相似度匹配方法、装置及计算机可读存储介质 | |
CN112541494B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN109117846B (zh) | 一种图像处理方法、装置、电子设备和计算机可读介质 | |
CN110245621B (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
CN107977658B (zh) | 图像文字区域的识别方法、电视机和可读存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN113792659B (zh) | 文档识别方法、装置及电子设备 | |
CN110633733B (zh) | 图像智能匹配方法、装置及计算机可读存储介质 | |
CN114724133A (zh) | 文字检测和模型训练方法、装置、设备及存储介质 | |
CN110929561B (zh) | 表格文本智能过滤方法、装置及计算机可读存储介质 | |
CN110795995B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN110705547B (zh) | 图像内文字识别方法、装置及计算机可读存储介质 | |
Aydın | Classification of documents extracted from images with optical character recognition methods | |
CN112651399B (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN113920527A (zh) | 一种文本识别方法、装置、计算机设备及存储介质 | |
Krupiński et al. | Binarization of degraded document images with generalized Gaussian distribution | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
CN115294557A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN110705546B (zh) | 文本图像角度纠偏方法、装置及计算机可读存储介质 | |
CN110717516B (zh) | 票据图像分类方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |