CN106682667A - 非常见字体的图像文字ocr识别系统 - Google Patents
非常见字体的图像文字ocr识别系统 Download PDFInfo
- Publication number
- CN106682667A CN106682667A CN201611250736.XA CN201611250736A CN106682667A CN 106682667 A CN106682667 A CN 106682667A CN 201611250736 A CN201611250736 A CN 201611250736A CN 106682667 A CN106682667 A CN 106682667A
- Authority
- CN
- China
- Prior art keywords
- pictures
- sub
- character
- image
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及图像识别处理领域,特别涉及非常见字体的图像文字OCR识别系统;特征图片生成模块,图像文字切分模块,存储模块和图像文字识别模块;特征图片生成模块,根据用户选择的待识别图像文字的字体,制作出对应的字符特征图片,并将制作成的特征图片存储于存储模块中;图像文字切分模块将待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片存储模块中;所述图像识别模块,提取存储模块中的子图片,计算子图片与特征图片的符合程度,进而实现子图片字符内容的识别,并将识别结果输入。在使用时用户仅需将待识别图像输入系统中,并根据待识别图像选择对应字体,就可以得出识别后的可编辑,可操作的图像文字识别结果。
Description
技术领域
本发明图像识别领域,特别涉及非常见字体的图像文字OCR识别系统。
背景技术
随着社会的发展和科技的进步,人类创造的知识正以指数级的数量增加,在电子书籍出现之前,大部分的知识是以图书的方式进行传承,中华上下五千年,产生了大量优秀书籍,这些书籍在历史的长河中,或多或少都遭到了不同程度的损坏,因此对这些书籍进行数字化存储迫在眉睫;在图书管理领域,书籍内容的快速搜索对于快速定位书籍很有帮助,而由于书籍数量太多,加上早期印刷的图书没有作者的电子文稿,因此纸质书籍的电子化很有必要。
光学字符识别软件就是处理这种纸质图书到电子文档转化的利器,其主要利用大量的字符样本,经过复杂网络的学习,生成相应的模型文件,从而达到识别图片中字符的目的。
光学字符识别软件主要功能是识别拍摄、扫描图片中的字符,现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影法找到两个文字之间的分界线,根据分界线将文字切分开来。然而当图像中的文字之间具有粘连,且图像中包含左右结构的汉字时,简单的投影方法就很难实现较好的切分效果;正是因为这个原因使得切分一直是OCR识别的难点,切分的质量将直接影响到文字的识别效果。
此外光学字符识别软件主要功能是识别拍摄、扫描图片中的字符,对于一些特殊字体的扫描件,公章,拍照,比如早期印刷的书籍,政府单位制作的证件等,由于历史原因以及保密与安全需要,其字体往往是特制的,现有的光学字符识别软件主要集中于机器学习的方法,模型运算量大,而且由于训练字体样本没有覆盖到特殊字体,导致特殊字体的识别准确率不高,严重影响纸质文档的电子化。
现有技术大多采用神经网络机器学习算法对字符进行识别,需要制作大量的样本,耗费大量的时间进行训练,且生成的模型文件非常庞大,且对于不同字体的字符,识别率不尽相同,对于某些特殊字体字符,识别率比较低,很难满足一些特殊场景下的字符识别。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供非常见字体的图像文字OCR识别系统,在使用时用户仅需将待识别图像输入系统中,并根据待识别图像选择对应字体,就可以得出识别后的可编辑,可操作的图像文字识别结果。
为了实现上述发明目的,本发明提供了以下技术方案:非常见字体的图像文字OCR识别系统,特征图片生成模块,图像文字切分模块,存储模块和图像文字识别模块;
所述特征图片生成模块,根据用户选择的待识别图像文字的字体,制作出对应的字符特征图片,并将制作成的特征图片存储于所述存储模块中;
所述图像文字切分模块将待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片,并将切分后的子图片序列存储于存储模块中;
所述图像识别模块,提取存储模块中的子图片,计算子图片与特征图片的符合程度,进而实现子图片字符内容的识别,并将识别结果输入。
进一步的,所述图像文字切分模块对文字字符图片的切分包含以下实现过程:
A、使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
B、对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
重复执行步骤B,直到序列中未标记的子图片均满足条件:L≤M*h;
C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L合≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L合≤M*h;
D、对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
进一步的,0.9≤M≤1.3。
作为一种优选,M=1.2。
进一步的,所述特征图片生成模块,制作字符特征图片的过程如下:
对待识别图像文字进行行、列垂直投影,将其中的数字、字母和标点字符切分出来,形成对应的子图片;
在每个数字、字母和标点对应的子图片中选择一张子图片,将子图中的字符,分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片,并对制成的特征图片进行对应的标注;
根据用户选择的待识别图像文字的字体,生成样本图片;对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片;并对制成的特征图片进行对应的标注。
进一步的,所述图像文字识别模块的子图片字符内容识别包含以下实现步骤:
所述图像文字识别模块,提取存储于存储模块中的待识别数字、字母和标点的子图片的对应直方图特征与数字、字母和标点的特征图片的直方图特征进行比对;得到对应的识别结果;
所述图像文字识别模块,存储于存储模块中的文字字符子图片的对应直方图特征与文字字符的特征图片的直方图特征进行比对,识别出对应子图片对应的文字。
进一步的,所述所述图像文字识别模块采用K近邻算法找出与待识别子图片字符距离最小的前K个样本特征图片,统计出现次数最多样本图片,其对应的字符标签即为字符的识别结果。
进一步的,K=9。
进一步的,所述系统为加载有所述非常见字体的图像文字OCR识别功能程序的计算机或者服务器。
与现有技术相比,本发明的有益效果:本发明提供非常见字体的图像文字OCR识别系统,特别涉及非常见字体的图像文字OCR识别系统;特征图片生成模块,图像文字切分模块,存储模块和图像文字识别模块;特征图片生成模块,根据用户选择的待识别图像文字的字体,制作出对应的字符特征图片,并将制作成的特征图片存储于存储模块中;图像文字切分模块将待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片存储模块中;所述图像识别模块,提取存储模块中的子图片,计算子图片与特征图片的符合程度,进而实现子图片字符内容的识别,并将识别结果输入。在使用时用户仅需将待识别图像输入系统中,并根据待识别图像选择对应字体,就可以得出识别后的可编辑,可操作的图像文字识别结果;为图像文字识别提供便捷工具。
附图说明:
图1为本非常见字体的图像文字OCR识别系统的实现步骤图。
图2为粘连文字图像样例图。
图3为修正值g(x)的分布示意图。
图4为图3中字符的幅值分布示意图。
图5为所述特征图片生成特征图片的实现过程图。
图6为数字模板的制作示意图。
图7为文字模板的制作示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明系统提供非常见字体的图像文字OCR识别系统如图1所示:包含特征图片生成模块,图像文字切分模块,存储模块和图像文字识别模块;
所述特征图片生成模块,根据用户选择的待识别图像文字的字体(根据待识别图像文字的字体,构造对应特征模板,具有更强的针对性,对于生僻字体的文字图像同样适用),制作出对应的字符特征图片,并将制作成的特征图片存储于所述存储模块中;
所述图像文字切分模块将待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片,并将切分后的子图片序列存储于存储模块中;
所述图像识别模块,提取存储模块中的子图片,计算子图片与特征图片的符合程度,进而实现子图片字符内容的识别,并将识别结果输入。
在使用时用户仅需将待识别图像输入系统中,并根据待识别图像选择对应字体,就可以得出识别后的可编辑,可操作的图像文字识别结果。
进一步的,所述图像文字切分模块对文字字符图片的切分包含以下实现过程:
A、使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
B、对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片(样例如图3所示)进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
重复执行步骤B,直到序列中未标记的子图片均满足条件:L≤M*h。
式中f(x)为幅值,x为列投影点在行方向上的坐标,h为当前字符的行高,g(x)为修正值,g(x)的值的分布如图4所示,t(x)为行投影值,两者共同决定投影点的幅值,当幅值最小时,即为两个字符之间的切割点;经过g(x)的修正所找到最小幅值点作为切分点,相比于简单的最小行投影值,本系统中所寻找的切分点,引入了切分点位置与字符边缘距离的考量因素,因此具有更高的准确性,而且当遇到特殊结构字符时出现多个较小值(本样例中的幅值分布如图5所示),或者极值点时,通过本公式可以快速的找出最优化的切分点,增加了切分的准确性,提高了切分的效率。
C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L合≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L合≤M*h;
D、对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
在某些情况下:连续的两个左右结构的字符图片,中间具有粘连,那么在利用投影法进行切分时,可能将前后字符中间的部首切开,但是对于两个字符之间粘连的部首识别不了,而当成一个字符切分出来的情况;本发明系统对于这种情况有较好的处理效果,对于粘连的中间部分通过上述公式寻找到最佳的切分点,并将切分后的前后字符的部首进行重新的整合,达到了较好的切分效果。所述图像文字切分模块中通过对子图片的层层判断,将粘连的字符切分开,将左右结构的字符进行合并,层层判断处理的方式,保证了切分的准确性,为子图片的识别准备了条件。
进一步的,0.9≤M≤1.3。
作为一种优选,M=1.2。
进一步的,所述特征图片生成模块,制作字符特征图片包含如图6所示的实现过程:
对待识别图像文字进行行、列垂直投影,将其中的数字、字母和标点字符切分出来,形成对应的子图片;由于数字,字母和标点相对于普通的文字字符来说具有明显的特征,比如说投影的宽度较窄(比如设置为<0.4h),投影的面积较小(0.5h*0.8h),切割后形成的相邻子图片之间的距离明显大于普通字符图片的距离等,利用上述特征,可以首先将属于数字、字母和标点的子图片切分出来。
在每个数字、字母和标点对应的子图片中选择一张子图片(可以通过用户手动选择的方式进行),将子图中的字符,分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片,并对制成的特征图片进行对应的标注,如图6所示;直接使用待识别图像中的文字来建立数字、字母和标点符号模板,字体相同,识别效果更好。适量用户手动选择的方式,增加了系统与用户的互动性和参与性,具有更好的用户体验感。
根据用户选择的待识别图像文字的字体,生成样本图片;对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片;并对制成的特征图片进行对应的标注。将模板中的字符分别移动设定的距离,超过子图片框范围的字符部分将被切除,向上述方向移动设局距离后形成的图片和原图片一起构成了同一字符的9张不同切分情形的参考样本图片如图7所示,这与实际操作中字符图片切分可能不规则,不完美的情况相对应,因此基于本方法形成的特征模板来实现的字符识别,具有更好的容错性。
Claims (9)
1.非常见字体的图像文字OCR识别系统,其特征在于,包含特征图片生成模块,图像文字切分模块,存储模块和图像文字识别模块;
所述特征图片生成模块,根据用户选择的待识别图像文字的字体,制作出对应的字符特征图片,并将制作成的特征图片存储于所述存储模块中;
所述图像文字切分模块将待处理图像中的字符进行切分,切分成各个仅包含单个字符的子图片,并将切分后的子图片序列存储于存储模块中;
所述图像文字识别模块,提取存储模块中的子图片,计算子图片与特征图片的符合程度,进而实现子图片字符内容的识别,并将识别结果输入。
2.如权利要求1所述的系统,其特征在于,所述图像文字切分模块对文字字符图片的切分包含以下实现过程:
A、使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
B、对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
重复执行步骤B,直到序列中未标记的子图片均满足条件:L≤M*h;
C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L合≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L合≤M*h;
D、对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
3.如权利要求2所述的系统,其特征在于,0.9≤M≤1.3。
4.如权利要求3所述的系统,其特征在于,M=1.2。
5.如权利要求4所述的系统,其特征在于,所述特征图片生成模块,制作字符特征图片的过程如下:
对待识别图像文字进行行、列垂直投影,将其中的数字、字母和标点字符切分出来,形成对应的子图片;
在每个数字、字母和标点对应的子图片中选择一张子图片,将子图中的字符,分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片,并对制成的特征图片进行对应的标注;
根据用户选择的待识别图像文字的字体,生成样本图片;对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l,制成对应的特征图片;并对制成的特征图片进行对应的标注。
6.如权利要求5所述的系统,其特征在于,所述图像文字识别模块的子图片字符内容识别包含以下实现步骤:
所述图像文字识别模块,提取存储于存储模块中的待识别数字、字母和标点的子图片的对应直方图特征与数字、字母和标点的特征图片的直方图特征进行比对;得到对应的识别结果;
所述图像文字识别模块,存储于存储模块中的文字字符子图片的对应直方图特征与文字字符的特征图片的直方图特征进行比对,识别出对应子图片对应的文字。
7.如权利要求6所述的系统,其特征在于,所述图像文字识别模块采用K近邻算法找出与待识别子图片字符距离最小的前K个样本特征图片,统计出现次数最多样本图片,其对应的字符标签即为字符的识别结果。
8.如权利要求7所述的系统,其特征在于,K=9。
9.如权利要求8所述的系统,其特征在于,所述系统为加载有所述非常见字体的图像文字OCR识别功能程序的计算机或者服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611250736.XA CN106682667A (zh) | 2016-12-29 | 2016-12-29 | 非常见字体的图像文字ocr识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611250736.XA CN106682667A (zh) | 2016-12-29 | 2016-12-29 | 非常见字体的图像文字ocr识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106682667A true CN106682667A (zh) | 2017-05-17 |
Family
ID=58873466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611250736.XA Pending CN106682667A (zh) | 2016-12-29 | 2016-12-29 | 非常见字体的图像文字ocr识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106682667A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685870A (zh) * | 2018-11-21 | 2019-04-26 | 北京慧流科技有限公司 | 信息标注方法及装置、标注设备及存储介质 |
CN110502990A (zh) * | 2019-07-17 | 2019-11-26 | 上海展湾信息科技有限公司 | 利用图像处理进行数据采集的方法及系统 |
CN111582262A (zh) * | 2020-05-07 | 2020-08-25 | 京源中科科技股份有限公司 | 段式液晶图片内容识别方法、装置、设备和存储介质 |
CN111783066A (zh) * | 2020-07-07 | 2020-10-16 | 中国联合网络通信集团有限公司 | 文字识别方法、系统、计算机设备及存储介质 |
CN113114868A (zh) * | 2021-04-16 | 2021-07-13 | 合肥新青罗数字技术有限公司 | 一种用于无形资产管理的ocr识别装置及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684891A (en) * | 1991-10-21 | 1997-11-04 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
CN1916940A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 模板优化的字符识别方法和系统 |
CN1916942A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种基于字体预测的字符识别方法 |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN102169542A (zh) * | 2010-02-25 | 2011-08-31 | 汉王科技股份有限公司 | 文字识别中粘连字符的切分方法和装置 |
CN102479326A (zh) * | 2010-11-30 | 2012-05-30 | 方正国际软件(北京)有限公司 | 一种图文识别人工校对辅助方法及系统 |
CN103295009A (zh) * | 2013-06-20 | 2013-09-11 | 电子科技大学 | 基于笔画分解的车牌字符识别方法 |
CN104463195A (zh) * | 2014-11-08 | 2015-03-25 | 沈阳工业大学 | 基于模板匹配的印刷体数字识别方法 |
CN104751194A (zh) * | 2015-04-27 | 2015-07-01 | 陈包容 | 一种财务费用报销的处理方法及装置 |
CN104992152A (zh) * | 2015-06-30 | 2015-10-21 | 深圳訾岽科技有限公司 | 一种基于模板字符库的字符识别方法及字符识别系统 |
CN104992449A (zh) * | 2015-08-06 | 2015-10-21 | 西安冉科信息技术有限公司 | 基于机器视觉的信息识别及表面缺陷在线检测方法 |
-
2016
- 2016-12-29 CN CN201611250736.XA patent/CN106682667A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684891A (en) * | 1991-10-21 | 1997-11-04 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
CN1916940A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 模板优化的字符识别方法和系统 |
CN1916942A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种基于字体预测的字符识别方法 |
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
CN102169542A (zh) * | 2010-02-25 | 2011-08-31 | 汉王科技股份有限公司 | 文字识别中粘连字符的切分方法和装置 |
CN102479326A (zh) * | 2010-11-30 | 2012-05-30 | 方正国际软件(北京)有限公司 | 一种图文识别人工校对辅助方法及系统 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN103295009A (zh) * | 2013-06-20 | 2013-09-11 | 电子科技大学 | 基于笔画分解的车牌字符识别方法 |
CN104463195A (zh) * | 2014-11-08 | 2015-03-25 | 沈阳工业大学 | 基于模板匹配的印刷体数字识别方法 |
CN104751194A (zh) * | 2015-04-27 | 2015-07-01 | 陈包容 | 一种财务费用报销的处理方法及装置 |
CN104992152A (zh) * | 2015-06-30 | 2015-10-21 | 深圳訾岽科技有限公司 | 一种基于模板字符库的字符识别方法及字符识别系统 |
CN104992449A (zh) * | 2015-08-06 | 2015-10-21 | 西安冉科信息技术有限公司 | 基于机器视觉的信息识别及表面缺陷在线检测方法 |
Non-Patent Citations (3)
Title |
---|
RICHARD G. CASEY等: "A Survey of Methods and Strategies in Character Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLGENCE》 * |
安艳辉等: "粘连搭接字符切分方法研究", 《河北师范大学学报(自然科学版)》 * |
张振绘等: "女书文字切分算法的设计与实现", 《中国科技信息》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685870A (zh) * | 2018-11-21 | 2019-04-26 | 北京慧流科技有限公司 | 信息标注方法及装置、标注设备及存储介质 |
CN109685870B (zh) * | 2018-11-21 | 2023-10-31 | 北京慧流科技有限公司 | 信息标注方法及装置、标注设备及存储介质 |
CN110502990A (zh) * | 2019-07-17 | 2019-11-26 | 上海展湾信息科技有限公司 | 利用图像处理进行数据采集的方法及系统 |
CN111582262A (zh) * | 2020-05-07 | 2020-08-25 | 京源中科科技股份有限公司 | 段式液晶图片内容识别方法、装置、设备和存储介质 |
CN111783066A (zh) * | 2020-07-07 | 2020-10-16 | 中国联合网络通信集团有限公司 | 文字识别方法、系统、计算机设备及存储介质 |
CN111783066B (zh) * | 2020-07-07 | 2023-10-27 | 中国联合网络通信集团有限公司 | 文字识别方法、系统、计算机设备及存储介质 |
CN113114868A (zh) * | 2021-04-16 | 2021-07-13 | 合肥新青罗数字技术有限公司 | 一种用于无形资产管理的ocr识别装置及系统 |
CN113114868B (zh) * | 2021-04-16 | 2022-08-16 | 合肥新青罗数字技术有限公司 | 一种用于无形资产管理的ocr识别装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682671A (zh) | 图像文字识别系统 | |
CN106682698A (zh) | 基于模板匹配的ocr识别方法 | |
CN106682667A (zh) | 非常见字体的图像文字ocr识别系统 | |
JP5379085B2 (ja) | スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム | |
CN104268603B (zh) | 用于文字性客观题的智能阅卷方法及系统 | |
CN109376658A (zh) | 一种基于深度学习的ocr方法 | |
CN106611174A (zh) | 一种非常见字体的ocr识别方法 | |
US9230383B2 (en) | Document image compression method and its application in document authentication | |
CN108427953A (zh) | 一种文字识别方法及装置 | |
CN105447522A (zh) | 一种复杂图像文字识别系统 | |
CN105512611A (zh) | 一种表格图像检测识别方法 | |
CN106875546A (zh) | 一种增值税发票的识别方法 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN111563563B (zh) | 一种手写体识别的联合数据的增强方法 | |
CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
CN109189965A (zh) | 图像文字检索方法及系统 | |
CN110728307A (zh) | 自生成数据集与标签实现x光影像图小样本字符识别方法 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
CN118366162B (zh) | 基于深度学习的图像分割方法及系统 | |
CN113850178A (zh) | 一种视频词云的生成方法及装置、存储介质及电子设备 | |
CN105469053A (zh) | 一种基于贝叶斯优化的图像表格文字切分方法 | |
CN109800756A (zh) | 一种用于中文历史文献密集文本的文字检测识别方法 | |
CN111368831A (zh) | 一种竖排文字的定位系统及方法 | |
He et al. | Context-aware mathematical expression recognition: An end-to-end framework and a benchmark |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170517 |
|
WD01 | Invention patent application deemed withdrawn after publication |