CN113837168A - 一种图像文本检测与ocr识别方法、装置及存储介质 - Google Patents
一种图像文本检测与ocr识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113837168A CN113837168A CN202111118174.4A CN202111118174A CN113837168A CN 113837168 A CN113837168 A CN 113837168A CN 202111118174 A CN202111118174 A CN 202111118174A CN 113837168 A CN113837168 A CN 113837168A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- image
- segmentation
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 124
- 230000011218 segmentation Effects 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000002688 persistence Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 14
- 230000009467 reduction Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 230000000750 progressive effect Effects 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及数据识别技术领域,特别涉及一种图像文本检测与OCR识别方法、装置及存储介质,其中方法包括以下步骤:对图片进行预处理获得训练数据;提取训练数据的初步特征得到返回结果并根据返回结果搭建训练网络;训练模型调用训练网络对训练数据进行训练以获得若干文本分割实例;通过分水岭分割方法对若干文本分割实例进行处理完成检测识别;通过上述步骤,且通过分水岭分割方法对若干文本分割实例进行后处理,有效将算法时间复杂度降低到O(N),解决了采用PSENet算法流程中的广度优先算法,对各文本分割实例进行逐像素的四邻域搜索与合并,会导致在该检测阶段的算法时间复杂度达到O(N2),检测速度慢、效率低的问题,从而提高了图像处理速度、加快了效率。
Description
技术领域
本发明涉及数据识别技术领域,特别涉及一种图像文本检测与OCR识别方法、装置及存储介质。
背景技术
深度学习OCR方法的核心思想基本沿用深度目标检测算法策略,渐进式扩展网络PSENet是一种基于实例分割的方法,采用基于CNN的backbone进行图像特征提取,然后采用类似空间金字塔的网络对特征图像进行一系列特征下采样、特征融合与上采样操作,得到一组预定义数量的文本分割实例,最后采用广度优先算法对文本实例进行区域连通。
CN110008950A的专利《一种对形状鲁棒的自然场景中文本检测的方法》,申请公布日为2019.07.12,公开了一种对形状鲁棒的自然场景中文本检测的方法,包括如下步骤:步骤1,对文本数据集中的训练图片进行预处理;步骤2,搭建PSENet进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;步骤4,对待检测图片进行检测;步骤5,使用尺度生长算法得到最终检测结果。
然而对于文本检测目标较多,并且存在文本区域错位与重叠对现象的图像,采用PSENet算法流程中的广度优先算法,对各文本分割实例进行逐像素的四邻域搜索与合并,会导致在该检测阶段的算法时间复杂度达到O(N2),检测速度慢、效率低。
发明内容
为解决采用PSENet算法流程中的广度优先算法,对各文本分割实例进行逐像素的四邻域搜索与合并,会导致在该检测阶段的算法时间复杂度达到O(N2),检测速度慢、效率低的问题。
本发明提供的一种图像文本检测与OCR识别方法,包括以下步骤:
对图片进行预处理获得训练数据;
提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络;
训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例;
通过分水岭分割方法对若干所述文本分割实例进行处理完成检测识别。
进一步的,在一个优选实施例中,标注图片的文本区域,标注有所述文本区域的图片为原始文本坐标标签;对所述原始文本坐标标签进行处理生成若干形状相似、中心点相同但尺寸不同的文本分割核作为所述训练网络的训练数据。
进一步的,在一个优选实施例中,所述训练网络为PSENet forward网络;
通过加载特征提取模型提取所述训练数据的初步特征得到返回结果并将所述返回结果输入PSEnet forward网络,按照top-down方式进行特征空间金字塔网络搭建PSENetforward网络。
进一步的,在一个优选实施例中,训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例包括以下步骤:
训练准备:设置超参数、选择优化器,设置所述训练数据读入所述训练模型的方式;
训练过程:调用PSENet forward网络,通过与真实标签比对和损失函数计算当前损失情况,采用优化器计算网络参数梯度并更新,迭代训练至到达理想精度,将模型进行持久化;
训练完成输出若干文本分割实例。
进一步的,在一个优选实施例中,采用dice coefficient定义损失函数,根据传入模型的训练数据的损失筛选出检测效果差的样本,将筛选出的检测效果差的样本抽出组合并在随机梯度下降中训练。
进一步的,在一个优选实施例中,通过分水岭分割方法对若干所述文本分割实例进行处理,确定最终的文本行区域和背景区域,包括以下步骤:
获取前景图像标记、背景图像标记和不确定区域;
运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域。
进一步的,在一个优选实施例中,获取前景图像标记、背景图像标记和不确定区域包括以下步骤:
将最小文本分割实例内部的像素标记为前景区域,并将该区域像素值设置为255;
将最大文本分割实例外部的像素标记为背景区域,并将该区域像素值设置为128;
将最小文本分割实例和最大文本分割实例之间的区域作为不确定区域,并将该区域像素值设置为0。
进一步的,在一个优选实施例中,运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域包括以下步骤:
把不确定区域的梯度图像中的像素进行排序,获取分水岭分割算法测地距离阈值,并将不确定区域的最小值标记为最低点;
使测地距不断增长,筛选出小于测地距值的像素,若筛选出的像素到最低点的距离小于测地距离阈值,则淹没;否则再取筛选出的像素的灰度值作为局部阈值,即构建大坝,完成局部区域的文本区域和非文本区域的分类;
测地距不断增长直到灰度值的最大值,完成文本区域于背景的分离,完成所有像素的类别归属判别。
本发明还提供一种图像文本检测与OCR识别装置,包括
预处理模块:用于对图片进行预处理获得训练数据;
训练网络搭建模块:用于提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络;
训练模块:用于训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例;
处理模块:用于通过分水岭分割算法对若干所述文本分割实例进行处理完成检测识别。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现上述任一项所述的一种图像文本检测与OCR识别方法。
与现有技术相比,本发明提供的一种图像文本检测与OCR识别方法,通过上述步骤,且通过分水岭分割方法替换原始PSENet算法中的广度优先搜索(BFS)算法对若干所述文本分割实例进行后处理,有效将算法时间复杂度降低到O(N),解决了采用PSENet算法流程中的广度优先算法,对各文本分割实例进行逐像素的四邻域搜索与合并,会导致在该检测阶段的算法时间复杂度达到O(N2),检测速度慢、效率低的问题,从而提高了图像处理速度、加快了效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的一种图像文本检测与OCR识别方法的步骤图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面给出具体实施例:
在本发明中,文本检测目标较多,并且存在文本区域错位与重叠对现象的图像以医疗票据图像为例。由于已有大量医疗票据数据的累积,可直接开始重新训练,而不迁移预训练模型的参数进一步训练,所以本发明可采用train from scratch的方式进行模型训练。
一种图像文本检测与OCR识别方法包括以下步骤:
对图片进行预处理获得训练数据;
提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络;
训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例;
通过分水岭分割方法对若干所述文本分割实例进行处理完成检测识别。
与现有技术相比,本发明提供的一种图像文本检测与OCR识别方法,通过上述步骤,且通过分水岭分割方法替换原始PSENet算法中的广度优先搜索(BFS)算法对若干所述文本分割实例进行后处理,有效将算法时间复杂度降低到O(N),解决了采用PSENet算法流程中的广度优先算法,对各文本分割实例进行逐像素的四邻域搜索与合并,会导致在该检测阶段的算法时间复杂度达到O(N2),检测速度慢、效率低的问题,从而提高了图像处理速度、加快了效率。
具体的,步骤对图片进行预处理获得训练数据中,该图片可以为自然场景下拍摄的图片,并标注图片的文本区域,标注有文本区域的图片为原始文本坐标标签;其中,文本区域指的是存在文本的区域,标注的方式可以是人工或电脑标注,标注的形式为多边形的坐标,可以是矩形框四点坐标;
根据渐进式尺度拓展需求,通过Vatti clipping算法对原始文本坐标标签进行处理生成若干形状相似、中心点相同但尺寸不同的文本分割核作为所述训练网络的训练数据。
具体的,通过Vatti clipping算法对原始文本坐标标签进行收缩处理得到若干文本分割核,包括以下步骤:
实施时,原始文本坐标标签进行收缩处理得到若干文本分割核,依次为p1,p2...pi,其中,最大的文本分割核(即为原始核)为p1,任意一个文本分割核pi与最大的文本分割核p1的缩减比例为ri,相对距离为di,Area和Perimeter分别为最大文本分割核的面积与周长;
根据文本分割核数量、缩小比例计算缩减比例:
其中m为缩小比例,范围为(0,1],n为文本分割实例数量,即文本分割核的数量;此处m和n均为PSENet算法的超参数;
通过缩减公式计算原始文本坐标标签缩减后的标签,得到若干文本分割核,若干文本分割核作为训练网络的原始输入训练数据;缩减公式指的是上述缩减距离和缩减比例的公式。
具体的,在步骤提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络中:
训练网络为PSENet forward网络,特征提取模型为但不限于ResNet-18、ResNet-34、ResNet-152、ResNet-50、ResNet-101、vgg16、vgg19、shufflent、mobilenet,较好的,选择ResNet-152模型,ResNet-152是一个结构较深的网络,能提取出较有效特征,精度较好;
通过加载Pytorch上的ResNet-152模型提取训练数据的初步特征得到返回结果,并将所述返回结果输入PSEnet forward网络,按照top-down方式进行特征空间金字塔网络搭建PSENet forward网络。ResNet-152模型提取训练数据的初步特征得到返回结果的过程已是现有技术,再次不作过多赘述。
具体的,将返回结果[c2,c3,c4,c5]输入PSEnet forward网络,按照top-down方式进行特征空间金字塔网络搭建PSENet训练网络,包括:
(1)p5 toplayer处理:
c5→p5:3*3卷积,BN处理,ReLU激活函数;
(2)p4上采样处理:
c4→c4l:2*2卷积,BN处理,ReLU激活函数;
[p5,c4l]→p4:双线性插值(p5)+c4l
(3)p4平滑处理:
p4→p4:原尺寸卷积,BN处理,ReLU激活函数;
(4)p3上采样处理与平滑:
c3→c3l:1*1卷积,BN处理,ReLU激活函数;
[p4,c3l]→p3:双线性插值(p4)+c3l
平滑处理同p4;
(5)p2上采样处理与平滑:
c2→c2l:原尺寸卷积,BN处理,ReLU激活函数;
[p3,c2l]→p2:双线性插值(p3)+c2l
平滑处理同p4;
(6)上采样组合:
以p2尺寸为基准,将p3-p5双线性插值成p2度尺寸,然后采用concatenate方法组合p2-p5向量;完成PSEnet forward网络搭建。
具体的,训练模型调用训练网络对训练数据进行训练以获得若干文本分割实例包括以下步骤:
训练准备:设置超参数、选择优化器,设置训练数据读入训练模型的方式;
其中,超参数包括完成学习率与decay任务、分割实例、batch_size,epoch,优化器选用但不限于SGD、Adam,较好的,选择Adam,Adam具有可动态调整学习率等方面的优势,将训练数据以生成器函数batch读入训练模型中;
训练过程:调用PSENet forward网络,通过模型预测结果与真实标签比对和损失函数计算当前损失情况,采用优化器计算网络参数梯度并更新,迭代训练至到达理想精度,将模型进行持久化:
具体的以epoch为单位进行训练,每个epoch完整对所有数据分batch进行一次训练(不考虑边界问题),将每个batch数据传入模型中,调用PSENet forward网络,通过训练数据与真实标签比对并通过损失函数计算当前损失情况,采用Adam优化器计算网络参数梯度并更新,迭代训练至到达理想精度,将模型进行持久化;通过不断的模型迭代,每次模型预测出来的结果都与真实标签做比较,倘若模型预测结果与真实标签基本一致,比如预测精度达到95%,将此时的模型参数保存,即持久化保存。
其中,由于在医疗票据的文本检测中,负样本区域远大于正样本区域,损失函数采用dice coefficient定义,根据传入模型的训练数据的损失筛选出检测效果差的样本,将筛选出的检测效果差的样本抽出组合并在随机梯度下降中训练,损失函数具体包括:
损失函数被定义为L=λLC+(1-λ)LS其中LC是文本区域的分类损失,LS是收缩文本实例的损失,有
LC=1-D(Sn×M,Gn×M)
M由在线难例挖掘算法生成,为0/1byte码;根据传入模型的训练数据的损失筛选出检测效果差的样本,然后将筛选出的样本抽出组合并采用Adam进行训练。
具体的,通过分水岭分割方法对若干所述文本分割实例进行处理,确定最终的文本行区域和背景区域,包括以下步骤:
首先,获取前景图像标记,具体的将最小文本分割实例内部的像素标记为前景区域,并将该区域像素值设置为255;获取背景图像标记,具体的,将最大文本分割实例外部的像素标记为背景区域,并将该区域像素值设置为128;获取不确定区域,具体的,将最小文本分割实例和最大文本分割实例之间的区域作为不确定区域,并将该区域像素值设置为0。
其次,运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域,具体的,包括以下步骤:
把不确定区域的梯度图像中的像素进行排序,获取分水岭分割算法测地距离阈值,并将不确定区域的最小值标记为最低点,具体的,通过运行OTSU算法获取分水岭算法测地距离阈值;
使测地距不断增长,筛选出小于测地距值的像素,若这些像素到最低点的距离小于测地距离阈值,则淹没,否则再取这些像素的灰度值作为局部阈值,即构建大坝,完成局部区域的文本区域和非文本区域的分类;
测地距不断增长直到灰度值的最大值,所有区域都在分水岭线上相遇,完成文本区域于背景的分离,完成所有像素的类别归属判别,即得到最终的文本行区域和背景区域。
根据本发明内容,实施时,m设置为0.5,n设置为6,特征提取网络选用ResNet-152,M设置为3,将训练数据以生成器函数batch读入模型训练中,采用Adam优化器,在训练过程中,输入的图像维度为[B,3,H,W],分别对应为batch_size大小、图像通道数和图像高与宽;
设置文本分割实例数为6,对于批量训练图像特征图,对其进行图像下采样、特征融合和图像上采样,输出的与原始图像尺寸相同的batch,即为[B,6,H,W],对于每张图像的每个文本行,生成6个文本分割结果S1,S2,…,S6;
采用了医疗票据(包括门诊发票和住院发票)进行测试实验,每种类型的图片都包含1000张,测试设备的显卡为Tesla V100,32GB显存。在实验中,将所有图片都最短边都限制为1000,
在上述同等条件下,通过Watershed分割算法替换PSENet原始的BFS算法,分离所有文本区域的最小分割结果S6组合作为Watershed的置信前景标记图像,对最大分割结果S1取反作为Watershed的置信背景标记图像,而S2,S3,...,S5作为算法的不确定区域来进行处理:
对于原始的psenet算法,精确度达到92.37%,FPS(模型每秒钟处理完成的图片数量,包含数据前后处理)达到11;本方法精确度达到92.51%,FPS达到48;可见,在保证精度的情况下,本发明的处理速度是原始的psenet算法的4倍以上,与现有技术相比,本发明提供的一种图像文本检测与OCR识别方法,通过上述步骤,且通过分水岭分割方法替换原始PSENet算法中的广度优先搜索(BFS)算法对若干所述文本分割实例进行后处理,有效将算法时间复杂度降低到O(N),解决了采用PSENet算法流程中的广度优先算法,对各文本分割实例进行逐像素的四邻域搜索与合并,会导致在该检测阶段的算法时间复杂度达到O(N2),检测速度慢、效率低的问题,从而提高了图像处理速度、加快了效率。
本发明还提供一种图像文本检测与OCR识别系统,包括预处理模块:用于对图片进行预处理获得训练数据;训练网络搭建模块:用于提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络;训练模块:用于训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例;处理模块:用于通过分水岭分割算法对若干所述文本分割实例进行处理完成检测识别。本发明提供的一种图像文本检测与OCR识别系统提高了图像处理速度、加快了效率。
本发明还提供一种计算机可读存储介质,计算机可读存储介存储有计算机指令,所述计算机被处理器执行时实现如上任一项所述的一种图像文本检测与OCR识别方法。
具体实施时,计算机可读存储介质为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;计算机可读存储介质还可以包括上述种类的存储器的组合。
尽管本文中较多的使用了诸如训练数据、初步特征、训练网络、训练模型、文本分割实例、分水岭分割等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种图像文本检测与OCR识别方法,其特征在于:包括以下步骤:
对图片进行预处理获得训练数据;
提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络;
训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例;
通过分水岭分割方法对若干所述文本分割实例进行处理完成检测识别。
2.根据权利要求1所述的图像文本检测与OCR识别方法,其特征在于:标注图片的文本区域,标注有所述文本区域的图片为原始文本坐标标签;对所述原始文本坐标标签进行处理生成若干形状相似、中心点相同但尺寸不同的文本分割核作为所述训练网络的训练数据。
3.根据权利要求1所述的图像文本检测与OCR识别方法,其特征在于:所述训练网络为PSENet forward网络;
通过加载特征提取模型提取所述训练数据的初步特征得到返回结果并将所述返回结果输入PSEnet forward网络,按照top-down方式进行特征空间金字塔网络搭建PSENetforward网络。
4.根据权利要求3所述的图像文本检测与OCR识别方法,其特征在于:训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例包括以下步骤:
训练准备:设置超参数、选择优化器,设置所述训练数据读入所述训练模型的方式;
训练过程:调用PSENet forward网络,通过与真实标签比对和损失函数计算当前损失情况,采用优化器计算网络参数梯度并更新,迭代训练至到达理想精度,将模型进行持久化;
训练完成输出若干文本分割实例。
5.根据权利要求4所述的图像文本检测与OCR识别方法,其特征在于:采用dicecoefficient定义损失函数,根据传入模型的训练数据的损失筛选出检测效果差的样本,将筛选出的检测效果差的样本抽出组合并在随机梯度下降中训练。
6.根据权利要求1所述的图像文本检测与OCR识别方法,其特征在于:通过分水岭分割方法对若干所述文本分割实例进行处理,确定最终的文本行区域和背景区域,包括以下步骤:
获取前景图像标记、背景图像标记和不确定区域;
运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域。
7.根据权利要求6所述的图像文本检测与OCR识别方法,其特征在于:获取前景图像标记、背景图像标记和不确定区域包括以下步骤:
将最小文本分割实例内部的像素标记为前景区域,并将该区域像素值设置为255;
将最大文本分割实例外部的像素标记为背景区域,并将该区域像素值设置为128;
将最小文本分割实例和最大文本分割实例之间的区域作为不确定区域,并将该区域像素值设置为0。
8.根据权利要求6所述的图像文本检测与OCR识别方法,其特征在于:运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域包括以下步骤:
把不确定区域的梯度图像中的像素进行排序,获取分水岭分割算法测地距离阈值,并将不确定区域的最小值标记为最低点;
使测地距不断增长,筛选出小于测地距值的像素,若筛选出的像素到最低点的距离小于测地距离阈值,则淹没;否则再取筛选出的像素的灰度值作为局部阈值,即构建大坝,完成局部区域的文本区域和非文本区域的分类;
测地距不断增长直到灰度值的最大值,完成文本区域于背景的分离,完成所有像素的类别归属判别。
9.一种图像文本检测与OCR识别装置,其特征在于:包括
预处理模块:用于对图片进行预处理获得训练数据;
训练网络搭建模块:用于提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络;
训练模块:用于训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例;
处理模块:用于通过分水岭分割算法对若干所述文本分割实例进行处理完成检测识别。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如权利要求1-8任一项所述的一种图像文本检测与OCR识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111118174.4A CN113837168A (zh) | 2021-09-22 | 2021-09-22 | 一种图像文本检测与ocr识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111118174.4A CN113837168A (zh) | 2021-09-22 | 2021-09-22 | 一种图像文本检测与ocr识别方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113837168A true CN113837168A (zh) | 2021-12-24 |
Family
ID=78969694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111118174.4A Pending CN113837168A (zh) | 2021-09-22 | 2021-09-22 | 一种图像文本检测与ocr识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837168A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630755A (zh) * | 2023-04-10 | 2023-08-22 | 雄安创新研究院 | 一种检测场景图像中的文本位置的方法、系统和存储介质 |
CN116863482A (zh) * | 2023-09-05 | 2023-10-10 | 华立科技股份有限公司 | 一种互感器检测方法、装置、设备及存储介质 |
CN116935394A (zh) * | 2023-07-27 | 2023-10-24 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011128070A (ja) * | 2009-12-18 | 2011-06-30 | Hitachi High-Technologies Corp | 画像処理装置、及び、測定/検査システム、並びに、プログラム |
CN102725773A (zh) * | 2009-12-02 | 2012-10-10 | 惠普发展公司,有限责任合伙企业 | 数字化图像的前景背景分割的系统与方法 |
US20150078648A1 (en) * | 2013-09-13 | 2015-03-19 | National Cheng Kung University | Cell image segmentation method and a nuclear-to-cytoplasmic ratio evaluation method using the same |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111145209A (zh) * | 2019-12-26 | 2020-05-12 | 北京推想科技有限公司 | 一种医学图像分割方法、装置、设备及存储介质 |
CN111738256A (zh) * | 2020-06-02 | 2020-10-02 | 上海交通大学 | 基于改进分水岭算法的复合材料ct图像分割方法 |
CN111798480A (zh) * | 2020-07-23 | 2020-10-20 | 北京思图场景数据科技服务有限公司 | 基于单字符及文字间连接关系预测的文字检测方法及装置 |
US20210034700A1 (en) * | 2019-07-29 | 2021-02-04 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
-
2021
- 2021-09-22 CN CN202111118174.4A patent/CN113837168A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102725773A (zh) * | 2009-12-02 | 2012-10-10 | 惠普发展公司,有限责任合伙企业 | 数字化图像的前景背景分割的系统与方法 |
JP2011128070A (ja) * | 2009-12-18 | 2011-06-30 | Hitachi High-Technologies Corp | 画像処理装置、及び、測定/検査システム、並びに、プログラム |
US20150078648A1 (en) * | 2013-09-13 | 2015-03-19 | National Cheng Kung University | Cell image segmentation method and a nuclear-to-cytoplasmic ratio evaluation method using the same |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
US20210034700A1 (en) * | 2019-07-29 | 2021-02-04 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111145209A (zh) * | 2019-12-26 | 2020-05-12 | 北京推想科技有限公司 | 一种医学图像分割方法、装置、设备及存储介质 |
CN111738256A (zh) * | 2020-06-02 | 2020-10-02 | 上海交通大学 | 基于改进分水岭算法的复合材料ct图像分割方法 |
CN111798480A (zh) * | 2020-07-23 | 2020-10-20 | 北京思图场景数据科技服务有限公司 | 基于单字符及文字间连接关系预测的文字检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
WENHAI WANG等: "Shape Robust Text Detection with Progressive Scale Expansion Network", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 9328 - 9337 * |
程序员阿德: "图像分割的经典算法:分水岭算法", pages 1 - 7, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/67741538?utm_id=0,知乎> * |
运动小爽: "使用watershed作为psenet的后处理", pages 1, Retrieved from the Internet <URL:https://www.jianshu.com/p/ed750a1c488c?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation,简书> * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630755A (zh) * | 2023-04-10 | 2023-08-22 | 雄安创新研究院 | 一种检测场景图像中的文本位置的方法、系统和存储介质 |
CN116630755B (zh) * | 2023-04-10 | 2024-04-02 | 雄安创新研究院 | 一种检测场景图像中的文本位置的方法、系统和存储介质 |
CN116935394A (zh) * | 2023-07-27 | 2023-10-24 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
CN116935394B (zh) * | 2023-07-27 | 2024-01-02 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
CN116863482A (zh) * | 2023-09-05 | 2023-10-10 | 华立科技股份有限公司 | 一种互感器检测方法、装置、设备及存储介质 |
CN116863482B (zh) * | 2023-09-05 | 2023-12-19 | 华立科技股份有限公司 | 一种互感器检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110930397B (zh) | 一种磁共振图像分割方法、装置、终端设备及存储介质 | |
EP3620979B1 (en) | Learning method, learning device for detecting object using edge image and testing method, testing device using the same | |
CN110428428B (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
Abdollahi et al. | Improving road semantic segmentation using generative adversarial network | |
CN113168510B (zh) | 通过细化形状先验分割对象 | |
CN113837168A (zh) | 一种图像文本检测与ocr识别方法、装置及存储介质 | |
CN113111871B (zh) | 文本识别模型的训练方法及装置、文本识别方法及装置 | |
CN107480726A (zh) | 一种基于全卷积和长短期记忆单元的场景语义分割方法 | |
EP3813661A1 (en) | Human pose analysis system and method | |
CN108280455B (zh) | 人体关键点检测方法和装置、电子设备、程序和介质 | |
CN111369581A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112991280B (zh) | 视觉检测方法、系统及电子设备 | |
CN111899259A (zh) | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 | |
CN112991281B (zh) | 视觉检测方法、系统、电子设备及介质 | |
CN116152171A (zh) | 智能建造目标计数方法、电子设备及存储介质 | |
CN112241736A (zh) | 一种文本检测的方法及装置 | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和系统 | |
Samudrala et al. | Semantic segmentation in medical image based on hybrid Dlinknet and UNet | |
CN111967408A (zh) | 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统 | |
CN116823761A (zh) | 基于细胞分割的信息处理方法、装置、设备及存储介质 | |
CN117218481A (zh) | 鱼类识别方法、装置、设备及存储介质 | |
CN116310832A (zh) | 遥感图像处理方法、装置、设备、介质及产品 | |
CN116311240A (zh) | 一种细胞分类过程中的应用方法及系统 | |
CN111161250B (zh) | 一种多尺度遥感图像密集房屋检测方法及装置 | |
CN114445767A (zh) | 一种传输带传输异物检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |