CN113837168A

CN113837168A - 一种图像文本检测与ocr识别方法、装置及存储介质

Info

Publication number: CN113837168A
Application number: CN202111118174.4A
Authority: CN
Inventors: 陈坤龙; 吴梁斌; 章瑶; 吕建进
Original assignee: Yilianzhong Zhiding Xiamen Technology Co ltd
Current assignee: Yilianzhong Zhiding Xiamen Technology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-24

Abstract

本发明涉及数据识别技术领域，特别涉及一种图像文本检测与OCR识别方法、装置及存储介质，其中方法包括以下步骤：对图片进行预处理获得训练数据；提取训练数据的初步特征得到返回结果并根据返回结果搭建训练网络；训练模型调用训练网络对训练数据进行训练以获得若干文本分割实例；通过分水岭分割方法对若干文本分割实例进行处理完成检测识别；通过上述步骤，且通过分水岭分割方法对若干文本分割实例进行后处理，有效将算法时间复杂度降低到O(N)，解决了采用PSENet算法流程中的广度优先算法，对各文本分割实例进行逐像素的四邻域搜索与合并，会导致在该检测阶段的算法时间复杂度达到O(N²)，检测速度慢、效率低的问题，从而提高了图像处理速度、加快了效率。

Description

一种图像文本检测与OCR识别方法、装置及存储介质

技术领域

本发明涉及数据识别技术领域，特别涉及一种图像文本检测与OCR识别方法、装置及存储介质。

背景技术

深度学习OCR方法的核心思想基本沿用深度目标检测算法策略，渐进式扩展网络PSENet是一种基于实例分割的方法，采用基于CNN的backbone进行图像特征提取，然后采用类似空间金字塔的网络对特征图像进行一系列特征下采样、特征融合与上采样操作，得到一组预定义数量的文本分割实例，最后采用广度优先算法对文本实例进行区域连通。

CN110008950A的专利《一种对形状鲁棒的自然场景中文本检测的方法》，申请公布日为2019.07.12，公开了一种对形状鲁棒的自然场景中文本检测的方法，包括如下步骤：步骤1，对文本数据集中的训练图片进行预处理；步骤2，搭建PSENet进步式尺度生长网络，利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测，得到多个预测尺度的分割结果；步骤3，对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型；步骤4，对待检测图片进行检测；步骤5，使用尺度生长算法得到最终检测结果。

然而对于文本检测目标较多，并且存在文本区域错位与重叠对现象的图像，采用PSENet算法流程中的广度优先算法，对各文本分割实例进行逐像素的四邻域搜索与合并，会导致在该检测阶段的算法时间复杂度达到O(N²)，检测速度慢、效率低。

发明内容

为解决采用PSENet算法流程中的广度优先算法，对各文本分割实例进行逐像素的四邻域搜索与合并，会导致在该检测阶段的算法时间复杂度达到O(N²)，检测速度慢、效率低的问题。

本发明提供的一种图像文本检测与OCR识别方法，包括以下步骤：

对图片进行预处理获得训练数据；

提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络；

训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例；

通过分水岭分割方法对若干所述文本分割实例进行处理完成检测识别。

进一步的，在一个优选实施例中，标注图片的文本区域，标注有所述文本区域的图片为原始文本坐标标签；对所述原始文本坐标标签进行处理生成若干形状相似、中心点相同但尺寸不同的文本分割核作为所述训练网络的训练数据。

进一步的，在一个优选实施例中，所述训练网络为PSENet forward网络；

通过加载特征提取模型提取所述训练数据的初步特征得到返回结果并将所述返回结果输入PSEnet forward网络，按照top-down方式进行特征空间金字塔网络搭建PSENetforward网络。

进一步的，在一个优选实施例中，训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例包括以下步骤：

训练准备：设置超参数、选择优化器，设置所述训练数据读入所述训练模型的方式；

训练过程：调用PSENet forward网络，通过与真实标签比对和损失函数计算当前损失情况，采用优化器计算网络参数梯度并更新，迭代训练至到达理想精度，将模型进行持久化；

训练完成输出若干文本分割实例。

进一步的，在一个优选实施例中，采用dice coefficient定义损失函数，根据传入模型的训练数据的损失筛选出检测效果差的样本，将筛选出的检测效果差的样本抽出组合并在随机梯度下降中训练。

进一步的，在一个优选实施例中，通过分水岭分割方法对若干所述文本分割实例进行处理，确定最终的文本行区域和背景区域，包括以下步骤：

获取前景图像标记、背景图像标记和不确定区域；

运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域。

进一步的，在一个优选实施例中，获取前景图像标记、背景图像标记和不确定区域包括以下步骤：

将最小文本分割实例内部的像素标记为前景区域，并将该区域像素值设置为255；

将最大文本分割实例外部的像素标记为背景区域，并将该区域像素值设置为128；

将最小文本分割实例和最大文本分割实例之间的区域作为不确定区域，并将该区域像素值设置为0。

进一步的，在一个优选实施例中，运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域包括以下步骤：

把不确定区域的梯度图像中的像素进行排序，获取分水岭分割算法测地距离阈值，并将不确定区域的最小值标记为最低点；

使测地距不断增长，筛选出小于测地距值的像素，若筛选出的像素到最低点的距离小于测地距离阈值，则淹没；否则再取筛选出的像素的灰度值作为局部阈值，即构建大坝，完成局部区域的文本区域和非文本区域的分类；

测地距不断增长直到灰度值的最大值，完成文本区域于背景的分离，完成所有像素的类别归属判别。

本发明还提供一种图像文本检测与OCR识别装置，包括

预处理模块：用于对图片进行预处理获得训练数据；

训练网络搭建模块：用于提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络；

训练模块：用于训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例；

处理模块：用于通过分水岭分割算法对若干所述文本分割实例进行处理完成检测识别。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现上述任一项所述的一种图像文本检测与OCR识别方法。

与现有技术相比，本发明提供的一种图像文本检测与OCR识别方法，通过上述步骤，且通过分水岭分割方法替换原始PSENet算法中的广度优先搜索(BFS)算法对若干所述文本分割实例进行后处理，有效将算法时间复杂度降低到O(N)，解决了采用PSENet算法流程中的广度优先算法，对各文本分割实例进行逐像素的四邻域搜索与合并，会导致在该检测阶段的算法时间复杂度达到O(N²)，检测速度慢、效率低的问题，从而提高了图像处理速度、加快了效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明提供的一种图像文本检测与OCR识别方法的步骤图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面给出具体实施例：

在本发明中，文本检测目标较多，并且存在文本区域错位与重叠对现象的图像以医疗票据图像为例。由于已有大量医疗票据数据的累积，可直接开始重新训练，而不迁移预训练模型的参数进一步训练，所以本发明可采用train from scratch的方式进行模型训练。

一种图像文本检测与OCR识别方法包括以下步骤：

对图片进行预处理获得训练数据；

具体的，步骤对图片进行预处理获得训练数据中，该图片可以为自然场景下拍摄的图片，并标注图片的文本区域，标注有文本区域的图片为原始文本坐标标签；其中，文本区域指的是存在文本的区域，标注的方式可以是人工或电脑标注，标注的形式为多边形的坐标，可以是矩形框四点坐标；

根据渐进式尺度拓展需求，通过Vatti clipping算法对原始文本坐标标签进行处理生成若干形状相似、中心点相同但尺寸不同的文本分割核作为所述训练网络的训练数据。

具体的，通过Vatti clipping算法对原始文本坐标标签进行收缩处理得到若干文本分割核，包括以下步骤：

根据最大文本分割核的面积与周长和缩减比例计算缩减距离：

实施时，原始文本坐标标签进行收缩处理得到若干文本分割核，依次为p₁,p₂...p_i，其中，最大的文本分割核(即为原始核)为p₁，任意一个文本分割核p_i与最大的文本分割核p₁的缩减比例为r_i,相对距离为d_i,Area和Perimeter分别为最大文本分割核的面积与周长；

根据文本分割核数量、缩小比例计算缩减比例：

其中m为缩小比例，范围为(0,1],n为文本分割实例数量，即文本分割核的数量；此处m和n均为PSENet算法的超参数；

通过缩减公式计算原始文本坐标标签缩减后的标签，得到若干文本分割核，若干文本分割核作为训练网络的原始输入训练数据；缩减公式指的是上述缩减距离和缩减比例的公式。

具体的，在步骤提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络中：

训练网络为PSENet forward网络，特征提取模型为但不限于ResNet-18、ResNet-34、ResNet-152、ResNet-50、ResNet-101、vgg16、vgg19、shufflent、mobilenet，较好的，选择ResNet-152模型，ResNet-152是一个结构较深的网络，能提取出较有效特征，精度较好；

通过加载Pytorch上的ResNet-152模型提取训练数据的初步特征得到返回结果，并将所述返回结果输入PSEnet forward网络，按照top-down方式进行特征空间金字塔网络搭建PSENet forward网络。ResNet-152模型提取训练数据的初步特征得到返回结果的过程已是现有技术，再次不作过多赘述。

具体的，将返回结果[c2,c3,c4,c5]输入PSEnet forward网络，按照top-down方式进行特征空间金字塔网络搭建PSENet训练网络，包括：

(1)p5 toplayer处理：

c5→p5:3*3卷积，BN处理，ReLU激活函数；

(2)p4上采样处理：

c4→c4l:2*2卷积，BN处理，ReLU激活函数；

[p5,c4l]→p4:双线性插值(p5)+c4l

(3)p4平滑处理：

p4→p4:原尺寸卷积，BN处理，ReLU激活函数；

(4)p3上采样处理与平滑：

c3→c3l:1*1卷积，BN处理，ReLU激活函数；

[p4,c3l]→p3:双线性插值(p4)+c3l

平滑处理同p4；

(5)p2上采样处理与平滑：

c2→c2l:原尺寸卷积，BN处理，ReLU激活函数；

[p3,c2l]→p2:双线性插值(p3)+c2l

平滑处理同p4；

(6)上采样组合：

以p2尺寸为基准，将p3-p5双线性插值成p2度尺寸，然后采用concatenate方法组合p2-p5向量；完成PSEnet forward网络搭建。

具体的，训练模型调用训练网络对训练数据进行训练以获得若干文本分割实例包括以下步骤：

训练准备：设置超参数、选择优化器，设置训练数据读入训练模型的方式；

其中，超参数包括完成学习率与decay任务、分割实例、batch_size,epoch，优化器选用但不限于SGD、Adam，较好的，选择Adam，Adam具有可动态调整学习率等方面的优势,将训练数据以生成器函数batch读入训练模型中；

训练过程：调用PSENet forward网络，通过模型预测结果与真实标签比对和损失函数计算当前损失情况，采用优化器计算网络参数梯度并更新，迭代训练至到达理想精度，将模型进行持久化：

具体的以epoch为单位进行训练，每个epoch完整对所有数据分batch进行一次训练(不考虑边界问题)，将每个batch数据传入模型中，调用PSENet forward网络，通过训练数据与真实标签比对并通过损失函数计算当前损失情况，采用Adam优化器计算网络参数梯度并更新，迭代训练至到达理想精度，将模型进行持久化；通过不断的模型迭代，每次模型预测出来的结果都与真实标签做比较，倘若模型预测结果与真实标签基本一致，比如预测精度达到95％，将此时的模型参数保存，即持久化保存。

其中，由于在医疗票据的文本检测中，负样本区域远大于正样本区域，损失函数采用dice coefficient定义，根据传入模型的训练数据的损失筛选出检测效果差的样本，将筛选出的检测效果差的样本抽出组合并在随机梯度下降中训练，损失函数具体包括：

其中S_x，y为预测结果像素点的值，G_x，y为真实标签中像素的点值。

损失函数被定义为L＝λL_C+(1-λ)L_S其中L_C是文本区域的分类损失，L_S是收缩文本实例的损失，有

L_C＝1-D(S_n×M,G_n×M)

M由在线难例挖掘算法生成，为0/1byte码；根据传入模型的训练数据的损失筛选出检测效果差的样本，然后将筛选出的样本抽出组合并采用Adam进行训练。

具体的，通过分水岭分割方法对若干所述文本分割实例进行处理，确定最终的文本行区域和背景区域，包括以下步骤：

首先，获取前景图像标记，具体的将最小文本分割实例内部的像素标记为前景区域，并将该区域像素值设置为255；获取背景图像标记，具体的，将最大文本分割实例外部的像素标记为背景区域，并将该区域像素值设置为128；获取不确定区域，具体的，将最小文本分割实例和最大文本分割实例之间的区域作为不确定区域，并将该区域像素值设置为0。

其次，运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域，具体的，包括以下步骤：

把不确定区域的梯度图像中的像素进行排序，获取分水岭分割算法测地距离阈值，并将不确定区域的最小值标记为最低点，具体的，通过运行OTSU算法获取分水岭算法测地距离阈值；

使测地距不断增长，筛选出小于测地距值的像素，若这些像素到最低点的距离小于测地距离阈值，则淹没，否则再取这些像素的灰度值作为局部阈值，即构建大坝，完成局部区域的文本区域和非文本区域的分类；

测地距不断增长直到灰度值的最大值，所有区域都在分水岭线上相遇，完成文本区域于背景的分离，完成所有像素的类别归属判别，即得到最终的文本行区域和背景区域。

根据本发明内容，实施时，m设置为0.5，n设置为6，特征提取网络选用ResNet-152，M设置为3，将训练数据以生成器函数batch读入模型训练中，采用Adam优化器，在训练过程中，输入的图像维度为[B,3,H,W],分别对应为batch_size大小、图像通道数和图像高与宽；

设置文本分割实例数为6,对于批量训练图像特征图，对其进行图像下采样、特征融合和图像上采样，输出的与原始图像尺寸相同的batch,即为[B,6,H,W],对于每张图像的每个文本行，生成6个文本分割结果S₁，S₂，…，S₆；

采用了医疗票据(包括门诊发票和住院发票)进行测试实验，每种类型的图片都包含1000张，测试设备的显卡为Tesla V100，32GB显存。在实验中，将所有图片都最短边都限制为1000，

在上述同等条件下，通过Watershed分割算法替换PSENet原始的BFS算法，分离所有文本区域的最小分割结果S₆组合作为Watershed的置信前景标记图像，对最大分割结果S₁取反作为Watershed的置信背景标记图像，而S₂,S₃,...,S₅作为算法的不确定区域来进行处理：

对于原始的psenet算法，精确度达到92.37％，FPS(模型每秒钟处理完成的图片数量，包含数据前后处理)达到11；本方法精确度达到92.51％，FPS达到48；可见，在保证精度的情况下，本发明的处理速度是原始的psenet算法的4倍以上，与现有技术相比，本发明提供的一种图像文本检测与OCR识别方法，通过上述步骤，且通过分水岭分割方法替换原始PSENet算法中的广度优先搜索(BFS)算法对若干所述文本分割实例进行后处理，有效将算法时间复杂度降低到O(N)，解决了采用PSENet算法流程中的广度优先算法，对各文本分割实例进行逐像素的四邻域搜索与合并，会导致在该检测阶段的算法时间复杂度达到O(N²)，检测速度慢、效率低的问题，从而提高了图像处理速度、加快了效率。

本发明还提供一种图像文本检测与OCR识别系统，包括预处理模块：用于对图片进行预处理获得训练数据；训练网络搭建模块：用于提取所述训练数据的初步特征得到返回结果并根据所述返回结果搭建训练网络；训练模块：用于训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例；处理模块：用于通过分水岭分割算法对若干所述文本分割实例进行处理完成检测识别。本发明提供的一种图像文本检测与OCR识别系统提高了图像处理速度、加快了效率。

本发明还提供一种计算机可读存储介质，计算机可读存储介存储有计算机指令，所述计算机被处理器执行时实现如上任一项所述的一种图像文本检测与OCR识别方法。

具体实施时，计算机可读存储介质为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；计算机可读存储介质还可以包括上述种类的存储器的组合。

尽管本文中较多的使用了诸如训练数据、初步特征、训练网络、训练模型、文本分割实例、分水岭分割等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像文本检测与OCR识别方法，其特征在于：包括以下步骤：

对图片进行预处理获得训练数据；

2.根据权利要求1所述的图像文本检测与OCR识别方法，其特征在于：标注图片的文本区域，标注有所述文本区域的图片为原始文本坐标标签；对所述原始文本坐标标签进行处理生成若干形状相似、中心点相同但尺寸不同的文本分割核作为所述训练网络的训练数据。

3.根据权利要求1所述的图像文本检测与OCR识别方法，其特征在于：所述训练网络为PSENet forward网络；

4.根据权利要求3所述的图像文本检测与OCR识别方法，其特征在于：训练模型调用所述训练网络对所述训练数据进行训练以获得若干文本分割实例包括以下步骤：

训练完成输出若干文本分割实例。

5.根据权利要求4所述的图像文本检测与OCR识别方法，其特征在于：采用dicecoefficient定义损失函数，根据传入模型的训练数据的损失筛选出检测效果差的样本，将筛选出的检测效果差的样本抽出组合并在随机梯度下降中训练。

6.根据权利要求1所述的图像文本检测与OCR识别方法，其特征在于：通过分水岭分割方法对若干所述文本分割实例进行处理，确定最终的文本行区域和背景区域，包括以下步骤：

获取前景图像标记、背景图像标记和不确定区域；

7.根据权利要求6所述的图像文本检测与OCR识别方法，其特征在于：获取前景图像标记、背景图像标记和不确定区域包括以下步骤：

8.根据权利要求6所述的图像文本检测与OCR识别方法，其特征在于：运行分水岭分割算法对不确定区域进行处理得到最终的文本行区域和背景区域包括以下步骤：

9.一种图像文本检测与OCR识别装置，其特征在于：包括

预处理模块：用于对图片进行预处理获得训练数据；

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现如权利要求1-8任一项所述的一种图像文本检测与OCR识别方法。