CN114863457B

CN114863457B - 一种购物票据的光学字符识别方法

Info

Publication number: CN114863457B
Application number: CN202110152434.3A
Authority: CN
Inventors: 张海军; 任狼
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2025-03-11
Anticipated expiration: 2041-02-03
Also published as: CN114863457A

Abstract

本发明公开了一种自然场景中购物票据图像的光学字符识别方法，该方法包括使用文本检测模块对原始图像进行区域检测获取票据文本图，以及使用文本识别模块对票据文本图进行文本识别。文本检测模块设置有显著性物体检测和文本检测至少两个任务，文本识别模块设置有基于Transformer的注意力模块。本发明公开的技术方案通过多任务模型的建立减少数据的过拟合，提高检测速度，通过基于Transformer的注意力模块将对齐过程和预测过程解耦，加快了推理速度并提高了文本识别精度。

Description

一种购物票据的光学字符识别方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种购物票据的光学字符识别方法。

背景技术

光学字符识别(optical character recognition,OCR)技术是以标准的编码方案对文本的图像到作为机器可编辑文本的数字形式的基于计算机的转换技术。该技术消除了将文档手动键入计算机系统的需求，在多个行业广泛使用，例如银行、商场、酒店、物流等。根据识别场景，可大致将OCR技术分为识别特定场景的专用OCR和识别多种场景的通用OCR。根据所识别图片的内容，可将场景分为清晰且具有固定模式的简单场景和更为复杂的自然场景。自然场景文本识别的难度极高，原因包括：图片背景极为丰富，经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题，而且文本的布局可能存在扭曲、褶皱、换向等问题，其中的文字也可能字体多样、字号字重颜色不一的问题。

购物票据的OCR技术对于购物商场尤为重要。为了提高用户粘性，购物商场通常会根据用户的消费情况开展多种优惠活动，比如，返回给用户能用于抵扣现金的积分。这需要准确获悉用户消费信息，然而，由于商场内各品牌票据电子化以及其他商业原因，这些信息一般很难直接获取。

发明内容

基于此，本发明的目的是通过建立多任务的文本检测模型和基于Trans-former注意力模块的文本识别模型，实现在自然场景中对票据文本信息的快速且高精度的识别，解决现有技术中自然场景中的票据识别出错率高的问题。

本发明的目的是通过以下技术方案实现的：

一种购物票据的光学字符识别的方法，该方法包括：

S1：使用文本检测模块对原始图像进行区域检测，获取票据文本图；所述原始图像包括票据背景和票据文本，所述票据文本图包括票据文字信息和票据条码信息；所述区域检测的方法包括，对原始图像进行数据增强，选用第一深度神经网络提取票据特征图，建立显著性物体检测和文本检测至少两个任务，所述显著性物体检测用于获取票据轮廓，所述文本检测用于获取所述票据轮廓内的票据文本图；

S2：使用文本识别模块对步骤S1获取的所述票据文本图进行文本识别，获取文本文字内容；所述文本识别模块包括STN矫正网络、特征提取网络、基于Transformer的注意力模块以及Transformer解码器；所述基于Transformer的注意力模块包括，Transformer注意力权重和注意力机制；

其中，所述对票据文本图进行文本识别的方法包括：

输入票据文本图，通过STN矫正网络矫正图像拍摄问题，所述图像拍摄问题包括扭曲、弯折和视角问题；

选用第二深度神经网络将票据文本图压缩成第一序列，所述第一序列包括若干向量；

发送所述第一序列至所述基于Transformer的注意力模块，经过学习注意力权重以及更新模块参数，输出第二序列；

所述第二序列经Transformer解码器解码获取第三序列，所述第三序列经概率映射输出所述输入票据文本图的预测文本内容。

具体地，所述文本检测选用递进聚合的方法。

优选地，所述第一深度神经网络包括残差神经网络组件，选用可变形卷积。

优选地，所述第一序列的长度为输入票据文本图图像宽度的四分之一。

具体地，所述第一序列中每个向量的维度为所述第二深度神经网络的最后一层卷积网络输出的通道数。

具体地，所述第三序列包括若干预测向量，所述各预测向量的维数等于对应字符类别数，选用softmax函数将预测向量的值映射到概率空间，获取对应字符的概率值，选取概率值最大的字符组成预测文本内容。

具体地，所述文本检测模块和所述文本识别模块的训练集样本由人工合成，所述人工合成训练集样本的步骤包括，随机生成文本边距，从票据背景库、票据语料库和票据字体库中选取数据，将语料数据按照字体数据的规范，写入背景数据中，并模拟自然场景下各种图像损耗。

更近一步地，所述图像损耗，包括模糊、弯曲、亮度损耗、颜色损耗、锐度损耗、随时线条和随机噪声。

更近一步地，所述票据背景库包括原始图像的票据背景，所述票据语料库包括票据通用语料和票据标注语料，所述票据字体库包括票据常用字体。

具体地，所述对原始图像进行数据增强的方法包括，随机尺度变换、随机水平翻转、随机旋转以及随机裁剪操作。

本发明公开的上述技术方案具有如下的有益效果：

1)多任务检测模型的构建，去除原始图像中购物票据之外的文本信息，减少计算网络的过拟合，为后续的应用以及购物票据的图像矫正提供基础；

2)对原始图像的数据增强，提升文本检测的鲁棒性和精度；

3)特征提取网络采用可变形卷积，提升处理复杂图像文本信息的能力；

4)基于Transformer的注意力模块，将对齐过程与预测过程解耦，提高文本识别的精度；

5)人工合成训练集样本对文本检测模块和文本识别模块进行训练，提高模型的泛化能力。

附图说明

图1是本发明购物票据文本检测模块结构图；

图2是本发明购物票据文本识别模块结构图；

图3是本发明人工合成训练集样本的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明的具体实施方式作进一步详细描述。应该理解，此处所描述的实施例仅用于解释本发明，但不用于限制本发明的范围。

请参阅附图1和图2，图1是本发明购物票据文本检测模块结构图，图2是本发明购物票据文本识别模块结构图，由图1和图2可知：

本发明公开了一种购物票据的光学字符识别的方法，该方法包括：

S1：使用文本检测模块对原始图像进行区域检测，获取票据文本图；原始图像包括票据背景和票据文本，票据文本图包括票据文字信息和票据条码信息；区域检测的方法包括，对原始图像进行数据增强，选用第一深度神经网络提取票据特征图，建立显著性物体检测和文本检测至少两个任务，显著性物体检测用于获取票据轮廓，文本检测用于获取票据轮廓内的票据文本图；

对购物票据的原始图像进行数据增强。为保证模型的批次训练，针对同一批次数据进行相同的数据增强方法，数据分别以一定的概率进行不同类别的数据增强，包括随机尺度变换、随机水平翻转、随机旋转以及随机裁剪操作，某一批次数据可能采用上述零种或多种操作。

经过数据强的原始图像经过第一深度神经网络进行特征提取获取特征图，该第一深度神经网络由残差神经网络组件构成，网络的整体结构类似于特征金字塔网络，网络中每次下采样的第一个卷积模块由可变形卷积替换。卷积核的形状固定为矩形，这使得卷积对于复杂形状得到感受能力有限，虽然通过叠加卷积层，深层特征图各个像素对应的感受野逐渐增大，但是这种感受野仍为固定的矩形。可变形卷积网络在原有的卷积位置上增加了一层卷积，能在原本的卷积核基础上进行水平和垂直方向进一步调整，这种调整由卷积核位置加上偏移量完成，可变形卷积单元增加的偏移量是额外卷积层的输出，这些信息通过学习得到。

为了区分距离接近的不同文本图像，增强后的原始图像经过特征提取网络得到若干特征图，其中一张用于检测票据轮廓，其余的用于检测生成票据文本图，这些生成票据文本图的特征图分别对应不同尺寸。训练时，这些特征图与不同尺寸的票据的原始图像二值图计算损失函数，通过梯度下降更新模型的参数。在推理时，通过广度优先的思想以尺度最小的特征图为基准，递进聚合得到输出票据文本图，小尺寸特征图用于区分不同文本，大尺寸特征图用于学习票据文本图的轮廓，最后通过递进聚合的方法输出票据文本图。

S2：使用文本识别模块对步骤S1获取的票据文本图进行文本识别，获取文本文字内容。本发明实施例的文本识别模块文本识别模块包括STN矫正网络、特征提取网络、基于Transformer的注意力模块以及Transformer解码器；基于Transformer的注意力模块包括，Transformer注意力权重和注意力机制。

首先通过STN矫正网络对步骤S1获取的票据文本图像进行矫正，STN矫正网络不需要额外的监督信息就可以学习到对图像进行变换所需参数，该网络的矫正是由两组控制点来完成的，网络对于输入图像中控制点的位置有一个先验，即为距离上下边界固定距离的两组坐标，同时，输入图像通过卷积层和全连接层组成的预测网络可以学习到当前票据文本图像上实际的控制点，使用这两组控制点计算可以得到一个映射，将其应用于输入图像即可对票据文本图像进行矫正。通过STN矫正网络矫正图像拍摄问题，图像拍摄问题包括扭曲、弯折和视角问题。

将矫正后的票据文本图像输入特征提取网络。具体为，选用第二深度神经网络将票据文本图压缩成一维的第一序列，压缩后获取的第一序列的长度为输入票据文本图像宽度的四分之一，第一序列中每个向量的维度为最后一层卷积网络输出的通道数。

将第一序列输入Transformer权重分支用于学习注意力权重，将第一序列输入Transformer注意力模块，更新注意力机制的键与值，经过学习注意力权重以及更新模块参数，输出第二序列。

第二序列经Transformer解码器解码获取第三序列，第三序列经概率映射输出输入票据文本图的预测文本内容。具体为，第三序列中每个元素为一个字符类别数相同维数的预测向量，通过softmax函数将各预测向量的值映射到概率空间，得到每一维对应某一字符的概率值，取概率最大的字符组成预测文本内容。

请参阅附图3，图3是本发明实施例人工合成训练集样本的流程图。特别地，文本检测模块和文本识别模块的训练集样本由人工合成，由图3可知，人工合成训练集样本的步骤包括，随机生成文本边距，从票据背景库、票据语料库和票据字体库中选取数据，将语料数据按照字体数据的规范，写入背景数据中，并模拟自然场景下各种图像损耗。其中，图像损耗，包括模糊、弯曲、亮度损耗、颜色损耗、锐度损耗、随时线条和随机噪声。票据背景库包括原始图像的票据背景，票据语料库包括票据通用语料和票据标注语料，票据字体库包括票据常用字体。使用人工合成训练集进行模型训练使模型能够学习到更多的通用文字组合和更复杂的环境，提高模型的泛化能力。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种购物票据的光学字符识别的方法，其特征在于，该方法包括：

其中，所述对票据文本图进行文本识别的方法包括：输入票据文本图，通过STN矫正网络矫正图像拍摄问题，所述图像拍摄问题包括扭曲、弯折和视角问题；选用第二深度神经网络将票据文本图压缩成第一序列，所述第一序列包括若干向量；发送所述第一序列至所述基于Transformer的注意力模块，经过学习注意力权重以及更新模块参数，输出第二序列；所述第二序列经Transformer解码器解码获取第三序列，所述第三序列经概率映射输出所述输入票据文本图的预测文本内容。

2.根据权利要求1所述的光学字符识别的方法，其特征在于，所述文本检测选用递进聚合的方法。

3.根据权利要求1所述的光学字符识别的方法，其特征在于，所述第一深度神经网络包括残差神经网络组件，选用可变形卷积。

4.根据权利要求1所述的光学字符识别的方法，其特征在于，所述第一序列的长度为输入票据文本图图像宽度的四分之一。

5.根据权利要求1所述的光学字符识别的方法，其特征在于，所述第一序列中每个向量的维度为所述第二深度神经网络的最后一层卷积网络输出的通道数。

6.根据权利要求1所述的光学字符识别的方法，其特征在于，所述第三序列包括若干预测向量，所述各预测向量的维数等于对应字符类别数，选用softmax函数将预测向量的值映射到概率空间，获取对应字符的概率值，选取概率值最大的字符组成预测文本内容。

7.根据权利要求1所述的光学字符识别的方法，其特征在于，所述文本检测模块和所述文本识别模块的训练集样本由人工合成，所述人工合成训练集样本的步骤包括，随机生成文本边距，从票据背景库、票据语料库和票据字体库中选取数据，将语料数据按照字体数据的规范，写入背景数据中，并模拟自然场景下各种图像损耗。

8.根据权利要求7所述的光学字符识别的方法，其特征在于，所述图像损耗，包括模糊、弯曲、亮度损耗、颜色损耗、锐度损耗、随时线条和随机噪声。

9.根据权利要求7所述的光学字符识别的方法，其特征在于，所述票据背景库包括原始图像的票据背景，所述票据语料库包括票据通用语料和票据标注语料，所述票据字体库包括票据常用字体。

10.根据权利要求1所述的光学字符识别的方法，其特征在于，所述对原始图像进行数据增强的方法包括，随机尺度变换、随机水平翻转、随机旋转以及随机裁剪操作。