CN115116072B

CN115116072B - 基于基线定位与序列建模的自然场景下的藏文识别方法

Info

Publication number: CN115116072B
Application number: CN202210819627.4A
Authority: CN
Inventors: 程建; 侯琴; 胡永祥; 刘思宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2025-02-11
Anticipated expiration: 2042-07-12
Also published as: CN115116072A

Abstract

本发明属于文本识别技术领域，具体涉及一种基于基线定位与序列建模的自然场景下的藏文识别方法，本发明包括：1)构建自然场景下的藏文图像数据集并进行标注；2)扩充数据集并对数据集图像进行预处理；3)构建基线检测器，对藏文文本的基线位置进行定位；4)构建特征提取器，使用不同的特征提取方法获取横竖排文本图像的序列特征表示；5)构建基于TCN的序列建模网络，建模序列关系；6)构建CTC转录模块，将表征序列关系的输出特征送入转录层得到藏文识别的结果。本发明通过上述技术方案，极大的增强了特征提取、序列关系建模的有效性，提高了序列的并行处理能力，进而提高了自然场景下藏文识别的精度和效率。

Description

基于基线定位与序列建模的自然场景下的藏文识别方法

技术领域

本发明涉及文本识别、计算机视觉和深度学习领域，特别是涉及一种基于基线定位与序列建模的自然场景下的藏文识别方法。

背景技术

在当前数字化时代背景下，人们生活和生产中需要处理大量的文本信息，耗费大量的精力与时间。在此情况下，对文本内容的智能识别具有较高的研究价值与应用价值。自然场景下的文本识别被广泛运用于文献资料检索、阅读、信息识别、机器翻译等任务上，是计算机视觉领域的一项关键任务。藏文是一种历史悠久、应用广泛的文字，对于藏文文本的识别具有重要的研究价值与意义。然而，当前自然场景下的文本识别方法主要针对中文、英文，对藏文识别的研究较少。

目前对自然场景下藏文的识别主要基于深度学习算法，主流的方法是使用卷积循环神经网络完成藏文的识别。这类方法通过卷积神经网络提取特征之后送入循环神经网络中建模序列关系，最后转录输出识别结果。然而这类方法会将特征沿高度方向进行压缩，无法实现竖排藏文的识别，且受循环神经网络自身的序列结构特性限制，必须将按时间顺序进行逐步推理，无法进行大规模的并行处理，计算耗时耗力。此外，由于能够采集到的自然场景藏文图像有限，导致模型训练不充分，性能较差。因此，现有的自然场景下的藏文识别方法效率和精度普遍较低。

发明内容

针对现有技术中自然场景下的藏文图像数据不足，藏文识别精度、效率较低且无法识别竖排文字的问题，本发明拟提供一种基于基线定位与序列建模的自然场景下的藏文识别方法，其目的在于，提供一种合成算法扩充数据集缓解数据不足对模型训练的影响，通过基线定位、窗口划分实现竖排文本的识别，使用并列、双向的TCN网络在保证序列相关信息提取能力的同时，支持并行处理，提升藏文识别的性能，改善现有方法存在的问题。

本发明采用的技术方案如下：

一种基于基线定位与序列建模的自然场景下的藏文识别方法，包括：

步骤1：采集包含藏文文本的自然场景图像，裁剪出其中所有的藏文文本图像块，对藏文文本图像块进行透视变换之后进行文本基线和内容标注，得到藏文文本图像基本数据集；

步骤2：通过图像合成算法合成藏文文本图像扩充数据集，并对藏文文本图像基本数据集和藏文文本图像扩充数据集进行预处理；

步骤3：基于卷积神经网络构建文本基线检测器，利用文本基线检测器提取藏文文本图像特征，预测文本的基线高度位置并经后处理后得到基线定位结果；

步骤4：根据步骤3中的基线定位结果判断文本类型，构建对应不同文本类型的特征提取网络，获取藏文文本图像的序列特征；

步骤5：构建基于两个并列、反向的TCN网络的序列建模网络，将步骤4提取的序列特征送入两个TCN网络，得到表征序列关系的输出特征；

步骤6：基于CTC算法构建CTC转录模块，将步骤5中的输出特征送入CTC转录模块得到藏文识别结果，并基于识别结果通过联合损失函数对模型进行优化。

进一步的，步骤1的具体步骤为：

步骤1.1：从网络地图、社交软件、搜索引擎上采集包含藏文文本的自然场景图像；

步骤1.2：裁剪出其中所有的藏文文本图像块，并且透视变换至正视角图像，对其中文本的基线高度位置和内容进行标注，得到藏文文本图像基本数据集。

进一步的，步骤2中通过图像合成算法合成藏文文本图像扩充数据集的具体步骤为：

步骤2.1：从藏文网站采集藏文文本数据并去除其中的非藏文字符；

步骤2.2：将步骤2.1的文本数据随机切分成不同长度的藏文文本，构建横排文本数据库；

步骤2.3：将步骤2.1的文本数据按照藏文音节分隔符分割成单个音节，构建竖排文本数据库；

步骤2.4：采集不含文本的自然场景图像，构建自然场景背景库；

步骤2.5：合成藏文文本图像：对于横排文本，随机从横排文本数据库中选择藏文文本渲染至自然场景背景库中的自然场景图像上；对于竖排文本，随机从竖排文本数据库中选择3～5个藏文音节从上往下渲染至自然场景背景库中的的自然场景图像上；

步骤2.6：从步骤2.5中合成的藏文文本图像中裁剪出文本区域，并记录文本的基线高度和文本的内容，得到藏文文本图像扩充数据集。

进一步的，步骤2中预处理的具体步骤为：

将藏文文本图像基本数据集和藏文文本图像扩充数据集中的藏文文本图像分辨率修改为320×320，按照r₁:r₂划分训练集与测试集，对于训练集的图像，以概率p_s随机给图像添加高斯噪声进行数据增强。

进一步的，步骤3中利用文本基线检测器提取藏文文本图像特征的具体步骤如下：

步骤3.1：对于形状为3×H×W的输入图像数据，使用文本基线检测器提取藏文文本块特征，将其形状变换至C×H×W/4，C为特征维度，H为图像高度，W为图像宽度；

步骤3.2：将藏文文本块特征通过全局平均池化层进一步压缩宽度信息，再通过全连接层经Sigmoid激活后预测基线分布在图像中某一高度的概率p，其表达式为：

p＝Sigmoid(FC(GAP(X_f)))

其中X_f表示特征；

步骤3.3：设置概率阈值为p_thres，若概率p的值大于p_thres则认定该高度处存在基线，同时设置间距阈值D对相近像素进行合并，从而得到基线的数量N_L以及位置信息P_N，基于二元交叉熵损失对基线检测器进行优化，具体如下：

其中，y_h表示高度h处的标签值，p_h为网络预测出的高度h处存在基线的概率。

进一步的，步骤4的具体步骤为：

步骤4.1：根据步骤3中的基线定位结果判断图像中文本的类型，若只检测出一条基线则判定为横排文本，否则判定为竖排文本；

步骤4.2：对于判定为横排文本的图像，基于MobileNetV3提取文本图像序列特征；对于判定为竖排文本的图像，首先根据基线数量将其切分成N_L个窗口，将窗口缩放成32×320大小，分窗口基于MobileNetV3提取序列特征，然后将窗口特征沿序列长度方向拼接并通过全局平均池化层调整序列长度。

进一步的，步骤5中的具体步骤为：

步骤5.1：将步骤4提取出的序列特征分别送入两路并列、反向的TCN网络得到表征序列关系的输出特征和L表示序列长度；

步骤5.2：将两路TCN网络的输出特征X^F和X^R拼接得到序列建模模块输出X_c：

X_c＝concat(X^F,X^R)

其中，与(n＝1,2,...,L)对应拼接；

步骤5.3：训练时，分别将X^F和X^R通过一个Classifier映射到标注空间得到概率分布和使用基于KL散度的一致性损失对两路TCN网络进行优化，其表达式为：

其中(i＝1,2,...,L)表示在时间步i的输出字符概率分布；

两个KL散度和计算如下:

其中表示在时间步i时输出为字符x_j的概率，N表示字符总数。

进一步的，步骤6具体包括以下步骤：

步骤6.1：基于CTC算法将步骤5的输出映射到标注空间，然后通过合并重复字符、去除空字符ε进行解码得到最终的识别结果Y；

步骤6.2：使用负对数条件概率计算CTC损失，具体定义如下：

其中Ω为训练集，L_i、l_i分别表示第i张藏文文本图像、文本的标签，Y_i表示将L_i通过特征提取网络、序列建模网络后的输出；

步骤6.3：训练时，使用CTC损失一致性损失基线定位损失三个损失的联合损失对整个网络参数进行优化，联合损失如下：

其中α、β为平衡系数。

综上所述，通过采用以上技术方案，本发明的有益效果是：

1、本发明通过文本渲染、泊松融合等方式合成自然场景文本图像扩充数据集，解决了自然场景藏文文本图像数据不足的问题；

2、本发明通过构建基线检测器判断文本类别，基于窗口划分、特征拼接的方式实现竖排文字识别，解决了循环卷积神经网络无法识别竖排文字的问题。

3、本发明采用并列、双向的时序卷积网络建模序列关系，获取充分的上下文信息，实现了大规模的并行处理，提升了藏文识别的精度与效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为藏文识别的流程示意图；

图2为本发明中数据合成及预处理流程图；

图3为本发明中基线检测器结构图；

图4为本发明中特征提取网络结构图；

图5为本发明中基于TCN的藏文识别网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是在于提供一种基于基线定位与序列建模的自然场景下的藏文识别方法，具有藏文识别精度、效率高的特点。

为了使本发明所述目的、特征以及优点更加明显易懂，下面结合附图和具体实施方法对本发明作进一步详细说明。

如图1所示，本发明提出的一种基于基线定位与序列建模的自然场景下的藏文识别方法，包括以下步骤：

步骤4：构建特征提取器，根据步骤3的基线定位结果判断文本类型(横排或竖排)。针对不同类型文本，基于MobileNetV3使用不同的特征提取方式获取文本图像的序列特征。

以下结合具体实施例对以上所述步骤特征作进一步详细描述：

步骤1中：从网络地图、社交软件、搜索引擎等上采集包含藏文文本的自然场景图像，裁剪出其中所有的藏文文本图像块并透视变换至正视角图像。标注藏文文本的基线高度位置h和内容c，得到藏文文本图像基本数据集，其中基线位置h以像素作为单位。

步骤2中：扩充数据集并对图像数据进行预处理。首先从藏文网站上采集藏文文本数据并去除其中的非藏文字符。将藏文文本数据随机切分成不同长度(以音节为单位)构建横排文本数据库d1；将文本数据切分成音节构建竖排文本数据库d2。然后从网络上采集不含有文本的自然场景图像构建自然场景背景库d3。对于横排文本图像合成，随机从d1中选择文本，从d3中选择图像，将文本渲染至图像上；对于竖排文本图像合成，随机从d2中选择3～5个音节，从d3中选择图像，将音节从上往下渲染至图像上。对于合成的图像，裁剪出文本区域并记录基线位置h与文本内容c，得到藏文文本图像扩充数据集。将所有的文本图像分辨率修改为320×320，按照r₁:r₂划分训练集与测试集，本实例中r₁:r₂＝7:3。对于训练集图像，以概率p_s随机给图像添加高斯噪声进行数据增强，本实例中，p_s＝0.5。详细的图像合成与预处理步骤如图2所示。

步骤3中：构建文本基线检测器，提取文本图像特征之后预测图像中的文本基线位置。首先，将藏文文本图像X送入卷积神经网络提取特征得到特征图X_f。具体地，特征提取网络由四个卷积块构成，每个卷积块包含连续的三个3×3卷积层或5×5的卷积层，通道数随着深度递增。然后将X_f通过一个全局平均池化层后再通过全连接层经Sigmoid激活后预测基线分布在图像中某一高度的概率p，其表达式为：

p＝Sigmoid(FC(GAP(X_f)))

若概率值大于p_thres，则认为此处存在基线，同时设置间距阈值D对相近像素进行合并，从而得到基线的数量N_L以及位置信息P_N。在本实例中p_thres＝0.5，D＝25。使用二元交叉熵损失对基线检测网络进行优化，具体如下：

其中，y_h表示高度h处的标签值(0或1，0表示不存在基线，1表示存在基线)，p_h为网络预测出的高度h处存在基线的概率；

步骤4中：根据基线检测器输出的基线数量N_L，若N_L＝1则认定该文本为横排文本，若N_L≥2则认定该文本为竖排文本。针对不同文本基于MobileNetV3网络进行相应调整提取序列特征。对于横排文本图像，特征提取网络结构为：3×3卷积层(s＝(2,1))-BneckBlocks1-1×1卷积层-5×5最大池化层。对于竖排文本图像，根据基线数量将其切分成N_L个窗口，将窗口缩放成32×320大小，分窗口提取特征之后沿序列长度方向拼接，并通过全局平均池化层调整序列长度。具体的，竖排文本的特征提取网络结构为：3×3卷积层(s＝(2,2))-BneckBlocks2-1×1卷积层-2×2最大池化层。BneckBlocks1和BneckBlocks2都由一系列bneck基本单元构成。序列特征提取网络的输出为C表示特征维度，L表示序列长度。本实例中，C＝512，L＝64。

步骤5中：将序列特征X_sf分别送入正向和反向TCN网络得到表征序列关系的输出特征和正向和反向网络均由两个残差块构成，区别在于：正向TCN中的卷积为膨胀因果卷积，反向TCN中的卷积为膨胀反因果卷积，具体结构如图5所示。将X^F和X^R拼接得到模块输出X_c：

X_c＝concat(X^F,X^R)

其中，与(n＝1,2,...,L)对应拼接。在训练时，分别将X^F和X^R通过一个Classifier映射到标注空间得到概率分布和使用基于KL散度的一致性损失对上述网络进行优化，其表达式为：

其中(i＝1,2,...,L)表示在时间步i的输出字符概率分布。

两个KL散度和计算如下:

步骤6中：基于CTC算法，将特征X_c映射到标注空间，然后通过合并重复字符、去除空字符ε进行解码得到最终的识别结果Y，CTC模块损失计算如下：

其中Ω为训练集，L_i、l_i分别表示第i张藏文文本图像、文本的标签，Y_i表示将L_i通过特征提取网络、序列建模网络后的输出。使用CTC损失一致性损失基线定位损失三个损失的联合损失对整个藏文识别网络的参数进行优化，联合损失如下：

其中α、β为平衡系数。在本实例中，α＝β＝0.5。

以上所述的具体实施仅为本发明的一种最佳实现方式，并不用于限制本发明的专利范围，凡是利用本发明精神和原则及附图内容所作的等效结构或等效流程变换，均应包括在本发明的专利保护范围内。

Claims

1.一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，包括：

2.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，步骤1的具体步骤为：

3.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，步骤2中通过图像合成算法合成藏文文本图像扩充数据集的具体步骤为：

4.根据权利要求3中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，步骤2中预处理的具体步骤为：

5.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，步骤3中利用文本基线检测器提取藏文文本图像特征的具体步骤如下：

p＝Sigmoid(FC(GAP(X_f)))

其中X_f表示特征；

6.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，步骤4的具体步骤为：

7.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，步骤5中的具体步骤为：

X_c＝concat(X^F,X^R)

其中，与对应拼接；

其中表示在时间步i的输出字符概率分布；

两个KL散度和计算如下:

8.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法，其特征在于，步骤6具体包括以下步骤：

步骤6.2：使用负对数条件概率计算CTC损失，具体定义如下：

其中α、β为平衡系数。