CN115116072B - 基于基线定位与序列建模的自然场景下的藏文识别方法 - Google Patents
基于基线定位与序列建模的自然场景下的藏文识别方法 Download PDFInfo
- Publication number
- CN115116072B CN115116072B CN202210819627.4A CN202210819627A CN115116072B CN 115116072 B CN115116072 B CN 115116072B CN 202210819627 A CN202210819627 A CN 202210819627A CN 115116072 B CN115116072 B CN 115116072B
- Authority
- CN
- China
- Prior art keywords
- text
- tibetan
- image
- baseline
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004807 localization Effects 0.000 title 1
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000013518 transcription Methods 0.000 claims abstract description 8
- 230000035897 transcription Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 16
- 238000005520 cutting process Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 210000005266 circulating tumour cell Anatomy 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/246—Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于文本识别技术领域,具体涉及一种基于基线定位与序列建模的自然场景下的藏文识别方法,本发明包括:1)构建自然场景下的藏文图像数据集并进行标注;2)扩充数据集并对数据集图像进行预处理;3)构建基线检测器,对藏文文本的基线位置进行定位;4)构建特征提取器,使用不同的特征提取方法获取横竖排文本图像的序列特征表示;5)构建基于TCN的序列建模网络,建模序列关系;6)构建CTC转录模块,将表征序列关系的输出特征送入转录层得到藏文识别的结果。本发明通过上述技术方案,极大的增强了特征提取、序列关系建模的有效性,提高了序列的并行处理能力,进而提高了自然场景下藏文识别的精度和效率。
Description
技术领域
本发明涉及文本识别、计算机视觉和深度学习领域,特别是涉及一种基于基线定位与序列建模的自然场景下的藏文识别方法。
背景技术
在当前数字化时代背景下,人们生活和生产中需要处理大量的文本信息,耗费大量的精力与时间。在此情况下,对文本内容的智能识别具有较高的研究价值与应用价值。自然场景下的文本识别被广泛运用于文献资料检索、阅读、信息识别、机器翻译等任务上,是计算机视觉领域的一项关键任务。藏文是一种历史悠久、应用广泛的文字,对于藏文文本的识别具有重要的研究价值与意义。然而,当前自然场景下的文本识别方法主要针对中文、英文,对藏文识别的研究较少。
目前对自然场景下藏文的识别主要基于深度学习算法,主流的方法是使用卷积循环神经网络完成藏文的识别。这类方法通过卷积神经网络提取特征之后送入循环神经网络中建模序列关系,最后转录输出识别结果。然而这类方法会将特征沿高度方向进行压缩,无法实现竖排藏文的识别,且受循环神经网络自身的序列结构特性限制,必须将按时间顺序进行逐步推理,无法进行大规模的并行处理,计算耗时耗力。此外,由于能够采集到的自然场景藏文图像有限,导致模型训练不充分,性能较差。因此,现有的自然场景下的藏文识别方法效率和精度普遍较低。
发明内容
针对现有技术中自然场景下的藏文图像数据不足,藏文识别精度、效率较低且无法识别竖排文字的问题,本发明拟提供一种基于基线定位与序列建模的自然场景下的藏文识别方法,其目的在于,提供一种合成算法扩充数据集缓解数据不足对模型训练的影响,通过基线定位、窗口划分实现竖排文本的识别,使用并列、双向的TCN网络在保证序列相关信息提取能力的同时,支持并行处理,提升藏文识别的性能,改善现有方法存在的问题。
本发明采用的技术方案如下:
一种基于基线定位与序列建模的自然场景下的藏文识别方法,包括:
步骤1:采集包含藏文文本的自然场景图像,裁剪出其中所有的藏文文本图像块,对藏文文本图像块进行透视变换之后进行文本基线和内容标注,得到藏文文本图像基本数据集;
步骤2:通过图像合成算法合成藏文文本图像扩充数据集,并对藏文文本图像基本数据集和藏文文本图像扩充数据集进行预处理;
步骤3:基于卷积神经网络构建文本基线检测器,利用文本基线检测器提取藏文文本图像特征,预测文本的基线高度位置并经后处理后得到基线定位结果;
步骤4:根据步骤3中的基线定位结果判断文本类型,构建对应不同文本类型的特征提取网络,获取藏文文本图像的序列特征;
步骤5:构建基于两个并列、反向的TCN网络的序列建模网络,将步骤4提取的序列特征送入两个TCN网络,得到表征序列关系的输出特征;
步骤6:基于CTC算法构建CTC转录模块,将步骤5中的输出特征送入CTC转录模块得到藏文识别结果,并基于识别结果通过联合损失函数对模型进行优化。
进一步的,步骤1的具体步骤为:
步骤1.1:从网络地图、社交软件、搜索引擎上采集包含藏文文本的自然场景图像;
步骤1.2:裁剪出其中所有的藏文文本图像块,并且透视变换至正视角图像,对其中文本的基线高度位置和内容进行标注,得到藏文文本图像基本数据集。
进一步的,步骤2中通过图像合成算法合成藏文文本图像扩充数据集的具体步骤为:
步骤2.1:从藏文网站采集藏文文本数据并去除其中的非藏文字符;
步骤2.2:将步骤2.1的文本数据随机切分成不同长度的藏文文本,构建横排文本数据库;
步骤2.3:将步骤2.1的文本数据按照藏文音节分隔符分割成单个音节,构建竖排文本数据库;
步骤2.4:采集不含文本的自然场景图像,构建自然场景背景库;
步骤2.5:合成藏文文本图像:对于横排文本,随机从横排文本数据库中选择藏文文本渲染至自然场景背景库中的自然场景图像上;对于竖排文本,随机从竖排文本数据库中选择3~5个藏文音节从上往下渲染至自然场景背景库中的的自然场景图像上;
步骤2.6:从步骤2.5中合成的藏文文本图像中裁剪出文本区域,并记录文本的基线高度和文本的内容,得到藏文文本图像扩充数据集。
进一步的,步骤2中预处理的具体步骤为:
将藏文文本图像基本数据集和藏文文本图像扩充数据集中的藏文文本图像分辨率修改为320×320,按照r1:r2划分训练集与测试集,对于训练集的图像,以概率ps随机给图像添加高斯噪声进行数据增强。
进一步的,步骤3中利用文本基线检测器提取藏文文本图像特征的具体步骤如下:
步骤3.1:对于形状为3×H×W的输入图像数据,使用文本基线检测器提取藏文文本块特征,将其形状变换至C×H×W/4,C为特征维度,H为图像高度,W为图像宽度;
步骤3.2:将藏文文本块特征通过全局平均池化层进一步压缩宽度信息,再通过全连接层经Sigmoid激活后预测基线分布在图像中某一高度的概率p,其表达式为:
p=Sigmoid(FC(GAP(Xf)))
其中Xf表示特征;
步骤3.3:设置概率阈值为pthres,若概率p的值大于pthres则认定该高度处存在基线,同时设置间距阈值D对相近像素进行合并,从而得到基线的数量NL以及位置信息PN,基于二元交叉熵损失对基线检测器进行优化,具体如下:
其中,yh表示高度h处的标签值,ph为网络预测出的高度h处存在基线的概率。
进一步的,步骤4的具体步骤为:
步骤4.1:根据步骤3中的基线定位结果判断图像中文本的类型,若只检测出一条基线则判定为横排文本,否则判定为竖排文本;
步骤4.2:对于判定为横排文本的图像,基于MobileNetV3提取文本图像序列特征;对于判定为竖排文本的图像,首先根据基线数量将其切分成NL个窗口,将窗口缩放成32×320大小,分窗口基于MobileNetV3提取序列特征,然后将窗口特征沿序列长度方向拼接并通过全局平均池化层调整序列长度。
进一步的,步骤5中的具体步骤为:
步骤5.1:将步骤4提取出的序列特征分别送入两路并列、反向的TCN网络得到表征序列关系的输出特征和L表示序列长度;
步骤5.2:将两路TCN网络的输出特征XF和XR拼接得到序列建模模块输出Xc:
Xc=concat(XF,XR)
其中,与(n=1,2,...,L)对应拼接;
步骤5.3:训练时,分别将XF和XR通过一个Classifier映射到标注空间得到概率分布和使用基于KL散度的一致性损失对两路TCN网络进行优化,其表达式为:
其中(i=1,2,...,L)表示在时间步i的输出字符概率分布;
两个KL散度和计算如下:
其中表示在时间步i时输出为字符xj的概率,N表示字符总数。
进一步的,步骤6具体包括以下步骤:
步骤6.1:基于CTC算法将步骤5的输出映射到标注空间,然后通过合并重复字符、去除空字符ε进行解码得到最终的识别结果Y;
步骤6.2:使用负对数条件概率计算CTC损失,具体定义如下:
其中Ω为训练集,Li、li分别表示第i张藏文文本图像、文本的标签,Yi表示将Li通过特征提取网络、序列建模网络后的输出;
步骤6.3:训练时,使用CTC损失一致性损失基线定位损失三个损失的联合损失对整个网络参数进行优化,联合损失如下:
其中α、β为平衡系数。
综上所述,通过采用以上技术方案,本发明的有益效果是:
1、本发明通过文本渲染、泊松融合等方式合成自然场景文本图像扩充数据集,解决了自然场景藏文文本图像数据不足的问题;
2、本发明通过构建基线检测器判断文本类别,基于窗口划分、特征拼接的方式实现竖排文字识别,解决了循环卷积神经网络无法识别竖排文字的问题。
3、本发明采用并列、双向的时序卷积网络建模序列关系,获取充分的上下文信息,实现了大规模的并行处理,提升了藏文识别的精度与效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为藏文识别的流程示意图;
图2为本发明中数据合成及预处理流程图;
图3为本发明中基线检测器结构图;
图4为本发明中特征提取网络结构图;
图5为本发明中基于TCN的藏文识别网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是在于提供一种基于基线定位与序列建模的自然场景下的藏文识别方法,具有藏文识别精度、效率高的特点。
为了使本发明所述目的、特征以及优点更加明显易懂,下面结合附图和具体实施方法对本发明作进一步详细说明。
如图1所示,本发明提出的一种基于基线定位与序列建模的自然场景下的藏文识别方法,包括以下步骤:
步骤1:采集包含藏文文本的自然场景图像,裁剪出其中所有的藏文文本图像块,对藏文文本图像块进行透视变换之后进行文本基线和内容标注,得到藏文文本图像基本数据集;
步骤2:通过图像合成算法合成藏文文本图像扩充数据集,并对藏文文本图像基本数据集和藏文文本图像扩充数据集进行预处理;
步骤3:基于卷积神经网络构建文本基线检测器,利用文本基线检测器提取藏文文本图像特征,预测文本的基线高度位置并经后处理后得到基线定位结果;
步骤4:构建特征提取器,根据步骤3的基线定位结果判断文本类型(横排或竖排)。针对不同类型文本,基于MobileNetV3使用不同的特征提取方式获取文本图像的序列特征。
步骤5:构建基于两个并列、反向的TCN网络的序列建模网络,将步骤4提取的序列特征送入两个TCN网络,得到表征序列关系的输出特征;
步骤6:基于CTC算法构建CTC转录模块,将步骤5中的输出特征送入CTC转录模块得到藏文识别结果,并基于识别结果通过联合损失函数对模型进行优化。
以下结合具体实施例对以上所述步骤特征作进一步详细描述:
步骤1中:从网络地图、社交软件、搜索引擎等上采集包含藏文文本的自然场景图像,裁剪出其中所有的藏文文本图像块并透视变换至正视角图像。标注藏文文本的基线高度位置h和内容c,得到藏文文本图像基本数据集,其中基线位置h以像素作为单位。
步骤2中:扩充数据集并对图像数据进行预处理。首先从藏文网站上采集藏文文本数据并去除其中的非藏文字符。将藏文文本数据随机切分成不同长度(以音节为单位)构建横排文本数据库d1;将文本数据切分成音节构建竖排文本数据库d2。然后从网络上采集不含有文本的自然场景图像构建自然场景背景库d3。对于横排文本图像合成,随机从d1中选择文本,从d3中选择图像,将文本渲染至图像上;对于竖排文本图像合成,随机从d2中选择3~5个音节,从d3中选择图像,将音节从上往下渲染至图像上。对于合成的图像,裁剪出文本区域并记录基线位置h与文本内容c,得到藏文文本图像扩充数据集。将所有的文本图像分辨率修改为320×320,按照r1:r2划分训练集与测试集,本实例中r1:r2=7:3。对于训练集图像,以概率ps随机给图像添加高斯噪声进行数据增强,本实例中,ps=0.5。详细的图像合成与预处理步骤如图2所示。
步骤3中:构建文本基线检测器,提取文本图像特征之后预测图像中的文本基线位置。首先,将藏文文本图像X送入卷积神经网络提取特征得到特征图Xf。具体地,特征提取网络由四个卷积块构成,每个卷积块包含连续的三个3×3卷积层或5×5的卷积层,通道数随着深度递增。然后将Xf通过一个全局平均池化层后再通过全连接层经Sigmoid激活后预测基线分布在图像中某一高度的概率p,其表达式为:
p=Sigmoid(FC(GAP(Xf)))
若概率值大于pthres,则认为此处存在基线,同时设置间距阈值D对相近像素进行合并,从而得到基线的数量NL以及位置信息PN。在本实例中pthres=0.5,D=25。使用二元交叉熵损失对基线检测网络进行优化,具体如下:
其中,yh表示高度h处的标签值(0或1,0表示不存在基线,1表示存在基线),ph为网络预测出的高度h处存在基线的概率;
步骤4中:根据基线检测器输出的基线数量NL,若NL=1则认定该文本为横排文本,若NL≥2则认定该文本为竖排文本。针对不同文本基于MobileNetV3网络进行相应调整提取序列特征。对于横排文本图像,特征提取网络结构为:3×3卷积层(s=(2,1))-BneckBlocks1-1×1卷积层-5×5最大池化层。对于竖排文本图像,根据基线数量将其切分成NL个窗口,将窗口缩放成32×320大小,分窗口提取特征之后沿序列长度方向拼接,并通过全局平均池化层调整序列长度。具体的,竖排文本的特征提取网络结构为:3×3卷积层(s=(2,2))-BneckBlocks2-1×1卷积层-2×2最大池化层。BneckBlocks1和BneckBlocks2都由一系列bneck基本单元构成。序列特征提取网络的输出为C表示特征维度,L表示序列长度。本实例中,C=512,L=64。
步骤5中:将序列特征Xsf分别送入正向和反向TCN网络得到表征序列关系的输出特征和正向和反向网络均由两个残差块构成,区别在于:正向TCN中的卷积为膨胀因果卷积,反向TCN中的卷积为膨胀反因果卷积,具体结构如图5所示。将XF和XR拼接得到模块输出Xc:
Xc=concat(XF,XR)
其中,与(n=1,2,...,L)对应拼接。在训练时,分别将XF和XR通过一个Classifier映射到标注空间得到概率分布和使用基于KL散度的一致性损失对上述网络进行优化,其表达式为:
其中(i=1,2,...,L)表示在时间步i的输出字符概率分布。
两个KL散度和计算如下:
其中表示在时间步i时输出为字符xj的概率,N表示字符总数。
步骤6中:基于CTC算法,将特征Xc映射到标注空间,然后通过合并重复字符、去除空字符ε进行解码得到最终的识别结果Y,CTC模块损失计算如下:
其中Ω为训练集,Li、li分别表示第i张藏文文本图像、文本的标签,Yi表示将Li通过特征提取网络、序列建模网络后的输出。使用CTC损失一致性损失基线定位损失三个损失的联合损失对整个藏文识别网络的参数进行优化,联合损失如下:
其中α、β为平衡系数。在本实例中,α=β=0.5。
以上所述的具体实施仅为本发明的一种最佳实现方式,并不用于限制本发明的专利范围,凡是利用本发明精神和原则及附图内容所作的等效结构或等效流程变换,均应包括在本发明的专利保护范围内。
Claims (8)
1.一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,包括:
步骤1:采集包含藏文文本的自然场景图像,裁剪出其中所有的藏文文本图像块,对藏文文本图像块进行透视变换之后进行文本基线和内容标注,得到藏文文本图像基本数据集;
步骤2:通过图像合成算法合成藏文文本图像扩充数据集,并对藏文文本图像基本数据集和藏文文本图像扩充数据集进行预处理;
步骤3:基于卷积神经网络构建文本基线检测器,利用文本基线检测器提取藏文文本图像特征,预测文本的基线高度位置并经后处理后得到基线定位结果;
步骤4:根据步骤3中的基线定位结果判断文本类型,构建对应不同文本类型的特征提取网络,获取藏文文本图像的序列特征;
步骤5:构建基于两个并列、反向的TCN网络的序列建模网络,将步骤4提取的序列特征送入两个TCN网络,得到表征序列关系的输出特征;
步骤6:基于CTC算法构建CTC转录模块,将步骤5中的输出特征送入CTC转录模块得到藏文识别结果,并基于识别结果通过联合损失函数对模型进行优化。
2.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤1的具体步骤为:
步骤1.1:从网络地图、社交软件、搜索引擎上采集包含藏文文本的自然场景图像;
步骤1.2:裁剪出其中所有的藏文文本图像块,并且透视变换至正视角图像,对其中文本的基线高度位置和内容进行标注,得到藏文文本图像基本数据集。
3.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤2中通过图像合成算法合成藏文文本图像扩充数据集的具体步骤为:
步骤2.1:从藏文网站采集藏文文本数据并去除其中的非藏文字符;
步骤2.2:将步骤2.1的文本数据随机切分成不同长度的藏文文本,构建横排文本数据库;
步骤2.3:将步骤2.1的文本数据按照藏文音节分隔符分割成单个音节,构建竖排文本数据库;
步骤2.4:采集不含文本的自然场景图像,构建自然场景背景库;
步骤2.5:合成藏文文本图像:对于横排文本,随机从横排文本数据库中选择藏文文本渲染至自然场景背景库中的自然场景图像上;对于竖排文本,随机从竖排文本数据库中选择3~5个藏文音节从上往下渲染至自然场景背景库中的的自然场景图像上;
步骤2.6:从步骤2.5中合成的藏文文本图像中裁剪出文本区域,并记录文本的基线高度和文本的内容,得到藏文文本图像扩充数据集。
4.根据权利要求3中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤2中预处理的具体步骤为:
将藏文文本图像基本数据集和藏文文本图像扩充数据集中的藏文文本图像分辨率修改为320×320,按照r1:r2划分训练集与测试集,对于训练集的图像,以概率ps随机给图像添加高斯噪声进行数据增强。
5.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤3中利用文本基线检测器提取藏文文本图像特征的具体步骤如下:
步骤3.1:对于形状为3×H×W的输入图像数据,使用文本基线检测器提取藏文文本块特征,将其形状变换至C×H×W/4,C为特征维度,H为图像高度,W为图像宽度;
步骤3.2:将藏文文本块特征通过全局平均池化层进一步压缩宽度信息,再通过全连接层经Sigmoid激活后预测基线分布在图像中某一高度的概率p,其表达式为:
p=Sigmoid(FC(GAP(Xf)))
其中Xf表示特征;
步骤3.3:设置概率阈值为pthres,若概率p的值大于pthres则认定该高度处存在基线,同时设置间距阈值D对相近像素进行合并,从而得到基线的数量NL以及位置信息PN,基于二元交叉熵损失对基线检测器进行优化,具体如下:
其中,yh表示高度h处的标签值,ph为网络预测出的高度h处存在基线的概率。
6.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤4的具体步骤为:
步骤4.1:根据步骤3中的基线定位结果判断图像中文本的类型,若只检测出一条基线则判定为横排文本,否则判定为竖排文本;
步骤4.2:对于判定为横排文本的图像,基于MobileNetV3提取文本图像序列特征;对于判定为竖排文本的图像,首先根据基线数量将其切分成NL个窗口,将窗口缩放成32×320大小,分窗口基于MobileNetV3提取序列特征,然后将窗口特征沿序列长度方向拼接并通过全局平均池化层调整序列长度。
7.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤5中的具体步骤为:
步骤5.1:将步骤4提取出的序列特征分别送入两路并列、反向的TCN网络得到表征序列关系的输出特征和L表示序列长度;
步骤5.2:将两路TCN网络的输出特征XF和XR拼接得到序列建模模块输出Xc:
Xc=concat(XF,XR)
其中,与对应拼接;
步骤5.3:训练时,分别将XF和XR通过一个Classifier映射到标注空间得到概率分布和使用基于KL散度的一致性损失对两路TCN网络进行优化,其表达式为:
其中表示在时间步i的输出字符概率分布;
两个KL散度和计算如下:
其中表示在时间步i时输出为字符xj的概率,N表示字符总数。
8.根据权利要求1中所述的一种基于基线定位与序列建模的自然场景下的藏文识别方法,其特征在于,步骤6具体包括以下步骤:
步骤6.1:基于CTC算法将步骤5的输出映射到标注空间,然后通过合并重复字符、去除空字符ε进行解码得到最终的识别结果Y;
步骤6.2:使用负对数条件概率计算CTC损失,具体定义如下:
其中Ω为训练集,Li、li分别表示第i张藏文文本图像、文本的标签,Yi表示将Li通过特征提取网络、序列建模网络后的输出;
步骤6.3:训练时,使用CTC损失一致性损失基线定位损失三个损失的联合损失对整个网络参数进行优化,联合损失如下:
其中α、β为平衡系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210819627.4A CN115116072B (zh) | 2022-07-12 | 2022-07-12 | 基于基线定位与序列建模的自然场景下的藏文识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210819627.4A CN115116072B (zh) | 2022-07-12 | 2022-07-12 | 基于基线定位与序列建模的自然场景下的藏文识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115116072A CN115116072A (zh) | 2022-09-27 |
CN115116072B true CN115116072B (zh) | 2025-02-11 |
Family
ID=83332277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210819627.4A Active CN115116072B (zh) | 2022-07-12 | 2022-07-12 | 基于基线定位与序列建模的自然场景下的藏文识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116072B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN112633431A (zh) * | 2020-12-31 | 2021-04-09 | 西北民族大学 | 一种基于crnn和ctc的藏汉双语场景文字识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1398726B1 (en) * | 2002-09-11 | 2008-07-30 | Samsung Electronics Co., Ltd. | Apparatus and method for recognizing character image from image screen |
-
2022
- 2022-07-12 CN CN202210819627.4A patent/CN115116072B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN112633431A (zh) * | 2020-12-31 | 2021-04-09 | 西北民族大学 | 一种基于crnn和ctc的藏汉双语场景文字识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115116072A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11776267B2 (en) | Intelligent cataloging method for all-media news based on multi-modal information fusion understanding | |
CN110322495B (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
WO2020147857A1 (zh) | 海量视频特征提取以及存储和检索方法及系统 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN111460247A (zh) | 网络图片敏感文字自动检测方法 | |
CN107229668A (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN113591530B (zh) | 一种视频检测方法、装置、电子设备和存储介质 | |
US9569698B2 (en) | Method of classifying a multimodal object | |
CN117173730A (zh) | 一种基于多模态信息的文档图像智能分析及处理方法 | |
CN112818951A (zh) | 一种票证识别的方法 | |
CN116204673A (zh) | 一种关注图像块间关系的大规模图像检索哈希方法 | |
CN104008177B (zh) | 面向图像语义标注的规则库结构优化与生成方法及系统 | |
CN111414735A (zh) | 文本数据的生成方法和装置 | |
CN117793483A (zh) | 视频标签的提取方法、系统、设备及介质 | |
CN117556083A (zh) | 基于图文预训练模型的视频-文本检索方法及系统 | |
CN114241470A (zh) | 一种基于注意力机制的自然场景文字检测方法 | |
CN118535978B (zh) | 一种基于多模态大模型的新闻分析方法及系统 | |
CN119131803A (zh) | 一种双模态图文融合目标识别方法及系统 | |
CN114529894A (zh) | 一种融合空洞卷积的快速场景文本检测方法 | |
CN115116072B (zh) | 基于基线定位与序列建模的自然场景下的藏文识别方法 | |
Rasheed et al. | A deep learning-based method for Turkish text detection from videos | |
Vijayaraju | Image retrieval using image captioning | |
Liu et al. | End-to-end chinese lip-reading recognition based on multi-modal fusion | |
CN116246342A (zh) | 一种基于时间掩蔽和时间卷积网络的汉语唇语识别方法 | |
CN118897905B (zh) | 一种基于细粒度时空关联建模的视频片段定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |