CN110059539A - 一种基于图像分割的自然场景文本位置检测方法 - Google Patents
一种基于图像分割的自然场景文本位置检测方法 Download PDFInfo
- Publication number
- CN110059539A CN110059539A CN201910147441.7A CN201910147441A CN110059539A CN 110059539 A CN110059539 A CN 110059539A CN 201910147441 A CN201910147441 A CN 201910147441A CN 110059539 A CN110059539 A CN 110059539A
- Authority
- CN
- China
- Prior art keywords
- text
- random
- image
- pixel
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转;第二:随机剪裁;第三,随机颜色扰动;构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;设计损失函数;对训练结果进行后处理。
Description
技术领域
本发明属于目标检测技术领域,涉及一种基于深度学习技术的检测自然场景图像中文本位置的方法。
背景技术
文本检测算法是光学字符识别(Optical Character Recognition,OCR)领域的一个分支。最初的OCR技术是扫描本文,其特点是分辨率高且文字排列整齐有规律,背景简洁,文本区域占图像总体比重较大。扫描文本识别率达到97.38%[1]。随着数码相机的大面积普及,扫描文本算法逐渐不能满足社会需求。被检测的自然图像质量下降,背景复杂,文本方向不确定且占图像整体比重较小,例如识别拍摄街景的照片中包含的路标或者街道铭牌包含的字符。将扫描文本算法应用在这类图像上所取得的效果十分糟糕。
为了跟好的识别自然场景图像中的文本,我们通常将这个任务拆分成多个独立的子任务。第一个子任务一般是文本检测[2],也可以叫做文本定位(Text localization)。这个任务主要是找到图像中文本的位置,其输出是单个字符或者字符串的边界框,也可以称为文本框。第二个子任务是文本识别。将剪裁好的文本框作为输入,得到文本内容作为结果。第三个子任务是端到端识别,这个任务是将前两个任务结合在一起,达到更高的自动化效果。本发明主要涉及一种文本检测的算法。
文本检测与目标检测在方法上有很大的相似之处,但文本和一般物体相比有更大纵横比,因此对文本检测需要作一定的处理来完成识别。本发明主要考虑对文本的定位问题。
[1]Smith R.An Overview of the Tesseract OCR Engine[C]//InternationalConference on Document Analysis&Recognition.2007.
[2]Kai W,Belongie S.Word Spotting in the Wild[M]//Computer Vision–ECCV 2010.2010.
发明内容
本发明的目的是提供一种基于深度学习的方法对自然场景图像中的文本进行定位,将图像中的文本内容与其他背景分开。技术方案如下:
一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:
(1)选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;
(2)数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值;第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上;第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动;
(3)构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;
(4)设计损失函数;
(5)对训练结果进行后处理:预测结果首先连接成文本区域,然后通过调用opencv库中的minAreaRect函数直接提取文本框,接着根据先验知识,利用文本框的几何特征滤除冗余文本框。
附图说明
附图1 txt文档格式
附图2 检测效果图
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明具体实施方式做进一步地描述。
步骤一:本发明将图片ICDAR2015中第四个挑战第一个任务(challenge4 Task1)的数据集作为训练集和测试集,共包含1500张图片。1000张用于训练,500张用于测试。图片以谷歌眼镜(Google Class)作为图像的采集设备。采取随机拍摄的方式,图像大小统一为1280*760。拍摄时的镜头没有聚焦于文本内容,拍摄完成后,从随机拍摄得到的图像中挑出含有文字的图片并标注,因此ICDAR2015的数据集文本位置较为随机,内容比较模糊,文本方向不确定。文本标注也是以单词为基本单位。所有的单词和文本区域都会被标注出来,但只有可辨识且长度大于3的英文单词或数字才会用于衡量算法性能。每个图片对应一个txt文档,每一行代表一个文本框,包含4个坐标,其格式如图2所示。
步骤二:为了增加训练数据的数量和多样性,本发明采取以下几个方法来实现数据增强。第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值。第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上。第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动。经过上述操作,原图的文本框只会保留一部分,剩余面积不足20%的文本框会被忽略。
步骤三:本发明的网络以VGG16作为基础,VGG16的网络结构如表1所示。为了能将VGG16网络用于分割任务,本发明将网络的全连接层都改为卷积层,具体做法是将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层。转化成全卷积网络的VGG16可以更好地处理分割任务。
表1.VGG16网络结构
改变后的网络需要对完成对每个像素点的预测任务,即判断每个像素点是否为文本或非文本。同时网络选用Softmax作为激活函数。本发明通过SGD(Stochastic gradientdescent,随机梯度下降法)优化训练模型,权值衰减系数设置1×10-4,动量设置为0.5,学习速度为10-3,本发明使用Python2.7和TensorFlow1.1.0来实现,训练使用的batch_size为4,总共进行4万次迭代。
步骤四,设计损失函数:图像中不同的文本框的大小相差很大,因此每个文本像素分配一样权重会影响模型性能。本发明采用实例间的平衡交叉熵损失函数。具体而言,一张图像上含有N个文本框。Si代表第i个文本框的面积,S表示所有文本框的面积之和,则第i个文本框损失权重为:
这样设计的损失函数可以让图像上每个文本框包含的损失函数相同。
步骤五,在通过网络训练之后,还需对训练结果进行后处理。一般的训练得到的深度神经网络模型所输出的位置和置信度回归结果需要通过非极大值抑制(NMS)的方法。但本发明采用得是分割的方法来实现位置回归。因此不能采用非极大值抑制的方法来滤除冗余的文本框。本发明首先将预测为正的像素点组成一个连同集合分量来作为文本框的分割结果,每个连通分量代表一个文本框。其次通过调用opencv中的minAreaRect函数来提取每个预测文本的连同集合。MinAreaRect函数的作用是可以求得包含点集的最小外接矩形,这个矩形可以有偏转角度,不需要和图像边界平行,这样可以实现任意方向的文本框预测,而不再是单一的水平方向文本,这样可以更好地自然场景图像中文本框的检测任务。最后根据拍摄图像中的文本框的几何特征,对多余的文本框进行滤除,提高检测准确率。根据先验知识,预测文框的短边长度和面积的阈值分别设置为10和300。图2显示了我们在电网数据集上的检测效果。
概括而言,本发明的步骤如下:
1.选取数据集。本发明采用ICDAR2015中第四个挑战第一个任务(challenge4Task1)的数据集作为训练集和测试集。
2.数据增强。数据增强是训练深度学习模型常用的方法,这种方法可以有效的缓解过拟合问题。本发明采用三种基本的数据增强方式来增加训练数据的数量和多样性,分别是随机剪裁、随机旋转和颜色随机扰动。
3.构建训练神经网络。本发明将VGG16作为基础网络,为了更好地完成文本检测过程,本发明依照分割的思想对文本进行逐像素预测。最后得到每个像素点的预测结果。
4.预测结果首先需要连接成文本区域,然后通过调用opencv库中的minAreaRect函数直接提取文本框,接着根据先验知识,利用文本框的几何特征滤除冗余文本框。最后对实验数据进行分析与处理,评价本系统的识别准确度。
测试集共有500张图片,Recall值达到82.0,Precision值达到85.5,F-Score值达到83.7%。可以有效地帮助计算机理解采集到的图像信息,为后续工作打下基础。
Claims (1)
1.一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:
(1)选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;
(2)数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值;第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上;第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动;
(3)构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;
(4)设计损失函数;
(5)对训练结果进行后处理:预测结果首先连接成文本区域,然后通过调用opencv库中的minAreaRect函数直接提取文本框,接着根据先验知识,利用文本框的几何特征滤除冗余文本框。
(6)根据权利要求1所述的方法,其特征在于,步骤(4)如下:设图像上含有N个文本框;Si代表第i个文本框的面积,S表示所有文本框的面积之和,则第i个文本框损失权重wi的计算公式可以为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910147441.7A CN110059539A (zh) | 2019-02-27 | 2019-02-27 | 一种基于图像分割的自然场景文本位置检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910147441.7A CN110059539A (zh) | 2019-02-27 | 2019-02-27 | 一种基于图像分割的自然场景文本位置检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059539A true CN110059539A (zh) | 2019-07-26 |
Family
ID=67316504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910147441.7A Pending CN110059539A (zh) | 2019-02-27 | 2019-02-27 | 一种基于图像分割的自然场景文本位置检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059539A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728307A (zh) * | 2019-09-20 | 2020-01-24 | 天津大学 | 自生成数据集与标签实现x光影像图小样本字符识别方法 |
CN110751154A (zh) * | 2019-09-27 | 2020-02-04 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
CN111444919A (zh) * | 2020-04-17 | 2020-07-24 | 南京大学 | 一种自然场景中的任意形状文本检测方法 |
CN111738255A (zh) * | 2020-05-27 | 2020-10-02 | 复旦大学 | 一种基于深度学习的路牌文本检测与识别算法 |
CN112132137A (zh) * | 2020-09-16 | 2020-12-25 | 山西大学 | 一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法 |
CN112633267A (zh) * | 2020-12-11 | 2021-04-09 | 苏州浪潮智能科技有限公司 | 一种图片的文本定位方法、系统、设备以及介质 |
CN114005127A (zh) * | 2021-11-15 | 2022-02-01 | 中再云图技术有限公司 | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 |
CN114493094A (zh) * | 2021-12-15 | 2022-05-13 | 重庆师范大学 | 一种中小学劳动教育智慧评价系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083792A1 (en) * | 2015-09-22 | 2017-03-23 | Xerox Corporation | Similarity-based detection of prominent objects using deep cnn pooling layers as features |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108898131A (zh) * | 2018-05-23 | 2018-11-27 | 郑州金惠计算机系统工程有限公司 | 一种复杂自然场景下的数字仪表识别方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
-
2019
- 2019-02-27 CN CN201910147441.7A patent/CN110059539A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083792A1 (en) * | 2015-09-22 | 2017-03-23 | Xerox Corporation | Similarity-based detection of prominent objects using deep cnn pooling layers as features |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108898131A (zh) * | 2018-05-23 | 2018-11-27 | 郑州金惠计算机系统工程有限公司 | 一种复杂自然场景下的数字仪表识别方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
Non-Patent Citations (1)
Title |
---|
JMT330: "PixelLink:通过实例分割进行场景文本检测", 《HTTPS://WWW.JIANSHU.COM/P/1EBA49915915?UTM_CAMPAIGN=MALESKINE&UTM_CONTENT=NOTE&UTM_MEDIUM=SEO_NOTES&UTM_SOURCE=RECOMMENDATION》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728307A (zh) * | 2019-09-20 | 2020-01-24 | 天津大学 | 自生成数据集与标签实现x光影像图小样本字符识别方法 |
CN110751154A (zh) * | 2019-09-27 | 2020-02-04 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
CN110751154B (zh) * | 2019-09-27 | 2022-04-08 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
CN111444919A (zh) * | 2020-04-17 | 2020-07-24 | 南京大学 | 一种自然场景中的任意形状文本检测方法 |
CN111738255A (zh) * | 2020-05-27 | 2020-10-02 | 复旦大学 | 一种基于深度学习的路牌文本检测与识别算法 |
CN112132137A (zh) * | 2020-09-16 | 2020-12-25 | 山西大学 | 一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法 |
CN112633267A (zh) * | 2020-12-11 | 2021-04-09 | 苏州浪潮智能科技有限公司 | 一种图片的文本定位方法、系统、设备以及介质 |
CN114005127A (zh) * | 2021-11-15 | 2022-02-01 | 中再云图技术有限公司 | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 |
CN114005127B (zh) * | 2021-11-15 | 2024-12-27 | 中再云图技术有限公司 | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 |
CN114493094A (zh) * | 2021-12-15 | 2022-05-13 | 重庆师范大学 | 一种中小学劳动教育智慧评价系统 |
CN114493094B (zh) * | 2021-12-15 | 2024-05-07 | 重庆师范大学 | 一种中小学劳动教育智慧评价系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059539A (zh) | 一种基于图像分割的自然场景文本位置检测方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111209952B (zh) | 基于改进ssd和迁移学习的水下目标检测方法 | |
CN109117836B (zh) | 一种基于焦点损失函数的自然场景下文字检测定位方法和装置 | |
CN110598609A (zh) | 一种基于显著性引导的弱监督目标检测方法 | |
CN110008956B (zh) | 发票关键信息定位方法、装置、计算机设备及存储介质 | |
WO2017148265A1 (zh) | 一种单词的分割方法和装置 | |
CN110766002B (zh) | 一种基于深度学习的船名字符区域检测方法 | |
CN111126184B (zh) | 一种基于无人机视频的震后建筑物损毁检测方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN110599445A (zh) | 一种电网螺母和销的目标鲁棒检测与缺陷识别方法及装置 | |
CN110032998A (zh) | 自然场景图片的文字检测方法、系统、装置和存储介质 | |
CN111339902B (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
CN107248174A (zh) | 一种基于tld算法的目标跟踪方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN113326734A (zh) | 一种基于YOLOv5的旋转目标检测方法 | |
CN111353396A (zh) | 一种基于SCSEOCUnet的混凝土裂缝分割方法 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN113343989B (zh) | 一种基于前景选择域自适应的目标检测方法及系统 | |
CN107330387B (zh) | 基于图像数据的行人检测方法 | |
CN108805884A (zh) | 一种马赛克区域检测方法、装置及设备 | |
WO2022219402A1 (en) | Semantically accurate super-resolution generative adversarial networks | |
CN116740528A (zh) | 一种基于阴影特征的侧扫声呐图像目标检测方法及系统 | |
CN117218672A (zh) | 一种基于深度学习的病案文字识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190726 |