CN105225218A - 用于文档图像的畸变校正方法和设备 - Google Patents
用于文档图像的畸变校正方法和设备 Download PDFInfo
- Publication number
- CN105225218A CN105225218A CN201410286333.5A CN201410286333A CN105225218A CN 105225218 A CN105225218 A CN 105225218A CN 201410286333 A CN201410286333 A CN 201410286333A CN 105225218 A CN105225218 A CN 105225218A
- Authority
- CN
- China
- Prior art keywords
- baseline
- text
- short
- file
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Processing (AREA)
Abstract
本发明涉及用于文档图像的畸变校正方法和设备。一种用于文档图像的畸变校正方法包括基线提取步骤,用于提取文档图像中包含的文本区域中的文本行的基线,其中各文本行对应于一条基线;基线延伸步骤,用于基于所提取的基线中包含的长基线延伸所提取的基线中包含的短基线;以及校正步骤,用于基于所提取的长基线和经延伸的短基线来校正文档图像的畸变。
Description
技术领域
本发明涉及用于校正文档图像的畸变的方法和设备。更具体而言,本发明涉及用于至少通过延伸文档图像中包含的短文本行来校正文档图像的畸变的方法和设备。
背景技术
近年来,信息技术已经在诸如计算机视觉、图像处理和理解等的多个领域快速发展,并且尤其电子文档处理领域获得日益广泛的关注并且得到广泛应用。
在电子文档处理中,文档图像识别(诸如OCR)已经被应用于并且有助于多种应用以及多种设备,该多种设备从具有图像拾取装置(诸如扫描仪等)的用于文档处理的专业办公设备到具有用于拾取文档图像的装置(诸如照相机等)的、可拾取并处理文档图像以清楚识别这样的文档的内容的个人设备(诸如PC计算机、PDA、手持设备)。
随着配备有照相机的手持设备的发展,在各种环境(诸如文档的办公室外数字化、外语路标的识别、以及视力障碍人员的文本语音输入)中迫切需要移动(基于照相机的)OCR应用。
然而,由于扫描仪和照相机之间的差别,移动OCR成为新的挑战。在基于扫描仪的文档捕获中,文档通常被压板按压,因此基本是平的,并且由于文档的物理状态导致的畸变几乎没有。而在基于照相机的文档捕获中,要被捕获的文档通常是不受约束的并且可能是不平的,因此物理扭曲文档所导致的畸变是常见的现象。畸变将大大降低OCR准确度,这是因为不平的文档形状使得针对被捕获图像的典型文本处理(诸如,分割(文本行分割和字符分割)和识别)即使在局部旋转之后仍变得困难。因此,用于照相机捕获的文档图像的畸变校正是必要的用于移动OCR的处理。
现有技术中存在关于文档图像的畸变校正的多种研究。
一种研究是基于3D的技术。在典型的实现中,这种技术通过近似原始文档表面来得到原始文档的3D表面形状,然后对这样得到的3D表面进行校正(诸如基于一些专用模型进行平坦化)。原始文档表面可通过诸如将照片投影到3D网格上的物理建模被近似,或者可使用SFS(由明暗恢复形状)技术从单个图像中的明暗分布得出。
但是,这样的方法具有限制。特别地,对于物理建模,一些专用的且复杂的附加设备是必需的,这样可能不方便并且在一些情况下费时。对于由明暗恢复形状方法,应满足一些假设(诸如,近点光源)并且应知晓一些现有照相机限制(例如,焦距),这只能通过准确的照相机校准处理来获得。因此,这样的基于3D的方法通常需要更复杂的设备机构以及费时的操作。
鉴于上述的基于3D的方法的缺陷,提出了针对文档的2D图像的一些其它方法以确定和校正文档图像的畸变。一种这样的用于校正文档图像的畸变的技术是基于如下假设:扭曲类型是特定类型并且预先知晓。在典型实现中,这种技术假定弯曲文档的表面为某一几何类型(诸如圆柱类型),因此基于文档表面具有某一几何类型的假定,对于这种假定的文档图像的几何类型表面执行校正(诸如低秩矩阵恢复和稀疏误差校正)。
但是,考虑到要被拾取图像的文档的实际表面通常具有比假定的表面的简单形状更复杂的形状,这种技术不能有效地校正文档图像。
另一种方法是基于边界的方法,其基于文档图像的边界对文档图像执行校正。参考文献[1]公开了一种基于边界的方法,该方法提取并且使用文档边界以描述畸变。这对于在成像时遭遇的常见畸变(例如,粘结扭曲)是适当的,这是因为该方法假设文档表面由两条相对边界曲线构成(例如,打开的厚书本)。但是,此方法不能校正边界不是相对的时的情况。另一限制是此基于边界的方法假定文档的四条边界是完整的,然而实际存在的不完整边界的情况将导致不能生成整个文档的扭曲网格(warpingmesh)。
另外的一种方法通过基于文档图像的文本信息(例如,文本区域中包含的文本的基线、文本区域的扭曲网格)估计文档图像的畸变,从而能够基于文档图像中的文本信息执行畸变校正。一些方法直接使用文本的基线信息。参考文献[2]提出了用于校正弯曲的文本行的方法。它们通过聚类连接分量来找到文本行曲线,并且移动该分量以恢复直的水平基线。参考文献[3]估计文本方向并且通过词语分割结果来恢复文档图像。参考文献[4]使用样条线描述基线并且使用样条线来构建二维网格,并且使用图像扭曲技术来进行修正,其假设目标网格中的相邻列之间的距离是均匀的。
美国专利申请US2010/0073735公开一种基于照相机的文档成像方法,并且提出了基于文本的方法,该方法假设文本区域中的局部区域的畸变是线性的,其可通过透视畸变校正被解决,其中局部畸变信息可被从文档内的文本行收集。基于文本的方法基于所估计的行和字符方向将扭曲文档图像划分成多个栅格(grid),然后将每个栅格变换成方形,并且将它们置于一起以得到图像的完全恢复。
图1示出美国专利申请US2010/0073735中公开的方法中的处理,首先提取输入文档图像中的所检测到的所有文本行的基线,然后基于霍夫变换方法(假定垂直边界是线性的)确定各段落的垂直边界。基于那些基线和垂直边界,生成扭曲网格,然后在扭曲网格的各栅格中执行透视畸变校正,最终将图像去扭曲。
但是,上述现有技术的方法具有一些缺陷。
首先,这样的基于文本的方法通常假设文档图像的文本区域中包含的大部分文本行是长的且完整的,从而在此基础上确定并校正文档的文本区域的畸变。
但是,通过这样的方法,当文档图像的文本区域实际包括远小于其它文本行的多个短文本行(非常短的行)时,这些短文本行将被作为噪声直接丢弃而不会进行任何处理,然而文本区域的左边界和右边界的确定将受所丢弃的短文本行影响,并且被丢弃的文本行附近的局部畸变不能被准确地估计,从而这样的基于文本的方法不能准确地确定文本区域的畸变信息,并且不能对文本图像进行有效地校正。因此,现有技术的基于文本的方法不能应对在文档图像的文本区域中具有多个短文本行的情况。
图1B示出了通过现有技术对其中文本区域包括多个短文本行的文档图像进行校正的结果,并且如图1B所示,现有技术中的校正方法忽略了如图1B中的左侧圆圈所示的具有短文本行的区域,因此对于该区域的对应校正将是不准确的,诸如一些文字仍将被丢弃,甚至一些短的文字(诸如标题文字)将丢失,并且文本区域的对应边界将不准确,如图1B中的右侧圆圈所示。
其次,现有技术的方法假定文档图像的文本区域的垂直畸变是线性的,然后基于此假设利用霍夫变换来得出文本区域的垂直边界。
但是,通过此方法,当文档图像的文本区域的垂直畸变实际是非线性的时,这样的基于文本的方法将不能准确地确定边界,由此不能准确地确定文本区域的畸变信息,并且不能对文档图像进行有效地校正。因此,这样的方法不能应对垂直畸变是非线性的情况。
图1C示出了通过现有技术对于其中垂直边界实际上是非线性的文档图像进行校正的结果,并且如图1C所示,现有技术中的校正方法简单地假设垂直畸变是线性的,因此对于该文档图像的对应校正将是不准确的,诸如特别由在文本区域的边界处的符号“-”所表示地,文本区域的边界在一些位置将不整齐(例如,没有对齐),边界的畸变未被充分校正。
由上可见,现有技术的对于文档图像的畸变校正技术仍需要被改进。
所引用的文献
[1]Y.C.TsoiandM.S.Brown.Geometricandshadingcorrectionforimagesofprintedmaterialsaunifiedapproachusingboundary.CVPR,pages240–246,2004.
[2]Z.ZhangandC.L.Tan.“Correctingdocumentimagewarpingbasedonregressionofcurvedtextlines”.InProceedingsoftheInternationalConferenceonDocumentAnalysisandRecognition,volume1,pages589–593,2003.
[3]B.Gatos,I.PratikakisandK.Ntirogiannis,“SegmentationBasedRecoveryofArbitraryWarpedDocumentImage”,Proc.9thInternationalConferenceonDocumentAnalysisandRecognition,pp.989-993,2007.
[4]C.WuandG.Agam.“Documentimagede-warpingfortext/graphicsrecognition”.InProceedingsofJointIAPR2002andSPR2002,2002.
[5]USpatentapplicationUS2010/0073735
发明内容
本发明针对文档图像的畸变校正被开发,并且旨在解决上述问题。
本发明的一个目的是即使文档图像包括多个短文本行,仍准确确定文档图像的文本区域的畸变以便进行有效校正。
本发明的另一个目的是准确确定文档图像的文本区域的边界以便进行有效校正。
在一个方面,本发明提供了一种用于文档图像的畸变校正设备,包括基线提取单元,被配置用于提取文档图像中包含的文本区域中的文本行的基线,其中每个文本行对应于一条基线;基线延伸单元,被配置用于基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线;以及校正单元,被配置用于基于所提取的长基线和所延伸的短基线来校正文档图像的畸变。
在另一个方面,本发明提供了一种用于文档图像的畸变校正方法,包括基线提取步骤,用于提取文档图像中包含的文本区域中的文本行的基线,其中每个文本行对应于一条基线;基线延伸步骤,用于基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线;以及校正步骤,用于基于所提取的长基线和所延伸的短基线来校正文档图像的畸变。
优选地,长基线可以是所提取的线中的其长度长于或者等于第一阈值的线,并且短基线可以是所提取的线中的其长度短于第一阈值的线。
优选地,基线延伸步骤可进一步包括:子区域划分步骤,用于将文本区域划分成至少一个子区域,其中,从所提取的长基线中的第一长基线开始,所提取的长基线中的每两个相邻的长基线限定该至少一个子区域中的每一个子区域;以及子区域基线延伸步骤,用于对于至少一个子区域中的每一个子区域,在该子区域包括至少一个短基线的情况下,基于该子区域中包含的该两条长基线来延伸该子区域中包含的至少一个短基线。
优选地,当文档图像中的文本行在水平方向上时,第一长基线是所提取的基线中包括的最接近文档图像的文本行的顶部的长基线,并且子区域划分步骤可从文档图像的文本区域的顶部至底部依次执行。
优选地,子区域基线延伸步骤可进一步包括选择该子区域中包含的至少一条短基线中的具有最大长度的短基线;基于该子区域中包含的两条长基线来延伸所选择的短基线;并且利用经延伸的短基线来将该子区域划分成两个新子区域,其中,该两个新子区域之一由该两条长基线之一与该经延伸的短基线限定,而该两个新子区域中的另一个由该经延伸的短基线与该两条长基线中的另一个限定,其中,对于该两个新子区域中的每一个,顺序执行该选择、延伸和划分,直至该子区域中所包含的该至少一条短基线全部被延伸。
优选地,该基线延伸步骤可进一步包括对于位于文本区域的顶部或底部的短基线,基于所提取的长基线和经延伸的短基线的全部中的紧邻该短基线的两条基线来延伸该短基线。
优选地,该方法可进一步包括文本区域边界确定步骤,用于基于所提取的长基线和经延伸的短基线的端点来确定文档图像中包含的文本区域的边界,并且文本区域边界确定步骤可包括未对齐基线识别步骤,用于识别所提取的长基线和经延伸的短基线的全部之中的其端点为未对齐端点的基线;未对齐基线修正步骤,用于对于所识别的其端点为未对齐端点的基线中的每一个,基于所提取的长基线和经延伸的短基线的全部之中的紧邻所识别的基线的两条基线来修正(rectify)所识别的基线的未对齐端点,以及边界生成步骤,用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。
优选地,未对齐基线识别步骤可包括对于所提取的长基线和经延伸的短基线的全部中的每一基线,基于所提取的长基线和经延伸的短基线的全部中的与该基线相邻的预定数量的基线的端点生成裁定线(rulingline);并且基于该裁定线来识别该基线的端点是否是未对齐端点。
优选地,该裁定线可通过直接连接或者拟合该预定数量的基线的端点来生成。
优选地,在基于裁定线来识别基线的端点是否是未对齐端点时,对于左端点,如果左端点位于裁定线的右侧并且其与该裁定线的距离大于第三阈值,则左端点被识别为未对齐端点,而对于右端点,如果右端点位于裁定线的左侧并且其与该裁定线的距离大于第四阈值,则右端点被识别为未对齐端点。
优选地,未对齐基线修正步骤可进一步包括:直接连接或者拟合最邻近该基线的两个基线的基线端点以生成线;并且使该基线朝所生成的线延伸以相交,从而交点用作该基线的修正端点。
优选地,该文本区域的边界可通过直接连接或者曲线拟合包括经修正的未对齐基线的所有基线的端点来生成。
优选地,校正步骤可进一步包括:扭曲网格生成步骤,用于基于所提取的长基线和经延伸的短基线的全部以及由其确定的文本区域的边界来生成扭曲网格,并且基于所生成的扭曲网格来校正该文本图像的畸变。
[技术效果]
本发明提供了新的文本区域畸变校正方法,并且可有效地解决关于文档图像的畸变的确定和校正的技术问题。
特别地,已经提出了本发明的一种解决方案,其延伸文档图像的文本区域中包含的至少一条短文本行来确定畸变信息,然后基于这样的畸变信息来进行校正。
与现有技术的基于文本的方法进行比较,本发明的解决方案有效地利用了通常被忽略的短文本行,从而更准确地确定文档图像的文本区域的畸变信息以用于校正。
因此,对于可包含多个短文本行(包括多个短文本行、顶部短文本行以及段落结尾的短行)的文档图像,本发明的该解决方案可通过延伸短文本行的短基线来准确和有效地确定和校正该文档图像的畸变。
已经提出了本发明的另一解决方案,其修正文档图像的文本区域中的文本行的基线的端点,以便确定文本区域的边界,然后基于这样的文本区域的边界进行校正。
与现有技术的基于边界的方法相比,本发明的该解决方案不需要假设文档表面由两条相对的边界曲线构成,因此可应对任意情况。
因此,对于其中垂直畸变为非线性的文档图像,本发明的该解决方案可通过准确确定文本区域的左和右边界来准确和有效地确定和校正文档图像的畸变。
此外,对于包括多个短文本行并且其中垂直畸变为非线性的文档图像,本发明的该解决方案仍可准确和有效地确定和校正该文档图像的畸变。
因此,本发明的解决方法即使在复杂的缩排或未对齐情况下仍可提供令人满意的校正结果。
与现有技术的基于3D的方法相比,本发明不依赖于任何附加的设备,并且仅仅基于所捕获的图像就可获得准确的校正结果。
本发明的其它特性特征和优点将从下文参照附图的描述清楚可见。
附图说明
并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。在附图中,相似的附图标记指示相似的项目。
图1A示出现有技术中的用于文档图像的畸变校正的典型过程,并且图1B和1C示出通过现有技术畸变校正方法的对于文档图像的校正结果。
图2是示出可实现本发明的实施例的计算机系统的示例性硬件配置的框图。
图3是示出根据本发明的第一实施例的文档图像的畸变校正方法的流程图。
图4是示出根据本发明的第一实施例的基线提取步骤中的处理的流程图。
图5示意性地示出基线提取步骤中的连接分量(CC)分析的结果。
图6示意性地示出基线提取步骤中的文本行描迹的结果。
图7示意性地示出基线提取步骤中的样条拟合的结果。
图8是示出根据本发明的第一实施例的基线延伸步骤中的处理的流程图。
图9示出将文本区域划分成子区域的示例。
图10是示出根据本发明的第一实施例的子区域基线延伸步骤中的处理的流程图。
图11示出延伸子区域中的短基线的示例。
图12示出基于子区域中的经延伸的基线来分割子区域的示例。
图13示出其中短基线已被延伸的文本区域的结果。
图14示出延伸位于文本区域底部的短基线的示例。
图15示出其中顶部或者底部短基线已被延伸的文本区域的示例结果。
图16示出生成文档图像的文本区域的扭曲网格的示例。
图17示出基于所生成的扭曲网格校正文档图像的畸变的示例。
图18是示出根据本发明的第一实施例的畸变校正设备的框图。
图19示出通过现有技术的方法以及根据本发明的第一实施例的方法获得的畸变校正结果之间的比较。
图20是示出根据本发明的第二实施例的方法中的文本区域边界确定步骤中的处理的流程图。
图21示出修正基线的左端点的示例。
图22示出修正基线的右端点的示例.
图23示出基于基线的修正端点生成文本区域的左边界和右边界的示例性结果.
图24是示出根据本发明的第二实施例的基线端点修正单元的框图.
图25示出通过现有技术的方法以及根据本发明的第二实施例的方法生成文本区域的边界的结果之间的比较.
具体事实方式
下文将参照附图详细描述本发明的实施例。
应注意,在附图中相似的附图标记和字母指示相似的项目,并且一旦一个项目在一个附图中被定义,则对于随后的附图无需再对其进行论述。
首先将解释本公开的上下文中所使用的某些术语的含义,以便有助于理解本发明。
在本公开的上下文中,图像可指的是任何类型的图像(诸如彩色图像、灰度图像等)中的任一种,并且通常在其中可包括至少一个文本区域。应指出,在本说明书的上下文中,图像类型未被具体限制,只要这样的图像的畸变可被确定和校正即可。在本说明书的上下文中,图像包含文本区域指的是图像包含对象的文本区域图像。
文档图像中的文本区域可指的是连续文本内容图像区域,其通常包括连续的文本字符行或者其它类似的文本行,并且可包括包含例如标题行的至少一个连续文本段落。文档图像主要包括至少一个文本区域,因此对于文档图像的畸变和校正通常指的是该文档图像中包含的文本区域的畸变和校正。文本图像中包含的至少一个文本区域可彼此相邻(在这样的情况下可被视为整体文本区域),或者是离散的(在这样的情况下可被分别处理),并且除非另外具体陈述,否则如说明书的上下文中所描述的对于文本区域的处理可等同地应用于文档图像中包含的至少一个文本区域中的每一个。
在说明书的上下文中,水平方向可指的是与文本行一致的方向而垂直方向是与水平方向垂直的方向。水平方向并不在严格意义上局限于该水平方向,并且还可涵盖由于文档图像的畸变导致的基本水平、但是稍微倾斜的方向,并且垂直方向也不在严格意义上局限于该垂直方向,并且还可涵盖由于文档图像的畸变导致的基本垂直、但是稍微倾斜的方向。
在本公开中,术语“第一”、“第二”等仅仅用于区分元素或者步骤,而不是要指示时间顺序、优先选择或者重要性。
图2是示出可实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图2所示,计算机系统包括计算机1110。计算机1110包括处理单元1120、系统存储器1130、不可移除非易失性存储器接口1140、可移除非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190、和输出外围接口1195,它们通过系统总线1121连接。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和一些程序数据1137驻留在RAM1132中。
不可移除非易失性存储器1141(诸如硬盘)连接到不可移除非易失性存储器接口1140。不可移除非易失性存储器1141例如可存储操作系统1144、应用程序1145、其它程序模块1146以及一些程序数据1147。
可移除非易失性存储器(例如软盘驱动器1151和CD-ROM驱动器1155)连接到可移除非易失性存储器接口1150。例如,软盘1152可插入软盘驱动器1151,并且CD(紧致盘)1156可插入CD-ROM驱动器1155。
诸如鼠标1161和键盘1162的输入设备连接到用户输入接口1160。
计算机1110可通过网络接口1170连接到远程计算机1180。例如,网络接口1170可经局域网1171连接到远程计算机1180。可替换地,网络接口1170可连接到调制解调器(调制器-解调器)1172,并且调制解调器1172经广域网1173连接到远程计算机1180。
远程计算机1180可包括诸如硬盘的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图2所示的计算机系统仅是说明性的,并且决不打算限制本发明、其应用或者使用。
图2所示的计算机系统可对于任一实施例被实现为孤立计算机,或者设备中的处理系统,其中可去除一个或多个不必要的组件或者可添加一个或多个附加的组件。
下文将参照附图描述根据本发明的实施例的畸变校正方法和设备。
[第一实施例]
下文将参照图3至17描述根据本发明的实施例的畸变校正方法。在此方法中,从文档图像中包含的文本区域中提取的短文本行被延伸,从而可基于这样的经延伸的短文本行准确确定文档图像的文本区域的畸变信息。
图3是示出根据本发明的第一实施例的文档图像的畸变校正方法的流程图。
在根据第一实施例的方法的实现中,在步骤S100(还被称为基线提取步骤)中,提取文档图像中包含的文本区域中的文本行的基线,其中每个文本行对应于一个基线。
在步骤S200(还被称为基线延伸步骤)中,基于所提取的基线中包含的长基线来延伸所提取的基线中包含的短基线。
在步骤S300(还被称为校正步骤)中,文档图像中包含的文本区域基于被提取的长基线和经延伸的短基线的全部被校正。
下文将详细描述根据本发明的第一实施例的方法中的各步骤的处理。
图4是示出根据本发明的第一实施例的方法中的基线提取步骤中的处理的流程图。
在输入文档图像的基线提取中,首先,使用CC(连接分量)分析来提取字符CC(S110)。然后,基于CC的顶部或中心点或底部来将CC聚类至不同的文本行(S120)。例如,CC的底部被用于将CC聚类至不同的文本行,当然,CC的顶部或中心点也可被聚类。最后,通过样条拟合来使各文本行规则化(S130),从而可获得文档图像中的文本行中包含的各文本行的基线。
在CC分析中,首先,从输入的文档图像提取一组CC。例如,在CC提取中可使用多种方法,例如颜色聚类、自适应二值化、形态学处理等。在此实施例中,由自适应二值化结果生成CC。应指出,CC提取方法并不限于此,并且本领域中的其它方法也是可能的。
优选地,CC过滤可被应用以从所提取的CC去除非文本CC(包括一些噪声CC以及图片区域(例如,文档中的图片和图表)的CC)。用于过滤的特征包括CC大小、CC纵横比、CC像素在垂直方向和水平方向上的行程长度。应指出,CC过滤可如现有技术中那样实现,而不被特别限制。在这样的CC过滤之后,剩余的CC将是文本CC。
然后,将片段CC(例如,字符的一部分)分别在垂直方向和水平方向上合并至字符CC。此过程主要应对将导致不正确的文本行描迹(tracing)的片段CC。用于组合的特征包括CC的距离、CC的嵌套关系、水平方向上的重叠比、垂直方向上的重叠比和组合后的CC高度。
图5中示出的CC分析结果。如图5所示,在对应于“CC提取之后”的视图中,由白色块包围的内容是被提取的并且可能经过滤的CC,而那些未被包围的内容(诸如字符“i”中原始包含的顶部“.”)将被看作片段CC。在对应于“CC合并之后”的视图中,那些片段与字符CC合并以遵循文本行。
在文本行描迹中,对于在CC合并之后仍存在的CC,可根据连接准则被分组为文本行的这些CC的底部被连接。该连接准则主要涉及例如CC的距离以及水平投影中的重叠比。
特别地,当通过连接CC底部来对文本行进行描迹时,如果文本行中的CC的量小于阈值N(例如,N=4),则被描迹的行被去除。
文本行描迹之后的结果在图6中被示出,其中各文本行下方的白色线指示被描迹的文本行。
在文本行描迹之后,将对于被描迹的文本行执行样条拟合。具体而言,考虑到对于被描迹的文本行,通常在其中存在影响基线检测的一些下标或上标,执行样条拟合以例如通过对于被描迹的文本行中包含的各点使用其相邻点进行修正来修正被描迹的行。
对于被描迹的文本行中的当前点,首先,基于该点的左侧相邻点和右侧相邻点来估计局部畸变方向(局部线)。如果当前点远离局部线,则当前点可能是下标或上标,并且当前点的在Y轴上的坐标将根据其X轴坐标和局部线函数被修正。
在样条拟合之后,各被修正的文本行由自然三次样条插值(NCS)表达,然后,获得对应的基线。样条拟合的结果在图7中被示出,在图7中,视图的右侧部分中的白色线是从输入文档图像中的文本区域提取的最终基线。
应指出,对于基线提取的描述仅是示例性的而不是限制性的,并且用于文档图像的OCR中的其它基线提取处理也是可能的。例如,文本行修正可被以除样条拟合之外的方式实现。
下文将参照图8描述根据本发明的第一实施例的基线延伸步骤中的处理。
对于基线延伸,从文档图像的文本区域提取的所有基线将首先划分成两个子集:长基线和短基线。在一种实现中,长基线是所提取的基线中的其长度长于或者等于特定阈值(下文被称为“第一阈值”)的线,而短基线是所提取的基线中的其长度小于特定阈值的线。基于这样的定义,文档图像的文本区域中的提取的所有基线中的短基线可被识别以便延伸,以用于估计文档图像的文本区域的畸变。
例如,长基线和短基线的这样的分类可被如下地实现。
首先,从文档图像的文本区域提取的所有基线(例如,N是基线的数量)将根据它们的长度被归类。例如,基线的长度可指的是基线中包含的在对应文本行的方向上的像素的数量。
然后,最长基线可被选择以被添加到候选集合中,并且对于剩余基线i(i=2,3,…N)将执行重复处理。
在重复处理的各步骤中,对于当前基线i,当前基线的长度(Li)和当前候选集合的平均长度(Avg)被比较。如果Li>α*Avg(α是经验值,0.7<α<=1,例如,α=0.9),则当前基线可被看作长基线,并且将被添加到当前候选集合中,从而更新后的候选集合的Avg将被相应地更新。然后,将对下一基线进行该处理,直至所有被提取的基线已被分类。最后,最终候选集合中的基线将是长基线,而其余基线是短基线。
在上述处理中,值α*Avg将对应于上述特定阈值。应指出,这样的特定阈值在这里作为示例被描述,并且在分类时该特定阈值可采用其它值,例如恒定阈值。
应指出,这样的分类仅是示例性的,并且其它分类方式也是可能的,诸如针对短基线进行分类。
在基线延伸中,在步骤S210(还被称为子区域划分步骤)中,从所提取的长基线中的第一长基线开始,文本区域可被划分成至少一个子区域,其中每个子区域由所提取的长基线中的每两个相邻长基线限定。
在步骤S220(还被称为子区域基线延伸步骤)中,对于该至少一个子区域中的每一个,在该子区域包含至少一个短基线的情况下,该子区域中包含的短基线可基于该子区域中包含的长基线被延伸。
在步骤S230中,对于位于文本区域的顶部或底部的短基线,可基于所提取的长基线和经延伸的短基线的全部中的与该短基线紧邻的两条基线来延伸该短基线。应指出,步骤S203中的这样的处理是可选的,并且当在文档图像的文本区域中不存在任何顶部或者底部短基线时,步骤S230中的步骤不需要执行。
下文将详细描述各步骤中的处理。
在子区域划分步骤中,通常,当文档图像中的文本行在水平方向上时,第一长基线是所提取的基线中包含的最接近文档图像的文本区域的顶部(即,文本区域的开头)的长基线,因此从文档图像的文本区域的顶部到其底部依次执行子区域划分。
基于所确定的候选集合中的长基线,文本区域可至少被划分成小的文本区域(还被称为子区域)。在各子区域中,开始的基线和结尾的基线应分别为长基线。在一种实现中,两个相邻子区域应共用一条长基线,例如子区域的结尾基线和与其相邻的下一子区域的开始基线应是同一基线,并且子区域的这样的划分在图9中被示出,其中四个子区域(子区域1至4)被划分出并且被以不同的线型示出,而子区域的底部基线和与其相邻的下一子区域的顶部基线是同一基线,例如长基线1被子区域1和紧接在子区域1之前的子区域(图9中未示出)共用,长基线2被子区域1和子区域2共用,长基线3被子区域2和子区域3共用,等等。
应指出,这样的子区域划分并不局限于这样的顺序,并且可被以其它顺序执行,诸如子区域划分可从文本区域的底部到文本区域的顶部执行,从文本区域的中部分别到文本区域的顶部和底部执行等等,只要文档图像的文本区域可被划分成至少一个子区域(每个子区域应包括两个相邻的长基线)即可。即使当文档图像中的文本行处于其它方向(诸如垂直方向、倾斜方向)时,子区域划分也可被类似地执行。
下文,将参照图10详细描述根据第一实施例的方法中的子区域基线延伸步骤的处理。这样的处理将对于被划分的至少一个子区域中的每一个顺序执行,并且可被按任何顺序执行,例如从顶部到底部、从底部到顶部等,只要所有子区域将被处理即可。
在子区域基线延伸中,对于每个子区域,如果在该子区域中存在至少一条短基线,将从该子区域中包含的至少一条短基线的全部中选择具有最大长度的短基线,否则该处理将进行至下一子区域。这里,所选择的短基线的长度将如上那样类似地限定。
然后,所选择的短基线基于当前子区域中包含的两个长基线(即,开始长基线和结尾长基线)被延伸。
这里,将参照图11描述延伸子区域中的短基线的处理,其中为了描述起见,文本区域中的文本行已被假定为左对齐,因此延伸短基线指示的将短基线的右端点延伸至右边界。
如图11所示,从当前短基线的右端点起,短基线可被以固定步长(这里,x轴上的步长为1个像素,当然,其它步长也是可能的)延伸至右侧文本区域边界,如图11中的虚线椭圆所示。在各延伸位置处,该位置的y轴位置被确定为满足以下条件:
这里,d1和d2是短基线的当前端点分别与该子区域的顶部和底部长基线之间的距离(在y轴上测量),并且d1’和d2’是该短基线的当前端点将一步延伸到的位置分别与该子区域的顶部和底部长基线之间的距离。
延伸位置的水平坐标x’被定义为:
这里,xtop和xbottom分别是顶部长基线和底部长基线的点的x轴坐标,该点对应于延伸位置并且具有如上定义的y轴坐标。
因此,短基线将逐步延伸,直至其最终延伸点(xe,ye)将基于顶部长基线和底部长基线的对应端点的坐标(x1,y1)和(x2,y2)被确定。
应指出,这样的描述仅是示例性的,并且该处理可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况,其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况。
然后,当前子区域将通过经延伸的短基线被划分成两个新子区域,其中该两个新子区域之一由该两个长基线之一(例如,顶部长基线)和经延伸的短基线限定(这两个基线将作为该新子区域的顶部长基线和底部长基线),而该两个新子区域中的另一个由该经延伸的短基线和该两个长基线中的另一个(例如,底部长基线)限定(这两个基线将作为该新子区域的顶部长基线和底部长基线)。
图12示出基于子区域中的经延伸的基线来分割子区域的示例。如图12中所示,图9中所示的子区域1被划分成两个新子区域(子区域11和12)。在划分的新子区域11中,其顶部长基线是子区域1的原始顶部长基线(图9中所示的长基线1),而其底部长基线是当前的经延伸的基线,如实线矩形框所示,而在划分的新子区域12中,其顶部长基线是当前的经延伸的基线,而底部长基线是子区域1的原始底部长基线(图9中所示的长基线2)。
接下来,对于该新子区域中的每一个,将类似地并且顺序地执行上述选择、延伸和划分处理,直至该新子区域中包含的所有短基线已被延伸。由此,当前子区域中包含的所有短基线将被延伸。此后,上述的选择、延伸和划分处理将进行至下一子区域,直至所有子区域已被处理,从而所有子区域中的短基线(即,文本区域中的所有短基线)已被延伸。
图13示出其中短基线已被延伸的文本区域的结果。
应指出,这样的描述仅是示例性的,并且这样的短基线延伸处理可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况(即,短基线的左侧是留白区域的情况),其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况(即,短基线的左右两侧都是留白区域的情况)。
考虑文本区域的顶部或底部基线可能是短基线的特定情况。由于这样的短基线将不被包含在上述划分的子区域中,这样的短基线可能不经受上述基线延伸处理。因此,这样的短基线将被单独地延伸。
这样的顶部或底部短基线的延伸将基于其相邻的长基线,并且将参照图13被描述,图13示意性地示出底部短基线的延伸(示意性地对应于步骤S230)。
如图13所示,文本区域的基线(L0)是短基线。
在延伸处理中,将选择与该短基线最接近的两个长基线(L1和L2)。在一种实现中,最接近的两个长基线将在与该短基线相邻的并且已经受了上述子区域延伸的子区域中被选择,因此该最接近的两个长基线将是被提取的长基线和经延伸的短基线的全部中的两个最接近的基线。
从当前短基线的右端点起,该短基线将被以固定步长(这里,x轴上的步长为1个像素,当然,其它步长也是可能的)延伸至右侧文本区域边界。在各延伸位置处,该位置的y轴位置被确定为满足以下条件:
这里,h01和h02是在短基线的当前端点处该短基线与该第一最接近长基线之间的距离以及第一最接近长基线与第二最接近长基线之间的距离(在y轴上测量),并且h01’和h02’是在该短基线的当前端点将一步延伸到的位置处该短基线与该子区域的第一最接近长基线之间的距离以及该第一最接近长基线和第二最接近长基线之间的距离。
延伸位置的水平坐标x’被定义为
这里,x1和x2分别是该第一和第二最接近长基线的点的x轴坐标,该点对应于该延伸位置并且具有如上定义的y轴坐标。
因此,短基线将逐步延伸,直至其最终延伸点(xe,ye)将基于该第一和第二长基线的对应端点的坐标被确定。
应指出,上述的底部基线延伸处理可等同地应用于为短基线的顶部基线。顶部和底部短基线的延伸结果在图15中被示出。
此外,与上文所述类似的,尽管上述底部基线延伸处理在左对齐情况下被执行,但是其可等同地应用于其中短基线的左端点将被延伸至左边界的右对齐情况(即,短基线的左侧是留白区域的情况),其中短基线的右端点和左端点将分别被延伸至右边界和左边界的中央对齐情况(即,短基线的左右两侧都是留白区域的情况)。
应指出,上述的短基线延伸方式(即,短基线的延伸点的坐标的确定方式)仅是示例性的,并且这样的延伸主要旨在延伸短基线以便遵循参考长基线(子区域延伸中的顶部和底部长基线,或者顶部和底部短基线延伸中的两个最接近的长基线),由此延伸方式并不局限于所示出的方式,并且其它延伸方式也是可能的,参考长基线也可以是除了上述的长基线之外的其它基线。
下文,将参照图16和17描述根据本发明的第一实施例的方法中的校正步骤的处理。通常,校正将首先基于所获得的文档图像的文本区域的基线(包括被提取的长基线和延伸的短基线的全部)来得出关于文档图像的文本区域的畸变的信息,然后基于畸变信息来校正文档图像的畸变。
在校正处理的一种典型实现中,关于文档图像的文本区域的畸变的信息可以是扭曲网格(warpingmesh),由此校正步骤将基于所获得的基线来生成这样的扭曲网格以进行校正。
反映文本区域的网格通常包括网格线(meshline),该网格线彼此交叉,从而文本区域的网格可被划分成多个栅格,并且栅格的形状可基于网格线的布置被确定。网格线可参照文档图像的文本区域中的文本行被形成。在一种典型实现中,网格中的网格线可由水平网格线和垂直网格线构成,其中水平网格线将与文本行一致并且与对于文本行提取的基线基本相同,并且垂直网格线是与水平网格线基本垂直的网格线,从而网格的栅格将是四边形。
在其它实现中,网格线可以是任何其它布置,诸如形成三角形栅格,以及任何其它合适的多边形栅格,只要一组网格线可与文本行一致(例如,与对于文本行提取的基线基本相同)即可。
通常,除了基线的端点之外,扭曲网格还基于文档图像的文本区域的边界来生成,该边界可通过基线的端点而获得。在文档图像的文本行在水平方向上的情况下,文本区域的边界将指的是文本区域的左边界和右边界。当然,如果文本行在垂直方向上,则边界将是上边界和下边界。
应指出,文本区域的边界可基于所获得的基线(包括所提取的长基线和经延伸的短基线)以各种方式(诸如,通过直接连接各基线的端点,或者通过曲线拟合各基线的端点)被确定,因而未被特别限制。由于边界的确定利用了经延伸的短基线,而不是如现有技术中那样忽略这些短基线,则文档图像的文本区域的边界继而其畸变信息可被准确地获得,即使该边界获得方法是现有技术也是如此。
考虑到所生成的扭曲网格应包含文档图像的整个文本区域,特别地,应包含文本区域的第一文本行和最终文本行,在扭曲网格的生成中应执行确保第一和最后文本行被涵盖在生成的网格中的处理。下文,描述用于第一文本行的处理作为示例,并且这样的示例可等同地应用于最终文本行。
在对于第一文本行的处理中,首先,计算所有获得的基线(网格的网格线)的平均网格高度,并且将其标记为avg_H,然后,计算第一文本行的文本高度(在步骤100中计算第一文本行的顶部线的NCS函数),并且将其标记为H_text。接下来,延伸左侧文本边界以用作顶部边界的起点,并且延伸距离可以是avg_H和H_text的最大值,然后,可通过从该起点遵循第一文本行的基线来延伸线以获得网格的顶部线。应指出,该延伸可被以与上述的延伸顶部基线的方式相似的方式被实现,但是,延伸并不局限于此,并且其它的延伸方式也可被使用,只要可获得扭曲网格的适当的顶部线即可。
通过文档图像的文本区域的所有获得的基线(包括所提取的长基线和经延伸的短基线)和顶部及底部线以及所确定的左边界和右边界,基线和顶部及底部线中的每一条线被划分成具有相等长度的分段(该长度是根据基线的起点和终点以及被设定的分段数量来计算的,这里分段数量由基线的最大长度以及平均网格高度的比确定),从而可生成文档图像的文本区域的扭曲网格,如图16所示。
接下来,将基于所生成的网格执行文档图像的畸变校正。
对于扭曲网格中的每一栅格,将生成变换映射图,该变换映射图可将畸变图像中的每个点映射到去扭曲图像。例如,通过参照边界插值技术,根据所获得的扭曲网格可构建从输入的畸变文档图像到校正后的图像的图像映射。在获得变换映射图之后,可通过对原始文档区域中的像素进行双线性插值生成校正后的图像。由此,可根据这样的映射实现文档图像的畸变校正,如图17所示。
应指出,校正步骤的描述仅是示例性的,并且在文档图像的畸变的信息被以任何其它方式表示的情况下,根据第一实施例的方法的校正步骤可被以与上述方式不同的其它方式实现。
下文,将参照图18描述根据本发明的第一实施例的畸变校正设备,图18是示出根据本发明的第一实施例的畸变校正设备的框图。
畸变校正设备1800可包括基线提取单元1801,被配置用于提取文档图像中包含的文本区域中的文本行的基线,其中各文本行对应于一条基线;基线延伸单元1802,被配置用于基于所提取的基线中包含的长基线延伸所提取的基线中包含的短基线;以及校正单元1803,被配置用于基于所提取的长基线和经延伸的短基线来校正文档图像的畸变。
优选地,基线提取单元1802可包括子区域划分单元1802-1,被配置用于将文本区域划分成至少一个子区域,其中从所提取的长基线中的第一长基线开始,该至少一个子区域中的每一个由所提取的长基线中的每两个相邻长基线限定;以及子区域基线延伸单元1802-2,被配置用于对于所述至少一个子区域中的每一个,在该子区域包括至少一个短基线的情况下,基于该区域中包括的两个长基线来延伸该子区域中包含的所述至少一个短基线。
优选地且可选地,基线延伸单元1802可包括单元1802-3,其被配置用于对于位于文本区域的顶部或底部的短基线,基于所提取的长基线和经延伸的短基线的全部中的紧邻该短基线的两个基线来延伸该短基线的。
优选地,子区域基线延伸单元1802-2可进一步包括被配置用于选择该子区域中包含的至少一个短基线中的具有最大长度的短基线的单元;被配置用于基于该子区域中包含的两个长基线来延伸所选择的短基线的单元;以及被配置用于通过经延伸的短基线将该子区域划分成两个新子区域的单元,其中,该两个新子区域中的一个由该两个长基线之一和该经延伸的短基线限定,并且该两个新子区域中的另一个由该经延伸的短基线和该两个长基线中的另一个限定,
其中,对于该两个新子区域中的每一个,顺序执行所述选择、延伸和划分,直至该子区域中包含的所述至少一个短基线全部被延伸.
[有利效果]
如上所述,已经提出了本发明的一种解决方案,其延伸从文档图像的文本区域中提取的至少一条短基线来确定关于文档图像的文本区域的畸变的信息,然后基于这样的畸变信息来进行校正。
与现有技术的基于文本的方法进行比较,本发明的解决方案有效地利用了通常被忽略的短文本行,从而更准确地确定文档图像的文本区域的畸变信息以用于校正。
因此,对于可能包含多个短文本行(包括多短文本行、顶部短文本行以及段落结尾的短行)的文档图像,本发明的该解决方案可通过延伸短文本行的短基线来准确和有效地确定和校正该文档图像的畸变。
图19示出了通过现有技术和根据本发明的第一实施例的方法获得的畸变校正结果之间的比较。如图19中所示,对于具有一些极短文本行(诸如标题行“诞生背景(宋体14)”)的原始输入文档图像,如图19中的中间视图所示,现有技术的方法将丢失这样的标题行,而如图19中的右侧视图所示,本发明的解决方案可准确地检测到这样的标题行。
[第二实施例]
下文将参照附图描述根据本发明的第二实施例的畸变校正方法。为了校正文本区域的畸变(诸如,通过构建文本区域的扭曲网格),文档图像中的文本区域的边界(例如,在文本行在水平方向上的情况下的文本区域的左边界和右边界)应被确定。现有技术假定段落的左边界和右边界为近似直线,可通过霍夫变换被建模,但是这种假设在垂直畸变为非线性的情况下不能成立。根据第二实施例的方法被提供以便解决这种情况。为了清楚起见,第二实施例中的与第一实施例中相同的元件和步骤被以相同附图标记指示,并且它们的描述将被省略。
在此方法中,文档图像的文本区域的基线的端点被进一步修正以便准确确定文档图像的文本区域的边界,从而所确定的文档图像的文本区域的边界还可被用于更准确地获得文本区域的畸变信息以用于校正。
在一种实现中,这样的修正可被直接应用于基线(该基线可通过现有技术中的处理被从文本区域提取)的端点,以获得文本区域的更准确的边界,从而与现有技术中的那些方法(其中没有执行这样的修正)相比,文本区域的畸变仍可如上所述地基于所提取的基线和所获得的边界被校正,诸如对于文本区域可能不包括短基线的情况尤其有效。
在这样的情况中,文本区域网格获得处理可提取文档图像中包含的文本区域中的文本行的基线;识别所有提取的基线中的其端点为未对齐端点的基线;对于所识别的其端点为未对齐端点的基线中的每一个,基于所有提取的基线中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点,并且利用包含修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。因此,网格线基于所提取的基线和所生成的文本区域边界形成以便获得文本区域的网格。
在一种优选实现中,在文本区域包括至少一条短基线的情况下,这样的修正可在如在第一实施例中所述的基线延伸之后被执行,即,第一实施例和第二实施例的解决方案可组合以获得更有利的效果。
在这样的情况的文本区域网格获得处理中,在基线已被提取并且其中的短基线已经如第一实施例中那样被延伸之后,第二实施例的处理将操作以识别所提取的长基线和经延伸的短基线的全部中的其端点为未对齐端点的基线;对于所识别的其端点为未对齐端点的基线中的每一个,基于所提取的长基线和经延伸的短基线的全部中的紧邻该识别的基线的两个正常基线来修正所识别的基线的未对齐端点,并且利用包含修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。因此,网格线基于所提取的长基线、经延伸的短基线和所生成的文本区域边界形成以便获得文本区域的网格。
下文,将参照图20描述根据本发明的第二实施例的方法的文本边界确定步骤的处理。
在步骤S2010(还被称为未对齐基线识别步骤)中,识别所有获得的基线中的其端点为未对齐端点的基线。当文本边界确定步骤被应用于第一实施例时,所有获得的基线将是如第一实施例中那样获得的提取的长基线和经延伸的短基线。
在未对齐基线识别处理中,对于所有获得的基线中的每一个,生成基于所有获得的基线中的与该基线相邻的预定数量的基线的端点的裁定线,然后基于生成的裁定线识别该基线的端点是否是未对齐端点。
该裁定线可通过直接连接或者拟合紧接在该基线之前和之后的基线的端点来生成。在另一实现中,该裁定线可通过拟合与该基线相邻的预定数量的基线的端点来生成。拟合可以是现有技术中的任何方式的数学拟合。
在步骤S2020(还被称为未对齐基线修正步骤)中,对于所识别的其端点为未对齐端点的基线中的每一基线,基于所有获得的基线中的与该识别的基线紧邻的两个正常基线来修正该识别的基线的未对齐端点。
在未对齐基线修正步骤中,紧接在所识别的基线之前和之后的基线的端点被直接连接或者拟合以生成裁定线,然后使所识别的基线朝所生成的裁定线延伸以相交,从而交点用作该基线的修正端点。
在步骤S2030中,基于包括修正后的基线的所有基线的端点来确定文本区域的边界。
下文,将参照图21至23详细描述用于左边界和右边界的文本边界确定处理的实现。该描述针对文本区域的左对齐的情况,并且本领域技术人员可想到,这样的文本边界确定处理可等同地应用于其它情况(例如,文本区域的右对齐、文本区域的中央对齐)。
对于要被识别的基线的左端点,要被使用的裁定线可通过直接连接或者拟合与该基线相邻(例如,紧接在该基线之前和之后)的基线的左端点来生成。在此情况中,预定数量的相邻基线是两条基线。
然后,可基于生成的裁定线来确定基线的左端点是否未对齐,例如通过判断该基线的左端点是否在裁定线的右侧且与之相距一定距离(第三阈值,例如大于文本高度的一半的距离,当然,其它值也是可能的)。如果是,则此左端点被标记为缩进或未对齐端点。如图21中所示,由圆圈指示的端点被识别为未对齐端点。
然后,对于其左端点被识别为缩进或者未对齐端点的基线,被识别的基线被向左侧延伸,直至与裁定线相交,从而交点将作为该基线的修正左端点,并且将用于生成文本区域的左边界。应指出,基线的延伸可被以多种方式实现。在优选实现中,基线可在左端点处沿切线方向延伸。
对于基线的右端点,上述的针对基线的左端点的处理也可应用于右端点以便修正未对齐右端点。
但是,考虑到在左对齐情况中总是存在连续缩进或未对齐(对于左对齐文本,左侧文本区域边界上通常不存在连续缩进或未对齐的情况),为了获得右端点的更好修正结果,优选地,可应用与用于左端点的处理不同的处理。
在用于修正基线的右端点的处理中,首先,可通过拟合与该基线相邻的预定数量的基线的端点来生成裁定线。该拟合可以是现有技术中的任何方式的数学拟合,诸如线性回归,基于局部畸变为线性的假设的RANSAC(随机抽样一致性算法)等。相邻基线的数量可被任意设定,诸如为5个,而并不局限于此。
图22(a)示出了对于基线的右端点获得的裁定线,该裁定线被用于估计当前基线的右端点附近的局部区域的垂直畸变,该局部区域由N条(例如,5条)基线的终端区域构成。
然后,可基于从相邻基线的正常端点(既非缩进也不是未对齐端点)生成的裁定线确定该基线的右端点是否未对齐。
对于基线的右端点,如果其在裁定线的左侧且与之相距一定距离(第四阈值,例如大于文本高度的一半的距离,当然,其它值也是可能的)。如果是,则此右端点被标记为未对齐端点(图22(b)中的圆圈指示)。否则,其被标记为正常端点。
接下来,将修正所识别短基线的未对齐右端点。对于该识别的未对齐右端点(诸如文字“权”附近的圆圈所指示的),将选择最接近该端点的两个正常端点(例如,分别由文字“先”和“他”附近的圆圈指示的端点)。然后,使用这两个正常端点来拟合线。然后,将被识别的基线向右侧延伸,直至与被拟合的线相交,从而交点将是基线的修正右端点,并且将用于生成文本区域的右边界(如图22(c)所示)。应指出,基线的延伸可被以多种方式实现。在一种优选实现中,基线可在该右端点处的切线方向上延伸。
基于基线的修正后端点,可改进地生成文本区域的边界。如图23所示,基于修正的左端点和右端点分别生成文本区域的左边界和右边界。边界可通过校正相邻基线的端点来生成。当然,其它的边界生成方式也是可能的。
应指出,在上述描述中,基线的未对齐端点通过该基线周围的预定数量的基线被修正,但是上述描述仅是示例性的而不是限制性的。对于其端点未对齐的顶部和底部基线而言,顶部和底部基线可通过该基线之前或之后的预定数量的相邻基线被修正。
下文,将参照图24描述根据本发明的第二实施例的文本区域边界确定单元,图24是示出根据本发明的第二实施例的文本区域边界确定单元的框图。
该文本区域边界确定单元可直接应用于当前畸变校正设备,以便用于修正所有获得的基线并由此确定文本区域的边界。在优选实现中,该边界确定单元可用于根据本发明的第一实施例的畸变校正设备,以便修正所提取的长基线和经延伸的短基线的全部并由此确定文本区域的边界。
在第二实施例中,文本区域边界确定单元2400可位于根据第一实施例的基线延伸单元1802或校正单元1803中,或者可在根据本发明的第一实施例的基线延伸单元1802或校正单元1803外部与之交互。
文本区域边界确定单元2400甚至可位于根据第一实施例的畸变校正设备外部。
文本区域边界确定单元2400可包括未对齐基线识别单元2401,被配置用于识别所提取的长基线和经延伸的基线的全部中的端点为未对齐端点的基线;未对齐基线修正单元2402,被配置用于对于所识别的端点为未对齐端点的基线中的每一个,基于提取的长基线和经延伸的基线的全部中的紧邻所识别的基线的两个正常基线来修正所识别的基线的未对齐端点,以及边界生成单元2403,被配置用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。
优选地,未对齐基线识别单元2401可包括被配置用于基于所提取的长基线和经延伸的基线的全部中的与该基线相邻的预定数量的基线的端点来生成裁定线的单元;以及被配置用于基于所述裁定线来识别基线的端点是否是未对齐端点,其中,对于所提取的长基线和经延伸的短基线的全部中的每一个顺序执行这样的生成和识别。
优选地,未对齐基线修正单元2402可进一步包括被配置用于直接连接或拟合该基线的两个最相邻基线的基线端点以生成线的单元;以及被配置用于使基线朝所生成的线延伸以相交以使得交点用作该基线的修正端点的单元。
[有利效果]
如上所述,已经提出了本发明的一种解决方案,其修正文档图像的文本区域中的文本行的基线的端点,以便准确确定文本区域的边界,然后基于这样的文本区域的边界进行校正。
与现有技术的基于边界的方法相比,本发明的该解决方案可以处理四条边界都是非线性曲线构成的任意情况。
因此,对于其中垂直畸变为非线性的文档图像,本发明的该解决方案可通过准确确定文本区域的左和右边界来准确和有效地确定和校正文档图像的畸变。
图25示出通过现有技术的方法和根据本发明的第二实施例的方法获得的基线校正结果之间的比较。如图25所示,对于原始输入的文档图像,例如,通过现有技术获得的文本区域的第一段的左边界仍稍微畸变(如图25中的中间视图示出),而这样的左边界可被本发明的解决方案准确地检测和表示(如图25中的右侧视图示出)。
此外,结合第一实施例,对于其中垂直畸变为非线性的文档图像,即使文本图像复杂地畸变并且可包括多个短文本行,本发明的解决方案仍可通过准确确定文本区域的左边界和右边界来准确和有效地确定和校正畸变。
[工业应用性]
本发明可用于许多应用。例如,本发明可用于识别和处理通过照相机捕获的文档图像,并且尤其对于配备有照相机的手持设备(配有照相机的移动电话)是有利的。
应指出,本说明书中描述的方法和设备可被实现为软件、固件、硬件或它们的任何组合。一些组件可例如被实现为在数字信号处理器或微处理器上运行的软件。其它组件例如可被实现为硬件和/或专用集成电路。
可采用多种方式来实行本发明的方法和设备。例如,可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。上文所述的该方法的步骤的顺序仅是说明性的,并且除非另外具体说明,否则本发明的方法的步骤不限于上文具体描述的顺序。此外,在一些实施例中,本发明还可具体化为记录介质中记录的程序,包括用于实施根据本发明的方法的机器可读指令。因此,本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。
虽然已经参考示例实施例描述了本发明,但是本领域技术人员应当理解,上述示例仅仅是说明性的而不是打算限制本发明的范围。本领域技术人员应理解上述实施例可在不背离本发明的范围和精神的情况下被修改。本发明的范围由所附的权利要求限定,所附的权利要求的范围将被给予最宽泛的解释,以便包含所有这些修改以及等同结构和功能。
Claims (13)
1.一种用于文档图像的畸变校正设备,包括:
基线提取单元,被配置用于提取文档图像中包含的文本区域中的文本行的基线,其中各文本行对应于一条基线;
基线延伸单元,被配置用于基于所提取的基线中包含的长基线延伸所提取的基线中包含的短基线;以及
校正单元,被配置用于基于所提取的长基线和经延伸的短基线来校正文档图像的畸变。
2.根据权利要求1所述的设备,其中,长基线是所提取的基线中的长度大于或者等于第一阈值的基线,并且短基线是所提取的基线中的长度小于第一阈值的基线。
3.根据权利要求1所述的设备,其中,所述基线延伸单元进一步包括:
子区域划分单元,被配置用于将文本区域划分成至少一个子区域,其中从所提取的长基线中的第一长基线开始,由所提取的长基线中的每两个相邻长基线限定该至少一个子区域中的每一个;以及
子区域基线延伸单元,被配置用于对于所述至少一个子区域中的每一个,在该子区域包含至少一个短基线的情况下,基于该子区域中包含的两个长基线来延伸该子区域中包含的所述至少一个短基线。
4.根据权利要求3所述的设备,其中,所述子区域基线延伸单元进一步包括:
被配置用于选择该子区域中包含的所述至少一个短基线中的具有最大长度的短基线的单元;
被配置用于基于该子区域中包含的两个长基线来延伸所选择的短基线的单元;以及
被配置用于通过经延伸的该短基线将该子区域划分成两个新子区域的单元,其中,该两个新子区域中的一个由该两个长基线之一和经延伸的该短基线限定,并且该两个新子区域中的另一个由经延伸的该短基线和该两个长基线中的另一个限定,
其中,对于该两个新子区域中的每一个,顺序执行所述选择、延伸和划分,直至该子区域中包含的所述至少一个短基线全部被延伸。
5.根据权利要求3所述的设备,其中,所述基线延伸单元进一步包括:
被配置用于对于位于文本区域的顶部或底部的短基线,基于所提取的长基线和经延伸的短基线的全部中的紧邻该短基线的两个基线来延伸该短基线的单元。
6.根据权利要求1所述的设备,进一步包括文本区域边界确定单元,被配置用于基于所提取的长基线和经延伸的短基线的端点来确定文档图像中包括的文本区域的边界,所述文本区域边界确定单元包括:
未对齐基线识别单元,被配置用于识别所提取的长基线和经延伸的短基线的全部中的端点为未对齐端点的基线;
未对齐基线修正单元,被配置用于对于所识别的端点为未对齐端点的基线中的每一个,基于所提取的长基线和经延伸的短基线的全部中的紧邻所识别的基线的两个正常基线来修正所识别的基线的未对齐端点,以及
边界生成单元,被配置用于利用包括修正后的未对齐基线的所有基线的端点来生成文档图像的文本区域的边界。
7.根据权利要求6所述的设备,其中,未对齐基线识别单元包括:
被配置用于基于所提取的长基线和经延伸的基线的全部中的与该基线相邻的预定数量的基线的端点来生成裁定线的单元;以及
被配置用于基于所述裁定线来识别基线的端点是否是未对齐端点的单元,
其中,对于所提取的长基线和经延伸的短基线的全部中的每一个顺序执行这样的生成和识别。
8.根据权利要求7的设备,其中,所述裁定线是通过直接连接或者拟合与该基线相邻的预定数量的基线的基线端点而生成的。
9.根据权利要求7所述的设备,其中,在基于所述裁定线识别基线的端点是否是未对齐端点时,
对于左端点,如果该左端点位于所述裁定线的右侧并且距所述裁定线的距离大于第三阈值,则左端点被识别为未对齐端点,并且
对于右端点,如果该右端点位于所述裁定线的左侧并且距所述裁定线的距离大于第四阈值,则右端点被识别为未对齐端点。
10.根据权利要求7所述的设备,其中,未对齐基线修正单元进一步包括:
被配置用于直接连接或拟合该基线的两个最相邻基线的基线端点以生成线的单元;以及
被配置用于使基线朝所生成的线延伸以相交,从而交点用作该基线的修正端点的单元。
11.根据权利要求7所述的设备,其中,通过直接连接或曲线拟合包括修正后的未对齐基线的所有基线的端点来生成文本区域的边界。
12.根据权利要求1所述的设备,其中,所述校正单元进一步包括:
扭曲网格生成单元,被配置用于基于所提取的长基线和经延伸的短基线的全部以及由其确定的文本区域的边界来生成扭曲网格,以及
被配置用于基于所生成的扭曲网格来校正文档图像的畸变的单元。
13.一种用于文档图像的畸变校正方法,包括:
基线提取步骤,用于提取文档图像中包含的文本区域中的文本行的基线,其中各文本行对应于一条基线;
基线延伸步骤,用于基于所提取的基线中包含的长基线延伸所提取的基线中包含的短基线;以及
校正步骤,用于基于所提取的长基线和经延伸的短基线来校正文档图像的畸变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410286333.5A CN105225218B (zh) | 2014-06-24 | 2014-06-24 | 用于文档图像的畸变校正方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410286333.5A CN105225218B (zh) | 2014-06-24 | 2014-06-24 | 用于文档图像的畸变校正方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105225218A true CN105225218A (zh) | 2016-01-06 |
CN105225218B CN105225218B (zh) | 2018-12-21 |
Family
ID=54994168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410286333.5A Active CN105225218B (zh) | 2014-06-24 | 2014-06-24 | 用于文档图像的畸变校正方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105225218B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106249236A (zh) * | 2016-07-12 | 2016-12-21 | 北京航空航天大学 | 一种星载InSAR长短基线图像联合配准方法 |
CN108875744A (zh) * | 2018-03-05 | 2018-11-23 | 南京理工大学 | 基于矩形框坐标变换的多方向文本行检测方法 |
CN109241966A (zh) * | 2018-08-22 | 2019-01-18 | 东北农业大学 | 一种植物叶片无损采集方法 |
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN110852229A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像中文本区域的位置确定方法、装置、设备及存储介质 |
CN111724320A (zh) * | 2020-06-19 | 2020-09-29 | 北京波谱华光科技有限公司 | 一种盲元填充方法和系统 |
CN111967463A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种检测自然场景中弯曲文本的曲线拟合的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070206877A1 (en) * | 2006-03-02 | 2007-09-06 | Minghui Wu | Model-based dewarping method and apparatus |
CN101515984A (zh) * | 2008-02-19 | 2009-08-26 | 佳能株式会社 | 电子文档生成设备及电子文档生成方法 |
US20100073735A1 (en) * | 2008-05-06 | 2010-03-25 | Compulink Management Center, Inc. | Camera-based document imaging |
CN101789122A (zh) * | 2009-01-22 | 2010-07-28 | 佳能株式会社 | 用于校正畸变文档图像的方法和系统 |
-
2014
- 2014-06-24 CN CN201410286333.5A patent/CN105225218B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070206877A1 (en) * | 2006-03-02 | 2007-09-06 | Minghui Wu | Model-based dewarping method and apparatus |
CN101460937A (zh) * | 2006-03-02 | 2009-06-17 | 计算机连接管理中心公司 | 基于模型的去扭曲方法和设备 |
CN101515984A (zh) * | 2008-02-19 | 2009-08-26 | 佳能株式会社 | 电子文档生成设备及电子文档生成方法 |
US20100073735A1 (en) * | 2008-05-06 | 2010-03-25 | Compulink Management Center, Inc. | Camera-based document imaging |
CN101789122A (zh) * | 2009-01-22 | 2010-07-28 | 佳能株式会社 | 用于校正畸变文档图像的方法和系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106249236A (zh) * | 2016-07-12 | 2016-12-21 | 北京航空航天大学 | 一种星载InSAR长短基线图像联合配准方法 |
CN106249236B (zh) * | 2016-07-12 | 2019-01-22 | 北京航空航天大学 | 一种星载InSAR长短基线图像联合配准方法 |
CN108875744A (zh) * | 2018-03-05 | 2018-11-23 | 南京理工大学 | 基于矩形框坐标变换的多方向文本行检测方法 |
CN109241966A (zh) * | 2018-08-22 | 2019-01-18 | 东北农业大学 | 一种植物叶片无损采集方法 |
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN109829437B (zh) * | 2019-02-01 | 2022-03-25 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN110852229A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 图像中文本区域的位置确定方法、装置、设备及存储介质 |
CN111724320A (zh) * | 2020-06-19 | 2020-09-29 | 北京波谱华光科技有限公司 | 一种盲元填充方法和系统 |
CN111967463A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种检测自然场景中弯曲文本的曲线拟合的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105225218B (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105450900A (zh) | 用于文档图像的畸变校正方法和设备 | |
CN109670500B (zh) | 一种文字区域获取方法、装置、存储介质及终端设备 | |
CN105225218A (zh) | 用于文档图像的畸变校正方法和设备 | |
CN112507782B (zh) | 文本图像的识别方法及装置 | |
JP6255486B2 (ja) | 情報認識のための方法及びシステム | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
KR20090004904A (ko) | 모델-기반 디워핑 방법 및 장치 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN105283884A (zh) | 对移动设备捕获的数字图像中的对象进行分类 | |
KR20110139113A (ko) | 주석이 달린 문서 이미지들로부터 클린 문서를 복원하기 위한 시스템 및 방법 | |
CN114049499A (zh) | 用于连续轮廓的目标对象检测方法、设备及存储介质 | |
CN111353961B (zh) | 一种文档曲面校正方法及装置 | |
CN105528614A (zh) | 一种漫画图像版面的识别方法和自动识别系统 | |
CN106169080A (zh) | 一种基于图像的燃气指数自动识别方法 | |
US20180184012A1 (en) | Image processing apparatus, control method, and storage medium | |
TW200529093A (en) | Face image detection method, face image detection system, and face image detection program | |
JP4904330B2 (ja) | 画像からテキストを抽出する方法及び装置 | |
Zhang et al. | Marior: Margin removal and iterative content rectification for document dewarping in the wild | |
CN108197624A (zh) | 证书图像校正识别方法及装置、计算机存储介质 | |
JP6542230B2 (ja) | 投影ひずみを補正するための方法及びシステム | |
CN118506115A (zh) | 基于最佳圆弧融合的多焦距胚胎图像原核检测方法及系统 | |
CN114581928B (zh) | 一种表格识别方法及系统 | |
CN115620322A (zh) | 一种基于关键点检测的全线表表格结构识别方法 | |
JP5201184B2 (ja) | 画像処理装置及びプログラム | |
CN111753722B (zh) | 一种基于特征点类型的指纹识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |