CN101681432B - 图片文档分割方法和系统 - Google Patents
图片文档分割方法和系统 Download PDFInfo
- Publication number
- CN101681432B CN101681432B CN2008800212474A CN200880021247A CN101681432B CN 101681432 B CN101681432 B CN 101681432B CN 2008800212474 A CN2008800212474 A CN 2008800212474A CN 200880021247 A CN200880021247 A CN 200880021247A CN 101681432 B CN101681432 B CN 101681432B
- Authority
- CN
- China
- Prior art keywords
- edge
- collection
- imaged document
- potential
- edges
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000011218 segmentation Effects 0.000 title abstract description 12
- 238000005516 engineering process Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 31
- 238000003709 image segmentation Methods 0.000 claims description 12
- 239000012141 concentrate Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 20
- 238000003708 edge detection Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 25
- 230000004044 response Effects 0.000 description 15
- 230000008859 change Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- RKTYLMNFRDHKIL-UHFFFAOYSA-N copper;5,10,15,20-tetraphenylporphyrin-22,24-diide Chemical compound [Cu+2].C1=CC(C(=C2C=CC([N-]2)=C(C=2C=CC=CC=2)C=2C=CC(N=2)=C(C=2C=CC=CC=2)C2=CC=C3[N-]2)C=2C=CC=CC=2)=NC1=C3C1=CC=CC=C1 RKTYLMNFRDHKIL-UHFFFAOYSA-N 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000007799 cork Substances 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003706 image smoothing Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- -1 as new edge Chemical compound 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
- Character Input (AREA)
Abstract
本申请提供了用于处理包括成像文档和周围的图像的数字图像的改善的分割方法和系统。使用多个边缘检测技术来确定所述成像文档的边缘,然后,从周围的图像分割出成像文档。
Description
对相关申请的交叉引用
根据35U.S.C.119(e),本申请要求2007年5月1日提出的编号为No.60/927,256的美国临时申请案和2007年5月1日提出的编号为No.60/927,308的美国临时申请案的优先权,这里引用了这两个申请的全部内容作为参考。
技术领域
本申请一般涉及用于处理数字图像的方法和系统,更具体来说,用于处理包括文档图像和周围的图像的数字图像的方法和系统。
背景技术
文档管理系统正在变得越来越流行。这样的系统减轻了存储和处理文档的大型数据库的负担。为将这样的系统与纸张文件一起使用,必须捕获要以电子方式存储的纸张文件的数字图像。
有各种用于捕获纸张文件的数字图像的潜在的设备,包括数码相机、扫描仪,以及带有内置数码相机的移动电话。文档的数字图像也可以通过数字化利用常规胶卷照相机捕获的文档的图像来获得。还存在各种用于处理通过这样的设备捕获的纸张文件的数字图像的系统。例如,已知使用被称为“分割”的过程将捕获的图像中的文档图像与其余部分或周围的图像分开。
虽然分割过程可以适用于照相机和扫描仪捕获的图像,但是,在扫描仪捕获的图像中比在照相机捕获的图像中更加容易将成像文档与周围的图像分开。这是因为,当使用照相机时捕获图像的条件比使用扫描仪时的条件更易于变化。此外,更加可能的是,当使用照相机捕获文档的图像时,将遇到对于现有的分割技术不是最适合的条件-包括阴影,照明不良、背景模糊,图像中有多个文档,以及由于皱纹、回纹针,撕破等等造成的夹杂物。使用照相机也可能引入图像失真,而这在扫描仪捕获的图像中一般不太普遍。这样的失真可以包括由照相机相对于文档的角度(“透视失真”)、照相机所使用的镜头以及其与文档的距离、文档的相对平整性(例如,被成像文档是否位于平面或弯曲表面上)及其他因素所引起的失真。结果,当前已知的分割技术在许多情况下不能充分地对捕获的图像进行分割,特别是当捕获的图像是使用照相机捕获的时。因此,需要用于将文档的捕获的数字图像分割为成像文档以及其周围的图像的改善的系统和方法。更具体来说,需要当遇到上文所提及的一个或多个低于最优条件的条件时提供改善的分割速度的分割的系统和方法。
发明内容
本专利文件提供了用于处理包括成像文档和周围的图像的数字图像的改善的分割方法和系统。对于本专利文件来说,包括成像文档和周围的图像的数字图像应该理解为指显示所关心文档的所有四个边缘的至少某个部分的数字图像。
在一个实施例中,系统和方法使用多个边缘检测技术来确定成像文档的边缘线,然后,从周围的图像分割出成像文档。在另一个实施例中,提供了一种方法,包括:通过至少两个不同的计算机实现的边缘检测技术,查找所述成像文档的潜在边缘;将查找到的潜在的边缘分组为顶部、底部、左和右边潜在的边缘组;对于每一个边缘组,选择被确定为可能代表成像文档的边缘的潜在边缘的子集;根据潜在边缘的子集,确定所述成像文档边缘;以及,使用确定的所述成像文档的边缘,从所述数字图像分割出所述成像文档。
在优选实现方式中,根据潜在边缘的子集,确定所述成像文档边缘的步骤包括从潜在边缘的子集产生多个边缘集的过程。优选情况下,产生多个边缘集的过程包括确定可以根据子集确定的每一个可能的边缘集。从潜在边缘的子集确定所述成像的边缘文档的步骤,优选情况下,进一步包括基于预定义的比较准则,选择最准确地代表所述成像文档的边缘的边缘集。所使用的预定义的比较准则优选情况下提供边缘集的匹配度量,并可以包括,例如,梯形性、面积、对比度、纹理,以及线条扩展或收缩。优选情况下,给该方法中使用的预定义的选择标准赋予权重,以反映它们在确定最有可能代表所述成像文档的真实的边缘的边缘集中的相对重要性。
根据本专利文件的另一个方面,提供了用于处理包括成像文档和周围的图像的数字图像的方法,该方法包括下列步骤:使用一个或多个计算机实现的边缘检测技术,产生所述成像文档的多个潜在的边缘集;基于预定义的比较准则,从所述多个边缘集中选择最准确地代表所述成像文档的边缘的边缘集;以及,使用所述确定的所述成像文档的边缘,从所述数字图像分割出所述成像文档。
在本专利文件的再一个方面中,提供了用于处理包括成像文档和周围的图像的数字图像的方法,其中,所述方法包括下列步骤:通过至少两个不同的计算机实现的边缘检测技术,查找所述成像文档的潜在边缘;将所述查找到的潜在的边缘分组为顶部、底部、左边和右边的潜在的边缘组;对于每一个边缘组,选择被确定为可能代表成像文档的边缘的潜在边缘的子集;从所述潜在边缘的子集产生多个边缘集;通过使用预定义的比较准则,从所述多个边缘集中选择被确定为最准确地代表所述成像文档的边缘的边缘集的小子集;在计算机图形用户界面上显示所述边缘集的小子集;从用户那里接收对应于最佳显示的边缘集的输入;以及,使用所述最佳显示的边缘集,从所述数字图像分割出所述成像文档。
在本专利文件的再一个方面中,提供了用于处理包括成像文档和周围的图像的数字图像的方法,其中,所述方法包括:使用一个或多个计算机实现的边缘检测技术,产生所述成像文档的多个潜在的边缘集;通过使用预定义的比较准则,从所述多个边缘集中选择被确定为最准确地代表所述成像文档的边缘的边缘集的小子集;在计算机图形用户界面上显示所述边缘集的小子集;从用户那里接收对应于最佳显示的边缘集的输入;以及,使用所述最佳显示的边缘集,从所述数字图像分割出所述成像文档。
可以在各种计算机系统上轻松地实现前面的方法。如此,根据本申请的用于处理捕获的图像的系统包括编程为用于执行这里所描述的方法的计算机。类似地,本申请的另一个方面涉及计算机可读取的介质,该介质使一个或多个处理器执行这里所描述的方法。
通过阅读下面的描述,并参考附图,将更好地理解本发明的上述及其他目的、特征和优点。
附图说明
本说明书收入的并构成本说明书的一部分的附图说明了本发明的一个或多个实施例,与详细描述一起,用于说明本发明的原理和实现方式。然而,应该明确地理解,每一个附图都只用于说明,不作为对本发明的限制。
图1是显示了根据本专利文件的示例性图片文档分割方法的步骤的流程图。
图2是显示了图1的图片文档分割方法的一种实现方式的流程图。
图3A显示了包含成像文档和周围的图像的示例性数字图像。图3B是图3A中的数字图像的示意表示方式。
图4A显示了从图3A中的数字图像产生的置信度图,概述了来自多个图像处理例程的信息。图4B是图4A的置信度图的示意表示。
图5显示了用于执行根据图2的本申请的方法的一个实施例的索贝尔边缘检测技术的四个示例性过滤器。
图6A显示了使用图5的四个过滤器的来源于图3A的数字图像的边缘响应。图6B是图6A的示意表示。
图7A显示了使用文本操作行从图3A的数字图像产生的置信度图。图7B是图7A的置信度图的示意表示。
图8A显示了使用根据本申请的实施例的示例性的基于纹理的过滤技术,来源于图3A的数字图像的纹理响应。图8B是图8A的示意表示。
图9显示了适合于使用连接的组件分析查找文本行的数字图像,但是,由于其变化的背景和图像中没有清楚的直边缘行这一事实,其他分割方法难以正确地进行分割。图10A是图9的数字图像中的查找的文本的置信度图。图10B是图10A的示意表示。
图11A显示了通过对置信度图应用边缘生长技术而查找到的边缘,这是方法关于边缘存在的确定性的反映,这是通过对图6A和8A所示的过滤器响应进行平均而产生的。图11B是图11A的示意表示。
图12A显示了坎尼检测器的输出和图3A的数字图像的开放源代码Computer Vision库(“OpenCV”)中包括的四边形查找例程。图12B是图12A的示意表示。
图13是用于描述可以用于产生图2中所显示的方法中使用的边缘集的RANSAC分割过程的示意图。
图14示意地显示了对图9的数字图像使用文本行分析查找到的文本行。图15显示了从图14所示的文本行为图9的数字图像取得的文本框边缘集。
图16显示了示例性边缘选择步骤的流程图。
图17是通过边缘生长法和OpenCV为图3A的数字图像找到的所有潜在边缘的示意表示。
图18是显示了在一个可能的剔出操作之后仍保留的潜在的边缘的示意图。
图19是用于描述可以与图2的边缘选择步骤一起使用的捕捉(snapping)技术的示意图,该捕捉技术用于修正在可以用来形成置信度图的某些像素处理技术中可能产生的边缘漂移,置信度图在图2的边缘生长步骤中使用。
图20A是显示了在执行剔出之后和边缘捕捉操作之前图3A的数字图像仍保留的潜在边缘的示意图。图20B放大地显示了图20A中的一个区域。
图21A是图3A的数字图像的示意表示,显示了边缘捕捉操作之后的潜在边缘线。图21B放大地显示了图21A中的一个区域。
图22A是图3A的数字图像的示意图,显示了在优选情况下作为图2的边缘选择步骤的一部分执行的统一操作之后保留的潜在边缘线。图22B放大地显示了图22A中的一个区域。
图23A是在完成边缘选择步骤之后为图3A的数字图像找到的最佳边缘线的示意表示。图23B-23D示意地显示了分别找到的第二、第三和第四最佳边缘线。
图24显示了使用图2的方法为图3A的数字图像找到的九个最佳边缘集。图25A-I是图24所示的九个最佳边缘集的示意表示。
具体实施方式
这里在用于处理数字图像的方法和系统的上下文中描述本发明的实施例。所属领域的技术人员将认识到,下面对本发明的详细描述只是说明性的,而不以任何方式作出限制。了解本发明优点的本领域技术人员轻松地认识到所公开的发明的其他实施例和方面。现在将详细参考如附图所示的实现方式。在所有附图中以及下面的详细描述中将使用相同的附图标记来表示相同的或类似的部件。
为了清楚起见,这里并非显示和描述了所有实现方式的常规特点。当然,还应认识到,在任何这样的实际实现方式的开发过程中,必须作出很多实现方式特定的决定,以便实现开发人员的特定目的,如适应与应用和商业关联的约束,这些特定目的在不同的实现方式之间会有所不同,在不同的开发人员之间也有所不同。此外,还应了解,这样的开发工作可能是复杂而耗时的,但是,是从本公开内容中受益的所属领域的技术人员的日常工作。
图1是显示了根据本专利文件的一个方面的示例性成像文档分割过程10的步骤的流程图。示例性成像文档分割过程10包括原始图像输入步骤20、像素水平处理步骤30、边缘水平处理步骤40、确定成像文档的边缘步骤50,以及分割步骤60,其中在原始图像输入步骤20中,向图像处理系统输入包括成像文档和周围的图像的数字图像。
图2是显示了图1图所示的图片文档分割方法10的一种实现方式的流程图。作为初始步骤,在步骤20中,向图像处理系统输入原始数字图像。在步骤20中输入的数字图像包括成像文档和周围的图像。可以从各种源获取数字图像。例如,可以使用诸如数码相机之类的数字图像捕获设备,直接地捕获数字图像。此外,可以最初使用常规胶卷照相机捕获图像,然后,将捕获的图像数字化,用于方法10中。
图3A显示了可以在本申请的图片文档分割方法和系统,如图2所示的方法10中处理的示例性原始数字图像。图3B是图3A中的数字图像的示意表示。从图3A和3B可以看出,原始数字图像220包含文档图像222和周围的图像,在所显示的情况下,周围的图像包括公告牌230和背景232,其中背景包括不同对比度的各种物品,如图3A中的成像文档220的左侧的计算机监视器和计算机机座。
最先对在步骤20中输入的数字图像220进行像素水平处理20。在图2所示的实施例中,像素水平处理步骤30包括各种操作31-35。更具体来说,像素水平处理步骤30包括索贝尔边缘像素检测操作31、坎尼边缘检测操作32、文本纹理操作33、文本行操作34和全局边缘操作35。然后,对从像素水平操作31-35产生的输出进行边缘水平处理步骤40。边缘水平处理操作可以,例如,包括图2所示的边缘水平操作41、42、44和45。
更具体来说,在图2的实施例中,边缘水平处理步骤40包括边缘生长操作41、边缘选择操作42、文本框操作44,以及RANSAC操作45。此外,如在图2中所显示的实施例中所反映的,索贝尔边缘像素检测操作31、坎尼边缘检测操作32、文本纹理操作33以及文本行操作34的输出可以接受边缘生长操作41的处理。此外,在执行边缘生长操作41之前,可以将这些操作的输出一起平均,以便可以对这些操作的组合输出执行边缘生长操作41。然而,在其他实施例中,可以在边缘生长操作41中只对这些操作中的一个或两个操作的输出进行进一步的处理。例如,在一个实施例中,将来自文本纹理操作33和索贝尔边缘像素检测操作31的过滤器响应一起进行平均,形成置信度图,然后,将置信度图用于边缘生长操作41,以生长数字图像220的可能的边缘。
正如从图2所看到的,文本行操作34的输出,或在替换方案中,也被发送给文本框操作44,将全局边缘操作35的输出发送给RANSAC操作45。进一步将边缘生长操作41的输出发送给边缘选择操作42,然后,再将输出发送给步骤50,以便确定成像文档的边缘。
在图2的实施例中,优选情况下,边缘选择步骤42的输出是总共四个边缘子集中对应于成像文档220的顶部、底部、左边和右边边缘中的每一个边缘的潜在边缘的一个子集。优选情况下,从通过使用用于步骤36中的多个计算机实现的边缘检测技术发现的所有边缘中,根据它们最有可能是潜在边缘的判断,选择要包含在这些潜在边缘的子集中的每一个子集中的潜在的边缘,以代表成像文档222的真实的边缘。在一个实施例中,确定步骤50包括从潜在的边缘的四个子集,产生多个边缘集。更好的是,确定步骤50包括从潜在边缘的子集确定每一个可能的边缘集。
如图2所示,优选情况下,从文本框操作44和RANSAC操作45输出的边缘集,分别与在步骤50中根据潜在的边缘的四个子集确定的多个边缘集一起使用。步骤50的输出用于分割步骤60中,以将在步骤20中输入的数字图像220的成像文档222与诸如公告牌230和背景232之类的周围的图像分开。
在详细说明每一个操作之前,首先简短地描述术语“置信度图”。置信度图是反映由图像处理算法计算出的置信度的标准化表示,表示原始图像中的给定像素是目标文档的一部分。例如,在一个实施例中,0值可以用来表示没有有关像素是否位于文档中的信息,如此反映零置信度,而1值可以用来代表对应的像素位于目标文档中的完整的置信度。或者,1值可以表示有零置信度,而0值可以表示完整的置信度。在另一个实施例中,0值可以表示没有有关像素是否不在文档中的信息的零置信度,而1值表示像素不在目标文档中的完整的置信度。或者,0值可以用来表示没有有关像素是否位于文档中的信息,如此反映零置信度,1值可以用来代表对应的像素位于目标文档中的完整的置信度,而-1值可以用来反映对应的像素不在目标文档中的完整的置信度。
置信度图提供了对不同分割算法进行评估的标准。通过如此标准化临时输出,可以比较各种算法的结果。例如,当需要平均多种算法的结果时或需要分析总体结果时,可以使用置信度图。置信度图还提供了特定算法或一组算法的结果的有用可视化。在本实施例中,索贝尔边缘像素检测操作31、文本纹理操作33以及文本行操作34中的每一种操作都可以产生置信度图作为输出,如上文所讨论的,这些置信度图可以一起平均。
图3A显示了包含文档图像的示例性原始图像。图3B显示了图3A的示意图。原始图像220包含文档图像222和其中包括公告牌230和背景232的周围的图像230,232。目标是将文档图像222与其周围的图像230,232分开,以便进一步进行图像处理。在所显示的实施例中,除其他操作之外,通过索贝尔边缘像素检测操作31、文本纹理操作33以及文本行操作34来处理图3A的图像中的每一个像素,并可以将所产生的置信度图进行平均,以推导如图4A所示的置信度图,以便进行进一步处理。在图4A的置信度图中突出显示了所有正确的文档边缘及其他具有边缘的特征的对象。图4B是图4A的示意图。为进行说明,图4B被显示为图4A的负像。在一个实施例中,置信度图被作为灰度级图像打印,其中,较高的置信度对应于较高的强度,图像正好显示了算法已经提供的知识。
下面的段落描述了图2中的每一个操作的细节。在像素级别的操作31-35中,图像中的像素的属性被转换成较高级别的结构和概念。
像素级别的操作之一是索贝尔边缘像素检测操作31。索贝尔边缘像素检测技术已为大家所熟知,如此,这里不需要进行详细描述。索贝尔边缘像素检测操作31的算子是离散的微分运算子,计算每一个像素中的图像强度函数的梯度的近似值,并给出从明亮到黑暗的最大的可能的增大的方向,以及该方向的变化速率。使用术语“梯度”来表示颜色的渐近的混合,可以被视为从低位到高位值的均匀的渐变。
索贝尔边缘像素检测操作31的结果显示了图像在该像素中的变化的突变度或平滑度,因此,图像的该部分代表边缘的可能性有多大,该边缘被定向的可能性有多大。
为加速计算和降低文本的误报,在本实施例中,使用了较小分辨率的图像。在一个实施例中,使用了具有八分之一分辨率的图像。
在一个实施例中,索贝尔边缘像素检测操作31使用两个3x3内核,这些内核与原始图像卷积,以计算导数的近似值-一个用于横向变化,而另一个用于垂直变化。如果A被表示为源图像,而Gx和Gy是两个图像,它们在每一个像素都包含水平和垂直导数近似值。Gx和Gy是3x3过滤器和A之间的二维卷积的结果。Gx和Gy可以按如下方式计算: 和
在图像中的每一个点,可以通过使用下列公式将所产生的梯度近似值结合起来,给出梯度幅度: 并可以通过下列公式计算梯度的方向: 其中,例如,对于垂直边缘,Θ是0。
假设有在任何图像像素中采样的基础连续的强度函数,则可以作为采样的强度函数(即,数字图像)的函数,计算连续的强度函数的导数。结果,任何特定像素上的导数都是几乎所有图像像素上的强度值的函数。然而,这些导数函数的近似值可以以较小或较大的准确度进行定义。
在一个实施例中,索贝尔操作31可以通过硬件来实现。而在另一个实施例中,索贝尔操作31可以通过软件来实现。计算对应的结果,只需要像素周围的八个图像像素,只需要简单的整数数学即可计算梯度矢量近似值。此外,上文所描述的两个离散过滤器都是可分离的: and 因此,两个导数Gx和Gy可以按如下方式计算 and 这种可分离的计算是有利的,因为对于每一个图像像素,意味着较少的算术计算。
在本实施例中,使用自然的阈值来产生二进制图像,即,将像素设置1或0,取决于像素是否超过阈值。然后,通过如图5所示的具有各向同性过滤器的联合效应的一组四个过滤器250、260、270、180,过滤所产生的数字化图像。然后,使用这些过滤器250、260、270、180的响应作为一组像素是边缘的可能性的指示。这种过滤的结果给出原始图像的大部分的响应(24x24-像素平方,是带有八分之一的分辨率的3x3像素平方的结果)。图6A显示了来源于图5的过滤器的图3A的边缘响应。图6B显示了图6A的示意图。白色区域302代表较强的响应,灰色区域304是中等的响应,而黑色区域306代表无响应。这会方便地产生高边缘置信度的本地区域,可以供进一步的处理以发现准确的边缘。
用于查找边缘的另一种方法是坎尼边缘检测操作32。坎尼边缘检测算法在图像处理领域是众所周知的。该算法使图像平滑,确定每一个像素处的梯度,并确定局部最大值。然后,将上阈值上方的所有最大值都标记为边缘,并延伸,直到它们降低到低于下阈值以下。该算法几乎可发现可以被视为图像中的边缘的一切。下面将简要地描述坎尼算法的处理阶段。
坎尼操作32的第一阶段被称为噪声消减。因为坎尼边缘检测器使用基于高斯一阶导数的过滤器,因此,它对原始未处理的图像数据上存在的噪声敏感,因此开始用高斯过滤器对原始图像卷积。结果是原版的稍微模糊的版本,不会受单一噪声像素任何重大程度的影响。
坎尼操作32的第二阶段是发现图像的强度梯度。图像中的边缘可以指向各种方向,如此,坎尼算法使用四个过滤器来检测模糊的图像中的水平、垂直和对角线边缘。对于结果中的每一个像素,确定给出最大的响应幅度的过滤器的方向。然后,此方向与过滤器响应一起,给出图像中的每一个点的估计的强度梯度。
坎尼操作32的第三阶段是搜索非最大抑制。给定图像梯度的估计,然后,进行搜索,判断梯度幅度是否在梯度方向呈现局部最大值。从此被称为非最大抑制的阶段,获得以二进制图像的形式存在的一组边缘像素。这些有时被称为“细边缘”。
坎尼操作32的最后一个阶段是通过阈值跟踪边缘。大的强度梯度对应于边缘的可能性比小的强度梯度对应于边缘的可能性更大。然而,在大多数情况下,指定给定强度梯度从对应于边缘切换到不对应于边缘的阈值是不切实际的。因此,坎尼使用两个阈值-首选使用一个高阈值和一个低阈值。假设重要的边缘应该沿着图像中的连续曲线,允许我们跟随给定行的模糊的部分,丢弃几个不构成一行但是产生了大的梯度的噪声像素。在本实施例中,首先应用高阈值。这将划出可以相当确信是真正的边缘像素的边缘像素。从这些边缘像素开始,通过使用在以前的阶段推导的方向信息,可以通过图像跟踪边缘。在本实施例中,在跟踪边缘时,应用下阈值,以便只要发现起点,可以跟踪边缘的模糊的部分。
一旦坎尼边缘操作32的此最后一个过程完成,获得二进制图像,其中,每一个像素都被标记为边缘像素或者非边缘像素。根据来自边缘跟踪步骤的互补输出,如此获得的二进制边缘图310也可以当做一组边缘曲线对待,这些边缘曲线在进一步处理之后可以表示为图像域中的多边形。
坎尼边缘算法可以使用从头开始开发的计算机软件来实现。或者,商业上可得的包括坎尼边缘检测算法的软件,可以用于执行方法10的坎尼边缘检测步骤,如开放源代码Computer Vision库(“OpenCV”),其中包含用于计算机视觉应用程序的通用软件例程。在本实施例中,坎尼边缘操作32是通过OpenCV软件执行的。
执行像素级别的操作的另一种操作被称为文本纹理操作33。与定位连接的组件以及确定那些连接的组件中的哪些构成了文本行的操作一起,可以通过检查图像的不同区域并分析它们的属性,来确定文本位于文档内的何处。具有像文本的属性的那些区域被认为更加可能位于文档内部,而具有像非文本的属性并且看起来不像文档背景的那些区域更可能位于文档的外面。类似于人类视觉用来观察文本的方法,基于纹理的过滤操作能够识别文档中的具有符号文本的属性的区域,不需要首先知道那些符号表示什么意思。甚至在连接的组件可能失败的情况下,文本纹理操作33也能够辨别文档文本。
在下面的步骤中描述了文本纹理操作33的过程。考虑图像的块,通过过滤器将像素和颜色通道组合起来,并输出过滤器响应。将它用于识别目的的困难在于,弄清使用哪些过滤器以及如何将响应组合起来。在本实施例中,首先识别nxn格子中的像素,然后,识别这些像素周围的小的矩形区域。然后,文本纹理操作33在此区域运行简单的过滤器。在本实施例中,使用发现像素强度的偏差的中心功能,然后,对这些偏差结果施加模糊。文本通常具有超高级别的偏差,带有较大偏差的区域被标记为像文本,如此,具有较高的置信度。另一方面,具有较小低的偏差的那些区域被标记为非文本,如此,具有较低的置信度。图8A显示了由图像区域的偏差得来的图3A的图像的纹理响应。图8B显示了图8A的示意图320。
提取有关包含文本的图像的信息的另一种方法是寻找文本本身。文本行操作34能够定位图像中的连接的组件。连接的组件是具有通过相邻连接在一起的均匀的颜色和像素的图像区域。图7A显示了通过文本行操作获得的图3A的原始图像的置信度图。图7B显示了图7A的示意图。为进行说明,图7B被显示为图7A的负像。图9显示了适合于发现文本行332的图像330。因为背景是变化的,并且没有清楚的直边缘线,因此,其他分割方法在查找图像330中的文档时会出现麻烦。然而,文本行332是相当清楚的。图10A显示了在图9中查找到的文本的置信度图。图10B显示了图10A的示意图340。为进行说明,图10B被显示为图10A的负像。
全局边缘操作35是执行像素级别的处理30的另一种操作。在一个实施例中,全局边缘操作35的输出只进RANSAC操作45。将参考与RANSAC相关的段落比较详细地描述该操作。
前面已经描述了像素级别的处理30的操作31-35。将在边缘级别的处理步骤40中对像素级别的操作31-35的输出进行进一步的处理。下面将描述边缘级别的处理步骤40的操作。
在图2的实施例中,在像素处理操作31-34完成之后,执行边缘级别的处理的边缘生长操作41,以查找可能的文档边缘线。索贝尔边缘像素检测操作31、坎尼边缘检测操作32、文本纹理操作33以及文本行操作34和边缘生长操作41的操作可以进一步称作边缘查找和分组处理36。此边缘查找和分组处理36被用来通过至少两个不同的计算机实现的边缘检测技术查找成像文档的潜在的边缘,然后,将查找到的潜在的边缘分组为顶部、底部、左边和右边的潜在的边缘组。从多个源收集的边缘线增大了在可能的边缘线的收集的稍后阶段具有最佳适合分割边缘的可能性。
在边缘生长操作41中,首先,使用置信度图,通过使用迭代阈值技术,产生二进制代码。这就会产生纯的黑白图像,其中,白色部分表示,那些像素被包括在正在被分割的实际文档内的概率较高。
为了查找纯的黑白图像内的边缘,在一个实施例中,在特定的方向,例如,从左到右,或从上到下,搜索所有可能的对比点的对,直到查找到从黑色像素到白色像素的渐变段。然后,识别与此位置非常靠近的在同一方向显示出对比渐变的点。如果发现了带有这些属性的任何点,即,黑色-白色对的白色点,则将它附加到原点。重复上述处理将产生如图11A所示的边缘上的一组点,显示了对图3A的原始图像执行边缘生长操作41的结果。图11B显示了图11A的示意图350。从图11B可以看出,某些顶部边缘354、左边缘352、底部边缘358和右边缘356可以由边缘上的点集构成。
利用边缘生长操作41,可以提取带有特定的属性的边缘线,如长的直线。由于边缘线一次只生长一个点,因此,可以检查候选的边缘点,以检查它是否改变现有的边缘线的总体角度。如果添加的点改变边缘的角度,则停止边缘生长处理,会导致直线没有钩和拐角。在本实施例中,边缘线是在分辨率比其原始图像低的置信度图上生长的。分辨率较低会使图像平滑,以便可以最小化钩或锯齿状边缘的数量。此外,处理较小的图像大小也会缩短计算时间。可是,在下一步骤中进一步处理之前,生长的边缘线必须被缩放到原始图像大小。在缩小图像以便产生置信度图的过程中以及放大边缘线以便适合原始图像的过程中,移动了一些边缘线,以使它们远离它们的正确位置。将应直接位于实际的文档边缘上的边缘线稍微在一个方向偏离。这个问题稍后将在边缘处理步骤40中解决。
假定成像文档222的边缘将由四个潜在的边缘线进行定义,可以使用四边形发现例程,使用坎尼检测算法,由边缘线形成四边形。在本实施例中,使用了来自OpenCV的四边形发现例程。图12A显示了在图3A的图像上发现的四边形集。图12B显示了图12A的示意图360,其中,发现了四边形362。此例程将被用于确定步骤50中。
RANSAC 45是“RANdom SAmple Consensus”(随机样本一致性)的缩写。它是从一组包含“界外值”的观测数据估计数学模型的参数的迭代方法。RANSAC算法是众所周知的。在本实施例中,下面将比较详细地一起描述全局边缘操作35和RANSAC 45。基本假设是,数据包括“界内值”,即,可以通过某些模型参数集说明的数据点,以及作为不适合模型的数据点的“界外值”。除此之外,数据点会受到噪音的干扰。“界外值”可以,例如,来自噪音的极值,或来自错误的测量或有关数据解释的不正确的假设。另一个假设是,给定(通常小的)界内值集,则有一个可以估计最佳解释或适合此数据的模型的参数的过程。
在一个实施例中,系统通过在中心和图像的边缘之间进行水平和垂直的扫描,来发现边缘线,并查找文档像素和背景像素之间的边界。然后,对这些点的对进行采样,产生数千潜在的边缘线。然后,根据它们的角度以及与中心的距离,对边缘进行分组,确定每一个方向的这些群中的最大群为文档的顶部、底部和左边,以及右边的边缘。在图13中可以看到一个示例,显示了示例性的原始图像370,其中包含带有分组之前的RANSAC边缘线372的文档图像。
文本框操作44是边缘处理步骤40,获取文本行操作34的输出。文本框操作43识别图像中的连接的组件,然后,将那些具有像文本属性的连接的组件链接在一起。如此,将产生一列行,在正常的情况下,其将对应于文档中的文本行。在一个实施例中,分析文本框操作43中发现的行,以查找包含文字的图像的区域。首先,计算文本的平均角。然后,使用该角度,可以获得每一个方向的离中心最远的行。通过从发现包含文本的最顶部和最底部的点以该平均角伸展行,并用最左边和最右边的行与它们交叉,可以形成常常代表文档区域的最合理的近似值的矩形。由于此操作43的目的是发现文本框,因此,在此步骤中发现的边缘是文本框的边缘,而不是文档边缘。然而,边缘帮助确定方向,并定义更坏的情况的边界。图14显示了带有文本行382的图9的示例性的图像380。图15显示了图9的图像390的分割的文本框392。
一旦边缘生长操作41的过程完成,在本实施例中,在边缘选择操作42中对来自三个不同的来源31、32、33的边缘线进行进一步的处理。图16显示了本实施例中的边缘选择操作42的流程图,其中,执行了过程46-49的序列,以收集最佳边缘线。
图16的实施例中的边缘选择操作42中的第一个过程是不考虑任何短的边缘线,或淘汰边缘操作46。长度短的边缘线不能被合适地认为是文档分割候选项。在本实施例中,长度小于最小的图像的一边(宽度或者高度)的五分之一的边缘线被认为是短的边缘。图17显示了根据图3A的原始图像400通过边缘生长操作41发现的边缘线402、404、406、408的示意图,其中,小的短划线402代表左边缘线,双短划线404代表顶部边缘线,实线406代表右边缘线,大的短划线408代表底部边缘线。从图17看出,通过边缘生长操作41发现短的边缘线,例如,406。图18显示了在淘汰边缘操作46之后剩余的边缘线412、414、416、418的示意图。从图18看出,剩余的边缘线候选项的数目减少,将会节省随后的边缘处理步骤的时间。
在像素处理操作31、32、33过程中收集的边缘线可能轻微地偏离实际的文档边缘。为解决此问题,图16的实施例的边缘选择操作42中的第二个过程是稍微向附近的最吻合线移动边缘线,或边缘捕捉操作47。图19显示了边缘捕捉如何工作的示例。在一个实施例中,为每一个要捕捉的边缘线422设置窗口424(在虚线框中显示)。窗口424的长度与边缘线422的相同。窗口424的宽度被设置为预定值。如果边缘线422的主轴被定义为与窗口424的长度方向相同的方向,边缘线422的短轴426垂直于主轴,那么,在窗口424中有许多沿着短轴426的线段,线长度等于窗口424的宽度。沿着边缘线422的短轴426,评估窗口424中的每一个线段内的点。计算每一个线段上的每一个点的对比度。在本实施例中,向远离原始边缘422的点施加补偿。标记出每一个线段上的对比度最好的点。收集所有的线段上的所有被标记的点,通过使用最小二乘回归,计算新的边缘线。如果新的边缘线的对比度好于原始的边缘线422,则使用新的边缘线替换原始的边缘线422。
由于被捕捉的边缘线也会稍微偏离实际的边缘线,可以多次执行边缘捕捉操作47。在本实施例中,对每一个边缘线执行了三次边缘捕捉操作47,但是,在每次执行之后,窗口宽度更短。在最初的捕捉之后,随后的捕捉将提供更好的拟合,而不会猛烈地移动边缘线。图20A显示了带有边缘捕捉操作47之前的边缘线的示例性的原始图像430的示意图。图20B放大地显示了带有详细显示的边缘线435、436、437、438的图20A中的区域431。图21A显示了带有边缘捕捉操作47之后的边缘线的示例性的原始图像450的示意图。图21B放大地显示了图21A中的区域451。从图21B可以看出,边缘线455、456、457几乎彼此覆盖。换句话说,在边缘捕捉操作47之后,清楚的边缘线更少。
图16的实施例的边缘选择操作42中的第三个过程被称作统一操作48。由于边缘线是从不同的来源31、32、33收集的,增大了发现正确的分割边缘线的可能性,收集的边缘线可能会发生重叠。边缘线的重叠导致不太独特的边缘线集。从此,发现正确的分割的可能性降低。通过合并重叠的边缘线,收集的边缘线的数量可以进一步减少,收集的边缘线集更加唯一。
在本实施例中,通过查找具有类似的角度和位置的两个边缘线,来实现边缘统一操作48。这些边缘线被合并成一个较大的边缘线。为避免产生就拟合而言劣于原件的长的边缘线,在合并之后,对所有的三个边缘线(两个原件以及合并之后的)进行评估,将保留具有最好的对比度的边缘线。不需要进一步考虑另外的两个。图22A显示了带有统一之后的边缘线的示例性的原始图像460。图22B放大地显示了图22A中的一个区域。与图21B相比,在边缘统一操作48之后,有较少的需要考虑的候选边缘线,如图22B所示。
图16的实施例的边缘选择操作42中的第四以及最后一个过程被称作启发式操作48。有许多启发式度量方法,可以用来对收集的边缘线进行分类,以表示该边缘线是图像内的文档的边缘的强度或可能性。边缘线启发式度量方法的示例包括边缘线的长度、边缘线的对比度、相对于文本主体的线角,相对于图像的线角,与文本主体的线距离以及与图像边界的线距离。目标是从上文所提及的度量方法发现可以用来选择最佳文档边缘线的组合。
在本实施例中,使用边缘线的长度和对比度的线性组合来定位成像文档的每个主要边(左边、右边、顶部,以及底部)的五个最佳的潜在边缘线。线对比度是边缘线的总权重,并可以用来描述边缘线有多好。在单个的点处,对比度是点的两边的点的RGB强度的单个差异。根据掩模,给强度赋予权重。在一个实施例中,使用掩模[2,1,0,-1,-2]来查找沿着坐标系(x,y)的垂直线的点的对比度。可以按如下方式来计算对比度:(2*rx-2)+(1*rx-1)+(0*rx)+(-1*rx+1)+(-2*rx+2)+(2*gx-2)+(1*gx-1)+(0*gx)+(-1*gx+1)+(-2*gx+2)+(2*bx-2)+(1*bx-1)+(0*bx)+(-1*bx+1)+(-2*bx+2)
然后,将上述幅度规格化为0和1之间的某个值。如果点的对比度更接近于0,则有更均匀的对比度。换句话说,点的两头就RGB空间而言类似。另一方面,如果点的对比度是1,意味着是理想的黑白对比度。
在本实施例中,作为沿着边缘线的所有点对比度的中值,计算边缘线的对比度。边缘线的较高的对比度对应于更加可能用于文档分割中的边缘线。使用中值对比度代替干均对比度,是因为图像内的某些文档边缘可能具有可能会降低边缘线的平均对比度的阴影或弯曲。通过使用中值,排除了小部分均匀对比度影响总体边缘强度的可能性。
相对于较大的图像尺寸,规一化每一条边缘线的长度,以获得介于0和1之间的值。将此值与对比度值相加,以产生最后的边缘线权重。
在完成边缘选择操作42之后,对于图像的每一侧,可以对边缘线进行分级。图23A-D显示了在对于图3A的示例性原始图像完成边缘选择操作42之后发现的四个最佳结果的示意图。在图23A中,小短划线472代表最佳左边的边缘线,双短划线474代表最佳顶端的边缘线,实线476代表最佳右边的边缘线,大的短划线478代表最佳底部的边缘线。
请回头参看图2,优选情况下,根据边缘选择42的操作,从每一个主要边(左边、右边、顶部,以及底部)选择五个最佳边缘线。在下一处理步骤50中,优选情况下,从潜在边缘的子集产生多个边缘集。边缘集是一组四条边缘线,其中,每一条边缘线都代表成像文档222的一边。如此,可以在步骤50中通过混合四个边缘子集中的每一个子集的潜在的边缘线中的一个来产生多个边缘集,以产生各种唯一边缘集。优选情况下从四个边缘线子集,产生每一个可能的边缘集。如此,如果每一个边缘线的子集都包括五条边缘线,则将有54(625)个代表625个潜在分割的边缘集的组合。
此外,文本框操作44的输出提供一个额外的四边形边缘集。RANSAC操作45的输出提供另一个额外的四边形边缘集。因此,总共有627个可能的边缘集可用于进一步处理。通过较高的级别的约束,对627个边缘集中的每一个进行评估。每一个边缘集中的边缘线通常可能不会构成四边形。在一个实施例中,对于627个边缘集中的每一个边缘集,进行计算,以发现627个边缘集中的每一个边缘集的四条边缘线边缘线的交叉点。每一个边缘集中的边缘线要么被截断,要么延伸,以便每一个边缘集的四条边缘线构成四边形。如此,不再使用边缘长度的原始值,而是替换为新的长度。重新计算每一个边缘集中的所产生的每一条边缘线的对比度。
在一个实施例中,启发式操作的线性组合包括对称的梯形性的程度,四边形的面积,以及对比度的一致性,它们在步骤50中用于评估边缘线。与每一个约束的理想值的偏差被认为是误差值。另外,还使用边缘集中的所有四个边缘线的对比度来缩小此误差值。具有最低的总误差的边缘集被认为是分割的最佳拟合。
在本实施例中,使用对称的梯形性(τ)来度量由边缘集形成的四边形的内角与菱形或梯形的偏差。从最小到最大对四边形的内角进行分类(a4,a3,a2,a1)。可以按如下方式计算对称梯形性:τ=|a1-a2+a3-a4|可以看出,在本实施例中,如果由边缘集形成的四边形是菱形或梯形,则对称梯形性的误差值是零。
当边缘集包围的面积小于预定值或比率时,在本实施例中,通过向总误差添加误差值,施加补偿。在一个实施例中,如果由边缘集包围的面积小于总图像尺寸的25%,则添加面积补偿(A)。否则,将A设置为0。在一个实施例中,面积补偿A等于0.25。
让Cl代表边缘集中的左边边缘的对比度,Cr代表同一个边缘集中的右边边缘的对比度,Ct代表顶部边缘的对比度,而Cb代表底部边缘的对比度。那么,可以按如下方式计算边缘集的对比度(C):C=(Cl+Cr+Ct+Cb)和c=C/4。
在本实施例中,可以通过边缘集的所有四个边缘线的对比度的标准方差(σ)来计算边缘集中的所有四个边缘线之间的对比度的一致性。此对比度的一致性可以用作指示是否有一组一致的边缘线的或边缘线的选择得不好的混合和匹配的集合。可以按如下方式来计算对比度一致性:
在本实施例中,使用如上所述的启发式操作的线性组合来计算总偏差。在一个实施例中,以下列等式显示启发式操作的组合: 其中,E是边缘集的误差值,τ是边缘集的梯形性,σ是边缘集的对比度一致性,A是边缘集的面积补偿(如果有的话),C是边缘集的中值边缘对比度。通过使用上面的等式,可以按照误差值E对所有的627个边缘集进行分级。
在下表中显示了对于为包括在图3A中的示例性的图像确定的九个最佳的边缘集而计算的启发式值。在图24A-I中显示了它们的对应的边缘集合。
值得注意的是,“梯形性”栏下面的条目等于5/2τ,“对比度一致性”栏下面的条目等于2σ。由于表格中所显示的边缘集包围的面积全部大于总图像尺寸的25%,因此,对于全部九个边缘集,面积补偿A都是零。因此,可以通过将第二栏条目(梯形性)和第四栏条目(对比度一致性)相加,然后减去第三栏条目(对比度),来计算最右边栏(误差)。
梯形性(5/2τ) | 中值对比度(C) | 对比度一致性(2σ) | 面积(A) | 误差 | |
#1 | 0.136791 | 0.985948 | 0.0810317 | 35.2819% | -0.768125 |
#2 | 0.108826 | 0.94085 | 0.126515 | 35.4032% | -0.705508 |
#3 | 0.108221 | 0.912745 | 0.167341 | 39.9447% | -0.637183 |
#4 | 0.141515 | 0.93268 | 0.15776 | 39.7736% | -0.633405 |
#5 | 0.032414 | 0.707516 | 0.14283 | 38.4553% | -0.532273 |
#6 | 0.069529 | 0.729412 | 0.133977 | 38.3047% | -0.525906 |
#7 | 0.133173 | 0.837582 | 0.229735 | 25.6308% | -0.474674 |
#8 | 0.133802 | 0.803595 | 0.202533 | 37.2905% | -0.467259 |
#9 | 0.111967 | 0.804575 | 0.225906 | 29.1506% | -0.466702 |
图24显示了图3A的示例性原始图像的多边形推理步骤之后发现的九条最佳边缘线。图25A-I是图24的九条最佳边缘线的示意图。注意,在如图2SA和图25B所示的顶部两个边缘集之间只有小的差别。在图25A中,左边缘是纸张的边缘-正确的分割。在图25B中,左边缘是金属公告牌的内部转换。内边缘与纸张的边缘足够远,以避免连结。在本实施例中,使用最佳边缘集510来分割出成像文档60。或者,在其他实施例中,可以在计算机图形界面上显示少量的高等级的边缘集,让用户基于其判断来选择最佳边缘集。然后,在步骤60中使用由用户选择的边缘集,对数字图像220进行分割。对于使用机器学习技术的系统,此过程可以作为一个选项,允许对系统进行额外的训练的,并且允许系统确定施加于被用于确定步骤50中的选择标准的适当的权重,以便当将来在执行成像文档分割方法10时可以进行比较准确的分割。
在前面所描述的实施例中,对边缘线的两头的延伸(或截断)或纹理操作不包括在启发式操作的组合中。或者,上述两个启发式操作中的一个或两个可以合并成前面所描述的线性组合。在一个实施例中,对边缘的两头的纹理操作被用作判断一个有多好的启发式操作。但与比较像素的窄带的对比度不同,纹理比较像素的全部区域,并可以除去穿过图像中的均匀的区域的行,如文本区域。如此,纹理提供了一个边缘有多好的更加准确的表示。可以通过沿着边缘的短轴扫描像素的窗口,并将对应的RGB像素值添加到内部纹理容器或者外面纹理容器,来计算纹理。指出两个容器的名称,以表示纹理是与图像的内部更靠近,还是与图像的外部更靠近。在所有像素都已经被添加到它们的适当的容器之后,用容器内的像素的数目对每一个容器进行平均,以计算边缘的那一头的平均RGB值。使用内外两个容器的差异来计算纹理强度的归一化值。
如前面所描述的,为了获得完整的文档分割,计算原始的边缘集的四个交点,使用四边形的边缘作为新的边缘,其大小常常与原始边缘段的大小不同。在一个实施例中,必须截取或伸展的边缘的程度被用作添加到边缘集的总的误差的补偿。
在一个实施例中,训练神经网络,使其基于这些启发规则,对边缘集值进行分级。在另一个实施例中,考虑某些参数的优先次序。例如,排他地使用对比度来与其他的启发式操作平分秋色,数量充分靠近时除外。在一个实施例中,人的干预被允许作为最终方法。当严格地对多种分割进行分级时,这特别有帮助。
本申请中所描述的各种方法可以在计算机系统上实现。根据一个实施例,响应处理器执行存储器中包含的一个或多个指令的一个或多个序列,由计算机系统提供捕获的图像的处理。执行存储器中包含的指令序列会使处理器执行这里所描述的处理步骤30、40、50。
计算机系统可以包括通信接口,用于提供连接到网络链路的双向数据通信,而网络链路又连接到局域网。网络链路通常通过一个或多个网络向其他数据服务提供数据通信。计算机系统可以通过网络、网络链路和通信接口,发送消息和接收数据,包括程序代码。
尽管使用示例说明了本发明,包括最佳模式,也可以使任何所属技术领域的专业人员能实现和使用本发明,本发明的可以取得专利的范围由权利要求进行定义,并可以包括所属领域的技术人员能想到的其他示例。相应地,这里所说明的示例应被视为非限制性的。实际上,可以预期,这里所公开的特征的任何组合都可以与这里所公开的任何其他特征或其组合相结合,而没有任何限制。
此外,在描述优选实施例时,为了清楚起见,使用了特定术语。然而,本发明不仅限于如此选定的特定的术语,应该理解,每一个特定的术语都包括所有等效的术语。
应该理解,如这里的描述和随后的整个权利要求中所使用的,单数形式也包括复数,除非上下文明确地指出。此外,如这里的描述和随后的整个权利要求中所使用的,“在”包括“在...里面”和“在...上面”,除非上下文明确地指出。最后,如这里的描述和随后的整个权利要求中所使用的,“和”和“或”的含义包括连接词和反意连接词,并可以可互换地使用,除非上下文明确地指出;短语“排它”可以用来表示只应用反意连接词的含义的情况。
Claims (20)
1.一种用于处理数字图像的方法,所述数字图像包括成像文档和周围的图像,所述方法包括:
通过由计算机实现的至少两个不同的边缘检测技术,查找所述成像文档的潜在边缘;
将查找到的潜在边缘分组为顶部、底部、左边和右边的潜在边缘组;
对于每一个边缘组,选择被确定为可能代表成像文档的边缘的潜在边缘的子集;
确定所述成像文档边缘,包括:
从潜在边缘的所述子集产生多个边缘集,其中边缘集是一组四条边缘线,每条边缘线都代表成像文档的一边;
基于预定义的比较准则,从所述多个边缘集中选择最准确地代表所述成像文档的边缘的边缘集;以及
使用确定的所述成像文档的边缘,从所述数字图像分割出所述成像文档。
2.根据权利要求1所述的方法,其中,所述选择步骤包括从边缘集剔出多个边缘,通过稍微向附近的最吻合线移动边缘线捕捉从中剔出了多个边缘的边缘集中的边缘,并通过合并重叠的边缘线统一被捕捉的边缘。
3.根据权利要求1所述的方法,其中,所述产生所述多个边缘集的过程进一步包括从潜在边缘的所述子集确定每一个可能的边缘集。
4.根据权利要求1所述的方法,其中,所述确定步骤进一步包括通过将由边缘检测技术产生的额外的边缘集添加到根据所述潜在边缘的所述子集确定的所述多个边缘集,形成第二多个边缘集。
5.根据权利要求3所述的方法,其中,所述确定步骤进一步包括通过将由边缘检测技术产生的额外的边缘集添加到根据所述潜在边缘的所述子集确定的所述多个边缘集,形成第二多个边缘集。
6.根据权利要求4所述的方法,其中,添加的边缘集是通过文本行技术产生的。
7.根据权利要求4所述的方法,其中,添加的边缘集是通过随机样本一致性RANSAC技术产生的。
8.根据权利要求5所述的方法,其中,所述确定步骤进一步包括基于预定义的比较准则,从所述第二多个边缘集中选择最准确地代表所述成像文档的边缘的边缘集。
9.根据权利要求8所述的方法,其中,所述预定义的比较准则包括从由梯形性、对比度、对比度一致性、面积、纹理以及边缘长度偏差组成的组中选择的所述边缘集的至少一个属性。
10.根据权利要求9所述的方法,其中,所述预定义的比较准则是边缘集的梯形性、边缘集的边缘的中值对比度、由边缘集的边缘构成的面积以及边缘集的边缘的对比度一致性组成的线性组合。
11.一种用于处理数字图像的设备,所述数字图像包括成像文档和周围的图像,所述设备包括:
用于通过由计算机实现的至少两个不同的边缘检测技术,查找所述成像文档的潜在边缘的装置;
用于将查找到的潜在边缘分组为顶部、底部、左边和右边的潜在边缘组的装置;
用于对于每一个边缘组,选择被确定为可能代表成像文档的边缘的潜在边缘的子集的装置;
用于确定所述成像文档边缘的装置,该装置进一步包括:
用于从潜在边缘的所述子集产生多个边缘集的装置,其中边缘集是一组四条边缘线,每条边缘线都代表成像文档的一边;
用于基于预定义的比较准则,从所述多个边缘集中选择最准确地代表所述成像文档的边缘的边缘集的装置;以及
用于使用确定的所述成像文档的边缘,从所述数字图像分割出所述成像文档的装置。
12.一种用于处理数字图像的方法,所述数字图像包括成像文档和周围的图像,所述方法包括:
使用由计算机实现的一个或多个边缘检测技术,产生所述成像文档的多个潜在边缘集,其中边缘集是一组四条边缘线,每条边缘线都代表成像文档的一边,其中,所述多个潜在边缘集中的至少一个边缘集包括由多个边缘检测技术形成的边缘;
基于预定义的比较准则,从所述多个潜在边缘集中选择最准确地代表所述成像文档的边缘的边缘集;以及
使用所选择的边缘集,从所述数字图像分割出所述成像文档。
13.根据权利要求12所述的方法,其中,所述预定义的比较准则包括从由梯形性、对比度、对比度一致性、面积、纹理以及边缘长度偏差组成的组中选择的所述边缘集的至少一个属性。
14.根据权利要求13所述的方法,其中,所述预定义的比较准则是边缘集的梯形性、边缘集的边缘的中间值对比度、由边缘集的边缘构成的面积以及边缘集的边缘的对比度一致性组成的线性组合。
15.根据权利要求12所述的方法,其中,所述多个潜在边缘集还包括其中的边缘都是通过单一边缘检测技术确定的边缘集。
16.根据权利要求15所述的方法,其中,其中的边缘都是通过单一边缘检测技术确定的边缘集是通过文本行技术产生的。
17.根据权利要求15所述的方法,其中,其中的边缘都是通过单一边缘检测技术确定的边缘集是通过随机样本一致性RANSAC技术产生的。
18.根据权利要求16所述的方法,其中,所述多个潜在边缘集还包括其中的边缘都是通过随机样本一致性RANSAC技术确定的边缘集。
19.一种用于处理数字图像的方法,所述数字图像包括成像文档和周围的图像,所述方法包括:
通过由计算机实现的至少两个不同的边缘检测技术,查找所述成像文档的潜在边缘;
将查找到的潜在边缘分组为顶部、底部、左边和右边的潜在边缘组;
对于每一个边缘组,选择被确定为可能代表成像文档的边缘的潜在边缘的子集;
从所述潜在边缘的子集产生多个边缘集,其中边缘集是一组四条边缘线,并且每条边缘线都代表成像文档的一边;
通过使用预定义的比较准则,从所述多个边缘集中选择被确定为最准确地代表所述成像文档的边缘的边缘集的小子集;
在计算机图形用户界面上显示所述边缘集的小子集;
从用户那里接收对应于最佳显示的边缘集的输入;以及
使用所述最佳显示的边缘集,从所述数字图像分割出所述成像文档。
20.一种用于处理数字图像的方法,所述数字图像包括成像文档和周围的图像,所述方法包括:
使用由计算机实现的一个或多个边缘检测技术,产生所述成像文档的多个潜在边缘集,其中边缘集是一组四条边缘线,每条边缘线都代表成像文档的一边,其中,所述多个潜在边缘集中的至少一个边缘集包括由多个边缘检测技术形成的边缘;
通过使用预定义的比较准则,从所述多个边缘集中选择被确定为最准确地代表所述成像文档的边缘的边缘集的小子集;
在计算机图形用户界面上显示所述边缘集的小子集;
从用户那里接收对应于最佳显示的边缘集的输入;以及
使用所述最佳显示的边缘集,从所述数字图像分割出所述成像文档。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US92725607P | 2007-05-01 | 2007-05-01 | |
US92730807P | 2007-05-01 | 2007-05-01 | |
US60/927,256 | 2007-05-01 | ||
US60/927,308 | 2007-05-01 | ||
PCT/US2008/005651 WO2008137051A1 (en) | 2007-05-01 | 2008-05-01 | Photo-document segmentation method and system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101681432A CN101681432A (zh) | 2010-03-24 |
CN101681432B true CN101681432B (zh) | 2013-11-06 |
Family
ID=39943836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008800212474A Active CN101681432B (zh) | 2007-05-01 | 2008-05-01 | 图片文档分割方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8265393B2 (zh) |
EP (1) | EP2143041A4 (zh) |
CN (1) | CN101681432B (zh) |
WO (1) | WO2008137051A1 (zh) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US8548251B2 (en) * | 2008-05-28 | 2013-10-01 | Apple Inc. | Defining a border for an image |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
JP5290915B2 (ja) * | 2009-09-03 | 2013-09-18 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
US8345106B2 (en) * | 2009-09-23 | 2013-01-01 | Microsoft Corporation | Camera-based scanning |
US8322384B2 (en) * | 2010-03-05 | 2012-12-04 | Whirlpool Corporation | Select-fill dispensing system |
US9280807B2 (en) * | 2011-07-21 | 2016-03-08 | Nec Corporation | Degradation restoration system, degradation restoration method and program |
JP5842441B2 (ja) * | 2011-07-29 | 2016-01-13 | ブラザー工業株式会社 | 画像処理装置およびプログラム |
JP5871571B2 (ja) | 2011-11-11 | 2016-03-01 | 株式会社Pfu | 画像処理装置、矩形検出方法及びコンピュータプログラム |
JP5854774B2 (ja) * | 2011-11-11 | 2016-02-09 | 株式会社Pfu | 画像処理装置、直線検出方法及びコンピュータプログラム |
JP5822664B2 (ja) | 2011-11-11 | 2015-11-24 | 株式会社Pfu | 画像処理装置、直線検出方法及びコンピュータプログラム |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9165188B2 (en) | 2012-01-12 | 2015-10-20 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9053382B2 (en) | 2012-03-22 | 2015-06-09 | Digital Media Professionals Inc. | Robust image based edge detection |
WO2013192508A2 (en) * | 2012-06-22 | 2013-12-27 | Polyvision Corporation | Document unbending and recoloring systems and methods |
RU2013104894A (ru) | 2013-02-05 | 2014-08-10 | ЭлЭсАй Корпорейшн | Процессор изображений с функциональностью сохраняющего контуры подавления шума |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
JP2016517587A (ja) | 2013-03-13 | 2016-06-16 | コファックス, インコーポレイテッド | モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類 |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
JP6099457B2 (ja) * | 2013-03-28 | 2017-03-22 | 株式会社Pfu | 画像処理装置、領域決定方法及びコンピュータプログラム |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
WO2014179752A1 (en) | 2013-05-03 | 2014-11-06 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
GB2517674A (en) * | 2013-05-17 | 2015-03-04 | Wonga Technology Ltd | Image capture using client device |
RU2541353C2 (ru) * | 2013-06-19 | 2015-02-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Автоматическая съемка документа с заданными пропорциями |
JP2016538783A (ja) | 2013-11-15 | 2016-12-08 | コファックス, インコーポレイテッド | モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法 |
US9495343B2 (en) * | 2014-09-30 | 2016-11-15 | Konica Minolta Laboratory U.S.A., Inc. | Horizontal and vertical line detection and removal for document images |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US10185885B2 (en) * | 2014-10-31 | 2019-01-22 | Hewlett-Packard Development Company, L.P. | Tex line detection |
US9857888B2 (en) | 2015-03-17 | 2018-01-02 | Behr Process Corporation | Paint your place application for optimizing digital painting of an image |
CN104766561B (zh) * | 2015-04-20 | 2016-03-02 | 京东方科技集团股份有限公司 | 避免残像的方法和装置 |
WO2016207875A1 (en) | 2015-06-22 | 2016-12-29 | Photomyne Ltd. | System and method for detecting objects in an image |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
KR102591552B1 (ko) | 2015-08-21 | 2023-10-18 | 매직 립, 인코포레이티드 | 눈 포즈 측정을 사용한 눈꺼풀 형상 추정 |
CA2995756A1 (en) * | 2015-08-21 | 2017-03-02 | Magic Leap, Inc. | Eyelid shape estimation |
EP3761232A1 (en) | 2015-10-16 | 2021-01-06 | Magic Leap, Inc. | Eye pose identification using eye features |
CN105528600A (zh) * | 2015-10-30 | 2016-04-27 | 小米科技有限责任公司 | 区域识别方法及装置 |
CN105550633B (zh) * | 2015-10-30 | 2018-12-11 | 小米科技有限责任公司 | 区域识别方法及装置 |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
CN108604300B (zh) * | 2016-04-28 | 2021-12-14 | 惠普发展公司,有限责任合伙企业 | 从具有非均匀背景内容的电子扫描图像中提取文档页面图像 |
US9736442B1 (en) * | 2016-08-29 | 2017-08-15 | Christie Digital Systems Usa, Inc. | Device, system and method for content-adaptive resolution-enhancement |
EP3293672A1 (en) * | 2016-09-07 | 2018-03-14 | Malvern Panalytical Limited | Particle boundary identification |
EP3547218B1 (en) * | 2016-12-30 | 2023-12-20 | Huawei Technologies Co., Ltd. | File processing device and method, and graphical user interface |
US10796422B1 (en) * | 2017-05-31 | 2020-10-06 | Charles Schwab & Co., Inc. | System and method for capturing by a device an image of a light colored object on a light colored background for uploading to a remote server |
US10803350B2 (en) | 2017-11-30 | 2020-10-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
US10528816B2 (en) * | 2017-11-30 | 2020-01-07 | Salesforce.Com, Inc. | System and method for retrieving and displaying supplemental information and pertinent data using augmented reality |
JP7130436B2 (ja) * | 2018-05-25 | 2022-09-05 | キヤノン株式会社 | マルチクロップ処理を行う画像処理装置、マルチクロップ処理によって原稿単位の画像を生成する方法、および、プログラム |
US11308318B2 (en) * | 2018-05-30 | 2022-04-19 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
CN111612003B (zh) * | 2019-02-22 | 2024-08-20 | 北京京东尚科信息技术有限公司 | 一种提取图片中的文本的方法和装置 |
US10970847B2 (en) * | 2019-05-16 | 2021-04-06 | Adobe Inc. | Document boundary detection using deep learning model and image processing algorithms |
CN111652117B (zh) * | 2020-05-29 | 2023-07-04 | 上海深杳智能科技有限公司 | 一种对多文档图像分割的方法及介质 |
EP3965052B1 (en) * | 2020-09-04 | 2023-08-16 | Robert Bosch GmbH | Device and method of training a generative neural network |
US11157526B1 (en) | 2021-04-09 | 2021-10-26 | WARPSPEED, Inc. | Data segmentation using machine learning |
US11151419B1 (en) * | 2021-04-09 | 2021-10-19 | WARPSPEED, Inc. | Data segmentation using machine learning |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6956587B1 (en) * | 2003-10-30 | 2005-10-18 | Microsoft Corporation | Method of automatically cropping and adjusting scanned images |
CN1684491A (zh) * | 2004-02-27 | 2005-10-19 | 卡西欧计算机株式会社 | 图像处理装置、图像投影装置、图像处理方法和程序 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0766446B2 (ja) | 1985-11-27 | 1995-07-19 | 株式会社日立製作所 | 移動物体像を抽出する方法 |
JP2991485B2 (ja) | 1990-11-29 | 1999-12-20 | 株式会社東芝 | 画像処理装置 |
US5280367A (en) | 1991-05-28 | 1994-01-18 | Hewlett-Packard Company | Automatic separation of text from background in scanned images of complex documents |
US5377019A (en) | 1991-12-02 | 1994-12-27 | Minolta Co., Ltd. | Document reading apparatus having a function of determining effective document region based on a detected data |
US5515181A (en) | 1992-03-06 | 1996-05-07 | Fuji Xerox Co., Ltd. | Image reading apparatus providing high quality images through synthesis of segmented image data |
US5818976A (en) | 1993-10-25 | 1998-10-06 | Visioneer, Inc. | Method and apparatus for document skew and size/shape detection |
JPH0897975A (ja) | 1994-09-21 | 1996-04-12 | Minolta Co Ltd | 画像読み取り装置 |
US5677776A (en) | 1994-09-29 | 1997-10-14 | Minolta Co., Ltd. | Image reader for processing an image of a document |
US5831750A (en) | 1994-11-08 | 1998-11-03 | Minolta Co., Ltd. | Image reader having height distribution correction for a read document |
JP3072236B2 (ja) | 1994-12-26 | 2000-07-31 | シャープ株式会社 | 画像入力装置 |
US5764228A (en) | 1995-03-24 | 1998-06-09 | 3Dlabs Inc., Ltd. | Graphics pre-processing and rendering system |
US5585962A (en) | 1995-06-07 | 1996-12-17 | Amoco Corporation | External resonant frequency mixers based on degenerate and half-degenerate resonators |
JP3436025B2 (ja) | 1995-12-27 | 2003-08-11 | ミノルタ株式会社 | 読取り画像の修正方法及び画像読取り装置 |
US5764383A (en) | 1996-05-30 | 1998-06-09 | Xerox Corporation | Platenless book scanner with line buffering to compensate for image skew |
US5742354A (en) | 1996-06-07 | 1998-04-21 | Ultimatte Corporation | Method for generating non-visible window edges in image compositing systems |
JPH1013669A (ja) | 1996-06-26 | 1998-01-16 | Minolta Co Ltd | 画像読取り装置におけるデータ処理方法 |
US5848183A (en) | 1996-11-21 | 1998-12-08 | Xerox Corporation | System and method for generating and utilizing histogram data from a scanned image |
US6806903B1 (en) | 1997-01-27 | 2004-10-19 | Minolta Co., Ltd. | Image capturing apparatus having a γ-characteristic corrector and/or image geometric distortion correction |
JP3569794B2 (ja) | 1997-03-18 | 2004-09-29 | ミノルタ株式会社 | 画像読取りシステム |
JPH11232378A (ja) | 1997-12-09 | 1999-08-27 | Canon Inc | デジタルカメラ、そのデジタルカメラを用いた文書処理システム、コンピュータ可読の記憶媒体、及び、プログラムコード送出装置 |
US6134346A (en) | 1998-01-16 | 2000-10-17 | Ultimatte Corp | Method for removing from an image the background surrounding a selected object |
US6847737B1 (en) | 1998-03-13 | 2005-01-25 | University Of Houston System | Methods for performing DAF data filtering and padding |
US6310984B2 (en) | 1998-04-09 | 2001-10-30 | Hewlett-Packard Company | Image processing system with image cropping and skew correction |
US6346124B1 (en) | 1998-08-25 | 2002-02-12 | University Of Florida | Autonomous boundary detection system for echocardiographic images |
US6266442B1 (en) | 1998-10-23 | 2001-07-24 | Facet Technology Corp. | Method and apparatus for identifying objects depicted in a videostream |
US6282326B1 (en) | 1998-12-14 | 2001-08-28 | Eastman Kodak Company | Artifact removal technique for skew corrected images |
US6630938B1 (en) | 1999-05-07 | 2003-10-07 | Impact Imaging, Inc. | Image calibration |
US6633332B1 (en) | 1999-05-13 | 2003-10-14 | Hewlett-Packard Development Company, L.P. | Digital camera system and method capable of performing document scans |
US6771834B1 (en) | 1999-07-02 | 2004-08-03 | Intel Corporation | Method for segmenting a digital image |
EP1067757A1 (en) | 1999-07-09 | 2001-01-10 | Hewlett-Packard Company | Curled surface imaging system |
US6525741B1 (en) | 1999-08-30 | 2003-02-25 | Xerox Corporation | Chroma key of antialiased images |
FR2813374B1 (fr) * | 2000-08-25 | 2002-11-29 | Saint Gobain Pont A Mousson | Raccord de liaison d'un element de tuyauterie tubulaire avec une conduite |
US6970592B2 (en) | 2000-09-04 | 2005-11-29 | Fujitsu Limited | Apparatus and method for correcting distortion of input image |
US6954290B1 (en) | 2000-11-09 | 2005-10-11 | International Business Machines Corporation | Method and apparatus to correct distortion of document copies |
US6839463B1 (en) | 2000-12-22 | 2005-01-04 | Microsoft Corporation | System and method providing subpixel-edge-offset-based determination of opacity |
GB2377333A (en) | 2001-07-07 | 2003-01-08 | Sharp Kk | Segmenting a pixellated image into foreground and background regions |
US6873732B2 (en) | 2001-07-09 | 2005-03-29 | Xerox Corporation | Method and apparatus for resolving perspective distortion in a document image and for calculating line sums in images |
CN1552155A (zh) | 2001-09-07 | 2004-12-01 | �ʼҷ����ֵ��ӹɷ�����˾ | 具有照相机和图像透视校正并且可能具有旋转和交错校正的成像设备 |
DE10156040B4 (de) | 2001-11-15 | 2005-03-31 | Océ Document Technologies GmbH | Verfahren, Vorrichtung und Computerprogramm-Produkt zum Entzerren einer eingescannten Abbildung |
US6750974B2 (en) | 2002-04-02 | 2004-06-15 | Gsi Lumonics Corporation | Method and system for 3D imaging of target regions |
JP2004040395A (ja) | 2002-07-02 | 2004-02-05 | Fujitsu Ltd | 画像歪み補正装置、方法及びプログラム |
US7301564B2 (en) * | 2002-07-17 | 2007-11-27 | Hewlett-Packard Development Company, L.P. | Systems and methods for processing a digital captured image |
US7121469B2 (en) | 2002-11-26 | 2006-10-17 | International Business Machines Corporation | System and method for selective processing of digital images |
WO2005041123A1 (ja) | 2003-10-24 | 2005-05-06 | Fujitsu Limited | 画像歪み補正プログラム,画像歪み補正装置並びに画像歪み補正方法 |
JP4598426B2 (ja) * | 2004-03-30 | 2010-12-15 | 富士通株式会社 | 境界抽出方法、プログラムおよびこれを用いた装置 |
US7593595B2 (en) | 2004-08-26 | 2009-09-22 | Compulink Management Center, Inc. | Photographic document imaging system |
US6958587B1 (en) * | 2004-09-09 | 2005-10-25 | General Motors Corporation | Torque distribution for multiple propulsion system vehicles |
US7330604B2 (en) | 2006-03-02 | 2008-02-12 | Compulink Management Center, Inc. | Model-based dewarping method and apparatus |
US7433548B2 (en) * | 2006-03-28 | 2008-10-07 | Amazon Technologies, Inc. | Efficient processing of non-reflow content in a digital image |
US8213687B2 (en) | 2006-04-28 | 2012-07-03 | Hewlett-Packard Development Company, L.P. | Image processing methods, image processing systems, and articles of manufacture |
-
2008
- 2008-05-01 EP EP08767496A patent/EP2143041A4/en not_active Ceased
- 2008-05-01 WO PCT/US2008/005651 patent/WO2008137051A1/en active Search and Examination
- 2008-05-01 US US12/113,940 patent/US8265393B2/en active Active
- 2008-05-01 CN CN2008800212474A patent/CN101681432B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6956587B1 (en) * | 2003-10-30 | 2005-10-18 | Microsoft Corporation | Method of automatically cropping and adjusting scanned images |
CN1684491A (zh) * | 2004-02-27 | 2005-10-19 | 卡西欧计算机株式会社 | 图像处理装置、图像投影装置、图像处理方法和程序 |
Also Published As
Publication number | Publication date |
---|---|
US20090175537A1 (en) | 2009-07-09 |
WO2008137051A1 (en) | 2008-11-13 |
CN101681432A (zh) | 2010-03-24 |
EP2143041A1 (en) | 2010-01-13 |
US8265393B2 (en) | 2012-09-11 |
EP2143041A4 (en) | 2011-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101681432B (zh) | 图片文档分割方法和系统 | |
Chaudhuri et al. | Automatic building detection from high-resolution satellite images based on morphology and internal gray variance | |
Islam et al. | Solid waste bin detection and classification using Dynamic Time Warping and MLP classifier | |
CN113435240B (zh) | 一种端到端的表格检测和结构识别方法及系统 | |
Doucette et al. | Automated road extraction from high resolution multispectral imagery | |
CN104463795B (zh) | 一种点阵式dm二维码图像处理方法及装置 | |
Zhang et al. | Automated polyp segmentation in colonoscopy frames using fully convolutional neural network and textons | |
KR101932009B1 (ko) | 다중 객체 검출을 위한 영상 처리 장치 및 방법 | |
Park et al. | Design of a visual perception model with edge-adaptive Gabor filter and support vector machine for traffic sign detection | |
US20240161449A1 (en) | Apparatus and methods for converting lineless talbes into lined tables using generative adversarial networks | |
Küçükmanisa et al. | Real-time illumination and shadow invariant lane detection on mobile platform | |
Peng et al. | Text extraction from video using conditional random fields | |
Donoser et al. | Robust planar target tracking and pose estimation from a single concavity | |
Tu et al. | An efficient crop row detection method for agriculture robots | |
Ghandour et al. | Building shadow detection based on multi-thresholding segmentation | |
Martin et al. | A learning approach for adaptive image segmentation | |
Liu et al. | A simple and fast text localization algorithm for indoor mobile robot navigation | |
CN107146215A (zh) | 一种基于颜色直方图和凸包的显著性检测方法 | |
Guan | Automatic extraction of lip based on wavelet edge detection | |
CN110070490A (zh) | 图像拼接方法和装置 | |
Juneja et al. | Region-based Convolutional Neural Network (R-CNN) architecture for auto-cropping of pancreatic computed tomography | |
Khan et al. | Feature point extraction from the local frequency map of an image | |
Tang et al. | Multi-resolution image segmentation based on Gaussian mixture model | |
Rocha et al. | A robust extension of the mean shift algorithm using optimum path forest | |
Zhang et al. | Using Gaussian Kernels to Remove Uneven Shading from a Document Image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |