CN101354746B - 文字图像抽出装置及文字图像抽出方法 - Google Patents
文字图像抽出装置及文字图像抽出方法 Download PDFInfo
- Publication number
- CN101354746B CN101354746B CN2007101296050A CN200710129605A CN101354746B CN 101354746 B CN101354746 B CN 101354746B CN 2007101296050 A CN2007101296050 A CN 2007101296050A CN 200710129605 A CN200710129605 A CN 200710129605A CN 101354746 B CN101354746 B CN 101354746B
- Authority
- CN
- China
- Prior art keywords
- key element
- literal
- division key
- character image
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000008859 change Effects 0.000 claims abstract description 97
- 238000000605 extraction Methods 0.000 claims description 60
- 239000000284 extract Substances 0.000 claims description 55
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000000203 mixture Substances 0.000 abstract description 5
- 239000011159 matrix material Substances 0.000 description 111
- 238000012545 processing Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 42
- 230000014509 gene expression Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 24
- 230000008878 coupling Effects 0.000 description 18
- 238000010168 coupling process Methods 0.000 description 18
- 238000005859 coupling reaction Methods 0.000 description 18
- 238000011221 initial treatment Methods 0.000 description 14
- 230000000295 complement effect Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004321 preservation Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 230000033228 biological regulation Effects 0.000 description 5
- 230000008676 import Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种文字图像抽出方法及文字图像抽出装置。在抽出步骤中,通过抽出部(401),对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从其中抽出由与连接成分外接的外接图形划分的划分要素。在改变步骤中,通过第一改变部(402),在上述抽出的划分要素中,将至少一部分相互重合的划分要素进行综合而作为新的划分要素。在下面的第一选择步骤中,通过第一选择部(403),预先确定基准大小,在第一改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。之后,可以按该顺序执行第二改变步骤及第二选择步骤。由此,可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像。
Description
技术领域
本发明涉及从排列两个或两个以上文字的文字列区域中抽出各文字的图像的文字图像抽出装置及文字图像抽出方法。
背景技术
一种利用图像扫描仪等图像输入装置将文档转换成图像,并以电子方式进行存储,且在之后可以检索的文档归档装置已得到实用化。在这样的文档归档装置中,为了之后能够检索,需要从文档图像中的文字列区域中抽出各文字的图像。
在文字列区域中,多数情况下除了文字以外还包含标点符号等,而且还有多数情况下包含噪声部分。标点符号及噪声部分对检索来说是不需要的。尽管如此,在以往的文档归档装置中,在从文字列区域中抽出各文字的图像时,不仅抽出包含文字的要素,也抽出包含标点符号的要素及包含噪声部分的要素。
发明内容
本发明的目的在于,提供一种可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像的文字图像抽出方法及文字图像抽出装置。
本发明是一种文字图像抽出方法,其特征在于,包括:抽出步骤,对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从上述文字列区域中,抽出由与连接成分外接的外接图形划分的划分要素;
改变步骤,改变在抽出步骤中抽出的划分要素,且在抽出步骤中抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择步骤,预先确定基准大小,且在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。
根据本发明,通过抽出步骤,从排列两个或两个以上文字的文字列区域中抽出划分要素。通过改变步骤,改变在抽出步骤中抽出的划分要素。通过选择步骤,选择改变步骤中改变的划分要素的一部分。
在抽出步骤中,对文字列区域,求出由相互连接的两个或两个以上像素构成的连接部分,并抽出由与连接成分外接的外接图形划分的划分要素。在该划分要素中,包含文字整体的要素、和包含文字一部分的要素。另外,在该划分要素中有包含标点符号的要素。所谓标点符号是指句点类、括弧类及中点类等描述记号。进而,在该划分要素中,还有包含不属于文字及标点符号任何一方的噪声部分的要素。
在改变步骤中,将至少一部分相互重叠的划分要素进行综合并作为新的划分要素。由此,可以对某些文字,将包含该文字的一部分的要素与包含该文字的另一部分的要素进行综合,而得到包含该文字整体的一个要素。另外,可以对某些文字,将包含该文字一部分的要素与包含该文字整体的要素进行综合,而得到包含该文字整体的一个要素。
而且在改变步骤中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止包含标点符号的要素及包含噪声部分要素,并不是按所希望的方式被综合而变成较大的要素的情况。从而,可以防止在后述的选择步骤中意料之外地选择包含标点符号的要素及包含噪声部分的要素。
包含标点符号的要素及包含噪声部分的要素,比包含文字的要素小。利用这点,在选择步骤中,预先确定基准大小,在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。由此,可以在改变步骤中改变的划分要素中选择包含文字的要素。换言之,可以从改变步骤中改变的划分要素中,将包含标点符号的要素及包含噪声部分的要素排除。
在这样的本发明中,可以从文字列区域中高精度地抽出包含文字的要素并作为文字图像。换言之,可以不会错误地从文字列区域中抽出包含标点符号的要素及包含噪声部分的要素,而抽出包含文字的要素。
另外,本发明的特征在于,还包括:第二改变步骤,改变上述选择步骤中选择的划分要素,且预先确定第一基准尺寸,并在上述选择步骤中选择的划分要素中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字的排列方向上相邻的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
第二选择步骤,预先确定第二基准尺寸,且在第二改变步骤中改变的划分要素中,选择与文字的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。
另外根据本发明,通过第二改变步骤,改变选择步骤中选择的划分要素。通过第二选择步骤,选择第二选择步骤中改变的划分要素的一部分。
文字列区域的各文字,有时大小互不相同。这种情况下,常有包含比较小的文字的两个或两个以上要素在文字的排列方向上相邻的情况。然而,包含标点符号的要素在文字的排列方向上相邻的情况较少,而且,包含噪声部分的要素在文字的排列方向上相邻的情况也较少。
利用这点,第二改变步骤,预先确定第一基准尺寸,且在上述选择步骤中选择的划分要素中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字的排列方向上相邻的划分要素进行综合而作为新的划分要素。由此,可以将包含比较小的文字的要素进行综合而作为较大的要素。从而,可以防止包含比较小的文字的要素在后述的第二选择步骤中意料之外地被排除的情况。
而且第二改变步骤,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分的要素并不是按所希望的方式综合而变成较大的要素。从而,可以防止将包含标点符号的要素及包含噪声部分的要素在后述的第二选择步骤中可靠地排除。
在第二选择步骤中,预先确定第二基准尺寸,且在第二改变步骤中改变的划分要素中,选择与文字的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。由此,可以在第二改变步骤中改变的划分要素中,选择包含文字的要素。换言之,可以从第二改变步骤中改变的划分要素中,排除包含标点符号的要素及包含噪声部分的要素。
在这样的本发明中,可以以更高的精度,从文字列区域中,抽出包含文字的要素并作为文字图像。换言之,在尽可能地防止从文字列区域中错误地抽出包含标点符号的要素及包含噪声部分的要素的情况的基础上,可还以可靠地抽出包含文字的要素。
另外本发明的特征在于,还包括分割步骤,其中,预先确定第三基准尺寸,且在上述第二选择步骤中选择的划分要素中,将与文字的排列方向有关的尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸来进行分割。
另外,根据本发明,在抽出步骤中抽出划分要素时,有时在一个划分要素中包含在文字的排列方向上相邻的两个或两个以上文字。另外,在改变步骤中改变了划分要素时,进而在第二改变步骤中改变了划分要素时,有时在一个划分要素中包含在文字的排列方向上相邻的两个或两个以上文字。在此,在分割步骤中,预先确定第三基准尺寸,且在第二选择步骤中选择的划分要素中,将与文字的排列方向有关尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸进行分割。由此,可以防止在一个划分要素中包含两个或两个以上文字的情况。换言之,可以从文字列区域中,按照一个文字抽出各文字图像。
另外本发明是一种文字图像抽出装置,其特征在于,包括:抽出部,对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从上述文字列区域中,抽出由与连接成分外接的外接图形划分的划分要素;
改变部,改变由抽出部抽出的划分要素,并在由抽出部抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择部,预先确定基准大小,且在由改变部改变的划分要素中,选择比上述基准大小还大的划分要素。
根据本发明,通过抽出部,从排列两个或两个以上文字的文字列区域中抽出划分要素。通过改变部,改变由抽出部抽出的划分要素。通过选择部,选择由改变部改变的划分要素的一部分。
抽出部,对于文字列区域,求出由相互连接的两个或两个以上像素构成的连接部分,并抽出由与连接成分外接的外接图形划分的划分要素。在该划分要素中,有包含文字整体的要素和包含文字的一部分的要素。另外,在该划分要素中,有包含标点符号的要素。进而,在该划分要素中,还有包含不属于文字及标点符号任何一方的噪声部分的要素。
改变部,将至少一部分相互重叠的划分要素进行综合并作为新的划分要素。由此,可以对某些文字,将包含该文字的一部分的要素与包含该文字的另一部分的要素进行综合,而得到包含该文字整体的一个要素。另外,可以对某些文字,将包含该文字一部分的要素与包含该文字整体的要素进行综合,而得到包含该文字整体的一个要素。
而且改变部中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分要素,并不是按所希望的方式进行综合而变成较大的要素。从而,可以防止在后述的选择部中意料之外地选择包含标点符号的要素及包含噪声部分的要素的情况。
包含标点符号的要素及包含噪声部分的要素,比包含文字的要素小。利用这点,选择部,预先确定基准大小,在改变部中改变的划分要素中,选择比上述基准大小还大的划分要素。由此,可以在改变部中改变的划分要素中,选择包含文字的要素。换言之,可以从由改变部改变的划分要素中,排除包含标点符号的要素及包含噪声部分的要素。
在这样的本发明中,可以从文字列区域中高精度地抽出包含文字的要素并作为文字图像。换言之,可以不会错误地从文字列区域中抽出包含标点符号的要素及包含噪声部分的要素,而抽出包含文字的要素。
本发明的目的、特点、及优点,可通过以下的详细说明和附图而变得更明确。
附图说明
图1是表示执行本发明的一实施方式即文字图像抽出方法的文字图像抽出装置400的构成的方框图。
图2是用于说明由文字图像抽出装置400执行的文字图像抽出方法的流程图。
图3是用于详细说明抽出步骤、第一改变步骤、第一选择步骤及第二改变步骤的图。
图4是用于说明第二选择步骤的图。
图5是用于说明第二选择步骤的图。
图6是用于说明分割步骤的图。
图7是简要表示文档图像处理装置10的构成的方框图。
图8是详细表示文档图像处理装置10的构成的方框图。
图9是表示制作字形样本数据库的处理的说明图。
图10是文字图像外围特征的说明图。
图11是网格方向特征的说明图。
图12是表示制作字形特征辞典的处理的说明图。
图13是表示制作索引信息数据库的处理的说明图。
图14是用具体例表示制作索引矩阵的处理的说明图。
图15是表示文档图像例、和索引信息数据库中的该文档图像的索引信息的数据配置例的说明图。
图16是表示检索部的功能和检索处理的说明图。
图17是表示检索部中的检索顺序的流程图。
图18是表示计算检索关键字和索引矩阵之间的相关度的方法的说明图。
图19是用具体例表示检索关键字和索引矩阵之间的相关度的计算的说明图。
图20是表示带有词汇解析功能的检索处理的说明图。
图21是表示文档图像管理部中的处理的说明图。
图22是用具体例表示调整已制作的索引矩阵而使第一列的文字列成为有意义的文字列的处理的说明图。
图23是表示文档图像表示部中表示的、在文档图像DB中储存的文档图像的阅览画面的说明图。
具体实施方式
以下,参考附图,对本发明的优选实施方式进行详细说明。
图1是表示执行本发明的一实施方式即文字图像抽出方法的文字图像抽出装置400的构成的方框图。文字图像抽出装置400,构成将文档作为图像输入并存储的文档图像处理装置10的一部分。文字图像抽出装置400用于从排列两个或两个以上文字的文字列区域即标题区域中,抽出各文字的图像。
在文字列区域中,两个或两个以上文字沿文字的宽度方向或文字的高度方向排列。所谓文字的宽度方向,是指文字的与字的朝向垂直的方向,所谓文字的高度方向,是指文字的与字的朝向平行的方向。换言之,文字的排列方向,与文字宽度方向或文字的高度方向一致。进而,换言之,文字呈现横向书写或纵向书写。本实施方式中,假定横向书写的文字来进行说明。文字是从左向右排成一列。文字列区域是二值图像。
文字图像抽出装置400,具有:抽出部401,从文字列区域中抽出划分要素;第一改变部402,为改变由抽出部401抽出的划分要素的改变部;第一选择部403,为选择由第一改变部402改变的划分要素的一部分的选择部;第二改变部404,为改变由第一选择部403选择的划分要素的第二改变部;第二选择部405,为选择由第二改变部404改变的划分要素的一部分的第二选择部;分割部406,分割由第二选择部405选择的划分要素。
图2是用于说明由文字图像抽出装置400执行的文字图像抽出方法的流程图。当提供文字列区域时,开始文字图像抽出处理。当开始文字图像抽出处理时,首先在步骤a1中执行抽出步骤。在抽出步骤中,通过抽出部401,从文字列区域中抽出划分要素。
在下面的步骤a2中,执行作为改变步骤的第一改变步骤。在第一改变步骤中,通过第一改变部402,改变由抽出部401抽出的划分要素。在下面的步骤a3中,执行作为选择步骤的第一选择步骤。在第一选择步骤中,通过第一选择部403,选择由第一改变部402改变的划分要素的一部分。
在下面的步骤a4中,执行作为第二个改变步骤的第二改变步骤。在第二改变步骤中,通过第二改变部404,改变由第一选择部403选择的划分要素。在下面的步骤a5中,执行作为第二个选择步骤的第二选择步骤。在第二选择步骤中,通过第二选择部405,选择由第二改变部404改变的划分要素的一部分。
在下面的步骤a6中,执行分割步骤。在分割步骤中,通过分割部406分割由第二选择部405选择的划分要素。执行分割步骤后,结束文字图像抽出处理。
图3是用于详细说明抽出步骤、第一改变步骤、第一选择步骤及第二改变步骤的图,图3中(a)表示由抽出步骤抽出的各划分要素,图3中(b)表示由第一改变步骤改变的各划分要素,图3中(c)表示由第一选择步骤选择的各划分要素,图3中(d)表示由第二改变步骤改变的各划分要素。
在抽出步骤中,抽出部401对文字列区域410,求出由相互连接的两个或两个以上像素构成的连接部分411,并将由与连接成分411外接的外接图形412划分的划分要素413从上述文字列区域410中抽出。在抽出步骤中,如图3中(a)所示,抽出各划分要素。
连接成分411,由相互连接的具有同一像素值的像素构成。在求出连接成分411时,关于连接性,也可以以八连接看待或以四连接看待。在本实施方式中,考虑到在文字列区域410中将文字从左向右排成一列,而从文字列区域410的左端向右端求出连接成分411。
外接图形412是矩形,由与文字的宽度方向D1平行的两个边416、417和与文字的高度方向D2平行的两个边418、419构成。划分要素413是这样的外接图形412的内侧的部分。在该划分要素中,有包含文字整体的要素和包含文字一部分的要素。另外,在该划分要素中有包含标点符号的要素。进而,在该划分要素中,还包含不属于文字及标点符号的任何一方的噪声部分的要素。
所谓标点符号是指句点类、括弧类及中点类等的描述记号。句点类是表示句子或文章结束的符号,例如句号。括弧类,包含开始括弧类及结束括弧类。开始括弧类,是指在文章中,用于包围某些部分以明确其与其它部分的区别的符号中表示段落开始的符号,例如双引号。结束括弧类是指,在文章中,用于包围某些部分以明确其与其它部分的区别的符号中的表示段落结束的符号,例如,关双引号。结束括弧类,也包含表示文章中的段落的符号,例如逗号。中点类,是用于文章及语句段落的符号,位于文字宽度的中心,例如冒号。
在第一改变步骤中,第一改变部402,在由抽出部401抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合并作为新的划分要素,将剩余的划分要素按原样作为新的划分要素。在第一改变步骤中,如图3(b)所示,得到各划分要素。
在新的划分要素中,将使至少一部分相互重叠的划分要素综合后的要素,利用与上述相互重叠的划分要素外接的外接图形来划分。该外接图形也是矩形,且由与文字的宽度方向平行的两个边和与文字的高度方向平行的两个边构成。
在这样的第一改变步骤中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素。由此,对某些文字,可以将包含该文字的一部分的要素与包含该文字的其它的一部分的要素进行综合,而得到包含该文字的整体的一个要素。另外,对某些文字,可以将包含该文字的一部分的要素与包含该文字的整体的要素进行综合,而得到包含该文字的整体的一个要素。
例如,对文字“男”而言,在抽出步骤中,如图3中(a)所示,抽出两个划分要素421、422。一个是包含文字的一部分的要素421,另一个是包含文字的另一部分的要素422。在第一改变步骤中,将这些两个划分要素421、422进行综合,而可得到如图3中(b)所示的一个划分要素423。
另外,例如对文字“治”而言,在抽出步骤中,如图3中(a)所示,抽出三个划分要素426、427、428。一个是包含文字整体的要素426,另一个是包含文字的一部分的427,还有一个是包含文字另一部分的要素428。在第一改变步骤中,将这些三个划分要素426~428进行综合,而可得到如图3中(b)所示的一个划分要素429。
而且,在第一改变步骤中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分的要素,并不是按所希望的方式进行综合而变成较大的要素的情况。从而,可以防止包含标点符号的要素及包含噪声部分的要素,在后述的第一及第二选择步骤中意料之外地被选择的情况。
在本实施方式中,将至少一部分在文字的高度方向D2上相互重叠的划分要素综合。换言之,即使在文字的宽度方向D1上相互重叠,只要在文字的高度方向D2上不相互重叠,就不能使划分要素综合。从而,可以尽可能地防止对于包含标点符号的要素及包含噪声部分的要素,并不是按所希望的方式进行综合而变成较大的要素的情况。从而,可以尽可能地防止包含标点符号的要素及包含噪声部分的要素,在后述的第一及第二选择步骤中意料之外地被选择的情况。
在第一选择步骤中,第一选择部403,预先确定基准大小,在由第一改变部402改变的划分要素中,选择比上述基准大小还大的划分要素。在第一选择步骤中,如图3(c)所示,选择各划分要素。
包含标点符号的要素及包含噪声部分的要素,比包含文字的要素小。利用这点,在第一选择步骤中,在由第一改变部402改变的划分要素中,选择比上述基准大小还大的划分要素。由此,可以在由第一改变部402改变的划分要素中,选择包含文字的要素。换言之,可以从由第一改变部402改变的划分要素中,将包含标点符号的要素及包含噪声部分的要素排除。例如,对于包含双引号的要素431、432,在第一选择步骤中排除。
基于文字列区域的与垂直于文字的排列方向的方向有关的尺寸,或由第一改变部402改变的划分要素的大小,来设定上述基准大小。从而,可以适当地设定上述基准大小。由此,可以防止因上述基准大小过小,而不能排除包含标点符号的要素及包含噪声部分的要素的情况,或因上述基准大小过大而甚至将包含文字的要素也排除了的情况。
具体地讲,在第一选择步骤中,作为划分要素的大小,使用划分要素的、与文字的宽度方向D1有关的尺寸(以下称为“宽度尺寸”)及与文字的高度方向D2有关的尺寸(以下称为“高度尺寸”),作为上述基准大小,使用基准宽度尺寸及基准高度尺寸。
根据文字的不同,有时也有包含该文字的要素的宽度尺寸及高度尺寸的任何一方都不满足基准尺寸的情况。在此,在第一选择步骤中,将宽度尺寸比基准宽度尺寸还小且高度尺寸比基准高度尺寸还小的划分要素排除,并选择其以外的划分要素。由此,可以防止甚至将包含文字的要素也意料之外地排除的情况。
基于文字列区域的、与垂直于文字的排列方向的方向有关的尺寸,在本实施方式中,是基于文字列区域的高度尺寸来设定基准宽度尺寸及基准高度尺寸。由此,可以与各划分要素大小偏差无关地,适当地设定基准宽度尺寸及基准高度尺寸。
具体地讲,将基准宽度尺寸及基准高度尺寸,设定为以超过0不到1的规定比率与文字列区域的高度尺寸相乘后的值。将基准宽度尺寸及基准高度尺寸,选定为相对文字列区域的高度尺寸,例如是50%的值。
基准宽度尺寸及基准高度尺寸,也可以以其它设定方法来设定。例如,也可以将基准宽度尺寸,设定为以规定的比率与各划分要素的宽度尺寸的平均值相乘后的值。另外也可以将基准高度尺寸设定为以规定的比率与各划分要素的高度尺寸的平均值相乘后的值。
在第一选择步骤中,也可以基于划分要素的对角线的尺寸,来判定是否选择划分要素。另外,也可以基于划分要素的面积,来判定是否选择划分要素。
进而在第一选择步骤中,也可以基于划分要素的位置信息来判定是否选择划分要素。在这种情况下,划分要素,与其它划分要素相比,位于过上的位置或位于过下的位置,而且,比基准大小还小,此时,排除该划分要素,选择其以外的划分要素。另外,在这种情况下,对于文字的排列方向两端的划分要素,在判定为从其它划分要素远离时,也进行排除。
通过执行如上的抽出步骤、第一改变步骤及第一选择步骤,可以从文字列区域,将包含文字的要素作为文字图像高精度地进行抽出。换言之,可以从文字列区域,不会错误地抽出包含标点符号的要素及包含噪声部分的要素,而抽出包含文字的要素。
在第二改变步骤中,第二改变部404,预先确定第一基准尺寸,在由第一选择部403选择的划分要素中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小并相互在文字的排列方向上相邻的划分要素综合而作为新的划分要素,且将剩余的划分要素按原样作为新的划分要素。在第二改变步骤中,如图3(d)所示,得到各划分要素。
文字列区域的各文字,有大小相互不同的情况。在这种情况下,经常有包含比较小的文字的两个或两个以上要素在文字的排列方向上相邻的情况。然而,包含标点符号的要素在文字的排列方向上相邻的情况较少,而且包含噪声部分的要素在文字的排列方向上相邻的情况较少。
利用这点,在第二改变步骤中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字的排列方向上相邻的划分要素综合作为新的划分要素。具体地讲,在两个相邻的划分要素的各自的宽度尺寸,比上述第一基准尺寸还小的情况下,将这些划分要素作为综合的候补。而且,在成为综合的候补的各划分要素的宽度尺寸与这些划分要素之间的距离的合计值,比以规定的比率与上述第一基准尺寸相乘后的值,还小的情况下,使两个相邻的划分要素综合。由此,可以使包含比较小的文字的要素综合作为较大的要素。例如,如图3(c)所示那样,将包含比较小的文字的要素441、442综合,可以如图3(d)所示,得到一个较大的要素443。从而,可以防止包含比较小的文字的要素,在后述的第二选择步骤中意料之外地被排除的情况。
而且在第二改变步骤中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分的要素,并不是按所希望的方式进行综合而变成较大的要素的情况。从而,可以在后述的第二选择步骤中可靠地排除包含标点符号的要素及包含噪声部分的要素。
基于由第一选择部403选择的划分要素的大小,来设定上述第一基准尺寸。从而,可适当地设定上述第一基准尺寸。由此,可防止因上述第一基准尺寸过小而不对包含比较小的文字的要素进行综合的情况,或因上述第一基准尺寸过大而甚至将包含比较大的文字的要素也进行综合的情况。
基于各划分要素的宽度尺寸或各划分要素的高度尺寸,来设定上述第一基准尺寸。由此,可以与各划分要素的大小偏差无关地,适当地设定上述第一基准尺寸。
具体地讲,将上述第一基准尺寸,设定为以超过0不到1的规定比率与各划分要素的宽度尺寸的平均值相乘后的值。也可以将上述第一基准尺寸,设定为以超过0不到1的规定比率与各划分要素的高度尺寸的平均值相乘后的值。也可以将上述第一基准尺寸,用其它的设定方法进行设定。
图4是用于说明第二选择步骤的图,图4中(a)表示在第二改变步骤中改变的各划分要素,图4中(b)表示在第二选择步骤中选择的各划分要素。图5是用于说明第二选择步骤的图,图5中(a)表示在第二改变步骤中改变的各划分要素,图5中(b)表示在第二选择步骤中选择的各划分要素。
在第二选择步骤中,第二选择部405,预先确定第二基准尺寸,并在由第二改变部404改变的划分要素中,选择比上述第二基准尺寸还大的划分要素。在第二选择步骤中,如图4中(b)及图5中(b)所示,选择各划分要素。
在这样的第二选择步骤中,在由第二改变部404改变的划分要素中,选择与文字的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。由此,可以从由第二改变部404改变的划分要素中,可靠地排除包含标点符号的要素及包含噪声部分的要素。
基于文字列区域的、与垂直于文字的排列方向的方向有关的尺寸,或基于由第二改变部404改变的划分要素大小,来设定上述第二基准尺寸。从而,可以适当地设定上述第二基准尺寸。由此,可以防止因上述第二基准尺寸过小而不排除包含标点符号的要素及包含噪声部分的要素的情况,或因上述第二基准尺寸过大而甚至排除了包含文字的要素的情况。
在第二选择步骤中,排除与文字的排列方向有关的尺寸比上述第二基准尺寸还小的划分要素,选择其以外的划分要素。换言之,即使与垂直于文字的排列方向的方向有关的尺寸比上述第二基准尺寸还大,只要与文字的排列方向有关的尺寸比上述第二基准尺寸还小,则排除该划分要素。这样,在第二选择步骤中,使选择条件严格。由此,可以可靠地排除包含标点符号的要素及包含噪声部分的要素。
例如,如图4所示,对于包含作为噪声部分的细线的要素445,在第二选择步骤中排除。另外,如图5所示,对于包含与其它文字相比非常小的文字的要素446,也在第二选择步骤中排除。
基于文字列区域的、与垂直于文字的排列方向的方向有关的尺寸,在本实施方式中是基于文字列区域的高度尺寸来设定上述第二基准尺寸。由此,与各划分要素的大小的偏差无关地,可适当地设定上述第二基准尺寸。
具体地讲,将上述第二基准尺寸,设定为以超过0不到1的规定比率与文字列区域的高度尺寸相乘后的值。第二选择步骤中的规定比率,也可以比第一选择步骤中的规定比率大。将上述第二基准尺寸选择为相对文字列区域的高度尺寸,例如是70%的值。
也可以用其它的设定方法来设定上述第二基准尺寸。例如,将上述第二基准尺寸设定为以规定的比率与各划分要素的宽度尺寸的平均值相乘后的值。另外,也可以将上述第二基准尺寸设定为以规定的比率与各划分要素的高度尺寸的平均值相乘后的值。
通过又执行如上述的第二改变步骤及第二选择步骤,可以以更高的精度,从文字列区域中,抽出包含文字的要素而作为文字图像。换言之,不会从文字列区域中错误地抽出包含标点符号的要素及包含噪声部分的要素,而可以可靠地抽出包含文字的要素。
图6是用于说明分割步骤的图,图6中(a)表示第二选择步骤中选择的各划分要素,图6中(b)表示分割步骤中分割的各划分要素。
在分割步骤中,分割部406,预先确定第三基准尺寸,并在第二选择部405中选择的划分要素中,将宽度尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸来进行分割。
在抽出步骤抽出了划分要素后,有时在文字的排列方向上相邻的两个或两个以上文字被包含在一个划分要素中。另外,即使在第一改变步骤中改变了划分要素后,进而在第二改变步骤中改变了划分要素后,有时在文字的排列方向上相邻的两个或两个以上文字被包含在一个划分要素中。
在此,在分割步骤中,在由第二选择部405选择的划分要素中,将与文字的排列方向有关的尺寸比上述第三基准尺寸还大有划分要素,基于上述第三基准尺寸来进行分割。具体地讲,计算出划分要素的宽度尺寸与上述第三基准尺寸的比例,基于该比例来决定分割数,以该分割数对划分要素进行等分割。例如,如图6所示,对于包含两个文字的要素451,分割成分别包含一个文字的两个要素452、453。由此,,可以防止在一个划分要素中包含两个或两个以上文字的情况。换言之,可以从文字列区域中将各文字图像按照一个文字进行抽出。
基于由第二选择部405选择的划分要素的大小,来设定上述第三基准尺寸。从而,可以适当地设定上述第三基准尺寸。由此,可以防止因上述第三基准尺寸过小而将不应该分割的划分要素意料之外地分割,或因上述第三基准尺寸过大而未将应该分割的划分要素分割的情况。
基于各划分要素的宽度尺寸的平均值或各划分要素的高度尺寸的平均值,来设定上述第三基准尺寸。由此,与各划分要素的大小的偏差无关地,可以适当地设定上述第三基准尺寸。
具体地讲,将上述第三基准尺寸,设定为以超过0不到1的规定比率与各划分要素的宽度尺寸的平均值相乘后的值。另外,也可以将上述第三基准尺寸设定为以超过0不到1的规定比率与各划分要素的高度尺寸的最大值相乘后的值。也可以用其它的设定方法来设定上述第三基准尺寸。
在上述的实施方式中,在第一选择步骤中,基于划分要素的大小,来判定是否选择划分要素,但是,在本发明的其它的实施方式中,在该第一选择步骤中,也可以基于划分要素的位置,来判定是否选择划分要素。例如,也可以排除位于相对其它的划分要素远离的位置的划分要素。
另外,在本发明的另外的其它实施方式中,也可以省略第二改变步骤及第二选择步骤。
图7是简要表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括处理器4、和储存用于使处理器4进行实际处理的软件等的外部存储装置5。
处理器4在实际中进行:从文档图像中抽出进行检索所需要的标题区域的文档图像特征抽出处理;生成能够进行对于文档图像的检索的索引信息的索引信息生成处理;使用了索引信息的检索处理;使用索引信息来制作后述的有意义的文档名,并管理文档图像的文档图像管理处理等。
处理器4中的实际的处理,根据在外部存储装置5中储存的软件来执行。处理器4例如由通常的计算机主体等来构成。在本实施方式中,处理器4还执行制作在索引信息生成处理中使用的后述的字形特征字典15的字形特征字典制作处理。
外部存储装置5,例如可由能够进行高速访问的硬盘等来构成。为了大量保存文档图像,外部存储装置5也可以是使用光盘等的大容量设备的构成。后述的字形特征字典15、索引信息数据库(索引信息DB)17、文档图像数据库(文档图像DB)19、字形样本数据库(字形样本DB)13等由外部存储装置5构成。
文档图像处理装置10与键盘1连接,且与显示装置3连接。键盘1用于输入检索关键词。另外,键盘1还用于在阅览文档图像时输入指示。并且,键盘1还用于进行后述的候补文字数、相关值、以及行的相关度加权因数Q等的设定值的变更。显示装置3输出并显示文档图像等。在显示装置3中显示的内容中还包含相关度的信息、以及图像名称等信息。
文档图像处理装置10还与图像扫描仪2或数码相机6连接。图像扫描仪2和数码相机6用于取得文档图像。文档图像的取得不限于通过图像扫描仪2和数码相机6,也可以通过进行利用网络等的通信来取得。另外,也可以进行使用了图像扫描仪2或数码相机6的检索关键词的输入。
图8是详细表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括:文字数据库输入部(文字DB输入部)11、文字正规化处理部12、字形样本DB13、文字图像特征抽出部(图像特征抽出部)14、字形特征字典15、特征匹配部16、索引信息DB17、标题区域初始处理部18、文档图像DB19、文档图像特征数据库(文档图像特征DB)20、文档图像输入部21、检索部22、词汇解析部23、关键词输入部24、检索结果显示部25、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54。
其中,由文字DB输入部11、字体正规化处理部12、字形样本DB13、文字图像特征抽出部14、字形特征字典15构成实施上述的字形特征字典制作处理的字形特征字典生成部30。
首先,对构成字形特征字典生成部30的上述功能模块11、12、13、14、15进行说明。
文字DB输入部11用于输入为制作字形特征字典15所需的成为基本的文字数据库。如果本装置是例如中文对应的装置,则输入中华人民共和国GB2312的全部6763个文字等。另外,如果本装置是日语对应的装置,则输入JIS第1标准的约3,000个字种等。即,这里所说的文字中包含符号。这样的文字DB输入部11由处理器4构成,且文字数据库由记录媒体、或通过利用了网络的数据通信等来供给。
字体正规化处理部12用于对由文字DB输入部11输入的文字数据库中所包含的全部文字,制作不同字体和字号的文字图像。不同字体和字号的文字图像被储存在字形样本DB13中。
图9表示字体正规化处理部12制作字形样本DB13的处理。在字体正规化处理部12中,如果本装置是中文对应的装置,则具备例如宋体、仿宋体、黑体、楷体等字形样本12a。另外,如果本装置是日语对应的装置,则具备MS明朝、MS Gothic…等字形样本。
字体正规化处理部12中的变形处理部12b,对文字数据库的文字进行图像化,并对文字图像进行标准化处理。然后,变形处理部12b参照字形样本12a,对标准化处理后的文字图像实施变形处理,并进一步改变为不同字体和大小的文字图像。变形处理中,包括例如模糊化处理、扩大/缩小化处理、细微化处理等。字体基准部12c将这样变形处理后的文字图像作为基准文字图像储存到字形样本DB13中。
在字形样本DB13中,针对文字数据库的所有文字,即使是相同的文字,也储存有对应每个由字体、大小决定的字形的基准文字图像。如果举例说明,则,即使文字种类都是“中”,也存在仅相当于所决定的字体的数量的不同形状的基准文字图像的“中”,另外,还储存有仅相当于所决定的大小的数量的不同大小的基准文字图像的“中”。
文字图像特征抽出部14是抽出文字图像的特征(图像特征),并储存到字形特征字典15中的部分。在本实施方式中,文字图像特征抽出部14根据文字图像外围特征与网格方向的组合,来抽出文字图像的特征,并设为特征矢量。另外,文字图像的特征不限于这些,也可以抽出其他特征来形成特征矢量。
这里,预先对文字图像外围特征和网格方向特征进行说明。图10是文字图像外围特征的说明图。所谓文字图像外围特征是指从文字图像的外部观察的轮廓的特征。如图10所示,从文字图像的外接矩形的4边进行扫描,并将从白像素变化为黑像素时的点为止的距离作为特征,取出最初变化的位置和第二次变化的位置。
例如,在将外接矩形分割成X行Y列的场合下,以行为单位分别从左方向和右方向扫描图像,以列为单位分别从上方向和下方向扫描图像。另外,图10是表示以行为单位从左进行扫描的图。
另外,在图10中,用实线箭头1表示最初从白像素变化为黑像素时的点为止的扫描轨迹。虚线箭头2表示第二次从白像素变化为黑像素时的点为止的扫描轨迹。实线箭头3表示最终也未能检测到从白像素变化为黑像素的点的情况下的扫描轨迹,在这种没有变化点的场合下,距离值为0。
另外图11(a)(b)是网格方向特征的说明图。将文字图像分割成粗网格,对各格子区域内的黑像素,向预先确定的两个或两个以上方向延伸触手。然后,对在各方向上连接的黑像素的像素数进行计数,并将表示该黑像素按各方向成分的分布状况的方向影响度,作为识别函数采用欧几里得距离,并利用与黑像素数之差相应的值,对距离值进行除法运算,而计算出距离值。
在图11(a)中,将文字图像分割成4×4共16个格子,且以在X轴方向上最接近于格子交点的从黑像素变化为白像素的点为中心,向X轴方向(0°)、45°方向、Y轴方向(90°)的3个方向延伸触手。
在本实施例中,将文字图像分割成8×8的4角的网格,并如图11(b)所示,向0°、45°、90°、135°、180°、225°、270°、315°这8个方向延伸触手。
另外,作为网格方向的特征的抽出方法,有设置触手的延伸方向、延伸触手的中心点的方法等各种方法,例如记载在日本专利特开2000-181994号公报等中。
文字图像特征抽出部14,对储存在文字形状样本DB13中的所有的基准文字图像进行这样的文字图像的特征的抽出。然后,文字图像特征抽出部14将储存在字形样本DB13中的基准文字图像的抽出结果储存到字形特征字典15中,而生成字形特征字典15。
图12是表示制作基于文字图像特征抽出部14的字形特征字典15的处理的图。文字图像特征抽出部14中的字形标准化部14a从字形样本DB13中取出基准文字图像,文字图像特征取出部14b从由字形标准化部14a取出的基准文字图像中取出其特征。然后,特征分类部14c参照字形样本DB13,对从按每个基准文字图像抽出的特征进行分类,并储存到字形特征字典15中。
在文字图像特征取出部14b中,如上述那样,按每个单个文字,求出基于带加权的不同基准文字图像的特征的适应值,并取得基准文字图像的标准特征。
文字图像特征取出部14b通过对不同字体字号进行加权,可制作不同的字形特征字典。通过融合多字体的图像特征,且以单个文字图像特征为单位来制作字形特征字典,可满足多字体/字号文档图像的自动检索和管理。
下面,说明构成实施文档图像特征抽出处理的文档图像特征抽出部31的文档图像DB19、文档图像特征DB20、标题区域初始处理部18、文字图像特征抽出部14。
文档图像DB19是在由文档图像输入部21输入文档图像时,对其附加用于识别的文档ID并进行保存的数据库。
标题区域初始处理部18是在文档图像DB19中保存了新的文档图像时,根据其图像数据来定位并抽出文档图像中的标题区域,然后将文字图像送到上述的文字图像特征抽出部14的。
图15表示对文档图像50以T1、T2、T3这3个区域定位为标题区域的状态。根据该图15也可以看出,将文档图像50中的标题部分作为标题区域T抽出。
由标题区域初始处理部18抽出并送到文字图像特征抽出部14的文字图像,通常是包含两个或两个以上文字的文字列的图像。从而,在以下的说明中,将由标题区域初始处理部18送来的文字图像设为文字列的图像。
在本实施方式中,标题区域初始处理部18利用投影法和连通区域统计分析来进行标题区域T的定位和抽出。另外,这样的标题区域T主要相当于标题部分,例如可以采用在日本专利特开平9-319747号公报、日本专利特开平8-153110等所记载的方法等各种以往的方法。
由于不是将文档图像的全部文字区域(文本区域)作为对象,而是如上所述仅将标题区域T定位并抽出,所以可减少成为检索对象的信息量,并缩短检索时间。
其中,不是对全部的文本区域进行定位而仅对标题区域T进行定位的事项,对于检索而言并不是必须的构成要素,也可以对全文的文本区域进行定位并抽出。但是,对于后述的有意义的文档名的制作而言,仅对标题区域T进行定位是必须的构成要素。
文字图像特征抽出部14,对于从标题区域初始处理部18输入的文字列的图像,利用上述的文字图像抽出方法,在抽出各文字图像的基础上,与字形特征字典15的制作时同样,抽出各文字图像的特征。然后,将抽出的特征,在文档图像特征DB20中按每个文档图像进行储存。
在文档图像特征DB20中,由标题区域初始处理部18抽出的标题区域T中所包含的文字列的图像的特征信息,作为构成文字列的各文字的各自的特征(特征矢量)而被储存。
如图15所示,对于1个文档图像50,将在所抽出的全部标题区域T1、T2、T3…中所包含的文字列的文字图像的特征,即构成文字列的各文字的文字图像的特征,与文档图像50的文档ID一同储存。
下面,说明构成实施索引信息制作处理的索引信息生成部32的文字图像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文档图像特征DB20。
文字图像特征抽出部14、字形特征字典15、文档图像特征DB20的功能,与上述的说明相同。
特征匹配部16是从文档图像特征DB20中读出在文档图像的标题区域T中所包含的文字图像的特征,基于该读出的特征,参照字形特征字典15,如后述那样制作索引矩阵,并生成文档图像的索引信息的部分。
这里,对应1个文档图像生成1个索引信息,并按每个标题区域T制作索引信息中所包含的索引矩阵。从而,在1个文档图像内存在两个或两个以上标题区域T的场合下,在该文档图像的索引信息中包含两个或两个以上索引矩阵。
图13表示制作索引信息DB17的处理。如上所述,当某个文档图像被输入并被储存到文档图像DB19中时,文字图像特征取出部14b抽出在各标题区域T中所包含的文字列的文字图像的特征,并储存到文档图像特征DB20中。
特征匹配部16从文档图像特征DB20中读出各标题区域T中所包含的文字列的图像的特征,且按每个单个文字与字形特征字典15内的基准文字图像进行匹配,而制作标题区域T各自的索引矩阵。
然后,特征匹配部16将该文档图像的其他信息,即文档ID和文档图像DB19内的该当的文档图像的保存位置的信息等包含在这些索引矩阵中,而作为索引信息储存到索引信息DB17中。
图14表示基于特征匹配部16的制作索引矩阵的处理的一例。图14是说明针对图15中的标题区域T3中所包含的文字列“去神仙居住的地方”这8个文字图像,制作索引矩阵的说明图。
文字列“去神仙居住的地方”被分割成单个文字图像“去”“神”“仙”“居”“住”“的”“地”“方”。
在“去”...“方”这8个文字中,按照排列顺序附加1~8的编号,即对“去”附加1、对“神”附加2、...对“方”附加8。该编号相当于索引矩阵的行编号。
对这样的所有的8个文字图像,实施如下的处理,即:取出针对被储存在图14中参照符号A所示的文档图像特征DB20中的文字图像“去”的特征(S1),并参照字形特征字典15,按照特征相近(匹配度高)的顺序,选择N个候补文字(S2)。
对按照匹配度从高到低的顺序抽出的N个候补文字,附加与抽出顺序相应的编号,该编号相当于索引矩阵的列编号。然后,根据该列编号,来设定表示检索关键词中所包含的各检索文字与候补文字之间的匹配度的文字相关值(相关值)。
在图14中,由参照符号100所表示的表表示文字列“去神仙居住的地方”的索引矩阵的内容。例如,对于第5个文字的“住”的文字图像,在行编号为5的行中,从匹配度高的第1列,顺序地抽出“任”、“佳”、“住”、…、“仁”的候补文字。在表100中,例如候补文字“去”的索引矩阵内的位置是[1,1],候补文字“屑”的位置是[4,2],候补文字“仁”的位置是[5,N]。
另外,在图14的表100中,为了有助于理解,对于与文字列的各文字对应的候补文字附加○进行表示。
对于这样的索引矩阵的行数M,根据由标题区域初始处理部18作为标题区域T而抽出的文字列的图像的文字数来决定。另外,列数N是根据针对1个文字所选择出的候补文字数来决定。从而,根据本发明,可通过改变索引矩阵的维数(列数),来灵活地设定索引矩阵内的要素数,即候补文字数量。因此,在文档图像的检索中,可以进行正确且几乎无遗漏的检索。
在索引矩阵中,可以与检索关键词的输入方法相应地适当设定所选择的候补文字的信息赋予方式。例如,如果是由键盘1来输入检索关键词的构成,则以文字代码等信息的形式储存候补文字,从而能够对从键盘输入的检索关键词进行检索。
另外,如果是采用图像扫描仪2等以图像数据的形式输入检索关键词的构成,则也可以抽出检索关键词的特征(特征矢量),以特征(特征矢量)信息的形式储存候补文字,从而能够对特征矢量彼此进行比较。
图15表示索引信息DB17中的索引信息的数据配置例。在存在两个或两个以上标题区域T1、T2、T3、…、Tn的文档图像50的索引信息中,针对两个或两个以上标题区域T1、T2、T3、…、Tn制作的索引矩阵配置成线形。在图15的例中,文档ID被配置在先头,接下来配置两个或两个以上索引矩阵,最后配置保存位置的信息。这里,5×N表示索引矩阵的大小,表示5行N列的情况。
通过预先将索引信息进行这样的数据配置,可以迅速地定位文档图像DB19内的文档图像的储存位置、和文档图像中的标题区域T的位置,并用于检索结果的显示。
另外,也可以根据实际要求,在索引信息中追加文档图像的其它属性。
下面,对实施使用了索引信息的检索处理的检索部22进行说明。图16是表示检索部22的功能和检索处理的说明图。检索部22具有索引矩阵检索处理部22a、文字相关值保存部(保存部)22b、相关度计算部22c、显示顺序决定部(顺序决定部)22d、以及文档图像抽出部22e。
对于索引矩阵检索处理部22a,由关键词输入部24输入检索关键词。作为关键词输入部24,相当于上述的键盘1或图像扫描仪2等。
索引矩阵检索处理部22a是对索引信息DB17进行检索,而检索出包含所输入的检索关键词的索引矩阵的部分。索引矩阵检索处理部22a将检索关键词分割成单个文字,搜索包含各检索文字的索引矩阵,在包含检索文字的场合下,取得该检索文字在索引矩阵内的匹配位置的信息。另外,关于索引矩阵的抽出顺序例,将在下面采用图17的流程图来进行说明。
文字相关值保存部22b是保存由索引矩阵检索处理部22a取得的匹配位置的信息、和与该匹配位置的列编号相应的文字相关值的部分。
相关度计算部22c是在索引矩阵检索处理部22a中完成了对全部索引矩阵的检索时,计算出所检索出的索引矩阵与检索关键词之间的相关度的部分。
相关度的计算,是采用被保存在文字相关值保存部22b中的匹配位置和文字相关值的信息,并按照预先设定的相关度计算方法来进行计算的。关于相关度的计算,将在下面采用图18、图19来进行说明。
另外,这里,构成为文字相关值保存部22b保存匹配位置的信息、和与该匹配位置的列编号相应的文字相关值,但也可以构成为:文字相关值保存部22b只保存匹配位置,相关度计算部22c由匹配位置的信息取得文字相关值。
显示顺序决定部22d是基于由相关度计算部22c计算出的相关度的信息来决定显示顺序的部分。显示顺序决定部22d按如下方式决定显示顺序,即:从包含相关度高的索引矩阵的文档图像开始,依次在检索结果显示部25中显示文档图像的内容。
文档图像抽出部22e是,以按照由显示顺序决定部22d所决定的顺序显示文档图像的方式,从文档图像DB19中读出文档图像的图像数据,并输出到检索结果显示部25来进行显示。
检索结果显示部25按照显示顺序来显示文档图像。也可以采用缩略图显示等的方式。作为检索结果显示部25,相当于上述的显示装置3等。
这里,说明检索顺序。图14是表示检索部22中的检索顺序的流程图。当输入了由R个文字列构成的检索关键词,并指示进行检索时,索引矩阵检索处理部22a首先取出检索关键词的第1个检索文字(S11)。
然后,索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第1个检索文字的检索(S12)。
在完成了对全部索引矩阵的检索时,判断是否检索到第1个检索文字,在1个也没有检索到的场合下,转移到S19,在检索到的场合下进入S14。
在S14中,索引矩阵检索处理部22a将包含第1个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。
接着,索引矩阵检索处理部22a取出包含有第1个检索文字的全部的索引矩阵(S15)。然后,取出作为检索关键词的下一个文字的第2个检索文字,并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索(S16)。
在完成对在S15中取出的全部索引矩阵的检索时,判断是否检索到第2个检索文字(S17)。在1个也没有检索到的场合下,与上述同样地转移到S19,在检索到的场合下进入S18。
在S18中,索引矩阵检索处理部22a将包含有第2个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。
接下来,索引矩阵检索处理部22a再次返回到S16,取出作为检索关键词中的再下一个文字的第3个检索文字,并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索。
然后,在这里,也在完成检索时,索引矩阵检索处理部22a判断是否检索到第3个检索文字(S17),在1个也没有检索到的场合下,转移到S19,在检索到的场合下,再次进入S18,进行关于检索关键词的再下一个检索文字的检索。
索引矩阵检索处理部22a,一直进行这样的S16~S18的处理,即以在S15中抽出的包含有第1个检索文字的索引矩阵为对象的、第2个以后的各检索文字的收缩检索,直到在S17中判断为1个也没有检索到、或完成了对检索关键词内的全部检索文字的检索为止,然后转移到S19。
在S19中,取出作为检索关键词中的下一个文字的第2个检索文字。然后,判断检索文字是否都已被检索,即,是否完成了对全部的检索文字的检索(S20),在未完成的场合下,返回到S12。
然后,与上述同样,索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第2个检索文字的检索。在检索到的场合下,保存索引矩阵的匹配位置和文字相关值,然后进入S15,对包含有第2个检索文字的全部索引矩阵,针对检索关键词的下一个文字,即作为第2个之后的第3个以后的各检索文字,反复进行S16~S18,从而进行收缩检索。
索引矩阵检索处理部22a,对第3个以后的各检索文字依次进行如下处理,即:在S19中进行对一个检索文字的如上述的检索,并取出包含进行检索的检索文字的索引矩阵,且用其以后的检索文字来进行收缩检索。
然后,在由S19取出了检索关键词内的全部检索文字,并且由S20判断为完成了对全部检索文字的检索的场合下,进入S21。
在S21中,相关度计算部22c如后述那样根据相关度基准,来计算出检索关键词与各索引矩阵的相关度。
然后,显示顺序决定部22d以从包含相关度高的索引矩阵的文档图像开始进行显示的方式决定显示顺序,文档图像抽出部22e从文档图像DB19中取得文档图像的图像数据,检索结果显示部25按相关度高的顺序来显示文档图像(S22)。
接下来,采用图18、图19,对相关度计算部22c中的根据相关度基准来计算索引矩阵与检索关键词的相关度计算方法进行说明。
在图18的参照符号101的方框中,记载有检索条件。而且,在参照符号102的方框中,记载有用于计算相关度的某个假设的检索关键词与索引矩阵的相对关系。在方框101所示的检索条件下,在检索关键词与索引矩阵为如方框102所示的相对关系的场合下,可以通过由方框103所示的计算式来计算出检索关键词与索引矩阵的相关度。
首先,对方框101的检索条件进行说明。检索关键词的文字数为R个,第1个检索文字为C1、第2个为C2、…、第R个为Cr。
成为检索对象的索引矩阵为M×N维矩阵。即,作为标题区域T而抽取出的文字列图像的文字数为M个,作为文字列的各文字的各候补而选择出的候补文字数为N个。
由于作为检索文字与各候补文字的相关值的文字相关值,是相应于索引矩阵的各位置来决定的,所以成为与索引矩阵相同维数的矩阵。即,文字相关值矩阵的权重为M×N维矩阵。例如,权重[i][j]表示位于索引矩阵中的位置[i,j](=Index[i,j])上的候补文字匹配的场合下的文字相关值。在本实施方式中,如果索引矩阵的列编号[j]相同,则与行编号[i]无关,文字相关值相同。
行的相关度加权因数Q是在索引矩阵中相邻的2行中检索文字匹配的场合下,对这些2行的文字相关值附加的加权。在相邻的2行中检索文字匹配的场合下,包含检索关键词的连续的2个文字的可能性大。
在将行的相关度加权因数Q设定得高时,对于相关度计算部22c计算出的相关度的影响度,在连续匹配的2行的文字相关值中变大,但是在不相邻的各行的文字相关值中变小。即,通过将行的相关度加权因数Q设定得高,接近以词汇为单位进行检索的结果,反之,通过将行的相关度加权因数Q设定得小,接近以单字为单位进行检索的结果。
将检索文字C1匹配的文字相关值表示为W1,将检索文字C2匹配的文字相关值表示为W2,…,将检索文字Cr匹配的文字相关值表示为Wr。
接下来,对方框图102所示的为了计算相关度而假设的检索关键词与索引矩阵之间的相对关系进行说明。
检索关键词与索引矩阵之间具有全部的检索文字C1,C2,…,Cr与索引矩阵内的任意候补文字相匹配的关系。将检索文字C1,C2,…,Cr匹配的各候补文字在索引矩阵内的位置,即匹配位置表示为[C1i,C1j]、[C2i,C2j],…,[Cri,Crj]。
而且,作为进一步的相对关系,具有方框102所示的式(1)的关系,即:
C(k+1)i=Cki+1,C(m+1)i=Cmi+1(m>k)
在该式中,k、m表示构成检索关键词的各检索文字的相对位置。另外,C(k+1)i表示与检索关键词的第k+1个检索文字匹配的候补文字的索引矩阵内的行编号,Cki表示与检索关键词的第k个检索文字匹配的候补文字的索引矩阵内的行编号。
从而,C(k+1)i=Cki+1表示与检索关键词的第k+1个检索文字匹配的候补文字在索引矩阵内的行编号,和在与检索关键词的第k个检索文字匹配的候补文字在索引矩阵内的行编号上加1的编号相同。换言之,C(k+1)i=Cki+1表示检索关键词的第k+1个检索文字和第k个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。
C(m+1)i=Cmi+1也同样,表示检索关键词的第m+1个检索文字和第m个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。
在检索关键词与索引矩阵具有这样的相对关系的场合下,可以通过方框103所示的式(2)来计算出检索关键词与索引矩阵的相关度。
SimDegree=W1+W2+…+W(k-1)+Q*(Wk+W(k+1))+…
+W(m-1)+Q*(Wm+W(m+1))+…+Wr
在该式中,W1是第1个检索文字C1匹配的文字相关值,W2是第2个检索文字C2匹配的文字相关值,W(k-1)是第(k-1)个检索文字C(k-1)匹配的文字相关值。同样,W(k)是第k个检索文字Ck匹配的文字相关值,W(k+1)是第(k+1)个检索文字C(k+1)匹配的文字相关值。另外,W(m-1)是第(m-1)个检索文字C(m-1)匹配的文字相关值。同样,W(m)是第(m)个检索文字C(m)匹配的文字相关值,W(m+1)是第(m+1)个检索文字C(m+1)匹配的文字相关值,另外,最后的Wr是第r个的最后的检索文字C1匹配的文字相关值。
这样,在相关度的计算中,构成检索关键词的全部检索文字的文字相关值W被累加(累计)计算。
而且,在式(2)中的Q*(Wk+W(k+1))表示:由于检索关键词中的第k个检索文字Ck和第(k+1)个检索文字C(k+1)分别与索引矩阵中的相邻的2行相匹配,所以对文字相关值Wk和文字相关值W(k+1)乘以行的相关度加权因数Q。关于Q*(Wm+W(m+1))也同样。
另外,检索关键词的第k-1个检索文字与第k个检索文字,由于不具有与相邻的2行相匹配的关系,所以对W(k-1)和Wk双方不乘以相关度加权因数Q。关于W(m-1)和Wm也同样。
另外,由于图18的方框102所示的检索关键词与索引矩阵的相对关系中,具有全部的检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系,所以在式(2)中,将W1~Wr的全部的检索文字的文字相关值累计计算。
但是,这只是一例,例如,在虽然具有式(1)的相对关系,但检索文字C1和检索文字Cr不与索引矩阵内的任意候补文字相匹配的场合下,计算相关度的计算式为如下计算式,相应于累积项的减少,当然其相关度会降低。
SimDegree=W2+…+W(k-1)+Q*(Wk+W(k+1))+…
+W(m-1)+Q*(Wm+W(m+1))+…+W(r-1)
另外,在具有全部检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系,并且,具有检索关键词的第k+1个检索文字和第k个检索文字、以及第k+2个检索文字和第k+1个检索文字分别与相邻的2行相匹配的关系的场合下,计算相关度的计算式为如下计算式。
SimDegree=W1+W2+…+W(k-1)
+Q*(Wk+W(k+1)+W(k+2))…+WR
在该场合下,由于检索关键词的第k-1个检索文字和第k个检索文字不具有与相邻的2行相匹配的关系,所以对W(k-1)和Wk双方不乘以相关度加权因数Q。
下面,采用图19,对相关度计算的具体例进行说明。这里,求出图14所示的文字列“去神仙居住的地方”的索引矩阵(参照表100)与检索关键词“神仙”的相关度。
图19的方框104表示检索条件。相关值矩阵Weight是M×N维,文字相关值是Weight[i]=[1,1-1/N,1-2/N,…,1/N](i=0,1,…,M-1),行的相关度加权因数Q。
检索关键词“神仙”分别被分割成第1个检索文字“神”和第2个检索文字“仙”,对于这两个字,分别在索引矩阵内的候补文字中进行检索。
参照图14的表100可看出,检索文字“神”与索引矩阵中的位置[i、j]的[2、1]相匹配,检索文字“仙”与索引矩阵中的[3、1]相匹配。
从而,如方框105所示,检索文字“神”的文字相关值为1,检索文字“仙”的文字相关值为1。
而且,检索文字“神”的行编号为[2],检索文字“仙”的行编号为[3],如图14的表100所示,这2个检索文字分别与索引矩阵中的相邻的2行相匹配。
从而,如方框106所示那样,对检索文字“神”的文字相关值(1-1/N)和检索文字“仙”的文字相关值1乘以行的相关度加权因数Q,检索关键词的“神仙”与文字列“去神仙居住的地方”的索引矩阵之间的相关度为SimDegree=Q*((1-1/N)+1)。
检索关键词与索引矩阵之间的相关度,通过按照用户的要求灵活地调整相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数,可以获得更理想的检索结果。
用户可采用键盘1等,相应于需要而适当设定相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数。
而且,基于这样的图像特征的索引和匹配方式,可以满足多种语言的文档图像的索引和检索。不需要进行文字识别,计算量少。本发明不限于中文,可以应用于各种语言的文档图像。
最后,对具备词汇解析功能(语义分析功能)的检索处理进行说明。如图8所示那样,在本实施方式的文档图像处理装置10中,在关键词输入部24与检索部22之间,设有词汇解析部23。图20中表示具备词汇解析功能的检索处理。
词汇解析部23由词义分析处理部23a和语义词典23b构成。词义分析处理部23a,在从关键词输入部24输入检索关键词时,参照语义词典23b,对检索关键词的词汇进行分析。
例如,在作为检索关键词输入“中日关系”时,词义分析处理部23a作为与“中日关系”相关的单词,将例如“中国”、“日本”、“关系”这3个输入到检索部22。这些“中国”、“日本”、“关系”具有或的关系,检索式为“中国”或“日本”或“关系”。
将该检索式“中国”或“日本”或“关系”输入到检索部22,检索部22对索引信息DB17进行检索,抽出包含“中国”的文档图像、包含“日本”的文档图像、和包含“关系”的文档图像。
由此,不仅能够检索出直接包含所输入的检索关键词的文档图像,而且还能够检索出相关的文档图像。
接下来,对实施文档图像管理处理的文档图像管理部57进行说明。文档图像管理部57由文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54构成,下面对这些进行说明。
关于文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20的功能已进行了说明。在此,仅对为实施文档图像管理处理而进一步所需的功能进行适当说明,该文档图像管理处理中制作有意义的文档名并对文档图像特征DB20的文档图像进行管理。
采用图21说明文档图像管理处理。从由图像扫描仪2及数字摄影装置6构成的文档图像输入部21,输入文档图像1~N。
对于所输入的文档图像1~N,标题区域初始处理部18对各文档图像的内容进行分析,并抽取出标题区域获取文字列。接着,虽然未图示,但文字图像特征抽出部14与上述同样,将所抽取出的标题区域中包含的文字列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征。
然后,以这样抽出的文字图像的图像特征为基础,由字形特征字典15及特征匹配部16构成的候补文字列生成部55,选择图像特征的匹配度高的文字图像作为候补文字,并制作成与所抽取出的标题区域中包含的文字列相应的候补文字列,而且如上述那样采用词义解析法来调整构成该候补文字列的各候补文字,并设为有意义的候补文字列。
更具体地说,候补文字列生成部55,以由文字图像特征抽出部14抽出的文字图像的图像特征为基础,从字形特征字典15中,以图像特征的匹配度从高到低的顺序选择出N个(N>1的整数)文字图像作为候补文字,在上述文字列的文字数为M个(M>1的整数)的场合下,制作成M×N维的索引矩阵。这就是上述的特征匹配部16的处理。
接下来,特征匹配部16,基于制作的索引矩阵,来制作将位于该索引矩阵中的第一列的各行的候补文字按顺序排列的候补文字列。然后,对构成该候补文字列的连续的各行的候补文字所构成的单词的词义进行解析,并调整各行的第一列的候补文字,从而使候补文字列带有意义。
图22是表示调整所制作的索引矩阵而使第一列的文字列成为具有意义的文字列,为此采用词汇解析法来进行调整的具体例的说明图。
图22的上部分所示的调整前的索引矩阵109,与图8所示的表100中示出的索引矩阵相同。在索引信息DB17中是以该状态储存的。由这样的索引矩阵109制作成的候补文字列为“去伸仙居任酌地方”,不具有意义。
用作有意义的文档名的候补文字列中,主语、谓语、以及宾语的连接词关系等必须在意义上正确。在此,利用词汇解析,变换成有意义的候补文字列。具体地说,对于两个或两个以上错误候补文字,使用概念词典,分析两个或两个以上错误候补文字与候补文本的其它单词之间的意义信息,而将候补文字列修改为有意义的文字列。
在这种词汇解析中所采用的语言模型61,只要提供由所有的汉字开始的活字的统计数据即可。换言之,利用该语言模型61的主要概念,可以在技术上确立自动搜索系统,能够得到与中文报纸的稿本有关的统计数据。
例如,作为实例,可使用Bi-gram模型(语言模型)。Bi-gram是两个文字、两个音节、或者两个单词的群(group),且作为文本的简单统计分析的基础被广泛使用。以符号序列来示出的场合下,将各符号的外观设为独立事项,并将上述符号序列的概率如下定义。
并且,在上述功能的分解中,可以使用概率的链锁律。将中文设为(N-1)阶马尔可夫链(符号的概率以N-1阶符号的前出为条件)。该语言模型被称为N-gram模型。
确立性的N-gram模型的使用,包含长期带来良好结果的统计上的自然语言处理。N-gram通常由采用文本大的整个文档(语料库)中的文字及单词的共起而得到的统计来构成,且规定文字连锁或单词连锁的确立。N-gram中,与通常直接从语料库中抽出的场合相比,具有能够覆盖非常大的语言的优点。在对语言模型的应用中,由于计算机的限制和没有限制的语言的特性(文字、单词无限量地存在),所以将N设为N=2,且设为Bi-gram模型。
图22的下部分表示调整后的索引矩阵110。第2行的第1列的“伸”作为错误候补文字,被置换成第2列的“神”。同样,第5行的第1列的“任”被置换成第3列的“住”。然后,第6行的第1列的“酌”,鉴于其前后的“居住”和“地方”之间的关联性而被认为是错误候补文字,并被置换成第2列的“的”。
这样的索引矩阵110的第1列中包含的候补文字列变为“去神仙居住的地方”,从而具有意义。并且,特征匹配部16,也可以将这样的调整后的索引矩阵110储存在索引信息DB17中。
再次,返回到图21,由候补文字列生成部55如上生成的有意义的候补文字列被送到文档名制作部51。
文档名制作部51,对所输入的文档图像,制作出包含有由候补文字列生成部55生成的有意义的候补文字列的文档名。以下,将包含有该有意义的候补文字列的文档名称为“有意义的文档名”。
从时间数据等发生部60向文档名制作部51,还输入表示文档图像被输入的时间及输入路径的数据等其它数据。文档名制作部51还可以采用至少包含从时间数据等发生部60输入的时间数据的其它数据,来生成文档名。
例如,也可以构成为:将时间数据等其它数据之中的时间数据包含在有意义的文档名中,且将有意义的文档名由时间数据和有意义的候补文字列来构成。
或者,也可以采用时间数据等其它数据,来对相同的文档图像制作另外的文档名。以下,将由时间数据等其它数据等构成的文档名称为原始的文档名。
通过这样构成,对一个文档图像,可以利用有意义的文档名、以及由时间数据等其它数据等构成的原始的文档名来进行管理。
对于每一个文档图像生成的有意义的文档名、以及原始的文档名,被送到文档图像DB管理部52,且在文档图像DB19中,与文档图像的图像数据相对应地进行储存。
文档图像DB管理部52,当用户采用由键盘1等构成的图8所示的指示输入部54,来输入文档图像DB19中所存储的文档图像的阅览指示等时,在由显示装置3等构成的图8的文档图像显示部53上,显示阅览画面。
图23中表示在文档图像显示部53上显示的、文档图像DB19中所储存的文档图像的阅览画面的一个例子。
图中,左侧所示画面201表示所存储的文档图像按原始的文档名列表表示的状态。在画面201的上面,示出了各文档图像的输入顺序。在纸面上最靠前的带有“AR-C262M_20060803_103140”的原始的文档名的文档图像,是在该画面中最先被输入的文档图像。“20060803”表示输入的日期(2006年8月3日),“103140”表示时间(10点31分40秒)。
在这样的显示状态下,通过选择画面上所显示的“有意义的文档名”的标识符等的操作,阅览画面的显示在图中将转移到右侧所示的画面202。画面202表示所存储的文档图像按有意义的文档名列表表示的状态。
该画面202与画面201对应,在此,画面201的上部所示的、纸面上最靠前的带有“定格惠州西湖”的有意义的文档名的文档图像,是在该画面中最先被输入的文档图像。
这样,能够按有意义的文档名来进行阅览,由此用户可容易实施所存储的文档图像的管理及搜索。此外,一并制作出原始的文档名,由此可同时看到时间数据等信息与文档名。
另外,在该文档图像处理装置中,采用制作成的索引矩阵来制作索引信息,并用于检索处理中。因此,标题区域初始处理部18抽出文档图像中包含的两个或两个以上标题区域T,并制作各自的索引矩阵。然而,如果仅仅以对文档图像制作有意义的文档名为目的的话,则没有必要抽出文档图像中包含的两个或两个以上标题并制作各自的索引矩阵。
换言之,可以构成为:对于最能表示出文档图像的标题区域中包含的标题的文字列(文字图像列),制作出索引矩阵,并基于此,使用特征匹配的文字列,来制作带有意义的名称。
作为最能表示出文档图像的标题区域,例如可以设为所抽出的两个或两个以上标题区域之中、存在于文档图像的最上面一行的区域。这是因为重要的标题很多场合下配置在文档图像的最上面一行。
此外,也可以将标题区域中包含的文字的大小设为比某个阈值大,且比所抽出的其它标题区域中的文字大。这是因为重要的标题很多场合下用比其它标题大的文字大小来记载。
或者,也可以将标题区域中包含的文字的字体(字形)类型,设为与所抽出的其它标题区域的文字不同的字体类型。这是因为重要的标题很多场合下用与其它标题不同的字体(字形)来记载。此外,也可以附加其他基准,并且各基准可以分别采用,也可以组合来采用。
此外,如该文档图像处理装置那样,在对于一个文档图像抽出两个或两个以上标题区域,并制作出各自的索引矩阵的构成中,通过标题区域的配置位置、文字大小、或字体,来特定最重要的标题区域的索引矩阵即可。此外,如果是这种场合,则特别优选为,从所抽出的两个或两个以上标题区域的索引矩阵中,制作出最频繁出现的单词包含在候补文字列中的索引矩阵。
最后,文档图像处理装置的各方框,特别是字体正规化处理部12、文字图像特征抽出部14、特征匹配部16、标题区域初始处理部18、检索部22、词汇解析部23、文档名制作部51、文档图像DB管理部52等也可以由硬件逻辑电路构成,也可以如下那样采用CPU由软件来实现。
即,文档图像处理装置10具有执行用于实现各功能的控制程序的命令的CPU(central processing unit)、储存有上述程序的ROM(read onlymemory)、展开上述程序的RAM(random access memory)、储存上述程序和各种数据的存储器等存储装置(记录媒体)等。而且,本发明的目的可通过如下过程来达到,即:将记录有计算机可读取的、实现上述的功能的软件即文档图像处理装置10的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的记录媒体,提供给上述文档图像处理装置,且由该计算机(或CPU、MPU)读出记录在记录媒体上的程序代码并执行。
作为上述的记录媒体,例如可以采用磁带或盒式磁带等的磁带类、包括软(注册商标)盘/硬盘等磁盘和CD-ROM/MO/MD/DVD/CD-R等光盘的盘类、IC卡(包括存储卡)/光卡等的卡类、或掩模ROM/EPROM/EEPROM/闪存ROM等的半导体存储器类等。
另外,也可以将文档图像处理装置10构成为能够与通信网络连接,通过通信网络来供给上述程序代码。作为该通信网络,没有特别的限定,例如可以利用互联网、内部网、外联网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、卫星通信网等。另外,作为构成通信网络的传送媒体,没有特别的限定,例如既可以利用IEEE1394、USB、电力线输送、有线TV线路、电话线、ADSL线路等的有线,也可以利用IrDA、远程控制那样的红外线、Bluetooth(注册商标)、802.11无线、HDR、移动电话网、卫星线路、地面波数字网等的无线。另外,本发明也能够以上述程序代码通过电子传送而具体化的被叠加在载波中的计算机数据信号的形式来实现。
本发明在不脱离其精神或主要特征的范围内,能够以其它各种形式实施。从而,上述的实施方式只不过是在所有方面上的一种示例,本发明的范围由本发明的权利要求书来表示,不受本说明书的任何限定。并且,在权利要求书范围内的变形和变更,均属于本发明的范围内。
Claims (4)
1.一种文字图像抽出方法,其特征在于,包括:
抽出步骤,对排列被二值化了的两个或两个以上文字图像的文字列区域,求出具有同一像素值且由相互连接的两个或两个以上像素构成的连接成分,生成由与文字图像的宽度方向平行的两个边和与文字图像的高度方向平行的两个边构成且与上述连接成分外接的外接矩形,并从上述文字列区域中,抽出由外接矩形划分的内侧的部分即划分要素;
改变步骤,改变在抽出步骤中抽出的划分要素,即在抽出步骤中抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择步骤,预先确定基准大小,在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。
2.如权利要求1所述的文字图像抽出方法,其特征在于,还包括:
第二改变步骤,改变上述选择步骤中选择的划分要素,即预先确定第一基准尺寸,并在上述选择步骤中选择的划分要素中,将与文字图像的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字图像的排列方向上相邻的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
第二选择步骤,预先确定第二基准尺寸,且在第二改变步骤中改变的划分要素中,选择与文字图像的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。
3.如权利要求2所述的文字图像抽出方法,其特征在于,还包括分割步骤,该步骤中,预先确定第三基准尺寸,且在上述第二选择步骤中选择的划分要素中,将与文字图像的排列方向有关的尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸来进行分割。
4.一种文字图像抽出装置,其特征在于,包括:
抽出部,对排列被二值化了的两个或两个以上文字图像的文字列区域,求出具有同一像素值且由相互连接的两个或两个以上像素构成的连接成分,生成由与文字图像的宽度方向平行的两个边和与文字图像的高度方向平行的两个边构成且与上述连接成分外接的外接矩形,并从上述文字列区域中,抽出由外接矩形划分的内侧的部分即划分要素;
改变部,改变由抽出部抽出的划分要素,即在由抽出部抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择部,预先确定基准大小,且在由改变部改变的划分要素中,选择比上述基准大小还大的划分要素。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101296050A CN101354746B (zh) | 2007-07-23 | 2007-07-23 | 文字图像抽出装置及文字图像抽出方法 |
JP2007246157A JP2009026287A (ja) | 2007-07-23 | 2007-09-21 | 文字画像抽出装置および文字画像抽出方法 |
US11/963,613 US8750616B2 (en) | 2007-07-23 | 2007-12-21 | Character image extracting apparatus and character image extracting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101296050A CN101354746B (zh) | 2007-07-23 | 2007-07-23 | 文字图像抽出装置及文字图像抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101354746A CN101354746A (zh) | 2009-01-28 |
CN101354746B true CN101354746B (zh) | 2011-08-31 |
Family
ID=40295407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007101296050A Expired - Fee Related CN101354746B (zh) | 2007-07-23 | 2007-07-23 | 文字图像抽出装置及文字图像抽出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8750616B2 (zh) |
JP (1) | JP2009026287A (zh) |
CN (1) | CN101354746B (zh) |
Families Citing this family (190)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9495386B2 (en) | 2008-03-05 | 2016-11-15 | Ebay Inc. | Identification of items depicted in images |
EP2250623A4 (en) | 2008-03-05 | 2011-03-23 | Ebay Inc | METHOD AND APPARATUS OF IMAGE RECOGNITION SERVICES |
JP4626777B2 (ja) * | 2008-03-14 | 2011-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP4952627B2 (ja) * | 2008-03-21 | 2012-06-13 | 富士通株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8818978B2 (en) | 2008-08-15 | 2014-08-26 | Ebay Inc. | Sharing item images using a similarity score |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8825660B2 (en) * | 2009-03-17 | 2014-09-02 | Ebay Inc. | Image-based indexing in a network-based marketplace |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9164577B2 (en) | 2009-12-22 | 2015-10-20 | Ebay Inc. | Augmented reality system, method, and apparatus for displaying an item image in a contextual environment |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10127606B2 (en) | 2010-10-13 | 2018-11-13 | Ebay Inc. | Augmented reality system and method for visualizing an item |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8977059B2 (en) * | 2011-06-03 | 2015-03-10 | Apple Inc. | Integrating feature extraction via local sequential embedding for automatic handwriting recognition |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8903175B2 (en) | 2011-08-29 | 2014-12-02 | Hewlett-Packard Development Company, L.P. | System and method for script and orientation detection of images |
US9449342B2 (en) | 2011-10-27 | 2016-09-20 | Ebay Inc. | System and method for visualization of items in an environment using augmented reality |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9934522B2 (en) | 2012-03-22 | 2018-04-03 | Ebay Inc. | Systems and methods for batch- listing items stored offline on a mobile device |
US8891822B2 (en) | 2012-04-10 | 2014-11-18 | Hewlett-Packard Development Company, L.P. | System and method for script and orientation detection of images using artificial neural networks |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9323726B1 (en) * | 2012-06-27 | 2016-04-26 | Amazon Technologies, Inc. | Optimizing a glyph-based file |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US10846766B2 (en) | 2012-06-29 | 2020-11-24 | Ebay Inc. | Contextual menus based on image recognition |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP5831420B2 (ja) * | 2012-09-28 | 2015-12-09 | オムロン株式会社 | 画像処理装置および画像処理方法 |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10713304B2 (en) * | 2016-01-26 | 2020-07-14 | International Business Machines Corporation | Entity arrangement by shape input |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107103312A (zh) * | 2017-06-07 | 2017-08-29 | 深圳天珑无线科技有限公司 | 一种图片处理方法及装置 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN108229483A (zh) * | 2018-01-11 | 2018-06-29 | 中国计量大学 | 基于caffe与软触发下的门牌压印字符识别装置 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP6820578B1 (ja) * | 2019-03-29 | 2021-01-27 | Arithmer株式会社 | 活字文字列認識装置、プログラム、及び方法。 |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1201954A (zh) * | 1997-03-04 | 1998-12-16 | 夏普公司 | 字符识别设备 |
CN1261190A (zh) * | 1999-01-19 | 2000-07-26 | 株式会社理光 | 从彩色图像数据抽取文字方法、装置及记录媒体 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2977230B2 (ja) * | 1990-05-10 | 1999-11-15 | 株式会社リコー | 文字切り出し方法 |
JPH05174185A (ja) * | 1991-01-24 | 1993-07-13 | Matsushita Electric Ind Co Ltd | 日本語文字認識装置 |
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
JP2576079B2 (ja) * | 1992-09-29 | 1997-01-29 | エヌ・ティ・ティ・データ通信株式会社 | 文字切出し方法 |
US5410611A (en) * | 1993-12-17 | 1995-04-25 | Xerox Corporation | Method for identifying word bounding boxes in text |
EP0677817B1 (en) * | 1994-04-15 | 2000-11-08 | Canon Kabushiki Kaisha | Page segmentation and character recognition system |
EP0677818B1 (en) * | 1994-04-15 | 2000-05-10 | Canon Kabushiki Kaisha | Image pre-processor for character recognition system |
US5821929A (en) * | 1994-11-30 | 1998-10-13 | Canon Kabushiki Kaisha | Image processing method and apparatus |
JPH08153110A (ja) | 1994-11-30 | 1996-06-11 | Canon Inc | 文書ファイリング装置及び方法 |
JP2827960B2 (ja) * | 1995-04-28 | 1998-11-25 | 日本電気株式会社 | 宛名行抽出装置 |
JP2765618B2 (ja) | 1995-05-29 | 1998-06-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 言語解析装置 |
JPH09106437A (ja) * | 1995-10-11 | 1997-04-22 | Ricoh Co Ltd | 文字切出し装置および文字切出し方法 |
US5768414A (en) * | 1995-12-22 | 1998-06-16 | Canon Kabushiki Kaisha | Separation of touching characters in optical character recognition |
JPH09319747A (ja) | 1996-05-29 | 1997-12-12 | Ricoh Co Ltd | 文書画像の構造化方法 |
US5892843A (en) * | 1997-01-21 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Title, caption and photo extraction from scanned document images |
JP4170441B2 (ja) * | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
JP2000090201A (ja) | 1998-09-11 | 2000-03-31 | Masaki Nakagawa | バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置 |
JP3375292B2 (ja) | 1998-12-16 | 2003-02-10 | 日本電信電話株式会社 | 文字認識処理方法及びその装置及びその方法を記録した記録媒体 |
EP1310904A4 (en) * | 2000-06-02 | 2007-03-28 | Japan Science & Tech Agency | DOCUMENT PROCESSING METHOD, RECORDING MEDIA RECORDING A DOCUMENT PROCESSING PROGRAM AND DOCUMENT PROCESSOR |
JP4204185B2 (ja) * | 2000-11-17 | 2009-01-07 | 株式会社リコー | 文字認識装置、文字認識方法、および記録媒体 |
JP2002245062A (ja) | 2001-02-14 | 2002-08-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
US6826305B2 (en) * | 2001-03-27 | 2004-11-30 | Ncr Corporation | Methods and apparatus for locating and identifying text labels in digital images |
US7286718B2 (en) * | 2004-01-26 | 2007-10-23 | Sri International | Method and apparatus for determination of text orientation |
TWI284288B (en) * | 2004-06-04 | 2007-07-21 | Benq Corp | Text region recognition method, storage medium and system |
CN100369049C (zh) * | 2005-02-18 | 2008-02-13 | 富士通株式会社 | 灰度字符的精确分割装置及方法 |
WO2006126409A1 (ja) * | 2005-05-26 | 2006-11-30 | Sharp Kabushiki Kaisha | 特許情報分析装置、特許情報分析方法、特許情報分析プログラム、およびコンピュータ読み取り可能な記録媒体 |
-
2007
- 2007-07-23 CN CN2007101296050A patent/CN101354746B/zh not_active Expired - Fee Related
- 2007-09-21 JP JP2007246157A patent/JP2009026287A/ja active Pending
- 2007-12-21 US US11/963,613 patent/US8750616B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1201954A (zh) * | 1997-03-04 | 1998-12-16 | 夏普公司 | 字符识别设备 |
CN1261190A (zh) * | 1999-01-19 | 2000-07-26 | 株式会社理光 | 从彩色图像数据抽取文字方法、装置及记录媒体 |
CN1133951C (zh) * | 1999-01-19 | 2004-01-07 | 株式会社理光 | 从彩色图像数据中抽取文字的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US8750616B2 (en) | 2014-06-10 |
JP2009026287A (ja) | 2009-02-05 |
US20090028435A1 (en) | 2009-01-29 |
CN101354746A (zh) | 2009-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101354746B (zh) | 文字图像抽出装置及文字图像抽出方法 | |
CN101354703B (zh) | 文档图像处理装置和文档图像处理方法 | |
CN101226595B (zh) | 文档图像处理装置以及文档图像处理方法 | |
CN101354704B (zh) | 字形特征字典制作装置及具备该装置的文档图像处理装置 | |
CN101226596B (zh) | 文档图像处理装置以及文档图像处理方法 | |
CN101354705B (zh) | 文档图像处理装置和文档图像处理方法 | |
US7801392B2 (en) | Image search system, image search method, and storage medium | |
CN101493896B (zh) | 文档图像处理装置及文档图像处理方法 | |
Jaderberg et al. | Reading text in the wild with convolutional neural networks | |
EP2015228B1 (en) | Retrieving electronic documents by converting them to synthetic text | |
US8533204B2 (en) | Text-based searching of image data | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
US11288324B2 (en) | Chart question answering | |
WO2014050774A1 (en) | Document classification assisting apparatus, method and program | |
WO2008032780A1 (fr) | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci | |
US20150294194A1 (en) | Method of classifying a multimodal object | |
CN107291682A (zh) | 一种基于跳转处理及双重校验的多篇电子文档分篇算法 | |
CN112966117A (zh) | 实体链接方法 | |
JP6017277B2 (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
Kaoua et al. | Image Collation: Matching illustrations in manuscripts | |
CN113220936A (zh) | 基于随机矩阵编码和简化卷积网络的视频智能推荐方法、装置及存储介质 | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Bourne | Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models | |
Kasamwattanarote et al. | Query bootstrapping: a visual mining based query expansion | |
Chaudhuri et al. | Advances in Digital Document Processing and Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110831 Termination date: 20210723 |
|
CF01 | Termination of patent right due to non-payment of annual fee |