CN102194101A - 字符串检测装置和方法、字符评价装置和方法 - Google Patents
字符串检测装置和方法、字符评价装置和方法 Download PDFInfo
- Publication number
- CN102194101A CN102194101A CN2011100465768A CN201110046576A CN102194101A CN 102194101 A CN102194101 A CN 102194101A CN 2011100465768 A CN2011100465768 A CN 2011100465768A CN 201110046576 A CN201110046576 A CN 201110046576A CN 102194101 A CN102194101 A CN 102194101A
- Authority
- CN
- China
- Prior art keywords
- character
- mentioned
- evaluation
- estimate
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
提供一种字符串检测装置和方法、字符评价装置和方法,实现对于图像的字符串检测处理的处理负荷减轻和处理时间缩短。本发明的字符串检测装置是从图像中检测由一个以上的字符构成的字符串的装置,包括:字符信息存储部(32),按每个字符存储表示字符的误检测的难度的评价值;检索顺序决定部(23),基于在作为应检测的字符串而输入到本装置的关键词中包含的每个字符的、存储在字符信息存储部(32)中的评价值,对该每个字符决定检索顺序;以及字符检索部(24),根据决定的检索顺序,按在关键词中包含的每个字符进行检索。
Description
技术领域
本发明涉及对静止图像或活动图像等的图像的数据进行处理并从图像中检测字符的字符检测处理。
背景技术
以往,存在从图像(静止图像或活动图像)中检测特定的字符(关键词)的较多技术。例如,在专利文献1~3中,公开了如下的技术:切出图像中的全部字符区域,并对切出的各个字符区域进行字符识别处理并变换为文本数据之后,判断是否为应检测的关键词。
但是,在上述的专利文献1~3所述的技术中,存在如下问题。即,为了判断是否为想要检测的字符串,需要对从图像切出的全部字符进行识别处理,结果,处理时间变长。
例如,在识别对象字符为日语或汉语的情况下,字符数较多(分别仅第一水准汉字为3000字符以上,若加上第二水准汉字,则6000字符以上)。因此,为了用这些语言执行字符识别处理,需要与3000~6000以上的字符的比对处理,结果,字符识别处理成为需要较多时间的负荷高的处理。并且,对识别出的全部字符串施加与关键词的比对处理,处理时间变得更长。
上述处理时间的问题,在处理比静止图像更要求实时性的活动图像的情况下,成为更深刻的问题。
相对于上述的技术,在专利文献4、5中,公开了如下技术:比对字符区域的图像之间,从而进行目标字符串检测。具体地说,首先,以一个字符一个字符读出并描画构成特定的关键词的字符字体(font),从而生成与该关键词对应的字符串图像。接着,以该字符串图像作为关键,对图像进行相似图像检索,从而从上述图像中检索关键词。
根据上述专利文献4、5所述的技术,由于通过图像之间的比对处理而进行字符串检测,所以不需要对图像中的全部字符区域进行字符识别处理,与上述的专利文献1~3所述的技术相比,能够缩短处理时间。
另外,作为用于图像之间的比对处理的、从图像中检测字符的特征量的技术,例如考虑在非专利文献1中记载的角检测技术、轮廓线检测技术。
【在先技术文献】
【专利文献1】特开平08-205043号公报(1996年8月9日公开)
【专利文献2】特开2006-134156号公报(2006年5月25日公开)
【专利文献3】特开2008-131413号公报(2008年6月5日公开)
【专利文献4】特开平10-191190号公报(1998年7月21日公开)
【专利文献5】特开2008-004116号公报(2008年1月10日公开)
【非专利文献1】奥富 正敏、ほか著「デイジタル画像処理」CG-ARTS協会出版、2007年3月1日(第二版二刷)、P.208~210、12-2節「特徵点検出」
但是,在上述的专利文献4、5所记载的技术中,存在如下问题。即,用于存储在比对处理中利用的字符串的图像的存储器容量的问题。
例如,在英语中,对作为关键词而指定的“desk”这样的字符串,作为应从图像中检索的字符串而考虑“desk”、“Desk”以及“DESK”这样的多个书写模式。在日语中,也对“りんご(平假名)”这样的字符串,除了“りんご”之外还考虑“リンゴ(片假名)”这样的书写模式。此外,在汉字中,对“相澤”这样的字符串,也考虑“相澤”和“相沢”的两种书写模式。
在上述的专利文献4、5所记载的技术中,存在如下问题:即使是一个相同含义内容的关键词,也因存在多个书写模式,所以需要与其对应地生成多个字符串图像,图像生成处理的负荷增大。此外,还存在如下问题:因用于比对的图像也预先准备存储了多个书写模式量,所以存储器容量变得庞大。
进而,在日语、汉语、韩语等的语言中,作为排列字符的方向而考虑横写和竖写的两种。由于即使是相同的字符串,也在竖写和横写中识别为不同的字符串图像,所以在上述的专利文献4、5所记载的技术中,需要准备竖写和横写的两种图像。因此,处理负荷的增大和存储器容量的问题变得更深刻,若这样应比对的图像增加,则结果,相似图像检索所需的处理时间也成为问题。如上所述,处理时间的问题在处理比静止图像更要求实时性的活动图像的情况下,成为更深刻的问题。
上述问题点并不是仅在上述的特定的语言的字符中产生的,而是在所有语言的字符检测处理时共同产生的问题,且是从除了活动图像之外还包括静止图像的图像中检测字符时同样产生的问题。
发明内容
本发明是鉴于上述的问题点而完成的,其目的在于,实现一种字符检测装置、字符评价装置、图像处理装置、字符串检测方法、字符评价方法、控制程序和记录介质,用于实现对于图像的字符串检测处理的处理负荷减轻和处理时间缩短。此外,本发明的其他目的在于,在执行字符串检测处理的字符串检测装置中,处理负荷减轻和处理时间缩短的同时兼顾存储器的节省化。
为了解决上述课题,本发明的字符串检测装置从图像中检测由一个以上的字符构成的字符串,其特征在于,包括:字符信息存储部,按每个字符存储表示字符的误检测的难度的评价值;检索顺序决定部件,基于在作为应检测的字符串而输入到本装置的检测对象字符串中包含的每个字符的、存储在上述字符信息存储部中的评价值,对该每个字符决定用于从上述图像中检索字符的检索顺序;以及字符检索部件,根据上述检索顺序决定部件决定的检索顺序,按在上述检测对象字符串中包含的每个字符,检索上述图像。
根据上述结构,若对字符串检测部件指定应检测的字符串,则首先,上述检索顺序决定部件从上述字符信息存储部中参照指定的字符串的每个字符的评价值。评价值是表示误检测的难度的值。并且,基于该评价值,对指定的字符串的每个字符决定检索顺序。
上述字符检索部件按照决定的检索顺序,按每个字符进行检索。
由此,在不进行字符识别处理,通过字符的比对处理而进行字符检索的情况下,即使指定的字符串是由多个字符构成,也能够一个字一个字检索,从而最终检测指定的字符串。一个字一个字检索的结构与检索多个字符的情况相比,能够减轻处理负荷。此外,不需要考虑竖写和横写等。结果,能够实现字符串检测处理的负荷减轻和处理时间缩短。进而,由于不需要对比较对象的字符串区分竖写和横写而预先保持字符的信息,所以能够实现字符串检测装置中的存储器节省化。
此外,本发明的字符串检测装置是一个字一个字检索的结构,且上述检索顺序决定部件基于上述评价值而决定要检索的字符的顺序。即,根据误检测的难度(容易检测)而决定检索顺序。
根据上述结构,字符检索部件能够对指定的字符串的各个字符,考虑是否为容易正确检测的字符、难以误检测到什么程度(是否容易)等而实施字符检索。因此,尽可能避免误检测,能够更有效地执行字符串检测处理,结果,能够实现处理负荷减轻和处理时间缩短。
优选地,上述检索顺序决定部件决定在上述检测对象字符串中包含的字符中,最初检索表示上述误检测的难度的评价值具有最大的值的字符。
根据上述结构,与上述字符串的原来的字符的排列无关地,将正确地检测的可能性最高的字符优先检索,所以能够有效地检测在图像中包含的目标字符串。此外,在图像中没有包含目标字符串的情况下,能够在字符串检测处理的较早的阶段、更正确地判断此情况。
若上述字符检索部件从上述图像中检测出在上述检测对象字符串中包含的目标字符,则上述检索顺序决定部件将下一个要检索的字符决定为在上述检测对象字符串中的字符的排列中,在已检测的字符的两侧的字符中、上述评价值大的一个。
在字符的排列中已检测的字符的两侧的字符,被认为在上述图像中配置在接近已检测的字符的位置。因此,以在上述图像中的已检测的字符的位置作为基准,优先检索这些字符,从而能够在较早的阶段、更正确地检测目标字符串的有无。进而,在两侧中,评价值大(即,难以误检测)的字符被优先检索,所以精度进一步提高。
优选地,上述检索顺序决定部件决定上述检索顺序,使得按照字符的评价值由大到小的顺序检索出。
根据上述结构,与指定的字符串的原来的字符的排列无关地,从按照容易正确地检测的字符起按顺序检测字符。因此,能够有效地检测在图像中包含的目标字符串。此外,在图像中没有包含目标字符串的情况下,能够在字符串检测处理的较早的阶段、更正确地判断此情况。
优选地,上述字符检索部件若从上述图像中检测出在上述检测对象字符串中包含的目标字符,则将用于检索下一个字符的检索对象区域从上述图像的全部区域限定为已检测的字符的相邻区域。
根据上述结构,字符检索部件将检索对象区域从图像的全部区域限定为已检测的字符的相邻区域而进行字符检索。在大多情况下,字符串以竖向或横向排列而配置,所以若检测出目标字符串,则在其相邻配置其他的字符的可能性高。
这样,筛选检测出的可能性高的区域而进行之后的字符的检索,所以能够大幅削减进行比对处理的范围,能够实现字符串检测处理的处理负荷减轻和处理时间缩短。
优选地,在上述已检测的字符为在上述检测对象字符串中的字符的排列中第n个字符,并且在下一个要检索的字符为第(n+1)个以上的字符的情况下,上述字符检索部件将检索对象区域限定为上述已检测的字符的右侧和下侧的相邻区域,在下一个要检索的字符为第(n-1)个以下的字符的情况下,上述字符检索部件将检索对象区域限定为上述已检测的字符的左侧和上侧的相邻区域。
根据上述结构,基于原来的字符的排列,能够从已检测的字符的位置,更正确地筛选下一个要检索的字符的位置。即,在指定的字符串的排列中,在下一个要检索的字符为已检索的字符之后的字符的情况下,若是横写则配置在已检测的字符的右侧的可能性高,若是竖写则配置在已检测的字符的下侧的可能性高。此外,在下一个要检索的字符为已检索的字符之前的字符的情况下,若是横写则配置在已检测的字符的左侧的可能性高,若是竖写则配置在已检测的字符的上侧的可能性高。
这样,筛选检测出的可能性高的区域而进行之后的字符的检索,所以能够大幅削减进行比对处理的范围,能够实现字符串检测处理的处理负荷减轻和处理时间缩短。
上述评价值也可以是作为字符的形状越复杂越难以误检测的字符,基于字符的形状特性而计算出的值,基于表示形成字符的线的长度的要素长度的特性值以及表示形成字符的线的方向的多样性的不同方位性的特性值中的至少一个,计算上述评价值。进而,也可以与形成上述字符的线的方向为水平或垂直方向的线相比,对线的方向倾斜的线进行加权,从而计算上述要素长度的特性值和上述不同方位性的特性值。
也可以作为越是没有与其他字符或其他字符的一部分相似的形状的字符越是难以误检测的字符,基于表示与其他字符的判别的容易性的判别容易性的特性值,计算上述评价值。
也可以作为越是字符的书写为一样的字符越是难以误检测的字符,根据基于不同书写的有无或在有不同书写的情况下的不同书写字符之间的相似度而确定的书写一样性的特性值,计算上述评价值。
优选地,上述图像是由多个帧构成的活动图像,上述字符检索部件按从上述活动图像中作为检索对象而提取出的每个检索对象帧,检索在上述检测对象字符串中包含的各个字符,上述字符检索部件在按照上述检索顺序检索各个字符时,在从上述检索对象帧中不能检测出目标字符的情况下,结束在该检索对象帧中的检索,在下一个检索对象帧中检索检索顺序为最初的字符。
根据上述结构,字符检索部件对活动图像的一个帧,按照决定的检索顺序,从难以误检测的字符起按顺序检索目标字符。然后,若不能检测目标字符,则结束对于该帧的检索,对下一个帧,从难以误检测的字符起按顺序重复检索。
若按照决定的检索顺序检索字符,则能够高效率地检测在图像中包含的目标字符串,在图像中没有包含目标字符串的情况下,能够在字符串检测处理的较早的阶段、更正确地判断此情况,所以能够避免容易混淆且难以检测的字符的判别花费时间或者在最后的阶段判明了没有包含字符串从而至此为止的字符检测处理的损失变大的不合适的情况。
由此,能够对在处理要求实时性的活动图像而检测字符串时成为更深刻的问题的处理负荷和处理时间的问题,实现大幅的处理负荷的削减和处理时间的缩减。
为了解决上述课题,本发明的字符评价装置,包括:字符分析部件,对作为应评价误检测的难度的字符而输入的评价对象字符的字符特性进行分析;字符特性存储部,按每个字符预先存储字符特性;特性值确定部件,基于上述字符分析部件分析的字符特性以及在上述字符特性存储部中存储的字符特性中的至少一个,确定上述评价对象字符的每个字符特性的特性值;评价值计算部件,使用上述特性值确定部件确定的一个以上的特性值,计算表示字符的误检测的难度的评价值;以及评价值存储部件,将上述评价值计算部件计算出的评价值与上述评价对象字符相关联而存储在字符信息存储部中。
也可以是上述字符分析部件对上述评价对象字符的形状特性进行分析,上述特性值确定部件基于上述字符分析部件分析的结果,对上述评价对象字符计算表示形成字符的线的长度的要素长度的特性值以及表示形成字符的线的方向的多样性的不同方位性的特性值中的至少一个。
上述字符特性存储部也可以是,作为越是没有与其他字符或其他字符的一部分相似的形状的字符越是难以误检测的字符,将与其他字符的判别的容易性作为字符特性而对每个字符存储的部,上述特性值确定部件基于在上述字符特定存储部中存储的、上述评价对象字符的字符特性,确定上述评价对象字符的判别容易性的特性值。
上述字符特性存储部也可以是,作为字符特性而将不同书写字符的组与不同书写字符之间的相似度相关联而存储的部,上述特性值确定部件基于上述评价对象字符的不同书写的有无或在有不同书写的情况下的不同书写字符之间的相似度,作为越是字符的书写为一样的字符越是难以误检测的字符,确定该评价对象字符的书写一样性的特性值。
根据以上叙述的字符评价装置的结构,能够基于字符的形状规格和语言特性,评价字符的误检测的难度。若能够预先把握哪个字符难以误检测、哪个字符容易误检测的情况,则字符串检测装置能够以短时间且低负荷处理,更有效地从图像中检测目标字符串。
本发明的上述的字符串检测装置可应用于可处理图像的全部图像处理装置,且搭载了本发明的字符串检测装置的、这样的图像处理装置也属于本发明的范畴。
为了解决上述课题,本发明的字符串检测方法,从图像中检测由一个以上的字符构成的字符串,其特征在于,包括:字符串取得步骤,取得作为应检测的字符串而输入的检测对象字符串;检索顺序决定步骤,基于在按每个字符存储表示字符的误检测的难度的评价值的字符信息存储部中存储的、在上述字符串取得步骤中取得的上述检测对象字符串中包含的每个字符的评价值,对该每个字符决定用于从上述图像中检索字符的检索顺序;以及字符检索步骤,根据在上述检索顺序决定步骤中决定的检索顺序,按在上述检测对象字符串中包含的每个字符,检索上述图像。
为了解决上述课题,本发明的字符评价方法,包括:字符分析步骤,对作为应评价误检测的难度的字符而输入的评价对象字符的字符特性进行分析;特性值确定步骤,基于在上述字符分析步骤中分析的字符特性以及在按每个字符预先存储字符特性的字符特性存储部中存储的字符特性中的至少一个,确定上述评价对象字符的每个字符特性的特性值;评价值计算步骤,使用在上述特性值确定步骤中确定的一个以上的特性值,计算表示字符的误检测的难度的评价值;以及评价值存储步骤,将在上述评价值计算步骤中计算出的评价值与上述评价对象字符相关联而存储在字符信息存储部中。
另外,上述字符串检测装置或上述字符评价装置也可以通过计算机实现,此时,通过使计算机作为上述各个部件动作,从而由计算机实现上述字符串检测装置或上述字符评价装置的控制程序、以及记录了该控制程序的计算机可读取的记录介质也属于本发明的范畴。
为了解决上述课题,本发明的字符串检测装置从图像中检测由一个以上的字符构成的字符串,其特征在于,包括:字符信息存储部,按每个字符存储表示字符的误检测的难度的评价值;检索顺序决定部件,基于在作为应检测的字符串而输入到本装置的检测对象字符串中包含的每个字符的、存储在上述字符信息存储部中的评价值,对该每个字符决定用于从上述图像中检索字符的检索顺序;以及字符检索部件,根据上述检索顺序决定部件决定的检索顺序,按在上述检测对象字符串中包含的每个字符,检索上述图像。
为了解决上述课题,本发明的字符评价装置,包括:字符分析部件,对作为应评价误检测的难度的字符而输入的评价对象字符的字符特性进行分析;字符特性存储部,按每个字符预先存储字符特性;特性值确定部件,基于上述字符分析部件分析的字符特性以及在上述字符特性存储部中存储的字符特性中的至少一个,确定上述评价对象字符的每个字符特性的特性值;评价值计算部件,使用上述特性值确定部件确定的一个以上的特性值,计算表示字符的误检测的难度的评价值;以及评价值存储部件,将上述评价值计算部件计算出的评价值与上述评价对象字符相关联而存储在字符信息存储部中。
为了解决上述课题,本发明的字符串检测方法,从图像中检测由一个以上的字符构成的字符串,其特征在于,包括:字符串取得步骤,取得作为应检测的字符串而输入的检测对象字符串;检索顺序决定步骤,基于在按每个字符存储表示字符的误检测的难度的评价值的字符信息存储部中存储的、在上述字符串取得步骤中取得的上述检测对象字符串中包含的每个字符的评价值,对该每个字符决定用于从上述图像中检索字符的检索顺序;以及字符检索步骤,根据在上述检索顺序决定步骤中决定的检索顺序,按在上述检测对象字符串中包含的每个字符,检索上述图像。
为了解决上述课题,本发明的字符评价方法,包括:字符分析步骤,对作为应评价误检测的难度的字符而输入的评价对象字符的字符特性进行分析;特性值确定步骤,基于在上述字符分析步骤中分析的字符特性以及在按每个字符预先存储字符特性的字符特性存储部中存储的字符特性中的至少一个,确定上述评价对象字符的每个字符特性的特性值;评价值计算步骤,使用在上述特性值确定步骤中确定的一个以上的特性值,计算表示字符的误检测的难度的评价值;以及评价值存储步骤,将在上述评价值计算步骤中计算出的评价值与上述评价对象字符相关联而存储在字符信息存储部中。
因此,起到能够实现对于图像的字符串检测处理的处理负荷减轻和处理时间缩短的效果。
附图说明
图1是表示本发明的实施方式中的DVD播放器的主要部分结构的方框图。
图2是字符评价装置的字符分析部执行的字符要素检测处理和字符要素分解处理的一例的图。
图3(a)和(b)是字符分析部求出的有关形状的特性值的具体例的图。
图4是表示字符分析部对多个字符执行了字符分析的结果的一例的图。
图5(a)是表示在字符特性存储部中存储的、有关判别容易性的字符特性信息的具体例的图,(b)是表示在字符特性存储部中存储的、有关书写一样性的字符特性信息的具体例的图。
图6是表示字符评价装置的评价值计算部计算出的评价值的一例的图。
图7是表示在字符串检测装置的字符信息存储部中存储的字符数据库的具体例的图。
图8是表示字符评价装置执行的字符评价处理的流程的流程图。
图9是说明本发明的图像处理装置(DVD播放器)、显示部(电视)以及操作部(遥控器)的外观、用户输入目标字符串的情况的图。
图10是表示在字符串检测装置的关键词保持部中保持的关键词的数据结构的一例的图。
图11是表示相对于已检测字符的区域的、用于检索由字符串检测装置的字符检索部决定的下一个字符的检索对象区域的一例的图。
图12是表示相对于已检测字符的区域的、用于检索由字符串检测装置的字符检索部决定的下一个字符的检索对象区域的具体例的图。
图13是表示DVD播放器中的图像处理和字符串检测处理的流程的流程图。
图14是表示字符串检测装置执行的字符串检测处理的流程的流程图。
图15是表示误检测的具体例的图。
标号说明
1DVD播放器(图像处理装置)
2字符评价装置
3字符串检测装置
10控制部
11存储部
12显示部
13操作部
14暂时存储部
14a图像存储器
14b关键词保持部
15总线
20字符分析部(字符分析部件/特性值确定部件)
21评价值计算部(特性值确定部件/评价值计算部件/评价值存储部件)
22关键词取得部(检测对象字符串取得部件)
23检索顺序决定部(检索顺序决定部件)
24字符检索部(字符检索部件)
25活动图像再现部
26静止图像生成部
27特征量提取部
30图像存储部
31字符特性存储部
32字符信息存储部
40比例尺(scale)
41竖线(要素)
42横线(要素)
43斜线(要素)
44斜线(要素)
具体实施方式
《实施方式1》
基于附图说明本发明的实施方式,则如下。
以下,作为一例,说明将本发明的字符串检测装置搭载在再现图像并进行显示的DVD播放器的情况。
另外,本发明的字符串检测装置并不限定于DVD播放器,可应用于可处理图像的全部图像处理装置。例如,可应用于数字视频记录器/播放器、蓝光盘记录器/播放器、数字摄像机、数字照相机、数字电视、个人计算机、移动电话、打印机、扫描仪等处理静止图像和/或活动图像的各种图像处理装置,但并不限定于此。另外,这里,将静止图像数据和活动图像数据都称为图像。
【DVD播放器1的结构】
图1是表示本发明的实施方式中的DVD播放器1的主要部分结构的方框图。
如图1所示,本实施方式的DVD播放器(图像处理装置)1成为包括控制部10、存储部11、显示部12、操作部13、暂时存储部14以及作为在这些各个部中进行数据的发送接收的公共的信号线的总线15的结构。
显示部12显示DVD播放器1处理的图像,或者将用户用于操作DVD播放器1的操作画面作为GUI(Graphical User Interface,图形用户界面)画面而显示。显示部12例如由LCD(液晶显示器)、有机EL显示器等的显示装置构成。
操作部13是用户对DVD播放器1输入指示信号,用于对DVD播放器1进行操作的部。
DVD播放器1也可以包括可经由总线15直接进行数据发送接收的显示部12和操作部13,但并不限定于这样的结构。
在本实施方式中,显示部12由数字电视实现,经由总线15与控制部10连接的DVD播放器1的外部接口(未图示)通过HDMI(High Definition Multimedia Interface,高清多媒体接口)端子和HDMI电缆等与作为数字电视的显示部12连接。由此,DVD播放器1能够将本装置再现的图像输出到显示部12进行显示。
此外,在本实施方式中,作为一例,操作部13也可以作为上述数字电视和该DVD播放器1共用的遥控器实现。与在操作部13中设置的按钮(十字键、决定键、字符输入键等)对应的信号在其按钮被按下时,作为红外线信号而从操作部13的发光部输出,并经由在DVD播放器1或上述数字电视的主体中设置的受光部而输入到DVD播放器1或数字电视中。经由DVD播放器1的受光部(未图示)接收到的信号经由总线15而提供给控制部10,控制部10进行对应于上述信号的动作。
控制部10通过执行从存储部11读出到暂时存储部14的程序,从而进行各种运算,并且经由总线15统一控制DVD播放器1包括的各个部。
在本实施方式中,控制部10是作为功能模块而至少包括关键词取得部22、检索顺序决定部23以及字符检索部24的结构。这些各个功能模块使DVD播放器1作为本发明的字符串检测装置3起作用。
此外,由于DVD播放器1是图像处理装置,所以控制部10作为用于使DVD播放器1作为图像处理装置起作用的功能模块而包括活动图像再现部25、静止图像生成部26以及特征量提取部27。上述结构是图像处理装置基本上包括的功能模块的一例,并不用于限定本发明的字符串检测装置3的结构,根据图像处理装置的功能而适当地设计。
此外,在本实施方式的DVD播放器1中,还可以搭载本发明的字符评价装置2。本发明的字符评价装置2是用于对字符串检测装置3可检测的全部字符进行分析并评价的装置,字符串检测装置3可使用字符评价装置2评价并获得的字符的信息而检测在图像中包含的字符串。
控制部10作为使DVD播放器1作为本发明的字符评价装置2起作用的功能模块而包括字符分析部20和评价值计算部21。
CPU(central processing unit,中央处理单元)通过将在由ROM(read only memory,只读存储器)等实现的存储装置中存储的程序读出到由RAM(random access memory,随机存取存储器)等实现的暂时存储部14中执行,从而能够实现上述的控制部10的各个功能模块(20~27)。
存储部11存储控制部10执行的控制程序和OS程序、以及在控制部10执行DVD播放器1具有的各种功能(例如,图像处理、字符串检测处理、字符评价处理等)时读出的各种固定数据。在本实施方式中,在存储部11中,例如包括图像存储部30、字符特性存储部31以及字符信息存储部32,存储各种固定数据。存储部11例如由作为可改写内容的非易失性存储器的、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)、闪速存储器等实现。另外,作为存储不需要改写内容的信息的存储部,如上所述,也可以由作为与存储部11不同的、未图示的、读出专用的半导体存储器的ROM(Read Only Memory)等实现。
图像存储部30是存储成为DVD播放器1作为图像处理装置而处理的对象的图像的数据的部。在本实施方式中,图像存储部30能够将静止图像和活动图像都作为图像而存储。
字符特性存储部31存储与在评价值计算部21评价字符时利用的字符的特性有关的信息即字符特性信息。关于字符特性信息,在后面进行详细叙述。
字符信息存储部32将在字符串检测装置3执行字符串检测处理时利用的字符的信息化为数据库而进行存储。字符信息存储部32存储的字符数据库按每个字符,将用于唯一识别字符的字符代码、该字符的特征量以及该字符的评价值相关联而存储。关于该字符数据库的数据结构,在后面详细叙述。
暂时存储部14是在DVD播放器1执行的各种处理的过程中,将用于运算的数据和运算结果等暂时存储的所谓的工作存储器(working memory),由RAM(Random Access Memory)等实现。更具体地说,静止图像生成部26将在执行图像处理时成为处理对象的图像在暂时存储部14的图像存储器14a中展开,由此,特征量提取部27能够以像素为单位对图像进行详细的分析。此外,在字符串检测装置3基于由用户输入的关键词而执行字符串检测处理时,输入的上述关键词暂时存储到暂时存储部14的关键词保持部14b中。字符串检测装置3的各个部适当地参照关键词保持部14b,执行从图像中检测指定的关键词的字符串检测处理。关于关键词保持部14b的数据结构,在后面详细叙述。
控制部10的活动图像再现部25读出在图像存储部30中存储的活动图像,实施用于输出到外部的处理,再现活动图像。
在输入了再现/显示活动图像的指示的情况下,活动图像再现部25已进行了处理的活动图像被暂时存储到图像存储器14a中,在未图示的显示控制部的控制之下,按每个帧输出到显示部12。
在输入了从活动图像中检测规定的字符串的指示的情况下,活动图像再现部25处理的活动图像输出到静止图像生成部26。
另外,在输入了用于显示在图像存储部30中存储的静止图像的指示的情况下,上述显示控制部从图像存储部30中读出静止图像,输出到显示部12。
静止图像生成部26从活动图像的各个帧中提取成为执行字符串检测处理的对象的帧,生成处理对象的静止图像。静止图像生成部26可以将在活动图像中包含的全部帧分别作为静止图像,在本实施方式中,以规定秒为间隔或以规定帧为间隔,执行提取成为处理对象的静止图像的处理。
另外,在输入了从静止图像中检测规定的字符串的指示的情况下,从图像存储部30中读出未图示的显示控制部指定的静止图像,输出到特征量提取部27。
特征量提取部27从静止图像生成部26生成的静止图像或上述显示控制部读出的静止图像中,提取用于字符串检测处理的特征量。只要是字符串检测装置3能够按每个字符识别字符的形状,则本发明的字符串检测装置3使用的特征量可以是任意的。
其中,字符检索部24通过将上述特征量与已知的模型特征量进行比较,从而实现字符的检测。因此,优选地,在字符信息存储部32中存储的每个字符的模型的特征量与特征量提取部27提取的字符的特征量是通过相同的方法提取出的特征量。另外,作为从图像中检测字符的特征量的技术,例如考虑使用非专利文献1所记载的角检测技术、轮廓线(边缘)检测技术,但特征量提取部27的结构并不限定于此。或者,字符的特征量也可以是字符的图像。
【字符评价装置2的结构】
本发明的字符评价装置2(图1)是评价字符,关于字符的一个字一个字输出评价值的装置。详细地说,字符评价装置2基于字符的形状特性和字符的语言特性,分析字符,并从该字符难以误检测到什么程度(容易正确检测到什么程度)的观点进行评价,求出表示“误检测的难度”的评价值。评价值在字符信息存储部32中对每个字符预先存储。
根据本发明的字符评价装置2求出的评价值,字符串检测装置3能够对每个字符预先把握字符的误检测的难度。由此,字符串检测装置3能够从关键词中的难以误检测的字符起按顺序进行检索,与以往相比能够实现有效的字符串检测处理。
这里,误检测是指,错误地检测在原本不是字符的背景区域中、包含有目标字符的情况、将其他字符错误地检测为目标字符的情况、原本是目标字符但遗漏检测目标字符的情况等。在字符的形状简单、有不同书写字符的情况下,容易发生这样的误检测。例如,若在该字符中像字符的特征性的形状少(数字的“1”、表示长音的“-”等)、汉字的部首等经常作为各种字符的要素的一部分使用的字符(“口”、“日”等)、虽然是不同的字符但形状相似的字符之间(片假名的“二”和汉字的“二”、片假名的“ロ”和汉字的“口”、通常的“つ”和表示促音的“つ”等)、相反一种含义且多种书写的字符(“沢”和“澤”、“A”和“a”等),则误检测的可能性高。
如上可知,可以说“误检测的难度”可根据字符的形状复杂、没有相似形状的字符、没有不同书写字符等进行评价。其中,并不限定于此,也可以将其他的字符形状的特征、其他的字符特性用于误检测的难度的评价。
按照上述的观点,字符评价装置2基于字符的形状和字符的语言特性来评价字符。以下,详细说明字符评价装置2的结构。
控制部10的字符分析部20分析字符的形状。在本实施方式中,字符分析部20将字符捕捉为由一个以上的线的要素构成,从字符形状中检测要素。字符分析部20检测的要素既可以是直线,也可以是曲线,或者也可以将曲线近似检测为直线。然后,字符分析部20根据检测出的要素(线)的方向或者是直线还是曲线,将检测出的各个要素分类,分解字符。
图2是表示字符分析部20执行的字符要素检测处理和字符要素分解处理的一例的图。
首先,想要进行评价的评价对象的字符输入到字符评价装置2。这里,作为一例,设为片假名的“ボ”这样的字符从操作部13输入到字符评价装置2。这里,只要字符评价装置2能够识别输入的字符为“ボ”,则字符能够以任意方式输入。例如,字符“ボ”能够以文本数据输入,也能够以图像输入,也能够以字符代码输入,也能够以声音输入。
字符分析部20若取得评价对象字符“ボ”,则将该字符归一化为一定大小。在图2所示的例子中,使用比例尺40而将字符“ボ”的大小归一化,使得恰好收敛在竖×横=6格×6格的框内。于是,能够忽略在输入了评价对象的字符时的大小的偏差,只正确地分析字符的形状。
接着,字符分析部20从在比例尺40中统一的字符“ボ”中检测要素。在图2所示的例子中,将曲线近似于直线,将全部的要素检测为直线(41~44)。另外,从字符形状中检测线的方法并没有特别限定,考虑适当地采用以往的图像处理技术。例如,可使用非专利文献1所记载的角检测技术、轮廓线(边缘)检测技术。
接着,字符分析部20对检测出的全部要素,根据该线的种类和方向等而分类,分解要素。图2所示的例只是一例,本发明并不限定于此,例如,字符分析部20由于从字符“ボ”中检测出7个直线的要素,所以将这些要素分类为竖线41、横线42、右上斜线43、右下斜线44的4组。这样,字符分析部20将字符“ボ”分解为1个竖线41、1个横线42、1个右上斜线43、4个右下斜线44的合计7个要素(线)。关于这些分解的要素(线)的长度,比例尺40也是有效的。
字符分析部20使用在上述的步骤中获得的评价对象的字符(这里是“ボ”)的分析结果,求出有关评价对象字符的形状的特性值。特性值是用数值、顺序(rank)等的值表示字符特性的值,用于计算上述评价值。在本实施方式中,字符分析部20从分析结果中,作为有关形状的特性值而求出“要素长”和“不同方位性”的两种特性值。
图3的(a)和(b)是表示字符分析部20求出的、有关形状的特性值的具体例的图。图3的(a)和(b)表示基于沿着图2所示的步骤获得的字符“ボ”的分析结果,字符分析部20分别求出了字符“ボ”的“要素长度”和“不同方位性”的例子。
(要素长度的计算)
特性值“要素长度”表示字符具有的全部要素(线)的长度。要素长度越大,字符的结构使用越多的线,因此,能够判断为形成字符的线越多,字符越复杂(难以误检测)。
如上所述,被分解的各个线的长度能够使用在将字符归一化时使用的比例尺40来表示。
分析的结果,字符“ボ”由竖线41、横线42、右上斜线43、右下斜线44的4个组构成,所以字符分析部20首先按每个组小计线的长度。在图3(a)所示的例子中计算为如下:关于竖线41,长度“5”的线为1条且小计“5”,关于横线42,长度“5.5”的线为1条且小计“5.5”,关于右上斜线43,长度“3”的线为1条且小计“3”,关于右下斜线44,4条的长度分别为“2.5”、“2”、“1.5”、“1.5”且小计“7.5”。
最后,字符分析部20将全部组的线的长度的小计合计,求出字符“ボ”的要素长度为“21”。这里,数字的“1”相当于比例尺40的1格的长度。
这里,在将竖线的长度的小计设为X、将横线的长度的小计设为Y、将斜线的长度的小计(右上、左下相加)设为Z时,也可以根据下式
特性值“要素长度”=X+Y+kZ(其中,k>1),
计算要素长度。即,相比竖横线,对斜线的长度附加加权系数的结构。例如,若在图3所示的例子中,设为加权系数k=2,则竖线41、横线42、右上斜线43、右下斜线44的小计分别成为“5”、“5.5”、“6”、“15”,字符“ボ”的要素长度成为“31.5”。
根据上述结构,能够将相比竖横线(水平方向的线或垂直方向的线),多使用斜线的字符判断为更复杂(难以误检测)。
(不同方位性的计算)
特性值“不同方位性”表示构成字符的线的方向的多样性。能够判断为越是使用各种方向的线的字符,字符越复杂。例如,相比仅由横线构成的字符,能够判断为由竖线和横线构成的字符更复杂,进而,能够判断为还使用斜线的字符更复杂。
如上所述,字符“ボ”分解的各个线根据线的方向,被分类为竖线41、横线42、右上斜线43、右下斜线44的4个组。字符分析部20首先确认有无属于各个组的线。由于字符“ボ”具有上述4个组全部种类的线,所以成为竖线“有”、横线“有”、右上斜线“有”、右下斜线“有”。若字符“ロ”的情况下,成为竖线“有”、横线“有”、右上斜线“无”、右下斜线“无”。
然后,字符分析部20在图3(b)所示的表的“有无”栏中,若属于该组的线为“有”则存储“1”,若“无”则存储“0”。由于字符“ボ”被判断为全部线为“有”,所以在“有无”栏中存储“1”。也可以将这些直接合计而作为不同方位性的特性值,但在本实施方式中,使用方向系数而对斜线为“有”的情况附加权重。
在图3(b)所示的例子中,例如相对于将竖线、横线的方向系数设为“1”,将右上斜线和右下斜线的方向系数预先设定为“2”。字符分析部20根据“有无”ד方向系数”求出每个组的不同方位性的小计。具体地说,计算为如下:关于竖线41,1×1且小计“1”,关于横线42,1×1且小计“1”关于右上斜线43,1×2且小计“2”,关于右下斜线44,1×2且小计“2”。
最后,字符分析部20将全部组的不同方位性的小计合计,求出字符“ボ”的不同方位性为“6”。根据上述结构,能够判断为相比竖横线,使用斜线的字符更复杂。
另外,也可以对将字符如上所述那样归一化为一定大小时的线的长度设置阈值,在该方位的线的长度的小计为一定以下的情况下,判断为该方位的线为“无”。
这里,例如将竖线的长度为规定的阈值以上时设为P=1,将不是时设为P=0,将横线的长度为规定的阈值以上时设为Q=1,将不是时设为Q=0,将斜线的长度为规定的阈值以上时设为R=1,将不是时设为R=0。此时,也可以根据下式
特性值“不同方位性”=P+Q+hR(其中,h>1),
计算不同方位性。这里,将斜线的方向(有右上斜线43和右下斜线44的两组)在1组时设为h=2,在2组时设为h=4。此外,将规定的阈值设为“2”。
基于这样的规则,由于字符“ボ”的竖线的长度小计为阈值以上,所以P=1,横线也相同地成为Q=1,斜线也同样成为R=1,此外,由于有右上斜线和右下斜线的2组斜线,所以成为h=4。因此,根据上述的式,计算为不同方位性=1+1+4×1=6。例如,在字符“ロ”的情况下,由于竖线成为P=1,横线成为Q=1,斜线成为R=0,所以不同方位性的特性值计算为1+1=2。
在“要素长度”和“不同方位性”的计算中,对斜线进行加权的结构有如下所述的优点。一般,在背景图像(=非字符图像)内,竖线或横线相比斜线存在更多的情况较多。因此,换言之,能够判断为线密集,且在该线中,斜向的线形成字符的可能性高。即,可以说具有斜线的字符倾向于被容易检测且难以误检测。因此,相比竖线或横线,对斜线设置权重而进行字符的评价,从而能够更正确地评价字符的“误检测的难度”。若使用通过这样的评价而获得的评价值,结果,能够进一步缩短字符串检测处理的处理时间,且能够进一步提高检测精度。
如上求出的有关字符的形状的各个特性值,也可以在最终计算出评价值为止的期间,暂时保存在暂时存储部14中,一次求出的特性值也可以是按每个字符以非易失性的方式保存在字符特性存储部31中。
此外,有关字符的形状的特性值并不限定于上述的例子,例如也可以将要素(线)数作为特性值,也可以将笔画数作为特性值。
字符分析部20也可以对输入的一个字符执行以上的字符分析,也可以在输入了关键词的情况下,对构成该关键词的全部字符中的每个字符执行以上的字符分析。
图4是表示对多个字符执行了字符分析的结果的一例的图。例如,在“ロボツト”这样的字符串输入到字符评价装置2的情况下,如图4所示,与“ボ”同样地,字符分析部20也对“ロ”、“ツ”、“ト”,从字符形状进行要素检测并进行要素的分解。在图4中,由于“ボ”的分析结果如图2和图3(a)、(b)所示,所以省略记载。
评价值计算部21使用字符分析部20计算出的字符形状的特性值和/或根据在字符特性存储部31中存储的字符特性信息所求出的特性值,计算评价对象字符的评价值(误检测的难度)。
在字符特性存储部31中,存储有与通过字符分析部20的分析而获得的有关形状的字符特性以外的所有字符特性有关的信息。在本实施方式中,作为一例,评价值计算部21基于在字符特性存储部31中存储的字符特性信息,确定评价对象字符的特性值“判别容易性”和特性值“书写一样性”。
(判别容易性的确定)
特性值“判别容易性”表示该字符不会被弄错为其他字符(且没有向不是字符的区域混同),正确地判别为是该字符的容易性。可以说字符形状在几何学上简单且像字符的特征性的形状少的字符、汉字的部首等经常作为各种字符的要素的一部分使用的字符、具有虽然是不同的字符但形状相似的字符的判别容易性低,容易误检测。
在本实施方式中,设为从过去的经验中,已预先决定了判别容易性。例如,根据过去的误检测的比例、作为部首(“左偏旁”或“右偏旁”等)而成为其他字符的一部分的出现频度、形状酷似的不同的字符有多少等,设定了数值,使得越是容易混淆的字符,判别容易性成为越低的值。
图5(a)是表示在字符特性存储部31中存储的、有关判别容易性的字符特性信息的具体例的图。在图5(a)所示的例子中,判别容易性的特性值对每个字符相关联而存储。这样,字符特性信息也可以是“判别容易性”的特性值其本身。或者,也可以是对字符特性信息进一步进行其他处理,从而最终能够确定特性值的信息。
在本实施方式中,作为一例,将判别容易性的定义域设为0<“判别容易性”≤10。设为越是与某一其他字符容易混淆,越是接近0的值。例如,在片假名的“ロ”是与汉字的“口(くち)”相似,在几何学上也容易混淆为不是字符的四角形。此外,汉字“叶”的“左偏旁”和汉字“知”的“右偏旁”等,作为其他字符的一部分而出现的概率大的字符。因此,例如将片假名的“ロ”的判别容易性设为1。另一方面,片假名的“ボ”比“ロ”复杂,此外,没有相似形状的字符,且成为其他字符的一部分的概率小。因此,例如将片假名的“ボ”的判别容易性设为“8”。关于其他的全部字符也同样对每个字符预先存储了判别容易性的特性值。根据上述结构,评价值计算部21通过参照字符特性存储部31,能够立即把握输入的字符的判别容易性。
(书写一样性的确定)
特性值“书写一样性”表示同义且形状不同的字符,即书写变化(variation)少。若书写变化有多个,且这些形状差很远,则在仅对一种书写进行了检索时,遗漏该字符的危险变高。
因此,最好只有一种书写,书写变化有多个的情况下也越少越好。进而,该不同书写字符之间形状越相似越好。即,字符的书写越一样越难以误检测。
因此,在本实施方式中,评价值计算部21对评价对象字符,基于有无不同书写字符、以及在有的情况下不同书写变化数和不同书写字符之间的相似度,将该字符的“书写一样性”确定为定义域0<“书写一样性”≤10。值越大,意味着越没有容易混淆的其他书写,难以误检测。
图5(b)是表示在字符特性存储部31中存储的、有关书写一样性的字符特性信息的具体例的图。在图5(b)所示的例子中,字符特性信息是对存在不同书写字符的每个字符组,将这些字符之间的相似度相关联的信息。
评价值计算部21参照图5(b)所示的表,检索评价对象字符是否包含在不同书写组中。若字符没有包含在不同书写组中,则评价值计算部21将该字符的书写一样性的特性值确定为最大值的“10”。在字符包含在不同书写组中的情况下,接着,评价值计算部21参照在这些字符之间的字符形状的相似度。例如,相似度“10”是不同书写字符之间酷似的情况(例如,字母的“C”的大字符和小字符),书写的多样性赋予不会对字符串检测处理产生恶劣影响的字符组。评价值计算部21按照上述相似度,将这样的字符的书写一样性(特性值)确定为“10”。
或者,例如,“ロ”、“ボ”、“ツ”、“ト”的4个字符分别具有“ろ”、“ぼ”、“つ”、“と”这样的不同的书写法,这些字符之间的字符形状完全不相似。因此,也可以对这些4个不同书写字符组,设定相似度“1”。此时,评价值计算部21按照上述相似度,将“ロ”、“ボ”、“ツ”、“ト”的4个字符的书写一样性全部确定为“1”。
根据上述结构,评价值计算部21能够对一个评价对象字符取得有关误检测的难度的4种特性值。即,字符分析部20计算出的“要素长度”和“不同方位性”、在字符特性存储部31中存储的“判别容易性”以及根据在字符特性存储部31中存储的有关不同书写的字符特性信息确定的“书写一样性”这4种。评价值计算部21能够使用这4种特性值,计算字符的评价值,评价字符的误检测的难度。
在本实施方式中,评价值计算部21根据下式来计算评价值。
评价值=要素长度×不同方位性×判别容易性×书写一样性
图6是表示评价值计算部21计算的评价值的一例的图。例如,在“ロボツト”这样的字符串输入到字符评价装置2的情况下,如图6所示,评价值计算部21对“ロ”、“ボ”、“ツ”、“ト”的4个字符分别取得4种(要素长度、不同方位性、判别容易性、书写一样性)特性值。
然后,评价值计算部21根据上述式,将字符“ロ”的评价值计算为“ロ”的评价值=12×2×1×1=24。对“ボ”、“ツ”、“ト”也同样地计算评价值。这样计算出的评价值对每个字符相关联而存储在字符信息存储部32中,成为字符串检测装置3能够参照的状态。
另外,图6所示的每个字符的特性值的表是用于计算评价值的途中经过的信息,暂时存储在暂时存储部14中即可,也可以如后述的图7所示,在评价值以非易失性的方式记录在字符信息存储部32之后被删除。但是,在DVD播放器1的字符评价装置2对同一个字符多次进行评价的状况下,也可以将最初一度求出的特性值按每个字符以非易失性的方式存储在存储部11中。
图7是表示在字符信息存储部32中存储的字符数据库的具体例的图。
如图7所示,字符信息存储部32的字符数据库成为按每个字符,将用于唯一识别字符的字符代码、字符评价装置2计算出的该字符的评价值、字符串检测装置3在字符的比对处理中利用的字符的特征量相关联的结构。
在这里没有特别限定,但假设字符的特征量是以线要素捕捉字符的特征量、检测出字符的轮廓线、边缘的特征量、检测出字符的角的特征量等。但是,并不限定于这些例子,只要是字符串检测装置3能够比较在字符数据库中存储的特征量和从检测对象的活动图像中获得的特征量,判断字符的一致、不一致的信息,则特征量可以是任意信息。
在图7所示的例子中,字符“ロ”的评价值为“24”,字符“ボ”的评价值为“1008”,字符“ツ”的评价值为“114”,字符“ト”的评价值为“48”。因此,在输入了关键词“ロボツト”的情况下,字符串检测装置3参照在字符信息存储部32的字符数据库,能够把握关键词内的全部字符的误检测的难度。在上述的例子中,字符串检测装置3能够判断为字符“ボ”最难以误检测。
【字符评价处理流程】
图8是表示字符评价装置2执行的字符评价处理的流程的流程图。首先,对字符评价装置2输入用于评价字符的指示和评价对象字符。评价对象字符也可以是一个字,也可以是多个字。
若输入评价对象字符(在S101中“是”),则首先,字符分析部20在一定的比例尺上将字符的大小归一化之后分析字符的形状,检测构成该字符的要素(直线、曲线等)(S102)。接着,字符分析部20按检测出的每个要素分解字符,并按线的方向等的每个种类分类各个要素(S103)。
然后,字符分析部20基于分解的线在上述比例尺上的长度,计算特性值“要素长度”(S104)。此外,字符分析部20基于分解的线的方向的多样性,计算特性值“不同方位性”(S105)。
另一方面,评价值计算部21参照字符特性存储部31,确定评价对象字符的“判别容易性”的特性值(S106)。
此外,评价值计算部21参照字符特性存储部31,取得有关不同书写的字符特性信息(S107)。然后,评价值计算部21判断在取得的字符特性信息(例如,图5(b))中是否作为不同书写组而包含上述评价对象字符(S108)。
这里,评价值计算部21在判断为评价对象字符不具有不同书写字符的情况下(在S108中“否”),将该字符的“书写一样性”的特性值确定为最高值(这里是“10”)(S109)。相反,评价值计算部21在判断为评价对象字符具有不同书写字符的情况下(在S108中“是”),根据评价对象字符和该不同书写字符之间的相似度,确定“书写一样性”的特性值(S110)。例如,若相似度为“1”(不相似),则将“书写一样性”的特性值确定为“1”。
然后,评价值计算部21基于在以上的各个步骤中求出的4个特性值,即“要素长度”、“不同方位性”、“判别容易性”以及“书写一样性”,计算表示误检测的难度的评价值(S111)。例如,也可以通过将各个特性值相乘而求出评价值。
最后,评价值计算部21将计算出的评价值与该评价对象字符相关联而存储在字符信息存储部32中(S112)。
在图8中,表示了在S104~S110中依次求出4个特性值的例子,但这些4个特性值并不限定于图8所示的各个步骤的顺序。各个特性值也可以按任意顺序求出。
根据在以上叙述的字符评价装置2的结构和字符评价方法,能够基于字符的形状特性和语言特性来评价字符的误检测的难度。若能够预先把握哪个字符难以误检测,哪个字符容易误检测,则字符串检测装置3能够以短时间且低负荷处理,更有效地从图像中检测目标字符串。
另外,在本实施方式中,说明了字符评价装置2对成为检测对象的全部字符预先计算每个字符的评价值的结构,但本发明并不限定于上述结构。例如,字符评价装置2的结构也可以是,对字符串检测装置3输入了想要检测的关键词之后,对该输入的各个字符首先进行评价的结构。
接着,详细说明使用字符评价装置2计算出的评价值,更有效地执行字符串检测处理的字符串检测装置3的结构。
【字符串检测装置3的结构】
本发明的字符串检测装置3(图1)是利用字符评价装置2计算出的每个字符的评价值,有效地执行字符串检测处理的装置。字符串检测处理是从活动图像或静止图像等中检测指定的字符串(可以是1个字,也可以是多个字)的处理。
控制部10的关键词取得部22取得用于检测字符串的指示和应检测的目标字符串。
图9是说明本发明的DVD播放器1、显示部12(电视)、以及操作部13(遥控器)的外观、用户输入目标字符串的情况的图。在图9所示的例子中,DVD播放器1将用于用户操作字符串检测装置3的操作画面输出到显示部12,进行显示。在图9所示的例子中,显示部12显示用户能够操作操作部13而输入检索的字符串的GUI画面。
用户通过操作操作部13,从而能够对字符串检测装置3输入想要从处理对象的活动图像(或静止图像)中找出的字符串。图9表示作为目标字符串而输入了关键词“ロボツト”的例子。
若输入关键词之后,例如操作部13的决定按钮等被按下,则关键词取得部22取得输入的关键词(例如,“ロボツト”),并存储在暂时存储部14的关键词保持部14b中。
图10是表示在关键词保持部14b中保持的关键词的数据结构的一例的图。如图10所示,关键词取得部22按照关键词的排列顺序存储取得的关键词的各个字符。例如,在关键词“ロボツト”的情况下,由于“ロ”是在该关键词中的第一个字符,所以关键词取得部22存储字符“ロ”,进而对该字符相关联而存储字符顺序“1”的信息。对“ボ”、“ツ”、“ト”的各个字符也同样地相关联而存储字符顺序“2”、“3”、“4”。
检索顺序决定部23决定在字符检索部24从图像中检索关键词时的、检索关键词中的各个字符的顺序。检索顺序决定部23基于字符评价装置2计算出的评价值,决定检索顺序。具体地说,从难以误检测(即,容易正确地找出)的字符起优先地进行字符串检测处理,评价值越高的字符,将检索顺序越设定为上位。
在输入的关键词为“ロボツト”的情况下,检索顺序决定部23参照如图7所示的字符信息存储部32的字符数据库,取得“ロ”、“ボ”、“ツ”、“ト”的各个字符的评价值。由于各个字符的评价值分别为“24”、“1008”、“114”、“48”,所以检索顺序决定部23将检索顺序决定为“ボ”为第一位、“ツ”为第二位、“ト”为第三位“ロ”为第四位,使得从评价值高的字符起按顺序检索。
如图10所示,检索顺序决定部23也可以将决定的检索顺序与输入的各个字符相关联而存储。
字符检索部24执行从图像中检测指定的字符串的字符串检测处理。字符检索部24将在由关键词取得部22取得的关键词中包含的字符以一个字一个字检索。具体地说,比较在字符信息存储部32的字符数据库中存储的目标字符的特征量和从图像中提取出的特征量,检测一致(match)的特征量包含在图像中的情况,判断为目标字符包含在图像中。
在本发明中,字符检索部24在检索关键词的各个字符时,根据检索顺序决定部23决定的检索顺序来执行字符串检测处理。例如在上述的例子中,字符检索部24参照在关键词保持部14b中存储的检索顺序(图10),按照“ボ”、“ツ”、“ト”、“ロ”的顺序,从处理对象图像中检索目标字符。
字符检索部24从最难以误检测的“ボ”起进行检索,若能够检测出“ボ”,则继续下一个字符的检索。例如,如图10所示,也可以对能检测出的字符赋予表示已检测的“已”的标志。接着,字符检索部24从未检测的字符中检索顺序最高的字符,重复这个步骤。
字符检索部24若不能检测“ボ”,则判断为在该图像中不包含指定的关键词“ロボツト”。由于该判断是从难以误检测的字符起按顺序进行,所以尽早被正确地判断,且能够省略花费之后的容易误检测的字符的时间的浪费的检测处理。
进而,字符检索部24在一个以上的字符的检测成功之后,基于已检测的字符和想要从此检测的字符的字符排列,预测字符之间的位置关系,将检索对象区域筛选为已检测的字符的相邻区域,执行字符串检测处理。
详细地说,在已检测字符为字符串中的第n个字符,且下一个要检索的字符为字符串中的第n+1个的字符的情况下,字符检索部24能够将检索对象区域限定为上述已检测字符的右侧和下侧的规定大小的区域,而不是作为图像全体。此外,字符检索部24在下一个要检索的字符为字符串中的第n-1个字符的情况下,能够限定为上述已检测字符的左侧和上侧的规定大小的区域。
根据上述结构,与从图像全体区域中检索目标字符的情况相比,能够进一步筛选检索范围,所以能够进一步缩短处理时间。
若使用具体例说明,则如下。假设在字符检索部24检测出检索顺序第1个字符“ボ”之后,接着检索字符“ツ”。根据图10的字符顺序,相对于已检测字符“ボ”为第2个,下一个要检索的“ツ”为第3个。因此,“ツ”在“ボ”的相邻区域(在日语中,尤其是在右或下)存在的可能性高。
因此,字符检索部24将检索“ツ”的对象区域限定为上述已检测字符“ボ”的相邻区域。例如,如图11所示,限定为“ボ”的右侧的规定大小的区域(虚线框内网点区域)。例如,如图11所示,若将已检测字符的区域的大小设为h×h,则规定的大小可以考虑其右侧的3h×3h的大小的区域等。
在图12所示的例子中,在已检测字符(例如“ボ”)的右侧区域(1)中,检测目标字符(例如“ツ”)。这样,若限定检索对象区域,则与检索图像全体的情况相比,能够以极短时间且低负荷检索目标字符“ツ”。
另外,在已检测字符(例如“ボ”)的右侧区域(1)中没有发现目标字符(例如“ツ”)的情况下,依次扩大检索对象区域,使得接着成为存在发现的可能性的下侧区域(2)、左侧区域(3)、上侧区域(4),继续进行检索即可。但是,这样也没有发现的情况下,最终将检索对象区域返回到图像全体,再次进行检索即可。
根据上述结构,能够飞跃地提高字符检索部24中的字符串检测处理的处理效率。
另外,字符检索部24也可以对第n个已检测字符,随着下一个要检索的字符的字符顺序成为第(n±2)个、第(n±3)个、第(n±4)个、......等那样已检测字符和下一个要检索的字符之间的距离变长,预测其位置关系,根据位置关系来进一步扩大检索对象区域。
例如,在图12所示的例子中,在检测“知覚ロボツト”的“知”,接着检测“ト”的情况下,若将已检测字符“知”的区域的尺寸设为h×h,则考虑用于检索“ト”的区域限定为其右侧的6h×6h的大小的区域等。
此时,也能够与将图像全体设为检索对象区域的情况相比,大幅限定检索对象区域的面积,能够实现处理负荷的降低和处理时间的缩短。
进而,字符检索部24也可以从由图像获得的特征量中检测线/边缘密集的带状的区域,若是沿着水平方向的带区域则作为字符为横写的可能性高,比上下区域优先检索左右区域,若是沿着垂直方向的带区域则作为字符为竖写的可能性高,比左右区域优先检索上下区域。
根据上述结构,能够进一步提高在字符检索部24中的处理效率。
此外,字符检索部24也可以在检测出字符串中的某一字符(例如“ボ”)之后接着检索其他字符时,优先检索在检测出的字符的两侧的字符(这里是“ロ”和“ツ”)中评价值大的字符(这里是“ツ”)。
【字符串检索处理流程】
图13是表示DVD播放器1中的图像处理和字符串检测处理的流程的流程图。在这里,字符串检测装置3从活动图像中检索指定的关键词,输出检测出目标的关键词的再现位置。首先,对字符串检测装置3输入用于检测字符串的指示和想要检索的目标字符串(例如,关键词“ロボツト”等)。检索对象字符串可以是1个字,也可以是多个字符。此外,也可以在这里指定检测对象的活动图像。
若输入关键词(在S201中“是”),则关键词取得部22将输入的关键词存储在关键词保持部14b中(S202)。这里,关键词取得部22根据字符的排列,对取得的每个字符,将字符顺序相关联而存储在同一个关键词保持部14b中。
接着,检索顺序决定部23参照字符信息存储部32,对由关键词取得部22取得的关键词的各个字符取得评价值。然后,检索顺序决定部23按照评价值由大到小的顺序决定检索顺序(S203)。检索顺序决定部23将决定的检索顺序按每个字符存储在关键词保持部14b中。
活动图像再现部25从图像存储部30中读出指定的检测对象的活动图像,对再现位置t进行初始化(设置为t=0)(S204),开始活动图像的再现(S205)。
在本实施方式中,从处理效率的观点出发,不对活动图像的全部帧执行字符串检测处理,而是将以规定秒为间隔(例如,10秒)提取的帧作为检索对象帧。
活动图像再现部25再现活动图像,直到再现位置t达到检索对象帧为止(在S206中“否”),活动图像再现部25推进活动图像的再现(S210)。只要再现位置t没有达到活动图像的最后帧,就能够推进活动图像的再现(在S211中“否”)。然后,若在再现位置t推进之后,再现位置t达到检索对象帧(在S206中“是”),则静止图像生成部26生成达到的检索对象帧的静止图像(解码处理)(S207)。
接着,特征量提取部27从生成的静止图像中提取特征量(S208)。上述特征量是例如使用在非专利文献1所记载的角检测技术、轮廓线(边缘)检测技术等而获得的信息,是字符串检测装置3能够识别字符形状的信息。
字符检索部24对检索对象帧执行字符串检测处理(S209)。详细地说,进行检索对象帧的特征量与在字符信息存储部32中存储的关键词中的各个字符的特征量之间的比对处理,从而判断指定的关键词(例如,“ロボツト”)是否包含在检索对象帧中。参照图14在后面叙述字符串检测处理的流程的细节。字符检索部24按每个字符进行检索,并输出是否对该检索对象帧检测出指定的关键词。
若在S209中,上述检索对象帧中的字符串检测处理结束,则活动图像再现部25进一步推进活动图像的再现(S210)。只要再现位置t没有达到活动图像的最后帧,活动图像再现部25就能够推进活动图像的再现(在S211中“否”)。然后,若达到下一个检索对象帧,则对该检索对象帧重复上述的字符串检测处理。之后,字符检索部24也以规定秒(t0秒)为间隔对检索对象帧执行字符串检测处理,并存储检测出关键词“ロボツト”的帧的再现位置。
这样,最终在再现位置t达到最后帧,结束了活动图像的再现的情况下(在S211中“是”),字符检索部24输出字符串检测处理的结果(S212)。例如,在活动图像中关键词“ロボツト”一次也没有被检测出的情况下,字符检索部24将检测失败的消息输出到显示部12。或者,在活动图像中的帧中检测出关键词的情况下,将关键词的检测成功的消息和与检测出该关键词的帧对应的检测再现位置输出到显示部12。
【字符串检索处理流程-细节】
图14是表示字符串检测装置3执行的字符串检测处理的流程的流程图。在图13所示的S208中,若特征量提取部27提取检索对象帧(静止图像)的特征量,则字符串检测装置3开始S209的字符串检测处理。
首先,字符检索部24参照关键词保持部14b,取得在输入的关键词中、检索顺序为最上位的字符作为检测对象字符(S301)。在图10所示的例子中,取得字符“ボ”作为检测对象字符。
然后,字符检索部24比较从检索对象帧(静止图像)中提取出的特征量和在字符信息存储部32中存储的“ボ”的特征量,并对上述检索对象帧进行检测对象字符“ボ”的检索(S302)。
在上述检索对象帧中不存在目标字符(这里是“ボ”)的情况下(在S303中“否”),判断为在该检索对象帧中不包含指定的关键词,结束对于该检索对象帧的字符串检测处理(S304)。另一方面,在上述检索对象帧中存在目标字符(这里是“ボ”)的情况下(在S303中“是”),将字符“ボ”作为已检测字符,如图10所示,在关键词保持部14b中,对已检测字符“ボ”树立已检测标志(S305)。这里,若对输入的关键词的全部字符完成检测处理(即,若对全部字符设定已检测标志)(在S306中“否”),则字符检索部24判断为在该检索对象帧中包含了指定的关键词,存储该检索对象帧的再现位置,并结束对于该检索对象帧的字符串检测处理(S307)。
另一方面,若还有未进行检索的未处理字符(在S306中“是”),则字符检索部24取得在未处理字符(例如,图10所示的未赋予已检测标志的字符)中、检索顺序为最上位的字符(在图10所示的例子中,字符“ボ”)作为下一个检测对象字符(S308)。
接着,字符检索部24基于已检测字符“ボ”的位置,限定检索对象区域(S309)。例如,也可以在图12所示的检索对象帧中,将检索对象区域限定为“ボ”的相邻区域(1)~(4)。或者,也可以根据图10所示的字符顺序,由于相对于已检测字符“ボ”为第2个字符,下一个检测对象字符“ツ”为第3个字符,所以将检索对象区域限定为“ボ”的右区域(1)和下区域(2)。
字符检索部24对限定的检索对象区域进行与检测对象字符“ツ”的特征量之间的比对,检索字符(S310)。
在上述检索对象区域中存在目标字符的情况下(在S311中“是”),对在S305中检测的字符树立已检测标志。若有未处理字符,则重复字符的检索(S308~),若没有,则结束在该检索对象帧中的字符串检测处理(S307)。
另一方面,在上述检索对象区域中不存在目标字符的情况下(在S311中“否”),将范围扩大至帧的全部区域,进行检测对象字符的检索(S312)。若这样也不存在目标字符(在S303中“否”),则结束在该检索对象帧中的字符串检测处理(S304)。
若字符检索部24结束在该检索对象帧中的字符串检测处理(S304或S307),则活动图像再现部25直到达到下一个检索对象帧为止推进活动图像的再现,对新的检索对象帧重复上述的字符串检索处理。
根据在以上叙述的字符串检测装置3的结构和字符串检测方法,字符串检测装置3在从处理对象图像中检测指定的关键词时,能够从难以误检测的字符起按顺序检索字符。难以误检测的字符与容易误检测的字符相比,从少的候选中正确且较快地检测出的可能性高。因此,与按照关键词中的字符的排列依次检索的情况相比,能够以短时间且低负荷处理,精度更高且更有效地从图像中检测目标字符串。
此外,根据本发明的字符串检测装置3,由于使用每个字符的特征量来一个字一个字进行比对,所以不需要将多个字符的字符串图像和特征量作为样本进行保存。即,由于不需要准备横写、竖写的两种样本,所以能够实现字符信息存储部32中的存储器节省化。此外,处理时间上也比以往的结构有利。
【本发明的效果】
本发明的字符串检测装置3构成为,即使是在从图像中检测由多个字符构成的关键词的情况下,也使用每个字符的特征量而一个字一个字进行比对。然后,字符串检测装置3的特征在于,与关键词的字符的排列无关地按照难以误检测的字符起按顺序执行字符串检索处理。
上述特征起到能够解决在上述结构中产生的以下问题的效果。
如上所述,在从对象图像中一个字符一个字符进行检索的结构中,不需要生成横写、竖写的两种的多个字符串图像,与以往相比,处理时间和存储器容量都有利。但是,在这样的结构中,存在如下的问题。以下,使用具体例说明这个问题点。
一般,有时在背景图像(=非字符图像)内,存在多个如“-”、“+”、“□”那样由竖横边缘构成的简单的右偏旁的花纹。因此,例如,在将图15所示的图像作为检索对象图像,作为想要检测的关键词而指定了“ロボツト”这样的字符串的情况下,若从第1个字符的“ロ”起按顺序进行检测,则存在多个与“ロ”相似的形状的区域,所以存在在检索第1个字符的阶段举出多余的多个候选的问题。若从图15所示的图像中检索“ロ”,则存在门框150、窗框151......、汉字“知”的右偏旁的部分152等错误地当做字符“ロ”,被误检测的问题。通过举出基于这样的误检测的多余的候选,其结果,存在结果会浪费多余的处理时间的问题。此外,在对该候选数设置界限的情况下,还存在如下的问题:原本字幕中的片假名的“ロ”必须列举为第一名,但由于存在多个错误的候选,所以该正确的候选153从候选排除的情况,结果检测精度变差。
此外,如字符“ロ”等那样,成为某一其他字符的要素(“左偏旁”或“右偏旁”等)的概率大的字符,除了想要检测的对象之外,连某一其他字符的要素也被错误地列举为候选的概率大。例如,作为关键词而指定了“ロボツト”这样的字符串的情况下,“ロ”是“叶”的“左偏旁”且“知”的右偏旁等,成为某一其他字符的要素的概率大的字符。因此,例如在对象图像中存在“知覚ロボツト”这样的字符串的情况下,若从“ロ”开始检索,则在最初的检索的阶段,除了“ロ”之外,“知”的右偏旁的部分也被列举为候选,与上述相同地,结果需要多余的处理时间。此外,在对该候选数设置了界限的情况下,正确字符串从候选中排除,结果检测精度变差。
此外,在使用字符形状的特征量进行字符的比较的情况下,如“desk”和“DESK”、“りんご”和“リンゴ”、“澤”和“沢”那样,虽然是相同的含义但有方式不同的书写,若考虑这个情况,则存在所需的处理时间增加的问题。
但是,本发明的字符评价装置2从误检测的难度这样的观点来评价字符并赋予评价值,能够对每个字符客观地判断难以(容易)误检测到什么程度。并且,将本发明的字符串检测装置3构成为,在一个字一个字检索关键词的各个字符的情况下,从其中最难以误检测的字符起按顺序检索。
因此,对如上述的字符“ロ”等那样极容易误检测的字符进行极低的评价,在后面进行检索,而如字符“ボ”等那样比较难以误检测且容易正确地检测出的字符被优先检索。此外,具有不同书写的字符且花费处理时间的字符也进行低的评价,在后面进行检索。
这样,本发明在从对象图像中检测指定的字符串时,通过从上述评价值大的字符起按顺序进行检索,从而能够缩短处理时间。此外,通过从容易正确地检测出的字符起按顺序进行检索,从而还能够期待精度提高的效果。此外,由于是一个字一个字进行比对的结构,所以成为模型(model)的特征量只要以一个字一个字保持即可,还能够期待存储器节省化的效果。
大多数字符图像具有如下特征:与字符以外的图像相比,边缘(线)密集,且边缘的不同方位性高(线朝向各种方向)。因此,一般,可以说尤其强烈地具有这些特征的字符倾向于容易检测且难以误检测(=将背景的花纹等误检测为字符的可能性小)。因此,通过从将这些特征决定作为指标的评价值大的字符起进行检索,从而能够在最初的检索的阶段有效地筛选候选,所以能够缩短处理时间。
例如,在作为关键词而指定了“ロボツト”这样的字符串的情况下,通过从边缘密集且边缘的不同方位性高的“ボ”起开始检索,而不是从在背景图像内往往存在相似的花纹的“ロ”(参照图15)起开始检索,所以消除了在最初的检索阶段列举多个多余的候选,结果,能够缩短处理时间。此外,即使是在对候选数设置了界限的情况下,正确字符串从候选排除的可能性降低,结果还能够提高检测精度。
此外,可以说成为某一其他字符的要素(“左偏旁”或“右偏旁”等)的概率大的字符,除了想要检测的对象之外,连某一其他字符的要素也被错误地列举为候选的概率大。例如,作为关键词而指定了“ロボツト”这样的字符串的情况下,“ロ”是“叶”的“左偏旁”且“知”的右偏旁等,成为某一其他字符的要素的概率大的字符,所以例如在对象图像中存在“知覚ロボツト”这样的字符串的情况下,若从“ロ”开始检索,则在最初的检索的阶段,除了“ロ”之外,“知”的右偏旁的部分也被列举为候选。但是,若从成为某一其他字符的要素的概率小的字符“ボ”开始检索,则在最初的检索的阶段,从“知覚ロボツト”这样的字符串的部分中只有“ボ”被列举为候选的可能性高。因此,通过着眼于这一点而从决定的评价值大的字符起开始检索,从而能够在最初的检索的阶段有效地筛选候选,所以能够缩短处理时间。
此外,即使是在对候选数设置了界限的情况下,正确字符串从候选中排除的可能性降低,结果还能够提高检测精度。
此外,在不具有不同的书写法的字符,或者即使在具有的情况下,这些字符之间的字符形状相似的字符,在检索对象图像内时仅检索1种字符形状即可,所以可以说与必须对2种以上的字符形状进行检索的字符相比,容易尽快地检测出。因此,通过着眼于这一点而从决定的评价值大的字符起开始检索,从而能够缩短处理时间。
此外,根据本发明的字符串检测方法,由于一个字符一个字符进行检索,所以不需要生成横写、竖写的两种字符串图像,还能够兼顾了存储器节省化。
此外,根据本发明的字符串检测装置3,在从难以误检测的字符起按顺序进行检索而检测出目标字符之后,在第2个字符以后的字符检测处理中,能够将检索对象区域筛选为已检测的字符区域相邻而不是图像全体。
根据上述结构,字符检索部24在检索上述的“ロ”时,评价值比“ロ”高的“ボ”、“ツ”、“ト”的各个字符全部成为已检测,能够根据这些“ボ”、“ツ”、“ト”的各个字符的位置关系来限定“ロ”有可能存在的区域。在图12所示的例子中,能够限定为区域(3)。
由此,在从图像全体中检索“ロ”的结构中,列举门框150、窗框151......等错误的多个候选,但在本申请的限定为区域(3)而检索“ロ”的结构中,即使是错误也停留在将“知”的右偏旁的部分152列举为候选的程度。
由此,能够大幅削减处理负荷,其结果,能够大幅缩短处理时间,能够有效且高精度地从图像中检测关键词。
本发明并不限定于上述的实施方式,在权利要求项中所示的范围内可进行各种变更。即,将在权利要求所示的范围内适当地变更的技术手段相组合而获得的实施方式也包含在本发明的技术范围中。
最后,字符评价装置2和字符串检测装置3的各个模块,尤其是字符分析部20、评价值计算部21、关键词取得部22、检索顺序决定部23以及字符检索部24既可以由硬件逻辑构成,也可以如下所示那样使用CPU而由软件实现。
即,字符评价装置2(字符串检测装置3)包括执行实现各种功能的控制程序的命令的CPU(central processing unit)、存储了上述程序的ROM(read only memory)、展开上述程序的RAM(random access memory)、以及存储上述程序和各种数据的存储器等的存储装置(记录介质)等。并且,通过将作为实现上述的功能的软件的字符评价装置2(字符串检测装置3)的控制程序的程序代码(执行形式程序、中间代码程序、源程序)以计算机可读取地记录的记录介质提供给上述字符评价装置2(字符串检测装置3),该计算机(或者CPU或MPU)读出并执行在记录介质中记录的程序代码,也能够实现本发明的目的。
作为上述记录介质,例如,可使用磁带或卡带等的带类、包括软盘(注册商标)/硬盘等的磁盘或CD-ROM/MO/MD/DVD/CD-R等的光盘的盘类、IC卡(包括存储卡)/光卡等的卡类、或者掩模ROM/EPROM/EEPROM/闪速ROM等的半导体存储器类等。
此外,也可以将字符评价装置2(字符串检测装置3)构成为可与通信网络连接,经由通信网络而提供上述程序代码。作为该通信网络,没有特别限定,例如可使用因特网、内部网、外部网(extra net)、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动通信网、卫星通信网等。此外,作为构成通信网络的传输介质,没有特别限定,例如可使用IEEE1394、USB、电力线传输、电缆TV线路、电话线、ADSL线路等的有线,也可以使用IrDA或遥控那样的红外线、蓝牙(Bluetooth)(注册商标)、802.11无线、HDR、移动电话网、卫星线路、地面波数字网等的无线。另外,本发明通过上述程序代码以电子传输具体化的、埋入载波的计算机数据信号的方式也能够实现。
【产业上的可利用性】
本发明的字符串检测装置由于能够以短时间且低负荷处理,从图像中检测指定的字符,所以可应用于处理图像的数字视频记录器/播放器、蓝光盘记录器/播放器、数字摄像机、数字照相机、数字电视、个人计算机、移动电话机、打印机、扫描仪等处理静止图像和/或活动图像的各种图像处理装置。本发明的字符串检测装置在负荷大的活动图像处理中也能够不会损伤实时性且短时间内检测出字符串,所以将本发明的字符串检测装置应用于活动图像处理装置或活动图像再现装置,优点会尤其大。
Claims (20)
1.一种字符串检测装置,从图像中检测由一个以上的字符构成的字符串,其特征在于,包括:
字符信息存储部,按每个字符存储表示字符的误检测的难度的评价值;
检索顺序决定部件,基于在作为应检测的字符串而输入到本装置的检测对象字符串中包含的每个字符的、存储在上述字符信息存储部中的评价值,对该每个字符决定用于从上述图像中检索字符的检索顺序;以及
字符检索部件,根据上述检索顺序决定部件决定的检索顺序,按在上述检测对象字符串中包含的每个字符,检索上述图像。
2.如权利要求1所述的字符串检测装置,其特征在于,
上述检索顺序决定部件决定在上述检测对象字符串中包含的字符中,最初检索表示上述误检测的难度的评价值具有最大的值的字符。
3.如权利要求1或2所述的字符串检测装置,其特征在于,
若上述字符检索部件从上述图像中检测出在上述检测对象字符串中包含的目标字符,则上述检索顺序决定部件将下一个要检索的字符决定为在上述检测对象字符串中的字符的排列中,在已检测的字符的两侧的字符中、上述评价值大的一个。
4.如权利要求1或2所述的字符串检测装置,其特征在于,
上述检索顺序决定部件决定上述检索顺序,使得按照字符的评价值由大到小的顺序检索出。
5.如权利要求1至4的任一项所述的字符串检测装置,其特征在于,
上述字符检索部件若从上述图像中检测出在上述检测对象字符串中包含的目标字符,则将用于检索下一个字符的检索对象区域从上述图像的全部区域限定为已检测的字符的相邻区域。
6.如权利要求5所述的字符串检测装置,其特征在于,
在上述已检测的字符为在上述检测对象字符串中的字符的排列中第n个字符,并且
在下一个要检索的字符为第(n+1)个以上的字符的情况下,上述字符检索部件将检索对象区域限定为上述已检测的字符的右侧和下侧的相邻区域,
在下一个要检索的字符为第(n-1)个以下的字符的情况下,上述字符检索部件将检索对象区域限定为上述已检测的字符的左侧和上侧的相邻区域。
7.如权利要求1至6的任一项所述的字符串检测装置,其特征在于,
上述评价值是,作为字符的形状越复杂越难以误检测的字符,基于字符的形状特性而计算出的值,
基于表示形成字符的线的长度的要素长度的特性值以及表示形成字符的线的方向的多样性的不同方位性的特性值中的至少一个,计算上述评价值。
8.如权利要求1至7的任一项所述的字符串检测装置,其特征在于,
作为越是没有与其他字符或其他字符的一部分相似的形状的字符越是难以误检测的字符,基于表示与其他字符的判别的容易性的判别容易性的特性值,计算上述评价值。
9.如权利要求1至8的任一项所述的字符串检测装置,其特征在于,
作为越是字符的书写为一样的字符越是难以误检测的字符,根据基于不同书写的有无或在有不同书写的情况下的不同书写字符之间的相似度而确定的书写一样性的特性值,计算上述评价值。
10.如权利要求7所述的字符串检测装置,其特征在于,
与形成上述字符的线的方向为水平或垂直方向的线相比,对线的方向倾斜的线进行加权,从而计算上述要素长度的特性值和上述不同方位性的特性值。
11.如权利要求1至10的任一项所述的字符串检测装置,其特征在于,
上述图像是由多个帧构成的活动图像,上述字符检索部件按从上述活动图像中作为检索对象而提取出的每个检索对象帧,检索在上述检测对象字符串中包含的各个字符,
上述字符检索部件在按照上述检索顺序检索各个字符时,在从上述检索对象帧中不能检测出目标字符的情况下,结束在该检索对象帧中的检索,在下一个检索对象帧中检索检索顺序为最初的字符。
12.一种字符评价装置,其特征在于,包括:
字符分析部件,对作为应评价误检测的难度的字符而输入的评价对象字符的字符特性进行分析;
字符特性存储部,按每个字符预先存储字符特性;
特性值确定部件,基于上述字符分析部件分析的字符特性以及在上述字符特性存储部中存储的字符特性中的至少一个,确定上述评价对象字符的每个字符特性的特性值;
评价值计算部件,使用上述特性值确定部件确定的一个以上的特性值,计算表示字符的误检测的难度的评价值;以及
评价值存储部件,将上述评价值计算部件计算出的评价值与上述评价对象字符相关联而存储在字符信息存储部中。
13.如权利要求12所述的字符评价装置,其特征在于,
上述字符分析部件对上述评价对象字符的形状特性进行分析,
上述特性值确定部件基于上述字符分析部件分析的结果,对上述评价对象字符计算表示形成字符的线的长度的要素长度的特性值以及表示形成字符的线的方向的多样性的不同方位性的特性值中的至少一个。
14.如权利要求12或13所述的字符评价装置,其特征在于,
上述字符特性存储部,作为越是没有与其他字符或其他字符的一部分相似的形状的字符越是难以误检测的字符,将与其他字符的判别的容易性作为字符特性而对每个字符存储,
上述特性值确定部件基于在上述字符特定存储部中存储的、上述评价对象字符的字符特性,确定上述评价对象字符的判别容易性的特性值。
15.如权利要求12至14的任一项所述的字符评价装置,其特征在于,
上述字符特性存储部,作为字符特性而将不同书写字符的组与不同书写字符之间的相似度相关联而存储,
上述特性值确定部件基于上述评价对象字符的不同书写的有无或在有不同书写的情况下的不同书写字符之间的相似度,作为越是字符的书写为一样的字符越是难以误检测的字符,确定该评价对象字符的书写一样性的特性值。
16.一种图像处理装置,其特征在于,包括权利要求1至11的任一项所述的字符串检测装置。
17.一种字符串检测方法,从图像中检测由一个以上的字符构成的字符串,其特征在于,包括:
字符串取得步骤,取得作为应检测的字符串而输入的检测对象字符串;
检索顺序决定步骤,基于在按每个字符存储表示字符的误检测的难度的评价值的字符信息存储部中存储的、在上述字符串取得步骤中取得的上述检测对象字符串中包含的每个字符的评价值,对该每个字符决定用于从上述图像中检索字符的检索顺序;以及
字符检索步骤,根据在上述检索顺序决定步骤中决定的检索顺序,按在上述检测对象字符串中包含的每个字符,检索上述图像。
18.一种字符评价方法,其特征在于,包括:
字符分析步骤,对作为应评价误检测的难度的字符而输入的评价对象字符的字符特性进行分析;
特性值确定步骤,基于在上述字符分析步骤中分析的字符特性以及在按每个字符预先存储字符特性的字符特性存储部中存储的字符特性中的至少一个,确定上述评价对象字符的每个字符特性的特性值;
评价值计算步骤,使用在上述特性值确定步骤中确定的一个以上的特性值,计算表示字符的误检测的难度的评价值;以及
评价值存储步骤,将在上述评价值计算步骤中计算出的评价值与上述评价对象字符相关联而存储在字符信息存储部中。
19.一种控制程序,用于使计算机执行权利要求17或18所述的各个步骤。
20.一种计算机可读取的记录介质,记录了权利要求19所述的控制程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010058550A JP5488077B2 (ja) | 2010-03-15 | 2010-03-15 | 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体 |
JP058550/10 | 2010-03-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102194101A true CN102194101A (zh) | 2011-09-21 |
CN102194101B CN102194101B (zh) | 2013-11-06 |
Family
ID=44560031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100465768A Active CN102194101B (zh) | 2010-03-15 | 2011-02-25 | 字符串检测装置和方法、字符评价装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110222789A1 (zh) |
JP (1) | JP5488077B2 (zh) |
KR (1) | KR101260594B1 (zh) |
CN (1) | CN102194101B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056111A (zh) * | 2015-04-08 | 2016-10-26 | 东芝泰格有限公司 | 图像处理装置及图像处理方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5935324B2 (ja) * | 2012-01-04 | 2016-06-15 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN107533671B (zh) * | 2015-05-11 | 2021-02-23 | 株式会社东芝 | 模式识别装置、模式识别方法以及记录介质 |
JP2018124605A (ja) * | 2017-01-30 | 2018-08-09 | オムロン株式会社 | 画像処理システム、情報処理装置、情報処理方法、および、情報処理プログラム |
US10699112B1 (en) * | 2018-09-28 | 2020-06-30 | Automation Anywhere, Inc. | Identification of key segments in document images |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0385681A (ja) * | 1989-08-30 | 1991-04-10 | Omron Corp | 画像処理装置 |
JPH09185681A (ja) * | 1996-01-08 | 1997-07-15 | Hitachi Ltd | 住所読み取り方法 |
US5926565A (en) * | 1991-10-28 | 1999-07-20 | Froessl; Horst | Computer method for processing records with images and multiple fonts |
CN1279449A (zh) * | 1999-07-06 | 2001-01-10 | 富士通株式会社 | 模式分段装置和模式识别装置 |
US6341176B1 (en) * | 1996-11-20 | 2002-01-22 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for character recognition |
CN1365080A (zh) * | 1995-09-06 | 2002-08-21 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
US7003162B2 (en) * | 2000-11-27 | 2006-02-21 | Omron Corporation | Apparatus and method for examining images |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05258102A (ja) * | 1992-03-11 | 1993-10-08 | Fuji Xerox Co Ltd | 文字/図形分離装置 |
JPH0684006A (ja) * | 1992-04-09 | 1994-03-25 | Internatl Business Mach Corp <Ibm> | オンライン手書き文字認識方法 |
US6094506A (en) * | 1995-10-25 | 2000-07-25 | Microsoft Corporation | Automatic generation of probability tables for handwriting recognition systems |
JP3405155B2 (ja) * | 1997-11-07 | 2003-05-12 | 松下電器産業株式会社 | 文書検索装置 |
KR100454541B1 (ko) * | 1998-04-27 | 2004-11-03 | 산요덴키가부시키가이샤 | 수기 문자 인식 방법 및 시스템 |
JP4063551B2 (ja) | 2002-02-18 | 2008-03-19 | 富士通株式会社 | 文字列予測装置及び方法並びに当該方法を具現化するコンピュータ実行可能なプログラム |
JP2004334699A (ja) | 2003-05-09 | 2004-11-25 | Ricoh Co Ltd | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 |
US7432432B2 (en) * | 2004-09-21 | 2008-10-07 | Microsoft Corporation | System and method for recognizing handwritten music notations |
JP2008004116A (ja) * | 2007-08-02 | 2008-01-10 | Hitachi Ltd | 映像中の文字検索方法及び装置 |
JP4469905B2 (ja) * | 2008-06-30 | 2010-06-02 | 株式会社東芝 | テロップ収集装置およびテロップ収集方法 |
-
2010
- 2010-03-15 JP JP2010058550A patent/JP5488077B2/ja active Active
-
2011
- 2011-01-11 KR KR1020110002663A patent/KR101260594B1/ko active Active
- 2011-02-24 US US13/034,379 patent/US20110222789A1/en not_active Abandoned
- 2011-02-25 CN CN2011100465768A patent/CN102194101B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0385681A (ja) * | 1989-08-30 | 1991-04-10 | Omron Corp | 画像処理装置 |
US5926565A (en) * | 1991-10-28 | 1999-07-20 | Froessl; Horst | Computer method for processing records with images and multiple fonts |
CN1365080A (zh) * | 1995-09-06 | 2002-08-21 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
JPH09185681A (ja) * | 1996-01-08 | 1997-07-15 | Hitachi Ltd | 住所読み取り方法 |
US6341176B1 (en) * | 1996-11-20 | 2002-01-22 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for character recognition |
CN1279449A (zh) * | 1999-07-06 | 2001-01-10 | 富士通株式会社 | 模式分段装置和模式识别装置 |
US7003162B2 (en) * | 2000-11-27 | 2006-02-21 | Omron Corporation | Apparatus and method for examining images |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056111A (zh) * | 2015-04-08 | 2016-10-26 | 东芝泰格有限公司 | 图像处理装置及图像处理方法 |
CN106056111B (zh) * | 2015-04-08 | 2019-06-18 | 东芝泰格有限公司 | 图像处理装置及图像处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2011192094A (ja) | 2011-09-29 |
CN102194101B (zh) | 2013-11-06 |
KR101260594B1 (ko) | 2013-05-06 |
JP5488077B2 (ja) | 2014-05-14 |
US20110222789A1 (en) | 2011-09-15 |
KR20110103840A (ko) | 2011-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101542486B (zh) | 排序图 | |
CN106462399B (zh) | 代码推荐 | |
US8645184B2 (en) | Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service | |
US20140212040A1 (en) | Document Alteration Based on Native Text Analysis and OCR | |
US20150113388A1 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
JP2020135891A (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
CN106991175B (zh) | 一种客户信息挖掘方法、装置、设备以及存储介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN102194101B (zh) | 字符串检测装置和方法、字符评价装置和方法 | |
US20140188834A1 (en) | Electronic device and video content search method | |
US12124797B2 (en) | Information processing device, discerning method, and discerning program | |
US20240419891A1 (en) | Text classification method and apparatus, text processing method and apparatus, computer device and storage medium | |
KR101007549B1 (ko) | 관심정보 관리 및 통합 방법과 이를 수행하는 시스템 | |
KR20210086836A (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
KR101050013B1 (ko) | 대표자의 신뢰도를 이용한 검색 결과 순위화 장치 및 방법 | |
CN112182451A (zh) | 网页内容摘要生成方法、设备、存储介质及装置 | |
Law et al. | Structural and visual similarity learning for web page archiving | |
CN1896997B (zh) | 字符串检索装置 | |
KR102193571B1 (ko) | 전자 장치, 이미지 검색 시스템 및 제어 방법 | |
US10242080B1 (en) | Clustering applications using visual metadata | |
CN116910650A (zh) | 数据识别方法、装置、存储介质及计算机设备 | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
CN111476028A (zh) | 一种汉语短语识别方法、系统、存储介质及电子设备 | |
US11763589B1 (en) | Detection of blanks in documents | |
CN118964642B (zh) | 一种基于知识图谱的结构化数据高效检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |