[go: up one dir, main page]

CN1763747A - 文档图像信息管理装置和文档图像信息管理方法 - Google Patents

文档图像信息管理装置和文档图像信息管理方法 Download PDF

Info

Publication number
CN1763747A
CN1763747A CNA2005101028518A CN200510102851A CN1763747A CN 1763747 A CN1763747 A CN 1763747A CN A2005101028518 A CNA2005101028518 A CN A2005101028518A CN 200510102851 A CN200510102851 A CN 200510102851A CN 1763747 A CN1763747 A CN 1763747A
Authority
CN
China
Prior art keywords
image
metadata
document
document image
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101028518A
Other languages
English (en)
Other versions
CN100437578C (zh
Inventor
藤原彰彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba TEC Corp
Original Assignee
Toshiba Corp
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba TEC Corp filed Critical Toshiba Corp
Publication of CN1763747A publication Critical patent/CN1763747A/zh
Application granted granted Critical
Publication of CN100437578C publication Critical patent/CN100437578C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storing Facsimile Image Data (AREA)

Abstract

本发明提供了一种文档图像信息管理装置,文档图像的元数据可以通过根据在各个区域的单元中的文档图像的内容处理文档图像,来普遍地处理文档图像,从而可以使其管理、搜索、操作等更方便。为了管理与文档图像相关的内容和上下文的元数据,基于文档图像的图像内容,将指定图像区域作为图像对象来分析,并且基于这样分析的图像对象的内容,提取属性信息,因此,这样提取的内容的元数据与文档图像和图像对象相关联地被管理。同样,基于文档图像的文档状况提取属性信息,因此,所提取的上下文的元数据与文档图像和图像对象相关联地被管理。

Description

文档图像信息管理装置 和文档图像信息管理方法
技术领域
本发明涉及一种文档图像信息管理装置和一种文档图像信息管理方法,用于管理与文档图像相关的内容和上下文的元数据。
背景技术
在传统的文档图像信息管理装置的文档图像信息的管理中,根据特定格式构成的诸如文件的实体被作为整体或者在其中包括的各页面单元来管理,并且收集和登记用于在那些单元中的内容、上下文、实例的多段元数据,以使这样收集的各段元数据与相应文档图像相关联,以被用于文档图像的管理、操作和搜索。
这里应当注意,例如,日本专利申请公开第2002-116946号是与这样的现有技术有关的专利文献。
然而,在传统的文档图像信息管理装置中,存在下面的问题。换言之,仅可以处理取决于设置在装置中的单元的元数据,例如,在某个图像中的特定区域作为图像被复制或粘贴到另一个文档的情况下,不能继承原始文档持有的元数据。
这类似于取决于诸如图像读取装置、图像形成装置等的文档输入-输出系统的特定元数据的情况。即,存在的问题是,例如,在通过分析扫描的文档图像而获得的内容的元数据,诸如扫描的人物、日期和时间的上下文的元数据,以及诸如存储位置的实例的元数据的情况下,以综合方式处理文档图像的大小,尽管被扫描的文档图像的特定区域(例如,被视为标题的区域)作为图像被提取,将会丢失诸如由谁在什么时候最初通过扫描获得的那个区域中的图像等信息。
发明内容
本发明想要消除以上问题,并且为此目的,提供了一种文档图像信息管理装置和一种文档图像信息管理方法,其能够通过根据在各个区域的单元中的文档图像的内容处理文档图像,来普遍地处理文档图像的元数据。
为了解决上述问题,本发明具有一种用于管理与文档图像相关的内容和上下文(context)的元数据的文档图像信息管理装置,该装置包括:图像分析部,用于基于文档图像的图像内容,将上述图像区域作为图像对象来分析;内容元数据提取部,用于基于由图像分析部分析的图像对象的内容提取属性信息;内容元数据管理部,用于与文档图像和图像对象相关联地管理由内容元数据提取部提取的内容元数据;上下文元数据提取部,用于基于文档图像的文档的状况提取属性信息;以及上下文元数据管理部,用于与文档图像和图像对象相关联地管理由上下文元数据提取部提取的上下文的元数据。
此外,本发明具有一种用于执行管理与文档图像相关的内容和上下文的元数据的文档图像信息管理方法,该方法包括:图像分析步骤,用于基于文档图像的图像内容,将上述图像区域作为图像对象分析;内容元数据提取步骤,用于基于在图像分析步骤中分析的图像对象的内容提取属性信息;内容元数据管理步骤,用于与文档图像和图像对象相关联地管理在内容元数据提取步骤中提取的内容元数据;上下文元数据提取步骤,用于基于文档图像的文档的状况提取属性信息;以及上下文元数据管理步骤,用于与文档图像和图像对象相关联地管理在上下文元数据提取步骤中提取的上下文的元数据。
附图说明
图1是示出本发明的实施例中的文档图像信息管理系统的整体框图。
图2是该系统的网络框图。
图3是解释本发明的实施例的文档的概念的视图。
图4是示出本发明的第一实施例的操作的流程图。
图5是示出用于文档图像管理部中的文档图像的管理表的实例的视图。
图6是示出用于文档图像管理部中的图像对象的管理表的实例的视图。
图7是示出用于内容元数据管理部中的内容元数据的管理表的实例的视图。
图8是示出用于上下文元数据管理部中的上下文元数据的管理表的实例的视图。
图9是示出本发明的第二实施例的操作的流程图。
图10是示出由搜索结果屏幕形成部形成的屏幕的视图。
图11是示出本发明的第三实施例的操作的流程图。
图12是示出用于第三实施例的上下文元数据的管理表的实例的视图。
具体实施方式
在下文中,将参考附图详细描述本发明的优选实施例。
在以下的描述中,假设[XX]中的XX代表元数据的名称,以及“XX”中的XX代表元数据的值或内容。此外,当需要时,可以由硬件或软件(模块)或二者的结合构成由在某些图形中的各个块指示的各个部分或部(例如,图像分析部)。
而且要注意,文档是指应用程序的文档文件或具有诸如图形格式、音频格式等格式的数据文件。另外,文档的实体是指取决于用于描述文档的类型或格式的实体,并且例如,在Windows文件(注册商标)系统中,文档的实体是指其上被管理的文件,以及在文档管理系统中,文档的实体是指存储在图像被在其上管理的数据库中的数据记录等。作为类型或格式,有TIFF、PDF(注册商标)、文档管理系统的特定存储形式等。
图1是示出本发明的实施例中的文档图像信息管理系统的整体框图。图2是该系统的网络框图。图3是描述该实施例中的文档的概念的视图。
文档图像管理部2是用于管理文档图像和图像对象的部分,并且例如,其将能够唯一识别表内部的文档图像和图像对象的标识符作为在关系数据库系统的表中的记录来管理。
内容元数据提取部3是用于提取与文档的内容相关的元数据的部分,并且其从由图像分析部1提取的图像区域中提取由图像区域占有的多条语义属性信息。例如,对于被识别为字符区域的区域,内容元数据提取部3提取关于区域的类型(类型=字符,等)的识别信息、获得的作为字符区域的光学字符识别(OCR)结果的坐标信息、文本信息等作为元数据。
在文档作为图像信息存在的情况下,其内容元数据包括在字符区域、图像区域和图表区域之间的区别、其区域坐标和区域范围、其在整个图像中的单独占有率、字体颜色、字体、字号、字符类型信息、获取的作为布置分析(显示为标题的区域、显示为日期的区域等中的区域坐标、区域范围和整个图像中的占有率)结果的结构信息等。
在文档以具有文档结构信息的形式或类型(例如,一种具有如数据、字体信息、列信息等以及文档主体的文本信息,诸如字符处理应用程序、XML等文件格式的形式)存在的情况下,内容元数据包括相应区域、其数据和语义属性(标题、创建者的名字等)。
内容元数据管理部4是用于通过使原始文档图像、其图像对象和从那里提取的内容元数据彼此联系来管理它们的部分。例如,在关系数据库系统的表中,其将对应于文档图像标识符的内容元数据和由文档图像管理部2管理的图像对象作为与表内部的内容元数据相关联的记录来管理。
上下文元数据提取部5是用于提取文档的操作和作业以及由诸如外部环境等状况(诸如文档放置的外围环境)占有的语义属性信息的部分。例如,如果文档图像是通过由文档输入装置扫描纸张文档获得的图像,诸如扫描文档的用户是谁、该用户属于哪个组等信息被提取为元数据。这样的图像输入装置,具有图像读取器(扫描器)、通信装置(FAX)等。
这里要注意,文档的上下文元数据包括属性和/或性质信息,例如文档的创建者,创建者所属的组,创建者的主要居住地,文档的用户,用户所属的一个组或多个组,用户的一个主要居住地或多个主要居住地,创建的日期和时间,创建时的天气,创建者创建时的周围环境,使用的日期和时间,使用时的天气,用户周围的环境等。
上下文元数据管理部6是用于通过使文档图像、目标文档的图像对象以及从那里提取的上下文元数据彼此关联来对它们进行管理的部分,并且例如,在关系数据库系统的表中,其将对应于文档图像的标识符的上下文元数据和由文档图像管理部2管理的图像对象作为与标识符关联的记录来管理。
用户请求搜索部7是用于一旦接收到来自用户的图像搜索请求就执行搜索的部分,并且例如,其根据来自用户的请求创建(发布)用于搜索与特定元数据的值匹配的搜索关键字,接收与来自内容元数据管理部4和上下文元数据管理部6的搜索关键字匹配的图像对象和文档图像的标识符,作为搜索结果,以及获取与来自文档图像管理部2的标识符匹配的图像。
搜索结果屏幕形成部8是用于形成屏幕的部分,在用户请求搜索部7中获取的作为搜索结果的文档图像和图像对象在屏幕上被显示给用户。例如,当从文档图像管理部2获取与搜索关键字匹配的多个图像时,形成屏幕,以在按照另一个元数据的值对图像对象进行分类的列表向用户显示图像对象。
用户请求屏幕控制部9是用于根据用户请求控制由搜索结果屏幕形成部8形成的屏幕的显示的部分,并且例如,通过按照另一个元数据的值对列出曾经按照某个元数据的值分类的图像对象的屏幕进行过滤或重新分类,来显示列表屏幕(即,改变显示或指示)。
用户状况确定搜索部10是用于根据用户放置的状况,一旦接收到图像搜索请求就执行搜索的部分。例如,在如图2所示,用于登记多个图像的多个图像读取器101分别连接到文档图像信息管理部100,同时屏幕显示装置102分别连接到打印装置103的情况下,当用户在文档的搜索中控制某个屏幕显示装置102时,该用户状况确定搜索部10可以识别出用户控制该屏幕显示器102。结果,确定用户位于连接到特定屏幕显示装置102的打印装置103旁边,作为用户放置的状况,由此可以通过由指定的打印装置103扫描的已经登记的文档图像自动执行搜索。
用户状况确定屏幕控制部11是用于对于由搜索结果屏幕形成部8形成的屏幕,仅控制用户状况的部分。例如,其能够识别由搜索结果屏幕形成部8形成的屏幕被显示在屏幕显示装置102上的日期和时间,以使能够从那里指定与当前操作相关联的常规事件。然后,在如此指定的事件时间,通过由被扫描的文档的过滤器自动过滤列出文档图像的屏幕,显示列表屏幕。
管理文档元数据提取部12是用于提取在已经登记的文档图向上执行的处理所具有的语义属性信息的部分。
打印装置103在纸张上打印电子格式(PDF、TIFF等)的图像文件、已经转换成诸如位图的适当格式的、由应用程序创建的文档(由字处理应用程序创建的文档文件等)的内容。
如图3所示,根据介质的状况,将由本发明处理的文档分成绘制在或打印在纸张上的纸文档A-1,用于字处理器等的特定应用格式的电子文件形式的应用文件A-2,诸如按照特定形式(例如,JPEG)形成的电子文件的图形格式文件A-3等。
对于电子现有文档,存在诸如[用于创建的应用程序]、[文件路径]等元数据。
另外,为了提供可以由该系统管理的图形格式的文档图像,有必要通过使用文档输入装置、数字照相机等图像读取器101执行图像拾取操作,作为作业B-1,诸如扫描。而且,还有必要执行用于例如根据来自应用程序的打印请求,通过使用与文档输出装置的打印装置103兼容的驱动程序,将各种格式例如转换成位图格式的转换操作,作为诸如通过RIP光栅化的另一个作业B-2。此外,还有必要执行另一个用于将图形格式的现有文件转换成特定格式,以将其登记到系统中的转换操作,作为诸如格式转换的另外作业B-3。
当文档图像被登记到系统中时,存在用于这些操作的、诸如[图像创建用户]、[转换的日期和时间]等的上下文元数据。另外,对于[图像创建用户],还存在诸如用户所属的[用户所属组]的从属元数据。因此,为了获取这样的从属元数据,有必要在系统内或系统外向用户提供管理数据,以便根据需要做出查询。
实施例1
以下将详细描述本发明的第一实施例。在上述图1的结构中,第一实施例可以被构造成包括:图像分析部1、文档图像管理部2、内容元数据提取部3、内容元数据管理部4、上下文元数据提取部5、上下文元数据管理部6、用户请求搜索部7、搜索结果屏幕形成部8、以及用户请求屏幕控制部9。如在第一实施例中执行的处理的实例,将以下情况作为参考,即,在对通过由诸如扫描器的图像读取器101读取纸文档获得的文档图像执行图像分析之后,从那里提取内容元数据,并在扫描时提取上下文元数据,以使这些段元数据同文档图像和图像对象一起被管理。
这里,由图像读取器101扫描纸文档,并且关于这样获取的文档图像来分析图像的内容,以提取[标题]的内容元数据。另外,在扫描时,还提取通过图像读取器101执行扫描的用户,并且这些段元数据与文档图像和对应于标题的图像对象一起被管理。
下文中,使用图4所述的流程图,将本发明的第一实施例的操作作为参考。
首先,图像分析部1开始监控通过由图像读取器101扫描纸文档获得的文档图像保存或存储的位置(流程1-2)。在此获得的文档图像具有取决于图像读取器101的格式,并在需要时被转换成可以由图像分析部1分析的另一种格式。
虽然在该实例中,保存在该存储位置的文档图像是由图像读取器101扫描的文档图像,本发明不仅包括图像读取器101包括在该系统中的情况,还包括通过网络的连接功能,将扫描的文档图像作为数据发送到系统的存储位置的情况。除了这些之外,图像可以通过传真传输被接收并存储为图像数据,或者附到电子邮件的文件可以自动转换成图像数据并同样被存储,或者由复印机复印的图像被打印在纸张上并且同时以电子形式存储。另外,图像可以通过图3中的作业B-2和作业B-3被存储。
当其结果是在存储位置中检测到新图像数据时(流程1-3),相应文档图像由文档图像管理部2管理,同时分配有可以被唯一识别的标识符(流程1-4)。如图5所示,在文档图像管理部2中,在关系数据库系统的表(用于文档图像的管理表)中按照文件系统的文件路径描述和管理文档图像的标识符(doc200407270_001)和文档图像的位置(C:ImageFolderdoc20040727_001.pdf)。除此以外,可以认为文档图像作为二进制记录被直接存储在表中。在该实例中,文档图像以PDF格式被管理,并且已被扫描的多个页面被共同组织成单一文件(doc20040727_001.pdf)。
随后,图像分析部1对文档图像进行分析(图像分析步骤)(流程1-5)。在该分析中,根据传统的已知技术分析图像,即,图像被转换成例如二进制像素,从而使存在像素的区域块化,以通过其趋向分析图像。根据该分析,识别出文档图像是否包括具有指定集合(collection)的图像对象(流程1-6)。
如果图像对象在文档图像中被识别出,则其区域被分成单个图像。如此分成的单个图像对象可以被作为分离图像处理,并由文档图像管理部2管理,同时分配有可以由文档图像管理部2唯一识别的标识符(流程1-7)。如图6所示,在文档图像管理部2中,在关系数据库系统的表中,按照文件系统的文件路径描述和管理原始文档图像的标识符(doc20040727_001)、其图像对象的标识符(doc20040727_001_01)和图像对象的位置(C:ImageFolderdoc20040727_001_01.jpg)。除此以外,可以认为图像对象作为二进制记录直接存储在表中。
在该实例中,以JPEG格式管理图像对象,并且单个图像对象作为单一文件(doc20040727_001_01.jpg)被管理。此外,内容元数据提取部3识别每个图像对象是否是某个语义集合,并从那里提取图像对象中的内容的元数据(内容元数据提取步骤:流程1-8)。例如,当从由图像分析部1使其块化的区域的趋向识别出,基于确定多条线描述,内容元数据提取部3提取指示图像对象的[区域类型]是“字符”(图3,元数据C-1-1)的元数据。而且,从在图像中区域的位置和占有率识别出,该区域是对应于文档图像中的标题的一部分,并且提取指示[图像的语义结构]是“标题部分”(图3,元数据C-1-2)的元数据。
此外,可以通过传统的已知OCR技术提取写入图像对象中的字符串或序列,从而提取指示写入标题部分的字符串是“PatentProposal”的元数据(图3,元数据C-1-3)。通过内容元数据管理部4管理这样获得的内容元数据。这里,元数据通过与由文档图像管理部2分配给图像对象的唯一可识别标识符相关联地而被管理(内容元数据管理步骤:流程1-9)。如图7所示,在内容元数据管理部4中,在关系数据库系统的表中管理目标图像对象的标识符(doc20040727_001_01)和用于图像对象的内容的元数据。
上下文元数据提取部5获取关于图像读取器101中的扫描操作的信息,并且从那里提取元数据,而不考虑图像对象在流程1-6中是否被识别(上下文元数据提取步骤:流程1-10)。在该实例中,当由图像读取器101执行扫描操作时,用户被要求进行关于图像读取器101的注册操作。在元数据“XXX Taro”是执行注册操作的用户的名称的情况下,假设图像读取器101将描述用户名称的文件放入图像的存储位置,同时上下文元数据提取部5可以通过读入文件,来识别在用户注册后执行扫描的用户名称,并提取指示[图像创建用户]是“XXX Taro”的元数据(图3,元数据B-1-1)。
此外,在用户所属的组被分别管理的情况下,例如,在组织中的整合地址簿中,LDAP服务器等被操作,可以从整合的地址簿或LDAP服务器中获取相关用户所属的组,以提取指示用户所属组是“XXX third division”的上下文的元数据(图3,元数据B-1-2)。
另外,如图2所示,在多个图像读取器101通过网络连接到服务器的情况下,该文档图像信息管理装置在网络的服务器上操作,每个图像读取器101均可以是能够在具有网络通信功能的复合机器中提供扫描功能的装置,其可以在网络上设置多个。
在这种情况下,执行扫描操作的图像读取器101能够知道其自身设置的装置的名称(MFP_01),从而可以提取指示[图像创建装置]是“MFP_01”的上下文的元数据(图3,元数据B-1-3)。
另外,可以从执行该扫描的日期和时间推测与扫描操作相关的事件。例如,在诸如会议召集信息等事件信息由寄信者或进度管理系统管理的情况下,当扫描由某个装置(MFP_01)在某个日期和时间完成时,可以通过参考保存事件的日期和时间以及地点,推测对什么事件进行扫描。
这里,让我们考虑以下情形:在日程簿中登记每个星期二举行的称为“星期二例会”的会议,并且将举行会议的地点放置在“MFP_01”的安装地点附近。
当发生某个扫描操作时,上下文元数据提取部5可以从登记的事件信息和扫描操作信息推测出,该扫描操作将扫描“星期二例会”使用的会议材料,并提取指示作为元数据名称的[相关事件]的内容是“星期二例会”的上下文的元数据(图3,元数据B-1-4)。被提取的这些上下文的多段元数据由上下文元数据管理部6被管理(上下文元数据提取步骤:流程1-11)。这里,它们通过与可以被唯一识别的且可以由文档图像管理部2分配给图像对象的标识符相关联而被管理。如图8所示,在上下文元数据管理部6中,在关系数据库系统的表中管理目标文档图像的标识符(doc20040727_001)和文档图像的上下文的元数据。如图8所示,从在系统外部分离管理的数据获得的、诸如[用户所属组]的次级元数据不需要由上下文元数据管理部6管理,但是当产生随后提到的查询时,可以被参考为外部管理的数据。
实施例2
在本发明的第二实施例中,除第一实施例的配置之外,进一步提供了用户请求搜索部7、搜索结果屏幕形成部8、用户请求屏幕控制部9。
以下将解释作为由这些部执行的处理在以下情况中的实例,情况为:实现这样的功能以便于用户查找通过扫描、浏览用于其标题区域的列表来登记的文档图像的文档,或者通过进一步指定列表的分类使其更容易查找这样的文档。
这里,用户通过观看或浏览图像对象的列表来搜索已被扫描的文档图像,这些图像对象是从被扫描的文档图像分析,并被显示在屏幕显示装置102上,并且其[每个图像中的语义结构]均被识别为“标题”,并且用户可以通过按照[图像创建用户]的值(这里是名称)进一步过滤列表,作出具有改善的列表浏览能力或观看能力的搜索,。在下文中,将参考图9所示的流程图描述本发明的第二实施例的操作。
首先,用户请求搜索部7从用户接收用户想要观看或浏览在被识别为图像对象的标题的图像对象的列表中已经登记的文档图像的请求(流程2-2)。这可以是该装置提供了接受这样的用户请求的屏幕的情况,或者是随后提到的搜索结果屏幕形成部8具有在其上显示目标图像的列表的屏幕的情况,以使在自动发送用户请求到用户请求搜索部7时,最近登记的文档图像和图像对象每次被登记时均被显示在屏幕上。
用户请求搜索部7将搜索公式发布到内容元数据管理部4,以查询具有在[每个图像的语义范围]的值是“标题”的图像对象的(一个或多个)标识符的情况(用户请求搜索步骤(搜索步骤):流程2-3)。如果对于图7的表存在作为该搜索公式的评估结果查询到的图像对象(流程2-4),用户请求搜索部7通过基于图像对象的标识符查询图6的表,获取来自文档图像管理部2的目标图像对象的图像数据(流程2-5)。
其次,搜索结果屏幕形成部8形成屏幕,以基于如此获取的图像数据呈现图像对象的列表(搜索结果屏幕形成步骤:流程2-6)。如图10所示,该屏幕是这样的以致仅设置具有提取的图像本身形式的“标题”部分(例如,“AAAAAA”)的图像对象,以容易识别。如此形成的屏幕通过显示在屏幕显示装置102上呈现给用户。用户可以通过随意滚动以这种方式设置的屏幕,容易地找出想要的图像。此外,当可以基于图像对象的“标题”找到想要的文档时,通过例如单击文档的图像指示形成这样的屏幕,以显示整个原始文档图像或如果存在大量页面则显示全部页面,能够确定其内容。
如果在流程2-4中不存在相应图像对象,搜索结果屏幕形成部8通知用户没有任何相应图像(流程2-14)。可以通过描述由搜索结果屏幕形成部8形成并显示在屏幕显示装置102上的效果的屏幕通知用户。
尽管用户设法从“标题”的图像对象的列表中搜索想要的文档,但是如果在列表中有大量图像对象,那么用户很难从那里找到想要的文档。在这种情况下,用户可以提供过滤条件,使得仅符合这些条件的图像对象被列出,从而易于找到文档。
现在,如这样一个实例,以用户仅将由他自己(XXX Taro)过去扫描的那些图像设定为过滤条件的情况作为参考。用户请求屏幕控制部9可以从用户接收用户想要通过将扫描图像的人限制到某个人来查看图像的列表的请求(流程2-7)。可以通过在如图10所示形成的屏幕上选择用于由字符(如“扫描的人”)表达的过滤条件的值,作出用于这样请求的指令。这里,可选值可以通过将其预先登记、获取用于在过去登记的文档的图像创建用户的值的列表等而被收集。
根据这个请求,用户请求屏幕形成部9将接收到的仅获取[图像创建用户]是“XXX Taro”的图像对象的请求发送到用户请求搜索部7(流程2-8)。然后,用户请求搜索部7将搜索公式发布到上下文元数据提取部5,作为进一步搜索条件,以查询[图像创建用户]是“XXX Taro”的图像对象的标识符的情况(流程2-9)。
如果对于图8的表存在作为该搜索公式的评估结果的任何相应图像对象(流程2-10),用户请求搜索部7通过基于相应图像对象的标识符查询图6的表,从文档图像管理部2获取目标图像对象的图像数据(流程2-11)。
另外,对于流程2-6中形成的屏幕上的列表,搜索结果屏幕形成部8通过进一步形成屏幕,以仅呈现获取的图像对象的图像数据信息的列表,实现过滤功能(以适当改变的方式列出多个文档图像和图像对象)(屏幕控制步骤(用户请求屏幕控制步骤):流程2-12)。
实施例3
在本发明的第三实施例中,除第二实施例的配置之外,进一步提供了用户状况确定搜索部10和用户状况确定屏幕控制部11。
以下将描述由这些部执行的处理的实例。
当用户操作显示在屏幕显示装置102上的屏幕时,用户状况确定搜索部10可以识别屏幕显示装置102直接连接到的图像读取器101是“FP_01”。因此,对于用户请求搜索部7,用户状况确定搜索部10可以从已登记的文档图像中选择只有[图像创建装置]是“MFP_01”的文档。
另外,在过去完成相似趋向的日期和时间从用户操作屏幕的日期和时间被推测为常规事件,以使屏幕被控制,以仅过滤与事件相关的文档。在下文中,使用图11所示的流程图描述本发明的第三实施例。首先,对于用户所处的状况,即,用户目前在什么地方,用户状况确定搜索部10从由用户MFP_01操作的屏幕显示装置识别出用户在在“MFP_01”安装或设置的地方(流程3-2)。因此,用户状况确定搜索部10将用户想要查看被识别为用于由“MFP_01”创建的已经登记的文档图像的标题的图像对象的列表(流程3-3)。
用户请求搜索部7将搜索公式发布到上下文元数据管理部6和内容元数据管理部4,以查询“图像创建装置”的值是“MFP_01”以及[每个图像的语义范围]的值是“标题”的图像对象的(一个或多个)标识符的情况(用户请求搜索步骤(用户状况确定搜索步骤):流程3-4)。如果对于图7和图8的表存在作为该搜索公式评估结果被查询出的任何图像对象(流程3-5),用户请求搜索部7通过基于图像对象的标识符查询图6的表,获取来自文档图像管理部2的目标图像对象的图像数据(流程3-6)。
接下来,搜索结果屏幕形成部8形成屏幕,以基于如此获取的图像数据呈现图像对象的列表(搜索结果屏幕形成步骤:流程3-7)。如图10所示,该屏幕是这样的以致仅设置用于“标题”的图像对象,以容易地被识别。如此形成的屏幕通过显示在屏幕显示装置102上呈现给用户。用户可以通过随意滚动以这种方式设置的屏幕,容易地找出想要的图像。此外,当可以基于图像对象的“标题”找到想要的文档时,通过例如单击文档的图像的指示,形成这样的屏幕,以显示整个原始文档图像或如果存在大量页面,则显示全部页面,能够确定其内容。
如果在流程3-5中不存在相应图像对象,搜索结果屏幕形成部8通知用户没有任何相应图像(流程3-14)。可以通过描述由搜索结果屏幕形成部8形成并显示在屏幕显示装置102上的效果的屏幕通知用户。
尽管用户设法从[图像创建装置]是“MFP_01”的“标题”的图像对象的列表中搜索想要的文档,但是如果在列表中有大量图像对象,则用户很难从那里找到想要的文档。在这种情况下,用户状况确定屏幕控制部11自动确定用户的状况,并将其作为过滤条件,以列出仅符合这些条件的图像对象,从而使得易于找到文档。如这样一个实例,以从用户作出操作的日期和时间推测现实世界中的相应事件的情况作为参考。这里,如上所述,假设事件信息由寄信者或进度管理系统管理,并且当由某个装置在某个日期和时间执行作业或操作时,相应事件可以从该信息中被推测并作为数据被获取。
用户状况确定屏幕控制部11从执行操作的当前日期和时间以及正被操作的屏幕显示装置102,确定用户执行关于“星期二例会”的操作作为相关事件。
例如,在“星期二例会”举行的日期和时间是每星期二的13:00至15:00并且举行的地点是会议室A的情况下,从操作的日期是星期二的12:50以及被执行的装置是安装在会议室A中的“MFP_01”,确定操作是与“星期二例会”相关的。因此,用户状况确定屏幕控制部11将已经登记的文档图像作为用户想要查看具有作为与图像相关的事件的“星期二例会”并且被识别为图像的标题的图像对象的列表的请求发送到用户请求搜索部7(流程3-8)。
用户状况确定搜索部10将搜索公式发布到上下文元数据控制部6和内容元数据控制部4,以查询具有[相关事件]的值是“星期二例会”并且[每个图像的语义范围]的值是“标题”的图像对象的(一个或多个)标识符的情况(流程3-9)。
如果对于图7和图8的表存在作为该搜索公式的评估结果被查询的图像对象(流程3-10),用户状况确定搜索部10通过基于图像对象的标识符查询图6的表,从文档图像管理部2获取目标图像对象的图像数据(流程3-11)。
另外,搜索结果屏幕形成部8通过对流程3-7中形成的屏幕上的列表进一步形成屏幕,以仅呈现获取的图像对象的图像数据信息的列表,来实现过滤功能(屏幕控制步骤(用户状况确定屏幕控制步骤):流程3-12)。
实施例4
在本发明的第四实施例中,除第三实施例的配置之外,进一步提供了管理文档元数据提取部12。
在该实例中,以由打印装置103打印已经登记的文档图像的情况作为参考。
当由打印装置103打印文档图像时,作为打印结果的文档被重新产生为纸介质文档。如在上下文元数据提取部5的情形下,管理文档元数据提取部12提取诸如作业或操作、外围环境等状况的语义属性信息。尽管该提取步骤构成本发明的管理文档元数据提取步骤,但其详细操作与图4、图9和图11所示的类似,因此在此省略其解释。
图12示出与在上下文元数据管理部6的表中被管理的文档相关的元数据。例如,当每个文档被打印在纸上时,在此分配的标识符以电子水印、条形码等形式被打印,并且以可通过扫描再次被读取的状态附着到纸介质上。与其他元数据类似,以这种方式管理的上下文元数据可以是如第二和第三实施例描述的搜索中的搜索对象。
在上述实施例中的文档图像信息管理装置可以以综合方式管理各种元数据,并且还可以执行彼此相关联的元数据和文档的管理。另外,在该情况下,文档由在其图像中的单个区域中的对象单元管理。根据该装置,可以通过使用这样管理的元数据搜索或操作文档,并且同时还可以在其区域的对象单元中获取并查看用户需要的文档。此外,本发明实现了连续收集和综合管理关于被管理的文档的信息的有利效果。
尽管在本发明的实施例中,已经描述了在装置的内部预先记录函数(程序)以实现发明的情况,但是本发明不限于此,类似的函数也可以通过网络下载到装置中。可选地,其中存储类似函数的记录介质可以被安装到装置中。这样的记录介质可以是诸如CD-ROM的、能够存储程序并能够被装置读出的任何形式。另外,通过这样的预先安装或下载获得的函数可以通过在装置内部的OS(操作系统)等合作实现。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种文档图像信息管理装置,用于管理与文档图像相关联的内容和上下文的元数据,所述装置包括:
图像分析部,用于基于所述文档图像的图像内容,将指定图像区域作为图像对象来分析;
内容元数据提取部,用于基于由所述图像分析部分析的所述图像对象的内容提取属性信息;
内容元数据管理部,用于与所述文档图像和所述图像对象相关联地管理由所述内容元数据提取部提取的所述内容的元数据;
上下文元数据提取部,用于基于所述文档图像的文档的状况提取属性信息;以及
上下文元数据管理部,用于与所述文档图像和所述图像对象相关联地管理由所述上下文元数据提取部提取的所述上下文的元数据。
2.根据权利要求1所述的文档图像信息管理装置,进一步包括:
搜索部,用于发布用于由所述内容元数据管理部管理的所述内容元数据和由所述上下文元数据管理部管理的所述上下文元数据的搜索关键字,并基于所述搜索关键字搜索所述文档图像和所述图像对象。
3.根据权利要求2所述的文档图像信息管理装置,其中
所述搜索部包括用户请求搜索部,所述用户请求搜索部用于基于用户请求发布搜索关键字。
4.根据权利要求2所述的文档图像信息管理装置,其中
所述搜索部包括用户状况确定搜索部,所述用户状况确定搜索部确定用户状况并发布搜索关键字。
5.根据权利要求2所述的文档图像信息管理装置,进一步包括:
搜索结果屏幕形成部,用于形成屏幕,以显示由所述搜索部搜索的所述文档图像和所述图像对象。
6.根据权利要求5所述的文档图像信息管理装置,其中,
当由所述搜索部搜索多个文档图像和图像对象时,所述搜索结果屏幕形成部显示所述多个文档图像和图像对象的列表,同时通过使用与所述搜索关键字不同的其它指定元数据,改变所搜索的文档图像和图像对象。
7.根据权利要求5所述的文档图像信息管理装置,进一步包括:
用户请求屏幕控制部,用于基于用户请求,在由所述搜索结果屏幕形成部形成的屏幕上执行显示控制。
8.根据权利要求5所述的文档图像信息管理装置,进一步包括:
用户状况确定屏幕控制部,用于关于由所述搜索结果屏幕形成部形成的屏幕,确定用户状况,并根据这样确定的用户状况执行显示控制。
9.根据权利要求1所述的文档图像信息管理装置,进一步包括:
管理文档元数据提取部,用于为在所述内容元数据管理部或所述上下文元数据管理部中管理的所述文档图像和图像对象执行的作业提取上下文的元数据。
10.一种文档图像信息管理方法,用于执行与文档图像相关的内容和上下文的元数据的管理,包括:
图像分析步骤,用于基于所述文档图像的图像内容,将指定图像区域作为图像对象来分析;
内容元数据提取步骤,用于基于在所述图像分析步骤中分析的所述图像对象的内容提取属性信息;
内容元数据管理步骤,用于与所述文档图像和所述图像对象相关联地管理在所述内容元数据提取步骤中提取的所述内容的元数据;
上下文元数据提取步骤,用于基于所述文档图像的文档的状况提取属性信息;以及
上下文元数据管理步骤,用于与所述文档图像和所述图像对象相关联地管理在所述上下文元数据提取步骤中提取的所述上下文的元数据。
11.根据权利要求10所述的文档图像信息管理方法,进一步包括:
搜索步骤,发布用于在所述内容元数据管理步骤中管理的所述内容元数据和在所述上下文元数据管理步骤中管理的所述上下文元数据的搜索关键字,并基于所述搜索关键字搜索所述文档图像和所述图像对象。
12.根据权利要求11所述的文档图像信息管理方法,其中
所述搜索步骤使所述计算机执行:用于基于用户请求发布搜索关键字以执行搜索的用户请求搜索步骤。
13.根据权利要求11所述的文档图像信息管理方法,其中
所述搜索步骤使所述计算机执行:用于确定用户状况并发布搜索关键字以执行搜索的用户状况确定搜索步骤。
14.根据权利要求11所述的文档图像信息管理方法,进一步包括:
搜索结果屏幕形成步骤,用于形成屏幕,以显示在所述搜索步骤中搜索的所述文档图像和所述图像对象。
15.根据权利要求14所述的文档图像信息管理方法,其中
所述搜索结果屏幕形成步骤使所述计算机执行:当多个文档图像和图像对象在所述搜索步骤中正被搜索时,显示所述多个文档图像和图像对象的列表,同时通过使用不同于所述搜索关键字的其他指定元数据,改变所搜索的文档图像和图像对象的屏幕控制步骤。
16.根据权利要求14所述的文档图像信息管理方法,进一步包括:
用户请求屏幕控制步骤,用于基于用户请求,在所述搜索结果屏幕形成步骤中形成的屏幕上执行显示控制。
17.根据权利要求14所述的文档图像信息管理方法,进一步包括:
用户状况确定屏幕控制步骤,用于关于在所述搜索结果屏幕形成步骤中形成的屏幕,确定用户状况,并根据这样确定的用户状况执行显示控制。
18.根据权利要求10所述的文档图像信息管理方法,进一步包括:
管理文档元数据提取步骤,用于为在所述内容元数据管理步骤或所述上下文元数据管理步骤中管理的所述文档图像和图像对象执行的作业提取上下文的元数据。
CNB2005101028518A 2004-10-20 2005-09-13 文档图像信息管理装置和文档图像信息管理方法 Active CN100437578C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/968,270 2004-10-20
US10/968,270 US20060085442A1 (en) 2004-10-20 2004-10-20 Document image information management apparatus and document image information management program

Publications (2)

Publication Number Publication Date
CN1763747A true CN1763747A (zh) 2006-04-26
CN100437578C CN100437578C (zh) 2008-11-26

Family

ID=36182044

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101028518A Active CN100437578C (zh) 2004-10-20 2005-09-13 文档图像信息管理装置和文档图像信息管理方法

Country Status (3)

Country Link
US (1) US20060085442A1 (zh)
JP (1) JP2006120125A (zh)
CN (1) CN100437578C (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847212A (zh) * 2009-03-25 2010-09-29 富士施乐株式会社 条形码数据管理装置、打印装置
CN102473176A (zh) * 2009-07-27 2012-05-23 株式会社日立解决方案 文档数据处理装置
CN102576427A (zh) * 2009-10-23 2012-07-11 阿尔卡特朗讯公司 构件管理方法
US8266146B2 (en) 2008-06-25 2012-09-11 Canon Kabushiki Kaisha Information processing apparatus, information processing method and medium storing program thereof
CN101582967B (zh) * 2008-05-15 2013-01-23 佳能株式会社 图像处理系统、图像处理方法、图像处理设备及其控制方法
CN108563616A (zh) * 2018-04-18 2018-09-21 杰思敏(上海)信息科技有限公司 一种船舶电子底图管理方法
CN112465075A (zh) * 2020-12-31 2021-03-09 杭银消费金融股份有限公司 元数据管理方法及系统

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8166101B2 (en) 2003-08-21 2012-04-24 Microsoft Corporation Systems and methods for the implementation of a synchronization schemas for units of information manageable by a hardware/software interface system
US8238696B2 (en) 2003-08-21 2012-08-07 Microsoft Corporation Systems and methods for the implementation of a digital images schema for organizing units of information manageable by a hardware/software interface system
US20060173864A1 (en) * 2005-01-28 2006-08-03 Microsoft Corporation Systems and methods for reconciling image metadata
US20070016844A1 (en) * 2005-07-15 2007-01-18 Kabushiki Kaisha Toshiba Document management system, document management method and document management program
JP4890212B2 (ja) * 2005-12-12 2012-03-07 株式会社リコー スキャン画像管理装置
US20080027985A1 (en) * 2006-07-31 2008-01-31 Microsoft Corporation Generating spatial multimedia indices for multimedia corpuses
US7712052B2 (en) 2006-07-31 2010-05-04 Microsoft Corporation Applications of three-dimensional environments constructed from images
US7764849B2 (en) * 2006-07-31 2010-07-27 Microsoft Corporation User interface for navigating through images
US20080033919A1 (en) * 2006-08-04 2008-02-07 Yan Arrouye Methods and systems for managing data
US8104048B2 (en) * 2006-08-04 2012-01-24 Apple Inc. Browsing or searching user interfaces and other aspects
JP2008090758A (ja) * 2006-10-04 2008-04-17 Fuji Xerox Co Ltd 情報処理システムおよび情報処理プログラム
JP2008102845A (ja) * 2006-10-20 2008-05-01 Sony Corp 情報処理装置および方法、並びにプログラム
US8319988B2 (en) * 2006-11-30 2012-11-27 Sharp Laboratories Of America, Inc. Job auditing systems and methods for direct imaging of documents
US8185452B2 (en) * 2006-12-19 2012-05-22 Fuji Xerox Co., Ltd. Document processing system and computer readable medium
US7778953B2 (en) * 2007-02-19 2010-08-17 Kabushiki Kaisha Toshiba Document management apparatus and document management method
US20080218812A1 (en) * 2007-03-05 2008-09-11 Wolf John P Metadata image processing
JP2008234592A (ja) * 2007-03-23 2008-10-02 Fuji Xerox Co Ltd 情報処理システム、画像入力表示システム、画像入力システム、情報処理プログラム、画像入力表示プログラム及び画像入力プログラム
US8185839B2 (en) * 2007-06-09 2012-05-22 Apple Inc. Browsing or searching user interfaces and other aspects
US8201096B2 (en) * 2007-06-09 2012-06-12 Apple Inc. Browsing or searching user interfaces and other aspects
US9401846B2 (en) * 2007-10-17 2016-07-26 Dell Products, Lp Information handling system configuration identification tool and method
US9058337B2 (en) * 2007-10-22 2015-06-16 Apple Inc. Previewing user interfaces and other aspects
JP2009110500A (ja) * 2007-10-29 2009-05-21 Toshiba Corp ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム
JP5111268B2 (ja) * 2008-07-09 2013-01-09 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
US8817053B2 (en) 2010-09-30 2014-08-26 Apple Inc. Methods and systems for opening a file
US8473507B2 (en) 2011-01-14 2013-06-25 Apple Inc. Tokenized search suggestions
JP6053361B2 (ja) 2012-07-09 2016-12-27 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
JP5900204B2 (ja) * 2012-07-10 2016-04-06 富士ゼロックス株式会社 文書処理装置及びプログラム
US9535913B2 (en) 2013-03-08 2017-01-03 Konica Minolta Laboratory U.S.A., Inc. Method and system for file conversion
CN104504102B (zh) * 2014-12-26 2017-11-21 携程计算机技术(上海)有限公司 图片版本管理系统及方法
US9798724B2 (en) 2014-12-31 2017-10-24 Konica Minolta Laboratory U.S.A., Inc. Document discovery strategy to find original electronic file from hardcopy version
JP6262708B2 (ja) * 2014-12-31 2018-01-17 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
US9864750B2 (en) 2014-12-31 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Objectification with deep searchability
US11768804B2 (en) * 2018-03-29 2023-09-26 Konica Minolta Business Solutions U.S.A., Inc. Deep search embedding of inferred document characteristics

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6782395B2 (en) * 1999-12-03 2004-08-24 Canon Kabushiki Kaisha Method and devices for indexing and seeking digital images taking into account the definition of regions of interest
JP2001357008A (ja) * 2000-06-14 2001-12-26 Mitsubishi Electric Corp コンテンツ検索配信装置およびコンテンツ検索配信方法
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US20040111728A1 (en) * 2002-12-05 2004-06-10 Schwalm Brian E. Method and system for managing metadata
JP2004220424A (ja) * 2003-01-16 2004-08-05 Canon Inc 文書管理システム
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582967B (zh) * 2008-05-15 2013-01-23 佳能株式会社 图像处理系统、图像处理方法、图像处理设备及其控制方法
US8564796B2 (en) 2008-05-15 2013-10-22 Canon Kabushiki Kaisha Image processing method and apparatus for performing notification of the presence of a file whose metadata is not generated when performing retrieval processing
US8266146B2 (en) 2008-06-25 2012-09-11 Canon Kabushiki Kaisha Information processing apparatus, information processing method and medium storing program thereof
CN101847212A (zh) * 2009-03-25 2010-09-29 富士施乐株式会社 条形码数据管理装置、打印装置
CN102473176A (zh) * 2009-07-27 2012-05-23 株式会社日立解决方案 文档数据处理装置
CN102473176B (zh) * 2009-07-27 2015-01-07 株式会社日立解决方案 文档数据处理装置
CN102576427A (zh) * 2009-10-23 2012-07-11 阿尔卡特朗讯公司 构件管理方法
CN108563616A (zh) * 2018-04-18 2018-09-21 杰思敏(上海)信息科技有限公司 一种船舶电子底图管理方法
CN112465075A (zh) * 2020-12-31 2021-03-09 杭银消费金融股份有限公司 元数据管理方法及系统
CN112465075B (zh) * 2020-12-31 2021-05-25 杭银消费金融股份有限公司 元数据管理方法及系统

Also Published As

Publication number Publication date
CN100437578C (zh) 2008-11-26
JP2006120125A (ja) 2006-05-11
US20060085442A1 (en) 2006-04-20

Similar Documents

Publication Publication Date Title
CN1763747A (zh) 文档图像信息管理装置和文档图像信息管理方法
US8326090B2 (en) Search apparatus and search method
JP4572084B2 (ja) カバーシートを印刷する装置及び方法
US7703002B2 (en) Method and apparatus for composing multimedia documents
EP1583348B1 (en) Check boxes for identifying and processing stored documents
US20090052804A1 (en) Method process and apparatus for automated document scanning and management system
CN1609854A (zh) 关联的共享计算机对象
CN1811771A (zh) 利用文档的物理表现的自适应文档管理系统
US11295156B2 (en) Image processing apparatus, method of controlling the same, and storage medium
CN1734453A (zh) 文档信息处理设备及文档信息处理方法
US7580164B2 (en) Document separator pages
CN101042706A (zh) 文档搜索设备、文档管理系统、文档搜索系统和方法
CN1893528A (zh) 在多个图像处理装置间发送和接收数据的数据处理系统
JP5061151B2 (ja) オブジェクト取得装置、オブジェクト管理システム、オブジェクト管理方法
JP2008072517A (ja) 画像読取システム、サーバ装置、画像読取装置、および端末装置
CN1226693C (zh) 备注图像管理装置、备注图像管理系统和备注图像管理方法
US20070214177A1 (en) Document management system, program and method
US20060206498A1 (en) Document information management apparatus, document information management method, and document information management program
CN1330349A (zh) 图象管理系统、图象管理方法及其程序
CN1725217A (zh) 图像数据获取系统、数字复合机和系统管理服务器
CN1315063C (zh) 信息更新设备及其方法以及记录信息更新程序的记录媒介
US20080222071A1 (en) System and method for automatic distribution and storage of digital media
JP2010176387A (ja) 電子スクラップシステム、電子スクラップ方法、電子スクラップサーバ、および利用者端末
CN1577382A (zh) 文档交接系统以及文档交接方法
JP2008287606A (ja) 情報処理装置およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant