[go: up one dir, main page]

WO2007013399A1 - 検索装置及び検索方法 - Google Patents

検索装置及び検索方法 Download PDF

Info

Publication number
WO2007013399A1
WO2007013399A1 PCT/JP2006/314572 JP2006314572W WO2007013399A1 WO 2007013399 A1 WO2007013399 A1 WO 2007013399A1 JP 2006314572 W JP2006314572 W JP 2006314572W WO 2007013399 A1 WO2007013399 A1 WO 2007013399A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
image
document
area
image data
Prior art date
Application number
PCT/JP2006/314572
Other languages
English (en)
French (fr)
Inventor
Shinji Todaka
Original Assignee
Canon Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Kabushiki Kaisha filed Critical Canon Kabushiki Kaisha
Priority to CN2006800276513A priority Critical patent/CN101233511B/zh
Priority to US11/551,904 priority patent/US8326090B2/en
Publication of WO2007013399A1 publication Critical patent/WO2007013399A1/ja

Links

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03GELECTROGRAPHY; ELECTROPHOTOGRAPHY; MAGNETOGRAPHY
    • G03G15/00Apparatus for electrographic processes using a charge pattern
    • G03G15/50Machine control of apparatus for electrographic processes using a charge pattern, e.g. regulating differents parts of the machine, multimode copiers, microprocessor control
    • G03G15/5016User-machine interface; Display panels; Control console
    • G03G15/502User-machine interface; Display panels; Control console relating to the structure of the control menu, e.g. pop-up menus, help screens
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03GELECTROGRAPHY; ELECTROPHOTOGRAPHY; MAGNETOGRAPHY
    • G03G15/00Apparatus for electrographic processes using a charge pattern
    • G03G15/50Machine control of apparatus for electrographic processes using a charge pattern, e.g. regulating differents parts of the machine, multimode copiers, microprocessor control
    • G03G15/5075Remote control machines, e.g. by a host
    • G03G15/5087Remote control machines, e.g. by a host for receiving image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03GELECTROGRAPHY; ELECTROPHOTOGRAPHY; MAGNETOGRAPHY
    • G03G2215/00Apparatus for electrophotographic processes
    • G03G2215/00025Machine control, e.g. regulating different parts of the machine
    • G03G2215/00109Remote control of apparatus, e.g. by a host

Definitions

  • the present invention relates to a search device and a search method. More specifically, when a search device having a function of storing document data information read by a scanner or the like is used to search target document data from stored document data, the image data included in the document data is keyed.
  • the present invention relates to a technique for retrieving target document data.
  • Document search methods include document attribute search for searching information (attribute data) associated with document data, full-text search for searching for a character string included in document data, Various methods such as image data search for searching the included image data have been proposed.
  • search engine In order to execute these search methods, it is necessary to input a search key to a search device (search engine).
  • search engine search engine
  • search engine unlike search methods that use character strings as keys, such as attribute search and full-text search, in image search using image data as a key, the user specifies or inputs a search key using a simple and easy-to-use method. Whether it can be done is an issue.
  • the image storage device described in Patent Document 1 obtains a search key by scanning a document with an area specified in advance with a scanner. Further, the image storage device described in Patent Document 2 displays document data obtained by scanning with a scanner on a screen, and extracts a search key by specifying an area to be a search key with a mouse or the like. ing. Furthermore, in the similar image search device described in Patent Document 3, image data to be used as a search key is registered in advance, and search is performed from the registered image data. Specify the key.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 5-274367
  • Patent Document 2 JP-A-5-274368
  • Patent Document 3 Japanese Patent Laid-Open No. 10-340272
  • the present invention has been made in view of the above situation, and an object of the present invention is to enable specification and input of image data serving as a search key by a method that is easy and understandable for a user. .
  • Another object of the present invention is to make it easy to specify and input image data as a search key even in a limited display area of document data.
  • a search device that achieves the above object includes a plurality of stored data.
  • Taka a search device for searching for desired data based on a predetermined search key, a reading means for reading a document image and obtaining image data;
  • Area extracting means for extracting an image area in the image data
  • a list display means for causing the display means to display a list of a plurality of images corresponding to the image area extracted by the area extraction means
  • a search is performed using the selected image as a search key.
  • a search method as another aspect of the present invention that achieves the above object is a search method for searching for desired data based on a plurality of stored data tags and a predetermined search key.
  • a search device that searches for data based on a stored data force and a predetermined search key
  • an image area in image data obtained by reading a document image is extracted and extracted.
  • the image corresponding to the image area is displayed in a list on a display means for displaying information to the user, and the user selects at least one of the displayed images by the input means for the user to input an instruction.
  • the selected image is used as a search key.
  • images in the document are extracted, displayed as a list, and a search is executed using the image selected by the user as a search key.
  • the above object is also achieved by a computer program that causes a computer device to execute the above search method, and a storage medium that stores the computer program.
  • images in a document are extracted as image data, and the image data is displayed as a list.
  • the search is executed using the image data selected by the user from the list of image data as a search key.
  • FIG. 1 is a block diagram illustrating the overall configuration of an embodiment of a document search device according to the present invention.
  • FIG. 2 is a block diagram for explaining a hardware configuration of a main unit of the document search apparatus shown in FIG. 1.
  • FIG. 3 is a diagram showing an overview of a document search apparatus according to the present invention.
  • FIG. 4 is a diagram showing a software configuration of a main unit of the document search device according to the present invention.
  • FIG. 5 is a diagram showing a software configuration of the document management apparatus according to the present invention.
  • FIG. 6 is a diagram showing an example of screen transition displayed on the operation unit in the search process of the document management apparatus according to the present invention.
  • FIG. 7 is a flowchart showing processing executed in the main unit from the selection of image search to execution of search in the document management apparatus according to the present invention.
  • FIG. 8 is a flowchart showing processing executed by the main unit from the time when keyword search is selected and the search is executed in the document management apparatus according to the present invention.
  • FIG. 1 is a block diagram illustrating the overall configuration of an embodiment of a document search apparatus according to the present invention.
  • the document search apparatus 1000 of this embodiment includes a scanner 1002 as an image input device, a printer 1003 as an image output device, and an operation unit 1004 as a user interface unit. Further, it is composed of a main unit 1001 for controlling them and a document management system 1005 having document data storage, management, and search functions.
  • the scanner unit 1002, the printer unit 1003, and the operation unit 1004 are connected to each other via an internal bus (not shown) through an interface corresponding to the main unit 1001.
  • the main unit 1001 is connected to a network transmission means such as a LAN 1010 and a public line 1020. Further, the document management system 1005 is also connected to the LAN 1010, and the document management system 1005 communicates data, commands, etc. via the main 1001 and the LAN 1010. Instead of providing the document management system 1005 inside the document search apparatus 1000, an external server connected to the outside via the LAN 1010 and having the same function as the document management system 1005 may be used.
  • the document search apparatus 1000 shown in the present embodiment is configured to be recognized as a single apparatus by the user.
  • a copy (copy) function In addition to the document search function, a copy (copy) function, a facsimile function, a printer function, a document Configured as a multifunction device (MFP) with storage capability.
  • MFP multifunction device
  • FIG. 2 is a block diagram illustrating a hardware configuration of the main unit 1001 of the document search apparatus shown in FIG.
  • the correspondence of the reference numbers with Fig. 1 is explained as follows: 1001 force 000, 1002 force 070, 1003 force 2080, 1004 force 2050, 1005 force 2060, 1010 force 2020, 1020 force 2010, respectively.
  • the main unit 2000 inputs and outputs document data, image information, and device information.
  • This is a controller that performs scanning, and implements functions such as scanning and printing via a scanner 2070 that is a connected image input device and a printer 2080 that is an image output device.
  • it communicates with external devices such as document management system 2060 and PC (not shown) via LAN2020 to realize functions such as document storage, retrieval, and retrieval, as well as public network (PSTN) 2010.
  • PSTN public network
  • An operation unit 2050 is connected as a user interface (UI) for providing these functions to the user.
  • UI user interface
  • the CPU 2001 is a controller that controls the entire main unit 2000.
  • the RAM 2002 is a system work memory for operating the CPU 2002, and is also used as an image memory for temporarily storing image data.
  • ROM2003 is a boot ROM and stores the boot program of the system.
  • the HDD 2004 is a hard disk drive, and stores system software, image data, attribute data related to the image data, and other user data. The operation flow for document search described later is realized by executing system software stored in the HDD 2004, for example.
  • the operation unit IZF2006 is an interface unit with the operation unit 2050, and outputs image data to be displayed on the display device 6000 provided in the operation unit 2050 to the operation unit 2050. Also, it plays a role of transmitting information input by the user from the operation unit 2050 to the CPU 2001.
  • Network 2007 is connected to LAN 2020, and inputs and outputs information to and from external devices such as a document management system 2060 and a PC connected on LAN 2020.
  • the document retrieval apparatus 1000 supports TCP / IP as a network communication protocol, and the document management system 2060 performs communication according to the TCP / IP communication protocol.
  • MODEM 2008 is connected to public line (PSTN) 2010 and communicates image data with a facsimile machine (not shown) arranged on public line 2010 using a facsimile function.
  • PSTN public line
  • the above devices are arranged connected to the system bus 2009.
  • Image Bus IZF2005 is a bus bridge that converts a data structure and is connected to system bus 2009 and image bus 2030 that transfers image data at high speed.
  • the image bus 2030 is configured by a PCI bus or an IEEE1394 bus.
  • the following devices are arranged on the image bus 2030.
  • the raster image processor (RIP) 2031 develops a PDL code input from a PC connected on the LAN2020 into a bitmap image.
  • the device IZF unit 2032 connects the scanner 2070 and printer 2080, which are image input / output devices, to the main unit controller 2000, and performs synchronous Z-asynchronous conversion of image data.
  • a scanner image processing unit 2033 performs processing such as correction, processing, and editing on the image data input from the scanner 2070. It also has a function to determine whether the input image data is a color image or a black-and-white image from the saturation signal of the image data and hold the result.
  • the printer image processing unit 2034 performs processing such as correction, addition, and editing on the image data output from the printer.
  • the image rotation unit 2035 cooperates with the scanner image processing unit 2033 to simultaneously read the image from the scanner 2070, rotate the read image data and store it in the RAM 2002, or perform the rotation process of the image data in the RAM 2002. Do.
  • this HDD2004 or RAMRAM2002 This image data can be printed out while being rotated in cooperation with the printer image processor 2034.
  • the resolution conversion unit 2037 converts the resolution of the image data stored in the RAM 2002 and stores it again in the RAM 2002.
  • the color space conversion unit 2038 converts, for example, YUV image data in RA ⁇ 2002 into Lab image data by matrix calculation, and stores it again in RAM2002.
  • the gradation conversion unit 2039 converts, for example, 8-bit, 256-gradation image data in the RAM 2002 into 1-bit, 2-gradation image data using a technique such as error diffusion processing, and stores it again in the RAM 2002.
  • the image compression / decompression unit 2036 performs compression Z decompression processing on multi-valued image data according to a format such as “PEG” or “BIG”, “MMR”, “MR”, or “MH” on binary image data.
  • the image rotation unit 2035, the resolution conversion unit 2037, the color space conversion unit 2038, the gradation conversion unit 2039, and the image compression / decompression unit 2036 can be connected to operate. For example, when the image data in RAM 2002 is rotated and the resolution is converted at the same time, both processes can be performed without being stored in RAM 2002.
  • FIG. 3 is a diagram showing an overview of the document search apparatus 1000 according to the present embodiment. Described in Figure 1 As described above, the document search apparatus 1000 according to the present embodiment is provided to the user as a multi-function peripheral having a copy function, a facsimile function, a printer function, and a document management function.
  • a scanner unit 3001 which is an image input device, irradiates an image on a recording medium such as paper as a document, and scans a CCD line sensor, thereby converting the image into an electrical signal as raster image data.
  • the main unit controller CPU2001 shown in FIG. 2 gives an instruction to the scanner 2070 when the original paper is set on the tray of the original feeder 3002 and the user instructs the start of reading from the operation unit 3006.
  • the document feeder 3002 conveys document sheets one by one and starts the document reading operation.
  • the printer unit 3003 which is an image output device, is a part that outputs raster image data as a print image on paper, and the system is not limited.
  • an electrophotographic method using a photosensitive drum or a photosensitive belt, or an inkjet method in which image data is directly printed on paper by ejecting a minute nozzle array force ink may be used.
  • the printing operation is started by an instruction from the CPU 2001 that is a controller.
  • the printer unit 3003 has a plurality of paper feed stages 3004 so that different paper sizes or different paper orientations can be selected, and a paper cassette corresponding to the paper feed stage 3004 is set and used.
  • the paper discharge tray 3005 receives printed paper and can perform post-processing such as sorting and stapling according to instructions from the CPU 2001 as a controller.
  • the main unit 1001 and the document management system 1005 shown in FIG. 1 are disposed inside the apparatus, and it is impossible to confirm the force in terms of appearance.
  • FIG. 4 is a diagram showing a software configuration of the main unit of the document search apparatus 1000 according to the present embodiment.
  • the software shown in this configuration diagram is stored in the HDD 2004 shown in FIG.
  • 4001 is a UI control manager that controls the operation unit 2050, and performs control for transmitting a user instruction to a lower-layer module and displaying information on a lower-layer force on the display device 6000 of the operation unit 2050.
  • Reference numeral 4002 denotes a network control manager that performs control of receiving instructions and information via a network and transmitting instructions and information from a main unit.
  • a copy application section and a transmission application section that allow a single job to execute a copy job and a transmission job.
  • a document management application unit 4005 communicates with the document management system 1005 to provide a document management function.
  • the search processing described later is controlled by the document management application unit 4005.
  • the document management application unit 4005 has an OCR engine 4006 for extracting text information from image data included in the document data, and a block for extracting image data of a desired area from the image data included in the document data. Connected to the selection (BS) engine 4007!
  • the BS engine 4007 of this embodiment identifies image areas and character areas in the image data, and generates information such as the type of these areas, the position in the image data, and the size.
  • the BS engine 4007 can determine various attribute blocks (table block, line drawing block, background block, etc.) other than the image area and the character area, and can extract a block (area) for each attribute.
  • 4008 is a common interface unit for absorbing the device-dependent portion of the manager of each unit in the lower layer.
  • Reference numeral 4009 denotes a job manager that organizes job information received from the common interface unit 4008 and transmits it to a plurality of managers (4010 to 4014) that are in close contact with the lower layer devices. If the received job is a local copy, the job manager 4009 controls the scan manager 4011 and the print manager 4010.
  • the job manager 4009 controls the scan manager 4011 and the file manager 4014 and the fatality manager 4012 for document storage. Further, if the received job is a PDL print job such as LIPS or PostScript, the job manager 4009 controls the PDL manager 4013, the file manager 4014, and the print manager 4010. As described above, the job manager 4009 controls processing such as activation, synchronization, and termination of each manager according to the received job.
  • FIG. 5 is a diagram showing a software configuration of the document management system 1005 arranged in the document search apparatus 1000 of the present embodiment shown in FIG.
  • the document management system 1005 provides the main unit 1001 with functions such as document storage, retrieval, and retrieval.
  • Figure 5-5 004 and 5005 indicate the same apportion as 4006 and 4007 in Fig. 4, respectively!
  • Reference numeral 5001 denotes a network control unit, which performs control for communication with the network control manager 4002 of the main unit 2000.
  • Reference numeral 5002 denotes a search control unit, which performs processing for searching requested from the main unit 2000 and processing for creating an index for searching stored document data.
  • Reference numeral 5003 denotes an image document processing unit which performs processing such as creation of thumbnail image data and image conversion as necessary. Also, a process for extracting the search index from the document data according to the registered document data is performed. That is, the document data registered in the document management system 1005 is converted into a predetermined format by the image document processing unit 5003. For image data, an image area included in the document data is extracted using a block selection (BS) engine 5005. On the other hand, for text (character) data, index data and fixed character information are extracted from image data included in the document data using the OCR engine 5004.
  • BS block selection
  • Reference numeral 5006 denotes a document management control unit, which distributes all processes related to document management.
  • 5007 is a temporary data storage location used on the document management system side.
  • 5008 is a database control unit that creates various data to be stored in the database, and stores various data corresponding to the volume database 5009, the attribute database 5010, the full-text search database 5011, and the image search database 5012. Perform the process to save. Further, the database control unit 5008 performs processing for reading each database power data in response to a request from the main unit 1001 and creating document data to be passed to the main unit.
  • the volume database 5009 is a database that stores document data entities.
  • the volume database is conceptual, and there is no problem even if the entity is a file system on the OS of the document management system 1005.
  • the attribute database 5010 is a database in which information about attributes such as document data names, creation dates, and comments is stored.
  • the full-text search database 5011 stores index data and fixed character information extracted from the registered document data by the OCR engine 5004. Database. When a full text search is instructed by the main unit 1001, a search in the full text search database 5011 is performed.
  • the image search database 5012 is a database in which the features of the image area extracted by the BS engine 5005 in block selection from the registered document data are registered in association with the document data. When an image search is instructed by the main unit 1001, the image search database 5012 is searched according to the characteristics of the search target image data, and the associated document data is detected.
  • FIG. 6 is a diagram showing an example of transition of screens displayed on the display unit 6000 provided in the operation unit 2050 in the search process according to the present embodiment. The flow of search processing in this embodiment will be described using this figure.
  • Reference numeral 6001 denotes a basic screen displayed first.
  • the operation unit 2050 in this embodiment uses a touch panel for the display device 6000, and a corresponding function is executed by pressing a button displayed on the screen.
  • buttons corresponding to 10 functions including copy, send, and search are displayed.
  • buttons 6050 and 6060 corresponding to two functions search by criteria (Search with Criteria) and search for original (Search for Original) are displayed.
  • search based on the standard means searching for document data including an image or a keyword designated as a search key.
  • searching for a document means searching for document data that matches the scanned original image of the entire page (if multiple pages of originals are scanned, the original images of all pages match). Search document data).
  • Reference numeral 6002 denotes a screen displayed after the search with criteria button (Search with Criteria) 6050 is pressed on the basic screen 6001. On this screen, select either image search (ImageSearch) or keyword search (KeywordSearch via OCR) with buttons 6070 and 6080.
  • ImageSearch image search
  • KeywordSearch KeywordSearch via OCR
  • an image search instruction is issued from the main unit 1001 to the document management system 1005.
  • the document management system 1005 executes the search and sends the result to the main unit 1001. And return.
  • the main unit 1001 that has returned the result displays the search result on the screen indicated by 6 015.
  • On this screen 6015 as a search result, information such as a document name, a matching rate (similarity), an update date, and a storage location is displayed in a list.
  • the user can select desired document data from this screen 6015 and execute operations such as printing and transmission.
  • screen 6013 When screen 6013 is displayed, when the user sets a document and starts reading (ScanStar t) button, the document is read, and keywords are extracted by the scanned image data and OCR engine. .
  • the extracted keywords are listed on the 6024 screen.
  • the user selects a keyword to be used as a search key on this screen 6024, and presses a search start button to execute a search.
  • To select simply touch the area displayed as a keyword, and a mark is displayed in the check box provided to the left of the keyword, for example, to indicate that the selection is in progress.
  • the main unit 1001 issues a keyword search instruction to the document management system 1005, and the document management system 1005 executes the search and sends the result to the main 1001. I will return it.
  • the main unit 1001 that has returned the result displays the search result on the screen indicated by 6025.
  • This screen 6025 displays a list of information such as the document name, matching rate (similarity), update date, and storage location as a search result. The user can select desired document data from this screen 6025 and execute operations such as printing and transmission.
  • FIG. 7 is a flowchart showing processing executed by the main unit from the time when image search is selected until the search is executed in the document search apparatus 1000 according to the present embodiment.
  • the processing performed here corresponds to the processing in a state where screen 6013 and screen 6014 are displayed in FIG.
  • Step S7001 When image search is selected and a document to extract an image as a search key is set and scanning is instructed, the main unit 2000 activates the scanner unit 2070 and executes document scanning processing. (Step S7001).
  • the image data read here is temporarily stored in HDD2004.
  • block selection is executed on the stored image data (step S7002).
  • This process is executed by the BS engine 4007 according to the instruction of the document management application 4005.
  • it is determined whether or not there is an image area (step S7003). If there is no image area, the process ends. On the other hand, if there is an image area, the corresponding image area is extracted from the stored image data cartridge and stored in the RAM 2002 (step S7004).
  • an image feature is extracted from the extracted image area (step S7005).
  • image edge information, color information, arrangement pattern, etc. are extracted as image features and stored in the HDD 2004 as files.
  • file names when saving to the HDD 2004, it is assumed that serial numbers are added after predetermined names such as AREA01.xml and AREA02.xml.
  • the search instruction is issued using the image feature information as a search key. By doing this, the image data itself is transferred rather than passed as a search key. The amount of data can be reduced.
  • This image feature extraction processing is executed by the document management application 4005.
  • a reduced image (thumbnail) of the extracted image data is created and stored in HDD 2004 (step S7006).
  • the name to be saved is a predetermined name followed by a number, such as AREA01.jpg and AREA02.jpg.
  • processing is performed for each image area, it is possible to associate the image feature information created in step S7005 with the reduced image.
  • step S7007 it is determined whether or not there is a next image area. If there is still an image area, the process returns to step S7004 and the subsequent processing is repeated. If there is no next image area, it is determined that the processing for all the image areas has been completed, and the reduced images stored in step S7006 are listed on the screen 6014 (step S7008).
  • step S7009 When the user selects image data to be used as a search key and is instructed to start a search (step S7009), the main unit 2000 uses the image feature information corresponding to the selected image data as a search key as a document management system. An image search instruction is issued to 2060 (step S7 010), and the process ends.
  • FIG. 8 is a flowchart showing processing executed in the main unit from the keyword search to the execution of the search in the document search apparatus 1000 according to the present embodiment.
  • the processing performed here corresponds to the processing in a state where the screen 6023 and the screen 6024 are displayed in FIG.
  • the main unit 2000 activates the scanner unit 2070 and executes document reading processing (step S8001). .
  • the scanned image data is temporarily stored in HDD2004.
  • step S8002 block selection
  • This process is executed by the BS engine 4007 according to the instruction of the document management application 4005.
  • step S8003 it is determined whether or not there is a character area. If there is no character area, the process ends. On the other hand, if there is a character area, the corresponding character area is extracted from the stored image data and stored in RAM 2002. (Step S8004).
  • the extracted character area is subjected to OCR to extract a character string (step S8005).
  • This process is executed by the OCR engine 4006.
  • the extracted character string is subjected to morphological analysis processing to extract a noun, and the appearance frequency and appearance position of the extracted noun are prioritized and stored in the HDD 2004 as a keyword list. If there is a keyword that has already been saved, the keyword is added to the keyword (step S8006).
  • This keyword extraction process is executed by the document management application 4005.
  • step S8007 it is determined whether or not there is a next character area. If there is still a character area, the process returns to step S8004 and the subsequent processing is repeated. If there is no next character area, it is determined that the processing for all areas has been completed, and the keyword list saved in step S8006 is displayed on screen 6024 (step S8008).
  • Step S8009 When the user selects a keyword to be used as a search key and is instructed to start a search (step S8009), the main unit 2000 issues a full-text search instruction to the document management system 2060 using the selected keyword as a search key. (Step S8010), the process ends.
  • a list of reduced images corresponding to the image data in the read original is displayed, and the user can easily select image data to be used as a search key from the list. You can choose.
  • a reduced image corresponding to the image area in the read original is displayed.
  • the size may be displayed as it is. In this case, it is determined whether the ability to display a list is possible. Try reducing each image to the size you want, or changing the reduction ratio according to the number of images displayed in the list.
  • the display device provided in the operation unit has a touch panel on the display screen.
  • the display device is used for searching from images displayed as a list by operation means (keys, buttons, etc.) other than the touch panel. It is good also as composition which chooses an image.
  • the format of the image data is not limited to that exemplified in the above embodiment, and an appropriate one can be used as appropriate.
  • Update date / time, storage location, document name, file type, character string, etc. can be added to enable more accurate searches.
  • search keys In addition to using images and characters in the document as search keys, other attributes (table, line drawing, background) obtained as a result of block selection may be used as search keys.
  • the present invention may be applied to a document search system including a plurality of devices, or may be applied to a document search device including a single device. You may do it.
  • the present invention is applied to a multifunction machine having a scanner function, a copy function, a printer function, and a facsimile function.
  • the copy function, facsimile function, and printer function are not essential. Therefore, the present invention can be implemented even in a system including a scanner (reading device) and an information processing device such as a computer corresponding to the main unit and the operation unit.
  • the document management system in the above embodiment may be provided inside the computer apparatus or may be an external apparatus connected via a network.
  • the retrieval key may be extracted by using image data of an image obtained by reading a document with a scanner function. For example, image data received by facsimile, image data received by e-mail function or FTP function via a network such as LAN2020, or image data included in data received from Web Sano may be extracted. It may also be print data received from a print client. Then, they are stored in the HDD 2004, and the user can select them from the operation unit 2050 and extract search keys.
  • the present invention supplies a software program for realizing the functions of the above-described embodiments directly or remotely to a system or apparatus, and the system or apparatus computer reads the supplied program. It can also be achieved by doing.
  • the program corresponds to the flowcharts of FIGS. In this case, the form need not be a program as long as it has a program function.
  • the program code installed in the computer also implements the present invention. That is, the claims of the present invention include the computer program itself for realizing the functional processing of the present invention.
  • the form of the program is not limited, such as an object code, a program executed by an interpreter, and script data supplied to the OS.
  • Various recording media for supplying the program can be used.
  • the browser can be connected to a home page on the Internet using a browser of a client computer, and the home page power can also be downloaded to a recording medium such as a hard disk.
  • the computer program itself of the present invention or a compressed file including an automatic installation function may be downloaded.
  • the program code constituting the program of the present invention is divided into a plurality of files, It can also be realized by downloading each file with a different website. That is, a www server that allows a plurality of users to download a program file for realizing the functional processing of the present invention by a computer is also included in the claims of the present invention.
  • the program of the present invention may be encrypted, stored in a storage medium such as a CD-ROM, and distributed to users.
  • a user who has cleared the specified conditions can download key information for decrypting the encryption key from the homepage via the Internet and use the key information to execute an encrypted program.
  • the present invention can be realized in a form other than the form in which the functions of the above-described embodiments are realized by the computer executing the read program.
  • the function of the above-described embodiment can be realized by performing part or all of actual processing such as an OS running on a computer based on an instruction of the program.
  • the recording medium power may be written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer.
  • the CPU on the function expansion board or function expansion unit performs part or all of the actual processing!
  • the function of the above-described embodiment is realized by the processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Control Or Security For Electrophotography (AREA)

Abstract

 ユーザが容易でわかりやすい方法で、文書の検索キーとなる画像の指定や入力を行えるようにする。すなわち、原稿画像を読み取って(S7001)得た画像データ内にある画像領域を抽出し(S7004)、抽出した画像領域に対応する画像を、表示手段に一覧表示させる(S7008)。ユーザが入力手段によって、該一覧表示された画像の少なくとも1つをユーザが選択したのに応じて(S7009)、選択された画像を検索キーとして用いて検索を行う(S7010)。

Description

明 細 書
検索装置及び検索方法
技術分野
[0001] 本発明は、検索装置及び検索方法に関する。より詳細には、スキャナ等で読み取 つた文書データの情報を格納する機能を備えた検索装置において、保存された文書 データから目的の文書データを検索する際に、文書データに含まれる画像データを キーとして目的の文書データを検索する技術に関するものである。
背景技術
[0002] 近年のオフィス環境では、業務の複雑化、情報量の増加に伴って管理しなければ ならない文書が急激に増加している。このため、大量の文書の中から目的とする文書 を検索する必要がますます大きくなつてきている。文書の情報を一旦電子データ化し て文書データとして格納しておけば、目的の文書を検索するのに、文書検索装置や 文書検索システムが使用できる。
[0003] 文書検索の手法としては、文書データに関連付けされた情報 (属性データ)を検索 する文書属性検索や、文書データ中に含まれた文字列を検索するための全文検索 、文書データ中に含まれた画像データを検索する画像データ検索などの様々な手法 が提案されている。
[0004] これらの検索手法を実行するには、検索キーを検索装置 (検索エンジン)に入力す る必要がある。この場合、属性検索や全文検索のように文字列をキーとする検索手 法と異なり、画像データをキーとする画像検索では、いかに容易でわ力りやすい手法 でユーザが検索キーを指定あるいは入力できるかが課題となっている。
[0005] このような手法の一例として、特許文献 1に記載された画像記憶装置では、予めエリ ァを指定した文書をスキャナでスキャンすることによって検索キーを得ている。また、 特許文献 2に記載された画像記憶装置では、スキャナでスキャンされて得た文書デ ータを画面上に表示し、検索キーとなるエリアをマウス等で指定することによって検索 キーを抽出している。更に、特許文献 3に記載された類似画像検索装置では、予め 検索キーとして用いる画像データを登録しておき、登録した画像データの中から検索 キーを指定する。
特許文献 1:特開平 5 - 274367号公報
特許文献 2:特開平 5 - 274368号公報
特許文献 3:特開平 10— 340272号公報
発明の開示
発明が解決しょうとする課題
[0006] しかしながら、特許文献 1に記載された画像記憶装置で、検索キーとして登録する エリアを予め指定するには、元の文書にエリア情報を書き込む必要がある。これはュ 一ザにとってわずらわ U、操作が必要なだけでなぐ元の文書をきれ!、なまま保存す るためにはコピーをとつておく必要がある。
[0007] また、特許文献 2に記載された画像記憶装置で、ユーザが画面上でキーとなるエリ ァを指定するためには、エリアを指定するためのペンデバイスやマウスなどの操作手 段が必要である。このような操作手段は、スキャナ機能、コピー機能及びプリント機能 等を有する複合機のような OA機器には通常備えられていない。このため、画像検索 以外では利用されない操作手段を新たに付加する必要があり、その取り付け場所や 収納方法に関して新たな問題が生じる。また、表示領域が十分大きい場合において
、複数の検索キーを抽出するといつた操作を行う場合には、複数回のエリア指定とい つたユーザにとってはわずらわしい操作を行う必要がある。
[0008] 更に、特許文献 3に記載された類似画像検索装置では、ユーザが検索キーとして 登録する画像データを自由に選択することが出来ず、検索の精度が低下する可能性 がある。
[0009] 本発明は、以上のような状況に鑑みてなされたものであり、ユーザにとって容易で わかりやすい方法で、検索キーとなる画像データの指定や入力を行えるようにするこ とを目的とする。
[0010] 本発明の別の目的は、文書データの限られた表示領域でも、検索キーとなる画像 データの指定や入力が容易に行えるようにすることである。
課題を解決するための手段
[0011] 上記目的を達成する本発明の一態様としての検索装置は、保存された複数のデー タカ 所定の検索キーに基づいて所望のデータを検索する検索装置であって、 原稿画像を読み取って画像データを得る読み取り手段と、
前記画像データ内にある画像領域を抽出する領域抽出手段と、
情報を表示するための表示手段と、
指示を入力するための入力手段と、
前記領域抽出手段で抽出された前記画像領域に対応する複数の画像を前記表示 手段に一覧表示させる一覧表示手段と、を備え、
前記一覧表示された複数の画像の少なくとも 1つを前記入力手段によって選択す るとき、選択された前記画像を検索キーとして用いて検索を行うように構成されて ヽる
[0012] 上記目的を達成する本発明の別の態様としての検索方法は、保存された複数のデ 一タカ 所定の検索キーに基づいて所望のデータを検索する検索方法であって、 原稿画像を読み取って画像データを得る読み取り工程と、
前記画像データ内にある画像領域を抽出する領域抽出工程と、
前記領域抽出工程で抽出した画像領域に対応する画像を、情報を表示するため の表示手段に一覧表示させる一覧表示工程と、
指示を入力するための入力手段によって、該一覧表示された画像の少なくとも 1つ を選択するのに応じて、選択された画像を検索キーとして用いて検索を行う画像検 索工程と、備えている。
[0013] すなわち、本発明では、保存されたデータ力 所定の検索キーに基づいてデータ を検索する検索装置において、原稿画像を読み取って得た画像データ内にある画 像領域を抽出し、抽出した画像領域に対応する画像を、ユーザに情報を表示するた めの表示手段に一覧表示させ、ユーザが指示を入力するための入力手段によって、 該一覧表示された画像の少なくとも 1つをユーザが選択したのに応じて、選択された 画像を検索キーとして用いて検索を行う。
[0014] このような構成により、原稿内にある画像が抽出され、それが一覧表示され、その中 力もユーザが選択した画像を検索キーとして検索が実行される。
[0015] 従って、ユーザにとって容易でわかりやすい手法で検索キーとなる画像の指定や 入力が可能となり、ユーザの利便性が向上する。
[0016] また、上記の目的は、上記の検索方法をコンピュータ装置に実行させるコンビユー タプログラム、及び該コンピュータプログラムを記憶した記憶媒体によっても達成され る。
発明の効果
[0017] 本発明によれば、原稿内にある画像が画像データとして抽出され、それらの画像デ ータが一覧表示される。このように、一覧表示された画像データの中からユーザが選 択した画像データを検索キーとして検索が実行される。
[0018] 従って、ユーザにとって容易でわかりやすい手法で検索キーとなる画像データの指 定ゃ入力が可能となり、ユーザの利便性が向上する。
[0019] 本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らか になるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参 照番号を付す。
図面の簡単な説明
[0020] 添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、そ の記述と共に本発明の原理を説明するために用いられる。
[0021] [図 1]本発明に係る文書検索装置の実施形態の全体の構成を説明するブロック図で ある。
[図 2]図 1に示す文書検索装置ののメインユニットのハードウェア構成を説明するプロ ック図である。
[図 3]本発明に係る文書検索装置の概観を示す図である。
[図 4]本発明に係る文書検索装置のメインユニットのソフトウェア構成を示す図である
[図 5]本発明に係る文書管理装置のソフトウェア構成を示す図である。
[図 6]本発明に係る文書管理装置の検索処理において、操作部に表示される画面の 遷移の一例を示す図である。
[図 7]本発明に係る文書管理装置において、画像検索を選択してから検索を実行す るまでにメインユニットで実行される処理を示すフローチャートである。 [図 8]本発明に係る文書管理装置において、キーワード検索を選択して力も検索を実 行するまでにメインユニットで実行される処理を示すフローチャートである。
発明を実施するための最良の形態
[0022] 以下に、添付図面を参照して、本発明の好適な実施の形態を例示的に詳しく説明 する。ただし、以下の実施形態に記載されている構成要素はあくまで例示であり、本 発明の範囲をそれらのみに限定する趣旨のものではない。
[0023] 図 1は、本発明に係る文書検索装置の実施形態の全体の構成を説明するブロック 図である。
[0024] 本実施形態の文書検索装置 1000は、画像入力デバイスとしてスキャナ 1002、画 像出力デバイスとしてプリンタ 1003、ユーザインターフェース部として操作部 1004を 備えている。更に、それらを制御するメインユニット 1001、文書データの保存、管理、 検索機能を備えた文書管理システム 1005から構成されている。スキャナ部 1002、プ リンタ部 1003、操作部 1004はそれぞれメインユニット 1001に対応するインターフエ ースを介し、内部バス(図示せず)で接続される。
[0025] また、メインユニット 1001は LAN1010などのネットワーク伝送手段、及び公衆回線 1020に接続されている。さらに文書管理システム 1005も LAN1010に接続され、文 書管理システム 1005はメインュ-ット 1001と LAN 1010を介してデータ、コマンド等 の通信を行う。文書管理システム 1005を文書検索装置 1000の内部に設けるのに代 えて、 LAN1010を介して外部に接続され、文書管理システム 1005と同じ機能をす る外部サーバとするようにしてもよ 、。
[0026] 本実施形態で示す文書検索装置 1000は、ユーザに一つの装置として認識される ように構成されており、文書検索機能以外にも、複写 (コピー)機能、ファクシミリ機能 、プリンタ機能、文書保管機能を備えた、複合機 (MFP)として構成されている。
[0027] 図 2は、図 1で示した文書検索装置のメインユニット 1001のハード構成を説明する ブロック図である。図 1との参照番号の対応を説明すると、 1001力 000、 1002力 070、 1003力 2080、 1004力 2050、 1005力 2060、 1010力 2020、 1020力 2010 にそれぞれ対応している。
[0028] 図 2において、メインユニット 2000は文書データ、画像情報やデバイス情報の入出 力を行う為のコントローラであり、接続された画像入力デバイスであるスキャナ 2070 や画像出力デバイスであるプリンタ 2080を介してスキャンやプリント等の機能を実現 する。また、 LAN2020を介して文書管理システム 2060や PC (図示せず)等の外部 機器と通信して、文書の保管、読み出しや検索等の機能を実現すると共に、公衆回 線 (PSTN) 2010にも接続されファクシミリ機能を実現している。それらの機能をユー ザに提供するためのユーザインターフェース (UI)として操作部 2050が接続されて ヽ る。
[0029] CPU2001は、メインユニット 2000全体を制御するコントローラである。 RAM2002 は、 CPU2002が動作するためのシステムワークメモリであり、画像データを一時記 憶するための画像メモリとしても使用される。 ROM2003は、ブート ROMであり、シス テムのブートプログラムが格納されている。 HDD2004は、ハードディスクドライブで あり、システムソフトウェア、画像データやその画像データに関連する属性データおよ びその他のユーザデータ等を格納する。後述する文書検索のための操作フローは、 例えば、 HDD2004に格納されたシステムソフトウェアを実行することによって実現さ れる。
[0030] 操作部 IZF2006は、操作部 2050とのインターフェース部であり、操作部 2050に 設けた表示装置 6000に表示する画像データを操作部 2050に対して出力する。ま た、操作部 2050からユーザが入力した情報を、 CPU2001に伝える役割を担う。
[0031] Network2007は、 LAN2020に接続され、 LAN2020上に接続された文書管理シ ステム 2060や PC等の外部機器と情報の入出力を行う。本文書検索装置 1000は、 ネットワーク通信プロトコルとして TCP/IPをサポートし、文書管理システム 2060も、 TCP/IP通信プロトコルに従って通信を行うものとする。
[0032] MODEM2008は、公衆回線(PSTN) 2010に接続され、ファクシミリ機能を用い て公衆回線 2010上に配置されたファクシミリ装置(図示せず)と画像データの通信を 行う。以上のデバイスがシステムバス 2009に接続されて配置される。
[0033] Image Bus IZF2005は、システムバス 2009と画像データを高速で転送する画像 バス 2030と接続される、データ構造を変換するバスブリッジである。画像バス 2030 は、 PCIバスまたは IEEE1394バスで構成される。 [0034] 画像バス 2030上には以下のデバイスが配置される。すなわち、ラスターイメージプ 口セッサ(RIP) 2031は、 LAN2020上に接続された PC等から入力される PDLコー ドをビットマップイメージに展開する。デバイス IZF部 2032は、画像入出力デバイス であるスキャナ 2070やプリンタ 2080とメインユニットコントローラ 2000を接続し、画 像データの同期系 Z非同期系の変換を行う。
[0035] スキャナ画像処理部 2033は、スキャナ 2070から入力された画像データに対して、 補正、加工、編集等の処理を行う。また入力された画像データがカラーイメージか白 黒イメージかを、画像データの彩度信号から判断しその結果を保持する機能を有す る。
[0036] プリンタ画像処理部 2034は、プリンタから出力する画像データに対して、補正、加 ェ、編集等の処理を行う。画像回転部 2035は、スキャナ画像処理部 2033と連携し て、スキャナ 2070からの画像の読み込みと同時に、読み込まれた画像データを回転 して RAM2002に格納したり、 RAM2002にある画像データの回転処理を行う。更 【こ、 HDD2004ちしく ίま RAM2002【こある画像データを、プリンタ画像処理咅 2034 と連携して回転させながら印字出力させることができる。
[0037] 解像度変換部 2037は、 RAM2002にある画像データの解像度を変換処理し、再 度 RAM2002に格納する。色空間変換部 2038は、マトリクス演算により、例えば RA Μ2002にある YUV画像データを Lab画像データに変換し、再度 RAM2002に格 納する。階調変換部 2039は、例えば RAM2002にある 8ビット、 256階調の画像デ ータを、誤差拡散処理などの手法により 1ビット、 2階調の画像データに変換し、再度 RAM2002に格納する。画像圧縮伸長部 2036は、多値画像データに対して〖お PE G、 2値画像データに対して ίお BIG、 MMR、 MR、 MH等のフォーマットに従って圧 縮 Z伸張処理を行う。
[0038] 画像回転部 2035、解像度変換部 2037、色空間変換部 2038、階調変換部 2039 、画像圧縮伸長部 2036はそれぞれ連結して動作することが可能であり。例えば RA M2002にある画像データを回転させると同時に解像度変換する場合は、両処理を ー且 RAM2002に格納することなしに行うことができる。
[0039] 図 3は、本実施形態の文書検索装置 1000の概観を示す図である。図 1で説明した ように、本実施形態の文書検索装置 1000は、複写機能、ファクシミリ機能、プリンタ 機能、文書管理機能を備えた複合機としてユーザに提供されて 、る。
[0040] 画像入力デバイスであるスキャナ部 3001は、原稿となる紙等の記録媒体上の画像 を照射し、 CCDラインセンサを走査することで、画像をラスタイメージデータとして電 気信号に変換する。原稿用紙を原稿フィーダ 3002のトレイにセットし、ユーザが操作 部 3006から読み取りの開始を指示することにより、図 2で示したメインユニットコント口 ーラ CPU2001がスキャナ 2070に指示を与える。これに応じて原稿フィーダ 3002は 原稿用紙を 1枚ずつ搬送し、原稿の読み取り動作を開始する。
[0041] 画像出力デバイスであるプリンタ部 3003は、ラスタイメージデータを用紙上に印字 画像として出力する部分であり、その方式は問わない。例えば、感光体ドラムや感光 体ベルトを用いた電子写真方式や、微小ノズルアレイ力 インクを吐出して用紙上に 直接画像データを印字するインクジェット方式等の 、ずれでもよ ヽ。
[0042] プリント動作は、コントローラである CPU2001からの指示によって開始する。プリン タ部 3003は、異なる用紙サイズまたは異なる用紙向きを選択できるように複数の給 紙段 3004を有しており、それに対応した用紙カセットをセットして使用する。また、排 紙トレイ 3005は、印字し終わった用紙を受け取るものであり、コントローラである CPU 2001からの指示によってソート、ステープル等の後処理を行うことも可能である。
[0043] 図 1で示したメインユニット 1001および文書管理システム 1005は、装置内部に配 置され、外観上力 確認できない。
[0044] 図 4は、本実施形態の文書検索装置 1000のメインユニットのソフトウェア構成を示 す図である。本構成図で示すソフトウェアは、図 2で示した HDD2004に格納されて いる。
[0045] 4001は、操作部 2050を制御する UI制御マネージャであり、ユーザの指示を下層 のモジュールに伝えたり、下層力もの情報を操作部 2050の表示装置 6000に表示し たりするための制御を行う。 4002は、ネットワークを介して指示や情報を受け取ったり 、メインユニットからの指示や情報を送信したりする制御を行うネットワーク制御マネー ジャである。
[0046] 4003、 4004は、 UI制御マネージャ 4001からの指示を受け、後述する各部のマネ 一ジャにコピージョブ、送信ジョブを実行させるためのコピーアプリケーション部、送 信アプリケーション部である。
[0047] 4005は、文書管理システム 1005と通信を行って、文書管理機能を提供する文書 管理アプリケーション部である。後述する検索処理の制御は、本文書管理アプリケー シヨン部 4005によって行われる。また文書管理アプリケーション部 4005は、文書デ ータに含まれる画像データよりテキスト情報を抽出するための OCRエンジン 4006、 及び文書データに含まれる画像データより所望の領域の画像データを抽出するため のブロックセレクション(BS)エンジン 4007と接続されて!、る。
[0048] 本実施形態の BSエンジン 4007は、画像データ内にある画像エリア及び文字エリ ァを識別し、それらのエリアの種別、画像データ内における位置、サイズ等の情報を 生成する。また、 BSエンジン 4007は、画像エリア及び文字エリア以外の種々の属性 ブロック (表ブロック、線画ブロック、背景ブロック等)の判定を行い、それぞれの属性 毎にブロック (エリア)の抽出も可能である。
[0049] 4008は、下層の各部のマネージャの機器依存部分を吸収するための共通インタ 一フェース部である。 4009は、共通インターフェース部 4008から受け取ったジョブ 情報を整理し、下層の機器に密着した複数のマネージャ (4010〜4014)に伝達す るジョブマネージャである。受け取ったジョブがローカルコピーであれば、ジョブマネ ージャ 4009は、スキャンマネージャ 4011とプリントマネージャ 4010を制御する。
[0050] また、受け取ったジョブがファクシミリ送信ジョブであれば、ジョブマネージャ 4009は 、スキャンマネージャ 4011と文書保管のためにファイルマネージャ 4014とファタシミ リマネージャ 4012を制御する。更に、受け取ったジョブが LIPSや PostScript等の PDL プリントジョブであれば、ジョブマネージャ 4009は、 PDLマネージャ 4013とファイル マネージャ 4014とプリントマネージャ 4010を制御する。このようにジョブマネージャ 4 009は、受け取ったジョブに応じて各マネージャの起動、同期、終了等の処理を制御 する。
[0051] 図 5は、図 1で示した本実施形態の文書検索装置 1000内に配置されている文書管 理システム 1005のソフトウェア構成を示す図である。文書管理システム 1005は、文 書の保管、取得、検索といった機能をメインユニット 1001に提供する。なお、図 5の 5 004及び 5005は、図 4の 4006及び 4007と同じ咅分をそれぞれ示して! /、る。
[0052] 5001は、ネットワーク制御部であり、メインユニット 2000のネットワーク制御マネー ジャ 4002と通信のための制御を行う。 5002は検索制御部であり、メインユニット 200 0から依頼された検索のための処理を行ったり、保管された文書データの検索用イン デッタス作成のための処理を行う。
[0053] 5003は、イメージ文書処理部であり、サムネイル画像データの作成や必要に応じ て画像変換といった処理を行う。また、登録された文書データに応じて検索用のイン デッタスを文書データから抽出する処理を行う。つまり、文書管理システム 1005に登 録される文書データは、イメージ文書処理部 5003によって所定のフォーマットに変 換される。そして、画像データに関しては、ブロックセレクション(BS)エンジン 5005を 利用して、文書データに含まれる画像エリアが抽出される。一方、テキスト(文字)デ ータに関しては、 OCRエンジン 5004を用いて、文書データに含まれる画像データか らインデックスデータ及び固定文字情報が抽出される。
[0054] 5006は、文書管理制御部であり、文書管理に関するすべての処理の振り分けを行 つている。 5007は、文書管理システム側で使用するテンポラリデータの格納場所で ある。
[0055] 5008は、データベース制御部であり、データベースに保存する各種データを作成 し、ボリュームデータベース 5009、属性データベース 5010、全文検索用データべ一 ス 5011、画像検索用データベース 5012に対応する各種データを保存する処理を 行う。また、データベース制御部 5008は、メインユニット 1001からの要求に応じてそ れぞれのデータベース力 データを読み出し、メインユニットに渡す文書データを作 成する処理を行う。
[0056] ボリュームデータベース 5009は、文書データの実体が保存されるデータベースで ある。なお、ボリュームデータベースは概念的なものであって、実体が文書管理シス テム 1005の OS上のファイルシステムであっても問題はない。属性データベース 501 0は、文書データの名前や作成日付、コメントなどの属性に関する情報が保存される データベースである。全文検索用データベース 5011は、登録された文書データから OCRエンジン 5004によって抽出されたインデックスデータや固定文字情報が登録さ れるデータベースである。メインユニット 1001で全文検索が指示されると、全文検索 データベース 5011内での検索が行われる。画像検索用データベース 5012は、登 録された文書データからブロックセレクションに BSエンジン 5005によって抽出された 画像エリアの特徴が文書データに関連付けて登録されるデータベースである。メイン ユニット 1001で画像検索が指示されると、検索対象画像データの特徴にしたがって 画像検索用データベース 5012が検索され、関連付けされた文書データが検出され る。
[0057] 図 6は、本実施形態における検索処理において、操作部 2050に備えられた表示 部 6000に表示される画面の遷移の一例を示す図である。本図を用いて本実施形態 での検索処理のフローについて説明する。
[0058] 6001は最初に表示される基本画面である。本実施形態における操作部 2050は、 表示装置 6000にタツチパネルを使用しており、画面上に表示されたボタンを押すこ とで対応する機能が実行される。本例では、コピー、送信、検索を含む 10の機能に 対応した複数のボタンが表示されている。本例では、検索に関しては、基準による検 索(Searchwith Criteria)と、原稿の検索(Searchfor Original)との 2つの機能に対応し たボタン 6050、 6060が表示されている。ここで、基準による検索とは、検索キーとし て指定された画像やキーワードを含む文書データを検索することを意味する。一方、 原稿の検索とは、読み取った 1ページの原稿画像と全体が一致する文書データを検 索することを意味する (複数ページの原稿を読み取らせた場合、全ページの原稿画 像が一致する文書データを検索)。
[0059] 6002は、基本画面 6001で基準による検索(Searchwith Criteria)ボタン 6050力 S押 された後に表示される画面である。この画面において、画像検索(ImageSearch)か、 キーワード検索(KeywordSearch via OCR)のいずれかをボタン 6070、 6080で選択 する。
[0060] 6002の画面で画像検索が選択された場合は、 6013の画面が表示され、検索キー として使用する画像データを抽出するための原稿の入力待ちのステータスになる。
[0061] 画面 6013が表示された状態で、ユーザが原稿をセットして読み取り開始 (ScanStar t)ボタンを押すと、原稿が読み込まれ、読み込まれた画像データ力も BSエンジンに よって画像エリアが抽出される。抽出された画像エリアは縮小画像 (サムネイル)とし て 6014の画面に表示される。本例では 3つの縮小画像が表示されている。ユーザは 検索キーとして使用する画像データをこの画面 6014で選択し、検索開始 (SearchSta rt)ボタンを押して検索を実行させる。選択するためには縮小画像として表示されて!ヽ るエリアをタツチするだけでよぐ選択中であることを示すために、例えば縮小画像の 左上に設けられたチェックボックスにマークが表示される。本実施形態においては、 検索キーとして複数の画像データを選択することも可能であり、その場合には、複数 の画像データの論理積 (AND)で検索するか、複数の画像データの論理和(OR)で 検索するのかを選択可能である。
[0062] ユーザが検索開始ボタンを押すと、メインユニット 1001から文書管理システム 1005 に対して画像検索の指示が発行され、文書管理システム 1005は検索を実行してそ の結果をメインユニット 1001に対して返す。結果を返されたメインユニット 1001は、 6 015で示す画面に検索結果を表示する。この画面 6015には、検索結果として、文書 名、一致率 (類似度)、更新日、格納場所等の情報がリストで表示されている。ユーザ はこの画面 6015から所望の文書データを選択して、印刷、送信等の操作を実行す ることがでさる。
[0063] 一方、画面 6002で、キーワード検索が選択された場合は、 6023の画面が表示さ れ、キーワードを抽出するための原稿の入力待ちのステータスになる。
[0064] 画面 6013が表示された状態で、ユーザが原稿をセットして読み取り開始 (ScanStar t)ボタンを押すと、原稿が読み込まれ、読み込まれた画像データカゝら OCRエンジン によってキーワードが抽出される。抽出されたキーワードは 6024の画面に一覧表示 される。ユーザは検索キーとして使用するキーワードをこの画面 6024で選択し、検索 開始 (SearchStart)ボタンを押して検索を実行させる。選択するためにはキーワードと して表示されているエリアをタツチするだけでよぐ選択中であることを示すために、例 えばキーワードの左に設けられたチェックボックスにマークが表示される。本実施形 態においては、検索キーとして複数のキーワードを選択することも可能であり、その場 合には、複数のキーワードの論理積 (AND)で検索する力、複数のキーワードの論 理和(OR)で検索するのかを選択可能である。 [0065] ユーザが検索開始ボタンを押すと、メインユニット 1001から文書管理システム 1005 に対してキーワード検索の指示が発行され、文書管理システム 1005は検索を実行し てその結果をメインュ-ット 1001に対して返すことになる。結果を返されたメインュ- ット 1001は、 6025で示す画面に検索結果を表示する。この画面 6025〖こは、検索結 果として、文書名、一致率 (類似度)、更新日、格納場所等の情報がリストで表示され ている。ユーザはこの画面 6025から所望の文書データを選択して、印刷、送信等の 操作を実行することができる。
[0066] 図 7は、本実施形態の文書検索装置 1000において、画像検索を選択してから検 索を実行するまでにメインユニットで実行される処理を示すフローチャートである。ここ で行われる処理は、図 6において、画面 6013及び画面 6014が表示された状態での 処理に相当する。
[0067] 画像検索が選択され、検索キーとする画像を抽出する原稿をセットして読み取り開 始が指示されると、メインユニット 2000はスキャナ部 2070を起動して、原稿の読み取 り処理を実行する(ステップ S7001)。ここで読み取った画像データは、 HDD2004 に一時的に保存される。
[0068] 次に、保存された画像データに対してブロックセレクション (BS)を実行する (ステツ プ S7002)。この処理は文書管理アプリケーション 4005の指示により、 BSエンジン 4 007で実行される。ブロックセレクションの結果、画像エリアがあるかどうかを判断し( ステップ S7003)、画像エリアがなければ処理を終了する。一方、画像エリアがあった 場合は、保存された画像データカゝら対応する画像エリアを抽出して RAM2002に保 存しておく(ステップ S7004)。
[0069] 次に、抽出した画像エリアから画像特徴を抽出する (ステップ S7005)。この処理で は、画像のエッジ情報や、色情報、配置パターン等を画像の特徴として抽出し、ファ ィルとして HDD2004に保存しておく。本実施形態では、 HDD2004に保存する際 のファイル名としては、 AREA01.xml、 AREA02.xmlというように所定の名称の後に番号 を連番でつけたものとする。メインユニット 2000から文書管理システム 2060へ画像 検索指示を発行するときには、この画像特徴の情報を検索キーとして検索指示を発 行する。こうすることにより、画像データそのものを検索キーとして渡すよりも転送する データ量を低減することが可能になる。この画像特徴の抽出処理は、文書管理アプリ ケーシヨン 4005で実行される。
[0070] その後、抽出した画像データの縮小画像 (サムネイル)を作成して HDD2004に保 存する(ステップ S7006)。ここでも保存する名前としては、 AREA01.jpg、 AREA02.jpg というように、所定の名称の後に番号を連番でつけたものとする。本実施形態では、 1 つの画像エリア毎に処理が行われるので、このようにすると、ステップ S7005で作成 した画像特徴情報と縮小画像とを関連付けることが可能になる。
[0071] そして、次の画像エリアがあるかどうかを判断し (ステップ S7007)、まだ画像エリア がある場合には、ステップ S7004に戻り、以降の処理を繰り返す。次の画像エリアが ない場合には、全ての画像エリアに対する処理が終了したと判断し、ステップ S7006 にお 、て保存した縮小画像を画面 6014で一覧表示する(ステップ S7008)。
[0072] ユーザが検索キーとして使用する画像データを選択して検索開始が指示されると( ステップ S7009)、メインユニット 2000は選択された画像データに対応する画像特徴 情報を検索キーとして文書管理システム 2060へ画像検索指示を発行し (ステップ S7 010)、処理を終了する。
[0073] 図 8は、本実施形態の文書検索装置 1000において、キーワード検索を選択してか ら検索を実行するまでにメインユニットで実行される処理を示すフローチャートである 。ここで行われる処理は、図 6において、画面 6023及び画面 6024が表示された状 態での処理に相当する。
[0074] キーワード検索が選択され、キーワードを抽出する原稿をセットして読み取り開始が 指示されると、メインユニット 2000はスキャナ部 2070を起動して、原稿の読み取り処 理を実行する(ステップ S8001)。ここで読み取った画像データは、 HDD2004に一 時的に保存される。
[0075] 次に、保存された画像データに対してブロックセレクション (BS)を実行する (ステツ プ S8002)。この処理は文書管理アプリケーション 4005の指示により、 BSエンジン 4 007で実行される。ブロックセレクションの結果、文字エリアがあるかどうかを判断し( ステップ S8003)、文字エリアがなければ処理を終了する。一方、文字エリアがあった 場合は、保存された画像データから対応する文字エリアを抽出して RAM2002に保 存しておく(ステップ S8004)。
[0076] その後、抽出した文字エリアを OCRにかけて文字列を抽出する (ステップ S8005) 。この処理は OCRエンジン 4006によって実行される。更に、抽出した文字列に対し て形態素解析処理を施して名詞を取り出し、取り出した名詞の出現頻度や出現位置 など力も優先順位をつけてリストイ匕してキーワード一覧として HDD2004に保存して おく。既に保存されているキーワードがあれば、そこに追加する形で保存を実行する (ステップ S8006)。このキーワードの抽出処理は文書管理アプリケーション 4005で 実行される。
[0077] そして、次の文字エリアがあるかどうかを判断し (ステップ S8007)、まだ文字エリア がある場合には、ステップ S8004に戻り、以降の処理を繰り返す。次の文字エリアが ない場合には、全てのエリアに対する処理を終了したと判断し、ステップ S8006にお V、て保存したキーワード一覧を画面 6024で表示する(ステップ S8008)。
[0078] ユーザが検索キーとして使用するキーワードを選択して検索開始が指示されると( ステップ S8009)、メインユニット 2000は選択されたキーワードを検索キーとして文書 管理システム 2060へ全文検索指示を発行し (ステップ S8010)、処理を終了する。
[0079] 以上説明したように、本実施形態では、読み取った原稿内の画像データに対応し た縮小画像の一覧が表示され、ユーザはその中から検索キーとして使用する画像デ ータを容易に選択することが出来る。
[0080] 従って、ユーザに容易でわかりやすい手法で検索キーとなる画像データの指定や 入力が可能となり、ユーザの利便性が向上する。
[0081] <その他の実施形態 >
上記実施形態で説明した構成や処理フロー、操作画面等は、あくまで一例であり、 本発明の目的を達成できるものであれば、構成や処理の手順を変更あるいは修正し ても良い。
[0082] 例えば、上記実施形態では、読み取った原稿にある画像エリアに対応した縮小画 像 (サムネイル)を表示する。し力しながら、表示領域のサイズと画像エリアの数ゃサ ィズとの関係から一覧表示が可能であれば、そのままのサイズで表示しても良い。こ の場合、一覧表示が可能力否かを判定し、可能でない場合には、一覧表示できるサ ィズまで各画像を縮小するようにしたり、一覧表示する画像の数に応じて縮小率を変 更するようにしてちょい。
[0083] 更に、上記実施形態では操作部に備える表示装置が、表示画面上にタツチパネル を有するものとした力 タツチパネル以外の操作手段 (キーやボタン等)によって一覧 表示された画像から検索に使用する画像を選択する構成としても良い。
[0084] また、画像データのフォーマットについても上記実施形態で例示したものに限定さ れず、適宜適切なものを使用できる。
[0085] また、上記実施形態では画像データを検索キーとする場合と文字を検索キーとする 場合とで区別するようにしたが、これに限ることなぐ画像データと文字列の論理和、 論理積による検索も可能である。
[0086] また、画像、文字の検索キーに加え、操作部力 さらに検索条件 (文書の作成日時
、更新日時、格納場所、文書名、ファイル種別、文字列など)を付加することによりより 精度の高 ヽ検索を行えるようにしてもょ 、。
[0087] また、原稿内の画像、文字を検索キーとするのに加え、ブロックセレクションの結果 で得た他の属性 (表、線画、背景)を検索キーとしてもよい。
[0088] 以上、本発明の実施形態について詳述したが、本発明は、複数の機器から構成さ れる文書検索システムに適用しても良いし、また、一つの機器からなる文書検索装置 に適用しても良い。
[0089] 例えば、上記実施形態では、本発明を、スキャナ機能、コピー機能、プリンタ機能、 ファクシミリ機能を有する複合機に適用したものについて説明した。これらの機能のう ち、コピー機能やファクシミリ機能及びプリンタ機能は必須ではない。従って、スキヤ ナ (読取装置)と、メインユニット及び操作部に対応するコンピュータ等の情報処理装 置とで構成されるシステムでも本発明を実施できる。この場合、上記実施形態におけ る文書管理システムは、該コンピュータ装置の内部に設けても、ネットワークを介して 接続される外部装置としても良い。
[0090] 文書管理システムを外部装置とする場合、それを複数設け、検索の際、どの外部装 置力も検索する力を指定可能としてもょ 、し、検索可能な全ての外部装置力も検索 するようにしてちょい。 [0091] また、検索キーの抽出は、スキャナ機能で原稿を読み取った画像の画像データとし た力 それ以外の画像データでもよい。例えば、ファクシミリ受信した画像データや L AN2020等のネットワークを介して電子メール機能や FTP機能で受信した画像デー タ、 Webサーノ から受信したデータに含まれる画像データ力も抽出してもよい。また、 印刷クライアントから受信した印刷データでもよい。そして、それらを HDD2004に保 存しておき、操作部 2050からユーザに選択させ、検索キーの抽出を行えばよい。
[0092] なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、 システム或いは装置に直接或いは遠隔力 供給し、そのシステム或いは装置のコン ピュータが該供給されたプログラムを読み出して実行することによつても達成され得る 。上記実施形態では、図 7及び図 8のフローチャートに対応したプログラムである。そ の場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
[0093] 従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにイン ストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明 のクレームでは、本発明の機能処理を実現するためのコンピュータプログラム自体も 含まれる。
[0094] その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより 実行されるプログラム、 OSに供給するスクリプトデータ等、プログラムの形態を問わな い。
[0095] プログラムを供給するための記録媒体としては、様々なものが使用できる。例えば、 フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、 MO、 C D— ROM、 CD-R, CD-RW,磁気テープ、不揮発性のメモリカード、 ROM, DV D (DVD-ROM, DVD—R)などである。
[0096] その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用い てインターネットのホームページに接続し、該ホームページ力もハードディスク等の記 録媒体にダウンロードすることによつても供給できる。その場合、ダウンロードされるの は、本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機 能を含むファイルであってもよ 、。
[0097] また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、 それぞれのファイルを異なるホームページ力 ダウンロードすることによつても実現可 能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファ ィルを複数のユーザに対してダウンロードさせる wwwサーバも、本発明のクレーム に含まれるものである。
[0098] また、本発明のプログラムを暗号化して CD— ROM等の記憶媒体に格納してユー ザに配布する形態としても良い。その場合、所定の条件をクリアしたユーザに対し、ィ ンターネットを介してホームページから暗号ィ匕を解く鍵情報をダウンロードさせ、その 鍵情報を使用することにより暗号化されたプログラムが実行可能な形式でコンビユー タにインストールされるようにする。
[0099] また、コンピュータが、読み出したプログラムを実行することによって、前述した実施 形態の機能が実現される形態以外の形態でも実現可能である。例えば、そのプログ ラムの指示に基づき、コンピュータ上で稼動している OSなど力 実際の処理の一部 または全部を行な 、、その処理によっても前述した実施形態の機能が実現され得る
[0100] さらに、記録媒体力 読み出されたプログラム力 コンピュータに挿入された機能拡 張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる ようにしてもよい。この場合、その後で、そのプログラムの指示に基づき、その機能拡 張ボードや機能拡張ユニットに備わる CPUなどが実際の処理の一部または全部を行 な!、、その処理によって前述した実施形態の機能が実現される。
[0101] 本発明は上記実施の形態に制限されるものではなぐ本発明の精神及び範囲から 離脱することなぐ様々な変更及び変形が可能である。従って、本発明の範囲を公に するために、以下の請求項を添付する。
[0102] 本願は、 2005年 7月 28日提出の日本国特許出願特願 2005— 219441を基礎とし て優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims

請求の範囲
[1] 保存された複数のデータから所定の検索キーに基づいて所望のデータを検索する 検索装置であって、
原稿画像を読み取って画像データを得る読み取り手段と、
前記画像データ内にある画像領域を抽出する領域抽出手段と、
情報を表示するための表示手段と、
指示を入力するための入力手段と、
前記領域抽出手段で抽出された前記画像領域に対応する複数の画像を前記表示 手段に一覧表示させる一覧表示手段と、を備え、
前記一覧表示された前記複数の画像の少なくとも 1つを前記入力手段によって選 択するとき、選択された前記画像を検索キーとして用いて検索を行うように構成され て!、ることを特徴とする検索装置。
[2] 前記画像データのサイズを縮小する縮小手段を更に備え、
前記一覧表示手段は、前記画像抽出手段で抽出した画像領域に対応する前記画 像の縮小画像を前記表示手段に一覧表示させることを特徴とする請求項 1に記載の 検索装置。
[3] 画像の情報を検索キーとして検索を行う画像検索モードと、文字列を検索キーとし て検索を行うキーワード検索モードとの 2つの検索モードを有し、
指定された前記画像領域内の文字情報を抽出する OCR手段と、
抽出された文字情報力 所定の規則に従ってキーワードを抽出するキーワード抽 出手段と、を更に備え、
前記キーワード検索モードが指定されたときに、前記領域抽出手段は、前記画像 データ内にある文字領域を抽出し、
前記一覧表示手段は、前記領域抽出手段で抽出した前記文字領域に対して、前 記 OCR手段及び前記キーワード抽出手段を用いて前記キーワードを抽出し、抽出さ れた前記キーワードを前記表示手段に一覧表示させ、
該一覧表示された前記キーワードの少なくとも 1つを前記入力手段によって選択す るとき、選択された前記キーワードを検索キーとして用いて検索を行うように構成され ていることを特徴とする請求項 1又は 2に記載の検索装置。
[4] 前記検索キーとして選択された前記画像の特徴情報を用いて検索を行うことを特 徴とする請求項 1から 3のいずれか 1項に記載の検索装置。
[5] 前記特徴情報は、画像のエッジ情報、色情報、及び配置パターンの少なくともいず れかを含むことを特徴とする請求項 4に記載の検索装置。
[6] 前記表示手段は表示画面を有し、前記入力手段は該表示画面上に設けられたタツ チパネルを含むことを特徴とする請求項 1から 5のいずれか 1項に記載の検索装置。
[7] 少なくとも読み取り機能とプリント機能とを有する複合機であることを特徴とする請求 項 1から 6のいずれか 1項に記載の検索装置。
[8] 保存された複数のデータ力 所定の検索キーに基づいて所望のデータを検索する 検索方法であって、
原稿画像を読み取って画像データを得る読み取り工程と、
前記画像データ内にある画像領域を抽出する領域抽出工程と、
前記領域抽出工程で抽出した画像領域に対応する画像を、情報を表示するため の表示手段に一覧表示させる一覧表示工程と、
指示を入力するための入力手段によって、該一覧表示された画像の少なくとも 1つ を選択するのに応じ、選択された画像を検索キーとして用いて検索を行う画像検索 工程と、備えることを特徴とする検索方法。
[9] 請求項 8に記載の検索方法の各工程をコンピュータ装置によって実行させるプログ ラムコードを含むコンピュータプログラム。
[10] 請求項 9に記載のコンピュータプログラムを格納したコンピュータ可読記憶媒体。
PCT/JP2006/314572 2005-07-28 2006-07-24 検索装置及び検索方法 WO2007013399A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006800276513A CN101233511B (zh) 2005-07-28 2006-07-24 检索设备和检索方法
US11/551,904 US8326090B2 (en) 2005-07-28 2006-10-23 Search apparatus and search method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005219441A JP2007034847A (ja) 2005-07-28 2005-07-28 検索装置及び検索方法
JP2005-219441 2005-07-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/551,904 Continuation US8326090B2 (en) 2005-07-28 2006-10-23 Search apparatus and search method

Publications (1)

Publication Number Publication Date
WO2007013399A1 true WO2007013399A1 (ja) 2007-02-01

Family

ID=37683296

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/314572 WO2007013399A1 (ja) 2005-07-28 2006-07-24 検索装置及び検索方法

Country Status (4)

Country Link
US (1) US8326090B2 (ja)
JP (1) JP2007034847A (ja)
CN (1) CN101233511B (ja)
WO (1) WO2007013399A1 (ja)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004165863A (ja) * 2002-11-12 2004-06-10 Murata Mach Ltd カラー画像送信装置
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8868555B2 (en) * 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US7991778B2 (en) * 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8005831B2 (en) * 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US8086038B2 (en) * 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US7920759B2 (en) 2005-08-23 2011-04-05 Ricoh Co. Ltd. Triggering applications for distributed action execution and use of mixed media recognition as a control input
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8195659B2 (en) * 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US7669148B2 (en) * 2005-08-23 2010-02-23 Ricoh Co., Ltd. System and methods for portable device for mixed media system
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8156116B2 (en) * 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8276088B2 (en) * 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8600989B2 (en) * 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US7917554B2 (en) * 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US8510283B2 (en) * 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US7885955B2 (en) * 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US8385589B2 (en) * 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8176054B2 (en) * 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8838591B2 (en) * 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US9063952B2 (en) * 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8201076B2 (en) * 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9176984B2 (en) * 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8489987B2 (en) * 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8073263B2 (en) * 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US8396331B2 (en) * 2007-02-26 2013-03-12 Microsoft Corporation Generating a multi-use vocabulary based on image data
JP4433327B2 (ja) * 2007-12-11 2010-03-17 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN101510934B (zh) * 2009-03-20 2014-02-12 北京中星微电子有限公司 一种数码像框及其显示照片的方法
US8385660B2 (en) * 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
JP2011050038A (ja) * 2009-07-27 2011-03-10 Sanyo Electric Co Ltd 画像再生装置及び撮像装置
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
CN102436477A (zh) * 2011-10-11 2012-05-02 鸿富锦精密工业(深圳)有限公司 具关联内容搜索功能的装置及方法
US10380554B2 (en) * 2012-06-20 2019-08-13 Hewlett-Packard Development Company, L.P. Extracting data from email attachments
US20150169971A1 (en) * 2012-09-07 2015-06-18 Mark Joseph Cummins Character recognition using search results
JP5998807B2 (ja) * 2012-09-28 2016-09-28 株式会社メルコホールディングス 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム
KR102090269B1 (ko) 2012-12-14 2020-03-17 삼성전자주식회사 정보 검색 방법, 그와 같은 기능을 갖는 디바이스 및 기록 매체
JP5879286B2 (ja) * 2013-02-27 2016-03-08 京セラドキュメントソリューションズ株式会社 検索システム利用装置
KR102309175B1 (ko) * 2014-08-29 2021-10-06 삼성전자주식회사 스크랩 정보를 제공하는 전자 장치 및 그 제공 방법
JP6470636B2 (ja) * 2015-06-04 2019-02-13 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム
CN106131422B (zh) * 2016-07-26 2019-08-06 广东小天才科技有限公司 一种确定拍照内容的方法及装置
US11295124B2 (en) * 2018-10-08 2022-04-05 Xerox Corporation Methods and systems for automatically detecting the source of the content of a scanned document
CN111753118A (zh) * 2019-03-29 2020-10-09 杭州海康威视数字技术股份有限公司 车辆检索方法、装置、电子设备及可读存储介质
JP7363188B2 (ja) * 2019-08-21 2023-10-18 京セラドキュメントソリューションズ株式会社 画像読取装置及び画像形成装置
WO2025041187A1 (ja) * 2023-08-18 2025-02-27 日本電気株式会社 処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103483A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 情報検索装置
JPH10340272A (ja) * 1997-06-09 1998-12-22 Toshiba Corp 類似画像検索装置及び方法
JP2890482B2 (ja) * 1989-06-13 1999-05-17 富士ゼロックス株式会社 文書画像再配置ファイリング装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE202251T1 (de) * 1991-08-19 2001-06-15 Oki America Inc Multifunktionelles dokumentenverarbeitungssystem
JPH05274368A (ja) 1992-03-25 1993-10-22 Toshiba Corp 画像記憶装置
JPH05274367A (ja) 1992-03-25 1993-10-22 Toshiba Corp 画像記憶装置
JPH08263512A (ja) * 1995-03-24 1996-10-11 Sumitomo Electric Ind Ltd 文書検索装置
US5913215A (en) * 1996-04-09 1999-06-15 Seymour I. Rubinstein Browse by prompted keyword phrases with an improved method for obtaining an initial document set
US6910184B1 (en) * 1997-07-25 2005-06-21 Ricoh Company, Ltd. Document information management system
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
GB0016974D0 (en) * 2000-07-12 2000-08-30 Univ Salford The Document retrieval system
JP4148642B2 (ja) * 2000-10-26 2008-09-10 株式会社リコー 類似画像検索装置、及びコンピュータ読み取り可能な記録媒体
JP2002269135A (ja) * 2001-03-13 2002-09-20 Matsushita Electric Ind Co Ltd 情報検索支援装置
TW501035B (en) * 2001-03-20 2002-09-01 Ulead Systems Inc Interactive image searching method based on local object
US20020194166A1 (en) * 2001-05-01 2002-12-19 Fowler Abraham Michael Mechanism to sift through search results using keywords from the results
JP3615162B2 (ja) * 2001-07-10 2005-01-26 日本電気株式会社 画像符号化方法及び画像符号化装置
JP2004334339A (ja) * 2003-04-30 2004-11-25 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4366119B2 (ja) * 2003-05-29 2009-11-18 キヤノン株式会社 文書処理装置
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US7610274B2 (en) * 2004-07-02 2009-10-27 Canon Kabushiki Kaisha Method, apparatus, and program for retrieving data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2890482B2 (ja) * 1989-06-13 1999-05-17 富士ゼロックス株式会社 文書画像再配置ファイリング装置
JPH103483A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 情報検索装置
JPH10340272A (ja) * 1997-06-09 1998-12-22 Toshiba Corp 類似画像検索装置及び方法

Also Published As

Publication number Publication date
CN101233511A (zh) 2008-07-30
JP2007034847A (ja) 2007-02-08
CN101233511B (zh) 2012-06-13
US8326090B2 (en) 2012-12-04
US20070041668A1 (en) 2007-02-22

Similar Documents

Publication Publication Date Title
WO2007013399A1 (ja) 検索装置及び検索方法
CN1936826B (zh) 图像形成方法
US20180241894A1 (en) Image processing apparatus, control method therefor, and control program therefor
KR100962724B1 (ko) 문서 검색 장치, 문서 관리 시스템, 문서 검색 시스템, 및문서 검색 방법
US8953191B2 (en) Document management system
JP2000083232A (ja) 通信装置、情報処理装置、通信システム、通信方法、及び記憶媒体
JP5660100B2 (ja) 文書管理サーバ、文書管理サーバの制御方法、およびそのプログラム、文書管理システム、文書管理システムの制御方法、およびそのプログラム
JP4623469B2 (ja) プリントサーバおよびプリントシステムおよびプリント方法およびプログラムおよび記録媒体
JP5424619B2 (ja) ワークフロー実行システム、ワークフロー実行装置およびその制御方法、プログラム、記憶媒体
US20070083508A1 (en) Document search apparatus and method
US20090150359A1 (en) Document processing apparatus and search method
US8867091B2 (en) Image processing system, image processing apparatus, image scanning apparatus, and control method and program for image processing system
JP4125097B2 (ja) 電子化原稿管理装置及びその制御方法、電子化原稿管理システム、プログラム
JP2012168982A (ja) 文書管理システム、画像処理装置、情報処理装置、文書管理方法、制御方法およびプログラム。
US20100202007A1 (en) Image processing apparatus, control method thereof, and computer program
US8605325B2 (en) Device, method, and computer readable medium for inserting a user selected thumbnail into an image file
JP5747344B2 (ja) 文書管理システム、文書管理サーバ及びその制御方法、プログラム
JP6135360B2 (ja) 情報機器およびコンピュータープログラム
JP2018099895A (ja) 画像形成装置とその制御方法及びプログラム
US20070038606A1 (en) File processing apparatus operating a file based on previous execution history of the file
JP2013042436A (ja) 画像処理装置、ファイルの保存先フォルダ決定方法及び同決定プログラム
JP2007007922A (ja) 画像処理装置
JP2014128966A (ja) 画像形成装置とその制御方法及びプログラム
JP2020123370A (ja) 項目入力装置、項目入力プログラム、及び項目入力方法
JPH1016346A (ja) ドキュメント管理方法及び装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680027651.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06781484

Country of ref document: EP

Kind code of ref document: A1