[go: up one dir, main page]

JPH06325084A - 文書処理装置及びその方法と文書表示装置及びその方法 - Google Patents

文書処理装置及びその方法と文書表示装置及びその方法

Info

Publication number
JPH06325084A
JPH06325084A JP6004256A JP425694A JPH06325084A JP H06325084 A JPH06325084 A JP H06325084A JP 6004256 A JP6004256 A JP 6004256A JP 425694 A JP425694 A JP 425694A JP H06325084 A JPH06325084 A JP H06325084A
Authority
JP
Japan
Prior art keywords
document
area
image
text
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6004256A
Other languages
English (en)
Inventor
Douglas L Palmer
エル. パーマー ダグラス
Toshiaki Yagasaki
ヤガサキ トシアキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Canon Information Systems Inc
Original Assignee
Canon Inc
Canon Information Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc, Canon Information Systems Inc filed Critical Canon Inc
Publication of JPH06325084A publication Critical patent/JPH06325084A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】文書検索の効率化を図る。 【構成】 文書画像が求められた場合、まず文書領域内
の各領域が判別され、タイトルタイプ領域、テキストタ
イプ領域、線画タイプ領域、ハーフトーンタイプ領域、
カラー画像タイプ領域等の領域タイプが決定される。そ
の結果に基づいて構造情報を生成し、文書画像と構造情
報の両方が記憶される。検索索引はタイトルタイプ領域
とテキストタイプ領域の両方あるいは一方に基づいて生
成される。検索された文書は全画像モードか高速走査検
索モードで表示される。高速走査検索モードでは、全文
書画像は表示されないが記憶された構造情報に基づいて
文書画像の枠組み構造を表示する。枠組み化レベルは文
書の領域に対してオペレータより指定される。その結果
例えば、構造のみが表示されたり、タイトルタイプ領域
のみが残りの構造と合成されて表示されたりする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、索引付けされた文書画
像を集積し、文書画像を索引 (INDEX) により検索する
方法と装置と、文書画像(DOCUMENT IMAGES)そのもので
なく文書画像の枠組み構造 (ABSRACT STRCUTRAL VIEWS)
を表示することにより高速に走査検索する方法と装置に
関する。
【0002】
【従来の技術】近年、記憶装置が大型化し、ASCII
テキストだけでなく、ファクシミリイメージの文書をそ
のまま記憶することができるようになった。特に、文書
をコンピュータ読取可能ビットマップ画像に変換して記
憶することは極くありふれたことになってきた。ASC
IIテキストの形式では、文書のテキスト部分の記憶と
表示が可能であるのに対して、コンピュータ読取可能ビ
ットマップ画像の形式では、ピクチャ、線画(line ar
t)、グラフ、テーブル、あるいは他の非テキスト形式
の対象を記憶、表示することができる。同様に、サイ
ズ、フォント、ポジション等のテキストの属性を保存す
るように文書を記憶、表示することもできる。
【0003】
【発明が解決しようとする課題】しかしながら従来の技
術では、例えば、コンピュータのオペレータが数多くの
文書画像を検索して特定の文書を検出する場合等、コン
ピュータメモリ内の文書画像を迅速に検索し、コンピュ
ータの画面に表示する画像を高速に走査検索する(brous
e)のは困難であった。この問題には少なくとも2つの要
因があると考えれれる。まず、現在のコンピュータシス
テムの駆動周波数のバンド幅による制約が、文書を記憶
装置から検索、表示する速度を制限している。例えば、
300ドット/インチの解像度で、8.5×11インチ
の白黒原稿をすべて記憶するためには約840万ビット
必要となる。画像を中間調やカラーにしたり、画像が記
憶される解像度を上げれば、すぐに何百万ビットも要す
ることになる。また、記憶装置からこれらのビットを検
索し、検索された画像を生成、表示するのに要する時間
は、たとえ現在の高速計算機と言えども無視することは
できない程のものである。文書画像が第1のコンピュー
タの記憶部から検索され、モデム等を介して第2のコン
ピュータに電子的に転送、表示される場合等には、より
多くの時間を要する。
【0004】次に、完全な文書画像、すなわち文書画像
そのものの表示は、通常、オペレータにとって必要以上
の情報であり、提供された情報の多くはオペレータの関
心から外れたものである。この不必要な情報が表示さ
れ、オペレータが自分の必要な情報かどうかを判断する
のに多くの時間が無駄になっている。こうして、オペレ
ータが本当に必要な情報を検索し、理解するのが遅れて
しまうことになる。
【0005】さらに、大量の情報を集積された文書の中
から検索しなければならないので、適切な文書を選択す
るのが困難であるという問題がある。従来の文書検索シ
ステムは通常、テキスト文書を検索するのに用いられる
テキストの索引の作成に基づいてる。テキスト文書に対
して、文書画像には光学的文字認識処理(OCR処理)
が行なわれ、得られたテキストに索引が付される。米国
特許第5,109,439号に開示されるFROESSLのシ
ステムは、索引付け処理を簡単にするために文書の特定
領域にOCR処理を行うことを示唆しているが、文書画
像を検索するのに適切な索引を作成するのは以前として
困難であることを証明している。
【0006】
【課題を解決するための手段】及び
【作用】本発明の目的は、上述の問題を解決することに
ある。
【0007】上記の目的を達成するために、本発明は完
全な文書画像そのものを表示するのではなく、文書画像
の枠組み構造(ABSTRACT STRACTURAL VIEW)を表示するこ
とによって高速で走査検索するシステムを提供する。特
に、文書画像の構造は“タイトル”、“テキスト”、
“テーブル”、“線画”、“中間調画像”等、文書中に
通常見られる項目に分類されている。これらの項目は完
全な文書画像を表す枠組み構造レイアウトの形式で表示
される。枠組み化レベルや表示の表現方法はオペレータ
により指定される。従って、分類された項目を適切なレ
イアウトで表示する枠組み化レベルの高い表示を指定す
ることもできる。同様に、タイトル等の特定タイプ部分
の文書画像を表示する、枠組み化レベルの低い表示を指
定することもできる。更に、テキストタイプの対象をテ
キストの原稿画像としてでなくASCII文字として表
示するよう指定できる。このように、完全な文書画像を
表示するより文書画像の枠組み構造を表示し、枠組み化
レベルを指定することによって、文書画像を迅速に検索
し、容易に理解できるような形式で情報が提供される。
【0008】本発明の1つの態様によれば、原稿を走査
して文書画像を求め、文書画像を処理して文書構造を判
別し、その文書構造と共に文書画像を記憶する方法と装
置が提供される。好適な例としては、文書構造は規則に
則った知識体系(RULE-BASEDKNOWLEDGE SYSTEM)を利用し
た従来のブロック選択技術により判別される。この技術
では文書の特定領域を判別し、文書画像を分解した領域
内の画像内容を判別する。好適なブロック選択技術は、
米国における1992年4月24日出願の同時係属出願
第07/073012号の“文字認識方法とその装置”
に開示されている。
【0009】また、本発明の他の態様によれば、文書画
像とそれに対応する構造を考慮した場合、文書構造を表
示し、表示された構造領域を選択的に全画像の対応する
領域と置換して求められた文書画像を表示する方法が提
供される。また、構造を表示するための枠組み化レベル
が指定され、構造表現は指定された枠組み化レベルに従
って、構造領域と完全な文書画像(あるいはASCII
テキストに相当する領域)を合成した領域を表示する。
また、視覚表示や、文書の構造や内容をテキスト/音声
変換技術で発音する音声出力も可能である。テキスト/
音声変換技術はテキストの構造と文脈情報を話言葉に変
換する。
【0010】また、本発明の他の態様によれば、文書画
像を検索するための検索索引が生成される。この態様に
よれば、文書画像を作成するために文書が走査され、タ
イトル領域等の第1タイプの文書領域と他のタイプの文
書領域を判別するブロック選択技術等により文書画像が
処理される。第1タイプ領域における文書画像は例え
ば、光学的文字認識(OCR)技術によりテキストに変
換される。変換されたテキストは、検索索引を形成する
よう索引付けられ、文書画像は索引付けされたテキスト
を参照して文書索引が検出されるように索引付けされた
テキストと共に記憶される。
【0011】また、本発明の他の態様によれば、文書画
像を検索するための検索索引を生成する方法は、第1タ
イプの文書領域と他のタイプの文書領域を判別するため
に文書画像を処理する工程と、前記第1タイプの領域内
の文書画像をテキストに変換する工程と、テキストに索
引を付する工程と、索引を付されたテキストを参照して
記憶された文書画像が検索されるように文書画像を記憶
する工程とを備えている。
【0012】また、本発明の他の態様によれば、文書画
像を検索するために検索索引を生成する装置は、原稿を
走査し、ビットマップ文書画像を出力するビットマップ
画像出力手段と、文書画像と検索索引を記憶する第1メ
モリ手段と、処理手順を記憶する第2メモリ手段と、前
記第2メモリ手段において記憶された処理手順を実行す
る処理手段とを備え、前記第2メモリ手段は処理手順と
して、(a)前記画像出力手段により走査されたビット
マップ画像を受信する工程と、(b)第1タイプの文書
領域と他のタイプの文書領域とを判別するためにビット
マップ画像を処理する工程と、(c)第1タイプ領域の
文書画像をテキストに変換する工程と、(d)テキスト
に索引を付し、前記第1メモリに記憶された索引と索引
付けられたテキストとを更新する工程と、(e)索引付
けられたテキストを参照して、記憶された文書画像が検
索されるように前記第1メモリ手段に文書画像を記憶す
る工程とを記憶している。
【0013】また、本発明の他の態様によれば、文書記
憶方法は、文書画像を形成するために文書を走査する工
程と、文書構造を決定するために文書画像を処理する工
程と、文書構造を文書画像に対応するように記憶する工
程とを備える。
【0014】また、本発明の他の態様によれば、文書を
表示する方法であって、文書画像と対応する文書構造と
を供給する供給工程と、文書構造を表示する表示工程
と、表示された文書のうち選択された領域を対応する文
書領域領域とに置換する置換工程とを備える。
【0015】また、本発明の他の態様によれば、文書表
示装置は、文書画像と対応する文書構造を供給する供給
手段と、文書構造を表示する表示手段と、表示された文
書の選択された領域を対応する文書領域と置換する置換
手段とを備える。
【0016】また、本発明の他の態様によれば、文書処
理装置は、表示手段と、文書画像と対応する文書構造か
ら前記文書画像が検索されるよう記憶する第1のメモリ
手段と、処理手順を記憶する第2のメモリ手段と、前記
第2のメモリ手段に記憶された処理手順を実行する処理
手段と備え、前記第2のメモリ手段は処理手順として、
(a)検索された文書の構造を表示手段に表示する工程
と、(b)表示された文書の選択された領域を対応する
文書領域に置換する工程とを記憶している。
【0017】また、本発明の他の態様によれば、文書画
像を検索するための索引を生成する装置は、原稿を走査
してビットマップ画像を出力する画像出力手段と、文書
画像と索引とを記憶する第1メモリ手段と、前記画像出
力手段により出力されたビットマップ画像から、第1タ
イプの文書領域と他のタイプの文書領域とを判別する判
別手段と、該判別手段により判別された第1タイプ領域
の文書画像をテキストに変換する変換手段と、該変換手
段により変換されたテキストに索引を付し、該テキスト
及び索引により前記第1メモリ手段に記憶された内容を
更新する手段と、索引付けられたテキストを参照して該
テキストに対応する文書画像が検索されるよう、テキス
トと文書画像とを対応付けて前記第1メモリ手段に記憶
する手段とを備えている。
【0018】また、本発明の他の態様によれば、文書表
示装置は、表示手段と、文書画像と該文書画像の文書構
造とを対応付けて記憶する第1メモリ手段と、検索され
た文書構造を前記表示手段に表示する表示手段と、該表
示手段により表示された文書構造における所望の領域を
該領域に対応する文書領域に置換する手段とを備えてい
る。
【0019】また、本発明の他の態様によれば、文書画
像を検索するために検索索引を生成する装置は、原稿を
走査し、ビットマップ文書画像を出力するスキャナと、
文書画像と検索索引を記憶する第1メモリと、処理手順
を記憶する第2メモリと、前記第2メモリに記憶された
処理手順を実行するプロセッサとを備え、前記第2メモ
リは処理手順として、(a)前記スキャナにより走査さ
れたビットマップ画像を受信する工程と、(b)第1タ
イプの文書領域と他のタイプの文書領域とを判別するた
めにビットマップ画像を処理する工程と、(c)第1タ
イプ領域の文書画像をテキストに変換する工程と、
(d)テキストに索引を付し、前記第1メモリに記憶さ
れた索引と索引付けられたテキストとを更新する工程
と、(e)索引付けられたテキストを参照して、記憶さ
れた文書画像が検索されるように前記第1メモリに文書
画像を記憶する工程とを記憶している。
【0020】また、本発明の他の態様によれば、表示装
置は、表示器と、文書画像と対応する文書構造から前記
文書画像が検索されるよう記憶する第1メモリと、処理
手順を記憶する第2のメモリと、前記第2のメモリに記
憶された処理手順を実行するプロセッサとを備え、前記
第2のメモリは処理手順として、(a)検索された文書
の構造を前記表示器に表示する工程と、(b)表示され
た文書の選択された領域を対応する文書領域に置換する
工程とを記憶する。
【0021】
【実施例】図1および図2は、本発明の好適な実施例で
ある文書処理装置を示す図である。
【0022】これらの図において、10はパーソナルコ
ンピュータである。コンピュータ10は80386プロ
セッサ(インテル社製)等のCPU11を備える。CP
U11はRAM14に記憶されたアプリケーションプロ
グラムなどのプログラム、ROM12に記憶されたスタ
ートアッププログラムあるいはBIOSなどの特別な機
能を実行する。コンピュータ10は更にローカルエリア
ネットワーク(LAN)16とインターフェースするロ
ーカルエリアネットワークインターフェース15を備え
る。これによって、コンピュータ10はリモートファイ
ルサーバの文書ファイル等のファイルにアクセスするこ
とができる。また、ファイルをリモートプリント用に転
送したり、遠隔装置からアクセスできる文書画像を内蔵
する。あるいは周知の技術に従って、ファイル交換や電
子メールを送信して、ローカルエリアネットワークと通
信することができる。
【0023】コンピュータ10は、更にグラフィック画
像を表示するモニタ17と、オペレータがモニタ17上
の領域を指定し、情報を入力するキーボード/マウス1
9を有する。
【0024】固定ディスクやプロッピーディスクドライ
ブ等の大容量記憶装置20はCPU11に接続してい
る。大容量記憶装置20には一般的にCPU10により
実行される命令のシーケンスであるプログラムが格納さ
れている。例えば、走査、索引付け、検索、表示のプロ
グラムなどのほかに、他のプログラムが含まれる。他の
プログラムとしては、ワードプロセッシングプログラ
ム、光学的文字認識プログラム、ブロック選択アプリケ
ーションプログラム、その他の情報やデータプロセッシ
ングプログラムのようなアプリケーションプログラムを
実行する。大容量記憶装置20は更に索引情報を含む文
書索引テーブルを有する。索引情報により、文書のビッ
トマップイメージ、文書構造、文書のテキスト領域用の
ASCIIテキストを同じ様に文書検索することができ
る。更に、大容量記憶装置20は所望の他のデータを記
憶することもできる、モデム21、ファクシミリインタ
ーフェース22、音声電話インターフェース24は、C
PU11が普通の電話回線25とインターフェースする
ように設けられている。モデム21、ファクシミリイン
ターフェース22、音声電話インターフェース24のそ
れぞれは、電話回線スイッチ26を介して電話回線25
に接続される。電話回線スイッチ26は、電話回線で送
受信されるデータに即して、電話回線25をモデム2
1、ファクシミリインターフェース22、あるいは音声
電話インターフェース24のうちどれか1つと接続する
ようにCPU11の制御により切り替えられる。このよ
うにCPU11は、モデム21を介し、ASCIIテキ
ストファイルや、文書画像ファイル等の2進数で表され
たデータを送受信することができる。また、リモートコ
ンピュータは、モデム21を介してCPU11を制御す
ることができる。CPU11はファクシミリインターフ
ェース22を介してファクシミリメッセージを送受信す
ることもでき、更に、音声電話インターフェース24を
介して、元の音声電話回線で送受信することができる。
この場合、音声電話インターフェース24には、オペレ
ータが押したキーパッドに対応した音声電話回線25に
おけるトーンを復号するためにDTMFデコーダ24A
を設けてある。大容量記憶装置20に記憶されたプログ
ラムに従って、復号されたトーンはCPU11によりオ
ペレータコマンドとして解釈される。オペレータコマン
ドは、オペレータによる入力に従い、予め決められた動
作を行うように実行される。
【0025】従来のテキスト/音声変換器27がCPU
11に接続している。テキスト/音声変換器27はテキ
スト列を音声情報に変換する。テキスト/音声変換器2
7は、ローカルコンピュータのオペレータに対して音声
出力するスピーカ27に音声情報を供給するか、あるい
は通常の音声電話回線に対して音声出力する音声電話イ
ンターフェース24に音声情報を供給する。
【0026】MIDI(MUSICAL INSTRUMENT DIGITAL IN
TERFACE) シンセサイザ30はCPU11に接続され、
CPU11からのMIDIミュージックコマンドを音声
波形に変換するために解釈する。音声波形は順にスピー
カ28に出力されるか、あるいは、元の音声電話回線に
出力されるように音声電話インターフェース24に供給
される。
【0027】スキャナ31は記録紙に印刷された原稿を
走査し、元の原稿情報をコンピュータにより読み取られ
るビット単位の表現に変換する。スキャナ31は単に白
/黒スキャナでもよいが、中間調(グレイスケール)処
理やカラー処理が可能であればより望ましい。
【0028】プリンタ32はCPU11の制御により文
書画像を形成する。プリンタ32は普通の白/黒プリン
タでもよいが、中間調やカラープリントが可能な機能を
有すれば、より好ましい。
【0029】光ディスク等のCDーROM34はCPU
11に接続している。CDーROM34は大容量記憶装
置20の記憶量を増補し、文書索引、文書画像、文書構
造に関する付加情報を含む。また、記憶容量を増やすた
めにWORM(WRITE-ONCE-READ-MANY)光デバイス、ある
いは一般的な読出し/書込み光デバイスを備えてもよ
い。更に、ローカルエリアネットワーク16,CPU1
1は、モデム21を介して、遠隔ファイルサーバの文書
索引、文書画像、文書構造にアクセスすることができ
る。また、CPU11は通常の音声電話回線で中央デー
タベースの文書索引、文書画像、文書構造にアクセスす
ることができる。
【0030】図3は図1、図2に示される装置の動作を
示すフローチャートである。図3に示す工程は、大容量
記憶装置20にプログラムとして記憶され、RAM14
に送られてCPU11により実行される。
【0031】ステップS301において、CPU11は
モニタ17上にメインセレクションメニューを表示し、
オペレータはカーソルを動かしてメニュー上のアイテム
を1つ選択することができる。ステップS302でオペ
レータが文書入力を選択した場合、ステップS303で
文書画像処理が実行され、処理はステップS301に戻
る。
【0032】オペレータが文書入力を選択せず、文書検
索 (RETRIEVE) を選択した場合(ステップS304-YE
S)、ステップS305で文書検索処理が実行され、処
理はステップS301に戻る。
【0033】オペレータが文書検索を選択せず、文書表
示を選択した場合(ステップS306-YES)、ステップ
S307で文書表示処理が実行され、処理はステップS
301に戻る。これらの処理の詳細は後述する。
【0034】図3のフローチャートでは、各処理は連続
して順に実行されるように見えるが、実際は、異なる時
間、異なる順に、異なる装置で実行されてもよい。例え
ば、第1の装置で文書を入力して記憶し、他の装置で検
索、表示することも可能である。同様に、ある装置で検
索し、例えば、モデム21を介して他の装置に転送し、
表示することもできる。
【0035】図4は図3のステップS303に従う文書
入力処理を示す図である。
【0036】ステップS401において、CPU11は
スキャナ31が原稿を走査するよう制御し、原稿はコン
ピュータで読み取り可能なビットマップ画像に変換され
る。ビットマップ画像は一時的にRAM14に記憶され
る。
【0037】ステップS402においては、CPU11
は文書内の対象のレイアウトに関する構造情報を求め
る。特に、CPU11はビットマップ文書画像にブロッ
ク選択技術を用いる。前述したように、文書画像を分解
する技術は米国における1992年4月24日出願の同
時係属出願第07/073012号に開示されている。
ルールに基づき決定することによってブロック選択技術
は関連領域、あるい文書内の領域を判別したり、領域内
の画像タイプを決定することができる。例えば、米国出
願第07/073012号に開示されるブロック選択技
術において、CPU11は画像内の関連領域を判別する
ためにRAM14に記憶されたビットマップ画像を処理
する。続いて領域のタイプを判別し、例えば、ある領域
がタイトルか、テキストか、パラグラフか、テーブル
か、グラフ等の線画か、中間調画像か、カラー画像領域
かなどを決定する。
【0038】図5はステップ402の工程に従う処理に
基づいて文書画像の領域を示す図である。図5は英文の
雑誌記事の第40ページを構成する文書画像を示す図で
ある。図5からも明らかなように第40ページはタイト
ル領域41、42、47とテキスト領域43、44、4
8を含んでいる。同様に、線画画像領域45、テーブル
領域49、中間調画像領域46を含んでいる。また、別
のタイプの領域も考えられる。ステップS402の処理
に従い、CPU11は文書中の関連した領域を判別し、
各領域における画像のタイプを決定する。図5におい
て、各領域は四角形の枠で囲まれている。
【0039】図4に戻ると、ステップS403で、CP
U11は画像タイプを判別する。特に、大抵の画像は比
較的標準的な構造を有する。例えば、ビジネスレターは
主に会社のレターヘッド領域(ステップS402では線
画画像領域として判別されている)、受取人の住所領域
(ステップS402では分離しているが隣接したテキス
ト領域)、挨拶、本文、結句領域(ステップS402で
はテキスト領域)、そして署名領域(ステップS402
では線画画像領域)を含んでいる。CPU11は標準的
な文書タイプのテンプレートを記憶しており、ステップ
S403において、ステップS402で求められた構造
情報と記憶されたテンプレートとを比較する。もし、構
造情報とテンプレートとが一致すればCPU11は画像
タイプとRAM14に記憶された文書画像を対応づけ
る。
【0040】ステップS404において、CPU11は
文書内の関連する領域を互いに対応づける。特に、図
(さし絵)のキャプション、あるいはテキストブロック
のフットノートのように関連づけて考えるべき文書の領
域である。例えば、図5を参照すると、テキスト領域4
8はそのタイトル47に関連し、テーブル領域49はそ
のタイトル50に関連する。CPU11は規則に則った
判別処理(rule-based decision)を用いて関連領域を互
いに関連づける。
【0041】スッテップS405において、CPU11
は検索索引を生成するために文書領域に光学的文字認識
(OCR)処理を行なう。特に、ワード単位の検索システム
に基づいて文書画像が検索できるように、CPU11は
文書内のテキスト領域から検索索引を生成する。ステッ
プS402で判別されたすべてのテキスト領域にOCR
処理を行ない、その結果に基づいて索引を生成すること
もできる。さらに好ましくは、オペレータが索引レベル
を選択することができるようにすることである。即ち、
CPU11は下記のレベルに従って索引レベルが選択で
きるようなオプションをオペレータに提供する。
【0042】レベル1: タイトル領域 レベル2: テキスト領域の第1行目 レベル3: グラフに関連したテキストキャプション レベル4: テキスト全文 オペレータがレベル1(タイトル)を選択した場合、O
CR処理をタイトル領域に行う。タイトル領域より求め
られたテキストには検索索引が対応づけられており、タ
イトルのワードが特定の検索照会と一致するとき文書が
検索される。同様に、オペレータが索引レベル2(テキ
スト領域の第1行目)を指定した場合、CPU11はタ
イトル領域とテキスト領域の最初の一行の両方にOCR
処理を行い、その結果に基づいた検索索引を生成するこ
とができる。索引レベル3(グラフに関連したテキスト
キャプション)を選択した場合、ステップS404で得
られた対応付けで特定されたように、グラフ画像に関連
したテキスト領域にだけでなくレベル1と2における項
目にOCR処理を行う。また、オペレータが索引レベル
4(テキスト全文)を選択した場合、タイトル領域とテ
キスト全文領域の両方にOCR処理を行い、その結果を
検索索引を生成するために用いる。尚、他の索引レベル
を設定することも可能である。
【0043】ステップS406において、OCR処理に
より得られたASCIIテキスト文字が索引付られ、文
書検索索引が適切に更新される。ASCIIテキストの
単語を索引付けることに加えて、タイトル、テキスト、
キャプション等のうち、単語が得られた領域タイプを示
すフラグも索引に付けられる。このフラグは、文書の特
定の領域内の単語に基づいて文書を検索するような検索
処理に用いることができる。
【0044】ステップS407において、CPU11は
ステップS402で求められた構造情報やステップS4
06で対応付けられた構造情報を記憶する。図6はどの
ように構造情報が記憶されているかを示す図である。図
6に示すように、各文書の構造情報は文書識別子51を
含む。この識別子51は完全な文書画像に割り当てられ
たのと同様の識別子であり、完全な文書画像を検索する
こともできる。ステップS403で求められた文書タイ
プは領域52に記憶される。文書の構造情報のすべてと
文書内のレイアウトは領域53に記憶する。領域53に
示すように、ステップS402で判別した各領域では、
CPU11は、領域識別子、領域タイプ、ページの領域
位置を特定する直交座標(以下、左上部(ULC)座
標、右下部(LRC)座標と呼ぶ)、ステップS406
で判別された全関連領域を記憶する。図6において識別
子が1の領域は、図5の領域41に対応する。また、図
6に示すように識別子1の領域はタイトルタイプで、左
上部座標<0、0>、右下部座標<5、40>であり、
関連領域は存在しない。図6に示された残りの領域も同
様である。
【0045】図6に示されるフォント選択やサイズ等の
領域属性54も更に記憶される。テキストの行数やパラ
グラフ数等の他の属性を記憶することもできる。
【0046】ステップS408において、文書画像は好
ましくはOCR処理後の文書テキストとともに記憶され
る。文書テキストはテキスト領域の画像表示より高速に
表示できるASCIIテキスト文字を表示する場合に記
憶される。従ってステップS408では、CPU11は
文書入力処理を終了し、文書に対してテキストで検索可
能な索引、完全な文書画像、文書構造、OCR処理され
たテキスト領域のテキストを記憶する。
【0047】図3に戻り、オペレータが文書検索(ステ
ップS304)を選択すると、ステップS305で文書
検索処理が行なわれる。本発明の好適な実施例である文
書検索処理は、オペレータによる検索照会に基づいて単
語単位で検索が行なわれるシステムである。そのような
照会は、各文書中に見出されるはずの論理的なシーケン
ス(“ブール検索”)により、あるいは照会システムの
上に立つ自然言語により特定できる。ローカルオペレー
タからの直接照会やリモートオペレータからの間接的な
音声またはDTMFの電話アクセスや、モデムあるいは
LANを通してリモートコンピュータからの命令による
照会がある。
【0048】オペレータは、タイトル領域やキャプショ
ン等の特定の文書領域における単語に基づいて文書を検
索することができる。照会に一致する文書は検索され、
文書が照会に一致する度合いに基づいてスコアが割り当
てられる。特定の文書領域の単語にはより高いスコアが
割り当てられ、スコアは上述の検索レベル選択と同様に
段階的になっている。例えば、タイトル領域の単語には
テキスト領域の単語より高いスコアが付けられている。
複数の文書が検索された場合は、スコアの高い順に表示
される。
【0049】オペレータが文書表示処理(ステップS3
06)を選択すると、ステップS307において、CP
U11は文書表示処理を実行する。図7は文書表示処理
を示す図である。
【0050】ステップS701において、検索文書が表
示するために表示オプションが設定される。特に、オペ
レータは検索文書を表示するために完全文書画像モード
と走査検索モードの2つのモードのうち1つを、マウス
またはキーボードからの指示により選択する。完全文書
画像モードが選択された場合、検索文書の完全な文書画
像が表示される。走査検索モードが選択された場合、各
文書画像の枠組み構造が表示され、すべての検索文書を
迅速に走査検索することができる。走査検索モードにお
いて、オペレータは3つのパラメータを設定する。まず
オペレータは、OCR処理されたテキスト領域のASC
IIテキスト文字か、テキスト領域の文書画像かのいず
れを表示するか決定する。次に、オペレータは構造が表
示される枠組み化レベルを選択する。本発明の実施例で
は9つの枠組み化レベルが使用されているが、これに限
らず、何段階のレベルとしても上述と同様の手法で実施
可能である。即ち、 レベル1: 構造 レベル2: タイトル レベル3: 検索パラメータ レベル4: テキストの第1行目 レベル5: テキスト全体 レベル6: テーブル レベル7: 線画 レベル8: 中間調画像 レベル9: カラー画像 選択された枠組み化レベルに従って、CPU11は文書
構造を完全文書画像の領域と共に表示する。枠組み化レ
ベル1を選択する場合、構造が表示される。しかし、枠
組み化レベル2以上が選択されると、構造情報が完全文
書画像の領域と共に表示される。例えば、枠組み化レベ
ル2で、構造情報が文書のタイトル領域画像(あるいは
ASCIIテキスト)と合成されて表示される。構造と
共に記憶されたULCとLRCとに従って、完全文書画
像から必要な画像領域が求められる。枠組み化レベル3
が選択されると、構造情報がタイトル画像(あるいはA
SCIIテキスト)と文書とを検索するための検索パラ
メータと共に表示される。枠組み化レベル4において、
構造情報はタイトル領域、検索パラメータ、各テキスト
ブロックのテキスト画像の第1行目の画像と共に表示さ
れる。上述のように、ASCIIテキスト表示が選択さ
れると、テキスト画像ではなくASCIIテキストが表
示される。枠組み化レベルが高いほど、選択された枠組
み化レベルに従って、より多くの完全文書画像を表示す
ることができる。
【0051】枠組み化レベルパラメータに加えて、走査
検索モードでは、画像の完全化を手動で行なうか、自動
で行なうかを選択することができる。特に、手動による
画像の完全化において、検索された文書構造が表示され
ている場合、オペレータは文書の特定領域を指定するこ
とができる。例えば、マウス19で全文書画像と表示さ
れた領域とを置き換えることが要求できる。自動による
領域の完全化が選択された場合、CPU11は完全な文
書画像と表示されている構造情報とを自動的に置換す
る。画像の完全化は、CPU11の動作が静止している
間、即ち、CPU11が画像を完全化するのに十分な処
理時間がある場合に行われる。画像の完全化は上述の枠
組み化レベルの順に行なわれる。このように、静止中、
CPUはまずタイトル領域をタイトル領域の完全画像と
置換し、次に検索パラメータを検索パラメータ領域の完
全画像と置換し、さらにテキスト領域の第1行をテキス
トの完全画像と置換するという具合に完全化する。
【0052】ステップS701において、表示オプショ
ンが設定された後、ステップS702において、完全画
像モードかどうかを決定する。完全画像モードが選択さ
れた場合、ステップS703で、完全な画像が表示され
る。
【0053】一方、走査検索モードが選択された場合、
ステップS704において、選択された枠組み化レベル
で文書構造が表示される。構造情報の表示例を図8に示
す。図8では、オペレータが走査検索モードを選択し、
枠組み化レベル2(“タイトル”)でASCIIテキス
ト表示を選択している。図8に示すように、文書の枠組
み構造とタイトル領域に相当するASCIIテキストと
が表示される。残りの領域は、図6の領域タイプエリア
で特定されたように単に領域タイプで分類される。ま
た、領域はその色分けにより分類されてもよいし、図8
に示すように文字によるラベルを使用してもよい。各領
域は四辺形であり、その座標は図6における左上部座標
と右下部座標とで特定される。タイトル領域のASCI
Iテキスト領域は対応する左上部座標と右下部座標に表
示される。このように、選択可能な枠組み化レベルに応
じた文書の枠組み構造が表示される。このようにして、
オペレータが関心を持っている特定の文書を見つけだす
よう、検索対象の文書群を迅速に走査検索することがで
きる。
【0054】ステップS705においては、CPU11
は手動による完全化を選択するかどうかを決定する。手
動完全化を選択しない場合、ステップS706に進み、
CPU11は静止している間、表示文書を自動的に完全
画像(ASCII表示が選択されているならASCII
テキスト)に置換する。自動完全化モードが選択された
場合は、十分な静止時間があれば、CPU11は文書の
構造的に分類された領域を置換し、完全な文書が表示さ
れることになる。本処理中、オペレータは次に検索され
る文書を表示すべく選択し(ステップS710)、その
文書を表示するために処理はステップS702に戻る。
【0055】手動完全化モードが選択された場合、ステ
ップS707において、CPU11はいずれかの文書領
域が指定されたかどうか決定する。もし、文書領域が指
定されていない場合、CPU11は動作しない。より好
ましくは、ステップS708に示すように文書の構造領
域を完全文書画像に置換する。本処理は次の文書に対す
る選択によって、いつでも中断することができる(ステ
ップS710)。
【0056】一方、ステップS707で、オペレータが
置換する文書領域を指定した場合、ステップS709
で、CPU11は文書画像ファイルより指定領域に対応
する文書画像を検索し、表示文書の構造表現された領域
を完全文書画像に置換する。図9に示すように、オペレ
ータはテキスト領域である領域54を指定する。続い
て、CPU11は、指定された領域、すなわちその左上
座標と右下座標とで限定される四辺形の領域に対応する
文書画像、またはASCIIテキストのオプションが選
択されている場合には相当するASCIIテキストを検
索し、図8に示されたその領域を、図9に示されている
ように文書画像で置換する。このあと処理はステップS
707に戻り、次の入力を待つ。
【0057】図9において、領域54のASCIIテキ
ストは割り当てられた領域にあてはまっていない。この
場合、あてはまるだけのテキストを表示し、領域内をス
クロールして全テキストを表示する。
【0058】さらに図9に示すように、オペレータは領
域44のテキストの第1行目を表示するよう要求するこ
ともできる。そのテキストに相当するASCIIテキス
トは、領域55に表示されている。もちろん、画像モー
ドが選択された場合は、テキストの第1行目の画像を表
示する。
【0059】ステップS709において、オペレータが
領域42,43のように関連領域を有する画像領域を指
定した場合、CPU11は指定領域を置換するだけでな
く、関連領域も置換する。従って、タイトル領域である
領域42が指定された場合、タイトル領域42を領域4
2の完全画像(あるいはテキスト)に置換する。またテ
キスト領域43を領域43の完全画像(あるいはテキス
ト)に置換する。この本実施例の特徴により、オペレー
タが余計な打鍵などの操作なしに、迅速に必要情報にア
クセスすることができる。
【0060】図10はASCIIテキストではなく画像
として表示される領域を選択した例を示す。即ち、オペ
レータが領域46,48の完全画像を要求すると、領域
56,57がそれぞれ表示される。
【0061】
【発明の効果】以上説明したように、本発明に係る文書
処理装置及びその方法と文書表示装置及びその方法は次
のような効果を奏する。すなわち、 ・文書画像をテキスト化してそのテキストに索引を付す
ことにより、文書画像を索引付けして記憶することがで
き、効率的な文書画像の検索が可能となる。
【0062】・文書画像から文書構造を得、それを文書
画像とともに記憶するため、文書画像をその構造で取り
扱うことができ、処理効率が向上する。
【0063】・文書画像と対応した文書構造を表示し、
それを文書と置換することができ、表示の効率を向上す
るとともに、所望の部分を表示することができる。
【0064】・スキャナで読み込んだ文書画像文書画像
からその領域のタイプを判別し、所定タイプの領域をテ
キストに変換し、そのテキストに索引を付して記憶して
おくことで、文書画像にも索引付けでき、効率的な検索
が可能となる。
【0065】・読み込んだ文書画像を、処理手段によ
り、第2のメモリ手段に格納された手順にしたがって、
所定タイプの領域を判別し、その領域をテキストに変換
し、そのテキストに索引を付して記憶しておくことで、
文書画像に索引付けし、効率的に検索を行うことができ
る。
【0066】・文書画像をそれに対応する文書構造を記
憶し、プロセッサにより、第2のメモリに記憶された手
順にしたがって、文書の構造を表示し、選択された領域
を文書に置換することで、所望の領域を文書でその他を
構造で表示することができ、処理効率を向上できる。
【0067】このように、文書画像をテキスト化して索
引を付け、また文書を枠組み化して取り扱うことによ
り、検索処理を効率化することができる。さらに、枠組
み化された文書の所望の領域を本来の文書に置き換える
ことで、不要な情報を表示することがなく、効率的な処
理が可能となる。
【0068】
【図面の簡単な説明】
【図1】本発明の実施例の装置の外観を示す図である。
【図2】図1に示す装置のブロック図である。
【図3】図1に示す装置の動作を示すフローチャートで
ある。
【図4】本発明による文書入力、索引付けを行なう動作
を示すフローチャートである。
【図5】入力文書の例を示す図である。
【図6】原稿文書内で判別されたブロックがいかに記憶
されるかを説明する図である。
【図7】本発明による文書表示を説明するフローチャー
トである。
【図8】枠組み化された文書の表示例を示す図である。
【図9】枠組み化された文書の選択された領域を展開し
た図である。
【図10】枠組み化された文書の選択された領域を展開
した図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ダグラス エル. パーマー アメリカ合衆国 カリフォルニア州 92610, フットヒル ランチ, カレ カブリロ 1 (72)発明者 トシアキ ヤガサキ アメリカ合衆国 カリフォルニア州 92715, イルバイン, レザーウッド ウエイ 11

Claims (55)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を検索するための検索索引を生
    成する方法であって、 第1タイプの文書領域と他のタイプの文書領域を判別す
    るために文書画像を処理する工程と、 前記第1タイプの領域内の文書画像をテキストに変換す
    る工程と、 テキストに索引を付する工程と、 索引を付されたテキストを参照して記憶された文書画像
    が検索されるように文書画像を記憶する工程とを備える
    ことを特徴とする文書処理方法。
  2. 【請求項2】 文書上で判別された領域の判別結果を記
    憶する工程を更に備えることを特徴とする請求項1に記
    載の文書処理方法。
  3. 【請求項3】 記憶された判別結果を検索し、その判別
    結果に従って文書を表示する工程を更に備えることを特
    徴とする請求項2に記載の文書処理方法。
  4. 【請求項4】 文書上で判別された領域と完全な文書画
    像とを漸進的に置き換える工程を更に備えることを特徴
    とする請求項3に記載の文書処理方法。
  5. 【請求項5】 前記漸進的置換 は自動的に行なわれる
    ことを特徴とする請求項4に記載の文書処理方法。
  6. 【請求項6】 前記漸進的置換 はオペレータの指定に
    従って、手動で行なわれることを特徴とする請求項4に
    記載の文書処理方法。
  7. 【請求項7】 文書はスコアに従って表示されることを
    特徴とする請求項3に記載の文書処理方法。
  8. 【請求項8】 索引を付するために第1タイプの領域を
    選択的に指定する工程を更に備えることを特徴とする請
    求項1に記載の文書処理方法。
  9. 【請求項9】 前記第1タイプの領域は、タイトルタイ
    プの領域とテキストタイプの領域とから構成される領域
    群より選択されることを特徴とする請求項8に記載の文
    書処理方法。
  10. 【請求項10】 文書画像を検索するために検索索引を
    生成する装置であって、 原稿を走査し、ビットマップ文書画像を出力するビット
    マップ画像出力手段と、 文書画像と検索索引を記憶する第1メモリ手段と、 処理手順を記憶する第2メモリ手段と、 前記第2メモリ手段において記憶された処理手順を実行
    する処理手段と、を備え、前記第2メモリ手段は処理手
    順として、 (a)前記画像出力手段により走査されたビットマップ
    画像を受信する工程と、 (b)第1タイプの文書領域と他のタイプの文書領域と
    を判別するためにビットマップ画像を処理する工程と、 (c)第1タイプ領域の文書画像をテキストに変換する
    工程と、 (d)テキストに索引を付し、前記第1メモリに記憶さ
    れた索引と索引付けられたテキストとを更新する工程
    と、 (e)索引付けられたテキストを参照して、記憶された
    文書画像が検索されるように前記第1メモリ手段に文書
    画像を記憶する工程と、を記憶することを特徴とする文
    書処理装置。
  11. 【請求項11】 前記第2メモリ手段は、前記第1メモ
    リ手段に記憶されたビットマップ画像内のビットマップ
    文書上において判別された領域の判別結果を記憶するこ
    とを特徴とする請求項10に記載の文書処理装置。
  12. 【請求項12】 表示手段を更に備え、前記第2メモリ
    手段は、処理手順として、文書領域の判別結果に従って
    検索された文書を前記表示手段に表示する工程を記憶す
    ることを特徴とする請求項11に記載の文書処理装置。
  13. 【請求項13】 前記第2メモリ手段は、処理手順とし
    て、表示された文書の領域を完全な文書画像の対応する
    領域と置換する工程を記憶することを特徴とする請求項
    12に記載の文書処理装置。
  14. 【請求項14】 前記漸進的置換は自動的に行なわれる
    ことを特徴とする請求項13に記載の文書処理装置。
  15. 【請求項15】 指定手段を更に備え、前記漸進的置換
    は、オペレータの指定に従って手動で行なわれることを
    特徴とする請求項14に記載の文書処理装置。
  16. 【請求項16】 文書はスコアに従って表示されること
    を特徴とする請求項12に記載の文書処理装置。
  17. 【請求項17】 第1タイプは選択的に指定されること
    を特徴とする請求項10に記載の文書処理装置。
  18. 【請求項18】 第1タイプはタイトルタイプ領域とテ
    キストタイプ領域とから構成される領域群より選択的に
    指定されることを特徴とする請求項17に記載の文書処
    理装置。
  19. 【請求項19】 文書画像を形成するために文書を走査
    する工程と、 文書構造を決定するために文書画像を処理する工程と、 文書構造を文書画像に対応するように記憶する工程とを
    備えることを特徴とする文書記憶方法。
  20. 【請求項20】 文書構造の選択可能タイプを索引付け
    する工程を更に備えることを特徴とする請求項19に記
    載の文書記憶方法。
  21. 【請求項21】 文書構造の決定に基づいて文書タイプ
    を判別し、判別された文書タイプを記憶する工程を更に
    備えることを特徴とする請求項19に記載の文書記憶方
    法。
  22. 【請求項22】 文書を表示する方法であって、 文書画像と対応する文書構造とを供給する供給工程と、 文書構造を表示する表示工程と、 表示された文書のうち選択された領域を対応する文書領
    域領域とに置換する置換工程とを備えることを特徴とす
    る文書表示方法。
  23. 【請求項23】 文書を表示する枠組み化レベルを指定
    する工程を更に備え、前記表示工程において、指定され
    た枠組み化レベルに従って、文書の構造を示す領域と文
    書領域とを成して表示することを特徴とする請求項22
    に記載の文書表示方法。
  24. 【請求項24】 前記供給工程においては、複数の文書
    画像とそれに対応する文書構造とが供給され、複数の文
    書画像とそれに対応する文書構造の1つを検索する工程
    をさらに備えることを特徴とする請求項22に記載の文
    書表示方法。
  25. 【請求項25】 文書はスコアに従って表示されること
    を特徴とする請求項24に記載の文書表示方法。
  26. 【請求項26】 前記表示工程において、文書構造は検
    索パラメータと共に表示されることを特徴とする請求項
    22に記載の文書表示方法。
  27. 【請求項27】 表示された文書における構造領域を分
    類する工程を更に備えることを特徴とする請求項22に
    記載の文書表示方法。
  28. 【請求項28】 前記表示工程は、文書構造とその内容
    の両方あるいは一方を音声に変換して出力することを特
    徴とする請求項22に記載の文書表示方法。
  29. 【請求項29】 文書構造に基づいて文書タイプを判別
    する工程を更に備えることを特徴とする請求項22に記
    載の文書表示方法。
  30. 【請求項30】 文書中で互いに関連する領域を判別す
    る工程を更に備え、前記置換工程において、表示された
    文書中で選択された領域を置換する場合、該領域に関連
    する領域も置換することを特徴とする請求項22に記載
    の文書表示方法。
  31. 【請求項31】 前記置換工程において、テキストタイ
    プ文書領域を、手動による選択に従って、文書領域の画
    像あるいはテキストに相当する領域と置換することを特
    徴とする請求項22に記載の文書表示方法。
  32. 【請求項32】 文書画像と対応する文書構造を供給す
    る供給手段と、 文書構造を表示する表示手段と、 表示された文書の選択された領域を対応する文書領域と
    置換する置換手段とを備えることを特徴とする文書表示
    装置。
  33. 【請求項33】 文書を表示する枠組み化レベルを指定
    する手段を更に備え、前記表示手段において、指定され
    た枠組み化レベルに従って、構造を示す領域と文書領域
    とを合成して表示することを特徴とする請求項32に記
    載の文書表示装置。
  34. 【請求項34】 複数の文書画像と対応する文書構造が
    供給され、複数の文書画像とそれに対応する文書構造の
    中から1つを検索する検索手段を更に備えることを特徴
    とする請求項32に記載の文書表示装置。
  35. 【請求項35】 文書はスコアに従って表示されること
    を特徴とする請求項34に記載の文書表示装置。
  36. 【請求項36】 前記表示手段は文書構造を検索パラメ
    ータと共に表示する手段を備えることを特徴とする請求
    項34に記載の文書表示装置。
  37. 【請求項37】 表示された文書における構造領域を分
    類する分類手段を更に備えることを特徴とする請求項3
    2に記載の文書表示装置。
  38. 【請求項38】 前記表示手段は、文書構造とその内容
    の両方あるいは一方を音声出力することを特徴とする請
    求項32に記載の文書表示装置。
  39. 【請求項39】 文書構造に基づいて文書タイプを判別
    する手段を更に備えることを特徴とする請求項32に記
    載の文書表示装置。
  40. 【請求項40】 文書中の互いに関連する領域を判別す
    る手段を更に備え、前記置換手段が表示文書の選択され
    た領域を置換する場合、該領域に関連する領域も置換す
    ることを特徴とする請求項32に記載の文書表示装置。
  41. 【請求項41】 テキストタイプ文書領域は、手動での
    選択に従って、文書領域の画像あるいはテキストに相当
    する領域に置換されることを特徴とする請求項32に記
    載の文書表示装置。
  42. 【請求項42】 表示手段と、 文書画像と対応する文書構造から前記文書画像が検索さ
    れるよう記憶する第1のメモリ手段と、 処理手順を記憶する第2のメモリ手段と、 前記第2のメモリ手段に記憶された処理手順を実行する
    処理手段と、を備え、前記第2のメモリ手段は処理手順
    として、 (a)検索された文書の構造を表示手段に表示する工程
    と、 (b)表示された文書の選択された領域を対応する文書
    領域に置換する工程と、を記憶することを特徴とする文
    書表示装置。
  43. 【請求項43】 オペレータの指定を入力する手段を更
    に備え、前記第2メモリ手段は処理手順として文書が表
    示される枠組み化レベルを指定する工程を記憶し、指定
    された枠組み化レベルに従って、構成領域と文書領域と
    を合成して表示することを特徴とする請求項42に記載
    の文書表示装置。
  44. 【請求項44】 前記第1メモリ手段は複数の文書画像
    とそれに対応する複数の構造とを記憶し、前記第2メモ
    リ手段は処理手順として複数の文書画像とそれに対応す
    る文書構造の中から1つを検索する検索工程を更に記憶
    することを特徴とする請求項42に記載の文書表示装
    置。
  45. 【請求項45】 文書はスコアに従って表示されること
    を特徴とする請求項44に記載の文書表示装置。
  46. 【請求項46】 文書構造は検索パラメータと共に表示
    されることを特徴とする請求項44に記載の文書表示装
    置。
  47. 【請求項47】 前記処理手段は、前記第1メモリ手段
    に記憶された構造に従って表示された文書を分類するこ
    とを特徴とする請求項42に記載の装置。
  48. 【請求項48】 前記処理手段は、文書構造を音声出力
    することを特徴とする請求項42に記載の文書表示装
    置。
  49. 【請求項49】 前記処理手段は記憶された文書構造に
    基づいて、文書タイプを判別することを特徴とする請求
    項42に記載の文書表示装置。
  50. 【請求項50】 記憶された文書構造は文書内の互いに
    関連する領域を対応付けられ、前記処理手順は表示文書
    の選択された領域を該領域に対応する文書画像の領域に
    置換する場合、前記処理手段は前記選択された領域に関
    連する領域も置換することを特徴とする請求項42に記
    載の文書表示装置。
  51. 【請求項51】 テキストタイプ文書領域は、手動によ
    る選択に従って、文書領域の画像、あるいはテキストに
    相当する領域に置換されることを特徴とする請求項42
    に記載の文書表示装置。
  52. 【請求項52】 文書画像を検索するための索引を生成
    する装置であって、 原稿を走査してビットマップ画像を出力する画像出力手
    段と、 文書画像と索引とを記憶する第1メモリ手段と、 前記画像出力手段により出力されたビットマップ画像か
    ら、第1タイプの文書領域と他のタイプの文書領域とを
    判別する判別手段と、 該判別手段により判別された第1タイプ領域の文書画像
    をテキストに変換する変換手段と、 該変換手段により変換されたテキストに索引を付し、該
    テキスト及び索引により前記第1メモリ手段に記憶され
    た内容を更新する手段と、 索引付けられたテキストを参照して該テキストに対応す
    る文書画像が検索されるよう、テキストと文書画像とを
    対応付けて前記第1メモリ手段に記憶する手段と、を備
    えることを特徴とする文書処理装置。
  53. 【請求項53】 表示手段と、 文書画像と該文書画像の文書構造とを対応付けて記憶す
    る第1メモリ手段と、 検索された文書構造を前記表示手段に表示する表示手段
    と、 該表示手段により表示された文書構造における所望の領
    域を該領域に対応する文書領域に置換する手段と、を備
    えることを特徴とする文書表示装置。
  54. 【請求項54】 文書画像を検索するために検索索引を
    生成する装置であって、 原稿を走査し、ビットマップ文書画像を出力するスキャ
    ナと、 文書画像と検索索引を記憶する第1メモリと、 処理手順を記憶する第2メモリと、 前記第2メモリに記憶された処理手順を実行するプロセ
    ッサと、を備え、前記第2メモリは処理手順として、 (a)前記スキャナにより走査されたビットマップ画像
    を受信する工程と、 (b)第1タイプの文書領域と他のタイプの文書領域と
    を判別するためにビットマップ画像を処理する工程と、 (c)第1タイプ領域の文書画像をテキストに変換する
    工程と、 (d)テキストに索引を付し、前記第1メモリに記憶さ
    れた索引と索引付けられたテキストとを更新する工程
    と、 (e)索引付けられたテキストを参照して、記憶された
    文書画像が検索されるように前記第1メモリに文書画像
    を記憶する工程と、を記憶することを特徴とする文書処
    理装置。
  55. 【請求項55】 表示器と、 文書画像と対応する文書構造から前記文書画像が検索さ
    れるよう記憶する第1メモリと、 処理手順を記憶する第2のメモリと、 前記第2のメモリに記憶された処理手順を実行するプロ
    セッサと、を備え、前記第2のメモリは処理手順とし
    て、 (a)検索された文書の構造を前記表示器に表示する工
    程と、 (b)表示された文書の選択された領域を対応する文書
    領域に置換する工程と、を記憶することを特徴とする文
    書表示装置。
JP6004256A 1993-01-19 1994-01-19 文書処理装置及びその方法と文書表示装置及びその方法 Pending JPH06325084A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/005,444 US6002798A (en) 1993-01-19 1993-01-19 Method and apparatus for creating, indexing and viewing abstracted documents
US08/005444 1993-01-19

Publications (1)

Publication Number Publication Date
JPH06325084A true JPH06325084A (ja) 1994-11-25

Family

ID=21715899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6004256A Pending JPH06325084A (ja) 1993-01-19 1994-01-19 文書処理装置及びその方法と文書表示装置及びその方法

Country Status (6)

Country Link
US (1) US6002798A (ja)
EP (1) EP0609996B1 (ja)
JP (1) JPH06325084A (ja)
DE (1) DE69434620T2 (ja)
SG (1) SG75792A1 (ja)
TW (1) TW229290B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2002007413A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd 画像検索装置
JP2003085187A (ja) * 2001-09-11 2003-03-20 Canon Inc 文書登録システム、方法、プログラム及び記憶媒体
JP2009026286A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置および画像文書処理方法
JP2009211716A (ja) * 1996-08-07 2009-09-17 Randall C Walker テキスト・プロセッサ
US7765471B2 (en) 1996-08-07 2010-07-27 Walker Reading Technologies, Inc. Method for enhancing text by applying sets of folding and horizontal displacement rules

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6578027B2 (en) * 1996-08-20 2003-06-10 Business Objects, Sa Relational database access system using semantically dynamic objects
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US6496841B1 (en) * 1996-06-26 2002-12-17 Sun Microsystems, Inc. Techniques for identifying and manipulating quoted or reproduced material using a quote bar
US7484172B2 (en) * 1997-05-23 2009-01-27 Walker Digital, Llc System and method for providing a customized index with hyper-footnotes
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JP4100746B2 (ja) * 1998-01-09 2008-06-11 キヤノン株式会社 画像処理装置及び方法
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6240407B1 (en) 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6243501B1 (en) * 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
US7062707B1 (en) * 1998-12-08 2006-06-13 Inceptor, Inc. System and method of providing multiple items of index information for a single data object
EP1141811A2 (en) * 1998-12-08 2001-10-10 Mediadna, Inc. A system and method of obfuscating data
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US6631373B1 (en) * 1999-03-02 2003-10-07 Canon Kabushiki Kaisha Segmented document indexing and search
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
US6522790B1 (en) * 1999-09-28 2003-02-18 Motorola, Inc. Method and apparatus for merging images
JP2001236287A (ja) * 2000-02-24 2001-08-31 Matsushita Electric Ind Co Ltd 画像表示方法及び該方法により画像を表示する携帯端末
WO2001086390A2 (en) 2000-05-08 2001-11-15 Walker Digital, Llc Method and system for providing a link in an electronic file being presented to a user
US7054509B2 (en) * 2000-10-21 2006-05-30 Cardiff Software, Inc. Determining form identification through the spatial relationship of input data
JP2002182815A (ja) * 2000-12-12 2002-06-28 Fujitsu Ltd 表示装置および表示制御プログラムを記録したコンピュータ読取可能な記録媒体
DE10110275A1 (de) * 2001-03-02 2002-09-19 Daimler Chrysler Ag Verfahren zur Kennzeichnung von gespeicherter Information
US20020126902A1 (en) * 2001-03-08 2002-09-12 Konica Corporation Character information collating correction apparatus
US6735329B2 (en) * 2001-05-18 2004-05-11 Leonard S. Schultz Methods and apparatus for image recognition and dictation
ES2201871B1 (es) * 2001-08-30 2005-05-16 Cultura Y Solidaridad, S.L. Sistema de busquedas bibliograficas mediante consultas de indices.
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
US6678699B2 (en) 2001-10-09 2004-01-13 International Business Machines Corporation Visual indexing of displayable digital documents
JP3624186B2 (ja) * 2002-03-15 2005-03-02 Tdk株式会社 スイッチング電源装置用の制御回路及びこれを用いたスイッチング電源装置
JP3941624B2 (ja) * 2002-07-30 2007-07-04 コニカミノルタビジネステクノロジーズ株式会社 ファイル保存装置
JP2004139484A (ja) * 2002-10-21 2004-05-13 Hitachi Ltd 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US7045377B2 (en) * 2003-06-26 2006-05-16 Rj Mears, Llc Method for making a semiconductor device including a superlattice and adjacent semiconductor layer with doped regions defining a semiconductor junction
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7552630B2 (en) * 2004-02-27 2009-06-30 Akron Special Machinery, Inc. Load wheel drive
US20050210048A1 (en) * 2004-03-18 2005-09-22 Zenodata Corporation Automated posting systems and methods
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US7788258B1 (en) * 2004-06-21 2010-08-31 Google Inc. Automatic determination of whether a document includes an image gallery
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
JP4477468B2 (ja) * 2004-10-15 2010-06-09 富士通株式会社 組み立て図面の装置部品イメージ検索装置
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
KR100664311B1 (ko) * 2005-11-18 2007-01-04 삼성전자주식회사 자동 인덱스 생성이 가능한 화상형성장치 및 그 자동인덱스 생성방법
US7433548B2 (en) * 2006-03-28 2008-10-07 Amazon Technologies, Inc. Efficient processing of non-reflow content in a digital image
US7788580B1 (en) 2006-03-28 2010-08-31 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
US8023738B1 (en) 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
US7966557B2 (en) * 2006-03-29 2011-06-21 Amazon Technologies, Inc. Generating image-based reflowable files for rendering on various sized displays
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US7715635B1 (en) 2006-09-28 2010-05-11 Amazon Technologies, Inc. Identifying similarly formed paragraphs in scanned images
US7810026B1 (en) 2006-09-29 2010-10-05 Amazon Technologies, Inc. Optimizing typographical content for transmission and display
US8631012B2 (en) * 2006-09-29 2014-01-14 A9.Com, Inc. Method and system for identifying and displaying images in response to search queries
US7986843B2 (en) 2006-11-29 2011-07-26 Google Inc. Digital image archiving and retrieval in a mobile device system
US20080162602A1 (en) * 2006-12-28 2008-07-03 Google Inc. Document archiving system
US20080162603A1 (en) * 2006-12-28 2008-07-03 Google Inc. Document archiving system
CN101246475B (zh) * 2007-02-14 2010-05-19 北京书生国际信息技术有限公司 一种基于版面信息的检索方法
JP5063151B2 (ja) * 2007-03-19 2012-10-31 株式会社リコー 情報検索システム及び情報検索方法
US9372923B2 (en) * 2007-05-09 2016-06-21 Lexisnexis Group Systems and methods for analyzing documents
CN101308494A (zh) * 2007-05-15 2008-11-19 国际商业机器公司 演示内容的方法与设备
US9256594B2 (en) 2007-06-06 2016-02-09 Michael S. Neustel Patent analyzing system
US8160306B1 (en) * 2007-06-06 2012-04-17 Neustel Michael S Patent analyzing system
US8290272B2 (en) * 2007-09-14 2012-10-16 Abbyy Software Ltd. Creating a document template for capturing data from a document image and capturing data from a document image
US20090109031A1 (en) 2007-10-25 2009-04-30 Calvin Duane A Method of and System for Finding Physical Locations of Servers
US8782516B1 (en) 2007-12-21 2014-07-15 Amazon Technologies, Inc. Content style detection
DE102008010264A1 (de) * 2008-02-19 2009-08-20 Bookrix Gmbh & Co. Kg Verfahren und Vorrichtung zur seitenweisen Bereitstellung eines elektronischen Dokumentes als Computergrafik
JP4875024B2 (ja) * 2008-05-09 2012-02-15 株式会社東芝 画像情報伝送装置
US8572480B1 (en) 2008-05-30 2013-10-29 Amazon Technologies, Inc. Editing the sequential flow of a page
US8131720B2 (en) * 2008-07-25 2012-03-06 Microsoft Corporation Using an ID domain to improve searching
US9390321B2 (en) 2008-09-08 2016-07-12 Abbyy Development Llc Flexible structure descriptions for multi-page documents
US8547589B2 (en) * 2008-09-08 2013-10-01 Abbyy Software Ltd. Data capture from multi-page documents
US9229911B1 (en) 2008-09-30 2016-01-05 Amazon Technologies, Inc. Detecting continuation of flow of a page
US8499046B2 (en) * 2008-10-07 2013-07-30 Joe Zheng Method and system for updating business cards
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
JP4725658B2 (ja) * 2009-03-03 2011-07-13 ブラザー工業株式会社 画像合成出力プログラム、画像合成出力装置及び画像合成出力システム
WO2010105245A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Automatically providing content associated with captured information, such as information captured in real-time
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US20110126113A1 (en) * 2009-11-23 2011-05-26 c/o Microsoft Corporation Displaying content on multiple web pages
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
JP4935891B2 (ja) * 2009-12-21 2012-05-23 ブラザー工業株式会社 画像合成装置及び画像合成プログラム
DE102010004166A1 (de) * 2010-01-08 2011-07-14 Giesecke & Devrient GmbH, 81677 Verfahren zum Konfigurieren einer graphischen Benutzerschnittstelle einer Vorrichtung zur Bearbeitung von Wertdokumenten
US8499236B1 (en) 2010-01-21 2013-07-30 Amazon Technologies, Inc. Systems and methods for presenting reflowable content on a display
CN101853297A (zh) * 2010-05-28 2010-10-06 英华达(南昌)科技有限公司 一种在电子设备中快速获得期望图像的方法
US9836460B2 (en) * 2010-06-11 2017-12-05 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for analyzing patent-related documents
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
US9600495B2 (en) * 2011-12-29 2017-03-21 Rakuten, Inc. Image search system, image search method, image search device, program, and information recording medium
US8687886B2 (en) 2011-12-29 2014-04-01 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10269063B2 (en) * 2013-01-11 2019-04-23 Capital One Financial Corporation Systems and methods for managing a loan application
KR102103277B1 (ko) * 2013-04-12 2020-04-22 삼성전자주식회사 이미지를 관리하는 방법 및 그 전자 장치
US9454696B2 (en) 2014-04-17 2016-09-27 Xerox Corporation Dynamically generating table of contents for printable or scanned content
US11151108B2 (en) * 2016-11-21 2021-10-19 International Business Machines Corporation Indexing and archiving multiple statements using a single statement dictionary
WO2020133187A1 (zh) * 2018-12-28 2020-07-02 深圳市世强元件网络有限公司 一种针对内容的智能搜索推荐方法、存储介质及终端
US11263325B2 (en) * 2019-01-31 2022-03-01 Mcafee, Llc System and method for application exploration
US10984168B1 (en) * 2020-02-10 2021-04-20 International Business Machines Corporation System and method for generating a multi-modal abstract

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62172463A (ja) * 1986-01-24 1987-07-29 Nippon Telegr & Teleph Corp <Ntt> 文書フアイリング装置
JPH0223469A (ja) * 1988-07-13 1990-01-25 Hitachi Ltd 情報検索方法および装置
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH03127169A (ja) * 1989-10-13 1991-05-30 Hitachi Ltd マルチメディア文書構造化方式
JPH03132874A (ja) * 1989-10-19 1991-06-06 Fuji Facom Corp 文書のファイリング方法

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4408181A (en) * 1979-04-10 1983-10-04 Tokyo Shibaura Denki Kabushiki Kaisha Document data filing/retrieval system
JPS56168263A (en) * 1980-05-30 1981-12-24 Hitachi Ltd Program making device
DE3107655A1 (de) * 1981-02-27 1982-09-16 Siemens AG, 1000 Berlin und 8000 München Verfahren zum auffinden und abgrenzen von textbereichen auf einer vorlage, die text-, graphik- und/oder bildbereiche enthalten kann
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
JPH0748795B2 (ja) * 1982-07-09 1995-05-24 富士写真フイルム株式会社 画像入出力装置
GB2126054A (en) * 1982-08-11 1984-03-14 Philips Electronic Associated Display system with nested information display
JPS60134357A (ja) * 1983-12-21 1985-07-17 Hitachi Ltd 画像フアイル登録・検索方式
US4907285A (en) * 1984-08-24 1990-03-06 Hitachi, Ltd. Image understanding system
US5235653A (en) * 1984-08-31 1993-08-10 Hitachi, Ltd. Document analysis system
JPS6176144A (ja) * 1984-09-21 1986-04-18 オリンパス光学工業株式会社 医用画像フアイル装置
DE3585279D1 (de) * 1984-11-14 1992-03-05 Canon Kk Bildverarbeitungssystem.
US5265242A (en) * 1985-08-23 1993-11-23 Hiromichi Fujisawa Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
DE3642220A1 (de) * 1985-12-11 1987-06-19 Sharp Kk Einrichtung zum aufzeichnen und wiederauffinden aufgezeichneter information
JPH0785248B2 (ja) * 1986-03-14 1995-09-13 株式会社東芝 デ−タフアイルシステム
US4764867A (en) * 1986-06-03 1988-08-16 Banner Blue Software Incorporated Display system and method for constructing and editing a hierarchical arrangement of information
US4760606A (en) * 1986-06-30 1988-07-26 Wang Laboratories, Inc. Digital imaging file processing system
JPS6324419A (ja) * 1986-07-17 1988-02-01 Toshiba Corp 複合文書処理装置
US5144679A (en) * 1987-06-29 1992-09-01 Hitachi, Ltd Graphic data searching and storage method
US4803643A (en) * 1987-08-10 1989-02-07 Oclc Online Computer Library Center Incorporated System and method for creating memory-retained, formatted pages of text, tabulation, and graphic data
US5113492A (en) * 1987-09-16 1992-05-12 Canon Kabushiki Kaisha Apparatus for processing character and image data
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US4933880A (en) * 1988-06-15 1990-06-12 International Business Machines Corp. Method for dynamically processing non-text components in compound documents
US5038381A (en) * 1988-07-11 1991-08-06 New Dest Corporation Image/text filtering system and method
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
EP0358815B1 (en) * 1988-09-12 1993-05-26 Océ-Nederland B.V. System and method for automatic segmentation
US5021976A (en) * 1988-11-14 1991-06-04 Microelectronics And Computer Technology Corporation Method and system for generating dynamic, interactive visual representations of information structures within a computer
JPH032979A (ja) * 1989-05-31 1991-01-09 Toshiba Corp 画像修正方法及び装置
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
JPH03202958A (ja) * 1989-12-28 1991-09-04 Toshiba Corp 画像情報記憶検索装置
JPH03202967A (ja) * 1989-12-28 1991-09-04 Toshiba Corp 電子ファイリング装置
US5050222A (en) * 1990-05-21 1991-09-17 Eastman Kodak Company Polygon-based technique for the automatic classification of text and graphics components from digitized paper-based forms
US5048099A (en) * 1990-05-21 1991-09-10 Eastman Kodak Company Polygon-based method for automatic extraction of selected text in a digitized document
US5396588A (en) * 1990-07-03 1995-03-07 Froessl; Horst Data processing using digitized images
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system
JPH0490054A (ja) * 1990-08-03 1992-03-24 Toshiba Corp 画像記憶検索装置
US5133051A (en) * 1990-12-13 1992-07-21 Handley George E Automatic high speed publishing system
US5237628A (en) * 1991-06-03 1993-08-17 Nynex Corporation System and method for automatic optical data entry
FR2681454B1 (fr) * 1991-09-16 1995-08-18 Aerospatiale Procede et dispositif de traitement d'informations alphanumeriques et graphiques pour la constitution d'une banque de donnees.
US5359673A (en) * 1991-12-27 1994-10-25 Xerox Corporation Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5553277A (en) * 1992-12-29 1996-09-03 Fujitsu Limited Image search method for searching and retrieving desired image from memory device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62172463A (ja) * 1986-01-24 1987-07-29 Nippon Telegr & Teleph Corp <Ntt> 文書フアイリング装置
JPH0223469A (ja) * 1988-07-13 1990-01-25 Hitachi Ltd 情報検索方法および装置
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH03127169A (ja) * 1989-10-13 1991-05-30 Hitachi Ltd マルチメディア文書構造化方式
JPH03132874A (ja) * 1989-10-19 1991-06-06 Fuji Facom Corp 文書のファイリング方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211716A (ja) * 1996-08-07 2009-09-17 Randall C Walker テキスト・プロセッサ
US7765471B2 (en) 1996-08-07 2010-07-27 Walker Reading Technologies, Inc. Method for enhancing text by applying sets of folding and horizontal displacement rules
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2002007413A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd 画像検索装置
JP2003085187A (ja) * 2001-09-11 2003-03-20 Canon Inc 文書登録システム、方法、プログラム及び記憶媒体
JP2009026286A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置および画像文書処理方法
JP4570648B2 (ja) * 2007-07-23 2010-10-27 シャープ株式会社 画像文書処理装置、画像文書処理方法、画像文書処理プログラムおよび記録媒体

Also Published As

Publication number Publication date
US6002798A (en) 1999-12-14
DE69434620T2 (de) 2006-08-03
EP0609996A2 (en) 1994-08-10
EP0609996A3 (en) 1995-02-15
TW229290B (ja) 1994-09-01
SG75792A1 (en) 2000-10-24
EP0609996B1 (en) 2006-02-08
DE69434620D1 (de) 2006-04-20

Similar Documents

Publication Publication Date Title
JPH06325084A (ja) 文書処理装置及びその方法と文書表示装置及びその方法
JP3491962B2 (ja) 文書検索方法及びシステム
EP0539106B1 (en) Electronic information delivery system
JP4118349B2 (ja) 文書選択等の方法及び文書サーバ
JP2536998B2 (ja) 非テキスト・オブジェクトの格納及び検索
US20010042083A1 (en) User-defined search template for extracting information from documents
US7088859B1 (en) Apparatus for processing machine-readable code printed on print medium together with human-readable information
JPH06332953A (ja) デ−タファイル装置
JPH05303590A (ja) 自動翻訳装置
JPH0490054A (ja) 画像記憶検索装置
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
WO1997004409A1 (fr) Dispositif de recherche de fichiers
JPH02121058A (ja) データファイル装置とデータ連想記憶検索方法及び検索装置
JPH10162024A (ja) 電子ファイリング方法及び電子ファイリング装置
JPH10232871A (ja) 検索装置
US20050256868A1 (en) Document search system
JP3210842B2 (ja) 情報処理装置
JP2007052614A (ja) 文書管理装置、文書管理システムおよび文書管理方法
JP3424942B2 (ja) 対訳画像形成装置
JPH08202859A (ja) 電子ファイリング装置及びその方法
JPH10312387A (ja) 情報処理装置及び方法並びに情報処理プログラムを記録した記録媒体
JPH09269943A (ja) 文書作成装置及びかな漢字変換方法
JPH0765026A (ja) 文書ファイリング装置
JPH07244676A (ja) 文書ファイリング装置および文書ファイリング方法
JPH05298374A (ja) デジタル複写機

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031024