[go: up one dir, main page]

JP4461769B2 - 文書検索・閲覧手法及び文書検索・閲覧装置 - Google Patents

文書検索・閲覧手法及び文書検索・閲覧装置 Download PDF

Info

Publication number
JP4461769B2
JP4461769B2 JP2003368304A JP2003368304A JP4461769B2 JP 4461769 B2 JP4461769 B2 JP 4461769B2 JP 2003368304 A JP2003368304 A JP 2003368304A JP 2003368304 A JP2003368304 A JP 2003368304A JP 4461769 B2 JP4461769 B2 JP 4461769B2
Authority
JP
Japan
Prior art keywords
document
ocr
data
document image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003368304A
Other languages
English (en)
Other versions
JP2005135041A (ja
JP2005135041A5 (ja
Inventor
健 永崎
勝美 丸川
沙弥香 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003368304A priority Critical patent/JP4461769B2/ja
Priority to CNB2004100048717A priority patent/CN100351839C/zh
Publication of JP2005135041A publication Critical patent/JP2005135041A/ja
Publication of JP2005135041A5 publication Critical patent/JP2005135041A5/ja
Application granted granted Critical
Publication of JP4461769B2 publication Critical patent/JP4461769B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、紙文書群または文書画像群の中から、文書解析技術を応用して、文書群をコンピュータ上で検索、及び閲覧する際に必要となる情報を取得するための、その装置及び文書解析技術プログラムを記録した記録媒体に関する。
デジタル情報技術が普及した今日でも、紙文書は情報伝達媒体として広く利用されている。しかし、紙文書のままでは保管場所を取る、必要とする情報の検索が難しい等の問題があるため、紙文書を電子画像化して保存し、電子画像化した文書(以下、文書画像と称する)に対して検索・閲覧をコンピュータ上で行いたいという要求が社会的に高まっている。
紙文書検索の最も基本的な手法は、OCR(Optical Character Recognition)によって紙文書をテキストファイルに変換し、テキストファイルに対して検索を行うことである。しかし、一般にOCRで変換されたテキストコードには誤りが含まれるため、単純なテキスト検索では対処できないケースが生じる。無論、OCRによって変換されたテキストコードを人手で修正し、その修正結果に対して検索を行うことも可能である。しかし、人間が介在しての修正は、その処理速度及びコストの面から実用的とは言い難い。
特開平05−108891号公報(特許文献1)では、OCRの読取精度を向上する手段としてOCRの認識結果に形態素解析を適用する手法が記されている。確かに形態素解析等の知識処理を行うことで誤読を訂正することは可能であるが、それでも100%の訂正は不可能である。また、通常の形態素解析で用いる辞書は新聞等の一般文章を対象としており、特殊な業務用途の文書を精度良く校正するためには、その分野に適合した特殊辞書を追加定義する必要がある。このため保守性や計算量の面で問題が残る。
特開平10−74250号公報(特許文献2)では、文字誤読が検索に与える悪影響を回避するために、OCRで誤読しやすい類似文字の情報を利用して単語検索を行う手法が提案されている。また、特開平9−134369号公報(特許文献3)では、OCRの読取結果に複数の文字識別候補を許し、その中から文字コードを選択して単語を検出する手法が提案されている。確かに、これらの技術を使えば1文字単位の誤読が単語検索に与える悪影響を回避することができる。
しかし、上記手法では分離文字や文字間接触等によって文字パタンの境界が明確に定まらないが故に誤って文字パタンが切り出されたケースに対処できない。例えば、「ハル」と書かれた文字を、OCRが「ヘル」と読んだケースには上記特許の手法で対処できるが、「ハノレ」と読んだケースには対処できない。更に、図や表が入り組んだ文書や帳票形式で罫線が多く混在する文書等に対しては、そもそも文字読取の以前に文字行の検出・同定が困難であるケースが多い。この問題に対しても上記手法では対処できない。
更には、文書画像の閲覧機能として、紙文書にはない付加価値を付けたいという要求がある。例えば、大量の書類をチェックする場合、文書全面を見ることは普通行わず、記載必須欄を集中的に見る。そこで画面上でチェックする際に、あらかじめ文書画像の特定欄を抽出しておき、画面には抽出した特定の欄のみを表示する、または特定の欄を強調して表示するなどの機能が考えられる。しかし、従来OCRでは、特定欄の記載事項を認識する機能のみが存在するため、この認識結果を画面に表示することしかできない。認識結果が完全であれば、特定欄の認識結果を表示することで文書画像の部分閲覧に十分対応できるが、これは現実的には難しい。それよりはOCR装置がテキスト認識の結果と共に枠構造や罫線座標などの文書構造データを出力し、これらの情報を活用した閲覧機能のあることが望ましい。
電子画像化した紙文書の取扱いフォーマットとしては、TIFFやGIFなどの画像フォーマット、PDFなどの文書フォーマットが存在する。通常は、画像を記録したファイルと、OCR装置で認識した結果はCSVやXML等の形式の別ファイルとして出力し、これらを統括して扱う。しかし、この場合、相互のファイルのリンク関係を保持するシステムの構築が必要となる。PDFに関してはOCRで認識した結果を透明テキストとして画像ファイル中に埋め込んで取扱う機能が存在するが、手書文字の場合、認識結果が一意的に定まるとは限らない。更には、文書構造データを画像ファイル中に埋め込むことはサポートされていない。文書構造データを画像ファイルと別個に扱い、両者を組み合わせた閲覧ソフトを構築することも可能ではある。しかし、文書構造データを画像ファイルと別々に扱うことは、文書の管理上、非効率的である。なぜなら、文書構造データは文書画像中の罫線や枠や文字行の座標情報を含むという特性のため、テキストと違い画像ファイルとの独立性が弱いからである。
コンピュータ上での文書閲覧時に、文書に強調色や色線などの効果を付けて表示することは広く行われているが、一般にはワードやHTMLなどの電子的に構成された文書データに対して行われている。これに対して、文書画像ファイルに対しての効果は、表示エフェクトを掛ける為の時間制約などがあるため、敬遠されている。
特開平05−108891号公報
特開平10−74250号公報 特開平9−134369号公報 特開平09−319824号公報 特開2000−251012号公報 特開2001−014311号公報 特許2886868号公報 特願平09−238032号公報
本発明の目的は、OCR装置による文書認識の結果を元に、紙文書群を電子画像化して高度な検索・閲覧機能を提供する文書検索・閲覧システム、その装置及びOCR認識プログラム及び文書閲覧システムを記録した記録媒体を提供することにある。
従来の手法では、紙文書群からの文書検索はOCR読取の結果であるテキストファイルに対して検索を行っていたが、文字潰れやかすれ等に起因するOCRの文字識別誤りや、文字パタン境界の曖昧性に起因するOCRの文字切出誤りや、文書−図版−罫線混在に起因するOCRの文字行抽出誤りに対処することが困難であった。本発明の第1の目的はOCR読取に起こり得る文字識別、文字切出、文字行抽出の誤りが文書検索に与える悪影響を回避する方法を提案することである。
また、従来の手法では、文書画像の閲覧において部分領域の表示を行う場合、固定の座標を用いて部分領域を特定することを行っていたが、画像のズレなどに影響を受けるという問題があった。これに対して本手法では、OCR装置から罫線情報、枠情報、文字行情報等を持つ文書構造データを出力し、このデータを使うことで表示への悪影響を回避する。本発明の第2の目的は、文書画像の閲覧時に部分領域表示・強調表示・重要語表示・秘匿処理などの付加価値を提供することである。
また、従来の手法では、文書画像表示の際のエフェクトを掛けるために、文書画像データの変換時間が掛るという問題があった。本手法では、OCR装置から出力した文書構造データを使い、予め表示効果が必要と予測される領域・文字列に対して、擬似カラー化を行うことにより、この問題を回避する。本発明の第3の目的は、文書閲覧時の文書表示処理にかかる処理時間を軽減することである。
上記第1の目的を達成するため、本発明は、OCR装置と文書画像処理装置を分離し、OCRの出力形態として文書画像(擬似カラー化文書画像を含む)と、及び、読取結果テキスト、読取仮説データ、文書構造データ(以上を併せてOCR付加データと称する)を保持するファイルを採用し、この文書画像及びOCR付加データを元にキーワード検索並びに文書閲覧機能を構成することで、必要な文書画像の検索及び文書画像閲覧を行うシステムを提供する。
上記第2の目的を達成するため、本発明は、OCR装置の出力であるOCR付加データを用いて、部分領域の強調表示、部分領域の切出表示、特定文字列の強調表示などの視覚効果を実現する閲覧システムを提供する。
上記第3の目的を達成するため、本発明は、OCR付加データを用いて事前に確定した特定領域に対して擬似カラー化処理を行い、表示モード切り替えに併せて擬似カラー値を変更することで、高速な表示機能を提供する。
本発明によれば、従来の手法では、文書画像群からの文書検索はOCR読取の結果であるテキストを元に検索を行っていたが、活字文字や手書文字の混在や文字潰れやかすれ等に起因するOCRの文字識別誤りや、文字パタン境界の曖昧性に起因するOCRの文字切出誤りや、文書−図版−罫線混在に起因するOCRの文字行抽出誤りに対処することが困難であった問題に対して、文字識別、文字切出、文字行抽出の候補を保持するOCR付加データを用いて単語検索及び文書検索を行うことにより、上記問題が回避できる。また、OCR付加データ中に含まれる文書構造データを用いることで、文書画像の閲覧の際に、必要な箇所の強調表示、複数文書の一覧など付加価値を付けた閲覧システムの構築が可能となる。
図1を例として、従来手法と本提案手法の違いを概説する。図1は、従来のOCRを使った文書処理と、本特許で提案する手法を使った文書処理との違いを模式化したものである。
まず従来のフローでは、0101に示す紙文書群があり、これを0102に示すOCR装置に掛けて読取を行う。OCRの出力は、0103に示すように、紙画像を電子化した文書画像、及びOCR読取結果であるテキストファイルである。次に、0104に示す装置を使って文書処理を行う。このフローでは、OCR出力結果が読取結果テキストと文書画像であるため、文書処理ではテキスト検索と文書画像の閲覧ができることになる。
これに対し、本特許で提案する処理フローでは、まず0105に示す紙文書群があり、これを0106に示すOCR装置に掛けて読取を行う。OCRの出力は、0107に示すように、紙画像を電子化した文書画像、及びOCR読取結果である読取結果テキスト、及び文字行抽出や文字切出や文字認識の候補を情報として持つ読取仮説データ、及び文書の罫線情報や枠情報や文字行情報や閲覧属性情報を持つ文書構造データ、あるいは上記データ群を文書画像の中に埋め込んだ付加情報付き文書画像が出力される。次に、0108に示す装置を使って文書処理を行う。このフローでは、OCR出力結果がテキストと文書画像以外の上記情報を含むため、文書処理ではテキスト検索と文書画像の単純な閲覧のみでなく、認識が困難な手書キーワードの検索や、文書中の重要なキーワードや領域を色線やコントラストなどで強調した強調表示や、文書画像の必要な所だけを並べて閲覧する部分領域表示(部分縦覧)や、機密事項を部分的に秘匿しての表示などが可能となる。
0107で出力されるデータは、対応する紙文書または文書画像を一意的に同定する文書IDコードを持ち、磁気記憶装置などに保存できる。保存する形態としては、文書画像、擬似カラー化文書画像、読取結果テキスト、読取仮説データ、文書構造データを別個にデータベース上に持つ形態と、これらのデータを付加情報として文書画像ファイル中に埋め込んで持つ形態が考えられる。前者のメリットは文書画像とOCRが付加したデータ(読取結果テキストなどのこと。以下、OCR付加データ)を別個に扱うため、文書の閲覧や検索が、それぞれ独立の既存ツールを使ってできることにある。但し、テキストで検索した文書を表示したい、または、検索に引っ掛かった箇所を強調表示したい場合には、文書IDを使ってOCR付加データと文書画像の間の対応関係を計算する必要がある。また、読取結果テキストを用いた場合、検索時に引っ掛かった検索語を文書画像上で強調表示しようとしても、読取結果デキストに対応する文書画像上での座標情報が無いため、不可能である。後者のメリットは文書画像ファイルのみを管理するだけで、画像とOCR付加データの全情報にアクセスできる点である。後者の場合、前者のように文書IDを使って、OCR付加データ(読取結果テキストなど)と文書画像の間のリンクを張る必要が無いため、文書管理が容易になる。
図2について説明する。本発明の実施例である帳票認識装置では、初めに、OCR装置が紙文書を撮像して、これを電子的画像データに変換する。本処理は、元々の文書が電子的画像データである場合は省略可能である(0201)。次に、電子的画像データを元にして、罫線抽出、枠構造解析、読取対象欄の位置推定等の文書構造解析を行う(0202)。文書構造解析の処理においては、文書構造辞書を用いる。文書構造辞書には、読取対象である文書画像の罫線座標、枠座標、読取対象欄の属性(氏名記入欄、住所記入欄、閲覧属性情報等)などの情報が含まれる。このとき使う認識処理には従来から知られた技術(特開平09−319824号公報(特許文献4)、特開2000−251012号公報(特許文献5)等)を利用する。次に、文書構造解析の結果を受けて、読取対象である文字行を抽出する(0203)。次に、文字行画像から文字パタン候補の切出と、各文字パタン候補の文字識別を行う(0204)。文書構造が入り組む場合は、文字行の仮説が複数立てられ、それぞれに文字パタン候補切出と文字識別を行う。文字識別の処理においては、文字識別辞書を用いる。文字識別辞書には、認識対象である文字パタンの文字コードと構造情報(輪郭方向成分の強度分布、各種統計量等)などが含まれる。文字パタン候補及び識別結果を併せて文字列仮説と称する。読取対象とする文書において、書かれ得る文字表記列が事前に決まっている場合は、文字列仮説に対して表記解析を行う(0205)。文字列表記解析の処理においては、文字列表記知識辞書を用いる。文字列表記知識辞書には、当該文書において出現し得る単語、数字列の表記、並びに単語群の出現可能順序等の情報が含まれる。これにより、文字切出や文字識別の曖昧性を含んだ文字列仮説は、文字列パス、更には文字列テキストに変換される。但し、文字列パスとは、文字コードと当該文字コードに対応する文字候補パタンがペアと成ったものの並びである。上記0205の処理が失敗した場合、または文書の表記知識が事前に分からない場合は、文字列仮説のまま次の処理に移行する。次の処理では、文字列仮説またはテキストの情報が入力され、これに対して、どちらか、または両方をOCRの出力とする選択を行う(0206)。一般に、文字列仮説を有向グラフと解釈してグラフの始点から終点までを所定の表記知識を満たしつつ通るようなパスが存在し、当該パスが一意的に定まり、かつ文字識別の類似度及び文字パタンの並びから定まる文字列パスとしての信頼度がある閾値を超えた場合は、文字列テキスト情報を出力すると判定する。判定の結果、テキストを出力すると判断された場合は、0207の処理において、文字列テキストを読取結果テキストとして出力する。なお、読取結果テキストの出力に対しては、人間による修正が加わることがあり得る。逆に、文字列パスの信頼度が低い場合は、文字列仮説を出力とする。読取結果テキスト、並びに読取仮説データの双方は、必要に応じて当該文字列の書かれた文書画像上の位置情報を保持するものとする。以上の処理により、文書画像ファイル、文書構造データ、読取結果テキスト、読取仮説データが出力され、これらのデータを元に次の文書処理を行う。文書処理の過程は大きく2つに分かれると考えられる。1段目はデータ登録部である(0209)。ここでは、上記データ群を扱えるように、データベース若しくは文書画像中にデータを登録する。次に、これらのデータを使って文書処理(0210)を行う。OCR装置と文書処理装置が分離しているケースにおいては、OCR装置の処理範囲は0201から0208、若しくは0201から0209までである。
図3について説明する。図3は、文書画像及びOCR付加データを使った文書処理の処理フローを示した図である。但し、図3の0301から0307のデータ及び処理はOCR側で扱うことも可能である。その場合、OCR側からは文書構造データ、読取結果テキスト、読取仮説データから成るOCR付加データ付きの文書画像若しくは擬似カラー化文書画像、あるいはOCR付加データと文書画像若しくは擬似カラー化文書画像が格納されたデータベースが、図0308に示す文書処理部に渡されることとなる。初めに、文書画像及び対応するOCR付加データ群(0301)を入力とし、これをファイルから読み込む(0302)。文書画像を表示する際に便利なよう、必要であれば文書画像に対して擬似カラー処理を行う(0303)。擬似カラー処理については後に詳細を述べる。文書画像とOCR付加データを扱う形態としては、文書画像、読取結果テキスト、読取仮説データ、文書構造データを別個にデータベース上に持つ場合と、OCR付加データを文書画像ファイル中に埋め込んで持つという2つの形態が考えられる。前者の場合はデータベース登録処理を行い(0304)、文書画像とOCR付加データを対応付けてデータベースに登録する(0305)。後者の場合は、画像情報埋込処理を行い(0306)、付加情報付き文書画像ファイルを作成する(0307)。以上が図2におけるデータ登録処理0209に該当する。これらの作業の後で、文書処理が行われる(0308)。
図4について説明する。図4は、OCR付加データを文書画像ファイルに埋め込む場合の一例を示したものである。この図ではTIFFなどのタグ形式画像ファイルを想定している。一般にタグ形式画像ファイルでは、ファイルの先頭ブロックにタグ情報が格納され、画像データ本体はタグからリンクを貼られた位置に存在する。タグ情報の中にはそれぞれのタグに対応するデータ本体部の格納位置と、データ本体部に記録されたデータの種別を表すタグID番号が存在する。タグID番号は予め画像ファイル形式の規約として定められており、タグID番号を見ることで、当該タグの指すデータが画像データであるか、作成者や作成日時などのデータであるかが区別できる。OCR付加データを加える場合は、このタグ情報をブロックに追加し、OCR付加データ用のタグIDとOCR付加データの登録先へのポインタを張れば可能となる。
図5は処理対象となる文書画像の一例である。図6は、図5の文書画像に対して、文書構造解析と行抽出を行った結果である。図6(a)には文書構造解析の結果である罫線情報、枠情報及び文字行情報が、太線または外接矩形で示されている。0601は傷病名欄、0602は診療日欄、0603は摘要欄、0604は診療日数欄、0605は点数欄を表す。それぞれ太い四角で括られた部分が、文書構造解析の結果、解析対象欄として認識された領域である。解析対象欄は、文書処理において重要となる欄であり、文書構造辞書において予め特定されている。太枠の中にある細い四角は、文字行として抽出された領域である。枠毎に文字行が抽出されている枠(0601や0603など)と、抽出されていない枠(0602と0604)とがあるのは、解析対象欄が、読取対象であるか否かの違いによる。読取対象であるか否かも、文書構造辞書に予め登録されている。印刷活字文書では文字行抽出は容易であるが、手書文字及び印刷活字と手書きの混在環境においては難しくなる。そのようなケースに対しても、図6(b)に示すように、文字行の曖昧性を保持した抽出を行う。すなわち、文字行と思われる塊の仮設を複数立て、それらを抽出結果とするため、1つの文字パタン候補が1つの文字行に属するとは限らない。また印刷活字を前提とした文字行抽出結果と、手書文字行を想定した文字行抽出結果が異なることがあるが、この場合も複数の文字行仮説を出力する。これにより印刷活字及び手書き文書画像の処理に対応する。0607は印刷活字文字行として抽出され、0608は曖昧な手書文字行として抽出された領域である。上記文書構造解析の処理では、文書構造辞書を用いる。文書構造辞書には、読取対象である文書画像の罫線座標、枠座標、読取対象欄の属性(氏名記入欄、住所記入欄、閲覧属性情報等)などの情報が含まれる。また上記処理を行った結果、OCR付加データの中の文書構造データとして、枠座標、当該欄の属性、当該欄内の文字行座標情報、当該欄内の文字パタン候補座標情報、当該欄の閲覧属性情報などの情報が得られる。
図7を元に文字列仮説の作成と、表記知識利用による文字列認識の流れを説明する。また、図8は、文字列仮説の概念図とデータの詳細を示した図である。読取対象文字行7(a)から、文字パタンと推定される部分を様々に切出して文字パタン候補を作り、各文字パタン候補を文字識別したものが、文字列仮説7(b)である。文字列仮説は、文字パタン候補、文字識別の結果得られた順位付けされた識別文字コード群、文字列仮説中での文字パタン候補間の接続関係の情報、を最低限持つものとする。このような文字列仮説の表現を、グラフ形式による表現という。次に文字列表記知識7(c)を使って、文字列仮説から文字列パス7(d)を計算する。文字列パスとは、一意的に確定した文字コード列(テキスト)と、各文字コードに対応する文字パタンの並びを意味する。例では文字列表記知識辞書に含まれる表記文字列の候補をOR記号(|)で単語を並べて表現している。すなわち、記号|の間に挟まれた単語群が検索対象として指定されることを意味する。文字列表記知識を表現する方法としては、この表現以外にもトライ、文脈自由文法などを使った方法がある(特開2001−014311号公報(特許文献6)等に記載)。文字列仮説の詳細は図8に詳しい。文字列仮説は、文字パタンの候補をアーク(0801)とし、文字パタンの境界をノード(0802)とする有向グラフとして表現される。各文字パタンには、左右(縦書きであれば上下)のノード(文字パタン候補境界)を表す境界ID番号と、文字識別候補(0803)及び識別類似度(0804)の情報が含まれる。知識処理は、この文字列仮説と文字列表記知識を入力として、文字列仮説に含まれ得る単語とそのパタン列を見つける処理である。例えば文字列表記知識にある「血液化学検査」という単語は、図8(b)の文字列仮説中に、丸で示される文字コード及び文字パタン候補(0805)を辿ることで見つけることができる。当該欄に書かれる文字列の表記が事前に定まっている場合、本処理を行うことで文字コード列が確定する。すなわち、以上の処理により、図2にあるOCR読取結果としての文字列テキスト(文字コード列)、若しくは図3にある文書処理における検索結果が確定することとなる。
図9、図10、図11、図12、図14は、上記処理によって得られたOCR付加データと、文書画像または擬似カラー化画像を使って文書閲覧を行う場合の閲覧機能の例を示した図である。OCR付加データが文書画像ファイルと別のデータベースに蓄えられている場合は、文書IDを用いて文書画像ファイルに対応するデータベース上のOCR付加データにアクセスし、閲覧機能を実現する。また、OCR付加データが文書画像ファイルに格納されている場合は、図4に示されるように文書画像ファイル中のタグで指定された領域に格納されたOCR付加データを参照して、閲覧機能を実現する。
図9について説明する。図9は、本特許で提案する手法を用いた文書処理の閲覧システムの一画面構成例を示したものである。ここでは、レセプト文書の閲覧システムを例としている。まず始めに、紙レセプトをOCRで読取り、文書画像とOCR付加データを出力する。このシステムでは文書画像の全面表示と、部分表示の切り替えが可能となっており、部分表示を行う場合は、OCR付加データ中の文書構造データを使って当該欄の座標データを取得し、その部分領域を表示する。0901は1枚の文書画像を表示したブロックになる。0902には表示している文書画像の名前、0903にはレセプトの傷病名欄、0909にはレセプトの摘要欄が表示されている。一般に文書点検では文書画像の全面を表示する必要は無く、点検に必要な領域に限って、複数文書を並べて表示することで、点検の効率化を図ることができる。この他にもOCR付加データ中の文書構造データを用いることにより、PDA等の携帯情報端末機器のような狭い画面上への表示に適合するよう文書配置構造を修正することが考えられる。例えば、ニ段組のような形態の文書であれば、各段ごとに文書を細かく分割し、これを縦に並べて配置して、上下スクロールのみを使った閲覧ができるようにするといった機能が実現できる。あるいは、文書処理業務をサポートする上で、マウスカーソルで欄の中をクリックすると、当該欄に応じたヘルプや業務ノウハウが表示されるなどの機能が実現できる。
図10及び図11について説明する。図10は、本特許で提案する手法を用いた重要キーワード閲覧システムの一画面構成例を示したものである。1001には、抽出するべき重要キーワードのリストが指定されている。1002には、抽出されたキーワードが下線付きで表示されている。図11は、先ほどの重要キーワードの抽出機能と併せて、チェックルールを使った文書画像簡易点検システムの一画面構成例である。まず初めに、入力欄1101に点検で用いるチェックルールを指定する。この図ではチェックルールは検索キーワードの論理演算として定義されている。次にOCR付加データにある読取結果テキストまたは読取仮説データから、当該キーワードの検索と論理演算適用を行う。キーワード抽出のアルゴリズムとしては有限オートマトン法、トップダウン構文解析法、ボトムアップ構文解析法、動的計画法などがある(特許2886868号公報(特許文献7)、特願平09−238032号公報(特許文献8)等に記載)。表示欄1103には、検索の結果得られた文書名が表示されている。チェックルールに適合した文書は表示欄1104に表示される。OCR付加データは、元の紙文書または文書画像と一意的な対応が取れる文書IDコードを持つため、文書画像と検索結果の同時表示が可能である。また、キーワード情報には座標情報が含まれるため、検索されたキーワードは1105に示すような下線で場所を示している。ここでは「特定疾患指導料 AND 特定疾患処方管理加算」というチェックルールに適合した文書画像が表示されている。OCR付加データでは、通常のOCRでは読取り困難な手書文字についても、文字切出や文字識別の曖昧性を保持した読取仮説データがあるため、印刷活字・手書き文書に関係なく検索・点検が行える。また、OCR装置と文書処理を分離して業務処理を行うケースのおいて、OCR付加データ中の読取仮説データを用いることにより、OCR装置から文字認識をやり直さなくとも任意のタイミングで任意のキーワードを検索することができる。
図12について説明する。図12は、本特許で提案する手法を用いた秘匿事項の表示限定機能の例を示したものである。図12(a)は文書構造解析の結果として得られた、秘匿対象領域及び当該領域中の文字行の抽出結果である。ここでは、名前が書かれた文字行が秘匿対象事項であるとする。秘匿対象領域を黒枠で塗り潰した結果が図12(b)である。これにより、閲覧者毎に必要なデータの秘匿・開示を図ることができる。同様に秘匿対象領域を背景色(白)で塗り潰した結果が図12(c)である。後者の背景色での塗り潰しの場合、黒枠で塗り潰すのに比べて、そこに秘匿対象データがあることを閲覧者に意識させない分、データの秘匿性が高くなる。後者の塗り潰し方については、幾つかの方法が考えられる。それについては、図13を元に説明する。
図13について説明する。図13は、文書画像の擬似カラー化処理の概念図を示したものである。各画素は色を表す値(カラー値)を持っている。例えば白黒画像であれば、0若しくは1の値を持つ。0の値がどのような色を表すかは、RGBカラーマップと呼ばれるテーブルを参照する。図13(b)にあるRGBカラーマップでは、0は白を、1は黒を表す。擬似カラー化処理は、対象領域内の対象文字行内の黒画素(必ずしも黒である必要は無く、単に秘匿対象の色という意味である)に対して、別のカラー値を割り当てる処理である。図13(c)は、文書画像の氏名欄内の文字行の画素に対してカラー値2を割り当てている。このカラー値2に対して、RGBカラーマップの定義を白(背景色)とすれば、表示画面上では「日立太郎」という名前が白で表示される。つまり、あたかも白く塗り潰されたかのように表示される。しかし、内部的には名前部分の画像データは消去されてない。カラー値2を与えられた画素集合が、名前部分を構成する画像に相当する。なお、擬似カラー化をOCR装置で行う場合は、元と文書画像を変更して擬似カラー化し、擬似カラー化された情報のカラー値と属性を閲覧属性情報として、OCR付加データ中の文書構造データに格納して出力することとなる。このときOCR装置は、文書構造データに基づいて文書画像データ中の秘匿が必要な箇所を特定し、秘匿が必要な箇所について文書画像データの各画素のカラー値を他のカラー値に変更し、他のカラー値を表示する際に用いられる表示色と他のカラー値との対応を作成する擬似カラー化処理を行い、文書画像データを他のカラー値を含むように更新し、表示色と他のカラー値との対応を含むカラーマップテーブルと、擬似カラー値及び閲覧許諾条件を最低限含む閲覧属性情報とを、文書画像データと対応付けて出力するというような動作を行うことになる。
OCR付加データより得られた枠位置情報及び枠属性情報を使えば、秘匿すべき領域の所在が判明する。実際の秘匿方法としては様々な方法が考えられる。秘匿対象欄と判別した場合、その中の文字行を抽出し、文字行の外接矩形情報を得ることにより、当該外接矩形内の領域を黒で塗り潰す方法や、当該外接矩形内の領域内の黒(前景色)に対して擬似カラー化を行い擬似カラー値を白(背景色)として白で塗り潰されたように見せる方法や、当該外接矩形内の領域内の黒(前景色)に対して擬似カラー化を行い擬似カラー値を黒(前景色)とし、かつ当該外接矩形内を黒で塗り潰す方法などがある。秘匿情報を表示する場合は、OCR付加データに含まれる閲覧属性データから擬似カラー値の値とその開示条件を知り、閲覧者がその開示条件に適合する場合は擬似カラー値を前景色へと変更する、または背景色に対して目立つ他のカラー値にすることで表示ができる。擬似カラー化を用いた情報秘匿の特色は、汎用ビューワーでの文書画像の可読性を保持し、かつ元の画像情報を壊すこと無く、秘匿情報の隠蔽を可能とすることにある。一般に文書画像における情報秘匿の方法としては、PDFのように特殊フォーマットを使い、専用ビューワを利用して、パスワード等によるチェックを経ないと当該文書が開けない、若しくは部分的に黒く塗り潰された所が見えないなどの方法がある。もう一つの方法は、汎用フォーマットを使い、特殊なビューワーでのみ秘匿情報が見れるという方法である。擬似カラー化処理は、主に後者に適用され得る手法である。この手法のメリットは、汎用ビューワを使用するためシステムのコストが押さえられること、更には画像上のデータが本質的には消去されず、見た目だけ消えることにある。セキュリティの質を更に高めるためには、画像自身に暗号を掛けるなどの方策がある。この場合も、一般的なツールを組み合わせることで実現できるため、上記メリットは損なわれない。OCR装置で行われた文書読取処理結果を入力情報として文書処理を行う文書処理装置としては、文書読取処理結果の入力を受ける入力部と、文書読取処理結果に関する表示を行う表示部と、ユーザ入力を受け付けるユーザ入力部と、演算部とを有し、文書読取処理結果は、紙文書を光学的に読み取って生成される文書画像データと、文書画像データの枠構造を含む文書構造データおよび文書画像データの枠のうち読取対象である枠についての文字認識処理の読取仮説データの少なくともいずれかを含むOCR付加データとを含み、演算部は、ユーザ入力部から入力される指示に基づいて、OCR付加データを用いて文書読取処理結果に含まれる情報を選択的に表示部に表示させる。ここで、文書画像データの一部の領域は擬似カラー化処理が行われており、OCR付加データは、擬似カラー化処理が行われた領域における各画素のカラー値と表示色との対応関係を含むカラーマップテーブルを含み、演算部は、カラーマップテーブルを参照して擬似カラー化処理が行われた領域の表示色をユーザからの閲覧状態の指定応じて決定し、表示部は決定された表示色を用いて文書画像データを表示する。

図14について説明する。図14は、本特許で提案する手法によって注目領域を強調して表示する場合の一画面構成例である。図14(a)は文書構造解析の結果で、1401に傷病名欄、1402に摘要欄が抽出されている。この2つの欄だけを注目したいと思った場合、図9にあるように、枠を切り出して表示する手もあるが、ここでは枠の強調表示と周りの階調を落とす処理とにより、実際の文書画像の構成を崩すことなく、強調した表示を実現している(図14(b))。この処理にも、先ほどの擬似カラー化が使える。即ち、傷病名欄と摘要欄内部の文字行に含まれる画素に対して、擬似カラー値2を割り当てる。強調処理をする前はカラー値2の色を黒にしておく。強調処理が要求された場合は、領域外の黒画素のカラー値1の色を灰色に設定すれば良い。コントラスト処理をする方法としては、その都度画像を走査して色を変更する方法、元の画像とマスク画像の論理演算を取る方法などがあるが、それらの処理に比べて当該処理は、事前に擬似カラー化しておけば、コントラスト強調などの必要な要求が閲覧者からあった際にRGBカラーマップの値を変更するだけで強調効果が実現できるため、処理が高速であるというメリットがある。図14(c)は、同様の処理を、画像閲覧者の作業進行に併せて変更する場合を示している。例えば作業初めには1405にある傷病名欄を集中的に点検し、次の作業フェーズでは1406の摘要欄を点検するといった点検方法が、OCR付加データと擬似カラー化処理を用いることで可能である。
図15について説明する。図15は、本特許で提案する手法によってOCR装置と文書画像処理装置を分離する形で文書検索システムを構成した場合の一構成例である。図15上段にはOCR装置の一構成例を、図15下段には文書画像処理装置の一構成例を示した。
まず上段のOCR装置では、画像入力装置(1501)により文書を電子データ(文書画像)に変換し、それを外部記憶装置(1504)及びメモリ(1505)に蓄えて、中央演算装置(1506)により読取を行う。図2における文書構造辞書、文字識別辞書、文字列表記知識辞書などは外部記憶装置(1504)に蓄えられており、文書構造解析にはここに蓄えた定義を参照する。これらの処理は操作端末装置(1502)を通して人間が操作可能であり、処理結果等は表示端末装置(1503)を通して表示され、外部記憶装置に蓄積または通信装置(1507)を通して外部装置にデータが送られる。OCRが読取った結果は、従来の装置のようにテキストファイルとしても出力できるが、OCR付加データとしても出力できる。読取仮説データ及び読取結果テキスト及び文書構造データを含むOCR付加データは、文書画像ファイルに埋め込まれて、または文書画像ファイルと対応付けられて外部記憶装置に蓄えられるか、または通信装置を通して外部の装置に送られる。その際、OCR付加データにはOCRで読取った文書(あるいは画像)に対応する文書IDコードが振られるとする。この文書IDコードを利用することで、紙文書または文書画像とOCR付加データとの対応が取れる。
図15下段の文書画像処理装置は、上記OCR機能装置から出力されたOCR付加データを用いて文書検索・文書閲覧を行うもので、一旦OCR付加データが生成された文書に対しては何度でも繰り返し(OCR付加データが存在する限り)検索・閲覧できる機能を有する。この文書画像処理装置は、通信装置(1515)及び外部記憶装置(1512)よりOCR付加データを読み、これをメモリ(1513)にロードして、中央演算装置(1514)により検索・閲覧処理を行う。検索したい単語及び文書検索ルールは、外部記憶装置に蓄えられているか、または操作端末装置(1510)から入力することができる。単語の検索結果は表示端末装置(1511)を通して表示され、また通信装置を通して外部機器にデータを送信する、または外部記憶装置に検索結果を蓄積することができる。これらの装置は通信バス(1507、1508、1509、1015、1516)によってつながれている。
本特許と従来手法の処理の比較図。 OCR付加データを出力するOCR装置のフロー図。 OCR付加データを使った文書処理のフロー図。 画像ファイルへのOCR付加データ埋込の概念図。 文書画像の一例。 文書構造解析の一例。 文字列仮説を使った表記知識処理の概念図。 文字列仮説の概念図。 文書閲覧システムの一例(部分縦覧)。 文書閲覧システムの一例(重要語表示)。 文書閲覧システムの一例(ルール点検)。 文書閲覧システムの一例(情報秘匿)。 擬似カラー化の概念図。 文書閲覧システムの一例(領域強調)。 OCR装置と文書処理装置の構成例。
符号の説明
0101…従来の文書処理システムに入力される紙文書、0102…従来の文書処理システムでのOCR部、0103…従来の文書処理システムのOCR出力結果,0104…従来の文書処理システムにおける文書処理部,0105…本特許で提案する文書処理システムに入力される紙文書,0106…本特許で提案する文書処理システムでのOCR部,0107…本特許で提案する文書処理システムのOCR出力結果,0108…本特許で提案する文書処理システムにおける文書処理部
0201…画像入力部,0202…文書構造解析部,0203…文字行抽出部,0204…文字列仮説作成部,0205…文字列表記解析部,0206…文字列仮説/テキスト選択部,0207…テキスト出力部,0208…文字列仮説出力部,0209…データ登録部,0210…文書処理部
0301…入力データ群,0302…データ読込部,0303…擬似カラー処理部,0304…データベース登録部,0305…付加情報データベース,0306…画像情報埋込部,0307…付加情報付き文書画像ファイル,0308…文書処理部
0501…処理対象とする文書画像の例
0601…文書構造解析の結果(傷病名欄),0602…文書構造解析の結果(診療日欄),0603…文書構造解析の結果(摘要欄),0604…文書構造解析の結果(診療日数欄),0605…文書構造解析の結果(点数欄),0606…文書構造解析の結果(行抽出),0607…行抽出の結果1(印刷活字行の例),0608…行抽出の結果2(手書文字行の例)
0801…文字列仮説上の文字パタン,0802…文字列仮説上のパタン境界,0803…文字列仮説上の文字識別結果,0804…文字列仮説上の文字識別類似度,0805…文字列仮説上から検索された単語
0901…部分縦覧表示された文書画像の部分領域群,0902…部分縦覧表示されている文書画像の名前,0903…部分縦覧表示されている文書画像の傷病名欄,0904…部分縦覧表示されている文書画像の摘要欄,1001…文書画像中から検索を行うキーワードのリスト,1002…文書画像中に見つかったキーワード(下線で表示)
1101…文書画像の検索ルールのリスト,1102…文書画像中から抽出された重要キーワードのリスト,1103…指定ルールに条件が一致した文書画像のリスト,1104…文書画像中で検索ルールが一致した箇所,1105…検索ルールに適合した重要キーワード(下線で表示)
1401…文書構造解析の結果得られた傷病名欄の位置,1402…文書構造解析の結果得られた摘要欄の位置,1403…傷病名欄を強調表示した結果,1404…摘要欄を強調表示した結果,1405…始めに傷病名欄を強調表示した結果,1406…次に摘要欄を強調表示した結果
1501…OCR装置部における画像入力装置,1502…OCR装置部における操作端末装置,1503…OCR装置部における表示端末装置,1504…OCR装置部における外部記憶装置,1505…OCR装置部におけるメモリ,1506…OCR装置部におけるCPU,1507…OCR装置部における通信装置,1508…OCR装置部における通信バス,1509…ネットワーク部,1510…文書画像処理装置部における操作端末装置,1511…文書画像処理装置部における表示端末装置,1512…文書画像処理装置部における外部記憶装置,1513…文書画像処理装置部におけるメモリ,1514…文書画像処理装置部におけるCPU,1515…文書画像処理装置部における通信装置,1516…文書画像処理装置部における通信バス。

Claims (2)

  1. 紙文書を光学的に読み取って生成される文書画像データに文字認識処理を行うOCR装置であって、
    文書構造解析に用いられる文書構造辞書および文字識別に用いられる文字識別辞書を記憶する記憶装置と、
    上記文書画像データを入力する画像入力部と、
    演算部とを有し、
    上記演算部は、上記文書構造辞書を用いて上記文書画像データの枠構造解析および読取対象枠の特定を行って文書構造データを生成し、上記文字識別辞書を用いて上記特定された読取対象枠について文字認識処理を行って読取結果テキストを生成し、上記文書画像データと対応付けて、上記文書構造データを含むOCR付加データを出力し、
    該OCR装置は、上記文書画像データおよび上記OCR付加データを同一のファイルに登録して装置外部に出力する機能を有し、
    上記ファイルは複数のデータブロックと該複数のデータブロックのそれぞれに対応するタグとを含むタグ形式の画像ファイルであって、上記OCR付加データを格納する少なくとも1つの上記データブロックと、該データブロックに格納されたデータがOCR付加データであることを示す情報を含むタグとを有することを特徴とするOCR装置であって、
    上記演算部は、上記文書構造データに基づいて上記文書画像データ中の秘匿が必要な箇所を特定し、該秘匿が必要な箇所について上記文書画像データの各画素のカラー値を他のカラー値に変更し、該他のカラー値を表示する際に用いられる表示色と該他のカラー値との対応を作成する擬似カラー化処理を行い、
    上記文書画像データを該他のカラー値を含むように更新し、
    上記表示色と該他のカラー値との対応を含むカラーマップテーブルと、擬似カラー値及び閲覧許諾条件を最低限含む閲覧属性情報とを、上記文書画像データと対応付けて出力することを特徴とするOCR装置
  2. OCR装置で行われる文書読取処理結果を入力情報として文書処理を行う文書処理装置であって、
    上記文書読取処理結果の入力を受ける入力部と、上記文書読取処理結果に関する表示を行う表示部と、ユーザ入力を受け付けるユーザ入力部と、演算部とを有し、
    上記文書読取処理結果は、紙文書を光学的に読み取って生成される文書画像データと、
    該文書画像データの枠構造を含む文書構造データを含むOCR付加データとが、同一のファイルに登録されてなるものであり、
    上記ファイルは複数のデータブロックと該複数のデータブロックのそれぞれに対応するタグとを含むタグ形式の画像ファイルであって、上記OCR付加データを格納する少なくとも1つの上記データブロックと、該データブロックに格納されたデータがOCR付加データであることを示す情報を含むタグとを有するものであり、
    上記演算部は、上記ユーザ入力部から入力される指示に基づいて、上記OCR付加データを用いて上記文書読取処理結果に含まれる情報を選択的に上記表示部に表示させることを特徴とする文書処理装置であって、
    上記文書画像データの一部の領域は擬似カラー化処理が行われており、
    上記OCR付加データは、上記擬似カラー化処理が行われた領域における各画素のカラー値と表示色との対応関係を含むカラーマップテーブルを含み、
    上記演算部は、上記カラーマップテーブルを参照して上記擬似カラー化処理が行われた領域の表示色をユーザからの閲覧状態の指定に応じて決定し、上記表示部は上記決定された表示色を用いて上記文書画像データを表示することを特徴とする文書処理装置
JP2003368304A 2003-10-29 2003-10-29 文書検索・閲覧手法及び文書検索・閲覧装置 Expired - Fee Related JP4461769B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003368304A JP4461769B2 (ja) 2003-10-29 2003-10-29 文書検索・閲覧手法及び文書検索・閲覧装置
CNB2004100048717A CN100351839C (zh) 2003-10-29 2004-02-10 文档检索·阅览方法以及文档检索·阅览装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003368304A JP4461769B2 (ja) 2003-10-29 2003-10-29 文書検索・閲覧手法及び文書検索・閲覧装置

Publications (3)

Publication Number Publication Date
JP2005135041A JP2005135041A (ja) 2005-05-26
JP2005135041A5 JP2005135041A5 (ja) 2006-01-05
JP4461769B2 true JP4461769B2 (ja) 2010-05-12

Family

ID=34646007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003368304A Expired - Fee Related JP4461769B2 (ja) 2003-10-29 2003-10-29 文書検索・閲覧手法及び文書検索・閲覧装置

Country Status (2)

Country Link
JP (1) JP4461769B2 (ja)
CN (1) CN100351839C (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058605A (ja) 2005-08-24 2007-03-08 Ricoh Co Ltd 文書管理システム
JP4909576B2 (ja) 2005-11-29 2012-04-04 株式会社リコー 文書編集装置、画像形成装置およびプログラム
WO2007094078A1 (ja) * 2006-02-14 2007-08-23 Hitachi, Ltd. 文字列検索方法およびその装置
JP2008070831A (ja) * 2006-09-15 2008-03-27 Ricoh Co Ltd 文書表示装置及び文書表示プログラム
US8726178B2 (en) 2006-11-10 2014-05-13 Ricoh Company, Ltd. Device, method, and computer program product for information retrieval
CN101226595B (zh) 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101226596B (zh) 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
US8261200B2 (en) * 2007-04-26 2012-09-04 Fuji Xerox Co., Ltd. Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
JP2008310525A (ja) * 2007-06-13 2008-12-25 Canon Inc 情報処理装置、情報処理方法、及び、情報処理プログラム
JP5134383B2 (ja) * 2008-01-29 2013-01-30 株式会社日立製作所 Ocr装置、証跡管理装置及び証跡管理システム
CN102637159B (zh) * 2011-02-11 2014-12-10 汉王科技股份有限公司 文档显示方法及装置
CN102750541B (zh) * 2011-04-22 2015-07-08 北京文通科技有限公司 一种文档图像分类识别方法及装置
JP2013130997A (ja) * 2011-12-21 2013-07-04 Kyocera Document Solutions Inc 画像形成装置
JP6174466B2 (ja) * 2013-11-22 2017-08-02 日立オムロンターミナルソリューションズ株式会社 帳票認識装置、帳票認識方法、及びプログラム
CN105608131A (zh) * 2015-12-17 2016-05-25 山东尚德软件股份有限公司 一种档案信息检索及利用电子化的实现方法
CN107180039A (zh) * 2016-03-09 2017-09-19 腾讯科技(深圳)有限公司 一种基于图片的文字信息识别方法及装置
CN105956098B (zh) * 2016-05-03 2019-04-12 华中师范大学 一种纸质印刷品与电子资源的关联方法及系统
JP6579331B2 (ja) * 2016-07-28 2019-09-25 京セラドキュメントソリューションズ株式会社 画像形成装置、文書電子化プログラムおよび文書電子化方法
CN107291949B (zh) * 2017-07-17 2020-11-13 绿湾网络科技有限公司 信息搜索方法及装置
CN109389114B (zh) * 2017-08-08 2021-12-03 富士通株式会社 文本行获取装置和方法
JP7003577B2 (ja) * 2017-10-31 2022-01-20 京セラドキュメントソリューションズ株式会社 文書管理システム及び文書管理方法
JP6996234B2 (ja) * 2017-10-31 2022-01-17 京セラドキュメントソリューションズ株式会社 文書管理システム及び文書管理方法
CN112868001B (zh) * 2018-10-04 2024-04-26 株式会社力森诺科 文档检索装置、文档检索程序、文档检索方法
JP6963126B2 (ja) * 2019-02-14 2021-11-05 昭和電工株式会社 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法
CN111027080B (zh) * 2019-11-26 2021-11-19 中国人民解放军战略支援部队信息工程大学 基于ooxml复合文档源文件数据区位置排列次序的信息隐藏方法及系统
JP7543788B2 (ja) * 2020-08-31 2024-09-03 株式会社リコー 表示装置、入力方法、プログラム
CN112115892A (zh) * 2020-09-24 2020-12-22 科大讯飞股份有限公司 一种关键要素抽取方法、装置、设备及存储介质
CN113254396B (zh) * 2021-06-23 2021-09-24 昌和云科技有限公司 一种多部门的案件协同管理系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3152871B2 (ja) * 1995-11-10 2001-04-03 富士通株式会社 ラティスをキーとした検索を行う辞書検索装置および方法
JPH09319824A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 帳票認識方法
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2000172779A (ja) * 1998-12-03 2000-06-23 Toshiba Corp Ocrシステム及び同システムに適用する読取制御情報の作成方法
JP3709305B2 (ja) * 1999-07-01 2005-10-26 日立オムロンターミナルソリューションズ株式会社 地名文字列照合方法、地名文字列照合装置、地名文字列認識装置及び郵便物区分システム
JP4159720B2 (ja) * 2000-03-15 2008-10-01 株式会社リコー 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体

Also Published As

Publication number Publication date
JP2005135041A (ja) 2005-05-26
CN100351839C (zh) 2007-11-28
CN1612154A (zh) 2005-05-04

Similar Documents

Publication Publication Date Title
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP4402138B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US5960448A (en) System and method for displaying a graphically enhanced view of a region of a document image in which the enhanced view is correlated with text derived from the document image
US5708766A (en) Filing device
JP5376795B2 (ja) 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
JPH11161681A (ja) 検索結果を表示するための装置および方法、並びに、検索結果を出力するために一連の命令を記録したコンピュータ読み取り可能な記録媒体
JP5380040B2 (ja) 文書処理装置
US11741735B2 (en) Automatically attaching optical character recognition data to images
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
JP2007058605A (ja) 文書管理システム
JP2012234344A (ja) 帳票上の文字を認識する文字認識装置、マスク処理方法、および、マスク処理プログラム
JP2006065477A (ja) 文字認識装置
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
CN119129529A (zh) Pdf文档的转换方法、装置、设备、存储介质及产品
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2007241355A (ja) 画像処理装置及び画像処理プログラム
WO2022004097A1 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
JP4517821B2 (ja) 画像処理装置及びプログラム
EP4095716A1 (en) Information processing apparatus, program, and information processing method
JP4892600B2 (ja) 画像処理装置
CN110727820B (zh) 一种为图片获得标签的方法和系统
JPH11187231A (ja) 画像検索装置及び画像検索方法
JPH10154157A (ja) 電子ファイリングシステム
WO2021117128A1 (ja) 帳票画像処理システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051114

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091203

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees