JP4461769B2

JP4461769B2 - 文書検索・閲覧手法及び文書検索・閲覧装置

Info

Publication number: JP4461769B2
Application number: JP2003368304A
Authority: JP
Inventors: 健永崎; 勝美丸川; 沙弥香竹内
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-10-29
Filing date: 2003-10-29
Publication date: 2010-05-12
Anticipated expiration: 2023-10-29
Also published as: JP2005135041A; CN100351839C; CN1612154A

Description

本発明は、紙文書群または文書画像群の中から、文書解析技術を応用して、文書群をコンピュータ上で検索、及び閲覧する際に必要となる情報を取得するための、その装置及び文書解析技術プログラムを記録した記録媒体に関する。

デジタル情報技術が普及した今日でも、紙文書は情報伝達媒体として広く利用されている。しかし、紙文書のままでは保管場所を取る、必要とする情報の検索が難しい等の問題があるため、紙文書を電子画像化して保存し、電子画像化した文書（以下、文書画像と称する）に対して検索・閲覧をコンピュータ上で行いたいという要求が社会的に高まっている。

紙文書検索の最も基本的な手法は、ＯＣＲ（Optical Character Recognition）によって紙文書をテキストファイルに変換し、テキストファイルに対して検索を行うことである。しかし、一般にＯＣＲで変換されたテキストコードには誤りが含まれるため、単純なテキスト検索では対処できないケースが生じる。無論、ＯＣＲによって変換されたテキストコードを人手で修正し、その修正結果に対して検索を行うことも可能である。しかし、人間が介在しての修正は、その処理速度及びコストの面から実用的とは言い難い。

特開平０５−１０８８９１号公報（特許文献１）では、ＯＣＲの読取精度を向上する手段としてＯＣＲの認識結果に形態素解析を適用する手法が記されている。確かに形態素解析等の知識処理を行うことで誤読を訂正することは可能であるが、それでも１００％の訂正は不可能である。また、通常の形態素解析で用いる辞書は新聞等の一般文章を対象としており、特殊な業務用途の文書を精度良く校正するためには、その分野に適合した特殊辞書を追加定義する必要がある。このため保守性や計算量の面で問題が残る。

特開平１０−７４２５０号公報（特許文献２）では、文字誤読が検索に与える悪影響を回避するために、ＯＣＲで誤読しやすい類似文字の情報を利用して単語検索を行う手法が提案されている。また、特開平９−１３４３６９号公報（特許文献３）では、ＯＣＲの読取結果に複数の文字識別候補を許し、その中から文字コードを選択して単語を検出する手法が提案されている。確かに、これらの技術を使えば１文字単位の誤読が単語検索に与える悪影響を回避することができる。

しかし、上記手法では分離文字や文字間接触等によって文字パタンの境界が明確に定まらないが故に誤って文字パタンが切り出されたケースに対処できない。例えば、「ハル」と書かれた文字を、ＯＣＲが「ヘル」と読んだケースには上記特許の手法で対処できるが、「ハノレ」と読んだケースには対処できない。更に、図や表が入り組んだ文書や帳票形式で罫線が多く混在する文書等に対しては、そもそも文字読取の以前に文字行の検出・同定が困難であるケースが多い。この問題に対しても上記手法では対処できない。

更には、文書画像の閲覧機能として、紙文書にはない付加価値を付けたいという要求がある。例えば、大量の書類をチェックする場合、文書全面を見ることは普通行わず、記載必須欄を集中的に見る。そこで画面上でチェックする際に、あらかじめ文書画像の特定欄を抽出しておき、画面には抽出した特定の欄のみを表示する、または特定の欄を強調して表示するなどの機能が考えられる。しかし、従来ＯＣＲでは、特定欄の記載事項を認識する機能のみが存在するため、この認識結果を画面に表示することしかできない。認識結果が完全であれば、特定欄の認識結果を表示することで文書画像の部分閲覧に十分対応できるが、これは現実的には難しい。それよりはＯＣＲ装置がテキスト認識の結果と共に枠構造や罫線座標などの文書構造データを出力し、これらの情報を活用した閲覧機能のあることが望ましい。

電子画像化した紙文書の取扱いフォーマットとしては、ＴＩＦＦやＧＩＦなどの画像フォーマット、ＰＤＦなどの文書フォーマットが存在する。通常は、画像を記録したファイルと、ＯＣＲ装置で認識した結果はＣＳＶやＸＭＬ等の形式の別ファイルとして出力し、これらを統括して扱う。しかし、この場合、相互のファイルのリンク関係を保持するシステムの構築が必要となる。ＰＤＦに関してはＯＣＲで認識した結果を透明テキストとして画像ファイル中に埋め込んで取扱う機能が存在するが、手書文字の場合、認識結果が一意的に定まるとは限らない。更には、文書構造データを画像ファイル中に埋め込むことはサポートされていない。文書構造データを画像ファイルと別個に扱い、両者を組み合わせた閲覧ソフトを構築することも可能ではある。しかし、文書構造データを画像ファイルと別々に扱うことは、文書の管理上、非効率的である。なぜなら、文書構造データは文書画像中の罫線や枠や文字行の座標情報を含むという特性のため、テキストと違い画像ファイルとの独立性が弱いからである。

コンピュータ上での文書閲覧時に、文書に強調色や色線などの効果を付けて表示することは広く行われているが、一般にはワードやＨＴＭＬなどの電子的に構成された文書データに対して行われている。これに対して、文書画像ファイルに対しての効果は、表示エフェクトを掛ける為の時間制約などがあるため、敬遠されている。

特開平０５−１０８８９１号公報

特開平１０−７４２５０号公報特開平９−１３４３６９号公報特開平０９−３１９８２４号公報特開２０００−２５１０１２号公報特開２００１−０１４３１１号公報特許２８８６８６８号公報特願平０９−２３８０３２号公報

本発明の目的は、ＯＣＲ装置による文書認識の結果を元に、紙文書群を電子画像化して高度な検索・閲覧機能を提供する文書検索・閲覧システム、その装置及びＯＣＲ認識プログラム及び文書閲覧システムを記録した記録媒体を提供することにある。

従来の手法では、紙文書群からの文書検索はＯＣＲ読取の結果であるテキストファイルに対して検索を行っていたが、文字潰れやかすれ等に起因するＯＣＲの文字識別誤りや、文字パタン境界の曖昧性に起因するＯＣＲの文字切出誤りや、文書−図版−罫線混在に起因するＯＣＲの文字行抽出誤りに対処することが困難であった。本発明の第１の目的はＯＣＲ読取に起こり得る文字識別、文字切出、文字行抽出の誤りが文書検索に与える悪影響を回避する方法を提案することである。

また、従来の手法では、文書画像の閲覧において部分領域の表示を行う場合、固定の座標を用いて部分領域を特定することを行っていたが、画像のズレなどに影響を受けるという問題があった。これに対して本手法では、ＯＣＲ装置から罫線情報、枠情報、文字行情報等を持つ文書構造データを出力し、このデータを使うことで表示への悪影響を回避する。本発明の第２の目的は、文書画像の閲覧時に部分領域表示・強調表示・重要語表示・秘匿処理などの付加価値を提供することである。

また、従来の手法では、文書画像表示の際のエフェクトを掛けるために、文書画像データの変換時間が掛るという問題があった。本手法では、ＯＣＲ装置から出力した文書構造データを使い、予め表示効果が必要と予測される領域・文字列に対して、擬似カラー化を行うことにより、この問題を回避する。本発明の第３の目的は、文書閲覧時の文書表示処理にかかる処理時間を軽減することである。

上記第１の目的を達成するため、本発明は、ＯＣＲ装置と文書画像処理装置を分離し、ＯＣＲの出力形態として文書画像（擬似カラー化文書画像を含む）と、及び、読取結果テキスト、読取仮説データ、文書構造データ（以上を併せてＯＣＲ付加データと称する）を保持するファイルを採用し、この文書画像及びＯＣＲ付加データを元にキーワード検索並びに文書閲覧機能を構成することで、必要な文書画像の検索及び文書画像閲覧を行うシステムを提供する。

上記第２の目的を達成するため、本発明は、ＯＣＲ装置の出力であるＯＣＲ付加データを用いて、部分領域の強調表示、部分領域の切出表示、特定文字列の強調表示などの視覚効果を実現する閲覧システムを提供する。

上記第３の目的を達成するため、本発明は、ＯＣＲ付加データを用いて事前に確定した特定領域に対して擬似カラー化処理を行い、表示モード切り替えに併せて擬似カラー値を変更することで、高速な表示機能を提供する。

本発明によれば、従来の手法では、文書画像群からの文書検索はＯＣＲ読取の結果であるテキストを元に検索を行っていたが、活字文字や手書文字の混在や文字潰れやかすれ等に起因するＯＣＲの文字識別誤りや、文字パタン境界の曖昧性に起因するＯＣＲの文字切出誤りや、文書−図版−罫線混在に起因するＯＣＲの文字行抽出誤りに対処することが困難であった問題に対して、文字識別、文字切出、文字行抽出の候補を保持するＯＣＲ付加データを用いて単語検索及び文書検索を行うことにより、上記問題が回避できる。また、ＯＣＲ付加データ中に含まれる文書構造データを用いることで、文書画像の閲覧の際に、必要な箇所の強調表示、複数文書の一覧など付加価値を付けた閲覧システムの構築が可能となる。

図１を例として、従来手法と本提案手法の違いを概説する。図１は、従来のＯＣＲを使った文書処理と、本特許で提案する手法を使った文書処理との違いを模式化したものである。

まず従来のフローでは、０１０１に示す紙文書群があり、これを０１０２に示すＯＣＲ装置に掛けて読取を行う。ＯＣＲの出力は、０１０３に示すように、紙画像を電子化した文書画像、及びＯＣＲ読取結果であるテキストファイルである。次に、０１０４に示す装置を使って文書処理を行う。このフローでは、ＯＣＲ出力結果が読取結果テキストと文書画像であるため、文書処理ではテキスト検索と文書画像の閲覧ができることになる。

これに対し、本特許で提案する処理フローでは、まず０１０５に示す紙文書群があり、これを０１０６に示すＯＣＲ装置に掛けて読取を行う。ＯＣＲの出力は、０１０７に示すように、紙画像を電子化した文書画像、及びＯＣＲ読取結果である読取結果テキスト、及び文字行抽出や文字切出や文字認識の候補を情報として持つ読取仮説データ、及び文書の罫線情報や枠情報や文字行情報や閲覧属性情報を持つ文書構造データ、あるいは上記データ群を文書画像の中に埋め込んだ付加情報付き文書画像が出力される。次に、０１０８に示す装置を使って文書処理を行う。このフローでは、ＯＣＲ出力結果がテキストと文書画像以外の上記情報を含むため、文書処理ではテキスト検索と文書画像の単純な閲覧のみでなく、認識が困難な手書キーワードの検索や、文書中の重要なキーワードや領域を色線やコントラストなどで強調した強調表示や、文書画像の必要な所だけを並べて閲覧する部分領域表示（部分縦覧）や、機密事項を部分的に秘匿しての表示などが可能となる。

０１０７で出力されるデータは、対応する紙文書または文書画像を一意的に同定する文書ＩＤコードを持ち、磁気記憶装置などに保存できる。保存する形態としては、文書画像、擬似カラー化文書画像、読取結果テキスト、読取仮説データ、文書構造データを別個にデータベース上に持つ形態と、これらのデータを付加情報として文書画像ファイル中に埋め込んで持つ形態が考えられる。前者のメリットは文書画像とＯＣＲが付加したデータ（読取結果テキストなどのこと。以下、ＯＣＲ付加データ）を別個に扱うため、文書の閲覧や検索が、それぞれ独立の既存ツールを使ってできることにある。但し、テキストで検索した文書を表示したい、または、検索に引っ掛かった箇所を強調表示したい場合には、文書ＩＤを使ってＯＣＲ付加データと文書画像の間の対応関係を計算する必要がある。また、読取結果テキストを用いた場合、検索時に引っ掛かった検索語を文書画像上で強調表示しようとしても、読取結果デキストに対応する文書画像上での座標情報が無いため、不可能である。後者のメリットは文書画像ファイルのみを管理するだけで、画像とＯＣＲ付加データの全情報にアクセスできる点である。後者の場合、前者のように文書ＩＤを使って、ＯＣＲ付加データ（読取結果テキストなど）と文書画像の間のリンクを張る必要が無いため、文書管理が容易になる。

図２について説明する。本発明の実施例である帳票認識装置では、初めに、ＯＣＲ装置が紙文書を撮像して、これを電子的画像データに変換する。本処理は、元々の文書が電子的画像データである場合は省略可能である（０２０１）。次に、電子的画像データを元にして、罫線抽出、枠構造解析、読取対象欄の位置推定等の文書構造解析を行う（０２０２）。文書構造解析の処理においては、文書構造辞書を用いる。文書構造辞書には、読取対象である文書画像の罫線座標、枠座標、読取対象欄の属性（氏名記入欄、住所記入欄、閲覧属性情報等）などの情報が含まれる。このとき使う認識処理には従来から知られた技術（特開平０９−３１９８２４号公報（特許文献４）、特開２０００−２５１０１２号公報（特許文献５）等）を利用する。次に、文書構造解析の結果を受けて、読取対象である文字行を抽出する（０２０３）。次に、文字行画像から文字パタン候補の切出と、各文字パタン候補の文字識別を行う（０２０４）。文書構造が入り組む場合は、文字行の仮説が複数立てられ、それぞれに文字パタン候補切出と文字識別を行う。文字識別の処理においては、文字識別辞書を用いる。文字識別辞書には、認識対象である文字パタンの文字コードと構造情報（輪郭方向成分の強度分布、各種統計量等）などが含まれる。文字パタン候補及び識別結果を併せて文字列仮説と称する。読取対象とする文書において、書かれ得る文字表記列が事前に決まっている場合は、文字列仮説に対して表記解析を行う（０２０５）。文字列表記解析の処理においては、文字列表記知識辞書を用いる。文字列表記知識辞書には、当該文書において出現し得る単語、数字列の表記、並びに単語群の出現可能順序等の情報が含まれる。これにより、文字切出や文字識別の曖昧性を含んだ文字列仮説は、文字列パス、更には文字列テキストに変換される。但し、文字列パスとは、文字コードと当該文字コードに対応する文字候補パタンがペアと成ったものの並びである。上記０２０５の処理が失敗した場合、または文書の表記知識が事前に分からない場合は、文字列仮説のまま次の処理に移行する。次の処理では、文字列仮説またはテキストの情報が入力され、これに対して、どちらか、または両方をＯＣＲの出力とする選択を行う（０２０６）。一般に、文字列仮説を有向グラフと解釈してグラフの始点から終点までを所定の表記知識を満たしつつ通るようなパスが存在し、当該パスが一意的に定まり、かつ文字識別の類似度及び文字パタンの並びから定まる文字列パスとしての信頼度がある閾値を超えた場合は、文字列テキスト情報を出力すると判定する。判定の結果、テキストを出力すると判断された場合は、０２０７の処理において、文字列テキストを読取結果テキストとして出力する。なお、読取結果テキストの出力に対しては、人間による修正が加わることがあり得る。逆に、文字列パスの信頼度が低い場合は、文字列仮説を出力とする。読取結果テキスト、並びに読取仮説データの双方は、必要に応じて当該文字列の書かれた文書画像上の位置情報を保持するものとする。以上の処理により、文書画像ファイル、文書構造データ、読取結果テキスト、読取仮説データが出力され、これらのデータを元に次の文書処理を行う。文書処理の過程は大きく２つに分かれると考えられる。１段目はデータ登録部である（０２０９）。ここでは、上記データ群を扱えるように、データベース若しくは文書画像中にデータを登録する。次に、これらのデータを使って文書処理（０２１０）を行う。ＯＣＲ装置と文書処理装置が分離しているケースにおいては、ＯＣＲ装置の処理範囲は０２０１から０２０８、若しくは０２０１から０２０９までである。

図３について説明する。図３は、文書画像及びＯＣＲ付加データを使った文書処理の処理フローを示した図である。但し、図３の０３０１から０３０７のデータ及び処理はＯＣＲ側で扱うことも可能である。その場合、ＯＣＲ側からは文書構造データ、読取結果テキスト、読取仮説データから成るＯＣＲ付加データ付きの文書画像若しくは擬似カラー化文書画像、あるいはＯＣＲ付加データと文書画像若しくは擬似カラー化文書画像が格納されたデータベースが、図０３０８に示す文書処理部に渡されることとなる。初めに、文書画像及び対応するＯＣＲ付加データ群（０３０１）を入力とし、これをファイルから読み込む（０３０２）。文書画像を表示する際に便利なよう、必要であれば文書画像に対して擬似カラー処理を行う（０３０３）。擬似カラー処理については後に詳細を述べる。文書画像とＯＣＲ付加データを扱う形態としては、文書画像、読取結果テキスト、読取仮説データ、文書構造データを別個にデータベース上に持つ場合と、ＯＣＲ付加データを文書画像ファイル中に埋め込んで持つという２つの形態が考えられる。前者の場合はデータベース登録処理を行い（０３０４）、文書画像とＯＣＲ付加データを対応付けてデータベースに登録する（０３０５）。後者の場合は、画像情報埋込処理を行い（０３０６）、付加情報付き文書画像ファイルを作成する（０３０７）。以上が図２におけるデータ登録処理０２０９に該当する。これらの作業の後で、文書処理が行われる（０３０８）。

図４について説明する。図４は、ＯＣＲ付加データを文書画像ファイルに埋め込む場合の一例を示したものである。この図ではＴＩＦＦなどのタグ形式画像ファイルを想定している。一般にタグ形式画像ファイルでは、ファイルの先頭ブロックにタグ情報が格納され、画像データ本体はタグからリンクを貼られた位置に存在する。タグ情報の中にはそれぞれのタグに対応するデータ本体部の格納位置と、データ本体部に記録されたデータの種別を表すタグＩＤ番号が存在する。タグＩＤ番号は予め画像ファイル形式の規約として定められており、タグＩＤ番号を見ることで、当該タグの指すデータが画像データであるか、作成者や作成日時などのデータであるかが区別できる。ＯＣＲ付加データを加える場合は、このタグ情報をブロックに追加し、ＯＣＲ付加データ用のタグＩＤとＯＣＲ付加データの登録先へのポインタを張れば可能となる。

図５は処理対象となる文書画像の一例である。図６は、図５の文書画像に対して、文書構造解析と行抽出を行った結果である。図６（ａ）には文書構造解析の結果である罫線情報、枠情報及び文字行情報が、太線または外接矩形で示されている。０６０１は傷病名欄、０６０２は診療日欄、０６０３は摘要欄、０６０４は診療日数欄、０６０５は点数欄を表す。それぞれ太い四角で括られた部分が、文書構造解析の結果、解析対象欄として認識された領域である。解析対象欄は、文書処理において重要となる欄であり、文書構造辞書において予め特定されている。太枠の中にある細い四角は、文字行として抽出された領域である。枠毎に文字行が抽出されている枠（０６０１や０６０３など）と、抽出されていない枠（０６０２と０６０４）とがあるのは、解析対象欄が、読取対象であるか否かの違いによる。読取対象であるか否かも、文書構造辞書に予め登録されている。印刷活字文書では文字行抽出は容易であるが、手書文字及び印刷活字と手書きの混在環境においては難しくなる。そのようなケースに対しても、図６（ｂ）に示すように、文字行の曖昧性を保持した抽出を行う。すなわち、文字行と思われる塊の仮設を複数立て、それらを抽出結果とするため、１つの文字パタン候補が１つの文字行に属するとは限らない。また印刷活字を前提とした文字行抽出結果と、手書文字行を想定した文字行抽出結果が異なることがあるが、この場合も複数の文字行仮説を出力する。これにより印刷活字及び手書き文書画像の処理に対応する。０６０７は印刷活字文字行として抽出され、０６０８は曖昧な手書文字行として抽出された領域である。上記文書構造解析の処理では、文書構造辞書を用いる。文書構造辞書には、読取対象である文書画像の罫線座標、枠座標、読取対象欄の属性（氏名記入欄、住所記入欄、閲覧属性情報等）などの情報が含まれる。また上記処理を行った結果、ＯＣＲ付加データの中の文書構造データとして、枠座標、当該欄の属性、当該欄内の文字行座標情報、当該欄内の文字パタン候補座標情報、当該欄の閲覧属性情報などの情報が得られる。

図７を元に文字列仮説の作成と、表記知識利用による文字列認識の流れを説明する。また、図８は、文字列仮説の概念図とデータの詳細を示した図である。読取対象文字行７（ａ）から、文字パタンと推定される部分を様々に切出して文字パタン候補を作り、各文字パタン候補を文字識別したものが、文字列仮説７（ｂ）である。文字列仮説は、文字パタン候補、文字識別の結果得られた順位付けされた識別文字コード群、文字列仮説中での文字パタン候補間の接続関係の情報、を最低限持つものとする。このような文字列仮説の表現を、グラフ形式による表現という。次に文字列表記知識７（ｃ）を使って、文字列仮説から文字列パス７（ｄ）を計算する。文字列パスとは、一意的に確定した文字コード列（テキスト）と、各文字コードに対応する文字パタンの並びを意味する。例では文字列表記知識辞書に含まれる表記文字列の候補をＯＲ記号（｜）で単語を並べて表現している。すなわち、記号｜の間に挟まれた単語群が検索対象として指定されることを意味する。文字列表記知識を表現する方法としては、この表現以外にもトライ、文脈自由文法などを使った方法がある（特開２００１−０１４３１１号公報（特許文献６）等に記載）。文字列仮説の詳細は図８に詳しい。文字列仮説は、文字パタンの候補をアーク（０８０１）とし、文字パタンの境界をノード（０８０２）とする有向グラフとして表現される。各文字パタンには、左右（縦書きであれば上下）のノード（文字パタン候補境界）を表す境界ＩＤ番号と、文字識別候補（０８０３）及び識別類似度（０８０４）の情報が含まれる。知識処理は、この文字列仮説と文字列表記知識を入力として、文字列仮説に含まれ得る単語とそのパタン列を見つける処理である。例えば文字列表記知識にある「血液化学検査」という単語は、図８（ｂ）の文字列仮説中に、丸で示される文字コード及び文字パタン候補（０８０５）を辿ることで見つけることができる。当該欄に書かれる文字列の表記が事前に定まっている場合、本処理を行うことで文字コード列が確定する。すなわち、以上の処理により、図２にあるＯＣＲ読取結果としての文字列テキスト（文字コード列）、若しくは図３にある文書処理における検索結果が確定することとなる。

図９、図１０、図１１、図１２、図１４は、上記処理によって得られたＯＣＲ付加データと、文書画像または擬似カラー化画像を使って文書閲覧を行う場合の閲覧機能の例を示した図である。ＯＣＲ付加データが文書画像ファイルと別のデータベースに蓄えられている場合は、文書ＩＤを用いて文書画像ファイルに対応するデータベース上のＯＣＲ付加データにアクセスし、閲覧機能を実現する。また、ＯＣＲ付加データが文書画像ファイルに格納されている場合は、図４に示されるように文書画像ファイル中のタグで指定された領域に格納されたＯＣＲ付加データを参照して、閲覧機能を実現する。
図９について説明する。図９は、本特許で提案する手法を用いた文書処理の閲覧システムの一画面構成例を示したものである。ここでは、レセプト文書の閲覧システムを例としている。まず始めに、紙レセプトをＯＣＲで読取り、文書画像とＯＣＲ付加データを出力する。このシステムでは文書画像の全面表示と、部分表示の切り替えが可能となっており、部分表示を行う場合は、ＯＣＲ付加データ中の文書構造データを使って当該欄の座標データを取得し、その部分領域を表示する。０９０１は１枚の文書画像を表示したブロックになる。０９０２には表示している文書画像の名前、０９０３にはレセプトの傷病名欄、０９０９にはレセプトの摘要欄が表示されている。一般に文書点検では文書画像の全面を表示する必要は無く、点検に必要な領域に限って、複数文書を並べて表示することで、点検の効率化を図ることができる。この他にもＯＣＲ付加データ中の文書構造データを用いることにより、ＰＤＡ等の携帯情報端末機器のような狭い画面上への表示に適合するよう文書配置構造を修正することが考えられる。例えば、ニ段組のような形態の文書であれば、各段ごとに文書を細かく分割し、これを縦に並べて配置して、上下スクロールのみを使った閲覧ができるようにするといった機能が実現できる。あるいは、文書処理業務をサポートする上で、マウスカーソルで欄の中をクリックすると、当該欄に応じたヘルプや業務ノウハウが表示されるなどの機能が実現できる。

図１０及び図１１について説明する。図１０は、本特許で提案する手法を用いた重要キーワード閲覧システムの一画面構成例を示したものである。１００１には、抽出するべき重要キーワードのリストが指定されている。１００２には、抽出されたキーワードが下線付きで表示されている。図１１は、先ほどの重要キーワードの抽出機能と併せて、チェックルールを使った文書画像簡易点検システムの一画面構成例である。まず初めに、入力欄１１０１に点検で用いるチェックルールを指定する。この図ではチェックルールは検索キーワードの論理演算として定義されている。次にＯＣＲ付加データにある読取結果テキストまたは読取仮説データから、当該キーワードの検索と論理演算適用を行う。キーワード抽出のアルゴリズムとしては有限オートマトン法、トップダウン構文解析法、ボトムアップ構文解析法、動的計画法などがある（特許２８８６８６８号公報（特許文献７）、特願平０９−２３８０３２号公報（特許文献８）等に記載）。表示欄１１０３には、検索の結果得られた文書名が表示されている。チェックルールに適合した文書は表示欄１１０４に表示される。ＯＣＲ付加データは、元の紙文書または文書画像と一意的な対応が取れる文書ＩＤコードを持つため、文書画像と検索結果の同時表示が可能である。また、キーワード情報には座標情報が含まれるため、検索されたキーワードは１１０５に示すような下線で場所を示している。ここでは「特定疾患指導料ＡＮＤ特定疾患処方管理加算」というチェックルールに適合した文書画像が表示されている。ＯＣＲ付加データでは、通常のＯＣＲでは読取り困難な手書文字についても、文字切出や文字識別の曖昧性を保持した読取仮説データがあるため、印刷活字・手書き文書に関係なく検索・点検が行える。また、ＯＣＲ装置と文書処理を分離して業務処理を行うケースのおいて、ＯＣＲ付加データ中の読取仮説データを用いることにより、ＯＣＲ装置から文字認識をやり直さなくとも任意のタイミングで任意のキーワードを検索することができる。

図１２について説明する。図１２は、本特許で提案する手法を用いた秘匿事項の表示限定機能の例を示したものである。図１２（ａ）は文書構造解析の結果として得られた、秘匿対象領域及び当該領域中の文字行の抽出結果である。ここでは、名前が書かれた文字行が秘匿対象事項であるとする。秘匿対象領域を黒枠で塗り潰した結果が図１２（ｂ）である。これにより、閲覧者毎に必要なデータの秘匿・開示を図ることができる。同様に秘匿対象領域を背景色（白）で塗り潰した結果が図１２（ｃ）である。後者の背景色での塗り潰しの場合、黒枠で塗り潰すのに比べて、そこに秘匿対象データがあることを閲覧者に意識させない分、データの秘匿性が高くなる。後者の塗り潰し方については、幾つかの方法が考えられる。それについては、図１３を元に説明する。

図１３について説明する。図１３は、文書画像の擬似カラー化処理の概念図を示したものである。各画素は色を表す値（カラー値）を持っている。例えば白黒画像であれば、０若しくは１の値を持つ。０の値がどのような色を表すかは、ＲＧＢカラーマップと呼ばれるテーブルを参照する。図１３（ｂ）にあるＲＧＢカラーマップでは、０は白を、１は黒を表す。擬似カラー化処理は、対象領域内の対象文字行内の黒画素（必ずしも黒である必要は無く、単に秘匿対象の色という意味である）に対して、別のカラー値を割り当てる処理である。図１３（ｃ）は、文書画像の氏名欄内の文字行の画素に対してカラー値２を割り当てている。このカラー値２に対して、ＲＧＢカラーマップの定義を白（背景色）とすれば、表示画面上では「日立太郎」という名前が白で表示される。つまり、あたかも白く塗り潰されたかのように表示される。しかし、内部的には名前部分の画像データは消去されてない。カラー値２を与えられた画素集合が、名前部分を構成する画像に相当する。なお、擬似カラー化をＯＣＲ装置で行う場合は、元と文書画像を変更して擬似カラー化し、擬似カラー化された情報のカラー値と属性を閲覧属性情報として、ＯＣＲ付加データ中の文書構造データに格納して出力することとなる。このときＯＣＲ装置は、文書構造データに基づいて文書画像データ中の秘匿が必要な箇所を特定し、秘匿が必要な箇所について文書画像データの各画素のカラー値を他のカラー値に変更し、他のカラー値を表示する際に用いられる表示色と他のカラー値との対応を作成する擬似カラー化処理を行い、文書画像データを他のカラー値を含むように更新し、表示色と他のカラー値との対応を含むカラーマップテーブルと、擬似カラー値及び閲覧許諾条件を最低限含む閲覧属性情報とを、文書画像データと対応付けて出力するというような動作を行うことになる。

ＯＣＲ付加データより得られた枠位置情報及び枠属性情報を使えば、秘匿すべき領域の所在が判明する。実際の秘匿方法としては様々な方法が考えられる。秘匿対象欄と判別した場合、その中の文字行を抽出し、文字行の外接矩形情報を得ることにより、当該外接矩形内の領域を黒で塗り潰す方法や、当該外接矩形内の領域内の黒（前景色）に対して擬似カラー化を行い擬似カラー値を白（背景色）として白で塗り潰されたように見せる方法や、当該外接矩形内の領域内の黒（前景色）に対して擬似カラー化を行い擬似カラー値を黒（前景色）とし、かつ当該外接矩形内を黒で塗り潰す方法などがある。秘匿情報を表示する場合は、ＯＣＲ付加データに含まれる閲覧属性データから擬似カラー値の値とその開示条件を知り、閲覧者がその開示条件に適合する場合は擬似カラー値を前景色へと変更する、または背景色に対して目立つ他のカラー値にすることで表示ができる。擬似カラー化を用いた情報秘匿の特色は、汎用ビューワーでの文書画像の可読性を保持し、かつ元の画像情報を壊すこと無く、秘匿情報の隠蔽を可能とすることにある。一般に文書画像における情報秘匿の方法としては、ＰＤＦのように特殊フォーマットを使い、専用ビューワを利用して、パスワード等によるチェックを経ないと当該文書が開けない、若しくは部分的に黒く塗り潰された所が見えないなどの方法がある。もう一つの方法は、汎用フォーマットを使い、特殊なビューワーでのみ秘匿情報が見れるという方法である。擬似カラー化処理は、主に後者に適用され得る手法である。この手法のメリットは、汎用ビューワを使用するためシステムのコストが押さえられること、更には画像上のデータが本質的には消去されず、見た目だけ消えることにある。セキュリティの質を更に高めるためには、画像自身に暗号を掛けるなどの方策がある。この場合も、一般的なツールを組み合わせることで実現できるため、上記メリットは損なわれない。ＯＣＲ装置で行われた文書読取処理結果を入力情報として文書処理を行う文書処理装置としては、文書読取処理結果の入力を受ける入力部と、文書読取処理結果に関する表示を行う表示部と、ユーザ入力を受け付けるユーザ入力部と、演算部とを有し、文書読取処理結果は、紙文書を光学的に読み取って生成される文書画像データと、文書画像データの枠構造を含む文書構造データおよび文書画像データの枠のうち読取対象である枠についての文字認識処理の読取仮説データの少なくともいずれかを含むＯＣＲ付加データとを含み、演算部は、ユーザ入力部から入力される指示に基づいて、ＯＣＲ付加データを用いて文書読取処理結果に含まれる情報を選択的に表示部に表示させる。ここで、文書画像データの一部の領域は擬似カラー化処理が行われており、ＯＣＲ付加データは、擬似カラー化処理が行われた領域における各画素のカラー値と表示色との対応関係を含むカラーマップテーブルを含み、演算部は、カラーマップテーブルを参照して擬似カラー化処理が行われた領域の表示色をユーザからの閲覧状態の指定応じて決定し、表示部は決定された表示色を用いて文書画像データを表示する。

図１４について説明する。図１４は、本特許で提案する手法によって注目領域を強調して表示する場合の一画面構成例である。図１４（ａ）は文書構造解析の結果で、１４０１に傷病名欄、１４０２に摘要欄が抽出されている。この２つの欄だけを注目したいと思った場合、図９にあるように、枠を切り出して表示する手もあるが、ここでは枠の強調表示と周りの階調を落とす処理とにより、実際の文書画像の構成を崩すことなく、強調した表示を実現している（図１４（ｂ））。この処理にも、先ほどの擬似カラー化が使える。即ち、傷病名欄と摘要欄内部の文字行に含まれる画素に対して、擬似カラー値２を割り当てる。強調処理をする前はカラー値２の色を黒にしておく。強調処理が要求された場合は、領域外の黒画素のカラー値１の色を灰色に設定すれば良い。コントラスト処理をする方法としては、その都度画像を走査して色を変更する方法、元の画像とマスク画像の論理演算を取る方法などがあるが、それらの処理に比べて当該処理は、事前に擬似カラー化しておけば、コントラスト強調などの必要な要求が閲覧者からあった際にＲＧＢカラーマップの値を変更するだけで強調効果が実現できるため、処理が高速であるというメリットがある。図１４（ｃ）は、同様の処理を、画像閲覧者の作業進行に併せて変更する場合を示している。例えば作業初めには１４０５にある傷病名欄を集中的に点検し、次の作業フェーズでは１４０６の摘要欄を点検するといった点検方法が、ＯＣＲ付加データと擬似カラー化処理を用いることで可能である。

図１５について説明する。図１５は、本特許で提案する手法によってＯＣＲ装置と文書画像処理装置を分離する形で文書検索システムを構成した場合の一構成例である。図１５上段にはＯＣＲ装置の一構成例を、図１５下段には文書画像処理装置の一構成例を示した。

まず上段のＯＣＲ装置では、画像入力装置（１５０１）により文書を電子データ（文書画像）に変換し、それを外部記憶装置（１５０４）及びメモリ（１５０５）に蓄えて、中央演算装置（１５０６）により読取を行う。図２における文書構造辞書、文字識別辞書、文字列表記知識辞書などは外部記憶装置（１５０４）に蓄えられており、文書構造解析にはここに蓄えた定義を参照する。これらの処理は操作端末装置（１５０２）を通して人間が操作可能であり、処理結果等は表示端末装置（１５０３）を通して表示され、外部記憶装置に蓄積または通信装置（１５０７）を通して外部装置にデータが送られる。ＯＣＲが読取った結果は、従来の装置のようにテキストファイルとしても出力できるが、ＯＣＲ付加データとしても出力できる。読取仮説データ及び読取結果テキスト及び文書構造データを含むＯＣＲ付加データは、文書画像ファイルに埋め込まれて、または文書画像ファイルと対応付けられて外部記憶装置に蓄えられるか、または通信装置を通して外部の装置に送られる。その際、ＯＣＲ付加データにはＯＣＲで読取った文書（あるいは画像）に対応する文書ＩＤコードが振られるとする。この文書ＩＤコードを利用することで、紙文書または文書画像とＯＣＲ付加データとの対応が取れる。

図１５下段の文書画像処理装置は、上記ＯＣＲ機能装置から出力されたＯＣＲ付加データを用いて文書検索・文書閲覧を行うもので、一旦ＯＣＲ付加データが生成された文書に対しては何度でも繰り返し（ＯＣＲ付加データが存在する限り）検索・閲覧できる機能を有する。この文書画像処理装置は、通信装置（１５１５）及び外部記憶装置（１５１２）よりＯＣＲ付加データを読み、これをメモリ（１５１３）にロードして、中央演算装置（１５１４）により検索・閲覧処理を行う。検索したい単語及び文書検索ルールは、外部記憶装置に蓄えられているか、または操作端末装置（１５１０）から入力することができる。単語の検索結果は表示端末装置（１５１１）を通して表示され、また通信装置を通して外部機器にデータを送信する、または外部記憶装置に検索結果を蓄積することができる。これらの装置は通信バス（１５０７、１５０８、１５０９、１０１５、１５１６）によってつながれている。

本特許と従来手法の処理の比較図。ＯＣＲ付加データを出力するＯＣＲ装置のフロー図。ＯＣＲ付加データを使った文書処理のフロー図。画像ファイルへのＯＣＲ付加データ埋込の概念図。文書画像の一例。文書構造解析の一例。文字列仮説を使った表記知識処理の概念図。文字列仮説の概念図。文書閲覧システムの一例（部分縦覧）。文書閲覧システムの一例（重要語表示）。文書閲覧システムの一例（ルール点検）。文書閲覧システムの一例（情報秘匿）。擬似カラー化の概念図。文書閲覧システムの一例（領域強調）。ＯＣＲ装置と文書処理装置の構成例。

符号の説明

０１０１…従来の文書処理システムに入力される紙文書、０１０２…従来の文書処理システムでのＯＣＲ部、０１０３…従来の文書処理システムのＯＣＲ出力結果，０１０４…従来の文書処理システムにおける文書処理部，０１０５…本特許で提案する文書処理システムに入力される紙文書，０１０６…本特許で提案する文書処理システムでのＯＣＲ部，０１０７…本特許で提案する文書処理システムのＯＣＲ出力結果，０１０８…本特許で提案する文書処理システムにおける文書処理部
０２０１…画像入力部，０２０２…文書構造解析部，０２０３…文字行抽出部，０２０４…文字列仮説作成部，０２０５…文字列表記解析部，０２０６…文字列仮説／テキスト選択部，０２０７…テキスト出力部，０２０８…文字列仮説出力部，０２０９…データ登録部，０２１０…文書処理部
０３０１…入力データ群，０３０２…データ読込部，０３０３…擬似カラー処理部，０３０４…データベース登録部，０３０５…付加情報データベース，０３０６…画像情報埋込部，０３０７…付加情報付き文書画像ファイル，０３０８…文書処理部
０５０１…処理対象とする文書画像の例
０６０１…文書構造解析の結果（傷病名欄），０６０２…文書構造解析の結果（診療日欄），０６０３…文書構造解析の結果（摘要欄），０６０４…文書構造解析の結果（診療日数欄），０６０５…文書構造解析の結果（点数欄），０６０６…文書構造解析の結果（行抽出），０６０７…行抽出の結果１（印刷活字行の例），０６０８…行抽出の結果２（手書文字行の例）
０８０１…文字列仮説上の文字パタン，０８０２…文字列仮説上のパタン境界，０８０３…文字列仮説上の文字識別結果，０８０４…文字列仮説上の文字識別類似度，０８０５…文字列仮説上から検索された単語
０９０１…部分縦覧表示された文書画像の部分領域群，０９０２…部分縦覧表示されている文書画像の名前，０９０３…部分縦覧表示されている文書画像の傷病名欄，０９０４…部分縦覧表示されている文書画像の摘要欄，１００１…文書画像中から検索を行うキーワードのリスト，１００２…文書画像中に見つかったキーワード（下線で表示）
１１０１…文書画像の検索ルールのリスト，１１０２…文書画像中から抽出された重要キーワードのリスト，１１０３…指定ルールに条件が一致した文書画像のリスト，１１０４…文書画像中で検索ルールが一致した箇所，１１０５…検索ルールに適合した重要キーワード（下線で表示）
１４０１…文書構造解析の結果得られた傷病名欄の位置，１４０２…文書構造解析の結果得られた摘要欄の位置，１４０３…傷病名欄を強調表示した結果，１４０４…摘要欄を強調表示した結果，１４０５…始めに傷病名欄を強調表示した結果，１４０６…次に摘要欄を強調表示した結果
１５０１…ＯＣＲ装置部における画像入力装置，１５０２…ＯＣＲ装置部における操作端末装置，１５０３…ＯＣＲ装置部における表示端末装置，１５０４…ＯＣＲ装置部における外部記憶装置，１５０５…ＯＣＲ装置部におけるメモリ，１５０６…ＯＣＲ装置部におけるＣＰＵ，１５０７…ＯＣＲ装置部における通信装置，１５０８…ＯＣＲ装置部における通信バス，１５０９…ネットワーク部，１５１０…文書画像処理装置部における操作端末装置，１５１１…文書画像処理装置部における表示端末装置，１５１２…文書画像処理装置部における外部記憶装置，１５１３…文書画像処理装置部におけるメモリ，１５１４…文書画像処理装置部におけるＣＰＵ，１５１５…文書画像処理装置部における通信装置，１５１６…文書画像処理装置部における通信バス。

Claims

紙文書を光学的に読み取って生成される文書画像データに文字認識処理を行うＯＣＲ装置であって、
文書構造解析に用いられる文書構造辞書および文字識別に用いられる文字識別辞書を記憶する記憶装置と、
上記文書画像データを入力する画像入力部と、
演算部とを有し、
上記演算部は、上記文書構造辞書を用いて上記文書画像データの枠構造解析および読取対象枠の特定を行って文書構造データを生成し、上記文字識別辞書を用いて上記特定された読取対象枠について文字認識処理を行って読取結果テキストを生成し、上記文書画像データと対応付けて、上記文書構造データを含むＯＣＲ付加データを出力し、
該ＯＣＲ装置は、上記文書画像データおよび上記ＯＣＲ付加データを同一のファイルに登録して装置外部に出力する機能を有し、
上記ファイルは複数のデータブロックと該複数のデータブロックのそれぞれに対応するタグとを含むタグ形式の画像ファイルであって、上記ＯＣＲ付加データを格納する少なくとも１つの上記データブロックと、該データブロックに格納されたデータがＯＣＲ付加データであることを示す情報を含むタグとを有することを特徴とするＯＣＲ装置であって、
上記演算部は、上記文書構造データに基づいて上記文書画像データ中の秘匿が必要な箇所を特定し、該秘匿が必要な箇所について上記文書画像データの各画素のカラー値を他のカラー値に変更し、該他のカラー値を表示する際に用いられる表示色と該他のカラー値との対応を作成する擬似カラー化処理を行い、
上記文書画像データを該他のカラー値を含むように更新し、
上記表示色と該他のカラー値との対応を含むカラーマップテーブルと、擬似カラー値及び閲覧許諾条件を最低限含む閲覧属性情報とを、上記文書画像データと対応付けて出力することを特徴とするＯＣＲ装置。
ＯＣＲ装置で行われる文書読取処理結果を入力情報として文書処理を行う文書処理装置であって、
上記文書読取処理結果の入力を受ける入力部と、上記文書読取処理結果に関する表示を行う表示部と、ユーザ入力を受け付けるユーザ入力部と、演算部とを有し、
上記文書読取処理結果は、紙文書を光学的に読み取って生成される文書画像データと、
該文書画像データの枠構造を含む文書構造データを含むＯＣＲ付加データとが、同一のファイルに登録されてなるものであり、
上記ファイルは複数のデータブロックと該複数のデータブロックのそれぞれに対応するタグとを含むタグ形式の画像ファイルであって、上記ＯＣＲ付加データを格納する少なくとも１つの上記データブロックと、該データブロックに格納されたデータがＯＣＲ付加データであることを示す情報を含むタグとを有するものであり、
上記演算部は、上記ユーザ入力部から入力される指示に基づいて、上記ＯＣＲ付加データを用いて上記文書読取処理結果に含まれる情報を選択的に上記表示部に表示させることを特徴とする文書処理装置であって、
上記文書画像データの一部の領域は擬似カラー化処理が行われており、
上記ＯＣＲ付加データは、上記擬似カラー化処理が行われた領域における各画素のカラー値と表示色との対応関係を含むカラーマップテーブルを含み、
上記演算部は、上記カラーマップテーブルを参照して上記擬似カラー化処理が行われた領域の表示色をユーザからの閲覧状態の指定に応じて決定し、上記表示部は上記決定された表示色を用いて上記文書画像データを表示することを特徴とする文書処理装置。