JP2002358481A

JP2002358481A - 画像処理装置

Info

Publication number: JP2002358481A
Application number: JP2001167014A
Authority: JP
Inventors: Yotaro Mizuno; 陽太朗水野; Hiroyuki Kuno; 裕之久野
Original assignee: Ricoh Elemex Corp
Current assignee: Ricoh Elemex Corp
Priority date: 2001-06-01
Filing date: 2001-06-01
Publication date: 2002-12-13

Abstract

(57)【要約】【課題】画像データと、画像データに含まれる文字列
を認識した文字データと、を切り離してデータ量を削減
し、かつ、画像データと、画像データに含まれる文字列
を認識した文字データと、を双方読み出し可能とした運
用性の高い出力ファイルを生成すること。【解決手段】領域分割部１０２で分割した分割画像デ
ータを記憶するデータ記憶部１０４と、データ記憶部１
０４で記憶した各分割画像データの記憶アドレスおよび
文字認識部１０３で生成した各分割画像データに対応す
る文字データを併記し、かつ、ＸＭＬ（ｅＸｔｅｎｓｉ
ｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）またはＳＧ
ＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭ
ａｒｋｕｐＬａｎｇｕａｇｅ）を用いた構造化文書を生
成する構造化文書生成部１０５と、を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像処理装置に関
し、より詳細には、画像データを入力し、画像データに
含まれている文字列を認識して、テキストデータ（文字
データ）を取得し、構造化文書として出力する画像処理
装置に関する。

【０００２】

【従来の技術】従来から、文書画像データを読み込み、
レイアウト解析やＯＣＲ（Optical Character Reade
r）を用いて記述されている文書内容をテキストデータ
へ変換することが行われている。これらは、画像データ
をテキストデータへ変換するので、データ量を削減でき
るばかりか、その後において文書データの一部を抽出し
たり、更新したりすることが容易となる利点がある。ま
た、最近では、文字認識を用いて文書を意味解析し、Ｈ
ＴＭＬ（Hyper Text Markup Language）上へ文書間
リンクを生成したりするものがある。

【０００３】特開平１０−２２８４７３号公報「文書画
像処理方法、文書画像処理装置および記憶媒体」によれ
ば、文書画像に含まれる図、表に関連するキャプション
がある場合には、キャプション内の文字列と本文中の関
連箇所との間に自動的にリンクを生成することができ、
また、キャプションがない場合には、図、表とその図、
表に関連する本文中の箇所との間に自動的にリンクを生
成することができる方法が開示されている。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た従来の技術では、入力された画像データを解析して、
テキストデータを生成したり、画像データに含まれる
図、表にリンク付けしてハイパーテキストとして生成す
ることはできるものの、生成されたテキストデータで
は、解析した情報に誤りがあった場合、元の画像データ
を参照できなかったり、或いは、ハイパーテキストに画
像データをまとめてしまった場合、データ量の削減につ
ながらなかったため、その後の運用性について乏しいと
いう問題点があった。

【０００５】この発明は上記に鑑みてなされたものであ
って、画像データと、画像データに含まれる文字列を認
識した文字データと、を切り離してデータ量を削減し、
かつ、画像データと、画像データに含まれる文字列を認
識した文字データと、を双方読み出し可能とした運用性
の高い出力ファイルを生成することを目的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するた
め、請求項１の発明に係る画像処理装置は、外部装置か
ら画像データを入力する入力手段と、入力手段で入力し
た画像データからまとまりのある領域を分割して分割画
像データを生成する領域分割手段と、分割画像データに
含まれる文字列を認識して文字データを生成する文字認
識手段と、を有する画像処理装置において、領域分割手
段で分割した分割画像データを記憶する記憶手段と、記
憶手段で記憶した各分割画像データの記憶アドレスおよ
び文字認識手段で生成した各分割画像データに対応する
文字データを併記し、かつ、ＸＭＬ（ｅＸｔｅｎｓｉｂ
ｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）またはＳＧＭ
Ｌ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａ
ｒｋｕｐＬａｎｇｕａｇｅ）を用いた構造化文書を生
成する構造化文書生成手段と、を備えたことを特徴とす
る。

【０００７】この発明によれば、画像データを領域分割
して分割画像データを生成し、記憶手段に分割画像デー
タを記憶して、分割画像データの文字列を文字認識した
結果をＸＭＬまたはＳＧＭＬを用いて構造化することに
より、画像データと、画像データに含まれる文字列を認
識した文字データと、を切り離してデータ量を削減し、
かつ、画像データと、画像データに含まれる文字列を認
識した文字データと、を双方読み出し可能とした運用性
の高い出力ファイルを生成することができる。

【０００８】また、請求項２の発明に係る画像処理装置
は、請求項１に記載の画像処理装置において、さらに、
文字認識手段において文字データを認識した際の信頼性
を算出する信頼性算出手段を備え、構造化文書生成手段
は、各分割画像データの記憶アドレスおよび記憶アドレ
スに対応する文字データと共に、信頼性算出手段で算出
した各文字データの信頼性を該当する文字データに対応
させて出力することを特徴とする。

【０００９】この発明によれば、信頼性算出手段が、分
割画像データから文字列を文字データとして認識した際
の信頼性を算出することにより、入力された画像データ
と、画像データに含まれる文字列を認識した文字データ
と、を使用する上での選択の判断基準とすることができ
る。

【００１０】

【発明の実施の形態】以下に添付図面を参照して、本発
明に係る画像処理装置の好適な実施の形態を詳細に説明
する。なお、以下に述べるのは一例であり、特に限定す
るものではない。

【００１１】（本実施の形態）図１は、本実施の形態の
画像処理装置の概略ブロック図である。画像処理装置
は、外部装置から画像データを入力する画像入力部１０
１と、入力された画像データからまとまりのある領域を
分割して分割画像データを生成する領域分割部１０２
と、分割画像データに含まれる文字列を認識してテキス
トデータ（文字データ）を生成する文字認識部１０３
と、分割画像データを外部装置から入力された画像デー
タとは別のアドレスへ記憶するデータ記憶部１０４と、
分割画像データの記憶アドレスおよび文字認識部１０３
で生成した各分割画像データに対応する文字データを併
記し、かつ、ＸＭＬまたはＳＧＭＬを用いて表現する構
造化文書生成部１０５と、装置全体を制御する制御部１
０６と、外部装置へ構造化文書生成部１０５で生成した
ＸＭＬファイルまたはＳＧＭＬファイル等を出力する外
部Ｉ／Ｆ部１０７と、から構成される。

【００１２】ここで、画像入力部１０１が入力手段に相
当し、領域分割部１０２が領域分割手段に相当し、文字
認識部１０３が文字認識手段に相当し、文字認識部１０
３および制御部１０６が信頼性算出手段に相当する。ま
た、データ記憶部１０４が記憶手段に相当し、構造化文
書生成部１０５および外部Ｉ／Ｆ部１０７が構造化文書
生成手段に相当する。

【００１３】以上の構成において、その動作を説明す
る。画像処理装置は、スキャナー、デジタルカメラまた
はＤＶＤ等のディジタル画像データを出力する外部装置
から画像入力部１０１を介して文章が盛り込まれた文書
画像データを入力する。領域分割部１０２は、入力した
文書画像データからまとまりのある領域を分割して分割
画像データを生成する。図２は、入力された文書画像デ
ータの図であり、図３は、領域分割部１０２によってま
とまりのある領域に領域分割された図である。

【００１４】図２では、Ａ４用紙に題、作者、本文、目
次等の文章が記載されており、領域分割部１０２によっ
てまとまりのある領域に領域分割された結果、図３の様
に各領域に分割されて分割画像データが生成される。例
えば、題「文書管理システムにおけるＸＭＬソリューシ
ョンと関連技術の将来展望について」の部分がひとまと
まりの領域として、領域分割された結果、図３に示す分
割画像データ３０１として生成される。以下、同様にし
て、「概要」、「目次」その他本文等が領域分割され、
図３に示す３０２〜３０４ｄの分割画像データが生成さ
れる。３０３、３０４の分割画像データの場合、内部に
も分割領域があり、それぞれ包含関係を有している。内
部の分割画像データは、包含している外部の分割画像デ
ータの要素として扱われる。分割された分割画像データ
は、それぞれデータ記憶部１０４に格納される。

【００１５】続いて、文字認識部１０３は、領域分割部
１０２によってまとまりのある領域に分割された領域か
ら文字列を抽出し、文字列の中でも、さらに個々の文字
へ分割し、一文字単位に文字認識して、文字データへ変
換していく。例えば、抽出された文字列が分割画像デー
タ３０３ａの「概要」であった場合、文字列を個々の文
字へ分割し、「概」、「要」とし、それぞれの文字を文
字認識する。文字認識では、認識する際、いくつかの候
補が存在し、その中で最も可能性の高いものが認識結果
とされる。文字列中の「概」について認識した場合、
「概」、「権」、「槽」および「操」等の候補が挙がる
ことが考えられ、それぞれの候補について、その可能性
である認識率（類似度）が同時に算出される。認識率の
算出については、文字列の原画像への一致度に基づいて
算出される。

【００１６】「概」、「権」、「槽」および「操」につ
いて、認識率がそれぞれ９０％、８５％、７０％、５５
％であった場合、最高認識率の「概」９０％が認識結果
となる。文字認識部１０３が個々の文字について認識し
た後、制御部１０６は、各認識結果を連結して文字デー
タを生成する。このとき、認識率の平均値を算出し、文
字列を認識した際の信頼性とする。例えば、分割画像デ
ータ３０３ａの文字列「概要」について、「概」の認識
率が９０％、「要」の認識率が７０％であった場合、分
割画像データ３０３ａの文字列「概要」から文字データ
「概要」として認識した際の信頼性は、（９０％＋７０
％）／２＝８０％となる。なお、認識率の平均値を算出
して信頼性とするのは、一例であり、他の方法でも良
い。

【００１７】図４は、文書画像データを文字認識した結
果を表した図である。文書画像データを分割した領域順
に、文字認識の信頼性を表した確度と、文字列を認識し
て生成された文字データと、分割された分割画像データ
が記憶されているアドレスと、が記述されている。図４
の「＜領域３＞」に、先述の例で示した分割画像データ
３０３ａの認識結果が記述されている。文字認識の信頼
性が８０％と算出されたので、「確度０．８０」と記
述され、認識した結果である文字データは、｛認識文字
列「概要」｝として記述されている。また、分割画像
データ３０３ａは、「画像データ “images/0003.jp
g”」として、その記憶アドレスが記述されている。

【００１８】次に、構造化文書生成部１０５は、先述の
文字認識の信頼性を表した確度と、文字列を認識して生
成された文字データと、分割された分割画像データが記
憶されているアドレスと、を併記し、ＸＭＬファイルま
たはＳＧＭＬファイルを生成する。

【００１９】図５は、構造化文書生成部１０５が生成し
たＸＭＬファイルを表した図である。第１行に、ＸＭＬ
ファイルのバージョンが出力され、第２行には、（図示
しない）文書の文書型が定義されている。第３行は、Ｘ
ＭＬファイルの内容の開始を示すルート要素である。第
４行の“Resolution”には、入力された文書画像データ
の読取解像度が出力され、第５行の“Scanning mode”
には、バイナリデータであることの表示およびサイズが
出力され、第６行には、“Organization”として、画像
処理装置を使用している組織名が出力されている。

【００２０】“Sect1”〜“/Sect1”には、分割された
各分割画像データの記憶アドレス、認識結果の文字デー
タおよびその確度が出力されている。“Title”〜“/Ti
tle”には、認識された文字データが出力され、“Graph
ic FileRef”には、分割画像データが記憶されている記
憶アドレスおよびサイズが出力されている。“OCRrelia
bility”には、文字認識に関する信頼性である確度が出
力されている。また、分割した領域に包含関係がある場
合、同じ“Sect1”内に、内部の分割画像データの内容
が出力される。この場合、認識された文字データは、
“Para”〜“/Para”へ出力され、“Graphic FileRef”
および“OCR reliability”が続いて出力される。以
下、各分割画像データについても同様に出力していく。

【００２１】生成されたＸＭＬファイルまたはＳＧＭＬ
ファイルは、外部Ｉ／Ｆ部１０７を介して、ＰＣ、プリ
ンタ、ファクシミリ等の画像表示を行う外部装置へ出力
される。画像表示を行う外部装置では、画像表示に際し
て、文字データのみを信頼して表示する方法と、文字デ
ータと分割画像データを混載し、信頼性に応じて使い分
ける方法がある。文字データのみを信頼して表示する方
法の場合、文書画像データを表示する際、各分割画像デ
ータに対応する文字データを全てテキスト形式で表示す
る。ユーザがテキストの表示内容がおかしいと感じた場
合、画像表示を行う外部装置を操作して、表示内容がお
かしいと感じられる文字データに対応する分割画像デー
タをＸＭＬファイルまたはＳＧＭＬファイルに記載され
ている記憶アドレスから読み出してテキストデータの代
わりに表示する。

【００２２】文字データと分割画像データを混載し、信
頼性に応じて使い分ける方法の場合、ＸＭＬファイルま
たはＳＧＭＬファイルを表示する際には、“OCR reliab
ility”を参照して表示を行う。信頼性の判断基準であ
る閾値を０．７０とした場合、OCR reliability＝０．
８０のときは、文字データを信頼して、文書画像の表示
に際しては、認識した文字データを用いるものとし、OC
R reliability＝０．６０のときは、文字データを信頼
するには不十分として、分割画像データをＸＭＬファイ
ルまたはＳＧＭＬファイルに記載されている記憶アドレ
スから読み出して、表示する。判断基準に用いる閾値を
変更することにより、柔軟な表示における判断が可能で
ある。

【００２３】前述したように本実施の形態によれば、文
書画像データを領域分割して分割画像データを生成し、
データ記憶部１０４に分割画像データを記憶して、分割
画像データの記憶アドレス、分割画像データに含まれる
文字列を文字認識した文字データおよび文字認識に対す
る信頼性をＸＭＬファイルへ併記するため、ＸＭＬファ
イル上では、分割画像データと、画像データに含まれる
文字列を認識した文字データと、が切り離され、データ
量を削減でき、かつ、分割画像データと、画像データに
含まれる文字列を認識した文字データと、を双方読み出
し可能とした運用性の高い出力ファイルを生成すること
ができる。

【００２４】

【発明の効果】以上説明したように、請求項１の発明に
よれば、画像データを領域分割して分割画像データを生
成し、記憶手段に分割画像データを記憶して、分割画像
データの文字列を文字認識した結果をＸＭＬまたはＳＧ
ＭＬを用いて構造化するため、画像データと、画像デー
タに含まれる文字列を認識した文字データと、を切り離
してデータ量を削減し、かつ、画像データと、画像デー
タに含まれる文字列を認識した文字データと、を双方読
み出し可能とした運用性の高い出力ファイルを生成する
ことができる。

【００２５】また、請求項２の発明によれば、信頼性算
出手段が、画像データから文字列を文字データとして認
識した際の信頼性を算出するため、入力された画像デー
タと、画像データに含まれる文字列を認識した文字デー
タと、を使用する上での選択の判断基準とすることがで
き、請求項１における発明よりも、さらに画像データ
と、画像データに含まれる文字列を認識した文字データ
と、を切り離してデータ量を削減し、かつ、画像データ
と、画像データに含まれる文字列を認識した文字データ
と、を双方読み出し可能とした運用性の高い出力ファイ
ルを生成することができる。

【図面の簡単な説明】

【図１】本実施の形態の画像処理装置の概略ブロック図
である。

【図２】入力された文書画像データの図である。

【図３】領域分割部によってまとまりのある領域に領域
分割された図である。

【図４】文書画像データを文字認識した結果を表した図
である。

【図５】構造化文書生成部が生成したＸＭＬファイルを
表した図である。

【符号の説明】

１０２領域分割部１０３文字認識部１０４データ記憶部１０５構造化文書生成部１０６制御部１０７外部Ｉ／Ｆ部

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B009 NG04 QB01 5B050 AA08 BA10 BA16 CA05 EA01 FA19 5B064 AA07 5C076 AA16 AA36 CA10

Claims

【特許請求の範囲】

【請求項１】外部装置から画像データを入力する入力
手段と、前記入力手段で入力した前記画像データからま
とまりのある領域を分割して分割画像データを生成する
領域分割手段と、前記分割画像データに含まれる文字列
を認識して文字データを生成する文字認識手段と、を有
する画像処理装置において、前記領域分割手段で分割した分割画像データを記憶する
記憶手段と、前記記憶手段で記憶した各分割画像データの記憶アドレ
スおよび前記文字認識手段で生成した各分割画像データ
に対応する文字データを併記し、かつ、ＸＭＬ（ｅＸｔ
ｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）ま
たはＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚ
ｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）を用いた構造
化文書を生成する構造化文書生成手段と、を備えたことを特徴とする画像処理装置。
【請求項２】さらに、前記文字認識手段において前記
文字データを認識した際の信頼性を算出する信頼性算出
手段を備え、前記構造化文書生成手段は、前記各分割画像データの前
記記憶アドレスおよび前記記憶アドレスに対応する前記
文字データと共に、前記信頼性算出手段で算出した各文
字データの信頼性を該当する文字データに対応させて出
力することを特徴とする請求項１に記載の画像処理装
置。