JP2022167414A - 画像処理装置、画像処理方法およびプログラム - Google Patents
画像処理装置、画像処理方法およびプログラム Download PDFInfo
- Publication number
- JP2022167414A JP2022167414A JP2021073188A JP2021073188A JP2022167414A JP 2022167414 A JP2022167414 A JP 2022167414A JP 2021073188 A JP2021073188 A JP 2021073188A JP 2021073188 A JP2021073188 A JP 2021073188A JP 2022167414 A JP2022167414 A JP 2022167414A
- Authority
- JP
- Japan
- Prior art keywords
- color
- image
- character
- pixels
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims 2
- 238000000034 method Methods 0.000 claims abstract description 61
- 239000003086 colorant Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/155—Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18105—Extraction of features or characteristics of the image related to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/199—Arrangements for recognition using optical reference masks, e.g. holographic masks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Editing Of Facsimile Originals (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
【課題】文字部分にロゴマーク等が重なっている文書を読み取って得られた文書画像からでも、高精度に文字情報を抽出できるようにする。【解決手段】文書を読み取った文書画像に対し二値化処理を行って、基準よりも濃い色を表す第1画素と基準よりも薄い色を表す第2画素とで構成される二値画像を生成する。そして、生成された二値画像における第1画素のうち、文書画像における対応画素の色が文書内の文字オブジェクトの色とは異なる画素を第2画素に変更して、文書画像において文字オブジェクトに重なる背景オブジェクトを除去した二値画画像を生成する。【選択図】図3
Description
本発明は、文書画像を補正する画像処理技術に関する。
近年、レシートや帳票といった文書のスキャン画像(文書画像)に対して光学文字認識処理(以下、「OCR処理」と表記)を行って文字情報を抽出することにより、会計業務の効率化を図るシステムが利用されるようになっている。文書画像から抽出される文字情報としては日付や合計金額、企業名などが挙げられ、各項目の名称、単位、形式を基に、特定の項目(キー)に対応する値(バリュー)として取得される。ここで、文書画像によってはロゴマークや印影などが文字部分と重なっていることがある。このような文書画像では文字の背景になっているロゴマーク等の色が邪魔をしてOCR処理が上手く機能せず、文字情報を正確に抽出できない場合がある。この点、特許文献1には、文字部分がカラーマーカーで塗り潰されているようなケースにおいて、文書画像から文字情報を抽出可能にする技術が開示されている。具体的には、文書画像に対して二値化処理を行った結果において、文字領域と判定された領域のうち背景と文字とが分離困難な領域に対して再度二値化処理を行うことで、文字情報を抽出可能にしている。
上記特許文献1の技術は、文字領域と判定された領域を処理対象とするところ、文字と重なっているロゴマーク等の領域のサイズやアスペクト比が凡そ文字領域とは判定されないようなものであった場合は、当該領域において文字と背景とを分離することができない。本開示に係る技術は上記課題に鑑みてなされたものである。
本開示に係る画像処理装置は、文書を読み取った文書画像に対し二値化処理を行って、前記文書画像において基準レベルよりも濃い色を表す第1画素と、前記基準レベルよりも薄い色を表す第2画素とで構成された二値画像を生成する二値化手段と、前記二値化手段によって生成された前記二値画像に含まれる前記第1画素のうち、前記文書画像における対応画素の色が前記文書内の文字オブジェクトの色とは異なる画素を前記第2画素に変更することで、前記文書画像において前記文字オブジェクトに重なる背景オブジェクトを除去した二値画像を生成する背景除去手段と、を備えたことを特徴とする。
本開示の技術によれば、文字部分にロゴマーク等の背景が重なっていても、高精度に文字情報を抽出することができる。
以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
[実施形態1]
<システム構成>
図1は、本実施形態に係る、情報処理システムの全体構成を示す図である。情報処理システムは、MFP100と、PC110とを有している。MFP100は、スキャナ101と、プリンタ102と、通信部103とを有している。スキャナ101は、レシートや帳票といった文書のスキャンを行い、スキャン画像を生成する。プリンタ102は、PC110から送られてくる印刷用画像やスキャナ101で生成されたスキャン画像に基づき、用紙に画像を形成して出力する。通信部103は、ネットワークを介してPC110を含む外部装置と通信を行う。
<システム構成>
図1は、本実施形態に係る、情報処理システムの全体構成を示す図である。情報処理システムは、MFP100と、PC110とを有している。MFP100は、スキャナ101と、プリンタ102と、通信部103とを有している。スキャナ101は、レシートや帳票といった文書のスキャンを行い、スキャン画像を生成する。プリンタ102は、PC110から送られてくる印刷用画像やスキャナ101で生成されたスキャン画像に基づき、用紙に画像を形成して出力する。通信部103は、ネットワークを介してPC110を含む外部装置と通信を行う。
画像処理装置であるPC110は、CPU111、ROM112、RAM113、HDD114、表示部115、入力部116、通信部117を有している。CPU111は、PC110を統括的に制御する演算装置であり、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、CPU111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する大容量記憶装置である。なお、後述するPC110の機能や処理は、CPU111がROM112又はHDD114に格納されているプログラムを読み出してRAM113に展開してこれを実行することにより実現されるものである。通信部117は、ネットワークを介してMFP100を含む外部装置との通信処理を行う。表示部115は、各種情報を表示する。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部115と入力部116は、タッチパネルのように一体に設けられていてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。
本実施形態においては、MFP100のスキャナ101にて帳票等の文書をスキャンして得られた画像(以下、「文書画像」と表記)のデータが、通信部103によりPC110に送信される。そして、PC110の通信部117によって受信された文書画像のデータはHDD114に格納されると、OCR処理に先立って、当該文書画像内の文字に重なったカラー背景を除去する処理が実行されることになる。
<カラー背景除去処理>
図2は、本実施形態に係る、PC110に入力された文書画像に対して、文字オブジェクトに重なったカラー背景オブジェクトを除去する処理(カラー背景除去処理)を実現するための機能部を示すブロック図である。また、図3は、本実施形態に係るカラー背景除去処理の流れを示すフローチャートである。以下、図2のブロック図と図3のフローチャートを参照して、本実施形態のカラー背景除去処理について説明する。なお、以下の説明において記号「S」はステップを意味する。
図2は、本実施形態に係る、PC110に入力された文書画像に対して、文字オブジェクトに重なったカラー背景オブジェクトを除去する処理(カラー背景除去処理)を実現するための機能部を示すブロック図である。また、図3は、本実施形態に係るカラー背景除去処理の流れを示すフローチャートである。以下、図2のブロック図と図3のフローチャートを参照して、本実施形態のカラー背景除去処理について説明する。なお、以下の説明において記号「S」はステップを意味する。
S301では、二値化部201が、入力された文書画像に対して二値化処理を行なう。二値化処理は、例えば各画素がRGBそれぞれ256階調(8ビット)の色値を持つフルカラーの文書画像を、輝度を基準として白と黒の2階調に変換する処理である。具体的には、まず、各画素のRGB値を所定の変換式(例えば0.299×R + 0.587×G + 0.114×B)によって変換する。そして、変換後の値が閾値より大きい場合(基準レベルよりも濃い色の場合)は画素値=「1」の黒画素に、変換後の値が閾値より小さい場合(基準レベルよりも薄い色の場合)は画素値=「0」の白画素にする処理を行う。ここでの閾値は、入力された文書画像全体における輝度のヒストグラムを基に決定すればよい。二値化処理によって得られた画像(以下、「二値画像」と呼ぶ。)は、RAM113またはHDD114に格納される。ここで、具体例を用いて説明する。図4において画像400は、入力された文書画像を示しており、画像410は文書画像400に対して二値化処理をして得られた二値画像を示している。いま、文書画像400は、金額、日付、会社名、電話番号、文書IDにそれぞれ対応する黒色の文字領域401~405と、4つのロゴマークにそれぞれ対応する赤色の非文字領域406a~406dと、余白に対応する薄い黄色の余白領域407で構成されている。文書画像400と二値画像410との比較から明らかなように、文書画像400内の黒の文字領域401~405や赤の非文字領域406は、輝度が低いことから、二値画像410において黒画素領域411となる。一方、文書画像400内の余白領域407は輝度が高いことから、二値画像410において白画素領域412となる。なお、二値化処理の内容は上述の例に限定されるものではなく、文書画像の各画素の色を白又は黒の二値に変換することができればよい。
次に、S302では、除去候補抽出部202が、文書画像内における背景オブジェクトのうち除去対象の候補となる背景オブジェクトを抽出する処理(以下、「除去候補抽出処理」と呼ぶ。)を行う。図5は、除去候補抽出処理の詳細を示すフローチャートである。以下、図5のフローチャートに沿って説明する。
≪除去候補抽出処理≫
まず、S501では、本フローの結果として出力される除去候補となる背景オブジェクトを示す画像(以下、「除去候補画像」と表記)が初期化される。具体的にはS301にて生成された二値画像と同じサイズの画像であって、全ての画素が白を表す画素値を持つ白地の画像が、除去候補画像の初期値としてRAM103内に生成される。
まず、S501では、本フローの結果として出力される除去候補となる背景オブジェクトを示す画像(以下、「除去候補画像」と表記)が初期化される。具体的にはS301にて生成された二値画像と同じサイズの画像であって、全ての画素が白を表す画素値を持つ白地の画像が、除去候補画像の初期値としてRAM103内に生成される。
次に、S502では、S301にて生成された二値画像を構成する全画素の中から注目する画素が決定される。注目画素の決定方法は任意であり、例えば二値画像の左上隅の画素から順に注目画素として決定していけばよい。続くS503では、S502で決定した注目画素が黒画素であるか否かが判定される。注目画素の画素値が、黒を表す「1」であればS504へ進み、白を表す「0」であればS507へ進む。
注目画素が黒画素の場合のS504では、注目画素と同位置に存在する、文書画像における対応画素の色情報(例えば、RGB値或いはRGB値を変換したHSV値)が取得される。
続くS505では、S504にて取得した対応画素の色情報に基づき、対応画素が文字色以外の色を有する画素であるか否かが判定される。判定の結果、対応画素の色情報が示す色が文字色以外の色であればS506へ進む。一方、対応画素の色情報が示す色が文字色と同じ色であればS507へ進む。いま、文字色は黒であるものとする。この場合、対応画素の色情報が示す色が、黒以外の色であればS506へ進み、黒であればS507へ進むことになる。なお、文字色は黒に限定されるものではなく、ユーザは任意の色を文字色として指定可能である。
S506では、上記「文書画像における対応画素」と同位置に存在する、現在の除去候補画像における対応画素が黒画素に変更される。
S507では、二値画像を構成する全画素について処理が完了したか否かが判定される。全画素の処理が完了していれば本処理を抜ける。一方、未処理の画素があればS502に戻って次の注目画素を決定して処理が続行される。
以上が、除去候補抽出処理の内容である。これにより、文書画像を二値化処理して得られた二値画像内の黒画素のうち、文字を構成する画素のみを白画素化した二値画像である除去候補画像が得られる。上述の図4における画像420が、文書画像400と二値画像410とに基づき得られる除去候補画像を示している。本実施形態では、除去候補画像を、除去対象のカラーの背景領域を黒画素、その他の領域を白画素の2値で表しているが、カラーの背景領域を白画素、その他の領域を黒画素としてもよい。また、除去候補画像としては二値画像以外の画像形式でもよく、256階調よりも低い階調の多値画像やグレースケール画像を用いてもよい。生成された除去候補画像のデータは、RAM113に格納される。
図3のフローチャートの説明に戻る。
次に、S303では、除去判定部203が、S302にて生成された除去候補画像を解析し、除去候補画像内の黒画素塊単位の位置及びサイズを示す情報(以下、「単位領域情報」と呼ぶ。)を取得する。本実施形態では、除去候補画像に含まれる黒画素のうち、縦、横、斜め方向で互いに隣接する黒画素の集合体を黒画素塊と定義する。また、隣接する黒画素塊までの最短距離が数画素程度しかない複数の黒画素塊や、ある一定サイズの領域に包含される複数の黒画素塊についてはマージして一つの単位領域とする。例えば、上述の図4に示す除去候補画像420の場合、破線の枠421a~421dで囲まれた各領域が単位領域となる。また、本実施形態では、単位領域を外接矩形で表しており、包含される黒画素塊の最左部と最上部の位置座標、および包含される黒画素塊の幅、高さによって単位領域を規定することとする。なお、除去候補画像内の黒画素塊の位置や大きさを把握できるのであれば、別の方法で単位領域情報を定義してもよい。こうして取得された、除去候補画像内の各黒画素塊を示す単位領域情報はRAM113に格納される。
次に、S304では、除去判定部203が、S303で取得された単位領域情報に基づき、S302で生成された除去候補画像内の黒画素塊のうち実際に除去する黒画素塊を単位領域毎に決定する処理(除去対象決定処理)を行う。図6は、本実施形態に係る、除去対象決定処理の詳細を示すフローチャートである。以下、図6のフローチャートに沿って説明する。
≪除去対象決定処理≫
S601では、取得された単位領域情報に基づき、除去候補画像内に存在する全ての単位領域のうち注目する単位領域が決定される。次に、S602では、S601で決定した単位領域に対応する文書画像内の領域を対象として、当該領域内に存在する文字色と同じ色を有する画素(以下、「文字色画素」と呼ぶ。)がカウントされる。ここで、具体例を用いて説明する。上述の図4において、除去候補画像420における4つの単位領域421a~421dのうち単位領域421aが注目単位領域であったとする。いま、文字色は黒色なので、このケースでは、文書画像400の対応領域内に存在する「金」の文字を構成する黒色の画素の数がカウントされることになる。
S601では、取得された単位領域情報に基づき、除去候補画像内に存在する全ての単位領域のうち注目する単位領域が決定される。次に、S602では、S601で決定した単位領域に対応する文書画像内の領域を対象として、当該領域内に存在する文字色と同じ色を有する画素(以下、「文字色画素」と呼ぶ。)がカウントされる。ここで、具体例を用いて説明する。上述の図4において、除去候補画像420における4つの単位領域421a~421dのうち単位領域421aが注目単位領域であったとする。いま、文字色は黒色なので、このケースでは、文書画像400の対応領域内に存在する「金」の文字を構成する黒色の画素の数がカウントされることになる。
次に、S603では、S602でカウントした文字色画素数が閾値より少ないかどうかが判定される。この場合の閾値は、入力対象となる文書画像の解像度や、OCR処理で認識対象となり得る最小文字サイズなどに基づき、文字色の画素が単位領域内にどの程度存在しているとそれが文字を表す画素となり得るかを考慮して予め決定しておけばよい。カウント画素数が閾値より少ない場合は注目単位領域には文字が存在しないと判定して、S604へ進む。一方、カウント画素数が閾値以上の場合は注目単位領域には文字が存在すると判定して、S605へ進む。
S604では、除去候補画像から注目単位領域内の黒画素塊を削除する処理が行われる。具体的には、注目単位領域内の黒画素を白画素に置き換える処理が行われることになる。前述の例では、文書画像400内の対応する領域のうち、枠421a、421b、421dに対応する各領域は何らかの文字を含んでおり、各領域内の文字色画素数は閾値を上回ることになる。よって、これらに対応する除去候補画像420内の単位領域421a、421b、421dの黒画素塊は削除されることなく残ることになる。一方、枠421cに対応する文書画像400内の領域には文字を含んでおらず、文字色画素数が閾値を下回るため、除去候補画像420から単位領域421cの黒画素塊が削除されることになる。その結果、図4に示す除去対象画像430が得られる。
S605では、取得された単位領域情報が示す全ての単位領域について処理が完了したか否かが判定される。全ての単位領域について処理が完了していれば本処理を抜ける。一方、未処理の単位領域があればS601に戻って次の注目単位領域を決定して処理を続行する。
以上が、除去対象決定処理の内容である。なお、例えば文書画像400において文書IDを表す文字“No.001”だけが他の文字とは異なり、ロゴマーク406と同じ色であったとする。この場合、本実施形態の手法では、当該文字部分を構成する画素領域も除去候補の対象となってしまう。そこで、このような場合は各単位領域について文字領域なのか非文字領域なのかの判定を追加的に行い、文字領域と判定された単位領域の黒画素塊を除去候補画像から削除するようにすればよい。これにより除去対象となるロゴマーク等と同じ色の文字が文書内に含まれているようなケースでも、当該文字部分を除去後二値画像に残すことができる。
図3のフローチャートの説明に戻る。
次に、S305では、背景処理部204が、S304にて生成された除去対象画像によって特定される除去対象の背景領域を、S301にて生成された二値画像から除去する処理を行う。本実施形態の場合、S301にて得られた二値画像内の黒画素のうち、除去対象画像における同位置の黒画素を白画素に変換する処理が行われる。前述の図4の例では、二値画像410から除去対象画像430の黒画素の部分が除去される結果、除去後二値画像440が得られることになる。この例では、4つあったロゴマークに対応する単位領域421a~421dのうち、単位領域421cの黒画素塊が除去候補画像420から削除される。よって、除去後二値画像440には、4つのロゴマークのうち単位領域421cに対応するロゴマークを表す黒画素塊だけが残り、他のロゴマークを表す黒画素塊は消えることになる。こうして、文字に重なったロゴマーク等が消去された除去後二値画像に対してOCR処理を行うことで、高精度に文字情報を抽出することが可能になる。
以上が、本実施形態に係る、文書画像から文字オブジェクトに重なるカラー背景オブジェクトを除去する処理の内容である。なお、本実施形態の趣旨を逸脱しない範囲で上記と同様の効果を得ることができる改変は本実施形態の範疇に属するものである。
以上のとおり本実施形態によれば、文書画像の二値画像から、文書内の文字部分に重なったカラー背景を表す画素領域を取り除くことができる。その結果、文字の背景にカラーのロゴマーク等がなっている文書画像からでも高精度に文字情報を抽出することができる。
[実施形態2]
実施形態1では、文書画像内の黒色の文字部分にカラーのロゴマーク等が背景として重なっているようなケースを想定し、黒文字部分に重なっているカラー背景を除去していた。しかしながら、文書画像内に複数の色の文字オブジェクト(例えば黒色の文字と青色の文字)が存在し、それらに赤色のロゴマーク等が背景オブジェクトとして重なるというケースも考えられる。このように、文書画像内に黒文字とは別にカラー文字が存在する場合において、当該カラー文字部分に重なっているカラー背景についても適切に除去して高精度なOCR処理を可能にする態様を、実施形態2として説明する。なお、基本的なシステム構成など実施形態1と共通する内容については説明を省略し、以下では差異点を中心に説明を行うこととする。
実施形態1では、文書画像内の黒色の文字部分にカラーのロゴマーク等が背景として重なっているようなケースを想定し、黒文字部分に重なっているカラー背景を除去していた。しかしながら、文書画像内に複数の色の文字オブジェクト(例えば黒色の文字と青色の文字)が存在し、それらに赤色のロゴマーク等が背景オブジェクトとして重なるというケースも考えられる。このように、文書画像内に黒文字とは別にカラー文字が存在する場合において、当該カラー文字部分に重なっているカラー背景についても適切に除去して高精度なOCR処理を可能にする態様を、実施形態2として説明する。なお、基本的なシステム構成など実施形態1と共通する内容については説明を省略し、以下では差異点を中心に説明を行うこととする。
<カラー背景除去処理>
図7は、本実施形態に係る、カラー背景除去処理を実現するための機能部を示すブロック図である。また、図8は、本実施形態に係るカラー背景除去処理の流れを示すフローチャートである。以下、図7のブロック図と図8のフローチャートを参照して、本実施形態のカラー背景除去処理について説明する。
図7は、本実施形態に係る、カラー背景除去処理を実現するための機能部を示すブロック図である。また、図8は、本実施形態に係るカラー背景除去処理の流れを示すフローチャートである。以下、図7のブロック図と図8のフローチャートを参照して、本実施形態のカラー背景除去処理について説明する。
S801は、実施形態1のS301と同じであり、二値化部201が、入力された文書画像に対して二値化処理を行なう。ここで、具体例を用いて説明する。図9において画像400’は、入力された文書画像を示しており、画像410’は文書画像400’に対して二値化処理をして得られた二値画像を示している。図4に示す文書画像400と図9に示す文書画像400’との違いは、会社名と電話番号を表す文字オブジェクトが、黒色ではなく青色であるという点である。以下、標準的な文字の色である黒色を「基準文字色」と呼ぶこととする。なお、基準文字色は黒色以外のユーザが指定した色であってもよい。また、二値化処理の結果である二値画像410には文字色の違いは現れない。
続くS802では、除去候補抽出部202’が、文書画像内における基準文字色を有する文字部分を除いた背景領域のうち除去対象の候補となる背景領域を抽出する除去候補抽出処理を行う。図10は、本実施形態に係る、除去候補抽出処理の詳細を示すフローチャートである。以下、図11のフローチャートに沿って説明する。
≪除去候補抽出処理≫
S1001~S1004は、実施形態1の図5のフローチャートにおけるS502~S505にそれぞれ対応する。すなわち、S801にて生成された二値画像を構成する全画素の中から注目画素がまず決定される(S1001)。次に、決定した注目画素が黒画素であるか否かが判定され(S1002)、注目画素の画素値が黒を表す「1」であればS1004へ進み、白を表す「0」であればS1008へ進む。注目画素が黒画素の場合は、注目画素と同位置に存在する、文書画像における対応画素の色情報が取得され(S1003)、取得した対応画素の色情報に基づき、対応画素が基準文字色以外の色を有する画素であるか否かが判定される(S1004)。判定の結果、対応画素の色情報が示す色が基準文字色以外の色であればS1005へ進み、基準文字色と同じ色であればS1008へ進む。いま、基準文字色は黒色なので、対応画素が、青色の文字領域に属する画素の場合や赤色のカラー背景領域に属する画素の場合はS1005に進み、黒色の文字領域に属する画素の場合はS1008に進むことになる。
S1001~S1004は、実施形態1の図5のフローチャートにおけるS502~S505にそれぞれ対応する。すなわち、S801にて生成された二値画像を構成する全画素の中から注目画素がまず決定される(S1001)。次に、決定した注目画素が黒画素であるか否かが判定され(S1002)、注目画素の画素値が黒を表す「1」であればS1004へ進み、白を表す「0」であればS1008へ進む。注目画素が黒画素の場合は、注目画素と同位置に存在する、文書画像における対応画素の色情報が取得され(S1003)、取得した対応画素の色情報に基づき、対応画素が基準文字色以外の色を有する画素であるか否かが判定される(S1004)。判定の結果、対応画素の色情報が示す色が基準文字色以外の色であればS1005へ進み、基準文字色と同じ色であればS1008へ進む。いま、基準文字色は黒色なので、対応画素が、青色の文字領域に属する画素の場合や赤色のカラー背景領域に属する画素の場合はS1005に進み、黒色の文字領域に属する画素の場合はS1008に進むことになる。
S1005では、対応画素の色情報が示す色が、既出の色であるか否かが判定される。具体的には、直近のルーチンまでのS1006にてRAM113に保持された色情報が示す色の中に、対応画素の色情報が示す色と同じ色が存在するかどうかがチェックされる。対応画素の色情報が示す色が既出の色である場合はS1007へ進み、既出の色でない場合はS1006へ進む。
S1006では、基準文字色以外の色と判定された色を持つ対応画素の色情報をRAM113に保持すると共に、当該対応画素の色情報が示す色と関連付けた除去候補画像の初期化が行われる。例えば、対応画素の色情報が示す色が赤であった場合は赤色用に初期化された除去候補画像が生成され、対応画素の色情報が示す色が青であった場合は青色用に初期化された除去候補画像が生成されることになる。
そして、S1007では、対応画素の色情報が示す色と関連付けられている除去候補画像の画素のうち、上記「対応画素」と同位置に存在する画素が黒画素に変更される。例えば、対応画素の色情報が示す色が赤であった場合は赤と関連付けられた除去候補画像内の画素が黒画素に変換され、対応画素の色情報が示す色が青であった場合は青と関連付けられた除去候補画像内の画素が黒画素に変換されることになる。
S1008では、二値画像を構成する全画素について処理が完了したか否かが判定される。全画素の処理が完了していれば本処理を抜ける。一方、未処理の画素があればS1001に戻って次の注目画素を決定して処理が続行される。
以上が、本実施形態に係る、除去候補抽出処理の内容である。これにより、基準文字色以外の色に対応した1以上の除去候補画像が生成される。前述の図9の例では、赤色に関連付けられた画像420aと青色に関連付けられた画像420bの2つが除去候補画像として生成されることになる。なお、上記の手法以外に、例えば二値画像にて黒画素である文書画像における対応画素の色情報を抽出・集計し、クラスタリングなどの手法を用いて複数のクラスターに分類後、各クラスターに対応した除去候補画像を生成する手法によってもよい。こうして生成された1以上の除去候補画像のデータは、RAM113に格納される。
図8のフローチャートの説明に戻る。
次に、S803では、除去判定部203’が、S802にて生成された1以上の除去候補画像をそれぞれ解析し、各除去候補画像内の黒画素塊単位の位置及びサイズを示す単位領域情報を取得する。各除去候補画像から単位領域情報を取得する方法については、実施形態1で説明したとおりである。
次に、S804では、文字領域特定部701が、S803にて取得された単位領域情報に基づき、それぞれの単位領域情報が表す領域が文字領域であるのか非文字領域であるのかを特定して単位領域情報毎にラベル付けを行う。文字領域特定部701は、領域サイズ、画素密度、領域形状について予め設定した条件を、単位領域情報が表す領域が満たしている場合に文字領域であると特定する。そして、文字領域であると特定された場合の単位領域情報には文字オブジェクトであることを示す「文字ラベル」を付与し、文字領域ではないと特定された場合の単位領域情報には文字オブジェクトではないことを示す「非文字ラベル」を付与する。なお、文字オブジェクトであるか非文字オブジェクトであるかの特定には他の手法を用いてもよく、例えば簡易的なOCR処理を用いて文字認識できるかどうかによって特定してもよい。このような処理を文字領域特定部701は除去候補画像毎に行う。
次に、S805では、除去判定部203’が、S803で取得された単位領域情報に基づき、各除去候補画像内の黒画素塊のうち実際に除去する黒画素塊を単位領域毎に決定する除去対象決定処理を行う。図11は、本実施形態に係る、除去対象決定処理の詳細を示すフローチャートである。以下、図11のフローチャートに沿って説明する。
≪除去対象決定処理≫
S1101では、S802にて生成された1以上の除去候補画像の中から注目する除去候補画像が決定される。次に、S1102では、注目除去候補画像に関して取得された単位領域情報に基づき、当該除去候補画像内に存在する全ての単位領域のうち注目する単位領域が決定される。
S1101では、S802にて生成された1以上の除去候補画像の中から注目する除去候補画像が決定される。次に、S1102では、注目除去候補画像に関して取得された単位領域情報に基づき、当該除去候補画像内に存在する全ての単位領域のうち注目する単位領域が決定される。
次に、S1103では、S1102で決定した注目単位領域に対応する文書画像内の領域を対象として、当該領域内に存在する基準文字色と同じ色を有する基準文字色画素がカウントされる。
次に、S1104では、S1103でカウントした基準文字色画素数が閾値より少ないかどうかが判定される。カウント画素数が閾値より少ない場合はS1105へ進み、閾値以上の場合はS1108へ進む。
S1105では、注目単位領域が文字領域であるかどうかが、その単位領域情報に付与されたラベルに基づき判定される。文字ラベルが付与されている場合はS1207へ進み、非文字ラベルが付与されている場合はS1106へ進む。
S1106では、注目単位領域が他の文字領域と重なっているかどうかが判定される。具体的には、注目単位領域と重なりのある他の領域が存在するかどうかをまず探索し、存在する場合に当該他の領域の単位領域情報に付与されているラベルが文字ラベルであるかどうかを確認する。重なっている他の領域が存在し、かつ、文字ラベルが付与されている場合は注目単位領域が他の文字領域と重なっていると判定し、S1108へ進む。一方、重なっている他の領域が存在しない、又は、存在するが非文字ラベルが付与されている場合は注目単位領域が他の文字領域と重なっていないと判定し、S1107へ進む。
S1107では、除去候補画像から注目単位領域内の黒画素塊を削除する処理が行われる。具体的には、注目単位領域内の黒画素を白画素に置き換える処理が行われることになる。
S1108では、注目除去候補画像に関して取得された単位領域情報が示す全ての単位領域について処理が完了したか否かが判定される。全ての単位領域について処理が完了していれば本処理を抜ける。一方、未処理の単位領域があればS1102に戻って次の注目単位領域を決定して処理を続行する。
S1109では、S802にて生成された全ての除去候補画像について処理が完了したか否かが判定される。全ての除去候補画像について処理が完了していれば本処理を抜ける。一方、未処理の除去候補画像があればS1101に戻って次の注目除去候補画像を決定して処理を続行する。
以上が、本実施形態に係る、除去対象決定処理の内容である。ここまでの処理を前述の図9の具体例を参照して説明する。まず、赤色と関連付けられた除去候補画像420aの場合、文書画像400’内の対応する領域のうち、枠421a、421b、421dに対応する各領域は何らかの文字を含んでいる。よって、各領域内の基準文字色画素数は閾値を上回ることになり(S1104でNo)、これらに対応する除去候補画像420a内の単位領域421a、421b、421dの黒画素塊は削除されることなく残ることになる。一方、枠421cに対応する文書画像400内の対応する領域には文字を含んでおらず、文字色画素数が閾値を下回り(S1104でYes)、文字領域でもなく(S1105でNo)、文字領域と重なってもいない(S1106でNo)。したがって、除去候補画像420aから単位領域421cの黒画素塊が削除されることになる(S1107)。次に、青色と関連付けられた除去候補画像420bの場合、文書画像400’内の対応する領域のうち、枠422に対応する領域内の基準文字色画素数は閾値を下回るものの(S1104でYes)、文字領域である(S1105でYes)。したがって、除去候補画像420bから単位領域422の黒画素塊が削除されることになる(S1107)。こうして得られた結果を統合すると、実施形態1の図4における除去対象画像430と同様の除去対象画像430’が得られることになる。
以上のとおり本実施形態によれば、文書画像内に黒文字とは別にカラー文字が存在する場合において、当該カラー文字部分に重なっているカラー背景についても適切に除去することができる。これによりカラー背景が重なった黒文字とカラー文字の双方について高精度にOCR処理を行うことができ、文書画像から適切に文字情報を抽出することが可能となる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (16)
- 文書を読み取った文書画像に対し二値化処理を行って、前記文書画像において基準レベルよりも濃い色を表す第1画素と、前記基準レベルよりも薄い色を表す第2画素とで構成された二値画像を生成する二値化手段と、
前記二値化手段によって生成された前記二値画像に含まれる前記第1画素のうち、前記文書画像における対応画素の色が前記文書内の文字オブジェクトの色とは異なる画素を前記第2画素に変更することで、前記文書画像において前記文字オブジェクトに重なる背景オブジェクトを除去した二値画像を生成する背景除去手段と、
を備えたことを特徴とする画像処理装置。 - 前記背景除去手段は、
前記二値化手段によって生成された前記二値画像に基づき、前記文書画像において前記文字オブジェクトの色とは異なる色の前記文字オブジェクトに重なる背景オブジェクトであって除去の候補となる背景オブジェクトを表す除去候補画像を生成する生成手段と、
前記除去候補画像における単位領域毎に、除去の対象とするか否かを判定する判定手段と、
前記判定手段によって前記除去の対象とすると判定された前記単位領域に対応する前記二値画像に含まれる前記第1画素を前記第2画素に変更する処理手段と、
を有することを特徴とした請求項1に記載の画像処理装置。 - 前記生成手段は、前記二値化手段によって生成された前記二値画像を構成する画素のうち前記第1画素に対応する前記文書画像における画素の色情報を取得し、当該取得した色情報が示す色が前記文字オブジェクトの色以外の色である場合、当該対応する位置の画素を除去の候補となる背景オブジェクトを構成する画素として、前記除去候補画像を生成する、ことを特徴とする請求項2に記載の画像処理装置。
- 前記文字オブジェクトの色として複数の色がある場合、
前記生成手段は、当該複数の色のうち基準文字色とは異なる色の背景オブジェクトを除去の候補とした、前記除去候補画像を生成する、ことを特徴とした請求項2又は3に記載の画像処理装置。 - 前記生成手段は、前記背景オブジェクトの色として前記基準文字色とは異なる色が複数ある場合、当該異なる色それぞれに関連付けて、複数の前記除去候補画像を生成することを特徴とする請求項4に記載の画像処理装置。
- 前記生成手段は、前記二値化手段によって生成された前記二値画像を構成する画素のうち前記第1画素に対応する、前記文書画像における画素の色情報を取得し、クラスタリングの手法を用いて複数のクラスターに分類して、複数の色それぞれに対応した複数の前記除去候補画像を生成することを特徴とする請求項5に記載の画像処理装置。
- 前記判定手段は、
前記単位領域に対応する前記文書画像における対応領域内の前記文字オブジェクトの色とは異なる色を有する画素の数をカウントし、
カウント画素数が閾値より少ない場合、前記単位領域を除去の対象としないと決定する、
ことを特徴とした請求項2乃至6のいずれか一項に記載の画像処理装置。 - 前記判定手段は、前記単位領域が文字領域であるのか非文字領域であるのかをさらに判定し、文字領域であると判定された前記単位領域を除去の対象としないと決定する、ことを特徴とした請求項7に記載の画像処理装置。
- 前記判定手段は、前記除去候補画像の前記単位領域のうち非文字領域であると判定された前記単位領域が、他の文字領域と重なるかどうかをさらに判定し、重なっていないと判定された前記単位領域を除去の対象としないと決定する、ことを特徴とした請求項8に記載の画像処理装置。
- 前記単位領域は、前記除去候補画像に含まれる前記背景オブジェクトを表す画素のうち互いに隣接する画素の集合体に対応する領域であることを特徴とする請求項2乃至9のいずれか一項に記載の画像処理装置。
- 前記生成手段は、カラー、グレースケール、二値のいずれかの画像形式で前記除去候補画像を生成すること特徴とした請求項2乃至10のいずれか一項に記載の画像処理装置。
- 前記文字オブジェクトの色は黒色、若しくは、ユーザが指定した色であることを特徴とした請求項1乃至3のいずれか一項に記載の画像処理装置。
- 前記基準文字色は黒色、若しくは、ユーザが指定した色であることを特徴とした請求項4又は5に記載の画像処理装置。
- 前記文字オブジェクトに重なる背景オブジェクトが除去された二値画像に対してOCR処理を行って、前記文書画像の文字情報を取得する取得手段をさらに備えたことを特徴とする請求項1乃至13のいずれか一項に記載の画像処理装置。
- 文書を読み取った文書画像に対し二値化処理を行って、前記文書画像において基準レベルよりも濃い色を表す第1画素と、前記基準レベルよりも薄い色を表す第2画素とで構成された二値画像を生成する二値化ステップと、
前記二値化ステップにて生成された前記二値画像に含まれる前記第1画素のうち、前記文書画像における対応画素の色が前記文書内の文字オブジェクトの色とは異なる画素を前記第2画素に変更することで、前記文書画像において前記文字オブジェクトに重なる背景オブジェクトを除去した二値画像を生成する背景除去手ステップと、
を含むことを特徴とする画像処理方法。 - コンピュータを、請求項1乃至14のいずれか一項に記載の画像処理装置として機能するためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021073188A JP2022167414A (ja) | 2021-04-23 | 2021-04-23 | 画像処理装置、画像処理方法およびプログラム |
US17/708,772 US12205394B2 (en) | 2021-04-23 | 2022-03-30 | Image processing apparatus, image processing method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021073188A JP2022167414A (ja) | 2021-04-23 | 2021-04-23 | 画像処理装置、画像処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022167414A true JP2022167414A (ja) | 2022-11-04 |
Family
ID=83693373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021073188A Pending JP2022167414A (ja) | 2021-04-23 | 2021-04-23 | 画像処理装置、画像処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US12205394B2 (ja) |
JP (1) | JP2022167414A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022167414A (ja) * | 2021-04-23 | 2022-11-04 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3601658B2 (ja) * | 1997-12-19 | 2004-12-15 | 富士通株式会社 | 文字列抽出装置及びパターン抽出装置 |
JP3904840B2 (ja) * | 2000-08-15 | 2007-04-11 | 富士通株式会社 | 多値画像から罫線を抽出する罫線抽出装置 |
EP1555804A3 (en) * | 2004-01-19 | 2006-08-16 | Ricoh Company, Ltd. | Image processing apparatus, image processing program and storage medium |
US20070237408A1 (en) * | 2006-04-05 | 2007-10-11 | Kabushiki Kaisha Toshiba | Image processing apparatus and image processing method |
JP4861845B2 (ja) * | 2007-02-05 | 2012-01-25 | 富士通株式会社 | テロップ文字抽出プログラム、記録媒体、方法及び装置 |
US8068684B2 (en) * | 2007-05-04 | 2011-11-29 | I.R.I.S. | Compression of digital images of scanned documents |
JP5357612B2 (ja) * | 2009-04-13 | 2013-12-04 | 株式会社日立ソリューションズ | 下線除去装置 |
JP6362632B2 (ja) | 2013-12-19 | 2018-07-25 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
CN107358184A (zh) * | 2017-06-30 | 2017-11-17 | 中国科学院自动化研究所 | 文档文字的提取方法及提取装置 |
US10528807B2 (en) * | 2018-05-01 | 2020-01-07 | Scribe Fusion, LLC | System and method for processing and identifying content in form documents |
US11790493B2 (en) * | 2018-09-28 | 2023-10-17 | Pfu Limited | Image processing device, control method, and control program |
CN110427891B (zh) * | 2019-08-05 | 2022-06-10 | 中国工商银行股份有限公司 | 用于识别合同的方法、装置、系统及介质 |
JP7433887B2 (ja) * | 2019-12-23 | 2024-02-20 | キヤノン株式会社 | 画像を処理するための装置、プログラム、画像処理方法 |
JP2022167414A (ja) * | 2021-04-23 | 2022-11-04 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
-
2021
- 2021-04-23 JP JP2021073188A patent/JP2022167414A/ja active Pending
-
2022
- 2022-03-30 US US17/708,772 patent/US12205394B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US12205394B2 (en) | 2025-01-21 |
US20220343666A1 (en) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11574489B2 (en) | Image processing system, image processing method, and storage medium | |
US20060008114A1 (en) | Image processing system and image processing method | |
JP4646797B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP5137759B2 (ja) | 画像処理装置 | |
JP4857173B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
US11983910B2 (en) | Image processing system, image processing method, and storage medium each for obtaining pixels of object using neural network | |
US20110222776A1 (en) | Form template definition method and form template definition apparatus | |
US7551753B2 (en) | Image processing apparatus and method therefor | |
JP7433887B2 (ja) | 画像を処理するための装置、プログラム、画像処理方法 | |
JP4655335B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP7600805B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2022074466A (ja) | 画像処理装置および画像形成装置 | |
US8229214B2 (en) | Image processing apparatus and image processing method | |
JP2023030811A (ja) | 情報処理装置、抽出処理装置、画像処理システム、情報処理装置の制御方法、及びプログラム | |
JP4232679B2 (ja) | 画像形成装置およびプログラム | |
JP4613397B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
US8181108B2 (en) | Device for editing metadata of divided object | |
JP2022167414A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2021044803A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2021149452A (ja) | 画像処理装置、制御方法及び制御プログラム | |
US11948342B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium for determining extraction target pixel | |
JP2017174031A (ja) | 画像処理装置及び画像処理プログラム | |
JP5159588B2 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
JP4710672B2 (ja) | 文字色判別装置、文字色判別方法、およびコンピュータプログラム | |
JP5517028B2 (ja) | 画像処理装置 |