JP5845724B2 - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP5845724B2 JP5845724B2 JP2011184591A JP2011184591A JP5845724B2 JP 5845724 B2 JP5845724 B2 JP 5845724B2 JP 2011184591 A JP2011184591 A JP 2011184591A JP 2011184591 A JP2011184591 A JP 2011184591A JP 5845724 B2 JP5845724 B2 JP 5845724B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- string element
- module
- character
- quasi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Description
これに関連する技術として、例えば、特許文献1には、文字の切れや大きさのばらつきなどの影響を受けずに文字領域を正しく抽出する装置を提供することを目的とし、文字領域抽出装置は、文字候補領域抽出部と、文字候補領域記憶部と、文字情報記憶部と、文字列領域抽出部と、文字列領域記憶部と、文字列情報抽出部と、文字列情報記憶部と、文字領域抽出部という構成を備えたものであることが開示されている。
請求項1の発明は、画像内の第1の文字列要素に関する情報として、該第1の文字列要素の大きさ、該第1の文字列要素の前にある文字列要素である前文字列要素から該第1の文字列要素への方向、該前文字列要素から該第1の文字列要素までの距離、を受け付ける受付手段と、前記受付手段によって受け付けられた第1の文字列要素に関する情報に基づいて、該第1の文字列要素に続く第2の文字列要素を予測する予測手段と、前記予測手段によって予測された第2の文字列要素に基づいて、前記画像内の第2の文字列要素を検出する検出手段と、過去の文字列要素に関する情報に基づいて、前記検出手段によって検出された第2の文字列要素に関する情報を修正する修正手段と、前記修正手段によって修正された前記第2の文字列要素を次の第1の文字列要素として、前記受付手段が受け付けるように制御し、前記予測手段、前記検出手段、前記修正手段による処理を繰り返して行わせるように制御する制御手段を具備し、前記検出手段は、文字列要素どうしの距離が小さいものから優先して検出することを特徴とする画像処理装置である。
文字列切り出し技術には、一般的に、トップダウン型とボトムアップ型の2つの基本アプローチがある。
トップダウン型とは、大局領域を分割することで、文字列を検出するアプローチである。ボトムアップ型とは、局所領域を統合することで、文字列を検出するアプローチである。
本実施の形態は、ボトムアップ型の文字列切り出し技術に属する。ボトムアップ型の文字列切り出し装置において、文字列を検出するために統合される局所領域のことを準文字とする。例えば、準文字とは、2値画像の連結成分(4連結や8連結の画素塊)やベクトル情報である。その準文字が表すものとしては、1文字、1文字内の部分、例えば、漢字における「へん、つくり」等がある。準文字に関する情報として、例えば、画像内における準文字を構成する各画素の位置、準文字の外接矩形の位置、大きさ等がある。
2値画像の連結成分を準文字とする例を図2、3に示す。図2は、手書き文書画像200の例を示しており、図3の例に示した文書画像(連結成分)300は、図2の例に示した手書き文書画像200の準文字を解析した結果の例である。
文字列の形状が多様であるとは、図2の例に示すように、互いにサイズの異なる文字列、斜め文字列、又は、歪曲(湾曲)した文字列が混在するような状態を指す。
複数の準文字を含む単文字が多く含まれるとは、日本語において、「へん・つくり」を含む単文字がある状態を指す。図2、3の例から、英語と日本語において、準文字の並び等が異なる様子が分かる。
いま、ある文字列追跡において、k番目までの文字列要素が検出されているとする。次に、続くk+1番目の文字列要素を検出したい。ゆえに、続く文字列要素のあるべき領域を推定する。このためには、過去に観測された文字列要素に基づいて、検出の対象である文字列の形状を推定すればよい。この推定は、回帰分析で実現される。また、処理速度とメモリの観点から、非特許文献4に示されるような、逐次演算を利用してもよい。
推定された文字列の形状からk+1番目の文字列要素があるべき領域が予測できる。図4(c)の例において、予測されたk+1番目の文字列要素を破線の円で示す。予測された文字列要素に基づいて、準文字を検出する。このとき、予測された文字列要素の領域に複数の準文字がある場合、これを統合する。
もし、続く文字列要素が検出されなければ、文字列追跡を終了する。
このように、推定の後に検出を行うことにより、それぞれの文字列に対して、検出のために参照する情報(すなわち、文字列のサイズと方向)が得られる。すなわち、文字列の形状の多様性の問題を解決するために行うものである。また、予測された文字列要素の領域にある複数の準文字を統合することで、複数の準文字を含む単文字であっても文字列要素として抽出し得る。
例えば、文書画像500から、8つの文字列が抽出でき、その文字列中心線512、514、516、518、520、522、524、526を示している。つまり、文字列の形状が多様であり、複数の準文字によって構成される単文字が多く含まれる文書画像500に対して、文字列を検出している。また、文字でない図形やノイズのある文書画像500において、準文字について予めノイズと文字とを区別しておく必要もない。
本実施の形態は、文字列を、文字列要素の集合として検出する。
前述の通り、文字列要素とは、単数又は複数の準文字によって構成されている。
本実施の形態おける準文字とは、以下のいずれかを指す。
(A)2値画像の連結成分
(B)ストローク画像のストロークデータ
(C)ベクトル画像のベクトルデータ
(I)t:文字列要素のサイズ
(II)θ:文字列要素の方向
(III)p:文字列要素どうしの間隔
ここで、θ(文字列要素の方向)とは、対象としている文字列要素をk番目に検出された文字列要素(文字列要素(k)と表記する)とし、その直前に検出された文字列要素をk−1番目に検出された文字列要素(文字列要素(k−1)と表記する)とすると、文字列要素(k−1)から文字列要素(k)への方向をいう。
p(文字列要素どうしの間隔)とは、文字列要素(k−1)と文字列要素(k)との間の距離をいう。
まず、図6に示す例を説明する。図6の例においては、文字列要素を矩形で与えている。例えば、この矩形は、文字列要素を囲む外接矩形である。また、t、θ、pを以下のように与える。
(I)t:対象としている文字列要素である矩形(Sk)の対角線長さ(tk)
(II)θ:対象としている文字列要素である矩形(Sk)の中心座標と、前にある文字列要素である矩形(Sk−1)の中心座標を結ぶ線の傾き(θk)
(III)p:対象としている文字列要素である矩形(Sk)の中心座標と、前にある文字列要素である矩形(Sk−1)の中心座標との距離(pk)
このほかに、例えば、tとして、矩形の縦長さ、横長さ、面積等であってもよいし、θとして、矩形の右上端間の傾き等であってもよいし、pとして、中心座標間の距離から、互いの矩形に重なる部分を引いた長さ等であってもよい。
(I)t:対象としている文字列要素である楕円(Sk)の中心を通り、傾きθk + π/2 である直線の、楕円と重なる長さ(tk)
(II)θ:対象としている文字列要素である楕円(Sk)の中心座標と、前にある文字列要素である楕円(Sk−1)の中心座標を結ぶ線の傾き(θk)
(III)p:対象としている文字列要素である楕円(Sk)の中心座標と、前にある文字列要素である楕円(Sk−1)の中心座標との距離から、互いの楕円に重なる部分を引いた長さ(pk)
このほかに、例えば、tとして、楕円の長径、短径、長径×短径、面積等であってもよいし、θとして、楕円の右端間の傾き等であってもよいし、pとして、中心座標間の距離等であってもよい。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
文字列追跡は、まず開始文字列要素を受け付け、その開始文字列要素に対して、準文字のセットを参照しながら、文字列を検出する処理の繰り返しで構成される。
文字列要素保持モジュール150は、文字列要素予測モジュール110、文字列要素修正モジュール130、終端処理モジュール160と接続されている。文字列要素保持モジュール150は、文字列要素修正モジュール130によって修正された文字列要素に関する情報を保持している。
なお、繰り返し処理において、同一の準文字を重複して検出するために処理が終了しないことを防ぐため、検出済みであることを示す情報を準文字保持モジュール140内の準文字に付加する(準文字の更新142処理)。続いて、他の文字列の検出を行う場合、終端処理モジュール160において検出済みの情報を初期化する。
文字列の出力として、例えば、その文字列に関する情報を、メモリーカード等の記憶媒体に記憶させること、他の情報処理装置(例えば、文字認識装置等)へ渡すことの他に、画像から文字列だけを取り出して、ディスプレイ等の表示装置に表示すること、ファックス等の画像送信装置で画像を送信すること、画像データベース等の画像記憶装置へ画像を書き込むこと等をしてもよい。
ステップS802では、文字列要素予測モジュール110が、s0を受け付ける。
ステップS804では、文字列要素予測モジュール110が、変数kに0を代入する。
ステップS806では、文字列要素予測モジュール110が、skから
ステップS808では、文字列要素検出モジュール120が、
ステップS810では、文字列要素検出モジュール120が、s’k+1が検出されたか否かを判断し、検出された場合はステップS812へ進み、それ以外の場合はステップS816へ進む。
ステップS812では、文字列要素修正モジュール130が、s’k+1からsk+1を修正する。
ステップS814では、文字列要素修正モジュール130が、変数kに変数k+1を代入する。つまり、変数kをインクリメントする。
ステップS816では、終端処理モジュール160が、{s0,…,sk}{s’0,…,s’k}を出力する。
図9は、文字列要素の予測処理の例を示す説明図である。
図10は、文字列要素の検出処理の例を示す説明図である。
図11は、文字列要素の修正処理の例を示す説明図である。
図9−11において、skは直前に得られた文字列要素である。
また、
また、s’k+1は、検出された文字列要素である。
また、sk+1は、過去に得られた文字列要素に基づいて文字列を推定し、これに基づいてs’k+1を修正することで得られる文字列要素である。
なお、図9−11の例を用いた説明は、文字列要素を楕円とした図7の例の場合であるが、文字列要素を矩形とした図6の場合も同様である。
まず、
次に、skの位置と、
まず、
また、文字列要素検出モジュール120において、文字列要素が検出されない場合又は差分値が予め定められた値よりも大きい又は以上である場合の発生回数が、予め定めた回数をこえた場合又は以上となった場合に、処理を終了する構成でもよい。
図1の例に示す第1の実施の形態における、文字列要素予測モジュール110、文字列要素検出モジュール120、文字列要素修正モジュール130による文字列のサイズと形状の推定を、逐次計算により行う例を示す。
文字列のサイズと形状の推定は、過去に得られたすべての文字列要素を利用して、回帰演算を行うことで実現される。しかし、以下のように逐次演算で実装すれば、メモリ容量と計算速度の改善が図れる。
以下に示す逐次演算では、推定したい値x(すなわち、t、θ、pのいずれか)に対応する分散情報Pを逐次保持・更新する。これは、狭義のカルマンフィルタ(Greg Welch, Gary BishopAurelie, “An Introduction to the Kalman Filter, ” 2006.)に相当する。なお、Q、Rは、推定したい値xに関する誤差の分散情報であり、予め定められた値である。
まず、文字列要素予測モジュール110において、以下の計算((6)式、(7)式)を行う。
図12は、第2の実施の形態の構成例についての概念的なモジュール構成図である。
第2の実施の形態は、文字列追跡処理の往復により開始文字列要素を求めるものであり、図12の例に示すように、文字列要素予測モジュール110、文字列要素検出モジュール120、文字列要素修正モジュール130、準文字保持モジュール140、文字列要素保持モジュール150、終端処理モジュール160、往復モジュール1270を有している。なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する(以下、同様)。
文字列追跡の目的から、文字列内の最初の文字列要素は文字列の端部であることが望ましい。第2の実施の形態は、文字列の端部である文字列要素の検出を、往復処理によって行う。つまり、第2の実施の形態による処理の概要は、第1の実施の形態で終了条件を満たした場合は、逆方向に文字列追跡を行い、その後に終了条件を満たした場合はそこが端部であるとするものである。また、往復処理は複数回繰り返してもよい。
終端処理モジュール160は、文字列要素検出モジュール120、準文字保持モジュール140、文字列要素保持モジュール150、往復モジュール1270と接続されている。
往復モジュール1270は、文字列要素予測モジュール110、終端処理モジュール160と接続されている。往復モジュール1270は、終端処理モジュール160によって、1つの文字列に対する文字列追跡処理が終了したと判断された場合(終端処理モジュール160が文字列162を往復モジュール1270に出力した場合)に、その文字列追跡処理の最後に検出された文字列要素(終点の文字列要素)を最初の文字列要素とする。そして、文字列追跡の方向を反転する。つまり、再度、逆方向に文字列追跡処理を行うようにするために、その最初の文字列要素を文字列要素予測モジュール110に渡し、文字列要素予測モジュール110が予測する文字列要素の方向を、それまでの文字列追跡の方向と逆方向にする。そして、第1の実施の形態と同様に、文字列要素予測モジュール110、文字列要素検出モジュール120、文字列要素修正モジュール130による処理を繰り返す。そして、次に終端処理モジュール160によって、その文字列の端部まで文字列追跡処理が終了したと判断された場合は、文字列1272を出力する。また、この往復処理を複数回繰り返すようにしてもよい。予め定められた回数であってもよいし、前回の端部が同じ位置である場合(前回の端部と今回の端部との間隔が予め定められた距離以内又は未満である場合であってもよい)に、往復処理を終了するようにしてもよい。そして、最後に受け取った文字列162を文字列1272として出力する。
図13は、第3の実施の形態の構成例についての概念的なモジュール構成図である。第3の実施の形態は、文字列追跡によって、文字列を検出する文字列切り出し装置であって、図13の例に示すように、準文字作成モジュール1310、開始文字列要素作成モジュール1320、文字列追跡モジュール1330、準文字保持モジュール1340を有している。
準文字保持モジュール1340は、準文字作成モジュール1310、開始文字列要素作成モジュール1320、文字列追跡モジュール1330と接続されている。準文字保持モジュール1340は、準文字作成モジュール1310が作成した準文字1314を記憶している。そして、開始文字列要素作成モジュール1320、文字列追跡モジュール1330からアクセスされる。
文字列追跡モジュール1330は、開始文字列要素作成モジュール1320、準文字保持モジュール1340と接続されている。文字列追跡モジュール1330は、前述の第1の実施の形態又は第2の実施の形態である。つまり、開始文字列要素1322を受け取って、準文字保持モジュール1340内の準文字1314に基づいて、文字列1332を出力する。
ステップS1402では、準文字作成モジュール1310が、準文字リストを作成する。
ステップS1404では、開始文字列要素作成モジュール1320が、準文字からs0を作成する。
ステップS1406では、開始文字列要素作成モジュール1320が、s0が作成されたか否かを判断し、作成された場合はステップS1408へ進み、それ以外の場合は処理を終了する(ステップS1499)。
ステップS1408では、文字列追跡モジュール1330が、文字列追跡の処理を行う。
ステップS1410では、文字列追跡モジュール1330が、文字列が切り出されたか否かを判断し、切り出された場合はステップS1412へ進み、それ以外の場合はステップSステップS1406からの処理を行う。
ステップS1412では、文字列追跡モジュール1330が、文字列を出力する。
図15は、第4の実施の形態の構成例についての概念的なモジュール構成図である。第4の実施の形態は、複数の文字列を抽出し、その中から文字列を選択するものであって、図15の例に示すように、準文字作成モジュール1510、開始文字列要素作成モジュール1520、開始文字列要素保持モジュール1530、文字列追跡モジュール1540、文字列保持モジュール1550、文字列選択モジュール1560、準文字保持モジュール1570を有している。
前述の実施の形態では、文字列の検出の精度は、初期値である予測文字列要素に依存する。そこで、複数の開始文字列要素を作成し、各々の開始文字列要素から検出される複数の文字列から、文字列にふさわしいものを選択する。
準文字保持モジュール1570は、準文字作成モジュール1510、開始文字列要素作成モジュール1520、文字列追跡モジュール1540と接続されている。準文字保持モジュール1570は、第3の実施の形態の準文字保持モジュール1340と同等のものである。
開始文字列要素作成モジュール1520は、準文字作成モジュール1510、開始文字列要素保持モジュール1530、準文字保持モジュール1570と接続されている。開始文字列要素作成モジュール1520は、第3の実施の形態の開始文字列要素作成モジュール1320と同等のものである。ただし、複数の開始文字列要素1522を作成し、開始文字列要素保持モジュール1530に記憶させる。複数の最初の文字列要素を作成するために、準文字1514をランダムに選択するようにしてもよいし、予め定められた規則(例えば、左端から順に準文字1514を選択する等)にしたがって選択するようにしてもうよい。
文字列追跡モジュール1540は、開始文字列要素保持モジュール1530、文字列保持モジュール1550、準文字保持モジュール1570と接続されている。文字列追跡モジュール1540は、前述の第1の実施の形態又は第2の実施の形態である。つまり、開始文字列要素保持モジュール1530から開始文字列要素1532を取り出して、準文字保持モジュール1570内の準文字1514に基づいて、開始文字列要素1532毎に文字列1542を生成し、その複数の文字列1542を文字列保持モジュール1550に記憶させる。
文字列保持モジュール1550は、文字列追跡モジュール1540、文字列選択モジュール1560と接続されている。文字列保持モジュール1550は、複数の文字列1542を記憶する。
文字列選択モジュール1560は、文字列保持モジュール1550と接続されている。文字列選択モジュール1560は、文字列保持モジュール1550内の複数の文字列1542から文字列としてふさわしいものを選択する。例えば、同じ文字列要素が含まれている文字列があるか否かを判断し、同じ文字列要素が含まれている文字列がある場合は、以下の文字列を選択する。例えば、他の文字列の長さと比較して、文字列の長さが長いものを選択するようにしてもよい。また、他の文字列の曲り具合(θの変化度合いの加算)を比較して、歪曲していない文字列を選択するようにしてもよい。また、他の文字列と平行しているものを選択するようにしてもよい。
図16は、第5の実施の形態の構成例についての概念的なモジュール構成図である。第5の実施の形態は、複数の文字列を検出するものであって、図16の例に示すように、文字列切り出しモジュール1610、準文字更新モジュール1620を有している。
準文字更新モジュール1620は、文字列切り出しモジュール1610と接続されている。準文字更新モジュール1620は、検出された文字列1612に含まれる準文字について、検出済みの情報を付与する。
ステップS1702では、文字列切り出しモジュール1610が、準文字リストを作成する。
ステップS1704では、文字列切り出しモジュール1610が、準文字からs0を作成する。
ステップS1706では、文字列切り出しモジュール1610が、s0が作成されたか否かを判断し、作成された場合はステップS1708へ進み、それ以外の場合は処理を終了する(ステップS1799)。
ステップS1708では、文字列切り出しモジュール1610が、文字列追跡の処理を行う。
ステップS1710では、文字列切り出しモジュール1610が、文字列が切り出されたか否かを判断し、切り出された場合はステップS1712へ進み、それ以外の場合はステップS1706からの処理を行う。
ステップS1712では、文字列切り出しモジュール1610が、文字列を保持する。
ステップS1714では、準文字更新モジュール1620が、準文字リストから、文字列に含まれる準文字を除去する。
図18は、第6の実施の形態の構成例についての概念的なモジュール構成図である。第6の実施の形態は、検出のパラメータを更新するものであって、図18の例に示すように、複数文字列切り出しモジュール1810、変数更新モジュール1820、変数保持モジュール1830を有している。
第6の実施の形態は、貪欲アルゴリズムによって、文書画像に含まれる文字列を検出するものである。貪欲アルゴリズムとは、準文字を検出するたびに、この準文字を検出の対象から除外するアプローチである。貪欲アルゴリズムによれば、参照すべき対象が順次減少する。
このとき、検出対象の文字列のパラメータが、予め定められた値の付近であるものを優先して検出することにより、検出の精度が安定する場合がある。例えば、単文字どうしがより近接しているものが、より文字列らしい、と仮定する条件下では、文字列要素どうしの間隔が小さなものから優先して検出・除外する構成にする。
変数保持モジュール1830は、複数文字列切り出しモジュール1810、変数更新モジュール1820と接続されている。変数保持モジュール1830は、前述のパラメータを保持しており、変数更新モジュール1820によって、そのパラメータが更新され、複数文字列切り出しモジュール1810によってアクセスされる。
Pとは、パラメータを表す。
Init()とは、パラメータを初期化する関数を表す。
Update(P)とは、パラメータPを更新する関数を表す。
Continue(P)とは、パラメータPが終了条件を満たすことを判別する関数を表す。
例えば、パラメータPを文字列要素どうしの距離である場合、最小のパラメータPをInit()により決定し、微分値を加算する処理をUpdate(P)により行い、Continue(P)において、パラメータPが予め定められた値に達することを判別する。
ステップS1904では、変数更新モジュール1820が、Continue(P)か否かを判断し、その通りであればステップS1906へ進み、それ以外の場合は処理を終了する(ステップS1999)。
ステップS1906では、複数文字列切り出しモジュール1810が、複数文字列を切り出す。
ステップS1908では、変数更新モジュール1820が、パラメータPにUpdate(P)を代入する。
図20は、第7の実施の形態の構成例についての概念的なモジュール構成図である。第7の実施の形態は、文字列を切り出して、文字認識処理を行うものであって、図20の例に示すように、複数文字列切り出しモジュール2010、文字列認識モジュール2020を有している。
文字列認識モジュール2020は、複数文字列切り出しモジュール2010と接続されている。文字列認識モジュール2020は、文字列2012の画像を認識して、文字認識結果2022を出力する。文字認識は、既存の方式を用いればよい。
なお、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…文字列要素検出モジュール
130…文字列要素修正モジュール
140…準文字保持モジュール
150…文字列要素保持モジュール
160…終端処理モジュール
1270…往復モジュール
1310…準文字作成モジュール
1320…開始文字列要素作成モジュール
1330…文字列追跡モジュール
1340…準文字保持モジュール
1510…準文字作成モジュール
1520…開始文字列要素作成モジュール
1530…開始文字列要素保持モジュール
1540…文字列追跡モジュール
1550…文字列保持モジュール
1560…文字列選択モジュール
1570…準文字保持モジュール
1610…文字列切り出しモジュール
1620…準文字更新モジュール
1810…複数文字列切り出しモジュール
1820…変数更新モジュール
1830…変数保持モジュール
2010…複数文字列切り出しモジュール
2020…文字列認識モジュール
Claims (5)
- 画像内の第1の文字列要素に関する情報として、該第1の文字列要素の大きさ、該第1の文字列要素の前にある文字列要素である前文字列要素から該第1の文字列要素への方向、該前文字列要素から該第1の文字列要素までの距離、を受け付ける受付手段と、
前記受付手段によって受け付けられた第1の文字列要素に関する情報に基づいて、該第1の文字列要素に続く第2の文字列要素を予測する予測手段と、
前記予測手段によって予測された第2の文字列要素に基づいて、前記画像内の第2の文字列要素を検出する検出手段と、
過去の文字列要素に関する情報に基づいて、前記検出手段によって検出された第2の文字列要素に関する情報を修正する修正手段と、
前記修正手段によって修正された前記第2の文字列要素を次の第1の文字列要素として、前記受付手段が受け付けるように制御し、前記予測手段、前記検出手段、前記修正手段による処理を繰り返して行わせるように制御する制御手段
を具備し、
前記検出手段は、文字列要素どうしの距離が小さいものから優先して検出する
ことを特徴とする画像処理装置。 - 前記受付手段は、第1の文字列要素に関する情報として、前文字列要素から第1の文字列要素への方向の微分値をさらに受け付け、
前記予測手段は、さらに前記受付手段によって受け付けられた方向の微分値に基づいて、第2の文字列要素を予測する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記制御手段は、前記検出手段が第2の文字列要素を検出できなかった場合、又は、前記検出手段によって検出された第2の文字列要素に関する情報と前記予測手段によって予測された第2の文字列要素に関する情報との差分が予め定められた値よりも大きい又は以上である場合は、前記繰り返し処理を終了させるように制御する
ことを特徴とする請求項1又は2に記載の画像処理装置。 - 前記制御手段は、前記検出手段が第2の文字列要素を検出できなかった場合、又は、前記検出手段によって検出された第2の文字列要素に関する情報と前記予測手段によって予測された第2の文字列要素に関する情報との差分が予め定められた値よりも大きい又は以上である場合は、終点の文字列要素から逆方向に始点の文字列要素までの文字列要素について、前記受付手段、前記予測手段、前記検出手段、前記修正手段による処理を繰り返して行わせるように制御する
ことを特徴とする請求項1又は2に記載の画像処理装置。 - コンピュータを、
画像内の第1の文字列要素に関する情報として、該第1の文字列要素の大きさ、該第1の文字列要素の前にある文字列要素である前文字列要素から該第1の文字列要素への方向、該前文字列要素から該第1の文字列要素までの距離、を受け付ける受付手段と、
前記受付手段によって受け付けられた第1の文字列要素に関する情報に基づいて、該第1の文字列要素に続く第2の文字列要素を予測する予測手段と、
前記予測手段によって予測された第2の文字列要素に基づいて、前記画像内の第2の文字列要素を検出する検出手段と、
過去の文字列要素に関する情報に基づいて、前記検出手段によって検出された第2の文字列要素に関する情報を修正する修正手段と、
前記修正手段によって修正された前記第2の文字列要素を次の第1の文字列要素として、前記受付手段が受け付けるように制御し、前記予測手段、前記検出手段、前記修正手段による処理を繰り返して行わせるように制御する制御手段
として機能させ、
前記検出手段は、文字列要素どうしの距離が小さいものから優先して検出する
ことを特徴とする画像処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011184591A JP5845724B2 (ja) | 2011-08-26 | 2011-08-26 | 画像処理装置及び画像処理プログラム |
US13/351,755 US20130051688A1 (en) | 2011-08-26 | 2012-01-17 | Image processing apparatus, non-transitory computer readable medium storing image processing program, and image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011184591A JP5845724B2 (ja) | 2011-08-26 | 2011-08-26 | 画像処理装置及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013045389A JP2013045389A (ja) | 2013-03-04 |
JP5845724B2 true JP5845724B2 (ja) | 2016-01-20 |
Family
ID=47743824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011184591A Active JP5845724B2 (ja) | 2011-08-26 | 2011-08-26 | 画像処理装置及び画像処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130051688A1 (ja) |
JP (1) | JP5845724B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11134170B2 (en) * | 2017-12-15 | 2021-09-28 | Hewlett-Packard Development Company, L.P. | Correction of feed skewed images |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0269885A (ja) * | 1988-09-05 | 1990-03-08 | Oki Electric Ind Co Ltd | 文字列抽出装置 |
US6628837B1 (en) * | 2000-05-19 | 2003-09-30 | Xerox Corporation | Assist channel coding with convolution coding |
AU2003900865A0 (en) * | 2003-02-26 | 2003-03-13 | Silverbrook Research Pty Ltd | Methods, systems and apparatus (NPW010) |
JP2006277151A (ja) * | 2005-03-28 | 2006-10-12 | Fuji Xerox Co Ltd | 文字列画像切出装置、文字列画像切出方法およびプログラム |
JP4424309B2 (ja) * | 2006-01-23 | 2010-03-03 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、文字判定プログラム、および文字判定方法 |
JP4549400B2 (ja) * | 2008-03-04 | 2010-09-22 | 富士通株式会社 | 文書認識プログラム、文書認識装置、および文書認識方法 |
-
2011
- 2011-08-26 JP JP2011184591A patent/JP5845724B2/ja active Active
-
2012
- 2012-01-17 US US13/351,755 patent/US20130051688A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20130051688A1 (en) | 2013-02-28 |
JP2013045389A (ja) | 2013-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10229346B1 (en) | Learning method, learning device for detecting object using edge image and testing method, testing device using the same | |
EP3620956B1 (en) | Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same | |
US10769473B2 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium | |
US9213910B2 (en) | Reinforcement learning approach to character level segmentation of license plate images | |
JP5713790B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US8934676B2 (en) | Robust character segmentation for license plate images | |
US10467749B2 (en) | Method and system for processing an image comprising spots in nucleic acid sequencing | |
JP6075190B2 (ja) | 画像処理方法及び装置 | |
JP5357612B2 (ja) | 下線除去装置 | |
US8515175B2 (en) | Storage medium, apparatus and method for recognizing characters in a document image using document recognition | |
JP5845724B2 (ja) | 画像処理装置及び画像処理プログラム | |
KR101548455B1 (ko) | 객체 영역 추출 방법 및 그 장치 | |
CN113761968A (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
JP5724341B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5991076B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5489894B2 (ja) | 画像処理装置及び画像処理プログラム | |
CN113378707A (zh) | 对象识别方法及装置 | |
JP5935324B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
CN118314336B (zh) | 一种基于梯度方向的异源图像目标定位方法 | |
CN118447279A (zh) | 一种基于surf的特征点匹配及筛选方法和装置 | |
JP5039449B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5821648B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2019200527A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20220093794A (ko) | 관심영역 이미지 추출장치 및 이를 포함하는 로봇 프로세스 자동화 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5845724 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |