[go: up one dir, main page]

JP2006501554A - 学習サンプルおよび/またはテストサンプルの作成方法 - Google Patents

学習サンプルおよび/またはテストサンプルの作成方法 Download PDF

Info

Publication number
JP2006501554A
JP2006501554A JP2004540495A JP2004540495A JP2006501554A JP 2006501554 A JP2006501554 A JP 2006501554A JP 2004540495 A JP2004540495 A JP 2004540495A JP 2004540495 A JP2004540495 A JP 2004540495A JP 2006501554 A JP2006501554 A JP 2006501554A
Authority
JP
Japan
Prior art keywords
sample
symbol
target information
image
copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004540495A
Other languages
English (en)
Inventor
ミレツキー ウド
リントヴルム ライナー
ギアツェウスキー ゲアト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2006501554A publication Critical patent/JP2006501554A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Sorting Of Articles (AREA)
  • Character Input (AREA)

Abstract

本発明の方法では、まず符号化された形式の目標情報が、記号、単語、送付物ラベルまたは送付物ラベルを含む送付物表面全体の任意のオブジェクト画像の意味内容および必要なレイアウトが完全に記述されているサンプル要素として適応タスクにしたがって設定される。次に設定された目標情報に対応するサンプル要素のコピーがドキュメントに関連するフォントライブラリおよびオブジェクト画像ライブラリから設定されたフォントタイプおよび言語に対して形成され、目標情報に対応して形成されたコピーがサンプル用のピクセル表現で記憶される。続いて先行のステップで形成されたサンプル要素のコピーがそれ自体周知の画像処理アルゴリズムにより変形され、適応タスクに基づくテスト送付物の選択、テスト送付物からテストサンプルへのまとめ上げおよびその処理の際に印刷および/または読み取りおよび/またはレイアウトおよび/または紙特性および/またはピクセル表現に関して発生する現実に即した統計的変動がシミュレーションにより形成され、目標情報に対応するバリアントがサンプル用のピクセル表現で記憶される。

Description

本発明はアダプティブクラシフィケータを備えた送付物のアドレスラベル自動読取機を最適化するための学習サンプルおよび/またはテストサンプルの作成方法に関する。
アドレスラベル自動読取機で行われる処理ステップ、例えば記号認識、単語認識、字体認識などの大部分はアダプティブクラシフィケーションプロセスに基づいている。全てのアダプティブプロセスに共通する基本方式は、前もって収集されたパターンを学習し、その特性を量子化可能な特徴またはフィーチャのセットとしてマッピングすることである。ここからさらなるフローにおいてクラス属性が結論される。つまりアダプティブプロセスには、基本的に
a)学習およびテストから成る最適化フェーズ
b)可能フェーズ(Kannphase)
の2つの作業フェーズが存在する。
最適化フェーズ中は、タスクごとに、記号、単語またはアドレスから成る1つのパターンのあらゆる特徴セットに対してその意味を目標情報の形式で付加し、クラシフィケーションシステムの決定量を最適に調整しなければならない。システムが最適なパラメータの調整を志向するこのフェーズは有利には2段階で進行する。すなわち学習フェーズでパラメータの基本設定が行われ、テストフェーズでパラメータの微調整が行われるのである。可能フェーズではさらにパターンの特徴セットが必要となり、このセットから記憶されているパラメータに応じてクラシフィケーションシステムによりクラス属性が導出される。
クラシフィケーションシステムの実現のための最大の技術開発コストは学習フェーズおよびテストフェーズにかかるので、これらをさらに2つのメインアクティビティへ分割する。まず識別タスクを充分に良好に表すサンプルを準備しなければならない。そののちクラシフィケーション本来の適応化を行う。これはクラシフィケーションのメソッドおよびクラシフィケータのデザインに応じて、基礎となる決定量の最適化、例えば多項式クラシフィケータでのクラシフィケータ係数の最適化、ニューラルネットでの重み係数の最適化、またはネイバークラシフィケータでの最良効率の参照ベクトルの選択に集約される。
一般に定義された数学的手法および最適化プロセスに基づいているために学習フェーズおよびテストフェーズの第2の局面が自動で進行可能であるのに対して、第1の局面には計画・再検査・監視などの作業への高いコストがかかり、アダプティブプロセスのボトルネックとなることも稀ではない。
サンプルをまとめ上げるために、従来技術によれば、現場で大量の送付物(ライフメール)が収集され、いわゆるラベルによって目標情報(ラベルの意味、レイアウトデータなど)が手動で付されている。つまりここでは画像から、失われてしまった元の目標情報または意味を推論によって求めなければならない(Juergen Schuermann: Pattern Classification, Verlag: John Wiley & Sons, Inc., 1995, "Introduction Learning", p.17-21を参照)。
サンプルをまとめ上げる過程は種々の理由から自動認識に決定的な意義を有する。なぜならその品質がアダプティブクラシフィケーションシステムの能力に直接に影響するからである。サンプルが当該の読取タスクを充分に良好に反映していれば、可能フェーズにおいても、生じたパターンの広いスペクトルにわたって充分な読取能力が得られる。サンプルの選択範囲が狭いと、可能フェーズにおいて制限されたスペクトルでのパフォーマンスしか期待できず、生じたパターンの残りの部分については予測された能力が得られない。充分な包括性を有するサンプルのこうした様相は数学的統計に由来するサンプルの代表性の概念に直接に結びついている。
高品質かつ代表性を有するサンプルを得るためには一連の基準が満たされなければならない。良好な学習サンプルまたはテストサンプルの前提となるのは、パターンクラスの学習すべき形状の全てが充分に存在することである。しかしこれは容易に満足される条件ではない。なぜなら通常、タスクは識別タスク全体の一部でしかない1つの専門分野に基づいて設定されるからである。例えば送付物識別の分野でクラシフィケータを適応化する時点では、全スペクトルのうち限定された一部のみのフォント(書式)または印刷技術が優位にある。しかし時間が経てば他のフォントや印刷技術が前面に現れてきて、そちらを充分に良好に識別しなければならなくなるかもしれない。こうした様相は技術の使用される国ごとにさまざまに異なっている。技術的先進国では中進国とは全く異なるフォントやプリンタまたはワードプロセッサが使用されることもある。したがって全体を見通したサンプルの作成とできるだけ広いベースでのパターン形成とが要求される。
送付物の分野ではこれまで、特殊なタスク、つまりドイツ語にあまり登場しないアルファベット“Q”や珍しい社名ロゴなどについては基本的に満足な見本が見出されないことが多かった。なるほどこの分野のカテゴリは迅速に形式化され、相応のアルゴリズムが開発されている。ただしこれらは高い記述能で判別できないことも多い。なぜならサンプルを既存のストックから選別する際にそもそも必要なクラスの見本が充分に含まれないことがあるからである。
次にパターンに対応する真の意味を合致させなければならない。アダプティブシステムはパターンへのクラス分類の誤りを被ることがきわめて多く、その場合には可能フェーズで相応のパターンが提示されても判別誤りが増大する。アダプティブシステムは人間がシステムに提示したものであれば、誤っていてもそれを学習してしまう。学習サンプルまたはテストサンプルでの識別誤りが小さくなるにつれて、開発されるクラシフィケーションシステムの能力も向上する。
特徴セットの形成に直接に関連する別の様相もある。通常は特徴セットは既存の読取ソフトウェア内に含まれている識別アルゴリズムによって形成される。なぜならたいてい範囲が厖大であり(例えば記号認識では1つの記号あたり数千例が相当する)、特徴をできるだけ現実に沿うようにしたいからである。ただし既存のアルゴリズムではエラーがほぼ不可避である。例えば記号をセグメント化する際に誤ったセグメントが生じ、記号の一部しか含まれなかったり2つ以上の記号が含まれたりする。この場合にはクラシフィケーションシステムが本格的に誤った方向へ導かれるので、適応化に全く無関係の障害情報のみしか得られなくなってしまう。
パターン認識プロセスにおいてはさらに、可視的に判別ないし検出できず、全体を統計的に処理しなければならない一連の処理ステップが存在する。例えば、バイナリ化による量子化効果、多色紙によるコントラストの変動、スキャナおよびプリンタにおける種々の解像度アルゴリズムおよびラスタアルゴリズムによる丸め効果、機器の経年劣化およびメンテナンス状態によるスキャニング品質または印刷品質の変動などが挙げられる。
従来技術の送付物のアドレスラベル自動読取機の最適化には前述のような問題点があり、高いコストがかかる。
したがって本発明の課題は、アダプティブクラシフィケータを備えた送付物のアドレスラベル自動読取機を最適化するための学習サンプルおよび/またはテストサンプルの作成方法を提供し、僅かな時間的コストおよび人的コストでサンプルを取得し、これを問題なくそのつどのクラシフィケーションタスクへ適合化できるようにすることである。
この課題は請求項1に記載の特徴を有する方法により解決される。
本発明の方法は、符号化された形式の目標情報を記号、単語、送付物ラベルまたは送付物ラベルを含む送付物表面全体の任意のオブジェクト画像の意味内容および必要なレイアウトが完全に記述されているサンプル要素として適応タスクにしたがって設定し、設定された目標情報に対応するサンプル要素のコピーをドキュメントに関連するフォントライブラリおよびオブジェクト画像ライブラリから設定されたフォントタイプおよび言語に対して形成し、目標情報に対応して形成されたコピーをサンプル用のピクセル表現で記憶し、先行のステップで形成されたサンプル要素のコピーをそれ自体周知の画像処理アルゴリズムにより変形し、適応タスクに基づくテスト送付物の選択、テスト送付物からテストサンプルへのまとめ上げおよびその処理の際に印刷および/または読み取りおよび/または送付物コピーのレイアウトおよび/または紙特性および/または送付物画像のピクセル表現に関して発生する現実に即した統計的変動をシミュレーションにより形成し、目標情報に対応するバリアントをサンプル用のピクセル表現で記憶することを特徴とする。
学習サンプルの要素またはテストサンプルの要素の画像オブジェクト、テキスト、ジオメトリの完全な記述である目標情報から学習サンプルの作成がトリガされる。これまでユーザ側でたいへんな手間をかけて行われていた対象となるサンプル送付物の収集やスキャニング、バリアントのモデリングをともなう紙の中間担体のラベリングなどを完全に省略することができる。学習サンプル要素はつねに真の意味を表し、ラベリングエラーを生じない。これにより最大の学習効果が得られる。
本発明の有利な実施形態は従属請求項に記載されている。
有利には、ポリゴン記述のフォントとして存在する記号画像がラスタリングされ、適切なピクセルフォーマットへ変換される。
また有利には、ポリゴン記述による記号画像を多数回ラスタリングすることにより、ピクセル表現でのバリアントを形成し、サンプルとして記憶することができる。
用紙に関連するサンプルのリアルなシミュレーションを得るために、記号、単語または送付物ラベルのコピーを変形する際には、送付物ラベルを従来のように印刷したり光学的に走査したりする際の障害プロセスおよび劣化プロセスや用紙品質のばらつきがシミュレートされる。
記号のコピーを変形するための記号のサイズの変更、記号の傾きの変更および記号のディストーションは、有利にはポリゴン表現で行われる。
また有利には、単語または送付物ラベルのコピーを変形する場合には、メトリック、ラインの傾き、ポイントノイズが変更される。
ラベルを有する送付物の表面のコピーを作成するために、有利にはオブジェクト画像ライブラリに格納されているオブジェクト画像へのアクセスが行われる。
以下に本発明を図示の実施例に則して詳細に説明する。図1にはサンプルを作成する手段の構造が示されている。図2には記号のサンプルを作成する方法のフローチャートが示されている。図3には単語のサンプルを作成する方法のフローチャートが示されている。図4にはアドレスのサンプルを作成する方法のフローチャートが示されている。
本発明の手段によれば、
a)タスクの設定に必要な多様な形状/タイプへの対応
b)タスクの設定に必要な多様なレイアウトへの対応
c)エラーフリーの目標識別子の付与
d)排他的な有効特徴セットの作成
e)適用分野に典型的な特徴バリアントのアルゴリズムシミュレーション
などの高品質の学習サンプルまたはテストサンプルへの要求が満足される。
これにより通常の中間担体としての紙、またこれに関連してスキャナおよびプリンタを省略することができる。最終的には人間がサンプルを形成する手間が著しく軽減される。
送付物またはその他のドキュメントの分野では、図1に示されているように4つの出力量が考察される。これは目標情報1、フォントプール2、オブジェクト画像プール3および画像処理アルゴリズムプール7である。ここでフォントプール2、オブジェクト画像プール3および画像処理アルゴリズムプール7は市販またはライセンスフリーで入手可能な製品またはアルゴリズムである。目標情報1は性質上単語レベルからメーカ内部のものである。なぜならこれは例外なくタスクごとにフレキシブルに実現しなければならないからである。
フォントプール2は種々のフォーマット(PostScript Type1, Truetype, Metafont, IK, ...)および種々の言語(ラテン語,ギリシア語,キリル語,アラビア語,ヒンドゥー語,...)での数百のフォント(Arial, Times, Univers, ...)を備えた種々のフォントライブラリの集合から成っており、例えば記号サンプル、単語サンプルまたはテキストサンプルの多様な形状およびタイプを保証している。各フォントライブラリは、少なくとも、アウトライン記述された状態または直接にラスタ化された状態で格納された記号形状2.1の集合と、実際のテキスト画像を作成する際に重要な例えばスペース、アンダライン、ハイフネーションなどのセット情報を含むフォントメトリック2.2とから成る。
目標情報1はメインアプリケーション領域、すなわち記号サンプル8、単語サンプル9、送付物/ドキュメントサンプル10を考慮した少なくとも3つの異なる目標情報タイプを含む。目標情報は2つの観点で利用される。まず第1には単語画像、送付物画像またはドキュメント画像などの複雑な画像を形成するため、第2には固有の目標識別子の割り当てのためである。目標識別子は学習サンプルまたはテストサンプルでの適応化およびテストに用いられる。第1に所定のフォントの記号を要求可能な記号コードの情報が存在する。これは目標情報(真の意味)として用いられ、記号画像によって個々の記号に対する学習サンプル要素4が形成される。第2に単語情報が存在し、これは最も簡単な実施例では作成すべき単語の純粋なASCIIリストである。このリストは一方では記号画像の形成に必要な記号コードのベクトル量を、他方では単語画像5に対する目標識別子情報を制御する。第3にドキュメントに関与する要素の全てのテキストおよびレイアウト情報、すなわち純粋なテキスト情報およびジオメトリ情報、例えば記号、ライン、オブジェクト画像などが存在する。レイアウト情報が充分に精細であり、全てのオブジェクトが検出されると、これらのオブジェクトを画像として任意に構成し、各観察面に合わせて識別能を設定してテストすることができる。この手段によれば、識別タスクに対して基本的に可能であるはずなのにプロセスから導出されるテストデッキにおいて発見できない学習サンプルまたはテストサンプルを形成することができる。このようにして従来は実現不能であったカバーグレードの機能テストセットも実現することができる。
オブジェクト画像プール3はフォントライブラリから取得できない基本的なオブジェクト画像の全てを結合するために用いられる。オブジェクト画像プール3は切手、エアメールマークまたは書留マークなどのオブジェクト画像のプールであってもよいし、回路技術またはセキュリティ符号などの全く別の分野の基本的なオブジェクト画像のライブラリであってもよい。このようなオブジェクト画像プールを用いることにより、任意の送付物またはドキュメントの版下を作成することができる。
画像作成が直接に目標情報の割り当てに結びついていることにより、目標情報が自動的に正確になることが自然に保証される。学習サンプルまたはテストサンプルを作成する際に不充分な識別アルゴリズムのために不可避的に発生し、消去の困難な厖大な量のセグメントごみをもたらしていたエラーは本発明の新たな手段によれば生じない。
前述の出力量とこれに関連する学習サンプルまたはテストサンプルの作成プロセスとにより、先に挙げた5つの条件のうちはじめの4つが考慮される。最後の出力量、すなわち画像処理アルゴリズムプール7は5つめの条件に相当する。このプールには2つの主な役割
1.画像オブジェクトのラスタリング(ポリゴン記述)
2.画像オブジェクトに対するバリアント形成
がある。
画像オブジェクトという概念には単純な画像オブジェクトも複雑な画像オブジェクトも含まれる。単純な画像オブジェクトとは例えば直接にフォントデータから得られる記号画像であると理解されたい。こうした単純な画像オブジェクトがサンプルの所望の要素である場合には、ラスタリングは周知のコンパクトなピクセルフォーマットpk,bdf,sgmlのいずれかで行われる。これに対して複雑な画像オブジェクトとは、単語、送付物情報または任意のドキュメント情報を含む全ての画像のことである。こうした画像は個々の要素を予め一般的な画像フォーマット(例えばTiffまたはpnmファミリーのバリアントなど)で組み合わせたものとして格納されている。
画像情報のラスタリングとは別にバリアント形成が行われる。これには2つのメインカテゴリがある。1つはデフォルメーションのための現実の識別プロセスにおいて、多様なフォントサイズ、種々に選択された動作幅(圧縮、伸長)、種々に調整されたスキャンツールおよびプリンタツールの解像度、ダイナミック効果によるフォントラインの小さな回転などにより、基本形状が著しく変動することである。もう1つは、用紙品質、用紙色、使用されるバイナリ化アルゴリズム、スキャンツールおよびプリンタツールの経年劣化およびメンテナンス状態が、処理すべき付加的な基本形状の変動の無限のソースとなるものである。変動の一方の原因がアルゴリズム手段によって問題なくシミュレート可能なシステム特性であるのに対して、他方の原因は処理が困難でアダプティブにしかシミュレートできない。変動の2つのカテゴリに対して、基本形状の見本の集合から現実に則した偏差を形成できる充分なアルゴリズムが得られるので、統計的に重要度の高い学習サンプルおよびテストサンプルのセットの要求が満足される。
バリアント形成アルゴリズムはポリゴン記述もピクセル記述も演算可能である。したがってフォント内因性の変動(例えばフォントサイズ、回転および歪みなど)はポリゴン記述に基づいて処理し、環境に依存する変動(例えば用紙品質、印刷品質およびシステムメンテナンス状態など)はピクセルごとに考慮することができる。
本来の学習サンプルおよびテストサンプル形成プロセスは所望の学習サンプルおよびテストサンプルの形式(記号、単語、送付物/ドキュメント)に依存して行われる。
最も簡単なケースは純粋な個別の記号サンプル8の作成である。これに必要なのは選択されたフォントプール2から成る記号画像2.1および記号コードの形式の所望の目標情報1のみである。目標情報は直接に所望の記号画像プールのストックの選択に必要であるが、その時点では目標情報は正確に割り当てられているので、基本的にはここではエラーは発生しない。画像処理アルゴリズムプール7から得られた所望のバリアント形成アルゴリズムは当該の記号画像に適用され、ポリゴン記述のフォントである場合にはこれを固有のピクセルフォーマットまたは既知のピクセルフォーマット(例えばbdf...)へ変換する。これによりサンプルの範囲および特性の点で現実に即し、かつタスクを定義する学習およびテストサンプルが得られる。バリアントのビューポイントが電子的に充分にシミュレートされているので、紙などの中間担体を省略し、本来の適応化やテストにただちに利用することができる。
記号のサンプル形成は次のように進行する(図2を参照)。
最初に記号目標情報がステップ11で設定される。ここでは記号範囲の定義、アルファベットの選択、フォント範囲の選択である。続いてステップ12でフォントライブラリ2から第1のフォントが取り出され、これに対して記号目標情報11から第1の記号コードがステップ13で得られ、対応する記号画像がステップ14で取り出される。ステップ15で記号画像がアウトライン記述されているか否かが問い合わされ、アウトライン記述されている場合には1回または複数回ラスタリングされ、ステップ16で記号画像のラスタリングバリアントが所望の範囲で当該の記号コードに対して形成され、ステップ17でサンプル要素が形成される。記号画像がすでにピクセル表現されている場合には、ステップ17で当該の記号コードについてサンプル要素が形成される。そののちステップ18でピクセルフォーマットによる記号画像のデグラデーション、例えばプリンタまたはスキャナの劣化や汚れのシミュレーションが所望されたか否かが問い合わされ、所望されている場合には画像処理アルゴリズムプール7からの相応のアルゴリズムを用いて当該の記号コードに対する別のサンプル要素がステップ19で形成される。
前述の各ステップは当該のフォントの別の記号コードに対して記号のストックが消尽されたことが問い合わせステップ20で確認されるまで行われる。こうしてサンプル要素がステップ24でデータとして記憶される。本発明のプロシージャは問い合わせステップ23でフォントのストックが消尽されたことが確認されるまで順次にステップ22で読み出すべき次のフォントに対して行われる。
単語のサンプル9を形成するプロシージャも同様に進行する。図3の読み出しタスクから出発して、ステップ25で単語の目標情報が例えばASCIIフォーマットで設定され、記号列として格納される。これは言語の選択、単語範囲の選択、フォント範囲の選択などである。続いて対応する記号コードを備えた記号画像とフォントライブラリから取り出されたフォントメトリックとから成る第1のフォントがステップ26で取り出される。次に第1の単語または第1の記号列がステップ27で取り出され、これに対して第1の記号コードがステップ28で取り出される。当該の記号コードに対して相応の記号画像がステップ29で割り当てられ、フォントメトリックを用いて段階的に単語画像がステップ30で形成される。これらの各ステップは問い合わせステップ31で記号列が消尽されたことが確認されるまで反復され、次の記号コードがステップ32で取り出される。この単語画像から対応する記号列によりサンプル要素がステップ33で形成される。付加的にステップ34で単語画像のデグラデーションが所望されたか否かが問い合わされ、所望されている場合には画像処理アルゴリズムプール7からの相応のアルゴリズムを用いてデグラデーションバリアントがステップ35で形成される。バリエーションを高める措置はここでは個々の記号レベルにおいても単語画像全体のレベルにおいても行うことができる。単語画像全体におけるバリエーションは例えばフォントメトリックの変動、ラインの傾き、ポイントノイズなどによって高められる。
問い合わせステップ36で単語のリストが消尽されたことが確認されるまでは、次の単語がステップ37で取り出され、前述の各ステップが反復される。そののち単語画像が対応する記号列とともにサンプル要素としてTiffまたはPostScriptなどの現行のフレームフォーマットでステップ40でデータに記憶される。問い合わせステップ38でフォントのストックが消尽されたことが確認されるまでは、次のフォントがステップ39で取り出され、前述の各ステップが反復される。こうして単語リストの全ての単語に対して前述のように別のサンプル要素が形成される。
送付物画像サンプル10の要素は複数のテキスト画像部分の集合から成る。送付物の分野ではアドレスの情報は通常、都市名、通り名、受信者名および送信者名などである。テキスト部分はステップ33の単語サンプルの単語画像に相応に形成される。アドレス画像オブジェクトのテキスト内容、位置および寸法は相応のアドレス目標情報(アドレス列範囲の定義、アドレスレイアウト範囲の定義、言語の選択、フォント範囲の選択)として定義される。テキストのセグメンテーションおよびテキスト画像のセグメンテーションが精細になるにつれて、アドレス画像全体の変動の可能性も大きくなる。これは所定のアドレス部分の探索のタスクを課すべき所望のアルゴリズムをテストする場合に特に重要である。したがって目標情報の構造ができるかぎりフレキシブルとなるように注意しなければならない。これはタグ付きのフォーマット、例えばHTMLまたはXMLで保持するのが最善である。アドレス画像形成プロセスはアドレス目標情報により制御され、この場合にも個々のアドレス要素にアドレス画像形成の際に正しい目標情報をエラーなしに割り当てることができる。アドレス画像の変動は3つのレベル(記号・単語・アドレス)の全てで生じうる。アドレス画像のレベルでは位置情報の変動のほか、全ての汚れおよびノイズ効果の変動がシミュレートされ、画像データに対する画像処理プロセスにより、実際にはこれまでの現場でサンプルを収集する手法では達成できなかったほぼ無限に多様なサンプルバリアントが得られる。
フローを詳細に図4に則して説明する。アドレス目標情報はここではアドレス列範囲の定義、アドレスレイアウト範囲の定義、言語の選択、フォント範囲の選択であり、ここでアドレスレイアウト範囲の定義とはどのようなアドレス部分がアドレス画像のどこにどのくらいの大きさで存在しているかを定めている。アドレス目標情報をステップ41で設定した後、ステップ42でフォントライブラリから目標フォントのうちいずれかが取り出され、ステップ43,44でアドレス列およびアドレスレイアウト要素が取り出され、図3によればステップ45で当該のアドレス列に対するアドレス要素が消尽されるまで単語サンプル作成のループが処理される。そののち相応のサンプル要素(アドレス画像,アドレス列,レイアウト)の形成がステップ46で行われ、ステップ52でデータとして記憶される。ステップ47でデグラデーションが所望されたことが確認されると、画像処理アルゴリズムプール7を用いてデグラデーションバリアントがステップ48で形成され、同様に目標情報がステップ52でデータとして記憶される。ステップ49でアドレスレイアウトのストックが消尽されたことが確認されるまでは、次のアドレスレイアウト要素がステップ44で取り出され、そのフォントおよびアドレス列についてサンプル要素が形成され、記憶される。ステップ50でアドレス列のストックを消尽されたことが確認されると、次のアドレス列がステップ43で取り出され、サンプル要素の形成/記憶が前述のようにアドレスレイアウト要素全体について行われる。ステップ50で全てのアドレス列が処理されたことが確認されると、ステップ42で新たなフォントがフォントのプールから取り出され、前述のプロシージャがアドレス列およびアドレスレイアウト要素について行われる。サンプル形成が全てのフォントについて行われ、フォントのストックを消尽されたことがステップ51で確認されると、サンプル形成は終了する。
アドレス画像サンプルの自然な拡張はテキスト画像部分およびオブジェクト画像部分のセットから成る任意の送付物画像サンプル10である。送付物の分野では、テキスト部分は例えば受信者アドレスまたは送信者アドレスであり、画像オブジェクトは例えば切手、速達マーク、書留マークなどである。
全ての個別オブジェクトのテキスト内容、位置および寸法は、送付物の目標情報に含まれている。これはアドレス目標情報をオブジェクト画像プール3のオブジェクト画像範囲とオブジェクト画像レイアウト範囲とのカテゴリのぶんだけ拡張したものである。アドレス画像を形成し、任意の送付物画像に対する所望の全てのオブジェクト画像を調製するほか、送付物の目標情報を基礎として、レイアウトバリアントの範囲およびデグラデーションバリアントの範囲により相応の送付物画像が形成される。
サンプルを作成する手段の構造を示す図である。 記号のサンプルを作成する方法のフローチャートである。 単語のサンプルを作成する方法のフローチャートである。 アドレスのサンプルを作成する方法のフローチャートである。

Claims (4)

  1. 記号のバリアントを使用した、アダプティブクラシフィケータを備えた送付物アドレスラベル自動読取機を最適化するための学習サンプルおよび/またはテストサンプルの作成方法において、
    符号化された形式の目標情報を記号、単語、送付物ラベルまたは送付物ラベルを含む送付物表面全体の任意のオブジェクト画像の意味内容および必要なレイアウトが完全に記述されているサンプル要素として適応タスクにしたがって設定し、
    設定された目標情報に対応するサンプル要素のコピーをドキュメントに関連するフォントライブラリおよびオブジェクト画像ライブラリから設定されたフォントタイプおよび言語に対して形成し、目標情報に対応して形成されたコピーをサンプル用のピクセル表現で記憶し、
    先行のステップで形成されたサンプル要素のコピーをそれ自体周知の画像処理アルゴリズムにより変形し、適応タスクに基づくテスト送付物の選択、テスト送付物からテストサンプルへのまとめ上げおよびその処理の際に印刷および/または読み取りおよび/または送付物コピーのレイアウトおよび/または紙特性および/または送付物画像のピクセル表現に関して発生する現実に即した統計的変動をシミュレーションにより形成し、目標情報に対応するバリアントをサンプル用のピクセル表現で記憶する
    ことを特徴とする学習サンプルおよび/またはテストサンプルの作成方法。
  2. 記号、単語または送付物ラベルのコピーを変形する際に、送付物ラベルを従来のように印刷したり後から光学的に走査したりする際の障害プロセスおよび劣化プロセスをシミュレートする、請求項1記載の方法。
  3. ポリゴン表現による記号のコピーを変形する際に、記号のサイズ、記号の傾きを変更し、さらに記号のディストーションを行う、請求項1記載の方法。
  4. 単語または送付物ラベルのコピーを変形する際に、メトリック、ラインの傾きおよびポイントノイズを変更する、請求項4記載の方法。
JP2004540495A 2002-10-01 2003-09-22 学習サンプルおよび/またはテストサンプルの作成方法 Pending JP2006501554A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10245834A DE10245834A1 (de) 2002-10-01 2002-10-01 Verfahren zum Erzeugen von Lern- und/oder Teststichproben
PCT/DE2003/003149 WO2004032033A1 (de) 2002-10-01 2003-09-22 Verfahren zum erzeugen von lern- und/oder teststichproben

Publications (1)

Publication Number Publication Date
JP2006501554A true JP2006501554A (ja) 2006-01-12

Family

ID=32010066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004540495A Pending JP2006501554A (ja) 2002-10-01 2003-09-22 学習サンプルおよび/またはテストサンプルの作成方法

Country Status (5)

Country Link
US (1) US7286687B2 (ja)
EP (1) EP1546996B1 (ja)
JP (1) JP2006501554A (ja)
DE (2) DE10245834A1 (ja)
WO (1) WO2004032033A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006098766A2 (en) * 2004-09-17 2006-09-21 Proximex Incremental data fusion and decision making system and associated method
WO2006034135A2 (en) 2004-09-17 2006-03-30 Proximex Adaptive multi-modal integrated biometric identification detection and surveillance system
US7583819B2 (en) 2004-11-05 2009-09-01 Kyprianos Papademetriou Digital signal processing methods, systems and computer program products that identify threshold positions and values
US7777783B1 (en) 2007-03-23 2010-08-17 Proximex Corporation Multi-video navigation
US9544563B1 (en) 2007-03-23 2017-01-10 Proximex Corporation Multi-video navigation system
US8103099B2 (en) * 2008-07-15 2012-01-24 Lockheed Martin Corporation Method and system for recognizing characters and character groups in electronically represented text
US8725288B2 (en) * 2009-10-28 2014-05-13 Canada Post Corporation Synthesis of mail management information from physical mail data
HUP1200018A2 (en) 2012-01-11 2013-07-29 77 Elektronika Mueszeripari Kft Method of training a neural network, as well as a neural network
EP2784771A1 (en) * 2013-03-25 2014-10-01 Samsung Electronics Co., Ltd. Display apparatus and method of outputting text thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5796410A (en) * 1990-06-12 1998-08-18 Lucent Technologies Inc. Generation and use of defective images in image analysis
US6269171B1 (en) * 1995-04-12 2001-07-31 Lockheed Martin Corporation Method for exploiting correlated mail streams using optical character recognition
US5774588A (en) * 1995-06-07 1998-06-30 United Parcel Service Of America, Inc. Method and system for comparing strings with entries of a lexicon
JP3482191B2 (ja) 1999-05-12 2003-12-22 シーメンス アクチエンゲゼルシヤフト 住所読み取りのための方法

Also Published As

Publication number Publication date
WO2004032033A1 (de) 2004-04-15
US7286687B2 (en) 2007-10-23
EP1546996B1 (de) 2007-12-19
EP1546996A1 (de) 2005-06-29
DE10245834A1 (de) 2004-04-15
US20050163340A1 (en) 2005-07-28
DE50308861D1 (de) 2008-01-31

Similar Documents

Publication Publication Date Title
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
US6442555B1 (en) Automatic categorization of documents using document signatures
US9542752B2 (en) Document image compression method and its application in document authentication
US9596378B2 (en) Method and apparatus for authenticating printed documents that contains both dark and halftone text
US5818965A (en) Consolidation of equivalence classes of scanned symbols
EP1703444B1 (en) Detecting an orientation of characters in a document image
US7650035B2 (en) Optical character recognition based on shape clustering and multiple optical character recognition processes
JP2004527042A (ja) 画像処理方法およびシステム
EP0461793B1 (en) Method for image analysis
US6069978A (en) Method and apparatus for improving a text image by using character regeneration
US20080235263A1 (en) Automating Creation of Digital Test Materials
US20120250048A1 (en) Image processing apparatus and image processing method
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
US5778095A (en) Classification of scanned symbols into equivalence classes
JP2006501554A (ja) 学習サンプルおよび/またはテストサンプルの作成方法
US7149352B2 (en) Image processing device, program product and system
JPH1027214A (ja) 光学式文字認識コンピュータにおける接触文字の分離方法及び装置
Maderlechner et al. Classification of documents by form and content
WO2009113869A1 (en) A word length indexed dictionary for use in an optical character recognition (ocr) system.
US20040024716A1 (en) Mail sorting processes and systems
JPH0632070B2 (ja) 文字認識装置
JP2007534040A (ja) 学習サンプルおよび/またはテストサンプルを作成および/または更新する方法
CN115131806B (zh) 一种基于深度学习的各类证件ocr图像信息识别方法、系统
JP2002536769A (ja) ドキュメントエントリおよびアドレス読出し方法
KR100573392B1 (ko) 적응학습 모듈이 탑재된 문자인식 기반 대용량 문서디지털화 방법 및 시스템

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080507