DE69130535T2 - Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentes - Google Patents
Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentesInfo
- Publication number
- DE69130535T2 DE69130535T2 DE69130535T DE69130535T DE69130535T2 DE 69130535 T2 DE69130535 T2 DE 69130535T2 DE 69130535 T DE69130535 T DE 69130535T DE 69130535 T DE69130535 T DE 69130535T DE 69130535 T2 DE69130535 T2 DE 69130535T2
- Authority
- DE
- Germany
- Prior art keywords
- image
- prescribed
- representation
- image representation
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
- Die Erfindung bezieht sich auf ein Verfahren zum Extrahieren von Daten aus einem Dokument durch elektronisches Abtasten des Dokumentes, um eine Bilddarstellung zu erhalten, welche zur weiteren Verarbeitung gespeichert wird, zum Lokalisieren von Bildkomponenten und zum Analysieren der Daten dieser Bildkomponenten. Die vorliegende Erfindung bezieht sich insbesondere auf das automatische Erkennen einer Betragsinformation auf Finanzdokumenten wie etwa Schecks, Rechnungen und Erstattungsdokumenten.
- Die heutige Finanzdienstleistungsindustrie sieht sich der enormen Herausforderung des effizienten Verarbeitens von großen Mengen von Dokumenten gegenüber.
- Vorhersagen, daß die Zahlungsverfahren mit Dokumenten abnehmen würden, haben sich nicht verwirklicht. Tatsächlich nahmen Dokumentenzahlungsverfahren weltweit zu, und es wird erwartet, daß sich der Anstieg fortsetzt. Es besteht daher ein vitales Bedürfnis, verbesserte Verfahren zur Verarbeitung derartiger Dokumente anzugeben.
- Die Verwendung der Abbildungstechnologie als eine Hilfe zur Dokumentenverarbeitung wurde als ein Weg der erheblich verbesserten Dokumentenverarbeitung erkannt, wie bspw. in den US-Patenten Nr. 4,205,780; 4,264,808; 4,672,186; und 4,888,812 offenbart. Im allgemeinen beinhaltet die Abbildung das optische Abtasten von Dokumenten, um elektronische Bilder zu erzeugen, die elektronisch verarbeitet werden, und auf Speichermedien mit höher Kapazität (wie etwa magnetischen Festplatten und/oder optischen Speichern) zum späteren Wiederauffinden und Darstellten abgespeichert werden. Es ist klar, daß die Dokumentenabbildung die Möglichkeit liefert, die Handhabung und Bewegung von Dokumenten zu reduzieren, da diese elektronischen Bilder anstelle der tatsächlichen Dokumente verwendet werden können. Bspw. können Dokumentenbilder aus dem Speicher abgerufen werden und auf Arbeitsstationen angezeigt werden, wo Operatoren Betragsdaten und andere Informationen basierend auf den beobachteten Bildern eingeben können, anstelle die Dokumente direkt ansehen zu müssen.
- Die US-Patente 4 449 239, 4 201 978, 4 468 808, 4 918 740, 4 523 330, 4 685 141, 3 832 682, und das europäische Patent EP-0 111 930 offenbaren verschiedene Wege der automatischen Datenerkennung aus dem Stand der Technik.
- Obwohl die Verwendung des Abbildens in einem Dokumentenverarbeitungssystem erhebliche Verbesserungen zur Verfügung stellen kann, setzt das Bedürfnis dafür, daß der Operator die Daten ansehen und von den Dokumenten eingeben muß, die Begrenzung für die erreichbare Dokumentenverarbeitungsgeschwindigkeit und - effizienz fort.
- Aus der EP-A-0 344 742 ist ein Währungsbetrags-Lese- und Transaktionsausgleichssystem bekannt, in welchem vorbestimmte, numerische Felder, die von Hand geschriebene, numerische Einträge enthalten, automatisch lokalisiert werden, und einer Zeichenerkennungsanalyse unterzogen werden. Eine Sicherheitsstufe wird mit jedem numerischen Feld assoziiert, den gerade der Sicherheit reflektierend, mit welchem die Vorrichtung die numerischen Dollarbeträge erkannt hat. Die Berechnung und der Vergleich wird automatisch ohne zuvorige Intervention eines menschlichen Operators ausgeführt.
- Es ist ein Ziel der vorliegenden Erfindung, ein Verfahren zum Extrahieren von Daten aus einem Dokument zur Verfügung zu stellen, welches nicht die Nachteile der Systeme aus dem Stand der Technik aufweist. In Übereinstimmung mit der Erfindung wird ein Verfahren gemäß der Definition in dem Oberbegriff des Anspruches 1 charakterisiert durch die Verfahrensschritte nach Anspruch 1.
- In Übereinstimmung mit der vorliegenden Erfindung wird eine weitere Erhöhung der Geschwindigkeit und der Effizienz der Dokumentenverarbeitung möglich, indem verbesserte Verfahren zur automatischen Ortung, zur Extraktion und zum Erkennen von Daten auf Dokumenten zur Verfügung gestellt werden, und insbesondere verbesserte Verfahren zur Verfügung gestellt werden, welche vorteilhafterweise mit den hohen Geschwindigkeiten arbeiten können, die zur Verwendung in Verarbeitungssystemen für Finanzdokumente benötigt werden, wie etwa jene, die Schecks, Rechnungen und Erstattungsdokumente verarbeiten.
- Die besondere Natur der Erfindung sowie die Aufgaben, Eigenschaften, Vorteile und Verwendungen werden aus der folgenden detaillierten Beschreibung zusammen mit den begleitenden Zeichnungen deutlich.
- Fig. 1 stellt einen typischen Scheck eines Typs dar, wie er in den Vereinigten Staaten weit verbreitet ist.
- Fig. 2 stellt im allgemeinen ein Dokumentenverarbeitungssystem dar, in welchem die vorliegende Erfindung verwendet werden kann.
- Fig. 3 ist ein Flußchart, welcher allgemein die verschiedenen operationellen Schritte darstellt, die durch einen automatischen Währungsbetragsleser in Übereinstimmung mit der Erfindung ausgeführt werden.
- Fig. 4 ist ein Flußchart, welcher eine bevorzugte Weise zum Ausführen des Schrittes 102 "Orte S" der Fig. 3 darstellt.
- Fig. 5 ist ein typisches Grauwertbild, welches durch das Bildmodul 14 der Fig. 2 zur Verfügung gestellt wird.
- Fig. 6 ist ein Blockdiagramm, welches eine Vorrichtung zur parallelen Erzeugung und Speicherung von Körner- und Masken-Binärbildern aus dem in der Fig. 5 dargestellten Grauwertbild darstellt.
- Fig. 7 stellt eine typische "$"-Ursprungssuchfläche $SA dar, die durch den Schritt 102B der Fig. 4 etabliert wird.
- Fig. 8 stellt eine typische "$"-Maskensuchfläche $MA dar, die durch den Schritt 102B der Fig. 4 etabliert wird.
- Fig. 9 ist ein Flußchart, welcher eine bevorzugte Weise zum Ausführen des Schrittes 104 "Extrahiere Währungsbetrag" der Fig. 3 darstellt.
- Fig. 10 stellt eine typische Währungsbetragsursprungssuchfläche C.A.SA dar, die durch den Schritt 104B der Fig. 9 etabliert wird.
- Fig. 11 stellt eine typische Währungsbetragsmaskensuchfläche C.A.MA dar, die durch den Schritt 104B der Fig. 9 etabliert wird.
- Fig. 12 ist ein Flußchart, welche eine bevorzugte Weise zum Ausführen des Schrit tes 110 "Trenne -Abschnitt und Kategorisiere" der Fig. 3 darstellt.
- Fig. 13 stellt einen typischerweise extrahierten Währungsbetrag (vor dem Säubern in dem Schritt 104J der Fig. 9) dar, die unpassend verbundene Komponentengruppen 62 und 63 enthält.
- Fig. 14-16 illustrieren typischerweise extrahierte Währungsbeträge nach dem Säubern in dem Schritt 104J der Fig. 9.
- Fig. 17-18 illustrieren, wie " "-Zeichen aus einem " "-Feld extrahiert werden, die aus unterstrichenen Doppelziffern bestehen.
- Fig. 19-21 illustrieren, wie " "-Zeichen aus einem " "-Feld extrahiert werden, welche aus einem Bruch besteht.
- Gleiche Bezugszeichen und Zeichen beziehen sich auf gleiche Elemente innerhalb der Figur der Zeichnungen.
- Zum Zwecke dieser detaillierten Beschreibung wird die vorliegende Erfindung illustriert, indem sie auf das automatische Erkennen des Dollarbetrages (typischerweise bezeichnet als der "Währungsbetrag") auf einem Scheck in einem Dokumentenverarbeitungssystem zum Verarbeiten von Finanzdokumenten angewendet wird. Es ist jedoch klar, daß die vorliegende Erfindung auch auf andere Typen von Dokumenten, sowie auf andere Typen von Datenerkennungsanwendungen, im Finanzbereich und in anderen Bereichen angewendet werden kann.
- Es wird zunächst Bezug genommen auf die Fig. 1, welche einen Scheck 10 darstellt, von einem in den Vereinigten Staaten weit verbreiteten Typ. Der Scheck 10 weist ein "$"-Währungssymbol 10a auf, und einen damit verbundenen Betrag 10b, welche typischerweise im Bankgewerbe als einen "Währungsbetrag" bezeichnet wird. Ein Lesegerät, welche diesen Währungsbetrag erkennt, wird typischerweise als ein Währungsbetragslesegerät (CAR) bezeichnet. Der Währungsbetrag 10b kann maschinengedruckt oder handgeschrieben sein, wie in der Fig. 1 dargestellt.
- Der typische, in der Fig. 1 dargestellte Scheck 10 schließt auch codierte, maschinenlesbare Daten 10c am linken Boden des Schecks ein, welche dazu dienen, Identifikationsinformationen zur Verfügung zu stellen, wie etwa die Identität der Bank, auf welche der Scheck ausgeschrieben ist, die Kontonummer des Benutzers, und die Schecknummer. Typischerweise werden diese codierten maschinenlesbaren Daten 10c in magnetischer Tinte zur Verfügung gestellt, und werden durch das Acronym "MICR" (magnetische Tintenzeichenerkennung) bezeichnet.
- Die Fig. 2 stellt allgemein ein Dokumentenverarbeitungssystem dar, in welchem die vorliegende Erfindung verwendet werden kann. Die zu verarbeitenden Dokumente sind typischerweise Finanzdokumente, einschließlich Schecks des in der Fig. 1 dargestellten Typs. Wie in der Fig. 2 dargestellt, werden diese Finanzdokumente 10 einem Dokumentenprozessor 12 zur Verfügung gestellt, welcher auf konventionelle Art die codierten Daten von den Dokumenten maschinenmäßig abliest, die Bilder der Dokumente erfaßt und verarbeitet, und die Dokumente in Taschen (nicht dargestellt) sortiert.
- Der Dokumentenprozessor 12 der Fig. 2 schließt ein Abbildungsmodul 14 zum Erfassen von Bildern von Dokumenten, Verarbeiten und Komprimieren der erfaßten Dokumentenbilder und dem anschließenden Übertragen der komprimierten Dokumentenbilder zur Speichervorrichtung 16, wie etwa einer Festplatte, ein. Arbeitsstationen 19 empfangen Dokumentenbilder von der Speichervorrichtung 16 zur Darstellung und Eingaben von Daten durch Arbeitsstationsoperatoren, wie etwa den Währungsbeträgen der beobachteten Bilder. Eine Computerverarbeitungseinheit (CPU) 20 liefert die Gesamtkontrolle des Systems, und ist ebenfalls dafür da, eine Datenbasis für die Dokumenteninformation aufrecht zu erhalten, die zu dieser durch den Dokumentenprozessor 12 und die Arbeitsstationen 19 (über die Speichervorrichtung 16) übertragen wurden.
- Der Dokumentenprozessor 12 der Fig. 2 schließt weiterhin ein Währungsbetragslesegerät 18 ein, welches mit dem Abbildungsmodul 14 zum automatischen Erkennen von Währungsbeträgen auf Schecks verbunden ist, wie in der Fig. 1 dargestellt. Ein wichtiger Vorteil des zur Verfügungstellens eines solchen Währungsbetragslesegerätes 18 in dem Dokumentenverarbeitunssystem der Fig. 1 ist der, daß jene Schecks, deren Beträge erfolgreich gelesen werden, bezüglich ihrer Währungsbeträge nicht gelesen und dieselben nicht eingegeben werden müssen, in dem ihre Bilder an den Arbeitsstationen 18 angesehen werden.
- Das Währungsbetragslesegerät (CAR) 18 enthält typischerweise eine Vielzahl von Mikroprozessoren, RAMs, ROMs und andere assoziierte Schaltkreise, zusammen mit einer entsprechenden Programmierung, zum Arbeiten mit Dokumentenbildern, die diesem zur Verfügung gestellt werden, von dem Bildmodul 14, um eine automatische Erkennung der Währungsbeträge in Übereinstimmung mit der Erfindung zur Verfügung zu stellen. Die Weise, in der derartiges für das CAR 18 zur Verfügung gestellt werden kann, wird aus der folgenden Offenbarung klar.
- Die Fig. 3 ist ein Flußchart, welcher allgemein die verschiedenen operationellen Schritte darstellt, welche durch das CAR 18 in der Fig. 2 ausgeführt werden bei dem Erkennen eines Währungsbetrages auf einem Scheck. Es ist klar, daß dieser Flußchart bspw. präsentiert wird, und nicht als für den Schutzbereich begrenzend aufgefaßt werden soll. Bspw. können bestimmte Schritte, die dort gezeigt sind, weggelassen werden, während andere Schritte hinzugefügt werden können, und/oder die Anordnung der Schritte modifiziert werden kann.
- Wie durch den Schritt 100 angezeigt, empfängt das CAR 18 von dem Abbildungsmodul 14 in der Fig. 2 ein Grauwertbild eines Schecks. Das CAR lokalisiert das "$"-Zeichen 10a der Fig. 1 (Schritt 102) und extrahiert dann den assoziierten Währungsbetrag 10b (Schritt 104). Eine Bestimmung wird dann durchgeführt, ob der extrahierte Währungsbetrag maschinengeschrieben oder handgeschrieben ist (Schritt 106). Wenn er maschinengeschrieben ist, wird eine relativ einfache Erkennung des Währungsbetrages ausgeführt (Schritt 108) und das Ergebnis ausgegeben (Schritt 118).
- Wenn der extrahierte Währungsbetrag als handgeschrieben (Schritt 106) identifiziert ist, wird eine komplexere Analyse erforderlich. In einem solchen Fall wird zunächst der " "-Abschnitt 10b-1 (Fig. 1) getrennt und kategorisiert (Schritt 110), und dann werden die " "-Zeichen basierend auf der Kategorisierung (Schritt 112) extrahiert. Die sich ergebenden extrahierten " "-Zeichen werden dann erkannt (Schritt 114).
- Nachdem die " "-Zeichen erfolgreich erkannt wurden (Schritt 114), werden die Dollarzeichen erkannt (Schritt 116). Das CAR 18 (Fig. 2) gibt dann den erkannten Währungsbetrag aus, oder gibt ein Zurückweisungssignal (Schritt 118) aus. In dem System der Fig. 2 wird diese CAR-Ausgabe an die CPU 20 gesandt. Wenn eine Zurückweisungsbedingung während einer der Schritte in der Fig. 3 erfaßt wird, wird sofort eine Zurückweisungsausgabe zur Verfügung gestellt und es werden die verbleibenden Schritte abgebrochen. Wie in der Fig. 3 dargestellt, wird die Extraktion und die Erkennung des " "-Abschnittes des Währungsbetrages vor dem Dollarabschnitt ausgeführt, da es günstiger ist, eine Zurückweisung zu erzeugen. Es ist klar, daß die erkannte Währungsbetragsausgabe, die durch das CAR zur Verfügung gestellt wurde, begleitet werden kann durch einen Sicherheitswert, welcher auf Sicherheits-Indikationen basiert, die während des Erkennungsprozesses erzeugt wurden. Es ist ebenso klar, daß die Erkennungsschritte 106, 108, 114 und 116 in der Fig. 3 unter Verwendung bekannter Erkennungstechniken ausgeführt werden können, wie in den zuvor erwähnten Patenten offenbart.
- Eine Beschreibung jedes der Schritte, die in der Fig. 3 dargestellt sind, wird im folgenden ausgeführt.
- Während dieses Schrittes liefert das Abbildungsmodul 14 der Fig. 2 ein Grauwertbild (wie in der Fig. 5 dargestellt) an das CAR 18 von mindestens einem Abschnitt eines Schecks, welcher das "$"-Zeichen 10a und den damit verbundenen Währungsbetrag 10b enthält. Es ist klar, daß die in der Fig. 5 dargestellte Größe nur beispielhaft ist.
- Während dieses Schrittes wird das "$"-Zeichen 10a (Fig. 5) geortet. Offensichtlich könnte ein anderes Währungssymbol als das des "$"-Zeichen als ein Ortszeichen verwendet werden, wie etwa ein "*" oder andere angemessene Symbole.
- Während dieses Schrittes wird der Währungsbetrag 10b (Fig. 5) unter Verwendung des zuvor georteten "$"-Zeichens 10a als Ortsführer extrahiert.
- Während dieses Schrittes wird eine Bestimmung durchgeführt, ob der extrahierte Währungsbetrag maschinengeschrieben oder handgeschrieben ist. Wenn er maschinengeschrieben ist, schreitet die Operation mit dem Schritt 108 weiter. Wenn er handgeschrieben ist, schreitet die Operation mit dem Schritt 110 fort.
- Wenn der Währungsbetrag als maschinengeschrieben bestimmt ist, wird eine relativ einfache Erkennung basierend auf dem Typ des erkannten Maschinendrucks durchgeführt.
- Wenn der Währungsbetrag als handgeschrieben bestimmt wird, wird eine mehr komplexe Analyse benötigt, welche mit der Trennung des " "-Abschnittes 10b-1 (Fig. 5) aus dem Dollarabschnitt 10b-2 beginnt. Der separierte " "-Abschnitt wird dann kategorisiert.
- Während dieses Schrittes werden die " "-Zeichen basierend auf der in dem Schritt 110 durchgeführten Kategorisierung extrahiert.
- Während dieses Schrittes werden die extrahierten " "-Zeichen erkannt.
- Während dieses Schrittes werden die "$"-Zeichen 10b-2 (Fig. 5) des Währungsbetrages erkannt, um die Erkennung des Währungsbetrages zu vervollständigen.
- Während dieses Schrittes gibt das CAR 18 den erkannten Währungsbetrag (an die CPU 20 der Fig. 2) oder ein Zurückweisungssignal aus. Ein Zurückweisungssignal wird durch das CAR zur Verfügung gestellt, wenn eine Zurückweisungsbedingung während einer der vorhergehenden Schritte erfaßt wurde, in welchem Fall die nachfolgenden Schritte abgebrochen werden. Ein erkannter Währungsbetrag kann auch durch einen Sicherheitswert begleitet werden.
- Verschiedene der in der Fig. 3 dargestellten Schritte werden nun im Detail betrachtet.
- Eine bevorzugte Weise zum Ausführen des Schritte 102 in der Fig. 3 wird als nächstes in Übereinstimmung mit der Erfindung und mit Bezug auf die Schritte 102A bis 102H der Fig. 4 betrachtet werden. Es sei daran erinnert, daß der Zweck des Schrittes 102 darin besteht, daß "$"-Zeichen 10a auf dem Scheck 10 in der Fig. 5 zu lokalisieren.
- Während dieses Schrittes wird ein Threshold verwendet, um eine Vielzahl von binären Bildern aus dem Grauwertbild (Fig. 5) abzuleiten, welches durch das Bildmodul 14 der Fig. 2 zur Verfügung gestellt wurde. Die Ableitung dieser binären Bilder wird verstanden werden, in dem festgestellt wird, daß ein Grauwertbild typischerweise elektronisch als eine X-Y-Matrix von Pixeln (Bildelementen) dargestellt werden kann, wobei jeder Pixel eine Wertigkeit einer Vielzahl von Graustufenwerten aufweist. Bspw. könnte jeder Pixel mit 16 Graustufenwerten versehen sein, repräsentiert durch 4 Bit, die den binären Zahlen 0 bis 15 entsprechen, wobei 15 Schwarz und 0 Weiß ist. Jedes abgeleitete binäre Bild erzeugt, in dem verschiedene dieser Graustufenwerte als Threshold beim Umwandeln des Grauwertbildes in das binäre Bild verwendet werden. Wenn ein Threshold von acht zur Erzeugung eines bestimmten binären Bildes verwendet wird, dann wird bspw. das binäre Bild schwarze Pixel für jene Pixel aufweisen, dessen Graustufenwerte acht oder größer betragen, während alle anderen Pixel des binären Bildes weiß sind.
- Für die spezielle Ausführungsform der Erfindung, die hier betrachtet wird, werden drei binäre Bilder aus dem Grauwertbild (Fig. 5) unter Verwendung drei verschiedener Threshold-Werte, hoch, mittel und niedrig, abgeleitet. Das binäre Bild mit hohem Threshold wird als "$"-Ursprungsbild ("$"-seed image) bezeichnet, das mittlere binäre Bild wird als das Währungsbetragsursprungsbild (courtesy amount seed image) bezeichnet und das binäre Bild mit niedrigem Threshold wird als das Maskenbild bezeichnet. Wie im nachfolgenden erklärt werden wird, wird das "$"- Ursprungsbild verwendet für die Lokalisierung des "$"-Zeichens 10a (Fig. 5), das binäre Bild des Währungsbetrages wird verwendet zum Extrahieren des Währungsbetrages 10b, und das Maskenbild wird für beide Zwecke verwendet.
- Wie in Fig. 6 dargestellt, können die Ursprungs- und Maskenbilder, um die Erkennungsgeschwindigkeit zu erhöhen, parallel durch entsprechende Wandler 34, 36 und 38 erzeugt werden, wenn das Grauwertbild von dem Bildmodul 14 in der Fig. 2 empfangen wird, wobei die sich ergebenden binären Bilder wieder auffindbar in den entsprechenden Zugriffsspeichern (RAMs) 44, 46 und 48 gespeichert werden.
- Während dieses Schrittes werden Suchflächen auf den "$"-Ursprungs- und Maskenbildern zur Verwendung bei der Lokalisierung des "$"-Zeichens etabliert. Die Fig. 7 illustriert ein Beispiel einer "$"-Ursprungsbildsuchfläche $SA für das Ursprungsbild, und die Fig. 8 illustriert ein Beispiel einer "$"-Maskensuchfläche $MA für das Maskenbild. Die Fig. 7 und 8 stellen auch die Effekte dar, die durch Verwendung verschiedener Threshold-Werte zum Ableiten der Ursprungs- und Maskenbilder erzeugt werden. Diesbezüglich sei festgestellt, daß die "$ "-Maskensuchfläche $MA in der Fig. 8 (aufgrund des verwendeten niedrigen Threshold-Wertes) vielmehr überflüssige, schwarze Pixel (Rauschen) aufweist, als dies bei der "$"- Ursprungssuchfläche $SA in der Fig. 7 der Fall ist.
- Zum Zweck der speziell betrachteten Ausführungsform sei angenommen, daß die gewünschte "$"-Ursprungssuchfläche $SA in der Fig. 7 bekannt ist. Bspw. könnte der Ort, an dem sie sich befindet, zuvor in der CPU 20 (Fig. 2) gespeichert sein, oder er könnte vom Ablesen der maschinenlesbaren Zeile 14c auf dem Scheck 10 (Fig. 1) abgeleitet worden sein. Alternativ könnte vorgesehen sein, daß das gesamte Bild abgesucht wird, bis das "$"-Zeichen geortet wird.
- Während des Schrittes 102C wird die "$"-Ursprungssuchfläche $SA in der Fig. 7 nach einem "neuen" schwarzen Pixel abgesucht. Wie im folgenden erklärt werden wird, ist ein "neuer" schwarzer Pixel einer, welcher bisher noch nicht für die Ursprungssuchfläche $SA berücksichtigt wurde. Typischerweise wird eine vertikale Spalte-um-Spalte-Abtastung verwendet, da es vorteilhaft bei der Lokalisierung des "$"-Zeichens ist, daß es vor den Betragszeichen berücksichtigt wird. Wenn während der Abtastung ein neuer schwarzer Pixel nicht aufgefunden wird (Schritt 102D), dann wird eine Bestimmung (Schritt 102E) durchgeführt, ob die letzte vertikale Spalte der "$"-Ursprungssuchfläche $SA in der Fig. 5 abgetastet wurde. In einem solchen Fall wird eine Zurückweisung erzeugt. Es ist ebenso klar, daß eine Zurückweisung auch auftreten könnte, wenn die maximale Zeit, die für den Erkennungsprozeß vorgesehen ist, abgelaufen ist. Dies wird getan, um zu verhindern, daß der Erkennungsprozeß für einen beliebigen Scheck eine Zeit überschreitet, welche inkonsistent mit den Anforderungen an die Scheckverarbeitungsgeschwindigkeit wäre.
- Wenn während dieses Schrittes 102E bestimmt wird, daß die vertikale Abtastung nicht vervollständigt wurde, kehrt die Operation zu dem Schritt 102C zurück, um die Suche für ein neues schwarzes Pixel in der Abtastrichtung der "$ "-Ursprungssuchfläche $SA fortzusetzen.
- Wenn ein neuer schwarzer Pixel während des Schrittes 102D aufgefunden wird, schreitet die Operation zu dem Schritt 102F voran. Während des Schrittes 102F wird der aufgefundene, schwarze Ursprungspixel (Schritt 102D) in der "$ "-Ursprungssuchfläche $SA (Fig. 7) unter Verwendung der "$"-Maskensuchfläche $MA (Fig. 8) fortgepflanzt, um eine verbundene Gruppe von Pixeln zu erzeugen, welche im nachfolgenden durch das Symbol CC bezeichnet werden wird. Die Weise, in weicher ein CC erzeugt wird, wird als nächstes erklärt.
- Es wird zunächst Bezug genommen auf die "$"-Ursprungssuchfläche $SA in der Fig. 7. Es wird klar, daß das "$"-Zeichen 10a fast vollständig ist, jedoch verschiedene Brüche, wie etwa 10'a angedeutet, aufweist, während die benachbarte Ziffer "8" des Währungsbetrages 10b mehr und größere Brüche 10'b aufweist. Dies war zu erwarten, da das "$"-Zeichen normalerweise einen signifikant höheren Kontrast aufweist als die Ziffern des Währungsbetrages und unter Verwendung eines Druckprozesses mit höherer Qualität erzeugt wird. Ebenfalls sei festgestellt, daß ndie "$"-Ursprungssuchfläche $SA in der Fig. 7 nur wenige weit verbreitete, schwarze Fremdpixel, wie etwa 32 s, aufweist, da ein relativ hoher Threshold verwendet wird, um das "$"-Ursprungsbild (wie zuvor beschrieben) abzuleiten.
- Nunmehr wird Bezug genommen auf die "$"-Maskensuchfläche $MA in der Fig. 8, welche unter Verwendung eines niedrigeren Thresholds (wie zuvor beschrieben) abgeleitet ist. Es wird klar, daß aufgrund des niedrigeren Thresholds das "$"- Zeichen 10a vollständig ist, während die benachbarte "8" des Währungsbetrages 10b immer noch einige Brüche 10"b enthält. Auch befinden sich erheblich mehr schwarze Fremdpixel, wie etwa 32m, in der "$"-Maskensuchfläche $MA in der Fig. 8 als in der "$"-Ursprungssuchfläche $SA in der Fig. 7. Zusätzlich enthält die "$"- Maskensuchfläche $MA schwarze Pixel aus der Begrenzung 33 des Währungs betrages.
- Die Schritte 102D und 102F in der Fig. 4 ziehen sowohl aus der "$"-Ursprungs- $SA als auch aus der Maskensuchfläche $MA (Fig. 7 bzw. 8) einen Vorteil, um das "$"-Zeichen zu lokalisieren und zu erkennen. Insbesondere, wenn ein neuer schwarzer Pixel in der "$"-Ursprungssuchfläche $SA in der Fig. 7 (Schritt 102D) aufgefunden wird, wird der Pixel mit einer entsprechenden Lokalisierung in der "$"- Maskensuchfläche $MA in der Fig. 8 lokalisiert. Wenn bspw. 34s in der Fig. 7 der neue schwarze Pixel ist, welcher in der "$"-Ursprungssuchfläche $SA (Schritt 102D) aufgefunden wurde, dann wird der entsprechend lokalisierte, schwarze Pixel 34m in der "$"-Maskensuchfläche $MA in der Fig. 8 lokalisiert. Dies kann unter Verwendung der in den entsprechenden "$"-Ursprungs- und Masken-RAMs 44 und. 48 in der Fig. 6 gespeicherten Ursprungs- und Maskenbilder implementiert werden, die bspw. derart organisiert sein können, daß die entsprechenden Ursprungs- und Maskenpixel entsprechende Adressen aufweisen.
- Die nächste Operation, die in der Ausführung des Schrittes 102F stattfindet, ist die, den schwarzen Pixel 34m (Fig. 8) in die "$"-Ursprungssuchfläche $MA zu übertragen um so eine CC zu erzeugen, die alle mit 34m verbundenen schwarzen Pixel enthält. Dies kann bspw. unter Verwendung der Maske RAM 48 in der Fig. 6 erreicht werden. Beginnend mit dem schwarzen Pixel 34m (Fig. 8) wird eine Bestimmung vorgenommen, ob sich schwarze Pixel an Adressen befinden, die zu Pixelorten korrespondieren, die unmittelbar dem schwarzen Pixel 34m (Fig. 8) benachbart sind. Eine ähnliche Bestimmung wird für jeden neu bestimmten schwarzen Pixel vorgenommen, und dann so lange wiederholt und wiederholt, bis alle verbundenen schwarzen Pixel, die die CC bilden, identifiziert wurden. Die Adressen dieser identifizierten schwarzen Pixel bilden dann die CC, die aus dem schwarzen Pixel 34m erzeugt ist. Die Maske RAM 46 in der Fig. 6 kann bspw. verwendet werden, um die Adressen der identifizierten schwarzen Pixel, die eine CC bilden, zu speichern.
- Weiterhin mit Bezug auf die Fig. 7 und 8 ist klar, wenn der neue Pixel in der "$"- Ursprungssuchfläche $SA in der Fig. 7 (Schritt 102D) der schwarze Pixel 34s des "$"-Zeichens 10a ist, daß dann die resultierende CC, die durch die Fortpflanzung des entsprechenden schwarzen Pixels 34m in der "$"-Maskensuchfläche $MA in der Fig. 8 (Schritt 102F) erzeugt wurde CC-1 ist, was das "$"-Zeichen 10a ist. Dies wird der Fall sein, da alle Pixel des "$"-Zeichens in der "$"-Maskensuchfläche $MA in der Fig. 8 verbunden sind.
- Auf der anderen Seite, wenn angenommen werden würde, daß das "$"-Zeichen nicht vorhanden wäre, und der neue schwarze Pixel, welcher in der "$ "-Ursprungssuchfläche $SA (Fig. 7) gefunden wurde, der Pixel 36s der Zahl "8" wäre, dann würde die Fortpflanzung des entsprechenden schwarzen Pixels 36m in der Fig. 8 CC-2 erzeugen, von dem klar werden wird, daß es fast der obere Abschnitt der "8" ist, aufgrund der Unterbrechungen 10"b.
- Nach der Erzeugung einer CC in dem Schritt 102F schreitet die Operation zu dem Schritt 102G weiter, in welchem die Größe, die Geometrie und der Ort der erzeugten CC verwendet werden, um eine relativ schnelle Bestimmung durchzuführen, ob es ein angemessener Kandidat für das "$"-Zeichen ist, oder ob es zurückgewiesen werden sollte, um den relativ Mehrzeit benötigenden Erkennungsprozeß zu vermeiden.
- Nur wenn eine CC als ein "$"-Kandidat (Schritt 102G) bestimmt wird, wird die Operation fortgesetzt zu dem Schritt 102H, wobei die konventionelle Zeichenerkennung ausgeführt wird, um zu bestimmen, ob die CC das "$"-Zeichen ist. Bspw. kann der in dem zuvor erwähnten US-Patent Nr. 4,449,239 beschriebene Klassifizierungsweg zur Erkennung verwendet werden. Wenn die CC nicht als ein angemessener "$"-Zeichenkandidat in dem Schritt 102G bestimmt wird, oder wenn die CC nicht als das "$" in dem Schritt 102H erkannt wird, dann geht die Operation zurück zu dem Schritt 102C um die Abtastung für ein neues schwarzes Pixel in der "$"-Ursprungssuchfläche $SA in der Fig. 7 fortzusetzen. Wenn die CC jedoch als das "$"-Zeichen in dem Schritt 102H erkannt wird, dann wurde das "$"- Zeichen lokalisiert. In einem solchen Fall wird keine weitere Abtastung vorgenommen und die Operation schreitet weiter zu dem Schritt 104 in der Fig. 3, um den Währungsbetrag zu extrahieren.
- Wie zuvor in Verbindung mit dem Schritt 102E erwähnt, tritt eine Zurückweisung auf, wenn keine Erkennung des "$"-Zeichens erreicht wird, wenn das Ende der Abtastung erreicht ist. Wenn es gewünscht wird, daß eine zusätzliche Suchfläche nach dem "$"-Zeichen abgetastet wird, dann wird anstelle der Erzeugung einer Zurückweisung an dem Ende der Abtastung die Operation zurück zu dem Schritt 102B der Fig. 4 laufen, um die neuen Ursprungs- und Maskensuchflächen zu etablieren. Diese Abtastung zusätzlicher Suchflächen kann so oft wie gewünscht wiederholt werden, oder solange bis der Zeitablauf eintritt.
- Aus der vorstehenden Beschreibung des Schrittes 102F wird klar, daß der in dem Schritt 102C bezeichnete "neue" schwarze Pixel einer ist, der zuvor nicht als Ergebnis der Fortpflanzung während des Schrittes 102F in der "$ "-Maskensuchfläche aufgefunden wurde, da keine Notwendigkeit besteht, zuvor identifizierte schwarze Pixel fortzuführen. Es gibt viele verschiedene Wege des Verhinderns der Fortpflanzung derartig zuvor identifizierter Ursprungspixel in die "$ "-Maskensuchfläche. In der beschriebenen Ausführungsform wurde es als vorteilhaft herausgefunden, diesen Zweck zu erreichen, in dem Ursprungspixel aus dem "$ "-Ursprungsbild (gespeichert in dem "$"-Ursprungsbild RAM 44 in der Fig. 6) nach Identifizierung des entsprechenden Pixels in der "$"-Maskensuchfläche $MA während der Maskenfortpflanzung in dem Schritt 102F in der Fig. 4 gelöscht werden. Demnach werden schwarze Pixel, die während vorhergehenden Fortpflanzungen in dem Schritt 102F identifiziert wurden, während der Abtastung in dem Schritt 102C nicht wahrgenommen, wodurch sich die benötigte Zeit zur Lokalisierung des "$"- Zeichens reduziert. Diese Einsparung addiert sich zu der gesparten Zeit hinzu, da daß Ursprungsbild relativ wenig schwarze "Rausch-"Pixel aufgrund des in seiner Ableitung hohen verwendeten Thresholds aufweist. Die Verwendung eines derartig hohen Thresholds ist möglich.
- Es ist ebenso klar, daß der oben beschriebene Ursprungs-/Maskenfortpflanzungsweg zur Erzeugung eines CC zusätzlich für die Lokalisierung des "$"-Zeichen 10a auf einem Scheck 10 (Fig. 1) vorteilhaft ist, da das "$"-Zeichen normalerweise mit hoher Qualität und mit hohem Kontrast gedruckt wird, und es unwahrscheinlich ist, daß in der "$"-Maskensuchfläche $MA (Fig. 8) Brüche erzeugt werden. Daher macht es die Übertragung jedes erzeugten CC zur Erkennung, wie oben beschrieben (Schritte 102G und 102H) sehr wahrscheinlich, daß das "$"-Zeichen erkannt wird, verglichen mit anderen Markierungen oder Zeichen (wie etwa die zuvor betrachtete Ziffer "8").
- Es ist weiterhin klar, daß der Ursprungs-/Maskenfortpflanzungsweg zur Erzeugung eines CC vielen Variationen unterliegt, die innerhalb des Schutzbereichs der Erfindung liegen. Bspw. könnte die Definition der "Verbundenheit", die zur Erzeugung einer CC verwendet wurde, in verschiedenen Weisen verändert werden, um an die Erkennung von speziellen Typen von Zeichen unter anderen Umständen angepaßt zu werden. Bspw. könnte die Definition der "Verbundenheit" derart verändert werden, daß die Verbundenheit auf eine oder mehrere spezielle Richtungen (wie etwa vertikal, horizontal und/oder insbesondere diagonal) beschränkt werden würde. Eine andere mögliche Veränderung in der Definition der Verbundenheit könnte es erlauben, daß ein (oder mehrere) Pixelbruch zwischen "verbundenen" Pixeln unter speziellen Umständen auftritt.
- Eine bevorzugte Weise zum Ausführen des Schrittes 104 in der Fig. 3 wird als nächstes mit Bezug auf die Schritte 104A bis 104J in der Fig. 9 betrachtet. Es sei in Erinnerung gerufen, daß der Zweck des Schrittes 104 der ist, den in Fig. 1 dargestellten Währungsbetrag 10b zu extrahieren.
- Während dieses Schrittes schreitet die Operation zur Extraktion des Währungsbetrages 10b (Fig. 5), wobei der Ort des Währungsbetrages basierend auf die erfolgreiche Lokalisierung des "$"-Zeichen 10a in dem Schritt 102 (Fig. 3 und 4) bestimmt wurde. Es wird klar, daß bei der Beschreibung des Schrittes 104 der zum Orten des "$" in dem Schritt 102 grundlegende Ursprungs-/Maskenweg ebenfalls für die Extraktion des Währungsbetrages verwendet wird, jedoch in einer etwas anderen Weise.
- Während dieses Schrittes werden die Ursprungs- und Maskensuchflächen zur Extrahierung des Währungsbetrages basierend auf der Bestimmung des Ortes des "$"-Zeichen in dem Schritt 102 der Fig. 3 etabliert. Die Fig. 10 illustriert ein Beispiel einer Währungsbetrag-Ursprungssuchfläche C.A.SA, währen die Fig. 11 ein Beispiel einer etwas größeren Währungsbetrag-Maskensuchfläche C.A.MA zeigt. Man beachte, daß die C.A.MA in der Fig. 11 von ausreichender Größe ist, um Währungsbetragabschnitte einzuschließen, die möglicherweise aus der Begrenzung 33 des Währungsbetrages herausragen. In diesem Zusammenhang sei auch beachtet, daß, obwohl die "7" des Währungsbetrages nicht vollständig in der Währungsbetrag-Suchfläche C.A.SA in der Fig. 10 enthalten ist, die "7" vollständig als ein Ergebnis der Ursprungs-/Maskenfortpflanzung in der größeren Währungsbetrag-Maskensuchfläche C.A.MA der Fig. 11 extrahiert werden wird.
- In der hier beschriebenen, bevorzugten Ausführungsform wird das gleiche Maskenbild (gespeichert in dem RAM 48 der Fig. 6) für die Betragsextrahierung verwendet, wie sie für die Lokalisierung des "$"-Zeichen verwendet wird; das Währungsbetrag- Ursprungsbild (in dem RAM 46 der Fig. 6 gespeichert) wird jedoch anstelle des "$"-Ursprungsbildes (in dem RAM 44), welches zur Lokalisierung des "$"-Zeichens verwendet wurde, verwendet. Dies wird getan, da der "$"-Ursprungsbildthreshold hoch gewählt ist, um aus dem "$"-Zeichen mit hohem Kontrast wie zuvor beschrieben einen Vorteil zu ziehen, und würde nicht angemessen sein für die Zeichen des Währungsbetrages, welche einen größeren Bereich von Kontrastvariationen aufweisen. Die Fig. 10 stellt ein Beispiel einer möglichen Wahl eines Threshold für die Währungsbetrag-Ursprungssuchfläche C.A.SA dar, in der die Begrenzung 33 (Fig. 5) sowie Fremdpixel (Rauschen) mit niedrigem Kontrast nicht auftreten. In dieser Beziehung sei klargestellt, daß alle Teile des Währungsbetrages nicht in der Währungsbetrag-Suchfläche C.A.SA in der Fig. 10 eingeschlossen werden müssen. Es ist nur notwendig, daß ausreichende Abschnitte des Währungsbetrages in die C.A.SA der Fig. 10 eingeschlossen werden, um eine adäquate Extrahierung des Währungsbetrages als Ergebnis der Ursprungs-/Maskenfortpflanzung in der C.A.MA der Fig. 11 zu erreichen.
- Diese Schritte sind im wesentlichen die gleichen wie die entsprechenden Schritte 102C, 102D, 102E und 102F in der Fig. 4, außer der Tatsache, daß für einen normalen Währungsbetrag keine Zurückweisung nach dem Ende der Abtastung (Schritt 102E) existiert, statt dessen schreitet die Operation mit dem Schritt 106 (Fig. 3) voran. Die Schritte 104C, 104D, 104E und 104F werden daher nicht im Detail betrachtet. Es ist ausreichend festzustellen, daß jedes Mal, wenn ein "neuer" schwarzer Pixel während des Abtastens der Währungsbetrag-Ursprungssuchfläche C.A.SA (Fig. 10) aufgefunden wird, die Fortpflanzung in der Währungsbetrag- Maskensuchfläche C.A.MA (Fig. 11) eine CC (wie zuvor definiert) erzeugt.
- Ähnlich zu dem Schritt 102G der Fig. 4 testet dieser Schritt, ob die in dem Schritt 104F erzeugte CC angemessen auf der Größe, der Geometrie und dem Ort der CC basiert. Zu dem Zweck der Extrahierung des Währungsbetrages bestimmt dieser Test in dem Schritt 104 G, ob die erzeugte CC wahrscheinlich ein Teil des Währungsbetrages ist. Bspw. ist es eine nützliche Basis für die Bestimmung, ob eine erzeugte CC wahrscheinlich einen Teil des Währungsbetrages ist, zu bestimmen, ob Sie über die Begrenzung 52 (Fig. 11) der Währungsbetrag-Maskensuchfläche C.A.MA hinausragt, wie es bspw. bei der Linie 55 in der Fig. 11 der Fall ist. Eine derartig erzeugte CC ist sehr unwahrscheinlich ein Teil des Währungsbetrages.
- Wenn bei einer erzeugten CC bestimmt wurde, daß es unwahrscheinlich ist, daß sie ein Teil des Währungsbetrages in dem Schritt 104G ist, dann schreitet die Operation mit dem Schritt 104H voran, welcher die erzeugte CC aussortiert; die Operation kehrt dann zu dem Schritt 104C zurück, um das Abtasten für einen neuen schwarzen Pixel in der Währungsbetrag-Ursprungssuchfläche C.A.SA der Fig. 10 fortzusetzen.
- Wenn bei einer erzeugten CC bestimmt wird, daß es wahrscheinlich ist, daß sie ein Teil des Währungsbetrages in dem Schritt 104G ist, dann schreitet die Operation mit dem Schritt 104I voran, welcher die erzeugte CC (bspw. in dem RAM-Speicher 46 der Fig. 6) zur späteren Verwendung speichert. Die Operation geht dann zurück zu dem Schritt 104C, um die Abtastung für einen neuen schwarzen Pixel in der Währungsbetrag-Ursprungssuchfläche C.A.SA in der Fig. 10 fortzusetzen.
- Vor dem Verlassen des Schrittes 104I wird es hilfreich sein, den Unterschied festzustellen zwischen der Weise, in der erzeugte CCs zur Lokalisierung des "$"- Zeichens (Schritt 102, Fig. 3 und 4), und für die Währungsbetrag-Extrahierung und -Erkennung verwendet werden. Es wird in Erinnerung sein, daß zum Orten des "$"- Zeichens jedes erzeugte CC als eine Gesamtheit für Erkennungszwecke betrachtet wird, da das "$"-Zeichen mit hochqualitativem Druck zur Verfügung gestellt wird und normalerweise einen hohen Kontrast und keine Unterbrechungen aufweisen wird. Eine zur Extrahierung des Währungsbetrages erzeugte CC kann jedoch nur einen fragmentartigen Abschnitt eines Zeichens darstellen, da die Zeichen des Währungsbetrages verschiedene Unterbrechungen aufweisen, insbesondere wenn sie handgeschrieben sind. Daher kann ein Zeichen des Währungsbetrages aus einer Vielzahl von erzeugten CCs bestehen. Demnach wird bei der Extrahierung und der Erkennung des Währungsbetrages kein Versuch unternommen, eine erzeugte CC zu erkennen, wie es getan wird, wenn das "$"-Zeichen (Schritt 102H in der Fig. 4) lokalisiert wird. Statt dessen wird jede CC, bei welcher es wahrscheinlich, daß sie ein Teil des Währungsbetrages ist, in dem Schritt 104I gespeichert, bis die Gesamtfläche des Währungsbetrages abgetastet wurde, zu welchem Zeitpunkt alle erzeugten CCs, die wahrscheinlich ein Teil des Währungsbetrages sind, gespeichert wurden. Diese gespeicherten CCs bilden dann den extrahierten Währungsbetrag. Die Fig. 13 ist ein Beispiel eines derartig gespeicherten Währungsbetrages, welcher wie oben beschrieben extrahiert wurde. Daher dient der Weg der Ursprungs-/Maskenfortpflanzung zur Erzeugung von CCs als ein insbesondere vorteilhafter Weg des Extrahierens und Speicherns des Währungsbetrages zur Erkennung bezüglich des Währungsbetrages.
- Typischerweise wird der Schritt 104J über den Schritt 104E (welcher das Ende der Abtastung prüft) erreicht, nachdem die Abtastung der Währungsbetrag-Usprungssuchfläche C.A.SA (Fig. 10) abgeschlossen wurde, und alle erzeugten CCs, die wahrscheinlich ein Teil des Währungsbetrages sind, gespeichert wurden. Der Zweck des Schrittes 104J ist es, diesen gespeicherten, extrahierten Währungsbetrag (Fig. 13) durch Entfernen überflüssiger CCs, wie sie beispielhaft durch die Zeichen 62 und 63 bezeichnet sind, aufzuklären. Ein Weg der verwendet wird, ist es, überflüssige CCs, wie etwa 62, zu löschen, wenn sie um einen vorbestimmten Betrag oberhalb oder unterhalb des Bereiches des Währungsbetrages beabstandet sind. Dies kann bspw. erreicht werden, indem das gesamte Betragsfeld horizontal projiziert wird, um einen Bereich zu definieren, welcher obere und untere Grenzen aufweist. Es werden dann die CCs, wie etwa 62 in der Fig. 13, oberhalb und unterhalb dieser Grenzen gelöscht. Wenn die Projektion eine Vielzahl von Regionen erzeugt, sind die angemessenen oberen und unteren Grenzen diejenigen, die mit dem Bereich korrespondieren, welcher das "$"-Zeichen einschließt.
- Das Entfernen der überflüssigen CCs, wie etwa 63 in der Fig. 13, die rechts von dem Währungsbetrag angeordnet sind, stellt ein schwierigeres Problem dar, da sie einen Teil des Währungsbetrages sein können. Ein besonders vorteilhaftes Verfahren zum Bestimmen, ob diese CCs überflüssig, sind basiert auf der Bedingung, daß die horizontalen Abstände zwischen der ganz rechts liegenden CC und der am nächsten links von der CC liegende schwarze Pixel um eine vorbestimmte Größe größer sind, als die horizontale Breite der CC. Wenn diese Bedingung erfüllt ist, dann wird die CC als überflüssig betrachtet und wird gelöscht. Ein Beispiel, wie diese Bedingung implementiert werden kann, wird mit Bezug auf die Fig. 13 beschrieben. Zum Zwecke dieses Beispiels wird die Währungsbetragsregion als in Spalten unterteilt angesehen, die von links nach rechts durchnummeriert sind, wobei jede Spalte eine Breite aufweist, die einem Pixel entspricht. Als erstes werden die Orte der folgenden Spalten aus dem extrahierten Währungsbetrag bestimmt:
- C1 = Die ganz rechts liegende Spalte mit einem schwarzen Pixel.
- C2 = Die ganz rechts liegende Spalte der nächsten Fläche weißer Spalten mit einer minimalen Breite W links von C1.
- C3 = Die nächste Spalte zur linken von C2, mit einem schwarzen Pixel. Wenn die folgende Bedingung erfüllt ist:
- (C2 - C3) > K(C1 - C2)
- dann werden alle schwarzen Pixelelemente 63, die sich zwischen C1 und C3 befinden, gelöscht. Typischerweise kann W eine Breite aufweisen, die einer Breite von 3 Spalten entspricht, wobei die Wahl von W derart ist, daß die obige Bedingung nicht durch Abschnitte eines einzelnen Zeichens erfüllt wird. K kann typischerweise einen Wert von 1.5 annehmen. Die Werte von W und K werden derart gewählt, daß sichergestellt ist, daß der Währungsbetrag bezüglich eines überflüssigen CCs nicht falsch aufgenommen wird. Das Obige wird iterativ wiederholt, so lange bis die Bedingung erfüllt wird. Wenn die Bedingung nicht erfüllt wird, endet die Prüfung und die Operation schreitet zu dem nächsten Schritt 106 in der Fig. 3 fort.
- Aus der Fig. 3 wird klar, daß der Schritt 110 erreicht wird, wenn der während des Schrittes 104 extrahierte Währungsbetrag als handgeschrieben bestimmt wird. Der Zweck des Schrittes 110 ist es, den " "-Abschnitt 10b-1 (Fig. 1) von dem Dollar- Abschnitt 10b-2 des Währungsbetrages 10b zu separieren. Eine bevorzugte Weise zum Ausführen des Schrittes 110 in Übereinstimmung mit der Erfindung wird als nächstes mit Bezug auf die Schritte 110A bis 110H in der Fig. 12 betrachtet. Der "$"-Abschnitt und der " "-Abschnitt des Währungsbetrages wird im folgenden als "$"-Feld bzw. " "-Feld bezeichnet.
- Während des Schrittes 110A wird der extrahierte Währungsbetrag nach dem Vorhandensein eines Perioden- oder Dezimalpunktes abgesucht ("."). Ein derartiger Perioden- oder Dezimalpunkt ist natürlich ein Indiz für die Trennung zwischen ""$"- und " "-Feldern des Währungsbetrages, und seine Erfassung kann daher als eine Basis zum Trennen dieser Felder verwendet werden.
- Ein bevorzugtes Verfahren zum Erfassen des Vorhandenseins einer Periode wird mit Bezug auf die Fig. 14 beschrieben. Zu diesem Zweck wird der extrahierte Währungsbetrag von links nach rechts untersucht, wie etwa durch Verwendung einer Spalte-um-Spalte-Abtastung des Bildes des in dem RAM-Speichers 46 der Fig. 6 gespeicherten, extrahierten Währungsbetrages.
- Wenn ein potentieller Punktkandidat gefunden ist, wie etwa PC in der Fig. 13, werden eine obere Linie UL und einer untere Linie LL (Fig. 14) für den Währungsbetrag-Abschnitt (wie etwa die Zahl "9" in der Fig. 14) unmittelbar links von PC bestimmt. Die Linien sind von oben nach unten durchnummeriert. Ein potentieller Punktkandidat PC wird als tatsächlicher Punktkandidat betrachtet, wenn die folgenden Bedingungen erfüllt sind:
- (1) Der potentielle Punktkandidat PC weist eine Höhe auf, die nicht größer ist als 1/2 (UL - LL).
- (2) Der potentielle Punktkandidat PC weist eine Breite W auf, welche kleiner ist als eine vorbestimmte Größe.
- (3) Die Durchschnittslinienzahl des potentiellen Punktkandidaten PC ist kleiner als 1/2 (UL + LL).
- Typischerweise wird es bis zu drei Punktkandidaten erlaubt, basierend auf den obigen Messungen identifiziert zu werden. Die Operation schreitet dann zu dem Schritt 110B der Fig. 12 weiter.
- Während des Schrittes 110B werden die bis zu drei Punktkandidaten, die in dem Schritt 110A bestimmt wurden, untersucht, unter Verwendung wohlbekannter, statistischer Klassifikationstechniken, wie sie bspw. in den oben erwähnten Patenten offenbart sind. Wenn mehr als ein Punktkandidat als akzeptabel aufgefunden wird, wird der ganz rechts liegende als eine Trennung der "$"- und " "-Felder gewählt und die Operation schreitet dann zu dem Schritt 110G in der Fig. 12 weiter.
- Wenn überhaupt gar kein Punkt identifiziert wird, dann schreitet die Operation jedoch mit dem Schritt 110C voran, um zu versuchen, die "$"- und " "-Felder auf einer anderen Basis zu trennen.
- Während des Schrittes 110C wird das Unterschreiben des " "-Feldes des Währungsbetrages, wie in der Fig. 15 dargestellt, als Basis für die Trennung der "$"- und " "-Felder des Währungsbetrages untersucht. Zu diesem Zweck wird der extrahierte Währungsbetrag erneut von links nach rechts untersucht, um den Beginn eines überschriebenen Zeichens SC (bspw. die Ziffer "5" in der Fig. 14) zu erfassen.
- Ähnlich dem Schritt 110B, welcher die Suche für einen potentiellen Punktkandidaten beschreibt, werden die obere Linie UL und die untere Linie LL (Fig. 15) für den Währungsbetrag-Abschnitt (wie etwa die Ziffer "7" in der Fig. 15) unmittelbar links des überschriebenen Kandidatenzeichens SC bestimmt. Wiederum werden die Linien von oben nach unten durchnummeriert. Ein überschriebenes Kandidatenzeichen SC wird als ein tatsächliches überschriebenes Zeichen betrachtet, wenn die folgenden Bedingungen erfüllt:
- (1) Die Bodenlinienzahl des überschriebenen Währungsbetrag-Kandidatenzeichens ist nicht größer als 1/3 (2LL + UL).
- (2) Die Höhe des überschriebenen Kandidatenzeichens SC ist mindestens 1/3 (LL - UL).
- (3) Das überschriebene Kandidatenzeichen SC wird von dem Währungsbetragsabschnitt unmittelbar nach links getrennt (wie etwa die Ziffer "7" in der Fig. 15), um mindestens eine weiße Spalte. Eine weiße. Spalte ist eine Spalte ohne schwarze Pixel.
- (4) Der Währungsbetrags-Abschnitt SC' (die Ziffer "0" in der Fig. 14) unmittelbar rechts von dem überschriebenen Währungsbetragskandidatenzeichen SC weist eine niedrigere Linienzahl auf, die nicht größer ist als die untere Linienzahl von SC plus die Hälfte seiner Höhe.
- Der erste Kandidat, welcher die obigen Bedingungen erfüllt, wird als der Beginn eines überschriebenen " "-Feldes betrachtet.
- Die Operation schreitet dann zu dem Schritt 110D der Fig. 12 weiter.
- Der Schritt 110D empfängt die Ergebnisse der Suche für ein überschriebenes " "- Feld, welche in dem Schritt 110C ausgeführt wurde. Wenn ein überschriebenes Zeichen aufgefunden wurde, muß eine Basis zur Trennung der "$"- und " "-Felder bestimmt werden, und die Operation schreitet zu dem Schritt 110G weiter.
- Wenn jedoch ein überschriebenes "c"-Feld nicht aufgefunden wird, dann schreitet die Operation zu dem Schritt 110E in der Fig. 12 weiter, um eine andere Basis zur Trennung der "$"- und " "-Felder zu finden.
- Während des Schrittes 110E wird das Vorhandensein eines komplexen " "-Feldes, wie in den Fig. 16 und 17 dargestellt, untersucht, als eine Basis zur Trennung der "$"- und " "Felder. Es ist klar, daß Fig. 16 einen ersten Typ eines komplexen " "- Feldes zeigt, welcher aus zwei überschriebenen Ziffern mit einer Unterstreichung besteht. Die Fig. 17 zeigt einen zweiten Typ eines komplexen " "-Feldes, in welchem der " "-Betrag als ein Bruch vorliegt.
- Um zu bestimmen, ob ein komplexes " "-Feld vorhanden ist, wird der extrahierte Währungsbetrag erneut von rechts nach links untersucht, wie zuvor in den Schritten 110A und 110C beschrieben wurde. Bei der Suche nach einem komplexen " "- Feld wird das folgende bestimmt (siehe Fig. 16 und 17).
- (1) Die letzte besetzte Spalte C1 des extrahierten Währungsbetrages.
- (2) Die erste weiße Spalte C2 links von der letzten besetzten Spalte C1.
- (3) Die erste Linie L1, die durch einen Währungsbetragsabschnitt besetzt ist, rechts von der weißen Spalte C2 angeordnet.
- Wie in den Fig. 16 und 17 dargestellt, grenzen die Werte von C1, C2 und L1 einen bestimmten Abschnitt des extrahierten Währungsbetrages zum Testen ab, ob er ein passender Kandidat für ein komplexes " "-Feld ist. Der Test wird unter Verwendung statistischer Klassifikationstechniken vervollständigt, die speziell entworfen sind, um die verschieden möglichen " "-Feldtypen zu erkennen, und um insbesondere die in den Fig. 16 und 17 dargestellten komplexen " "-Feldtypen zu erkennen. Die Weise, in welcher derartige statistische Klassifikationstechniken implementiert werden können, ist aus den oben erwähnten Patenten klar.
- Wenn ein komplexes " "-Feld erkannt wird, wie etwa in den Fig. 16 und 17 dargestellt, dann wird die Spalte C2 als die trennende Spalte zwischen den "$"- und " "-Felder betrachtet. Es sei in Erinnerung gerufen, daß C2 die erste weiße Spalte ist, die links von der zuletzt besetzten Spalte C1 liegt.
- Die Ergebnisse der Operation in dem Schritt 110E werden dann zu dem Schritt 110F in der Fig. 12 weitergeleitet.
- Der Schritt 110F empfängt die Ergebnisse der Suche für ein komplexes " "-Feld, welche in dem Schritt 110E ausgeführt wurde. Wenn ein komplexes " "-Feld gefunden wurde, dann dient die Spalte C2 als Basis zur Trennung der "$"- und " "- Felder, und die Operation schreitet zu dem Schritt 110G in der Fig. 12 weiter.
- Wenn jedoch ein komplexes " "-Feld nicht aufgefunden wurde, dann tritt eine Zurückweisung auf, da keine Basis für die Trennung der "$"- und " "-Felder des Währungsbetrages gefunden wurde, und keine weitere Basis zur Trennung. Diesbezüglich sei klargestellt, daß zusätzliche Basen zum Liefern der Trennung ebenfalls zur Verfügung gestellt werden können.
- Es ist aus der vorstehenden Beschreibung der Fig. 12 klar, daß die Operation zu dem Schritt 110G als Ergebnis voranschreitet, daß eine Basis zum Trennen der " "- und "$"-Felder des Währungsbetrages gefunden wurde, entweder basierend auf dem Auffinden des Punktes (Schritte 110A und 110B), des Auffindens eines überschriebenen " "-Feldes (Schritte 110C und 110D), oder des Auffindens eines komplexes " "-Feldes (Schritte 110E und 110F).
- Demnach liefert der Schritt 110G die Trennung des " "-Feldes unter Verwendung der bestimmten Basis, die zur Trennung aufgefunden wurde (Punkt, Überschreibung oder komplexes " "-Feld).
- Auch während des Schrittes 110G wird das abgetrennte " "-Feld kategorisiert als eines von verschiedenen Typen, unter Verwendung statistischer Klassifikationstechniken, wie etwa jene, die in den zuvor erwähnten Patenten offenbart sind. Kategorien, die durch den Schritt 110G durch für die bevorzugte, beschriebene Ausführungsform zur Verfügung gestellt werden können, sind Doppelnullen; Doppelziffern, unterstrichene Doppelziffern und Brüche. Andere Kategorien können ebenfalls zur Verfügung gestellt werden.
- Wenn eine akzeptable Kategorie in dem Schritt 110G bestimmt wurde, schreitet die Operation zu Schritt 112 in der Fig. 12 weiter; andererseits tritt eine Zurückweisung auf.
- Eine bevorzugte Weise zum Ausführen des Schrittes 112 in Übereinstimmung mit der Erfindung wird als nächstes betrachtet. Es in Erinnerung gerufen, daß der Zweck des Schrittes 112 ist, die " "-Zeichen basierend auf der für das " "-Feld bestimmten Kategorie zu extrahieren.
- Die Operation in dem Schritt 112 für die verschiedenen Kategorien, die in der bevorzugten, beschriebenen Ausführungsform Zur Verfügung gestellt wurden, wird im folgenden beschrieben:
- Für diese Kategorie ist unmittelbar bekannt, daß der Wert des " "-Feldes Null ist, und daher schreitet die Operation zu dem Schritt 116 in der Fig. 3 ohne weitere Verarbeitung voran. Typischerweise wird diese Kategorie nur verwendet, wenn die Basis für die Trennung die Erfassung eines Punktes oder eines überschriebenen " "-Feldes ist.
- In dieser Kategorie sind die " "-Feld-Ziffern direkt verfügbar, so daß die Operation zu dem Schritt 114 in der Fig. 3 für deren Erkennung ohne weitere Verarbeitung voranschreitet. Wie auch die "Doppelnull-"Kategorie wird auch diese Kategorie typischerweise nur dann verwendet, wenn die Basis für die Trennung die Erfassung eines Punktes oder eines überschriebenen " "-Feldes ist.
- Für diese Kategorie werden die Operationen derart gelenkt, daß die Unterstreichung entfernt wird, so daß nur die " "-Zeichen verbleiben, wie in den Fig. 18 und 19 für ein " "-Feld, welches eine unterstrichene "36" enthält, dargestellt ist. Eine bevorzugte Implementierung zum Ausführen dieses Zweckes wird unten beschrieben.
- Als erstes wird die Steigung der Unterstreichung wie folgt bestimmt. Für jede Spalte des " "-Feldes wird die Anzahl der weißen Pixel bis zu dem ersten schwarzen Pixel von der unteren Ecke her gezählt. Wenn die Differenz dieser Zahlen für zwei aufeinanderfolgende Spalten größer ist, inbegriffen der Menge, als 4, dann ist eine Position der Diskontinuität vorhanden. Alle Positionen der Diskontinuität und der größte Spaltenbereich zwischen zwei Positionen der Diskontinuität in den " "- Feldern werden bestimmt. In dem größten Spaltenbereich wird die Unterstreichung auch erwartet. Zwei Bildkoordinatenpunkte (x1, y1) und (x2, y2) werden wie folgt definiert:
- x1 = Startspalte des Spaltenbereiches.
- y1 = Anzahl der weißen Pixel von der unteren Ecke bis zu dem ersten schwarzen Pixel in der Spalte x1.
- x2 = Endspalte des Spaltenbereiches.
- y2 = Anzahl der weißen Pixel von der unteren Ecke bis zu dem ersten schwarzen Pixel in der Spalte x2.
- Die Steigung SL der Unterstreichung wird dann durch die folgende Gleichung bestimmt:
- SL = (y2 - y1)/(x2 - x1)
- Um die aufgefunden Unterstreichung zu löschen, wird eine Familie von n geraden Linien der Steigung SL und der vertikalen Beabstandung von 1 gebildet. Die Anzahl n der geraden Linien ist abhängig von der Steigung der Unterstreichung und wird wie folgt etabliert:
- n = 11 für 0 ≤ su < 0.5
- n = 14 für 0.5 ≤ su < 1
- n = 25 für 1 ≤ su < 2
- n = 32 sonst
- Darüber hinaus werden Startpunkte auf diesen geraden Linien für die Abtastung des " "-Feldes von rechts und von links mit der Abtastschrittweite 1 entlang der geraden Linien bestimmt:
- Im Falle der Abtastung von links:
- xI (i) = erste Spalte des " "-Feldes (für alle geraden Linien) yI (i) = y Start + i - 1 (für die i-te gerade Linie)
- In diesem Fall wird y Start derart etabliert, daß (x1 y1) unter den Abtastpunkten der ersten geraden Linie auftritt.
- Im Falle der Abtastung von rechts:
- xr (i) = letzte Spalte des " "-Feldes (für alle geraden Linien)
- yr (i) = y Start + i - 1 (für die i-te gerade Linie)
- In diesem Fall wird y Start derart etabliert, daß (x2, y2) unter den Abtastpunkten der ersten geraden Linie auftreten.
- Das " "-Feld wird entlang dieser geraden Linien abgetastet, mit dem Ziel des Bestimmens der geraden Linie unterhalb derer soweit wie möglich die gesamte Unterstreichung, jedoch keine nützliche Information, auftritt. Zu diesem Zweck wird die Anzahl der Abtastpunkte bis zum Abtastpunkt mit dem ersten schwarzen Pixel in dem " "-Feld gezählt, für alle geraden Abtastlinien bei der Abtastung von rechts und von links. Dann werden die geraden Linien mit der maximalen Anzahl von gezielten Abtastpunkten bei der Abtastung von rechts und bei der Abtastung von links bestimmt. Für diesen Bereich von geraden Linien wird diejenige ausgewählt, die die niedrigste ist. Alle Abschnitte der extrahieren Zielfelder unterhalb dieser niedrigsten geraden Linie werden gelöscht, was das in der Fig. 19 dargestellte Ergebnis erzeugt. Die obige Prozedur behandelt auch die Situation, wo die " "- Zeichen die Unterstreichung schneiden,
- Nach dem Auslöschen der Unterstreichung (Fig. 19) werden die verbleibenden " "- Feldkomponenten ("36" in der Fig. 19) erneut untersucht, unter Verwendung statistischer Klassifikationstechniken, um zu bestimmen, ob es sich um eine Doppelnull- oder Doppelziffer-Kategorie handelt. Wenn die Kategorie Doppelnull ist, wird die Operation bei dem Schritt 116 fortgesetzt, da der Wert des Zielfeldes als Null bekannt ist. Wenn die Kategorie Doppelziffer ist, wird die Operation mit dem Schritt 114 zum Erkennen der Doppelziffern fortgesetzt. Wenn keine der Kategorien aufgefunden wird, tritt eine Zurückweisung auf.
- Für diese Kategorie wird die Operation derart gesteuert, daß zunächst der Nenner entfernt wird, und dann die Bruchlinie entfernt wird, wie in den Fig. 20, 21 und 22 für ein Zielfeld dargestellt ist, welches aus einem Bruch mit einem Zähler "80" und einem Nenner "100" besteht. Eine bevorzugte Implementierung zur Vervollständigung dieses Zieles ist unten beschrieben.
- Als erstes wird das Feld in einem Spaltenbereich untersucht, innerhalb dessen die Bruchlinie erwartet wird. Dies kann bspw. durch Bestimmung der verbundenen Komponentengruppe CC mit der größten Breite geschehen. Wenn einmal die Bruchlinie aufgefunden wurde, wird ihre Steigung durch Auffinden der Koordinaten x1, y1, x2, y2 und durch Berechnen der Steigung in der gleichen Art und Weise, wie sie zuvor für das untestrichene, komplexe " "-Feld geschrieben wurde, bestimmt.
- Eine gerade Teilungslinie wird nunmehr etabliert, oberhalb derer soweit wie möglich nur der Zähler und die Bruchlinie angeordnet ist. Diese gerade Teilungslinie wird durch die Steigung und durch die Koordinaten (x1, y1 + Offset) bestimmt, mit
- Offset = 2 für 0 ≤ sb < 0.5
- Offset = 3 für 0.5 ≤ sb < 1
- Offset = 7 für 1 ≤ sb < 2
- Offset = 10 sonst.
- Nachdem derart die gerade Teilungslinie etabliert wurde, werden die " "-Feldkomponenten unterhalb dieser Teilungslinie gelöscht, was für das in der Fig. 19 dargestellte Bruchbeispiel in der Löschung des Nenners "100" mündet. Daher wird die verbleibende " "-Feldkomponente die in der Fig. 21 dargestellte, unterstrichene "80" sein.
- Demnach, da die Bruchoperationen bisher unterstrichene Doppelnullen oder Doppelziffern ergeben haben, wie in der Fig. 21 dargestellt, werden die verbleibenden " "- Feldkomponenten unter Verwendung statistischer Klassifikationstechniken untersucht, um zu bestimmen, ob diese verbleibenden Komponenten tatsächlich mit diesen unterstrichenen Doppelnullen oder unterstrichenen Doppelziffern korrespondieren. Wenn dem so ist, schreitet die Operation wie zuvor für die unterstrichene komplexe " "-Feld-Kategorie beschrieben voran, um die " "-Zeichen (Fig. 22) zu extrahieren; wenn dem nicht so ist, tritt eine Zurückweisung auf.
- Während die Erfindung hier mit Bezug auf die speziellen, bevorzugten Ausführungsformen beschrieben wurde, ist klar, daß viele Modifikationen und Variationen bei der Implementierung, der Anordnung und der Verwendung innerhalb des Schutzbereiches der Erfindung möglich sind. Bspw. kann die Anzahl und der Typ der Ursprungs- und Maskenbilder und der Suchflächen, die verwendet wurden, variiert werden, sowie die Anzahl und die Typen der Klassifikationskategorien. Darüber hinaus ist klar, daß die Ursprungs- und Maskenbilder nicht auf binäre (zweistufige) Bilder beschränkt sind. Bspw. kann ein Maskenbild selbst ein Grauwert (vielstufiges) Bild sein, um zusätzliche Information zur Verfügung zu stellen, die zur Extrahierung des Währungsbetrages, der Trennung des " "-Feldes und/oder der Erkennung nützlich ist. Auch können Verarbeitungsschritte hinzugefügt werden, um zusätzliche Eigenschaften zur Verfügung zu stellen, oder es können beschriebene Schritte entfernt oder neu angeordnet werden. Zusätzlich kann die Erfindung an eine große Vielzahl von Anwendungen neben den beschriebenen angepaßt werden. Demnach sind die folgenden Ansprüche derart aufzufassen, daß alle möglichen Modifikationen und Variationen innerhalb des dort definierten Schutzbereiches liegen.
Claims (11)
1. Verfahren zum Extrahieren von Daten aus einem Dokument durch
elektronisches Abtasten des Dokumentes, um eine Bilddarstellung zu erhalten, welche zur
weiteren Verarbeitung gespeichert wird, zum Lokalisieren von Bildkomponenten
und zum Analysieren der Daten dieser Bildkomponenten,
gekennzeichnet durch die Schritte:
eine Grauwert-Bilddarstellung mindestens eines Abschnittes des Dokumentes wird
zur Verfügung gestellt;
die Grauwert-Bilddarstellung wird derart in erste und zweite Bilddarstellungen
umgewandelt, daß die erste Bilddarstellung nur Grauwert-Bildkomponenten
aufweist, die einen ersten Kontrastwert übersteigen, und die zweite Bilddarstellung nur
Grauwert-Bildkomponenten aufweist, die einen zweiten Kontrastwert übersteigen,
wobei der erste Kontrastwert höher ist als der zweite Kontrastwert, wobei jede
Bildkomponente in der ersten Bilddarstellung eine entsprechende Komponente in
der zweiten Bilddarstellung aufweist, wobei die Umwandlung auch eine dritte
Bilddarstellung zur Verfügung stellt, welche nur Grauwertbildkomponenten
einschließt, die einen dritten Kontrastwert übersteigen, wobei der dritte Kontrastwert
zwischen dem ersten und dem zweiten Kontrastwert liegt, und wobei jede
Bildkomponente in der dritten Bilddarstellung eine entsprechende Komponente in der
zweiten Bilddarstellung aufweist;
eine vorgeschriebene Fläche der ersten Bilddarstellung wird zur Lokalisierung einer
ersten Bildkomponente abgetastet;
in Antwort auf das Auffinden einer ersten Bildkomponente in der vorgeschriebenen
Fläche der ersten Bilddarstellung durch Abtastung wird die erste Bildkomponente
in eine erste vorgeschriebene Fläche der zweiten Bilddarstellung zur Erzeugung
einer verbundenen Komponentengruppe, die aus der ersten Bildkomponete und den
Bildkomponenten in der vorgeschriebenen ersten Fläche der zweiten Bilddarstellung
besteht, übertragen, mit einer vorgeschriebenen Verknüpfungsbeziehung bezüglich
der ersten Bildkomponente;
es wird bestimmt, ob eine erzeugte, verbundene Komponentengruppe einem
bestimmten Symbol entspricht;
wobei das Abtasten, das Erzeugen und das Bestimmen fortgeführt wird, bis eine
erzeugte Komponentengruppe erzeugt ist, welche bestimmt ist, um dem
bestimmten Symbol zu entsprechen, oder bis die Abtastung des vorgeschriebenen
Bildberei
ches der ersten Bilddarstellung abgeschlossen ist;
in Antwort auf die Bestimmung, daß eine verbundene Komponentengruppe einem
bestimmten Symbol entspricht, wird eine vorgeschriebene Fläche der dritten
Bilddarstellung nach der zweiten Bildkomponente abgetastet, wobei die
vorgeschriebene Fläche der dritten Bilddarstellung basierend auf dem Ort des bestimmten
Symbols ausgewählt wird;
in Antwort auf das Auffinden einer zweiten Bildkomponente in der
vorgeschriebenen Fläche der dritten Bilddarstellung wird die zweite Bildkomponente in eine
vorgeschriebene zweite Fläche der zweiten Bilddarstellung zur Erzeugung einer
verbundenen Komponentengruppe, die aus der zweiten Bildkomponente und den
Bildkomponenten in der vorgeschriebenen zweiten Bildfläche besteht, übertragen,
mit einer vorgeschriebenen Verknüpfungsbeziehung zu der zweiten Bildkomponente
in der vorgeschriebenen zweiten Fläche, wobei die vorgeschriebene zweite Fläche
auch basierend auf dem Ort des bestimmten Symbols gewählt wird;
es wird bestimmt, ob eine verbundene Komponentengruppe, die für die
vorgeschriebene zweite Fläche erzeugt wurde, vorgeschriebenen Eigenschaften
entsprechend den bestimmten Daten, die von dem Dokument zu extrahieren sind,
entspricht, und wenn dies der Fall ist, wird die erzeugte, verbundene
Komponentengruppe gespeichert; und
die Abtastung der vorgeschriebenen Fläche der dritten Bilddarstellung wird nach
dem Speichern wieder aufgenommen;
das Abtasten, das Erzeugen, das Bestimmen und das Speichern bezüglich der
dritten und zweiten Bilddarstellungen wird fortgesetzt, bis die Abtastung der
vorgeschriebenen Fläche der dritten Bilddarstellung abgeschlossen ist.
2. Verfahren nach Anspruch 1,
wobei:
während des Abtastens werden Bildkomponenten der in Abtastung befindlichen
Fläche ignoriert, die Bildkomponenten entsprechen, die in einer zuvor erzeugten,
verbundenen Komponentengruppe eingeschlossen sind.
3. Verfahren nach Anspruch 1,
wobei das Dokument ein Finanzdokument ist, wobei die zu extrahierenden Daten
eine Summe mit einem zu dieser benachbarten, assoziierten Symbol sind, und
wobei das assoziierte Symbol das bestimmte Symbol ist.
4. Verfahren nach Anspruch 3,
wobei die Qualität des Druckens des bestimmten Symbols auf dem Dokument in
Verbindung mit dem ersten und dem zweiten Kontrastwert gewählt wird, so daß
eine verbundene Komponentengruppe für das bestimmte Symbol erzeugt werden
wird, welches als das bestimmte Symbol sofort erkennbar ist.
5. Verfahren nach Anspruch 1,
wobei jede Bilddarstellung, die durch das Umwandeln erzeugt wird, eine digitale
Darstellung ist, die aus Pixeln besteht, wobei jeder Pixel einer jeweiligen
Bildkomponente entspricht und wobei jeder Pixel einen digitalen Wert aufweist, welcher
den Kontrastwert seines entsprechenden Ortes in der Grauwert-Bilddarstellung
anzeigt.
6. Verfahren nach Anspruch 5,
wobei die digitale Darstellung eine binäre Darstellung ist.
7. Verfahren nach Anspruch 6,
wobei das Umwandeln jede Bilddarstellung erzeugt, indem die
Grauwert-Bilddarstellung einem Threshold unterworfen wird, welcher basierend auf den Grauwerten,
die auf der sich ergebenden Bilddarstellung eingeschlossen werden, ausgewählt
wird.
8. Verfahren nach Anspruch 5,
wobei das Umwandeln gleichzeitig die Bilddarstellungen erzeugt.
9. Verfahren nach Anspruch 1, 2, 3, 4 oder 5 mit den Schritten:
nachdem die Abtastung der vorgeschriebenen Fläche der dritten Bilddarstellung
abgeschlossen ist, werden die gespeicherten, von der Abtastung der zweiten
Bilddarstellung abgeleiteten, verbundenen Komponentengruppen der automatischen
Datenerkennungsvorrichtung zum Erkennen der Daten auf dem Dokument
zugeführt.
10. Verfahren nach Anspruch 9, mit den Schritten:
vor dem Zuführen werden alle der gespeicherten, verbundenen
Komponentengruppen, die sich außerhalb einer Region befinden, die bestimmt ist, um die zu
extrahierenden Daten zu enthalten, entfernt.
11. Verfahren nach Anspruch 1 oder 3,
wobei das bestimmte Symbol "$" ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE69130535T DE69130535T2 (de) | 1990-09-28 | 1991-09-26 | Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentes |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4030799 | 1990-09-28 | ||
EP9001639 | 1990-09-28 | ||
US07/601,142 US5864629A (en) | 1990-09-28 | 1990-10-19 | Character recognition methods and apparatus for locating and extracting predetermined data from a document |
DE69130535T DE69130535T2 (de) | 1990-09-28 | 1991-09-26 | Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentes |
PCT/US1991/007120 WO1992006449A1 (en) | 1990-09-28 | 1991-09-26 | Character recognition methods and apparatus for locating and extracting predetermined data from a document |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69130535D1 DE69130535D1 (de) | 1999-01-07 |
DE69130535T2 true DE69130535T2 (de) | 1999-07-15 |
Family
ID=27201730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69130535T Expired - Fee Related DE69130535T2 (de) | 1990-09-28 | 1991-09-26 | Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentes |
Country Status (9)
Country | Link |
---|---|
US (1) | US5864629A (de) |
EP (1) | EP0551403B1 (de) |
JP (1) | JP3078318B2 (de) |
AT (1) | ATE173846T1 (de) |
AU (1) | AU658839B2 (de) |
CA (1) | CA2091997C (de) |
DE (1) | DE69130535T2 (de) |
WO (1) | WO1992006449A1 (de) |
ZA (1) | ZA917532B (de) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69519323T2 (de) * | 1994-04-15 | 2001-04-12 | Canon Kk | System zur Seitensegmentierung und Zeichenerkennung |
JPH09259219A (ja) * | 1996-03-26 | 1997-10-03 | Sharp Corp | 文字認識方法 |
US7411593B2 (en) | 2001-03-28 | 2008-08-12 | International Business Machines Corporation | Image rotation with substantially no aliasing error |
US7653871B2 (en) * | 2003-03-27 | 2010-01-26 | General Electric Company | Mathematical decomposition of table-structured electronic documents |
US20040194009A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding, extraction and structured reformatting of information in electronic files |
US20040193520A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding and decomposition of table-structured electronic documents |
US20050094861A1 (en) * | 2003-10-31 | 2005-05-05 | International Business Machines Corporation | Positional synchronization in a multivoting character recognition environment |
US7793989B2 (en) * | 2004-07-14 | 2010-09-14 | Pinckney Jr Robert | Locking connector with depressions |
US7653233B2 (en) * | 2005-09-12 | 2010-01-26 | Pitney Bowes Inc. | Confirming cancellation of truncated checks |
RU2006101908A (ru) * | 2006-01-25 | 2010-04-27 | Аби Софтвер Лтд. (Cy) | Структурное описание документа, способ описания структуры графических объектов и способы их распознавания (варианты) |
US8571262B2 (en) | 2006-01-25 | 2013-10-29 | Abbyy Development Llc | Methods of object search and recognition |
US20070253615A1 (en) * | 2006-04-26 | 2007-11-01 | Yuan-Hsiang Chang | Method and system for banknote recognition |
US8136721B2 (en) * | 2006-05-12 | 2012-03-20 | International Business Machines Corporation | Enhanced check code line image capture for improved OCR |
US9740692B2 (en) | 2006-08-01 | 2017-08-22 | Abbyy Development Llc | Creating flexible structure descriptions of documents with repetitive non-regular structures |
US7836932B2 (en) | 2007-09-14 | 2010-11-23 | 3M Innovative Properties Company | Taping head |
US10650265B1 (en) * | 2019-05-29 | 2020-05-12 | Capital One Services, Llc | Systems and methods for enhancing real-time image recognition |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1311486A (en) * | 1969-03-31 | 1973-03-28 | Dunlop Holdings Ltd | Floor structures for inflatable boats |
DE3174105D1 (en) * | 1981-12-23 | 1986-04-17 | Ibm | Method of recognizing characters in an optical document reader |
US4590606A (en) * | 1982-12-13 | 1986-05-20 | International Business Machines Corporation | Multi-function image processing system |
JPS59186079A (ja) * | 1983-04-06 | 1984-10-22 | グローリー工業株式会社 | 紙幣識別装置 |
US4685141A (en) * | 1983-12-19 | 1987-08-04 | Ncr Canada Ltd - Ncr Canada Ltee | Method and system for finding image data associated with the monetary amount on financial documents |
GB2164442A (en) * | 1984-09-11 | 1986-03-19 | De La Rue Syst | Sensing the condition of a document |
US4628194A (en) * | 1984-10-10 | 1986-12-09 | Mars, Inc. | Method and apparatus for currency validation |
US4764972A (en) * | 1985-05-23 | 1988-08-16 | Nec Corporation | Continuous characters recognition system |
US4813077A (en) * | 1986-07-30 | 1989-03-14 | Scan-Optics, Inc. | Sales transaction record processing system and method |
US4888812A (en) * | 1987-12-18 | 1989-12-19 | International Business Machines Corporation | Document image processing system |
US5040226A (en) * | 1988-05-31 | 1991-08-13 | Trw Financial Systems, Inc. | Courtesy amount read and transaction balancing system |
-
1990
- 1990-10-19 US US07/601,142 patent/US5864629A/en not_active Expired - Lifetime
-
1991
- 1991-09-20 ZA ZA917532A patent/ZA917532B/xx unknown
- 1991-09-26 JP JP03517202A patent/JP3078318B2/ja not_active Expired - Fee Related
- 1991-09-26 DE DE69130535T patent/DE69130535T2/de not_active Expired - Fee Related
- 1991-09-26 WO PCT/US1991/007120 patent/WO1992006449A1/en active IP Right Grant
- 1991-09-26 EP EP91918813A patent/EP0551403B1/de not_active Expired - Lifetime
- 1991-09-26 CA CA002091997A patent/CA2091997C/en not_active Expired - Lifetime
- 1991-09-26 AT AT91918813T patent/ATE173846T1/de not_active IP Right Cessation
- 1991-09-26 AU AU87466/91A patent/AU658839B2/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
ZA917532B (en) | 1992-06-24 |
EP0551403A1 (de) | 1993-07-21 |
AU658839B2 (en) | 1995-05-04 |
JP3078318B2 (ja) | 2000-08-21 |
JPH06501801A (ja) | 1994-02-24 |
AU8746691A (en) | 1992-04-28 |
CA2091997C (en) | 2001-12-11 |
WO1992006449A1 (en) | 1992-04-16 |
ATE173846T1 (de) | 1998-12-15 |
EP0551403B1 (de) | 1998-11-25 |
DE69130535D1 (de) | 1999-01-07 |
CA2091997A1 (en) | 1992-03-29 |
US5864629A (en) | 1999-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69414530T2 (de) | Bildkompression von Dokumenten mit Aufgeben des Formblattes | |
DE69604481T2 (de) | Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern | |
DE69130535T2 (de) | Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentes | |
DE68915950T2 (de) | Verfahren zum Trennen von Zeichen. | |
DE69329380T2 (de) | Verfahren zum Segmentieren von Bildern und Klassifizieren von Bildelementen zur Dokumentverarbeitung | |
DE68924669T2 (de) | System zum Lesen des Ziffernbetrages und zum Uebertragen der Kontoabrechnung. | |
DE69724755T2 (de) | Auffinden von Titeln und Photos in abgetasteten Dokumentbildern | |
DE3650554T2 (de) | Speicherungs- und Wiederauffindungsverfahren für Bilddaten | |
DE4311172C2 (de) | Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes | |
DE3926327C2 (de) | Verfahren und System zum Erkennen von Zeichen auf einem Medium | |
DE3689416T2 (de) | Mustermerkmalextraktion. | |
DE69723220T2 (de) | Gerät und Verfahren zur Extrahierung von Tabellengeraden innerhalb normaler Dokumentbilder | |
DE60224128T2 (de) | Vorrichtung und Verfahren zum Erkennen von Zeichen und mathematischen Ausdrücken | |
DE68922772T2 (de) | Verfahren zur Zeichenkettenermittlung. | |
DE69226846T2 (de) | Verfahren zur Bestimmung von Wortgrenzen im Text | |
DE69432585T2 (de) | Verfahren und Gerät zur Auswahl von Text und/oder Non-Text-Blöcken in einem gespeicherten Dokument | |
EP2545492B1 (de) | Dokumentseitenaufteilung in einer optischen zeichenerkennung | |
DE69516751T2 (de) | Bildvorverarbeitung für Zeichenerkennungsanlage | |
DE10195927B4 (de) | Verallgemeinerte Textlokalisation in Bildern | |
DE69525401T2 (de) | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind | |
DE19705757C2 (de) | Verfahren zum Erkennen eines Eingabemusters und zum Erzeugen einer Datenbank sowie Zeichenerkennungssystem | |
DE69229536T2 (de) | Verfahren und Gerät zum Auswahl linguistisch bezeichnender Bilder in einem Dokumentbild ohne Dekodierung des Bildinhalts | |
DE19814075B4 (de) | Verfahren zum Abtasten und Erkennen mehrerer Fotografien und zum Beseitigen von Randfehlern | |
DE69426479T2 (de) | Optische Mehrfontzeichenerkennung mit einem Verbindungsschachtelansatz | |
DE19953608B4 (de) | Vorrichtung und Verfahren zum Erkennen eines Fonts eines Textes in einem Dokumentenverarbeitungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |