[go: up one dir, main page]

DE69529015T2 - Schnelligkeits- und Erkennungsverbesserung für OCR mittels normalisierter Höhen-/Breitenposition - Google Patents

Schnelligkeits- und Erkennungsverbesserung für OCR mittels normalisierter Höhen-/Breitenposition

Info

Publication number
DE69529015T2
DE69529015T2 DE69529015T DE69529015T DE69529015T2 DE 69529015 T2 DE69529015 T2 DE 69529015T2 DE 69529015 T DE69529015 T DE 69529015T DE 69529015 T DE69529015 T DE 69529015T DE 69529015 T2 DE69529015 T2 DE 69529015T2
Authority
DE
Germany
Prior art keywords
character
normalized
library
values
height
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69529015T
Other languages
English (en)
Other versions
DE69529015D1 (de
Inventor
Richard G. Casey
Hiroyasu Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69529015D1 publication Critical patent/DE69529015D1/de
Publication of DE69529015T2 publication Critical patent/DE69529015T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/166Normalisation of pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung betrifft allgemein die optische Zeichenerkennung und insbesondere automatische Verfahren und Vorrichtungen zum Verringern von Erkennungsfehlern, speziell solcher Fehler, die sich aus der Unfähigkeit ergeben, zwischen Groß- und Kleinbuchstaben oder anderen Zeichen ähnlicher Form, aber unterschiedlicher Größe oder Position zu unterscheiden.
  • Programmierbare Computer und digitale Verarbeitungsvorrichtungen haben sich als geeignet für die optische Zeichenerkennung herausgestellt, bei der sichtbare Zeichenvermerke wie beispielsweise gedruckter Text abgetastet, identifiziert und einem Zeichencode zugeordnet werden, der elektronisch gespeichert sein kann. Ein Textverarbeitungs- "Dokument" ist ein Beispiel für eine Datendatei, die Zeichencodewerte enthält, die ein Computer interpretieren und auf einer Katodenstrahlröhre oder als gedrucktes Dokument in einer durch Menschen lesbaren Form wiedergeben kann. Gegenwärtig sind viele Zeichencodestandards in Gebrauch, wobei das ASCII-Code-System (American Standard Code for Information Interchange, Amerikanischer Standardcode für Informationsaustausch) am weitesten verbreitet ist.
  • Viele vorhandene optische Zeichenerkennungssysteme machen Erkennungsfehler bei der Unterscheidung von Zeichen, die sehr ähnliche Form, aber unterschiedliche Größe aufweisen oder sich in unterschiedlichen Positionen befinden. Bei Groß- und Kleinbuchstaben (S/s) sowie Apostrophen und Kommas ("/,) beispielsweise kommt es leicht zu solchen Fehlern. Ungeachtet ihrer Formähnlichkeit unterscheidet sich ihre Größe oder Position normalerweise so stark, dass diese Fehlerart vermieden werden muss.
  • Obwohl einige optische Zeichenerkennungssysteme zur Unterscheidung Informationen zu Größe und Position der Zeichen verwenden, sind sie immer noch von Erkennungsfehlern betroffen, insbesondere wenn die vielen aktuell verwendeten elektronischen Schriftarten betroffen sind. Daher wäre es wünschenswert, ein System bereitzustellen, das Informationen zu Größe und Position der Zeichen so verwendet, dass die Geschwindigkeit und die Trefferquote bei der optischen Zeichenerkennung verbessert werden.
  • Die Europäische Patentanmeldung A-0 457 534 beschreibt eine Zeichenerkennungsvorrichtung, bei der in Binärform eingegebene Zeichenbilder zur Verarbeitung einzeln ausgeschnitten werden. Durch Auswählen des Zeichens mit der maximalen Höhe in einer Zeile von Zeichen wird eine Standardzeichengröße berechnet. Die Höhe und die Position jedes Zeichens werden dann in Bezug auf die Standardzeichengröße normalisiert. Dann werden Merkmale des Zeichenbildes zum Vergleich mit einer Zeichenbibliothek ausgesucht, um eine Ähnlichkeitsentscheidung zu erhalten. Eine Unterscheidung zwischen Groß- und Kleinbuchstaben kann man erhalten, je nachdem, ob ein Pixel im oberen Teil des Zeichens unterhalb einer Höhe von x% vorhanden ist. Zwischen ähnlichen Zeichen wird anhand der Informationen zu Höhe und Position unterschieden.
  • Gemäß der vorliegenden Erfindung wird nun ein automatisches optisches Zeichenerkennungsverfahren zum Einsatz in einer programmierbaren digitalen Verarbeitungsvorrichtung bereitgestellt, das die folgenden Schritte umfasst: Auswählen einer Folge von Bitmap-Darstellungen eines oder mehrerer Zeichen in einer Matrix von optisch zu erkennenden Zeichen, wobei die eingegebenen Bitmap-Darstellungen ein oder mehrere Dimensionsmerkmale der Zeichen definieren, Erzeugen einer Gruppe aus einem Standarddimensionswert ermittelter normalisierter Werte für jedes Zeichen, wobei die normalisierten Werte den Dimensionsmerkmalen des einen oder der mehreren Zeichen entsprechen, und Ausführen der optischen Zeichenerkennung durch Vergleichen der Zeichenmerkmale mit entsprechenden Merkmalen in einer Bibliothek von Prototypzeichenschablonen, wobei das Verfahren durch das Erzeugen einer Häufigkeitsverteilung eines der Zeichendimensionsmerkmale als eine Folge von Summationen gekennzeichnet ist, die eine Häufigkeit des Auftretens der ausgewählten Dimensionsmerkmale darstellen, ferner durch das Identifizieren eines Spitzenwertes (Peak) in der Häufigkeitsverteilung, durch das Erzeugen des Standarddimensionswertes aus dem identifizierten Spitzenwert in der Häufigkeitsverteilung, sowie durch das Vorprüfen der optischen Zeichenerkennung durch Vergleichen des normalisierten Dimensionswertes mit entsprechenden Werten in der Bibliothek von Prototypzeichenschablonen.
  • Die vorliegende Erfindung stellt auch ein automatisiertes optisches Zeichenerkennungssystem zur Verfügung, das ein Mittel zum Auswählen einer Folge von Bitmapdarstellungen eines oder mehrerer Zeichen in einer Matrix von optisch zu erkennenden Zeichen umfasst, wobei die eingegebenen Bitmapdarstellungen ein oder mehrere Dimensionsmerkmale des Zeichens definieren, ferner ein Mittel zum Erzeugen einer aus einem Standarddimensionswert ermittelten Gruppe von normalisierten Werten für jedes Zeichen, wobei die normalisierten Werte dem einen oder den mehreren Zeichendimensionsmerkmalen entsprechen, sowie ein Mittel zum Ausführen der optischen Zeichenerkennung durch Vergleichen der Zeichenmerkmale mit entsprechenden Merkmalen in einer Bibliothek von Prototypzeichenschablonen, wobei das Zeichenerkennungssystem gekennzeichnet ist durch ein Mittel zum Erzeugen einer Häufigkeitsverteilung eines oder mehrerer der ausgewählten Zeichendimensionsmerkmale als eine Folge von Summationen, die eine Häufigkeit des Auftretens des ausgewählten Dimensionsmerkmals darstellt, ferner durch ein Mittel zum Identifizieren eines Spitzenwertes in der Häufigkeitsverteilung, durch ein Mittel zum Erzeugen des Standarddimensionswertes aus dem identifizierten Spitzenwert in der Häufigkeitsverteilung, sowie durch ein Mittel zum Vorprüfen der optischen Zeichenerkennung durch Vergleichen der normalisierten Dimensionswerte mit entsprechenden Werten in der Bibliothek von Prototypzeichenschablonen.
  • Die Aufgaben, Vorteile und Merkmale der vorliegenden Erfindung sind besser unter Bezug auf die folgende detaillierte Beschreibung und die beiliegenden Zeichnungen zu verstehen, wobei:
  • Fig. 1 ein Blockschaltbild eines automatisierten Zeichenerkennungssystems ist, das gemäß der vorliegenden Erfindung aufgebaut ist;
  • Fig. 2 eine Veranschaulichung einer zu erkennenden Zeile gedruckten Texts ist;
  • Fig. 3 die in einer Textzeile gemessenen Dimensionsparameter veranschaulicht;
  • Fig. 4A und 4B ein Flussdiagramm sind, das ein automatisiertes optisches Zeichenerkennungsverfahren gemäß der vorliegenden Erfindung ausführt; und
  • Fig. 5 ein Graph der Häufigkeitsverteilung ist, der die Häufigkeit der Zeichenhöhe als Funktion von den Zeichenhöhe zeigt.
  • Entsprechend Fig. 1 kann die optische Zeichenerkennung gemäß der vorliegenden Erfindung durch die veranschaulichte Datenverarbeitungsvorrichtung durchgeführt werden, die einen programmierbaren Computer 10 mit einer (nicht gezeigten) Tastatur, einer Datenspeicherressource 20, einem Anzeigemonitor 30 und einer optischen Abtasteinheit 40 enthält. Diese Komponenten sind üblicherweise bekannt und können eine große Vielzahl von Komponententypen und Systemanordnungen enthalten. Die Datenverarbeitungsvorrichtung wird durch ein OCR-Softwaresystem 50 (Optical Character Recognition, optische Zeichenerkennung) gesteuert, das sich während der Programmausführung im Arbeitsspeicher innerhalb des programmierbaren Computers befindet. Während das Softwaresystem 50 nicht in Gebrauch ist, bleibt es innerhalb der Datenspeicherressource 20 gespeichert, die als Oberbegriff einer oder mehrerer einer Vielzahl von Datenspeichereinheiten angesehen werden kann, zu denen Diskettenlaufwerke, optische Plattenlaufwerke, Magnetbandspeicher, Wechselfestplatten oder andere Vorrichtungen gehören.
  • Das Softwaresystem 50 enthält, wie im Folgenden genauer beschrieben, einen ausführbaren Instruktionssatz zum Steuern der Datenverarbeitungsvorrichtung zur automatischen Erkennung Von Zeichen, die eine Zeichenmatrix auf einem Blatt mit Drucktext bilden, welches ein Eingabedokument 60 darstellt. Die Fig. 2 und 3 veranschaulichen eine Drucktextzeile 70, die im Eingabedokument 60 auftreten kann und deren Zeichen erkannt werden sollen.
  • Die Fig. 4A und 4B veranschaulichen die bei dem Verfahren der optischen Zeichenerkennung der vorliegenden Erfindung auszuführenden Schritte. Das Verfahren verbessert die für die optische Erkennung von Zeichen in einer Textzeile erforderliche Geschwindigkeit und Erkennungsquote, indem es Attribute wie Zeichenhöhe, Zeichenbreite und Zeichenposition bezüglich einer Grundlinie dynamisch normalisiert und dazu ein von den Zeichen selbst abgeleitetes Standardattribut verwendet. Schritt 80 des Verfahrens beginnt mit einer Bitmap- Datei als Eingabe. Die Bitmap-Datei kann in der Datenspeicherressource 20 vorliegen oder durch die optische Abtasteinheit 40 erzeugt und direkt durch sie eingegeben werden. Die optische Abtasteinheit 40 kann aus mehreren handelsüblichen Produkten ausgewählt werden, die ein binäres Bild oder eine "Bitmap" mit einer Gleichmäßigkeit erzeugen können, durch die die optische Qualität des Bildes erhalten bleibt, wenn es auf einem Bildschirm angezeigt oder auf Papier ausgedruckt wird. Das binäre Bild oder die Bitmap wird im Arbeitsspeicher und/oder in der Datenspeicherressource 30 des Computers gespeichert und definiert eine zweidimensionale Matrix von Nullen und Einsen, die Weiß bzw. Schwarz darstellen. Die Nullen und Einsen weisen eine Eins-zu-Eins- Beziehung zu den Zellen eines Gitters auf, das man sich als der Druckseite überlagert vorstellen kann. Da automatische Verfahren zur Texterkennung nicht so genau unterscheiden können wie menschliche Erkennungsprozesse, muss die Anzahl der Zellen je Flächeneinheit größer als beispielsweise die bei der Telefaxübertragung von Dokumenten verwendete Auflösung sein, die normalerweise 200 Zellen je Zoll nicht übersteigt. Allerdings sind Auflösungen von 300 Bildpunkten je Zoll geeignet, während die Zeichenerkennung bei höheren Auflösungen nicht wesentlich verbessert wird.
  • Bei Schritt 90 in Fig. 4A bearbeitet das OCR-Softwaresystem 50 die Datenstruktur der eingegebenen Bitmap durch Glidern der Bitmap-Matrix in einzelne horizontale Textzeilen, um jeweils eine Zeile mit Zeichen gleichzeitig zu verarbeiten. Jede Zeile wird als Folge von binären Eingabewerten verarbeitet, die ein oder mehrere der Zeichenmatrix entnommene Zeichen darstellen, welche sich in dem Eingabedokument 60 insgesamt befindet. Die binären Eingabewerte, die Teil einer zweidimensionalen Matrixdefinition der Eingabezeichen sind, definieren notwendigerweise ein oder mehrere Dimensionsmerkmale des Zeichens, wie beispielsweise die Zeichenhöhe, die Zeichenbreite und die Zeichenposition bezüglich einer Grundlinie.
  • Die Grundlinie wird nach der Gliederung des Texts in Einzelzeilen in Schritt 100 in Fig. 4A als theoretische Linie berechnet, die durch den unteren Teil eines vorbestimmten prozentualen Anteils der Zeichen verläuft. Fig. 3 veranschaulicht eine Grundlinie 102, die durch das OCR- Softwaresystem 50 ermittelt wurde. Es gibt verschiedene bekannte Verfahren zur Berechnung einer solchen Grundlinie, und in Verbindung mit der vorliegenden Erfindung kann eines dieser Verfahren verwendet werden. Wenn die Grundlinieninformation bekannt ist, kann die Zeichenposition (ausgehend vom unteren Teil des Zeichens) bezüglich der Grundlinie zusätzlich zur Zeichenhöhe und -breite als Zeichenattribut ermittelt werden. Die Natur dieser Dimensionsmerkmale ist in Fig. 2 und Fig. 3 grafisch veranschaulicht. Fig. 2 veranschaulicht die einzelne Textzeile 70 mit dem Text "Speed and Recognition Enhancement Using Normalized Height/Width Position". Fig. 3 ist ein vergrößerter Ausschnitt der Textzeile 70 in Fig. 2. Sie veranschaulicht die Grundlinie 102, ein Attribut für Großbuchstaben (Hu) 104, ein Attribut für Kleinbuchstaben (H&sub1;) 106 und ein Breitenattribut (W) 108.
  • In Schritt 110 in Fig. 4A werden für jedes Zeichen der eingegebenen Zeichenzeile die maximale Zeichenhöhe, Zeichenbreite und Zeichenposition bezüglich der Grundlinie berechnet. Der nächste Schritt besteht darin, diese Attributwerte zu normalisieren, sodass sinnvolle Erkennungsvergleiche mit einer Vergleichsbibliothek in einer Datenbank durchgeführt werden können. Die Normalisierung erfolgt anhand eines "Standard"-Attributs, wie beispielsweise der Zeichenhöhe. Als Standardhöhe kann man eine geschätzte Höhe typischer Großbuchstaben annehmen. Diese Abschätzung beruht auf dem "Modus" im statistischen Sinne, der in Bezug auf den höchsten Wert oder einen Durchschnittswert des Texts verwendet wird, da die Höhen normaler Großbuchstaben, Zahlen und einiger Kleinbuchstaben (wie "b", "d" und "h") nur geringen Schwankungen unterliegen und ziemlich stabil sind. Vorzugsweise wird nicht der höchste Wert verwendet, da. Zeichen wie "/", "f" und "Q" stärker schwanken und manchmal nicht in einer Textzeile/Absatz/Seite erscheinen. Die Durchschnittshöhe ist auch unzuverlässig, da der Wert entsprechend der relativen Zeichenhäufigkeit schwankt.
  • Wenn die Standardhöhe berechnet wird, sind die Textgrundlinien bereits ermittelt und Größe sowie Position der Zeichenmuster bekannt. Somit wird jedes Zeichen durch drei Positionsmessungen dargestellt: w = Breite, h = Höhe und b = Abstand der Zeichenunterkante oberhalb der Grundlinie. Die Standardhöhe wird aus einer Textfolge berechnet, von der angenommen wird, dass sie nur aus einer Schriftart besteht. Der Prozess ermittelt somit die Standardhöhe für jede Textzeile, obwohl auch die Standardhöhe für einen Absatz oder eine Textseite verwendet werden kann. Wenn eine Zeile nur einen relativ kleinen Anteil von Text in einer zweiten Schriftart enthält, braucht die Ermittlung der Standardhöhe nicht stark beeinflusst zu sein, da die Berechnung statistischer Natur ist, wie im Folgenden erklärt wird.
  • Der erste Schritt 120 (siehe Fig. 4A) der Berechnung der Standardhöhe besteht darin, ein Histogramm der Zeichenhöhe zu erstellen. Es wird eine Größenbegrenzung vorgenommen, sodass sehr kleine Zeichen wie Bindestriche von der Berechnung ausgenommen werden. Das Ergebnis ist ein Verteilungsgraph 122, der in Fig. 5 gezeigt ist, bei dem die x-Achse die quantifizierte Zeichenhöhe ("h") und die y-Achse die Häufigkeit des Auftretens ("f(h)") der quantifizierten Höhe darstellt.
  • In Schritt 130 (siehe Fig. 4A) wird diese Verteilung durch Summation geglättet und führt zu:
  • F(h) = f(h - 1) + f(h) + f(h + 1).
  • Die für den Rest des Normalisierungsprozesses geltende Annahme besteht darin, dass das geglättete Histogramm F(h) multimodal ist. Seine beiden Hauptspitzenwerte 124 und 126 (sofern beide vorliegen) entsprechen hohen Zeichen wie Großbuchstaben oder Buchstaben mit Oberlängen bei einem Höhenwert (Spitzenwert 126) sowie kleinen Kleinbuchstaben wie "a" oder "e" bei einem kleineren Höhenwert (Spitzenwert 124). Der Prozess muss auch die Möglichkeit berücksichtigen, dass der Text nur in Großbuchstaben geschrieben ist, d. h. dass kein Spitzenwert für die Kleinbuchstaben erscheint.
  • Die Hauptspitzenwerte werden in Schritt 140 in Fig. 4A identifiziert. Zu diesem Zweck wird zuerst ein erster Spitzenwert h1 durch Bestimmen des globalen Maximums von F(h) ermittelt. Dieser Spitzenwert kann entweder der gewünschte Spitzenwert für Großbuchstaben (d. h. die gewünschte Standardhöhe) oder der Spitzenwert für Kleinbuchstaben sein. Der Schritt zur Spitzenwertidentifizierung 140 setzt daher die Suche nach einem zweiten Spitzenwert für Kleinbuchstaben h2 in dem Bereich:
  • h1·(1 - d2) < h2 < h1
  • und nach einem dritten Spitzenwert für Großbuchstaben h3 in dem Bereich:
  • h1 < h3 < h1·(1 + d3) fort.
  • Der Wert d3 ist ein vorbestimmter positiver Parameter, der einen Schätzwert für den größten Faktor darstellt, um den die Großbuchstabenhöhe die Kleinbuchstabenhöhe für alle betrachteten Schriftarten übersteigen kann. Dies führt zu der Beziehung:
  • d2 = d3/(1 + d3)
  • da 1/(1 - d2) = (1 + d3)/1 ist.
  • Wenn der Spitzenwert gefunden wurde, wird in Schritt 150 in Fig. 4A der geeignete Spitzenwert zur Verwendung als Standardhöhe berechnet, indem die Amplitude der identifizierten Spitzenwerte ("f") mit der Gesamtzahl "N" der Zeichen verglichen wird. Um als geeigneter Spitzenwert zu gelten, muss F(h2) oder F(h3) mindestens 10% (oder einen anderen geeigneten Prozentsatz) von N betragen. Bezüglich der Definition von F(h) bedeutet dies, dass mindestens 10% der Zeichenhöhen im Bereich von plus oder minus einem Pixel von h2 oder h3 liegen. Wenn h3 diese Prüfung besteht und ihre Amplitude größer als die von h2 ist, wird sie als Standardhöhe ausgewählt. Ansonsten wird h1 als Standardhöhe genommen.
  • Sobald die Standardhöhe für eine Textzeile/Absatz/Seite erhalten wird, wird in den Schritten 160, 170 und 180 in Fig. 4B für jedes Zeichen eine Gruppe von normalisierten Höhe- /Breite-/Positionswerten wie folgt berechnet:
  • normalisierte Höhe (NH) = Höhe/Standardhöhe
  • normalisierte Breite (NW) Breite/Standardbreite
  • normalisierte Position (NP) = (1/2·Höhe + Unterkante oberhalb Grundlinie)/Standardhöhe.
  • Die normalisierten Zeichenwerte können in Schritt 190 in Fig. 4B als Eingabe in eine zuvor erstellte herkömmliche Zeichenerkennungsbibliothek verwendet werden, um eine Gruppe von Zeichencodeausgaben zu erzeugen und den optischen Erkennungsprozess in Schritt 200 in Fig. 4B auszuführen. Der unter Verwendung der normalisierten Zeichenwerte durchgeführte optische Erkennungsprozess kann verschiedene Formen annehmen. Es wird angenommen, dass jedes Zeichen ein bestimmtes n- dimensionales Merkmal besitzt und durch Vergleichen des Merkmals mit einer zuvor erstellten Erkennungsbibliothek (jede Eintragung oder "Schablone" der Bibliothek weist ein n- dimensionales Merkmal und seine Kategorie auf) klassifiziert wird. Der Vergleich könnte unter Verwendung des Euklidschen Abstands oder anderer bekannter Verfahren erfolgen. Das n- dimensionale Merkmal könnte auch durch andere Merkmalarten, wie beispielsweise ein geometrische Merkmal, ersetzt werden.
  • Der für die Vergleiche zwischen den Eingabezeichen und der Erkennungsbibliothek verwendete n-dimensionale Merkmalvektor kann durch Verwendung der oben ermittelten normalisierten Zeichenwerte erweitert werden. Die normalisierten Zeichenwerte werden aber wahrscheinlich am besten zum Vorprüfen der Schablonenmuster der Erkennungsbibliothek verwendet, um Muster auszuschließen, die wahrscheinlich nicht zu einem positiven n- dimensionalen Vergleich führen. Die Erkennungsbibliothek ist so aufgebaut, dass sie sechs zusätzliche Merkmale zur Verwendung in Vorprüfungsvergleichen enthält: Normalisierte Minimalhöhe, normalisierte Maximalhöhe, normalisierte Minimalposition, normalisierte Maximalposition, normalisierte Minimalbreite und normalisierte Maximalbreite. Zuerst werden die normalisierte Höhe, die normalisierte Position und die normalisierte Breite mit den Minimal- und Maximalwerten jedes Musters (Schablone) in der Bibliothek verglichen (die Reihenfolge H-P-W ist vorzuziehen, da unter den drei Größen die Breite am meisten schwankt und am unzuverlässigsten ist).
  • Wenn der Wert des Eingabezeichens die Vorprüfungsbedingungen nicht erfüllt, wird die Schablone sofort verworfen. Wenn die sechs Vergleiche erfolgreich verlaufen, wird zur genauen Klassifizierung der Vergleich von ndimensionalen Merkmalen durchgeführt. Man hat beobachtet, dass durch den Vergleich der sechs Parameter die Anzahl der Kandidaten sehr schnell auf weniger als die Hälfte verringert wird. Ebenso wird die Verwechselung zwischen Groß- und Kleinbuchstaben sowie zwischen Apostroph und Komma ausgeschlossen und die Erkennungsquote erhöht.
  • Es wurde ein Verfahren zur Verbesserung der Geschwindigkeit und der Erkennung für eine optische Zeichenerkennung beschrieben. Obwohl verschiedene Ausführungsarten beschrieben wurden, ist es klar, dass ein Fachmann anhand der in diesem Dokument gegebenen Beschreibungen viele Änderungen und alternative Ausführungsarten ausführen kann.

Claims (22)

1. Automatisiertes Verfahren zur optische Zeichenerkennung zur Verwendung in einer programmierbaren digitalen Verarbeitungsvorrichtung (10), das die folgenden Schritte umfasst:
Auswählen (80) einer Folge von Bitmap-Darstellungen eines oder mehrerer Zeichen in einer Matrix (70) optisch zu erkennender Zeichen, wobei die Bitmap-Darstellungen einen oder mehrere Dimensionskennwerte der Zeichen definieren;
Erzeugen (160, 170, 180) einer Gruppe von einem Standard- Dimensionswert abgeleiteter normalisierter Werte für jedes der Zeichen, wobei die normalisierten Werte dem einen oder den mehreren Dimensionskennwerten des Zeichens entsprechen; und
Durchführen (200) der optischen Zeichenerkennung durch Vergleichen der Zeichenmerkmale mit entsprechenden Merkmalen in einer Bibliothek von Zeichenprototypschablonen;
gekennzeichnet durch:
Erzeugen (120, 130) einer Häufigkeitsverteilung (122) eines ausgewählten Dimensionswertes des Zeichens als eine Folge von Summationen, die eine Häufigkeit des Auftretens des ausgewählten Dimensionswertes darstellen;
Identifizieren (140, 150) eines Maximalwertes (Peak) in der Häufigkeitsverteilung (122);
Erzeugen (160) des Standard-Dimensionswertes aus dem identifizierten Maximalwert in der Häufigkeitsverteilung (122); und
Vorprüfen (190) der optischen Zeichenerkennung durch Vergleichen der normalisierten Dimensionswerte mit entsprechenden Werten in der Bibliothek von Zeichenprototypschablonen.
2. Verfahren nach Anspruch 1, bei dem das eine oder die mehreren Zeichen in einer einzelnen Zeile (70) von Drucktext angeordnet sind.
3. Verfahren nach Anspruch 1 oder 2, bei dem die Dimensionskennwerte die Zeichenhöhe, die Zeichenbreite und die Zeichenposition bezüglich der Bezugsgrundlinie (102) beinhalten.
4. Verfahren nach einem der vorangehenden Ansprüche, bei dem der Standard-Dimensionswert ein Wert ist, der die Standard-Zeichenhöhe repräsentiert.
5. Verfahren nach Anspruch 4, bei dem der Standard- Dimensionswert aus der Häufigkeitsverteilung als eine Standard-Zeichenhöhe für Großbuchstaben, oder, wenn nur eine geringe Anzahl von Großbuchstaben vorhanden ist, als eine Standard-Zeichenhöhe für Kleinbuchstaben ausgewählt wird.
6. Verfahren nach einem der vorangehenden Ansprüche, bei dem die normalisierten Werte die normalisierte Zeichenhöhe (NH), die normalisierte Zeichenbreite (NW) und die normalisierte Zeichenposition (NP) bezüglich einer Bezugsgrundlinie (102) enthalten.
7. Verfahren nach Anspruch 6, bei dem der Schritt (190) des Vorprüfens der optischen Zeichenerkennung das Vergleichen der normalisierten Werte (NH, NW, NP) mit entsprechenden Bereichen von Minimal- und Maximalwerten in der Bibliothek von Prototypschablonen enthält.
8. Verfahren nach Anspruch 7, bei dem durch den Schritt des Vergleichens der normalisierten Werte (NH, NW, NP) mit entsprechenden Bereichen von Werten in der Bibliothek von Prototypschablonen ermittelt wird, ob die normalisierten Werte in die Wertebereiche fallen.
9. Verfahren nach Anspruch 8, bei dem die normalisierten Werte (NH, NW, NP) mit den Wertebereichen in der Reihenfolge Höhe, Position und Breite verglichen werden und die Prototypschablone der Bibliothek verworfen wird, wenn einer der normalisierten Werte außerhalb der Wertebereiche liegt.
10. Verfahren nach Anspruch 9, bei dem im Schritt (200) des Durchführens der optischen Zeichenerkennung durch Vergleichen von Zeichenmerkmalen mit entsprechenden Merkmalen in einer Bibliothek von Zeichenprototypschablonen ausgewählte Merkmale der Zeichen mit einem Merkmalsvektor verglichen werden, der der Prototypschablone der Bibliothek entspricht.
11. Verfahren nach Anspruch 10, bei dem die ausgewählten Merkmale n-dimensionale Merkmale sind und unter Verwendung des Abstandsverfahrens mit dem Merkmalsvektor der Bibliothek verglichen werden.
12. Automatisiertes optisches Zeichenerkennungssystem (10), das Folgendes umfasst:
Mittel (50) zum Auswählen einer Folge von Bitmap- Darstellungen von einem oder mehreren Zeichen in einer Matrix (70) optisch zu erkennender Zeichen, wobei die Bitmap-Darstellungen einen oder mehrere Dimensionskennwerte des Zeichens definieren;
Mittel (50) zum Erzeugen einer Gruppe von einem Standard- Dimensionswert abgeleiteter normalisierter Werte für jedes der Zeichen, wobei die normalisierten Werte dem einen oder den mehreren Dimensionskennwerten des Zeichens entsprechen; und
Mittel (50) zum Durchführen der optischen Zeichenerkennung durch Vergleichen der Zeichenmerkmale mit entsprechenden Merkmalen in einer Bibliothek von Zeichenprototypschablonen;
gekennzeichnet durch:
Mittel (50) zum Erzeugen einer Häufigkeitsverteilung (122) eines der ausgewählten Dimensionskennwerte des Zeichens als eine Folge von Summationen, die eine Häufigkeit des Auftretens des ausgewählten Dimensionskennwertes darstellen;
Mittel (50) zum Identifizieren eines Maximalwertes in der Häufigkeitsverteilung (122)
Mittel (50) zum Erzeugen des Standard-Dimensionswertes aus dem identifizierten Maximalwert in der Häufigkeitsverteilung (122); und
Mittel (50) zum Vorprüfen der optischen Zeichenerkennung durch Vergleichen der normalisierten Dimensionswerte mit entsprechenden Werten in der Bibliothek der Zeichenprototypschablonen.
13. System nach Anspruch 12, bei dem das eine oder die mehreren Zeichen in einer einzelnen Zeile (70) des Drucktextes angeordnet sind.
14. System nach Anspruch 12 oder 13, bei dem der Dimensionskennwert die Zeichenhöhe, die Zeichenbreite und die Zeichenposition bezüglich der Bezugsgrundlinie (102) beinhaltet.
15. System nach Anspruch 12, 13 oder 14, bei dem der Standard- Dimensionswert ein Wert ist, der die Standard-Zeichenhöhe repräsentiert.
16. System nach Anspruch 15, bei dem der Standard- Dimensionswert aus der Häufigkeitsverteilung als eine Standard-Zeichenhöhe für Großbuchstaben, oder, wenn nur wenige Großbuchstaben vorhanden sind, als eine Standard- Zeichenhöhe für Kleinbuchstaben ausgewählt wird.
17. System nach einem der Ansprüche 12 bis 16, bei dem die normalisierten Werte die normalisierte Zeichenhöhe (NH), die normalisierte Zeichenbreite (NW) und die normalisierte Zeichenposition (NP) bezüglich der Bezugsgrundlinie (102) beinhalten.
18. System nach Anspruch 17, bei dem das Mittel (50) zum Vorprüfen der optischen Zeichenerkennung Mittel (50) zum Vergleichen der normalisierten Werte (NH, NW, NP) mit entsprechenden Bereichen von Minimal- und Maximalwerten in der Prototypschablone der Bibliothek enthält.
19. System nach Anspruch 18, bei dem das Mittel zum Vergleichen der normalisierten Werte (NH, NW, NP) mit entsprechenden Wertebereichen in der Prototypschablone der Bibliothek Mittel (50) zum Feststellen enthält, ob die normalisierten Werte in die Wertebereiche fallen.
20. System nach Anspruch 19, bei dem die normalisierten Werte (NH, NW, NP) mit den Wertebereichen in der Reihenfolge Höhe, Position und Breite verglichen werden und die Prototypschablone der Bibliothek verworfen wird, wenn einer der normalisierten Werte außerhalb der Wertebereiche liegt.
21. System nach Anspruch 20, bei dem das Mittel (50) zum Durchführen der optischen Zeichenerkennung durch Vergleichen von Zeichenmerkmalen mit entsprechenden Merkmalen in einer Bibliothek von Zeichenprototypschablonen Mittel (50) zum Vergleichen ausgewählter Merkmale der Zeichen mit einem Merkmalsvektor umfassen, der der Prototypschablone der Bibliothek entspricht.
22. System nach Anspruch 21, bei dem die ausgewählten Merkmale n-dimensionale Merkmale sind und unter Verwendung des Abstandsverfahrens mit dem Merkmalsvektor der Bibliothek verglichen werden.
DE69529015T 1994-04-28 1995-04-04 Schnelligkeits- und Erkennungsverbesserung für OCR mittels normalisierter Höhen-/Breitenposition Expired - Lifetime DE69529015T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/234,525 US6256408B1 (en) 1994-04-28 1994-04-28 Speed and recognition enhancement for OCR using normalized height/width position

Publications (2)

Publication Number Publication Date
DE69529015D1 DE69529015D1 (de) 2003-01-16
DE69529015T2 true DE69529015T2 (de) 2003-10-09

Family

ID=22881722

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69529015T Expired - Lifetime DE69529015T2 (de) 1994-04-28 1995-04-04 Schnelligkeits- und Erkennungsverbesserung für OCR mittels normalisierter Höhen-/Breitenposition

Country Status (3)

Country Link
US (1) US6256408B1 (de)
EP (1) EP0680005B1 (de)
DE (1) DE69529015T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019101132A1 (de) * 2019-01-17 2020-07-23 Technische Hochschule Deggendorf Verfahren und System zur Erfassung von Maschinendaten

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL132719A (en) * 1999-01-07 2010-04-29 Topscan Ltd Optical scanner and software therefor
CA2375355A1 (en) * 2002-03-11 2003-09-11 Neo Systems Inc. Character recognition system and method
US8873890B2 (en) * 2004-04-02 2014-10-28 K-Nfb Reading Technology, Inc. Image resizing for optical character recognition in portable reading machine
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
US8155444B2 (en) * 2007-01-15 2012-04-10 Microsoft Corporation Image text to character information conversion
US8175388B1 (en) 2009-01-30 2012-05-08 Adobe Systems Incorporated Recognizing text at multiple orientations
US8437557B2 (en) * 2010-05-11 2013-05-07 Microsoft Corporation Auto classifying images as “image not available” images
CN101937312B (zh) * 2010-09-15 2014-03-19 中兴通讯股份有限公司 一种电子书的标记方法及移动终端
US9256795B1 (en) 2013-03-15 2016-02-09 A9.Com, Inc. Text entity recognition
US9934526B1 (en) 2013-06-27 2018-04-03 A9.Com, Inc. Text recognition for search results
US9569428B2 (en) * 2013-08-30 2017-02-14 Getgo, Inc. Providing an electronic summary of source content
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
US9684844B1 (en) * 2016-07-15 2017-06-20 StradVision, Inc. Method and apparatus for normalizing character included in an image
CN110942067A (zh) * 2019-11-29 2020-03-31 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3781799A (en) * 1972-01-03 1973-12-25 Ibm Control system employing microprogram discrete logic control routines
IL38603A (en) 1972-01-21 1975-10-15 Bar Lev H Automatic pattern recognition method and apparatus particularly for optically recognizing alphanumeric characters
US4030068A (en) * 1976-01-12 1977-06-14 Decision Data Computer Corporation Optical character recognition system
JPH0743755B2 (ja) * 1985-10-09 1995-05-15 日本電気株式会社 文字認識装置
US4897880A (en) 1987-02-17 1990-01-30 Soricon Corporation Data acquisition control method and system for a hand held reader
JPH07104909B2 (ja) 1987-03-04 1995-11-13 シャープ株式会社 文字認識方法
US5253303A (en) * 1988-02-15 1993-10-12 Nec Corporation Character recognizing method and apparatus thereof
US4998285A (en) 1988-03-11 1991-03-05 Kabushiki Kaisha Toshiba Character recognition apparatus
JP2822189B2 (ja) * 1988-05-19 1998-11-11 ソニー株式会社 文字認識装置及び方法
US5060290A (en) * 1989-09-05 1991-10-22 Dole Dried Fruit And Nut Company Algorithm for gray scale analysis especially of fruit or nuts
EP0457534B1 (de) 1990-05-14 2001-10-31 Canon Kabushiki Kaisha Verfahren und Gerät zur Bildverarbeitung
US5373566A (en) * 1992-12-24 1994-12-13 Motorola, Inc. Neural network-based diacritical marker recognition system and method
US5396566A (en) * 1993-03-04 1995-03-07 International Business Machines Corporation Estimation of baseline, line spacing and character height for handwriting recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019101132A1 (de) * 2019-01-17 2020-07-23 Technische Hochschule Deggendorf Verfahren und System zur Erfassung von Maschinendaten
US12181856B2 (en) 2019-01-17 2024-12-31 Technische Hochschule Deggendorf Method and system for collecting machine data

Also Published As

Publication number Publication date
EP0680005B1 (de) 2002-12-04
EP0680005A3 (de) 1996-04-03
EP0680005A2 (de) 1995-11-02
DE69529015D1 (de) 2003-01-16
US6256408B1 (en) 2001-07-03

Similar Documents

Publication Publication Date Title
DE3689416T2 (de) Mustermerkmalextraktion.
DE3716787C2 (de)
DE69226846T2 (de) Verfahren zur Bestimmung von Wortgrenzen im Text
DE69722971T2 (de) Automatisches sprachenerkennungssystem für die mehrsprachige optische zeichenerkennung
DE69604481T2 (de) Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern
DE69230632T2 (de) Optische Worterkennung durch Wortgestaltuntersuchung
DE69329380T2 (de) Verfahren zum Segmentieren von Bildern und Klassifizieren von Bildelementen zur Dokumentverarbeitung
DE69426479T2 (de) Optische Mehrfontzeichenerkennung mit einem Verbindungsschachtelansatz
DE69529015T2 (de) Schnelligkeits- und Erkennungsverbesserung für OCR mittels normalisierter Höhen-/Breitenposition
DE3485953T2 (de) Verfahren und anlage zur on-line-erkennung handgeschriebener muster.
DE69229468T2 (de) Verfahren und Gerät zur Bestimmung der Wortfrequenz in einem Dokument ohne Dokumentbilddekodierung
DE69230633T2 (de) Verfahren zur Ermittlung von Wortformen zum folgenden Vergleich
DE69425084T2 (de) Verfahren und Gerät zur Erkennung von Textzeilen, Wörtern und räumlichen Merkmalen von Zeichenzellen
DE69231309T2 (de) Methode und System zur Handschrifterkennung
DE69129520T2 (de) Verbessertes Segmentierungsverfahren für das maschinelle Lesen von handgeschriebener Information
DE69230631T2 (de) Verfahren zum Vergleichen von Wortgestalten
DE60120810T2 (de) Verfahren zur Dokumenterkennung und -indexierung
DE69600461T2 (de) System und Verfahren zur Bewertung der Abbildung eines Formulars
DE69525401T2 (de) Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
DE3650554T2 (de) Speicherungs- und Wiederauffindungsverfahren für Bilddaten
DE60204005T2 (de) Verfahren und einrichtung zur erkennung eines handschriftlichen musters
DE69616246T2 (de) Automatisches Verfahren zum Identifizieren von Wegfallwörtern in der Abbildung eines Dokumentes ohne Verwendung vom OCR
DE102007035884A1 (de) Linienrauschunterdrückungsvorrichtung, -verfahren und -programm
DE19705757A1 (de) Verfahren und Gerät für das Design eines hoch-zuverlässigen Mustererkennungs-Systems
DE69512074T2 (de) Verfahren und gerät zur automatischen bestimmung eines textgebiets auf einem bitmapbild

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8328 Change in the person/name/address of the agent

Representative=s name: DUSCHER, R., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 7