DE3916323A1 - Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem - Google Patents
Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystemInfo
- Publication number
- DE3916323A1 DE3916323A1 DE3916323A DE3916323A DE3916323A1 DE 3916323 A1 DE3916323 A1 DE 3916323A1 DE 3916323 A DE3916323 A DE 3916323A DE 3916323 A DE3916323 A DE 3916323A DE 3916323 A1 DE3916323 A1 DE 3916323A1
- Authority
- DE
- Germany
- Prior art keywords
- character
- discrete
- area
- component
- rectangular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Description
Die Erfindung bezieht sich auf ein Zeichenerkennungssystem
und insbesondere auf ein Zeichenerkennungssystem, bei dem
ein Zeichenbereich wirksam extrahiert werden kann.
Es ist ein besonderes Problem, beispielsweise hinsichtlich
japanischer Zeichen, einschließlich der Kanji- und Kana-
Zeichen, diskrete Zeichen genau unterscheiden zu können,
um individuelle Zeichen aus horizontal oder vertikal geschriebenen
Zeichenreihen bzw. Zeichenzeilen zu erkennen.
Eine beispielsweise Lösung des Problems ist in der
DE-OS 36 32 832 angegeben. Bei dieser Lösung werden
rechteckförmige Bereiche imaginär aus Projektionsdaten
gebildet, die aus einer horizontalen oder vertikalen
Zeichenlinie bzw. Zeichenzeile erhalten werden, derart,
daß jeder rechteckförmige Bereich ein einziges vollständiges
Zeichen oder eine Komponente eines Zeichens umschreiben
kann, wobei benachbarte rechteckförmige Bereiche so
lange integriert werden, bis das Höhe-zu-Breite-Verhältnis
der so jeweils integrierten Bereiche weitgehend gleich 1
wird. Dadurch werden individuelle diskrete Zeichen extrahiert.
In diesem Zusammenhang weisen die meisten japanischen
Zeichen in Form von vorliegenden em-Zeichen bei Umschreibung
durch einen rechteckförmigen Rahmen ein Höhe-zu-Breite-
Verhältnis von weitgehend gleich 1 auf. Im Falle diskreter
Zeichen, wie "" und "", bei denen die ein einzelnes
Zeichen darstellenden Zeichenkomponenten horizontal getrennt
und diskret voneinander vorgesehen sind, ist zu
berücksichtigen, daß bei Integration von zwei oder mehr
benachbarten Zeichenkomponenten ein die betreffenden Zeichenkomponenten
umschreibender rechteckförmiger Bereich ein
Höhe-zu-Breite-Verhältnis von weitgehend gleich 1 haben
kann. Sodann können die Zeichenkomponenten als einzelnes
diskretes Zeichen extrahiert werden.
Falls das Höhe-zu-Breite-Verhältnis eines derartigen rechteckförmigen
Bereiches praktisch gesehen jedoch streng darauf
überprüft wird, ob diskrete Zeichen durch die Integration
erhalten sind, können die Höhe-zu-Breite-Verhältnisse
nicht bezüglich sämtlicher diskreter Zeichen gleichmäßig
sein. Deshalb genügt das oben beschriebene Verfahren nicht
bei der praktischen Anwendung hinsichtlich der Genauigkeit
der Extrahierung diskreter Zeichen.
Der Erfindung liegt demgemäß die Aufgabe zugrunde, ein
neues Zeichenerkennungssystem zu schaffen, welches die den
konventionellen Systemen, wie zuvor beschrieben, anhaftenden
Nachteile eliminiert.
Darüber hinaus soll ein Zeichenerkennungssystem geschaffen
werden, welches hinsichtlich der Genauigkeit der Integration
diskreter Zeichen verbessert ist.
Gelöst wird die vorstehend aufgezeigte Aufgabe gemäß einem
Aspekt der vorliegenden Erfindung durch ein Vefahren zum
Erkennen eines Zeichens in Übereinstimmung mit einer
Zeicheninformation, die aus einem Zeichen-Reihen-Signal
extrahiert ist, wozu ein rechteckförmiger Bereich verwendet
ist, der aus dem Zeichen-Reihen-Signal gebildet ist
und der ein vollständiges Zeichen oder eine Komponente
eines diskreten Zeichens beschreibt. Dieses Verfahren umfaßt
den Schritt der Entscheidung, daß ein rechteckförmiger Bereich
eine Komponente eines diskreten Zeichens in Übereinstimmung
mit einem Höhe-zu-Breite-Verhältnis und einer
Vertikal-Extraktionsposition des rechteckförmigen Zeichens
ist.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist
ein Verfahren zum Erkennen eines Zeichens in Übereinstimmung
mit einer Zeicheninformation geschaffen, die aus einem
Zeichen-Reihen-Signal extrahiert ist, wozu ein rechteckförmiger
Bereich verwendet wird, der aus dem Zeichen-Reihen-
Signal gebildet ist und der ein vollständiges Zeichen oder
eine Komponente eines diskreten Zeichens beschreibt. Dieses
Verfahren umfaßt den Schritt der Entscheidung, daß ein
Zeichenbereich eine Komponente eines diskreten Zeichens in
Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und
einer Vertikal-Extraktionsposition des Zeichenbereiches ist.
Ferner umfaßt dieses Verfahren die Entscheidung darüber, wenn
entschieden wird, daß der erste rechteckförmige Bereich eine
Komponente eines diskreten Zeichens ist, daß ein zweiter
benachbarter Zeichenbereich eine weitere Komponente des
diskreten Zeichens ist, daß der zweite Zeichenbereich mit
dem ersten Zeichenbereich unter der Bedingung integriert
wird, daß die Zeichenteilung der integrierten Zeichenbereiche
eine mittlere Zeichenteilung nicht überschreitet,
und daß die aus den integrierten ersten und zweiten Zeichenbereichen
extrahierte Zeicheninformation als Zeicheninformation
der Komponenten des diskreten Zeichens diskriminiert
bzw. unterschieden wird.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist
ein Zeichenerkennungssystem geschaffen, welches ein Zeichen
in Übereinstimmung mit einer Zeicheninformation erkennt,
die aus einem Zeichen-Reihen-Signal unter Verwendung eines
rechteckförmigen Bereiches extrahiert worden ist, welcher
aus dem Zeichen-Reihen-Signal gebildet ist und welcher ein
vollständiges Zeichen oder eine Komponente eines diskreten
Zeichens umschreibt. Dieses System umfaßt eine Einrichtung
zur Entscheidung, ob bzw. daß ein rechteckförmiger Bereich
eine Komponente eines diskreten Zeichens in Übereinstimmung
mit einem Höhe-zu-Breite-Verhältnis und einer Vertikal-
Extraktionsposition des rechteckförmigen Bereiches ist.
Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung
ist ein Zeichenerkennungssystem geschaffen, welches ein
Zeichen in Übereinstimmung mit einer Zeicheninformation
erkennt, die aus einem Zeichen-Reihen-Signal extrahiert
worden ist, wozu ein rechteckförmiger Bereich verwendet
wird, der aus dem Zeichen-Reihen-Signal gebildet ist und
der ein vollständiges Zeichen oder eine Komponente eines
diskreten Zeichens beschreibt. Dieses System umfaßt eine
Einrichtung zur Entscheidung darüber, ob bzw. daß ein rechteckförmiger
Bereich eine Komponente eines diskreten Zeichens
in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und
einer Vertikal-Extraktions-Position des rechteckförmigen
Bereiches ist. Ferner ist eine Entscheidungseinrichtung
vorgesehen, die eine Entscheidung trifft, wenn entschieden
wird, daß der erste rechteckförmige Bereich eine Komponente
eines diskreten Zeichens ist, wobei entschieden wird, daß
ein zweiter benachbarter Zeichenbereich eine weitere
Komponente des diskreten Zeichens ist. Ferner ist eine
Integrationseinrichtung vorgesehen, welche den zweiten
Zeichenbereich mit dem ersten Zeichenbereich unter der
Bedingung integriert, daß die Zeichenteilung der integrierten
Zeichenbereiche eine mittlere Zeichenteilung nicht
überschreitet. Schließlich ist eine Diskreminierungseinrichtung
vorgesehen, welche die aus den integrierten ersten
und zweiten Zeichenbereichen extrahierte Zeicheninformation
als Zeicheninformation der Komponenten des diskreten
Zeichens diskriminiert bzw. unterscheidet.
Mit Hilfe der Zeichenerkennungsverfahren und Systeme gemäß
der vorliegenden Erfindung wird eine Komponente irgendeines
diskreten Zeichens in Übereinstimmung mit einem Höhe-zu-
Breite-Verhältnis und einer Vertikal-Extraktionsposition
des rechteckförmigen Bereiches diskriminiert bzw. unterschieden.
Demgemäß ist die Extraktionsgenauigkeit eines
diskreten Zeichens verbessert.
Außerdem sei angemerkt, daß in dem Fall, daß zu integrierende
rechteckförmige Bereiche oder Zeichenbereiche einer Entscheidung
in Übereinstimmung mit einer mittleren Zeichenteilung
im Quadrat oder em-Zeichen unterzogen werden,
die Extraktionsgenauigkeit jeglichen diskreten Zeichens in
einem großen Ausmaß verbessert ist.
Darüber hinaus ist es möglich, einen erleichterten bzw.
förderlichen Betrieb beim Zeichenerkennungsprozeß und beim
System als Ganzem zu realisieren.
Anhand von Zeichnungen wird die Erfindung nachstehend
beispielsweise näher erläutert.
Fig. 1 veranschaulicht in einem Blockdiagramm ein
Zeichenerkennungssystem gemäß einer bevorzugten
Ausführungsform der vorliegenden Erfindung;
Fig. 2 veranschaulicht in einem schematischen Diagramm
die Extraktion einer Zeichenreihe;
Fig. 3, 4A, 4B, 4C
und 5 veranschaulichen in schematischen Diagrammen die
Extraktion von Zeichen;
Fig. 6 veranschaulicht in einem Flußdiagramm die Prozedur
eines Extraktionsprozesses mittels des in Fig. 1
dargestellten Zeichenerkennungssystems;
Fig. 7 sowie 8A, 8B
und 8C veranschaulichen in schematischen Diagrammen
einen Integrationsprozeß bezüglich eines diskreten
Zeichens.
Nunmehr wird die bevorzugte Ausführungsform der Erfindung
detailliert beschrieben. Dazu sei zunächst auf Fig. 1 Bezug
genommen, gemäß der ein Zeichenerkennungssystem 1 mit einem
Dokumentenbildleser 2 verbunden ist und ein durch den
Dokumentenleser 2 erzeugten Bildsignal S 1 aufnimmt. Das
Zeichenerkennungssystem 1 weist einen Vorverarbeitungsabschnitt
mit einer Stör- bzw. Rauscheleminierungseinrichtung
3 und einer Rotationskorrektureinrichtung 4, einen
Zeichenbereichs-Verarbeitungsabschnitt mit einer Zeichenreihen-Extraktionseinrichtung
5 und einer Zeichen-Extraktionseinrichtung
6 sowie einen Zeichen-Diskriminator 7 auf.
Die Störungs-Eleminierungseinrichtung 3 empfängt ein Eingangs-Bildsignal
S 1 von dem Dokumentenbildleser 2 und beseitigt
aus dem Eingangs-Bildsignal S 1 Störbilder, wie
isolierte Punkte, die in dem Dokumentenbild enthalten sind,
welches durch den Dokumentenbildleser 2 gelesen ist, so
daß verhindert werden kann, daß isolierte Punkte oder dergleichen
als Teil eines Zeichens oder von Zeichen in fehlerhafter
Weise erkannt werden. Die Störungs-Eliminierungseinrichtung
3 gibt somit ein störungsfreies Bildsignal S 2
an die Rotations-Korrektureinrichtung 4 ab.
Auf die Aufnahme eines derartigen störungsfreien Bildsignals
S 2 korrigiert die Rotations-Korrektureinrichtung 4
die Drehung des gelesenen Dokuments in einer Ebene und
gibt ein korrigiertes Bildsignal S 3 an die Zeichenreihen-
Extraktionseinrichtung 5 ab.
Die Zeichenreihen-Extraktionseinrichtung 5 trennt das gedruckte
Dokument in einen Zeichenbereich und in andere
Bereiche auf (z. B. Fotografie, Zeichen, und so weiter),
und extrahiert sodann lediglich die in dem Zeichenbereich
enthaltenen Bildzeichendaten. Sodann bestätigt die Zeichenreihen-Extraktionseinrichtung
5, daß die in dem Zeichenbereich
enthaltenen Zeichenzeilen seitlich angeordnete Reihen
sind, extrahiert die Zeichenzeilen und gibt ein für die
Zeichenreihen kennzeichnendes Signal S 4 ab.
Die Zeichen-Extraktionseinrichtung 6 nimmt das Zeichenreihen-
Signal S 4 von der Zeichenreihen-Extraktionseinrichtung 5 herauf
und extrahiert aus dem Zeichenreihen-Signal S 4 nicht-
diskrete gewöhnliche Zeichen und spezielle Zeichen in Form
von em-Zeichen, während sie außerdem diskrete Zeichen
extrahiert, wozu von einer Integrationstechnik Gebrauch
gemacht wird, wie sie erforderlich ist. Die Zeichen-Extraktionseinrichtung
6 gibt Daten der so extrahierten Zeichen
als Eingabe-Zeichendaten S 5 an den Zeichen-Diskriminator 7
ab.
Der Zeichen-Diskriminator 7 weist ein Wörterbuch der
Standard-Zeichen bezüglich sämtlicher Gegenstands- bzw.
Objekt-Zeichen für eine Diskriminierung auf und wählt ein
Standard-Zeichen mit den meisten ähnlichen Merkmalen als
jenes der Eingangs-Zeichendaten S 5 aus. Der Zeichen-Diskriminator
7 gibt somit Daten S 6 des somit erkannten Zeichens als
Ausgangssignal des Zeichenerkennungssystems 1 ab.
Das Extrahieren der Zeichenreihen durch die Zeichenreihen-
Extraktionseinrichtung 5 wird in folgender Weise ausgeführt.
Gemäß Fig. 2 ist die Position jedes Punktes in einem Zeichenbereich
AR durch x-y-Koordinaten gegeben, wobei die x-Achse
sich in der horizontalen Richtung erstreckt, während die
y-Achse sich in der vertikalen Richtung erstreckt. Die
Summen der Punkte des "1"-Verknüpfungspegels in Form von
schwarze Zeichen bildenden Punkten, die in dem Zeichenbereich
AR enthalten sind, werden in Richtungen parallel zu
der x-Achse aufgenommen und auf die y-Achse projiziert, um
ein y-Projektionssignal Sy zu erzeugen, welches nachstehend
als y-Projektion bezeichnet wird.
Der Signalpegel des y-Projektionssignals Sy ist "0" an
jeder Position zwischen benacbarten Zeichenreihen AR 1,
AR 2, . . ., da kein schwarzer Zeichenbereich vorhanden ist.
Demgegenüber entspricht in jeder Position auf der y-Achse,
entsprechend den Zeichenreihen AR 1, AR 2 und so weiter der
Signalpegel einer Gesamtzahl von Punkten der Reihe bzw.
Linie, die durch den Punkt in der y-Achse verläuft und
parallel zu der x-Achse sich erstreckt. Demgemäß wird das
y-Projektionssignal Sy mit einem vorbestimmten Schwellwertpegel
verglichen, um demgemäß Zeichenreihen-Extraktionsdaten
DL zu erhalten, die "1"-Verknüpfungspegel in irgendeinem
Bereich kennzeichnen, in welchem der Pegel des
Signals Sy höher ist als der Schwellwert.
Unter Verwendung derartiger Zeichenreihen-Extraktionsdaten
CL extrahiert die Zeichenreihen-Extraktionseinrichtung 5 jene
Teile des korrigierten Bildsignals S 3, welches von der Rotationskorrektureinrichtung
4 abgegeben ist und den Zeitpunkten
entspricht, zu denen die Zeichenreihen-Extraktionsdaten CL
kennzeichnend sind für den "H"-Verknüpfungspegel. Die
Zeichenreihen-Extraktionseinrichtung 5 gibt somit die
extrahierten Signalanteile als Zeichenreihensignal S 4 ab,
welches kennzeichnend ist für die individuellen Zeichenreihen
AR 1, AR 2 und so weiter.
Demgemäß weist jeder Bereich, in welchem die Zeichenreihen-
Extraktionsdaten CL kennzeichnend sind für den "1"-Verknüpfungspegel,
eine maximale Höhe HL (HL 1, HL 2, . . .) der
Zeichenreihe AR 1, AR 2, . . . auf, und jede vertikale Position
in der y-Achsen-Richtung eines in irgendeiner Zeichenreihe
enthaltenen Zeichens liegt innerhalb der maximalen Höhe HL
der relevanten Zeichenreihe.
Die Zeichenextraktionseinrichtung 6 nimmt das Zeichenreihensignal
S 4 auf und führt eine solche Verarbeitung durch, daß
sie in bezug auf die x-Achsen-Richtung und die y-Achsen-
Richtung die Positionen und die Bereiche ermittelt, in denen
die Zeichen und Komponenten diskreter Zeichen in den individuellen
Zeichenreihen AR 1, AR 2 und so weiter existieren,
um jede der Positionen und Bereiche als einen rechteckförmigen
Bereich XHR zu extrahieren, der von einem umschreibenden
Rahmen FRAME umgeben ist, welcher ein vollständiges
Zeichen oder eine Komponente eines Zeichens umgibt,
wie dies in Fig. 3 veranschaulicht ist.
Praktisch wird ein derartiger Extraktionsprozeß so ausgeführt,
daß die x-Projektion in der y-Achsen-Richtung entsprechend
der Zeichenhöhenrichtung ausgeführt wird und daß
die y-Projektion in der x-Achsen-Richtung entsprechend der
Zeichenreihen-Richtung ausgeführt wird, um ein x-Projektionssignal
Sx und ein y-Projektionssignal Sy zu erhalten, wobei
die x- und y-Projektionssignale Sx und Sy mit einem bestimmten
Schwellwertpegel verglichen werden, um Positionen der
umschreibenden Rahmen FRAME in den beiden x- und y-Achsen-
Richtungen zu ermitteln.
Wenn die japanischen Zeichen durch ein derartiges, vorstehend
gerade beschriebenes Verfahren extrahiert werden,
wobei sie in Übereinstimmung mit dem Höhe-zu-Breite-Verhältnis
h/w sortiert sind, werden drei verschiedene Arten
von rechteckförmigen Zeichen CHR (=CHR H , CHR B , CHR T ) erhalten,
wie dies in Fig. 4A, 4B bzw. 4C veranschaulicht ist.
Der erste rechteckförmige Bereich CHR H veranschaulicht ein
Höhe-zu-Breite-Verhältnis h H /w H , welches weitgehend gleich 1
ist, wie dies durch folgende Beziehung veranschaulicht ist:
Ein derartiger rechteckförmiger Bereich CHR H ist mit gewöhnlichen
Zeichen des nicht-diskreten Quadrates oder vom
em-Zeichentyp ausgestattet, die keine solche Diskontinuität
aufweisen wie bei einem diskreten Zeichen und die kein
spezielles festliegendes Merkmal bezüglich ihrer Größe und
Form haben. Derartige gewöhnliche Zeichen werden nachstehend als
nicht-diskrete gewöhnliche Zeichen bezeichnet werden; die
meisten japanischen Zeichen gehören zu derartigen nicht-
diskreten gewöhnlichen Zeichen.
Der rechteckförmige Bereich CHR B bildet eine Komponente
eines diskreten Zeichens und kennzeichnet ein Höhen-zu-
Breite-Verhältnis h B /w B , welches größer ist als 1, welches
entsprechend folgender Beziehung genügt:
Ein derartiger rechteckförmiger Bereich CHR B ist für
Komponenten diskreter Zeichen und vertikal verlängerter
Spezialzeichen vorgesehen; er weist eine Neigung dafür auf,
daß die Position des betreffenden Zeichens in der Zeichenhöhenrichtung
weitgehend in der Mitte bezogen auf die
maximale Höhe HL liegt.
Der dritte rechteckförmige Bereich CHR T weist kein besonderes
festliegendes Merkmal hinsichtlich seines Höhe-zu-
Breite-Verhältnisses h T /w T auf; die Höhe h T und die Breite
w T des betreffenden Bereiches sind jedoch verhältnismäßig
klein, und die Position des betreffenden Bereiches in der
Zeichenhöhenrichtung ist nicht in der vertikalen Mitte bezogen
auf die mayimale Höhe HL. Einige spezielle Zeichen,
wie "", "", "" und so weiter gehören zu der betreffenden
dritten Art.
Tatsächlich stellen die rechteckförmigen Bereiche CHR
(Fig. 3), die durch eine Extraktion von Zeichen aus jeder
der Zeichenreihen AR 1, AR 2 und so weiter erhalten werden,
eine zufällige Anordnung innerhalb der maximalen Höhe HL
der relevanten Zeichenreihen dar. Im besonderen können die
rechteckförmigen Bereiche CHR H der nicht-diskreten gewöhnlichen
Zeichen, die rechteckförmigen Bereiche CHR B einiger
spezieller Zeichen oder Komponenten von diskreten Zeichen
und die rechteckförmigen Bereiche CHR T von speziellen
Zeichen in der x-Achsen-Richtung in jeder Zeichenreihe beliebig
aufeinanderfolgend angeordnet sein.
Die Zeichen-Extraktionseinrichtung 6 unterscheidet richtig
zwischen den Typen derartiger normaler Zeichen und spezieller
Zeichen aus der Anordnung der pro Zeile erhaltenen rechteckförmigen
Bereiche CHR. Falls irgendein diskretes Zeichen
existiert, wird sodann eine mittlere Zeichenteilung P, die
durch folgende Gleichung gegeben ist:
zum Zwecke der exakten Extrahierung eines derartigen
Zeichens benutzt.
Wie in Fig. 5 veranschaulicht, sind die Teilungen P i-1,
P i , P i+1, . . ., aus denen die mittlere Zeichenteilung P
zu berechnen ist, durch solche quadratischen bzw. viereckigen
Zeichen gegeben, bei denen das Höhe-zu-Breite-Verhältnis
h/w weitgehend gleich 1 ist, wie bei einem nicht-
diskreten gewöhnlichen Zeichen (h H /w H =1). Unterdessen sind
die anderen Teilungen der speziellen Zeichen und Komponenten
von diskreten Zeichen, bei denen das Höhe-zu-Breite-Verhältnis
h/w nicht weitgehend gleich 1 ist (h B /w B ≠1 und h T /w T ≠1)
oder von speziellen Zeichen, bei denen das Höhe-zu-Breite-
Verhältnis h T /w T weigehend gleich 1 ist, während ihre
Größe klein ist, aus der Berechnung einer mittleren
Zeichenteilung P in Übereinstimmung mit der obigen
Gleichung (3) ausgenommen.
Damit ist beabsichtigt, einen passenden Integrationsvorgang
bezüglich eines diskreten Zeichens in einer solchen Art und
Weise auszuführen, daß die Teilung des als Ergebnis des
Integrationsvorgangs erhaltenen diskreten Zeichens weitgehend
gleich der mittleren Zeichenteilung des Quadrats
oder der em-Zeichen sein kann.
Es sei darauf hingewiesen, daß in dem Fall, daß ein
Zwischenraum d zwischen benachbarten Rechtecken kleiner
ist als ein vorbestimmte Schwellwert, die betreffenden
Rechtecke als Rchtecke eines einzelnen quadratischen
Zeichens verarbeitet werden, und zwar durch einen sogenannten
Verwischungs-Auslöschungsprozeß.
Im Falle der vorliegenden Ausführungsform wird dann, wenn
der Integrationsprozeß in der ersten Zeichenreihe AR 1 innerhalb
des Zeichenbereiches AR (Fig. 2) durchgeführt wird, die
Zeichen-Extraktionseinrichtung 6 eine maximale Höhe HL 1 bezüglich
der ersten Zeichenreihe annehmen, da die mittlere
Zeichenteilung P durch die obige Gleichung (3) gegeben ist.
Sodann wird bei der Verarbeitung irgendeiner der folgenden
Zeichenreihen die Zeichenextraktionseinrichtung 6 eine Berechnung
bezüglich der Gleichung (3) ausführen, wozu eine
Quadrat-Zeichen-Teilung Pi der vorangehenden Zeichenreihe
benutzt ist, um eine mittlere Zeichenteilung P herauszufinden.
Die obige Prozedur basiert auf dem Grund, daß es im
Hinblick auf die erste Zeichenreihe unmöglich ist, durch
Berechnung eine mittlere Zeichenteilung zu erhalten.
Die Zeichenextraktionseinrichtung 6 führt ein Extraktionsverarbeitungsprogramm
RTO aus, wie es in Fig. 6 veranschaulicht
ist, um Zeichen aus jeder der Zeichenreihen AR 1, AR 2
und so weiter zu extrahieren. Nach Eintritt in das Extraktionsverarbeitungsprogramm
RTO führt die Zeichenextraktionseinrichtung
6 einen Grund-Quadrat- bzw. Grund-Viereck-
Extraktionsprozeß bezüglich jeder der Zeichenreihen AR 1,
AR 2 und so weiter beim Schritt SP 1 aus, um eine Reihe
derartiger Rechtecke zu erzeugen, wie sie in Fig. 4A, 4B
und 4C veranschaulicht sind, wobei die rechteckigen Bereiche
CHR aufeinanderfolgend in der x-Achsen-Richtung so angeordnet
sind, daß rechteckförmige Zwischenräume d zwischen den betreffenden
Bereichen verbleiben, wie dies in Fig. 3 veranschaulicht
ist. Danach führt die Zeichenextraktionseinrichtung
6 einen solchen Integrationsprozeß aus, wie er
in Fig. 7 und 8A bis 8C aufeinanderfolgend veranschaulicht
ist, und zwar bezüglich der ersten, zweiten und aufeinanderfolgenden
rechteckförmigen Bereiche CHR, die die relevante
Rechteck-Reihe bilden.
Im besonderen wird bei einem Schritt SP 2 die Zeichenextraktionseinrichtung
6 eine Entscheidung darüber treffen, ob das
Höhe-zu-Breite-Verhältnis h/w eines rechteckförmigen Bereiches
CHR, des ersten rechteckförmigen Bereiches der relevanten
Rechteck-Reihe bei diesem Beispiel, größer ist als 1.
Wenn das Ergebnis einer derartigen Entscheidung negativ ist,
zeigt dies an, daß der relevante Bereich CHR zu einem Zeichen
gehört, welches ein Höhe-zu-Breite-Verhältnis h/w aufweist,
das weitgehend gleich 1 ist, wie dies für ein nicht-diskretes
viereckiges Zeichen oder ein spezielles Zeichen geringer
Größe zutrifft. In diesem Falle beendet die Zeichenextraktionseinrichtung
6 das Extraktionsverabeitungsprogramm beim
Schritt SP 3 und gibt die Zeichendaten des so verarbeiteten
rechteckförmigen Bereiches CHR als Eingangs-Zeichendaten S 5
an den Zeichen-Diskriminator 7 ab.
Wenn im Unterschied dazu die Entscheidung beim Schritt SP 2
positiv beantwortet wird, zeigt dies an, daß das Höhe-zu-
Breite-Verhältnis h/w des rechteckförmigen Bereiches CHR
größer ist als 1, womit der betreffende Bereich CHR möglicherweise
eine Komponente eines diskreten Zeichens, wie
dies oben in Verbindung mit der Gleichung (2) beschrieben
worden ist, sein kann. In diesem Fall geht die Zeichen-
Extraktionseinrichtung 6 weiter zum Schritt SP 4 und trifft
eine Entscheidung drüber, ob die vertikale Position des
extrahierten rechteckförmigen Bereiches CHR in der Mitte
liegt oder nicht.
Beim Schritt SP 4 ist eine Entscheidung darüber vorgesehen,
ob der relevante rechteckförmige Bereich CHR zu einem
diskreten Zeichen oder einem speziellen Zeichen gehört.
Wenn das Ergebnis einer solchen Entscheidung negativ ist,
zeigt dies an, daß der rechteckförmige Bereich CHR oberhalb
oder unterhalb einer Mittellinie L CHR liegt, welche durch
die Mittenposition der maximalen Höhe HL der relevanten
Zeichenreihe verläuft,wie dies bei einem rechteckförmigen
Bereich CHR X 1 oder CHR X 2 gemäß Fig. 7 veranschaulicht ist.
Eine derartige Bedingung ist nicht durch ein diskretes
Zeichen, sondern vielmehr durch ein spezielles Zeichen
erfüllt, wie durch "", "" und "".
Wenn die Bedingung erfüllt ist, geht die Zeichenextraktionseinrichtung
6 weiter zum Schritt SP 3, um das Verarbeitungsprogramm
zu beenden; sie gibt die Zeichendaten des verarbeiteten
rechteckförmigen Bereiches CHR als Eingangs-Zeichendaten
S 5 an den Zeichen-Diskriminator 7 ab.
Im Unterschied dazu zeigt dies in dem Fall, daß das Ergebnis
der Entscheidung beim Schritt SP 4 positiv bzw. bejahend ist,
an, daß der rechteckförmige Bereich CHR in einer Position
zu beiden Seiten der Mittellinie L CTR ist, wie dies bezüglich
eines rechteckförmigen Bereiches CHR X 3 in Fig. 7
veranschaulicht ist.
Ein derartiges Zeichen wird als eine Komponente eines
diskreten Zeichens betrachtet. In diesem Falle geht die
Zeichenextraktionseinrichtung 6 weiter zum Schritt SP 5.
Auf diese Weise ist die Zeichenextraktionseinrichtung 6
imstande, genau eine Komponente eines diskreten Zeichens
von irgendeinem anderen speziellen Zeichen zu unterscheiden.
Die Prozedur geht dann weiter zum Schritt SP 5.
Beim Schritt SP 5 wird eine Entscheidung darüber getroffen,
ob das Höhe-zu-Breite-Verhältnis eines nächsten rechteckförmigen
Bereiches neben dem rechteckförmigen Bereich CHR
größer ist als 1 oder nicht. In dem Fall, daß das Ergebnis
einer derartigen Entscheidung negativ ist, zeigt dies an,
daß der rechteckförmige Bereich, wie der in Fig. 8A dargestellte
rechteckförmige Bereich CAR 11, von einem rechteckförmigen
Bereich gefolgt wird, dessen Höhe-zu-Breite-Verhältnis
h/w weitgehend gleich 1 ist, wie dies für den
rechteckförmigen Bereich CHR 12 zutrifft, der in Fig. 8(A)
dargestellt ist.
In diesem Falle genügt der nächste rechteckförmige Bereich
CHR 12 nicht, die für eine Komponente irgendeines diskreten
Zeichens erforderliche Bedingung zu erfüllen, was anzeigt,
daß der rechteckförmige Bereich CHR 11, der die für eine
Komponente eines diskreten Zeichens erforderliche Bedingung
erfüllt, von dem rechteckförmigen Bereich CHR 12 gefolgt
wird, welcher nicht mit dem vorhergehenden Zeichenbereich
CHR 11 integriert werden kann.
Demgemäß beendet die Zeichenextraktionseinrichtung 6 das
Verarbeitungsprogramm beim Schritt SP 3 und gibt die Eingangs-Zeichendaten
S 5, die kennzeichnend sind für den
rechteckförmigen Bereich CHR 11, an den Zeichen-Diskrimintor
7 ab. Wenn im Unterschied dazu das Ergebnis der zuvor
erwähnten Entscheidung beim Schritt SP 5 positiv bzw. bejahend
ist, zeigt dies an, daß ein rechteckförmiger Bereich,
wie der rechteckförmige Bereich CHR 22 oder CHR 24, der in
Fig. 8B dargestellt ist, von einem weiteren rechteckförmigen
Bereich, wie dem in Fig. 8 dargestellten rechteckförmigen
Bereich CHR 21 oder CHR 23, gefolgt wird, welcher eine
Forderung bezüglich einer Komponente eines diskreten Zeichens
erfüllt. Die Zeichenextraktionseinrichtung 6 geht dann weiter
zum Schritt SP 6.
Beim Schritt SP 6 wird eine Entscheidung darüber getroffen,
ob die Extraktionsposition des folgenden benachbarten
rechteckförmigen Bereiches in der Mitte liegt oder nicht.
Dies stellt eine Bestätiung für eine zweite Bedingung dar,
wonach der folgende rechteckförmige Bereich eine Komponente
eines diskreten Zeichens ausmacht bzw. bildet.
Falls das Ergebnis einer derartigen Entscheidung negativ
ist beim Schritt SP 6, zeigt dies an, daß der folgende benachbarte
rechteckförmige Bereich nicht beiderseits der
Mittellinie L CTR liegt, wie dies oben in Verbindung mit
Fig. 7 beschrieben worden ist. Damit wird angezeigt, daß
der relevante rechteckförmige Bereich zu einem speziellen
Zeichen gehört, nicht jedoch zu einer Komponente eines
diskreten Zeichens. In diesem Falle geht die Zeichenextraktionseinrichtung
6 anschließend weiter zum Schritt SP 3, um
das Verarbeitungsprogramm zu beenden; sie gibt die für den
verarbeiteten rechteckförmigen Bereich CHR 21 oder CHR 23
kennzeichnenden Zeichendaten für eine Extraktion zum vorliegenden
Zeitpunk im Falle der Fig. 8(B) als Eingangs-
Zeicheninformation S 5 an den Zeichen-Diskriminator 7 ab.
Wenn demgegenüber das beim Schritt SP 6 erhaltene Ergebnis
positiv bzw. bejahend ist, zeigt dies an, daß die Extraktionsposition
des folgenden rechteckförmigen Bereiches beiderseits
der Mittellinie L CTR liegt, wie dies oben in Verbindung
mit Fig. 7 erwähnt worden ist. Damit wird angezeigt,
daß der folgende benachbarte rechteckförmige Bereich die
zweite Bedingung bezüglich einer Komponente eines diskreten
Zeichens erfüllt. Im Falle der Fig. 8B ist beispielsweise
der folgende rechteckförmige Bereich CHR 22 oder CHR 24 dem
rechteckförmigen Bereich CHR 21 oder CHR 23 benachbart, der
zum vorliegenden Zeitpunkt verarbeitet wird, womit ebenfalls
die zweite Bedingung bezüglich einer Komponente eines diskreten
Zeichens erfüllt ist.
In diesem Falle geht die Zeichenextraktionseinrichtung 6
weiter zum Schritt SP 7, bei dem sie eine Entscheidung
darüber trifft, ob der mit dem folgenden rechteckförmigen
Bereich integrierte rechteckförmige Bereich eine kleinere
Teilung mit sich bringt oder nicht als die mittlere
Zeichenteilung. Dies stellt eine Bestätigung bezüglich
einer dritten Bedingung dar, wonach der Zeichenbereich,
der gerade verarbeitet wird, eine Komponente eines diskreten
Zeichens ausmacht.
In dem Fall, daß das Ergebnis einer derartigen Entscheidung
negativ ist, zeigt dies an, daß ein diskretes Zeichen, das
als Ergebnis einer Integration des rechteckförmigen Bereiches
mit dem folgenden rechteckförmigen Bereich gebildet
worden ist, eine Teilung bzw. einen Abstand haben würde,
der größer wäre als der mittlere Zeichenabstand. Dies
zeigt an, daß das integrierte Zeichen nach allem nicht die
Endbedingung bezüglich eines diskreten Zeichens erfüllen
würde.
Wie oben in Verbindung mit der Gleichung (3) beschrieben
worden ist, wird die mittlere Zeichenteilung bzw. der
mittlere Zeichenabstand P auf der Grundlage der quadratischen
bzw. viereckigen oder em-Zeichen berechnet, die in
der vorhergehenden Zeile bis zu der Zeile enthalten sind,
die den nunmehr verarbeiteten rechteckförmigen Bereich aufweist.
Praktisch ist jedoch ein Zeichen, dessen Teilung bzw.
Abstand größer ist als jener eines quadratischen oder
em-Zeichens, nicht in einem gedruckten Dokument enthalten.
Demgemäß muß eine derartige Integration von Zeichenbereichen,
die zu einem Zeichenabstand führen würde, der größer ist als
der mittlere Zeichenabstand P, verhindert werden.
Wenn das Ergebnis der Entscheidung beim Schritt SP 7 auf
diese Weise negativ ist, geht die Zeichenextraktionseinrichtung
6 weiter zum Schritt SP 3, um das Verarbeitungsprogramm
zu beenden und dem Zeichen-Diskriminator 7 Eingangs-Zeichendaten
S 5 zuzuführen, die kennzeichnend sind
dafür, daß der nunmehr verarbeitete rechteckförmige Bereich
zu einem unabhängigen Zeichen gehört, nicht jedoch zu einer
Komponente irgendeines diskreten Zeichens.
Wenn demgegenüber das beim Schritt SP 7 erhaltene Ergebnis
positiv bzw. bejahend ist, zeigt dies an, daß die integrierten
Zeichenbereiche die dritte Bedingung bezüglich einer
Komponente eines diskreten Zeichens erfüllen. Demgemäß geht
die Zeichenextraktionseinrichtung 6 weiter zum Schritt SP 8,
um tatsächlich einen Integrationsprozeß bezüglich des
rechteckförmigen Bereiches mit folgenden rechteckförmigen
Bereichen auszuführen, woraufhin zum zuvor erwähnten
Schritt SP 5 zurückgekehrt wird.
Beim Schritt SP 8 integriert die Zeichenextraktionseinrichtung
6 im Falle der Fig. 8(B) beispielsweise den nunmehr verarbeiteten
rechteckförmigen Bereich CHR 21 oder CHR 23 mit dem
folgenden Zeichenbereich CHR 22 bzw. CHR 24, und zwar aus
dem Grund, daß ein diskretes Zeichen, welches durch
Integration des nunmehr verarbeiteten rechteckförmigen
Bereiches CHR 21 oder CHR 23 mit dem folgenden rechteckförmigen
Bereich CHR 22 oder CHR 24 gebildet werden kann, eine Zeichenteilung
bzw. einen Zeichenabstand haben würde, der kleiner ist als
der mittlere Zeichenabstand P.
Danach führt die Zeichenextraktionseinrichtung 6 die zuvor
erwähnten Entscheidungen bei den Schritten SP 5, SP 6 und SP 7
bezüglich eines weiteren folgenden rechteckförmigen Bereiches
durch, der dem integrierten rechteckförmigen Bereich
benachbart ist. Wenn die bei den betreffenden Schritten
erhaltenen Ergebnisse alle positiv bzw. bejahend sind,
ird die Integrationsverarbeitung erneut beim Schritt SP 8
ausgeführt. Wenn demgegenüber eines der erhaltenen Ergebnisse
negativ ist, wird das Extraktionsverarbeitungsprogramm
beim Schritt SP 3 beendet, und aus zwei oder mehr
integrierten rechteckförmigen Bereichen bestehende diskrete
Zeichendaten werden als Eingangs-Zeichendaten S 5 dem
Zeichen-Diskriminator 7 zugeführt.
Im übrigen sei angemerkt, daß dann, wenn die Zeichenextraktionseinrichtung
6 die rechteckförmigen Bereiche CHR 21
und CHR 22 gemäß Fig. 8 miteinander integriert, ein positives
bzw. bejahendes Ergebnis bei jedem der Schritte SP 5 und SP 6
bezüglich des nächsten rechteckförmigen Bereiches CHR 23 erhalten
wird. Falls jedoch der rechteckförmige Bereich CHR 23
weiter integriert wird, dann wird die resultierende Zeichenteilung
bzw. der resultierende Zeichenabstand größer sein
als der mittlere Zeichenabstand P. Demgemäß wird beim
Schritt SP 7 ein negatives Ergebnis erzielt werden.
Dies zeigt an, daß die rechteckförmigen Bereiche CHR 21
und CHR 22, wie sie in Fig. 8B veranschaulicht sind, nicht
mit dem folgenden rechteckförmigen Bereich CHR 23 integriert
werden können. In diesem Falle werden die durch Integration
der rechteckförmigen Bereiche CHR 21 und CHR 22 erhaltenen
diskreten Zeichen-Daten als Eingangs-Zeichendaten S 5 dem
Zeichen-Diskriminator 7 von der Zeichenextraktionseinrichtung
6 her zugeführt.
Im Unterschied dazu wird in dem Fall, daß die Zeichenextraktionseinrichtung
6 zum Schritt SP 5 zurückkehrt, nachdem eine
Integration des rechteckförmigen Bereiches CHR 24 mit dem
Bereich CHR 23 gemäß Fig. 8B durchgeführt worden ist, beim
Schritt SP 5 eine Entscheidung bezüglich eines Höhe-zu-
Breite-Verhältnisses eines folgenden rechteckförmigen
Bereiches CHR 25 getroffen. In dem dargestellten speziellen
Falle ist das Höhe-zu-Breite-Verhältnis des rechteckförmigen
Bereiches CHR 25 weitgehend gleich 1, und demgemäß erhält
die Zeichenextraktionseinrichtung 6 beim Schritt SP 5
ein negatives Ergebnis. In diesem Falle geht die Zeichenextraktionseinrichtung
6 zum Schritt SP 3 weiter, ohne eine
Integrationsverarbeitung bezüglich des rechteckförmigen
Bereiches CHR 25 auszuführen; damit werden die diskreten
Zeichendaten der rechteckförmigen Bereiche CHR 23 und CHR 24
als Eingangs-Zeichendaten S 5 dem Zeichen-Diskriminator 7
zugeführt.
Wenn demgegenüber die Zeichenextraktionseinrichtung 6 zum
Schritt SP 5 zurückkehrt, nachdem aufeinanderfolgende
Integrationen der rechteckförmigen Bereiche CHR 31 und CHR 32
und weiter der rechteckförmigen Bereiche CHR 33 und CHR 34
ausgeführt worden sind, wie die in Fig. 8C veranschaulicht
sind, wird bei jedem der Schritte SP 5, SP 6 und SP 7 ein
positives bzw. bejahendes Ergebnis erzielt, falls die Bedingungen
erfüllt sind, wonach ein folgender rechteckförmiger
Bereich CHR 35 vertikal langgestreckt ist (das
heißt ein Höhe-zu-Breite-Verhältnis von h/w<1 hat) und
an einer Stelle beiderseits der Mittellinie L CTR (Fig. 7)
extrahiert wird, und wonach der Zeichenabstand nach der
Integration mit dem rechteckförmigen Bereich CHR 35 kleiner
wäre als der mittlere Zeichenabstand P. Demgemäß wird der
Integrationsprozeß erneut beim Schritt SP 8 ausgeführt. Somit
werden die diskreten Zeichendaten, welche durch eine
derartige Integration der drei rechteckförmigen Bereiche
CHR 33, CHR 34 und CHR 35 unter Bildung eines einzigen diskreten
Zeichens erhalten worden sind, als Eingangs-Zeichendaten dem
Zeichen-Diskriminator 7 von der Zeichenextraktionseinrichtung
6 her zugeführt.
In Übereinstimmung mit dem oben erwähnten beispielhaften
Aufbau ist bei der Ausführung des Prozesses zur Extrahierung
eines diskreten Zeichens durch Integration der rechteckförmigen
Bereiche von Komponenten derartiger diskreter
Zeichen die Extraktionsposition zusätzlich zu dem Höhe-zu-
Breite-Verhältnis als eine Bedingung für die Entscheidung
angenommen bzw. ausgewählt, daß der zu verarbeitende
rechteckförmige Bereich eine Komponente eines diskreten
Zeichens ist. Demgemäß kann die Extraktionsgenauigkeit
irgendeines diskreten Zeichens weiter gesteigert werden.
Darüber hinaus wird beim Prozeß der Integration eines folgenden
rechteckförmigen Bereiches die Integration in einer
solchen Art und Weise ausgeführt, daß das Höhe-zu-Breite-
Verhältnis und die Extraktionsposition des nächsten
rechteckförmigen Bereiches festgelegt werden, während die
Bedingung aufrechterhalten wird, daß der Zeichenabstand
bzw. die Zeichenteilung nach einem derartigen Integrationsprozeß
niemals den mittleren Zeichenabstand P überschreitet.
Demgemäß kann die Extraktionsgenauigkeit eines diskreten
Zeichens weiter verbessert werden.
Das obige Ausführungseispiel ist im Hinblick auf einen
beispielhaften Fall der Berechnung der mittleren Zeichenteilung
bzw. des mittleren Zeichenabstands P in jeder
Zeichenreihe beschrieben worden, wobei die Integration
eines diskreten Zeichens dadurch ausgeführt wird, daß der
mittlere Zeichenabstand P herangezogen wird, der in einer
vorangehenden Zeichenreihe erhalten worden ist. Es kann
jedoch eine solche Modifikation angewandt werden, daß die
quadratischen Zeichen in einer Zeichenreihe insgesamt oder
teilweise als Daten des mittleren Zeichenabstands P für
die jeweiligen Zeichenreihe benutzt werden, oder ein
sonstiger mittlerer Zeichenabstand wird im Hinblick auf
einen Teil der viereckigen Zeichen oder em-Zeichen in der
vorangehenden Reihe berechnet und als mittlere Zeichenabstands-Daten
in der relevanten Zeichenreihe benutzt. Ferner
können die mittleren Zeichenabstands-Daten im Hinblick auf
die viereckigen bzw. quadratischen Zeichen in einer Vielzahl
von Zeichenreihen berechnet werden.
Unter Ausschluß irgendeines Zeichenabstands, der verschieden
ist von dem Abstand bzw. der Teilung des quadratischen
Zeichens, und zwar zur Berechnung eines mittleren Zeichenabstands
in jeder Zeichenreihe für den Fall, daß ein
Zeichenabstand in einer neuen Zeichenreihe extrem verschieden
ist von dem mittleren Zeichenabstand in der vorangehenden
Zeichenreihe, kann die neue Zeichenreihe als erste Zeichenreihe
betrachtet werden, und der Vorgang eines derartigen
Ausschlusses kann dadurch ausgeführt werden, daß die maximale
Höhe der neuen Zeichenreihe herangezogen wird.
In dem Fall, daß lediglich eine gewisse Anzahl von Reihen
von Zeichen eine unterschiedliche Zeichengröße hat, wie
in einem eingefügten Anschnitt innerhalb eines gedruckten
Dokuments (beispielsweise dann, wenn ein oder mehr
Zeichenreihen enthaltender Abschnitt mit Zeichen der
8-Punkt-Zeichengröße in ein gedrucktes Dokument eingesetzt
ist, welches Zeichenreihen mit Zeichen der 12-Punkt-Zeichengröße
aufweist), können die aus der Berechnung eines mittleren
Zeichenabstands auszuschließenden Zeichen unter Bezugnahme
auf die maximale Höhe der ersten Zeichenreihe des
eingefügten Absatzes der 8-Punkt-Zeichenreihen ausgewählt
werden. Dadurch wird die Ausführung der erwünschten Extraktion
diskreter Zeichen mit einer hinreichend hohen Genauigkeit
bei der praktischen Anwendung gewährleistet.
Während vorstehend lediglich die Extraktion von horizontal
geschriebenen Zeichen im Zuge der Erläuterung der bevorzugten
Ausführungsform der vorliegenden Erfindung beschrieben
worden ist, sei angemerkt, daß die Extraktionsprozedur in
entsprechender bzw. ähnlicher Weise bei der Extraktion von
vertikal geschriebenen Zeichen angewandt werden kann. In
diesem Falle kann ein rechteckförmiger Bereich mit einer
Höhe-zu-Breite kleiner als 1 als Komponente eines diskreten
Zeichens betrachtet werden.
Darüber hinaus können die Schritte SP 2 und SP 4 miteinander
ausgetauscht werden, was auch für die Schritte SP 5 und SP 6
zutrifft.
Claims (4)
1. Verfahren zum Erkennen eines Zeichens entsprechend
einer Zeichen-Information, welche aus einem Zeichenreihen-Signal
unter Verwendung eines rechteckförmigen
Bereiches extrahiert worden ist, der aus dem Zeichenreihen-Signal
gebildet ist und der ein vollständiges
Zeichen oder eine Komponente eines diskreten Zeichens
umgibt,
dadurch gekennzeichnet, daß
in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis
und einer vertikalen Extraktionsposition des rechteckförmigen
Bereiches entschieden wird, daß bzw. ob der
betreffende rechteckförmige Bereich eine Komponente
eines diskreten Zeichens ist.
2. Verfahren zum Erkennen eines Zeichens in Übereinstimmung
mit einer Zeichen-Information, welche aus
einem Zeichenreihen-Signal unter Verwendung eines
rechteckförmigen Bereiches extrahiert worden ist, der
aus dem Zeichenreihen-Signal gebildet ist und der ein
vollständiges Zeichen oder eine Komponente eines diskreten
Zeichens umgibt,
dadurch gekennzeichnet,
daß in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer vertikalen Extraktionsposition eines Zeichenbereiches entschieden wird, ob bzw. daß ein Zeichenbereich eine Komponente eines diskreten Zeichens ist,
daß dann, wenn entschieden worden ist, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, entschieden wird, ob bzw. daß ein zweiter benachbarter Zeichenbereich eine weitere Komponente eines diskreten Zeichens ist,
daß der zweite Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert wird, daß der Zeichenabstand (P) der integrierten Zeichenbereiche einen mittleren Zeichenabstand (P) nicht überschreitet,
und daß die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert wird.
daß in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und einer vertikalen Extraktionsposition eines Zeichenbereiches entschieden wird, ob bzw. daß ein Zeichenbereich eine Komponente eines diskreten Zeichens ist,
daß dann, wenn entschieden worden ist, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, entschieden wird, ob bzw. daß ein zweiter benachbarter Zeichenbereich eine weitere Komponente eines diskreten Zeichens ist,
daß der zweite Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert wird, daß der Zeichenabstand (P) der integrierten Zeichenbereiche einen mittleren Zeichenabstand (P) nicht überschreitet,
und daß die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert wird.
3. Zeichenerkennungssystem, insbesondere zur Durchführung
des Verfahrens nach Anspruch 1 oder 2, zum Erkennen eines
Zeichens in Übereinstimmung mit einer Zeicheninformation,
welche aus einem Zeichenreihen-Signal unter Verwendung
eines rechteckförmigen Bereiches extrahiert worden ist,
der aus dem Zeichenreihen-Signal gebildet ist und der ein
vollständiges Zeichen oder eine Komponente eines diskreten
Zeichens umgibt,
dadurch gekennzeichnet, daß eine
Entscheidungseinrichtung vorgesehen ist, die in Übereinstimmung
mit einem Höhe-zu-Breite-Verhältnis und in Übereinstimmung
mit einer vertikalen Extraktionsposition eines
rechteckförmigen Bereiches bestimmt, ob bzw. daß der rechteckförmige
Bereich eine Komponente eines diskreten Zeichens
ist.
4. Zeichenerkennungssystem, insbesondere zur Durchführung
des Verfahrens nach Anspruch 1 oder 2, zum Erkennen eines
Zeichens in Übereinstimmung mit einer Zeicheninformation,
welche aus einem Zeichenreihen-Signal unter Verwendung
eines rechteckförmigen Bereiches extrahiert worden ist,
der aus dem Zeichenreihen-Signal gebildet ist und der ein
vollständiges Zeichen oder eine Komponente eines diskreten
Zeichens umschreibt,
dadurch gekennzeichnet,
daß eine Entscheidungseinrichtung vorgesehen ist, die in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und in Übereinstimmung mit einer vertikalen Extraktionsposition eines rechteckförmigen Bereiches bestimmt, ob bzw. daß der rechteckförmige Bereich eine Komponente eines diskreten Zeichens is,
daß eine Entscheidungseinrichtung vorgesehen ist, die in dem Fall, daß entschieden worden ist, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, entscheidet, daß bzw. ob ein zweiter benachbarter Zeichenbereich eine weitere Komponente des diskreten Zeichens ist,
daß eine Integrationseinrichtung (6) vorgesehen ist, welche den zweiten Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert, daß der Zeichenabstand (P) der integrierten Zeichenbereiche einen mittleren Zeichenabstand nicht überschreitet,
und daß eine Diskriminierungseinrichtung (7) vorgesehen ist, welche die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert.
daß eine Entscheidungseinrichtung vorgesehen ist, die in Übereinstimmung mit einem Höhe-zu-Breite-Verhältnis und in Übereinstimmung mit einer vertikalen Extraktionsposition eines rechteckförmigen Bereiches bestimmt, ob bzw. daß der rechteckförmige Bereich eine Komponente eines diskreten Zeichens is,
daß eine Entscheidungseinrichtung vorgesehen ist, die in dem Fall, daß entschieden worden ist, daß der erste rechteckförmige Bereich eine Komponente eines diskreten Zeichens ist, entscheidet, daß bzw. ob ein zweiter benachbarter Zeichenbereich eine weitere Komponente des diskreten Zeichens ist,
daß eine Integrationseinrichtung (6) vorgesehen ist, welche den zweiten Zeichenbereich mit dem ersten Zeichenbereich unter der Bedingung integriert, daß der Zeichenabstand (P) der integrierten Zeichenbereiche einen mittleren Zeichenabstand nicht überschreitet,
und daß eine Diskriminierungseinrichtung (7) vorgesehen ist, welche die aus den integrierten ersten und zweiten Zeichenbereichen extrahierte Zeicheninformation als Zeicheninformation der Komponenten des diskreten Zeichens diskriminiert.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63122272A JP2822189B2 (ja) | 1988-05-19 | 1988-05-19 | 文字認識装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3916323A1 true DE3916323A1 (de) | 1989-11-30 |
Family
ID=14831855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3916323A Withdrawn DE3916323A1 (de) | 1988-05-19 | 1989-05-19 | Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem |
Country Status (6)
Country | Link |
---|---|
US (1) | US5138668A (de) |
JP (1) | JP2822189B2 (de) |
KR (1) | KR890017630A (de) |
DE (1) | DE3916323A1 (de) |
FR (1) | FR2631723A1 (de) |
GB (1) | GB2218839B (de) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2597006B2 (ja) * | 1989-04-18 | 1997-04-02 | シャープ株式会社 | 矩形座標抽出方法 |
CA2037173C (en) * | 1990-03-30 | 1996-01-09 | Hirofumi Kameyama | Character recognizing system |
EP0457534B1 (de) * | 1990-05-14 | 2001-10-31 | Canon Kabushiki Kaisha | Verfahren und Gerät zur Bildverarbeitung |
EP0457546B1 (de) * | 1990-05-15 | 1998-12-02 | Canon Kabushiki Kaisha | Verfahren und Gerät zur Bildverarbeitung |
JP2868134B2 (ja) * | 1990-09-03 | 1999-03-10 | キヤノン株式会社 | 画像処理方法及び装置 |
US5825920A (en) * | 1991-01-28 | 1998-10-20 | Hitachi, Ltd. | Method and unit for binary processing in image processing unit and method and unit for recognizing characters |
EP0831418B1 (de) * | 1991-10-21 | 2002-03-13 | Canon Kabushiki Kaisha | Verfahren und Gerät zur Zeichenerkennung |
US5757979A (en) * | 1991-10-30 | 1998-05-26 | Fuji Electric Co., Ltd. | Apparatus and method for nonlinear normalization of image |
US5343537A (en) * | 1991-10-31 | 1994-08-30 | International Business Machines Corporation | Statistical mixture approach to automatic handwriting recognition |
US5848187A (en) * | 1991-11-18 | 1998-12-08 | Compaq Computer Corporation | Method and apparatus for entering and manipulating spreadsheet cell data |
JP3278471B2 (ja) * | 1991-11-29 | 2002-04-30 | 株式会社リコー | 領域分割方法 |
JPH0619439A (ja) * | 1992-06-30 | 1994-01-28 | Fujitsu Ltd | 画面表示の変更方式 |
US5321768A (en) * | 1992-09-22 | 1994-06-14 | The Research Foundation, State University Of New York At Buffalo | System for recognizing handwritten character strings containing overlapping and/or broken characters |
JP2951814B2 (ja) * | 1993-02-25 | 1999-09-20 | 富士通株式会社 | 画像抽出方式 |
US6005976A (en) * | 1993-02-25 | 1999-12-21 | Fujitsu Limited | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions |
US5396566A (en) * | 1993-03-04 | 1995-03-07 | International Business Machines Corporation | Estimation of baseline, line spacing and character height for handwriting recognition |
JP2800633B2 (ja) * | 1993-04-30 | 1998-09-21 | 富士ゼロックス株式会社 | 画像符号化装置 |
US5517578A (en) * | 1993-05-20 | 1996-05-14 | Aha! Software Corporation | Method and apparatus for grouping and manipulating electronic representations of handwriting, printing and drawings |
US7203903B1 (en) | 1993-05-20 | 2007-04-10 | Microsoft Corporation | System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings |
JP2933801B2 (ja) * | 1993-06-11 | 1999-08-16 | 富士通株式会社 | 文字の切り出し方法及びその装置 |
ATE196205T1 (de) * | 1993-06-30 | 2000-09-15 | Ibm | Verfahren zum segmentieren von bildern und klassifizieren von bildelementen zur dokumentverarbeitung |
JP3042945B2 (ja) * | 1993-07-07 | 2000-05-22 | 富士通株式会社 | 画像抽出装置 |
US5596350A (en) * | 1993-08-02 | 1997-01-21 | Apple Computer, Inc. | System and method of reflowing ink objects |
US5454046A (en) * | 1993-09-17 | 1995-09-26 | Penkey Corporation | Universal symbolic handwriting recognition system |
US5410611A (en) * | 1993-12-17 | 1995-04-25 | Xerox Corporation | Method for identifying word bounding boxes in text |
US6256408B1 (en) * | 1994-04-28 | 2001-07-03 | International Business Machines Corporation | Speed and recognition enhancement for OCR using normalized height/width position |
US5600735A (en) * | 1994-05-10 | 1997-02-04 | Motorola, Inc. | Method of recognizing handwritten input |
JPH08194780A (ja) * | 1994-11-18 | 1996-07-30 | Ricoh Co Ltd | 特徴抽出方法 |
IL112420A (en) * | 1995-01-23 | 1999-05-09 | Advanced Recognition Tech | Handwriting recognition with reference line estimation |
JPH08249422A (ja) * | 1995-03-08 | 1996-09-27 | Canon Inc | 文字処理装置及び方法 |
US5991439A (en) * | 1995-05-15 | 1999-11-23 | Sanyo Electric Co., Ltd | Hand-written character recognition apparatus and facsimile apparatus |
US5850476A (en) * | 1995-12-14 | 1998-12-15 | Xerox Corporation | Automatic method of identifying drop words in a document image without performing character recognition |
US5892842A (en) * | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
US5848191A (en) * | 1995-12-14 | 1998-12-08 | Xerox Corporation | Automatic method of generating thematic summaries from a document image without performing character recognition |
US7721948B1 (en) * | 1999-05-25 | 2010-05-25 | Silverbrook Research Pty Ltd | Method and system for online payments |
USD705787S1 (en) | 2012-06-13 | 2014-05-27 | Microsoft Corporation | Display screen with animated graphical user interface |
CN102779176A (zh) * | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤系统及方法 |
CN105095890B (zh) * | 2014-04-25 | 2019-02-26 | 广州市动景计算机科技有限公司 | 图像中字符分割方法及装置 |
KR102256667B1 (ko) | 2020-03-23 | 2021-05-26 | 주식회사 신한디에스 | 문서 인식 방법 및 그 장치 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3526876A (en) * | 1965-10-24 | 1970-09-01 | Ibm | Character separation apparatus for character recognition machines |
US3662341A (en) * | 1970-09-25 | 1972-05-09 | Ibm | Video-derived segmentation-gating apparatus for optical character recognition |
US3846752A (en) * | 1972-10-02 | 1974-11-05 | Hitachi Ltd | Character recognition apparatus |
NL160408C (nl) * | 1973-02-21 | 1979-10-15 | Nederlanden Staat | Inrichting voor het lezen van tekens, bij voorkeur van cijfers. |
JPS5156139A (en) * | 1974-11-13 | 1976-05-17 | Hitachi Ltd | Mojomitorisochi niokeru kiridashihoshiki |
US4193056A (en) * | 1977-05-23 | 1980-03-11 | Sharp Kabushiki Kaisha | OCR for reading a constraint free hand-written character or the like |
US4162482A (en) * | 1977-12-07 | 1979-07-24 | Burroughs Corporation | Pre-processing and feature extraction system for character recognition |
JPS5580183A (en) * | 1978-12-12 | 1980-06-17 | Nippon Telegr & Teleph Corp <Ntt> | On-line recognition processing system of hand-written character |
JPS5827551B2 (ja) * | 1979-05-18 | 1983-06-10 | 日本電信電話株式会社 | オンライン手書き文字認識方式 |
US4379282A (en) * | 1979-06-01 | 1983-04-05 | Dest Corporation | Apparatus and method for separation of optical character recognition data |
JPS6043555B2 (ja) * | 1980-02-26 | 1985-09-28 | 株式会社トキメック | 印字文字切出し装置 |
US4377803A (en) * | 1980-07-02 | 1983-03-22 | International Business Machines Corporation | Algorithm for the segmentation of printed fixed pitch documents |
US4365234A (en) * | 1980-10-20 | 1982-12-21 | Hendrix Electronics, Inc. | Segmentation system and method for optical character scanning |
DE3480667D1 (de) * | 1983-03-01 | 1990-01-11 | Nec Corp | System zum bestimmen des zeichenabstandes. |
US4562594A (en) * | 1983-09-29 | 1985-12-31 | International Business Machines Corp. (Ibm) | Method and apparatus for segmenting character images |
US4635290A (en) * | 1983-12-20 | 1987-01-06 | Nec Corporation | Sectioning apparatus and method for optical character reader systems |
US4610025A (en) * | 1984-06-22 | 1986-09-02 | Champollion Incorporated | Cryptographic analysis system |
JPS6118079A (ja) * | 1984-07-05 | 1986-01-25 | Fujitsu Ltd | パタ−ン分離装置 |
DE3538639A1 (de) * | 1984-10-31 | 1986-04-30 | Canon K.K., Tokio/Tokyo | Bildverarbeitungssystem |
JPS61117670A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文字切り出し処理方式 |
JPH0782525B2 (ja) * | 1985-07-09 | 1995-09-06 | 松下電器産業株式会社 | 文字認識装置 |
JPS6274181A (ja) * | 1985-09-27 | 1987-04-04 | Sony Corp | 文字認識装置 |
JPS6316392A (ja) * | 1986-07-08 | 1988-01-23 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JP2619429B2 (ja) * | 1987-11-05 | 1997-06-11 | グローリー工業株式会社 | 接触文字の分離方法 |
US4932065A (en) * | 1988-11-16 | 1990-06-05 | Ncr Corporation | Universal character segmentation scheme for multifont OCR images |
-
1988
- 1988-05-19 JP JP63122272A patent/JP2822189B2/ja not_active Expired - Fee Related
-
1989
- 1989-05-17 GB GB8911303A patent/GB2218839B/en not_active Expired - Lifetime
- 1989-05-19 KR KR1019890006694A patent/KR890017630A/ko not_active Application Discontinuation
- 1989-05-19 FR FR8906608A patent/FR2631723A1/fr active Granted
- 1989-05-19 DE DE3916323A patent/DE3916323A1/de not_active Withdrawn
-
1991
- 1991-08-05 US US07/742,449 patent/US5138668A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR890017630A (ko) | 1989-12-16 |
JPH01292486A (ja) | 1989-11-24 |
US5138668A (en) | 1992-08-11 |
GB2218839B (en) | 1992-04-29 |
GB8911303D0 (en) | 1989-07-05 |
JP2822189B2 (ja) | 1998-11-11 |
FR2631723B1 (de) | 1995-04-28 |
FR2631723A1 (fr) | 1989-11-24 |
GB2218839A (en) | 1989-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3916323A1 (de) | Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem | |
DE3716787C2 (de) | ||
DE3632832A1 (de) | Zeichenerkennungssystem | |
DE3322443C2 (de) | ||
DE68923650T2 (de) | Bildverarbeitungsverfahren. | |
DE69604481T2 (de) | Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern | |
DE69230633T2 (de) | Verfahren zur Ermittlung von Wortformen zum folgenden Vergleich | |
DE69723220T2 (de) | Gerät und Verfahren zur Extrahierung von Tabellengeraden innerhalb normaler Dokumentbilder | |
DE69226846T2 (de) | Verfahren zur Bestimmung von Wortgrenzen im Text | |
DE68915950T2 (de) | Verfahren zum Trennen von Zeichen. | |
DE3879254T2 (de) | Unterscheidungsvorrichtung für handgeschriebene und maschinengedruckte Buchstaben. | |
DE69521040T2 (de) | Verfahren und vorrichtung zum dekodieren von balkencodebildern mittels informationen aus vorhergehenden abtastzeilen | |
DE69721941T2 (de) | Gerät und Verfahren zum Extrahieren von Mustern | |
DE69525731T2 (de) | Gerät zur Handschrifterkennung, gekennzeichnet durch eine verbesserte Korrektur der Strichsegmentation und Verfahren zur Korrektur der Strichsegmentation für Handschrifterkennung | |
DE4427992C2 (de) | Verfahren zum Erzeugen einer Dokumenten-Darstellung aus einem Bitmap-Bild eines Dokuments | |
DE3806223A1 (de) | Verfahren zur erzeugung eines zeichenabbilds | |
DE19614975A1 (de) | Gesichtsbildverarbeitungssystem | |
DE2909153A1 (de) | Einrichtung zur elektronischen verarbeitung von bild- und/oder zeichenmustern | |
DE3926327A1 (de) | Verfahren und system zur erkennung von zeichen auf einem medium | |
DE2147896C3 (de) | Gerät zum Erkennen normaler Schriftzeichen | |
DE2740483A1 (de) | Merkmal-detektor | |
DE69624663T2 (de) | Verfahren und Gerät zur Bildverarbeitung und Speichermedium | |
EP0550511B1 (de) | Verfahren zur extrahierung von einzelzeichen aus rasterbildvorlagen einer gelesenen hand- oder maschinenschriftlichen zeichenfolge freier teilung | |
DE69623564T2 (de) | Gerät zur Extraktion von Fingerabdruckmerkmalen | |
EP0301384A2 (de) | Schaltungsanordnung zur Aufbereitung von schrägstehenden, insbesondere handgeschriebenen Zeichen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8141 | Disposal/no request for examination |