DE69724755T2 - Auffinden von Titeln und Photos in abgetasteten Dokumentbildern - Google Patents
Auffinden von Titeln und Photos in abgetasteten Dokumentbildern Download PDFInfo
- Publication number
- DE69724755T2 DE69724755T2 DE69724755T DE69724755T DE69724755T2 DE 69724755 T2 DE69724755 T2 DE 69724755T2 DE 69724755 T DE69724755 T DE 69724755T DE 69724755 T DE69724755 T DE 69724755T DE 69724755 T2 DE69724755 T2 DE 69724755T2
- Authority
- DE
- Germany
- Prior art keywords
- text
- image data
- data
- attribute
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 60
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 16
- 238000012015 optical character recognition Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storing Facsimile Image Data (AREA)
Description
- Hintergrund und Zusammenfassung der Erfindung
- Die vorliegende Erfindung bezieht sich im Allgemeinen auf computerisierten Informationszugriff. Insbesondere bezieht sich die Erfindung auf ein computerisiertes System zum Auffinden von Titeln oder Photos (einschließlich Titeln) oder anderen Text- oder Nichttextregionen in Punktrasterbildern, wie beispielsweise in abgetasteten Dokumenten. Der aufgefundene Titeltext oder Kopfzeilentext kann auf mehrere Art verwendet werden, einschließlich Schlüsselwortsuche oder Indexierung von Punktrasterbild-Datenbanken, während die aufgefundenen Photos für grafische Schnellsuche benutzt werden können.
- Die Welt wird rapide zu einer Informationsgesellschaft. Digitaltechnologie hat die Erstellung riesiger Datenbanken ermöglicht, die eine Fülle von Informationen enthalten. Die kürzliche Explosion in der Popularität von bildorientierten Systemen wird erwartungsgemäß zur Schaffung enormer Datenbanken führen, die enorme Herausforderungen in Bezug auf Datenbankzugriff darstellen werden. In dieser Hinsicht ist die Explosion in der Popularität des World Wide Web bloß ein Beispiel davon wie sich Informationstechnologie rapide in Richtung eines bildorientierten Paradigmas entwickelt.
- Bildorientierte Systeme stellen eine große Herausforderung hinsichtlich Wiederauffinden von Information dar. Während Informations-Wiederauffindungstechnologie in codierten, zeichenorientierten Systemen ziemlich gut fortgeschritten ist, funktionieren diese Wiederauffindungstechniken nicht in
bildorientierten Systemen. Das beruht darauf, dass bildorientierte Systeme Information als Rasterdaten speichern, die dem Aussehen der gedruckten Seite und nicht dem Inhalt der Information auf jener Seite entsprechen. Traditionelle Techniken erfordern die Umwandlung von Rastedaten in Textdaten, durch optische Zeichenerkennungssoftware (OCR), bevor sich Informations-Wiederauffindungssysteme ranhalten können. - Leider ist die optische Zeichenerkennungssoftware rechenbetont teuer, und der Erkennungsprozess ist ziemlich langsam. Außerdem können typische Photos ohne Text nicht sinnvoll mit OCR-Technologie verarbeitet werden. Beim Umgang mit großen Mengen bildorientierter Daten ist es nicht praktisch optische Zeichenerkennung der ganzen Datenbank durchzuführen. Überdies, selbst wo Zeit und rechenbetonte Ressourcen die massenhafte OCR-Umwandlung von Bilddaten in Textdaten zulässt, ist das Ergebnis nach wie vor eine große, unstrukturierte Datenbank, ohne eine kurze Liste nützlicher Schlüsselworte, die gestatten könnten ein Dokument von Interesse wiederaufzufinden und zu überprüfen. Durchsuchen der ganzen Datenbank nach selektierten Schlüsselwörtern, mag vielleicht nicht die optimale Antwort sein, da volle Schlüsselwortsuchen häufig viel zu viele Hits bzw. Treffer generieren, um von Nutzen zu sein.
- Das Paper nach dem Stand der Technik „a document segmentation, classification and recognition system" von Shih et al, Proceedings of the International Conference on Systems Integration, 15. Juni 1992 Seiten 258–267, offenbart ein System für Dokumentsegmentierung, Klassifizierung und Erkennung, das ähnliche Blöcke gruppiert, sich Statistiken über geometrische Attribute wie beispielsweise, einer „Bounding Box", der Blöcke zu Nutze macht, und die geometrischen Attribute nach Gruppierungsregeln klassifiziert.
- Die vorliegende Erfindung geht frisch an das Problem heran. Die Erfindung erkennt an, dass es große Mengen von Daten geben wird, die Raster- oder Bildformat haben, und dass Benutzer diese Information suchen möchten, genauso wie sie jetzt textorientierte Systeme durchsuchen. Anstatt das ganze Dokument von Bildformat in Textformat umzuwandeln, analysiert die vorliegende Erfindung die Punktrasterdaten in ihrem systemeigenen Format, um Regionen innerhalb der Bilddaten aufzufinden, die höchst wahrscheinlich Kandidaten für Dokumenttitel, Kopfzeilen oder anderen Kennzeichnern entsprechen, oder Regionen aufzufinden, die Photos entsprechen. Das System findet diese Dokumenttitel, Kopfzeilen oder andere Bezeichner und Photos in Punktrasterbilddaten auf, was das weitere Manipulieren der aufgefundenen Regionen auf verschiedene Art zulässt. Die aufgefundenen Titel, Kopfzeilen oder Photos können seriell in einer Liste angezeigt werden, auf die der Benutzer Zugriff hat, um ein Dokument von Interesse zu selektieren. Falls erwünscht, können die aufgefundenen Titel oder Kopfzeilen durch optische Zeichenerkennung in Textdaten umgewandelt werden, auf die dann – unter Verwendung codierter, zeichenorientierter Informations-Wiederauffindungssysteme – weiterer Zugriff möglich ist bzw. die dann damit weiter manipuliert werden können.
- Als Alternative, selbst wenn die ganze Seite mittels optischer Zeichenerkennung umgewandelt wird, kann es immer noch nützlich sein, verschiedene Titel und andere Text- oder Nichttextregionen mit Hilfe des abgetasteten Bilds ausfindig zu machen. Die Erfindung wird diese Funktion ebenso ausführen.
- Die Erfindung ist mehrsprachig. Somit kann sie Titel oder Kopfzeilen in Punktrasterdaten, wie beispielsweise in abgetasteten Dokumenten und in Dokumenten auffinden, die in einer Reihe verschiedener Sprachen geschrieben sind. Die Titelauffindungstechnologie der Erfindung ist außerdem unabhängig vom Schreibsystem. Sie ist fähig Titel in Dokumentbildern aufzufinden, ohne Rücksicht darauf nehmen zu müssen welcher Zeichensatz oder welches Alphabet oder selbst welche Schriftart verwendet worden ist.
- Außerdem benötigt das System keinerlei vorherige Kenntnis über die Orientierung des Texts. Es ist fähig mit Dokument-Layouts zurechtzukommen, die gemischte Orientierungen aufweisen, die sowohl vertikale Orientierung als auch horizontale Orientierung einschließen. Die Erfindung beruht auf gewissen angemessenen „Regeln", die für viele, wenn nicht alle, Sprachen gelten. Diese Regeln erklären die Beobachtung, dass Titeltext oder Kopfzeilentext gewöhnlich auf eine Art gedruckt ist, die ihn von anderem Text unterscheiden soll (z.B. größere Schriftart, Fettdruck, mittig am oberen Ende einer Spalte). Diese Regeln erklären außerdem die Beobachtung, dass der Abstand zwischen Zeichen auf einer Textzeile im Allgemeinen enger ist als der Abstand zwischen Zeilen, und dass Textzeilen typisch entweder horizontal oder vertikal sind.
- Die Erfindung findet Titel, Kopfzeilen und Photos in Dokumentbildern mit Hilfe von Dokumentanalyse- und rechenbetonten Geometrietechniken auf. Das Bild wird in einem Punktrasterpuffer gespeichert, der dann mittels verbundener Komponentenanalyse analysiert wird, um gewisse geometrische Daten, die mit den verbundenen Komponenten in Bezug stehen, oder Tintenkleckse aufzufinden, die auf der Bildseite erscheinen. Diese geometrischen Daten oder verbundenen Komponentendaten werden in einer Datenstruktur gespeichert, die dann durch einen Klassifizierungsprozess analysiert wird, der die Daten darauf beruhend etikettiert oder sortiert, ob jede verbundene Komponente die geometrischen Eigenschaften eines Zeichens oder die geometrischen Eigenschaften eines Teils von einem Bild, wie beispielsweise einer Punktrasterwiedergabe eines Photos hat.
- Nach der Klassifizierung führt dann das System eine „Nearest Neighbour" (Nahesten Nachbarn) Analyse der verbundenen Komponentendaten ins Feld, um „Nearest Neighbour" Graphe zu generieren. Diese werden in einer „Nearest Neighbour" Graphdatenstruktur gespeichert, die eine Liste verbundener Listen repräsentiert, die den „Nearest Neighbour" jeder verbundenen Komponente entsprechen. Die „Nearest Neighbour" Graphe definieren „Bounding Boxes" um jene verbundenen Datenkomponenten herum, die, beispielsweise, einer Textzeile in einer Kopfzeile bzw. Überschrift entsprechen. Die „Nearest Neighbour" Graphe werden danach als horizontal oder vertikal, abhängig davon klassifiziert ob die Verbindungen, die die „Bounding Box" Zentren von „Nearest Neighbours" verbinden, vorherrschend horizontal oder vertikal sind.
- Als Nächstes analysiert ein Filtermodul die Daten, um die durchschnittliche Schriftarthöhe aller horizontalen Daten und eine separate durchschnittliche Schriftarthöhe aller vertikalen Daten zu bestimmen. Danach wird jede Kette horizontaler Daten mit dem Durchschnitt verglichen; und jede Kette vertikaler Daten wird mit dem Durchschnitt verglichen, um jene Ketten, die über der Durchschnittshöhe liegen oder jene Ketten deren Höhe einen vorbestimmten Schwellwert überschreitet, zu selektieren. Diese werden als aufzufindende Titelkandidaten selektiert. Falls erwünscht, lässt sich weitere Verfeinerung der Analyse mit Hilfe anderer geometrischer Merkmale durchführen, wie beispielsweise ob die Schriftarten Fettdruck sind oder durch Identifizieren welche Daten Ketten repräsentieren, die auf der Seite zentriert sind.
- Nach dem die Titelkandidaten selektiert worden sind, werden die Kandidaten auf die ursprünglichen Punktrasterdaten zurückverwiesen. Im Wesentlichen werden die „Bounding Boxes" der verbundenen Komponenten zu einer einzelnen „Bounding Box" vermischt, die mit dem aufgefundenen Titel assoziiert ist, und jene einzelne „Bounding Box" wird dann zu den Punktrasterdaten zurückverwiesen, so dass die in der "Bounding Box" erscheinenden Punktrasterdaten als ein aufgefundener Titel selektiert werden können. Falls erwünscht, lässt sich der aufgefundene Titel mit Hilfe optischer Zeichenerkennungssoftware weiter verarbeiten, um die Titelabbildung in Titeltext umzuwandeln.
- Ebenso, nach dem die Photokandidaten selektiert worden sind, werden die Kandidaten auf die ursprünglichen Punktrasterdaten zurückverwiesen. Die „Bounding Boxes" der Photokandidaten, die einander überlappen, werden in eine einzelne „Bounding Box" vermischt, so dass Punktraster, die innerhalb der „Bounding Box" erscheinen, selektiert und als Teil des Photos aufgefunden werden können. Falls erwünscht, kann mit einer Photoregion assoziierter Kopfzeilentext mit Hilfe optischer Zeichenerkennungssoftware identifiziert und verarbeitet werden. Der Kopfzeilentext kann dann als ein Etikett zum Identifizieren des Photoinhalts oder für spätere Suche verwendet werden.
- Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, kann auf die folgende Spezifikation und auf die zugehörigen Zeichnungen Bezug genommen werden.
- Kurzbeschreibung der Zeichnungen
-
1 ist ein Software-Blockdiagramm des gegenwärtig bevorzugten Ausführungsbeispiels der Erfindung; -
2 ist eine Muster-/Probeseite von Punktrasterdaten, die sowohl horizontalen als auch vertikalen Text illustriert; -
3a ist eine vergrößerte Ansicht eines Beispiels einer verbundenen Textkomponente; -
3b ist eine Vergrößerung eines Beispiels einer verbundenen Nichttextkomponente; -
4 ist ein Diagramm der verbundenen Komponentendatenstruktur, die vom gegenwärtig bevorzugten Ausführungsbeispiel verwendet wird; -
5a und5b illustrieren „Bounding Boxes", die um ein Textzeichen (5a ) und um ein Nichttextelement (5b ) gezogen sind; -
6 ist eine Beschreibung der „Nearest Neighbour" Graphdatenstruktur der gegenwärtig bevorzugten Implementierung; -
7 ist ein Diagramm, das zum Verständnis der „Bounding Box" Techniken nützlich ist, die vom gegenwärtigen Ausführungsbeispiel verwendet werden; -
8 ist ein Beispiel einer gemischten „Bounding Box", die die Beziehung der „Bounding Box" zum ursprünglichen Punktraster der2 zeigt; -
9a –9d illustriert verschiedene „Nearest Neighbour" Graphe, die zum Verständnis nützlich sind wie horizontale und vertikale Klassifizierung durchgeführt wird; -
10a und10b sind beispielhafte Textzeichen "0" und "M", die verschiedene Merkmale zeigen, die vom gegenwärtigen System erfasst werden; -
11 illustriert wie die Erfindung möglicherweise auf Etikettierregionen auf einer Seite mit zugehörigen statistischen Sicherheitsfaktoren angewandt werden kann; -
12 ist eine Tabelle, die beispielhafte verbundene Komponenten von Text und Nichttext mit den entsprechenden Werten verschiedener geometrischer Komponenten zeigt, die zur Klassifizierung der Komponenten benutzt werden können. - Beschreibung des bevorzugten Ausführungsbeispiels
- Bezugnehmend auf
1 , wird die gegenwärtig bevorzugte Implementierung der Titelauffindungstechnologie illustriert. Das bevorzugte Ausführungsbeispiel ist ein computerimplementiertes System.1 ist ein Softwareblockdiagramm des Systems. Die Softwarekomponente wird in den Speicher eines geeigneten Computersystems, wie beispielsweise ein Mikrocomputersystem geladen. Die in der1 illustrierten Funktionsblöcke sind somit im Prozessor des Computersystems enthalten und werden durch diesen betrieben. - Bezugnehmend auf die
1 , wurde eine beispielhafte Seite Abbildungsdaten, wie z. B. eine Seite20 von einem Magazinartikel illustriert. Obwohl die visuelle Abbildung der Seite20 hier illustriert ist, wird klargestellt, dass die Seite eigentlich Bilddaten, wie beispielsweise Punktrasterbilddaten umfasst, in denen individuelle schwarze oder weiße Pixels des Bilds als Binärzahlen gespeichert sind. Die Punktrasterbilddaten können von einer breiten Palette verschiedener Quellen stammen, die optische Scanner, Faxmaschinen, Kopierer, Graphiksoftware, Videodaten, „World Wide Web" Seiten und dergleichen einschließen. - Der Prozessor des Computersystems, auf dem die Erfindung implementiert ist, unterhält einen Punktrasterpuffer
22 im Direktzugriffsspeicher (RAM) des Computersystems. Der Punktrasterpuffer22 ist vorzugsweise einer ausreichenden Größe, um alle der mit einer gegebenen Seite oder Abbildung assoziierten Punktrasterdaten zu halten. Falls erwünscht, lässt sich der Punktrasterpuffer22 größer machen, um mehrfache Seiten zu halten. Im Allgemeinen wird die Größe des Punktrasterpuffers22 von der Auflösung des Bilds abhängen. Jedes individuelle Bildelement bzw. Pixel wird innerhalb des Puffers22 an einer separaten Speicherstelle gespeichert. Bei einigen Anwendungen kann, um Systemgeschwindigkeit zu erhöhen, eine mit einer Auflösung (z. B. 300 Punke je Zoll) für Archivierungszwecke gescannte Seite auf eine niedrigere Auflösung (z. B. 150 Punkte je Zoll) umgewandelt werden, und die Version niedrigerer Auflösung wird dann im Punktrasterpufter22 für weitere Verarbeitung, wie hierin erläutert, gespeichert. Reduzieren der Auflösung bedeutet, dass weniger Daten verarbeitet werden müssen, und dies wird Berechnung beschleunigen. Beachten Sie bitte, dass das Reduzieren der Bildauflösung im Punktrasterpuffer22 nicht bedeutet, dass das Archivbild notwendigerweise degradiert wird. Sobald die Titelregionen von Interesse mit Hilfe der Erfindung aufgefunden worden sind, lässt sich die Stelle dieser Regionen leicht wieder auf das Bild höherer Auflösung platzieren. - Was die Punktrasterdaten anbelangt, wird die vorliegende Beschreibung die Erfindung im Kontext von Schwarzweißbilddaten beschreiben. Mit anderen Worten umfassen die Punktrasterdaten, für den Zweck dieser Beschreibung, einfache Binärdaten, die schwarze und weiße Punkte bzw. Pixels repräsentieren, die das Gesamtbild ausmachen. Natürlich lassen sich die hierin beschriebenen Techniken leicht auf andere Formen von Bilddaten, einschließlich Mehrbit-Grautondaten und Mehrbit-Farbdaten ausdehnen. Hier werden binäre Schwarzweißdaten verwendet, um die Erläuterung zu vereinfachen, und um eine mögliche Konfiguration zu illustrieren.
- Das computerimplementierte Softwaresystem benutzt eine Gruppe von Verarbeitungsmodulen, wobei jedes konzipiert ist verschiedene Datenmanipulationsfunktionen auszuführen. Diese Verarbeitungsmodule sind in der
1 , in Rechtecke eingeschlossen, illustriert. Diese Module arbeiten mit Daten, die im Speicher, gemäß festgelegten Datenstrukturen, gespeichert sind, die nachstehend ausführlicher beschrieben werden. In der1 sind die Datenstrukturen oder Datenspeicher mittels Rechtecken mit offenem Ende illustriert, um sie von den Verarbeitungsmodulen zu unterscheiden. Außerdem wurden, zum besseren Verständnis der Erfindung, die Verarbeitungsmodule der Erfindung in der1 in einer Top-Down-Reihenfolge angeordnet, und zeigen die Sequenz in der die verschiedenen Module im Betrieb geschaltet werden. - Zunächst wird vom Modul
24 ein Prozess zum Auffinden verbundener Komponenten mit den Daten im Punktrasterpuffer22 durchgeführt. Dieser Prozess zum Auffinden verbundener Komponenten bestückt die Datenstruktur26 der verbundenen Komponenten, die zum Speichern eines großen Teils der mit dem Punktrasterbild assoziierten geometrischen Daten benutzt wird. Eine verbundene Komponente in einem binären Bild ist ein maximaler Satz von sich berührenden schwarzen Pixels. Das Modul24 lässt sich konfigurieren, um eine Analyse verbundener Komponenten durchzuführen. Im Wesentlichen beginnt der Auffindungsprozess verbundener Komponenten mit einem gegebenen Datenelement innerhalb des Punktrasterpuffers22 und analysiert die benachbarten Datenelemente, um zu bestimmen ob sie einen Teil einer verbundenen Komponente umfassen, da die schwarzen, den Druckbuchstaben "e" ausmachenden , Punkte alle miteinander verbunden sind. Beziehen Sie sich für ein Beispiel auf die3a . Beachten Sie, dass der Buchstabe "e" im Beispiel aus einer Ansammlung verbundener schwarzer Punkte besteht. Beginnend am unteren Schwanz des Buchstaben "e" mit offenem Ende, kann man den ganzen Buchstaben nachziehen, indem man von schwarzem Punkt zu schwarzem Punkt traversiert, so wie man eine Halbinsel oder Landenge traversiert ohne Wasser überqueren zu müssen. - Im bevorzugten Ausführungsbeispiel wird die Analyse der verbundenen Komponenten auf eine Art Rasterpunktabfühlung durchgeführt, womit zusammenhängende schwarze Pixel, die auf der selben horizontalen Linie liegen, als eine Einzeleinheit, Segment genannt, behandelt werden. Die verbundene Komponente besteht ihrerseits aus einem oder mehreren Segmenten und kann deshalb als eine verbundene Liste von Segmenten ausgedrückt werden.
- Natürlich werden, in einem verallgemeinerten Punktrasterbild, nicht alle der Daten Zeichen repräsentieren. Zur Illustration, siehe hierzu
2 , eine Muster-/Probeseite von Daten, die sowohl horizontalen Text als auch vertikalen Text sowie Nichttext- oder Bilddaten, insbesondere ein Photo, aufweist. Die3b zeigt einen beispielhaften Teil eines Nichttextbereichs. Beachten Sie, dass individuell verbundene Komponenten für die Nichttextdaten definiert werden können, obwohl diese verbundenen Komponenten viel unregelmäßiger sind und in der Größe viel mehr variieren. - Im gegenwärtig bevorzugten Ausführungsbeispiel werden verbundene, Text repräsentierende, Komponenten durch das Modul
28 klassifiziert, wie nachstehend ausführlicher beschrieben werden wird; verbundene, photographische Regionen repräsentierende, Komponenten werden durch das Photoklassifizierungsmodul29 , wie nachstehend besprochen, klassifiziert. Nach jedem dieser beiden Klassifizierungsprozesse, gibt es weitere regionspezifische Prozessprozeduren (z. B., Zeilenorientierungsbestimmung bei Text, oder „Bounding-Box-Mischen" bei Photos). Diese Klassifizierungen und nachfolgenden Verarbeitungsschritte für Textdaten und photographische Daten können in der einen oder anderen Reihenfolge, oder parallel ausgeführt werden Für die Zwecke der gegenwärtigen Erläuterung wird angenommen, dass die Textverarbeitung zuerst durchgeführt wird und danach die Photoverarbeitung mit jenen verbundenen Komponenten durchgeführt wird, die vom Textprozess als „Nichttext" etikettiert wurden. Daher wird, am Ende der Klassifizierungsprozesse, jeder verbundenen Komponente eine von drei möglichen Etiketten zugeordnet worden sein: „Text," „Photo," „Andere." - Das Auffindungsmodul für verbundene Komponenten identifiziert individuelle, verbundene Komponenten oder Kleckse und identifiziert und findet verschiedene geometrische Merkmale auf, die später in diesem Programm von anderen Modulen benutzt werden. Die
4 zeigt grafisch die Konfiguration der Datenstruktur verbundener Komponenten26 ; der Leser möchte vielleicht außerdem auf den Anhang Bezug nehmen, in dem eine C Sprachüberschrifts-Dateiauflistung davon und die „Nearest Neighbour" Graphdatenstruktur angegeben sind. Bezugnehmend auf die4 , unterhält die Datenstruktur verbundener Komponenten eine Aufzeichnung einer Reihe geometrischer Merkmale für jede verbundene Komponente. Diese Merkmale schließen ein: die Größe, Breite und Höhe der „Bounding Box", die die verbundene Komponente definiert, die Zahl der Löcher in der verbundenen Komponente, einen Hinweis auf das erste Element in der verbundenen Komponente und verschiedene andere Daten, die die Zahl und den Typ von Bogen beschreiben, die zum Formen der Komponenten benutzt wurden. Diese letzteren, in den10a und10b illustrierten, Daten sind nützlich, um Zeichen von Nichtzeichen zu unterscheiden. Die bevorzugte Implementierung zeichnet außerdem auf wie viele Enden die verbundene Komponente hat. Beispielsweise hat der in der10a gezeigte Buchstabe "O" , einen Aufwärtsbogen50 und einen Abwärssbogen52 ; ein Aufwärtsende54 und ein Abwärtsende56 ; und ein Loch60 . Ein Loch ist eine Region weißen Raums, die gänzlich von schwarzem Raum umgeben ist. Der Buchstabe "M" hat zwei Aufwärtsenden54 und drei Abwärtsenden56 und zwei Abwärtsbögen52 und einen Aufwärtsbogen50 . Wenn Text von Nichttext zu unterscheiden ist, werden diese Merkmale sowie andere von diesen abgeleitete Merkmale dazu verwendet die Unterscheidung auszuführen. Die12 illustriert einige Probekomponentenzeichen (zwei Englisch und zwei Kanji), und eine Region von einem Photo. In dieser Phase der Analyse, wird kein Versuch unternommen zwischen Text, Photos und anderen Komponenten zu unterscheiden. Das Klassifizierungsmodul28 ist für die Unterscheidung zwischen Textkomponenten, Photokomponenten und anderen Komponenten verantwortlich. Die Tabelle gibt die tatsächlichen für die Komponenten berechneten Werte an. Beachten Sie beim Vergleichen der tatsächlichen Werte, dass die Nichttextkomponente eine viel größere Zahl von Löchern sowie eine viel größere Zahl von Aufwärts- und Abwärtsbögen aufweist. - Die Datenstruktur verbundener Komponenten ist im Wesentlichen als eine Liste konfiguriert, wobei jede verbundene Komponente als ein separates Element in der List repräsentiert wird. In dieser Phase der Analyse, wird kein Versuch unternommen zwischen Text- und Nichttextkomponenten zu unterscheiden. Jede verbundene Komponente (ob Text oder Nichttext) wird entsprechend der in
4 gezeigten Datenstruktur in die Liste eingetragen. - Nach dem die Datenstruktur
26 durch den Auffindungsprozess verbundener Komponenten24 bestückt worden ist, wird der Klassifizierungsprozess oder das Modul28 dann aufgefordert mit den Daten in der Datenstruktur26 zu arbeiten. Das Klassifizierungsmodul ist für die Unterscheidung zwischen Textkomponenten und Nichttextkomponenten verantwortlich. Englische Textzeichen können von verbundenen Nichttextkomponenten gewöhnlich auf der Basis der in jeder Komponente vorgefundnen Zahl von Löchern unterschieden werden. Ein englisches Zeichen hat höchstens ein oder zwei Löcher. Natürlich muss, um kompliziertere Zeichen, wie beispielsweise chinesische Zeichen, der Schwellwert für die Zahl der Löcher geringfügig höher sein. Ebenso neigen die Zahl der Enden sowie der Typ und die Zahl der Kurven für Textzeichen dazu kleiner als Nichttextzeichen zu sein. Wiederum werden kompliziertere Zeichen, wie beispielsweise chinesische Zeichen, eine höhere Zahl dieser Attribute haben. - Das gegenwärtig bevorzugte Ausführungsbeispiel klassifiziert eine verbundene Komponente oder einen Klecks als Text, wenn sie bzw. er die Kriterien im folgenden Pseudocode erfüllt:
- Für jede verbundene Komponente:
- WENN Größe der „Bounding Box" < vorbestimmte Größe
DANN ist die Komponente Nichttext, Ausstiegroutine. - SONST WENN Zahl der schwarzen Pixels < vorbestimmte Zahl
DANN ist die Komponente Nichttext, Ausstiegroutine. - SOINST WENN Breite oder Höhe > vorbestimmte Größe
DANN ist die Komponente Nichttext, Ausstiegroutine. - SONST WENN durchschnittliche Strichstärke (Pixels/Segment) > vorbestimmte Stärke
DANN ist die Komponente Nichttext, Ausstiegroutine. - SONST WENN Stärke/Höhe-Verhältnis, oder Höhe/Stärke-Verhältnis > vorbestimmtes Verhältnis
DANN ist die Komponente Nichttext, Ausstiegroutine. - SONST WENN Zahl der Löcher >= vorbestimmte Zahl
DANN ist die Komponente Nichttext, Ausstiegroutine. - SONST WENN Zahl der Aufwärtsenden und Abwärtsenden > vorbestimmte Zahl
DANN ist die Komponente Nichttext, Ausstiegroutine. - SONST WENN Verhältnis von (Zahler schwarzer Pixels in Bounding Box)/(Größe der Bounding Box) < vorbestimmte Zahl
DANN ist die Komponente Nichttext, Ausstiegroutine. - SONST ist die Komponente Text, Ausstiegroutine.
- Auf ähnliche Weise klassifiziert das Photoklassifizierungsmodul
29 die Daten der verbundenen Komponenten als „Photo" oder „Nichtphoto". Wie oben festgestellt, können die Textklassifizierung und Photoklassifizierung in der einen oder anderen Reihenfolge oder parallel implementiert werden. - Das gegenwärtig bevorzugte Ausführungsbeispiel klassifiziert eine verbundene Komponente als eine Region innerhalb eines Photos, falls sie die Kriterien im folgenden Pseudocode erfüllt:
- WENN Größe der Bounding Box < vorbestimmte Größe
DANN ist die Komponente kein Photo, Ausstiegroutine. - WENN # der schwarzen Pixels < vorbestimmte #
DANN ist die Komponente kein Photo, Ausstiegroutine. - WENN (Breite/Höhe) ODER (Höhe/Breite) > vorbestimmtes Verhältnis
DANN ist die Komponente kein Photo, Ausstiegroutine. - WENN (# der schwarzen Pixels/Größe der Bounding Box) < vorbestimmtes Verhältnis
DANN ist die Komponente kein Photo, Ausstiegroutine. - WENN (Breite > vorbestimmte Größe) UND (Höhe > vorbestimmte Größe)
DANN ist die Komponente ein Photo, Ausstiegroutine. - WENN durchschnittliche Strichstärke (Pixels/Segment) > vorbestimmtes Verhältnis
DANN ist die Komponente ein Photo, Ausstiegroutine. - WENN # der Löcher > vorbestimmte #
DANN ist die Komponente ein Photo, Ausstiegroutine. - WENN # der Aufwärtsenden und Auwärtsenden > vorbestimmte #
DANN ist die Komponente ein Photo, Ausstiegroutine. - ANDERNGFALLS ist die Komponente kein Photo, Ausstiegroutine.
- Das Vermögen des Systems zwischen Text, Photos und anderen Bilddaten zu unterscheiden, funktioniert, indem verschiedenen geometrischen Merkmalen, die allgemein in diesen jeweiligen Abbildungstypen zu finden sind, Attribute zugeordnet werden. Zeichen umfassen im Allgemeinen massive schwarze Striche, die eine relativ einheitliche Größe und ein relativ einheitliches Seitenverhältnis aufweisen. Zeichen haben außerdem im Allgemeinen eine relativ einheitliche durchschnittliche Strichstärke/-breite. Andererseits neigen photographische Regionen dazu unregelmäßig bemessen zu sein und unregelmäßige Seitenverhältnisse zu haben. Außerdem haben photographische Regionen eine höhere Zahl von Löchern in einer gegebenen Region oder verbundenen Komponente. Diese Löcher tragen zum Grautonaussehen bei, das vom Auge wahrgenommen wird, wenn man die Region aus einiger Entfernung betrachtet. Diese Merkmale lassen sich daher verwenden, um bei der Unterscheidung zwischen Text- und Photoregionen zu helfen. Natürlich gibt es hierbei einige Überlappung. Einige Photoregionen können Attribute haben, die jenen von Text ähneln und einiger Text kann Attribute aufweisen, die Photoregionen ähnlich sind. Um dies zu berücksichtigen, mischt das System „Bounding Boxes" verbundener Komponenten deren „Bounding Boxes" sich überlappen. Solches Überlappen ist in photographischen Regionen häufig anzutreffen. Auf diese Weise können verbundene Komponenten, die sonst als Text gekennzeichnet werden würden, als photographisch klassifiziert werden, wenn sich die „Bounding Box" der Komponente mit „Bounding Boxes" anderer photographischer Regionen überlappt. Gleichermaßen können verbundene Komponenten, die andernfalls als photographisch klassifiziert werden würden, als Text klassifiziert werden, wenn die benachbarten verbundenen Komponenten Text sind und keine „Bounding Box" Überlappung vorliegt. Ein Beispiel der letzteren Situation würde, beispielsweise, auftreten, wenn eine ornate Schriftart zu Beginn einer Zeile Text verwendet wird.
- Sobald Text und andere Komponenten identifiziert worden sind, kann die Datenstruktur der verbundenen Komponenten dazu benutzt werden einen Hinweis zu speichern wie die jeweilige Komponente klassifiziert wurde. Beachten Sie bitte, dass an dieser Stelle der Analyse gewisse Daten als textartige Kennzeichen aufweisend selektiert worden sind. Zu diesem Zeitpunkt wird keine optische Zeichenerkennung ausgeführt, daher arbeitet das System immer noch mit Bilddaten und geometrischen Attributen jener Bilddaten.
- Bis zu diesem Punkt umfasst jede verbundene Komponente ein individuelles Zeichen (oder einen Teil davon) oder eine individuelle Form oder einen individuellen Klecks. Der nächste Schritt ist, mit dem Gruppieren von Zeichen zu beginnen, um zu identifizieren welche Regionen vielleicht Zeilen oder Ketten von Text repräsentieren. Um das zu erreichen, wird eine „Nearest Neighbour" Analyse durchgeführt. Das bevorzugte Ausführungsbeispiel verwendet Delaunay-Triangulierung, um ein „Nearest Neighbour" Graph zu konstruieren. Für Hintergrundinformationen über Delaunay-Triangulierung, siehe "A Sweepline Algorithm for Voronoi Diagrams," Algorithmica, 2: 153–174, 1987. Die „Nearest Neighbour" Analyse nutzt die früher erwähnten Annahmen aus, dass Abstand auf einer Zeile im Allgemeinen enger als Abstand zwischen Zeilen ist. Dies ist eine angemessen zu stellende Vermutung, und wird sich wahrscheinlich (aber nicht garantiert) über verschiedene Sprachen und Zeichensätze hinweg bestätigen. Die „Nearest Neighbour" Analyse wird vom Modul
30 durchgeführt. Es greift auf die Daten in der Datenstruktur26 für verbundene Komponenten zu und generiert ein „Nearest Neighbour" Graph, das in der Graphdatenstruktur32 für „Nearest Neighbour" Graphe gespeichert ist. Die6 zeigt diagrammatisch die Konfiguration der gegenwärtig bevorzugten Datenstruktur zum Speichern von „Nearest Neighbour" Graphen. Die „Nearest Neighbour" Analyse vergleicht im Wesentlichen jede vorher identifizierte Zeichenkomponente mit den anderen Zeichenkomponenten, um zu identifizieren welche einander am nächsten sind. Im bevorzugten Ausführungsbeispiel geschieht dies durch geometrische Berechnung des Abstands zwischen den Mittelpunkten der Zeichenkomponenten. Die Mittelpunkte der Zeichenkomponenten werden ihrerseits geometrisch durch die rechteckigen „Bounding Boxes" erstellt, die für jedes Zeichen, während der Auffindung verbundener Komponenten, erstellt wurden. Erinnern Sie sich daran, dass die „Bounding Box" Daten, das heißt, die maximalen und minimalen X und Y Werte für jede Komponente durch das Modul24 in der Datenstruktur26 für verbundene Komponenten gespeichert worden sind. - Zur Illustration der „Nearest Neighbour" Analyse beziehen Sie sich bitte auf die
5a und5b und die7 . Die5a und5b illustrieren wie der Auffindungsprozess für verbundene Komponenten, „Bounding Boxes" um eine aufgefundene Komponente definiert. Insbesondere zeigt die5a die „Bounding Box" um eine Textkomponente;5b zeigt die „Bounding Box" um eine Nichttext-Zeichenkomponente.7 zeigt wie die „Nearest Neighbour" Analyse bestimmt, dass gewisse Textzeichen näher zueinander und deshalb wahrscheinlich Teil einer Einzelzeile oder einer Textkette sind. Der Grund dafür ist, dass in den meisten Druckkonventionen, Zeichen in derselben Textzeile gewöhnlich näher aneinander als Zeichen über Textzeilen hinweg platziert sind. Deshalb stammt der „Nearest Neighbour" einer Textkomponente wahrscheinlich aus der selben Textzeile. In der Tat ist, in einer Mehrheit von Fällen, der „Nearest Neighbour" eines Zeichens einfach das nächste Zeichen im Satz. Auf diese Weise werden eine Kette von Zeichen aus der selben Textzeile miteinander verbunden. Normalerweise werden Zeichen in einer Textzeile in mehrere „Nearest Neighbour" Graphe gruppiert. Die Analyse wird geometrisch ausgeführt, und sucht jene Komponenten, die einander am Nächsten sind. In den meisten Fällen wird eine verbundene Komponente nur einen „Nearest Neighbour" haben. Jedoch kann eine verbundene Komponente manchmal mehr als einen „Neighbour" (Nachbarn) haben, wobei jeder den selben minimalen Abstand hat. In solchen Fällen werden alle solcher „Neighbours" (Nachbarn) als die „Nearest Neighbours" der Komponente betrachtet. Um dies zu berücksichtigen, repräsentiert die Datenstruktur jede Komponente durch eine verbundene Liste. Beispielsweise illustriert die9a die Situation in der die Komponente "A" zwei „Nearest Neighbours" hat, Komponente "B" und Komponente "C". Der Abstand zwischen „Neighbours" (Nachbarn) wird durch eine Linie gemessen, die die Mittelpunkte der jeweiligen „Bounding Boxes" verbindet. Die „Nearest Neighbour" Analyse konstruiert eine verbundene Liste aller Komponenten, die sich auf einer festgestellten minimalen Distanz vom „Neighbour" (Nachbarn) der Komponente befinden. - Wie die
9a illustriert, können „Nearest Neighbour" Komponenten in beliebiger Orientierung (einschließlich horizontalen und vertikalen Orientierungen) angeordnet sein. Das gegenwärtig bevorzugte Ausführungsbeispiel identifiziert Linien zwischen verbundenen „Nearest Neighbour" Komponenten als entweder horizontal oder vertikal. In der9a ist die Verbindung zwischen Komponenten "A" und "B" eine horizontale Verbindung, wogegen die Verbindung zwischen Komponenten "A" und "C" eine vertikale Verbindung ist. Im Allgemeinen wird einer Verbindung zwischen einer verbundenen Komponente und jedem ihrer „Nearest Neighbours" eine Orientierung gegeben. Zum Beispiel, wenn die Komponente "B" der „Nearest Neighbour" von Komponente "A" ist, dann ist die Verbindung horizontal, wenn die Linie, die die Mittelpunkte der „Bounding Boxes" von "A" und "B" verbinden, unter einer 45° Diagonallinie ist, und vertikal, wenn anders. Die9b illustriert eine horizontale Verbindung gemäß dieser Definition. Verbundene Komponenten, die gegenseitig „Nearest Neighbours" sind, formen eine verbundene Einheit, die ein „Nearest Neighbour" Graph genannt wird. Beispielsweise, bezugnehmend auf die9c , wenn die Komponente "B" der „Nearest Neighbour" von Komponente "A" ist, und die Komponente "C" der „Nearest Neighbour" der Komponente "B" ist, dann sind "A," "B" und "C" alle Teil des selben „Nearest Neighbour" Graphs. Die Datenstruktur für den „Nearest Neighbour" Graph schließt ein Datenelement ein, das mit jedem Eintrag in die verbundene Liste zur Speicherung der Orientierung der Verbindung assoziiert ist. - Das Modul
34 untersucht die geometrische Orientierung jedes „Nearest Neighbour" Graphs, um zu bestimmen, ob die Zeile oder Kette von Zeichen, die durch ein Graph verbunden ist, vertikal oder horizontal angeordnet ist. Im gegenwärtigen bevorzugten Ausführungsbeispiel wird jeder „Nearest Neighbour" Graph, abhängig von der vorherrschenden Orientierung seiner Verbindungen, als horizontal oder vertikal klassifiziert. Wenn die Mehrheit der Verbindungen horizontal sind, dann ist der „Nearest Neighbour" Graph horizontal; andernfalls ist er vertikal. Die9d illustriert ein Beispiel, dass ein Graph als horizontal klassifiziert ist, weil er zwei horizontale Verbindungen und eine vertikale Verbindung hat. Sobald die Orientierung eines „Nearest Neighbour" Graphs bestimmt worden ist, werden dann jene Verbindungen im Graph, deren Orientierungen nicht der bestimmten Orientierung entsprechen, entfernt. In der9d , wird das vertikale Glied, das die Buchstaben "A" und "D" verbindet, entfernt nach dem der Graph als horizontal angeordnet identifiziert worden ist. Das Modul36 überprüft dann die Schriftgröße von Textkomponenten in jeder Orientierung und erkennt Kandidatentitelkomponenten in jeder Orientierung separat. - Während ein Schwellwert von 45°bei der gegenwärtigen Implementierung zum Bestimmen der Orientierung einer Verbindung benutzt wird, muss das System vielleicht Seiten berücksichtigen, die schräg verlaufen, daher können vielleicht verschiedene horizontale und vertikale Schwellwerte geeignet sein. Überdies, obwohl horizontal und vertikal die einzig möglichen Orientierungen des in der gegenwärtigen Implementierung in Betracht gezogenen Texts sind, kann Text anderer Orientierungen, falls erwünscht, in Erwägung gezogen werden. Insbesondere kann das System veranlasst werden Textzeilen zu identifizieren, die schräg gedruckt sind. Andererseits, kann es für ein System, das nur zur Handhabung von englischem Text eingesetzt wird, möglich sein das vorgenannte Design zu vereinfachen, indem separate Verarbeitung für vertikale Textzeilen eliminiert wird.
- Wenn weitere Unterscheidung erforderlich ist, kann die Schwellwertentscheidung hinsichtlich der Schriftartgröße auf einer lokalen Basis getroffen werden, d. h. nicht auf der Basis der Seite als Ganzes. Während durchschnittliche Schriftartgröße in vielen Fällen ein gutes Attribut zur Unterscheidung bereitstellt, können Systeme gebaut werden, die andere Unterscheidungsattribute als Schriftgröße einsetzen. Solch andere Attribute lassen sich außerdem zusammen mit der Schriftartgröße verwenden, um verfeinerte oder zusätzliche Unterscheidungsebenen zu erzielen. Beispielsweise kann die geometrische Mitte der Textkette mit der Vertikallinienmitte der Seite oder mit der Vertikallinienmitte von Textspalten verglichen werden, um als mögliche Titelkandidaten jene zu selektieren, die um „prominente" Positionen auf der Seite zentriert sind. Als Alternative, oder zusätzlich, kann die Strichbreite oder -stärke der das Zeichen bildenden Linien zur Identifizierung von Titelkandidaten verwendet werden. In dieser Hinsicht wäre eine Fettdrucktype mit einer fetteren Strichbreite ein wahrscheinlicherer Kandidat für eine Kopfzeile. Jedoch, wie oben erwähnt, erzielt das gegenwärtige Ausführungsbeispiel, unter Verwendung der Buchstabengröße oder zusammen mit der Schriftartgröße als das unterscheidende Merkmal, ziemlich erfolgreiche Ergebnisse.
- Während das gegenwärtig bevorzugte Ausführungsbeispiel Schriftartgröße zur Klassifizierung verbundener Komponenten verwendet, können andere geometrische Attribute, wie jene, die hierin beschrieben sind, zur Verstärkung des Klassifizierungsprozesses verwendet werden. Ein Weg dies zu erzielen, ist ein sequentieller oder verschachtelter Programmschleifenansatz, wo eine Entscheidung erster Ebene getroffen wird (Verwendung der Schriftartgröße, beispielsweise), gefolgt von einer zweiten Ebene, die den Schritt weiter verfeinert (Verwendung einiger anderer Attribute), und so weiter. Für irgendeinen der Klassifizierungsschritte (z. B., Identifizieren verbundener Komponenten als entweder Text oder Photo; oder Titel/Nichttitel-Klassifizierung von Textkomponenten), können multiple Attribute gleichzeitig in Betracht gezogen werden. Ein Weg dies zu erreichen, wäre für jede verbundene Komponente Vektoren zu konstruieren, wo jedes Vektorelement eins der selektierten Attribute ist. Dann kann Klassifizierung durch Vergleichen der Vektordaten mit vorbestimmten Vektorschwellwerten durchgeführt werden. Neuronale Netzanalyse ist eine weitere Alternative für gleichzeitiges Analysieren multipler Attribute.
- Um Schriftartgrößen zu unterscheiden, berechnet das Filtrationsmodul
36 zuerst die durchschnittliche Schriftartgröße aller auf der Seite identifizierten vertikalen Zeichen, und berechnet ebenso die durchschnittliche Schriftartgröße aller auf der Seite erscheinenden horizontalen Zeichen. Das Modul36 führt dies leicht durch, indem es auf die „Nearest Neighbour" Graphdatenstruktur32 zugreift, um die vertikalen (oder horizontalen) Ketten zu isolieren und sich dann durch Hinweis auf die Datenstruktur verbundener Komponenten zurückzubeziehen, um die Höhe der entsprechenden „Bounding Box" für jenes Zeichen zu ermitteln. Sobald die horizontalen und vertikalen Durchschnitte berechnet worden sind, wird jede Kette mit jenem Durchschnitt verglichen. Ketten, die Zeichen umfassen, die größer als ein vorbestimmter Schriftartschwellwert sind, werden als Titelkandidaten selektiert. - Danach wird eine „Bounding Box" für jeden der selektierten horizontalen und vertikalen Kandidaten konstruiert. Das Modul
38 konstruiert diese „Bounding Boxes" im Wesentlichen durch Mischen der individuellen „Bounding Boxes" der Komponentenzeichnen, Selektieren der geeigneten Größe, so dass alle Zeichen innerhalb einer selektierten Textzeile von der „Bounding Box" umrandet sind. Wie bereits festgestellt, wird eine Textzeile gewöhnlich in mehrere „Nearest Neighbour" Graphe zerteilt. Daher involviert der Mischprozess im Modul38 das Mischen von „Bounding Boxes" jener „Nearest Neighbour" Graphe zu einer einzelnen „Bounding Box", um eine Titeltextzeile zu formen. Diese „Bounding Boxes" werden dann bei 40 auf geeignete Weise gespeichert. Bei40 gespeicherte „Bounding Box" Daten beschreiben im Wesentlichen die (X,Y) Positionen der oberen linken und unteren rechten Ecken jeder „Bounding Box". Die Positionen sind auf die (X,Y) Stellen auf dem ursprünglichen Punktrasterbild20 bezogen. Somit können diese „Bounding Box" Koordinaten dafür verwendet werden „Bounding Boxes" auf dem Originaldokument zu umreißen, und damit die Titelkandidaten zu selektieren. Wenn erwünscht können die selektierten Kandidaten dann vom Originaldokument weg angezeigt werden, wie beispielsweise in einer Liste von Titeln, wobei jeder auf das Originaldokument zurückbezogen ist. Als Alternative können die Titel durch optische Zeichenerkennung verarbeitet werden, um sie in Zeichendaten umzuwandeln. - Für jene verbundenen Komponenten, die als Photokomponenten identifiziert wurden, mischt sie das Modul
39 , um Photoregionen zu formen. Der Mischprozess prüft die „Bounding Boxes" aller Photokomponenten; jene, deren „Bounding Boxes" miteinander überlappen, werden zu einer einzigen Region vermischt. Eine neue „Bounding Box", die die gemischte Region umschließt, wird dann konstruiert. Diese „Bounding Boxes" werden dann bei41 auf geeignete Weise gespeichert. Diese „Bounding Boxes" beschreiben im Wesentlichen die (X,Y) Koordinaten der oberen linken und unteren rechten Ecken jeder Photoregion. Die Positionen sind Referenzen auf die (X,Y) Stellen auf dem ursprünglichen Punktrasterbild20 . Somit können diese „Bounding Box" Koordinaten dafür verwendet werden „Bounding Boxes" auf dem Originaldokument zu umreißen, und damit die Photoregionen zu selektieren. - Wenn erwünscht, kann Text, der die mit jeder Photoregion assoziierte Kopfzeile repräsentiert, außerdem als Teil des Prozesses identifiziert werden. Für jede Photoregion wird ein schmaler Streifen des Rechteckrahmens, der die „Bounding Box" des Photos umgibt, in Betracht gezogen. Text, der innerhalb der vier Seiten des schmalen Streifens liegt, wird untersucht und eine Kandidaten-Kopfzeilentextregion selektiert. Der Selektionsprozess kann wie folgt voranschreiten:
- WENN horizontaler Text im unteren Streifen vorhanden ist
DANN ist es die Kopfzeile, Ausstiegroutine. - WENN horizontaler Text im oberen Streifen vorhanden ist
DANN ist es die Kopfzeile, Ausstiegroutine. - WENN vertikaler Text im linken Streifen vorhanden ist
DANN ist es die Kopfzeile, Ausstiegroutine. - WENN vertikaler Text im rechten Streifen vorhanden ist
DANN ist es die Kopfzeile, Ausstiegroutine. - ANDERNFALLS es wird keine Kopfzeile gefunden, Ausstiegroutine.
- Obwohl die Erfindung im Zusammenhang mit einem Ausführungsbeispiel beschrieben wurde, das Kopfzeilen, Titel und Photos auffindet, wird die Erfindung ebenso grundlegende Textregionen (ob Titel oder nicht) sowie andere Nichttextregionen, wie beispielsweise Graphe, Linienzeichnungen und dergleichen identifizieren. Überdies ist es möglich zwischen verschiedenen „Levels" (Ebenen) von Text, auf der Basis von Schriftartgröße, relativer Platzierung und so weiter, zu unterscheiden. Demzufolge kann, mittels der hierin beschriebenen Technologie, eine, bei 80 in der
11 gezeigte, Seitenabbildung verwendet werden, um Ausgabe82 zu produzieren, die verschiedene unterschiedlich etikettierte Regionen identifiziert. Der Mechanismus zum Unterscheiden zwischen Text und Nichttext ist oben beschrieben worden. Mit Hilfe dieses Mechanismus kann die Bildregion84 , die Photo86 entspricht, identifiziert und etikettiert werden. Im illustrierten Ausführungsbeispiel schließt das Etikett einen Vertrauenswert (z. B. 0,74) ein, der anzeigt wie sicher das System hinsichtlich der Validität eines gegebenen Etiketts ist. Ebenso können alle Textregionen etikettiert werden, um die Funktion der Textregion anzuzeigen (z. B. Level 1[L1] Titel, Level 2[L2] Titel, Textkörper, und so weiter). Wie bei der Bildregion kann jede Textregion ebenso einen Vertrauenswert einschließen.
Claims (37)
- Ein computerimplementiertes Verfahren der Identifizierung von Titeln in Dokumentenbilddaten, dadurch gekennzeichnet, dass es folgende Schritte umfasst: Speichern der Bilddaten (
20 ) in einem Puffer (22 ); Durchführen der Auffindung (24 ) verbundener Komponenten an den gespeicherten Bilddaten, um eine Vielheit verbundener Komponenten zu identifizieren und eine erste Datenstruktur (26 ) zum Speichern von Datenobjekten zu generieren, die besagten verbundenen Komponenten entsprechen; für jedes in besagter ersten Datenstruktur gespeichertes Datenobjekt, das Identifizieren wenigstens eines ersten Attributs, das die Form der entsprechenden verbundenen Komponente widerspiegelt und eines zweiten Attributs, das eine geometrische Eigenschaft der entsprechenden verbundenen Komponente widerspiegelt und Speichern besagter ersten und zweiten Attribute in Verbindung mit besagter ersten Datenstruktur: Analysieren (28 ) wenigstens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Bilddaten entsprechen, die Text repräsentieren; Durchführen einer "Nearest-Neighbour" Analyse (30 ) an besagten Objekten, um wenigstens ein "Nearest-Neighbour" Diagramm (32 ) zu konstruieren, das Bilddaten entspricht, die wenigstens einen Teil von wenigstens einer Zeile Text repräsentieren; Analysieren (34 ) besagter zweiten Attribute, um eine durchschnittliche geometrische Eigenschaft der verbundenen Komponenten zu bestimmen, die Text repräsentierenden Bilddaten entsprechen: für jedes "Nearest-Neighbour" Diagramm, das Bilddaten entspricht, die wenigstens eine Zeile Text repräsentieren, Vergleichen der gespeicherten zweiten Attribute der jedem Diagramm zugehörigen Datenobjekte mit besagter durchschnittlichen geometrischen Eigenschaft; Auswählen (36 ) als Titelkandidaten jener "Nearest-Neighbour" Diagramme, in denen die Komponentendatenobjekte zweite Attribute aufweisen, die wesentlich anders als besagte durchschnittliche geometrische Eigenschaft sind; Definieren einer "Bounding Box" für jeden der besagten Titelkandidaten und Mischen (38 ) besagter "Bounding Boxes" von Titelkandidaten, die wenigstens einer Zeile Text entsprechen, um wenigstens eine gemischte "Bounding Box" (40 ) zu bestimmen ; und Verbinden besagter gemischten "Bounding Box" (40 ) mit besagten gespeicherten Bilddaten, wodurch besagte gemischte "Bounding Box" Teile besagter gespeicherter Bilddaten zeichnet, die Titel repräsentieren. - Verfahren des Anspruchs 1, wobei besagte geometrische Eigenschaft Größe ist.
- Verfahren des Anspruchs 1, das weiter Analysieren besagter "Nearest-Neighbour" Diagramme umfasst, die Bilddaten entsprechen, die wenigstens eine Zeile Text repräsentieren, um räumliche Orientierung zu bestimmen.
- Verfahren des Anspruchs 1, das weiter Designieren besagter "Nearest-Neighbour" Diagramme umfasst, die Bilddaten entsprechen, die wenigstens eine Zeile Text als entweder allgemein horizontal orientierten Text oder allgemein vertikal orientierten Text repräsentieren.
- Verfahren des Anspruchs 4, wobei besagtes Designieren durch Vergleichen besagter "Nearest-Neighbour" Diagramme durchgeführt wird, die Bilddaten entsprechen, die wenigstens eine Zeile Text nach festgelegten Daten repräsentieren, die einen Neigungswinkel von fünfundvierzig (
45 ) Grad repräsentieren. - Verfahren des Anspruchs 4, das weiter separate Bestimmung von folgendem umfasst: (a) der horizontalen durchschnittlichen Schrifthöhe verbundener Komponenten, die Bilddaten entsprechen, die allgemein horizontal orientierten Text repräsentieren und (b) der vertikalen durchschnittlichen Schrifthöhe verbundener Komponenten, die Bilddaten entsprechen, die allgemein vertikal orientierten Text repräsentieren und Verwenden besagter separat bestimmter durchschnittlichen Schrifthöhen, zum Auswählen als Titelkandidaten: (a) jene "Nearest-Neighbour" Diagramme, die Bilddaten entsprechen, die allgemein horizontal orientierte Zeilen von Text repräsentieren, in denen die Komponentendatenobjekte größere Größenattribute als besagte horizontale durchschnittliche Schrifthöhe aufweisen; und (b) jene "Nearest-Neighbour" Diagramme, die Bilddaten entsprechen, die allgemein vertikal orientierte Zeilen von Text repräsentieren, in denen die Komponentendatenobjekte größere Größenattribute als besagte vertikale durchschnittliche Schrifthöhe aufweisen.
- Verfahren des Anspruchs 1, wobei besagte Bilddaten Einbitdaten sind, die Schwarzweißwerte repräsentieren.
- Verfahren des Anspruchs 1, wobei besagte Bilddaten Mehrbitdaten sind, die Grauwerte repräsentieren.
- Verfahren des Anspruchs 1, wobei besagte Bilddaten Mehrbitdaten sind, die Farbwerte repräsentieren.
- Verfahren des Anspruchs 1, wobei besagtes erste geometrische Attribut aus der Gruppe ausgewählt wird, die aus folgendem besteht: Anzahl von schwarzen Bildpunkten, Anzahl von weißen Bildpunkten, Anzahl von Löchern, Anzahl von Strichenden, Anzahl von nach oben gerichteter Strichbogen, Anzahl nach unten gerichteter Strichbogen.
- Verfahren des Anspruchs 1, wobei besagtes zweite Attribut eine "Bounding Box" um die verbundene Komponente definiert.
- Verfahren des Anspruchs 1, wobei das zweite Attribut eine rechteckige "Bounding Box" um die verbundene Komponente definiert, der durch obere, untere, linke und rechte Begrenzungslinien gekennzeichnet ist.
- Verfahren des Anspruchs 1, das weiter Analysieren besagter ersten und zweiten Attribute umfasst, um zu identifizieren, welche Datenobjekte Text repräsentierenden Bilddaten entsprechen.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut der Bildpunktzahl einer festgelegten Farbe entspricht, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vergleichen des ersten Attributs mit einem vorbestimmten Schwellwert durchgeführt wird.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut der Anzahl schwarzer Bildpunkte entspricht, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn das erste Attribut unter einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut einer "Bounding Box" entspricht, welche die verbundene, eine Höhe und Breite aufweisende, Komponente umschließt, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vergleichen von wenigstens einer besagten Höhe und Breite mit einem vorbestimmten Schwellwert durchgeführt wird.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut einer "Bounding Box" entspricht, welche die verbundene, eine Höhe und Breite aufweisende, Komponente umschließt, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn wenigstens eine besagte Höhe und Breite über einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut einer durchschnittlichen Strichbreite entspricht, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn besagtes erste Attribut über einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 18, wobei die Auffindung besagter verbundener Komponente durch Segmentieren besagter gespeicherter Daten in Segmente durchgeführt wird, die schwarze Bildpunkte enthalten und wobei besagte durchschnittliche Strichbreite als das Verhältnis der Anzahl schwarzer Bildpunkte zur Anzahl schwarzer Segmente berechnet wird.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut einer "Bounding Box" entspricht, welche die verbundene, eine Höhe und Breite aufweisende, Komponente umschließt, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn das Verhältnis von Breite zu Höhe über einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut einer "Bounding Box" entspricht, der die verbundene, eine Höhe und Breite aufweisende, Komponente umschließt, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn das Verhältnis Höhe zu Breite über einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut der Anzahl Bildlöcher in der verbundenen Komponente entspricht, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn das erste Attribut über einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut der Anzahl von Strichenden in der verbundenen Komponente entspricht, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn das erste Attribut über einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 1, wobei besagtes erste Attribut einer "Bounding Box" entspricht, welche die verbundene Komponente umschließt, die eine durch die Höhe und Breite definierte Größe aufweist, und weiter der Anzahl schwarzer Bildpunkte innerhalb der verbundene Komponente entspricht, und wobei besagter Schritt des Analysierens besagter ersten Attribute, um zu identifizieren welche Datenobjekte Text repräsentierenden Bilddaten entsprechen, durch Vereinbaren durchgeführt wird, dass die Bilddaten keinen Text repräsentieren, wenn das Verhältnis der Anzahl schwarzer Bildpunkte zur Größe der besagten "Bounding Box" unter einem vorbestimmten Schwellwert liegt.
- Verfahren des Anspruchs 1, das weiter die Auffindung eines Titels aus besagten Bilddaten durch Kopieren einer Teilmenge besagter gespeicherten, durch besagte "Bounding Box" gezeichneten, Bilddaten in einen Speicherpuffer umfasst.
- Verfahren des Anspruchs 1, das weiter die Auffindung eines Titels aus besagten Bilddaten durch Durchführen optischer Zeichenerkennung (OCR) an einer Teilmenge besagter gespeicherten, durch besagte "Bounding Box" gezeichneter Bilddaten umfasst, um Textdaten zu generieren, die dem gezeichneten Titel entsprechen.
- Verfahren des Anspruchs 1, das weiter die Verwendung besagter "Bounding Box" zum Generieren von Textdaten, die dem gezeichneten Titel entsprechen und das Verwenden besagter Textdaten als einen besagten Bilddaten zugehörigen Index umfasst.
- Verfahren des Anspruchs 1, das weiter Verwenden besagter "Bounding Box", zum Generieren von Textdaten, die dem gezeichneten Titel entsprechen und Verwenden besagter Textdaten als ein computersuchbares, besagten Bilddaten zugehöriges Schlüsselwort umfasst.
- Verfahren des Anspruchs 1, das weiter für jedes in besagter ersten Datenstruktur gespeicherte Datenobjekt das Identifizieren einer Vielheit zweiter Attribute umfasst, wobei jedes eine andere geometrische Eigenschaft der entsprechenden verbundene Komponente umfasst.
- Verfahren des Anspruchs 29, das weiter das Analysieren besagter zweiten Attribute in einer vorbestimmten sequentiellen Reihenfolge umfasst, um als Titelkandidaten jene "Nearest-Neighbour" Diagramme auszuwählen, in denen die Komponentendatenobjekte Attribute aufweisen, die festgelegten Charakteristiken entsprechen.
- Verfahren des Anspruchs 29, das weiter das Analysieren besagter zweiten Attribute im wesentlichen gleichzeitig umfasst, um als Titelkandidaten jene "Nearest-Neighbour" Diagramme auszuwählen, in denen die Komponentendatenobjekte Attribute aufweisen, die festgelegten Charakteristiken entsprechen.
- Verfahren des Anspruchs 1, das weiter das Identifizieren fotografischer Bereiche innerhalb Dokumentenbilddaten durch Durchführen folgender Schritte umfasst: für jedes in besagter ersten Datenstruktur gespeicherte Datenobjekt, das Identifizieren wenigstens eines dritten Attributs, das eine geometrische Eigenschaft der entsprechenden verbundenen Komponente widerspiegelt und Speichern besagten dritten Attributs in Verbindung mit besagter Datenstruktur; Analysieren (
29 ) wenigstens besagten dritten Attributs, das eine geometrische Eigenschaft widerspiegelt, um zu identifizieren welche Datenobjekte Bilddaten entsprechen, die mögliche fotografische Bereiche repräsentieren, durch Festlegen einer "Bounding Box" für jede besagter verbundener Komponenten und Auswählen als fotografische Bereichskandidaten jener verbundenen Komponenten, die "Bounding Boxes" aufweisen, die größer als eine erste vorbestimmte Schwellwertgröße sind; weiteres Analysieren besagten dritten Attributs, das eine geometrische Eigenschaft besagter fotografischer Bereichskandidaten aufweist, um als fotografische Bereiche jene Kandidaten auszuwählen, die besagte Attribute haben, die eine geometrische Eigenschaft widerspiegeln, die eine erste Beziehung mit einem zweiten vorbestimmten Schwellwert hat; Mischen (39 ) besagter "Bounding Boxes" besagter ausgewählten fotografischen Bereiche, deren entsprechende "Bounding Boxes" sich überlappen, um wenigstens eine gemischte "Bounding Box" (41 ) zu definieren; und Verbinden besagter gemischten "Bounding Box" mit besagten gespeicherten Bilddaten, wodurch besagte gemischte "Bounding Box" Teile besagter gespeicherter Bilddaten zeichnet, die besagte fotografische Bereiche repräsentieren. - Verfahren des Anspruchs 32, wobei besagtes Attribut eine geometrische Eigenschaft widerspiegelt, die die Zahl schwarzer Bildpunkte in besagter verbundenen Komponente repräsentiert.
- Verfahren des Anspruchs 32, wobei besagtes Attribut, das eine geometrische Eigenschaft widerspiegelt, das Höhe-Breite-Verhältnis der "Bounding Box" besagter verbundenen Komponente repräsentiert.
- Verfahren des Anspruchs 32, wobei besagtes Attribut, das eine geometrische Eigenschaft widerspiegelt, das Verhältnis der Anzahl schwarzer Bildpunkte zur Größe der "Bounding Box" besagter verbundenen Komponente repräsentiert.
- Verfahren des Anspruchs 32, wobei besagtes Attribut, das eine geometrische Eigenschaft widerspiegelt, die Anzahl von Löchern in besagter verbundenen Komponente repräsentiert.
- Verfahren des Anspruchs 32, wobei besagtes Attribut, das eine geometrische Eigenschaft widerspiegelt, die Anzahl von nach oben und unten gerichteten Enden schwarzer Bildpunkte in besagter verbundenen Komponente repräsentiert.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US785993 | 1997-01-21 | ||
US08/785,993 US5892843A (en) | 1997-01-21 | 1997-01-21 | Title, caption and photo extraction from scanned document images |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69724755D1 DE69724755D1 (de) | 2003-10-16 |
DE69724755T2 true DE69724755T2 (de) | 2004-07-01 |
Family
ID=25137273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69724755T Expired - Fee Related DE69724755T2 (de) | 1997-01-21 | 1997-12-16 | Auffinden von Titeln und Photos in abgetasteten Dokumentbildern |
Country Status (4)
Country | Link |
---|---|
US (1) | US5892843A (de) |
EP (1) | EP0854433B1 (de) |
JP (1) | JPH10260993A (de) |
DE (1) | DE69724755T2 (de) |
Families Citing this family (163)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999926A (en) * | 1996-08-23 | 1999-12-07 | At&T Corp. | View maintenance for unstructured databases |
US6324500B1 (en) * | 1997-11-14 | 2001-11-27 | International Business Machines Corporation | Method and system for the international support of internet web pages |
JP3601658B2 (ja) * | 1997-12-19 | 2004-12-15 | 富士通株式会社 | 文字列抽出装置及びパターン抽出装置 |
JP4100746B2 (ja) * | 1998-01-09 | 2008-06-11 | キヤノン株式会社 | 画像処理装置及び方法 |
JPH11282829A (ja) * | 1998-03-31 | 1999-10-15 | Fuji Photo Film Co Ltd | フォント共有システムおよび方法ならびにフォント共有方法を実行するためのプログラムを格納した記録媒体 |
US6360010B1 (en) * | 1998-08-12 | 2002-03-19 | Lucent Technologies, Inc. | E-mail signature block segmentation |
JP2000137728A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 文書解析装置及びプログラム記録媒体 |
US7099507B2 (en) * | 1998-11-05 | 2006-08-29 | Ricoh Company, Ltd | Method and system for extracting title from document image |
US6351559B1 (en) * | 1998-12-22 | 2002-02-26 | Matsushita Electric Corporation Of America | User-enclosed region extraction from scanned document images |
US6731788B1 (en) * | 1999-01-28 | 2004-05-04 | Koninklijke Philips Electronics N.V. | Symbol Classification with shape features applied to neural network |
US6614930B1 (en) * | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
WO2000052645A1 (fr) * | 1999-03-01 | 2000-09-08 | Matsushita Electric Industrial Co., Ltd. | Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document |
JP3204259B2 (ja) * | 1999-10-06 | 2001-09-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置 |
US6694053B1 (en) * | 1999-12-02 | 2004-02-17 | Hewlett-Packard Development, L.P. | Method and apparatus for performing document structure analysis |
US7287214B1 (en) * | 1999-12-10 | 2007-10-23 | Books24X7.Com, Inc. | System and method for providing a searchable library of electronic documents to a user |
US6674900B1 (en) | 2000-03-29 | 2004-01-06 | Matsushita Electric Industrial Co., Ltd. | Method for extracting titles from digital images |
US7191117B2 (en) * | 2000-06-09 | 2007-03-13 | British Broadcasting Corporation | Generation of subtitles or captions for moving pictures |
US8122236B2 (en) | 2001-10-24 | 2012-02-21 | Aol Inc. | Method of disseminating advertisements using an embedded media player page |
BR0114879A (pt) * | 2000-10-24 | 2003-08-12 | Thomson Licensing Sa | Método de dimensionar uma página de executor de meios embutido |
FR2816157A1 (fr) * | 2000-10-31 | 2002-05-03 | Thomson Multimedia Sa | Procede de traitement de donnees video distinees a etre visualisees sur ecran et dispositif mettant en oeuvre le procede |
AU2002230484A1 (en) * | 2000-11-16 | 2002-05-27 | Interlegis, Inc. | System and method of managing documents |
US7925967B2 (en) | 2000-11-21 | 2011-04-12 | Aol Inc. | Metadata quality improvement |
US20040030681A1 (en) * | 2000-11-21 | 2004-02-12 | Shannon Paul Thurmond | System and process for network site fragmented search |
US6832726B2 (en) | 2000-12-19 | 2004-12-21 | Zih Corp. | Barcode optical character recognition |
US7311256B2 (en) * | 2000-12-19 | 2007-12-25 | Zih Corp. | Barcode optical character recognition |
US6826305B2 (en) * | 2001-03-27 | 2004-11-30 | Ncr Corporation | Methods and apparatus for locating and identifying text labels in digital images |
US7392287B2 (en) * | 2001-03-27 | 2008-06-24 | Hemisphere Ii Investment Lp | Method and apparatus for sharing information using a handheld device |
US20020143804A1 (en) * | 2001-04-02 | 2002-10-03 | Dowdy Jacklyn M. | Electronic filer |
US7400768B1 (en) * | 2001-08-24 | 2008-07-15 | Cardiff Software, Inc. | Enhanced optical recognition of digitized images through selective bit insertion |
US20040064500A1 (en) * | 2001-11-20 | 2004-04-01 | Kolar Jennifer Lynn | System and method for unified extraction of media objects |
US20030103673A1 (en) * | 2001-11-30 | 2003-06-05 | Nainesh Rathod | Shape searcher |
US7340092B2 (en) * | 2001-12-21 | 2008-03-04 | Minolta Co., Ltd. | Image processing device, image processing method, program for executing image processing, and computer readable recording medium on which the program is stored |
US20030198386A1 (en) * | 2002-04-19 | 2003-10-23 | Huitao Luo | System and method for identifying and extracting character strings from captured image data |
US7050630B2 (en) * | 2002-05-29 | 2006-05-23 | Hewlett-Packard Development Company, L.P. | System and method of locating a non-textual region of an electronic document or image that matches a user-defined description of the region |
US7520857B2 (en) * | 2002-06-07 | 2009-04-21 | Verathon Inc. | 3D ultrasound-based instrument for non-invasive measurement of amniotic fluid volume |
GB2391625A (en) * | 2002-08-09 | 2004-02-11 | Diagnostic Ultrasound Europ B | Instantaneous ultrasonic echo measurement of bladder urine volume with a limited number of ultrasound beams |
US20080262356A1 (en) * | 2002-06-07 | 2008-10-23 | Vikram Chalana | Systems and methods for ultrasound imaging using an inertial reference unit |
US20090062644A1 (en) * | 2002-06-07 | 2009-03-05 | Mcmorrow Gerald | System and method for ultrasound harmonic imaging |
US8221322B2 (en) * | 2002-06-07 | 2012-07-17 | Verathon Inc. | Systems and methods to improve clarity in ultrasound images |
US20060025689A1 (en) * | 2002-06-07 | 2006-02-02 | Vikram Chalana | System and method to measure cardiac ejection fraction |
US20100036252A1 (en) * | 2002-06-07 | 2010-02-11 | Vikram Chalana | Ultrasound system and method for measuring bladder wall thickness and mass |
US20090112089A1 (en) * | 2007-10-27 | 2009-04-30 | Bill Barnard | System and method for measuring bladder wall thickness and presenting a bladder virtual image |
US7450746B2 (en) * | 2002-06-07 | 2008-11-11 | Verathon Inc. | System and method for cardiac imaging |
US7819806B2 (en) * | 2002-06-07 | 2010-10-26 | Verathon Inc. | System and method to identify and measure organ wall boundaries |
US8221321B2 (en) | 2002-06-07 | 2012-07-17 | Verathon Inc. | Systems and methods for quantification and classification of fluids in human cavities in ultrasound images |
US20040127797A1 (en) * | 2002-06-07 | 2004-07-01 | Bill Barnard | System and method for measuring bladder wall thickness and presenting a bladder virtual image |
US7085399B2 (en) * | 2002-06-18 | 2006-08-01 | Oki Electric Industry Co., Ltd. | Watermark information embedding device and watermark information detection device |
AU2003262729A1 (en) * | 2002-08-20 | 2004-03-11 | Matsushita Electric Industrial Co., Ltd. | Method, system, and apparatus for generating structured document files |
JP4462819B2 (ja) * | 2002-09-26 | 2010-05-12 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びにプログラム |
US6965388B2 (en) * | 2002-10-21 | 2005-11-15 | Microsoft Corporation | System and method for block scaling data to fit a screen on a mobile device |
US7218779B2 (en) * | 2003-01-21 | 2007-05-15 | Microsoft Corporation | Ink divider and associated application program interface |
US7349918B2 (en) * | 2003-06-30 | 2008-03-25 | American Express Travel Related Services Company, Inc. | Method and system for searching binary files |
US7379594B2 (en) * | 2004-01-28 | 2008-05-27 | Sharp Laboratories Of America, Inc. | Methods and systems for automatic detection of continuous-tone regions in document images |
KR100647284B1 (ko) * | 2004-05-21 | 2006-11-23 | 삼성전자주식회사 | 영상의 문자 추출 장치 및 방법 |
TWI284288B (en) * | 2004-06-04 | 2007-07-21 | Benq Corp | Text region recognition method, storage medium and system |
US20060045346A1 (en) * | 2004-08-26 | 2006-03-02 | Hui Zhou | Method and apparatus for locating and extracting captions in a digital image |
JP2006085582A (ja) * | 2004-09-17 | 2006-03-30 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
US8144921B2 (en) * | 2007-07-11 | 2012-03-27 | Ricoh Co., Ltd. | Information retrieval using invisible junctions and geometric constraints |
US7991778B2 (en) * | 2005-08-23 | 2011-08-02 | Ricoh Co., Ltd. | Triggering actions with captured input in a mixed media environment |
US7920759B2 (en) * | 2005-08-23 | 2011-04-05 | Ricoh Co. Ltd. | Triggering applications for distributed action execution and use of mixed media recognition as a control input |
US8195659B2 (en) * | 2005-08-23 | 2012-06-05 | Ricoh Co. Ltd. | Integration and use of mixed media documents |
US8156116B2 (en) * | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US8332401B2 (en) * | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US8156427B2 (en) * | 2005-08-23 | 2012-04-10 | Ricoh Co. Ltd. | User interface for mixed media reality |
US7812986B2 (en) * | 2005-08-23 | 2010-10-12 | Ricoh Co. Ltd. | System and methods for use of voice mail and email in a mixed media environment |
US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US7885955B2 (en) * | 2005-08-23 | 2011-02-08 | Ricoh Co. Ltd. | Shared document annotation |
US8856108B2 (en) * | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US7917554B2 (en) * | 2005-08-23 | 2011-03-29 | Ricoh Co. Ltd. | Visibly-perceptible hot spots in documents |
US8086038B2 (en) * | 2007-07-11 | 2011-12-27 | Ricoh Co., Ltd. | Invisible junction features for patch recognition |
US8176054B2 (en) * | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8510283B2 (en) * | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US8385589B2 (en) * | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US8868555B2 (en) * | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US8838591B2 (en) * | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US8825682B2 (en) * | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US7669148B2 (en) * | 2005-08-23 | 2010-02-23 | Ricoh Co., Ltd. | System and methods for portable device for mixed media system |
US7970171B2 (en) * | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US8276088B2 (en) * | 2007-07-11 | 2012-09-25 | Ricoh Co., Ltd. | User interface for three-dimensional navigation |
US8949287B2 (en) | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US7702673B2 (en) * | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US8600989B2 (en) * | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US8521737B2 (en) * | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US8369655B2 (en) * | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US8005831B2 (en) * | 2005-08-23 | 2011-08-23 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment with geographic location information |
US8989431B1 (en) | 2007-07-11 | 2015-03-24 | Ricoh Co., Ltd. | Ad hoc paper-based networking with mixed media reality |
US8184155B2 (en) * | 2007-07-11 | 2012-05-22 | Ricoh Co. Ltd. | Recognition and tracking using invisible junctions |
US9373029B2 (en) * | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
EP1914680A4 (de) * | 2005-03-01 | 2012-10-24 | Univ Osaka Prefect Public Corp | Dokument-/bildsuchverfahren und -programm, und dokument/bildaufzeichnungs- und -sucheinrichtung |
US7522771B2 (en) * | 2005-03-17 | 2009-04-21 | Microsoft Corporation | Systems, methods, and computer-readable media for fast neighborhood determinations in dynamic environments |
US20060267958A1 (en) * | 2005-04-22 | 2006-11-30 | Microsoft Corporation | Touch Input Programmatical Interfaces |
US7986307B2 (en) * | 2005-04-22 | 2011-07-26 | Microsoft Corporation | Mechanism for allowing applications to filter out or opt into tablet input |
JP4579759B2 (ja) * | 2005-04-22 | 2010-11-10 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
US7928964B2 (en) | 2005-04-22 | 2011-04-19 | Microsoft Corporation | Touch input data handling |
US8948511B2 (en) * | 2005-06-02 | 2015-02-03 | Hewlett-Packard Development Company, L.P. | Automated document processing system |
US20090049104A1 (en) * | 2005-06-08 | 2009-02-19 | William Pan | Method and system for configuring a variety of medical information |
US7623711B2 (en) * | 2005-06-30 | 2009-11-24 | Ricoh Co., Ltd. | White space graphs and trees for content-adaptive scaling of document images |
US7769772B2 (en) * | 2005-08-23 | 2010-08-03 | Ricoh Co., Ltd. | Mixed media reality brokerage network with layout-independent recognition |
US7599556B2 (en) * | 2005-08-25 | 2009-10-06 | Joseph Stanley Czyszczewski | Apparatus, system, and method for scanning segmentation |
US20070067336A1 (en) * | 2005-09-20 | 2007-03-22 | Innodata Isogen, Inc. | Electronic publishing system and method for managing publishing requirements in a neutral format |
US8787660B1 (en) * | 2005-11-23 | 2014-07-22 | Matrox Electronic Systems, Ltd. | System and method for performing automatic font definition |
US7929769B2 (en) * | 2005-12-13 | 2011-04-19 | Microsoft Corporation | Script recognition for ink notes |
JP2007200014A (ja) * | 2006-01-26 | 2007-08-09 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP4897520B2 (ja) * | 2006-03-20 | 2012-03-14 | 株式会社リコー | 情報配信システム |
US8201076B2 (en) * | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
US8676810B2 (en) * | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
US9063952B2 (en) * | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US8073263B2 (en) * | 2006-07-31 | 2011-12-06 | Ricoh Co., Ltd. | Multi-classifier selection and monitoring for MMR-based image recognition |
US8489987B2 (en) * | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US9176984B2 (en) * | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US9020966B2 (en) * | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
US20080065671A1 (en) * | 2006-09-07 | 2008-03-13 | Xerox Corporation | Methods and apparatuses for detecting and labeling organizational tables in a document |
US7852499B2 (en) * | 2006-09-27 | 2010-12-14 | Xerox Corporation | Captions detector |
US8023725B2 (en) * | 2007-04-12 | 2011-09-20 | Samsung Electronics Co., Ltd. | Identification of a graphical symbol by identifying its constituent contiguous pixel groups as characters |
US8167803B2 (en) * | 2007-05-16 | 2012-05-01 | Verathon Inc. | System and method for bladder detection using harmonic imaging |
CN101354746B (zh) * | 2007-07-23 | 2011-08-31 | 夏普株式会社 | 文字图像抽出装置及文字图像抽出方法 |
JP4983526B2 (ja) * | 2007-10-15 | 2012-07-25 | 富士ゼロックス株式会社 | データ処理装置及びデータ処理プログラム |
JP2009193187A (ja) * | 2008-02-13 | 2009-08-27 | Casio Comput Co Ltd | 画像検索方法、画像検索システム、画像検索端末および検索用サーバー |
JP5132416B2 (ja) * | 2008-05-08 | 2013-01-30 | キヤノン株式会社 | 画像処理装置およびその制御方法 |
US8225998B2 (en) * | 2008-07-11 | 2012-07-24 | Es&S Innovations Llc | Secure ballot box |
EP2323559A4 (de) * | 2008-08-07 | 2016-09-21 | Verathon Inc | Vorrichtung, system und verfahren zur messung des durchmessers von bauchaortenaneurysmen |
JP2010072842A (ja) * | 2008-09-17 | 2010-04-02 | Konica Minolta Business Technologies Inc | 画像処理装置および画像処理方法 |
US8620080B2 (en) * | 2008-09-26 | 2013-12-31 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
US20100145808A1 (en) * | 2008-12-08 | 2010-06-10 | Fuji Xerox Co., Ltd. | Document imaging with targeted advertising based on document content analysis |
AU2009201252B2 (en) * | 2009-03-31 | 2011-06-02 | Canon Kabushiki Kaisha | Colour correcting foreground colours for visual quality improvement |
US8385660B2 (en) * | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
US8396301B2 (en) | 2009-09-24 | 2013-03-12 | Gtech Corporation | System and method for document location and recognition |
US8509534B2 (en) * | 2010-03-10 | 2013-08-13 | Microsoft Corporation | Document page segmentation in optical character recognition |
US9135305B2 (en) * | 2010-03-24 | 2015-09-15 | Google Inc. | Ranking object search results |
JP5733907B2 (ja) * | 2010-04-07 | 2015-06-10 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
AU2010257298B2 (en) * | 2010-12-17 | 2014-01-23 | Canon Kabushiki Kaisha | Finding text regions from coloured image independent of colours |
EP2490446A1 (de) | 2011-02-15 | 2012-08-22 | Eldon Technology Limited | Kopierschutz |
US8731296B2 (en) * | 2011-04-21 | 2014-05-20 | Seiko Epson Corporation | Contact text detection in scanned images |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
KR101814120B1 (ko) * | 2011-08-26 | 2018-01-03 | 에스프린팅솔루션 주식회사 | 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치 |
US9154832B2 (en) | 2012-03-29 | 2015-10-06 | Dish Network L.L.C. | Testing frame color counting technique |
CN103377232B (zh) * | 2012-04-25 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 标题关键词推荐方法及系统 |
US8570379B1 (en) | 2012-10-04 | 2013-10-29 | Dish Network L.L.C. | Frame block comparison |
US9098532B2 (en) | 2012-11-29 | 2015-08-04 | International Business Machines Corporation | Generating alternative descriptions for images |
GB2513431B (en) | 2013-04-25 | 2018-12-05 | Testplant Europe Ltd | Method for creating a label |
CN104346615B (zh) * | 2013-08-08 | 2019-02-19 | 北大方正集团有限公司 | 版式文档中复合图的提取装置和提取方法 |
US11080777B2 (en) * | 2014-03-31 | 2021-08-03 | Monticello Enterprises LLC | System and method for providing a social media shopping experience |
US10511580B2 (en) | 2014-03-31 | 2019-12-17 | Monticello Enterprises LLC | System and method for providing a social media shopping experience |
US11004139B2 (en) | 2014-03-31 | 2021-05-11 | Monticello Enterprises LLC | System and method for providing simplified in store purchases and in-app purchases using a use-interface-based payment API |
US11915303B2 (en) | 2014-03-31 | 2024-02-27 | Monticello Enterprises LLC | System and method for providing a social media shopping experience |
US12008629B2 (en) | 2014-03-31 | 2024-06-11 | Monticello Enterprises LLC | System and method for providing a social media shopping experience |
US9842281B2 (en) * | 2014-06-05 | 2017-12-12 | Xerox Corporation | System for automated text and halftone segmentation |
US9646202B2 (en) | 2015-01-16 | 2017-05-09 | Sony Corporation | Image processing system for cluttered scenes and method of operation thereof |
US10395133B1 (en) * | 2015-05-08 | 2019-08-27 | Open Text Corporation | Image box filtering for optical character recognition |
US11238215B2 (en) * | 2018-12-04 | 2022-02-01 | Issuu, Inc. | Systems and methods for generating social assets from electronic publications |
KR102193403B1 (ko) * | 2019-02-20 | 2020-12-21 | 경북대학교 산학협력단 | 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템 |
US10614345B1 (en) | 2019-04-12 | 2020-04-07 | Ernst & Young U.S. Llp | Machine learning based extraction of partition objects from electronic documents |
US11113518B2 (en) * | 2019-06-28 | 2021-09-07 | Eygs Llp | Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal |
US11915465B2 (en) | 2019-08-21 | 2024-02-27 | Eygs Llp | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks |
US11087163B2 (en) * | 2019-11-01 | 2021-08-10 | Vannevar Labs, Inc. | Neural network-based optical character recognition |
US11373106B2 (en) * | 2019-11-21 | 2022-06-28 | Fractal Analytics Private Limited | System and method for detecting friction in websites |
US11562591B2 (en) * | 2019-12-23 | 2023-01-24 | Insurance Services Office, Inc. | Computer vision systems and methods for information extraction from text images using evidence grounding techniques |
US11625934B2 (en) | 2020-02-04 | 2023-04-11 | Eygs Llp | Machine learning based end-to-end extraction of tables from electronic documents |
CN115344756A (zh) * | 2022-08-22 | 2022-11-15 | 携程旅游网络技术(上海)有限公司 | 数据表中数据块的识别方法、系统、设备及介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3113555A1 (de) * | 1981-04-03 | 1982-10-21 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen |
US4741046A (en) * | 1984-07-27 | 1988-04-26 | Konishiroku Photo Industry Co., Ltd. | Method of discriminating pictures |
JPS62137974A (ja) * | 1985-12-12 | 1987-06-20 | Ricoh Co Ltd | 画像処理方式 |
JP2702928B2 (ja) * | 1987-06-19 | 1998-01-26 | 株式会社日立製作所 | 画像入力装置 |
US5001767A (en) * | 1987-11-30 | 1991-03-19 | Kabushiki Kaisha Toshiba | Image processing device |
JPH0223468A (ja) * | 1988-07-13 | 1990-01-25 | Toshiba Corp | ファイリング装置 |
JP2890482B2 (ja) * | 1989-06-13 | 1999-05-17 | 富士ゼロックス株式会社 | 文書画像再配置ファイリング装置 |
US5703962A (en) * | 1991-08-29 | 1997-12-30 | Canon Kabushiki Kaisha | Image processing method and apparatus |
US5351314A (en) * | 1991-10-04 | 1994-09-27 | Canon Information Systems, Inc. | Method and apparatus for image enhancement using intensity dependent spread filtering |
JP3278471B2 (ja) * | 1991-11-29 | 2002-04-30 | 株式会社リコー | 領域分割方法 |
JP2579397B2 (ja) * | 1991-12-18 | 1997-02-05 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文書画像のレイアウトモデルを作成する方法及び装置 |
JPH05225397A (ja) * | 1992-02-14 | 1993-09-03 | Ricoh Co Ltd | 文字形状整形装置 |
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
US5848184A (en) * | 1993-03-15 | 1998-12-08 | Unisys Corporation | Document page analyzer and method |
JP3039204B2 (ja) * | 1993-06-02 | 2000-05-08 | キヤノン株式会社 | 文書処理方法及び装置 |
DE69419291T2 (de) * | 1993-09-03 | 1999-12-30 | Canon K.K., Tokio/Tokyo | Formmessapparat |
US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
US5699453A (en) * | 1994-09-30 | 1997-12-16 | Xerox Corporation | Method and apparatus for logically tagging of document elements in the column by major white region pattern matching |
US5774579A (en) * | 1995-08-11 | 1998-06-30 | Canon Kabushiki Kaisha | Block selection system in which overlapping blocks are decomposed |
US5848191A (en) * | 1995-12-14 | 1998-12-08 | Xerox Corporation | Automatic method of generating thematic summaries from a document image without performing character recognition |
US5767978A (en) * | 1997-01-21 | 1998-06-16 | Xerox Corporation | Image segmentation system |
-
1997
- 1997-01-21 US US08/785,993 patent/US5892843A/en not_active Expired - Fee Related
- 1997-12-16 EP EP97203961A patent/EP0854433B1/de not_active Expired - Lifetime
- 1997-12-16 DE DE69724755T patent/DE69724755T2/de not_active Expired - Fee Related
-
1998
- 1998-01-20 JP JP10008773A patent/JPH10260993A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE69724755D1 (de) | 2003-10-16 |
EP0854433A3 (de) | 1998-11-04 |
JPH10260993A (ja) | 1998-09-29 |
US5892843A (en) | 1999-04-06 |
EP0854433B1 (de) | 2003-09-10 |
EP0854433A2 (de) | 1998-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69724755T2 (de) | Auffinden von Titeln und Photos in abgetasteten Dokumentbildern | |
DE69723220T2 (de) | Gerät und Verfahren zur Extrahierung von Tabellengeraden innerhalb normaler Dokumentbilder | |
DE69033079T2 (de) | Aufbereitung von Text in einem Bild | |
DE69523970T2 (de) | Dokumentspeicher- und Wiederauffindungssystem | |
DE69432585T2 (de) | Verfahren und Gerät zur Auswahl von Text und/oder Non-Text-Blöcken in einem gespeicherten Dokument | |
DE3926327C2 (de) | Verfahren und System zum Erkennen von Zeichen auf einem Medium | |
DE69332459T2 (de) | Verfahren und Vorrichtung zur Zeichenerkennung | |
DE69421117T2 (de) | Gerät zur Bildinformationsverarbeitung und -wiedergabe | |
DE69519323T2 (de) | System zur Seitensegmentierung und Zeichenerkennung | |
DE69516751T2 (de) | Bildvorverarbeitung für Zeichenerkennungsanlage | |
DE60129872T2 (de) | Verfahren zur Extrahierung von Titeln aus numerischen Bildern | |
DE69525401T2 (de) | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind | |
DE3650554T2 (de) | Speicherungs- und Wiederauffindungsverfahren für Bilddaten | |
DE4311172C2 (de) | Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes | |
DE60120810T2 (de) | Verfahren zur Dokumenterkennung und -indexierung | |
DE69724557T2 (de) | Dokumentenanalyse | |
DE69229536T2 (de) | Verfahren und Gerät zum Auswahl linguistisch bezeichnender Bilder in einem Dokumentbild ohne Dekodierung des Bildinhalts | |
DE3883578T2 (de) | Verfahren und Gerät zur Erkennung von gedruckten Zeichen auf einem Beleg. | |
US5751850A (en) | Method for image segmentation and classification of image elements for documents processing | |
DE69610243T2 (de) | Verfahren zum Trainieren einer Erkennungsanlage mit Zeichenmustern | |
DE10162156B4 (de) | Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren | |
DE69225678T2 (de) | Verfahren und Gerät zur Dokumentbildverarbeitung | |
DE69226609T2 (de) | Verfahren und Gerät zur Dokumentbildverarbeitung | |
DE10308014B4 (de) | System und Verfahren zum Lokalisieren eines nichttextlichen Bereichs eines elektronischen Dokumentes oder Bildes, der mit einer benutzerdefinierten Beschreibung des Bereichs übereinstimmt | |
DE69423926T2 (de) | Verfahren und Gerät zur automatischen Schriftermittlung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee | ||
8370 | Indication related to discontinuation of the patent is to be deleted | ||
8339 | Ceased/non-payment of the annual fee |