DE69829074T2 - IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA - Google Patents
IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA Download PDFInfo
- Publication number
- DE69829074T2 DE69829074T2 DE69829074T DE69829074T DE69829074T2 DE 69829074 T2 DE69829074 T2 DE 69829074T2 DE 69829074 T DE69829074 T DE 69829074T DE 69829074 T DE69829074 T DE 69829074T DE 69829074 T2 DE69829074 T2 DE 69829074T2
- Authority
- DE
- Germany
- Prior art keywords
- language
- data values
- string
- values
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012512 characterization method Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 34
- 230000002829 reductive effect Effects 0.000 claims description 23
- 238000013179 statistical model Methods 0.000 claims description 15
- 238000007619 statistical method Methods 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 26
- 238000009826 distribution Methods 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000003491 array Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000013515 script Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Die Erfindung liegt auf dem Gebiet der Textanalyse, insbesondere der statistischen Textanalyse.The The invention is in the field of text analysis, in particular the statistical text analysis.
HINTERGRUND DER ERFINDUNGBACKGROUND THE INVENTION
Es ist für moderne Computersysteme üblich, Einrichtungen zum Speichern und zum Verarbeiten von Daten bereitzustellen, die einen Text darstellen. Datenkörper, die durch ein Computersystem gespeichert sind und ein Textdokument darstellen, werden als „digitale Dokumentdarstellungen" (digital document representations) bezeichnet. Digitale Dokumentdarstellungen werden in einem Computersystem wie andere Daten gespeichert, nämlich als Reihenfolge von Werten, die „Bytes" genannt werden. Text wird in diese Bytewerte mittels einer „Zeichenfolge" (character set) konvertiert, eine Abbildung zwischen den Werten der verschiedenen Zeichen, die in dieser Schrift folgend als Zeichenglypt bezeichnet werden, und den verschiedenen Bytewerten. Zeichenfolgen, die auch als „Codeseiten" (code pages) bezeichnet werden, werden im allgemeinen von Standardisierungsorganisationen, wie z. B. das American National Standards Institute („ANSI") oder der International Standards Organisation („ISO"), definiert. Einige Zeichenfolgen, die „Zeichenfolgen mit mehreren Bytes" (multiple-byte character sets) genannt werden, bilden jeden Zeichenglypt auf einen Wert ab, der aus zwei oder mehr Bytes besteht. Es ist im allgemeinen möglich, das Dokument korrekt anzuzeigen, das durch eine digitale Dokumentendarstellung dargestellt ist, wenn nur die Zeichenfolge bekannt ist, die verwendet wurde, um die digitale Dokumentendarstellung zu erzeugen. Es ist im allgemeinen ebenso möglich, eine digitale Dokumentendarstellung von ihrer momentanen Zeichenfolge in eine andere Zielzeichenfolge zu konvertieren, wenn nur die momentane Zeichenfolge der digitalen Dokumentendarstellung bekannt ist.It is for modern computer systems common, Provide facilities for storing and processing data, which represent a text. Data body passing through a computer system are stored and represent a text document, are called "digital Document presentations "(digital document representations). Digital document presentations are stored in a computer system like other data, namely as Order of values called "bytes". Text is written to these byte values using a "character set" converts a mapping between the values of the different characters, which are referred to in this document as Zeichenglypt, and the different byte values. Strings, also known as "code pages" are generally used by standardization organizations, such as For example, the American National Standards Institute ("ANSI") or International Standards Organization ("ISO"), defined Strings containing "strings with several bytes "(multiple-byte character sets) form each glyph glyph to one Value consisting of two or more bytes. It is in general possible, to display the document correctly, through a digital document representation if only the string that uses is known was created to create the digital document representation. It is generally also possible a digital document representation of their current string to convert to another target string, if only the current one String of digital document representation is known.
Ein Text umfaßt im allgemeinen eine Folge von Worten, die jeweils aus einer oder mehreren Sprachen stammen. Natursprachenverarbeitungswerkzeuge, wie z. B. eine Rechtschreibüberprüfung, eine Grammatiküberprüfung und Zusammenfasser, können auf solche Dokumente angewendet werden. Um ein Dokument jedoch richtig verarbeiten zu können, müssen diese Werkzeuge jedoch von der Sprache oder den Sprachen unterrichtet werden, aus denen die Worte in dem Dokument stammen. Wenn z. B. eine Rechtschreibprüfung das Wort „Bitte" in einem Dokument entdeckt, von dem bekannt ist, daß es in Deutsch verfaßt ist, betrachtet diese das Wort nicht als falsch geschrieben. Wenn jedoch die Rechtschreibprüfung dasselbe Wort in einem Dokument entdeckt, von dem bekannt ist, daß es in Englisch verfaßt ist, so betrachtet diese das Wort als eine fehlerhafte Schreibweise des Wortes „bitter". Einige Werkzeuge, die Informationen wiedergewinnen, wie z. B. Worttrenner (die die Grenzen zwischen Worten erkennen) und Wortstammbilder (die Zusätze entfernen, um verschiedene Wort aufeinander abzustimmen, die denselben Stamm haben), müssen ebenso von der Sprache oder den Sprachen unterrichtet werden, die in den digitalen Dokumentdarstellungen auftreten, an denen diese Werkzeuge angewendet werden. Zusätzlich zu den Bedürfnissen von automatisierten Werkzeugen, ist die Kenntnis der Sprache, in der das Dokument verfaßt ist, für menschliche Leser nützlich, die nur eine oder eine geringe Anzahl der großen Vielzahl von Sprachen lesen können, in denen Dokumente verfaßt werden, um zu bestimmen, ob sie das Dokument lesen können oder nicht.One Text includes in general, a sequence of words, each consisting of one or come from several languages. Natural language processing tools, such as For example, a spellchecker, a Grammar check and Summary, can be applied to such documents. But to get a document right to be able to process have to however, these tools are taught by language or languages which the words in the document come from. If z. B. a spell checker the word "please" in a document discovered, which is known to be written in German, Do not consider this word as misspelled. But when the spell checker discovered the same word in a document known to exist in Written in English is, then considers this the word as a wrong spelling the word "bitter." Some tools, recover the information, such as B. word separator (the Recognize boundaries between words) and parentheses (remove the additions, to match different word, the same tribe need to have are also taught by the language or languages that occur in the digital document representations involving these tools be applied. additionally to the needs from automated tools, is the knowledge of the language in who writes the document is for useful to human readers who read only one or a small number of the great variety of languages can, in which documents are written to determine if they can read the document or Not.
Somit ist es im allgemeinen für jede digitale Dokumentendarstellung, die gespeichert wird, wünschenswert, von einer expliziten Anzeige der Zeichenfolge, die verwendet wurde, um diese zu erzeugen, und der Sprache oder den Sprachen, von der die Worte für diese stammen, begleitet zu werden. Während eine solche Information für viele digitale Dokumentendarstellungen, insbesondere den Darstellungen, die in der jüngeren Vergangenheit erzeugt wurden, gespeichert wird, ist diese für viele andere digitale Dokumentendarstellungen nicht verfügbar. Zum Beispiel können viele der HTML- Dokumente, die über das World Wide Web verfügbar sind, nicht ihre Zeichenfolgen und Sprachen anzeigen.Consequently is it in general for any digital document representation that is saved is desirable from an explicit display of the string that was used to produce these, and the language or languages of which the words for these come to be accompanied. While such information for many digital document representations, in particular the representations, those in the recent past is not saved for many other digital document images available. For example, you can many of the HTML documents, the above the World Wide Web are available do not show their strings and languages.
Bei einigen digitalen Dokumentendarstellungen wurde eine Information, die die Zeichenfolge und die Sprache der digitalen Dokumentendarstellung identifiziert, nie mit der digitalen Dokumentendarstellung verbunden. Dies ist häufig der Fall, wenn diese Information ursprünglich in dem Computer abgelegt wurde, auf dem diese gespeichert wurde. Zum Beispiel ist diese Information implizit in digitalen Dokumentendarstellungen enthalten, die ursprünglich in einer einzelnen Sprache und in einer einzelnen Zeichenfolgeumgebung erzeugt wurden. Wenn derartige digitale Dokumentendarstellungen in ein Computersystem überführt werden, das verschiedene Sprachen und Zeichenfolgen verwendet, oder solchen Computersystemen über ein Netzwerk, wie z. B. das Internet, zur Verfügung gestellt wird, so ist die Zeichenfolge und die Sprache von solchen digitalen Dokumentendarstellungen nicht verfügbar.at some digital document images have been given information the the string and the language of the digital document representation identified, never connected to the digital document display. This is common the case, if this information was originally stored in the computer was saved on this. For example, this information is implicitly contained in digital document representations originally in a single language and in a single string environment were generated. If such digital document images be transferred to a computer system, using different languages and strings, or such Computer systems over a network, such as As the Internet is made available, so is the string and language of such digital document representations not available.
Bei anderen digitalen Dokumentendarstellungen, wurde eine Information, die in der Zeichenfolge und der Sprache der digitalen Dokumentendarstellung identifiziert wurde, zu einem gewissen Zeitpunkt mit der digitalen Dokumentendarstellung verbunden, ist jedoch momentan nicht verfügbar. Zum Beispiel kann eine solche Information in einer getrennten Datei gespeichert worden sein, die zu einem gewissen Zeitpunkt gelöscht wurde. Auf der anderen Seite kann diese Information noch vorhanden sein, jedoch ebenso nicht zur Verfügung stehen. Zum Beispiel kann die Datei, die die Information enthält, für den Benutzer nicht zugänglich sein, oder ein Programm, das versucht, die Zeichenfolge und Sprache der digitalen Dokumentendarstellung zu bestimmen. Eine derartige Information kann ferner zugänglich sein, jedoch in einem Format vorliegen, das für den Benutzer unverständlich ist, oder ein Programm, das versucht, die Zeichenfolge und Sprache der digitalen Dokumentendarstellung zu bestimmen. Daher kann aus einer Vielzahl von Gründen die Zeichenfolge und die Sprache einer digitalen Dokumentendarstellung nicht verfügbar sein.In other digital document representations, information identified in the character string and language of the digital document representation has at some point been associated with the di digital document display, but is currently not available. For example, such information may have been stored in a separate file that has been deleted at some point. On the other hand, this information may still be present, but also not available. For example, the file containing the information may be inaccessible to the user, or a program attempting to determine the character string and language of the digital document representation. Such information may also be accessible, but in a format incomprehensible to the user or a program attempting to determine the character string and language of the digital document representation. Therefore, for a variety of reasons, the character string and language of a digital document representation may not be available.
Da die erforderliche Sprache und Zeichenfolge, um digitale Dokumentendarstellungen anzuzeigen und zu verarbeiten, häufig nicht verfügbar ist, wäre ein automatisierter Zugang zum Bestimmen der Zeichenfolge und Sprache oder Sprachen einer digitalen Dokumentendarstellung, insbesondere einer, die akzeptable Speicheranforderungen mit sich bringt und einfach auf neue Zeichenfolgen und Sprachen erweiterbar ist, von großem Nutzen.There the required language and string to digital document representations display and process frequently not available is, would be an automated access to determine the string and language or languages of a digital document representation, in particular one that brings acceptable memory requirements and easy to extend to new strings and languages is of great benefit.
G. Kikui, und andere, beschreibt in „Cross-lingual Information Retrieval on the WWW", ECA196, 12th European Conference on Artificial Intelligence, MULSAIC96 Workshop, 1996, Seiten 1-6, ein sprachenübergreifendes Suchsystem, das auf zwei AI-basierenden Modulen beruht: einem Sprachenidentifizierer, der statistische und regelbasierende Musterabbildungen verwendet, und einem schnellen MT-Modul.G. Kikui, and others, describes in "Cross-lingual information retrieval on the Web," ECA196, 12 th European Conference on Artificial Intelligence, MULSAIC96 Workshop, 1996, pages 1-6, a cross-language search system based AI on two Modules is based on: a language identifier that uses statistical and rule-based pattern maps, and a fast MT module.
G. Kikui beschreibt in „Identifying the coding system and language of on-line documents on the Internet", 16th International Conference of Computational Linguistics (COLING), August 1996, Seiten 652-657, einen Algorithmus, der gleichzeitig das Codierungssystem und die Sprache eines Codestringes identifiziert, der aus dem Internet geholt wurde, insbesondere dem World Wide Web. Der Algorithmus verwendet statistische Sprachmodelle, um den korrekt decodierten String auszuwählen und um die Sprache zu bestimmen.G. Kikui describes in "Identifying the coding system and language of on-line documents on the Internet", 16 th International Conference of Computational Linguistics (COLING), August 1996, pages 652-657, an algorithm simultaneously encoding the coding system and the Language of a code string retrieved from the Internet, in particular the World Wide Web The algorithm uses statistical language models to select the correctly decoded string and to determine the language.
U.S. Patent Nr. 5,418,951, das Damashek erteilt wurde, mit dem Titel „Method of retrieving documents that concern the same topic", vom 23. Mai 1995, beschreibt ein Verfahren zum Identifizieren, Wiedergewinnen und Sortieren von Dokumenten anhand von einer Sprache oder einem Thema. Das Verfahren umfaßt ein Erzeugen eines n-Gramm-Arrays, ein Parsen eines identifizierten Dokumentes in n-Gramme, Zuweisen eines Gewichtes an ein jedes n-Gramm, Entfernen von Gemeinsamkeiten der n-Gramme, Vergleichen, Zuweisen von Werten, und, basierende auf Ähnlichkeitswerten, Identifizieren, Wiedergewinnen oder Sortieren des Dokumentes.U.S. Patent No. 5,418,951 issued to Damashek entitled "Method of retrieving documents that concern the same topic ", dated 23 May 1995, describes a method for identifying, recovering and Sort documents by language or topic. The method comprises generating an n-gram array, parsing an identified one Document in n-grams, assigning a weight to each n-gram, removing of common features of the n-grams, comparing, assigning values, and, based on similarity values, Identify, retrieve or sort the document.
ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY THE INVENTION
In einer Ausführungsform stellt die Erfindung das computerimplementierte Verfahren nach Anspruch 1 zum Erzeugen von Modellen bereit, wobei jeder Modelltext in einer von mehreren Sprachen verfaßt ist.In an embodiment the invention provides the computer-implemented method according to claim 1 for generating models, each model text in one written in several languages is.
In einer weiteren Ausführungsform stellt die Erfindung das computerimplementierte Verfahren nach Anspruch 5 zum Identifizieren der Sprache eines Textes in einer unbekannten, unterscheidbaren Sprache bereit.In a further embodiment the invention provides the computer-implemented method according to claim 5 for identifying the language of a text in an unknown, distinguishable language.
In einer weiteren Ausführungsform stellt die Erfindung ein computerlesbares Medium bereit, das von einem Computer ausführbare Befehle zum Ausführen eines Verfahrens entsprechend der Erfindung umfaßt.In a further embodiment For example, the invention provides a computer-readable medium that can be used by a computer-readable medium Computer executable Commands to execute a method according to the invention.
Die Erfindung ermöglicht das Vorsehen einer Softwareeinrichtung („die Einrichtung"), die, wenn ihr Rohdaten gegeben werden, die ein Textdokument darstellen, das in irgendeiner Sprache mittels irgendeiner Zeichenfolge verfaßt ist, automatisch die Sprache und die Zeichenfolge identifiziert. Die Einrichtung erzeugt zuerst ein statistisches Modell des Dokumentes in einer jeden einer Anzahl von bekannten Sprachen und Zeichenfolgen in einer „Trainingsphase", und wendet diese Modelle sodann an, um die Sprache und Zeichenfolge eines eingegebenen Dokumentes in einer „Erkennungsphase" zu identifizieren.The Invention allows the provision of a software device ("the device") that, when its raw data which represent a textual document in any one of them Language is written using any string, automatically the language and identifies the string. The device generates first a statistical model of the document in each of a number of known languages and strings in a "training phase", and applies them Models then enter the language and string of an input Document in a "recognition phase" to identify.
Die von der Einrichtung verwendeten statistischen Modelle der Sprachen und Zeichenfolgen sind angepaßt, um Zeichenwerte hervorzuheben, die dazu neigen, zwischen verschiedenen Sprachen und Zeichenfolgen unterschiedlich zu sein, während gleichzeitig die Datenmenge in den Modellen, die den Zeichenwerten zugeordnet ist, die nicht dazu neigen, zwischen Sprachen und Zeichenfolgen unterschiedlich zu sein, mittels einer spezialisierten, reduktiven Abbildung verringert wird.The Statistical models of languages used by the institution and strings are customized to highlight character values that tend to be between different ones Languages and strings to be different while at the same time the amount of data in the models associated with the character values is that does not tend to be between languages and strings to be different, by means of a specialized, reductive Figure is reduced.
In der Trainingsphase erzeugt die Einrichtung die statistischen Modelle der Sprachen und Zeichenfolgen, die in der Erkennungsphase verwendet werden, um die Sprache und Zeichenfolge der eingegebenen Dokumente zu identifizieren. Für jede zu untersuchende Kombination aus Sprache und Zeichenfolge liest die Einrichtung Beispieldokumente, von denen die Sprache und Zeichenfolge bekannt ist, die jeweils eine Folge von Bytewerten umfassen. Die Einrichtung führt sodann die Schritte aus: (A) Abbilden der Bytewerte aus der Folge von 256 verschiedenen, möglichen Werten, die in einem Byte dargestellt werden können auf eine kleinere Anzahl von möglichen Werten, (B) Aufzeichnen der Häufigkeiten, mit der jede verschiedene, gleichlange Folge von abgebildeten Bytewerten, oder n-Grammen, in der abgebildeten Version des Dokumentes auftritt, (C) Zusammenfassen dieser Häufigkeitsverteilungen für jede Sprache und jede Zeichenfolge, und (D) Normalisieren der Häufigkeitsverteilungen über die Sprachen und die Zeichenfolgen. Bevorzugt werden n-Gramme verschiedener Länge wie auch verschiedene Abbildungen verwendet, abhängig von den Charakteristika einer jeden Sprache und einer jeden Zeichenfolge. Die Einrichtung stellt ferner die Häufigkeitsverteilungen ein, um n-Gramme mit hoher Häufigkeit zu betonen, deren Auftreten dazu neigt, ein Dokument in einer Sprache und einer Zeichenfolge von Dokumenten in anderen Sprachen und anderen Zeichenfolgen zu unterscheiden, und häufig auftretende n-Gramme abzuwerten, deren Auftreten nicht dazu fuhrt, ein Dokument einer Sprache und einer Zeichenfolge von Dokumenten anderer Sprachen und Zeichenfolgen zu unterscheiden.In In the training phase, the device generates the statistical models the languages and strings used in the recognition phase be the language and string of the entered documents to identify. For Each combination of language and string to be examined reads the establishment example documents, of which the language and string is known, each comprising a sequence of byte values. The Establishment leads then the steps of: (A) mapping the byte values from the sequence of 256 different, possible Values that can be represented in one byte to a smaller number of possible Values, (B) recording the frequencies, with each different, same length sequence of mapped byte values, or n-grams, in the illustrated version of the document, (C) Summarizing these frequency distributions for every Language and each string, and (D) normalizing the frequency distributions over the Languages and the strings. Preference is given to n-grams of various types Length like also used different pictures, depending on the characteristics every language and every string. The device also provides the frequency distributions one to n-grams with high frequency to emphasize whose occurrence tends to be a document in a language and a string of documents in other languages and others To distinguish between strings and to devalue frequently occurring n-grams, whose appearance does not lead to a document of a language and a String of documents of other languages and strings differ.
In der Erkennungssphase verwendet die Einrichtung die normalisierten und eingestellten Häufigkeitsverteilungen, die in der Trainingsphase erzeugt wurden, um die Sprache und Zeichenfolge für ein eingegebenes Dokument zu identifizieren, dessen Sprache und / oder Zeichenfolge unbekannt ist. Die Einrichtung bildet zuerst die Bytewerte eines eingegebenen Dokumentes auf eine kleine Anzahl von möglichen Werten ab, wobei dieselbe(n) Abbildung(en) wie in der Trainingsphase verwendet wird (werden). Die Einrichtung bestimmt sodann die Häufigkeit, mit der jedes n-Gramm in dem abgebildeten, eingegebenen Dokument auftritt. Für jede Sprache wird die Häufigkeit, mit der jedes n-Gramm in dem abgebildeten, eingegebenen Dokument auftritt, mit der Häufigkeit desselben n-Gramm, die in den Trainingshäufigkeitsverteilungen für die momentane Sprache ermittelt wurden, multipliziert und diese Produkte werden addiert. Die Summe für jede Sprache bildet die relative Wahrscheinlichkeit, daß die Sprache diejenige ist, in der das eingegebene Dokument geschrieben ist. Nachdem die Sprache mit der größten Summe bestimmt wurde, wird dieses Erkennungsverfahren wiederholt, wobei die Zeichenfolgeverteilungen für diese Sprache verwendet werden, um festzustellen, in welcher der bekannten Zeichenfolgen für die identifizierte Sprache das eingegebene Dokument geschrieben ist.In In the recognition phase, the device uses the normalized ones and set frequency distributions, that were generated in the training phase to the language and string for a to identify the document entered, its language and / or String is unknown. The device first forms the byte values a typed document to a small number of possible ones Values, with the same image (s) as in the training phase is (are) used. The device then determines the frequency with the every n-gram in the depicted document entered occurs. For every language becomes the frequency, with the every n-gram in the depicted document entered occurs, with frequency of the same n-grams used in the training frequency distributions for the current Language were determined, multiplied and these products become added. The sum for each language forms the relative probability that the language is the one in which the entered document is written. After this the language with the largest sum was determined, this recognition method is repeated, wherein the string distributions for This language can be used to determine in which of the known strings for the identified language written the entered document is.
Die Einrichtung analysiert bevorzugt aufeinanderfolgende Einheiten von Trainingsdokumenten und eingegebenen Dokumenten, deren Länge der Länge eines typischen Absatzes entspricht. Wenn ein Dokument Text in mehr als einer Sprache oder einer Zeichenfolge enthält, kann die Einrichtung auf diese Weise jeder dieser Sprachen und Zeichenfolgen identifizieren.The Device preferably analyzes successive units of Training documents and entered documents whose length is the Length of one typical paragraph corresponds. If a document contains text in more than contains a language or a string, the device can identify each of these languages and strings in this way.
Die Einrichtung verwendet ferner bevorzugt ähnliche statistische Analysetechniken, um die Sprache oder Sprachen der digitalen Dokumentendarstellungen zu identifizieren, die in der großen Unicodezeichenfolge erstellt sind. Beim Identifizieren einiger Gruppen von ähnlichen Sprachen in digitalen Unicodedokumentendarstellungen verwendet die Einrichtung bevorzugt anwenderspezifische reduktive Abbildungen, die automatisch erzeugt werden, um zwischen Sprachen in der Gruppe zu unterscheiden.The Device preferably also uses similar statistical analysis techniques, to the language or languages of the digital document representations to identify the one created in the large Unicode string are. When identifying some groups of similar languages in digital Unicode document representations use the device preferred user-specific reductive mappings that are generated automatically be used to distinguish between languages in the group.
KURZE BESCHREIBUNG DER FIGURENSHORT DESCRIPTION THE FIGURES
DETAILLIERTE BESCHREIBUNG DER ERFINDUNGDETAILED DESCRIPTION OF THE INVENTION
Die vorliegende Erfindung stellt eine Softwareeinrichtung („die Einrichtung") bereit, die, wenn ihre Rohdaten zugeführt werden, die ein Textdokument darstellen, das in irgendeiner Sprache mit irgendeiner Zeichenfolge erstellt wurde, automatisch diese Sprache und diese Zeichenfolge identifiziert. Die Einrichtung erzeugt zuerst ein statistisches Modell der Dokumente in jeder aus einer Vielzahl von bekannten Sprachen und Zeichenfolgen in einer „Trainingsphase" und wendet diese Modelle dann an, um die Sprache und Zeichenfolge eines eingegebenen Dokumentes in einer „Erkennungsphase" zu identifizieren.The The present invention provides a software device ("the device") which, when supplied their raw data that are a textual document, in any language with any string was created, this language automatically and identifies this string. The device generates first a statistical model of the documents in each of a variety of known languages and strings in a "training phase" and applies them Models then enter the language and string of an input Document in a "recognition phase" to identify.
Die statistischen Modelle der Sprachen und Zeichenfolgen, die von der Einrichtung verwendet werden, sind angepaßt, um Zeichenwerte zu betonen, die dazu führen, daß zwischen verschiedenen Sprachen und Zeichenfolgen unterschieden werden kann, während gleichzeitig der Speicherplatz in den Modellen, der Zeichenwerten zugewiesen ist, die nicht dazu führen, daß zwischen Sprachen oder Zeichenfolgen unterschieden werden kann, durch die Verwendung von spezialisierten reduktiven Abbildungen minimiert wird.The statistical models of languages and strings used by the Device are adapted to emphasize character values, that lead to, that between different languages and strings can be distinguished, while at the same time the storage space in the models, the character values assigned that does not cause that between Languages or strings can be distinguished by the Minimized use of specialized reductive mappings becomes.
In der Trainingsphase erzeugt die Einrichtung die statistischen Modelle der Sprachen und Zeichenfolgen, die in der Erkennungsphase verwendet werden, um die Sprache und Zeichenfolge der eingegebenen Dokumente zu identifizieren. Für jede Kombination aus Sprache und Zeichenfolge, die untersucht werden soll, liest die Einrichtung Beispieldokumente, von denen die Sprache und Zeichenfolge bekannt ist, die jeweils eine Reihe von Bytewerten umfassen. Die Einrichtung führt sodann die folgenden Schritte aus: (A) Abbilden der Bytewerte aus der Folge von 256 verschiedenen, möglichen Werten, die in einem Byte dargestellt werden können, auf eine kleinere Anzahl von möglichen Werten, (B) Aufzeichnen der Häufigkeiten, mit der jede verschiedene Folge von abgebildeten Bytewerten fester Länge, oder „n-Gramme", in der abgebildeten Version des Dokumentes auftritt, (C) Zusammenführen dieser „Häufigkeitsverteilungen" für jede Sprache und Zeichenfolge und (D) Normalisieren der Häufigkeitsverteilungen über die Sprachen und Zeichenfolgen. Bevorzugt werden n-Gramme verschiedener Längen wie auch verschiedene Abbildungen verwendet, abhängig von den Charakteristika jeder Sprachen und Zeichenfolge. Die Einrichtung stellt ferner die Häufigkeitsverteilungen ein, um n-Gramme mit hohen Häufigkeitswerten zu betonen, deren Auftreten dazu führt, daß ein Dokument einer Sprache und Zeichenfolge von Dokumenten anderer Sprachen und Zeichenfolgen unterscheidbar ist, und n-Gramme mit hohen Häufigkeiten abzuwerten, deren Auftreten nicht dazu führt, daß ein Dokument einer Sprache und Zeichenfolge von Dokumenten anderer Sprachen und Zeichenfolgen unterscheidbar ist.In In the training phase, the device generates the statistical models the languages and strings used in the recognition phase be the language and string of the entered documents to identify. For any combination of language and string being examined should, the institution reads sample documents, of which the language and string is known, each containing a series of byte values include. The facility leads then the following steps: (A) mapping the byte values off the sequence of 256 different possible values in one Bytes can be represented on a smaller number of possible Values, (B) recording the frequencies, with the each different sequence of mapped byte values firmer Length, or "n-gramme", in the pictured Version of the document occurs, (C) merging these "frequency distributions" for each language and string and (D) normalizing the frequency distributions over the Languages and strings. Preference is given to n-grams of different lengths as well as different pictures used, depending on the characteristics every language and string. The institution also provides the frequency distributions one to n-grams with high frequency values to emphasize whose occurrence causes a document of a language and string of documents of other languages and strings is distinguishable, and to devalue n-grams with high frequencies whose Appearance does not cause the existence Document of a language and string of documents of other languages and strings is distinguishable.
In der Erkennungsphase verwendet die Einrichtung die normalisierten und eingestellten Häufigkeitsverteilungen, die in der Trainingsphase erzeugt wurden, um die Sprache und Zeichenfolge für ein eingegebenes Dokument zu identifizieren, dessen Sprache und/oder Zeichenfolge unbekannt ist. Die Einrichtung bildet zunächst die Bytewerte des eingegebenen Dokumentes auf eine kleinere Anzahl von möglichen Werten mittels der gleichen Abbildungen) ab, die in der Trainingsphase verwendet wurden. Die Einrichtung bestimmt sodann die Häufigkeiten, mit der jedes n-Gramm in dem abgebildeten, eingegebenen Dokument auftritt. Für jede Sprache wird die Häufigkeit, mit der jedes n-Gramm in dem abgebildeten, eingegebenen Dokument vorkommt, multipliziert mit der Häufigkeit, mit der dasselbe n-Gramm in den Trainingshäufigkeitsverteilungen für dieselbe Sprache vorkam, und diese Produkte werden addiert. Die Summe für jede Sprache stellt die relative Wahrscheinlichkeit dar, daß die Sprache diejenige Sprache ist, in der das eingegebene Dokument geschrieben ist. Nachdem die Sprache mit der höchsten Summe identifiziert wurde, wird dieser Erkennungsprozeß wiederholt, wobei die Zeichenfolgenverteilungen für diese Sprache verwendet werden, um festzustellen, in welcher der bekannten Zeichenfolgen für die identifizierte Sprache das eingegebene Dokument geschrieben ist.In the recognition phase, the facility uses the normalized and adjusted frequency distributions generated in the training phase to input the language and string for a given one identify a document whose language and / or string is unknown. The device first maps the byte values of the input document to a smaller number of possible values using the same maps used in the training phase. The device then determines the frequencies at which each n-gram appears in the mapped input document. For each language, the frequency at which each n-gram appears in the mapped input document is multiplied by the number of times the same n-gram occurred in the training frequency distributions for the same language, and these products are added together. The sum for each language represents the relative probability that the language is the language in which the input document is written. After identifying the language with the highest total, this recognition process is repeated using the string distributions for that language to determine in which of the known strings for the identified language the typed document is written.
Die Einrichtung analysiert bevorzugt aufeinanderfolgende Einheiten von Trainingsdokumenten und eingegebenen Dokumenten, deren Länge der Länge eines typischen Absatzes entspricht. Wenn ein Dokument Text in mehr als einer Sprache oder einer Zeichenfolge enthält, kann die Einrichtung auf diese Weise jede dieser Sprachen und Zeichenfolgen identifizieren.The Device preferably analyzes successive units of Training documents and entered documents whose length is the Length of one typical paragraph corresponds. If a document contains text in more than contains a language or a string, the device can this way identify each of these languages and strings.
Die Einrichtung verwendet ferner bevorzugt ähnliche statistische Analysetechniken, um die Sprache oder Sprachen der digitalen Dokumentendarstellungen zu identifizieren, die in der großen Unicodezeichenfolge erstellt sind. Beim Identifizieren einiger Gruppen ähnlicher Sprachen in den digitalen Unicodedokumentendarstellungen verwendet die Einrichtung bevorzugt anwenderspezifische reduktive Abbildungen, die automatisch erzeugt werden, um zwischen Sprachen in der Gruppe zu unterscheiden.The Device preferably also uses similar statistical analysis techniques, to the language or languages of the digital document representations to identify the one created in the large Unicode string are. Identifying some groups of similar languages in the digital Unicode document representations use the device preferred user-specific reductive mappings that are generated automatically be used to distinguish between languages in the group.
Die
Einrichtung führt
den Schritt
In
den Schritten
Tabelle 1: Abbildung, um eine Sprache mit romanischem SBCS zu erkennen Table 1: Illustration to recognize a language with Romanic SBCS
Die
Details des Schritts
Betrachte zum Beispiel den folgenden Beispieltextstring:For example, consider the following sample text string:
Snow, called „POWDER."Snow, called "POWDER."
Die untere Tabelle 2 zeigt in ihrer „Bytewert"-Spalte die Folge von Bytewerten, die den Beispielstring in einer digitalen Beispieldokumentendarstellung ausmachen. Die „Zielwert"-Spalte der Tabelle 2 zeigt eine Folge von Zielwerten, auf die die Bytewerte abgebildet werden, wobei die in Tabelle 1 gezeigte Abbildung verwendet wird.The Table 2 below shows in its "byte value" column the sequence of byte values that the sample string in a digital sample document representation turn off. The "target value" column of Table 2 shows a sequence of target values to which the byte values are mapped, where the used in Table 1.
Tabelle 2 Table 2
Man kann aus Tabelle 2 sehen, daß jeder verschiedene Buchstabe seinen eigenen Zielwert hat. Zum Beispiel sind sowohl der kleine Buchstabe „o" wie auch der große Buchstabe „O" auf den Zielwert 16 abgebildet. Man kann ferner sehen, daß alle Interpunktionszeichenglypten, umfassend Komma, Leerzeichen, Anführungszeichen und Punkt, auf einen einzelnen Zielwert abgebildet sind, den Zielwert 0. Somit sind es die Identitäten der verschiedenen Buchstaben, die verwendet werden, um verschiedene Sprachen in digitalen Dokumentendarstellungen zu unterscheiden, die in romanischen Einzelbytezeichenfolgen erstellt sind. Die in Tabelle 1 gezeigte Abbildung kann ferner verwendet werden, um Modelle und Charakterisierungen von Zeichenfolgen, wie z. B. Microsoft Zeichenfolge 50220 für japanisch, zu erzeugen, die, im Gegensatz zu technischen Doppelbytezeichenfolgen, keine Bytewerte zwischen 0×80 und 0×FF verwenden.you can see from Table 2 that everyone different letter has its own target value. For example Both the small letter "o" and the large letter "O" are at the target value 16 pictured. It can also be seen that all punctuation glyphs, comprising comma, space, quotation marks and period a single target value, the target value 0. Thus it's the identities of different letters that are used to different To distinguish languages in digital document representations, which are created in single-byte Roman string strings. In the Table 1 can also be used to model and characterizations of strings, such as Eg Microsoft string 50220 for japanese, which, in contrast to technical double-byte strings, no byte values between 0 × 80 and 0 × FF use.
In
Schritt
Tabelle 3: Abbildung, um Zeichenfolgen romanischer SBCS zu untersuchen. Table 3: Figure to examine strings of Romanian SBCS.
Man kann aus Tabelle 3 sehen, daß die Abbildung zum Erkennen der richtigen Zeichenfolge aus romanischen Einzelbytezeichenfolgen jeden Quellwert mit einer hohen Bitfolge auf verschiedene Zielwerte abbildet. Zum Beispiel wird der Quellwert 0×80 auf den Zielwert 1 abgebildet, der Quellwert 0×81 wird auf den Zielwert 2 abgebildet usw. Bei Einzelbytezeichenfolgen stellen nur diese „ausgedehnten Zeichenbytewerte" verschiedene Zeichen in verschiedenen Zeichenfolgen dar, wohingegen auf der anderen Seite jeder der Bytewerte 0-0×7F üblicherweise dasselbe Zeichen in all diesen Zeichenfolgen darstellt. Es sind daher dieses ausgedehnten Zeichenbytecodes, die dazu dienen, am besten zwischen verschiedenen romanischen Einzelbytezeichenfolgen zu unterscheiden. Zusätzlich zu den 128 Zielwerten, die jeweils einem der Quellwerte zwischen 0×80 und 0×FF zugewiesen sind, definiert die Abbildung einen weiteren Zielwert: der Zielwert 0 ist allen Quellwerten zwischen 0 und 0×7F zugewiesen. Durch eine Abbildung der Quellwerte auf diese Weise reduziert die Einrichtung 256 Quellwerte auf nur 129 Zielwerte, wodurch die Speicheranforderungen für Unigrammhäufigkeitsverteilungen um nahezu 50 % reduziert sind.you can see from Table 3 that the Illustration for recognizing the correct string of Romance Single-byte strings string each source value with a high bit order to different target values. For example, the source value becomes 0 × 80 on the target value 1 is mapped, the source value 0 × 81 becomes the target value 2 mapped, etc. For single-byte strings, only these "extended Character byte values "various Characters in different strings, whereas on the other Side of each of the byte values 0-0 × 7F usually represents the same character in all these strings. There are hence this extended character byte code, which is used on the best between different romance single byte strings to distinguish. additionally to the 128 target values, each one of the source values between 0 × 80 and 0 × FF assigned the figure defines another target value: the target value 0 is assigned to all source values between 0 and 0 × 7F. By a Mapping the source values in this way reduces the setup 256 source values to only 129 target values, reducing memory requirements for unigram frequency distributions are reduced by almost 50%.
Im
Schritt
In
den Schritten
In
dem Schritt
Tabelle 4: Abbildung, um die Sprache und Zeichenfolge von nichtromanischen SBCS oder DBCS zu untersuchen. Table 4: Figure to examine the language and string of non-Romanian SBCS or DBCS.
Man kann sehen, daß die Abbildung in Tabelle 4 im wesentlichen eine Vereinigung der verschiedenen Zielwerte ist, die durch die beiden Abbildungen definiert sind, die in Tabelle 1 und Tabelle 3 gezeigt sind. Diese Abbildung reduziert 256 Quellwerte auf 155 Zielwerte, wodurch die Speicheranforderungen für Bigrammhäufigkeitsverteilungen um mindestens 63 reduziert werden.you can see that the Figure 4 in Table 4 is essentially a union of the different target values which are defined by the two figures shown in Table 1 and Table 3 are shown. This figure reduces 256 source values to 155 target values, reducing the memory requirements for bigram frequency distributions be reduced by at least 63.
Im
Schritt
In
dem Schritt
In
den Schritten
In
dem Schritt
In
dem Schritt
Die
Schritte, die in
In
Schritt
In
den Schritten
In
dem Schritt
Die obigen Ausführungen beschreiben die Verwendung der Einrichtung zum Erkennen sowohl der Zeichenfolge wie auch der Sprachen einer eingegebenen digitalen Dokumentendarstellung, von der diese Information nicht bekannt ist. Die Einrichtung ist ferner ausgelegt, die Sprachen zu erkennen, die in einer eingegebenen digitalen Dokumentendarstellung verwendet werden, von der bekannt ist, daß diese in einer bestimmten Unicodezeichenfolge erstellt ist. Die Unicodezeichenfolge, wie sie von dem Unicode-Konsortium in San Jose, Californien, USA, in The Unicode Standard, Version 2.0. definiert ist, ist eine große Zeichenfolge, die ausgelegt ist, die meisten Zeichenglypten darzustellen, die in den meisten Sprachen der Welt verwendet werden. Da die Unicodezeichenfolge den Text von so vielen verschiedenen Sprachen darstellen kann, ist es nützlich, fähig zu sein, die Sprachen, die in einer eingegebenen digitalen Dokumentendarstellung vorhanden sind, zu erkennen, von der bekannt ist, das sie in einer Unicodezeichenfolge erstellt ist. Die Unicodezeichenfolge verwendet 16-Bit Zeichenwerte, die 65536 verschiedene Zeichen ermöglichen. Die Unicodezeichenfolge ist in eine Anzahl von „Schriftbereichen" unterteilt, die die Zeichen bündelt, die im allgemeinen in einer Sprache oder in einer Gruppe von verwandten Sprachen verwendet werden. Die untere Tabelle 5 zeigt einige der „Einzelsprachen"-Schriftbereiche, die Zeichen enthalten, die nur in einer Sprache verwendet werden.The above describe the use of the means for recognizing both the String as well as the languages of an input digital Document presentation of which this information is unknown. The device is also designed to recognize the languages used in an input digital document representation which is known to be that is created in a specific Unicode string. The Unicode string, as reported by the Unicode Consortium in San Jose, California, USA, in The Unicode Standard, Version 2.0. defined is a large string, which is designed to represent most drawing glyphs that to be used in most languages of the world. Because the Unicode string is the text of so many different languages is it useful, to be able to the languages used in an input digital document representation to recognize that is known to be in one Unicode string is created. The Unicode string is used 16-bit character values that allow 65536 different characters. The Unicode string is subdivided into a number of "font ranges" that are the signs bundles, which are generally in one language or group of relatives Languages are used. Table 5 below shows some of the "single language" fonts, contain the characters that are used in one language only.
Tabelle 5: Unicodeschriftbereich für Einzelsprachen Table 5: Unicode writing area for individual languages
Man kann aus Tabelle 5 sehen, daß z. B. der Schriftbereich von 0×0400 bis 0×04FF nur in russisch verwendet wird. Die unten gezeigte Tabelle 6 zeigt auf der anderen Seite einige der „mehrsprachigen" Schriftbereiche, die Zeichen enthalten, die jeweils in einer Gruppe von zwei oder mehr Sprachen verwendet werden.It can be seen from Table 5 that z. For example, the font range from 0x400 to 0x4FF is only used in Russian. Table 6 below shows some of the "multilingual" font on the other side Areas containing characters used in a group of two or more languages.
Tabelle 6: mehrsprachige Unicodeschriftbereiche Table 6: Multilingual Unicode Scripts
Man kann z. B. sehen, daß der Schriftbereich von 0×4E00 bis 0×9FFF in jeder der „CJK-Gruppe"-Sprachen, chinesisch, japanisch und koreanisch, verwendet wird. In den Fällen, in denen die Zeichen in einem Segment einer eingegebenen digitalen Unicodedokumentendarstellung zum überwiegenden Teil aus einem dieser Einzelsprachenschriftbereiche stammen, erkennt die Einrichtung die Sprache des Segmentes als die einzige Sprache dieses Schriftbereiches. In den Fällen, in denen die Zeichen eines Segmentes zum überwiegenden Teil aus einem Mehrsprachenschriftbereich stammen, bildet die Einrichtung bevorzugt die Quellwerte des Segmentes ab, um eine statistische Charakterisierung des Segmentes zu erzeugen, und vergleicht sodann diese Charakterisierung mit den Modellen der Sprachen in der Sprachengruppe auf eine Weise, die zuvor beschrieben wurde.you can z. B. see that the Font area from 0 × 4E00 to 0 × 9FFF in each of the "CJK group" languages, Chinese, Japanese and Korean. In cases, in which are the characters in a segment of an input digital Unicode document representation for the most part Part of one of these individual language fonts, recognizes the device the language of the segment as the only language this writing area. In cases where the characters of a segment for the most part come from a multilingual area, forms the institution prefers the source values of the segment to a statistical one Characterization of the segment, and then compares this characterization with models of languages in language group in a way that was previously described.
Für Segmente, die zum überwiegenden Teil aus Zeichen eines Schriftbereiches oder mehrerer Schriftbereiche der „romanischen" Sprachengruppe bestehen, die die romanischen Sprachen, wie z. B. die oben aufgeführten, umfaßt, verwendet die Einrichtung bevorzugt die Abbildung, die unten in Tabelle 7 gezeigt ist, um die Quellwerte des Segmentes auf dieselben 28 Zielwerte abzubilden, wie die in Tabelle 1 gezeigte Abbildung zum Erkennen der Sprache einer romanischen Einzelbytezeichenfolge.For segments, for the most part Part of characters in a font area or multiple font areas consist of the "Romance" language group, the Romance languages, such as As those listed above, used the device prefers the picture below in Table 7 shown is the source values of the segment on the same 28 target values such as the figure shown in Table 1 to recognize the language of a romance single byte string.
Tabelle 7: Abbildung um Sprachen eines romanischen Unicode zu erkennen Table 7: Illustration to recognize languages of a Romance Unicode
Wie
weiter unten genauer beschrieben werden wird, erkennt die Einrichtung
die romanische Sprache innerhalb der romanischen Gruppe durch Vergleichen
einer dreidimensionalen Charakterisierung des Segmentes mittels
dieser Abbildung mit den dreidimensionalen Modellen der Sprachen
in der romanischen Gruppe, die bereits durch die Einrichtung in Übereinstimmung
mit
Für Segmente, die zum überwiegenden Teil aus Zeichenwerten eines mehrsprachigen Schriftbereiches einer Sprachengruppe bestehen, die eine andere als die romanische Sprachengruppe ist, verwendet die Einrichtung eine anwenderspezifische Abbildung, die von der Einrichtung speziell für diese Sprachengruppe auf eine Weise erzeugt wurde, die ausgelegt ist, um zwischen den verschiedenen Sprachen der Sprachengruppe unterscheiden zu können. Diese anwenderspezifischen Abbildungen, wie z. B. die in Tabelle 7 gezeigte Abbildung, bilden von allen 65536 Unicodezeichenwerten auf eine viel kleinere Anzahl von Zielwerten, wie z. B. 256 ab. Die anwenderspezifische Abbildung für die Sprachengruppe wird verwendet, um eine eindimensionale Charakterisierung des Segmentes zu konstruieren, die sodann mit eindimensionalen Modellen der verschiedenen Sprachen in der Sprachengruppe verglichen wird, die mittels der gleichen anwenderspezifischen Abbildung erzeugt wurden.For segments, for the most part Part of character values of a multilingual font area of a Language group that is a non-Romance language group if the device uses a custom image, those set up by the institution specifically for this language group a way has been created that is designed to be between the different ones Differentiate languages of the language group. This user-specific Illustrations such. For example, as shown in Table 7 from all 65536 Unicode characters to a much smaller number of target values, such as B. 256. The user-specific picture for the Language group is used to create a one-dimensional characterization of the segment, which then with one-dimensional models compared to the different languages in the language group, generated by means of the same user-specific mapping were.
In
den Schritten
Nach
dem Erzeugen von anwenderspezifischen reduktiven Abbildungen für jede Unicodesprachengruppe
in Übereinstimmung
mit
Falls
in dem Schritt
In
dem Schritt
Während diese Erfindung unter Bezug auf bevorzugte Ausführungsformen gezeigt und beschrieben wurde, werden Fachleute verstehen, daß verschiedene Änderungen und Modifikationen in Form und Detail vorgenommen werden können, ohne den Bereich der Erfindung zu verlassen. Zum Beispiel können n-Gramme von größerer Länge, als die oben beschriebene, verwendet werden, um die Genauigkeit der Einrichtung zu erhöhen. Auf der anderen Seite können n-Gramme kleinerer Länge verwendet werden, um die Speicheranforderungen der Einrichtung zu verringern. Während statistische Charakterisierungen der digitalen Dokumentendarstellungen und statistische Modelle der Sprachen und/oder Zeichenfolgen auf einfache Weise in der Einrichtung durch Verwenden eines ein- oder mehrdimensionalen Arrays von Werten zwischen 0 und 255 dargestellt werden, kann die Einrichtung auf einfache Weise ausgelegt werden, andere Speicherschemata zu verwenden, wie z. B. Arrays mit Elementen von verschiedener Größe, Sparse-Arrays oder Datenstrukturen anderer Arten. Während die Einrichtung in dieser Schrift unter Bezug auf die bestimmten Schriftnatursprachen und Zeichenfolgen beschrieben wurde, kann die Einrichtung ferner auf einfache Weise angewendet werden, um Sprachen und Zeichenfolgen aller Art, umfassend diejenigen, die momentan noch nicht verwendet werden, zu modellieren und zu erkennen.While these Has been shown and described with reference to preferred embodiments, Professionals will understand that various changes and modifications in form and detail can be made without to abandon the scope of the invention. For example, n-grams of greater length than the one described above, used to increase the accuracy of the To increase facility. On the other hand you can n-grams of smaller length used to adjust the storage requirements of the facility reduce. While statistical characterizations of digital document representations and statistical models of languages and / or strings easy way in the institution by using a on or multidimensional arrays of values between 0 and 255 the device can be designed in a simple way, to use other memory schemes such. For example, arrays of elements of different size, sparse arrays or data structures of other types. While the decor in this Writing with reference to the particular font languages and strings has been described, the device can further easily be applied to languages and strings of all kinds, including modeling those that are currently not in use and to recognize.
Claims (13)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/987,565 US6157905A (en) | 1997-12-11 | 1997-12-11 | Identifying language and character set of data representing text |
US987565 | 1997-12-11 | ||
PCT/US1998/025814 WO1999030252A1 (en) | 1997-12-11 | 1998-12-04 | Identifying language and character set of data representing text |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69829074D1 DE69829074D1 (en) | 2005-03-24 |
DE69829074T2 true DE69829074T2 (en) | 2005-06-30 |
Family
ID=25533370
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69838763T Expired - Lifetime DE69838763T2 (en) | 1997-12-11 | 1998-12-04 | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA |
DE69829074T Expired - Lifetime DE69829074T2 (en) | 1997-12-11 | 1998-12-04 | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69838763T Expired - Lifetime DE69838763T2 (en) | 1997-12-11 | 1998-12-04 | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA |
Country Status (6)
Country | Link |
---|---|
US (1) | US6157905A (en) |
EP (2) | EP1038239B1 (en) |
JP (1) | JP4638599B2 (en) |
AT (1) | ATE289434T1 (en) |
DE (2) | DE69838763T2 (en) |
WO (1) | WO1999030252A1 (en) |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6760887B1 (en) | 1998-12-31 | 2004-07-06 | International Business Machines Corporation | System and method for highlighting of multifont documents |
US7039637B2 (en) | 1998-12-31 | 2006-05-02 | International Business Machines Corporation | System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search |
US7103532B1 (en) | 1998-12-31 | 2006-09-05 | International Business Machines Corp. | System and method for evaluating character in a message |
US6718519B1 (en) | 1998-12-31 | 2004-04-06 | International Business Machines Corporation | System and method for outputting character sets in best available fonts |
US7031002B1 (en) | 1998-12-31 | 2006-04-18 | International Business Machines Corporation | System and method for using character set matching to enhance print quality |
US6813747B1 (en) | 1998-12-31 | 2004-11-02 | International Business Machines Corporation | System and method for output of multipart documents |
US6539118B1 (en) * | 1998-12-31 | 2003-03-25 | International Business Machines Corporation | System and method for evaluating character sets of a message containing a plurality of character sets |
US6658151B2 (en) * | 1999-04-08 | 2003-12-02 | Ricoh Co., Ltd. | Extracting information from symbolically compressed document images |
US7191114B1 (en) | 1999-08-27 | 2007-03-13 | International Business Machines Corporation | System and method for evaluating character sets to determine a best match encoding a message |
US7155672B1 (en) * | 2000-05-23 | 2006-12-26 | Spyglass, Inc. | Method and system for dynamic font subsetting |
US6668085B1 (en) * | 2000-08-01 | 2003-12-23 | Xerox Corporation | Character matching process for text converted from images |
TW561360B (en) * | 2000-08-22 | 2003-11-11 | Ibm | Method and system for case conversion |
GB2366940B (en) * | 2000-09-06 | 2004-08-11 | Ericsson Telefon Ab L M | Text language detection |
JP2002189627A (en) * | 2000-12-21 | 2002-07-05 | Tsubasa System Co Ltd | Method of converting document data |
US7900143B2 (en) * | 2000-12-27 | 2011-03-01 | Intel Corporation | Large character set browser |
JP2002268665A (en) * | 2001-03-13 | 2002-09-20 | Oki Electric Ind Co Ltd | Text voice synthesizer |
US20040205675A1 (en) * | 2002-01-11 | 2004-10-14 | Thangaraj Veerappan | System and method for determining a document language and refining the character set encoding based on the document language |
US7020338B1 (en) | 2002-04-08 | 2006-03-28 | The United States Of America As Represented By The National Security Agency | Method of identifying script of line of text |
US20040078191A1 (en) * | 2002-10-22 | 2004-04-22 | Nokia Corporation | Scalable neural network-based language identification from written text |
FR2848688A1 (en) * | 2002-12-17 | 2004-06-18 | France Telecom | Text language identifying device for linguistic analysis of text, has analyzing unit to analyze chain characters of words extracted from one text, where each chain is completed so that each time chains are found in word |
US7639714B2 (en) | 2003-11-12 | 2009-12-29 | The Trustees Of Columbia University In The City Of New York | Apparatus method and medium for detecting payload anomaly using n-gram distribution of normal data |
US7865355B2 (en) * | 2004-07-30 | 2011-01-04 | Sap Aktiengesellschaft | Fast text character set recognition |
US7305385B1 (en) * | 2004-09-10 | 2007-12-04 | Aol Llc | N-gram based text searching |
US7612897B2 (en) * | 2004-09-24 | 2009-11-03 | Seiko Epson Corporation | Method of managing the printing of characters and a printing device employing method |
US7729900B2 (en) * | 2004-09-29 | 2010-06-01 | Microsoft Corporation | Method and computer-readable medium for consistent configuration of language support across operating system and application programs |
US9122655B2 (en) * | 2004-11-15 | 2015-09-01 | International Business Machines Corporation | Pre-translation testing of bi-directional language display |
US8027832B2 (en) * | 2005-02-11 | 2011-09-27 | Microsoft Corporation | Efficient language identification |
JP4314204B2 (en) * | 2005-03-11 | 2009-08-12 | 株式会社東芝 | Document management method, system and program |
US7774293B2 (en) * | 2005-03-17 | 2010-08-10 | University Of Maryland | System and methods for assessing risk using hybrid causal logic |
EP1746516A1 (en) * | 2005-07-20 | 2007-01-24 | Microsoft Corporation | Character generator |
US7711673B1 (en) * | 2005-09-28 | 2010-05-04 | Trend Micro Incorporated | Automatic charset detection using SIM algorithm with charset grouping |
US7689531B1 (en) * | 2005-09-28 | 2010-03-30 | Trend Micro Incorporated | Automatic charset detection using support vector machines with charset grouping |
GB0524354D0 (en) * | 2005-11-30 | 2006-01-04 | Ibm | Method, system and computer program product for composing a reply to a text message received in a messaging application |
KR100814641B1 (en) * | 2006-10-23 | 2008-03-18 | 성균관대학교산학협력단 | User-Directed Voice Service System and Its Service Method |
US20080243477A1 (en) * | 2007-03-30 | 2008-10-02 | Rulespace Llc | Multi-staged language classification |
US9141607B1 (en) * | 2007-05-30 | 2015-09-22 | Google Inc. | Determining optical character recognition parameters |
US8315482B2 (en) * | 2007-06-26 | 2012-11-20 | Microsoft Corporation | Integrated platform for user input of digital ink |
US8233726B1 (en) * | 2007-11-27 | 2012-07-31 | Googe Inc. | Image-domain script and language identification |
US8266514B2 (en) | 2008-06-26 | 2012-09-11 | Microsoft Corporation | Map service |
US8019596B2 (en) * | 2008-06-26 | 2011-09-13 | Microsoft Corporation | Linguistic service platform |
US8073680B2 (en) * | 2008-06-26 | 2011-12-06 | Microsoft Corporation | Language detection service |
US8107671B2 (en) | 2008-06-26 | 2012-01-31 | Microsoft Corporation | Script detection service |
US8224641B2 (en) | 2008-11-19 | 2012-07-17 | Stratify, Inc. | Language identification for documents containing multiple languages |
US8224642B2 (en) * | 2008-11-20 | 2012-07-17 | Stratify, Inc. | Automated identification of documents as not belonging to any language |
US8326602B2 (en) * | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
US8468011B1 (en) * | 2009-06-05 | 2013-06-18 | Google Inc. | Detecting writing systems and languages |
US9454514B2 (en) * | 2009-09-02 | 2016-09-27 | Red Hat, Inc. | Local language numeral conversion in numeric computing |
US20110087962A1 (en) * | 2009-10-14 | 2011-04-14 | Qualcomm Incorporated | Method and apparatus for the automatic predictive selection of input methods for web browsers |
US8560466B2 (en) | 2010-02-26 | 2013-10-15 | Trend Micro Incorporated | Method and arrangement for automatic charset detection |
CN102479187B (en) * | 2010-11-23 | 2016-09-14 | 盛乐信息技术(上海)有限公司 | GBK character inquiry system based on even-odd check and its implementation |
US9535895B2 (en) * | 2011-03-17 | 2017-01-03 | Amazon Technologies, Inc. | n-Gram-based language prediction |
GB2489512A (en) * | 2011-03-31 | 2012-10-03 | Clearswift Ltd | Classifying data using fingerprint of character encoding |
US20140163969A1 (en) * | 2011-07-20 | 2014-06-12 | Tata Consultancy Services Limited | Method and system for differentiating textual information embedded in streaming news video |
US8769404B2 (en) * | 2012-01-03 | 2014-07-01 | International Business Machines Corporation | Rule-based locale definition generation for a new or customized locale support |
US20140129928A1 (en) * | 2012-11-06 | 2014-05-08 | Psyentific Mind Inc. | Method and system for representing capitalization of letters while preserving their category similarity to lowercase letters |
US9195644B2 (en) | 2012-12-18 | 2015-11-24 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Short phrase language identification |
US9372850B1 (en) * | 2012-12-19 | 2016-06-21 | Amazon Technologies, Inc. | Machined book detection |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9244894B1 (en) * | 2013-09-16 | 2016-01-26 | Arria Data2Text Limited | Method and apparatus for interactive reports |
TWI508561B (en) | 2013-11-27 | 2015-11-11 | Wistron Corp | Apparatus and meyhod for generating electronic program guide |
JP6300512B2 (en) * | 2013-12-19 | 2018-03-28 | 株式会社ソリトンシステムズ | Determination device, determination method, and program |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
US10162811B2 (en) * | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9864744B2 (en) | 2014-12-03 | 2018-01-09 | Facebook, Inc. | Mining multi-lingual data |
US9830404B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Analyzing language dependency structures |
US10067936B2 (en) | 2014-12-30 | 2018-09-04 | Facebook, Inc. | Machine translation output reranking |
US9830386B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Determining trending topics in social media |
US9477652B2 (en) | 2015-02-13 | 2016-10-25 | Facebook, Inc. | Machine learning dialect identification |
US9734142B2 (en) * | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
JP6655331B2 (en) * | 2015-09-24 | 2020-02-26 | Dynabook株式会社 | Electronic equipment and methods |
US10133738B2 (en) | 2015-12-14 | 2018-11-20 | Facebook, Inc. | Translation confidence scores |
US9734143B2 (en) | 2015-12-17 | 2017-08-15 | Facebook, Inc. | Multi-media context language processing |
US9805029B2 (en) | 2015-12-28 | 2017-10-31 | Facebook, Inc. | Predicting future translations |
US10002125B2 (en) | 2015-12-28 | 2018-06-19 | Facebook, Inc. | Language model personalization |
US9747283B2 (en) | 2015-12-28 | 2017-08-29 | Facebook, Inc. | Predicting future translations |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10902215B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US10902221B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US10120860B2 (en) * | 2016-12-21 | 2018-11-06 | Intel Corporation | Methods and apparatus to identify a count of n-grams appearing in a corpus |
US10180935B2 (en) | 2016-12-30 | 2019-01-15 | Facebook, Inc. | Identifying multiple languages in a content item |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US10380249B2 (en) | 2017-10-02 | 2019-08-13 | Facebook, Inc. | Predicting future trending topics |
CN112334974B (en) * | 2018-10-11 | 2024-07-05 | 谷歌有限责任公司 | Speech generation using cross-language phoneme mapping |
JP6781905B1 (en) * | 2019-07-26 | 2020-11-11 | 株式会社Fronteo | Information processing equipment, natural language processing systems, control methods, and control programs |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5261009A (en) * | 1985-10-15 | 1993-11-09 | Palantir Corporation | Means for resolving ambiguities in text passed upon character context |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5592667A (en) * | 1991-05-29 | 1997-01-07 | Triada, Ltd. | Method of storing compressed data for accelerated interrogation |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5608622A (en) * | 1992-09-11 | 1997-03-04 | Lucent Technologies Inc. | System for analyzing translations |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US5548507A (en) * | 1994-03-14 | 1996-08-20 | International Business Machines Corporation | Language identification process using coded language words |
SE513456C2 (en) * | 1994-05-10 | 2000-09-18 | Telia Ab | Method and device for speech to text conversion |
US5594809A (en) * | 1995-04-28 | 1997-01-14 | Xerox Corporation | Automatic training of character templates using a text line image, a text line transcription and a line image source model |
US5883986A (en) * | 1995-06-02 | 1999-03-16 | Xerox Corporation | Method and system for automatic transcription correction |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5774588A (en) * | 1995-06-07 | 1998-06-30 | United Parcel Service Of America, Inc. | Method and system for comparing strings with entries of a lexicon |
US5761687A (en) * | 1995-10-04 | 1998-06-02 | Apple Computer, Inc. | Character-based correction arrangement with correction propagation |
JPH11514764A (en) * | 1995-10-31 | 1999-12-14 | エス.エム. ハーツ,フレデリック | System for customized electronic identification of desired objects |
US5982933A (en) * | 1996-01-12 | 1999-11-09 | Canon Kabushiki Kaisha | Information processing method, information processing apparatus, and storage medium |
EP0849723A3 (en) * | 1996-12-20 | 1998-12-30 | ATR Interpreting Telecommunications Research Laboratories | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition |
US6073098A (en) * | 1997-11-21 | 2000-06-06 | At&T Corporation | Method and apparatus for generating deterministic approximate weighted finite-state automata |
-
1997
- 1997-12-11 US US08/987,565 patent/US6157905A/en not_active Expired - Lifetime
-
1998
- 1998-12-04 WO PCT/US1998/025814 patent/WO1999030252A1/en active IP Right Grant
- 1998-12-04 DE DE69838763T patent/DE69838763T2/en not_active Expired - Lifetime
- 1998-12-04 EP EP98962916A patent/EP1038239B1/en not_active Expired - Lifetime
- 1998-12-04 AT AT98962916T patent/ATE289434T1/en not_active IP Right Cessation
- 1998-12-04 DE DE69829074T patent/DE69829074T2/en not_active Expired - Lifetime
- 1998-12-04 EP EP04024427A patent/EP1498827B1/en not_active Expired - Lifetime
- 1998-12-04 JP JP2000524742A patent/JP4638599B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE69829074D1 (en) | 2005-03-24 |
EP1498827A3 (en) | 2005-02-16 |
EP1038239B1 (en) | 2005-02-16 |
WO1999030252A1 (en) | 1999-06-17 |
ATE289434T1 (en) | 2005-03-15 |
DE69838763D1 (en) | 2008-01-03 |
US6157905A (en) | 2000-12-05 |
EP1498827B1 (en) | 2007-11-21 |
JP4638599B2 (en) | 2011-02-23 |
EP1498827A2 (en) | 2005-01-19 |
JP2001526425A (en) | 2001-12-18 |
DE69838763T2 (en) | 2008-10-30 |
EP1038239A1 (en) | 2000-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69829074T2 (en) | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA | |
DE60029845T2 (en) | SYSTEM FOR IDENTIFYING THE RELATIONSHIP BETWEEN INGREDIENTS IN TASK INFORMATION REVIEWING TASKS | |
DE3853894T2 (en) | Paradigm-based morphological text analysis for natural languages. | |
DE69722971T2 (en) | AUTOMATIC LANGUAGE RECOGNITION SYSTEM FOR MULTI-LANGUAGE OPTICAL CHARACTER RECOGNITION | |
DE69428590T2 (en) | COMBINED LEXICON AND LIST OF CHARACTERS OF HANDWRITING | |
US7359851B2 (en) | Method of identifying the language of a textual passage using short word and/or n-gram comparisons | |
DE69710459T2 (en) | IDENTIFICATION OF WORDS IN JAPANESE TEXT BY A COMPUTER SYSTEM | |
DE69513369T2 (en) | METHOD AND DEVICE FOR SUMMARY OF STATIC PROCESSES IN A RULES-BASED GRAMMATICALLY DEFINED NATURAL LANGUAGE | |
DE69330633T2 (en) | Method and apparatus for comparing semantic patterns for retrieving texts | |
EP1665132B1 (en) | Method and system for collecting data from a plurality of machine readable documents | |
DE3750135T2 (en) | Word processing system and method for checking the correct and consistent use of units and chemical formulas in a word processing system. | |
DE69229537T2 (en) | Document processing method and apparatus | |
DE69820343T2 (en) | Linguistic search system | |
DE69432575T2 (en) | Document recognition system with improved effectiveness of document recognition | |
DE10343228A1 (en) | Methods and systems for organizing electronic documents | |
DE102004003878A1 (en) | System and method for identifying a particular word usage in a document | |
DE4232507A1 (en) | Identification process for locating and sorting document in different languages - processing information by comparing sequences of characters with those of a reference document | |
DE60118399T2 (en) | SYSTEM AND METHOD FOR AUTOMATIC TREATMENT AND SEARCHING OF DAMAGED DOCUMENTS | |
DE10308550A1 (en) | System and method for automatic data checking and correction | |
WO2007048607A2 (en) | Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions | |
DE112018005272T5 (en) | SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE | |
DE112021006602T5 (en) | REFINING QUERY GENERATION PATTERNS | |
DE102013224331A1 (en) | System and method for providing predictive queries | |
KR20170140808A (en) | System and method for asymmetric formatting of word spaces according to uncertainty between words | |
DE112019006523T5 (en) | SET STRUCTURE VECTORIZATION DEVICE, SET STRUCTURE VECTORIZATION METHOD, AND SET STRUCTURE VECTORIZATION PROGRAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |