ES2316474T3 - Metodo para normalizar caja. - Google Patents
Metodo para normalizar caja. Download PDFInfo
- Publication number
- ES2316474T3 ES2316474T3 ES01970463T ES01970463T ES2316474T3 ES 2316474 T3 ES2316474 T3 ES 2316474T3 ES 01970463 T ES01970463 T ES 01970463T ES 01970463 T ES01970463 T ES 01970463T ES 2316474 T3 ES2316474 T3 ES 2316474T3
- Authority
- ES
- Spain
- Prior art keywords
- type
- word
- assigned
- input word
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010606 normalization Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
- Separation Using Semi-Permeable Membranes (AREA)
Abstract
Un método para diferenciar automáticamente distinciones significativas de distinciones no significativas de caja alta y caja baja en una serie de tipos de palabras de entrada de un texto en lenguaje natural por medio de un ordenador, caracterizado por los pasos de: asignar (110) un tipo de palabra de entrada a uno de una serie de grupos locales separados (LG1, LG2, LG3, LG4) en base a la caja y a la posición de las letras que constituyan el tipo de palabra de entrada; asignar (120) dicho tipo de palabra de entrada a uno de una serie de grupos globales separados (GG1, GG2, GG3, GG4) en base a qué variantes de caja de grupos locales de los tipos de palabras de entrada estén asignados; y normalizar (139) las cajas para dicho tipo de palabra de entrada de acuerdo con reglas predeterminadas asociadas con el grupo global al que esté asignado dicho tipo de palabra de entrada.
Description
Método para normalizar caja.
El presente invento se refiere en general al
campo del análisis, procesado y almacenamiento de texto en lenguaje
natural por ordenador, y más concretamente a un método para
diferenciar las distinciones no significativas de las distinciones
significativas de las letras de la caja alta (mayúsculas) y de la
caja baja (minúsculas) en una serie de tipos de palabras de entrada
de entrada de un texto en lenguaje natural.
Cuando se analiza, se procesa y se almacena
texto en lenguaje natural surgen varios problemas relativos a la
caja a la que pertenezcan las letras del texto. Por ejemplo, cuando
se almacenan los tipos de palabra de un texto largo en una base de
datos, surge la cuestión de si una diferencia únicamente en cuanto a
la caja de la que proviene una letra es relevante, o no, cuando se
diferencian tipos de palabra.
Los sistemas conocidos para analizar, procesar y
almacenar tipos de palabra tienen dos soluciones generales para
manipular las distinciones en cuanto a la caja. Las dos soluciones
son: (1) prescindir de toda diferenciación en cuanto a la caja alta
y caja baja en los tipos de palabra única (insensibilidad a la
caja), o (2) preservar todas las diferenciaciones en cuanto a la
caja (sensibilidad a la caja). La primera solución da por resultado
inventarios más pequeños de tipos de palabra, a costa de pérdida de
la información que llevan consigo las diferenciaciones en cuanto a
la caja, y la segunda solución da por resultado la conservación de
la información en cuanto a la caja a costa de unos inventarios
mayores de tipos de palabra.
En el documento
US-A-5 485 372 se describe un método
para establecer si una palabra es un nombre común, frente a si es
un nombre propio u otra palabra que se debe escribir con mayúscula
siempre. Las palabras son etiquetadas como palabras que se deben
escribir con mayúscula siempre con vistas a ese establecimiento, y
las palabras que no han de escribirse con mayúscula siempre no se
escriben con mayúscula.
Un objeto del presente invento es resolver el
problema de la pérdida de información asociada a la insensibilidad
a la caja, y el problema de los grandes inventarios de tipos de
palabra asociados con la sensibilidad a la caja, respectivamente,
al tiempo que se conservan las ventajas de esas dos soluciones. Este
objeto se consigue por un método para diferenciar automáticamente
las variantes significativas de las no significativas de la caja
alta y de la caja baja en una serie de tipos de palabra de entrada,
de acuerdo con las reivindicaciones que se acompañan.
El invento está basado en el reconocimiento de
que la información local, tal como la ocurrencia y la localización
de las letras de la caja alta (mayúsculas) en tipos de palabra,
juntamente con la información global, tal como la ocurrencia de
tipos de palabra que solamente difieran con respecto a la caja a la
que pertenezcan una o más letras, pueden ser usadas para determinar
si la diferenciación en cuanto a la caja a la que pertenezcan las
letras es significativa, o no.
De acuerdo con un aspecto del invento, se
propone un método para diferenciar automáticamente las distinciones
significativas de las no significativas de las cajas alta y baja, en
una serie de tipos de palabras de entrada, por medio de un
ordenador. De acuerdo con el método, se asigna un tipo de palabra de
entrada a uno de una serie de grupos locales separados basados en
la caja y en la posición de las letras que constituyen el tipo de
palabra. Además, dicho tipo de palabra de entrada se vuelve a
asignar a uno de los grupos globales separados, en base a cuáles
sean los grupos locales a que se asignen las variantes en cuanto a
la caja del tipo de palabra de entrada. Finalmente, se normalizan
las cajas para dicho tipo de palabra de entrada, de acuerdo con
reglas predeterminadas asociadas con el grupo global a que haya
sido asignado dicho tipo de palabra de entrada.
De acuerdo con este aspecto del invento, un gran
número de te tipos de palabra que hayan sido identificados en una
base de datos de texto muy largo, son dados de entrada a un
ordenador. Los tipos de entrada tal como aparecen en la base de
datos del texto, es decir, que se mantienen las cajas a que
pertenezcan las letras de los tipos de palabra. Por consiguiente,
las muestras de palabra en la base de datos del texto que sean
idénticas, excepto por lo que se refiere a la caja a la que
pertenezcan una o más letras, serán dadas de entrada como dos tipos
de palabra diferentes, mientras que las muestras de palabra
contenidas en la base de datos del texto que sean idénticas también
en cuanto a la caja a la que pertenezcan las letras, serán dadas de
entrada como un tipo de palabra. El método, que se ejecuta de un
modo totalmente automático, por medio de un ordenador, hace luego
uso tanto de la información local como de la información global
relativa a las cajas a que pertenezcan los tipos de palabra. La
información local es la de las cajas y las posiciones de las letras
que constituyen los tipos de palabra, tal como la caja de la letra
inicial y la caja de las letras no iniciales. En cuanto a la
información global, el hecho de que haya tipos de palabra que
difieran unos de otros solamente con respecto a la caja a la que
pertenezcan una o más letras, se usa para el invento. Estos tipos de
palabra son variantes de la caja de un tipo de palabra común. Está
admitidos que, determinando qué variantes de caja diferentes hay
para un tipo de palabra común, es posible determinar, con un
razonable nivel de certeza, si la diferencia en cuanto a la caja
entre las variantes de caja es significativa, o no, y de no serlo a
qué variante de la caja deberán ser normalizadas las variantes de
caja. El término "asignado" empleado en "asignado a una serie
de grupos locales separados" y en "asignado a una serie de
grupos globales separados", deberá ser interpretado en un
sentido general, de modo que no solamente un agrupamiento real del
los tipos de palabras de entrada, sino también un reconocimiento
más teórico de que hay tipos diferentes de tipos de palabra, en
términos de las propiedades locales y globales de interés. Además,
entre las reglas predeterminadas se incluyen también las reglas que
detectan cuándo no se ha de hacer normalización alguna, lo que
ocurre cuando las cajas a que pertenezcan las letras en los tipos
de palabra sean consideradas como significativas. De este modo, se
preservan las cajas para aquellos tipos de palabras de entrada que
no tengan variante de caja alguna, y para aquellos tipos de
palabras de entrada que tengan variables de caja para las cuales la
diferencia en cuanto a la caja sea considerada significativa,
mientras que se normalizan las cajas para los tipos de palabras de
entrada para los cuales la diferencia en cuanto a la caja se
considere que no es significativa. Una ventaja de este método es la
de que se disminuye el número de tipos de palabra que, por ejemplo,
deban ser almacenadas en una base de datos. Al mismo tiempo, se
preserva la información contenida en la caja cuando se considera que
la caja es significativa. Por consiguiente, deberá disminuir el
tamaño de la base de datos, con lo cual se disminuirán los costes
de la base de datos y se aumentará la velocidad de consulta en la
base de datos.
El método es general, independiente del
lenguaje, y aplicable a conjuntos de caracteres de lenguas para las
cuales la ortografía normal diferencia entre las cajas alta o baja a
la que pertenezcan las letras. El método es de aplicación en cuanto
a los procedimientos de indización y de consulta en sistemas para
recuperación de la información, y a los componentes de análisis de
léxico de sistemas para análisis de textos.
En una realización del método de acuerdo con el
invento, las variantes en cuanto a la caja de un tipo de palabra de
entrada son normalizadas a una variante de caja dada, que es
predeterminada para el grupo global dado del tipo de palabra de
entrada. Así, para cada grupo global hay una forma de caja que se
considera que es la forma normal, y todas las variantes de caja de
un tipo de palabra de un grupo global dado son normalizadas a esa
forma normal. Esto está basado en el reconocimiento de que los
diferentes tipos de palabra, tales como los nombres propios, los
acrónimos, los nombres comunes, etc., ocurrirán en un cierto
conjunto de variantes de caja en un texto en lenguaje natural, y
que el conjunto de variantes de caja de un tipo de palabra que se
encuentren en un texto en lenguaje natural largo es indicativo de
que tipo de tipo de palabra es el tipo de palabra.
En otra realización del método de acuerdo con el
invento, cada tipo de palabra de entrada está asociado con una
frecuencia que indica el número de ocurrencias del tipo de palabra
de entrada en el texto en lenguaje natural. Las variantes en cuanto
a la caja de un tipo de palabra de entrada son luego normalizadas de
acuerdo con reglas predeterminadas asociadas con (a) el grupo
global a que haya sido asignado el tipo de palabra de entrada, y
(b) la frecuencia de las variantes en cuanto a la caja del tipo de
palabra de entrada. Por consiguiente, en esta realización la
información adicional relativa al número de veces que haya ocurrido
cada tipo de palabra en el texto en lenguaje natural se usa para la
determinación de si un tipo de palabra de entrada deba ser
normalizado, y cómo hacerlo. Por ejemplo, la información relativa a
la frecuencia de cada variante de caja de un tipo de palabra puede
indicar que la normalización por defecto asociada con el grupo
global de las variantes de caja no deberá ser aplicada. Por
consiguiente, incluso aunque haya una forma, en términos de caja,
que se considere que sea la forma normal a la cual deban ser
normalizadas todas las variantes de caja de un tipo de palabra,
esto no debe hacerse en algunos casos. Por ejemplo, ese podría ser
el caso en que una variante de caja que se considere que sea la
forma normal, tenga una frecuencia que sea significativamente menor
que la frecuencia de otra variante de caja. Esto está basado en el
reconocimiento de que, incluso aunque el conjunto de variantes de
caja que tenga un tipo de palabra en un texto en lenguaje natural
indica qué tipo de tipo de palabra es el tipo de palabra, hay
excepciones a esto. Esas excepciones pueden identificarse
considerando también para ello la frecuencia de cada variante de
caja. Esto potencia las características de actuación del método, en
términos de la corrección de la normalización.
En todavía otra realización del método de
acuerdo con el invento, cada tipo de palabra de entrada está
asociado con una posición en la frase que indica si el tipo de
palabra de entrada ocurrió en una posición interna de una frase,
y/o en una posición inicial de la frase en el texto en lenguaje
natural. Las variantes de caja e un tipo de palabra de entrada son
entonces normalizadas de acuerdo con reglas predeterminadas
relativas al grupo global del tipo de palabra de entrada y a las
posiciones en la frase de las variantes de caja de dicho tipo de
palabra de entrada. También en esta realización, la información
relativa a cada grupo específico de variantes de caja puede ser
ponderada cuando se determine si debiera ser normalizado un tipo de
palabra de entrada, y cómo hacerlo. Por ejemplo, la información
relativa a la posición en la frase de cada variante de caja de un
tipo de palabra puede indicar que la normalización por defecto
asociada con el grupo global de las variantes de caja no deberá ser
aplicada. Por consiguiente, incluso aunque haya una forma de caja
que se considere que sea la forma normal a la cual deban ser
normalizadas todas las variantes de caja de un tipo de palabra,
esto no debe hacerse en algunos casos. Por ejemplo, cuando una
variante de caja con una letra inicial de la caja alta y otra
variante de caja con una letra inicial de la caja baja aparezcan
ambas en posiciones internas de frases en el texto natural, ello
indica que la diferencia de caja es significativa y que no deberá
efectuarse normalización alguna. Esto está basado en el
reconocimiento de que, incluso aunque el conjunto de variantes de
caja de un tipo de palabra indique de qué clase de tipo de palabra
es el tipo de palabra, hay excepciones a esto. Esas excepciones
pueden identificarse considerando también para ello en qué
posiciones de la frase ha ocurrido cada variante de caja. Esto
potencia las características de actuación del método, en términos
de preservar las diferencias en cuanto a caja que sean
significativas.
En lo que sigue se ilustra el presente invento,
a modo de ejemplo y no de limitación, con referencia a los dibujos
que se acompañan, en los cuales:
La Figura 1 es un organigrama de una primera
realización de un método de acuerdo con el invento;
La Figura 2 es un organigrama de una segunda
realización de un método de acuerdo con el invento; y
La Figura 3 es un organigrama de una tercera
realización de un método de acuerdo con el invento.
En la Figura 1 se ha representado un organigrama
de una primera realización de un método de acuerdo con el invento.
Una serie de tipos de palabra se han identificado en una base de
datos de texto largo que comprende texto en lenguaje natural. Los
tipos de palabra son luego dados de entrada a un ordenador o
similar. Los tipos de palabra son dados de entrada tal como
aparecen en la base de datos del texto, es decir, que se mantienen
las cajas a las que pertenezcan las letras de los tipos de palabra.
Por consiguiente, dos muestras de palabra en la base de datos del
texto que sean idénticas excepto por lo que se refiere a la caja a
que pertenezcan una o más letras, serán dadas de entrada como dos
tipos de palabra diferentes, mientras que dos muestras de palabra
de la base de datos del texto que sean idénticas también en cuanto a
la caja a que pertenezcan las letras, serán dadas de entrada como
un tipo de palabra. Los tipos de palabra que difieran entre sí
únicamente con respecto a la caja a que pertenezcan una o más
letras, serán denominados en lo que sigue como variantes de caja de
un tipo de palabra común. De acuerdo con la realización del método,
cada tipo de palabra que empiece con un carácter alfabético se
asigna a uno de los cuatro grupos locales separados, en el paso 110.
Un tipo de palabra se asigna a un grupo local sobre la base de la
caja a la que pertenezca la letra inicial del tipo de palabra y la
caja a que pertenezcan las letras no iniciales del tipo de palabra.
Más concretamente, en el paso 115A, cada tipo de palabra que tenga
una letra inicial de la caja alta y ninguna letra no inicial de la
caja baja, se asigna a un primer grupo local (LG1). En el paso 115B,
cada tipo de palabra que tenga una letra inicial de la caja alta y
al menos una letra no inicial de la caja baja se asigna a un segundo
grupo local (LG2). En el paso 115C, cada tipo de palabra que tenga
una letra inicial de la caja baja y ninguna letra no inicial de la
caja alta se asigna a un tercer grupo local (LG3). En el paso 115D,
cada tipo de palabra que tenga una letra inicial de la caja baja y
al menos una letra no inicial de la caja alta, se asigna a un
cuarto grupo local (LG4). Después de la identificación de la
información local, es decir, de la información que puede obtenerse
simplemente considerando cada tipo de palabra en sus contextos
locales de ocurrencia, se reasigna cada tipo de palabra a uno de
cuatro grupos globales separados, en el paso 120. Se reasigna un
tipo de palabra a un grupo global sobre la base de los grupos
locales a los cuales hayan sido asignadas las variantes de caja del
tipo de palabra. La identificación de las variantes de caja, es
decir, de los tipos de palabra que son iguales entre sí, excepto por
lo que se refiere a la caja a que pertenezcan una o más letras,
puede hacerse de varios modos diferentes que son evidentes para
quien sea experto en la técnica. Cuando se hayan encontrado todas
las variantes de caja para un tipo de palabra común, se identifican
los grupos a los cuales se han asignado las variantes de caja. Si al
menos una variante de caja de un tipo de palabra está asignada al
primer grupo local, y al menos una variante de caja del tipo de
palabra está asignada al segundo grupo local, y ninguna variante de
caja del tipo de palabra está asignada al tercer grupo local,
entonces se asigna el tipo de palabra a un prime grupo global (GG1),
en el paso 125A. Si al menos una variante de caja está asignada al
primer grupo local, y al menos una variante de caja está asignada
del tipo de palabra al tercer grupo local, y ninguna variante de
caja del tipo de palabra está asignada al segundo grupo local,
entonces se asigna el tipo de palabra a un segundo grupo global
(GG2), en el paso 125B. Si al menos una variante de caja de un tipo
de palabra está asignada al segundo grupo local, y al menos una
variante de caja del tipo de palabra está asignada al tercer grupo
local, y ninguna variante de caja del tipo de palabra está asignada
al primer grupo local, entonces se asigna el tipo de palabra al
tercer grupo global (GG3), en el paso 125C. Si al menos una variante
de caja de un tipo de palabra está asignada al primer grupo local,
y al menos una variante de caja del tipo de palabra está asignada al
segundo grupo local, y al menos una variante de caja del tipo de
palabra está asignada al tercer grupo local, entonces se asigna el
tipo de palabra al cuarto grupo global (GG4), en el paso 125D. De
este modo, se identifica la información global, es decir, la
información que puede obtenerse analizando para ello la ocurrencia
de un tipo de palabra y las variantes de caja del tipo de palabra
en una base de datos de todo un texto. Después se usa la información
global en el paso 130, cuando se normalizan las cajas para los
tipos de palabra de acuerdo con las reglas predeterminadas
asociadas con cada grupo global. Las reglas predeterminadas están
basadas en el conocimiento empírico del significado de las cajas
para los tipos de palabra que ocurren como ciertas variantes de caja
en una base de datos del texto, y de la forma normal más probable
en términos de cajas para esos tipos de palabra. En esta
realización, cada tipo de palabra de entrada asignado al primer
grupo global se normaliza de acuerdo con la variante de caja del
tipo de palabra que esté asignada al segundo grupo local. Cada tipo
de palabra de entrada asignado al segundo grupo global se normaliza
de acuerdo con la variante de caja del tipo de palabra que haya
sido asignado al tercer grupo local. Cada tipo de palabra de entrada
asignado al tercer grupo global se normaliza de acuerdo con la
variante de caja del tipo de palabra que esté asignada al tercer
grupo local. Cada tipo de palabra de entrada asignado al cuarto
grupo global se normaliza de acuerdo con la variante de caja del
tipo de palabra que esté asignada al segundo grupo local.
\newpage
Para que sirvan de ejemplo de la realización
descrita con referencia a la Figura 1, se dan en lo que sigue
cuatro ejemplos diferentes asociados con los diferentes grupos
globales. En un primer ejemplo, se han dado de entrada en el método
dos tipos de palabra "CALIFORNIA" y "California". Estos
tipos de palabra son variantes de caja de un tipo de palabra común.
La variante de caja "CALIFORNIA" se asigna al primer grupo
local, y la variante de caja "California" se asigna al segundo
grupo local. Por consiguiente, las dos variantes de caja son ambas
asignadas al primer grupo global y serán normalizadas a la variante
de caja que esté asignada al segundo grupo local, es decir, a la
variante de caja "California", Una razón para que la
normalización sea a la variante de caja que está asignada al
segundo grupo local es la de que los tipos de palabra asignados al
primer grupo local son usualmente nombres que han ocurrido en una
línea de cabecera (primer grupo local) y en texto ordinario
(segundo grupo local). Por consiguiente, la diferencia de caja entre
las dos variantes de caja no se considera que sea significativa, y
las variantes de caja que son asignadas al primer grupo global son
normalizadas a la variante de caja que está asignada al segundo
grupo local, el cual se considera que es la forma normal.
En un segundo ejemplo, se han dado de entrada en
el método los dos tipos de palabra "SUMARIO" y "sumario".
En este ejemplo, la variante de caja "SUMARIO" es asignada al
primer grupo local y la variante de caja "sumario" es asignada
al tercer grupo local. Por consiguiente, las dos variantes de caja
están ambas asignadas al segundo grupo global y serán normalizadas
a la variante de caja que esté asignada al tercer grupo local, es
decir, a la variante de caja "sumario". Una razón por la que
la normalización ha de ser a la variante de caja que esté asignada
al tercer grupo local es la de que los tipos de palabra asignados al
segundo grupo global son usualmente nombres comunes, verbos,
preposiciones, etc., que han ocurrido en una línea de cabecera
(primer grupo local) y en el texto ordinario (tercer grupo local).
Por consiguiente, la diferencia de caja entre las dos variantes de
caja no se considera que sea significativa, y las variantes de caja
que son asignadas al segundo grupo global son normalizadas a la
variante de caja que esté asignada al tercer grupo local, el cual
se considera que es la forma normal.
En un tercer ejemplo, se han dado de entrada
para el método dos tipos de palabra "A menudo" y "a
menudo". En este ejemplo, la variante de caja "A menudo" se
asigna al segundo grupo global, y la variante de caja "a
menudo" se asigna al tercer grupo local. Por consiguiente, las
dos variantes de caja son ambas asignadas al tercer grupo global y
serán normalizadas a la variante de caja que esté asignada al tercer
grupo local, es decir, a la variante de caja "a menudo". Una
razón por la que la normalización es a la variante de caja que esté
asignada al tercer grupo local es la de que los tipos de palabra
asignados al tercer grupo global son usualmente nombres comunes,
verbos, preposiciones, etc., que han ocurrido tanto en una posición
inicial de una frase (segundo grupo local), como en una posición
interna de una frase (tercer grupo local). Por consiguiente, se
considera que la diferencia de caja no es significativa, y las
variantes de caja que son asignadas al tercer grupo global son
normalizadas a la variante de caja que esté asignada al tercer grupo
local, el cual se considera que es la forma normal.
Finalmente, en un cuarto ejemplo, se han dado de
entrada para el método los tres tipos de palabra "ALICE",
"Alice" y "alice". En este ejemplo, la variante de caja
"ALICE" se asigna al primer grupo local, la variante de caja
"Alice" se asigna al segundo grupo local, y la variante de caja
"alice" se asigna al tercer grupo local. Por consiguiente, las
tres variantes de caja serán todas asignadas al cuarto grupo global,
y serán normalizadas a la variante de caja que esté asignada al
segundo grupo local, es decir, a la variante de caja "Alice".
Una razón por la que la normalización es a la variante de caja que
esté asignada al segundo grupo local es la de que los tipos de
palabra asignados al cuarto grupo global son usualmente los nombres
propios que han ocurrido en una línea de cabecera (primer grupo
local), en el texto ordinario (segundo grupo local), y en, por
ejemplo, una dirección de un correo electrónico (tercer grupo
local). Por consiguiente, se considera que la diferencia de caja no
es significativa, y las variantes de caja que son asignadas al
cuarto grupo local son normalizadas a la variante de caja que esté
asignada al segundo grupo local, el cual se considera que es la
forma normal.
En la Figura 2 se ha representado un organigrama
de una segunda realización de un método de acuerdo con el invento.
Como en la realización descrita con referencia a la Figura 1, una
serie de tipos de palabra que hayan sido identificados en una base
de datos de texto largo, que comprenda texto en lenguaje natural,
son dados de entrada a un ordenador. De acuerdo con esta segunda
realización, cata tipo de palabra de entrada está también asociado
a una frecuencia que indica el número de ocurrencias del tipo de
palabra de entrada en el texto en lenguaje natural. Los pasos de
asignación de los tipos de palabra a loa grupos locales y a loa
grupos globales no difieren de la primera realización. Por
consiguiente, no se describen aquí con mayor detalle. La diferencia
con respecto a la primera realización se produce en el paso 230, en
donde se normaliza la caja. En esta realización, la caja de un tipo
de palabra de entrada se normaliza de acuerdo con reglas
predeterminadas, asociadas con (1) el grupo global del tipo de
palabra de entrada, y (2) la frecuencia de cada variante de caja del
tipo de palabra de entrada. Más concretamente, para los tipos de
palabras de entrada que son asignados al primer grupo global, al
segundo grupo global, o al tercer grupo global, se normaliza la caja
a la caja de la variante de caja del tipo de palabra de entrada que
tiene la máxima frecuencia. En el caso de enlaces de baja frecuencia
entre las variantes de caja, se normaliza la caja a la forma normal
por defecto del respectivo grupo global. En los casos de enlaces de
alta frecuencia, la diferencia entre variantes de caja es
significativa, y se bloquea la normalización. Para los tipos de
palabras de entrada que sean asignados al cuarto grupo global hay
dos alternativas. Si la frecuencia de la variante de caja que esté
asignada al segundo grupo local es mayor que la frecuencia de la
variante de caja que esté asignada al primer grupo global, entonces
se normaliza la caja a la variante de caja que esté asignada al
segundo grupo local. Si la frecuencia de la variante de caja que
esté asignada al segundo grupo local es menor que la frecuencia de
la variante de caja que esté asignada al primer grupo local,
entonces se normaliza la caja del tipo de palabra de entrada a la
variante de caja que esté asignada al primer grupo local. El
tratamiento del segundo par consistente
en la variante de caja asignada al primer grupo local y la variante de caja asignada al tercer grupo local, es análogo.
en la variante de caja asignada al primer grupo local y la variante de caja asignada al tercer grupo local, es análogo.
Para que sirvan de ejemplo de la realización
descrita con referencia a la Figura 2, se dan en lo que sigue dos
ejemplos diferentes asociados con grupos locales diferentes. En un
primer ejemplo, se han dado de entrada para el método dos tipos de
palabra "UNESCO" y "Unesco". Estos tipos de palabra son
variantes de un tipo de palabra común. La variante de caja
"UNESCO" se asigna al primer grupo local, y la variante de caja
"Unesco" se asigna al segundo grupo local, En este ejemplo,
las dos variantes de caja están asociadas con sus respectivas
frecuencias, y la frecuencia de la variante de caja "UNESCO" es
mayor que la frecuencia de la variante de caja "Unesco". Por
consiguiente, incluso aunque las variantes de caja estén asignadas
al primer grupo local, para el cual la forma normal por defecto es
la variante de caja asignada al segundo grupo local, serán
normalizadas en cambio a la variante de caja que esté asignada al
primer grupo local, es decir, a la variante de caja "UNESCO".
Esto se debe al hecho de que las respectivas frecuencias de las
variantes de caja pesan más que las reglas predeterminadas
asociadas con el grupo global. En este ejemplo, las variantes de
caja son acrónimos para los cuales la variante de caja asignada al
primer grupo local se considera que es la forma normal.
Como un segundo ejemplo, se han dado de entrada
para el método los tres tipos de palabra "ATM", "Atm", y
"atm". En este ejemplo, las tres variantes de caja están
asignadas con sus frecuencias, y la frecuencia de la variante de
caja "ATM" es mayor que la frecuencia de la variante de caja
"Atm". Así, incluso aunque las variantes de caja sean
asignadas al cuarto grupo global, serán normalizadas a la variante
de caja que esté asignada al primer grupo local, es decir, a la
primera variante de caja "ATM". Esto es debido al hecho de que
las respectivas frecuencias de las variantes de caja pesan más que
las reglas predeterminadas asociadas con el grupo global. En este
ejemplo, las variantes de caja son acrónimos, para los cuales se
considera que la variante de caja asignada al primer grupo global
es la forma normal.
En la Figura 3 se ha representado un organigrama
de una tercera realización de un método de acuerdo con el invento.
Como en la realización descrita con referencia a la Figura 1, una
serie de tipos de palabra que han sido identificados en una base de
datos de texto largo, que comprende texto en lenguaje natural, son
dados de entrada en un ordenador. De acuerdo con esta tercera
realización, cada tipo de palabra de entrada está también asociado
a una posición en una frase, indicadora de si el tipo de palabra de
entrada ha ocurrido en una posición interna de una frase y/o en una
posición inicial de una frase, en el texto en lenguaje natural. Los
pasos de asignar los tipos de palabra a los grupos locales y a los
grupos globales no difieren de los de la primera realización. Por
consiguiente, no se describen aquí con mayor detalle. La diferencia
con respecto a la primera realización tiene lugar en el paso 330,
en donde la caja es normalizada. En esta realización, la caja de
cada tipo de palabra de entrada se normaliza de acuerdo con reglas
predeterminadas asociadas con (1) el grupo global del tipo de
palabra de entrada, y (2) la posición en la frase de cada variante
de caja del tipo de palabra de entrada. Más concretamente, las
cajas de un tipo de palabra de entrada son normalizadas de acuerdo
con las mismas reglas que en la realización descrita con referencia
a la Figura 1, con dos excepciones. Si se asigna un tipo de palabra
de entrada al tercer o al cuarto grupo global, no se efectuará la
normalización si la variante de caja asignada al segundo grupo
global está asociada con una posición en la frase que indique que
el tipo de palabra de entrada ocurrió en una posición interna de la
frase, en el texto en lenguaje natural.
Para que sirva de ejemplo de la realización
descrita con referencia a la Figura 3, se dará en lo que sigue un
ejemplo. En el ejemplo se han dado de entrada para el método los dos
tipos de palabra "Bill" y "bill". Estos tipos de palabra
son variantes de caja de un tipo de palabra común. La variante de
caja "Bill" se asigna al segundo grupo local y la variante de
caja "bill" se asigna al tercer grupo local. En este ejemplo,
las dos variantes de caja son asociadas a información de posición
en la frase. La información de posición en la frase, acerca de la
variante de caja "Bill", indica que la variante de caja se ha
producido en una posición inicial de la frase, y también en una
posición interna de la frase, en el texto en lenguaje natural. Por
consiguiente, no se efectuará normalización alguna para las
variantes de caja "Bill" y "bill". Esto se debe al hecho
de que las posiciones en la frase de esas variantes de caja indican
que no deberán usarse las reglas predeterminadas asociadas con el
grupo global. En este ejemplo, la diferencia de cajas entre las
variantes de caja conduce información que deberá ser preservada.
Más concretamente, la variante de caja "Bill" pudiera ser tanto
un nombre propio como un nombre común. Si, por otra parte, han sido
dados de entrada para el método los dos tipos de palabra
"Coche" y "coche", y la información de posición en la
frase acerca de la variante de caja "Coche" indica que esa
variante de caja solamente se produce en una posición inicial de la
frase, mientras que la información de posición de la frase acerca
de la variante de caja "coche" indica que esa variante de caja
solamente ocurre en una posición interna de la frase, entonces se
usarían las reglas de la realización descrita con referencia a la
Figura 1, y se normalizan las dos variantes de caja a la variante de
caja que esté asignada al tercer grupo global, es decir, a la
variante de caja "coche".
Las realizaciones descritas en lo que antecede
pueden ser implementadas en un programa de ordenador que comprenda
instrucciones ejecutables por ordenador, para ejecutar los pasos. El
programa de ordenador puede entonces ser almacenado en cualquier
medio legible por ordenador, y las realizaciones pueden entonces ser
realizadas por medio de un ordenador para fines generales, con
acceso a esos medios. Además, las realizaciones pueden ser
implementadas también directamente, en equipo físico, tal como en
uno más procesadores de ordenador que estén dispuestos para
ejecutar los pasos.
Claims (15)
1. Un método para diferenciar automáticamente
distinciones significativas de distinciones no significativas de
caja alta y caja baja en una serie de tipos de palabras de entrada
de un texto en lenguaje natural por medio de un ordenador,
caracterizado por los pasos de:
asignar (110) un tipo de palabra de entrada a
uno de una serie de grupos locales separados (LG1, LG2, LG3, LG4)
en base a la caja y a la posición de las letras que constituyan el
tipo de palabra de entrada;
asignar (120) dicho tipo de palabra de entrada a
uno de una serie de grupos globales separados (GG1, GG2, GG3, GG4)
en base a qué variantes de caja de grupos locales de los tipos de
palabras de entrada estén asignados; y
normalizar (139) las cajas para dicho tipo de
palabra de entrada de acuerdo con reglas predeterminadas asociadas
con el grupo global al que esté asignado dicho tipo de palabra de
entrada.
2. El método de acuerdo con la reivindicación 1,
en el que el paso de normalizar las cajas comprende el paso de:
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a un grupo local que
esté predeterminado para el grupo global al que esté asignado dicho
tipo de palabra de entrada.
3. El método de acuerdo con la reivindicación 1
ó 2, en el que el paso de asignar un tipo de palabra de entrada a
uno de una serie de grupos locales separados comprende el paso
de:
asignar un tipo de palabra de entrada a uno de
una serie de grupos locales separados en base a la caja de la letra
inicial de dicho tipo de palabra de entrada y a la caja de las
letras no iniciales de dicho tipo de palabra de entrada.
4. El método de acuerdo con la reivindicación 1
ó 2, en el que el paso de asignar un tipo de palabra de entrada a
uno de una serie de grupos locales separados, comprende los pasos
de:
asignar un tipo de palabra de entrada a una
serie de grupos locales separados en base a la caja de la letra
inicial de dicho tipo de palabra de entrada y a si hay, o no, alguna
letra no inicial de dicho tipo de palabra de entrada que sea de una
caja diferente a la de la letra inicial del tipo de palabra de
entrada.
5. El método de acuerdo con la reivindicación 1
ó 2, en el que el paso de asignar un tipo de palabra de entrada a
uno de una serie de grupos locales separados comprende los pasos
de:
asignar a un primer grupo local un tipo de
palabra de entrada que tenga una letra inicial de la caja alta y
ninguna letra no inicial de la caja baja;
asignar a un segundo grupo local un tipo de
palabra de entrada que tenga una letra inicial de la caja alta y al
menos una letra no inicial de la caja baja;
asignar a un tercer grupo local un tipo de
palabra de entrada que tenga una letra inicial de la caja baja y
ninguna letra no inicial de la caja alta; y
asignar a un cuarto grupo local un tipo de
palabra de entrada que tenga una letra inicial de la caja baja y al
menos una letra de la caja alta.
6. El método de acuerdo con la reivindicación 5,
en el que el paso de asignar dicho tipo de palabra de entrada a
grupos globales separados, comprende los pasos de:
asignar dicho tipo de palabra de entrada a un
primer grupo global si una variante de caja de dicho tipo de
palabra de entrada está asignada a dicho primer grupo local, una
variante de caja de dicho tipo de palabra de entrada está asignada
a dicho segundo grupo local, y no hay ninguna variante de caja de
dicho tipo de palabra de entrada que esté asignada a dicho tercer
grupo local;
asignar dicho tipo de palabra de entrada a un
segundo grupo global, si una variante de caja de dicho tipo de
palabra de entrada está asignada a dicho primer grupo local, una
variante de caja de dicho tipo de palabra de entrada está asignada
a dicho tercer grupo local, y no hay ninguna variante de caja de
dicho tipo de palabra de entrada que esté asignada a dicho segundo
grupo local;
asignar cada tipo de palabra de entrada a un
tercer grupo global, si una variante de caja de dicho tipo de
palabra de entrada está asignada a dicho segundo grupo local, una
variante de caja de dicho tope está asignada a dicho tercer grupo
local, y no hay ninguna variante de caja de dicho tipo de palabra de
entrada que esté asignada a dicho primer grupo local; y
asignar cada tipo de palabra de entrada a un
cuarto grupo global, si una variante de caja de dicho tipo de
palabra de entrada está asignada a dicho primer grupo local, una
variante de caja de dicho tipo de palabra de entrada está asignada
a dicho segundo grupo local, y una variante de caja de dicho tipo de
palabra de entrada está asignada a dicho tercer grupo local.
7. El método de acuerdo con la reivindicación 6,
en el que el paso de normalizar las cajas comprende los pasos
de:
de:
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho segundo grupo
local, si dicho tipo de palabra de entrada está asignado a dicho
primer grupo global;
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho tercer grupo
local, si dicho tipo de palabra de entrada está asignado a dicho
segundo grupo local;
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho tercer grupo
local, si dicho tipo de palabra de entrada está asignado a dicho
tercer grupo global; y
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho segundo grupo
global, si dicho tipo de palabra de entrada está asignado a dicho
cuarto grupo global.
8. El método de acuerdo con la reivindicación 1,
en el que cada uno de los tipos de palabras de entrada está
asociado con un indicador de frecuencia que indique el número de
ocurrencias del tipo de palabra de entrada en dicho texto en
lenguaje natural, y en el que el paso de normalizar comprende el
paso de:
normalizar las cajas para dicho tipo de palabra
de entrada de acuerdo con reglas predeterminadas asociadas con el
grupo global al que esté asignado dicho tipo de palabra de entrada y
con los indicadores de frecuencia con los que estén asociadas las
variantes de caja de dicho tipo de palabra de entrada.
9. El método de acuerdo con la reivindicación 6,
en el que cada uno de los tipos de palabras de entrada está
asociado con un indicador de frecuencia que indica el número de
ocurrencias del tipo de palabra de entrada en dicho texto en
lenguaje natural, y en el que el paso de normalizar comprende el
paso de:
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asociada con el indicador de
máxima frecuencia, si dicho tipo de palabra de entrada está
asignado a dicho primer grupo global, a dicho segundo grupo global,
o a dicho tercer grupo global;
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada al segundo grupo local,
si dicho tipo de palabra de entrada está asignado a dicho cuarto
grupo global y la variante de caja de dicho tipo de palabra de
entrada que esté asignada a dicho segundo grupo local está asociada
con un indicador de frecuencia que presente una indicación mayor
que la del indicador de frecuencia con el que esté asociada la
variante de caja de dicho tipo de palabra de entrada que está
asignada al primer grupo local; y
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada al primer grupo local,
si dicho tipo de palabra de entrada está asignado a dicho cuarto
grupo global y la variante de caja de dicho tipo de palabra de
entrada que esté asignada a dicho segundo grupo local está asociada
con un indicador de frecuencia que presente una indicación menor
que la del indicador de frecuencia con el que esté asociada la
variante de caja de dicho tipo de palabra de entrada que está
asignada al primer grupo local.
10. El método de acuerdo con la reivindicación
1, en el que cada uno de dichos tipos de palabras de entrada está
asociado con un indicador de posición en la frase que indica si el
tipo de palabra de entrada ocurrió en una posición interna de una
frase y/o en una posición inicial de una frase en dicho texto en
lenguaje natural, y en el que el paso de normalizar comprende el
paso de:
normalizar las cajas para dicho tipo de palabra
de entrada de acuerdo con reglas predeterminadas asociadas con el
grupo global al que esté asignado dicho tipo de palabra de entrada y
con el indicador de la posición en la frase al que estén asociadas
las variantes de caja de dicho tipo de palabra de entrada.
11. El método de acuerdo con la reivindicación
6, en el que cada uno de dichos tipos de palabras de entrada está
asociado con un indicador de posición en la frase que indique si el
tipo de palabra de entrada ocurrió en una posición interna de una
frase y/o en dicho texto en lenguaje natural, y en el que el paso de
normalizar comprende los pasos
de:
de:
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho segundo grupo
local, si dicho tipo de palabra de entrada está asignado a dicho
primer grupo global;
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho tercer grupo
local, si dicho tipo de palabra de entrada está asignado a dicho
segundo grupo global;
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho tercer grupo
local, si dicho tipo de palabra de entrada está asignado a dicho
tercer grupo global y la variante de caja de dicho tipo de palabra
de entrada que esté asignada a dicho segundo grupo local no está
asociada con un indicador de posición en la frase que indique que
el tipo de palabra de entrada ocurrió en una posición interna de una
frase en dicho texto en lenguaje natural; y
normalizar las cajas de dicho tipo de palabra de
entrada de acuerdo con las cajas de la variante de caja de dicho
tipo de palabra de entrada que esté asignada a dicho segundo grupo
local, si dicho tipo de palabra de entrada está asignado a dicho
cuarto grupo global y la variante de caja de dicho tipo de palabra
de entrada que esté asignada a dicho segundo grupo local no está
asociada con un indicador de posición en la frase que indique que
el tipo de palabra de entrada ocurrió en una posición interna de una
frase en dicho texto en lenguaje natural.
12. El método de acuerdo con una cualquiera de
las reivindicaciones 1 - 11, que comprende además el paso de:
almacenar dichos tipos de palabras de entrada
con cajas normalizadas en unos medios de almacenamiento
electrónico.
13. Un procesador de ordenador dispuesto para
ejecutar los pasos reseñados en cualquiera de las reivindicaciones
1 - 12.
14. Un medio legible por ordenador que tiene
instrucciones ejecutables por ordenador para que un ordenador
ejecute los pasos indicados en cualquiera de las reivindicaciones
1-12.
15. Un programa de ordenador que comprende
instrucciones ejecutables por ordenador para que un ordenador
ejecute los pasos indicados en cualquiera de las reivindicaciones
1-12.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE2000103433 | 2000-09-26 | ||
SE0003433A SE524595C2 (sv) | 2000-09-26 | 2000-09-26 | Förfarande och datorprogram för normalisering av stilkast |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2316474T3 true ES2316474T3 (es) | 2009-04-16 |
Family
ID=20281160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01970463T Expired - Lifetime ES2316474T3 (es) | 2000-09-26 | 2001-09-26 | Metodo para normalizar caja. |
Country Status (8)
Country | Link |
---|---|
US (1) | US6385630B1 (es) |
EP (1) | EP1325429B1 (es) |
AT (1) | ATE413651T1 (es) |
AU (1) | AU2001290464A1 (es) |
DE (1) | DE60136478D1 (es) |
ES (1) | ES2316474T3 (es) |
SE (1) | SE524595C2 (es) |
WO (1) | WO2002027539A1 (es) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6739719B2 (en) | 2002-06-13 | 2004-05-25 | Essilor International Compagnie Generale D'optique | Lens blank convenient for masking unpleasant odor and/or delivering a pleasant odor upon edging and/or surfacing, and perfume delivering lens |
US20050108630A1 (en) * | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
US20050216256A1 (en) * | 2004-03-29 | 2005-09-29 | Mitra Imaging Inc. | Configurable formatting system and method |
US8225231B2 (en) | 2005-08-30 | 2012-07-17 | Microsoft Corporation | Aggregation of PC settings |
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
US20100087169A1 (en) * | 2008-10-02 | 2010-04-08 | Microsoft Corporation | Threading together messages with multiple common participants |
US8411046B2 (en) | 2008-10-23 | 2013-04-02 | Microsoft Corporation | Column organization of content |
US20100107100A1 (en) | 2008-10-23 | 2010-04-29 | Schneekloth Jason S | Mobile Device Style Abstraction |
US8385952B2 (en) | 2008-10-23 | 2013-02-26 | Microsoft Corporation | Mobile communications device user interface |
JP5412096B2 (ja) * | 2008-12-03 | 2014-02-12 | 株式会社やまびこ | 携帯式チェンソーの動力ユニット構造 |
US8238876B2 (en) | 2009-03-30 | 2012-08-07 | Microsoft Corporation | Notifications |
US8355698B2 (en) | 2009-03-30 | 2013-01-15 | Microsoft Corporation | Unlock screen |
US8175653B2 (en) | 2009-03-30 | 2012-05-08 | Microsoft Corporation | Chromeless user interface |
US8836648B2 (en) | 2009-05-27 | 2014-09-16 | Microsoft Corporation | Touch pull-in gesture |
US20120159383A1 (en) | 2010-12-20 | 2012-06-21 | Microsoft Corporation | Customization of an immersive environment |
US20120159395A1 (en) | 2010-12-20 | 2012-06-21 | Microsoft Corporation | Application-launching interface for multiple modes |
US8689123B2 (en) | 2010-12-23 | 2014-04-01 | Microsoft Corporation | Application reporting in an application-selectable user interface |
US8612874B2 (en) | 2010-12-23 | 2013-12-17 | Microsoft Corporation | Presenting an application change through a tile |
US9423951B2 (en) | 2010-12-31 | 2016-08-23 | Microsoft Technology Licensing, Llc | Content-based snap point |
US9383917B2 (en) | 2011-03-28 | 2016-07-05 | Microsoft Technology Licensing, Llc | Predictive tiling |
US8893033B2 (en) | 2011-05-27 | 2014-11-18 | Microsoft Corporation | Application notifications |
US9658766B2 (en) | 2011-05-27 | 2017-05-23 | Microsoft Technology Licensing, Llc | Edge gesture |
US9104440B2 (en) | 2011-05-27 | 2015-08-11 | Microsoft Technology Licensing, Llc | Multi-application environment |
US20120304132A1 (en) | 2011-05-27 | 2012-11-29 | Chaitanya Dev Sareen | Switching back to a previously-interacted-with application |
US9104307B2 (en) | 2011-05-27 | 2015-08-11 | Microsoft Technology Licensing, Llc | Multi-application environment |
US9158445B2 (en) | 2011-05-27 | 2015-10-13 | Microsoft Technology Licensing, Llc | Managing an immersive interface in a multi-application immersive environment |
US8687023B2 (en) | 2011-08-02 | 2014-04-01 | Microsoft Corporation | Cross-slide gesture to select and rearrange |
US20130057587A1 (en) | 2011-09-01 | 2013-03-07 | Microsoft Corporation | Arranging tiles |
US10353566B2 (en) | 2011-09-09 | 2019-07-16 | Microsoft Technology Licensing, Llc | Semantic zoom animations |
US8922575B2 (en) | 2011-09-09 | 2014-12-30 | Microsoft Corporation | Tile cache |
US9557909B2 (en) | 2011-09-09 | 2017-01-31 | Microsoft Technology Licensing, Llc | Semantic zoom linguistic helpers |
US8933952B2 (en) | 2011-09-10 | 2015-01-13 | Microsoft Corporation | Pre-rendering new content for an application-selectable user interface |
US9146670B2 (en) | 2011-09-10 | 2015-09-29 | Microsoft Technology Licensing, Llc | Progressively indicating new content in an application-selectable user interface |
US9244802B2 (en) | 2011-09-10 | 2016-01-26 | Microsoft Technology Licensing, Llc | Resource user interface |
US9223472B2 (en) | 2011-12-22 | 2015-12-29 | Microsoft Technology Licensing, Llc | Closing applications |
US9128605B2 (en) | 2012-02-16 | 2015-09-08 | Microsoft Technology Licensing, Llc | Thumbnail-image selection of applications |
US20140129928A1 (en) * | 2012-11-06 | 2014-05-08 | Psyentific Mind Inc. | Method and system for representing capitalization of letters while preserving their category similarity to lowercase letters |
US9450952B2 (en) | 2013-05-29 | 2016-09-20 | Microsoft Technology Licensing, Llc | Live tiles without application-code execution |
CN105359094A (zh) | 2014-04-04 | 2016-02-24 | 微软技术许可有限责任公司 | 可扩展应用表示 |
KR102107275B1 (ko) | 2014-04-10 | 2020-05-06 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 컴퓨팅 디바이스에 대한 접이식 쉘 커버 |
WO2015154276A1 (en) | 2014-04-10 | 2015-10-15 | Microsoft Technology Licensing, Llc | Slider cover for computing device |
US10592080B2 (en) | 2014-07-31 | 2020-03-17 | Microsoft Technology Licensing, Llc | Assisted presentation of application windows |
US10678412B2 (en) | 2014-07-31 | 2020-06-09 | Microsoft Technology Licensing, Llc | Dynamic joint dividers for application windows |
US10254942B2 (en) | 2014-07-31 | 2019-04-09 | Microsoft Technology Licensing, Llc | Adaptive sizing and positioning of application windows |
US10642365B2 (en) | 2014-09-09 | 2020-05-05 | Microsoft Technology Licensing, Llc | Parametric inertia and APIs |
CN106662891B (zh) | 2014-10-30 | 2019-10-11 | 微软技术许可有限责任公司 | 多配置输入设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63120362A (ja) | 1986-11-10 | 1988-05-24 | Brother Ind Ltd | スペルチエツク機能付文書処理装置 |
US4864501A (en) | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
US5008818A (en) * | 1989-04-24 | 1991-04-16 | Alexander K. Bocast | Method and apparatus for reconstructing a token from a token fragment |
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
US5485372A (en) | 1994-06-01 | 1996-01-16 | Mitsubishi Electric Research Laboratories, Inc. | System for underlying spelling recovery |
US5995922A (en) * | 1996-05-02 | 1999-11-30 | Microsoft Corporation | Identifying information related to an input word in an electronic dictionary |
US5819265A (en) | 1996-07-12 | 1998-10-06 | International Business Machines Corporation | Processing names in a text |
-
2000
- 2000-09-26 SE SE0003433A patent/SE524595C2/sv not_active IP Right Cessation
- 2000-09-29 US US09/672,101 patent/US6385630B1/en not_active Expired - Lifetime
-
2001
- 2001-09-26 DE DE60136478T patent/DE60136478D1/de not_active Expired - Lifetime
- 2001-09-26 ES ES01970463T patent/ES2316474T3/es not_active Expired - Lifetime
- 2001-09-26 EP EP01970463A patent/EP1325429B1/en not_active Expired - Lifetime
- 2001-09-26 WO PCT/SE2001/002069 patent/WO2002027539A1/en active Application Filing
- 2001-09-26 AT AT01970463T patent/ATE413651T1/de not_active IP Right Cessation
- 2001-09-26 AU AU2001290464A patent/AU2001290464A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP1325429B1 (en) | 2008-11-05 |
SE0003433D0 (sv) | 2000-09-26 |
EP1325429A1 (en) | 2003-07-09 |
ATE413651T1 (de) | 2008-11-15 |
SE524595C2 (sv) | 2004-08-31 |
WO2002027539A1 (en) | 2002-04-04 |
SE0003433L (sv) | 2002-03-27 |
DE60136478D1 (de) | 2008-12-18 |
AU2001290464A1 (en) | 2002-04-08 |
US6385630B1 (en) | 2002-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2316474T3 (es) | Metodo para normalizar caja. | |
JP3132738B2 (ja) | テキスト検索方法 | |
US5752020A (en) | Structured document retrieval system | |
US10585865B2 (en) | Computing the need for standardization of a set of values | |
US7457799B2 (en) | Apparatus and method for searching data of structured document | |
AU2018202580A1 (en) | Contextual pharmacovigilance system | |
US9189748B2 (en) | Information extraction system, method, and program | |
KR970076328A (ko) | 문서 정보 검색 시스템 | |
KR20070112423A (ko) | 실시간 데이터 웨어하우징 | |
JPH07200744A (ja) | 判読困難な文字の識別方法及び装置 | |
CN111144100B (zh) | 一种问题文本识别方法、装置、电子设备及存储介质 | |
Hussein | Arabic document similarity analysis using n-grams and singular value decomposition | |
CN103038762B (zh) | 自然语言处理装置、方法 | |
US20180096021A1 (en) | Methods and systems for improved search for data loss prevention | |
Högberg et al. | Backward and forward bisimulation minimization of tree automata | |
Taghva et al. | The effects of OCR error on the extraction of private information | |
US20160078072A1 (en) | Term variant discernment system and method therefor | |
US8055497B2 (en) | Method and system to parse addresses using a processing system | |
JP3767180B2 (ja) | 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 | |
US20050246330A1 (en) | System and method for blocking key selection | |
JPH0484366A (ja) | 文書種別判別装置 | |
CN117708834B (zh) | 资产漏洞检测方法及装置 | |
JP2588261B2 (ja) | Ocrによる住所データベース検索装置 | |
JP5252487B2 (ja) | 情報処理装置、その制御方法、制御プログラム、および記録媒体 | |
JP2848430B2 (ja) | 情報抽出方法 |