[go: up one dir, main page]

ES2342395T3 - Diferenciacion y visualizacion de tablas en documentos. - Google Patents

Diferenciacion y visualizacion de tablas en documentos. Download PDF

Info

Publication number
ES2342395T3
ES2342395T3 ES04775051T ES04775051T ES2342395T3 ES 2342395 T3 ES2342395 T3 ES 2342395T3 ES 04775051 T ES04775051 T ES 04775051T ES 04775051 T ES04775051 T ES 04775051T ES 2342395 T3 ES2342395 T3 ES 2342395T3
Authority
ES
Spain
Prior art keywords
true
cells
tables
document
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04775051T
Other languages
English (en)
Inventor
Jon Stephenson Von Tetzchner
Geir Ivarsoy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Opera Norway AS
Original Assignee
Opera Software AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from NO20034035A external-priority patent/NO20034035D0/no
Application filed by Opera Software AS filed Critical Opera Software AS
Application granted granted Critical
Publication of ES2342395T3 publication Critical patent/ES2342395T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

Método llevado a cabo por una unidad de procesado (120) en un terminal de cliente (100), para determinar si una tabla, que presenta unas celdas, en un documento (170) de lenguaje de marcado, es una tabla verdadera o una tabla no verdadera, y para presentar el contenido del documento (170) de lenguaje de marcado de una manera que diferencia entre tablas verdaderas y tablas no verdaderas, caracterizado porque el método comprende: - llevar a cabo por lo menos una de entre las pruebas siguientes - determinar (224) la densidad de celdas numéricas entre las celdas de la tabla, y establecer la tabla como tabla no verdadera si la densidad de celdas numéricas es inferior a un valor de porcentaje predeterminado, y - determinar (220) si cualquier elemento de la tabla es de un tipo incluido en una lista predeterminada de tipos de elemento no permisibles, y establecer la tabla como tabla no verdadera si el tipo de elemento está incluido en dicha lista, y si, en cualquiera de los casos, - se determina que la tabla es una tabla no verdadera, formatear la tabla rechazando la estructura de la tabla y presentando el contenido de la tabla en forma de una estructura lineal en un dispositivo de visualización.

Description

Diferenciación y visualización de tablas en documentos.
La presente invención se refiere al campo del procesado de datos para visualizar información en terminales de comunicación electrónicos. Más particularmente, la invención se refiere a un método, a un terminal de cliente y a un programa de ordenador para presentar un documento de lenguaje de marcado, que incluye una tabla, en un dispositivo de visualización. Con el fin de optimizar dicha presentación, particularmente en un dispositivo de visualización estrecho, la invención diferencia entre tablas verdaderas, es decir, tablas usadas con fines funcionales/estructurales, y tablas no verdaderas, es decir, tablas usadas con fines de distribución/diseño.
La invención se refiere además a un método, a un terminal de cliente y a un programa de ordenador para determinar si una tabla en un documento de lenguaje de marcado es una tabla verdadera o una tabla no verdadera.
Antecedentes de la invención y técnica anterior
Un navegador Web, agente de usuario (abreviando UA) de (X)HTML y CSS, es un programa de ordenador ejecutado en un ordenador de cliente conectado a una red tal como Internet, para posibilitar que el cliente acceda a contenido en servidores conectados a la red. Un navegador Web incluye una interfaz de usuario, y una parte de programa de ordenador para dirigirse a un servidor particular y a un documento particular en la red. Además, un navegador Web incluye una parte de programa de ordenador para visualizar el contenido de un documento de lenguaje de marcado, en particular un documento (X)HTML, recibido desde un servidor Web a través de la red usando el protocolo HTTP, en un dispositivo de visualización conectado al ordenador de cliente.
En la presente descripción, "un documento de lenguaje de marcado" debería interpretarse como un documento estructurado que, además de texto, incluye también unas etiquetas particulares que definen un cambio de formato o un enlace de hipertexto. Son ejemplos aplicables de documentos de lenguaje de marcado los documentos HTML, cHTML, Perfil Móvil HTML, y XHTML, o alternativamente los documentos XML. Los documentos de lenguaje de marcado se indican en la siguiente descripción con el término común (X)HMTL.
La mayoría del contenido existente de la Malla Multimedia Mundial está diseñada para ordenadores de sobremesa con grandes monitores de color. Los dispositivos móviles de comunicaciones inalámbricas, tales como teléfonos móviles, PDA, u ordenadores de bolsillo, tienen típicamente dispositivos de visualización mucho más pequeños. Las pantallas de televisión comunes, que también se pueden usar para visualizar contenido Web, presentan típicamente una resolución horizontal menor que los monitores de ordenador habituales, y presentarán por lo tanto propiedades similares.
En la presente descripción, cuando se caracteriza un dispositivo de visualización, el término "estrecho" debería interpretarse en términos del número de píxeles horizontales presentes en el dispositivo de visualización. Como ejemplo, un dispositivo de visualización con una cantidad menor que 350 píxeles horizontalmente se puede considerar como "un dispositivo de visualización estrecho". La presente invención será aplicable particularmente para ser usada con dispositivos de visualización todavía más estrechos, tales como un dispositivo de visualización con aproximadamente 200 píxeles horizontalmente.
Para poder visualizar el contenido Web en un dispositivo de visualización tan estrecho, los navegadores Web de la técnica anterior han incluido técnicas de formateo que eliminan o cambian de forma más o menos inteligente los tamaños en elementos de las páginas.
La mayoría del contenido Web se realiza usando versiones diferentes del Lenguaje de Marcado de HiperTexto (HTML) según define el World Wide Consortium (W3C). Se usan ampliamente tablas, una parte de la normativa, para posicionar elementos de la página tales como gráficos y texto. Los métodos de la técnica anterior usados por navegadores Web para formatear contenido Web para pantallas pequeñas se incluyen en estas categorías:
-
Uso del zoom en la página completa para modificar a escala todos los elementos
-
Cambio del tamaño de los diferentes elementos de tabla y su contenido respectivo para ajustarse a la anchura de la pantalla
-
Eliminación de todos los elementos de tabla y visualización del contenido sin tablas
El primer planteamiento anterior tiene la ventaja de que el usuario está familiarizado con el aspecto de las páginas. No obstante, cuando se encogen elementos sin ningún otro formateo, es probable que las imágenes y el tamaño del texto se reduzcan demasiado y con frecuencia ni siquiera sean legibles. El segundo planteamiento presenta una ventaja en tamaños de pantalla de una anchura de entre 350 píxeles y 600 píxeles. El tercer planteamiento es ventajoso en tamaños de pantalla de una anchura inferior a 350 píxeles.
El elemento de tabla se puso en práctica originalmente en la normativa HTML como una forma de estructurar información en páginas Web. No obstante, los creadores de contenido Web (diseñadores de páginas Web) se dieron cuenta rápidamente de que las tablas se podían usar para posicionar (diseñar), por ejemplo, elementos gráficos de más maneras para las que estaba destinado el HTML. Esta práctica fue adoptada rápidamente por la mayoría de diseñadores de páginas Web, y sigue siendo la forma más utilizada de crear contenido Web. El W3C avisó sobre las consecuencias de esta mala práctica en la normativa HTML 4.0: (http://www.w3.org/TR/REC-html40/struct/tables.html)
La recomendación del W3C establece que "las tablas no se deberían usar puramente como unos medios para distribuir el contenido del documento ya que esto puede presentar problemas cuando el mismo se reproduzca para medios no visuales. Adicionalmente, cuando se usan con gráficos, estas tablas pueden obligar a los usuarios a realizar un desplazamiento horizontal para visionar una tabla diseñada en un sistema con un dispositivo de visualización mayor. Para minimizar estos problemas, los autores, en lugar de tablas, deberían utilizar hojas de estilo para controlar la distribución".
Desafortunadamente, la práctica de utilizar hojas de estilo para controlar la distribución únicamente ha sido adoptada por un número limitado de sitios Web, y la distribución con tablas, es, de lejos, el planteamiento más común.
Aunque los planteamientos de formateo de la técnica anterior mencionados anteriormente han tenido resultados satisfactorios en muchos sitios Web, ningunas de estas técnicas ha podido crear una solución satisfactoria para páginas que contengan tablas. En particular, ninguna de las soluciones de la técnica anterior parece tratar o resolver el problema de la diferenciación entre tablas verdaderas y tablas no verdaderas cuando se visualiza una página Web.
El documento JP 2000 339301 da a conocer un método según se expone en el preámbulo de la reivindicación independiente 1 adjunta.
Sumario de la invención
Un objetivo de la presente invención es proporcionar un método, un dispositivo y un programa de ordenador para presentar un documento en lenguaje de marcado que incluye una tabla en un dispositivo de visualización, al mismo tiempo que se superan los inconvenientes mencionados anteriormente de la técnica anterior.
Un objetivo particular de la invención es proporcionar un método del tipo mencionado, un terminal de cliente y un programa de ordenador que diferencie entre tablas verdaderas y tablas no verdaderas en un documento.
Otro objetivo de la invención es proporcionar un método del tipo mencionado, un terminal de cliente y un programa de ordenador que visualice el documento de una manera mejorada, basándose en la diferenciación entre tablas verdaderas y tablas no verdaderas en el documento.
Los objetivos anteriores se alcanzan por medio de un método, un terminal de cliente y un programa de ordenador según se expone en las reivindicaciones independientes adjuntas. Otros objetivos y ventajas se alcanzan mediante las características indicadas en las reivindicaciones subordinadas.
La invención proporciona una manera de identificar si una tabla es una tabla verdadera, destinada a visualizar información estructurada, o una tabla no verdadera, que está destinada a funcionar como armazón para posicionar elementos (es decir, tablas de diseño y distribución). Según la invención, se visualizan únicamente tablas que se ajustan a los criterios de una tabla verdadera, mientras que las tablas no verdaderas (es decir, tablas de diseño y distribución) o bien son rechazadas o bien se someten a un formateo adecuado para pantallas más pequeñas.
Breve descripción de los dibujos
La invención se describirá más detalladamente haciendo referencia a los dibujos, en los que
la figura 1 es un diagrama de bloques de un sistema que incluye un terminal de cliente según la invención,
la figura 2 es un diagrama de flujo de una disposición del método según la invención,
la figura 3 es una captura de pantalla que representa gráficamente un ejemplo de una página web con una tabla no verdadera y una tabla verdadera, visualizada cada una de ellas con su estructura de tabla original, según la técnica anterior,
la figura 4 es una captura de pantalla que representa gráficamente la página web visualizada en un dispositivo de visualización estrecho, en el que ambas estructuras de tabla son rechazadas y el contenido se visualiza sin su estructura de tablas original, y
la figura 5 es una captura de pantalla que representa gráficamente la página web, visualizada en un dispositivo de visualización estrecho, en el que se rechaza la estructura de la tabla no verdadera, mientras que se mantiene la estructura de la tabla verdadera, según la invención.
Descripción detallada de la invención
La figura 1 es un diagrama de bloques de un sistema que incluye un terminal de cliente según la invención.
El terminal de cliente 100 es típicamente un terminal móvil de comunicaciones con un dispositivo de visualización de tamaño pequeño o medio, por ejemplo, un teléfono móvil, un PDA, o un ordenador de bolsillo.
El terminal de cliente 100 comprende un dispositivo de visualización 110 de tamaño pequeño o medio, más específicamente un dispositivo de visualización 110 estrecho, que, de entrada, no es apropiado para presentar un contenido (X)HTML general diseñado para una pantalla de un dispositivo de visualización grande. Más específicamente, el dispositivo de visualización 110 no es apropiado para presentar un documento (X)HTML que incluye tablas verdaderas y no verdaderas.
El terminal de cliente 100 comprende además un bus interno 102 y un adaptador 112 de visualización que interconecta el bus y el dispositivo de visualización 110.
El terminal de cliente 140 comprende además un dispositivo 140 de entrada de usuario, tal como un teclado y/o un dispositivo de puntero tal como un panel táctil o un ratón. Un adaptador 142 de entrada de usuario interconecta el bus 102 y el dispositivo 140 de entrada.
El bus interno 102 está conectado además a una unidad de procesado 120 central, dispuesta para ejecutar instrucciones materializadas en un programa de ordenador guardado en la memoria 150, que está conectada también al bus 102.
El programa de ordenador en la memoria 150 comprende particularmente un navegador Web 152.
El navegador Web 152 comprende unas partes de programa de ordenador para acceder a un recurso o contenido solicitado, en particular un documento HTML 170, de un servidor Web 110 conectado a través de una red de comunicaciones al navegador 152 en el terminal de cliente 100. El navegador comprende también unas partes de programa de ordenador para visualizar el contenido del documento HTML en el dispositivo de visualización 110 del terminal de cliente 100.
Dichas características comunes del navegador se consideran como bien conocidas por los expertos en la materia, y se incluyen en navegadores Web habituales, tales como el navegador Opera, el Netscape Navigator y el Internet Explorer.
En particular, el programa navegador 152 comprende un módulo 156 de formateo, que es novedoso y excepcional en la presente invención. El módulo de formateo está dispuesto para ejecutar un método según la invención tal como se describe posteriormente en referencia a la figura 2. El módulo de formateo 156 incluye además un módulo 158 de detección de tablas verdaderas, el cual es también novedoso y excepcional en la presente invención. El módulo de detección de tablas verdaderas está dispuesto para ejecutar un método según la invención en referencia al proceso 210 de determinación de tablas verdaderas que se describe posteriormente.
El bus 102 puede estar conectado además a unos medios 160 de almacenamiento de datos para el almacenamiento no volátil de programa y/o datos.
Un servidor 110 proporciona un documento (X)HTML 170 a través de una red 180 de comunicaciones a un adaptador 130 de comunicaciones conectado al bus 102 en el terminal de cliente 100. La red 180 está habilitada para proporcionar una comunicación móvil inalámbrica con el terminal de cliente 100 y para una comunicación con un servidor 190 de contenidos (X)HTML. De este modo, la red 180 ilustrada puede comprender típicamente tanto Internet como una red de comunicaciones móviles tal como una red GSM, o alternativamente una red GPRS, UMTS, CDMA, o PCS. El adaptador 130 de comunicaciones puede ser, por lo tanto, un módulo GSM, GPRS, UMTS, CDMA, ó PCS, adaptado para interoperatividad con la red de comunicaciones móviles incluida en la red 180.
La figura 2 es un diagrama de flujo que ilustra una disposición del método según la invención.
El proceso ilustrado lo realiza el navegador 152 cuando es ejecutado por la unidad de procesado 120 en el terminal de cliente 100 ilustrado en la figura 1.
El documento (X)HTML 170 generalmente contiene una tabla.
El proceso comienza en la etapa 200 de inicio.
El proceso presupone que un documento (X)HTML 170 es introducido por el adaptador 130 de comunicaciones y leído por el módulo de formateo 156 en el navegador 152.
Se realiza una etapa 212 de lectura inicial. En esta etapa, el proceso lee un elemento del documento 170.
A continuación, en la etapa 214 de decisión, se realiza una prueba con el fin de decidir si el elemento leído actualmente en el documento (X)HTML 170 es una tabla. En caso afirmativo, el proceso continúa hacia el subproceso 210 de determinación de tablas verdaderas. Si no, el proceso continúa en 250, según se describe posteriormente.
Si el elemento es una tabla, el proceso comprende además un subproceso 210 de determinación de tablas verdaderas. En este subproceso, se determina que la tabla de entrada es una tabla verdadera o una tabla no verdadera.
El subproceso 210 comienza con la etapa 216 de reducción de tamaño, en la que la tabla se formatea para reducir el tamaño de tabla al mínimo. En particular, se eliminan estilos de la tabla para minimizar el tamaño de la misma.
A continuación, en la etapa 218 de decisión, se realiza una prueba para decidir si la tabla cabe en la pantalla. En caso afirmativo, el proceso continúa en la etapa 220. Si no, el subproceso 210 sale y el proceso continúa en la etapa 250, lo cual implica que se determine que la tabla es una tabla no verdadera.
A continuación, en la etapa 220 de decisión, se realiza una prueba para decidir si la tabla contiene unos elementos no permisibles, tales como otras tablas, imágenes grandes, y películas Flash. La prueba se puede realizar determinando si cualquier elemento de la tabla es de un tipo incluido en una lista predeterminada de tipos de elemento no permisibles. Si la tabla no contiene elementos no permisibles, el proceso continúa en la etapa 222 de cálculo. Si no, el subproceso sale y el proceso continúa en la etapa 250, lo cual implica que se determina que la tabla es una tabla no verdadera.
A continuación, en la etapa 222 de cálculo, se calculan valores numéricos para cada celda de la tabla. En esta etapa, se determina la densidad de celdas numéricas entre las celdas de la tabla.
A continuación, en la etapa 224 de decisión, se realiza una prueba para decidir si la tabla es una tabla numérica, y, por lo tanto, una tabla verdadera. En esta etapa, se determina que la tabla es una tabla no numérica y, por lo tanto, una tabla no verdadera si la densidad de celdas numéricas es menor que un valor de porcentaje predeterminado. En una forma de realización preferida, se establece que la tabla es una tabla no numérica y, por lo tanto una tabla no verdadera si la densidad de celdas numéricas es inferior a un valor de porcentaje predeterminado en el intervalo de entre el 20% y el 60%. Todavía más preferentemente, el valor del porcentaje está comprendido entre el 30 y el 50%. De la forma más preferida, y favorablemente con respecto al rendimiento y la fiabilidad del subproceso 210 de determinación de tablas verdaderas, el valor del porcentaje es de aproximadamente 40%.
Si no, si la densidad de celdas numéricas es mayor que el valor de porcentaje predeterminado, se determina que la tabla es una tabla verdadera.
La densidad de celdas numéricas se determina preferentemente mediante la determinación del número total n_{tot} de celdas en la tabla, la determinación del número n_{num} de celdas que contienen una mayoría de caracteres numéricos, y el establecimiento de dicha densidad como la fracción n_{num}/n_{tot}
Preferentemente, los caracteres "0" a "9" y "+", "-", "%" y "." se consideran como caracteres numéricos.
Si la prueba en la etapa 222 de cálculo es satisfactoria, el subproceso sale y el proceso continúa en 230, lo cual implica que se determina que la tabla es una tabla verdadera. Si no, el proceso continúa en la etapa 250, lo cual implica que se determina que la tabla es una tabla no verdadera.
A continuación, en la etapa 230 de presentación, el documento formateado se presenta en el dispositivo de visualización 180.
La etapa de presentación 250 (otra técnica de formateo) incluye ventajosamente un proceso de conversión para convertir el documento (X)HTML que optimiza el documento para su visualización en una pantalla estrecha sin la necesidad de desplazamiento horizontal. Preferentemente, esto se logra adaptando el documento al dispositivo de visualización mediante la imposición de una hoja de estilo del lado del cliente. En un ejemplo de esta adaptación de tipos, las celdas de la tabla se convierten en elementos a nivel de bloque.
El proceso de conversión incluido en la etapa de presentación 250 comprende además preferentemente unas etapas para ignorar posteriores saltos de línea, etapas para convertir u omitir imágenes enormes, etapas para reducir el tamaño de imágenes de tamaño medio, y etapas para detectar y omitir gráficos ornamentales y anuncios comerciales.
La figura 3 es una captura de pantalla que representa gráficamente un ejemplo de una página web con una tabla no verdadera y una tabla verdadera, visualizada cada una de ellas con su estructura de tabla original, según la técnica anterior.
En 301, se indica una tabla no verdadera o tabla de diseño. En 302 se indica otra tabla no verdadera o tabla de diseño. Las finalidades de las tablas 301, 302 son proporcionar un diseño particular, tal como un fondo de página o una alineación centrada.
En 303, se indica una tabla verdadera, que contiene datos económicos de la bolsa.
La figura 4 es una captura de pantalla que representa gráficamente la página web, visualizada en un dispositivo de visualización estrecho, en la que se rechazan ambas estructuras de tabla y el contenido se visualiza sin su estructura de tabla original.
La tabla no verdadera o tabla de diseño indicada en 301 en la figura 4 aparece como datos 401 que no son de tabla. La tabla no verdadera o tabla de diseño indicada en 302 en la figura 4 aparece como datos 402 que no son de tabla. La tabla verdadera que contiene datos económicos, indicada en 303 en la figura 3, aparece como datos no estructurados 403, que no son de tabla, los cuales presentan una baja legibilidad.
La figura 5 es una captura de pantalla que representa gráficamente la página web, visualizada en un dispositivo de visualización estrecho, en la que se rechaza la estructura de la tabla no verdadera, mientras que se mantiene la estructura de la tabla verdadera, según la invención.
La tabla no verdadera o tabla de diseño indicada en 301 en la figura 4 aparece como datos 501 que no son de tabla. La tabla no verdadera o tabla de diseño indicada en 302 en la figura 4 aparece como datos 502 que no son de tabla. La tabla verdadera que contiene datos económicos, indicada en 303 en la figura 3, aparece como datos estructurados 503 de tabla, los cuales presentan una gran legibilidad, en comparación con la captura de pantalla de la figura 4.
El método, el terminal del cliente, o el programa de ordenador según la presente invención conducen a resultados útiles. En particular, se visualiza contenido (X)HTML de una manera inteligible, eficaz y atractiva para el usuario en un dispositivo de visualización estrecho, incluyendo un dispositivo de visualización con resolución horizontal limitada.
En la anterior descripción detallada, la presente invención se ha dado a conocer por medio de una disposición preferida, con la adición de algunas otras posibles características y alternativas. No obstante, los expertos en la materia observarán que existen muchas otras modificaciones y variaciones dentro del alcance de la invención, según se expone en el conjunto de reivindicaciones adjunto.
Aunque el terminal de cliente 100 en la disposición dada a conocer se especifica como un terminal móvil tal como un teléfono móvil o un PDA, se reconocerá fácilmente que el terminal de cliente 100 puede ser de forma alternativa un receptor de televisión adaptado para funciones de navegación Web. En este caso, el dispositivo de visualización 110 no es particularmente estrecho, sino que tiene una resolución horizontal reducida en comparación con una pantalla de ordenador común. En un terminal de cliente de televisión de este tipo, el adaptador 130 de comunicaciones puede ser un módem o adaptador de banda ancha, en lugar de un dispositivo de comunicaciones inalámbricas o móviles.
Los expertos en la materia reconocerán fácilmente que la secuencia de las etapas 218, 220 y 224 de prueba son mutuamente independientes, y que la secuencia ilustrada se ofrece a título de ejemplo. Se obtendrá un resultado idéntico si las tres etapas se realizan en uno cualquiera de los órdenes 218-224-220, 220-218-224, 220-224-218, 224-218-220, ó 224-220-218. De modo similar, las etapas se pueden realizar al mismo tiempo o de forma prácticamente simultánea. No obstante, la etapa de cálculo 222 se debe realizar evidentemente antes de que se active la etapa 224 de prueba.
Debería indicarse también que no todas las pruebas realizadas en las etapas 218, 220 y 224 son necesarias para obtener una determinación correcta de si la tabla es una tabla verdadera o una tabla no verdadera. En particular, la etapa 216 es una característica preferida que, sin embargo, puede omitirse. Las características requeridas de la invención se ponen de manifiesto a partir del conjunto de reivindicaciones adjuntas.

Claims (12)

1. Método llevado a cabo por una unidad de procesado (120) en un terminal de cliente (100), para determinar si una tabla, que presenta unas celdas, en un documento (170) de lenguaje de marcado, es una tabla verdadera o una tabla no verdadera, y para presentar el contenido del documento (170) de lenguaje de marcado de una manera que diferencia entre tablas verdaderas y tablas no verdaderas, caracterizado porque el método comprende:
-
llevar a cabo por lo menos una de entre las pruebas siguientes
-
determinar (224) la densidad de celdas numéricas entre las celdas de la tabla, y establecer la tabla como tabla no verdadera si la densidad de celdas numéricas es inferior a un valor de porcentaje predeterminado, y
-
determinar (220) si cualquier elemento de la tabla es de un tipo incluido en una lista predeterminada de tipos de elemento no permisibles, y establecer la tabla como tabla no verdadera si el tipo de elemento está incluido en dicha lista, y si, en cualquiera de los casos,
-
se determina que la tabla es una tabla no verdadera, formatear la tabla rechazando la estructura de la tabla y presentando el contenido de la tabla en forma de una estructura lineal en un dispositivo de visualización.
2. Método según la reivindicación 1, en el que dicho valor de porcentaje predeterminado está en el intervalo comprendido entre el 20 y el 60 por ciento, preferentemente en el intervalo comprendido entre el 30 y el 50 por ciento y más preferentemente de manera aproximada el 40 por ciento.
3. Método según la reivindicación 1, en el que dicho valor de porcentaje predeterminado está en el intervalo comprendido entre el 30 y el 50 por ciento.
4. Método según la reivindicación 1, en el que dicho valor de porcentaje predeterminado es de aproximadamente el 40 por ciento.
5. Método según la reivindicación 1, en el que dicha etapa (224) de determinar la densidad de celdas numéricas comprende las etapas siguientes
-
determinar el número total n_{tot} de celdas en la tabla,
-
determinar el número n_{num} de celdas que contienen una mayoría de caracteres numéricos,
-
establecer dicha densidad como la fracción n_{num}/n_{tot}.
6. Método según la reivindicación 5, en el que los caracteres "0" a "9" y "+", "-", "%" y "." se consideran como caracteres numéricos.
7. Método según la reivindicación 6, en el que dicha lista predeterminada de tipos de elemento no permisibles incluye uno o más de entre tablas, imágenes grandes, y elementos de película.
8. Método según la reivindicación 1, que comprende además
-
si se determina que la tabla es una tabla verdadera, presentar el contenido de la tabla, incluyendo su estructura de tabla, en un dispositivo de visualización.
9. Terminal de cliente (100) para determinar si una tabla en un documento de lenguaje de marcado es una tabla verdadera o una tabla no verdadera, que comprende
-
una unidad de procesado (120),
-
una memoria (150),
-
una unidad de visualización (110),
caracterizado porque dicha unidad de procesado (120) está dispuesta para realizar un método según una de las reivindicaciones 1 a 8.
10. Programa de ordenador, materializado en un soporte legible por ordenador, en una memoria o en una señal propagada, caracterizado porque el programa de ordenador comprende unas instrucciones de ordenador que, cuando son ejecutadas por una unidad de procesado, realizan un método según una de las reivindicaciones 1 a 8.
11. Navegador web, caracterizado porque comprende un programa de ordenador según la reivindicación 10.
12. Navegador web según la reivindicación 11, que comprende además unas partes de programa de ordenador adaptadas para acceder a dicho documento (170) de lenguaje de marcado de un servidor web conectado a través de una red de comunicaciones al navegador en el terminal de cliente.
ES04775051T 2003-09-11 2004-09-09 Diferenciacion y visualizacion de tablas en documentos. Expired - Lifetime ES2342395T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
NO20034035A NO20034035D0 (no) 2003-09-11 2003-09-11 Skjelne og fremvise tabeller i dokumenter
NO20034035 2003-09-11
US50751303P 2003-10-02 2003-10-02
US507513P 2003-10-02

Publications (1)

Publication Number Publication Date
ES2342395T3 true ES2342395T3 (es) 2010-07-06

Family

ID=34277831

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04775051T Expired - Lifetime ES2342395T3 (es) 2003-09-11 2004-09-09 Diferenciacion y visualizacion de tablas en documentos.

Country Status (5)

Country Link
EP (1) EP1668536B1 (es)
AT (1) ATE459924T1 (es)
DE (1) DE602004025831D1 (es)
ES (1) ES2342395T3 (es)
WO (1) WO2005024652A2 (es)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865720B1 (en) * 1999-03-23 2005-03-08 Canon Kabushiki Kaisha Apparatus and method for dividing document including table

Also Published As

Publication number Publication date
EP1668536A2 (en) 2006-06-14
DE602004025831D1 (de) 2010-04-15
EP1668536B1 (en) 2010-03-03
WO2005024652A3 (en) 2005-07-28
WO2005024652A2 (en) 2005-03-17
ATE459924T1 (de) 2010-03-15

Similar Documents

Publication Publication Date Title
US7900137B2 (en) Presenting HTML content on a screen terminal display
US11580175B2 (en) Transcoding and serving resources
US7516402B2 (en) Presentation of large objects on small displays
JP4208081B2 (ja) 複数のウェブサイトにパーソナライズされた価値を追加するためのシステム、ウェブサーバ、方法およびプログラム
US20040107403A1 (en) Presenting HTML content on a small screen terminal display
CN102779167B (zh) 在移动终端中显示网页的方法及系统
KR20140012664A (ko) 웹페이지 재배치 방법
KR20100135854A (ko) 전자 문서의 선택 영역 표시 시 텍스트의 동적 래핑 방법 및 장치
CN112052368B (zh) 自动提取列表数据的方法、系统、存储介质及电子设备
CN112800372B (zh) 页面加载方法、装置和电子设备
US20070162543A1 (en) Methods and systems for managing fault-tolerant webpage presentation
CN104239326B (zh) 一种对网页字体进行缩放的方法、装置和系统
WO2008132706A1 (en) A web browsing method and system
US20050216846A1 (en) Normal versus small screen rendering with given URL
CN1836203A (zh) 用于显示信息的方法和系统以及装置
US8122338B2 (en) Distinguishing and displaying tables in documents
ES2342395T3 (es) Diferenciacion y visualizacion de tablas en documentos.
US20040051723A1 (en) Method and device for displaying an image composed of pixels
EP1685502A1 (en) Presenting html content on a screen terminal display
CN100419758C (zh) 一种嵌入式浏览装置及方法
CN112749528B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
US7831732B1 (en) Network connection utility
Sandnes To wrap or not to wrap? A study of how long words are split when reflowed on magnified web pages
Gupta et al. Verifying genre-based clustering approach to content extraction
CN108280105B (zh) http缓存方法、装置及用户终端