[go: up one dir, main page]

0% encontró este documento útil (0 votos)
73 vistas3 páginas

Webscraping

Este documento describe el proceso de web scraping, que incluye la recopilación y análisis de información de sitios web para almacenarla de manera estructurada. Explica que se puede usar para encontrar datos sobre libros, películas y productos, y que herramientas como Beautiful Soup y lenguajes como Python facilitan el proceso. También destaca la importancia de considerar aspectos legales y no saturar los servidores durante el scraping.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
73 vistas3 páginas

Webscraping

Este documento describe el proceso de web scraping, que incluye la recopilación y análisis de información de sitios web para almacenarla de manera estructurada. Explica que se puede usar para encontrar datos sobre libros, películas y productos, y que herramientas como Beautiful Soup y lenguajes como Python facilitan el proceso. También destaca la importancia de considerar aspectos legales y no saturar los servidores durante el scraping.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 3

Ricardo Marcelo Chuqui Ortega

rchuquio@est.ups.edu.ec
Ingeniería de Sistemas
Sistemas Distribuidos
Marzo-2020
Por que realizamos web scraping

Esta herramienta se usa para recopilar información de internet y de esta manera almacenarla y
analizarla para hacer uso de esta.

Es muy útil para encontrar información en sitios web sobre libros, series, o películas, aunque
también es muy eficaz para encontrar información de sitios de negocios o ventas de productos.

Hoy en día la información en la web es muy útil como podemos ver hay una gran disponibilidad
en línea de bases de datos determinada.

Como ser en la información de las noticias podemos conocer la tendencia de intereses


particulares.

Web Scraping

Es la construcción de un agente que nos permite descargar, analizar y organizar datos


procedentes de internet de forma automatizada. Esta técnica nos permite diseñar un script
que desarrolle una serie de tareas repetitivas con las que almacenar información de internet es
mucho más fácil y de forma estructurada y mucho más eficiente para acelerar el proceso
evitando muchos errores en la obtención de estos datos.

Además, el uso de web scraping aporta el valor añadido de ser fácilmente automatizable. La
información útil para nuestro proyecto que se encuentra disponible en internet, la recolección
automática o semiautomática es altamente recomendable.

- Para trabajos futuros para mantener actualizadas las bases de datos.


- Terceros con capacidad de replicar nuestros procesos de recolección de datos
- Trabajar con datos que se encuentran en internet.
- La extracción de datos de interés presenta cierta complejidad.

Métodos de recuperación de información de internet

Api Este método es muy eficiente ya que para obtener la información de las páginas web ya
que el proveedor se compromete a ofrecer los datos de manera estándar y bien documentada.

Este método no es muy utilizado por el bajo respaldo de recursos para crear las API que
proporcionan los terceros.

Web publica Permite extraer información dinámica almacenada en cualquier página web.
Aplicación Móvil La extracción de la información de una aplicación móvil suele ser muy
compleja por eso se prioriza la recuperación de los datos de la pagina web.

RSS (rich site summary) Para recibir actualizaciones de información esto garantiza que la
información a ser analizada sea lo más reciente publicada es muy recomendable analizar este
método. Este formato está bien definido y se usa a menudo en los blogs, servicios de
suscripción, resultados de búsquedas y otras instancias en las que la actualización de la
información es constante.

Exportación de datos en archivos Para exportar datos e información directamente en


formatos como CSV, XLSX u otros tipos de hojas de cálculo. Este método tiene una desventaja
es que estos archivos contienen información extraída en un instante de tiempo concreto por lo
que los datos pueden estar desactualizados.

Como realizamos un web Scraping

Esto se puede realizar con varios lenguajes de programación como Python Recuestes y
BeautifulSoup diseñadas para la extracción de contenido web.

Evaluación Inicial

- El archivo robots.txt
- El mapa del sitio web
- Su tamaño
- La tecnología usada y
- El propietario de este

El archivo robots.txt Se encarga de analizar el contenido ya que este archivo es donde la


mayor parte de las paginas web indican restricciones a tener en cuenta para no ser
bloqueados.

Mapa del sitio web Noa ayuda a localizar el contenido mas actualizado sin la necesidad de
rastrear cada una de la paginas que lo componen. Este mapa de un sitio web se describe
mediante el formato Simplemaps XML.

Tamaño Es una parte muy importante de una página web ya que esta afectara la forma de
realizar el rastreo. Cuando el sitio es demasiado grande la descarga de información será
concurrente y muy relevante. Se usa la palabra cite para encontrar el tamaño de la página de
internet.

Tecnología Consta del uso de herramientas para inspeccionar la información de las páginas
web una de ellas es builtwith, mediante el comando pip3 install donde esta función llama al
sitio web que se pretende inspeccionar.

Propietario Conocer al propietario de la pagina web a la cual queremos rastrear.

Creación de archivos json

Javascript Object se trata de un formato de computación sencillo que resulta fácil de leer y
implementar.

1. Una colección de pares nombre/valor objeto.


2. Una lista ordenada de valores array.
Creación de un API

Cuando ya se obtenido los datos de interés mediante la web scraping puede ser muy útil crear
una Api para acceder de manera amigable a dichos datos almacenados.

Repositorio de datos

Es la importancia de compartir los datos de calidad en internet con la finalidad de contribuir


con nuevo conocimiento que se almacenan en repositorios públicos.

Aspectos legales

1. Incumplimiento de términos y condiciones la mayoría de paginas web publican una


serie de términos y condiciones o acuerdos de licencia esto implica su contenido
mediante rastreadores.
2. Infracción de derechos de autor o marca registrada la legislación legal del uso justo
permite el uso limitado de material protegido por los derechos de autor.
3. Ley de fraude y abuso informático Leyes que prohíben el acceso a maquinas de otras
personas incumpliendo esta ley.
4. Allanamiento de morada delito civil propiedad personal de un individuo causando
perdida de valor o daño.
5. Protocolo de exclusión de robots estándar que permite que las páginas web puedan
contar con un archivo robots.txt.
6. Ley de derechos del milenio digital producida por un delito de la producción y difusión
de tecnología, dispositivos o servicios destinados a eludir medidas que controlan el
acceso a material protegidos por derechos de autor.

Mejores prácticas y consejos

1. 1 verificar si ya existe una API que permita recuperar la información de interés sin
limitaciones.
2. No parsear el html manualmente el uso de BeautifulSoup facilita esta tarea.
3. No saturar de peticiones el servidor web ya que esto aumentara las posibilidades de
ser bloqueados.
4. Modificar el user agent ya que muchos sitios revisan esta cabecera para prevenir el
web scraping.
5. Chequear el navegador abrir una nueva sesión en el navegador preferiblemente
utilizado el modo incógnito.
6. Asumir que la web scraper dejara de funcionar implementar un código que
proporcione advertencias tempranas y detalladas cuando algún fragmento deje de
funcionar.
7. Tener en cuanta la calidad y robustez de los datos obtenidos.
8. Recordar los aspectos legales asociados al web scraping con el objetivo de hacer un
buen uso de los datos obtenidos.

También podría gustarte