0% encontró este documento útil (0 votos)

73 vistas3 páginas

Webscraping

Este documento describe el proceso de web scraping, que incluye la recopilación y análisis de información de sitios web para almacenarla de manera estructurada. Explica que se puede usar para encontrar datos sobre libros, películas y productos, y que herramientas como Beautiful Soup y lenguajes como Python facilitan el proceso. También destaca la importancia de considerar aspectos legales y no saturar los servidores durante el scraping.

Cargado por

Ricardo Chuquiling

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

73 vistas3 páginas

Webscraping

Cargado por

Ricardo Chuquiling

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 3

Ricardo Marcelo Chuqui Ortega

rchuquio@est.ups.edu.ec
Ingeniería de Sistemas
Sistemas Distribuidos
Marzo-2020
Por que realizamos web scraping

Esta herramienta se usa para recopilar información de internet y de esta manera almacenarla y
analizarla para hacer uso de esta.

Es muy útil para encontrar información en sitios web sobre libros, series, o películas, aunque
también es muy eficaz para encontrar información de sitios de negocios o ventas de productos.

Hoy en día la información en la web es muy útil como podemos ver hay una gran disponibilidad
en línea de bases de datos determinada.

Como ser en la información de las noticias podemos conocer la tendencia de intereses

particulares.

Web Scraping

Es la construcción de un agente que nos permite descargar, analizar y organizar datos

procedentes de internet de forma automatizada. Esta técnica nos permite diseñar un script
que desarrolle una serie de tareas repetitivas con las que almacenar información de internet es
mucho más fácil y de forma estructurada y mucho más eficiente para acelerar el proceso
evitando muchos errores en la obtención de estos datos.

Además, el uso de web scraping aporta el valor añadido de ser fácilmente automatizable. La
información útil para nuestro proyecto que se encuentra disponible en internet, la recolección
automática o semiautomática es altamente recomendable.

- Para trabajos futuros para mantener actualizadas las bases de datos.

- Terceros con capacidad de replicar nuestros procesos de recolección de datos
- Trabajar con datos que se encuentran en internet.
- La extracción de datos de interés presenta cierta complejidad.

Métodos de recuperación de información de internet

Api Este método es muy eficiente ya que para obtener la información de las páginas web ya
que el proveedor se compromete a ofrecer los datos de manera estándar y bien documentada.

Este método no es muy utilizado por el bajo respaldo de recursos para crear las API que
proporcionan los terceros.

Web publica Permite extraer información dinámica almacenada en cualquier página web.
Aplicación Móvil La extracción de la información de una aplicación móvil suele ser muy
compleja por eso se prioriza la recuperación de los datos de la pagina web.

RSS (rich site summary) Para recibir actualizaciones de información esto garantiza que la
información a ser analizada sea lo más reciente publicada es muy recomendable analizar este
método. Este formato está bien definido y se usa a menudo en los blogs, servicios de
suscripción, resultados de búsquedas y otras instancias en las que la actualización de la
información es constante.

Exportación de datos en archivos Para exportar datos e información directamente en

formatos como CSV, XLSX u otros tipos de hojas de cálculo. Este método tiene una desventaja
es que estos archivos contienen información extraída en un instante de tiempo concreto por lo
que los datos pueden estar desactualizados.

Como realizamos un web Scraping

Esto se puede realizar con varios lenguajes de programación como Python Recuestes y
BeautifulSoup diseñadas para la extracción de contenido web.

Evaluación Inicial

- El archivo robots.txt
- El mapa del sitio web
- Su tamaño
- La tecnología usada y
- El propietario de este

El archivo robots.txt Se encarga de analizar el contenido ya que este archivo es donde la

mayor parte de las paginas web indican restricciones a tener en cuenta para no ser
bloqueados.

Mapa del sitio web Noa ayuda a localizar el contenido mas actualizado sin la necesidad de
rastrear cada una de la paginas que lo componen. Este mapa de un sitio web se describe
mediante el formato Simplemaps XML.

Tamaño Es una parte muy importante de una página web ya que esta afectara la forma de
realizar el rastreo. Cuando el sitio es demasiado grande la descarga de información será
concurrente y muy relevante. Se usa la palabra cite para encontrar el tamaño de la página de
internet.

Tecnología Consta del uso de herramientas para inspeccionar la información de las páginas
web una de ellas es builtwith, mediante el comando pip3 install donde esta función llama al
sitio web que se pretende inspeccionar.

Propietario Conocer al propietario de la pagina web a la cual queremos rastrear.

Creación de archivos json

Javascript Object se trata de un formato de computación sencillo que resulta fácil de leer y
implementar.

1. Una colección de pares nombre/valor objeto.

2. Una lista ordenada de valores array.
Creación de un API

Cuando ya se obtenido los datos de interés mediante la web scraping puede ser muy útil crear
una Api para acceder de manera amigable a dichos datos almacenados.

Repositorio de datos

Es la importancia de compartir los datos de calidad en internet con la finalidad de contribuir

con nuevo conocimiento que se almacenan en repositorios públicos.

Aspectos legales

1. Incumplimiento de términos y condiciones la mayoría de paginas web publican una

serie de términos y condiciones o acuerdos de licencia esto implica su contenido
mediante rastreadores.
2. Infracción de derechos de autor o marca registrada la legislación legal del uso justo
permite el uso limitado de material protegido por los derechos de autor.
3. Ley de fraude y abuso informático Leyes que prohíben el acceso a maquinas de otras
personas incumpliendo esta ley.
4. Allanamiento de morada delito civil propiedad personal de un individuo causando
perdida de valor o daño.
5. Protocolo de exclusión de robots estándar que permite que las páginas web puedan
contar con un archivo robots.txt.
6. Ley de derechos del milenio digital producida por un delito de la producción y difusión
de tecnología, dispositivos o servicios destinados a eludir medidas que controlan el
acceso a material protegidos por derechos de autor.

Mejores prácticas y consejos

1. 1 verificar si ya existe una API que permita recuperar la información de interés sin
limitaciones.
2. No parsear el html manualmente el uso de BeautifulSoup facilita esta tarea.
3. No saturar de peticiones el servidor web ya que esto aumentara las posibilidades de
ser bloqueados.
4. Modificar el user agent ya que muchos sitios revisan esta cabecera para prevenir el
web scraping.
5. Chequear el navegador abrir una nueva sesión en el navegador preferiblemente
utilizado el modo incógnito.
6. Asumir que la web scraper dejara de funcionar implementar un código que
proporcione advertencias tempranas y detalladas cuando algún fragmento deje de
funcionar.
7. Tener en cuanta la calidad y robustez de los datos obtenidos.
8. Recordar los aspectos legales asociados al web scraping con el objetivo de hacer un
buen uso de los datos obtenidos.

También podría gustarte

Web Scraping
Aún no hay calificaciones
Web Scraping
3 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
8 páginas
Web Scraping - INICIACION2 Envio
Aún no hay calificaciones
Web Scraping - INICIACION2 Envio
182 páginas
Lec Ing Sist 0086 2020
Aún no hay calificaciones
Lec Ing Sist 0086 2020
7 páginas
Web Scraping Marcos Camacho
Aún no hay calificaciones
Web Scraping Marcos Camacho
1 página
Qué Es Web Scraping
Aún no hay calificaciones
Qué Es Web Scraping
9 páginas
Consultoria Web Scraping
Aún no hay calificaciones
Consultoria Web Scraping
6 páginas
Web Scraping: Ventaja o Riesgo Legal
Aún no hay calificaciones
Web Scraping: Ventaja o Riesgo Legal
18 páginas
Introducción al Web Scraping
Aún no hay calificaciones
Introducción al Web Scraping
20 páginas
Web Scraping 2
Aún no hay calificaciones
Web Scraping 2
66 páginas
Web Scraping
0% (1)
Web Scraping
3 páginas
TFG Villanueva Rodriguez 2019
Aún no hay calificaciones
TFG Villanueva Rodriguez 2019
90 páginas
Guía Completa de Web Scraping
Aún no hay calificaciones
Guía Completa de Web Scraping
2 páginas
Web - Scraping - Jaime Lopez
Aún no hay calificaciones
Web - Scraping - Jaime Lopez
5 páginas
Técnicas de Web Scraping y Crawling
Aún no hay calificaciones
Técnicas de Web Scraping y Crawling
7 páginas
Web Scraping - Google Drive
Aún no hay calificaciones
Web Scraping - Google Drive
27 páginas
Presentacion Taller Scraping Santiago Espinosa
Aún no hay calificaciones
Presentacion Taller Scraping Santiago Espinosa
17 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
26 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
1 página
Taller de Web Scraping UC
Aún no hay calificaciones
Taller de Web Scraping UC
24 páginas
Master Penetration Testing Web
Aún no hay calificaciones
Master Penetration Testing Web
81 páginas
Memoria EPSU1195
Aún no hay calificaciones
Memoria EPSU1195
44 páginas
Web Scraping, Web Crawling y Parsing - Omar Manrique
Aún no hay calificaciones
Web Scraping, Web Crawling y Parsing - Omar Manrique
2 páginas
Clase
Aún no hay calificaciones
Clase
5 páginas
Imprimir Es
Aún no hay calificaciones
Imprimir Es
8 páginas
El Web Scraping
Aún no hay calificaciones
El Web Scraping
10 páginas
Scrapper y Apis
Aún no hay calificaciones
Scrapper y Apis
2 páginas
Guía de Web Scraping y Power BI
Aún no hay calificaciones
Guía de Web Scraping y Power BI
34 páginas
Guía de Web Scraping y Power BI
Aún no hay calificaciones
Guía de Web Scraping y Power BI
10 páginas
TFG David Jimenez Lozano
Aún no hay calificaciones
TFG David Jimenez Lozano
84 páginas
Es Legal El Web Scraping en 2024
Aún no hay calificaciones
Es Legal El Web Scraping en 2024
4 páginas
Python WebScraping
Aún no hay calificaciones
Python WebScraping
50 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
41 páginas
Guía de Scraping Web para Principiantes
Aún no hay calificaciones
Guía de Scraping Web para Principiantes
5 páginas
Introduccion A WebScraping
Aún no hay calificaciones
Introduccion A WebScraping
12 páginas
Curso de Web Scraping en Python
Aún no hay calificaciones
Curso de Web Scraping en Python
1 página
Raspado Web Impulsado Por IA en 2024: Mejores Prácticas y Casos de Uso
Aún no hay calificaciones
Raspado Web Impulsado Por IA en 2024: Mejores Prácticas y Casos de Uso
6 páginas
Informe Ejecutivo - Apaza Machicao Juan Luis
Aún no hay calificaciones
Informe Ejecutivo - Apaza Machicao Juan Luis
6 páginas
Guión Presentación Del Proyecto Final.
Aún no hay calificaciones
Guión Presentación Del Proyecto Final.
1 página
Documento de Apoyo - CEHSP PDF
Aún no hay calificaciones
Documento de Apoyo - CEHSP PDF
101 páginas
Métodos de Descubrimiento Web
Aún no hay calificaciones
Métodos de Descubrimiento Web
5 páginas
UADE CD - Clase 9 - Web Scraping
Aún no hay calificaciones
UADE CD - Clase 9 - Web Scraping
36 páginas
1646 9895 Rist 52 61
Aún no hay calificaciones
1646 9895 Rist 52 61
13 páginas
Entregable Web Scraping
Aún no hay calificaciones
Entregable Web Scraping
6 páginas
La Web Superficial y La Web Profunda
Aún no hay calificaciones
La Web Superficial y La Web Profunda
7 páginas
Mcayap 13052025
Aún no hay calificaciones
Mcayap 13052025
34 páginas
Guía de Scraping y Librerías Python
Aún no hay calificaciones
Guía de Scraping y Librerías Python
14 páginas
Gathering
Aún no hay calificaciones
Gathering
37 páginas
T5 HackingWeb
Aún no hay calificaciones
T5 HackingWeb
43 páginas
HE03 Resumen
Aún no hay calificaciones
HE03 Resumen
13 páginas
Imagens Raspadas de Páginas Da Web
Aún no hay calificaciones
Imagens Raspadas de Páginas Da Web
12 páginas
Fundamentos de Web Scrapping Con Python y Xpath
100% (1)
Fundamentos de Web Scrapping Con Python y Xpath
33 páginas
Web Scraping Python: Guía y Herramientas
0% (1)
Web Scraping Python: Guía y Herramientas
1 página
La Biblia Del Footprinting
Aún no hay calificaciones
La Biblia Del Footprinting
41 páginas
Guía de JSF y CDI para Desarrolladores
Aún no hay calificaciones
Guía de JSF y CDI para Desarrolladores
47 páginas
Redes: Manual de Procedimiento
Aún no hay calificaciones
Redes: Manual de Procedimiento
2 páginas
Informe Series SMA Febrero 2020
Aún no hay calificaciones
Informe Series SMA Febrero 2020
33 páginas
Security Onion
Aún no hay calificaciones
Security Onion
5 páginas
Guía Docker para Docentes de Sistemas
Aún no hay calificaciones
Guía Docker para Docentes de Sistemas
9 páginas
Configuración VPN SSL en Redes III
Aún no hay calificaciones
Configuración VPN SSL en Redes III
6 páginas
WAN Introduction - En.es
Aún no hay calificaciones
WAN Introduction - En.es
58 páginas
Modelo Contrato para El Desarrollo de Software
Aún no hay calificaciones
Modelo Contrato para El Desarrollo de Software
9 páginas
Examen Parcial Algoritmica I
Aún no hay calificaciones
Examen Parcial Algoritmica I
1 página
Pseudocódigo
100% (2)
Pseudocódigo
2 páginas
Símbolos y Procesos en Diagramas de Flujo
90% (50)
Símbolos y Procesos en Diagramas de Flujo
4 páginas
Practica 01 Calc
Aún no hay calificaciones
Practica 01 Calc
3 páginas
Decisión de Lenguaje de Programación
Aún no hay calificaciones
Decisión de Lenguaje de Programación
5 páginas
Modulo I Evolucion de La Computadora, Cenceptos Basicos e Informatica Juridica
Aún no hay calificaciones
Modulo I Evolucion de La Computadora, Cenceptos Basicos e Informatica Juridica
39 páginas
Pseudo Soft
Aún no hay calificaciones
Pseudo Soft
20 páginas
8.0 M1 Interrupciones
Aún no hay calificaciones
8.0 M1 Interrupciones
40 páginas
Eticket - Confirmación de Compra 2
Aún no hay calificaciones
Eticket - Confirmación de Compra 2
1 página
Actividades Plan de Mejoramiento Fase de Analisis
Aún no hay calificaciones
Actividades Plan de Mejoramiento Fase de Analisis
11 páginas
Atlas Ilustraciones Medicas 377387 Downloable 263379 PDF
Aún no hay calificaciones
Atlas Ilustraciones Medicas 377387 Downloable 263379 PDF
63 páginas
Excel Avanzado: Análisis Económico Qatar
Aún no hay calificaciones
Excel Avanzado: Análisis Económico Qatar
4 páginas
Nueva Función LET en Excel
Aún no hay calificaciones
Nueva Función LET en Excel
5 páginas
Ejemplo PROPUESTA TECNICA Y ECONOMICA PARA LA IMPLEMENTACION DEL PROYECTO
Aún no hay calificaciones
Ejemplo PROPUESTA TECNICA Y ECONOMICA PARA LA IMPLEMENTACION DEL PROYECTO
29 páginas
Investigación Manejo de Errores y Excepciones
Aún no hay calificaciones
Investigación Manejo de Errores y Excepciones
6 páginas
HP PageWide P57750dw
Aún no hay calificaciones
HP PageWide P57750dw
2 páginas
AFM1
Aún no hay calificaciones
AFM1
64 páginas
Orden No. 51863 PDF
Aún no hay calificaciones
Orden No. 51863 PDF
3 páginas
Modelos de Red: OSI vs TCP/IP
Aún no hay calificaciones
Modelos de Red: OSI vs TCP/IP
4 páginas
Trabajo 1 Tecnicas POO 2025
Aún no hay calificaciones
Trabajo 1 Tecnicas POO 2025
5 páginas
1.2 Verificación Dolly Aplicación
Aún no hay calificaciones
1.2 Verificación Dolly Aplicación
15 páginas
UNIDAD 1 Confección de Interfaces de Usuario
Aún no hay calificaciones
UNIDAD 1 Confección de Interfaces de Usuario
48 páginas
Infografia, Informatica, Alejandra Breto
Aún no hay calificaciones
Infografia, Informatica, Alejandra Breto
1 página
RespuestasU2 PDF
Aún no hay calificaciones
RespuestasU2 PDF
2 páginas
Hacking con Google: Comandos y Riesgos
Aún no hay calificaciones
Hacking con Google: Comandos y Riesgos
8 páginas
Combinacion de Correspondencia
Aún no hay calificaciones
Combinacion de Correspondencia
3 páginas
Silo - Tips Payworks Comercio Electronico Manual de Integracion
Aún no hay calificaciones
Silo - Tips Payworks Comercio Electronico Manual de Integracion
20 páginas
SPSS BASICO-ENEI-Clase 03
Aún no hay calificaciones
SPSS BASICO-ENEI-Clase 03
23 páginas
Unidad 4 Controles Electr
Aún no hay calificaciones
Unidad 4 Controles Electr
8 páginas