SP+ +Web+Scraping+Formulario+2.0

El documento proporciona una guía sobre web scraping utilizando herramientas como Beautiful Soup, Selenium y Scrapy. Se discuten conceptos básicos de HTML, la sintaxis de XPath y ejemplos prácticos para localizar elementos en una página web. Además, se explican las diferencias entre Selenium 3 y 4, así como la creación de proyectos y spiders en Scrapy.

Cargado por

Leonardo Rivas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

12 vistas3 páginas

SP+ +Web+Scraping+Formulario+2.0

Cargado por

Leonardo Rivas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 3

Web Scraping

Formulario

BS4 | Selenium | Scrapy

Frank Andrade
Web Scraping “Hermanos” son nodos con los mismos padres.
Es recomendable para principiantes usar IDs para
encontrar elementos y si no los hay se recomienda
XPath

Formulario
Necesitamos aprender XPath para hacer web
construir un XPath. scraping con Selenium y Scrapy.
Beautiful Soup
El web scraping nos permite extraer data de la web. Antes de XPath Sintaxis
aprender Beautiful Soup, Selenium o Scrapy, vamos a revisar
Flujo de Trabajo Un XPath usualmente contiene un tag, nombre de
Importar librerías atributo y valor de atributo.
conceptos básicos de HTML. from bs4 import BeautifulSoup
import requests //tag[@Atributo="Valor"]
HTML básico para Web Scraping Obtener páginas
Analicemos el siguiente elemento HTML. result=requests.get("www.google.com") Veamos algunos ejemplos de como localizar el
result.status_code #obtener status elemento article, el titulo de la película y transcript
Tag Nombre Valor Tag result.headers #obtener encabezados del código HTML que vimos antes.
apertura Atributo Atributo cierre
Contenido de la página
contenido = result.text //article[@class="main-article"]
<h1 class="title"> Titanic (1997) </h1> //h1
Crear soup
soup=BeautifulSoup(contenido,"lxml") //div[@class="full-script"]
Atributo Contenido Afectado
HTML en formato legible
Elemento HTML print(soup.prettify()) XPath Funciones y Operadores
XPath funciones
Este es solo un elemento HTML, pero el documento HTML detrás Encontrar un elemento
soup.find(id="mi_id") //tag[contains(@Atributo, "Valor")]
de una página web tiene varios elmentos como este.
Encontrar elementos XPath Operadores: and, or
Código HTML ejemplo
soup.find_all("a")
<article class="main-article"> soup.find_all("a","css_class") //tag[(expresion 1) and (expresion 2)]
<h1> Titanic (1997) </h1> soup.find_all("a",class_="mi_class")
<p class="plot"> 84 years later ... </p> soup.find_all("a",attrs={"class":
"mi_class"}) XPath Caracteres Especiales
<div class="full-script"> 13 meters. You ... </div> Obtener texto
Selecciona los hijos del nodo ubicado a la
</article> ejemplo=elemento.get_text() /
ejemplo=elemento.get_text(strip=True, izquiera de este caracter
El documento HTML está estructurado con "nodos". Cada separator= ' ') Especifica que el nodo a emparejar puede
Obtener atributos // estar en cualquier nivel del documento
rectángulo debajo representa un nodo (elemento, atributo o texto) ejemplo = elemento.get('href')
Especifica que el contexto actual debería
Elemento Raíz
<article>
Nodo Padre . ser usado (el nodo referencia)
..
Estas son mis tutoriales y cursos
- Guías de Medium/Videos de YouTube
Selecciona a un nodo padre
Caracter comodín que selecciona todos los
Elemento Atributo Elemento Elemento - Curso de Web Scraping * elementos sin importar el nombre
<h1> class="main-article" <p> <div>
Hermanos - Curso de Data Science @ Selecciona un atributo
- Curso de Automatización () Indica una agrupación dentro de un XPath
Texto Atributo Texto Atributo Texto
Titanic (1997) class="plot" 84 years later ... class="full-script"" 13 meters. You ...
Frank Andrade: www.youtube.com/andradefrank [n] Indica que un nodo con index "n" debe ser
seleccionado
Selenium 4 Scrapy
Ten en cuenta que hay algunos cambios entre las versiones de Selenium 3.x Scrapy es el framework más complete de web scraping en Python. Para
y Selenium 4. configurarlo revisa la documentación de Scrapy.
Importar librerías
from selenium import webdriver Crear un Proyecto y Spider
from selenium.webdriver.chrome.service import Service Para crear un nuevo proyecto, corre el siguiente comando en el terminal o cmd
scrapy startproject mi_primer_spider
web="www.google.com" Para crear un nuevo spider, primero cambia el directorio
path='introduce ruta del chromedriver' cd mi_primer_spider
service = Service(executable_path=path) # selenium 4 Crear un spider
driver = webdriver.Chrome(service=service) # selenium 4 scrapy genspider ejemplo ejemplo.com
driver.get(web)
La plantilla básica
Nota: Cuando creamos un spider, obtenemos una plantilla con el siguiente contenido.
driver = webdriver.Chrome(path) # selenium 3.x
import scrapy
Encontrar un elemento
driver.find_element(by="id", value="...") # selenium 4 class ExampleSpider(scrapy.Spider):
driver.find_element_by_id('nombre-id') # selenium 3.x name = 'ejemplo'
allowed_domains = ['ejemplo.com'] Clase
Encontrar elements start_urls = ['http://ejemplo.com/']
driver.find_elements(by="xpath", value="...") # selenium 4
driver.find_elements_by_xpath("escribir-xpath") # selenium 3.x
def parse(self, response):
Método Parse
Cerrar driver pass
driver.quit()
La clase es contruida con la data que introducimos en el comando previo, pero el
Obtener el texto método parse tenemos que construirlo nosotros.
data = elemento.text
Buscando elementos
Espera Implícita Para buscar elementos con Scrapy, usa el argumento "response" del método parse
import time
time.sleep(2) response.xpath('//tag[@Atributo="Valor"]')
Obtener texto
Espera Explícita Para obtener el elemento texto usamos text() y luego .get() o .getall(). Por ejemplo:
from selenium.webdriver.common.by import By response.xpath(‘//h1/text()’).get()
from selenium.webdriver.support.ui import WebDriverWait response.xpath(‘//tag[@Atributo=”Valor”]/text()’).getall()
from selenium.webdriver.support import expected_conditions as EC
Devolver la data extraída
WebDriverWait(driver,5).until(EC.element_to_be_clickable((By.ID, Para ver la data extraída tenemos que usar la palabra clave yield
'id_name'))) #esperar 5 segundos hasta poder encontrar elemento
def parse(self, response):
Opciones: Headless mode, cambiar tamaño de ventana title = response.xpath(‘//h1/text()’).get()
from selenium.webdriver.chrome.options import Options
opciones = Options() # Devolver data extraída
opciones.headless = True yield {'titles': title}
opciones.add_argument('window-size=1920x1080')
driver = webdriver.Chrome(path,options=opciones) Correr el spider y exportar data a CSV o JSON
scrapy crawl ejemplo
scrapy crawl ejemplo -o nombre_archivo.csv
scrapy crawl ejemplo -o nombre_archivo.json

También podría gustarte

Web Scraping Formulario
Aún no hay calificaciones
Web Scraping Formulario
3 páginas
Web - Scraping - Jaime Lopez
Aún no hay calificaciones
Web - Scraping - Jaime Lopez
5 páginas
Guía de Scrapy para Principiantes
Aún no hay calificaciones
Guía de Scrapy para Principiantes
3 páginas
Prog Datasci 5 API Tutorial Scrapy
Aún no hay calificaciones
Prog Datasci 5 API Tutorial Scrapy
6 páginas
Fundamentos de Web Scrapping Con Python y Xpath
100% (1)
Fundamentos de Web Scrapping Con Python y Xpath
33 páginas
Introduccion A WebScraping
Aún no hay calificaciones
Introduccion A WebScraping
12 páginas
Guía de Web Scraping con Python
Aún no hay calificaciones
Guía de Web Scraping con Python
12 páginas
Web Scraping Con Python. Guía de Inicio de Beautiful Soup PDF
Aún no hay calificaciones
Web Scraping Con Python. Guía de Inicio de Beautiful Soup PDF
11 páginas
Web Scraping con Python y XPath
100% (1)
Web Scraping con Python y XPath
18 páginas
1-Fundamentos de Web Scraping Con Python-Slidesxpath
100% (1)
1-Fundamentos de Web Scraping Con Python-Slidesxpath
34 páginas
Web Scrapping
Aún no hay calificaciones
Web Scrapping
4 páginas
Herramientas y Técnicas Básicas de Scraping
Aún no hay calificaciones
Herramientas y Técnicas Básicas de Scraping
22 páginas
Clase
Aún no hay calificaciones
Clase
5 páginas
Guía de Scraping y Librerías Python
Aún no hay calificaciones
Guía de Scraping y Librerías Python
14 páginas
Web Scraping Python: Guía y Herramientas
0% (1)
Web Scraping Python: Guía y Herramientas
1 página
Entregable Web Scraping
Aún no hay calificaciones
Entregable Web Scraping
6 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
26 páginas
Curso de Fundamentos de Web Scraping Con Python y Xpath
Aún no hay calificaciones
Curso de Fundamentos de Web Scraping Con Python y Xpath
6 páginas
Tomo 1 - Guía Selenium
Aún no hay calificaciones
Tomo 1 - Guía Selenium
31 páginas
Introducción al Web Scraping
Aún no hay calificaciones
Introducción al Web Scraping
20 páginas
Técnicas de Scraping Web en Python
Aún no hay calificaciones
Técnicas de Scraping Web en Python
14 páginas
Utilizar Scrapy Sin La Terminal
Aún no hay calificaciones
Utilizar Scrapy Sin La Terminal
2 páginas
Web Scraping
Aún no hay calificaciones
Web Scraping
1 página
Charla Python Fli Sol 2016
Aún no hay calificaciones
Charla Python Fli Sol 2016
31 páginas
XPath en Selenium: Guía Completa SEO
Aún no hay calificaciones
XPath en Selenium: Guía Completa SEO
18 páginas
Técnicas de Web Scraping y Crawling
Aún no hay calificaciones
Técnicas de Web Scraping y Crawling
7 páginas
Entregable Web Scraping
Aún no hay calificaciones
Entregable Web Scraping
6 páginas
Taller de Web Scraping UC
Aún no hay calificaciones
Taller de Web Scraping UC
24 páginas
Taller 2 Big Data - Entrega - Final
Aún no hay calificaciones
Taller 2 Big Data - Entrega - Final
11 páginas
Element Tree
Aún no hay calificaciones
Element Tree
34 páginas
Selectores CSS, Id, Xpath
Aún no hay calificaciones
Selectores CSS, Id, Xpath
14 páginas
Scrapear Web Con Python y Depositar Contenido en Google Sheets Nivel Chuck Norris
Aún no hay calificaciones
Scrapear Web Con Python y Depositar Contenido en Google Sheets Nivel Chuck Norris
11 páginas
Presentacion Taller Scraping Santiago Espinosa
Aún no hay calificaciones
Presentacion Taller Scraping Santiago Espinosa
17 páginas
Xpath Es
Aún no hay calificaciones
Xpath Es
41 páginas
Qué Es Web Scraping
Aún no hay calificaciones
Qué Es Web Scraping
9 páginas
Webscraping
Aún no hay calificaciones
Webscraping
60 páginas
Tutorial J Query
Aún no hay calificaciones
Tutorial J Query
26 páginas
Tutorial Rápido de Jquery
Aún no hay calificaciones
Tutorial Rápido de Jquery
17 páginas
Ana - Investigaciòn de Topicos Selectos de Base de Datos
Aún no hay calificaciones
Ana - Investigaciòn de Topicos Selectos de Base de Datos
22 páginas
Python WebScraping
Aún no hay calificaciones
Python WebScraping
50 páginas
PDF. Lenguajes de Marcas y Sistemas de Gestión de Información. Tema 12
Aún no hay calificaciones
PDF. Lenguajes de Marcas y Sistemas de Gestión de Información. Tema 12
13 páginas
Examen Pow Ord
Aún no hay calificaciones
Examen Pow Ord
5 páginas
Guía de Web Scraping y Power BI
Aún no hay calificaciones
Guía de Web Scraping y Power BI
34 páginas
Transformación y XPath en XML
Aún no hay calificaciones
Transformación y XPath en XML
35 páginas
Guía de Python y Web Scraping
Aún no hay calificaciones
Guía de Python y Web Scraping
24 páginas
Guía Completa de Web Scraping
Aún no hay calificaciones
Guía Completa de Web Scraping
2 páginas
Tomo 1 - Guía Selenium-7-9
Aún no hay calificaciones
Tomo 1 - Guía Selenium-7-9
3 páginas
Web Scraping, Web Crawling y Parsing - Omar Manrique
Aún no hay calificaciones
Web Scraping, Web Crawling y Parsing - Omar Manrique
2 páginas
Curso de Web Scraping en Python
Aún no hay calificaciones
Curso de Web Scraping en Python
1 página
XPATH
Aún no hay calificaciones
XPATH
39 páginas
Tomo 1 - Guía Selenium-2-6
Aún no hay calificaciones
Tomo 1 - Guía Selenium-2-6
5 páginas
UADE CD - Clase 9 - Web Scraping
Aún no hay calificaciones
UADE CD - Clase 9 - Web Scraping
36 páginas
Tema 5 Imprimir
Aún no hay calificaciones
Tema 5 Imprimir
12 páginas
Temario Curso HTML5
Aún no hay calificaciones
Temario Curso HTML5
34 páginas
Apuntes XPath
Aún no hay calificaciones
Apuntes XPath
3 páginas
D3 - Diferencias HTML y HTML5 - Noelia
Aún no hay calificaciones
D3 - Diferencias HTML y HTML5 - Noelia
19 páginas
Guía de Scraping Web para Principiantes
Aún no hay calificaciones
Guía de Scraping Web para Principiantes
5 páginas
Introducción A XQuery Con Ejemplos
Aún no hay calificaciones
Introducción A XQuery Con Ejemplos
105 páginas
Master Penetration Testing Web
Aún no hay calificaciones
Master Penetration Testing Web
81 páginas
Bombas Hidráulicas para Tractores FIAT
Aún no hay calificaciones
Bombas Hidráulicas para Tractores FIAT
1 página
Byron J GOOD Medicina Racionalidad y Experiencia U
Aún no hay calificaciones
Byron J GOOD Medicina Racionalidad y Experiencia U
5 páginas
Guantes de Señas con Audio Open Source
Aún no hay calificaciones
Guantes de Señas con Audio Open Source
23 páginas
? (AC-S14) Semana 14 - Caso - FILOSOFIA DE LA EDUCACION
Aún no hay calificaciones
? (AC-S14) Semana 14 - Caso - FILOSOFIA DE LA EDUCACION
12 páginas
Plan de Clase Pensamiento Robinsoniana.
Aún no hay calificaciones
Plan de Clase Pensamiento Robinsoniana.
4 páginas
Evaluando - Norberto Alarcon
Aún no hay calificaciones
Evaluando - Norberto Alarcon
270 páginas
Censo2020 CAAS Descriptor BD
Aún no hay calificaciones
Censo2020 CAAS Descriptor BD
12 páginas
Examen 5 de Anualidad Modelo B
Aún no hay calificaciones
Examen 5 de Anualidad Modelo B
8 páginas
Leister Plastic-Welding BR Hot-Air-Hand-Tools ES PDF
Aún no hay calificaciones
Leister Plastic-Welding BR Hot-Air-Hand-Tools ES PDF
28 páginas
Yessenia Cosntante - Valeria Taco Marco Teorico Clonacion
Aún no hay calificaciones
Yessenia Cosntante - Valeria Taco Marco Teorico Clonacion
26 páginas
Diferencias Entre Los Mensajes de Entidades de Diferentes Niveles Evolutivos
Aún no hay calificaciones
Diferencias Entre Los Mensajes de Entidades de Diferentes Niveles Evolutivos
4 páginas
Historia de La Psicologia
Aún no hay calificaciones
Historia de La Psicologia
7 páginas
Diseño de Sedimentador con Coagulación Previa
Aún no hay calificaciones
Diseño de Sedimentador con Coagulación Previa
14 páginas
Del Abandono Al Mundo Virtual
Aún no hay calificaciones
Del Abandono Al Mundo Virtual
12 páginas
Ser Padres Sin Castigar
Aún no hay calificaciones
Ser Padres Sin Castigar
172 páginas
El Caso de La Industria Automotriz de La Región Centro Norte: Un Enfoque Espacial de Insumo-Producto-Regional
Aún no hay calificaciones
El Caso de La Industria Automotriz de La Región Centro Norte: Un Enfoque Espacial de Insumo-Producto-Regional
30 páginas
Brochure - Calderas Atack EKO
Aún no hay calificaciones
Brochure - Calderas Atack EKO
2 páginas
Perfil egresoTutoria-Socioemocional
Aún no hay calificaciones
Perfil egresoTutoria-Socioemocional
2 páginas
Proyecto de Dinámica de Mecanismos (Versión Ultima)
Aún no hay calificaciones
Proyecto de Dinámica de Mecanismos (Versión Ultima)
3 páginas
Historia Del Teletrabajo Resumen
100% (1)
Historia Del Teletrabajo Resumen
5 páginas
2do VER PDC
Aún no hay calificaciones
2do VER PDC
16 páginas
Ses-Juev-Cyt - Indagamos Sobre Los Alimentos Nativos Del Perú
Aún no hay calificaciones
Ses-Juev-Cyt - Indagamos Sobre Los Alimentos Nativos Del Perú
7 páginas
Informe de Progreso Estudiantil
Aún no hay calificaciones
Informe de Progreso Estudiantil
2 páginas
Taller Resumen "Hilos o Nudos"
Aún no hay calificaciones
Taller Resumen "Hilos o Nudos"
2 páginas
Análisis Del Incendio en El Agustino
Aún no hay calificaciones
Análisis Del Incendio en El Agustino
9 páginas
Registro Auxiliar
Aún no hay calificaciones
Registro Auxiliar
1 página
Nagas en El Peru.
100% (1)
Nagas en El Peru.
39 páginas
Charla Hechos Materiales CHOZA
Aún no hay calificaciones
Charla Hechos Materiales CHOZA
3 páginas
El Trabajo Del Futuro - Derechos - Laborales-1-34
Aún no hay calificaciones
El Trabajo Del Futuro - Derechos - Laborales-1-34
34 páginas
Fases Del Proceso Penal - LORENZO BUSTILLO
Aún no hay calificaciones
Fases Del Proceso Penal - LORENZO BUSTILLO
23 páginas