Open navigation menu

Scribd

0% found this document useful (0 votes)

47 views3 pages

Concept How To Scrape Dynamic Web Pages

This document discusses two methods for scraping dynamic and AJAX web pages: using a headless browser which is slower but easier to implement, or reverse engineering and calling the undocumented API directly, which is faster but requires more technical skill to discover the API endpoint and structure. It then outlines the steps to take for reverse engineering an API call using developer tools to discover the endpoint and parameters, replicating the API call programmatically, parsing the structured response, extracting the desired data, and exporting the results.

Uploaded by

Wilker Brito Do Nascimento

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views3 pages

Concept How To Scrape Dynamic Web Pages

This document discusses two methods for scraping dynamic and AJAX web pages: using a headless browser which is slower but easier to implement, or reverse engineering and calling the undocumented API directly, which is faster but requires more technical skill to discover the API endpoint and structure. It then outlines the steps to take for reverse engineering an API call using developer tools to discover the endpoint and parameters, replicating the API call programmatically, parsing the structured response, extracting the desired data, and exporting the results.

Uploaded by

Wilker Brito Do Nascimento

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Concept - Scraping dynamic /

AJAX web pages

2 possible ways
1. Use a headless Browser

- e.g. HtmlUnit for Java

- much slower

- easier to detect

2. Reverse engineering and calling the undocumented API directly

- use the Browser’s Developer Tools

- very fast

- mostly returns already structured data (XML or JSON)

Concept - Steps
1. Open the page in your Browser and find the API
endpoint with the Developer Tools

2. Reverse engineer the API call (parameters, headers,

cookies, etc.)

3. Replicate the API call with Unirest and parse the data
(XML, JSON, sometimes HTML)

4. Extract the desired data

5. Export the results

You might also like

Practical Web Scraping For Economists 1744341390
No ratings yet
Practical Web Scraping For Economists 1744341390
33 pages
Data Science
No ratings yet
Data Science
9 pages
Dynamic Web Scraping with Playwright
No ratings yet
Dynamic Web Scraping with Playwright
4 pages
Web Scraping CheatSheet Guide
No ratings yet
Web Scraping CheatSheet Guide
10 pages
Web Scraping Tenders Guide
No ratings yet
Web Scraping Tenders Guide
12 pages
Experiment2 Web Scraping and Data Analysis
No ratings yet
Experiment2 Web Scraping and Data Analysis
5 pages
Web Scraping & API Guide
No ratings yet
Web Scraping & API Guide
24 pages
Web Scraping - Unit 1
100% (1)
Web Scraping - Unit 1
31 pages
9python Web Scraping Dynamic Websites
No ratings yet
9python Web Scraping Dynamic Websites
4 pages
6 Results and Discussions
No ratings yet
6 Results and Discussions
5 pages
Reverse Engineer API Calls Guide
No ratings yet
Reverse Engineer API Calls Guide
1 page
Web Scraping With PHP
No ratings yet
Web Scraping With PHP
14 pages
FSD Unit-1 Notes
No ratings yet
FSD Unit-1 Notes
60 pages
Ajax:: AJAX, Is A Web Development Technique For Creating Interactive Web Applications
No ratings yet
Ajax:: AJAX, Is A Web Development Technique For Creating Interactive Web Applications
7 pages
Web Scraping Using Python
No ratings yet
Web Scraping Using Python
18 pages
Course Notes - Web Scraping and API Fundamentals in Python
No ratings yet
Course Notes - Web Scraping and API Fundamentals in Python
10 pages
Micro Project
No ratings yet
Micro Project
23 pages
Dap Mod 4-5
No ratings yet
Dap Mod 4-5
19 pages
Key Concepts:: Ajax (Asynchronous Javascript and XML)
No ratings yet
Key Concepts:: Ajax (Asynchronous Javascript and XML)
2 pages
Cheat Sheet For API's and Data Collection
No ratings yet
Cheat Sheet For API's and Data Collection
4 pages
40 Web Standards
No ratings yet
40 Web Standards
3 pages
Scraping
100% (1)
Scraping
25 pages
Python Selenium Web Scraping Guide
No ratings yet
Python Selenium Web Scraping Guide
14 pages
Web Scraping With Python and Selenium: Sarah Fatima, Shaik Luqmaan Nuha Abdul Rasheed
No ratings yet
Web Scraping With Python and Selenium: Sarah Fatima, Shaik Luqmaan Nuha Abdul Rasheed
5 pages
Aditya Polytechnic Beed: Microproject On
No ratings yet
Aditya Polytechnic Beed: Microproject On
29 pages
Unit 11 Application Development Using Python
No ratings yet
Unit 11 Application Development Using Python
19 pages
Basic Ajax Concepts
No ratings yet
Basic Ajax Concepts
16 pages
Asynchronous Javascript and XML: Unit-6 Web Designing Technologies (Javascript-Dhtml)
No ratings yet
Asynchronous Javascript and XML: Unit-6 Web Designing Technologies (Javascript-Dhtml)
13 pages
Unit 04 - Introduction To Ajax and JQuery
No ratings yet
Unit 04 - Introduction To Ajax and JQuery
24 pages
Web Scraping Functions Guide
No ratings yet
Web Scraping Functions Guide
5 pages
Scrapingquickstart
No ratings yet
Scrapingquickstart
32 pages
DAP 4 Module
No ratings yet
DAP 4 Module
45 pages
Web Scrapping: From NP-10
No ratings yet
Web Scrapping: From NP-10
11 pages
Ajax Techniques
No ratings yet
Ajax Techniques
36 pages
Web Scraping Using Python: A Step by Step Guide: September 2019
No ratings yet
Web Scraping Using Python: A Step by Step Guide: September 2019
7 pages
AJAX XMLHttpRequest Guide
No ratings yet
AJAX XMLHttpRequest Guide
15 pages
Cheat Sheet API's and Data Collection
No ratings yet
Cheat Sheet API's and Data Collection
6 pages
Web Scraping - Notes - 321
No ratings yet
Web Scraping - Notes - 321
3 pages
Ajax
No ratings yet
Ajax
30 pages
20 - BeautifulSoup Library For Web Scraping
No ratings yet
20 - BeautifulSoup Library For Web Scraping
12 pages
Comprehensive Notes On APIs
No ratings yet
Comprehensive Notes On APIs
8 pages
Ajax 1
No ratings yet
Ajax 1
31 pages
IP Unit-5-1
No ratings yet
IP Unit-5-1
28 pages
Python Web Scraping Guide
No ratings yet
Python Web Scraping Guide
7 pages
Web Scraping Using Python: A Step by Step Guide: September 2019
0% (1)
Web Scraping Using Python: A Step by Step Guide: September 2019
7 pages
The Ultimate Web Scraping With Python Bootcamp 2023 - Coderprog
No ratings yet
The Ultimate Web Scraping With Python Bootcamp 2023 - Coderprog
3 pages
Web Scraping
No ratings yet
Web Scraping
5 pages
Intermediate Scraping Techniques
No ratings yet
Intermediate Scraping Techniques
2 pages
Assignment
No ratings yet
Assignment
5 pages
Python Report
No ratings yet
Python Report
9 pages
AJAX
No ratings yet
AJAX
6 pages
Basic Scraping Techniques
No ratings yet
Basic Scraping Techniques
7 pages
API
No ratings yet
API
1 page
Asynchronous Javascript and XML
No ratings yet
Asynchronous Javascript and XML
23 pages
11 Ajax
No ratings yet
11 Ajax
35 pages
Scrapytutorial
No ratings yet
Scrapytutorial
5 pages
Infosys
No ratings yet
Infosys
27 pages
Data Scraping
No ratings yet
Data Scraping
63 pages
Web Scraping in Node - Js - Top 7 Best Tools - Medium
No ratings yet
Web Scraping in Node - Js - Top 7 Best Tools - Medium
13 pages
Introduction To Web Crawling Chapter - 13
No ratings yet
Introduction To Web Crawling Chapter - 13
3 pages
Java 2 Gui Fud Mentals With Swing
No ratings yet
Java 2 Gui Fud Mentals With Swing
271 pages
Class Acs Ant Colony
No ratings yet
Class Acs Ant Colony
1 page
JavaFX RESTful Web & Polyglot Apps
No ratings yet
JavaFX RESTful Web & Polyglot Apps
54 pages
What Are Some Technically Challenging, Interesting or Cool Tasks That You Did?
No ratings yet
What Are Some Technically Challenging, Interesting or Cool Tasks That You Did?
1 page
XXX
No ratings yet
XXX
2 pages
A1. Discuss HTML DOM With Suitable Example
No ratings yet
A1. Discuss HTML DOM With Suitable Example
4 pages
Ismail 125 Demo
No ratings yet
Ismail 125 Demo
125 pages
Torrent Tracker List
No ratings yet
Torrent Tracker List
12 pages
HTML Program Syllables
No ratings yet
HTML Program Syllables
4 pages
A Nice Little Document
No ratings yet
A Nice Little Document
71 pages
Practical Screenshot
No ratings yet
Practical Screenshot
4 pages
gc ٢٠٢٤ ١٢ ٢٣
No ratings yet
gc ٢٠٢٤ ١٢ ٢٣
11 pages
اختبار ابتك نموذج HTML
No ratings yet
اختبار ابتك نموذج HTML
35 pages
Charset HTML Body P #Gradient1
No ratings yet
Charset HTML Body P #Gradient1
5 pages
Midterms Tos CP2
No ratings yet
Midterms Tos CP2
2 pages
IV CSM SW II - Mid Objective Paper MAY - 2024
No ratings yet
IV CSM SW II - Mid Objective Paper MAY - 2024
5 pages
XML Processors
No ratings yet
XML Processors
4 pages
DTD (Document Type Definitions) Document Type Definitions: The Need For Dtds
No ratings yet
DTD (Document Type Definitions) Document Type Definitions: The Need For Dtds
11 pages
Codico 3
No ratings yet
Codico 3
2 pages
XML Final Skima
No ratings yet
XML Final Skima
33 pages
XML-BASED Final Quiz and Lab
No ratings yet
XML-BASED Final Quiz and Lab
6 pages
Code For Table
No ratings yet
Code For Table
13 pages
Manav Rachna University
No ratings yet
Manav Rachna University
27 pages
Cs108, Stanford Handout #37 Young: Xmlhttprequest
No ratings yet
Cs108, Stanford Handout #37 Young: Xmlhttprequest
3 pages
Iran3x Takehost
100% (5)
Iran3x Takehost
9 pages
Master Frontend in 60 Days
No ratings yet
Master Frontend in 60 Days
21 pages
Frontend Notes
No ratings yet
Frontend Notes
19 pages
IRIS DC Req-Res
No ratings yet
IRIS DC Req-Res
2 pages
Bug Inject
No ratings yet
Bug Inject
20 pages
Pack de Payload Todos Los Operadores-AEC
20% (5)
Pack de Payload Todos Los Operadores-AEC
2 pages
Question Bank For XML
No ratings yet
Question Bank For XML
23 pages
Brands Manufacturers Catalogs - Online Retail Shopping
No ratings yet
Brands Manufacturers Catalogs - Online Retail Shopping
2,663 pages
Ws Restwsdl PDF
No ratings yet
Ws Restwsdl PDF
14 pages