Rastreador web
Um rastreador da rede, em inglês web crawler, é um programa de computador que navega pela rede mundial de uma forma metódica e automatizada. Outros termos para rastreadores da rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede. (em inglês: bots, web spiders, web robot e web scutter). A Google tentou patentear esta ferramenta em 1998 sem sucesso.[1]
O processo que um rastreador da rede executa é chamado de rastreamento da rede ou indexação. Muitos sítios, em particular os motores de busca, usam rastreadores para manter uma base de dados atualizada. Os rastreadores da rede são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de pesquisa que irá indexar as páginas baixadas para prover pesquisas mais rápidas. Os rastreadores também podem ser utilizados para as tarefas de manutenção automatizadas em um sítio da rede, como verificar as ligações ou validar o código HTML.[2] Os rastreadores também podem ser usados para obter tipos específicos de informações das páginas da rede, como minerar endereços de correio eletrónico (mais comumente para spam).
Um rastreador da rede é um tipo de robô da rede ou agente de programa.[3] Em geral, ele começa com uma lista de endereços para visitar (também chamado em inglês de seeds). À medida que o rastreador visita esses endereços, ele identifica todas as ligações na página e as adiciona na lista de endereços para visitar. Tais endereços são visitados recursivamente de acordo com um conjunto de regras.
Exemplos de rastreadores da rede
[editar | editar código-fonte]- Crawljax
- DataparkSearch
- Googlebot é o nome do rastreador do Google.
- HTTrack
- JSpider
- Methabot
- Msnbot é o nome do rastreador do Bing - Microsoft.
- Pavuk
- YaCy
- Yahoo! Slurp é o nome do rastreador do Yahoo!.
- WebSPHINX
- Wget
- ↑ Henry Fountain, “Google’s Internet Techniques Inspire Studies of Food Webs,” New York Times, September 4th, 2009.
- ↑ Heaton, Jeff (2002). Programming Spiders, Bots, and Aggregators in Java (em inglês). San Francisco: Sybex. p. 350-352. 516 páginas. ISBN 0-7821-4040-8
- ↑ Cheong, Fah-Chuh (1996). Internet Agents. Spiders, Wanderers, Brokers and Bots (em inglês). Indianapolis: New Riders. p. 84-88. 413 páginas. ISBN 1-56205-463-5