[go: up one dir, main page]

CN109783715A - 网络爬虫系统及方法 - Google Patents

网络爬虫系统及方法 Download PDF

Info

Publication number
CN109783715A
CN109783715A CN201910017134.7A CN201910017134A CN109783715A CN 109783715 A CN109783715 A CN 109783715A CN 201910017134 A CN201910017134 A CN 201910017134A CN 109783715 A CN109783715 A CN 109783715A
Authority
CN
China
Prior art keywords
crawler
user
task
message
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910017134.7A
Other languages
English (en)
Inventor
郭星星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xin Yong Computing Power Information Technology (shanghai) Co Ltd
Original Assignee
Xin Yong Computing Power Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xin Yong Computing Power Information Technology (shanghai) Co Ltd filed Critical Xin Yong Computing Power Information Technology (shanghai) Co Ltd
Priority to CN201910017134.7A priority Critical patent/CN109783715A/zh
Publication of CN109783715A publication Critical patent/CN109783715A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本公开提供了一种网络爬虫系统及方法,所述网络爬虫系统可以在用户授权的情况下自动抓取网络特定信息,所述用户交互模块获取了用户授权信息之后用把相关的授权信息提交到调度处理模块,由调度模块处理抓取相应的规则,解决了普通网络爬虫无法对于特定私有信息的自动化获取。同时,所述网络爬虫系统使用消息队列,作为中间件,来实现异步解耦,所述网络爬虫系统采用异步的请求方式来处理任务,系统结构易于拓展,各层连接通过消息队列来处理,使爬虫任务有了下发式,避免了重复任务的情况,增加了系统的稳定性,大大提高了用户响应时间,充分利用了系统资源,提高了系统的并发量,系统利用率大大提升。

Description

网络爬虫系统及方法
技术领域
本公开涉及网络爬虫技术领域,尤其是涉及一种网络爬虫系统及方法。
背景技术
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统的网络爬虫技术从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,保留有用的连接并将其放入等待抓取的URL队列中,直到达到系统设定的条件或者无权限访问的页面而结束。
在互联网信息化时代,很多网站出现了各种身份验证,而用户的个人信息,一般属于不公开的,在需要抓取特定授权网站信息时,使用传统的网络爬虫技术,却显的很无力,各种的网络爬虫性能差,对于特定类型爬虫抓取不适用,因而交互式网络爬虫孕育而生。但在现有技术中的交互式爬虫网络往往效率很低,交互需要长时间占用系统资源,从而降低了爬虫的效率。由于网络爬虫所需的系统资源有限,而爬虫效率的降低以及系统资源的降低,大量的浪费了系统资源以及公司的财力。有时交互需要很多次,长时间的连接,很容易出现断线、丢包的现象,造成系统的不稳定。
发明内容
本公开的目的在于提供一种网络爬虫系统及方法,以解决相关技术中的交互式网络爬虫在对所需信息进行抓取时容易丢包、抓取效率低、不易扩展以及对系统资源利用率低的问题。
根据本公开的第一方面,提供一种网络爬虫系统,包括:
用户交互模块,用于获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;
调度处理模块,所述调度处理模块包括任务消息队列,用于获取选出的所述爬虫任务并将所述爬虫任务加入所述任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;
执行模块,用于获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。
可选的,所述调度处理模块与所述用户交互模块通信连接,所述调度处理模块还包括结果消息队列;所述执行模块将爬虫抓取的情况反馈给用户包括:所述执行模块将所述爬虫抓取的状态信息推送到所述结果消息队列,所述调度处理模块将所述结果消息队列中的爬虫抓取的状态信息返回给所述用户交互模块,所述用户交互模块将所述状态信息反馈给用户。
可选的,所述状态信息包括:爬虫抓取的结果信息,需用户授权的信息以及出错信息;响应于所述爬虫任务执行结束执行将所述爬虫抓取的结果信息推送到所述结果消息队列;响应于所述爬虫任务执行需用户继续授权执行将所述需用户授权的信息推送到所述结果消息队列;响应于所述爬虫任务执行出错执行将所述出错信息推送到所述结果消息队列。
可选的,所述调度处理模块将所述结果消息队列中的爬虫抓取的状态信息返回给所述用户交互模块的步骤包括:
响应于所述爬虫任务执行需用户继续授权执行所述调度处理模块将所述需用户授权的信息返回给所述用户交互模块,或响应于所述爬虫任务执行出错执行所述调度处理模块将所述出错信息返回给所述用户交互模块;
若否,则响应于所述爬虫任务执行结束执行所述调度处理模块将所述爬虫抓取的结果信息返回给所述用户交互模块。
可选的,所述用户交互模块接收到所述出错信息后,选择出错的所述爬虫任务进行重新执行;所述调度处理模块再次获取所述爬虫任务,并将所述爬虫任务加入任务消息队列中。
可选的,所述所述调度处理模块将所述需用户授权的信息返回给所述用户交互模块的步骤包括:所述调度处理模块根据所述需用户授权的信息生成相应的授权页面,通过所述授权页面将所述需用户授权的信息返回给所述用户交互模块,请求授权。
可选的,所述用户交互模块获取到所述用户授权信息之后,将所述用户授权信息提供给所述调度处理模块;所述用户交互模块向所述调度处理模块提供所述用户授权信息后,轮询向所述调度处理模块请求所述爬虫任务的执行情况。
可选的,所述用户交互模块接收到所述调度处理模块返回的授权请求后,判断是否继续向所述调度处理模块提供所述用户授权信息以及进行轮询操作。
可选的,所述爬虫任务执行完成后,对所述爬虫抓取的结果进行持久化操作。
可选的,所述爬虫任务执行的优先级根据所述爬虫任务下发的顺序确定。
根据本公开的第二方面,提供一种网络爬虫方法,包括,
获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;
获取选出的所述爬虫任务并将所述爬虫任务加入一任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;以及
获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。
可选的,所述将爬虫抓取的情况反馈给用户包括:将所述爬虫抓取的的状态信息推送到一结果消息队列中,提取所述结果消息队列中的所述爬虫抓取的的状态信息返回给用户。
可选的,所述状态消息包括:爬虫抓取的结果信息,需用户授权的信息以及出错信息;所述将所述爬虫抓取的的状态信息推送到一结果消息队列中的步骤包括:响应于所述爬虫任务执行结束执行将所述爬虫抓取的结果信息推送到所述结果消息队列;响应于所述爬虫任务执行需用户继续授权执行将所述需用户授权的信息推送到所述结果消息队列;响应于所述爬虫任务执行出错执行将所述出错信息推送到所述结果消息队列。
可选的,所述提取所述结果消息队列中的所述爬虫抓取的的状态信息返回给用户的步骤包括:
响应于所述爬虫任务执行需用户继续授权执行提取所述结果消息队列中的需用户授权的信息返回给用户;或响应于所述爬虫任务执行出错执行提取所述结果消息队列中的出错信息返回给用户;
若否,则响应于所述爬虫任务执行结束执行提取所述结果消息队列中的所述爬虫抓取的结果信息返回给所述用户。
可选的,所述用户接收到所述出错信息后,选择出错的所述爬虫任务进行重新执行;并将所述爬虫任务再次加入所述任务消息队列中。
综上所述,在本公开提供的网络爬虫系统及方法,所述网络爬虫系统包括:用户交互模块,用于获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;调度处理模块,所述调度处理模块包括任务消息队列,用于获取选出的所述爬虫任务并将所述爬虫任务加入所述任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;执行模块,用于获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。本公开提供的所述网络爬虫系统可以在用户授权的情况下自动抓取网络特定信息,所述用户交互模块获取了用户授权信息之后用把相关的授权信息提交到调度处理模块,由调度模块处理抓取相应的规则,解决了普通网络爬虫无法对于特定私有信息的自动化获取。同时,所述网络爬虫系统使用消息队列,作为中间件,来实现异步解耦,所述网络爬虫系统采用异步的请求方式来处理任务,系统结构易于拓展,各层连接通过消息队列来处理,使爬虫任务有了下发式,避免了重复任务的情况,增加了系统的稳定性,大大提高了用户响应时间,充分利用了系统资源,提高了系统的并发量,系统利用率大大提升。
附图说明
图1是根据本公开一示例性实施例提供的一种网络爬虫系统的结构框图;
图2是根据本公开一示例性实施例提供的一种网络爬虫系统的工作流程图;
图3是根据本公开一示例性实施例提供的一种网络爬虫系统的系统架构图;
图4是根据本公开一示例性实施例示出的一种网络爬虫方法的流程图;
其中,11-用户交互模块,12-调度处理模块,121-任务消息队列,122-结果消息队列,13-执行模块。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在互联网信息化时代,很多网站出现了各种身份验证,而用户的个人信息,一般属于不公开的,在需要抓取特定授权网站信息时,使用传统的网络爬虫技术,却显的很无力,各种的网络爬虫性能差,对于特定类型爬虫抓取不适用,因而交互式网络爬虫孕育而生。但在现有技术中的交互式爬虫网络往往效率很低,交互需要长时间占用系统资源,从而降低了爬虫的效率。由于网络爬虫所需的系统资源有限,而爬虫效率的降低以及系统资源的降低,大量的浪费了系统资源以及公司的财力。有时交互需要很多次,长时间的连接,很容易出现断线、丢包的现象,造成系统的不稳定。
为了解决相关技术中存在的问题,本公开提供了一种网络爬虫系统。
参阅图1,图1为根据本公开一示例性实施例提供的一种网络爬虫系统的结构框图。如图1所示,所述网络爬虫系统包括:
用户交互模块11,用于获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;调度处理模块12,所述调度处理模块包括任务消息队列121,用于获取选出的所述爬虫任务并将所述爬虫任务加入所述任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;执行模块13,用于获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。
需要说明的是,所述用户交互模块11,所述调度处理模块12和所述执行模块13三个模块可以独立部署,三者之间基于HTTP协议和消息队列进行连接通信。可以实现微服务化,很好的拓展集群。
进一步的,参阅图1至图3,下面将详细介绍所述网络爬虫系统的工作过程:
在一个实施例中,所述用户交互模块11作为爬虫抓取过程中出现多次授权信息的入口并与所述调度处理模块12保持通信,所述用户交互模块11把需要授权的信息嵌套在爬虫展现层,在所述用户交互模块11获取了所述用户授权信息,根据所述用户授权信息基于用户授权选择各种类型爬虫任务,并把所述爬虫任务传递给所述调度处理模块12。
具体的,所述用户交互模块提供信息初始化,用户可以通过所述用户交互模块选择待抓取的爬虫任务的类型,初始化所述爬虫任务的信息,生成用户授权信息。
在一个实施例中,所述用户交互模块11获取到所述用户授权信息之后,将所述用户授权信息提供给所述调度处理模块12;所述用户交互模块11向所述调度处理模块12提供所述用户授权信息后,轮询向所述调度处理模块12请求所述爬虫任务的执行情况。具体的,所述用户授权信息包括授权信息标识,例如cookiesID、tokenID、sessionID或签名。
在一个实施例中,所述调度处理模块12接收到所述用户交互模块11传递过来的爬虫任务后,对所述爬虫任务进行相应的处理之后,再将所述爬虫任务加入任务消息队列121中。具体的,所述对所述爬虫任务进行相应的处理包括:判断所述爬虫任务是否需要授权,若所述爬虫任务需要授权则将所述用户授权的信息生成授权页面信息,然后调度处理模块12将该授权页面提交用户授权信息,授权成功后,将所述爬虫任务加入任务消息队列121中;若所述爬虫任务不需要授权,则直接将所述爬虫任务加入任务消息队列121中。
在一个实施例中,所述调度处理模块12与所述用户交互模块11通信连接,所述调度处理模块12还包括结果消息队列122;所述执行模块13将爬虫抓取的情况反馈给用户包括:所述执行模块13将所述爬虫抓取的状态信息推送到所述结果消息队列122,所述调度处理模块12将所述结果消息队列122中的爬虫抓取的状态信息返回给所述用户交互模块11,所述用户交互模块11将所述状态信息反馈给用户。
在一个实施例中,所述状态信息包括:爬虫抓取的结果信息,需用户授权的信息以及出错信息;响应于所述爬虫任务执行结束执行将所述爬虫抓取的结果信息推送到所述结果消息队列;响应于所述爬虫任务执行需用户继续授权执行将所述需用户授权的信息推送到所述结果消息队列;响应于所述爬虫任务执行出错执行将所述出错信息推送到所述结果消息队列。
在一个实施例中,所述调度处理模块12将所述结果消息队列122中的爬虫抓取的状态信息返回给所述用户交互模块11的步骤包括:响应于所述爬虫任务执行需用户继续授权执行所述调度处理模块12将所述需用户授权的信息返回给所述用户交互模块11,或响应于所述爬虫任务执行出错执行所述调度处理模块12将所述出错信息返回给所述用户交互模块11;若否,则响应于所述爬虫任务执行结束执行所述调度处理模块12将所述爬虫抓取的结果信息返回给所述用户交互模块11。
在一个实施例中,所述用户交互模块11接收到所述出错信息后,选择出错的所述爬虫任务进行重新执行;所述调度处理模块12再次获取所述爬虫任务,并将所述爬虫任务加入任务消息队列121中。
在一个实施例中,所述所述调度处理模块12将所述需用户授权的信息返回给所述用户交互模块11的步骤包括:所述调度处理模块12根据所述需用户授权的信息生成相应的授权页面,通过所述授权页面将所述需用户授权的信息返回给所述用户交互模块11,请求授权。进一步的,所述用户交互模块11接收到所述调度处理模块12返回的授权请求后,判断是否继续向所述调度处理模块12提供所述用户授权信息以及进行轮询操作。
在一个实施例中,所述执行模块13向所述调度处理模块12的任务消息队列121中拉取所述爬虫任务,所述调度处理模块12将所述爬虫任务下发。在所述执行模块13获取到所述爬虫任务后,所述执行模块13将所述爬虫任务进行分发。具体的,参阅图3,在执行模块,将所述爬虫任务分发给若干个爬虫执行节点,例如,爬虫执行节点01,爬虫执行节点02,爬虫执行节点03.......;具体的,所述爬虫执行节点可以为一个集群,在爬虫任务的执行过程中,对执行爬虫任务的集群进行监控,同时收集任务执行的日志。在集群的环境下,为了保证集群竞争拉取消息,可能会出现爬虫任务拉取重复,而导致爬虫任务失败。而在本实施例中,所述网络爬虫系统有了任务分发机制,所述执行模块13可以通过将所述爬虫任务分发给各集群,保证了爬虫集群可以公平的分配资源,减少了集群间资源竞争的开销,大大提高了资源利用率。
进一步的,所述执行模块13在执行所述爬虫任务时,所述爬虫任务执行的优先级根据所述爬虫任务下发的顺序确定。
在一个实施例中,所述爬虫任务执行完成后,对所述爬虫抓取的结果进行持久化操作。具体的,对所述爬虫抓取的结果数据进行持久化操作,保存所述爬虫抓取的结果数据。具体的可以为把爬虫抓取的结果数据写入数据库中,为了减轻数据库的压力,可以先对数据进行缓存处理,在数据量达到一定量后,持久化到磁盘中。
本公开还提供了一种网络爬虫方法,参阅图4,图4为根据本公开一示例性实施例提供的一种的网络爬虫方法的流程图,如图所示,所述网络爬虫方法包括以下步骤:
步骤S1:获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;
步骤S2:获取选出的所述爬虫任务并将所述爬虫任务加入一任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;以及
步骤S3:获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。
下面结合具体的实施例对上述步骤进行详细的描述。
在步骤S1中,获取了所述用户授权信息,根据所述用户授权信息基于用户授权选择各种类型爬虫任务。
进一步的,在所述步骤S3中,所述将爬虫抓取的情况反馈给用户包括:将所述爬虫抓取的的状态信息推送到一结果消息队列中,提取所述结果消息队列中的所述爬虫抓取的的状态信息返回给用户。
在一个实施例中,所述状态消息包括:爬虫抓取的结果信息,需用户授权的信息以及出错信息;所述将所述爬虫抓取的的状态信息推送到一结果消息队列中的步骤包括:响应于所述爬虫任务执行结束执行将所述爬虫抓取的结果信息推送到所述结果消息队列;响应于所述爬虫任务执行需用户继续授权执行将所述需用户授权的信息推送到所述结果消息队列;响应于所述爬虫任务执行出错执行将所述出错信息推送到所述结果消息队列。
在一个实施例中,所述提取所述结果消息队列中的所述爬虫抓取的的状态信息返回给用户的步骤包括:响应于所述爬虫任务执行需用户继续授权执行提取所述结果消息队列中的需用户授权的信息返回给用户;或响应于所述爬虫任务执行出错执行提取所述结果消息队列中的出错信息返回给用户;若否,则响应于所述爬虫任务执行结束执行提取所述结果消息队列中的所述爬虫抓取的结果信息返回给所述用户。
在一个实施例中,所述用户接收到所述出错信息后,选择出错的所述爬虫任务进行重新执行;并将所述爬虫任务再次加入所述任务消息队列中。
关于上述实施例中的网络爬虫方法,其中各步骤执行操作的具体方式已经在有关该系统的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,在本公开提供的网络爬虫系统及方法中,所述网络爬虫系统包括:用户交互模块,用于获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;调度处理模块,所述调度处理模块包括任务消息队列,用于获取选出的所述爬虫任务并将所述爬虫任务加入所述任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;执行模块,用于获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。本公开提供的所述网络爬虫系统可以在用户授权的情况下自动抓取网络特定信息,所述用户交互模块获取了用户授权信息之后用把相关的授权信息提交到调度处理模块,由调度模块处理抓取相应的规则,解决了普通网络爬虫无法对于特定私有信息的自动化获取。同时,所述网络爬虫系统使用消息队列,作为中间件,来实现异步解耦,所述网络爬虫系统采用异步的请求方式来处理任务,系统结构易于拓展,各层连接通过消息队列来处理,使爬虫任务有了下发式,避免了重复任务的情况,增加了系统的稳定性,大大提高了用户响应时间,充分利用了系统资源,提高了系统的并发量,系统利用率大大提升。
上述仅为本公开的优选实施例而已,并不对本公开起到任何限制作用。任何所属技术领域的技术人员,在不脱离本公开的技术方案的范围内,对本公开揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本公开的技术方案的内容,仍属于本公开的保护范围之内。

Claims (15)

1.一种网络爬虫系统,其特征在于,包括:
用户交互模块,用于获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;
调度处理模块,所述调度处理模块包括任务消息队列,用于获取选出的所述爬虫任务并将所述爬虫任务加入所述任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;
执行模块,用于获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。
2.如权利要求1所述的网络爬虫系统,其特征在于,所述调度处理模块与所述用户交互模块通信连接,所述调度处理模块还包括结果消息队列;所述执行模块将爬虫抓取的情况反馈给用户包括:所述执行模块将所述爬虫抓取的状态信息推送到所述结果消息队列,所述调度处理模块将所述结果消息队列中的爬虫抓取的状态信息返回给所述用户交互模块,所述用户交互模块将所述状态信息反馈给用户。
3.如权利要求2所述的网络爬虫系统,其特征在于,所述状态信息包括:爬虫抓取的结果信息,需用户授权的信息以及出错信息;响应于所述爬虫任务执行结束执行将所述爬虫抓取的结果信息推送到所述结果消息队列;响应于所述爬虫任务执行需用户继续授权执行将所述需用户授权的信息推送到所述结果消息队列;响应于所述爬虫任务执行出错执行将所述出错信息推送到所述结果消息队列。
4.如权利要求3所述的网络爬虫系统,其特征在于,所述调度处理模块将所述结果消息队列中的爬虫抓取的状态信息返回给所述用户交互模块的步骤包括:
响应于所述爬虫任务执行需用户继续授权执行所述调度处理模块将所述需用户授权的信息返回给所述用户交互模块,或响应于所述爬虫任务执行出错执行所述调度处理模块将所述出错信息返回给所述用户交互模块;
若否,则响应于所述爬虫任务执行结束执行所述调度处理模块将所述爬虫抓取的结果信息返回给所述用户交互模块。
5.如权利要求4所述的网络爬虫系统,其特征在于,所述用户交互模块接收到所述出错信息后,选择出错的所述爬虫任务进行重新执行;所述调度处理模块再次获取所述爬虫任务,并将所述爬虫任务加入任务消息队列中。
6.如权利要求4所述的网络爬虫系统,其特征在于,所述所述调度处理模块将所述需用户授权的信息返回给所述用户交互模块的步骤包括:所述调度处理模块根据所述需用户授权的信息生成相应的授权页面,通过所述授权页面将所述需用户授权的信息返回给所述用户交互模块,请求授权。
7.如权利要求6所述的网络爬虫系统,其特征在于,所述用户交互模块获取到所述用户授权信息之后,将所述用户授权信息提供给所述调度处理模块;所述用户交互模块向所述调度处理模块提供所述用户授权信息后,轮询向所述调度处理模块请求所述爬虫任务的执行情况。
8.如权利要求7所述的网络爬虫系统,其特征在于,所述用户交互模块接收到所述调度处理模块返回的授权请求后,判断是否继续向所述调度处理模块提供所述用户授权信息以及进行轮询操作。
9.如权利要求1所述的网络爬虫系统,其特征在于,所述爬虫任务执行完成后,对所述爬虫抓取的结果数据进行持久化操作。
10.如权利要求1所述的网络爬虫系统,其特征在于,所述爬虫任务执行的优先级根据所述爬虫任务下发的顺序确定。
11.一种网络爬虫方法,其特征在于,包括,
获取用户授权信息以及根据所述用户授权信息选择爬虫任务的类型;
获取选出的所述爬虫任务并将所述爬虫任务加入一任务消息队列中,通过所述任务消息队列将所述爬虫任务下发;以及
获取下发的所述爬虫任务并将所述爬虫任务进行分发,执行所述爬虫任务并将爬虫抓取的情况反馈给用户。
12.如权利要求11所述的网络爬虫方法,其特征在于,所述将爬虫抓取的情况反馈给用户包括:将所述爬虫抓取的的状态信息推送到一结果消息队列中,提取所述结果消息队列中的所述爬虫抓取的的状态信息返回给用户。
13.如权利要求12所述的网络爬虫方法,其特征在于,所述状态消息包括:爬虫抓取的结果信息,需用户授权的信息以及出错信息;所述将所述爬虫抓取的的状态信息推送到一结果消息队列中的步骤包括:响应于所述爬虫任务执行结束执行将所述爬虫抓取的结果信息推送到所述结果消息队列;响应于所述爬虫任务执行需用户继续授权执行将所述需用户授权的信息推送到所述结果消息队列;响应于所述爬虫任务执行出错执行将所述出错信息推送到所述结果消息队列。
14.如权利要求13所述的网络爬虫方法,其特征在于,所述提取所述结果消息队列中的所述爬虫抓取的的状态信息返回给用户的步骤包括:
响应于所述爬虫任务执行需用户继续授权执行提取所述结果消息队列中的需用户授权的信息返回给用户;或响应于所述爬虫任务执行出错执行提取所述结果消息队列中的出错信息返回给用户;
若否,则响应于所述爬虫任务执行结束执行提取所述结果消息队列中的所述爬虫抓取的结果信息返回给所述用户。
15.如权利要求13所述的网络爬虫方法,其特征在于,所述用户接收到所述出错信息后,选择出错的所述爬虫任务进行重新执行;并将所述爬虫任务再次加入所述任务消息队列中。
CN201910017134.7A 2019-01-08 2019-01-08 网络爬虫系统及方法 Pending CN109783715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910017134.7A CN109783715A (zh) 2019-01-08 2019-01-08 网络爬虫系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910017134.7A CN109783715A (zh) 2019-01-08 2019-01-08 网络爬虫系统及方法

Publications (1)

Publication Number Publication Date
CN109783715A true CN109783715A (zh) 2019-05-21

Family

ID=66499365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910017134.7A Pending CN109783715A (zh) 2019-01-08 2019-01-08 网络爬虫系统及方法

Country Status (1)

Country Link
CN (1) CN109783715A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282815A (zh) * 2021-06-11 2021-08-20 上海淇玥信息技术有限公司 一种用于多次验证交互的数据抓取方法、装置和电子设备
CN114968264A (zh) * 2022-07-28 2022-08-30 新华三半导体技术有限公司 一种网络处理器交互系统、方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488683A (zh) * 2013-08-21 2014-01-01 北京航空航天大学 一种微博数据管理系统及其实现方法
CN104850955A (zh) * 2015-05-26 2015-08-19 慕鹏 基于网络环境的用户信息智能管理方法和系统
CN105243159A (zh) * 2015-10-28 2016-01-13 福建亿榕信息技术有限公司 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
US20180248895A1 (en) * 2017-02-27 2018-08-30 Amazon Technologies, Inc. Intelligent security management
US20180336222A1 (en) * 2017-05-18 2018-11-22 Geoffrey Bourgeois Methods and systems for migrating public folders to online mailboxes
CN109005142A (zh) * 2017-06-06 2018-12-14 腾讯科技(深圳)有限公司 网站安全检测方法、装置、系统、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488683A (zh) * 2013-08-21 2014-01-01 北京航空航天大学 一种微博数据管理系统及其实现方法
CN104850955A (zh) * 2015-05-26 2015-08-19 慕鹏 基于网络环境的用户信息智能管理方法和系统
CN105243159A (zh) * 2015-10-28 2016-01-13 福建亿榕信息技术有限公司 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
US20180248895A1 (en) * 2017-02-27 2018-08-30 Amazon Technologies, Inc. Intelligent security management
US20180336222A1 (en) * 2017-05-18 2018-11-22 Geoffrey Bourgeois Methods and systems for migrating public folders to online mailboxes
CN109005142A (zh) * 2017-06-06 2018-12-14 腾讯科技(深圳)有限公司 网站安全检测方法、装置、系统、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282815A (zh) * 2021-06-11 2021-08-20 上海淇玥信息技术有限公司 一种用于多次验证交互的数据抓取方法、装置和电子设备
CN114968264A (zh) * 2022-07-28 2022-08-30 新华三半导体技术有限公司 一种网络处理器交互系统、方法、电子设备及存储介质
CN114968264B (zh) * 2022-07-28 2022-10-25 新华三半导体技术有限公司 一种网络处理器交互系统、方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20210274014A1 (en) Systems And Methods For Initiating Processing Actions Utilizing Automatically Generated Data Of A Group-Based Communication System
CN105164677B (zh) 在并行数据库处执行存储过程的方法和系统
US20160196279A1 (en) Enterprise level data collection systems and methodologies
CN105868258A (zh) 爬虫系统
US9152441B2 (en) Systems and methods involving virtual machine host isolation over a network via a federated downstream cluster
CN104143124B (zh) 会议预定方法及项目管理系统
US9280402B2 (en) System and method for updating a dual layer browser
CN107180050A (zh) 一种数据抓取系统及方法
CN103841154B (zh) 网络媒介信息发布方法、系统和客户端
KR20140010960A (ko) 다수의 소프트웨어 애플리케이션이 연계된 세션을 제공하는 방법 및 시스템
CN109783715A (zh) 网络爬虫系统及方法
CN104579726A (zh) 对用户的网络资源使用权限进行管理的方法和装置
CN105808588B (zh) 基于众包模型的分布式定向垂直信息搜索系统和方法
CN102819486B (zh) 一种网络产品自动化测试系统和测试方法
Khan et al. Differentiating Parameters for Selecting Simple Object Access Protocol (SOAP) vs. Representational State Transfer (REST) Based Architecture
CN104021196B (zh) 一种针对System V消息队列的I/O复用方法
CN109118065A (zh) 一种交互式工作流系统及其运行方法
Avellino et al. The EU DataGrid Workload Management System: towards the second major release
CN110471968A (zh) Etl任务的发布方法、装置、设备及存储介质
US11641421B2 (en) System and method of embedding and launching a form from third-party knowledge content
CN109308310A (zh) 一种用于资产管理平台的子系统数据互联处理方法
CN113326598A (zh) 一种物联网靶场设计方法
CN103560901B (zh) 一种移动终端管理系统和管理方法
CN102546795A (zh) 基于用户对话模式的客户机服务器持续会话的方法
Awan et al. Analytical modelling of priority commit protocol for reliable web applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190521