CN105243159B

CN105243159B - 一种基于可视化脚本编辑器的分布式网络爬虫系统

Info

Publication number: CN105243159B
Application number: CN201510713985.7A
Authority: CN
Inventors: 倪时龙; 苏江文; 王秋琳; 陈予言
Original assignee: Fujian Yirong Information Technology Co Ltd
Current assignee: Fujian Yirong Information Technology Co Ltd
Priority date: 2015-10-28
Filing date: 2015-10-28
Publication date: 2019-06-25
Anticipated expiration: 2035-10-28
Also published as: CN105243159A

Abstract

本发明提供一种基于可视化脚本编辑器的分布式网络爬虫系统，包括：可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块；根据用户通过可视化界面进行输入，系统自动生成元数据提取脚本，可以识别目标站点的结构，高效的抓取特定的数据，由任务调度模块创建分派任务，网页抓取模块负责抓取页面，内容处理模块调取对应脚本将页面转换为元数据集，最后统一处理，通过结果存储模块进行存储。本发明能够大幅提高针对特定站点数据的爬取效率，减少用户劳动强度，节省系统资源，并拥有良好的可扩展性和伸缩性，适用于所有类型的互联网站点。

Description

一种基于可视化脚本编辑器的分布式网络爬虫系统

技术领域

本发明涉及网络通讯技术领域，尤其涉及一种基于可视化脚本编辑器的分布式网络爬虫系统。

背景技术

自互联网诞生至20世纪末，互联网信息得到了爆炸性地增长，已然成为一个巨大的，分布广泛的，高度异构的，半结构化的，且动态性高的信息图书馆。为了从互联网信息中收集提取人们感兴趣的数据，网络爬虫就此诞生。自此，爬虫技术便一发不可收拾，以其为基石催生了百度、谷歌等国内外的搜索引擎巨头，给世人打开了一扇信息的窗口。

当今，互联网信息的主要由网站和WEB服务形式提供的。网站由各式各样的网页组成，提供的数据基本上以非结构化的静态的超文本链接标示语言(HTML，Hypertext MarkupLanguage)的呈现。由于信息分析系统无法直接使用HTML，往往需要对其进行二次处理才能提取出有用的信息。WEB服务则是相对规范的数据接口，通过特定参数访问即可获取数据，WEB服务可以独立存在，也可与网站结合。如何高效准确的从大量特定的网站或WEB服务中获取特定的信息越来越被人们所关注。这使得负责网络信息采集的网络爬虫技术面临了巨大的挑战。

网络爬虫虽然经历多代发展，已经基本形成的多种系统模型。国内外对爬虫的设计已经有了很成熟的解决方案,并已投入使用，但是那些解决方案大多只给大众用户提供一种通用的服务，不可针对特定站点特定数据进行制定的，无法考虑到各个用户的各式各样的需求。

在互联网领域，目前有如下几种主流的爬虫设计：

1.传统爬虫系统

传统爬虫系统，需要专业的软件编程人员通过分析目标站点的网页组织形式，数据接口以及页面上Javascript逻辑代码，编写出相应的程序代码或脚本，来实现根据某种规则过滤出特定的数据。很明显，这种方法的优点是能够准确的从目标站点中提取所需的数据。

但是这种方法有很大的缺陷，一般只在目标站点数量十分有限的情况下才会采用。原因是，互联网网站使用的HMTL语言并没有固定的编写规范，需要对所有目标站点编写对应的脚本，再加上有当今越来越多的网站采用动态加载方式，编写难度大大提高。当监控网站的改版时，需要及时调整脚本，并重新部署爬虫。这极大的提高了开发与维护中的人力成本。除此之外，这种模式由于其复杂性，导致扩展性与伸缩性不佳，不利于大规模分布式部署。

2.通用分布式爬虫系统

通用分布式爬虫系统，主要结构为调度(控制)，抓取和内容处理三大基础部分组成。当前大部分互联网搜索引擎都是这种方式。如：现有技术中公开了一种“主题相关的分布式网络爬虫系统，”，见公开号为：CN102646129A，公开日为：2012-08-22的中国专利，该系统包括：主题链接存储器，用于存放系统未完成抓取的超链接；控制节点，用于从主题链接存储器中提取超链接，去除其中已经被系统抓取过的超链接，然后将未被系统抓取过的超链接分配给爬行节点，并控制是否终止系统运行；爬行节点，用于接收控制节点分配的超链接，然后下载超链接标识的网页，并且将网页存储在网页数据库中；网页数据库，用于存放爬行节点抓取的网页；网页分析器，用于定期从网页数据库中读取爬行节点下载的最新网页，对网页进行内容分析，计算网页及网页内所含超链接的主题相关度，然后根据主题相关度将相关的超链接存放到主题链接存储器中，将每个网页的主题相关度存于网页数据库中。该发明就是采用此种模式。这种类型的爬虫系统主要将重点放在了URL过滤与网页主题的分析上，内容处理部分基本都是使用正文分析提取模块。

正文分析模块大致可以分为:1.基于标签用途的正文提取算法2.基于标签密度判定3.基于机器学习的网页正文抽取方法4.基于视觉网页块分析技术的正文抽取。但是不管采用何种算法，其只能用于网页正文等主干数据的提取并且无法保证提取数据的准确度。这些发明方法可以较好的用于分布式爬虫系统，但局限于依赖的算法，只适用于横向大范围的模糊数据爬取，对于特定数据的爬取具有先天缺陷。因为其为了获得最大的通用性，牺牲了定制化能力，只能从网页中提取正文信息，却无法从正文中分离出特定类型的元数据。举例如电商网站页面中的商品价格，网络药店页面中的药品规格。其次，大部分正文分析算法相对复杂，大量使用时对比定制化的脚本会消耗更多的系统资源，导致爬虫系统性能下降。

发明内容

本发明要解决的技术问题，在于提供一种基于可视化脚本编辑器的分布式网络爬虫系统，能够实现对大量特定站点进行高效定制化爬取同时兼容通用站点的爬取，解决了现有技术存在的缺陷；减少用户劳动强度，节省系统资源。

本发明是这样实现的：一种基于可视化脚本编辑器的分布式网络爬虫系统，所述系统包括：可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块；

所述可视化脚本编辑器，用于查看目标网站，并选择目标网站数据抓取区域；将用户的输入转化成一条执行链，同时根据执行链生成对应的脚本并存入一数据库；该脚本即为目标网站对应的脚本；

所述分布式消息队列，用于将任务调度模块，网页抓取模块，内容处理模块和结果存储模块进行解耦，该分布式消息队列包括调度队列、抓取队列、处理队列、以及结果队列；

所述任务调度模块，用于负责协调整个系统的运作，读入目标网站起始URL链接与用户输入信息打包成任务后传入所述调度队列，并从调度队列里取得任务对象，并过滤重复任务后发送至所述抓取队列；

所述网页抓取模块，用于从抓取队列获取到URL链接，自动解析网站编码，并将抓取的网站的内容转换成UTF-8编码，将该UTF-8编码的内容与网站相关信息打包后转发送到处理队列；

所述内容处理模块，用于从所述处理队列获取到网站的网页内容，使用可视化脚本编辑器生成的URL匹配规则匹配此网页的URL链接，若找到匹配则调用此URL匹配规则对应的脚本对此网页内容进行解析；将解析后的结果传入结果队列中；

所述结果存储模块，用于从结果队列中取出结果数据，并将结果数据根据系统预定义的配置进行统一处理筛选，然后存入数据库。

进一步地，所述系统还包括监控模块，所述监控模块实时监控分布式消息队列中的调度队列，抓取队列，处理队列，结果队列四个队列是否出错，当发现异常时，及时推送消息至系统的用户界面，提醒用户检查出错原因以及是否重新进行脚本输入。

进一步地，所述系统还包括正文提取模块，当网页的域名匹配不到与所述数据库中的脚本时，调用所述正文提取模块，来进行提取网页相应的脚本，所述正文提取模块使用基于视觉网页块分析技术的正文抽取方式进行提取。

进一步地，所述调用此脚本进行解析；如果解析处理后生成的是新的URL链接，则将新的URL链接传入所述调度队列，重新执行任务调度模块；如果解析处理后是结果数据，则将解析后的结果数据传入结果队列中。

进一步地，所述任务调度模块包括URL过滤模块和速率管理器，所述URL过滤模块，使用布隆过滤器对URL链接进行去重，防止重复爬取同一URL链接，布隆过滤器是由一个二进制向量和一系列随机映射函数组成，用于检索一个元素是否在一个集合中；所述速率管理器，采用令牌桶算法防止网络拥塞，限制流出网络的流量，使流量以均匀的速度向外发送，保证系统的稳定性。

进一步地，所述网页抓取模块包括：代理访问模块和浏览器模拟模块，所述代理访问模块，根据用户配置信息对指定的URL链接使用预设的IP代理进行访问，防止所述网页抓取模块所在服务器IP因为访问量过大被目标网站封锁，所述浏览器模拟模块，使用WebKit开源浏览器引擎来解析目标网站，能够执行页面上的Javascript代码，生成目标网站的完整页面。

进一步地，所述执行链包含若干个子参数，子参数有多种选择，子参数的选择包括：下层URL链接选取规则，元数据选择标识或者系统可执行的脚本代码。

进一步地，所述可视化脚本编辑器具体实现流程如下：

步骤1、在可视化脚本编辑器界面上输入目标网站URL链接地址；

步骤2、可视化脚本编辑器呈现目标网站URL链接网页内容，

步骤3、如果不需要进入此网页的下层的URL链接，则进入步骤5，如果需要进入下层URL链接则进入步骤4；

步骤4、选择下层URL链接的区块，可视化脚本编辑器将记录这些区块的位置，并存入一执行链，所有位置信息均以CSS或XPATH语法的形式组成，返回步骤3；

步骤5、选择若干个需要抓取内容的区块，存入一执行链，

步骤6、用户确认编辑工作完成，

步骤7、可视化脚本编辑器将记录下来的执行链传入脚本生成器，生产对应目标网站的抓取脚本，同时针对高级用户，提供额外接口，用户能通过编写兼容系统的代码，直接嵌入所述抓取脚本之中；

步骤8、将脚本存入数据库。

本发明具有如下优点：本系统的可视化脚本编辑器，可以使非专业用户直观的选择目标站点相关数据的抓取区域，将用户的操作自动转化生成为特定的处理脚本，由爬虫系统中的各分布式处理器单元在运行中对这些处理脚本动态择优执行，极大的降低了定制化爬虫所需的人力成本，同时提高了爬虫系统的运行效率。该系统抓取数据的准确率高，且具有极高的可扩展性和伸缩性。

附图说明

图1为本发明系统的结构示意图。

图2为本发明系统的工作流程图。

图3为本发明可视化脚本编辑器执行结构示意图。

图4为本发明可视化脚本编辑器工作流程示意图。

图5为本发明执行链运作方式的流程图。

图6为本发明内容处理模块和脚本的工作流程图。

图7为本发明系统一实施例的结构示意图。

具体实施方式

请参阅图1至图7所示，本发明的一种基于可视化脚本编辑器的分布式网络爬虫系统，所述系统包括：可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块；

所述可视化脚本编辑器，用于可视化查看目标网站内容，选择目标网站的数据抓取区域；其将用户的输入(从输入目标站点URL链接开始，到最终完成编辑中的所有用户操作产生的输入)转化成一条执行链与其他非必要参数(例如是否使用正文提取，是否模拟浏览器等等)，同时根据执行链生成对应的脚本并存入一数据库；该可视化脚本编辑器使得用户无需具备编程技能,可以像正常浏览网页一般查看目标网站。该脚本即为目标网站对应的脚本；

配置管理模块，提供WEB界面，用户可以在这里配置需要爬取的网站，以及针对一个或一系列网站配置调度策略(如：优先级，定时爬取，重爬间隔等等)，抓取策略(出错重试，启用代理，启用游览器模拟等等)与其他配置参数，形成用户配置信息。

所述分布式消息队列，用于将任务调度模块，网页抓取模块，内容处理模块和结果存储模块进行解耦，实现了极高的分布式部署能力。该分布式消息队列包括调度队列、抓取队列、处理队列、以及结果队列；

所述任务调度模块，用于负责协调整个系统的运作，读入目标网站(该目标网站即为要进行处理判断的网站)起始URL链接与用户输入信息打包成任务后传入所述调度队列，并从调度队列里取得任务对象，并过滤重复任务后发送至所述抓取队列；所述任务调度模块包括URL过滤模块和速率管理器，所述URL过滤模块，使用布隆过滤器对URL链接进行去重，防止重复爬取同一URL链接，布隆过滤器实际上是由一个很长的二进制向量和一系列随机映射函数组成，用于检索一个元素是否在一个集合中；它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。使用布隆过滤器能极大的提高系统效率，而它的缺点完全不会对爬虫系统产生影响，十分适合爬虫系统使用。所述速率管理器，采用令牌桶算法防止网络拥塞，限制流出网络的流量，使流量以均匀的速度向外发送，保证系统的稳定性。

所述网页抓取模块，用于从抓取队列获取到URL链接，自动解析网站编码，并将抓取的网站的内容转换成UTF-8编码，将该UTF-8编码的内容与网站相关信息打包后转发送到处理队列；所述网页抓取模块包括：代理访问模块和浏览器模拟模块，所述代理访问模块，随着网络技术的发展，如今越来越多的网站采用动态页面技术，使用了大量的Javascript脚本来生成网页内容，而传统模式的网页抓取只能获取页面的源代码，无法执行Javascript脚本，导致无法获取目标站点的完整页面，数据提取的困难倍增。本发明的代理访问模块能根据用户配置信息对指定的URL链接使用预设的IP代理进行访问，防止所述网页抓取模块所在服务器IP因为访问量过大被目标网站封锁，所述浏览器模拟模块，使用WebKit开源浏览器引擎来解析目标网站，能够执行页面上的Javascript代码，生成目标网站的完整页面。

所述内容处理模块，用于从所述处理队列获取到网站的网页内容，若此网页的URL链接与预先定义的URL匹配规则相匹配(用户预先在可视化脚本编辑器输入的目标站点URL链接，由可视化编辑器根据用户设置的条件智能生成一个URL匹配规则)，则调用匹配此URL链接的脚本对网站的网页内容进行解析；将解析后的结果传入结果队列中；所述结果存储模块，用于从结果队列中取出结果数据，并将结果数据根据系统预定义的配置进行统一处理筛选，然后存入数据库。

其中，所述系统还包括监控模块和正文提取模块，所述监控模块实时监控分布式消息队列中的调度队列，抓取队列，处理队列，结果队列四个队列是否出错，当发现异常时，及时推送消息至系统的用户界面，提醒用户检查出错原因以及是否重新进行脚本输入。

当网页的域名匹配不到与所述数据库中的脚本时，调用所述正文提取模块，来进行提取网页相应的脚本，所述正文提取模块使用基于视觉网页块分析技术的正文抽取方式进行提取。

在本发明中，所述调用此脚本进行解析；如果解析处理后生成的是新的URL链接，则将新的URL链接传入所述调度队列，重新执行任务调度模块；如果解析处理后是结果数据，则将解析后的结果数据传入结果队列中。

所述执行链包含若干个子参数，子参数有多种选择，子参数的选择包括：下层URL链接选取规则，元数据选择标识(格式如CSS，XPATH选择器)或者系统可执行的脚本代码。

如图3、4、5所示，所述可视化脚本编辑器具体实现流程如下：

步骤2、可视化脚本编辑器呈现目标网站URL链接网页内容，

步骤4、选择下层URL链接的区块，可视化脚本编辑器将记录这些区块的位置，并存入一执行链，(可视化脚本编辑器将记录这些区块的位置，并存入一执行链具体操作可以参见图5)所有位置信息均以CSS或XPATH语法的形式组成，返回步骤3；

步骤5、选择若干个需要抓取内容的区块，存入一执行链，

步骤6、用户确认编辑工作完成，

步骤8、将脚本存入数据库。

如图2为本发明系统的工作流程图，具体如下：

(1)任务调度模块访问配置管理模块，读入起始URL链接与用户配置信息打包成任务后传入调度队列。

(2)任务调度模块从调度队列里取得任务对象，询问URL过滤模块，如果没有访问过此任务的URL链接，则直接发送至抓取队列。如果访问过了，则检测用户设置的参数(回访时间等等)，如果允许重新访问，也发送至抓取队列，否则抛弃此任务。最后将滤重后的任务发送至抓取队列。

(3)网页抓取模块从抓取队列获取到URL链接，执行抓取操作，自动解析网站编码，并将抓取的内容换成通用的UTF-8编码与站点相关信息打包转发送到处理队列。

(4)内容处理模块从处理队列获取到网页内容。如果此网页的域名等信息匹配到了用户预先定义好的脚本(即数据库中的脚本)，则调用此脚本进行解析。如果处理后生成的是新的URL链接，那这些链接将传入调度队列，重新进入步骤(2)如果是结果数据，则传入结果队列。

(5)结果存储模块从结果队列中取出结果，做根据预定义配置，做最终的统一处理，再存入数据库。

(6)重复(2)～(5)直到接收到系统停止命令。

如图7为本发明系统一实施例的结构示意图。该本发明的的各个模块均能以单机多实例、多机单实例、多机多实例方式部署。即本发明的系统可以分布式部署。

另外，本系统所发送至消息队列的数据对象统一称为任务对象，一个任务对象包含:①内容(URL链接，网页内容或结果数据等等，根据消息队列的不同而变化)；②配置参数；③状态标识；

实际上从消息队列中都是先取出任务对象，再从任务对象中取出相关信息。

这里需要说明的是：本发明中任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块均可以在多台服务器上启动多个实例，它们通过消息队列实现解耦，可以随时停止或增加任意类型的实例。此种设计可以在最大程度的提升系统的扩展性和伸缩性。

总之，本发明根据用户通过可视化界面进行输入，系统自动生成元数据提取脚本，可以识别目标站点的结构，高效的抓取特定的数据，由任务调度模块创建分派任务，网页抓取模块负责抓取页面，内容处理模块调取对应脚本将页面转换为元数据集，最后统一处理，通过结果存储模块进行存储。本发明能够大幅提高针对特定站点数据的爬取效率，减少用户劳动强度，节省系统资源，并拥有良好的可扩展性和伸缩性，适用于所有类型的互联网站点。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于可视化脚本编辑器的分布式网络爬虫系统，其特征在于：所述系统包括：可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块；

所述内容处理模块，用于从所述处理队列获取到网站的网页内容，若此网页的URL链接与预先定义的URL匹配规则相匹配，则调用匹配此URL匹配规则对应的脚本对网站的网页内容进行解析；将解析后的结果传入结果队列中；

所述结果存储模块，用于从结果队列中取出结果数据，并将结果数据根据系统预定义的配置进行统一处理筛选，然后存入数据库；

所述系统还包括监控模块，所述监控模块实时监控分布式消息队列中的调度队列，抓取队列，处理队列，结果队列四个队列是否出错，当发现异常时，及时推送消息至系统的用户界面，提醒用户检查出错原因以及是否重新进行脚本输入；

所述系统还包括正文提取模块，当网页的域名匹配不到与所述数据库中的脚本时，调用所述正文提取模块，来进行提取网页相应的脚本，所述正文提取模块使用基于视觉网页块分析技术的正文抽取方式进行提取。

2.根据权利要求1所述的一种基于可视化脚本编辑器的分布式网络爬虫系统，其特征在于：如果解析处理后生成的是新的URL链接，则将新的URL链接传入所述调度队列，重新执行任务调度模块；如果解析处理后是结果数据，则将解析后的结果数据传入结果队列中。

3.根据权利要求1所述的一种基于可视化脚本编辑器的分布式网络爬虫系统，其特征在于：所述任务调度模块包括URL过滤模块和速率管理器，所述URL过滤模块，使用布隆过滤器对URL链接进行去重，防止重复爬取同一URL链接，布隆过滤器是由一个二进制向量和一系列随机映射函数组成，用于检索一个元素是否在一个集合中；所述速率管理器，采用令牌桶算法防止网络拥塞，限制流出网络的流量，使流量以均匀的速度向外发送，保证系统的稳定性。

4.根据权利要求1所述的一种基于可视化脚本编辑器的分布式网络爬虫系统，其特征在于：所述网页抓取模块包括：代理访问模块和浏览器模拟模块，所述代理访问模块，根据用户配置信息对指定的URL链接使用预设的IP代理进行访问，防止所述网页抓取模块所在服务器IP因为访问量过大被目标网站封锁，所述浏览器模拟模块，使用WebKit开源浏览器引擎来解析目标网站，能够执行页面上的Javascript代码，生成目标网站的完整页面。

5.根据权利要求1所述的一种基于可视化脚本编辑器的分布式网络爬虫系统，其特征在于：所述执行链包含若干个子参数，子参数有多种选择，子参数的选择包括：下层URL链接选取规则，元数据选择标识或者系统可执行的脚本代码。

6.根据权利要求1所述的一种基于可视化脚本编辑器的分布式网络爬虫系统，其特征在于：所述可视化脚本编辑器具体实现流程如下：

步骤2、可视化脚本编辑器呈现目标网站URL链接网页内容，

步骤5、选择若干个需要抓取内容的区块，存入一执行链，

步骤6、用户确认编辑工作完成，

步骤8、将脚本存入数据库。