CN104572874B

CN104572874B - 一种网页信息的抽取方法及装置

Info

Publication number: CN104572874B
Application number: CN201410804430.9A
Authority: CN
Inventors: 刘雄伟
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2019-03-05
Anticipated expiration: 2034-12-19
Also published as: CN104572874A

Abstract

本发明实施例公开了一种网页信息的抽取方法及装置，所述网页信息的抽取方法包括：获取欲抽取信息网页的统一资源定位器URL；根据欲抽取信息网页的URL选择预先设定的模板；使用所选择的预先设定的模板抽取网页信息。从而提高了抽取网页信息的准确率。

Description

一种网页信息的抽取方法及装置

技术领域

本发明涉及信息技术领域，尤其涉及一种网页信息的抽取方法及装置。

背景技术

随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。文本信息抽取技术是一种精确、高效的信息获取方法。它是从一个或多个网页中抽取指定的实体、关系及事件等用户需要的信息，并形成结构化的数据，呈现给用户。这种方法具有内容精确、冗余度小、组织规范等优点。

在现有技术中，有多种技术方法可用于多记录网页的抽取。如传统的方法中可采用编写规则来进行抽取。该方法能够准确快速地从特定的数据源中抽取出记录信息。随着网络信息量的日益增长，以及网页内容的不断更新，面对海量千变万化的数据，仅通过单一的人工配置模板来抽取网页的相关信息，必然会降低抽取的准确率。即使仅用于同一领域站点网页信息的抽取，由于其网页数目较多，布局风格多样且多变，现有的技术方法仍不能有效地提高抽取信息的准确率。

发明内容

有鉴于此，本发明实施例提出一种网页信息的抽取方法及装置，以提高抽取网页信息的准确率。

第一方面，本发明实施例提供了一种网页信息的抽取方法，所述方法包括：

获取欲抽取信息网页的统一资源定位器URL；

根据欲抽取信息网页的URL选择预先设定的模板；

使用所选择的预先设定的模板抽取网页信息。

第二方面，本发明实施例提供了一种网页信息的抽取装置，所述装置包括：

URL获取单元，用于获取欲抽取信息网页的统一资源定位器URL；

模板选择单元，用于根据欲抽取信息网页的URL选择预先设定的模板；

网页信息抽取单元，用于使用所选择的预先设定的模板抽取网页信息。

本发明实施例提供的网页信息的抽取方法和装置，通过获取欲抽取信息网页的统一资源定位器URL；根据欲抽取信息网页的URL选择预先设定的模板；使用所选择的预先设定的模板抽取网页信息。从而提高了抽取网页信息的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的网页信息的抽取方法的流程图；

图2是本发明第一实施例提供的网页信息的抽取方法的示意图；

图3是本发明第二实施例提供的网页信息的抽取方法的流程图；

图4是本发明第二实施例提供的网页信息的抽取方法的示意图；

图5是本发明第三实施例提供的网页信息的抽取方法的流程图；

图6是本发明第四实施例提供的网页信息的抽取方法的流程图；

图7是本发明第五实施例提供的网页信息的抽取方法的流程图；

图8是本发明第六实施例提供的网页信息的抽取结构的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1及图2示出了本发明的第一实施例。

图1是本发明第一实施例提供的网页信息的抽取方法的流程图；图2为所述网页信息的抽取方法的示意图，所述网页信息的抽取方法包括：

步骤S101，获取欲抽取信息网页的统一资源定位器(URL)。

统一资源定位器(Uniform Resoure Locator，URL)是对可以从互联网上所获取到资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有唯一的URL，它包含的信息能够指出文件的位置以及浏览器对该文件的处理方法。

另外，URL也可以用来作为万维网的地址。对于在互联网上能够被访问的网页，都存在具有统一资源定位器URL。因此，对于欲抽取信息的网页，应该首先获取该网页的URL。例如欲抽取网易首页的信息，则需要先获取网易首页的URL(即http://www.163.com/)。

步骤S102，根据欲抽取信息的网页的URL选择预先设定的模板。

不同的网站会预先设置不同的模板，这是因为不同的网站所展示的信息具有很大的不同，例如新浪网与淘宝网。新浪网作为综合性门户网站，其展示的信息以新闻为主；而淘宝则以商品展示为主。对于上述两个网站，所采用的抽取信息模板必然存在较大差异。如采用同一抽取模板，由于抽取模板所抽取信息的正则表达式只对具有相应设定的字符串起作用，必然会降低准确率。因此，可以通过获取对欲抽取信息网页的URL来选择相应的预先设定的模板，从而提高提取网页信息的准确率。

步骤S103，使用选择的预先设定的模板抽取网页信息。

根据步骤S102所选择的预设的模板，对网页信息进行抽取，所述的模板可以是一组正则表达式。正则表达式是对字符串操作的一种逻辑公式，就是指用事先定义好的一些特定字符及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”可以用来表达对字符串的一种过滤逻辑。

给定一个正则表达式和另一个字符串，可以达到如下的目的：判定字符串是否符合正则表达式的过滤逻辑(称作“匹配”)；也可以通过正则表达式，从字符串中获取我们想要的特定部分。

通过设定的正则表达式，可以从网页内容中识别和抽取网页中的相关内容，去除无关内容，并将抽取到的信息存入指定的数据库中，从而方便进行查询和查看。

本发明实施例通过获取欲抽取信息网页的统一资源定位器(URL)，并根据欲抽取信息网页的URL选择预先设定的模板，及使用选择的预先设定的模板抽取网页信息，从而提高抽取信息的准确率。

实施例二

图3及图4示出了本发明的第二实施例。

图3是本发明第二实施例提供的网页信息的抽取方法的流程图，图4为本发明第二实施例提供的网页信息的抽取方法所述网页信息的抽取方法的示意图。所述的网页信息的抽取方法以第一实施例为基础，进一步的，将获取欲抽取信息的网页的统一资源定位器(URL)具体优化为：获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL；将根据欲抽取信息网页的URL选择预先设定的模板具体优化为：根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL选择预先设定的模板。

参见图3及图4，所述的网页信息的抽取方法包括：

步骤S201，获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL。

欲抽取信息的网页内部可能包括多个链接。例如，欲抽取信息的网页为某门户网站的入口网页。如网易首页，在其首页上包括若干子单元的链接，例如论坛、新闻、财经等。可以通过网络爬虫获取相应的链接及链接所指向的网页内容。网络爬虫是一个自动提取网页的程序，可从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列。

步骤S202，根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL选择预先设定的模板。

欲抽取信息的网页内部可能包括多个链接。例如某门户网站首页，在其首页上包括若干子单元的链接，如论坛、新闻、财经等。各个子单元由于内容差异极大，需要根据各个子单元的URL选取对应的预先设定的模板，模板可以由一组正则表达式组成。

步骤S203，使用所选择的预先设定的模板抽取网页信息。

本发明实施例通过将获取欲抽取信息网页的统一资源定位器(URL)具体优化为：获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL；将根据欲抽取信息网页的URL选择预先设定的模板具体优化为：根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL，选择预先设定的模板。可以使用网络爬虫获取网页所包括的URL及URL所指向的网页内容，并根据包括的URL选择合适的模板对网页信息进行抽取。这样就可以在保证准确率的情况下，自动快速的完成多个网页信息的抽取。

实施例三

图5示出了本发明的第三实施例。

图5是本发明第三实施例提供的网页信息的抽取方法的流程图，所述的网页信息的抽取方法以第一实施例为基础，进一步的，在获取欲抽取信息网页的统一资源定位器(URL)之后，增加如下步骤：对页面进行分块，将所述的根据欲抽取信息网页的URL选择预先设定的模板具体优化为：根据欲抽取信息的网页的URL及分块信息选择预先设定的模板；将所述的使用选择的预先设定的模板抽取网页信息具体包括：使用根据欲抽取信息网页的URL及分块信息所选择的预先设定模板对网页信息进行抽取。

参见图5，所述的网页信息的抽取方法包括：

步骤S301，获取欲抽取信息网页的统一资源定位器(URL)。

步骤S302，对页面进行分块。

抽取信息的页面通过布局，对页面的文字、图形或表格进行格式设置，使得页面上包括多个块，例如信息块、图像块、广告块等。可以根据每一块的具体内容来对网页分块，也可以对内容简单的网页设定区域范围来分块。

步骤S303，根据欲抽取信息的网页及分块信息选择预先设定的模板。

对于已经分块的页面，可以根据其网页的URL和该块在页面的位置从模板数据库中选择合适的预先设定的模板。

步骤S304，使用根据欲抽取信息网页的URL及分块信息所选择的预先设定模板对网页信息进行抽取。

根据步骤S303所选择的模板对网页的分块内的信息进行抽取。

本发明实施例通过在获取欲抽取信息网页的统一资源定位器(URL)之后，增加如下步骤：对页面进行分块，将所述的根据欲抽取信息网页的URL选择预先设定的模板具体优化为：根据欲抽取信息网页的URL及分块信息选择预先设定的模板；将所述的使用选择的预先设定的模板抽取网页信息具体包括：使用根据欲抽取信息网页的URL及分块信息所选择的预先设定的模板对网页信息进行抽取。将抽取信息的网页进行分块，根据分块信息和网页URL选取合适的模板对网页信息进行抽取，从而加快了抽取速度，也进一步的增强了抽取信息的准确度。

实施例四

图6示出了本发明的第四实施例。

图6是本发明第四实施例提供的网页信息的抽取方法的流程图，所述的网页信息的抽取方法以第三实施例为基础，进一步的，将对页面进行分块具体优化为：遍历页面所有标签，确定连续标签所构成的分块区域。

参见图6，所述的网页信息的抽取方法包括：

步骤S401，获取欲抽取信息网页的统一资源定位器(URL)。

步骤S402，遍历页面所有分隔标签。

抽取信息的页面内根据不同的内容会采用相应的标签进行标记，例如在页面的超文本标记语言(HyperText Mark-up Language，HTML；)。文本文件采用标签对信息块进行描述，例如<bcginTag></beginTag>、<endTag></endTag>和<divideTag></divideTag>，其中<bcginTag></bcginTag>和<.endTag></endTag>用来表示信息块的起始位置，根据它们可以在Html页面源文件中找到信息块。<divideTag></divideTag>用来表示信息块之内起分割作用的标识。根据抽取信息的页面的HTML文本文件可以遍历到该页面的所有标签。

步骤S403，确定连续标签所构成的分块区域。

根据步骤S402遍历页面所有标签的结果，可以寻找到连续标签。例如<bcginTag></beginTag>、<endTag></endTag>，该标签内所包括的内容即该段分块内的信息。信息块内部是由多个内容、形式相同的部分组成。而<divideTag></divideTag>用来表示信息块之内起分割作用的标识，即用来区分信息大块中的各个信息子块。

步骤S404，根据欲抽取信息网页的及分块信息选择预先设定的模板。

步骤S405，使用根据欲抽取信息网页的URL及分块信息所选择的预先设定模板对网页信息进行抽取。

本发明实施例通过将对页面进行分块具体优化为：遍历页面所有标签，确定连续标签所构成的分块区域。能够准确的根据网页中的内容进行准确的分块，进一步的提高了抽取信息的准确性。

实施例五

图7是本发明第五实施例提供的网页信息的抽取方法的流程图，所述的网页信息的抽取方法以第四实施例为基础，进一步的，将所述的确定连续标签所构成的分块区域具体优化为：根据设定的分隔标签权值计算分隔标签之间所构成分块区域的权值；确定权值大于预设值的分隔标签之间所构成的分块区域。

参见图7，所述的网页信息的抽取方法包括：

步骤S501，获取欲抽取信息网页的统一资源定位器(URL)。

步骤S502，遍历页面所有标签。

步骤S503，根据设定的分隔标签权值计算分隔标签之间所构成分块的权值。

分隔标签之间所限定的网页分块存在很大的差异，有的分块可能有很多信息内容，有的分块可能只有寥寥几个字。特别是链接分块，很明显，这些链接分块并不是需要进行抽取的。如果按照原有的方法，对这些链接分块也需要通过模板进行抽取会浪费相当大的资源，所以需要对分隔标签之间所构成分块进行考量，判断其是否需要通过模板进行抽取。

在本实施例中，通过预设设定的分割标签之间所构成的间隔分块阈值对分隔分块进行判断。可采用如下程序实现：

n:＝0；k:＝0：TagSeg:＝Φ；

While Not Doc文件结束

K:＝k+l

:从Doe中提取的第k个HTML标签

If Blank(,),//存在连续HTML标签

If∈S//存在连续的分隔标签

→TagSeg

End If

End

If//在分隔标签段

计算分隔标签段所对应的分割权值，

EndElse

EndWhile

步骤S504，确定权值大于预设值的分隔标签之间所构成分块区域。

根据步骤S503的计算结果，可以将符合设定阈值的分块区域放入同一集合中，该集合中的分块区域即权值大于预设值的分隔标签之间所构成分块区域。其实现代码如下：

IfS_ws≥S′//分隔标签段构成间隔

<B_n,TagSeg_n>→Q

EndIf

//清空分隔标签集合

步骤S505，根据欲抽取信息的网页的及分块信息选择预先设定的模板。

步骤S506，使用根据欲抽取信息的网页的URL及分块信息选择的预先设定的模板对网页信息进行抽取。

本发明实施例通过将所述确定的连续标签所构成的分块区域具体优化为：根据设定的分隔标签权值计算分隔标签之间所构成分块区域的权值；确定权值大于预设值的分隔标签之间所构成分块区域。能够对页面的分块区域进行判断，去除不必抽取的分块区域，减少选择模板及使用模板抽取分块区域信息的工作，降低了抽取信息的工作量，加快了抽取信息的速度，同时也增强了抽取信息的准确度。

使用本实施例提供的网页信息抽取方法，对新浪、搜狐、腾讯三大网站中的上市公司财务数据报表信息进行抽取，结果如下：

实施例六

图8示出本发明第六实施例。

图8是本发明第六实施例提供的网页信息的抽取装置的结构图。

由图8可以看出，所述的网页信息的抽取装置包括：URL获取单元610、模板选择单元620和网页信息抽取单元630。

其中，所述URL获取单元，用于获取欲抽取信息网页的统一资源定位器

(URL)；

进一步的，所述的URL获取单元具体用于：

获取欲抽取信息网页的URL及欲抽取信息网页所包括的的URL；

所述模板选择单元具体用于：

根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL选择预先设定的模板。

进一步的，所述的网页信息的抽取装置还包括分块单元640。

所述分块单元，用于对页面进行分块；

所述的模板选择单元具体用于：

根据欲抽取信息的网页的URL及分块信息选择预先设定的模板；

所述的网页信息抽取单元具体用于：

使用根据欲抽取信息的网页的URL及分块信息所选择的预先设定模板对网页信息进行抽取。

进一步的，所述的分块单元还包括：遍历单元641和分块区域确定单元642。

其中，所述遍历单元用于遍历页面所有分隔标签；

分块区域确定单元用于确定连续分隔标签所构成的分块区域。

进一步的，所述的分块区域确定单元包括：权值计算单元6421和第二区域确定单元6422。

其中，所述权值计算单元用于根据设定的分隔标签权值计算分隔标签之间所构成区域的权值；

第二区域确定单元用于确定权值大于预设值的分隔标签之间所构成分块区域。

上述网页信息的抽取装置可执行本发明实施例所提供的网页信息的抽取方法，具备执行方法相应的功能模块和有益效果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页信息的抽取方法，包括：

获取欲抽取信息网页的统一资源定位器URL；

根据欲抽取信息网页的URL选择预先设定的模板；

使用选择的预先设定的模板抽取网页信息；

获取欲抽取信息网页的URL，还包括：

对页面进行分块；

所述的根据欲抽取信息网页的URL选择预先设定的模板具体包括：根据欲抽取信息网页的URL及分块信息，选择预先设定的模板；

所述的使用所选择的预先设定的模板抽取网页信息具体包括：

使用根据欲抽取信息网页的URL及分块信息，所选择的预先设定的模板，对网页信息进行抽取；

其中，所述的对页面进行分块具体包括：

遍历页面所有分隔标签；

确定连续分隔标签所构成的分块区域；

其中，所述的确定连续标签所构成的分块具体包括：

根据设定的分隔标签权值，计算分隔标签之间所构成分块的权值；

确定权值大于预设值的分隔标签之间所构成的分块区域。

2.根据权利要求1所述的网页信息的抽取方法，其特征在于，所述的获取欲抽取信息网页的统一资源定位器URL具体包括：

获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL；

所述根据欲抽取信息网页的URL选择预先设定的模板具体用于：

根据欲抽取信息网页的URL及欲抽取信息网页所包括的URL，选择预先设定的模板。

3.一种网页信息的抽取装置，包括：

网页信息抽取单元，用于使用所选择的预先设定的模板抽取网页信息；

所述的网页信息的抽取装置还包括：

分块单元，用于对页面进行分块；

所述的模板选择单元具体用于：

根据欲抽取信息网页的URL及分块信息，选择预先设定的模板；

所述的网页信息抽取单元具体用于：

使用根据欲抽取信息网页的URL及分块信息所选择的预先设定模板，对网页信息进行抽取；

其中，所述的分块单元还包括：

遍历单元，用于遍历页面所有分隔标签；

分块区域确定单元，用于确定连续分隔标签所构成的分块区域；

其中，所述的分块区域确定单元包括：

权值计算单元，用于根据设定的分隔标签权值，计算分隔标签之间所构成区域的权值；

第二区域确定单元，用于确定权值大于预设值的分隔标签之间所构成的分块区域。

4.根据权利要求3所述的网页信息的抽取装置，其特征在于，所述的URL获取单元具体用于：

获取欲抽取信息网页的URL及欲抽取信息网页所包括的URL；

所述模板选择单元具体用于：