CN101290624B - 一种新闻网页元数据自动抽取方法 - Google Patents
一种新闻网页元数据自动抽取方法 Download PDFInfo
- Publication number
- CN101290624B CN101290624B CN200810038788XA CN200810038788A CN101290624B CN 101290624 B CN101290624 B CN 101290624B CN 200810038788X A CN200810038788X A CN 200810038788XA CN 200810038788 A CN200810038788 A CN 200810038788A CN 101290624 B CN101290624 B CN 101290624B
- Authority
- CN
- China
- Prior art keywords
- metadata
- tree
- webpage
- standard
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title abstract description 17
- 238000012545 processing Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 claims 3
- 230000008569 process Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种在互联网新闻网页上进行元数据自动抽取的方法,元数据抽取系统向新闻网站服务器发送网页请求,服务器在通过一定的安全检测后将所要求的页面发往元数据抽取模块主机。元数据抽取系统在得到了一定数量的网页集合后,通过DOM技术深入分析每个网页内部的信息,挖掘集合内各个网页间的相互关系,最终得到标准所规定的元数据值。系统将元数据值转化为XML格式后,通过I/O接口向外部存储设备输出,形成XML格式的元数据文件。本发明实现了在无人工干预的情况下,系统依据依据相关元数据标准从目标文档中自动抽取元数据信息,并将结果进行合理组织和存储的全过程。
Description
技术领域
本发明涉及互联网信息自动抽取技术领域,尤其涉及一种在互联网新闻网页上进行元数据自动抽取的方法。
背景技术
近年来,万维网已发展成为新闻报道至关重要的发布源。由于新闻页面数量的迅猛增长,以及万维网在内容显示方面的多样性优势,针对新闻信息类网页进行组织分类以及分析处理的需求与日俱增。
与网络新闻资源的惊人的增长速度相比,对于资源元数据的抽取、保存以及规范化的工作却远远落后了。当前网上的新闻资源格式林立、标准众多,主要以半结构化数据的形式(HTML)存在于网络中,在很多情况下甚至是不精确的、残缺的或者冗余的。这给网络数字资源的共享带来了高度的复杂性。因此,研究如何在无人工干预的情况下高效、准确地提取网络数字资源元数据信息,就显得非常重要和必要了。新闻类网页元数据的自动抽取意味着在无人工干预的情况下,系统依据依据相关元数据标准从目标文档中自动抽取元数据信息,并将结果进行合理组织和存储的全过程。
Dublin Core(DC)是出版界权威的元数据标准,《EMMS元数据标准》在DC的组织结构上进行了针对场景的扩展,将“知识产权描述类”扩展为“版权信息描述类”,另外增加了“实体及其联系描述类”和“元数据属性描述类”。CRYSTAL系统利用正则表达式模拟谓词演算的方法实现了论文元数据的自动抽取,然而其前提格式转换器将目标文档转换成纯本文,而如果采用VIPs方法为抽取分析提供文档结构反馈支持,可以直接处理Html文档,达到抽取过程的紧耦合。
发明内容
本发明的目的针对现有技术问题,提供一种无需人工干预地根据预定的标准和规则,从新闻网页中自动抽取元数据信息的方法。
本发明的技术方案是这样的:
一种新闻网页元数据自动抽取方法,包括以下步骤,
通过选取界面获得外部原始新闻网页,利用HtmlTidy进行净化预处理,得到规范Html页面;
对得到的上述规范Html页面利用HTMLParser第三方插件进行解析,得到DOM树;
对得到的所述DOM树利用VIPs算法将DOM树分块,得到视觉分块树VBT;
对得到的所述视觉分块树VBT利用信息抽取算法进行抽取,得到元数据值作为抽取结果;
对得到的所述元数据值根据EMMS元数据标准映射成为标准字段的value,获得XML对象生成类;
对得到的所述XML对象生成类利用XmlBean插件输出得到外部元数据XML文件。
采用本发明的技术方案能够实现在无人工干预的情况下高效、准确地提取网络数字资源元数据信息,为信息的分析提取打下了可靠坚实的基础。
附图说明
图1是本发明的系统总体流程图
图2是本发明实施例的硬件环境示意图
具体实施方式
在说明实施例以前,需要重申本发明使用的技术术语的定义如下:
元数据:在本发明的技术方案中,元数据被定义为按照一定的标准描述互联网资源(包括网页,文档,多媒体资源等)的属性及内容的概括性数据的集合;
元数据标准:元数据标准定义了整套元数据的体系架构。标准内容分为元数据字段名称以及字段取值范围,所有字段组织成树状结构。本方法遵循的元数据标准为《EMMS元数据标准》,它对Dublin Core进行了必要扩展,形成了“文件外部属性信息”、“文档内容描述信息”、“版权信息”、“实体以及它们间联系”以及“元数据属性信息”五大结构。元数据标准是元数据自动抽取的目标,是元数据xml文件的Shema的生成依据;
DOM(文档对象模型):DOM是“Document Object Model”的缩写,是一种供HTML和XML文档使用的应用程序编程接口(API)。它定义了文档的逻辑结构以及对文件进行访问和操作的方法。DOM被设计成平台无关、可使用任意编程语言实现的规范。为了提供准确的、独立于语言的规范,DOM工作组使用了OMG(Object Management Group,对象管理组织)的IDL(Interface DefinitionLanguage,接口定义语言)来定义DOM接口,然后由厂商来具体地实现这些接口。这样既实现了标准的统一,同时又使标准的实现成为可能;
HtmlParser:HTMLParser是一个用来解析HTML文档的java开源项目,它的目的是利用内部定制的词法分析器和语法分析器解析规范网页,把一个规范的HTML页面解析并转化成为完整的抽象标签树。它还提供其他许多诸如标签过滤等网页分析处理功能,对网页元数据的进一步分析起到一个很好的基础设施作用。
以下结合附图1详细本说明的技术方案的实施方式。在附图1中,未做标记的部分为数据初始状态、数据中间处理状态以及数据的最终形态。做标记的斜体部分为数据处理步骤,下面依次说明:
步骤101,本发明的方法可以通过网上选取(通过URL)以及本地选取两种方式选择待抽取的网页。由于HTML页面中常出现语法不规范现象,浏览器对此有很好的兼容,但是解析网页会受此很大影响。HtmlTidy提供了一个HTML的语法检查器以及错误纠正的功能,可以用来清除或修改格式不符合HTML4.0标准的标签。经过本步骤的处理,得到一个在语法上符合HTMLParser处理要求的网页;
步骤102,HtmlParser内部分为词法分析器和语法分析器的包结构,它先对网页进行字符流的词法分析,切割连续字符流为Html语法词汇,然后语法分析器把词汇解析成语义结构,得出整个Html的DOM树;
步骤103,VIPs(Vision-based Page Segmentation)充分利用了字体大小、背景颜色、空白区域等视觉特征,通过制定相应的规则把页面分成了各个视觉信息块。这能在很大程度上满足复杂页面对算法的要求。经过VIPs算法的处理,普通的DOM树被组织成根据视觉特征进行聚类的视觉分块树;
步骤104,在本方法中,针对《EMMS元数据标准》所规定的不同字段采取了不同的算法。根据步骤103得到的结果,网页已经被处理成为一个有组织的纯文本内容集合,其中,每块纯文本连带有其在网页中的位置,以及本身所呈现的视觉信息。信息抽取的具体方法包括正则表达式的匹配法、世博词汇表语义信息指导下的基于统计抽取法以及抽取路径自动生成等算法,它们除了对纯文本进行自然语言解析以外,都直接或间接运用了VBT提供的“文本——视觉属性”配对信息,进行全面和有针对性的抽取,其中数据抽取模块类总体软件架构为三层,其中Extractor为关键类,包括了附图中1的步骤102、步骤103和步骤104部分,经过各种算法的处理,各个元数据字段的结果已经得出。
步骤105,该步骤实现了信息对标准字段的填入,信息抽取步骤得出的纯粹元数据信息必须根据标准填入相应字段才能获得后续处理,元数据字段解释与映射将完成这一步骤。本步骤在不同的字段下有不同的实现,一般为各个抽取函数中的终结处理段,也有个别函数将其放置在循环处理中,如Link()和Image();
步骤106,在对XML对象进行了必要的初始化后,利用XML生成类对象,本方法将元数据输出为XML文件。本模块输出使用第三方的XmlBean插件,在步骤105阶段把抽取的纯粹元数据填入XML生成类的实例化对象中,在最后阶段由XmlBean负责统一输出到外部文件,这样无论在效率和软件架构上都是最优的。
本发明主要应用于基于语义分块的新闻网页元数据自动抽取系统,实施例的硬件使用环境如附图2所示如下:
输入设备:指文字输入设备,如手写输入板、键盘、触摸屏等。
输出设备:指文字的显示设备,如显示器、投影仪等,同时,输出设备也包括外部存储设备,如硬盘、磁盘阵列等。
处理器:指具有运算能力的终端设备,如PC机、掌上电脑、PDA等
网络接入设备:指帮助处理器接入互联网的设备,如网卡、调制解调器(Modem)等。
其大致流程是:元数据抽取系统向新闻网站服务器发送网页请求,服务器在通过一定的安全检测后将所要求的页面发往元数据抽取模块主机。元数据抽取系统在得到了一定数量的网页集合后,通过DOM技术深入分析每个网页内部的信息,挖掘集合内各个网页间的相互关系,最终得到标准所规定的元数据值。系统将元数据值转化为XML格式后,通过I/O接口向外部存储设备输出,形成XML格式的元数据文件。
总体上,本发明的方法抽取过程的所有步骤都是有机统一的,上下游步骤间有着紧密的数据传递关系,每个具体模块将一种数据形态转化为另一种,整体上实现了新闻网页的元数据高效率自动抽取。
Claims (1)
1.一种新闻网页元数据自动抽取方法,其特征在于,包括以下步骤:
101.通过选取界面获得外部原始新闻网页,利用HtmlTidy进行净化预处理,得到规范Html页面;
102.对得到的所述规范Html页面利用HtmlParser内部分为词法分析器和语法分析器的包结构,词法分析器先对网页进行字符流的词法分析,切割连续字符流为Html语法词汇,然后语法分析器把词汇解析成语义结构,得出整个Html的DOM树,其中DOM(Document Object Model,文档对象模型)是一种供HTML和XML文档使用的应用程序编程接口;
103.对得到的所述DOM树利用VIPs算法将DOM树分块,得到视觉分块树VBT(VisualBlock Tree,视觉分块树),具体方法是,VIPs算法充分利用字体大小、背景颜色、空白区域这些视觉特征,通过制定相应的规则把页面分成了各个视觉信息块,经过VIPs算法的处理,普通的DOM树被组织成根据视觉特征进行聚类的视觉分块树VBT;
104.对得到的所述视觉分块树VBT利用信息抽取算法进行抽取,得到元数据值作为抽取结果;
105.对得到的所述元数据值根据EMMS元数据标准映射成为标准字段的值,获得XML对象生成类;
106.对得到的所述XML对象生成类利用XmlBean插件输出得到外部元数据XML文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810038788XA CN101290624B (zh) | 2008-06-11 | 2008-06-11 | 一种新闻网页元数据自动抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810038788XA CN101290624B (zh) | 2008-06-11 | 2008-06-11 | 一种新闻网页元数据自动抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101290624A CN101290624A (zh) | 2008-10-22 |
CN101290624B true CN101290624B (zh) | 2012-02-01 |
Family
ID=40034882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810038788XA Expired - Fee Related CN101290624B (zh) | 2008-06-11 | 2008-06-11 | 一种新闻网页元数据自动抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101290624B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840402B (zh) * | 2009-03-18 | 2014-05-07 | 日电(中国)有限公司 | 从多语言网站构建多语言的对象层次结构的方法和系统 |
CN102194156A (zh) * | 2010-03-01 | 2011-09-21 | 国网信息通信有限公司 | 一种科技查新方法及系统 |
CN101807206A (zh) * | 2010-03-10 | 2010-08-18 | 上海克而瑞信息技术有限公司 | 一种网络信息垂直搜索与挖掘处理方法 |
CN101984434B (zh) * | 2010-11-16 | 2012-09-05 | 东北大学 | 基于可扩展标记语言查询的网页数据抽取方法 |
CN102186114B (zh) * | 2011-05-10 | 2013-08-21 | 中山大学 | 一种基于etl的数字电视互动应用中间件 |
KR102079339B1 (ko) * | 2011-08-31 | 2020-02-19 | 삼성전자주식회사 | 클라우드 시스템상의 컨텐츠를 디엘엔에이로 연결된 디바이스로 전달하는 전자 장치 및 방법 |
EP2566177B1 (en) | 2011-08-31 | 2020-10-07 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for transferring contents on cloud system to device connected to DLNA |
CN103838796A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页结构化信息抽取方法 |
CN104182396B (zh) * | 2013-05-21 | 2017-12-05 | 北大方正集团有限公司 | 终端、版式文档内容描述优化装置和方法 |
CN103279567A (zh) * | 2013-06-18 | 2013-09-04 | 重庆邮电大学 | 一种基于AJAX的Web数据采集方法及系统 |
CN104965849B (zh) * | 2015-03-31 | 2018-12-07 | 哈尔滨工程大学 | 一种基于wvp_dom树相似性的网页不变形噪音过滤方法 |
CN105468688B (zh) * | 2015-11-17 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 一种站点模板的处理方法及装置 |
CN107436931B (zh) * | 2017-07-17 | 2020-12-22 | 云润大数据服务有限公司 | 网页正文抽取方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649193A (en) * | 1993-03-12 | 1997-07-15 | Kabushiki Kaisha Toshiba | Document detection system using detection result presentation for facilitating user's comprehension |
CN101101600A (zh) * | 2007-07-10 | 2008-01-09 | 北京大学 | 网络搜索中基于多种规则的元数据自动抽取方法 |
-
2008
- 2008-06-11 CN CN200810038788XA patent/CN101290624B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649193A (en) * | 1993-03-12 | 1997-07-15 | Kabushiki Kaisha Toshiba | Document detection system using detection result presentation for facilitating user's comprehension |
CN101101600A (zh) * | 2007-07-10 | 2008-01-09 | 北京大学 | 网络搜索中基于多种规则的元数据自动抽取方法 |
Non-Patent Citations (1)
Title |
---|
狄涤等.基于规则的HTML文档元数据提取.《计算机工程》.2004,第30卷(第9期),第85,86,165页. * |
Also Published As
Publication number | Publication date |
---|---|
CN101290624A (zh) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101290624B (zh) | 一种新闻网页元数据自动抽取方法 | |
US10067931B2 (en) | Analysis of documents using rules | |
US8055661B2 (en) | Device and method for automatically generating ontology instance | |
US8381095B1 (en) | Automated document revision markup and change control | |
Groza et al. | SALT-semantically annotated for scientific publications | |
US7496837B1 (en) | Structural editing with schema awareness | |
US8452772B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere | |
CN101149732A (zh) | 由计算机使用的从自然语言文本开发本体的方法 | |
US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
US20120310868A1 (en) | Method and system for extracting and managing information contained in electronic documents | |
US20150254350A1 (en) | Method for entity enrichment of digital content to enable advanced search functionality in content management systems | |
US8533140B2 (en) | Method and system for design check knowledge construction | |
CN111192176B (zh) | 一种支持教育信息化评估的在线数据采集方法及装置 | |
US20140195532A1 (en) | Collecting digital assets to form a searchable repository | |
CN101154241A (zh) | 一种数据检索方法及一种数据检索系统 | |
CN101872350A (zh) | 网页正文抽取方法和装置 | |
CN103838796A (zh) | 一种网页结构化信息抽取方法 | |
JP4042830B2 (ja) | コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体 | |
CN103744987B (zh) | 基于dom树匹配的视频网站媒资聚合方法和系统 | |
CN101430684A (zh) | 中文办公软件文档与其他格式文档相互转换的方法及装置 | |
US8010899B2 (en) | System offering a data-skin based on standard schema and the method | |
US9305032B2 (en) | Framework for generating programs to process beacons | |
CN118170933A (zh) | 一种面向科学领域多模态语料数据的构建方法和装置 | |
CN117473980A (zh) | 一种便携式文档格式文件的结构化解析方法及相关产品 | |
JP2016164707A (ja) | 自動翻訳装置及び翻訳用モデル学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120201 Termination date: 20140611 |
|
EXPY | Termination of patent right or utility model |