[go: up one dir, main page]

CN102799602B - 一种从互联网获取数据的方法和系统 - Google Patents

一种从互联网获取数据的方法和系统 Download PDF

Info

Publication number
CN102799602B
CN102799602B CN201210126411.6A CN201210126411A CN102799602B CN 102799602 B CN102799602 B CN 102799602B CN 201210126411 A CN201210126411 A CN 201210126411A CN 102799602 B CN102799602 B CN 102799602B
Authority
CN
China
Prior art keywords
xml file
rss
xml
target database
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210126411.6A
Other languages
English (en)
Other versions
CN102799602A (zh
Inventor
王征
赵海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinaote Intelligent Sports Innovation Development Co., Ltd.
Original Assignee
China Digital Video Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Digital Video Beijing Ltd filed Critical China Digital Video Beijing Ltd
Priority to CN201210126411.6A priority Critical patent/CN102799602B/zh
Publication of CN102799602A publication Critical patent/CN102799602A/zh
Application granted granted Critical
Publication of CN102799602B publication Critical patent/CN102799602B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种从互联网获取数据的方法和系统,所述方法具体包括:从网络数据提供商获取可扩展标记语言XML文件;判断获取到的所述XML文件是否合法,若合法,则分析所述XML文件,若符合聚合内容RSS的标准格式,则所述XML文件为RSS格式,否则为非标准的RSS格式;否则,重新从网络数据提供商获取所述XML文件;将所述XML文件按照不同格式适应性存入目标数据库。本发明能够从互联网上智能识别不同格式包括RSS与非标准的RSS的XML文件,存储到目标数据库中,提高了从互联网上获取数据的灵活性,为用户提供更多的方便的和实时的网络资源。

Description

一种从互联网获取数据的方法和系统
技术领域
本发明涉及互联网信息技术领域,特别涉及一种从互联网获取数据的方法和系统。
背景技术
由于信息技术的飞速发展,世界已经进入了信息的时代,信息是庞杂的,由于信息对于某些人群可资利用,因而被视为一种资源,这些可资利用的信息被称资讯。所谓资讯播出系统,也叫图文资讯播出系统,是相对于传统的电视播出系统而言的。传统的视频播出系统都是以播出活动电视画面和伴音为主要任务的,而资讯播出系统是以文字、图形、图表为主辅以动态影像,传播各类信息的系统。它可以独立完成一个电视频道(资讯频道、电视购物频道)的播出,也可以附加在传统播出系统中,增加频道的播出信息量。现有的资讯播出系统具有以下特性:1、图片、视频、上滚、左飞、动画角标同屏播出2、多行资讯信息实时修改实时播出3、度身定制各类电视栏目模板,栏目包装直接套用4、板式灵活多样,可任意设定多个广告位5、无限层字幕实时叠加6、广告窗中可添加大量图片广告信息以及动画文件,并且每条广告信息中可有标题和文字信息7、可以同时播出金融信息,汇率窗口,股市风云、天气预报等。资讯播出系统中播出的数据从网络数据提供商获得。
可扩展标记语言(Extensible Markup Language,XML),用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。XML是标准通用标记语言(SGML)的子集,非常适合Web传输。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
其中,RSS是XML文件的格式之一,RSS(简易信息聚合,也叫聚合内容)是一种描述和同步网站内容的格式。RSS可以是以下三个解释的其中一个:Really SimpleSyndication;RDF(Resource Description Framework)Site Summary;Rich SiteSummary。但其实这三个解释都是指同一种Syndication的技术。RSS目前广泛用于网上新闻频道,blog和wiki,主要的版本有0.91,1.0,2.0。使用RSS订阅能更快地获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。
从在发明人实现本发明的过程中,发现现有技术中存在以下缺陷:从互联网上获取XML文件时,只能对单一格式的数据进行订阅获取,不能同时对多种格式的数据进行识别。
发明内容
针对现有技术中的缺陷,本发明能够从互联网上智能识别不同格式包括RSS与非标准的RSS的XML文件,提高了从互联网上获取数据的灵活性,为用户提供更多的方便的和实时的网络资源。
为了解决以上技术问题本发明提供了一种从互联网获取数据的方法,具体包括:
从网络数据提供商获取可扩展标记语言XML文件;
判断获取到的所述XML文件是否合法,若合法,则分析所述XML文件,若符合聚合内容RSS的标准格式,则所述XML文件为RSS格式,否则为非标准的RSS格式;否则,重新从网络数据提供商获取所述XML文件;
将所述XML文件按照不同格式适应性存入目标数据库,具体包括:
当所述XML文件的格式为RSS时,解析后存入所述目标数据库中;或,当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中。
其中,所述从网络数据提供商获取可扩展标记语言XML文件,具体包括:
根据用户需求以参数形式导入所述XML地址;
分析所述XML地址获取与之相对应的URL链接;
通过读取所述URL链接得到所述XML文件。
其中,判断获取到的所述XML文件是否合法,具体包括:
根据XML语法特性判断获取到的所述XML文件是否合法。
其中,所述当所述XML文件的格式为RSS时,解析后存入所述目标数据库中,具体包括:
当所述XML文件的格式为RSS时,解析后以行列方式存入所述目标数据库T_XmlRss表中。
其中,所述当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,具体包括:
当所述XML文件的格式为非标准的RSS时,直接将所述XML存入所述目标数据库T_XmlOriginal表中。
本发明还提供了一种从互联网获取数据的系统,具体包括:
获取单元,用于从网络数据提供商获取可扩展标记语言XML文件;
判断单元,用于判断获取到的所述XML文件是否合法;
分析单元,用于分析所述XML文件,若符合聚合内容RSS的标准格式,则所述XML文件为RSS格式,否则为非标准的RSS格式;
存储单元,用于将不同格式的XML文件适应性存入目标数据库,其中,还具体包括:解析单元,用于当所述XML文件的格式为RSS时,解析后存入所述目标数据库中;或,当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中。
其中,所述获取单元具体包括导入单元、分析单元和读取单元,其中,
导入单元,用于根据用户需求以参数形式导入所述XML地址;
分析单元,用于分析所述XML地址获取与之相对应的URL链接;
读取单元,用于通过读取所述URL链接得到所述XML文件。
其中,判断单元具体用于:
根据XML语法特性判断获取到的所述XML文件是否合法。
其中,所述当所述XML文件的格式为RSS时,解析后存入所述目标数据库中,具体包括:
当所述XML文件的格式为RSS时,解析后以行列方式存入所述目标数据库T_XmlRss表中。
其中,所述当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,具体包括:
当所述XML文件的格式为非标准的RSS时,直接将所述XML存入所述目标数据库T_XmlOriginal表中。
与现有技术相比,本发明实施例具有以下优点:通过从互联网上智能识别不同格式包括RSS与非标准的RSS的XML文件,存储到目标数据库中,从而提高了从互联网上获取数据的灵活性,为用户提供更多的方便的和实时的网络资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1:是本发明实施例1中一种从互联网获取数据的方法的流程图;
图2:是本发明实施例2中一种从互联网获取数据的系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1中提供了一种从互联网获取数据的方法,如图1所示,包括以下步骤:
步骤S101,从网络数据提供商获取可扩展标记语言XML文件,具体包括:
根据用户需求以参数形式导入所述XML地址,多个XML地址用空格分隔,如果需要用户名和密码,则用逗号分隔,例如‘xmlReader.exehttp:\\rss.sina.com.cn\sports.xmlhttp:\\singapore.info.afg.xml,user,pass’;
分析所述XML地址获取与之相对应的URL链接;
通过读取所述URL链接得到所述XML文件。
步骤S102,判断获取到的所述XML文件是否合法,具体包括:
根据XML语法特性判断获取到的所述XML文件是否合法,若合法,则实施步骤S103,若不合法,则重新从网络数据提供商获取所述XML文件。
步骤S103,分析所述XML文件,若符合聚合内容RSS的标准格式,则所述XML文件为RSS格式,否则为非标准的RSS格式。
步骤S104,将所述XML文件按照不同格式适应性存入目标数据库,具体包括:
当所述XML文件的格式为RSS时,解析后存入所述目标数据库中;或,当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,
其中,所述当所述XML文件的格式为RSS时,解析后存入所述目标数据库中,具体包括:
当所述XML文件的格式为RSS时,解析后以行列方式存入所述目标数据库T_XmlRss表中;
其中,所述当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,具体包括:
当所述XML文件的格式为非标准的RSS时,直接将所述XML存入所述目标数据库T_XmlOriginal表中。
本发明实施例的技术方案带来的有益效果如下:通过从互联网上智能识别不同格式包括RSS与非标准的RSS的XML文件,存储在目标数据库中,从而提高了从互联网上获取数据的灵活性,为用户提供更多的方便的和实时的网络资源。
本发明实施例2中提供了一种从互联网获取数据的系统,如图2所示,包括:
获取单元201,用于从网络数据提供商获取可扩展标记语言XML文件;
其中,所述获取单元具体包括导入单元、分析单元和读取单元,其中,
导入单元2011,用于根据用户需求以参数形式导入所述XML地址;
分析单元2012,用于分析所述XML地址获取与之相对应的URL链接;
读取单元2013,用于通过读取所述URL链接得到所述XML文件。
判断单元202,用于判断获取到的所述XML文件是否合法,具体为:
根据XML语法特性判断获取到的所述XML文件是否合法。
分析单元203,用于分析所述XML文件,若符合聚合内容RSS的标准格式,则所述XML文件为RSS格式,否则为非标准的RSS格式。
存储单元204,用于将不同格式的XML文件适应性存入目标数据库,其中,还具体包括:解析单元2031,用于当所述XML文件的格式为RSS时,解析后存入所述目标数据库中;或,当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,
其中,所述当所述XML文件的格式为RSS时,解析后存入所述目标数据库中,具体包括:
当所述XML文件的格式为RSS时,解析后以行列方式存入所述目标数据库T_XmlRss表中。
其中,所述当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,具体包括:
当所述XML文件的格式为非标准的RSS时,直接将所述XML存入所述目标数据库T_XmlOriginal表中。
本发明实施例的技术方案带来的有益效果如下:通过从互联网上智能识别不同格式包括RSS与非标准的RSS的XML文件,存储在目标数据库中,从而提高了从互联网上获取数据的灵活性,为用户提供更多的方便的和实时的网络资源。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (8)

1.一种从互联网获取数据的方法,其特征在于,包括:
从网络数据提供商获取可扩展标记语言XML文件,具体包括:根据用户需求以参数形式导入所述XML地址;分析所述XML地址获取与之相对应的URL链接;通过读取所述URL链接得到所述XML文件;
判断获取到的所述XML文件是否合法,若合法,则分析所述XML文件,若符合聚合内容RSS的标准格式,则所述XML文件为RSS格式,否则为非标准的RSS格式;否则,重新从网络数据提供商获取所述XML文件;
将所述XML文件按照不同格式适应性存入目标数据库,具体包括:
当所述XML文件的格式为RSS时,解析后存入所述目标数据库中;或,当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中。
2.如权利要求1所述的方法,其特征在于,判断获取到的所述XML文件是否合法,具体包括:
根据XML语法特性判断获取到的所述XML文件是否合法。
3.如权利要求1所述的方法,其特征在于,所述当所述XML文件的格式为RSS时,解析后存入所述目标数据库中,具体包括:
当所述XML文件的格式为RSS时,解析后以行列方式存入所述目标数据库T_XmlRss表中。
4.如权利要求1所述的方法,其特征在于,所述当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,具体包括:
当所述XML文件的格式为非标准的RSS时,直接将所述XML存入所述目标数据库T_XmlOriginal表中。
5.一种从互联网获取数据的系统,其特征在于,包括:
获取单元,用于从网络数据提供商获取可扩展标记语言XML文件;
判断单元,用于判断获取到的所述XML文件是否合法;
分析单元,用于分析所述XML文件,若符合聚合内容RSS的标准格式,则所述XML文件为RSS格式,否则为非标准的RSS格式;
存储单元,用于将不同格式的XML文件适应性存入目标数据库,其中,还具体包括:解析单元,用于当所述XML文件的格式为RSS时,解析后存入所述目标数据库中;或,当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中;
所述获取单元具体包括导入单元、分析单元和读取单元,其中,
导入单元,用于根据用户需求以参数形式导入所述XML地址;
分析单元,用于分析所述XML地址获取与之相对应的URL链接;
读取单元,用于通过读取所述URL链接得到所述XML文件。
6.如权利要求5所述的系统,其特征在于,判断单元具体用于:
根据XML语法特性判断获取到的所述XML文件是否合法。
7.如权利要求5所述的系统,其特征在于,所述当所述XML文件的格式为RSS时,解析后存入所述目标数据库中,具体包括:
当所述XML文件的格式为RSS时,解析后以行列方式存入所述目标数据库T_XmlRss表中。
8.如权利要求5所述的系统,其特征在于,所述当所述XML文件的格式为非标准的RSS时,直接存入所述目标数据库中,具体包括:当所述XML文件的格式为非标准的RSS时,直接将所述XML存入所述目标数据库T_XmlOriginal表中。
CN201210126411.6A 2012-04-26 2012-04-26 一种从互联网获取数据的方法和系统 Expired - Fee Related CN102799602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210126411.6A CN102799602B (zh) 2012-04-26 2012-04-26 一种从互联网获取数据的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210126411.6A CN102799602B (zh) 2012-04-26 2012-04-26 一种从互联网获取数据的方法和系统

Publications (2)

Publication Number Publication Date
CN102799602A CN102799602A (zh) 2012-11-28
CN102799602B true CN102799602B (zh) 2018-03-16

Family

ID=47198714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210126411.6A Expired - Fee Related CN102799602B (zh) 2012-04-26 2012-04-26 一种从互联网获取数据的方法和系统

Country Status (1)

Country Link
CN (1) CN102799602B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1672523A2 (en) * 2004-12-20 2006-06-21 Microsoft Corporation Method and system for linking data ranges of a computer-generated document with associated extensible markup language elements
CN2852542Y (zh) * 2005-11-07 2006-12-27 国网北京电力建设研究院 一种用于送电线路监测的无线通信基站
CN101739421A (zh) * 2008-11-21 2010-06-16 上海电机学院 基于xml的数据集成信息交换平台
CN101763419A (zh) * 2009-12-28 2010-06-30 山东大学 一种本地数据库同步更新远程rss数据的方法
US7752224B2 (en) * 2005-02-25 2010-07-06 Microsoft Corporation Programmability for XML data store for documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1672523A2 (en) * 2004-12-20 2006-06-21 Microsoft Corporation Method and system for linking data ranges of a computer-generated document with associated extensible markup language elements
US7752224B2 (en) * 2005-02-25 2010-07-06 Microsoft Corporation Programmability for XML data store for documents
CN2852542Y (zh) * 2005-11-07 2006-12-27 国网北京电力建设研究院 一种用于送电线路监测的无线通信基站
CN101739421A (zh) * 2008-11-21 2010-06-16 上海电机学院 基于xml的数据集成信息交换平台
CN101763419A (zh) * 2009-12-28 2010-06-30 山东大学 一种本地数据库同步更新远程rss数据的方法

Also Published As

Publication number Publication date
CN102799602A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
Bruns Faster than the speed of print: Reconciling'big data'social media analysis and academic scholarship
Russell Digital communication networks and the journalistic field: The 2005 French riots
US20100118035A1 (en) Moving image generation method, moving image generation program, and moving image generation device
US20080282293A1 (en) System and method for an event scheduler
CN101753559B (zh) 一种网络资源的获取系统及网络资源列表获取方法
US20120128334A1 (en) Apparatus and method for mashup of multimedia content
WO2020233166A1 (zh) 评论数据的提供、显示方法、装置、电子设备及存储介质
CN105868276A (zh) 网页显示方法及装置
CN102724586B (zh) 基于iptv的页面缓存方法及系统
CN109683978A (zh) 一种流式布局界面渲染的方法、装置以及电子设备
CN105931161A (zh) 一种教材资源管理系统及教材资源管理方法
CN108984070B (zh) 用于热力图成像的方法、装置、电子设备及可读介质
Andersson et al. Mobile e-services using HTML5
Fauzi et al. Transformation and Challenges of Digital Journalism in Aceh
CN105138452A (zh) 一种基于终端系统的浏览器性能自动化测试方法
Gil-Jaurena Openness in higher education
Perez-Teran et al. Testing the influence of radio programs on climate change knowledge: A pilot experience from the Congo Basin
CN102799602B (zh) 一种从互联网获取数据的方法和系统
Whittaker Producing for Web 2.0: A student guide
CN103218358A (zh) 一种Diff打分方法以及系统
Atnafu Local internet content: the case of Ethiopia
Zhang From media convergence to “Internet plus”
Bangani et al. Media as a scholarly source of information: citations for legal theses and dissertations
CN102779146A (zh) 一种本地数据库中数据实时更新的方法和系统
Wang On the Influence of Digital Media Technology on News Communication

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190320

Address after: 100195 No. 621, 6th floor, No. 1 Building, 131 North West Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Xinaote Intelligent Sports Innovation Development Co., Ltd.

Address before: 100195 new technology building, 49 Wukesong Road, Haidian District, Beijing

Patentee before: China Digital Video (Beijing) Limited

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180316

Termination date: 20200426