[go: up one dir, main page]

CN108549693A - 基于爬虫技术的cms页面生成方法 - Google Patents

基于爬虫技术的cms页面生成方法 Download PDF

Info

Publication number
CN108549693A
CN108549693A CN201810333254.3A CN201810333254A CN108549693A CN 108549693 A CN108549693 A CN 108549693A CN 201810333254 A CN201810333254 A CN 201810333254A CN 108549693 A CN108549693 A CN 108549693A
Authority
CN
China
Prior art keywords
page
data
substation
cms
main website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810333254.3A
Other languages
English (en)
Other versions
CN108549693B (zh
Inventor
郑川旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bao Zun Agel Ecommerce Ltd
Original Assignee
Shanghai Bao Zun Agel Ecommerce Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bao Zun Agel Ecommerce Ltd filed Critical Shanghai Bao Zun Agel Ecommerce Ltd
Priority to CN201810333254.3A priority Critical patent/CN108549693B/zh
Publication of CN108549693A publication Critical patent/CN108549693A/zh
Application granted granted Critical
Publication of CN108549693B publication Critical patent/CN108549693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于爬虫技术的CMS页面生成方法,包括以下步骤:步骤S1.开发人员定制主站页面爬虫工具,识别主站所有的CMS页面,生成约定好的数据格式;步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据,分站提供基于固定格式数据的页面生成接口,解析数据转换成分站可识别的数据格式,分站根据转换后的数据生成页面;步骤S3.分站同时提供页面的多版本预览发布管理接口,运营人员根据需求人工再修改;步骤S4.预览、发布页面,页面上线。其优点表现在:运营人员不再受制作内容的大小以及制作时间的局限,可以基于时间提前发布,不需要按时蹲守发布,大大减少运营人员工作压力以及人力资源成本。

Description

基于爬虫技术的CMS页面生成方法
技术领域
本发明涉及互联网技术领域,具体地说,是基于爬虫技术的CMS页面生成方法。
背景技术
随着互联网的不断发展以及全球化趋势的愈见突现,网上商城的国际化逐渐被各大品牌公司所关注,“国际站”的概念逐渐被提出。国际站往往并非简单的独站多语言的形式,而是多站多内容的建立模式,每个站通常有自己独立的网站内容,以达到本土化的目的。
这种一个主站多个分站的模式已渐渐被各大品牌所采用,然而在日常网站内容更迭的过程中,很难做到分站与主站内容及时同步。主站更新时,往往都是通过网站运营人员手工制作的形式上线分站内容,该过程由于耗时耗力,且不可避免人为因素的影响。
中国专利文献CN201110409441.3,申请日20111209,专利名称为:一种CMS内容订单系统及实现方法,该方法包括:通过CMS门户生成内容订单,内容订单用于指示向目标业务系统发布适合目标业务系统格式要求的内容;依据所述内容订单判断是否存在符合目标业务系统格式要求的子内容,若存在则直接生成内容发布任务,若不存在则自动生成转码任务,在转码任务成功完成后自动生成对应的内容发布任务;内容发布任务用于自动将所述内容订单指定的内容发布到目标业务系统;转码任务用于自动执行文件格式转码,生成符合目标业务系统格式要求的子内容。
上述专利文献通过创建内容订单,通过业务流程控制,自动实现目标业务系统所要求子内容格式的转码以及对应内容的发布,实现针对目标业务系统的内容自动下发,提高了发布效率,满足业务系统运营需求。但是,关于一种运营人员可以在主站内容更新时,更加高效、快速的制作分站内容,并加以预览、发布上线,以提高效率,减少人力成本的技术方案则无相应的公开。
综上所述,现有技术中,运营人员在国际主站内容发生更新时,均通过人工制作的形式来生成分站新内容,耗费人力以及时间,容易被人为因素影响,需要一种运营人员可以在主站内容更新时,更加高效、快速的制作分站内容,并加以预览、发布上线,以提高效率,减少人力成本的基于爬虫技术的CMS页面生成方法,而关于这种方法目前还未见报道。
发明内容
本发明的目的是针对现有技术中的不足,提供一种运营人员可以在主站内容更新时,更加高效、快速的制作分站内容,并加以预览、发布上线,以提高效率,减少人力成本的于爬虫技术的CMS页面生成方法。
为实现上述目的,本发明采取的技术方案是:
基于爬虫技术的CMS页面生成方法,其特征在于,所述方法包括以下步骤:
步骤S1.开发人员定制主站页面爬虫工具,识别主站所有的CMS页面,生成约定好的数据格式;
步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据,分站提供基于固定格式数据的页面生成接口,解析数据转换成分站可识别的数据格式,分站根据转换后的数据生成页面;
步骤S3.分站同时提供页面的多版本预览发布管理接口,运营人员根据需求人工再修改;
步骤S4.预览、发布页面,页面上线。
作为一种优选的技术方案,步骤S1中开发人员需要先了解主站各页面结构,根据页面链接格式来检测当前页面所属模板,然后针对每个模板会出现的组件内容来进行参数获取,从而输出当前页面对应的JSON数据。
作为一种优选的技术方案,步骤S2中运营人员在获取到主站页面数据后,选择需要在分站需要更新的页面链接,解析到对应的模班类型,然后将JSON数据粘贴到左侧文本域内,点击“数据转换”即可完成数据转换,数据转换完成后,在分站会创建新的页面数据。
作为一种优选的技术方案,,步骤S3中运营人员进行数据转换之后,在分站生成一条新的页面数据记录,通过分站上的CMS管理功能,实现页面数据的人工再编辑。
作为一种优选的技术方案,步骤S4中点击预览和发布,对指定页面数据进行预览和发布,其中,预览过程是将改条页面数据加载到实际的页面上,与上线之后的效果保持一致,发布是基于时间发布的,选择开始时间和结束时间后,点击发布按钮,即可上线,上线后,用户访问页面,会根据当前时间点来获取有效的页面数据从而渲染页面。
本发明优点在于:
1、本发明的基于爬虫技术的CMS页面生成方法,运营人员不再受制作内容的大小以及制作时间的局限,可以基于时间提前发布,不需要按时蹲守发布,大大减少运营人员工作压力以及人力资源成本。
附图说明
图1是本发明整体逻辑的流程图,用于了解本发明大致上的逻辑,以及流程走向。
图2是本发明的爬虫工具收集的主站数据,用于了解本发明对于页面的解释逻辑的示意图。
图3是本发明分站提供的数据转换接口,用于了解本发明对于数据转换的逻辑的示意图。
图4是本发明分站提供的数据编辑功能,用于了解本发明对于数据的人工再编辑逻辑的示意图。
图5是本发明分站提供的页面管理功能,用于了解本发明对于页面的预览的示意图。
图6是本发明分站提供的页面管理功能,用于了解本发明对于页面的发布逻辑的示意图。
具体实施方式
下面结合附图对本发明提供的具体实施方式作详细说明。
请参照图1,图1为本发明基于爬虫技术的CMS页面生成方法的流程图。基于爬虫技术的CMS页面生成方法,所述方法包括以下步骤:
整个流程大致上分为4个部分:
1.开发人员预先编写好主站页面的爬虫工具;
2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据;
3.运营人员根据需求人工再修改;
4.预览、发布页面,页面上线。
首先第一部分:
开发人员需要先了解主站各页面结构,不同的页面往往包含不同的内容,同类页面包含类似页面结构,仅具体内容设置不同。在实际实施中,根据页面链接格式来检测当前页面所属模板,然后针对每个模板会出现的组件内容来进行参数获取,从而输出当前页面对应的JSON数据。
其次第二部分:
运营人员在获取到主站页面数据后,选择需要在分站需要更新的页面链接,解析到对应的模班类型,然后将JSON数据粘贴到左侧文本域内,点击“数据转换”即可完成数据转换,如图3所示。数据转换完成后,在分站会创建新的页面数据
第三部分:
运营人员进行数据转换之后,会在分站生成一条新的页面数据记录,通过分站上的CMS管理功能,可以实现页面数据的人工再编辑,如图4所示。
第四部分:
点击图5中的预览和发布(见图6),可以对指定页面数据进行预览和发布,预览过程是将改条页面数据加载到实际的页面上,与上线之后的效果保持一致。另外发布是基于时间发布的,选择开始时间和结束时间后,点击发布按钮,即可上线。上线后,用户访问页面,会根据当前时间点来获取有效的页面数据从而渲染页面。
本发明的基于爬虫技术的CMS页面生成方法,运营人员不再受制作内容的大小以及制作时间的局限,可以基于时间提前发布,不需要按时蹲守发布,大大减少运营人员工作压力以及人力资源成本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (5)

1.基于爬虫技术的CMS页面生成方法,其特征在于,所述方法包括以下步骤:
步骤S1.开发人员定制主站页面爬虫工具,识别主站所有的CMS页面,生成约定好的数据格式;
步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据,分站提供基于固定格式数据的页面生成接口,解析数据转换成分站可识别的数据格式,分站根据转换后的数据生成页面;
步骤S3.分站同时提供页面的多版本预览发布管理接口,运营人员根据需求人工再修改;
步骤S4.预览、发布页面,页面上线。
2.根据权利要求1所述的基于爬虫技术的CMS页面生成方法,其特征在于,步骤S1中开发人员需要先了解主站各页面结构,根据页面链接格式来检测当前页面所属模板,然后针对每个模板会出现的组件内容来进行参数获取,从而输出当前页面对应的JSON数据。
3.根据权利要求1所述的基于爬虫技术的CMS页面生成方法,其特征在于,步骤S2中运营人员在获取到主站页面数据后,选择需要在分站需要更新的页面链接,解析到对应的模班类型,然后将JSON数据粘贴到左侧文本域内,点击“数据转换”即可完成数据转换,数据转换完成后,在分站会创建新的页面数据。
4.根据权利要求1所述的基于爬虫技术的CMS页面生成方法,其特征在于,步骤S3中运营人员进行数据转换之后,在分站生成一条新的页面数据记录,通过分站上的CMS管理功能,实现页面数据的人工再编辑。
5.根据权利要求1所述的基于爬虫技术的CMS页面生成方法,其特征在于,步骤S4中点击预览和发布,对指定页面数据进行预览和发布,其中,预览过程是将改条页面数据加载到实际的页面上,与上线之后的效果保持一致,发布是基于时间发布的,选择开始时间和结束时间后,点击发布按钮,即可上线,上线后,用户访问页面,会根据当前时间点来获取有效的页面数据从而渲染页面。
CN201810333254.3A 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法 Active CN108549693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810333254.3A CN108549693B (zh) 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810333254.3A CN108549693B (zh) 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法

Publications (2)

Publication Number Publication Date
CN108549693A true CN108549693A (zh) 2018-09-18
CN108549693B CN108549693B (zh) 2022-07-08

Family

ID=63514698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810333254.3A Active CN108549693B (zh) 2018-04-13 2018-04-13 基于爬虫技术的cms页面生成方法

Country Status (1)

Country Link
CN (1) CN108549693B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697267A (zh) * 2018-12-12 2019-04-30 西安四叶草信息技术有限公司 Cms识别方法及装置
CN109710224A (zh) * 2019-01-17 2019-05-03 宜创(北京)科技有限公司 页面处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
US20140075407A1 (en) * 2012-09-13 2014-03-13 International Business Machines Corporation Generating application model build artifacts
CN105786505A (zh) * 2016-02-26 2016-07-20 上海全成通信技术有限公司 一种基于json的复杂web页面组件自定义方法及装置
CN105912613A (zh) * 2016-04-06 2016-08-31 江苏中威科技软件系统有限公司 一种网站模板快速迁移的方法
CN106202096A (zh) * 2015-05-05 2016-12-07 阿里巴巴集团控股有限公司 客户端页面渲染方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
US20140075407A1 (en) * 2012-09-13 2014-03-13 International Business Machines Corporation Generating application model build artifacts
CN106202096A (zh) * 2015-05-05 2016-12-07 阿里巴巴集团控股有限公司 客户端页面渲染方法及装置
CN105786505A (zh) * 2016-02-26 2016-07-20 上海全成通信技术有限公司 一种基于json的复杂web页面组件自定义方法及装置
CN105912613A (zh) * 2016-04-06 2016-08-31 江苏中威科技软件系统有限公司 一种网站模板快速迁移的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗兵: "支持AJAX的互联网搜索引擎爬虫设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697267A (zh) * 2018-12-12 2019-04-30 西安四叶草信息技术有限公司 Cms识别方法及装置
CN109697267B (zh) * 2018-12-12 2021-02-23 西安四叶草信息技术有限公司 Cms识别方法及装置
CN109710224A (zh) * 2019-01-17 2019-05-03 宜创(北京)科技有限公司 页面处理方法、装置、设备及存储介质
CN109710224B (zh) * 2019-01-17 2022-06-14 宜创(北京)科技有限公司 页面处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108549693B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN101777004B (zh) 面向服务环境中基于模板实现bpel子流程复用的方法及系统
CN107402775A (zh) 网页的生成方法、装置和系统
CN109299446A (zh) 报告生成方法及装置
CN107273122A (zh) 基于解耦机制的可迭代组建业务系统的方法及其终端
CN107783780B (zh) 一种代码复查方法和系统
CN106339363B (zh) 一种ppt报告的制作方法和装置
CN109542433A (zh) 产品页面生成方法、装置、计算机设备及存储介质
CN109035060A (zh) 一种结构化工艺管理系统及管理方法
CN107766042A (zh) 一种基于csar的模型文件的可视化设计方法及装置
CN105447760A (zh) 标准化投融资交易系统的模板化及配置化方法
CN101354702A (zh) 一种基于iec61970标准的电力系统图形的交互性实现方法
CN103885764A (zh) 网络媒介信息展示系统、方法、装置和服务器
CN106779594A (zh) 一种基于Activiti的工作流管理方法
CN107861722A (zh) 一种iOS上动态修改UI布局的方法
CN108549693A (zh) 基于爬虫技术的cms页面生成方法
JP2019091361A (ja) 翻訳支援装置、翻訳支援プログラム、および情報処理装置により翻訳を支援する方法
CN106446063A (zh) 一种网页更新的系统
CN104951311B (zh) 一种页面制作方法及装置
CN103425466A (zh) 配色处理方法和装置
CN112100984A (zh) 一种由ebom到sbom的数据转换方法及系统
de_Almeida Monte-Mor et al. Applying MDA approach to create graphical user interfaces
EP2318950B1 (en) System and method for designing stationery
JP2019174894A (ja) ワークショップ支援システムおよびワークショップ支援方法
US20130007697A1 (en) Program creation support apparatus, program, and information system
CN108628924A (zh) 一种基于JavaScript生成html5页面的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant