CN108549693A

CN108549693A - 基于爬虫技术的cms页面生成方法

Info

Publication number: CN108549693A
Application number: CN201810333254.3A
Authority: CN
Inventors: 郑川旸
Original assignee: Shanghai Bao Zun Agel Ecommerce Ltd
Current assignee: Shanghai Bao Zun Agel Ecommerce Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-18
Anticipated expiration: 2038-04-13
Also published as: CN108549693B

Abstract

本发明涉及基于爬虫技术的CMS页面生成方法，包括以下步骤：步骤S1.开发人员定制主站页面爬虫工具，识别主站所有的CMS页面，生成约定好的数据格式；步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据，分站提供基于固定格式数据的页面生成接口，解析数据转换成分站可识别的数据格式，分站根据转换后的数据生成页面；步骤S3.分站同时提供页面的多版本预览发布管理接口，运营人员根据需求人工再修改；步骤S4.预览、发布页面，页面上线。其优点表现在：运营人员不再受制作内容的大小以及制作时间的局限，可以基于时间提前发布，不需要按时蹲守发布，大大减少运营人员工作压力以及人力资源成本。

Description

基于爬虫技术的CMS页面生成方法

技术领域

本发明涉及互联网技术领域，具体地说，是基于爬虫技术的CMS页面生成方法。

背景技术

随着互联网的不断发展以及全球化趋势的愈见突现，网上商城的国际化逐渐被各大品牌公司所关注，“国际站”的概念逐渐被提出。国际站往往并非简单的独站多语言的形式，而是多站多内容的建立模式，每个站通常有自己独立的网站内容，以达到本土化的目的。

这种一个主站多个分站的模式已渐渐被各大品牌所采用，然而在日常网站内容更迭的过程中，很难做到分站与主站内容及时同步。主站更新时，往往都是通过网站运营人员手工制作的形式上线分站内容，该过程由于耗时耗力，且不可避免人为因素的影响。

中国专利文献CN201110409441.3，申请日20111209，专利名称为：一种CMS内容订单系统及实现方法，该方法包括：通过CMS门户生成内容订单，内容订单用于指示向目标业务系统发布适合目标业务系统格式要求的内容；依据所述内容订单判断是否存在符合目标业务系统格式要求的子内容，若存在则直接生成内容发布任务，若不存在则自动生成转码任务，在转码任务成功完成后自动生成对应的内容发布任务；内容发布任务用于自动将所述内容订单指定的内容发布到目标业务系统；转码任务用于自动执行文件格式转码，生成符合目标业务系统格式要求的子内容。

上述专利文献通过创建内容订单，通过业务流程控制，自动实现目标业务系统所要求子内容格式的转码以及对应内容的发布，实现针对目标业务系统的内容自动下发，提高了发布效率，满足业务系统运营需求。但是，关于一种运营人员可以在主站内容更新时，更加高效、快速的制作分站内容，并加以预览、发布上线，以提高效率，减少人力成本的技术方案则无相应的公开。

综上所述，现有技术中，运营人员在国际主站内容发生更新时，均通过人工制作的形式来生成分站新内容，耗费人力以及时间，容易被人为因素影响，需要一种运营人员可以在主站内容更新时，更加高效、快速的制作分站内容，并加以预览、发布上线，以提高效率，减少人力成本的基于爬虫技术的CMS页面生成方法，而关于这种方法目前还未见报道。

发明内容

本发明的目的是针对现有技术中的不足，提供一种运营人员可以在主站内容更新时，更加高效、快速的制作分站内容，并加以预览、发布上线，以提高效率，减少人力成本的于爬虫技术的CMS页面生成方法。

为实现上述目的，本发明采取的技术方案是：

基于爬虫技术的CMS页面生成方法，其特征在于，所述方法包括以下步骤：

步骤S1.开发人员定制主站页面爬虫工具，识别主站所有的CMS页面，生成约定好的数据格式；

步骤S2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据，分站提供基于固定格式数据的页面生成接口，解析数据转换成分站可识别的数据格式，分站根据转换后的数据生成页面；

步骤S3.分站同时提供页面的多版本预览发布管理接口，运营人员根据需求人工再修改；

步骤S4.预览、发布页面，页面上线。

作为一种优选的技术方案，步骤S1中开发人员需要先了解主站各页面结构，根据页面链接格式来检测当前页面所属模板，然后针对每个模板会出现的组件内容来进行参数获取，从而输出当前页面对应的JSON数据。

作为一种优选的技术方案，步骤S2中运营人员在获取到主站页面数据后，选择需要在分站需要更新的页面链接，解析到对应的模班类型，然后将JSON数据粘贴到左侧文本域内，点击“数据转换”即可完成数据转换，数据转换完成后，在分站会创建新的页面数据。

作为一种优选的技术方案，，步骤S3中运营人员进行数据转换之后，在分站生成一条新的页面数据记录，通过分站上的CMS管理功能，实现页面数据的人工再编辑。

作为一种优选的技术方案，步骤S4中点击预览和发布，对指定页面数据进行预览和发布，其中，预览过程是将改条页面数据加载到实际的页面上，与上线之后的效果保持一致，发布是基于时间发布的，选择开始时间和结束时间后，点击发布按钮，即可上线，上线后，用户访问页面，会根据当前时间点来获取有效的页面数据从而渲染页面。

本发明优点在于：

1、本发明的基于爬虫技术的CMS页面生成方法，运营人员不再受制作内容的大小以及制作时间的局限，可以基于时间提前发布，不需要按时蹲守发布，大大减少运营人员工作压力以及人力资源成本。

附图说明

图1是本发明整体逻辑的流程图，用于了解本发明大致上的逻辑，以及流程走向。

图2是本发明的爬虫工具收集的主站数据，用于了解本发明对于页面的解释逻辑的示意图。

图3是本发明分站提供的数据转换接口，用于了解本发明对于数据转换的逻辑的示意图。

图4是本发明分站提供的数据编辑功能，用于了解本发明对于数据的人工再编辑逻辑的示意图。

图5是本发明分站提供的页面管理功能，用于了解本发明对于页面的预览的示意图。

图6是本发明分站提供的页面管理功能，用于了解本发明对于页面的发布逻辑的示意图。

具体实施方式

下面结合附图对本发明提供的具体实施方式作详细说明。

请参照图1，图1为本发明基于爬虫技术的CMS页面生成方法的流程图。基于爬虫技术的CMS页面生成方法，所述方法包括以下步骤：

整个流程大致上分为4个部分：

1.开发人员预先编写好主站页面的爬虫工具；

2.运营人员将爬虫工具获取到的主站页面数据通过数据转换接口转换成分站数据；

3.运营人员根据需求人工再修改；

4.预览、发布页面，页面上线。

首先第一部分：

开发人员需要先了解主站各页面结构，不同的页面往往包含不同的内容，同类页面包含类似页面结构，仅具体内容设置不同。在实际实施中，根据页面链接格式来检测当前页面所属模板，然后针对每个模板会出现的组件内容来进行参数获取，从而输出当前页面对应的JSON数据。

其次第二部分：

运营人员在获取到主站页面数据后，选择需要在分站需要更新的页面链接，解析到对应的模班类型，然后将JSON数据粘贴到左侧文本域内，点击“数据转换”即可完成数据转换，如图3所示。数据转换完成后，在分站会创建新的页面数据

第三部分：

运营人员进行数据转换之后，会在分站生成一条新的页面数据记录，通过分站上的CMS管理功能，可以实现页面数据的人工再编辑，如图4所示。

第四部分：

点击图5中的预览和发布(见图6)，可以对指定页面数据进行预览和发布，预览过程是将改条页面数据加载到实际的页面上，与上线之后的效果保持一致。另外发布是基于时间发布的，选择开始时间和结束时间后，点击发布按钮，即可上线。上线后，用户访问页面，会根据当前时间点来获取有效的页面数据从而渲染页面。

本发明的基于爬虫技术的CMS页面生成方法，运营人员不再受制作内容的大小以及制作时间的局限，可以基于时间提前发布，不需要按时蹲守发布，大大减少运营人员工作压力以及人力资源成本。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.基于爬虫技术的CMS页面生成方法，其特征在于，所述方法包括以下步骤：

步骤S4.预览、发布页面，页面上线。

2.根据权利要求1所述的基于爬虫技术的CMS页面生成方法，其特征在于，步骤S1中开发人员需要先了解主站各页面结构，根据页面链接格式来检测当前页面所属模板，然后针对每个模板会出现的组件内容来进行参数获取，从而输出当前页面对应的JSON数据。

3.根据权利要求1所述的基于爬虫技术的CMS页面生成方法，其特征在于，步骤S2中运营人员在获取到主站页面数据后，选择需要在分站需要更新的页面链接，解析到对应的模班类型，然后将JSON数据粘贴到左侧文本域内，点击“数据转换”即可完成数据转换，数据转换完成后，在分站会创建新的页面数据。

4.根据权利要求1所述的基于爬虫技术的CMS页面生成方法，其特征在于，步骤S3中运营人员进行数据转换之后，在分站生成一条新的页面数据记录，通过分站上的CMS管理功能，实现页面数据的人工再编辑。

5.根据权利要求1所述的基于爬虫技术的CMS页面生成方法，其特征在于，步骤S4中点击预览和发布，对指定页面数据进行预览和发布，其中，预览过程是将改条页面数据加载到实际的页面上，与上线之后的效果保持一致，发布是基于时间发布的，选择开始时间和结束时间后，点击发布按钮，即可上线，上线后，用户访问页面，会根据当前时间点来获取有效的页面数据从而渲染页面。