CN105391812A

CN105391812A - 一种网站自检系统及其自检方法

Info

Publication number: CN105391812A
Application number: CN201410447681.6A
Authority: CN
Inventors: 陈国辉
Original assignee: Shanghai Fuwang Information Technology Co Ltd
Current assignee: Shanghai Fuwang Information Technology Co Ltd
Priority date: 2014-09-04
Filing date: 2014-09-04
Publication date: 2016-03-09

Abstract

本发明公开了一种采用无深度限制技术的网站自检方法及系统。所述网站自检方法包括以下步骤：步骤S1，读取需要扫描的网站域名；步骤S2，获取当前域名内所有的URL；步骤S3，解析URL地址；步骤S4，识别URL地址是否属于当前域名；当URL地址属于当前域名，则跳转到S1步骤，进行重新读取；当URL地址不属于当前域名，则执行步骤S5；步骤S5，获取解析后的URL状态码；步骤S6，将URL状态码保存到数据库。本发明的网站自检方法采用了无深度限制技术，能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据，同时运营人员不用为了获得网站基础性能的数据而购买多种软件。

Description

一种网站自检系统及其自检方法

技术领域

本发明涉及网络技术领域，具体涉及一种网站自检系统及其自检方法。

背景技术

网络技术是从1990年代中期发展起来的新技术，它把分散的资源融为有机整体，实现资源的全面共享和有机协作，使人们能够使用资源的整体能力并按需获取信息。

互联网检索是指通过向搜索引擎等检索系统输入检索条件，由检索系统返回检索结果的互联网应用方式。

现有互联网检索过程主要如下：

（1）用户打开浏览器，在浏览器的地址栏中输入检索系统的域名地址，浏览器将该域名地址发送给域名系统(DomainNameSystem，简称：DNS)服务器。

（2）所述DNS服务器根据该完整域名地址，经过若干次域名查询过程最终查询到相应检索服务器的地址信息，并将该地址信息返回给所述浏览器。

（3）所述浏览器根据所述地址信息访问所述检索服务器，并显示该检索服务器提供的检索页面，用户在该检索页面中输入检索条件，由浏览器将该检索条件发送所述检索服务器。

(4)所述检索服务器根据所述检索条件进行检索，并向所述浏览器返回检索结果，浏览器将该检索结果显示给用户。

这些互联网的检索过程中或者涉及计算机网路安全领域（例如判断网站是否存在诸如CGI漏洞，SQL注入漏洞、跨站脚本漏洞等各种安全漏洞，需要从网站外部，即远程对网站进行安全漏洞扫描，以确定网站是否存在这些安全漏洞），都必须使用到互联网网站扫描工具。现有的检索过程和扫描工具存在扫描到相应网站链接的时候，仅能返回相应网站链接的固定状态；而不能够在扫描到相应网站连接的时候，返回相应网站链接的所有状态。例如，目前大家习惯上使用爬虫程序老虎sitemap生产工具，其就只能够获取到相应链接的404状态码，而不能获取到相应链接的所有状态码，譬如301跳转码。

发明内容

为了解决现有技术中存在的问题，本发明的目的是提供一种采用无深度限制技术，能够扫描到相应网站最深层的链接状态码，从而获取所有链接的状态码的网站自检系统及其自检方法。

根据本发明的一个方面，提供一种采用无深度限制技术的网站自检方法，其包括以下步骤：

步骤S1，读取需要扫描的网站域名；

步骤S2，获取当前域名内所有的URL；

步骤S3，解析URL地址；

步骤S4，识别URL地址是否属于当前域名；当URL地址属于当前域名，则跳转到S1步骤，进行重新读取；当URL地址不属于当前域名，则执行步骤S5；

步骤S5，获取解析后的URL状态码；

步骤S6，将URL状态码保存到数据库。

所述步骤S4采用一次迭代。

本发明的网站自检方法采用了无深度限制技术，能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据，同时运营人员不用为了获得网站基础性能的数据而购买多种软件。

根据本发明的另一个方面，提供一种采用无深度限制技术的网站自检系统，包括以下部件：

网站域名读取单元，其用于读取需要扫描的网站入口域名；

网站域名获取单元，其用于获取当前网站域名内所有的URL地址；

URL解析单元，其用于解析网站域名内所有的URL地址；

域名判断单元，其用于识别URL地址是否属于当前域名；

URL状态码获取单元，其用于获取经URL解析单元解析出来的URL状态码；

数据库存储单元，其用于储存URL状态码获取单元获取到的各种URL状态码。

所述系统支持并行多线处理，且总线程数没有上限限制。

根据本发明的网站自检系统采用了无深度限制技术，能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据，同时运营人员不用为了获得网站基础性能的数据而购买多种软件。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明的一种网站自检方法的流程示意图；

图2是本发明的一种网站自检系统的结构框图连接示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1显示了本发明的网站自检方法的流程示意图。

参见图1所示，本发明的一种采用无深度限制技术的网站自检方法，包括以下步骤，包括以下步骤：

步骤S1，读取需要扫描的网站域名。

此为本发明的网站自检方法的第一步，也即为网站入口。在本步骤中，网站域名读取单元开始读取网站的域名，也即是网站的各种URL地址。

步骤S2，获取当前域名内所有的URL。

在该步骤中，URL地址获取单元开始获取到当前网站域名内所有的URL地址。

步骤S3，解析URL地址。

URL地址解析单元在S3步骤中对网站内所有的URL地址进行解析。

步骤S4，识别URL地址是否属于当前域名；当URL地址属于当前域名，则跳转到S1步骤，进行重新读取；当URL地址不属于当前域名，则执行步骤S5。

在该步骤中，域名判断单元采用一次迭代的方法对解析后的URL地址进行识别和判断。当识别出URL地址属于当前域名，则跳转到S1步骤，进行重新读取；当识别出URL地址不属于当前域名，则执行步骤S5。

步骤S5，解析URL，获取URL状态码。在本步骤中，URL状态码获取单元将经URL解析单元解析出来的URL状态码进行获取。

步骤S6，将URL状态码保存到数据库。在结束的时候，网站自检系统将获取单元获取到的各种URL状态码存储于数据库存储单元。

通过采用上述流程，本发明的网站自检方法采用无深度限制技术，对URL地址进行循环判断和循环解析，进而能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据，同时运营人员不用为了获得网站基础性能的数据而购买多种软件。

图2是本发明的一种网站自检系统的结构框图连接示意图。

本发明一种采用无深度限制技术的网站自检系统，包括以下部件：

网站域名读取单元，其用于读取需要扫描的网站入口域名；

URL解析单元，其用于解析网站域名内所有的URL地址；

域名判断单元，其用于识别URL地址是否属于当前域名；

所述系统支持并行多线处理，且总线程数没有上限限制。

所述网站域名读取单元的输出接口与网站域名获取单元的输入接口连接；所述网站域名获取单元的输出接口连接到URL解析单元的输入接口；URL解析单元的输出接口连接到域名判断单元的输入接口；域名判断单元的输出接口分别连接到网站域名读取单元和URL状态码获取单元；URL状态码获取单元的输出接口连接到数据库存储单元的输入口。

本发明一种采用无深度限制技术的网站自检系统的工程原理如下：

首先，网站域名读取单元作为网站入口开始读取需要扫描的网站入口域名。然后，网站域名获取单元进行获取当前网站域名内所有的URL地址。其次，URL解析单元进行解析网站域名内所有的URL地址。第四步，域名判断单元进行一次迭代，开始分别识别所有的URL地址是否属于当前域名。当URL地址属于当前域名，则跳转到第一步让网站域名读取单元进行重新读取。当URL地址不属于当前域名，则进入下一步，让URL状态码获取单元获取经URL解析单元解析出来的URL状态码。最后，系统将从URL状态码获取单元获取到的各种URL状态码存储到数据库存储单元。整个系统支持并行多线处理，且总线程数没有上限限制。

综上所述，本发明的网站自检系统采用了无深度限制技术，能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据，同时运营人员不用为了获得网站基础性能的数据而购买多种软件。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种网站自检方法，其特征在于，包括以下步骤：

步骤S1，读取需要扫描的网站域名；

步骤S2，获取当前域名内所有的URL；

步骤S3，解析URL地址；

步骤S5，获取URL状态码；

步骤S6，将URL状态码保存到数据库。

2.根据权利要求1所述的一种网站自检方法，其特征在于：所述步骤S4采用一次迭代。

3.一种网站自检系统，其特征在于：所述网站自检系统包括以下部件：

网站域名读取单元，其用于读取需要扫描的网站入口域名；

URL解析单元，其用于解析网站域名内所有的URL地址；

域名判断单元，其用于识别URL地址是否属于当前域名；

4.根据权利要求3所述的一种网站自检系统，其特征在于：所述系统支持并行多线处理，且总线程数没有上限限制。