CN105391812A - 一种网站自检系统及其自检方法 - Google Patents
一种网站自检系统及其自检方法 Download PDFInfo
- Publication number
- CN105391812A CN105391812A CN201410447681.6A CN201410447681A CN105391812A CN 105391812 A CN105391812 A CN 105391812A CN 201410447681 A CN201410447681 A CN 201410447681A CN 105391812 A CN105391812 A CN 105391812A
- Authority
- CN
- China
- Prior art keywords
- url
- website
- domain name
- self
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000007689 inspection Methods 0.000 title abstract 2
- 230000008569 process Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 18
- 238000010586 diagram Methods 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种采用无深度限制技术的网站自检方法及系统。所述网站自检方法包括以下步骤:步骤S1,读取需要扫描的网站域名;步骤S2,获取当前域名内所有的URL;步骤S3,解析URL地址;步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5;步骤S5,获取解析后的URL状态码;步骤S6,将URL状态码保存到数据库。本发明的网站自检方法采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
Description
技术领域
本发明涉及网络技术领域,具体涉及一种网站自检系统及其自检方法。
背景技术
网络技术是从1990年代中期发展起来的新技术,它把分散的资源融为有机整体,实现资源的全面共享和有机协作,使人们能够使用资源的整体能力并按需获取信息。
互联网检索是指通过向搜索引擎等检索系统输入检索条件,由检索系统返回检索结果的互联网应用方式。
现有互联网检索过程主要如下:
(1)用户打开浏览器,在浏览器的地址栏中输入检索系统的域名地址,浏览器将该域名地址发送给域名系统(DomainNameSystem,简称:DNS)服务器。
(2)所述DNS服务器根据该完整域名地址,经过若干次域名查询过程最终查询到相应检索服务器的地址信息,并将该地址信息返回给所述浏览器。
(3)所述浏览器根据所述地址信息访问所述检索服务器,并显示该检索服务器提供的检索页面,用户在该检索页面中输入检索条件,由浏览器将该检索条件发送所述检索服务器。
(4)所述检索服务器根据所述检索条件进行检索,并向所述浏览器返回检索结果,浏览器将该检索结果显示给用户。
这些互联网的检索过程中或者涉及计算机网路安全领域(例如判断网站是否存在诸如CGI漏洞,SQL注入漏洞、跨站脚本漏洞等各种安全漏洞,需要从网站外部,即远程对网站进行安全漏洞扫描,以确定网站是否存在这些安全漏洞),都必须使用到互联网网站扫描工具。现有的检索过程和扫描工具存在扫描到相应网站链接的时候,仅能返回相应网站链接的固定状态;而不能够在扫描到相应网站连接的时候,返回相应网站链接的所有状态。例如,目前大家习惯上使用爬虫程序老虎sitemap生产工具,其就只能够获取到相应链接的404状态码,而不能获取到相应链接的所有状态码,譬如301跳转码。
发明内容
为了解决现有技术中存在的问题,本发明的目的是提供一种采用无深度限制技术,能够扫描到相应网站最深层的链接状态码,从而获取所有链接的状态码的网站自检系统及其自检方法。
根据本发明的一个方面,提供一种采用无深度限制技术的网站自检方法,其包括以下步骤:
步骤S1,读取需要扫描的网站域名;
步骤S2,获取当前域名内所有的URL;
步骤S3,解析URL地址;
步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5;
步骤S5,获取解析后的URL状态码;
步骤S6,将URL状态码保存到数据库。
所述步骤S4采用一次迭代。
本发明的网站自检方法采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
根据本发明的另一个方面,提供一种采用无深度限制技术的网站自检系统,包括以下部件:
网站域名读取单元,其用于读取需要扫描的网站入口域名;
网站域名获取单元,其用于获取当前网站域名内所有的URL地址;
URL解析单元,其用于解析网站域名内所有的URL地址;
域名判断单元,其用于识别URL地址是否属于当前域名;
URL状态码获取单元,其用于获取经URL解析单元解析出来的URL状态码;
数据库存储单元,其用于储存URL状态码获取单元获取到的各种URL状态码。
所述系统支持并行多线处理,且总线程数没有上限限制。
根据本发明的网站自检系统采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明的一种网站自检方法的流程示意图;
图2是本发明的一种网站自检系统的结构框图连接示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1显示了本发明的网站自检方法的流程示意图。
参见图1所示,本发明的一种采用无深度限制技术的网站自检方法,包括以下步骤,包括以下步骤:
步骤S1,读取需要扫描的网站域名。
此为本发明的网站自检方法的第一步,也即为网站入口。在本步骤中,网站域名读取单元开始读取网站的域名,也即是网站的各种URL地址。
步骤S2,获取当前域名内所有的URL。
在该步骤中,URL地址获取单元开始获取到当前网站域名内所有的URL地址。
步骤S3,解析URL地址。
URL地址解析单元在S3步骤中对网站内所有的URL地址进行解析。
步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5。
在该步骤中,域名判断单元采用一次迭代的方法对解析后的URL地址进行识别和判断。当识别出URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当识别出URL地址不属于当前域名,则执行步骤S5。
步骤S5,解析URL,获取URL状态码。在本步骤中,URL状态码获取单元将经URL解析单元解析出来的URL状态码进行获取。
步骤S6,将URL状态码保存到数据库。在结束的时候,网站自检系统将获取单元获取到的各种URL状态码存储于数据库存储单元。
通过采用上述流程,本发明的网站自检方法采用无深度限制技术,对URL地址进行循环判断和循环解析,进而能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
图2是本发明的一种网站自检系统的结构框图连接示意图。
本发明一种采用无深度限制技术的网站自检系统,包括以下部件:
网站域名读取单元,其用于读取需要扫描的网站入口域名;
网站域名获取单元,其用于获取当前网站域名内所有的URL地址;
URL解析单元,其用于解析网站域名内所有的URL地址;
域名判断单元,其用于识别URL地址是否属于当前域名;
URL状态码获取单元,其用于获取经URL解析单元解析出来的URL状态码;
数据库存储单元,其用于储存URL状态码获取单元获取到的各种URL状态码。
所述系统支持并行多线处理,且总线程数没有上限限制。
所述网站域名读取单元的输出接口与网站域名获取单元的输入接口连接;所述网站域名获取单元的输出接口连接到URL解析单元的输入接口;URL解析单元的输出接口连接到域名判断单元的输入接口;域名判断单元的输出接口分别连接到网站域名读取单元和URL状态码获取单元;URL状态码获取单元的输出接口连接到数据库存储单元的输入口。
根据本发明的网站自检系统采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
本发明一种采用无深度限制技术的网站自检系统的工程原理如下:
首先,网站域名读取单元作为网站入口开始读取需要扫描的网站入口域名。然后,网站域名获取单元进行获取当前网站域名内所有的URL地址。其次,URL解析单元进行解析网站域名内所有的URL地址。第四步,域名判断单元进行一次迭代,开始分别识别所有的URL地址是否属于当前域名。当URL地址属于当前域名,则跳转到第一步让网站域名读取单元进行重新读取。当URL地址不属于当前域名,则进入下一步,让URL状态码获取单元获取经URL解析单元解析出来的URL状态码。最后,系统将从URL状态码获取单元获取到的各种URL状态码存储到数据库存储单元。整个系统支持并行多线处理,且总线程数没有上限限制。
综上所述,本发明的网站自检系统采用了无深度限制技术,能够采集到网站最深层的链接的状态码。为网站运营人员了解和优化网站提供了基础数据,同时运营人员不用为了获得网站基础性能的数据而购买多种软件。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (4)
1.一种网站自检方法,其特征在于,包括以下步骤:
步骤S1,读取需要扫描的网站域名;
步骤S2,获取当前域名内所有的URL;
步骤S3,解析URL地址;
步骤S4,识别URL地址是否属于当前域名;当URL地址属于当前域名,则跳转到S1步骤,进行重新读取;当URL地址不属于当前域名,则执行步骤S5;
步骤S5,获取URL状态码;
步骤S6,将URL状态码保存到数据库。
2.根据权利要求1所述的一种网站自检方法,其特征在于:所述步骤S4采用一次迭代。
3.一种网站自检系统,其特征在于:所述网站自检系统包括以下部件:
网站域名读取单元,其用于读取需要扫描的网站入口域名;
网站域名获取单元,其用于获取当前网站域名内所有的URL地址;
URL解析单元,其用于解析网站域名内所有的URL地址;
域名判断单元,其用于识别URL地址是否属于当前域名;
URL状态码获取单元,其用于获取经URL解析单元解析出来的URL状态码;
数据库存储单元,其用于储存URL状态码获取单元获取到的各种URL状态码。
4.根据权利要求3所述的一种网站自检系统,其特征在于:所述系统支持并行多线处理,且总线程数没有上限限制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410447681.6A CN105391812A (zh) | 2014-09-04 | 2014-09-04 | 一种网站自检系统及其自检方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410447681.6A CN105391812A (zh) | 2014-09-04 | 2014-09-04 | 一种网站自检系统及其自检方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105391812A true CN105391812A (zh) | 2016-03-09 |
Family
ID=55423641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410447681.6A Pending CN105391812A (zh) | 2014-09-04 | 2014-09-04 | 一种网站自检系统及其自检方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105391812A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1433615A (zh) * | 2000-05-05 | 2003-07-30 | 诺玛迪克斯公司 | 网络使用情况监视设备和相关方法 |
CN101453424A (zh) * | 2009-01-06 | 2009-06-10 | 中国人民解放军信息工程大学 | 一种网络信息资源访问控制方法和系统 |
CN101510195A (zh) * | 2008-02-15 | 2009-08-19 | 刘峰 | 基于爬虫技术的网站安全防护与测试诊断系统构造方法 |
CN102541937A (zh) * | 2010-12-22 | 2012-07-04 | 北大方正集团有限公司 | 一种网页信息探测方法及系统 |
CN102752154A (zh) * | 2012-07-29 | 2012-10-24 | 西北工业大学 | Web网站死链检测方法 |
CN103428186A (zh) * | 2012-05-24 | 2013-12-04 | 中国移动通信集团公司 | 一种检测钓鱼网站的方法及装置 |
-
2014
- 2014-09-04 CN CN201410447681.6A patent/CN105391812A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1433615A (zh) * | 2000-05-05 | 2003-07-30 | 诺玛迪克斯公司 | 网络使用情况监视设备和相关方法 |
CN101510195A (zh) * | 2008-02-15 | 2009-08-19 | 刘峰 | 基于爬虫技术的网站安全防护与测试诊断系统构造方法 |
CN101453424A (zh) * | 2009-01-06 | 2009-06-10 | 中国人民解放军信息工程大学 | 一种网络信息资源访问控制方法和系统 |
CN102541937A (zh) * | 2010-12-22 | 2012-07-04 | 北大方正集团有限公司 | 一种网页信息探测方法及系统 |
CN103428186A (zh) * | 2012-05-24 | 2013-12-04 | 中国移动通信集团公司 | 一种检测钓鱼网站的方法及装置 |
CN102752154A (zh) * | 2012-07-29 | 2012-10-24 | 西北工业大学 | Web网站死链检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malik et al. | Information extraction using web usage mining, web scrapping and semantic annotation | |
US8560519B2 (en) | Indexing and searching employing virtual documents | |
US8131753B2 (en) | Apparatus and method for accessing and indexing dynamic web pages | |
CN104182412B (zh) | 一种网页爬取方法及系统 | |
CN108664559A (zh) | 一种网站网页源代码自动爬取方法 | |
CN101546309B (zh) | 对计算机网络中的资源内容构建索引的方法和设备 | |
CN102404281A (zh) | 一种网站扫描设备和方法 | |
CN103853743A (zh) | 一种分布式系统及其日志查询方法 | |
CN104516982A (zh) | 一种基于Nutch的Web信息提取方法和系统 | |
CN102200980A (zh) | 一种提供网络资源的方法及系统 | |
CN103823907B (zh) | 一种整合在线视频资源地址的方法、装置及引擎 | |
CN103279507A (zh) | 网页爬虫操作方法和系统 | |
Steinmetz et al. | Web service search on large scale | |
KR102214990B1 (ko) | 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법 | |
CN101727471A (zh) | 网站内容检索系统及方法 | |
US11640438B1 (en) | Method and system for automated smart linking within web code | |
Fang et al. | Research and construction of the online pesticide information center and discovery platform based on web crawler | |
CN104317857A (zh) | 一种房屋信息采集服务系统 | |
CN107526833B (zh) | 一种url管理方法、系统 | |
JP2009042908A (ja) | ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム | |
CN1960371A (zh) | 一种访问Web应用程序文件的方法及系统 | |
CN104536972A (zh) | 基于cdn的网页内容感知系统及方法 | |
US20180203907A1 (en) | Method and system for querying semantic information stored across several semantically enhanced resources of a resource structure | |
CN105930385A (zh) | 一种数据爬取方法及系统 | |
CN105391812A (zh) | 一种网站自检系统及其自检方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160309 |
|
RJ01 | Rejection of invention patent application after publication |