CN107862050A

CN107862050A - 一种网站内容安全检测系统及方法

Info

Publication number: CN107862050A
Application number: CN201711090519.3A
Authority: CN
Inventors: 王电钢; 龚艳; 母继元; 毛启均; 常健
Original assignee: State Grid Sichuan Electric Power Co Ltd
Current assignee: State Grid Sichuan Electric Power Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-30

Abstract

本发明公开了一种网站内容安全检测系统及方法，包括前端请求模块：输入待检测的URL网址，提交请求到爬虫模块；爬虫模块：爬取目标URL网址的图片信息；特征提取模块：将爬虫模块的图片信息和样本图片模块的图片信息均提取为特征向量；模型训练器：将样本图片的特征向量通过监督学习的方式生成分类器；FPGA硬件加速器：对特征提取模块提供硬件加速功能；安全仲裁模块：根据分类器对图片特征的分类结果，计算目标URL网址的安全系数。本发明通过上述原理，以样本图像特征作为模型训练器的输入得到分类器，使用FPGA硬件加速器对特征提取模块算法进行加速以提升系统响应速度，实现快速、高效且准确的网站内容安全检测的目的。

Description

一种网站内容安全检测系统及方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种网站内容安全检测系统及方法。

背景技术

随着互联网技术的发展，Web应用程序为人们的生活带来了极大的便利，极大地丰富了信息的传播方式。但一些非法分子通过制作钓鱼、赌博和色情等网站来为自己谋取利益，给人们安全健康上网带来了极大的安全隐患。因此，恶意网站的检测已经成为了一个严重的网络安全问题。

目前对恶意网页的检测主要包括静态特征检测和动态特征检测两种方法。静态特征检测包括对网页的DNS信息、WHOIS信息、URL语法特征、HTML内容和JavaScript代码等进行分析；动态特征检测包括对链接跳转关系、浏览器行为和注册表变化等进行分析，使用机器学习的方式对网页进行分类检测也是对上述两类做法的补充。此外，使用蜜罐技术对恶意网页进行检测也是较为成熟的做法。

在文献《Beyond Blacklists:Learning to Detect Malicious Web Sites fromSuspicious URLs》中，Justin等研究者依据DNS信息、WHOIS信息以及URL语法特征，采用机器学习的方式对恶意的URL进行识别。该方式存在以下缺点：(1)一些恶意URL在语法特征和WHOIS注册信息上没有明显恶意特征，与正常URL有极大的相似性，误报率较高；(2)缺少对网页JavaScript和HTML内容的分析，仅通过分析DNS、WHOIS和URL信息来判断URL的安全性是片面的。

在文献《Prophiler:A Fast Filter for the Large-Scale Detection ofMalicious Web Pages》中，Davide在Justin的研究基础上增加了对网页Javascript和HTML特征的分析，通过对网页内容的检测提升了对恶意网站的识别准确率；在论文《基于数据挖掘和机器学习的木马检测系统设计与实现》中，施宇通过提取网页特征，并使用机器学习和BP神经网络的方式对网页进行分类，从而达到对恶意网站的识别。以上两种方法较Justin的研究有了极大的改进，但都忽视了几个重要的问题：(1)对网页内容的分类，尤其是对图片的分类，使用SVM模型或是BP神经网络分类复杂图像时表现并不好，容易产生较大的偏差；(2)使用机器学习或深度学习的方式分类网页内容会给系统带来极大的开销，针对现在热门的通过使用硬件加速的方式提升系统响应速度的措施，二者没有做类似的加速处理。

发明内容

本发明所要解决的技术问题是提升现有网站内容安全检测的响应速度，对网页内容进行分析，减少误报率，目的在于提供一种网站内容安全检测系统及方法，以样本图像特征作为模型训练器的输入得到分类器，使用FPGA硬件加速器对特征提取模块算法进行加速以提升系统响应速度，实现快速、高效且准确的网站内容安全检测的目的。

本发明通过下述技术方案实现：

一种网站内容安全检测系统，包括

前端请求模块：输入待检测的URL网址，提交请求到爬虫模块；

爬虫模块：爬取目标URL网址的图片信息；

特征提取模块：将爬虫模块的图片信息和样本图片模块的图片信息均提取为特征向量；

模型训练器：将样本图片的特征向量通过监督学习的方式生成分类器；

FPGA硬件加速器：对特征提取模块提供硬件加速功能；

安全仲裁模块：根据分类器对图片特征的分类结果，计算目标URL网址的安全系数；

数据存储模块：存储爬虫模块爬取的图片信息，存储对目标URL的检测结果信息；

响应器：向前端请求模块返回目标URL的安全系数。

本方案通过使用机器学习的方式对网站内容进行安全检测，特征提取模块提取图像特征，模型训练器依据提取的样本图像特征训练得到分类器，分类器依据图像特征对图像进行分类，实现将图像进行分类判断，不会将恶意URL在语法特征和WHOIS注册信息上没有明显恶意特征，与正常URL相混淆，发生误判断，本方案的判断方法偏差小，误报率底，并使用FPGA硬件加速器对特征提取模块算法进行加速以提升系统响应速度，实现快速、高效且准确的网站内容安全检测的目的。

优选的，FPGA硬件加速器使用Xilinx可重配置加速堆栈，结合Caffe机器学习框架和Xilinx深度神经网络DNN库予以实现。

优选的，Caffe机器学习框架为一个CNN卷积神经网络深度学习的集成框架。现有技术使用SVM模型或是BP神经网络分类复杂图像时，容易产生较大的偏差，而本方案分类器将爬取得文本和图片内容，通过使用CNN卷积神经网络深度学习的方法提取图像特征向量，以样本图像特征作为模型训练器的输入得到分类器的行式，在分析复杂图像时较SVM模型或BP神经网络分类算法不易产生偏差，网站筛选结果更准确。本方案特征提取模块使用Xilinx可重配置加速堆栈FPGA硬件加速器进行核心算法的加速，极大的提高了系统的响应速度。

优选的，安全仲裁模块通过被标记非安全的图片数目是否超过设定阈值，来计算得到目标网站安全系数。

优选的，样本图片模块包括正常图片和非正常图片，非正常图片指有赌博和色情特征的图片。

一种网站内容安全检测方法，包括如下步骤：

S1：特征提取模块将样本图片模块的图片信息提取为特征向量的形式；

S2：将S1得到的样本特征向量为输入，模型训练器使用监督学习的方式生成分类器；

S3：在前端请求模块输入待检测的URL网址，检测该网址的合法性，将该网址提交到爬虫模块；

S4：爬虫模块接收来自前端请求模块发送的URL网址，爬取目标URL网址的图片信息，并将爬取内容存储到数据存储模块；

S5：特征提取模块提取S4爬取的图片的特征向量；

S6：以S5提取的图像特征向量为输入，分类器对爬取的图像进行分类；

S7：安全仲裁模块根据S6的分类结果，计算目标网址的安全系数，并以目标URL网址、本地保存目标网站的图片路径、检测时间及安全系数进行存储；

S8：响应模块将目标网址的检测结果发送到前端请求模块。

优选的，特征提取模块使用FPGA加速器对图片特征提取算法进行加速。

优选的，FPGA硬件加速器使用Xilinx可重配置加速堆栈，结合Caffe机器学习框架和Xilinx深度神经网络DNN库予以实现，Caffe机器学习框架为一个CNN卷积神经网络深度学习的集成框架。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明以样本图像特征作为模型训练器的输入得到分类器，通过使用机器学习的方式对网站内容进行安全检测，并使用FPGA加速器对图片特征提取算法进行加速，实现了一种网站内容实现快速、高效且准确的网站内容安全检测。

2、本发明分类器将爬取的文本和图片内容，使用CNN深度学习的方式进行图像特征的提取，在分析复杂图像时较SVM模型或BP神经网络分类算法，不易产生较大的偏差，提取效果更好。

3、本发明提取模块使用Xilinx可重配置加速堆栈FPGA硬件加速器进行核心算法的加速，极大的提高了系统的响应速度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明结构示意图；

图2为Xilinx可重配置加速协议栈示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1：

如图1-2所示，本发明包括一种网站内容安全检测系统，包括

爬虫模块：爬取目标URL网址的图片信息；

FPGA硬件加速器：对特征提取模块提供硬件加速功能；

响应器：向前端请求模块返回目标URL的安全系数。

现有对恶意网站检测的系统对一些恶意URL在语法特征和WHOIS注册信息上没有明显恶意特征，与正常URL有极大的相似性的网页，误报率较高；同时缺少对网页JavaScript和HTML内容的分析，仅通过分析DNS、WHOIS和URL信息来判断URL的安全性，判断非常的片面；对网页内容的分类，尤其是对复杂图像的分类，容易产生较大的偏差，影响最终的判断结果；采用机器学习或深度学习的方式分类网页内容，系统响应慢，影响效率。

实施例2：

本实施例在实施例1的基础上优选如下：FPGA硬件加速器使用Xilinx可重配置加速堆栈，结合Caffe机器学习框架和Xilinx深度神经网络DNN库予以实现。

Caffe机器学习框架为一个CNN卷积神经网络深度学习的集成框架。现有技术使用SVM模型或是BP神经网络分类复杂图像时，容易产生较大的偏差，而本方案分类器将爬取得文本和图片内容，通过使用CNN卷积神经网络深度学习的方法提取图像特征向量，以样本图像特征作为模型训练器的输入得到分类器的行式，在分析复杂图像时较SVM模型或BP神经网络分类算法不易产生偏差，网站筛选结果更准确。本方案特征提取模块使用Xilinx可重配置加速堆栈FPGA硬件加速器进行核心算法的加速，极大的提高了系统的响应速度。

安全仲裁模块通过被标记非安全的图片数目是否超过设定阈值，来计算得到目标网站安全系数。

样本图片模块包括正常图片和非正常图片，非正常图片指有赌博和色情等特征的图片。通过样本图片模块生成的分类器，用于判断URL网址的图片是否为非正常图片判断准确率高。

实施例3：

一种网站内容安全检测方法，包括如下步骤：

S5：特征提取模块提取S4爬取的图片的特征向量；

S8：响应模块将目标网址的检测结果发送到前端请求模块。

特征提取模块使用FPGA加速器对图片特征提取算法进行加速。

FPGA硬件加速器使用Xilinx可重配置加速堆栈，结合Caffe机器学习框架和Xilinx深度神经网络DNN库予以实现，Caffe机器学习框架为一个CNN卷积神经网络深度学习的集成框架。

本方案第一步骤使用Caffe框架的convert_imageset方法将训练集样本图片转化为其可以运行的.leveldb文件，调用该方法时使用-resize_width和-resize_height参数选项使训练集样本图片尺寸保持一致，本方法使用的图像修正后的分辨率为256*256，并且训练集样本图片都是预先经过标签过程的。

第二步骤，继续使用Caffe框架的extract_features方法对上面生成的.leveldb文件以特征向量形式提取样本图像特征，并调用Xilinx可重配置加速堆栈深度神经网络库DNN对该过程进行硬件加速，以提升该模块的运行速度。

第三步骤，启动模型训练器，通过定义name.prototxt和name_solver.prototxt文件，使用Caffe框架的模型训练train方法及其参数--solver对步骤二得到的特征向量使用监督学习的方式训练模型，该过程使用fine-turning操作对模型进行不断修正，最终生成与标签数目相同的并可以对敏感(赌博、色情等)图片进行划分的分类器。

第四步骤，使用Html、CSS和JavaScript编写前端界面，在前端输入框填写要检测的目标URL，检测该URL的合法性，如输入的内容是否可能引起XSS、SQL注入等安全漏洞。若输入的URL合法，使用JQuery库的ajax post()方法将该URL发送到爬虫模块。

第五步骤，爬虫模块接收到前端请求模块的URL检测请求，使用Python Scrapy框架对目标URL爬取图片信息，并以本地文件存储的方式将爬取的图片进行保存。

第六步骤，类似于步骤一，对步骤五爬取的图片进行尺寸修订和生成Caffe可以运行的.leveldb文件。并使用将步骤五爬取的图片作为测试集特征提取模块提取爬虫图像的特征向量，使用步骤三生成的分类器依据该特征向量对爬虫图像进行分类，将敏感图像标记为非安全图像。

第七步骤，安全仲裁模块通过被标记非安全的图片数目是否超过设定阈值，计算得到目标网站安全系数，并以目标URL网址、本地保存目标网站的图片路径、检测时间及安全系数等为字段存储数据存储模块。

第八步骤，响应器向前端请求模块发送本次目标URL安全检测数据。

本方法先抓取需要检测网站的图片信息，通过分类器进行智能分类后，计算得到准确的检测网站安全系数值，然后返回给前端请求模块显示。本方案通过使用机器学习的方式对网站内容进行安全检测，特征提取模块提取图像特征，模型训练器依据提取的样本图像特征训练得到分类器，分类器依据图像特征对图像进行分类，实现将图像进行分类判断，偏差小，误报率底，并使用FPGA硬件加速器对特征提取模块算法进行加速以提升系统响应速度，实现快速、高效且准确的网站内容安全检测的目的。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网站内容安全检测系统，其特征在于，包括

爬虫模块：爬取目标URL网址的图片信息；

FPGA硬件加速器：对特征提取模块提供硬件加速功能；

响应器：向前端请求模块返回目标URL的安全系数。

2.根据权利要求1所述的一种网站内容安全检测系统，其特征在于，FPGA硬件加速器使用Xilinx可重配置加速堆栈，结合Caffe机器学习框架和Xilinx深度神经网络DNN库予以实现。

3.根据权利要求2所述的一种网站内容安全检测系统，其特征在于，Caffe机器学习框架为一个CNN卷积神经网络深度学习的集成框架。

4.根据权利要求1所述的一种网站内容安全检测系统，其特征在于，安全仲裁模块通过被标记非安全的图片数目是否超过设定阈值，来计算得到目标网站安全系数。

5.根据权利要求1所述的一种网站内容安全检测系统，其特征在于，样本图片模块包括正常图片和非正常图片，非正常图片指有赌博和色情特征的图片。

6.一种网站内容安全检测方法，其特征在于，包括如下步骤：

S5：特征提取模块提取S4爬取的图片的特征向量；

S8：响应模块将目标网址的检测结果发送到前端请求模块。

7.根据权利要求6所述的一种网站内容安全检测方法，其特征在于，特征提取模块使用FPGA硬件加速器对图片特征提取算法进行加速。

8.根据权利要求7所述的一种网站内容安全检测方法，其特征在于，FPGA硬件加速器使用Xilinx可重配置加速堆栈，结合Caffe机器学习框架和Xilinx深度神经网络DNN库予以实现，Caffe机器学习框架为一个CNN卷积神经网络深度学习的集成框架。