CN103810425A

CN103810425A - 恶意网址的检测方法及装置

Info

Publication number: CN103810425A
Application number: CN201210453701.1A
Authority: CN
Inventors: 陶思南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-11-13
Filing date: 2012-11-13
Publication date: 2014-05-21
Anticipated expiration: 2032-11-13
Also published as: EP2920688B1; CN103810425B; EP2920688A4; EP2920688A1; US9935967B2; US20150244728A1; WO2014075571A1

Abstract

本发明公开一种恶意网址的检测方法及装置，该检测方法包括：接收URL检测请求，对该URL检测请求中URL所指向的页面内容进行分析，判断其该页面是否为非文字性页面；若是，则获取该URL检测请求中URL在浏览器显示的页面图片；对该生成的页面图片进行图片检测，获得该URL检测请求中URL的页面属性；根据该URL检测请求中URL的页面属性，确定该URL是否为恶意网址。本发明恶意网址的检测方法不但可以有效识别整页网页图片类型的恶意网址，还可以有效识别通过各种加密手段及恶意干扰等方式逃避检测的恶意网址，进一步保障了用户获取网上信息的安全。

Description

恶意网址的检测方法及装置

技术领域

本发明涉及URL检测领域，尤其涉及一种恶意网址的检测方法及装置。

背景技术

网络丰富了人们的生活，但是越来越多的色情、欺诈钓鱼网站也层出不穷，严重威胁了广大网民在网上获取信息的安全，由此就需要识别恶意网址的检测引擎。

现有的URL云检测引擎可以有效识别和提示用户访问的URL（Uniform/ Universal Resource Locator，统一资源定位符）是否具有恶意特性。在用户输入要访问的URL之后、浏览器显示出页面内容之前，URL云检测引擎需要到云检测中心获取用户访问的URL的恶意属性，并对其进行识别后，进行相关的提示。由于恶意站点的变幻多端，因此URL云检测引擎必须具备快速、高效、准确的特性，从而确保恶意网站能够及时、准确地被发现。

现有的URL云检测引擎对恶意属性的识别主要通过页面DOM与BOM对象中的文字信息，利用贝叶斯分类器/关键词过滤、相似度匹配等机器学习的方式进行。虽然上述技术可以有效地识别以文字内容为主的恶意欺诈网址，但是对于非文字性的网页内容却显得无能为力。

而且，现有技术中恶意页面可以通过以下方式逃避检测引擎的查杀：

（1）文字内容的图片化：把整个页面内容做到一张图片里，通过整个页面就是一张图片的方式来对抗查杀；

（2）对明文文字进行加密隐藏：由于当前技术主要依赖页面的文字信息，因此，恶意网页的编写者们采用加密的技术对明文的文字信息进行因此，当判别模块遇到了一串没有任何语义的加密串时，就不能有效地识别该恶意网页；

（3）利用流媒体进行对抗：为了防止被当前检测技术识别，现在的恶意网页开始利用flash等流媒体将文字信息隐藏其中进行显示，有效地逃离了现有检测技术的查杀；

（4）利用正常的文字信息进行干扰：为了逃脱现有技术的查杀，通过在当前页面内容中加入大量的不予显示的正常文本对识别程序进行干扰。

由上可知，如何高效准确地检测出当前的恶意网址，已经成为了现在检测技术面临的难题与挑战。

发明内容

本发明的主要目的是提供一种恶意网址的检测方法，旨在高效准确地检测出恶意网址，保障用户获取网上信息的安全。

本发明提供了一种恶意网址的检测方法，包括以下步骤：

接收URL检测请求，对该URL检测请求中URL所指向的页面内容进行分析，判断其该页面是否为非文字性页面；

若是，则获取该URL检测请求中URL在浏览器显示的页面图片；

对该生成的页面图片进行图片检测，获得该URL检测请求中URL的页面属性；

根据该URL检测请求中URL的页面属性，确定该URL是否为恶意网址。

本发明还提供了一种恶意网址的检测装置，包括：

页面解析模块，用于接收URL检测请求，对该URL检测请求中URL所指向的页面内容进行分析，判断其该页面是否为非文字性页面；

页面属性识别模块，用于在判断URL所指向的页面为非文字性页面时，获取该URL检测请求中URL在浏览器显示的页面图片；对该生成的页面图片进行图片检测，获得该URL检测请求中URL的页面属性；根据该URL检测请求中URL的页面属性，确定该URL是否为恶意网址。

本发明通过对URL检测请求中URL所指向的页面内容进行分析，当判断该页面为非文字性页面时，则对该URL在后台浏览器显示的页面进行网页截取，并对截取的网页图片进行检测，以获得该URL检测请求中URL的页面属性；当判断页面为文字性页面时，则对页面文字进行检测，以该URL检测请求中URL的页面属性；最后再根据URL检测请求中URL的页面属性，确定该URL是否为恶意网址。因此，本发明恶意网址的检测方法不但可以有效识别整页网页图片类型的恶意网址，还可以有效识别通过各种加密手段及恶意干扰等方式逃避检测的恶意网址，进一步保障了用户获取网上信息的安全。

附图说明

图1是本发明恶意网址的检测方法一实施例的结构示意图；

图2是本发明恶意网址的检测方法中，对URL检测请求中URL所指向的页面进行解析的流程示意图；

图3是本发明恶意网址的检测方法中，对URL检测请求中URL所指向的非文字性页面的处理的流程示意图；

图4是本发明恶意网址的检测装置一实施例的结构示意图；

图5是本发明恶意网址的检测装置中页面解析模块的结构示意图；

图6是本发明恶意网址的检测装置中页面属性识别模块的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，提出本发明恶意网址的检测方法一实施例。该恶意网址的检测方法包括以下步骤：

步骤S110、接收URL检测请求，对该URL检测请求中URL所指向的页面内容进行分析，并判断该页面是否为非文字性页面；若是则转入步骤S120；否则转入步骤S140；

该URL检测请求中URL可以为用户端直接输入的URL，也可以为用户端点击超链接而产生的URL。当接收到该URL时，可以对其进行初步分析及过滤，将可疑的URL上报，并发起URL检测请求。接收到该URL检测请求后，则对该URL检测请求中URL所指向的页面内容进行分析，以判断该页面是文字性页面还是非文字性页面。

步骤S120、获取该URL检测请求中URL在浏览器显示的页面图片；

在判断URL检测请求中URL所指向的页面为非文字性页面后，则控制浏览器在后台显示该页面，并对该显示的页面进行图片快照而获得该URL请求中URL在浏览器显示的页面图片。该图片快照可以通过开源的webkit浏览器内核实现，当然也可以使用其他的方法，例如通过firefox和IE等其他浏览器的内核实现。

步骤S130、对该生成的页面图片进行图片检测，获得该URL检测请求中URL的页面属性，并转入步骤S150；

步骤S140、对页面的文字信息进行检测，获得该URL检测请求中URL的页面属性，并转入步骤S150；

步骤S150、根据该URL检测请求中URL的页面属性，判断该URL是否为恶意网址。

无论是通过文字内容加密、图片化、流媒体等信息隐藏技术，其恶意网址的页面最终还是要在浏览器上进行显示，并进行有效地钓鱼欺诈。因此，本发明通过对URL检测请求中URL所指向的页面内容进行分析，当判断该页面为非文字性页面时，则对该URL在后台浏览器显示的页面进行网页截取，并对截取的网页图片进行检测，以获得该URL检测请求中URL的页面属性；当判断页面为文字性页面时，则对页面文字进行检测，以该URL检测请求中URL的页面属性；最后再根据URL检测请求中URL的页面属性，确定该URL是否为恶意网址。本发明恶意网址的检测方法不但可以有效识别整页网页图片类型的恶意网址，还可以有效识别通过各种加密手段及恶意干扰等方式逃避检测的恶意网址，进一步保障了用户获取网上信息的安全。

进一步的，参照图2，上述步骤S110包括：

步骤S111、接收URL检测请求，对该URL检测请求中URL所指向的页面进行URL的爬虫抓取，生成URL队列；

一般用户所浏览的网页页面上均会嵌套其他的网页，因此在接收到URL检测请求时，先以URL检测请求中URL为初始URL，通过网络爬虫对该初始URL所指向的页面内容进行爬虫抓取，不断从当前页面上抽取新的URL地址放入队列，直到满足网络爬虫所预先设定的停止条件，例如爬虫抓取的深度、广度等等。所有被网络爬虫抓取的URL将通过分析、过滤，并建立索引后对其进行存储，以便后期的查询和检索。

步骤S112、对URL队列中所有的URL所指向的页面进行页面解析，生成HTML文档；

对URL队列中所有URL所指向的页面进行页面解析，获取在判别页面属性时需要依据的数据，例如可执行的JS（JavaScript，Java脚本语言）、页面标题、版权信息等。根据该获取的数据生成HTML文档。

步骤S113、根据所述HTML文档，判断URL所指向的页面是否为非文字性页面。

步骤S113具体为，可以根据HTML文档的标签信息，判断页面是否为非文字性页面。例如当前页面非html标签的文字信息很少或者当前页面仅有html标签信息，则判断该页面时非文字性页面。

进一步的，参照图3，上述步骤S130包括：

步骤S131、将所述页面图片与预存的种子页面图片进行匹配；

种子页面图片为预存的恶意网址所指向的页面图片。步骤S131可以包括：

首先，提取需要匹配的页面图片（以下简称：目标图片）的图像特征；

例如，将目标图片缩小至仅有64个像素的尺寸，并去除目标图片的细节，只保留结构、明暗等基本信息，摒弃不同尺寸比例所产生的图片差异；

然后，将然后将该提取的图像特征进行编码；

将缩小后的图片转为64级灰阶，计算该64个像素的灰度平均值，并将每个像素的灰度与平均值进行比较，大于或等于平均值，记为1；小于平均值，记为0。最后形成一个64位的整数。

最后，将编码后的图像特征在预存的页面图片库中进行搜索、匹配，获得该目标图片的相似度。

将形成的64位的整数与预存的页面图片库中的页面图片进行匹配，如果不同的数据位不超过第一阈值，则说明两张图片很相似；如果不同的数据位超过第二阈值，则说明是两张不同的图片。在本发明实施例中，第一阈值为5，第二阈值为10。

步骤S132、判断页面图片与预存的种子页面图片的匹配度是否大于或等于预设值，若是则转入步骤S133；否则转入步骤S134；

该匹配度是指目标图片与预存的种子页面图片匹配的程度，即两张图片不同的数据位的数量。若两张图片不同的数据位的数量越少，则两张图片的匹配度越高，也就表示目标图片的URL为恶意网址。在本实施例中，该预设值为不同数据位的数量为5所对应的匹配度。

步骤S133、判断该URL的属性为恶意属性，并转入步骤S150；

步骤S134、对所述页面图片进行图文识别，获得页面文字信息，并转入步骤S140。

进一步的，上述对页面文字信息进行检测的方法包括：

文字分词、文字相似度匹配、机器识别的一种或多种。其中，文字分词是对页面文字内容进行分词，得到页面文字信息的语义信息。文字相似度匹配是把分词获得的语义信息与预存的恶意页面的文字信息进行相似度的匹配，并输出匹配结果。机器识别是通过贝叶斯分类器、关键词模型、决策树等机器学习的方法，对分词获得的语义信息进行检测，并输出检测结果。

参照图4，提出了本发明一种恶意网址的检测装置一实施例。该恶意网址的检测装置包括：

页面解析模块110，用于接收URL检测请求，对该URL检测请求中URL所指向的页面内容进行分析，判断其该页面是否为非文字性页面；

页面属性识别模块120，用于在判断URL所指向的页面为非文字性页面时，获取该URL检测请求中URL在浏览器显示的页面图片；对该生成的页面图片进行图片检测，获得该URL检测请求中URL的页面属性；根据该URL检测请求中URL的页面属性，确定该URL是否为恶意网址。

该URL检测请求中URL可以为用户端直接输入的URL，也可以为用户端点击超链接而产生的URL。当接收到该URL时，可以对其进行初步分析及过滤，将可疑的URL上报，并发起URL检测请求。页面解析模块110接收到该URL检测请求后，则对该URL检测请求中URL所指向的页面内容进行分析，以判断该页面是文字性页面还是非文字性页面。页面属性识别模块120在判断URL检测请求中URL所指向的页面为非文字性页面后，则控制浏览器在后台显示该页面，并对该显示的页面进行图片快照而获得该URL请求中URL在浏览器显示的页面图片。

进一步的，参照图5，上述页面解析模块110包括：

爬虫单元111，用于接收URL请求，对该URL请求中URL所指向的页面进行URL的爬虫抓取，生成URL队列；

解析单元112，用于对URL队列中所有的URL所指向的页面进行页面解析，生成HTML文档；根据所述HTML文档，判断该URL所指向的页面是否为非文字性页面。

一般用户所浏览的网页页面上均会嵌套其他的网页，因此在接收到URL检测请求时，先以URL检测请求中URL为初始URL，通过爬虫单元111对该初始URL所指向的页面内容进行爬虫抓取，不断从当前页面上抽取新的URL放入队列，直到满足网络爬虫所预先设定的停止条件，例如爬虫抓取的深度、广度等等。所有被爬虫单元111抓取的URL将通过分析、过滤，并建立索引后对其进行存储，以便后期的查询和检索。解析单元112对URL队列中所有URL所指向的页面进行页面解析，获取在判别页面属性时需要依据的数据，例如可执行的JS（JavaScript，Java脚本语言）、页面标题、版权信息等。根据该获取的数据生成HTML文档。

进一步的，参照图6，上述页面属性识别模块120包括：

图片检测单元121，用于将所述页面图片与预存的种子页面图片进行匹配；若匹配度大于或等于预设值，则判断该URL的属性为恶意属性；

图片识别单元122，用于在所述页面图片与预存的种子页面图片的匹配度小于预设值时，对所述页面图片进行图文识别，获得页面文字信息；

文字检测单元123，用于对所述页面文字信息进行检测，获得该URL的页面属性；

属性判断单元124，根据该URL检测请求中URL的页面属性，确定该URL是否为恶意网址。

进一步的，上述文字检测单元123还用于：在判断URL检测请求中URL所指向的页面是文字性页面，则对页面的文字信息进行检测，获得该URL的页面属性。

进一步的，所述文字检测单元123对页面文字信息进行检测的方法包括：文字分词、文字相似度匹配、机器识别的一种或多种。

以上所述仅为本发明的优选实施例，并非因此限制其专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种恶意网址的检测方法，其特征在于，包括以下步骤：

若是，则获取该URL检测请求中URL在浏览器显示的页面图片；

2.根据权利要求1所述的恶意网址的检测方法，其特征在于，所述接收URL检测请求，对该URL检测请求中URL所指向的页面内容进行分析，判断其该页面是否为非文字性页面的步骤包括：

接收URL请求，对该URL请求中URL所指向的页面进行URL的爬虫抓取，生成URL队列；

对URL队列中所有的URL所指向的页面进行页面解析，生成HTML文档；

根据所述HTML文档，判断该URL所指向的页面是否为非文字性页面。

3.根据权利要求2所述的恶意网址的检测方法，其特征在于，所述对该生成的页面图片进行图片检测，获得该URL检测请求中URL的页面属性的步骤包括：

将所述页面图片与预存的种子页面图片进行匹配；

若匹配度大于或等于预设值，则判断该URL的页面属性为恶意属性；

若匹配度小于预设值，则对所述页面图片进行图文识别，获得页面文字信息；

对所述页面文字信息进行检测，获得该URL的页面属性。

4.根据权利要求1所述的恶意网址的检测方法，其特征在于，若判断URL检测请求中URL所指向的页面是文字性页面，则对页面的文字信息进行检测，获得URL的页面属性。

5.根据权利要求3或4所述的恶意网址的检测方法，其特征在于，所述对页面文字信息进行检测的方法包括：

文字分词、文字相似度匹配、机器识别的一种或多种。

6.一种恶意网址的检测装置，其特征在于，包括：

7.根据权利要求6所述的恶意网址的检测装置，其特征在于，所述页面解析模块包括：

爬虫单元，用于接收URL请求，对该URL请求中URL所指向的页面进行URL的爬虫抓取，生成URL队列；

解析单元，用于对URL队列中所有的URL所指向的页面进行页面解析，生成HTML文档；根据所述HTML文档，判断该URL所指向的页面是否为非文字性页面。

8.根据权利要求7所述的恶意网址的检测装置，其特征在于，所述页面属性识别模块包括：

图片检测单元，用于将所述页面图片与预存的种子页面图片进行匹配；若匹配度大于或等于预设值，则判断该URL的属性为恶意属性；

图片识别单元，用于在所述页面图片与预存的种子页面图片的匹配度小于预设值时，对所述页面图片进行图文识别，获得页面文字信息；

文字检测单元，用于对所述页面文字信息进行检测，获得该URL的页面属性；

属性判断单元，用于根据该URL检测请求中URL的页面属性，确定该URL是否为恶意网址。

9.根据权利要求6所述的恶意网址的检测装置，其特征在于，所述文字检测单元还用于：在判断URL检测请求中URL所指向的页面是文字性页面，则对页面的文字信息进行检测，获得该URL的页面属性。

10.根据权利要求8或9所述的恶意网址的检测装置，其特征在于，所述文字检测单元对页面文字信息进行检测的方法包括：文字分词、文字相似度匹配、机器识别的一种或多种。