[go: up one dir, main page]

CN103810425A - 恶意网址的检测方法及装置 - Google Patents

恶意网址的检测方法及装置 Download PDF

Info

Publication number
CN103810425A
CN103810425A CN201210453701.1A CN201210453701A CN103810425A CN 103810425 A CN103810425 A CN 103810425A CN 201210453701 A CN201210453701 A CN 201210453701A CN 103810425 A CN103810425 A CN 103810425A
Authority
CN
China
Prior art keywords
url
page
request
network address
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210453701.1A
Other languages
English (en)
Other versions
CN103810425B (zh
Inventor
陶思南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210453701.1A priority Critical patent/CN103810425B/zh
Priority to PCT/CN2013/086537 priority patent/WO2014075571A1/en
Priority to EP13854642.9A priority patent/EP2920688B1/en
Publication of CN103810425A publication Critical patent/CN103810425A/zh
Priority to US14/711,560 priority patent/US9935967B2/en
Application granted granted Critical
Publication of CN103810425B publication Critical patent/CN103810425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开一种恶意网址的检测方法及装置,该检测方法包括:接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,判断其该页面是否为非文字性页面;若是,则获取该URL检测请求中URL在浏览器显示的页面图片;对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性;根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。本发明恶意网址的检测方法不但可以有效识别整页网页图片类型的恶意网址,还可以有效识别通过各种加密手段及恶意干扰等方式逃避检测的恶意网址,进一步保障了用户获取网上信息的安全。

Description

恶意网址的检测方法及装置
技术领域
本发明涉及URL检测领域,尤其涉及一种恶意网址的检测方法及装置。
背景技术
网络丰富了人们的生活,但是越来越多的色情、欺诈钓鱼网站也层出不穷,严重威胁了广大网民在网上获取信息的安全,由此就需要识别恶意网址的检测引擎。
现有的URL云检测引擎可以有效识别和提示用户访问的URL(Uniform/ Universal Resource Locator,统一资源定位符)是否具有恶意特性。在用户输入要访问的URL之后、浏览器显示出页面内容之前,URL云检测引擎需要到云检测中心获取用户访问的URL的恶意属性,并对其进行识别后,进行相关的提示。由于恶意站点的变幻多端,因此URL云检测引擎必须具备快速、高效、准确的特性,从而确保恶意网站能够及时、准确地被发现。
现有的URL云检测引擎对恶意属性的识别主要通过页面DOM与BOM对象中的文字信息,利用贝叶斯分类器/关键词过滤、相似度匹配等机器学习的方式进行。虽然上述技术可以有效地识别以文字内容为主的恶意欺诈网址,但是对于非文字性的网页内容却显得无能为力。
而且,现有技术中恶意页面可以通过以下方式逃避检测引擎的查杀:
(1)文字内容的图片化:把整个页面内容做到一张图片里,通过整个页面就是一张图片的方式来对抗查杀;
(2)对明文文字进行加密隐藏:由于当前技术主要依赖页面的文字信息,因此,恶意网页的编写者们采用加密的技术对明文的文字信息进行因此,当判别模块遇到了一串没有任何语义的加密串时,就不能有效地识别该恶意网页;
(3)利用流媒体进行对抗:为了防止被当前检测技术识别,现在的恶意网页开始利用flash等流媒体将文字信息隐藏其中进行显示,有效地逃离了现有检测技术的查杀;
(4)利用正常的文字信息进行干扰:为了逃脱现有技术的查杀,通过在当前页面内容中加入大量的不予显示的正常文本对识别程序进行干扰。
由上可知,如何高效准确地检测出当前的恶意网址,已经成为了现在检测技术面临的难题与挑战。
发明内容
本发明的主要目的是提供一种恶意网址的检测方法,旨在高效准确地检测出恶意网址,保障用户获取网上信息的安全。
本发明提供了一种恶意网址的检测方法,包括以下步骤:
接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,判断其该页面是否为非文字性页面;
若是,则获取该URL检测请求中URL在浏览器显示的页面图片;
对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性;
根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。
本发明还提供了一种恶意网址的检测装置,包括:
页面解析模块,用于接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,判断其该页面是否为非文字性页面;
页面属性识别模块,用于在判断URL所指向的页面为非文字性页面时,获取该URL检测请求中URL在浏览器显示的页面图片;对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性;根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。
本发明通过对URL检测请求中URL所指向的页面内容进行分析,当判断该页面为非文字性页面时,则对该URL在后台浏览器显示的页面进行网页截取,并对截取的网页图片进行检测,以获得该URL检测请求中URL的页面属性;当判断页面为文字性页面时,则对页面文字进行检测,以该URL检测请求中URL的页面属性;最后再根据URL检测请求中URL的页面属性,确定该URL是否为恶意网址。因此,本发明恶意网址的检测方法不但可以有效识别整页网页图片类型的恶意网址,还可以有效识别通过各种加密手段及恶意干扰等方式逃避检测的恶意网址,进一步保障了用户获取网上信息的安全。
附图说明
图1是本发明恶意网址的检测方法一实施例的结构示意图;
图2是本发明恶意网址的检测方法中,对URL检测请求中URL所指向的页面进行解析的流程示意图;
图3是本发明恶意网址的检测方法中,对URL检测请求中URL所指向的非文字性页面的处理的流程示意图;
图4是本发明恶意网址的检测装置一实施例的结构示意图;
图5是本发明恶意网址的检测装置中页面解析模块的结构示意图;
图6是本发明恶意网址的检测装置中页面属性识别模块的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,提出本发明恶意网址的检测方法一实施例。该恶意网址的检测方法包括以下步骤:
步骤S110、接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,并判断该页面是否为非文字性页面;若是则转入步骤S120;否则转入步骤S140;
该URL检测请求中URL可以为用户端直接输入的URL,也可以为用户端点击超链接而产生的URL。当接收到该URL时,可以对其进行初步分析及过滤,将可疑的URL上报,并发起URL检测请求。接收到该URL检测请求后,则对该URL检测请求中URL所指向的页面内容进行分析,以判断该页面是文字性页面还是非文字性页面。
步骤S120、获取该URL检测请求中URL在浏览器显示的页面图片;
在判断URL检测请求中URL所指向的页面为非文字性页面后,则控制浏览器在后台显示该页面,并对该显示的页面进行图片快照而获得该URL请求中URL在浏览器显示的页面图片。该图片快照可以通过开源的webkit浏览器内核实现,当然也可以使用其他的方法,例如通过firefox和IE等其他浏览器的内核实现。
步骤S130、对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性,并转入步骤S150;
步骤S140、对页面的文字信息进行检测,获得该URL检测请求中URL的页面属性,并转入步骤S150;
步骤S150、根据该URL检测请求中URL的页面属性,判断该URL是否为恶意网址。
无论是通过文字内容加密、图片化、流媒体等信息隐藏技术,其恶意网址的页面最终还是要在浏览器上进行显示,并进行有效地钓鱼欺诈。因此,本发明通过对URL检测请求中URL所指向的页面内容进行分析,当判断该页面为非文字性页面时,则对该URL在后台浏览器显示的页面进行网页截取,并对截取的网页图片进行检测,以获得该URL检测请求中URL的页面属性;当判断页面为文字性页面时,则对页面文字进行检测,以该URL检测请求中URL的页面属性;最后再根据URL检测请求中URL的页面属性,确定该URL是否为恶意网址。本发明恶意网址的检测方法不但可以有效识别整页网页图片类型的恶意网址,还可以有效识别通过各种加密手段及恶意干扰等方式逃避检测的恶意网址,进一步保障了用户获取网上信息的安全。
进一步的,参照图2,上述步骤S110包括:
步骤S111、接收URL检测请求,对该URL检测请求中URL所指向的页面进行URL的爬虫抓取,生成URL队列;
一般用户所浏览的网页页面上均会嵌套其他的网页,因此在接收到URL检测请求时,先以URL检测请求中URL为初始URL,通过网络爬虫对该初始URL所指向的页面内容进行爬虫抓取,不断从当前页面上抽取新的URL地址放入队列,直到满足网络爬虫所预先设定的停止条件,例如爬虫抓取的深度、广度等等。所有被网络爬虫抓取的URL将通过分析、过滤,并建立索引后对其进行存储,以便后期的查询和检索。
步骤S112、对URL队列中所有的URL所指向的页面进行页面解析,生成HTML文档;
对URL队列中所有URL所指向的页面进行页面解析,获取在判别页面属性时需要依据的数据,例如可执行的JS(JavaScript,Java脚本语言)、页面标题、版权信息等。根据该获取的数据生成HTML文档。
步骤S113、根据所述HTML文档,判断URL所指向的页面是否为非文字性页面。
步骤S113具体为,可以根据HTML文档的标签信息,判断页面是否为非文字性页面。例如当前页面非html标签的文字信息很少或者当前页面仅有html标签信息,则判断该页面时非文字性页面。
进一步的,参照图3,上述步骤S130包括:
步骤S131、将所述页面图片与预存的种子页面图片进行匹配;
种子页面图片为预存的恶意网址所指向的页面图片。步骤S131可以包括:
首先,提取需要匹配的页面图片(以下简称:目标图片)的图像特征;
例如,将目标图片缩小至仅有64个像素的尺寸,并去除目标图片的细节,只保留结构、明暗等基本信息,摒弃不同尺寸比例所产生的图片差异;
然后,将然后将该提取的图像特征进行编码;
将缩小后的图片转为64级灰阶,计算该64个像素的灰度平均值,并将每个像素的灰度与平均值进行比较,大于或等于平均值,记为1;小于平均值,记为0。最后形成一个64位的整数。
最后,将编码后的图像特征在预存的页面图片库中进行搜索、匹配,获得该目标图片的相似度。
将形成的64位的整数与预存的页面图片库中的页面图片进行匹配,如果不同的数据位不超过第一阈值,则说明两张图片很相似;如果不同的数据位超过第二阈值,则说明是两张不同的图片。在本发明实施例中,第一阈值为5,第二阈值为10。
步骤S132、判断页面图片与预存的种子页面图片的匹配度是否大于或等于预设值,若是则转入步骤S133;否则转入步骤S134;
该匹配度是指目标图片与预存的种子页面图片匹配的程度,即两张图片不同的数据位的数量。若两张图片不同的数据位的数量越少,则两张图片的匹配度越高,也就表示目标图片的URL为恶意网址。在本实施例中,该预设值为不同数据位的数量为5所对应的匹配度。
步骤S133、判断该URL的属性为恶意属性,并转入步骤S150;
步骤S134、对所述页面图片进行图文识别,获得页面文字信息,并转入步骤S140。
进一步的,上述对页面文字信息进行检测的方法包括:
文字分词、文字相似度匹配、机器识别的一种或多种。其中,文字分词是对页面文字内容进行分词,得到页面文字信息的语义信息。文字相似度匹配是把分词获得的语义信息与预存的恶意页面的文字信息进行相似度的匹配,并输出匹配结果。机器识别是通过贝叶斯分类器、关键词模型、决策树等机器学习的方法,对分词获得的语义信息进行检测,并输出检测结果。
参照图4,提出了本发明一种恶意网址的检测装置一实施例。该恶意网址的检测装置包括:
页面解析模块110,用于接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,判断其该页面是否为非文字性页面;
页面属性识别模块120,用于在判断URL所指向的页面为非文字性页面时,获取该URL检测请求中URL在浏览器显示的页面图片;对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性;根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。
该URL检测请求中URL可以为用户端直接输入的URL,也可以为用户端点击超链接而产生的URL。当接收到该URL时,可以对其进行初步分析及过滤,将可疑的URL上报,并发起URL检测请求。页面解析模块110接收到该URL检测请求后,则对该URL检测请求中URL所指向的页面内容进行分析,以判断该页面是文字性页面还是非文字性页面。页面属性识别模块120在判断URL检测请求中URL所指向的页面为非文字性页面后,则控制浏览器在后台显示该页面,并对该显示的页面进行图片快照而获得该URL请求中URL在浏览器显示的页面图片。
无论是通过文字内容加密、图片化、流媒体等信息隐藏技术,其恶意网址的页面最终还是要在浏览器上进行显示,并进行有效地钓鱼欺诈。因此,本发明通过对URL检测请求中URL所指向的页面内容进行分析,当判断该页面为非文字性页面时,则对该URL在后台浏览器显示的页面进行网页截取,并对截取的网页图片进行检测,以获得该URL检测请求中URL的页面属性;当判断页面为文字性页面时,则对页面文字进行检测,以该URL检测请求中URL的页面属性;最后再根据URL检测请求中URL的页面属性,确定该URL是否为恶意网址。本发明恶意网址的检测方法不但可以有效识别整页网页图片类型的恶意网址,还可以有效识别通过各种加密手段及恶意干扰等方式逃避检测的恶意网址,进一步保障了用户获取网上信息的安全。
进一步的,参照图5,上述页面解析模块110包括:
爬虫单元111,用于接收URL请求,对该URL请求中URL所指向的页面进行URL的爬虫抓取,生成URL队列;
解析单元112,用于对URL队列中所有的URL所指向的页面进行页面解析,生成HTML文档;根据所述HTML文档,判断该URL所指向的页面是否为非文字性页面。
一般用户所浏览的网页页面上均会嵌套其他的网页,因此在接收到URL检测请求时,先以URL检测请求中URL为初始URL,通过爬虫单元111对该初始URL所指向的页面内容进行爬虫抓取,不断从当前页面上抽取新的URL放入队列,直到满足网络爬虫所预先设定的停止条件,例如爬虫抓取的深度、广度等等。所有被爬虫单元111抓取的URL将通过分析、过滤,并建立索引后对其进行存储,以便后期的查询和检索。解析单元112对URL队列中所有URL所指向的页面进行页面解析,获取在判别页面属性时需要依据的数据,例如可执行的JS(JavaScript,Java脚本语言)、页面标题、版权信息等。根据该获取的数据生成HTML文档。
进一步的,参照图6,上述页面属性识别模块120包括:
图片检测单元121,用于将所述页面图片与预存的种子页面图片进行匹配;若匹配度大于或等于预设值,则判断该URL的属性为恶意属性;
图片识别单元122,用于在所述页面图片与预存的种子页面图片的匹配度小于预设值时,对所述页面图片进行图文识别,获得页面文字信息;
文字检测单元123,用于对所述页面文字信息进行检测,获得该URL的页面属性;
属性判断单元124,根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。
进一步的,上述文字检测单元123还用于:在判断URL检测请求中URL所指向的页面是文字性页面,则对页面的文字信息进行检测,获得该URL的页面属性。
进一步的,所述文字检测单元123对页面文字信息进行检测的方法包括:文字分词、文字相似度匹配、机器识别的一种或多种。
以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种恶意网址的检测方法,其特征在于,包括以下步骤:
接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,判断其该页面是否为非文字性页面;
若是,则获取该URL检测请求中URL在浏览器显示的页面图片;
对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性;
根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。
2.根据权利要求1所述的恶意网址的检测方法,其特征在于,所述接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,判断其该页面是否为非文字性页面的步骤包括:
接收URL请求,对该URL请求中URL所指向的页面进行URL的爬虫抓取,生成URL队列;
对URL队列中所有的URL所指向的页面进行页面解析,生成HTML文档;
根据所述HTML文档,判断该URL所指向的页面是否为非文字性页面。
3.根据权利要求2所述的恶意网址的检测方法,其特征在于,所述对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性的步骤包括:
将所述页面图片与预存的种子页面图片进行匹配;
若匹配度大于或等于预设值,则判断该URL的页面属性为恶意属性;
若匹配度小于预设值,则对所述页面图片进行图文识别,获得页面文字信息;
对所述页面文字信息进行检测,获得该URL的页面属性。
4.根据权利要求1所述的恶意网址的检测方法,其特征在于,若判断URL检测请求中URL所指向的页面是文字性页面,则对页面的文字信息进行检测,获得URL的页面属性。
5.根据权利要求3或4所述的恶意网址的检测方法,其特征在于,所述对页面文字信息进行检测的方法包括:
文字分词、文字相似度匹配、机器识别的一种或多种。
6.一种恶意网址的检测装置,其特征在于,包括:
页面解析模块,用于接收URL检测请求,对该URL检测请求中URL所指向的页面内容进行分析,判断其该页面是否为非文字性页面;
页面属性识别模块,用于在判断URL所指向的页面为非文字性页面时,获取该URL检测请求中URL在浏览器显示的页面图片;对该生成的页面图片进行图片检测,获得该URL检测请求中URL的页面属性;根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。
7.根据权利要求6所述的恶意网址的检测装置,其特征在于,所述页面解析模块包括:
爬虫单元,用于接收URL请求,对该URL请求中URL所指向的页面进行URL的爬虫抓取,生成URL队列;
解析单元,用于对URL队列中所有的URL所指向的页面进行页面解析,生成HTML文档;根据所述HTML文档,判断该URL所指向的页面是否为非文字性页面。
8.根据权利要求7所述的恶意网址的检测装置,其特征在于,所述页面属性识别模块包括:
图片检测单元,用于将所述页面图片与预存的种子页面图片进行匹配;若匹配度大于或等于预设值,则判断该URL的属性为恶意属性;
图片识别单元,用于在所述页面图片与预存的种子页面图片的匹配度小于预设值时,对所述页面图片进行图文识别,获得页面文字信息;
文字检测单元,用于对所述页面文字信息进行检测,获得该URL的页面属性;
属性判断单元,用于根据该URL检测请求中URL的页面属性,确定该URL是否为恶意网址。
9.根据权利要求6所述的恶意网址的检测装置,其特征在于,所述文字检测单元还用于:在判断URL检测请求中URL所指向的页面是文字性页面,则对页面的文字信息进行检测,获得该URL的页面属性。
10.根据权利要求8或9所述的恶意网址的检测装置,其特征在于,所述文字检测单元对页面文字信息进行检测的方法包括:文字分词、文字相似度匹配、机器识别的一种或多种。
CN201210453701.1A 2012-11-13 2012-11-13 恶意网址的检测方法及装置 Active CN103810425B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210453701.1A CN103810425B (zh) 2012-11-13 2012-11-13 恶意网址的检测方法及装置
PCT/CN2013/086537 WO2014075571A1 (en) 2012-11-13 2013-11-05 Method and device for detecting malicious url
EP13854642.9A EP2920688B1 (en) 2012-11-13 2013-11-05 Method and device for detecting malicious url
US14/711,560 US9935967B2 (en) 2012-11-13 2015-05-13 Method and device for detecting malicious URL

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210453701.1A CN103810425B (zh) 2012-11-13 2012-11-13 恶意网址的检测方法及装置

Publications (2)

Publication Number Publication Date
CN103810425A true CN103810425A (zh) 2014-05-21
CN103810425B CN103810425B (zh) 2015-09-30

Family

ID=50707179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210453701.1A Active CN103810425B (zh) 2012-11-13 2012-11-13 恶意网址的检测方法及装置

Country Status (4)

Country Link
US (1) US9935967B2 (zh)
EP (1) EP2920688B1 (zh)
CN (1) CN103810425B (zh)
WO (1) WO2014075571A1 (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104536973A (zh) * 2014-12-03 2015-04-22 北京奇虎科技有限公司 图片识别的方法和浏览器客户端
CN104580200A (zh) * 2014-12-31 2015-04-29 北京奇虎科技有限公司 一种网站防护方法与装置
CN104601573A (zh) * 2015-01-15 2015-05-06 国家计算机网络与信息安全管理中心 一种Android平台URL访问结果验证方法及装置
CN105320851A (zh) * 2014-08-05 2016-02-10 腾讯科技(深圳)有限公司 网页安全性检测方法及装置
CN106446687A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的检测方法及装置
CN106685910A (zh) * 2016-07-27 2017-05-17 成都三零凯天通信实业有限公司 一种应用内容的自动化安全监管系统与方法
CN106992975A (zh) * 2017-03-21 2017-07-28 腾讯科技(深圳)有限公司 恶意网址识别方法及装置
CN107403251A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 风险检测方法及装置
CN107526967A (zh) * 2017-07-05 2017-12-29 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
CN109241462A (zh) * 2018-08-13 2019-01-18 中国联合网络通信集团有限公司 网页黑词处理方法、装置、设备及存储介质
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法
CN110413908A (zh) * 2018-04-26 2019-11-05 维布络有限公司 基于网站内容对统一资源定位符进行分类的方法和装置
CN110427935A (zh) * 2019-06-28 2019-11-08 华为技术有限公司 一种网页元素识别的方法及服务器
CN110851680A (zh) * 2015-05-15 2020-02-28 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN111767454A (zh) * 2019-04-02 2020-10-13 阿里巴巴集团控股有限公司 业务对象过滤方法、装置、电子设备及计算机存储介质
CN111899042A (zh) * 2019-05-06 2020-11-06 广州腾讯科技有限公司 恶意曝光广告行为的检测方法、装置、存储介质及终端
CN112580674A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种图片识别方法、计算机设备、存储介质
CN112953958A (zh) * 2021-03-09 2021-06-11 拉扎斯网络科技(上海)有限公司 一种爬虫检测方法、装置及电子设备
CN113221032A (zh) * 2021-04-08 2021-08-06 北京智奇数美科技有限公司 链接风险检测方法、装置以及存储介质
CN113312622A (zh) * 2021-06-09 2021-08-27 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种检测url的方法及装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9521164B1 (en) * 2014-01-15 2016-12-13 Frank Angiolelli Computerized system and method for detecting fraudulent or malicious enterprises
US10154041B2 (en) * 2015-01-13 2018-12-11 Microsoft Technology Licensing, Llc Website access control
US10200383B2 (en) * 2016-06-29 2019-02-05 Rapid7, Inc. Neutralizing malicious locators
CN106789866B (zh) * 2016-08-04 2019-10-08 腾讯科技(深圳)有限公司 一种检测恶意网址的方法及装置
US10505981B2 (en) * 2016-11-03 2019-12-10 RiskIQ, Inc. Techniques for detecting malicious behavior using an accomplice model
KR101868421B1 (ko) * 2017-02-17 2018-06-20 박성진 웹 상의 콘텐츠들에 대한 거짓 여부 판별 지원 장치 및 그 동작 방법
US10819718B2 (en) * 2017-07-05 2020-10-27 Deep Instinct Ltd. Methods and systems for detecting malicious webpages
CN109784960B (zh) * 2017-11-10 2024-05-14 北京奇虎科技有限公司 一种创意自动化审核方法、装置和设备
CN108304540B (zh) * 2018-01-29 2022-08-02 腾讯科技(深圳)有限公司 一种文本数据识别方法、装置及相关设备
US11301560B2 (en) * 2018-02-09 2022-04-12 Bolster, Inc Real-time detection and blocking of counterfeit websites
US12041084B2 (en) 2018-02-09 2024-07-16 Bolster, Inc Systems and methods for determining user intent at a website and responding to the user intent
CN110413866B (zh) * 2018-04-27 2024-02-02 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
US11528297B1 (en) * 2019-12-12 2022-12-13 Zimperium, Inc. Mobile device security application for malicious website detection based on representative image
US10922476B1 (en) * 2019-12-13 2021-02-16 Microsoft Technology Licensing, Llc Resource-efficient generation of visual layout information associated with network-accessible documents
US12184732B2 (en) * 2021-07-13 2024-12-31 Fortinet, Inc. Machine learning systems and methods for API discovery and protection by URL clustering with schema awareness
CN115484066B (zh) * 2022-08-19 2025-01-28 重庆长安汽车股份有限公司 秒杀系统的恶意请求阻止方法、装置、设备及存储介质
US20240205263A1 (en) * 2022-12-20 2024-06-20 Akamai Technologies, Inc. Real-time detection of site phishing using Message Passing Neural Networks (MPNN) on directed graphs

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050150A1 (en) * 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
US8199160B2 (en) * 2006-06-02 2012-06-12 Advanced Us Technology Group, Inc. Method and apparatus for monitoring a user's activities
US20100287246A1 (en) * 2007-02-14 2010-11-11 Thomas Klos System for processing electronic mail messages with specially encoded addresses
US8077930B2 (en) * 2007-04-13 2011-12-13 Atg Advanced Swiss Technology Group Ag Method for recognizing content in an image sequence
US7865953B1 (en) * 2007-05-31 2011-01-04 Trend Micro Inc. Methods and arrangement for active malicious web pages discovery
CN101324888A (zh) * 2007-06-13 2008-12-17 北京恒金恒泰信息技术有限公司 基于ie的过滤色情软件插件
KR100815530B1 (ko) * 2007-07-20 2008-04-15 (주)올라웍스 유해성 컨텐츠 필터링 방법 및 시스템
CN100583738C (zh) * 2007-08-17 2010-01-20 东南大学 基于图像处理的钓鱼网页检测方法
EP2283446A4 (en) * 2008-04-21 2012-09-05 Sentrybay Ltd DETECTION OF FRAUDULOUS PAGES
US20120240224A1 (en) * 2010-09-14 2012-09-20 Georgia Tech Research Corporation Security systems and methods for distinguishing user-intended traffic from malicious traffic
US8675957B2 (en) * 2010-11-18 2014-03-18 Ebay, Inc. Image quality assessment to merchandise an item
CN102004779B (zh) * 2010-11-19 2012-11-28 百度在线网络技术(北京)有限公司 一种文档共享平台的文档处理方法及系统
CN102063484B (zh) * 2010-12-29 2013-04-10 北京安天电子设备有限公司 第三方web应用程序发现的方法和装置
US8832836B2 (en) * 2010-12-30 2014-09-09 Verisign, Inc. Systems and methods for malware detection and scanning
US20140052508A1 (en) * 2012-08-14 2014-02-20 Santosh Pandey Rogue service advertisement detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫系统及其实现方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320851A (zh) * 2014-08-05 2016-02-10 腾讯科技(深圳)有限公司 网页安全性检测方法及装置
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104536973A (zh) * 2014-12-03 2015-04-22 北京奇虎科技有限公司 图片识别的方法和浏览器客户端
CN104536973B (zh) * 2014-12-03 2018-01-16 北京奇虎科技有限公司 图片识别的方法和浏览器客户端
CN104580200B (zh) * 2014-12-31 2018-06-08 北京奇安信科技有限公司 一种网站防护方法与装置
CN104580200A (zh) * 2014-12-31 2015-04-29 北京奇虎科技有限公司 一种网站防护方法与装置
CN104601573A (zh) * 2015-01-15 2015-05-06 国家计算机网络与信息安全管理中心 一种Android平台URL访问结果验证方法及装置
CN104601573B (zh) * 2015-01-15 2018-04-06 国家计算机网络与信息安全管理中心 一种Android平台URL访问结果验证方法及装置
CN110851680A (zh) * 2015-05-15 2020-02-28 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN110851680B (zh) * 2015-05-15 2023-06-30 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN107403251A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 风险检测方法及装置
CN106685910A (zh) * 2016-07-27 2017-05-17 成都三零凯天通信实业有限公司 一种应用内容的自动化安全监管系统与方法
CN106446687A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的检测方法及装置
CN106446687B (zh) * 2016-10-14 2020-11-03 北京奇虎科技有限公司 恶意样本的检测方法及装置
WO2018171572A1 (zh) * 2017-03-21 2018-09-27 腾讯科技(深圳)有限公司 恶意网址识别方法、计算设备及存储介质
CN106992975A (zh) * 2017-03-21 2017-07-28 腾讯科技(深圳)有限公司 恶意网址识别方法及装置
CN107526967A (zh) * 2017-07-05 2017-12-29 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
US10762296B2 (en) 2017-07-05 2020-09-01 Alibaba Group Holding Limited Risk address identification method and apparatus, and electronic device
US10699076B2 (en) 2017-07-05 2020-06-30 Alibaba Group Holding Limited Risk address identification method and apparatus, and electronic device
CN107526967B (zh) * 2017-07-05 2020-06-02 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
CN110413908A (zh) * 2018-04-26 2019-11-05 维布络有限公司 基于网站内容对统一资源定位符进行分类的方法和装置
CN110413908B (zh) * 2018-04-26 2023-04-07 维布络有限公司 基于网站内容对统一资源定位符进行分类的方法和装置
CN109241462B (zh) * 2018-08-13 2021-12-14 中国联合网络通信集团有限公司 网页黑词处理方法、装置、设备及存储介质
CN109241462A (zh) * 2018-08-13 2019-01-18 中国联合网络通信集团有限公司 网页黑词处理方法、装置、设备及存储介质
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法
CN109922052B (zh) * 2019-02-22 2020-12-29 中南大学 一种结合多重特征的恶意url检测方法
CN111767454A (zh) * 2019-04-02 2020-10-13 阿里巴巴集团控股有限公司 业务对象过滤方法、装置、电子设备及计算机存储介质
CN111899042A (zh) * 2019-05-06 2020-11-06 广州腾讯科技有限公司 恶意曝光广告行为的检测方法、装置、存储介质及终端
CN111899042B (zh) * 2019-05-06 2024-04-30 广州腾讯科技有限公司 恶意曝光广告行为的检测方法、装置、存储介质及终端
CN110427935A (zh) * 2019-06-28 2019-11-08 华为技术有限公司 一种网页元素识别的方法及服务器
CN112580674A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种图片识别方法、计算机设备、存储介质
CN112953958A (zh) * 2021-03-09 2021-06-11 拉扎斯网络科技(上海)有限公司 一种爬虫检测方法、装置及电子设备
CN112953958B (zh) * 2021-03-09 2022-10-04 拉扎斯网络科技(上海)有限公司 一种爬虫检测方法、装置及电子设备
CN113221032A (zh) * 2021-04-08 2021-08-06 北京智奇数美科技有限公司 链接风险检测方法、装置以及存储介质
CN113312622A (zh) * 2021-06-09 2021-08-27 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种检测url的方法及装置

Also Published As

Publication number Publication date
EP2920688B1 (en) 2017-02-15
CN103810425B (zh) 2015-09-30
EP2920688A4 (en) 2015-12-16
EP2920688A1 (en) 2015-09-23
US9935967B2 (en) 2018-04-03
US20150244728A1 (en) 2015-08-27
WO2014075571A1 (en) 2014-05-22

Similar Documents

Publication Publication Date Title
CN103810425B (zh) 恶意网址的检测方法及装置
EP3933636A1 (en) Webpage tampering detection method and related apparatus
CN110808968B (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
CN102129528B (zh) 一种web网页篡改识别方法及系统
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN104462152B (zh) 一种网页的识别方法及装置
CN104504335B (zh) 基于页面特征和url特征的钓鱼app检测方法及系统
US10872270B2 (en) Exploit kit detection system based on the neural network using image
CN107862050A (zh) 一种网站内容安全检测系统及方法
CN105844140A (zh) 一种可识别验证码的网站登录暴力破解方法及系统
CN105184159A (zh) 网页篡改的识别方法和装置
CN102004764A (zh) 互联网不良信息检测方法以及系统
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
US10389687B2 (en) Secure document transmission
CN102340424B (zh) 不良报文的检测方法及不良报文的检测装置
CN108985064A (zh) 一种识别恶意文档的方法及装置
CN115051817B (zh) 一种基于多模态融合特征的网络钓鱼检测方法和系统
CN105959324A (zh) 基于正则匹配的网络攻击检测方法及装置
CN107181730A (zh) 一种仿冒网站监测识别方法及系统
KR20080052097A (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
CN107786537A (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
KR20100018816A (ko) 불법 동영상 데이터 검색 장치 및 방법
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN107180194B (zh) 基于视觉分析系统进行漏洞检测的方法及装置
CN111488621A (zh) 一种篡改网页检测方法、系统及电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant