CN104243501B

CN104243501B - 一种垃圾邮件的过滤拦截方法

Info

Publication number: CN104243501B
Application number: CN201410543038.3A
Authority: CN
Inventors: 罗阳; 陈虹宇; 王峻岭
Original assignee: SICHUAN SHENHU TECHNOLOGY Co Ltd
Current assignee: Sichuan Shenhu Technology Co ltd
Priority date: 2014-10-14
Filing date: 2014-10-14
Publication date: 2017-04-12
Anticipated expiration: 2034-10-14
Also published as: CN104243501A

Abstract

本发明涉及一种垃圾邮件的过滤拦截方法。该方法对邮件进行多个层次过滤识别：首先根据用户收发邮件时的表情和/或语音特征数据获得用户收发邮件的分类属性；对于无法确认类别的邮件，依次查询用户节点本地及其朋友节点的黑/白名单列表，所述朋友节点是指与当前用户节点之间具有较高邮件交互频率的网络节点；最后，可提示用户判断该邮件的类别。通过上述多层次的过滤拦截，可以解决现有技术对于垃圾邮件的识别代价较大、效率较低的问题。

Description

一种垃圾邮件的过滤拦截方法

技术领域

本发明涉及网络通信领域，尤其涉及一种垃圾邮件的多层次过滤拦截方法。

背景技术

随着互联网应用的发展，电子邮件得到广泛的应用，已成为Internet上最基本的服务之一，用户可以通过电子邮件与远程用户进行经济、方便和快捷的信息交流。然而，就在电子邮件逐渐成为一种不可缺少的重要信息交流工具的同时，也正在成为一种商业广告手段。用户在收到有用信息的同时，还必须花费大量时间和精力多各种各样的邮件进行分类识别，以过滤“垃圾”邮件，而现有的邮件分类识别方法或采用较单一的分类识别方法而导致结果不准确，或使用过于复杂的识别方式而提高了时间成本。因此，如何提高邮件分类识别的准确率以及效率是目前研究的热点问题。

目前常用的邮件分类识别方法有很多种。例如，基于SVM、决策树、黑白名单、贝叶斯算法、模糊理论、智能计算、神经网络、推理技术、基于关键词和规则过滤、分类数据库、单一用户启发式学习等。

虽然这些方法各自有各自的优势，但各自有不同的缺点，分类准确率最高在80％左右，还不能够满足实际使用的要求。由于单机垃圾邮件过滤的代价较大，并且通常准确率不高，而将垃圾邮件过滤任务全部交给服务器，又将明显增加服务器端的资源开销。

现有技术在处理单机垃圾邮件过滤方面卓有成效。如今，最好的垃圾邮件过滤累积差错已经远低于1％。这似乎意味着人们已经在对抗垃圾邮件的战役中取得了胜利。但另外一方面，从国际知名安全机构和中国互联网协会反垃圾邮件中心历年发布的调查报告来看，从用户角度观察，虽然总体来说垃圾邮件的量在减少，但总感觉屡禁不止、无法根治。同时，用户对于现有反垃圾邮件功能薄弱的不满，位居所有制约用户使用网络邮箱因素的首位。

通过长期的研究，现有技术在处理单机垃圾邮件过滤方面卓有成效。但近年来复杂网络和社会网络方面研究的深入开展，人们普遍猜测真实世界网络都具有无标度和小世界的特性，比如计算机网络、神经系统、交通网络、电力网络、邮件网络、社会关系网络等等。

为何现有现状和用户体验之间有如此之大的落差？这应归结于以往的垃圾邮件过滤技术大多从个人用户角度考虑垃圾邮件的防治，从而忽略了用户之间实际上是一种相互影响、相互协作的关系而联结在一起，进而表现出某些类似的特性。

网络中存在许多的孤立节点，而如果两个网络用户节点之间如果存在较大的邮件交互(收发邮件)频率，则意味着这两个用户节点之间有较高的同质性。用户收到的垃圾邮件绝大部分来自于之前从未接触过的邮件收/发件人；另一方面，随着邮件收/发件人的熟悉或信任程度的增加，邮件是垃圾邮件的概率将迅速降低。

由于与用户节点进行邮件交互的网络IP地址数量较庞大且不断动态增长，要全面分析所有人的邮件交互关系是不可能的，也是没有必要的。

发明内容

本发明的主要目的在于提供一种垃圾邮件的过滤拦截方法，该方法对邮件进行多个层次过滤识别：首先根据用户收发邮件时的表情和/或语音特征数据获得用户收发邮件的分类属性；对于无法确认类别的邮件，依次查询用户节点本地及其朋友节点的黑/白名单列表，所述朋友节点是指与当前用户节点之间具有较高邮件交互频率的网络节点；最后，可提示用户判断该邮件的类别。通过上述多层次的过滤拦截，可以解决现有技术对于垃圾邮件的识别代价较大、效率较低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种垃圾邮件的过滤拦截方法，包括以下步骤：

步骤1，获取用户收发邮件时的表情和/或语音特征数据；并按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性，所述分类属性包括：正常邮件、垃圾邮件和无法确认；

如果所获得的分类属性为正常邮件或垃圾邮件，则结束分类，否则执行步骤2；

步骤2，查询用户节点本地的黑名单列表和白名单列表，以确定当前邮件的类型。

进一步地，如果用户收发的该邮件的地址不在用户节点本地的黑名单列表和白名单列表中，则执行以下步骤：

步骤3，用户节点向所有朋友节点发出一个查询请求，所述查询请求包含当前邮件的地址信息；

步骤4，朋友节点根据所述查询请求搜索自己的黑名单列表和白名单列表，如果发现命中黑名单列表或白名单列表，则向该用户节点返回查询结果，所述查询结果表示该邮件的类型是垃圾邮件或正常邮件；

如果收到朋友节点返回的查询结果，并且所有的查询结果所表示的邮件类型相同，则执行步骤5；否则，执行步骤6；

步骤5，用户节点根据该查询结果更新本地的黑名单列表或白名单列表；

步骤6，提示用户判断该邮件的类别；

其中，所述朋友节点从与当前用户节点之间有邮件交互的网络节点中选择；

其中，所述朋友节点是指与当前用户节点之间具有较高的邮件交互频率的网络节点。

进一步地，网络中每个节点的本地存储有一个朋友节点列表，该列表中包括N个朋友节点的地址和关联度分值，所述关联度分值的计算方式为：

关联度分值＝(A*周期T内的邮件交互次数+B*周期T内返回黑名单或白名单查询结果的次数)/T；

其中，系数A、B、周期T和朋友节点的数量N既可以是常数，也可以由系统设定并根据实际需要动态调整。

进一步地，所述朋友节点列表的初始化过程为：

将与本地有邮件交互的网络节点按照邮件交互次数从高至低进行排序，选择排序结果中的前N个节点作为朋友节点，以建立初始的朋友节点列表；其中，所述关联度分值的初始值都为0。

进一步地，所述朋友节点列表的更新过程为：

每间隔固定的周期T，计算在当前的周期T内与本地有邮件交互的每个网络节点的关联度分值，按照关联度分值从高至低进行排序，选择排序结果中的前N个节点作为朋友节点，从而更新朋友节点列表。

进一步地，所述系数A、B、周期T和朋友节点的数量N可以是：A＝10，B＝20，T＝24(小时)，N＝50。

进一步地，所述表情特征数据包括：眼睛位置信息、眼睛形状信息、眉毛位置信息、眉毛形状信息、嘴巴位置信息和嘴巴形状信息；

所述语音特征数据包括：声调信息、语速信息、以及过滤性关键词。

进一步地，所述步骤1中按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性包括：

从预设表情和/或语音特征数据库查找与所述表情和/或语音特征数据相匹配的预设表情和/或语音特征数据；

当查找出所述表情和/或语音特征数据与第一预设表情和/或语音特征数据相匹配时，确定所述表情和/或语音特征数据对应的表情和/或语音数据为第一表情和/或语音数据，并确定所述用户收发的邮件的类型为第一类型，其中，所述第一预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据，所述预设表情和/或语音特征数据库中还存储有表情和/或语音特征数据与邮件类型的对应关系；以及

当查找出所述表情和/或语音特征数据与第二预设表情和/或语音特征数据相匹配时，确定所述表情和/或语音特征数据对应的表情和/或语音数据为第二表情和/或语音数据，并确定所述用户收发的邮件的类型为第二类型，其中，所述第二预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据，并且所述第二预设表情和/或语音特征数据与所述第一预设表情和/或语音特征数据为不同的表情和/或语音特征数据。

进一步地，在确定所述用户收发的邮件的类型为第二类型之后，还包括：

比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级；

在比较出所述第一表情和/或语音数据的优先级高于所述第二表情和/或语音数据的优先级时，控制所述第一类型的邮件排列在所述第二类型的邮件之前；以及

在比较出所述第一表情和/或语音数据的优先级低于所述第二表情和/或语音数据的优先级时，控制所述第一类型的邮件排列在所述第二类型的邮件之后。

进一步地，在比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级之前，还包括：

接收所述用户的设定指令；以及

根据所述设定指令确定所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级。

本发明的垃圾邮件的过滤拦截方法可实现以下有益效果：

第一，通过获取用户收发邮件时的表情和/或语音特征数据；以及按照表情和/或语音特征数据对用户收发的邮件进行分类。

一般而言，用户处理邮件时，情绪往往会因邮件内容而发生变化，或者本身已经处于一种情绪中，不同情绪会使得用户的表情特征数据不同，通过对用户收发邮件时的表情特征数据进行获取，继而基于获取到的表情特征数据对邮件进行分类，由于用户对自己对处理邮件时的情绪记忆比较深刻，因而可以通过与情绪相对应的表情特征数据较快地对邮件初步分类。

同时，对于一些垃圾邮件(例如广告)，或者往往包括一些陌生的语音，或者存在很多商业推销用语、敏感词或者其他固定格式的语音，或者由于格式化录音而具有较平稳的语速及语调，而这些往往是较容易分类辨认的。

通过表情和/或语音识别，可以缩短分类识别时间，以实现邮件的初步分类识别。

第二，由于基于与本地节点通信较频繁的有代表性的朋友节点，往往也会同时收到类似的垃圾邮件和/或正常邮件的特性，借助于在网络中并发查询这些朋友节点的黑、白名单列表，可以快速地筛选出垃圾邮件和/或正常邮件，能够大大简化本地的分析筛选工作。

第三，朋友节点与用户本地节点之间的关联度分值，既能体现某段时间内两者之间的通信频率，又能体现黑、白名单列表的命中概率。通过综合以上两个因素，可动态确定关联度最佳的朋友节点列表。

第四，对于最终无法辨认类别的邮件，提示本地用户进行辨别，这样可以防止垃圾邮件的漏检或正常邮件的误判。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的垃圾邮件的过滤拦截方法的流程图。

图2是根据本发明实施例的朋友节点列表的结构。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明的实施例提供了一种垃圾邮件的过滤拦截方法，以下对本发明实施例所提供的垃圾邮件的过滤拦截方法进行具体介绍：

图1是根据本发明实施例的垃圾邮件的过滤拦截方法的流程图。如图1所示，该方法包括如下的步骤：

如果未命中用户节点本地的黑名单列表或白名单列表，则执行以下步骤3-5：

步骤6，提示用户判断该邮件的类别；

由于单机垃圾邮件过滤的代价较大，并且通常准确率不高，而将垃圾邮件过滤任务全部交给服务器，又将明显增加服务器端的开销。因此，本申请的垃圾邮件过滤拦截方法将利用网络中与本地交互的其他用户节点进行并发式协同过滤分析。

网络中存在许多的孤立节点，而如果两个网络用户节点之间如果存在较大的邮件交互(收发邮件)频率，则意味着这两个用户节点之间有较高的同质性。在本申请中，将与用户节点之间具有较高的邮件交互频率的网络节点称为“朋友节点”(例如，同一个家公司的多个用户节点)。由于朋友节点之间可能具有大致相同的统计特性，那么显然基于邮件交互频率的网络同步并发式协同分析可以较快且较容易地给出关于本地邮件的分类建议，由于这种协同分析是网络并发协作式的，因此效率较高，且不会增加本地节点的运算负担。

网络中所有节点(包括本地节点、所有朋友节点)的本地都存储有一个黑名单列表和一个白名单列表。本地节点可查询其黑名单列表和白名单列表；本地节点的所有的朋友节点可以请求本地节点查询该本地节点的黑名单列表和白名单列表，并返回查询结果。其中，所述黑名单列表中包括垃圾邮件的地址，白名单列表中包括正常邮件的地址。黑、白名单列表的初始值可由云端服务器获取，并可以实时更新。

同时，网络中所有节点(包括本地节点、所有朋友节点)的本地存储有一个朋友节点列表。

实际中，由于基于与本地节点通信较频繁的有代表性的朋友节点，往往也会同时收到类似的垃圾邮件和/或正常邮件的特性，因此借助于在网络中并发查询这些朋友节点的黑、白名单列表，可以快速地筛选出垃圾邮件和/或正常邮件，能够大大简化本地的分析筛选工作。

图2是根据本发明实施例的朋友节点列表的结构。如图2所示，所述朋友节点列表包括N个朋友节点的地址和关联度分值。

初始化时，所有的关联度分值的值都为0，该朋友节点列表每间隔周期T更新一次。

朋友节点列表的初始化和更新过程如下：

a.初始化：将与本地有邮件交互(收、发邮件)的网络节点按照邮件交互次数从高至低进行排序，选择排序结果中的前N个节点作为朋友节点，以建立初始的朋友节点列表。

其中，周期T和朋友节点的数量N既可以是常数，也可以由系统设定并根据实际需要动态调整。

b.更新：每间隔固定的周期T，计算在当前的周期T内与本地有邮件交互(收、发邮件)的每个网络节点的关联度分值，按照关联度分值从高至低进行排序，选择排序结果中的前N个节点作为朋友节点，从而更新朋友节点列表；所述关联度分值的计算方式如下：

其中，系数A、B、周期T和朋友节点的数量N既可以是常数；也可以由系统设定并根据实际需要动态调整，例如，可以选择：

A＝10，B＝20，T＝24(小时)，N＝50。

在本发明的优选实施例中，通过获取用户收发邮件时的表情和/或语音特征数据；以及按照表情和/或语音特征数据对用户收发的邮件进行初步的分类。

一般而言，用户处理邮件时，情绪往往会因邮件内容而发生变化，或者本身已经处于一种情绪中，不同情绪会使得用户的表情和/或语音特征数据不同，通过对用户收发邮件时的表情和/或语音特征数据进行获取，继而基于获取到的表情和/或语音特征数据对邮件进行分类，由于用户对自己对处理邮件时的情绪记忆比较深刻，因而可以通过与情绪相对应的表情和/或语音特征数据较快地对邮件初步分类。

同时，对于一些垃圾邮件(例如广告)，或者往往包括一些陌生的语音，或者存在很多商业推销用语、敏感词或者其他固定格式的语音，而这些往往是较容易分类辨认的。

通过表情和/或语音识别，可以缩短分类识别时间。

在本发明的优选实施例中，所述表情特征数据可以包括：眼睛位置信息、眼睛形状信息、眉毛位置信息、眉毛形状信息、嘴巴位置信息和嘴巴形状信息等比较易于辨认的表情特征数据；

所述语音特征数据可包括：声调信息、语速信息、过滤性关键词等。

其中，按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性包括：

在获取到用户的表情和/或语音特征数据之后，从预设表情和/或语音特征数据库查找与所述表情和/或语音特征数据相匹配的预设表情和/或语音特征数据；其中，所述预设表情和/或语音特征数据库中存储有与表情和/或语音特征数据相对应的类型信息；

其中，在确定所述用户收发的邮件的类型为第二类型之后，还包括：

其中，在比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级之前，还包括：

接收所述用户的设定指令；以及

在本发明的优选实施例中，获取用户的表情特征数据主要通过现有的人脸识别技术(比如区域特征分析算法)来进行匹配，利用已建成的人脸特征模板与获取到的用户表情特征数据进行特征分析，根据分析的结果来给出一个相似值，通过这个值即可确定是否为用户定义的某种表情。

在本发明的优选实施例中，获取用户的语音特征数据主要通过现有的语音识别技术来进行匹配，利用已建成的语音特征模板与获取到的用户语音特征数据进行特征分析，根据分析的结果来给出一个相似值，通过这个值即可确定是否为用户定义的某种语音；另外，若邮件中包含一些常见的过滤敏感词、商业广告性宣传词汇，以及一些其他的用户自定义过滤性用语和词汇，可分类识别为垃圾邮件。

在本发明的优选实施例中，由于不同用户间各自情绪的定义和识别有很多复杂性和差异性，不同人可能表情和/或语音的表现和实际情绪之间会有很大差异。本发明优选实施例中，用户在自定义表情和/或语音特征数据时可以通过摄像头/麦克风提取用户当前表情和/或语音的特征信息，并同时设置这些表情和/或语音对应的表情和/或语音特征邮件，实现快捷方便的自定义设置表情和/或语音特征数据。引导用户自己定义表情和/或语音特征数据时，可以引导用户为不同的表情和/或语音特征数据分配一个唯一的ID，比如为开心、伤心、兴奋、厌恶、疑惑等各种情绪下分别表现出的表情和/或语音特征数据对应设置一个唯一的ID。

在本发明的优选实施例中，允许用户对表情和/或语音特征数据的设置可以预先由用户自定义设置，也可以在以下过程中设置：当用户收发邮件时，对用户此时的表情和/或语音特征数据进行实时获取，并查询预设表情和/或语音特征数据库以得到与获取到的表情和/或语音特征数据对应的预设表情和/或语音特征数据，进而确定出用户此时所收发的邮件的类型为查找到的预设表情和/或语音特征数据所对应的类型。

但是，当在预设表情和/或语音特征数据库中未找到与当前获取到的表情和/或语音特征数据相对应的预设表情和/或语音特征数据的话，则说明用户还未对目前这一表情和/或语音特征数据进行定义，此时步骤1中的分类属性为无法确认，即在表情和/或语音特征分类识别的步骤之后，如果不能确定邮件的分类属性是正常邮件还是垃圾邮件，则需要通过构建分类器对这些无法确认的邮件继续进行分类识别。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种垃圾邮件的过滤拦截方法，其特征在于，该方法包括以下步骤：

步骤2，查询用户节点本地的黑名单列表和白名单列表，以确定当前邮件的类型；

如果用户收发的该邮件的地址不在用户节点本地的黑名单列表和白名单列表中，则执行步骤3-步骤6：

步骤6，提示用户判断该邮件的类别；

其中，所述朋友节点是指与当前用户节点之间具有较高的邮件交互频率的网络节点；

网络中每个节点的本地存储有一个朋友节点列表，该列表中包括N个朋友节点的地址和关联度分值，所述关联度分值的计算方式为：

其中，系数A、B、周期T和朋友节点的数量N既可以是常数，也可以由系统设定并根据实际需要动态调整；

所述朋友节点列表的初始化过程为：将与本地有邮件交互的网络节点按照邮件交互次数从高至低进行排序，选择排序结果中的前N个节点作为朋友节点，以建立初始的朋友节点列表；其中，所述关联度分值的初始值都为0；

所述朋友节点列表的更新过程为：每间隔固定的周期T，计算在当前的周期T内与本地有邮件交互的每个网络节点的关联度分值，按照关联度分值从高至低进行排序，选择排序结果中的前N个节点作为朋友节点，从而更新朋友节点列表；

所述系数A、B、周期T和朋友节点的数量N可以是：A＝10，B＝20，T＝24，N＝50；

所述表情特征数据包括：眼睛位置信息、眼睛形状信息、眉毛位置信息、眉毛形状信息、嘴巴位置信息和嘴巴形状信息；

所述语音特征数据包括：声调信息、语速信息、以及过滤性关键词；

所述步骤1中按照所述表情和/或语音特征数据获得用户收发的邮件的分类属性包括：

当查找出所述表情和/或语音特征数据与第二预设表情和/或语音特征数据相匹配时，确定所述表情和/或语音特征数据对应的表情和/或语音数据为第二表情和/或语音数据，并确定所述用户收发的邮件的类型为第二类型，其中，所述第二预设表情和/或语音特征数据为所述预设表情和/或语音特征数据库中的任一表情和/或语音特征数据，并且所述第二预设表情和/或语音特征数据与所述第一预设表情和/或语音特征数据为不同的表情和/或语音特征数据；

在确定所述用户收发的邮件的类型为第二类型之后，还包括：

在比较出所述第一表情和/或语音数据的优先级低于所述第二表情和/或语音数据的优先级时，控制所述第一类型的邮件排列在所述第二类型的邮件之后；

在比较所述第一表情和/或语音数据和所述第二表情和/或语音数据的优先级之前，还包括：

接收所述用户的设定指令；以及