CN105323153A

CN105323153A - 垃圾邮件过滤方法及装置

Info

Publication number: CN105323153A
Application number: CN201510794358.0A
Authority: CN
Inventors: 周鑫
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2016-02-10

Abstract

本发明适用于信息过滤领域，提供了一种垃圾邮件过滤方法及装置，所述方法包括：接收到新邮件后，获取所述新邮件的邮件内容；将获取的邮件内容处理为预设类别的字符串；根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度；根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。本发明实施例能够提高过滤垃圾邮件的准确度。

Description

垃圾邮件过滤方法及装置

技术领域

本发明实施例属于信息过滤领域，尤其涉及一种垃圾邮件过滤方法及装置。

背景技术

文本聚类是将语义相近的文本聚在一起，传统的数据挖掘方法在处理文本数据之前，首先必须把文本表示成计算机能够处理的、可体现文本本质特征的形式，然后用词频逆向文件频率(TermFrequencyInverseDocumentFrequency，TFIDF)将文档转化为向量形式，最后在向量空间模型中通过文本聚类方法计算文本相似度。在基于TFIDF的向量空间模型中，由于没有考虑词之间存在的概念相似情况，因此影响了数据聚类的准确性。并且，现有方法也难以识别出垃圾邮件发送者在邮件内容中融入的正常邮件信息或者关键词语，从而难以准确过滤出垃圾邮件。

发明内容

本发明实施例提供了一种垃圾邮件过滤方法及装置，旨在解决现有方法难以准确过滤出垃圾邮件的问题。

本发明实施例是这样实现的，一种垃圾邮件过滤方法，所述方法包括：

接收到新邮件后，获取所述新邮件的邮件内容；

将获取的邮件内容处理为预设类别的字符串；

根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度；

根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。

本发明实施例的另一目的在于提供一种垃圾邮件过滤装置，所述装置包括：

邮件内容获取单元，用于接收到新邮件后，获取所述新邮件的邮件内容；

邮件内容预处理单元，用于将获取的邮件内容处理为预设类别的字符串；

文本相似度确定单元，用于根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度；

垃圾邮件判断单元，用于根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。

在本发明实施例中，由于将获取的邮件内容处理为预设类别的字符串，因此缩短了邮件内容的长度，减少了邮件内容的比较次数，从而提高了过滤邮件的速度。并且，由于保留了完整的邮件内容，因此保证了聚类指令，从而提高了过滤垃圾邮件的准确度。

附图说明

图1是本发明第一实施例提供的一种垃圾邮件过滤方法的流程图；

图2是本发明第二实施例提供的一种垃圾邮件过滤装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，接收到新邮件后，获取所述新邮件的邮件内容，将获取的邮件内容处理为预设类别的字符串，根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度，根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种垃圾邮件过滤方法的流程图，详述如下：

步骤S11，接收到新邮件后，获取所述新邮件的邮件内容。

该步骤中，当接收到一个新邮件时，解码该新邮件，使之成为正常的文本内容，再从解码后的新邮件中获取该新邮件的邮件内容，该邮件内容包括正文、关键字和附件等。

步骤S12，将获取的邮件内容处理为预设类别的字符串。

其中，预设类别的字符串包括中文字符、英文字符串和其他字符的字符串。需要指出的是，当邮件内容包括数字时，该数字划分为“英文字符串”一类。

该步骤中，假设邮件内容为“⊙复：55如有打扰请见谅！2”，则该邮件内容经过处理后变为：“⊙”、“复”、“：”、“55”、“如”、“有”、“打”、“扰”、“请”、“见”、“谅”、“！”、“2””，其中，“⊙”、“：”、“！”划分为“其他字符”这一类，“复”、“如”、“有”、“打”、“扰”、“请”、“见”、“谅”划分为“中文字符”这一类，“55”、“2”划分为“英文字符”这一类。

步骤S13，根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度。

其中，预设的空格惩罚值为负数，其具体数值根据需要进行设定，可以设定为-1，-2等，当然，也可以设定为其他数值，此处不作限定。

其中，初始簇中心的数据包括字符串及长度，具体地，所述根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度包括：

A1、根据预设的空格惩罚值及字符相似度值确定处理得到的字符串与预设的初始簇中心的字符串的最高得分。具体地，A11、根据下式初始化回溯矩阵的第一行和第一列：F_0,j＝d×j，其中，d为预设的空格惩罚值，0≤j≤(邮件内容的长度-1)，或者，0≤j≤(预设的初始簇中心的长度-1)；F_i,0＝d×i，其中，0≤i≤(邮件内容的长度-1)，或者，0≤i≤(预设的初始簇中心的长度-1)。需要指出的是，如果j小于(预设的初始簇中心的长度-1)，则i小于(邮件内容的长度-1)。这里预设的初始簇中心的字符串为人工选取的作为垃圾邮件的字符串。A12、根据下式确定回溯矩阵的其他行列：F_i,j＝max(F_i-1,j-1+sim(T_i,P_j),F_i,j-1+d,F_i-1,j+d)，其中，sim(T_i,P_j)为T_i与P_j的字符相似度值，并将最大的F_i,j作为处理得到的字符串与预设的初始簇中心的字符串的最高得分。需要指出的是，T_i与P_j为可能属于同一类别的字符，也可能属于不同类别的字符，当T_i与P_j为都属于同一类别的字符，若两者匹配，则可定义sim(T_i,P_j)为1(或者为大于0的其他数值)，若两者不匹配，则可定义sim(T_i,P_j)为0(或者为小于0的其他数值)。当然，当T_i与P_j分别属于不同类别的字符时，两者肯定不匹配。在该步骤中，最大的F_i,j为回溯矩阵最右下角单元格的值，为了节省工作量，可在计算出回溯矩阵最右下角单元格的值时，直接将该值作为处理得到的字符串与预设的初始簇中心的字符串的最高得分。

A2、根据确定的最高得分、邮件内容的长度、预设的初始簇中心的长度计算所述邮件内容和预设的初始簇中心的文本相似度。具体地，A21、确定邮件内容的长度和预设的初始簇中心的长度中的较大值；A22、根据确定的最高得分和确定的较大值计算所述邮件内容和预设的初始簇中心的文本相似度。具体地，当定义T_i与P_j匹配时，sim(T_i,P_j)为1，两者不匹配，sim(T_i,P_j)为0，则根据下式计算所述邮件内容和预设的初始簇中心的文本相似度：SIM＝确定的最高得分/确定的较大值，以归一化邮件内容和预设的初始簇中心的文本相似度(即SIM)，使该SIM的值在[0,1]之间，当SIM越接近1，表明邮件内容和预设的初始簇中心越相似，否则，表明邮件内容和预设的初始簇中心越不相似。当然，当定义T_i与P_j匹配时，sim(T_i,P_j)为非1的数值，则确定该sim(T_i,P_j)与1的倍数，假设为“M”，则SIM＝确定的最高得分/(M*确定的较大值)，以保证该SIM的值在[0,1]之间。

步骤S14，根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。

具体地，所述根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件，包括：

B1、判断确定的文本相似度是否大于预设的阈值。假设预设的阈值为M，则判断SIM是否大于M。

B2、在确定的文本相似度大于预设的阈值时，判定所述新邮件为垃圾邮件，并过滤所述新邮件。具体地，过滤新邮件是指拒绝该新邮件存放在“收件箱”里，可以直接删掉该新邮件，也可以将该新邮件存放在垃圾邮件的文件夹，以使得邮件被错判时，用户也还可以浏览该邮件，减少用户损失。

B3、在确定的文本相似度小于或等于预设的阈值时，判定所述新邮件不为垃圾邮件，并将所述新邮件作为新的初始簇中心。

可选地，为了减轻过滤邮件的负担，加快过滤邮件的速度，在所述获取所述新邮件的邮件内容之前，包括：

通过白名单和/或黑名单判断接收的新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。

具体地，白名单存储了部分用户的邮件地址，当接收的邮件对应的邮件地址与白名单的某个邮件地址相同，则判定该邮件不是垃圾邮件。黑名单也存储了IP地址或者邮件地址，当接收的邮件对应的邮件地址与黑名单的某个邮件地址相同，则判定该邮件是垃圾邮件。当然，在通过白名单和/或黑名单判断接收的新邮件是否为垃圾邮件之前，还可以对接收的邮件的心头进行分析，检查发送地址和接收地址，如果发送地址或接收地址不存在，则判定该邮件为垃圾邮件。通过结合上述的邮件过滤方法能够提高过滤垃圾邮件的速度以及准确度。

本发明第一实施例中，接收到新邮件后，获取所述新邮件的邮件内容，将获取的邮件内容处理为预设类别的字符串，根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度，根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。由于将获取的邮件内容处理为预设类别的字符串，因此缩短了邮件内容的长度，减少了邮件内容的比较次数，从而提高了过滤邮件的速度。并且，由于保留了完整的邮件内容，因此保证了聚类指令，从而提高了过滤垃圾邮件的准确度。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例二：

图2示出了本发明第二实施例提供的一种垃圾邮件过滤装置的结构图，该垃圾邮件过滤装置可应用于各种终端，该终端可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备，该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等，例如，用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。又例如，该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明，仅示出了与本发明实施例相关的部分。

该垃圾邮件过滤装置包括：邮件内容获取单元21、邮件内容预处理单元22、文本相似度确定单元23、垃圾邮件判断单元24。其中：

邮件内容获取单元21，用于接收到新邮件后，获取所述新邮件的邮件内容。

具体地，当接收到一个新邮件时，解码该新邮件，使之成为正常的文本内容，再从解码后的新邮件中获取该新邮件的邮件内容，该邮件内容包括正文、关键字和附件等。

邮件内容预处理单元22，用于将获取的邮件内容处理为预设类别的字符串。

文本相似度确定单元23，用于根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度。

可选地，初始簇中心的数据包括字符串及长度，所述文本相似度确定单元23包括：

邮件内容匹配分数确定单元，用于根据预设的空格惩罚值及字符相似度值确定处理得到的字符串与预设的初始簇中心的字符串的最高得分。具体地，所述邮件内容匹配分数确定单元包括：回溯矩阵初始化模块和回溯矩阵其他行列值确定模块。其中，回溯矩阵初始化模块用于根据下式初始化回溯矩阵的第一行和第一列：F_0,j＝d×j，其中，d为预设的空格惩罚值，0≤j≤(邮件内容的长度-1)，或者，0≤j≤(预设的初始簇中心的长度-1)；F_i,0＝d×i，其中，0≤i≤(邮件内容的长度-1)，或者，0≤i≤(预设的初始簇中心的长度-1)。需要指出的是，如果j小于(预设的初始簇中心的长度-1)，则i小于(邮件内容的长度-1)。这里预设的初始簇中心的字符串为人工选取的作为垃圾邮件的字符串。回溯矩阵其他行列值确定模块用于根据下式确定回溯矩阵的其他行列：F_i,j＝max(F_i-1,j-1+sim(T_i,P_j),F_i,j-1+d,F_i-1,j+d)，其中，sim(T_i,P_j)为T_i与P_j的字符相似度值，并将最大的F_i,j作为处理得到的字符串与预设的初始簇中心的字符串的最高得分。需要指出的是，T_i与P_j为可能属于同一类别的字符，也可能属于不同类别的字符，当T_i与P_j为都属于同一类别的字符，若两者匹配，则可定义sim(T_i,P_j)为1(或者为大于0的其他数值)，若两者不匹配，则可定义sim(T_i,P_j)为0(或者为小于0的其他数值)。

邮件内容相似度计算单元，用于根据确定的最高得分、邮件内容的长度、预设的初始簇中心的长度计算所述邮件内容和预设的初始簇中心的文本相似度。具体地，所述邮件内容相似度计算单元包括：邮件内容长度比较模块和文本相似度计算模块。其中，邮件内容长度比较模块用于确定邮件内容的长度和预设的初始簇中心的长度中的较大值；文本相似度计算模块用于根据确定的最高得分和确定的较大值计算所述邮件内容和预设的初始簇中心的文本相似度。具体地，当定义T_i与P_j匹配时，sim(T_i,P_j)为1，两者不匹配，sim(T_i,P_j)为0，则根据下式计算所述邮件内容和预设的初始簇中心的文本相似度：SIM＝确定的最高得分/确定的较大值，以归一化邮件内容和预设的初始簇中心的文本相似度(即SIM)，使该SIM的值在[0,1]之间，当SIM越接近1，表明邮件内容和预设的初始簇中心越相似，否则，表明邮件内容和预设的初始簇中心越不相似。当然，当定义T_i与P_j匹配时，sim(T_i,P_j)为非1的数值，则确定该sim(T_i,P_j)与1的倍数，假设为“M”，则SIM＝确定的最高得分/(M*确定的较大值)，以保证该SIM的值在[0,1]之间。

垃圾邮件判断单元24，用于根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件。

可选地，所述垃圾邮件判断单元24包括：

文本相似度比较模块，用于判断确定的文本相似度是否大于预设的阈值。

垃圾邮件判定模块，用于在确定的文本相似度大于预设的阈值时，判定所述新邮件为垃圾邮件，并过滤所述新邮件。具体地，过滤新邮件是指拒绝该新邮件存放在“收件箱”里，可以直接删掉该新邮件，也可以将该新邮件存放在垃圾邮件的文件夹，以使得邮件呗错判时，用户也还可以浏览该邮件，减少用户损失。

非垃圾邮件处理模块，用于在确定的文本相似度小于或等于预设的阈值时，判定所述新邮件不为垃圾邮件，并将所述新邮件作为新的初始簇中心。

可选地，为了减轻过滤邮件的负担，加快过滤邮件的速度，所述垃圾邮件过滤装置包括：

本发明第二实施例中，由于将获取的邮件内容处理为预设类别的字符串，因此缩短了邮件内容的长度，减少了邮件内容的比较次数，从而提高了过滤邮件的速度。并且，由于保留了完整的邮件内容，因此保证了聚类指令，从而提高了过滤垃圾邮件的准确度。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种垃圾邮件过滤方法，其特征在于，所述方法包括：

接收到新邮件后，获取所述新邮件的邮件内容；

将获取的邮件内容处理为预设类别的字符串；

2.根据权利要求1所述的方法，其特征在于，所述初始簇中心的数据包括字符串及长度，所述根据预设的空格惩罚值、字符相似度值及预设的初始簇中心的数据确定所述邮件内容与所述预设初始簇中心的文本相似度，具体包括：

根据预设的空格惩罚值及字符相似度值确定处理得到的字符串与预设的初始簇中心的字符串的最高得分；

根据确定的最高得分、邮件内容的长度、预设的初始簇中心的长度计算所述邮件内容和预设的初始簇中心的文本相似度。

3.根据权利要求2所述的方法，其特征在于，所述根据预设的空格惩罚值及字符相似度值确定处理得到的字符串与预设的初始簇中心的字符串的最高得分，具体包括：

根据下式初始化回溯矩阵的第一行和第一列：F_0,j＝d×j，其中，d为预设的空格惩罚值，0≤j≤(邮件内容的长度-1)，或者，0≤j≤(预设的初始簇中心的长度-1)；F_i,0＝d×i，其中，0≤i≤(邮件内容的长度-1)，或者，0≤i≤(预设的初始簇中心的长度-1)；

根据下式确定回溯矩阵的其他行列：F_i,j＝max(F_i-1,j-1+sim(T_i,P_j),F_i,j-1+d,F_i-1,j+d)，其中，sim(T_i,P_j)为T_i与P_j的字符相似度值，并将最大的F_i,j作为处理得到的字符串与预设的初始簇中心的字符串的最高得分。

4.根据权利要求2所述的方法，其特征在于，所述根据确定的最高得分、邮件内容的长度、预设的初始簇中心的长度计算所述邮件内容和预设的初始簇中心的文本相似度，具体包括：

确定邮件内容的长度和预设的初始簇中心的长度中的较大值；

根据确定的最高得分和确定的较大值计算所述邮件内容和预设的初始簇中心的文本相似度。

5.根据权利要求1所述的方法，其特征在于，所述根据确定的文本相似度与预设的阈值判断所述新邮件是否为垃圾邮件，以根据判断结果判断是否过滤所述新邮件，具体包括：

判断确定的文本相似度是否大于预设的阈值；

在确定的文本相似度大于预设的阈值时，判定所述新邮件为垃圾邮件，并过滤所述新邮件；

在确定的文本相似度小于或等于预设的阈值时，判定所述新邮件不为垃圾邮件，并将所述新邮件作为新的初始簇中心。

6.根据权利要求1所述的方法，其特征在于，在所述获取所述新邮件的邮件内容之前，包括：

7.一种垃圾邮件过滤装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述初始簇中心的数据包括字符串及长度，所述文本相似度确定单元包括：

邮件内容匹配分数确定单元，用于根据预设的空格惩罚值及字符相似度值确定处理得到的字符串与预设的初始簇中心的字符串的最高得分；

邮件内容相似度计算单元，用于根据确定的最高得分、邮件内容的长度、预设的初始簇中心的长度计算所述邮件内容和预设的初始簇中心的文本相似度。

9.根据权利要求8所述的装置，其特征在于，所述邮件内容匹配分数确定单元具体包括：

回溯矩阵初始化模块，用于根据下式初始化回溯矩阵的第一行和第一列：F_0,j＝d×j，其中，d为预设的空格惩罚值，0≤j≤(邮件内容的长度-1)，或者，0≤j≤(预设的初始簇中心的长度-1)；F_i,0＝d×i，其中，0≤i≤(邮件内容的长度-1)，或者，0≤i≤(预设的初始簇中心的长度-1)；

回溯矩阵其他行列值确定模块，用于根据下式确定回溯矩阵的其他行列：F_i,j＝max(F_i-1,j-1+sim(T_i,P_j),F_i,j-1+d,F_i-1,j+d)，其中，sim(T_i,P_j)为T_i与P_j的字符相似度值，并将最大的F_i,j作为处理得到的字符串与预设的初始簇中心的字符串的最高得分。

10.根据权利要求7所述的装置，其特征在于，所述邮件内容相似度计算单元包括：

邮件内容长度比较模块，用于确定邮件内容的长度和预设的初始簇中心的长度中的较大值；

文本相似度计算模块，用于根据确定的最高得分和确定的较大值计算所述邮件内容和预设的初始簇中心的文本相似度。

11.根据权利要求7所述的装置，其特征在于，所述垃圾邮件判断单元包括：

文本相似度比较模块，用于判断确定的文本相似度是否大于预设的阈值；

垃圾邮件判定模块，用于在确定的文本相似度大于预设的阈值时，判定所述新邮件为垃圾邮件，并过滤所述新邮件；

12.根据权利要求7所述的装置，其特征在于，所述装置包括：