CN102768659B

CN102768659B - 重复账号自动识别方法和系统

Info

Publication number: CN102768659B
Application number: CN201110113252.1A
Authority: CN
Inventors: 冯景华; 陈超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-05-03
Filing date: 2011-05-03
Publication date: 2015-06-24
Anticipated expiration: 2031-05-03
Also published as: HK1172706A1; CN102768659A

Abstract

本申请提供了重复账号自动识别方法和系统，其中，该方法包括：获取网站的服务器所保存的第一账号和第二账号的特征信息；计算第一账号的特征信息中的特征与第二账号的特征信息中对应的特征之间的相似度；将计算得到的相似度作为预定识别模型的输入参数，通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度，根据所得到的相似度来判断所述第一账号与所述第二账号是否为重复账号。本申请解决了现有技术中无法识别重复账号的问题，达到准确识别重复账号、提高运算速度的目的。

Description

重复账号自动识别方法和系统

技术领域

本申请涉及互联网信息领域，具体而言，涉及一种重复账号自动识别方法和系统。

背景技术

在目前的互联网使用的过程中，重复信息是最影响用户搜索体验以及加重搜索引擎服务器搜索负担的问题之一，其中，以电子商务网站为例，重复的账号会导致买家用户在联系卖家时候的重复劳动，也会导致部分好的卖家用户信息得不到曝光；同时由于大量重复帐号的存在，使得用户在进行信息查询时加重搜索引擎的搜索负担，减缓了搜索引擎的搜索速度。

在现有技术中，一般采用如下步骤来识别重复账号：

S1：服务器获取待识别的账号；

S2：服务器将待识别的账号的名称与数据库中预定量的账号的名称通过下述方式逐一比较名称：

利用预置的不同词性的分词词库对待识别的账号的名称及数据库中的账号名称进行分词并确定词性；

将经过分词并确定词性的待识别帐号对应的店名及数据库中的实体店名分别填入预定的模板；

通过比较待识别帐号对应的店名和数据库中实体店名在所述模板中对应词性的词是否相同得到账号名称比较的评分；

S3：服务器通过比较评分与预定标准分来判断所述待识别的账号与比较的数据库中的账号重复；

S4：服务器将判断为不重复的所述待识别的账号添加入数据库。

上述方法通过判断账号名称是否相同来识别重复账号，然而，本领域技术人员可以理解的是，在电子商务中，卖方账号一般包括多个特征信息，例如，账号名称，该账号对应的公司名称，公司介绍，联系方式，访问行为等。账号名称相同并无法准确地判断出该账号是否重复，例如，账号A的账号名称为苹果公司，该公司主要销售红富士苹果等各种苹果，而账号B的账号名称也为苹果公司，该公司主要销售iphone，ipad等电子产品，可见，账号A以及账号B的特征信息应该明显不同，但是若只比较账号名称是否相同，则会认为账号A和账号B为重复账号，从而导致账号识别错误。由于重复帐号的识别不准确，导致大量重复帐号的存在，并不能很好的解决搜索引擎服务器的搜索负担的问题，因此，急需一种提高账号识别准确度，从而减轻搜索引擎服务器搜索负担，加快搜索速度的方案。

发明内容

本申请旨在提供一种重复账号自动识别方法和系统，以解决现有技术中无法正确识别重复账号，从而导致加重搜索引擎服务器搜索负担的问题。

根据本申请的一个方面，提供了一种重复账号自动识别方法，其包括：获取网站的服务器所保存的第一账号和第二账号的特征信息；计算第一账号的特征信息中的特征的各个特征参数与第二账号的特征信息中对应的特征的各个特征参数之间的相似度；根据预先分配的权重参数对各个特征参数之间的相似度进行拟合得到第一账号的各个特征与第二账号对应的各个特征之间的相似度；根据第一账号的各个特征与第二账号对应的各个特征之间的相似度来判断第一账号与第二账号是否为重复账号。

根据本申请的另一方面，提供了一种重复账号自动识别系统，其包括：获取单元，用于获取网站的服务器所保存的第一账号和第二账号的特征信息，其中，特征信息包括以下特征之一或其组合：账号的基本信息特征、账号所发布产品的产品信息特征、以及账号的行为信息特征；计算单元，用于计算第一账号的特征信息中的特征的各个特征参数与第二账号的特征信息中对应的特征的各个特征参数之间的相似度，并根据预先分配的权重参数对各个特征参数之间的相似度进行拟合得到第一账号的各个特征与第二账号对应的各个特征之间的相似度；判断单元，用于根据第一账号的各个特征与第二账号对应的各个特征之间的相似度来判断第一账号与第二账号是否为重复账号。

本申请中具有以下有益效果：

1)本申请通过拟合两个账号之间的多个特征的相似度来判断两个账号是否为重复，可以有效的避免由于判断不准确而导致的将错误的重复信息提供给用户的问题，从而达到准确识别重复账号的目的，进一步减轻了搜索引擎服务器在处理用户查询请求时的处理压力，提高了搜索速度；

2)本申请中的特征信息包括多个特征，例如，账号的基本信息特征、账号所发布产品的产品信息特征、以及账号的行为信息特征，利用上述特征信息可以从多维角度进行相似度计算，避免了重复账号计算时采用的维度的单一性，提高了重复账号识别的准确性；

3)本申请通过对识别模型进行训练，节省了计算的循环次数，从而在进行重复账号识别时提高系统的运算速度，节省了计算时间。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的重复账号自动识别系统的一种优选结构示意图；

图2是根据本申请实施例的重复账号自动识别系统的另一种优选结构示意图；

图3是根据本申请实施例的重复账号自动识别方法的一种优选流程图；

图4是根据本申请实施例的重复账号自动识别方法的另一种优选流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在描述本申请的各实施例的进一步细节之前，将参考图1来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本申请，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本申请的原理被示为在一合适的计算环境中实现。以下描述基于所述的本申请的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本申请。

图1示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的，所绘的体系结构仅为合适环境的一个示例，并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。

本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于，个人计算机、服务器，多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。

在其最基本的配置中，图1中的重复账号自动识别系统100通常包括至少一个处理单元102和存储器104。处理单元102可以但不限于微处理器MCU、可编程逻辑器件FPGA等，存储器104可以是易失性(如RAM)、非易失性(如ROM、闪存等)或两者的某一组合。在本说明书和权利要求书中，“重复账号自动识别系统”被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。重复账号自动识别系统100甚至可以是分布式的，以实现分布式功能。

如本申请所使用的，术语“模块”、“组件”或“单元”可以指在重复账号自动识别系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在重复账号自动识别系统100上执行(例如，作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现，但是硬件或软件和硬件的组合的实现也是可能并被构想的。

如本申请所使用的，术语“切词”或“词性标注”是自然语言处理的常用方法。切词就是把中文文字序列分成有意义的词。词性标注，就是对切词后得到的词，指派一个合适的词性，比如动词、名词等。在电子商务中，常用的有产品词，型号词，品牌词等。在本申请中，由系统来执行“切词”或“词性标注”的操作。当然，本申请也不限于此，也可以通过人工的方式，或者，人工与系统组合的方式来执行“切词”或“词性标注”的操作。

重复账号自动识别系统100还可以包含允许主机如通过网络108与其他系统和设备进行通信的通信单元106。通信单元106可以为有线传输设备，如有线网络通信接口和芯片，或者为无线传输设备，如RF、红外、蓝牙设备等。

实施例1

图2是根据本申请实施例的重复账号自动识别系统的另一种优选结构示意图，优选的，图2所示的各个组件可以但不限于由图1中所示的处理单元102实现。如图2所示，重复账号自动识别系统包括：获取单元202，用于获取网站的服务器所保存的第一账号和第二账号的特征信息，其中，所述特征信息包括以下特征之一或其组合：账号的基本信息特征、账号所发布产品的产品信息特征、以及账号的行为信息特征；计算单元204，用于计算所述第一账号的特征信息中的特征的各个特征参数与所述第二账号的特征信息中对应的特征的各个特征参数之间的相似度，并根据预先分配的权重参数对所述各个特征参数之间的相似度进行拟合得到所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度；判断单元206，用于根据所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度来判断所述第一账号与所述第二账号是否为重复账号。

在本申请的优选实施例中，通过拟合两个账号之间的多个特征的相似度来判断两个账号是否为重复，可以有效的避免由于判断不准确而导致的将错误的重复信息提供给用户的问题，从而达到准确识别重复账号的目的，进一步提高了用户在使用网络搜索业务、电子商务等时的体验度，减轻搜索引擎服务器处理查询请求时的处理压力，提高查询速度。此外，本申请中的特征信息包括多个特征，例如，账号的基本信息特征、账号所发布产品的产品信息特征、以及账号的行为信息特征，利用上述特征信息可以从多维角度进行相似度计算，避免了重复账号计算时采用的维度的单一性，提高了重复账号识别的准确性。

优选的，计算单元204包括：依次连接的第一获取模块2041、第二获取模块2042、选择模块2043、第一计算模块2044。在本申请的优选实施例中，第一获取模块2041、第二获取模块2042、选择模块2043、第一计算模块2044采用余弦夹角的方法来计算特征参数之间的相似度，具体描述如下：

在计算所述第一账号的特征信息中的特征的各个特征参数与所述第二账号的特征信息中对应的特征的各个特征参数之间的相似度时，第一获取模块2041获取由对第一特征参数进行切词得到的第一组关键词A₁，A₂，…A_M以及获取由对所述第一组关键词进行词性标注并根据词性对所述第一组关键词中的每一个关键词进行权重分配得到的第一组权重W_A1，W_A2，…W_AM，其中，所述第一特征参数为所述第一账号的特征信息中的特征的一个特征参数；第二获取模块2042获取由对第二特征参数进行切词得到第二组关键词B₁，B₂，…B_N以及获取由对所述第二组关键词进行词性标注并根据词性对所述第二组关键词中的每一个关键词进行权重分配得到的第二组权重W_B1，W_B2，…W_BN，其中，所述第二特征参数为所述第二账号的特征信息中的特征的一个特征参数。

在获取到上述参数之后，选择模块2043选择所述第一组关键词和所述第二组关键词之间相同的关键词C₁，…C_H，H≥1以及对应的权重W_C1，…W_CH。然后，第一计算模块2044通过以下公式计算所述第一特征参数与所述第二特征参数之间的相似度df：

df = \frac{d 1}{(\sqrt{da} \times \sqrt{db})}

其中，d1＝W_C1×W_C1+…W_CH×W_CH；

da＝W_A1×W_A1+…W_AM×W_AM；

db＝W_B1×W_B1+…W_BN×W_BN。

上述余弦夹角的方法可以利用不同的权重来计算特征参数之间的相似度，而不是单一地进行相似度计算，从而准确地得到两个特征参数之间的相似度。当然，本申请中的余弦夹角的方法只是一种示例，本申请不仅限于此，还可以通过其他类似的方法进行相似度的计算。

如图2所示，计算单元204还包括：第二计算模块2045。在对所述第一账号的第一特征的各个特征参数与所述第二账号对应的第二特征的各个特征参数之间的相似度进行拟合的过程中，第二计算模块2045可以采用线性拟合的方式，即，可以通过以下公式进行拟合：

d＝c1×W_c1+c2×W_c2…+cq×W_cq，q≥1

其中，d为所述第一账号的第一特征与所述第二账号对应的第二特征之间的相似度；

c1，c2…cq为所述第一特征的各个特征参数与所述第二特征的各个特征参数之间的相似度；

W_c1，W_c2…W_cq为预先分配的权重。

当然，上述线性拟合只是一种方式，本申请不仅限于此。

举例来说，第一账号的基本信息特征包括参数：公司地址(A1)，公司介绍(A2)和公司电话(A3)，第二账号的基本信息特征包括特征参数：公司地址(B1)，公司介绍(B2)和公司电话(B3)。在计算第一账号的基本信息特征与第二账号的基本信息特征的相似度的过程中，第一计算模块2041首先计算得到A1与B1之间的相似度C1、A2与B2之间的相似度C2、A3与B3之间的相似度C3；然后拟合模块2042通过对C1、C2和C3进行线性拟合得到第一账号的基本信息特征与第二账号的基本信息特征的相似度。在具体的实现中，可以采用余弦夹角的计算方法来计算第一账号的基本信息特征中的各个参数与第二账号的基本信息特征中的各个参数之间的相似度，其具体过程可以参考实施例3中的关于表1-表4的计算过程。此外，关于上述的具体拟合过程，也可以参考实施例3中的关于表1-表4的计算过程。

在上述优选的实施例中，由于针对每个特征参数的相似度进行拟合计算来得到一对特征信息特征之间的相似度，因此，保证了一对特征信息特征之间的相似度计算的准确性。

进一步，判断单元206包括：依次连接的第三计算模块2061和判断模块2062。在根据所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度来判断所述第一账号与所述第二账号是否为重复账号的过程中，第三计算模块2061将所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度作为预定识别模型的输入参数，通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度；判断模块2062根据所得到的相似度来判断所述第一账号与所述第二账号是否为重复账号。

优选的，第三计算模块2061包括：依次连接的训练子模块和计算子模块。在通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度的过程中，训练子模块通过预定数量的训练参数对所述预定识别模型进行训练，其中，每个所述训练参数包括：作为输入参数的两个账号各个特征之间的相似度，以及，作为输出参数的预先设置的所述两个账号之间的相似度；然后，计算子模块将所述第一账号的特征信息中的每一个特征与所述第二账号的特征信息中对应的特征之间的相似度作为输入参数，通过经过训练之后的所述预定识别模型得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度。本申请通过对识别模型进行训练，节省了计算的循环次数，从而在进行重复账号识别时提高系统的运算速度，节省了计算时间。在本优选的实施例中，对于具体训练过程，可以参考实施例3中的关于表1-表4的计算过程。

此外，判断模块2062包括：判断子模块，用于判断所述第一账号的特征信息与所述第二账号的特征信息之间的相似度是否大于预定阈值，并在所述第一账号的特征信息与所述第二账号的特征信息之间的相似度大于所述预定阈值时，判断出所述第一账号与所述第二账号为重复账号。在本申请的优选实施例中，通过阈值判断的方式，可以有效地判断出重复账号。当然，本申请中的判断方式不仅限于此。

优选地，获取单元202包括以下至少之一：第一获取模块2021，用于获取所述第一账号和所述第二账号的基本信息；对所述第一账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第一账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第一账号的基本信息特征；对所述第二账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第二账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第二账号的基本信息特征；第二获取模块2022，用于获取所述第一账号和所述第二账号的产品信息；对所述第一账号的产品信息进行切词和词性标注，根据标注的词性对由所述第一账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第一账号所发布产品的产品信息特征；对所述第二账号的产品信息进行切词和词性标注，根据标注的词性对由所述第二账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第二账号所发布产品的产品信息特征；或者第三获取模块2023，用于获取所述第一账号和所述第二账号登录所述网站时所使用的标识信息Cookie ID，将获取到的所述第一账号的Cookie ID作为所述第一账号的行为信息特征，将获取到的所述第二账号的Cookie ID作为所述第二账号的行为信息特征。在本申请的优选实施例中，通过上述步骤，可以获取有用的特征信息，使得相似度的判断更为准确。

优选地，上述重复账号自动识别系统还包括：通信单元208，用于在判断出第一账号与第二账号为重复账号之后，向用户发送指示信息，其中，指示信息用于指示第一账号与第二账号为重复账号。在本申请的优选实施例中，通过上述通知方式，使得用户可以对账号进行灵活地管理，提高了用户的体验度。

实施例2

基于图1和图2所示的重复账号自动识别系统，本申请还提供了一种重复账号自动识别方法，如图3所示，本实施例中的重复账号自动识别方法包括：

S302，获取网站的服务器所保存的第一账号和第二账号的特征信息；优选的，可以但不限于由图1中的处理单元102或图2中的获取单元202来执行S302的步骤；

S304，计算所述第一账号的特征信息中的特征的各个特征参数与所述第二账号的特征信息中对应的特征的各个特征参数之间的相似度；优选的，可以但不限于由图1中的处理单元102或图2中的计算单元204来执行S304的步骤；

S306，根据预先分配的权重参数对所述各个特征参数之间的相似度进行拟合得到所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度；优选的，可以但不限于由图1中的处理单元102或图2中的计算单元204来执行S306的步骤；

S308，根据所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度来判断所述第一账号与所述第二账号是否为重复账号；优选的，可以但不限于由图1中的处理单元102或图2中的判断单元206来执行S306的步骤。

在本申请的优选实施例中，通过拟合两个账号之间的多个特征的相似度来判断两个账号是否为重复，可以有效的避免由于判断不准确而导致的将错误的重复信息提供给用户的问题，从而达到准确识别重复账号的目的，进一步提高了用户在使用网络搜索业务、电子商务等时的体验度。

优选地，上述特征信息包括以下特征中的至少之一：账号的基本信息特征、账号所发布产品的产品信息特征、或账号的行为信息特征。本申请中的特征信息包括多个特征，例如，账号的基本信息特征、账号所发布产品的产品信息特征、以及账号的行为信息特征，利用上述特征信息可以从多维角度进行相似度计算，避免了重复账号计算时采用的维度的单一性，提高了重复账号识别的准确性。

优选地，图2中的第一获取模块2041、第二获取模块2042、选择模块2043、第一计算模块2044采用余弦夹角的方法来计算特征参数之间的相似度，也就是，通过以下步骤计算所述第一账号的特征信息中的特征的第一特征参数与所述第二账号的特征信息中对应的特征的第二特征参数之间的相似度：

S1，获取由对所述第一特征参数进行切词得到的第一组关键词A₁，A₂，…A_M以及获取由对所述第一组关键词进行词性标注并根据词性对所述第一组关键词中的每一个关键词进行权重分配得到的第一组权重W_A1，W_A2，…W_AM；

S2，获取由对所述第二特征参数进行切词得到第二组关键词B₁，B₂，…B_N以及获取由对所述第二组关键词进行词性标注并根据词性对所述第二组关键词中的每一个关键词进行权重分配得到的第二组权重W_B1，W_B2，…W_BN；

S3，选择所述第一组关键词和所述第二组关键词之间相同的关键词C₁，…C_H，H≥1以及对应的权重W_C1，…W_CH；

S4，通过以下公式计算所述第一特征参数与所述第二特征参数之间的相似度df：

df = \frac{d 1}{(\sqrt{da} \times \sqrt{db})}

其中，d1＝W_C1×W_C1+…W_CH×W_CH；

da＝W_A1×W_A1+…W_AM×W_AM；

db＝W_B1×W_B1+…W_BN×W_BN。

优选地，第二计算模块2045可以采用线性拟合的方式通过以下步骤来对所述第一账号的第一特征的各个特征参数与所述第二账号对应的第二特征的各个特征参数之间的相似度进行拟合：

d＝c1×W_c1+c2×W_c2…+cq×W_cq，q≥1

W_c1，W_c2…W_cq为预先分配的权重。

当然，上述线性拟合只是一种方式，本申请不仅限于此。

举例来说，第一账号的基本信息特征(第一特征)包括参数：公司地址(A1)，公司介绍(A2)和公司电话(A3)，第二账号的基本信息特征(第二特征)包括参数：公司地址(B1)，公司介绍(B2)和公司电话(B3)。在计算第一账号的基本信息特征与第二账号的基本信息特征的相似度的过程中，第一计算模块2041首先计算得到A1与B1之间的相似度C1、A2与B2之间的相似度C2、A3与B3之间的相似度C3；然后拟合模块2042通过对C1、C2和C3进行拟合得到第一账号的基本信息特征与第二账号的基本信息特征的相似度。在具体的实现中，可以采用余弦夹角的计算方法来计算第一账号的基本信息特征中的各个参数与第二账号的基本信息特征中的各个参数之间的相似度，其具体过程可以参考实施例3中的关于表1-表4的计算过程。此外，关于上述的具体拟合过程，也可以参考实施例3中的关于表1-表4的计算过程。

在上述优选的实施例中，由于针对每个参数的相似度进行拟合计算来得到一对特征信息特征之间的相似度，因此，保证了一对特征信息特征之间的相似度计算的准确性。

优选地，根据所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度来判断所述第一账号与所述第二账号是否为重复账号的步骤包括：将所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度作为预定识别模型的输入参数，通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度；根据所得到的相似度来判断所述第一账号与所述第二账号是否为重复账号。

优选地，通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度的步骤包括：通过预定数量的训练参数对所述预定识别模型进行训练，其中，每个所述训练参数包括：作为输入参数的两个账号各个特征之间的相似度，以及，作为输出参数的预先设置的所述两个账号之间的相似度；将所述第一账号的特征信息中的每一个特征与所述第二账号的特征信息中对应的特征之间的相似度作为输入参数，通过经过训练之后的所述预定识别模型得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度。本申请通过对识别模型进行训练，节省了计算的循环次数，从而在进行重复账号识别时提高系统的运算速度，节省了计算时间。在本优选的实施例中，对于具体训练过程，可以参考实施例3中的关于表1-表4的计算过程。

优选地，根据所得到的相似度来判断所述第一账号与所述第二账号是否为重复账号的步骤包括：判断所述第一账号的特征信息与所述第二账号的特征信息之间的相似度是否大于预定阈值；若所述第一账号的特征信息与所述第二账号的特征信息之间的相似度大于所述预定阈值，则判断出所述第一账号与所述第二账号为重复账号。

优选的，可以由但不限于第一获取模块2021通过以下方法获取第一账号和第二账号的基本信息特征：获取第一账号和第二账号的基本信息；对所述第一账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第一账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第一账号的基本信息特征；对所述第二账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第二账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第二账号的基本信息特征。

优选地，可以但不限于由图1中的处理单元102或图2中的第二获取模块2022通过以下方法获取第一账号和第二账号所发布产品的产品信息特征：获取第一账号和第二账号的产品信息；对所述第一账号的产品信息进行切词和词性标注，根据标注的词性对由所述第一账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第一账号所发布产品的产品信息特征；对所述第二账号的产品信息进行切词和词性标注，根据标注的词性对由所述第二账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第二账号所发布产品的产品信息特征。在本申请的优选实施例中，通过上述步骤，可以获取有用的特征信息，使得相似度的判断更为准确。

优选地，可以但不限于由图1中的处理单元102或图2中的第三获取模块2023通过以下方法获取第一账号和第二账号的行为信息特征：获取第一账号和第二账号登录网站时所使用的标识信息(Cookie ID)，将获取到的第一账号的Cookie ID作为第一账号的行为信息特征，将获取到的第二账号的Cookie ID作为第二账号的行为信息特征。在本申请的优选实施例中，通过上述步骤，可以获取有用的特征信息，使得相似度的判断更为准确。

优选地，在判断出第一账号与第二账号为重复账号之后，上述重复账号自动识别方法还包括：可以但不限于由图1中的通信单元106或图2中的通信单元208向用户发送指示信息，其中，指示信息用于指示第一账号与第二账号为重复账号。在本申请的优选实施例中，通过上述通知方式，使得用户可以对账号进行灵活地管理，提高了用户的体验度。

实施例3

基于图1和图2所示的重复账号自动识别系统，本申请还提供了另一种重复账号自动识别方法，如图4所示，本实施例中的重复账号自动识别方法包括：

S402-S406，获取账号基本信息、用户历史行为信息、产品信息等(可以称此阶段为信息的收集以及处理阶段)。优选的，可以但不限于由图1中的处理单元102或图2中的获取单元202来执行S402-S406的步骤

优选的，账号的基本信息包括但不限于：公司名称、简介、联系方式、地理位置等基本信息。

优选的，通过提取账号所发的offer信息来获取该账号对应的产品信息。

优选的，通过获取账号登陆网站时所使用的Cookie ID来获取该账号的用户历史行为信息。

S408-S414，从账号基本信息中提取该账号的基本信息特征，从用户历史行为信息中提取该账号的行为信息特征，从产品信息中提取该账号所发布的产品信息特征(可以称此阶段为信息的特征化阶段)。优选的，可以但不限于由图1中的处理单元102或图2中的计算单元204来执行S408-S414。

优选的，在收集到上述基本信息之后，然后通过文本处理方法，进行切词和词性标注，形成所需的基本信息特征。

优选的，对所述产品信息进行切词和词性标注，并对词性标注后的信息进行统计，得到产品信息特征。

优选的，将获取到的账号的Cookie ID作为该账号的行为信息特征。这样，通过分析用户的历史行为，分析账号之间的联系，从而得到该账号的行为信息特征。

S416，通过机器学习的办法自动识别为是否重复，根据机器学习的结果，可以将所有重复的账号识别出来。优选的，可以但不限于由图1中的处理单元102或图2中的计算单元204和判断单元206来执行S416。

优选地，结合特征化得到的三方面特征，从多个维度描述了账号，下面就是计算对应特征间的相似度。具体方法分别如下：

1)通过余弦夹角的办法计算基本信息特征间的相似性，然后通过机器学习的方法拟合这些相似值，得到最终基本信息特征之间的相似度。

具体地，在对基本信息进行特征化之后，可以得到一组基本信息特征序列，其包含：特征的id以及该id对应的权重，其中，权重根据id出现的频率以及id的词性来计算得到的。然后，对于特征序列，利用余弦夹角的算法，可以计算出最终的各基本信息特征的一个相似度。拟合各个基本信息特征的相似度，就可以得到最终的基本信息特征之间的相似度。具体操作可以参考后续表1-4描述的实施例。

2)统计二账号相同产品占该账号所发产品的占比，计算相同产品部分产品分布的相似性，产品分布相似性和产品占比的乘积，得到产品信息特征之间的相似度。

优选地，产品信息特征之间的相似性也可以利用了余弦夹角的算法来计算。具体地，首先获取每种产品的id，对应该产品的数量占比表示该id的权重，其中，数量占比通过统计的办法得到。使用包括产品id以及id权重的信息来组成产品信息特征序列，然后利用余弦夹角的算法来计算相似性。具体操作可以参考后续表1-4描述的实施例。

3)利用历史行为信息和联系方式等信息，可以得到多个账号间是否关联，得到多个账号间的行为信息特征之间的相似度。

本申请在获取上述三个相似度之后，采用SVM(Support Vector Machines，支持向量机)识别模型进行特征拟合，得到两个账号之间的相似度。举例来说，首先抽取一部分的账号，两两进行标注，对这部分账号提取如上的三方面特征，并接收用户输入的标注信息，学习出重复账号的SVM识别模型。在进行分类的时候，输入二个账号的三个特征，SVM识别模型会给出一个相似值，表示这二个账号的重复程度，高于一定阀值的被认定为重复。通过类首向量聚类方法，可以对所有的账号做下分类，得到最终的结果，该结果可以供各条产品线使用。当然，本申请不仅限于用SVM识别模型来进行特征识别，还可以用其他的识别模型来实现本申请。

本申请优选的实施例通过识别同一家公司或者个人注册的重复账号，方便用户和平台对多个账号进行管理。在识别出重复账号后，网站平台会通知用户，明确告诉用户的重复账号，提醒用户去修改和管理，同时接受用户的反馈。更进一步，如果反馈指示对上述重复账号进行合并，但合并的指示并不正确，网站平台会通过预定的程序对该合并指示进行修正，以便更好地执行用户所指示的合并命令。

基于上述各个实施例描述的重复账号自动识别方法和系统，下面描述具体的重复账号自动识别示例。

假设有4家公司，具体信息分别如下表1-4所示：

表1

表2

表3

表4

针对上述4个账号，通过上述方法获取4个账号的基本信息特征、行为信息特征和产品信息特征，然后，根据上述三方面的特征，通过SVM识别模型来计算出两两账号之间的相似度。在上述过程中，可以接收用户输入的标注信息，例如，用户输入的账号A、B、C、D的相似关系，具体如下，A B 1；A C 1；A D 0；B D 0；C D 1(其中，0表示非重复，1表示重复)。在SVM训练前，先分别提取A、B、C、D四个账号的特征信息。

以下以账户A为例，描述基本信息特征化的过程。

1)对于账号的基本信息特征而言，首先，对每个账号的基本信息进行切词和词性标注，并赋予权重。以公司名称为例，账号A的公司名称“杭州市佳华科技有限公司”切词后的结果为：杭州市、佳华、科技、有限、公司；词性标注为杭州市(区划)、佳华(核心机构名)、科技(行业)、有限(普通词)、公司(普通)。然后，根据词性等因素，赋予每个词权重(该权重信息可以由用户预先输入得到)，假设结果为：杭州市＝1.95、佳华＝3.1、科技＝0.8、有限＝0.4、公司＝0.2。同理可以特征化基本信息的其他维度，例如，公司介绍，联系方式等。另外，对于该账号所发布产品的产品信息特征而言，通过如上的文本技术，可以提取A的产品为：手机、MP3、数码相机等，统计出来的占比分别为：40％，35％，25％。通过上述统计，得到产品信息特征为：手机＝0.4、MP3＝0.35、数码相机＝0.25。此外，该账号的行为信息特征包括：该账号的userid、常用cookieid等。

2)在特征化之后，计算二个账号间的对应特征的相似性。以下账号A和账号B(相似关系为AB 1)为例，描述利用余弦夹角的算法计算账号A和B之间的公司名称的相似度。具体地，特征化后得到的A的公司名称特征为：杭州市＝1.95、佳华＝3.1、科技＝0.8、有限＝0.4、公司＝0.2；B的公司名称特征为：杭州市＝1.95、佳华＝3.1、科技＝0.8、有限＝0.4、公司＝0.2、销售部＝0.6。

这里，以公司名称为例来描述余弦夹角的计算方法。由上可知，账号A和B的公司名称中相同的特征为：杭州市＝1.95，佳华＝3.1，科技＝0.8，有限＝0.4，公司＝0.2。然后计算账号A与B的公司名称中相同特征的得分，其采用的公式为相同特征对应权重乘积的和，也就是dl＝1.95*1.95+3.1*3.1+0.8*0.8+0.4*0.4+0.2*0.2；然后，分别计算A、B特征的得分，采用的公式为所有特征的权重乘积之和，da＝1.95*1.95+3.1*3.1+0.8*0.8+0.4*0.4+0.2*0.2，db＝1.95*1.95+3.1*3.1+0.8*0.8+0.4*0.4+0.2*0.2+0.6*0.6。最终得分为df＝dl/(sqrt(da)*sqrt(db))，其中，sqrt(da)指的是da的开方。

通过余弦夹角的算法，可以得到上述A和B之间的公司名称的相似度为0.96。同理，可以通过相同的方法计算得到A和B之间的其他基本信息特征之间的相似度，其中，其他基本信息特征包括：公司介绍、联系方式等。最终，通过权重参数来拟合账号A和B之间的各个基本信息特征之间的相似度得到最终账号A和B的基本信息特征之间的相似度，在本实施例中，拟合的方法可以采用线性拟合方法，具体而言，假设公司名称c1的权重为0.55，公司介绍c2的权重为0.35，联系方式c3的权重为0.1，计算得到基本信息特征的相似度d为：d＝c1*0.55+c2*0.35+c3*0.1，例如，为0.948。进一步，如果联系方式相同，则两个账号的重复可能性较大，可以对上述的相似度d进行进一步处理，例如，最终基本信息特征的相似度d的得分为：d＝d*0.73+0.27。

同理，可以利用上述余弦夹角计算方法和上述拟合过程计算账号A和账号B其他对应特征的相似度，包括：产品信息特征之间的相似度和行为信息特征之间的相似度。最终，可以得到三个特征的相似度，例如，账号A和账号B的三个特征的相似度分别为0.948、0.87、0.95。

在计算完所有标注的特征间的相似度后，训练SVM模型。例如，相似关系AB 1对应的学习内容为(0.948、0.87、0.95、1)，即，(0.948、0.87、0.95)为训练SVM模型时的输入参数，1为训练SVM模型时所期望得到的输出值，通过上述的输入参数和输出值来调整SVM模型内部的参数，到达训练的目的。同理，可以根据相似关系A C 1、A D 0、B D 0和C D 1的学习内容来进一步训练SVM模型。训练所采用的参数越多，SVM模型内部的参数能被调整地越准确。

训练完SVM模型后，下面就对二个账号进行判断，举例来说，假设需要判断B和C二个账号是否重复，则按照上述方法可以先提取B C的三个特征信息，然后计算B C对应的特征相似度，比如为(0.927，0.865，0.94)。将这三个值给SVM模型，可以得到一个返回值，如为0.97，判断这个返回值是否大于设定的阀值，若大于，则账号B和C则被判为重复账号。

上面的只是示例，在实际的项目中，可以使用了大量的账号标注样本来学习的。

当然，通过对会员的信息进行简单的匹配、或者，人工的方式，也可以实现对多个账号的识别，不过识别效率很低，准确率和召回率都不高。

针对目前面临的技术挑战、优化资源分配以及提高搜索体验的需要，本申请开发了自动识别重复账号的模型，通过高准确率高召回率的自动识别技术，识别出同公司或者个人注册的多个重复账号，可以将识别的结果运用到各条产品线。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种重复账号自动识别方法，其特征在于，包括：

获取网站的服务器所保存的第一账号和第二账号的特征信息，其中，所述特征信息包括以下特征的组合：账号的基本信息特征、账号所发布产品的产品信息特征、以及账号的行为信息特征；

计算所述第一账号的特征信息中的特征的各个特征参数与所述第二账号的特征信息中对应的特征的各个特征参数之间的相似度；

根据预先分配的权重参数对所述各个特征参数之间的相似度进行拟合得到所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度；

根据所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度来判断所述第一账号与所述第二账号是否为重复账号；

其中，根据所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度来判断所述第一账号与所述第二账号是否为重复账号的步骤包括：将所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度作为预定识别模型的输入参数，通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度；根据所得到的相似度来判断所述第一账号与所述第二账号是否为重复账号；

在判断出所述第一账号与所述第二账号为重复账号之后，向用户发送指示信息，其中，所述指示信息用于指示第一账号与第二账号为重复账号。

2.根据权利要求1所述的方法，其特征在于，通过以下步骤计算所述第一账号的特征信息中的特征的第一特征参数与所述第二账号的特征信息中对应的特征的第二特征参数之间的相似度：

获取由对所述第一特征参数进行切词得到的第一组关键词A₁,A₂,…A_M以及获取由对所述第一组关键词进行词性标注并根据词性对所述第一组关键词中的每一个关键词进行权重分配得到的第一组权重W_A1,W_A2,…W_AM；

获取由对所述第二特征参数进行切词得到第二组关键词B₁,B₂,…B_N以及获取由对所述第二组关键词进行词性标注并根据词性对所述第二组关键词中的每一个关键词进行权重分配得到的第二组权重W_B1,W_B2,…W_BN；

选择所述第一组关键词和所述第二组关键词之间相同的关键词C₁,…C_H,H≥1以及对应的权重W_C1,…W_CH；

通过以下公式计算所述第一特征参数与所述第二特征参数之间的相似度df

其中，d1＝W_C1×W_C1+…W_CH×W_CH；

da＝W_A1×W_A1+…W_AM×W_AM；

db＝W_B1×W_B1+…W_BN×W_BN。

3.根据权利要求1所述的方法，其特征在于，通过以下步骤来对所述第一账号的第一特征的各个特征参数与所述第二账号对应的第二特征的各个特征参数之间的相似度进行拟合：

d＝c1×W_c1+c2×W_c2…+cq×W_cq,q≥1

c1,c2…cq为所述第一特征的各个特征参数与所述第二特征的各个特征参数之间的相似度；

W_c1,W_c2…W_cq为预先分配的权重。

4.根据权利要求1所述的方法，其特征在于，通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度的步骤包括：

通过预定数量的训练参数对所述预定识别模型进行训练，其中，每个所述训练参数包括：作为输入参数的两个账号各个特征之间的相似度，以及，作为输出参数的预先设置的所述两个账号之间的相似度；

将所述第一账号的特征信息中的每一个特征与所述第二账号的特征信息中对应的特征之间的相似度作为输入参数，通过经过训练之后的所述预定识别模型得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度。

5.根据权利要求1所述的方法，其特征在于，根据所得到的相似度来判断所述第一账号与所述第二账号是否为重复账号的步骤包括：

判断所述第一账号的特征信息与所述第二账号的特征信息之间的相似度是否大于预定阈值；

若所述第一账号的特征信息与所述第二账号的特征信息之间的相似度大于所述预定阈值，则判断出所述第一账号与所述第二账号为重复账号。

6.根据权利要求1至5中任一项所述的方法，其特征在于，通过以下方法获取所述第一账号和所述第二账号的基本信息特征：

获取所述第一账号和所述第二账号的基本信息；

对所述第一账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第一账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第一账号的基本信息特征；

对所述第二账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第二账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第二账号的基本信息特征。

7.根据权利要求1至5中任一项所述的方法，其特征在于，通过以下方法获取所述第一账号和所述第二账号所发布产品的产品信息特征：

获取所述第一账号和所述第二账号的产品信息；

对所述第一账号的产品信息进行切词和词性标注，根据标注的词性对由所述第一账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第一账号所发布产品的产品信息特征；

对所述第二账号的产品信息进行切词和词性标注，根据标注的词性对由所述第二账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第二账号所发布产品的产品信息特征。

8.根据权利要求1至5中任一项所述的方法，其特征在于，通过以下方法获取所述第一账号和所述第二账号的行为信息特征：

获取所述第一账号和所述第二账号登录所述网站时所使用的标识信息Cookie ID；

将获取到的所述第一账号的Cookie ID作为所述第一账号的行为信息特征，将获取到的所述第二账号的Cookie ID作为所述第二账号的行为信息特征。

9.一种重复账号自动识别系统，其特征在于，包括：

获取单元，用于获取网站的服务器所保存的第一账号和第二账号的特征信息，其中，所述特征信息包括以下特征的组合：账号的基本信息特征、账号所发布产品的产品信息特征、以及账号的行为信息特征；

计算单元，用于计算所述第一账号的特征信息中的特征的各个特征参数与所述第二账号的特征信息中对应的特征的各个特征参数之间的相似度，并根据预先分配的权重参数对所述各个特征参数之间的相似度进行拟合得到所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度；

判断单元，用于根据所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度来判断所述第一账号与所述第二账号是否为重复账号；

其中，所述判断单元包括：第三计算模块，用于将所述第一账号的各个特征与所述第二账号对应的各个特征之间的相似度作为预定识别模型的输入参数，通过所述预定识别模型计算得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度；判断模块，用于根据所得到的相似度来判断所述第一账号与所述第二账号是否为重复账号；

通信单元，用于在判断出第一账号与第二账号为重复账号之后，向用户发送指示信息，其中，指示信息用于指示第一账号与第二账号为重复账号。

10.根据权利要求9所述的系统，其特征在于，所述计算单元包括：

第一获取模块，用于获取由对第一特征参数进行切词得到的第一组关键词A₁,A₂,…A_M以及获取由对所述第一组关键词进行词性标注并根据词性对所述第一组关键词中的每一个关键词进行权重分配得到的第一组权重W_A1,W_A2,…W_AM，其中，所述第一特征参数为所述第一账号的特征信息中的特征的一个特征参数；

第二获取模块，用于获取由对第二特征参数进行切词得到第二组关键词B₁,B₂,…B_N以及获取由对所述第二组关键词进行词性标注并根据词性对所述第二组关键词中的每一个关键词进行权重分配得到的第二组权重W_B1,W_B2,…W_BN，其中，所述第二特征参数为所述第二账号的特征信息中的特征的一个特征参数；

选择模块，用于选择所述第一组关键词和所述第二组关键词之间相同的关键词C₁,…C_H,H≥1以及对应的权重W_C1,…W_CH；

第一计算模块，用于通过以下公式计算所述第一特征参数与所述第二特征参数之间的相似度df

其中，d1＝W_C1×W_C1+…W_CH×W_CH；

da＝W_A1×W_A1+…W_AM×W_AM；

db＝W_B1×W_B1+…W_BN×W_BN。

11.根据权利要求9所述的系统，其特征在于，所述计算单元还包括：第二计算模块，用于通过以下步骤来对所述第一账号的第一特征的各个特征参数与所述第二账号对应的第二特征的各个特征参数之间的相似度进行拟合：

d＝c1×W_c1+c2×W_c2…+cq×W_cq,q≥1

W_c1,W_c2…W_cq为预先分配的权重。

12.根据权利要求9所述的系统，其特征在于，所述第三计算模块包括：

训练子模块，用于通过预定数量的训练参数对所述预定识别模型进行训练，其中，每个所述训练参数包括：作为输入参数的两个账号各个特征之间的相似度，以及，作为输出参数的预先设置的所述两个账号之间的相似度；

计算子模块，用于将所述第一账号的特征信息中的每一个特征与所述第二账号的特征信息中对应的特征之间的相似度作为输入参数，通过经过训练之后的所述预定识别模型得到所述第一账号的特征信息与所述第二账号的特征信息之间的相似度。

13.根据权利要求9所述的系统，其特征在于，所述判断模块包括：

判断子模块，用于判断所述第一账号的特征信息与所述第二账号的特征信息之间的相似度是否大于预定阈值，并在所述第一账号的特征信息与所述第二账号的特征信息之间的相似度大于所述预定阈值时，判断出所述第一账号与所述第二账号为重复账号。

14.根据权利要求9至13中任一项所述的系统，其特征在于，所述获取单元包括以下至少之一：

第一获取模块，用于获取所述第一账号和所述第二账号的基本信息；对所述第一账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第一账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第一账号的基本信息特征；对所述第二账号的所述基本信息进行切词和词性标注，并根据标注的词性对由所述第二账号的所述基本信息切词得到的每一个关键词进行权重分配，以得到所述第二账号的基本信息特征；

第二获取模块，用于获取所述第一账号和所述第二账号的产品信息；对所述第一账号的产品信息进行切词和词性标注，根据标注的词性对由所述第一账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第一账号所发布产品的产品信息特征；对所述第二账号的产品信息进行切词和词性标注，根据标注的词性对由所述第二账号的所述产品信息切词得到的每一个关键词进行百分比统计，并将所述统计结果作为所述第二账号所发布产品的产品信息特征；或者

第三获取模块，用于获取所述第一账号和所述第二账号登录所述网站时所使用的标识信息Cookie ID，将获取到的所述第一账号的Cookie ID作为所述第一账号的行为信息特征，将获取到的所述第二账号的Cookie ID作为所述第二账号的行为信息特征。