CN107404408B - 一种虚拟身份关联识别方法及装置 - Google Patents
一种虚拟身份关联识别方法及装置 Download PDFInfo
- Publication number
- CN107404408B CN107404408B CN201710765304.0A CN201710765304A CN107404408B CN 107404408 B CN107404408 B CN 107404408B CN 201710765304 A CN201710765304 A CN 201710765304A CN 107404408 B CN107404408 B CN 107404408B
- Authority
- CN
- China
- Prior art keywords
- account
- accounts
- similarity
- sequence
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000004364 calculation method Methods 0.000 claims abstract description 81
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 10
- 238000005094 computer simulation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims 2
- 238000003066 decision tree Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004091 panning Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明实施例提供了一种虚拟身份关联识别方法及装置,上述方法包括:获取预先存储的各账号对应的访问信息和各账号的账号类型,其中,账号的访问信息包括登录账号的终端的地理位置和账号为登录状态时终端处于上述地理位置的时间段中的至少一项;根据各账号对应的访问信息和预先构建的关联参数的计算模型,计算各账号之间的关联参数的参数值;根据计算出的关联参数的参数值、账号类型和预设的关联关系识别算法,确定各账号之间的关联关系。应用本发明实施例提供的方案进行虚拟身份关联识别,可以识别出不同类型的服务平台的账号之间的关联关系。
Description
技术领域
本发明涉及身份识别技术领域,特别是涉及一种虚拟身份关联识别方法及装置。
背景技术
互联网技术的发展使用户的网上行为变得丰富多彩,如今互联网已经成为为用户提供社交类(QQ、新浪微博)、音乐类(酷狗音乐,QQ音乐)、购物类(天猫,京东)等不同类型的服务的公共平台。用户通常会在各服务平台上分别注册账号,这些账号也即用户在该服务平台上的虚拟身份。对于同一用户的不同账号,可以称账号之间存在关联。识别同一用户的多个账号(即确定不同账号之间的关联),能够帮助服务提供商了解同一用户在不同服务平台上的用户行为,也能够帮助用户保持和不同社交网络的朋友间的及时互动,还可以实现跨平台挖掘和传递用户的兴趣。
现有账号关联识别技术,检测到不同的账号在同一时间段内访问网络使用了同一IP地址时,则确定这些账号属于同一用户;或是利用账号的可识别信息(手机号、邮箱、身份证号等)的一致性,确定不同的账号属于同一用户;还可以通过用户使用账号时发布内容所反映的用户见闻、兴趣、偏好以及写作风格、用词习惯等个性化信息的相似情况,来识别不同的账号是否属于同一用户。
然而,由于用户使用账号发起新的网络连接时,其使用的IP地址会被重新动态分配,导致获取到的IP地址会频繁变化;由于在服务平台中,账号的可识别信息的覆盖率较低,以可识别信息进行识别存在信息获取困难的问题;由于不同类型的服务平台包含的账号的个性化信息侧重点不同,以个性化信息无法识别出同一用户属于不同类型的服务平台的账号。综上,现有账号关联识别技术无法识别出不同类型的服务平台的账号之间的关联关系。
发明内容
本发明实施例的目的在于提供一种虚拟身份关联识别方法及装置,可以识别出不同类型的服务平台的账号之间的关联关系。具体技术方案如下:
第一方面,为了达到上述目的,本发明实施例公开了一种虚拟身份关联识别方法,所述方法包括:
获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系。
可选的,所述计算模型的构建过程包括以下步骤中的至少一项:
构建位置序列的相似性的计算模型,其中,每一账号的位置序列包含登录该账号的终端的地理位置和该账号为登录状态时所述终端处于所述地理位置的时间段,所述位置序列的相似性为每两个账号的位置序列的相似程度;
构建位置序列的相异性的计算模型,其中,所述位置序列的相异性为第一数目与每两个账号的位置序列中共同包含的时间段的第二数目的比值,所述第一数目是所述共同包含的时间段中,在该两个位置序列中对应的地理位置集合的交集为空的时间段的个数;
构建出行距离差值的计算模型,其中,每一账号的出行距离为登录该账号的终端位置移动的累计长度;所述出行距离差值为每两个账号的出行距离的差的绝对值;
构建回转半径差值的计算模型,其中,每一账号的回转半径为该账号的位置序列中各地理位置与各地理位置的中心的距离的平均值;所述回转半径差值为每两个账号的回转半径的差的绝对值;
构建位置数序列的相似性的计算模型,其中,每一账号的位置数序列为登录该账号的终端在预设的统计周期内的地理位置的个数构成的序列;所述位置数序列的相似性为每两个账号的位置数序列的相似程度;
构建重要位置序列的相似性的计算模型,其中,每一账号的重要位置序列为该账号的位置序列中出现次数大于预设阈值的地理位置构成的序列;所述重要位置序列的相似性为每两个账号的重要位置序列的相似程度;
构建频繁项集合的相似性的计算模型,其中,每一账号的频繁项集合为该账号的位置序列的频繁项集合;所述频繁项集合的相似性为每两个账号的频繁项集合的相似程度。
可选的,所述获取预先存储的各账号对应的访问信息,包括:
获取预先存储的第一时间段内的各账号对应的访问信息;
所述根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值,包括:
根据不同类型的时段的划分规则,对所述第一时间段进行划分,得到所述各类型的时段集合,所述时段集合中包含划分出的至少一个子时间段;
根据所述各时段集合包含的子时间段,分别获取所述各时段集合对应的访问信息;
根据所述计算模型、所述第一时间段内各账号对应的访问信息和所述各时段集合对应的访问信息,计算所述各账号之间的关联参数的参数值。
可选的,所述根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系,包括:
将计算出的关联参数的参数值输入至预设的分类模型,输出所述各账号之间的准关联关系;
根据所述准关联关系,确定每一所述账号的准关联账号,判断每一所述账号的准关联账号中是否存在多个账号类型相同的账号;
如果是,基于计算获得的关联参数的值,分别计算该账号与账号类型相同的每个准关联账号之间的关联度,将对应的关联度最大的准关联账号作为该账号的关联账号;
如果否,将所述准关联账号作为该账号的关联账号。
可选的,在所述确定所述各账号之间的关联关系之后,所述方法还包括:
建立存在关联关系的账号与用户标识的对应关系。
第二方面,为了达到上述目的,本发明实施例公开了一种虚拟身份关联识别装置,所述装置包括:
信息获取模块,用于获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
参数值计算模块,用于根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
关联关系确定模块,用于根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系。
可选的,所述计算模型的构建过程包括以下步骤中的至少一项:
构建位置序列的相似性的计算模型,其中,每一账号的位置序列包含登录该账号的终端的地理位置和该账号为登录状态时所述终端处于所述地理位置的时间段,所述位置序列的相似性为每两个账号的位置序列的相似程度;
构建位置序列的相异性的计算模型,其中,所述位置序列的相异性为第一数目与每两个账号的位置序列中共同包含的时间段的第二数目的比值,所述第一数目是所述共同包含的时间段中,在该两个位置序列中对应的地理位置集合的交集为空的时间段的个数;
构建出行距离差值的计算模型,其中,每一账号的出行距离为登录该账号的终端位置移动的累计长度;所述出行距离差值为每两个账号的出行距离的差的绝对值;
构建回转半径差值的计算模型,其中,每一账号的回转半径为该账号的位置序列中各地理位置与各地理位置的中心的距离的平均值;所述回转半径差值为每两个账号的回转半径的差的绝对值;
构建位置数序列的相似性的计算模型,其中,每一账号的位置数序列为登录该账号的终端在预设的统计周期内的地理位置的个数构成的序列;所述位置数序列的相似性为每两个账号的位置数序列的相似程度;
构建重要位置序列的相似性的计算模型,其中,每一账号的重要位置序列为该账号的位置序列中出现次数大于预设阈值的地理位置构成的序列;所述重要位置序列的相似性为每两个账号的重要位置序列的相似程度;
构建频繁项集合的相似性的计算模型,其中,每一账号的频繁项集合为该账号的位置序列的频繁项集合;所述频繁项集合的相似性为每两个账号的频繁项集合的相似程度。
可选的,所述信息获取模块,具体用于获取预先存储的第一时间段内的各账号对应的访问信息;
所述参数值计算模块,具体用于根据不同类型的时段的划分规则,对所述第一时间段进行划分,得到所述各类型的时段集合,所述时段集合中包含划分出的至少一个子时间段;
根据所述各时段集合包含的子时间段,分别获取所述各时段集合对应的访问信息;
根据所述计算模型、所述第一时间段内各账号对应的访问信息和所述各时段集合对应的访问信息,计算所述各账号之间的关联参数的参数值。
可选的,所述关联关系确定模块,具体用于将计算出的关联参数的参数值输入至预设的分类模型,输出所述各账号之间的准关联关系;
根据所述准关联关系,确定每一所述账号的准关联账号,判断每一所述账号的准关联账号中是否存在多个账号类型相同的账号;
如果是,基于计算获得的关联参数的值,分别计算该账号与账号类型相同的每个准关联账号之间的关联度,将对应的关联度最大的准关联账号作为该账号的关联账号;
如果否,将所述准关联账号作为该账号的关联账号。
可选的,所述装置还包括:
关系建立模块,用于建立存在关联关系的账号与用户标识的对应关系。
在本发明实施的又一方面,还提供了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的虚拟身份关联识别方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的虚拟身份关联识别方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的虚拟身份关联识别方法。
本发明实施例提供的方案中,可以基于预先构建的关联参数的计算模型和各账号的访问信息,计算获得各关联参数的参数值;利用关联参数的参数值、各账号的账号类型和预设的关联关系识别算法,确定各账号之间的关联关系。关联参数基于登录账号的终端的地理位置获得。对于各服务平台,都能够方便且准确地获取终端的地理位置。因此,本发明的虚拟身份关联识别方法可以识别出不同类型的服务平台的账号之间的关联关系。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的账号关联识别方法的第一种流程示意图;
图2为本发明实施例提供的计算关联参数的参数值的一种流程示意图;
图3为本发明实施例提供的确定各账号之间的关联关系的一种流程示意图;
图4为本发明实施例提供的账号关联识别方法的第二种流程示意图;
图5为本发明实施例提供的账号关联识别装置的一种结构示意图;
图6为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着网络的快速发展,出现了可以为用户提供购物、看电影、听音乐、阅读等众多不同类型的服务的公共平台。同一用户往往会在不同的服务平台注册账号(即用户的虚拟身份),例如,用户使用注册的QQ账号与朋友聊天、使用注册的淘宝账号网上购物,或是使用注册的网易云音乐账号在线听歌等。然而,由于不同的服务平台相互独立,同一用户在不同服务平台的多个账号之间没有直接的联系,也就无法直接获得该用户在网络上的完整用户行为。识别同一用户属于不同服务平台的多个账号,可以整合该用户在不同服务平台中的用户行为,进而能够帮助用户保持和不同社交网络的朋友间的及时交流与互动,还可实现跨平台挖掘和传递用户的兴趣,全面深入地描述该用户的特征。
现有的账号关联识别技术通常基于账号访问网络时的IP(Internet Protocol,网络协议)地址,对账号进行关联识别。例如,不同的账号在同一时间段内访问网络时使用了同一IP地址,则确定这些账号属于同一用户。还可以利用账号的可识别信息(手机号、邮箱、身份证号等)的一致性,确定不同的账号属于同一用户。也可以利用用户使用账号时的用户行为内容进行识别,即通过账号发布内容所反映的用户见闻、兴趣、偏好以及写作风格、用词习惯等个性化信息的相似情况,来确定不同的账号是否属于同一用户。
然而,现有的账号关联识别技术,对于IP地址存在获取不稳定的问题,对于账号的可识别信息存在获取困难的问题,以个性化信息无法识别出同一用户属于不同类型的服务平台的账号,导致现有的账号关联识别技术无法识别出不同类型的服务平台的账号之间的关联关系。
基于上述考虑,本发明提供了一种账号关联识别方法,该方法可以应用于对账号关联进行识别的设备上(以下统称为识别设备),该方法的执行主体可以是终端,也可以是服务器。该识别设备可以与不同服务平台的服务器建立数据连接。在进行账号关联识别时,识别设备基于登录账号的终端的地理位置确定账号之间的关联关系。而对于各服务平台,都能够方便且准确地获取登录账号的终端的地理位置。因此,基于登录账号的终端的地理位置确定账号之间的关联关系的方法,可以识别出不同类型的服务平台的账号之间的关联关系。
参见图1,图1为本发明实施例提供的账号关联识别方法的第一种流程示意图,包括:
S101:获取预先存储的各账号对应的访问信息和各账号的账号类型。
其中,账号的访问信息包括登录该账号的终端的地理位置和该账号为登录状态时终端处于该地理位置的时间段中的至少一项。
当用户使用终端登录某账号访问该账号对应的服务平台时,终端会发送数据报文至该服务平台的服务器。数据报文中可以包含时间戳、URI(Uniform ResourceIdentifier,统一资源标识符)、Cookie等信息,其中,时间戳表示该数据报文的发送时间,URI包含了该账号访问服务平台时登录该账号的终端的地理位置,Cookie包含了该账号的账号类型和账号名称。不同服务平台的账号的账号类型各不相同,而同一服务平台也可以包含不同的账号类型,例如,一个京东账号的账号类型可以是京东邮箱,也可以是京东昵称,还可以是京东手机号等。
本实施例中,上述识别设备可以获取不同服务平台的服务器接收到的数据报文,提取获得访问这些服务平台的账号对应的访问信息(包括账号访问服务平台的时间和账号访问服务平台时登录账号的终端的地理位置)和账号类型。其中,地理位置可以用终端所处位置的经纬度表示。
可选的,可以采集某一时间段(即第一时间段)内的各账号对应的访问信息,以便进行账号关联识别。相应的,S101可以包括:获取预先存储的第一时间段内的各账号对应的访问信息。
其中,第一时间段可以为连续的一段时间,也可以包含多个非连续的子时间段。以第一时间段包含多个子时间段为例,上述识别设备可以分别获取各子时间段内不同服务平台的服务器接收到的数据报文,然后可以对接收到的数据报文进行解析,获取每个报文中携带的时间戳(即账号访问上述服务平台的时间)和地理位置。识别设备可以统计获取到的地理位置,进而根据每个地理位置对应的时间戳和预设的时间窗,确定每个地理位置的时间戳所属的时间窗,得到地理位置对应的时间窗(即时间段),该时间段即为该账号为登录状态时终端处于该地理位置的时间段。
示例性的,上述识别设备可以获取服务平台的服务器分别在周一10点、14点、16点和周二11点、15点和17点接收到的账号A的数据报文,对数据报文进行解析,得到登录账号A的终端周一10点的地理位置为C1,周一14的地理位置为C2,周一16点的地理位置为C2;周二11点的地理位置为C3,周二15点的地理位置为C4,周二17点的地理位置为C2。以每两小时为时间段,可以确定地理位置C1对应的为周一10点至周一12点时间段,地理位置C2对应的是周一14至周一16和周二16至周二18两个时间段,地理位置C3对应的是周二10点至周二12点时间段,地理位置C4对应的是周二14点至16点时间段。
S102:根据各账号对应的访问信息和预先构建的关联参数的计算模型,计算各账号之间的关联参数的参数值。
上述识别设备可以将各账号对应的访问信息输入至关联参数的计算模型中,得到关联参数的参数值,利用参数值确定各账号之间的关联关系。关联参数可以包括位置序列的相似性、位置序列的相异性、出行距离差值、回转半径差值、位置数序列的相似性、重要位置序列的相似性和频繁项集合的相似性中的至少一项。
其中,计算模型的构建过程包括以下步骤中的至少一项:
(1)构建位置序列的相似性的计算模型。
其中,每一账号的位置序列包含登录该账号的终端的地理位置和该账号为登录状态时终端处于上述地理位置的时间段,位置序列的相似性为每两个账号的位置序列的相似程度。
一种实现方式中,一个账号在使用过程中的时域位置信息可以用该账号访问服务平台时登录该账号的终端的地理位置和访问服务平台的时间的二元组表示。具体的,可以将访问时间映射到时长为1小时,步长为0.5小时的时间窗内。因此,上述表示地理位置和访问时间的二元组可以表示为(tim,loc),tim对应上述账号为登录状态时终端处于地理位置的时间段,loc对应上述登录账号的终端的地理位置。将(tim,loc)记作Addr,表示使用该账号时的一个时域位置信息。登录一个账号的终端如果长期停留在同一地理位置,则该地理位置对应多个时间窗;而如果登录账号的终端在一时间窗内的地理位置发生多次变化,则该时间窗对应多个地理位置。
在预设观察时间内,一个账号的时域位置信息会有一个或者一个以上。其中,预设观察时间可以是上述第一时间段,也可以是上述第一时间段中的至少一个子时间段。在预设观察时间内,针对一个账号,可以获得该账号的一个位置序列:
LocSeq=(Addr1,Addr2,……,Addrn) (1)
其中,LocSeq表示在预设观察时间内该账号的位置序列,n表示该账号的位置序列包含的时域位置信息的数目,Addrn表示在预设观察时间内,该账号的第n个时域位置信息。
可以计算每两个账号的位置序列的Jaccard相似性,用计算出的Jaccard相似性表示位置序列的相似性ρlocseq。当然,其他计算两个集合相似程度的方法,均属于本发明实施例的保护范围内,在此不一一赘述。
(2)构建位置序列的相异性的计算模型。
其中,所述位置序列的相异性为第一数目与每两个账号的位置序列中共同包含的时间段的第二数目的比值,所述第一数目是所述共同包含的时间段中,在该两个位置序列中对应的地理位置集合的交集为空的时间段的个数。
具体的,位置序列的相异性可以用公式(2)表示。
其中,locSeq1和locSeq2分别表示两个账号的位置序列,dissimlocseq表示位置序列locSeq1和位置序列locSeq2的相异性,Tco-window表示位置序列locSeq1和位置序列locSeq2包含的相同的时间窗组成的序列;Tdiff表示位置序列locSeq1和位置序列locSeq2包含的相同的时间窗中,对应的地理位置集合的交集为空的时间窗组成的序列;|Tdiff(locSeq1,locSeq2)|表示序列Tdiff中时间窗的个数,|Tco-window(locSeq1,locSeq2)|表示序列Tco-window中时间窗的个数。
示例性的,locSeq1={(tim1,loc1),(tim1,loc2),(tim2,loc1)},locSeq2={(tim1,loc1),(tim1,loc3),(tim2,loc3)}。
可以看出,位置序列locSeq1和位置序列locSeq1具有相同的时间窗为tim1和tim2,即Tco-window=(tim1,tim2)。在位置序列locSeq1中tim1对应的地理位置为loc1和loc2,在位置序列locSeq2中tim1对应的地理位置为loc1和loc3,tim1在位置序列locSeq1和位置序列locSeq2中对应有相同的地理位置loc1;在位置序列locSeq1中tim2对应的地理位置有loc1,在位置序列locSeq2中tim2对应的地理位置有loc3,tim2在位置序列locSeq1和位置序列locSeq2中对应的地理位置集合的交集为空。因此,Tdiff=(tim2),
(3)构建出行距离差值的计算模型。
其中,每一账号的出行距离为登录该账号的终端位置移动的累计长度;出行距离差值为每两个账号的出行距离的差的绝对值。
一种实现方式中,出行距离可以用公式(3)表示。
其中,d表示账号的出行距离,locj表示该账号的位置序列中第j个时域位置信息包含的地理位置,n表示该账号的位置序列包含的时域位置信息的数目。
出行距离差值可以用公式(4)表示。
D=|d1-d2| (4)
其中,d1和d2分别表示两账号的出行距离,D表示出行距离d1和出行距离d2的差的绝对值。
(4)构建回转半径差值的计算模型。
其中,每一账号的回转半径为该账号的位置序列中各地理位置与各地理位置的中心的距离的平均值;回转半径差值为每两个账号的回转半径的差的绝对值。
一种实现方式中,回转半径可以用公式(5)表示。
其中,r表示账号的回转半径,loci表示该账号的位置序列中第i个时域位置信息包含的地理位置,n表示该账号的位置序列包含的时域位置信息的数目。
回转半径差值可以用公式(6)表示。
R=|r1-r2| (6)
其中,r1和r2分别表示两账号的回转半径,R表示回转半径r1和回转半径r2的差的绝对值。
(5)构建位置数序列的相似性的计算模型。
其中,每一账号的位置数序列为登录该账号的终端在预设的统计周期内的地理位置的个数构成的序列;位置数序列的相似性为每两个账号的位置数序列的相似程度。
一种实现方式中,位置数序列可以用公式(7)表示。
S(t)={n1,n2,...nt,nt+1...} (7)
其中,S(t)表示账号的位置数序列,nt表示在[t-1,t)时间段内登录该账号的终端的不同地理位置的个数。
可以计算每两个账号的位置数序列的Jaccard相似性,用计算出的Jaccard相似性表示位置数序列的相似性ρs(t)。当然,其他计算两个集合相似程度的方法,均属于本发明实施例的保护范围内,在此不一一赘述。
(6)构建重要位置序列的相似性的计算模型。
其中,每一账号的重要位置序列为该账号的位置序列中出现次数大于预设阈值的地理位置构成的序列;重要位置序列的相似性为每两个账号的重要位置序列的相似程度。
重要位置序列可以用公式(8)表示。
Places={loc1,loc2,...lock} (8)
其中,lock表示在预设观察时间内,登录该账号的终端的第k个重要地理位置。
一种实现方式中,可以对账号的位置序列中的地理位置进行聚类分析,根据预设阈值确定k个地理位置,利用获得的k个地理位置组成该账号的重要位置序列。
其中,上述k的值可以取5,本发明对此并不做限定。
具体的,可以计算每两个账号的重要位置序列的Jaccard相似性,用计算出的Jaccard相似性表示重要位置序列的相似性ρPlaces。当然,其他计算两个集合相似程度的方法,均属于本发明实施例的保护范围内,在此不一一赘述。
(7)构建频繁项集合的相似性的计算模型。
其中,每一账号的频繁项集合为该账号的位置序列的频繁项集合;频繁项集合的相似性为每两个账号的频繁项集合的相似程度。
一种实现方式中,可以利用频繁项挖掘Apriori算法,计算账号的位置序列的频繁项集合,将计算出的位置序列的频繁项集合作为该账号的频繁项集合。
具体的,可以计算每两个账号的频繁项集合的Jaccard相似性,用计算出的Jaccard相似性表示频繁项集合的相似性ρfreq。当然,其他计算两个集合相似程度的方法,均属于本发明实施例的保护范围内,在此不一一赘述。
其中,可以获取预先存储的第一时间段内的各账号对应的访问信息和计算模型,获得各账号之间的关联参数的值。可选的,参见图2,S102的处理过程可以包括以下步骤:
S1021:根据不同类型的时段的划分规则,对第一时间段进行划分,得到各类型的时段集合,时段集合中包含划分出的至少一个子时间段。
在实施中,可以预先设置时段的类型,比如可以分为“工作时间”和“休息时间”,并可以针对每种类型,设置时段划分规则,其中,同一类型的时段可以包括多种划分方式。示例性的,第一时间段为周一至周日共七天时间。一种实现方式中,可以把七天时间划分为“工作时间”和“休息时间”。具体的,针对工作日(周一至周五)的每一天,将该天的早上8点到下午19点划分为“工作时间”,将该天的下午19点到次日早上8点划分为“休息时间”,将周末(周六和周日)全部划分为“休息时间”。
可以得到“工作时间”和“休息时间”两个类型的时段集合,其中,“工作时间”的时段集合包含周一至周五每天的早上8点到下午19点的子时间段,“休息时间”的时段集合包含周一至周五每天的下午19点到次日早上8点的子时间段以及周末子时间段。本发明仅以该划分方式进行说明,其他时段划分方式,均属于本发明实施例的保护范围内。
S1022:根据各时段集合包含的子时间段,分别获取各时段集合对应的访问信息。
示例性的,可以将步骤S1021得到的“工作时间”时段集合内的所有子时间段的访问信息合计为“工作时间”时段集合的访问信息,将“休息时间”时段集合内的所有子时间段的访问信息合计为“休息时间”时段集合的访问信息。
S1023:根据上述计算模型、第一时间段内各账号对应的访问信息和各时段集合对应的访问信息,计算各账号之间的关联参数的参数值。
一种实现方式中,可以分别获取“工作时间”时段集合对应的访问信息、“休息时间”时段集合对应的访问信息和第一时间段内各账号对应的访问信息,将获取的访问信息输入至关联参数的计算模型,计算得到“工作时间”时段集合的各关联参数的参数值、“休息时间”时段集合的各关联参数的参数值和第一时间段内的各关联参数的参数值。
由以上可见,通过对第一时间段进行划分,获得的不同时段集合对应的关联参数的参数值能够更全面地体现使用账号的用户的行为特征,进而利用不同时段集合对应的关联参数的参数值进行识别,能够提高账号关联识别的准确度。
S103:根据计算出的关联参数的参数值、账号类型和预设的关联关系识别算法,确定各账号之间的关联关系。
其中,预设的关联关系识别算法可以利用关联参数的参数值,计算出账号之间的准关联关系,然后利用账号类型对计算出的账号之间的准关联关系进行筛选,获得账号之间的关联关系。
可选的,参见图3,S103的处理过程可以包括以下步骤::
S1031:将计算出的关联参数的参数值输入至预设的分类模型,输出各账号之间的准关联关系。
其中,分类模型可以是决策树,也可以是SVM(Support Vector Machine,支持向量机)模型等其他分类模型。
决策树是一个预测模型,表示对象属性与对象值之间的一种映射关系。树中每个节点表示一个对象,而每个分叉路径则代表的一个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出。
决策树包括对关联参数的参数值进行判断的多个判断节点,其中,每个判断节点都对应一个关联参数。在一判断节点中,可以根据对应的关联参数的参数值的判断结果确定下一个判断节点。上述识别设备可以将计算出的两个账号的关联参数的参数值输入至决策树,经过决策树的第一个判断节点时,决策树根据对应的关联参数的参数值确定下一个判断节点,进而进入下一步的判断。以此类推,直到最后一个判断节点,决策树根据对应的关联参数的参数值输出判断结果,即确定该两个账号的准关联关系。其中,在将计算出的关联参数的参数值输入至预设的决策树之前,可以利用计算出的关联参数的参数值对账号进行初步筛选。以减小决策树的计算量,提高识别的效率。
一种实现方式中,可以利用以下规则进行筛选:
一、去除账号名称不规范的账号。例如,账号名称为不符合格式的手机号、邮箱的账号,以及账号名称为乱码的账号。
二、去除不活跃账号。例如,在一个月的观察时间内,获取到的一账号访问服务平台的时间窗个数小于预设第一数量,将该账号确定为不活跃账号。
三、去除第一时间段或“工作时间”时段集合或“休息时间”时段集合对应的位置序列的相似性为0的账号对。
四、去除第一时间段或“工作时间”时段集合或“休息时间”时段集合对应的位置序列的相异性大于0.5的账号对。
五、去除第一时间段或“工作时间”时段集合或“休息时间”时段集合对应的位置序列的相似性为0的账号对。
六、去除第一时间段或“工作时间”时段集合或“休息时间”时段集合对应的重要位置序列的相似性为0的账号对。
七、去除第一时间段或“工作时间”时段集合或“休息时间”时段集合对应的频繁项集合的相似性为0的账号对。
需要说明的是,本申请仅仅以上述筛选规则为例进行说明,实际筛选规则并不限于此。
将筛选后的账号的关联参数的参数值输入至决策树。
可以利用卡方统计评估方法,对“工作时间”时段集合对应的关联参数、“休息时间”时段集合对应的关联参数和第一时间段对应的关联参数进行筛选,获得用于构建决策树的关联参数。筛选获得的关联参数对应上述决策树的每个节点(对象),关联参数的参数值对应上述决策树的对象的属性值,根据决策树的输出可以确定两个账号是否相关联。
示例性的,可以设置决策树的输出为“0”或“1”,当决策树输出为“0”时,表示输入至决策树的关联参数的参数值对应的两个账号属于不同的用户,当决策树输出为“1”时,表示输入至决策树的关联参数的参数值对应的两个账号属于同一用户。
将决策树输出为“1”的关联参数的参数值对应的两个账号确定为准关联关系。
当然,利用其他分类模型进行分类的方法,均属于本发明实施例的保护范围,在此不一一赘述。
S1032:根据准关联关系,确定每一账号的准关联账号,判断每一账号的准关联账号中是否存在多个账号类型相同的账号,如果是,执行S1033,如果否,执行S1034。
S1033:基于计算获得的关联参数的值,分别计算该账号与账号类型相同的每个准关联账号之间的关联度,将对应的关联度最大的准关联账号作为该账号的关联账号。
S1034:将准关联账号作为该账号的关联账号。
利用分类模型得到的准关联关系中,存在一个账号同时与多个账号类型相同的账号准关联的情况。示例性的,得到微博账号A与淘宝账号B、淘宝账号C、淘宝账号D同时准关联,此时,可以确定与微博账号A属于同一用户的淘宝账号为与微博账号A关联度最大的淘宝账号。
一种实现方式中,两账号的关联度可以用公式(9)表示。
Score=ρlocseq(all)+ρlocseq(work)+ρlocseq(live) (9)
其中,Score表示两账号的关联度,ρlocseq(all)表示第一时间段的位置序列的相似性,ρlocseq(work)表示“工作时间”时段的位置序列的相似性,ρlocseq(live)表示“休息时间”时段的位置序列的相似性。
由以上可见,本发明实施例的账号关联识别方法可以确定出不同类型的服务平台的账号的一对一的关联,提高了账号关联识别的准确度。
在本发明的一个具体实施例中,参见图4,图4为本发明实施例提供的账号关联识别方法的第二种流程示意图,在确定各账号之间的关联关系(S103)之后,上述方法还包括:
S104:建立存在关联关系的账号与用户标识的对应关系。
具体的,针对每一账号,可以获得与该账号关联的账号,这些账号即属于同一用户,可以用预设的唯一的标识标记该账号和该账号的所有的关联账号,并存储这些账号之间的关联关系。
由以上可见,本发明实施例提供的账号关联识别方法,根据登录账号的终端的地理位置和计算模型,使用预设的关联关系识别算法,能够识别同一用户属于不同类型的服务平台的账号,实现了跨类型服务平台的账号关联识别。
与上述方法实施例相对应,参见图5,图5为本发明实施例提供的账号关联识别装置方法的一种结构示意图,包括:
信息获取模块501,用于获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
参数值计算模块502,用于根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
关联关系确定模块503,用于根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系。
在本发明的一个具体实施例中,所述计算模型的构建过程包括以下步骤中的至少一项:
构建位置序列的相似性的计算模型,其中,每一账号的位置序列包含登录该账号的终端的地理位置和该账号为登录状态时所述终端处于所述地理位置的时间段,所述位置序列的相似性为每两个账号的位置序列的相似程度;
构建位置序列的相异性的计算模型,其中,所述位置序列的相异性为第一数目与每两个账号的位置序列中共同包含的时间段的第二数目的比值,所述第一数目是所述共同包含的时间段中,在该两个位置序列中对应的地理位置集合的交集为空的时间段的个数;
构建出行距离差值的计算模型,其中,每一账号的出行距离为登录该账号的终端位置移动的累计长度;所述出行距离差值为每两个账号的出行距离的差的绝对值;
构建回转半径差值的计算模型,其中,每一账号的回转半径为该账号的位置序列中各地理位置与各地理位置的中心的距离的平均值;所述回转半径差值为每两个账号的回转半径的差的绝对值;
构建位置数序列的相似性的计算模型,其中,每一账号的位置数序列为登录该账号的终端在预设的统计周期内的地理位置的个数构成的序列;所述位置数序列的相似性为每两个账号的位置数序列的相似程度;
构建重要位置序列的相似性的计算模型,其中,每一账号的重要位置序列为该账号的位置序列中出现次数大于预设阈值的地理位置构成的序列;所述重要位置序列的相似性为每两个账号的重要位置序列的相似程度;
构建频繁项集合的相似性的计算模型,其中,每一账号的频繁项集合为该账号的位置序列的频繁项集合;所述频繁项集合的相似性为每两个账号的频繁项集合的相似程度。
在本发明的一个具体实施例中,所述信息获取模块501,具体用于获取预先存储的第一时间段内的各账号对应的访问信息;
所述参数值计算模块502,具体用于根据不同类型的时段的划分规则,对所述第一时间段进行划分,得到所述各类型的时段集合,所述时段集合中包含划分出的至少一个子时间段;
根据所述各时段集合包含的子时间段,分别获取所述各时段集合对应的访问信息;
根据所述计算模型、所述第一时间段内各账号对应的访问信息和所述各时段集合对应的访问信息,计算所述各账号之间的关联参数的参数值。
在本发明的一个具体实施例中,所述关联关系确定模块503,具体用于将计算出的关联参数的参数值输入至预设的分类模型,输出所述各账号之间的准关联关系;
根据所述准关联关系,确定每一所述账号的准关联账号,判断每一所述账号的准关联账号中是否存在多个账号类型相同的账号;
如果是,基于计算获得的关联参数的值,分别计算该账号与账号类型相同的每个准关联账号之间的关联度,将对应的关联度最大的准关联账号作为该账号的关联账号;
如果否,将所述准关联账号作为该账号的关联账号。
在本发明的一个具体实施例中,所述装置还包括:
关系建立模块,用于建立存在关联关系的账号与用户标识的对应关系。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现本发明实施例提供的虚拟身份关联识别方法。
具体的,上述虚拟身份关联识别方法,包括:
获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系。
需要说明的是,上述虚拟身份关联识别方法的其他实现方式与前述方法实施例部分相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的电子设备,在进行账号关联识别时,利用登录账号的终端的地理位置计算获得的关联参数的参数值确定账号之间的关联关系。对于各服务平台,都能够方便且准确地获取终端的地理位置。因此,可以识别出不同类型的服务平台的账号之间的关联关系。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行本发明实施例提供的虚拟身份关联识别方法。
具体的,上述虚拟身份关联识别方法,包括:
获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系。
需要说明的是,上述虚拟身份关联识别方法的其他实现方式与前述方法实施例部分相同,这里不再赘述。
通过运行本发明实施例提供的计算机可读存储介质中存储的指令,在进行账号关联识别时,利用登录账号的终端的地理位置计算获得的关联参数的参数值确定账号之间的关联关系。对于各服务平台,都能够方便且准确地获取终端的地理位置。因此,可以识别出不同类型的服务平台的账号之间的关联关系。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本发明实施例提供的虚拟身份关联识别方法。
具体的,上述虚拟身份关联识别方法,包括:
获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系。
需要说明的是,上述虚拟身份关联识别方法的其他实现方式与前述方法实施例部分相同,这里不再赘述。
通过运行本发明实施例提供的计算机程序产品,在进行账号关联识别时,利用登录账号的终端的地理位置计算获得的关联参数的参数值确定账号之间的关联关系。对于各服务平台,都能够方便且准确地获取终端的地理位置。因此,可以识别出不同类型的服务平台的账号之间的关联关系。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种虚拟身份关联识别方法,其特征在于,所述方法包括:
获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系;
所述获取预先存储的各账号对应的访问信息,包括:
获取预先存储的第一时间段内的各账号对应的访问信息;
所述根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值,包括:
根据不同类型的时段的划分规则,对所述第一时间段进行划分,得到所述各类型的时段集合,所述时段集合中包含划分出的至少一个子时间段;
根据所述各时段集合包含的子时间段,分别获取所述各时段集合对应的访问信息;
根据所述计算模型、所述第一时间段内各账号对应的访问信息和所述各时段集合对应的访问信息,计算所述各账号之间的关联参数的参数值。
2.根据权利要求1所述的方法,其特征在于,所述计算模型的构建过程包括以下步骤中的至少一项:
构建位置序列的相似性的计算模型,其中,每一账号的位置序列包含登录该账号的终端的地理位置和该账号为登录状态时所述终端处于所述地理位置的时间段,所述位置序列的相似性为每两个账号的位置序列的相似程度;
构建位置序列的相异性的计算模型,其中,所述位置序列的相异性为第一数目与每两个账号的位置序列中共同包含的时间段的第二数目的比值,所述第一数目是所述共同包含的时间段中,在该两个位置序列中对应的地理位置集合的交集为空的时间段的个数;
构建出行距离差值的计算模型,其中,每一账号的出行距离为登录该账号的终端位置移动的累计长度;所述出行距离差值为每两个账号的出行距离的差的绝对值;
构建回转半径差值的计算模型,其中,每一账号的回转半径为该账号的位置序列中各地理位置与各地理位置的中心的距离的平均值;所述回转半径差值为每两个账号的回转半径的差的绝对值;
构建位置数序列的相似性的计算模型,其中,每一账号的位置数序列为登录该账号的终端在预设的统计周期内的地理位置的个数构成的序列;所述位置数序列的相似性为每两个账号的位置数序列的相似程度;
构建重要位置序列的相似性的计算模型,其中,每一账号的重要位置序列为该账号的位置序列中出现次数大于预设阈值的地理位置构成的序列;所述重要位置序列的相似性为每两个账号的重要位置序列的相似程度;
构建频繁项集合的相似性的计算模型,其中,每一账号的频繁项集合为该账号的位置序列的频繁项集合;所述频繁项集合的相似性为每两个账号的频繁项集合的相似程度。
3.根据权利要求1所述的方法,其特征在于,所述根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系,包括:
将计算出的关联参数的参数值输入至预设的分类模型,输出所述各账号之间的准关联关系;
根据所述准关联关系,确定每一所述账号的准关联账号,判断每一所述账号的准关联账号中是否存在多个账号类型相同的账号;
如果是,基于计算获得的关联参数的值,分别计算该账号与账号类型相同的每个准关联账号之间的关联度,将对应的关联度最大的准关联账号作为该账号的关联账号;
如果否,将所述准关联账号作为该账号的关联账号。
4.根据权利要求3所述的方法,其特征在于,在所述确定所述各账号之间的关联关系之后,所述方法还包括:
建立存在关联关系的账号与用户标识的对应关系。
5.一种虚拟身份关联识别装置,其特征在于,所述装置包括:
信息获取模块,用于获取预先存储的各账号对应的访问信息和所述各账号的账号类型,其中,所述账号的访问信息包括登录所述账号的终端的地理位置和所述账号为登录状态时所述终端处于所述地理位置的时间段中的至少一项;
参数值计算模块,用于根据所述各账号对应的访问信息和预先构建的关联参数的计算模型,计算所述各账号之间的关联参数的参数值;
关联关系确定模块,用于根据计算出的关联参数的参数值、所述账号类型和预设的关联关系识别算法,确定所述各账号之间的关联关系;
所述信息获取模块,具体用于获取预先存储的第一时间段内的各账号对应的访问信息;
所述参数值计算模块,具体用于根据不同类型的时段的划分规则,对所述第一时间段进行划分,得到所述各类型的时段集合,所述时段集合中包含划分出的至少一个子时间段;
根据所述各时段集合包含的子时间段,分别获取所述各时段集合对应的访问信息;
根据所述计算模型、所述第一时间段内各账号对应的访问信息和所述各时段集合对应的访问信息,计算所述各账号之间的关联参数的参数值。
6.根据权利要求5所述的装置,其特征在于,所述计算模型的构建过程包括以下步骤中的至少一项:
构建位置序列的相似性的计算模型,其中,每一账号的位置序列包含登录该账号的终端的地理位置和该账号为登录状态时所述终端处于所述地理位置的时间段,所述位置序列的相似性为每两个账号的位置序列的相似程度;
构建位置序列的相异性的计算模型,其中,所述位置序列的相异性为第一数目与每两个账号的位置序列中共同包含的时间段的第二数目的比值,所述第一数目是所述共同包含的时间段中,在该两个位置序列中对应的地理位置集合的交集为空的时间段的个数;
构建出行距离差值的计算模型,其中,每一账号的出行距离为登录该账号的终端位置移动的累计长度;所述出行距离差值为每两个账号的出行距离的差的绝对值;
构建回转半径差值的计算模型,其中,每一账号的回转半径为该账号的位置序列中各地理位置与各地理位置的中心的距离的平均值;所述回转半径差值为每两个账号的回转半径的差的绝对值;
构建位置数序列的相似性的计算模型,其中,每一账号的位置数序列为登录该账号的终端在预设的统计周期内的地理位置的个数构成的序列;所述位置数序列的相似性为每两个账号的位置数序列的相似程度;
构建重要位置序列的相似性的计算模型,其中,每一账号的重要位置序列为该账号的位置序列中出现次数大于预设阈值的地理位置构成的序列;所述重要位置序列的相似性为每两个账号的重要位置序列的相似程度;
构建频繁项集合的相似性的计算模型,其中,每一账号的频繁项集合为该账号的位置序列的频繁项集合;所述频繁项集合的相似性为每两个账号的频繁项集合的相似程度。
7.根据权利要求5所述的装置,其特征在于,所述关联关系确定模块,具体用于将计算出的关联参数的参数值输入至预设的分类模型,输出所述各账号之间的准关联关系;
根据所述准关联关系,确定每一所述账号的准关联账号,判断每一所述账号的准关联账号中是否存在多个账号类型相同的账号;
如果是,基于计算获得的关联参数的值,分别计算该账号与账号类型相同的每个准关联账号之间的关联度,将对应的关联度最大的准关联账号作为该账号的关联账号;
如果否,将所述准关联账号作为该账号的关联账号。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
关系建立模块,用于建立存在关联关系的账号与用户标识的对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710765304.0A CN107404408B (zh) | 2017-08-30 | 2017-08-30 | 一种虚拟身份关联识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710765304.0A CN107404408B (zh) | 2017-08-30 | 2017-08-30 | 一种虚拟身份关联识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107404408A CN107404408A (zh) | 2017-11-28 |
CN107404408B true CN107404408B (zh) | 2020-05-22 |
Family
ID=60396960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710765304.0A Active CN107404408B (zh) | 2017-08-30 | 2017-08-30 | 一种虚拟身份关联识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107404408B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108173847A (zh) * | 2017-12-27 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 多账号用户追踪方法、装置、设备及计算机可读介质 |
CN108304482A (zh) * | 2017-12-29 | 2018-07-20 | 北京城市网邻信息技术有限公司 | 经纪人的识别方法及装置、电子设备和可读存储介质 |
CN110162956B (zh) * | 2018-03-12 | 2024-01-19 | 华东师范大学 | 确定关联账户的方法和装置 |
CN108764369B (zh) * | 2018-06-07 | 2021-10-22 | 深圳市公安局公交分局 | 基于数据融合的人物识别方法、装置和计算机存储介质 |
CN108880879B (zh) * | 2018-06-11 | 2021-11-23 | 北京五八信息技术有限公司 | 用户身份识别方法、装置、设备及计算机可读存储介质 |
CN108985954B (zh) * | 2018-07-02 | 2022-06-21 | 武汉斗鱼网络科技有限公司 | 一种建立各标识的关联关系的方法以及相关设备 |
CN109614420B (zh) * | 2018-12-06 | 2020-08-21 | 南京森根科技股份有限公司 | 一种基于大数据挖掘的虚拟身份关联分析方法 |
CN109635872B (zh) * | 2018-12-17 | 2020-08-04 | 上海观安信息技术股份有限公司 | 身份识别方法、电子设备及计算机程序产品 |
CN110287688B (zh) * | 2019-06-28 | 2020-11-24 | 京东数字科技控股有限公司 | 关联账号分析方法、装置和计算机可读存储介质 |
CN112784225A (zh) * | 2019-11-11 | 2021-05-11 | 任子行网络技术股份有限公司 | 虚拟人身份识别的方法、系统以及计算机可读存储介质 |
CN111177670B (zh) * | 2019-12-17 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 一种异源账号关联方法、装置、设备及存储介质 |
CN113779346B (zh) * | 2021-01-14 | 2025-03-21 | 北京沃东天骏信息技术有限公司 | 用于识别一人多账号的方法及装置 |
CN116091260B (zh) * | 2023-04-07 | 2023-07-25 | 吕梁学院 | 一种基于Hub-node节点的跨域实体身份关联方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725421B1 (en) * | 2006-07-26 | 2010-05-25 | Google Inc. | Duplicate account identification and scoring |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN106534164A (zh) * | 2016-12-05 | 2017-03-22 | 公安部第三研究所 | 计算机中基于网络空间用户标识的有效虚拟身份刻画方法 |
CN106934627A (zh) * | 2015-12-28 | 2017-07-07 | 中国移动通信集团公司 | 一种电商行业作弊行为的检测方法及装置 |
-
2017
- 2017-08-30 CN CN201710765304.0A patent/CN107404408B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725421B1 (en) * | 2006-07-26 | 2010-05-25 | Google Inc. | Duplicate account identification and scoring |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN106934627A (zh) * | 2015-12-28 | 2017-07-07 | 中国移动通信集团公司 | 一种电商行业作弊行为的检测方法及装置 |
CN106534164A (zh) * | 2016-12-05 | 2017-03-22 | 公安部第三研究所 | 计算机中基于网络空间用户标识的有效虚拟身份刻画方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107404408A (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107404408B (zh) | 一种虚拟身份关联识别方法及装置 | |
CN104281882B (zh) | 基于用户特征的预测社交网络信息流行度的方法及系统 | |
CN105247507B (zh) | 用于确定品牌的影响力得分的方法、系统和存储介质 | |
US10795916B2 (en) | Temporal clustering of social networking content | |
EP3092569B1 (en) | Cyber security adaptive analytics threat monitoring system and method | |
US8615605B2 (en) | Automatic identification of travel and non-travel network addresses | |
JP2020039137A (ja) | マルチテナント環境のためのネットワークフローログ | |
US20190065738A1 (en) | Detecting anomalous entities | |
CN110300084B (zh) | 基于ip地址的画像方法和装置,电子设备,可读介质 | |
US9621726B2 (en) | Computer-implemented system and method for detecting events for use in an automated call center environment | |
CN105657003B (zh) | 一种信息处理方法和服务器 | |
KR20200011443A (ko) | 사용자 디바이스 이벤트의 매칭 및 속성 | |
US10992972B1 (en) | Automatic identification of impermissable account sharing | |
US11782995B2 (en) | Computer-implemented method and apparatus for determining a relevance of a node in a network | |
CN108366012B (zh) | 一种社交关系建立方法、装置及电子设备 | |
CN109658120B (zh) | 一种业务数据处理方法以及装置 | |
CN109120719A (zh) | 信息推送方法、信息展示方法、计算机设备及存储介质 | |
CN112311612A (zh) | 一种家庭画像构建方法、装置及存储介质 | |
CN109327356B (zh) | 一种用户画像的生成方法和装置 | |
CN108076032B (zh) | 一种异常行为用户识别方法及装置 | |
US20230319088A1 (en) | Systems and methods for identity management | |
CN104937613A (zh) | 量化数据质量的探试 | |
AU2021290402A1 (en) | Method for identifying a device using attributes and location signatures from the device | |
CN113127767B (zh) | 手机号码提取方法、装置、电子设备及存储介质 | |
CN110472744B (zh) | 网络内容处理方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |