[go: up one dir, main page]

CN112560961B - 基于图聚类的目标识别方法、装置、电子设备及存储介质 - Google Patents

基于图聚类的目标识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112560961B
CN112560961B CN202011499079.9A CN202011499079A CN112560961B CN 112560961 B CN112560961 B CN 112560961B CN 202011499079 A CN202011499079 A CN 202011499079A CN 112560961 B CN112560961 B CN 112560961B
Authority
CN
China
Prior art keywords
target
field value
sample
data
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011499079.9A
Other languages
English (en)
Other versions
CN112560961A (zh
Inventor
孙家棣
马宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011499079.9A priority Critical patent/CN112560961B/zh
Publication of CN112560961A publication Critical patent/CN112560961A/zh
Application granted granted Critical
Publication of CN112560961B publication Critical patent/CN112560961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种基于图聚类的目标识别方法、装置、电子设备及存储介质。该方法包括:通过获取样本数据集合,样本数据集合包括多个样本数据;根据多个样本数据中的环境维度数据从样本数据集合中筛选出目标样本集合;根据预设的白名单样本数据对目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;对有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定至少一个类中顶点数量大于第一预设数量的类为目标对象群体。能够根据环境维度数据、白名单样本数据采用图聚类的方式,自动发现黑灰产羊毛党的行为特征,对未知的薅羊毛等行为特征进行监控,从而更加准确地羊毛党或黑灰产用户群体。

Description

基于图聚类的目标识别方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机网络技术领域,具体涉及一种基于图聚类的目标识别方法、装置、电子设备及存储介质。
背景技术
羊毛党是指搜集各大电子商城、银行、实体店等各渠道的优惠促销活动、免费业务之类的信息,以相对较低成本甚至零成本换取物质上的实惠的群体。黑灰产,指的是电信诈骗、钓鱼网站、木马病毒、黑客勒索等利用网络开展违法犯罪活动的行为。羊毛党黑灰产从业人员专门选择各互联网渠道的优惠促销活动,以相对较低成本换取高额利润,给企业带来很大的经济损失。
现有技术中,风控业内现识别黑灰产羊毛党的方法,采用专家规则策略,但是覆盖率较低,容易被黑产绕过,只能依据专家已经掌握的风控经验,对于未知的羊毛党或黑灰产群体,难以做到准确地识别。
发明内容
本申请实施例提供了一种基于图聚类的目标识别方法、装置、电子设备及存储介质,能够更加准确地羊毛党或黑灰产用户群体。
第一方面,本申请实施例提供一种基于图聚类的目标识别方法,包括:
获取样本数据集合,所述样本数据集合包括多个样本数据;
根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合;
根据预设的白名单样本数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;
对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体。
第二方面,本申请实施例提供一种基于图聚类的目标识别装置,包括:
收发单元,用于获取样本数据集合,所述样本数据集合包括多个样本数据;
处理单元,用于根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合;
所述处理单元,还用于根据预设的白名单样本数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体。
第三方面,本申请实施例提供一种电子设备,包括:收发器、处理器和存储器,所述处理器与存储器连接,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,通过获取样本数据集合,样本数据集合包括多个样本数据;根据多个样本数据中的环境维度数据从样本数据集合中筛选出目标样本集合;根据预设的白名单样本数据对目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;对有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定至少一个类中顶点数量大于第一预设数量的类为目标对象群体。能够根据环境维度数据、白名单样本数据采用图聚类的方式,自动发现黑灰产羊毛党的行为特征,对未知的薅羊毛等行为特征进行监控,从而更加准确地羊毛党或黑灰产用户群体。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于图聚类的目标识别方法的流程示意图;
图2为本申请实施例提供的一种神经网络的结构示意图;
图3为本申请实施例提供的一基于图聚类的目标识别方法的流程示意图;
图4为本申请实施例提供的一种基于图聚类的目标识别装置的功能单元组成框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,UE),移动台(mobile station,MS),终端设备(terminaldevice)等等。为方便描述,上面提到的设备统称为电子设备。
参阅图1,图1为本申请实施例提供的一种基于图聚类的目标识别方法。该方法应用于电子设备。该方法包括以下步骤:
101、电子设备获取样本数据集合,所述样本数据集合包括多个样本数据。
其中,多个样本数据是指用户在网上商城等互联网平台上的账号信息、设备维度数据、行为数据、环境维度数据等各个维度的数据。任一用户的样本数据可包括以下至少一种:账号信息、设备维度数据、行为数据、环境维度数据等等,账号信息可以是一个或者多个,例如,用户在网上商城的账号信息、用户在用户设备(例如,手机、平板电脑等)上的账号信息,设备维度数据是指用户设备有关的信息,例如设备标识,行为数据是指用户在网上商城等互联网平台上的注册、登录、购买、刷单、转发、点赞、评论、加好友、关注等行为,环境维度数据是指用户设备的地理位置、IP地址等数据,本申请实施例不做限制。
具体实施中,上述不同用户的不同维度样本数据可以由服务器进行记录,电子设备可从服务器发送信息获取请求,根据信息获取请求接收服务器发送的样本数据集合。
102、电子设备根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合。
其中,环境维度数据可包括以下至少一种:ip地址、wifimac地址、gps定位等,本申请不做限制。
其中,电子设备可以将多个样本数据进行比对,确定具有相同环境维度数据的样本数据对应的目标样本,具体地,确定具有相同环境维度数据的样本数据对应的目标样本,可以是具有一种相同环境维度数据的样本数据对应的目标样本,例如,具有相同ip地址或者具有相同wifimac地址,又或者,具有相同gps定位的样本数据对应的目标样本;还可以是具有两种以上相同环境维度数据的样本数据对应的目标样本,例如,具有相同ip地址和wifimac地址的样本数据对应的目标样本,又例如,ip地址、wifimac地址、gps定位均相同的样本数据对应的目标样本。可以理解,相同的环境维度数据越多,目标样本之间的相似度越高,进而,可以确定相似度高且数量较多的对象为目标样本集合。
举例说明,若存在较多数量的样本数据中具有相同IP地址、相同wifimac地址、且gps定位相似度大于第一预设相似度,则表明可能存在羊毛党黑灰产等群体,进而可确定该较多数量的样本数据为目标样本集合。
可选地,所述环境维度数据包括N个维度的环境维度子数据,N为正整数,所述根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合,包括:
统计所述多个样本数据中具有至少一个相同的环境维度子数据的样本数据,确定所述N个维度的环境维度子数据均相同的第一样本数据子集合;若所述第一样本数据子集合中第一样本数据的第一样本数量大于第二预设数量,则将所述第一样本数据子集合作为目标样本集合;若所述第一样本数量小于或等于所述第二预设数量,则确定N-1个维度的环境维度子数据相同的第二样本数据子集合;若所述第一样本数量与所述第二样本数据子集合中第二样本数据的第二样本数量之和大于所述第二预设数值,则将所述第一样本数据子集合和所述第二样本数据子集合的并集作为所述目标样本集合。
具体实施中,可先统计具有N个维度的环境维度子数据均相同的第一样本数据子集合,若第一样本数据子集合中第一样本数据的第一样本数量大于第二预设数量,则可直接将第一样本数据子集合作为目标样本集合,不需要继续处理其他样本数据;若第一样本数量小于或等于第二预设数量,则可继续确定N-1个维度的环境维度子数据相同的第二样本数据子集合,直到得到目标样本集合中的样本数据的数量大于第二预设数值,如此,可以保证确定的目标样本集合中目标样本的数量达到第二预设数值,且具有较高的相似度,从而更加准确地确定目标样本集合。
103、电子设备根据预设的白名单样本数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合。
其中,预设的白名单样本数据中包括预先设置的普通用户的样本数据,例如,寿险内勤、保险代理人、保单用户等,具体实施中,可以将目标样本集合中目标样本的样本数据与预设的白名单样本数据进行比对,进而识别出不属于普通用户的黑灰产羊毛党群体,并将可能属于黑灰产羊毛党群体的目标样本进行标记,得到有标记的目标样本集合。
可选地,所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合,包括:
确定所述目标样本集合中设备维度数据的第一分布信息;将所述第一分布信息与预设的白名单样本数据中白名单样本的预设分布信息进行比对,若所述第一分布信息与所述预设分布信息之间的误差值大于预设误差阈值,则对所述目标样本集合中的目标样本进行标记,得到带有标记的目标样本集合。
其中,设备维度数据可包括设备品牌、设备型号等各个维度的数据。
具体实施中,可以确定目标样本集合中设备维度数据的第一分布信息,具体地,可以确定不同设备品牌的分布信息,针对相同设备品牌的设备,还可确定不同设备型号的分布信息,得到第一分布信息,例如,可统计目标样本集合中多个设备中分别属于华为、小米、苹果11等设备品牌或者设备型号的第一分布信息,若设备品牌为华为的占比为三分之一,预设白名单中的预设占比为1/100,可将所述第一分布信息与预设的白名单样本数据中白名单样本的预设分布信息进行比对,若第一分布信息与所述预设分布信息之间的误差值大于预设误差阈值,例如将该占比1/3与预设白名单中的预设占比1/100进行比对,误差较大,则对目标样本集合中的属于华为品牌的设备对应的目标样本进行标记,例如,可对目标样本的手机号进行标记。如此,可以根据白名单数据和设备维度数据对可能属于黑灰产羊毛党群体的目标样本进行标记,得到有标记的目标样本集合。
可选地,所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合,包括:
计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量;计算所述白名单样本数据中属于设备维度数据的各字段值或各字段值组合的第二流量数量;根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合;对所述目标字段值或字段值组合对应的目标样本进行标记,得到带有标记的目标样本集合。
具体实施中,可对目标样本集合中的设备维度数据计算各字段值或各字段值组合的第一流量数量,以及计算白名单样本数据中属于设备维度数据的各字段值或各字段值组合的第二流量数量,然后,确定字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值的字段值或字段值组合,进而确定目标样本集合与白名单样本数据中相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合,目标字段值或字段值组合可认定为黑灰产羊毛党的设备特征,最后,对目标字段值或字段值组合对应的目标样本进行标记,得到带有标记的目标样本集合,如此,可对属于黑灰产羊毛党群体的目标样本进行标记,得到有标记的目标样本集合。
可选地,所述设备维度数据包括指纹型字段值,所述根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合之前,所述方法还包括:
将所述目标样本集合中的指纹型字段值与所述白名单样本数据中对应的字段值进行单个字段值比对,得到相同字段值集合;统计所述相同字段值集合中的相同字段值的目标流量数量。如此,可将指纹型字段值进行单个字段值比对,确定相同字段值集合的目标流量数量,具体实施中,相同字段值集合中的相同字段值的目标流量数量越小,表明目标样本集合中的样本数据属于羊毛党黑灰产的可能性越大,从而可准确地对属于黑灰产羊毛党群体的目标样本进行标记。
可选地,所述设备维度数据包括类别型字段值,在所述计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量之前,所述方法还包括:
将所述目标样本集合中目标样本集合中属于设备维度数据的类别型字段值进行组合,得到多个字段值组合;
所述根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合之前,所述方法还包括:
将所述目标样本集合中的多个字段值组合与所述白名单样本数据中对应的字段值组合进行组合比对,得到相同字段值组合集合;统计所述相同字段值至集合中的相同字段值组合的目标流量数量。
具体实施中,若设备维度数据包括类别型字段值,则可将目标样本中设备维度数据的类别型字段值进行组合,得到多个字段值组合,从而,可针对类别型数据确定相同字段值组合集合,具体实施中,相同字段值组合集合中的相同字段值组合的目标流量数量越小,表明目标样本集合中的样本数据属于羊毛党黑灰产的可能性越大,从而可准确地对属于黑灰产羊毛党群体的目标样本进行标记。
104、电子设备对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体。
具体实施中,对有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类,可将有标记的目标样本集合中目标样本的第一特征信息作为顶点,将其他特征信息作为边,将具有相同边的顶点相连,得到至少一个类。
举例说明,上述对目标样本集合中目标样本的手机号进行标记,可以将手机号作为图聚类过程中图的顶点,将其他维度的特征信息作为边,通过连通分量算法进行图聚类,例如,在活动中奖场景,可按照手机号前7位、身份证号码、登录密码、注册ip、绑定ip、最近登录ip、常用ip、常用设备、银行预留手机号等特征信息作为图的边,将具有相同编的顶点相连,得到如图2所示的图聚类结果。如此,当一个类的顶点数量大于第一预设数量,则可将该类对应的所有目标样本确定为目标对象群体,即识别为黑灰产羊毛党群体。
可以看出,在本申请实施例中,通过获取样本数据集合,样本数据集合包括多个样本数据;根据多个样本数据中的环境维度数据从样本数据集合中筛选出目标样本集合;根据预设的白名单样本数据对目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;对有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定至少一个类中顶点数量大于第一预设数量的类为目标对象群体。能够根据环境维度数据、白名单样本数据采用图聚类的方式,自动发现黑灰产羊毛党的行为特征,对未知的薅羊毛等行为特征进行监控,从而更加准确地羊毛党或黑灰产用户群体。
参阅图3,图3为本申请实施例提供的一种基于图聚类的目标识别方法的流程示意图。本实施例的方法包括以下步骤:
301、获取样本数据集合,所述样本数据集合包括多个样本数据。
302、根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合。
303、确定所述目标样本集合中设备维度数据的第一分布信息。
304、将所述第一分布信息与预设的白名单样本数据中白名单样本的预设分布信息进行比对,若所述第一分布信息与所述预设分布信息之间的误差值大于预设误差阈值,则对所述目标样本集合中的目标样本进行标记,得到带有标记的目标样本集合。
305、将所述有标记的目标样本集合中目标样本的第一特征信息作为顶点,将其他特征信息作为边,将具有相同边的顶点相连,得到至少一个类。
306、确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体。
其中,该实施例中与图1所示的实施例相同的内容,此处不再重复描述。
可以看出,在本申请实施例中,通过确定目标样本集合中设备维度数据的第一分布信息;将第一分布信息与预设的白名单样本数据中白名单样本的预设分布信息进行比对,若第一分布信息与所述预设分布信息之间的误差值大于预设误差阈值,则对目标样本集合中的目标样本进行标记,得到带有标记的目标样本集合;将有标记的目标样本集合中目标样本的第一特征信息作为顶点,将其他特征信息作为边,将具有相同边的顶点相连,得到至少一个类,确定至少一个类中顶点数量大于第一预设数量的类为目标对象群体;可以根据白名单数据和设备维度数据对可能属于黑灰产羊毛党群体的目标样本进行标记,得到有标记的目标样本集合,自动发现黑灰产羊毛党的行为特征,对未知的薅羊毛等行为特征进行监控,从而更加准确地羊毛党或黑灰产用户群体。
参阅图4,图4本申请实施例提供的一种基于图聚类的目标识别装置的功能单元组成框图。基于图聚类的目标识别装置400包括:收发单元401和处理单元402,其中:
收发单元401,用于获取样本数据集合,所述样本数据集合包括多个样本数据;
处理单元402,用于根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合;
所述处理单元402,还用于根据预设的白名单样本数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体。
在一些可能的实施方式中,所述环境维度数据包括N个维度的环境维度子数据,N为正整数,在所述根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合方面,处理单元402,具体用于:
统计所述多个样本数据中具有至少一个相同的环境维度子数据的样本数据,确定所述N个维度的环境维度子数据均相同的第一样本数据子集合;
若所述第一样本数据子集合中第一样本数据的第一样本数量大于第二预设数量,则将所述第一样本数据子集合作为目标样本集合;
若所述第一样本数量小于或等于所述第二预设数量,则确定N-1个维度的环境维度子数据相同的第二样本数据子集合;
若所述第一样本数量与所述第二样本数据子集合中第二样本数据的第二样本数量之和大于所述第二预设数值,则将所述第一样本数据子集合和所述第二样本数据子集合的并集作为所述目标样本集合。
在一些可能的实施方式中,在所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合方面,处理单元402,具体用于:
确定所述目标样本集合中设备维度数据的第一分布信息;
将所述第一分布信息与预设的白名单样本数据中白名单样本的预设分布信息进行比对,若所述第一分布信息与所述预设分布信息之间的误差值大于预设误差阈值,则对所述目标样本集合中的目标样本进行标记,得到带有标记的目标样本集合。
在一些可能的实施方式中,在所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合方面,处理单元402,具体用于:
计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量;
计算所述白名单样本数据中属于设备维度数据的各字段值或各字段值组合的第二流量数量;
根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合;
对所述目标字段值或字段值组合对应的目标样本进行标记,得到带有标记的目标样本集合。
在一些可能的实施方式中,所述设备维度数据包括指纹型字段值,所述根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合之前,处理单元402还用于:
将所述目标样本集合中的指纹型字段值与所述白名单样本数据中对应的字段值进行单个字段值比对,得到相同字段值集合;
统计所述相同字段值集合中的相同字段值的目标流量数量。
在一些可能的实施方式中,所述设备维度数据包括类别型字段值,在所述计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量之前,处理单元402,还用于:
将所述目标样本集合中目标样本集合中属于设备维度数据的类别型字段值进行组合,得到多个字段值组合;
所述根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合之前,处理单元402,还用于:
将所述目标样本集合中的多个字段值组合与所述白名单样本数据中对应的字段值组合进行组合比对,得到相同字段值组合集合;
统计所述相同字段值至集合中的相同字段值组合的目标流量数量。
在一些可能的实施方式中,在所述对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类方面,处理单元402具体用于:
将所述有标记的目标样本集合中目标样本的第一特征信息作为顶点,将其他特征信息作为边,将具有相同边的顶点相连,得到至少一个类。
可以理解的是,本实施例的基于图聚类的目标识别装置的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
应理解,本申请中的基于图聚类的目标识别装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices,简称:MID)或穿戴式设备等。上述基于图聚类的目标识别装置仅是举例,而非穷举,包含但不限于上述基于图聚类的目标识别装置。在实际应用中,上述基于图聚类的目标识别装置还可以包括:智能车载终端、计算机设备,等等。
参阅图5,图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据,并可以将存储503存储的数据传输给处理器502。
处理器502用于读取存储器503中的计算机程序执行以下操作:
控制收发器501获取样本数据集合,所述样本数据集合包括多个样本数据;
根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合;根据预设的白名单样本数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体。
在一些可能的实施方式中,所述环境维度数据包括N个维度的环境维度子数据,N为正整数,在所述根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合方面,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
统计所述多个样本数据中具有至少一个相同的环境维度子数据的样本数据,确定所述N个维度的环境维度子数据均相同的第一样本数据子集合;
若所述第一样本数据子集合中第一样本数据的第一样本数量大于第二预设数量,则将所述第一样本数据子集合作为目标样本集合;
若所述第一样本数量小于或等于所述第二预设数量,则确定N-1个维度的环境维度子数据相同的第二样本数据子集合;
若所述第一样本数量与所述第二样本数据子集合中第二样本数据的第二样本数量之和大于所述第二预设数值,则将所述第一样本数据子集合和所述第二样本数据子集合的并集作为所述目标样本集合。
在一些可能的实施方式中,在所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合方面,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
确定所述目标样本集合中设备维度数据的第一分布信息;
将所述第一分布信息与预设的白名单样本数据中白名单样本的预设分布信息进行比对,若所述第一分布信息与所述预设分布信息之间的误差值大于预设误差阈值,则对所述目标样本集合中的目标样本进行标记,得到带有标记的目标样本集合。
在一些可能的实施方式中,在所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合方面,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量;
计算所述白名单样本数据中属于设备维度数据的各字段值或各字段值组合的第二流量数量;
根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合;
对所述目标字段值或字段值组合对应的目标样本进行标记,得到带有标记的目标样本集合。
在一些可能的实施方式中,所述设备维度数据包括指纹型字段值,所述根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合之前,处理器502用于读取存储器503中的计算机程序,具体执行以下操作:
将所述目标样本集合中的指纹型字段值与所述白名单样本数据中对应的字段值进行单个字段值比对,得到相同字段值集合;
统计所述相同字段值集合中的相同字段值的目标流量数量。
在一些可能的实施方式中,所述设备维度数据包括类别型字段值,在所述计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量之前,处理器502还用于读取存储器503中的计算机程序执行以下操作:
所述设备维度数据包括类别型字段值,在所述计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量之前,处理器502还用于读取存储器503中的计算机程序执行以下操作:
将所述目标样本集合中的多个字段值组合与所述白名单样本数据中对应的字段值组合进行组合比对,得到相同字段值组合集合;
统计所述相同字段值至集合中的相同字段值组合的目标流量数量。
在一些可能的实施方式中,在所述对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类方面,处理器502还用于读取存储器503中的计算机程序执行以下操作:
将所述有标记的目标样本集合中目标样本的第一特征信息作为顶点,将其他特征信息作为边,将具有相同边的顶点相连,得到至少一个类。
具体地,上述收发器501可为图4所述的实施例的基于图聚类的目标识别装置400的收发单元401,上述处理器502可以为图4所述的实施例的基于图聚类的目标识别装置400的处理单元402。
需要说明的是,在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本申请实施例中的具体实施步骤和其他实施步骤,可参见上述方法实施例中的步骤,为避免重复,这里不再详细描述。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于图聚类的目标识别方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于图聚类的目标识别方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种基于图聚类的目标识别方法,其特征在于,包括:
获取样本数据集合,所述样本数据集合包括多个样本数据;
根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合;
根据预设的白名单样本数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;
对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体;
其中,所述环境维度数据包括N个维度的环境维度子数据,N为正整数,所述根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合,包括:
统计所述多个样本数据中具有至少一个相同的环境维度子数据的样本数据,确定所述N个维度的环境维度子数据均相同的第一样本数据子集合;
若所述第一样本数据子集合中第一样本数据的第一样本数量大于第二预设数量,则将所述第一样本数据子集合作为目标样本集合;
若所述第一样本数量小于或等于所述第二预设数量,则确定N-1个维度的环境维度子数据相同的第二样本数据子集合;
若所述第一样本数量与所述第二样本数据子集合中第二样本数据的第二样本数量之和大于所述第二预设数值,则将所述第一样本数据子集合和所述第二样本数据子集合的并集作为所述目标样本集合;
其中,所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合,包括:
计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量;
计算所述白名单样本数据中属于设备维度数据的各字段值或各字段值组合的第二流量数量;
根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合;
对所述目标字段值或字段值组合对应的目标样本进行标记,得到带有标记的目标样本集合。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合,包括:
确定所述目标样本集合中设备维度数据的第一分布信息;
将所述第一分布信息与预设的白名单样本数据中白名单样本的预设分布信息进行比对,若所述第一分布信息与所述预设分布信息之间的误差值大于预设误差阈值,则对所述目标样本集合中的目标样本进行标记,得到带有标记的目标样本集合。
3.根据权利要求1所述的方法,其特征在于,所述设备维度数据包括指纹型字段值,所述根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合之前,所述方法还包括:
将所述目标样本集合中的指纹型字段值与所述白名单样本数据中对应的字段值进行单个字段值比对,得到相同字段值集合;
统计所述相同字段值集合中的相同字段值的目标流量数量。
4.根据权利要求1所述的方法,其特征在于,所述设备维度数据包括类别型字段值,在所述计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量之前,所述方法还包括:
将所述目标样本集合中属于设备维度数据的类别型字段值进行组合,得到多个字段值组合;
所述根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合之前,所述方法还包括:
将所述目标样本集合中的多个字段值组合与所述白名单样本数据中对应的字段值组合进行组合比对,得到相同字段值组合集合;
统计所述相同字段值至集合中的相同字段值组合的目标流量数量。
5.根据权利要求1或4所述的方法,其特征在于,所述对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类,包括:
将所述有标记的目标样本集合中目标样本的第一特征信息作为顶点,将其他特征信息作为边,将具有相同边的顶点相连,得到至少一个类。
6.一种基于图聚类的目标识别装置,其特征在于,包括:
收发单元,用于获取样本数据集合,所述样本数据集合包括多个样本数据;
处理单元,用于根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合;
所述处理单元,还用于根据预设的白名单样本数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合;对所述有标记的目标样本集合中的目标样本进行图聚类,得到至少一个类;确定所述至少一个类中顶点数量大于第一预设数量的类为目标对象群体;
其中,所述环境维度数据包括N个维度的环境维度子数据,N为正整数,所述根据所述多个样本数据中的环境维度数据从所述样本数据集合中筛选出目标样本集合,包括:
统计所述多个样本数据中具有至少一个相同的环境维度子数据的样本数据,确定所述N个维度的环境维度子数据均相同的第一样本数据子集合;
若所述第一样本数据子集合中第一样本数据的第一样本数量大于第二预设数量,则将所述第一样本数据子集合作为目标样本集合;
若所述第一样本数量小于或等于所述第二预设数量,则确定N-1个维度的环境维度子数据相同的第二样本数据子集合;
若所述第一样本数量与所述第二样本数据子集合中第二样本数据的第二样本数量之和大于所述第二预设数值,则将所述第一样本数据子集合和所述第二样本数据子集合的并集作为所述目标样本集合;
其中,所述根据预设的白名单数据对所述目标样本集合中满足预设条件的目标样本进行标记,得到有标记的目标样本集合,包括:
计算所述目标样本集合中属于设备维度数据的各字段值或各字段值组合的第一流量数量;
计算所述白名单样本数据中属于设备维度数据的各字段值或各字段值组合的第二流量数量;
根据所述第一流量数量和所述第二流量数量筛选出字段值或字段值组合的第一流量数量与第二流量数量之差大于第一预设阈值,而相同字段值或字段值组合的目标流量数量小于第二预设阈值的目标字段值或字段值组合;
对所述目标字段值或字段值组合对应的目标样本进行标记,得到带有标记的目标样本集合。
7.一种电子设备,其特征在于,包括:收发器、处理器和存储器,所述处理器与存储器连接,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-5任一项所述的方法。
CN202011499079.9A 2020-12-17 2020-12-17 基于图聚类的目标识别方法、装置、电子设备及存储介质 Active CN112560961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499079.9A CN112560961B (zh) 2020-12-17 2020-12-17 基于图聚类的目标识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499079.9A CN112560961B (zh) 2020-12-17 2020-12-17 基于图聚类的目标识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112560961A CN112560961A (zh) 2021-03-26
CN112560961B true CN112560961B (zh) 2024-04-26

Family

ID=75063279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499079.9A Active CN112560961B (zh) 2020-12-17 2020-12-17 基于图聚类的目标识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112560961B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671168B (zh) * 2023-10-20 2024-10-18 湖南防灾科技有限公司 一种地形聚合方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639633A (zh) * 2018-11-02 2019-04-16 平安科技(深圳)有限公司 异常流量数据识别方法、装置、介质及电子设备
WO2020147488A1 (zh) * 2019-01-17 2020-07-23 阿里巴巴集团控股有限公司 异常群体识别方法及装置
WO2020155508A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 可疑用户筛选方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8498448B2 (en) * 2011-07-15 2013-07-30 International Business Machines Corporation Multi-view object detection using appearance model transfer from similar scenes
CN105654131A (zh) * 2015-12-30 2016-06-08 小米科技有限责任公司 分类模型训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639633A (zh) * 2018-11-02 2019-04-16 平安科技(深圳)有限公司 异常流量数据识别方法、装置、介质及电子设备
WO2020147488A1 (zh) * 2019-01-17 2020-07-23 阿里巴巴集团控股有限公司 异常群体识别方法及装置
WO2020155508A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 可疑用户筛选方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112560961A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
WO2020211247A1 (zh) 账户信息的登录方法、装置、计算机设备及计算机存储介质
CN106469276B (zh) 数据样本的类型识别方法及装置
CN107122369B (zh) 一种业务数据处理方法、装置和系统
CN106934627A (zh) 一种电商行业作弊行为的检测方法及装置
CN109086317B (zh) 风险控制方法和相关装置
CN107203883B (zh) 一种风险控制方法和设备
CN105338537B (zh) 一种新增基站站址共享分析的方法及终端
CN105208009B (zh) 一种账号安全检测方法及装置
CN105740667A (zh) 一种基于用户行为的信息识别方法及装置
CN104980420A (zh) 一种业务处理方法、装置、终端及服务器
CN104486722B (zh) 定位结果的评估方法及装置
WO2017101703A1 (zh) 变更手机号码的业务请求的识别方法及装置
CN112560961B (zh) 基于图聚类的目标识别方法、装置、电子设备及存储介质
CN110826311B (zh) 对象识别方法以及装置
CN116305033A (zh) 一种异常账户识别方法、装置及电子设备
CN105988998B (zh) 关系网络构建方法及装置
CN109582834B (zh) 数据风险预测方法及装置
CN112785315B (zh) 批量注册识别方法及装置
CN110363648B (zh) 一种基于同一地理类型多维度属性校验方法、装置和电子设备
CN108512803A (zh) 提醒更改账号绑定电话号码的方法及装置
CN111428971A (zh) 业务数据的处理方法、装置和服务器
CN112488825B (zh) 基于区块链的对象交易方法及装置
CN116015808A (zh) 一种网络端口异常开放感知方法、装置、电子设备及存储介质
CN112422480B (zh) 帐号属性的确定方法和装置、存储介质及电子装置
CN108256818A (zh) 薪资计算方法、应用服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant