[go: up one dir, main page]

CN105491444B - 一种数据识别处理方法以及装置 - Google Patents

一种数据识别处理方法以及装置 Download PDF

Info

Publication number
CN105491444B
CN105491444B CN201510835028.1A CN201510835028A CN105491444B CN 105491444 B CN105491444 B CN 105491444B CN 201510835028 A CN201510835028 A CN 201510835028A CN 105491444 B CN105491444 B CN 105491444B
Authority
CN
China
Prior art keywords
feature vector
target feature
user
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510835028.1A
Other languages
English (en)
Other versions
CN105491444A (zh
Inventor
余建兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Original Assignee
ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd filed Critical ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Priority to CN201510835028.1A priority Critical patent/CN105491444B/zh
Publication of CN105491444A publication Critical patent/CN105491444A/zh
Application granted granted Critical
Publication of CN105491444B publication Critical patent/CN105491444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据识别处理方法以及装置,其中方法包括:根据收集到的客户端的设备信息、用户信息以及业务特征信息构造所述客户端对应的目标特征向量;基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合。采用本发明,可准确、低成本的识别主播客户端是否采用非法手段进行作弊。

Description

一种数据识别处理方法以及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据识别处理方法以及装置。
背景技术
近年来,集合在线K歌、在线视频直播、在线游戏直播、在线教育直播等功能为一体的综合型的富媒体客户端空前发展,使得观众用户可以自在地通过观众客户端来观看主播客户端直播的内容。但是,目前却有一些非法用户通过采用协议号的方式帮助主播客户端实现非法的刷人气操作、刷道具操作等等,以获取非法利益。其中,协议号是一种采用网络封包形式登录客户端的作弊程序,该作弊程度多用于游戏直播业务。
目前,为了发现属于协议号的观众客户端,通常是由人工根据业务经验对观众客户端的相关特征进行分析,以发现观众客户端是否为协议号客户端,并对协议号客户端进行相应处理。由于观众客户端的数量比较庞大,所以通过人工对观众客户端逐一进行分析,将会带来巨大的人力成本,而且对于特征不是非常明显的观众客户端,人工分析起来会比较困难,容易导致误判。
发明内容
本发明实施例提供一种数据识别处理方法以及装置,可准确、低成本的识别主播客户端是否采用非法手段进行作弊。
本发明实施例提供了一种数据识别处理方法,包括:
收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;所述目标特征向量包括所述设备信息、所述用户信息以及所述业务特征信息分别对应的特征值;
基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;
为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别;所述用户类型标识包括合法用户标识和非法用户标识。
相应地,本发明实施例还提供了一种数据识别处理装置,包括:
收集构造模块,用于收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;所述目标特征向量包括所述设备信息、所述用户信息以及所述业务特征信息分别对应的特征值;
创建识别模块,用于基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;
设置添加模块,用于为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别;所述用户类型标识包括合法用户标识和非法用户标识。
本发明实施例通过收集客户端的设备信息和用户信息以及业务特征信息,可以构造客户端对应的目标特征向量,并根据所创建的分类模型和目标特征向量中的特征值识别出目标特征向量对应的用户类型,若用户类型为非法用户类型,则可以说明该客户端为协议号客户端,从而可以实现自动识别观众客户端是否为协议号客户端,以降低人力成本;进一步还可以为目标特征向量设置与目标特征向量的用户类型对应的用户类型标识,并将携带有用户类型标识的目标特征向量添加到标记数据集合,以便于后续可以根据新的标记数据集合更新分类模型以对新的目标特征向量进行识别,由此可见,随着标记数据集合中的特征向量的数量增加,所创建的分类模型也会越来越精准,从而对特征不明显的目标特征向量也可以准确识别,即提高了对协议号的识别准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据识别处理方法的流程示意图;
图2是本发明实施例提供的另一种数据识别处理方法的流程示意图;
图3是本发明实施例提供的一种数据识别处理装置的结构示意图;
图4是本发明实施例提供的一种收集构造模块的结构示意图;
图5是本发明实施例提供的一种创建识别模块的结构示意图;
图6是本发明实施例提供的另一种数据识别处理装置的结构示意图;
图7是本发明实施例提供的又一种数据识别处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种数据识别处理方法的流程示意图,所述方法可以包括:
S101,收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;
具体的,一种应用于后台服务器的数据识别处理装置可以收集客户端的设备信息和用户信息,其中,所述用户信息可以包括用户身份信息和用户行为信息。其中,所述设备信息可以指用户设备环境信息,具体包括运行的进程特征、被调用的父进程、发送数据包采用的协议等等。所述用户身份信息可以指用户在所述客户端(如观众客户端)的记录,具体包括用户名、年龄、性别、注册地、注册IP(Internet Protocol,网络协议)、等级、昵称、简介、客户端登录状况等信息。所述用户行为信息可以指游戏直播平台记录的用户在各个频道中的行为,具体包括用户的登录信息、观看信息、消费信息(如送花,送道具等)以及互动行为信息(如留言等);其中,所述用户的登录信息可以包括在统计日起前i天用户累计的登录次数/天数/时长、登录时段、登录IP以及相关频次;所述观看信息可以包括观看直播累计的次数/天数/时长/时段;所述消费信息可以包括消费次数/天数/金额/时段;所述互动行为信息可以包括留言的时段等;其中,所述时段是指行为发生的具体时间。
所述数据识别处理装置再创建所述客户端对应的目标特征向量,并将所述设备信息、所述用户身份信息、所述用户行为信息以及业务特征信息分别对应的特征值作为所述目标特征向量的元素。其中,所述业务特征信息可以包括账号名的长度是否大于15个字符、账号名是否文字和数据混杂、账号名是否含有中文姓名拼音(如人口数据库中获取)、账号名是否含有英文姓名和英文常用词、账号注册IP是否有其他账号注册、账号登录IP是否有其他账号登录、账号是否绑定手机和邮箱、账号是否设定保密问题、账号使用的昵称是否与用户名相同、账号的个人签名和简介是否为空、账号等级和积分等等。
其中,所述目标特征向量的维度为所述目标特征向量中特征值的总数量。考虑到每个特征的原始特征值的原始数值范围不统一,譬如登录时长范围可能在1到3600间,而登录次数范围可能在1到100次内,因此,所述目标特征向量中属于数量值类型的特征值都是通过归一化处理得到的;其中,归一化处理的公式可以为:归一化处理后的某特征的特征值=(该特征的原始特征值-该特征的原始数值范围最小值)/(该特征的原始数值范围最大值-该特征的原始数值范围最小值),做归一化处理后的特征值所对应的数值范围会在[0,1]之间。另外,所述目标特征向量中属于非数量值类型的特征值是通过采用预设的指定数值进行赋值得到的,即对于非数量值类型的特征,可以对其类别赋值以作为所述目标特征向量的一个元素值,譬如特征“男/女”分别赋值为0,1。
S102,基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;
具体的,所述数据识别处理装置获得所述目标特征向量后,可以根据所述目标特征向量的特征值计算在向量空间的超平面中的位置,多维向量在超平面中的坐标计算方法为现有技术,这里不再进行赘述。此时,所述数据识别处理装置可以基于SVM(SupportVector Machine,支持向量机)分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识(所述用户类型标识包括合法用户标识和非法用户标识),在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;其中,所述分类模型包括在所述超平面中的合法用户区域和非法用户区域,所述合法用户区域包括携带合法用户标识的特征向量,所述非法用户区域包括携带非法用户标识的特征向量,所述合法用户区域和非法用户区域均还可以包括多个未携带所述用户类型标识的特征向量,所述标记数据集合中的多个特征向量以及所述未携带所述用户类型标识的特征向量在所述超平面中的位置都是预先由所述数据识别处理装置根据各特征向量的特征值所计算得到的,所述未携带所述用户类型标识的特征向量至少包括所述目标特征向量。
所述数据识别处理装置创建所述分类模型后,可以计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离,例如,若未携带所述用户类型标识的特征向量有A、B两个,所述标记数据集合中的特征向量有C、D、E三个,则需要分别计算A与C、A与D、A与E、B与C、B与D、B与E之间的欧氏距离。其中,计算两个特征向量之间的欧氏距离的公式为:d=sqrt(∑(Xi1-Xi2)^2),i=1,2..n;Xi1为其中一个特征向量中某特征的特征值,Xi2为另一个特征向量中该特征的特征值。当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,说明与所述目标特征向量相关联的至少一个欧氏距离中存在其中一个欧氏距离为所计算的所有欧氏距离中的最短欧氏距离,此时,可以根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型,即如果所述目标特征向量在所述超平面中的位置属于所述分类模型中的合法用户区域,则可以识别出所述目标特征向量对应的用户类型为合法用户,即说明所述目标特征向量对应的客户端不是协议号客户端;如果所述目标特征向量在所述超平面中的位置属于所述分类模型中的非法用户区域,则可以识别出所述目标特征向量对应的用户类型为非法用户,即说明所述目标特征向量对应的客户端是协议号客户端。进一步的,当所述目标特征向量对应的欧氏距离不为所计算的所有欧氏距离中的最短欧氏距离时,暂时不对所述目标特征向量进行识别,并且当前只对具有最短欧氏距离的未携带所述用户类型标识的特征向量进行识别。例如,若未携带所述用户类型标识的特征向量有A、B两个(A为所述目标特征向量),所述标记数据集合中的特征向量有C、D、E三个,并分别计算出A与C、A与D、A与E、B与C、B与D、B与E之间的欧氏距离,且检测出A与C为所有欧氏距离中的最短欧氏距离,则可以通过所述分类模型对A的用户类型进行识别。
其中,选择最短欧氏距离的目的是为了选择出当前所有未携带所述用户类型标识的特征向量中特征最明显的特征向量,即欧氏距离越短,说明该未携带所述用户类型标识的特征向量离携带所述用户类型标识的特征向量越近,则说明该未携带所述用户类型标识的特征向量的特征值越接近携带所述用户类型标识的特征向量的特征值,即该未携带所述用户类型标识的特征向量的特征越明显,通过对特征最明显的特征向量进行识别可以保证当前的识别是最准确的。
S103,为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别;
具体的,所述数据识别处理装置识别出所述目标特征向量对应的用户类型后,可以为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别。其中,初始的标记数据集合中的少量特征向量可以通过人工标记其对应的用户类型标识,随着大量未携带所述用户类型标识的特征向量被逐一识别、标记,可以使标记数据集合中的特征向量越来越多,因此,重新根据新的标记数据集合所建立的新的分类模型将会比原先的分类模型更为精确,所以基于所述新的分类模型可以对所述新的目标特征向量进行精确的识别,所述新的目标特征向量可以是在剩余的未携带所述用户类型标识的特征向量中所选择出的具有最短欧氏距离的特征向量。由于每次识别的特征向量都为剩余的未携带所述用户类型标识的特征向量中特征最明显的特征向量,所以基于本发明提供的数据识别处理方法,可以将特征越不明显的特征向量放在越后进行识别,而越往后分类模型也就越精确,从而保证了对每个特征向量都起到精确识别的效果,即实现了通过少量的人工标记即可在众多的观众客户端中将全部协议号客户端都查找出来。例如,游戏直播的全量用户超过300万,而初始的标记数据集合中的由人工标记的少量特征向量可以只需包括100个携带非法用户标识的特征向量和100个携带合法用户标识的特征向量,所述数据识别处理装置通过该初始的标记数据集合即可对全部用户的客户端逐一进行识别和标记。
本发明实施例通过收集客户端的设备信息和用户信息以及业务特征信息,可以构造客户端对应的目标特征向量,并根据所创建的分类模型和目标特征向量中的特征值识别出目标特征向量对应的用户类型,若用户类型为非法用户类型,则可以说明该客户端为协议号客户端,从而可以实现自动识别观众客户端是否为协议号客户端,以降低人力成本;进一步还可以为目标特征向量设置与目标特征向量的用户类型对应的用户类型标识,并将携带有用户类型标识的目标特征向量添加到标记数据集合,以便于后续可以根据新的标记数据集合更新分类模型以对新的目标特征向量进行识别,由此可见,随着标记数据集合中的特征向量的数量增加,所创建的分类模型也会越来越精准,从而对特征不明显的目标特征向量也可以准确识别,即提高了对协议号的识别准确性。
再请参见图2,是本发明实施例提供的另一种数据识别处理方法的流程示意图,所述方法可以包括:
S201,收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;
具体的,一种应用于后台服务器的数据识别处理装置可以收集客户端的设备信息和用户信息,其中,所述用户信息可以包括用户身份信息和用户行为信息。其中,所述设备信息可以指用户设备环境信息,具体包括运行的进程特征、被调用的父进程、发送数据包采用的协议等等。所述用户身份信息可以指用户在所述客户端(如观众客户端)的记录,具体包括用户名、年龄、性别、注册地、注册IP、等级、昵称、简介、客户端登录状况等信息。所述用户行为信息可以指游戏直播平台记录的用户在各个频道中的行为,具体包括用户的登录信息、观看信息、消费信息(如送花,送道具等)以及互动行为信息(如留言等);其中,所述用户的登录信息可以包括在统计日起前i天用户累计的登录次数/天数/时长、登录时段、登录IP以及相关频次;所述观看信息可以包括观看直播累计的次数/天数/时长/时段;所述消费信息可以包括消费次数/天数/金额/时段;所述互动行为信息可以包括留言的时段等;其中,所述时段是指行为发生的具体时间。
所述数据识别处理装置再创建所述客户端对应的目标特征向量,并将所述设备信息、所述用户身份信息、所述用户行为信息以及业务特征信息分别对应的特征值作为所述目标特征向量的元素。其中,所述业务特征信息可以包括账号名的长度是否大于15个字符、账号名是否文字和数据混杂、账号名是否含有中文姓名拼音(如人口数据库中获取)、账号名是否含有英文姓名和英文常用词、账号注册IP是否有其他账号注册、账号登录IP是否有其他账号登录、账号是否绑定手机和邮箱、账号是否设定保密问题、账号使用的昵称是否与用户名相同、账号的个人签名和简介是否为空、账号等级和积分等等。
其中,所述目标特征向量的维度为所述目标特征向量中特征值的总数量。考虑到每个特征的原始特征值的原始数值范围不统一,譬如登录时长范围可能在1到3600间,而登录次数范围可能在1到100次内,因此,所述目标特征向量中属于数量值类型的特征值都是通过归一化处理得到的;其中,归一化处理的公式可以为:归一化处理后的某特征的特征值=(该特征的原始特征值-该特征的原始数值范围最小值)/(该特征的原始数值范围最大值-该特征的原始数值范围最小值),做归一化处理后的特征值所对应的数值范围会在[0,1]之间。另外,所述目标特征向量中属于非数量值类型的特征值是通过采用预设的指定数值进行赋值得到的,即对于非数量值类型的特征,可以对其类别赋值以作为所述目标特征向量的一个元素值,譬如特征“男/女”分别赋值为0,1。
S202,根据所述目标特征向量中的特征值,计算在向量空间的超平面中的位置;
具体的,所述数据识别处理装置获得所述目标特征向量后,可以根据所述目标特征向量的特征值计算在向量空间的超平面中的位置,多维向量在超平面中的坐标计算方法为现有技术,这里不再进行赘述。可选的,为了提高在所述超平面中的坐标计算效率,可以根据用于判断特征值有效性的阈值以及不同特征向量之间的特征值相关性,在所述目标特征向量的特征值中筛选出有效特征值,并根据所述有效特征值计算所述目标特征向量在所述超平面中的位置,由于所述有效特征值的数量比所述目标特征向量中的所有特征值要少,所以可以提高在所述超平面中的坐标计算效率。其中,由于重要的特征携带信息较多,即特征值差异较大,所以通过用于判断特征值有效性的阈值筛选有效特征值的方法具体可以包括:1、数值型特征变异系数大于预定阀值,则该特征可作为有效特征值;2、数值型特征标差大于预定阀值,则该特征可作为有效特征值;3、分类型特征若某类别值的个数小于预定阀值,则该特征可作为有效特征值;4、分类型特征若类别值的数量小于预定阀值,则该特征可作为有效特征值。其中,变异系数=正态分布的标准差/平均值。其中,通过将所述目标特征向量与所述标记数据集合中的特征向量进行比较,可以知道两者相关性值越靠近,特征越重要,所以可以将特征值相关性值高的特征作为有效特征值,其中,检测特征值相关性的方法可以包括三方面检验:pearson相关系数检验、方差分析检验、卡方检验。
S203,基于支持向量机SVM分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识,在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;
具体的,所述数据识别处理装置可以基于SVM分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识(所述用户类型标识包括合法用户标识和非法用户标识),在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;其中,所述分类模型包括在所述超平面中的合法用户区域和非法用户区域,所述合法用户区域包括携带合法用户标识的特征向量,所述非法用户区域包括携带非法用户标识的特征向量,所述合法用户区域和非法用户区域均还可以包括多个未携带所述用户类型标识的特征向量,所述标记数据集合中的多个特征向量以及所述未携带所述用户类型标识的特征向量在所述超平面中的位置都是预先由所述数据识别处理装置根据各特征向量的特征值(或有效特征值)所计算得到的,所述未携带所述用户类型标识的特征向量至少包括所述目标特征向量。
S204,计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离;
具体的,所述数据识别处理装置创建所述分类模型后,可以计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离,例如,若未携带所述用户类型标识的特征向量有A、B两个,所述标记数据集合中的特征向量有C、D、E三个,则需要分别计算A与C、A与D、A与E、B与C、B与D、B与E之间的欧氏距离。其中,计算两个特征向量之间的欧氏距离的公式为:d=sqrt(∑(Xi1-Xi2)^2),i=1,2..n;Xi1为其中一个特征向量中某特征的特征值,Xi2为另一个特征向量中该特征的特征值。
S205,当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型;
具体的,当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,说明与所述目标特征向量相关联的至少一个欧氏距离中存在其中一个欧氏距离为所计算的所有欧氏距离中的最短欧氏距离,此时,可以根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型,即如果所述目标特征向量在所述超平面中的位置属于所述分类模型中的合法用户区域,则可以识别出所述目标特征向量对应的用户类型为合法用户,即说明所述目标特征向量对应的客户端不是协议号客户端;如果所述目标特征向量在所述超平面中的位置属于所述分类模型中的非法用户区域,则可以识别出所述目标特征向量对应的用户类型为非法用户,即说明所述目标特征向量对应的客户端是协议号客户端。进一步的,当所述目标特征向量对应的欧氏距离不为所计算的所有欧氏距离中的最短欧氏距离时,暂时不对所述目标特征向量进行识别,并且当前只对具有最短欧氏距离的未携带所述用户类型标识的特征向量进行识别。例如,若未携带所述用户类型标识的特征向量有A、B两个,所述标记数据集合中的特征向量有C、D、E三个,并分别计算出A与C、A与D、A与E、B与C、B与D、B与E之间的欧氏距离,且检测出A与C为所有欧氏距离中的最短欧氏距离,则可以通过所述分类模型先对A的用户类型进行识别。
其中,选择最短欧氏距离的目的是为了选择出当前所有未携带所述用户类型标识的特征向量中特征最明显的特征向量,即欧氏距离越短,说明该未携带所述用户类型标识的特征向量离携带所述用户类型标识的特征向量越近,即说明该未携带所述用户类型标识的特征向量的特征值越接近携带所述用户类型标识的特征向量的特征值,即该未携带所述用户类型标识的特征向量的特征越明显,通过对特征最明显的特征向量进行识别可以保证当前的识别是最准确的。
S206,为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合;
具体的,所述数据识别处理装置识别出所述目标特征向量对应的用户类型后,可以为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别。其中,初始的标记数据集合中的少量特征向量可以通过人工标记其对应的用户类型标识,随着大量未携带所述用户类型标识的特征向量被逐一识别、标记,可以使标记数据集合中的特征向量越来越多,因此,重新根据新的标记数据集合所建立的新的分类模型将会比原先的分类模型更为精确,所以基于所述新的分类模型可以对所述新的目标特征向量进行精确的识别,所述新的目标特征向量可以是在剩余的未携带所述用户类型标识的特征向量中所选择出的具有最短欧氏距离的特征向量。由于每次识别的特征向量都为剩余的未携带所述用户类型标识的特征向量中特征最明显的特征向量,所以基于本发明提供的数据识别处理方法,可以将特征越不明显的特征向量放在越后进行识别,而越往后分类模型也就越精确,从而保证了对每个特征向量都起到精确识别的效果,即实现了通过少量的人工标记即可在众多的观众客户端中将全部协议号客户端都查找出来。例如,若所述标记数据集合中有特征向量A、B、C,当前未携带所述用户类型标识的特征向量有D、E、F,则可以先根据标记数据集合中的特征向量A、B、C创建分类模型a1,此时,若检测到特征向量D具有最短欧氏距离,则可以通过分类模型a1对特征向量D进行识别和标记,并将携带所述用户类型标识的特征向量D添加到标记数据集合;再根据标记数据集合中的特征向量A、B、C、D创建分类模型a2,此时,若检测到特征向量F具有最短欧氏距离,则可以通过分类模型a2对特征向量F进行识别和标记,并将携带所述用户类型标识的特征向量F添加到标记数据集合;最后,再根据标记数据集合中的特征向量A、B、C、D、F创建分类模型a3,此时,可知特征向量E具有最短欧氏距离,所以可以通过分类模型a3对特征向量E进行识别和标记,并将携带所述用户类型标识的特征向量E添加到标记数据集合,使得标记数据集合包括特征向量A、B、C、D、E、F。又例如,游戏直播的全量用户超过300万,而初始的标记数据集合中的由人工标记的少量特征向量可以只需包括100个携带非法用户标识的特征向量和100个携带合法用户标识的特征向量,所述数据识别处理装置通过该初始的标记数据集合即可对全部用户的客户端逐一进行识别和标记。
S207,当所述目标特征向量的用户类型标识为非法用户标识时,计算所述目标特征向量分别与所述标记数据集合中携带非法用户标识的特征向量之间的欧氏距离,以获取平均欧氏距离;
具体的,当所有未携带所述用户类型标识的特征向量都被识别并标记之后,所述数据识别处理装置可以对携带非法用户标识的特征向量对应的客户端做出相应的处罚措施。再以所述目标特征向量对应的客户端为例,当所述目标特征向量的用户类型标识为非法用户标识时,计算所述目标特征向量分别与所述标记数据集合中携带非法用户标识的特征向量之间的欧氏距离,以获取平均欧氏距离;同样的,其他携带非法用户标识的特征向量也需计算出对应的平均欧氏距离,计算过程与所述目标特征向量相同。例如,若所述标记数据集合中携带所述非法用户标识的特征向量有A、B、C三个(A为所述目标特征向量),则需要先计算出A与B、B与C、A与C之间的欧氏距离(分别为AB、BC、AC),再计算A的平均欧氏距离为(AB+AC)/2,B的平均欧氏距离为(AB+BC)/2,C的平均欧氏距离为(AC+BC)/2。
S208,根据所述平均欧氏距离计算所述目标特征向量对应的置信度,并对所述目标特征向量对应的置信度和所述标记数据集合中携带非法用户标识的特征向量对应的置信度进行排序;
具体的,所述数据识别处理装置再根据所述目标特征向量的所述平均欧氏距离计算所述目标特征向量对应的置信度,所述平均欧氏距离越长,则所述置信度越低;同样的,所述数据识别处理装置也对其他携带非法用户标识的特征向量计算对应的置信度。所述数据识别处理装置再对所述目标特征向量对应的置信度和其他携带非法用户标识的特征向量对应的置信度进行排序,具体可以按照置信度从大到小的顺序进行排序。
S209,根据所述目标特征向量对应的置信度的排序位置,确定所述目标特征向量对应的非法等级,并根据所述非法等级对应的策略处理方式对所述客户端进行处理;
具体的,所述数据识别处理装置可以根据所述目标特征向量对应的置信度的排序位置,确定所述目标特征向量对应的非法等级,并根据所述非法等级对应的策略处理方式对所述客户端进行处理。例如,所述数据识别处理装置可以预设四个非法等级,分别为重危用户、中危用户、轻危用户以及嫌疑用户,并将置信度排序中排在前10%的特征向量确定为重危用户,排在前10%到30%的特征向量确定为中危用户,排在前30%到60%的特征向量确定为轻危用户,排在前60%到100%的特征向量确定为嫌疑用户;其中,所述嫌疑用户对应的策略处理方式可以为:把用户踢下线,要求输入验证码;所述轻危用户对应的策略处理方式可以为:把用户踢下线并要求用户输入手机号验证,譬如用户可以输入一个手机号,然后输入手机验证码;所述中危用户对应的策略处理方式可以为:把用户踢下线并要求用手机修改密码;所述重危用户对应的策略处理方式可以为:直接封号,如果有反馈需要恢复账号,需人工审核。由此可见,通过计算各个携带非法用户标识的特征向量对应的置信度,可以确定各个携带非法用户标识的特征向量的非法等级,从而可以更加合理的对各个携带非法用户标识的特征向量对应的客户端做出相应处罚。
本发明实施例通过收集客户端的设备信息和用户信息以及业务特征信息,可以构造客户端对应的目标特征向量,并根据所创建的分类模型和目标特征向量中的特征值识别出目标特征向量对应的用户类型,若用户类型为非法用户类型,则可以说明该客户端为协议号客户端,从而可以实现自动识别观众客户端是否为协议号客户端,以降低人力成本;进一步还可以为目标特征向量设置与目标特征向量的用户类型对应的用户类型标识,并将携带有用户类型标识的目标特征向量添加到标记数据集合,以便于后续可以根据新的标记数据集合更新分类模型以对新的目标特征向量进行识别,由此可见,随着标记数据集合中的特征向量的数量增加,所创建的分类模型也会越来越精准,从而对特征不明显的目标特征向量也可以准确识别,即提高了对协议号的识别准确性;而且通过计算各个携带非法用户标识的特征向量对应的置信度,可以确定各个携带非法用户标识的特征向量的非法等级,从而可以更加合理的对各个携带非法用户标识的特征向量对应的客户端做出相应处罚。
请参见图3,是本发明实施例提供的一种数据识别处理装置的结构示意图,所述数据识别处理装置1可以应用于后台服务器,所述数据识别处理装置1可以包括:收集构造模块10、创建识别模块20、设置添加模块30;
所述收集构造模块10,用于收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;所述目标特征向量包括所述设备信息、所述用户信息以及所述业务特征信息分别对应的特征值;
具体的,所述收集构造模块10可以收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量。进一步的,再请一并参见图4,是所述收集构造模块10的结构示意图,所述收集构造模块10包括:收集单元101、向量创建单元102;
所述收集单元101,用于收集客户端的设备信息和用户信息;所述用户信息包括用户身份信息和用户行为信息;
所述向量创建单元102,用于创建所述客户端对应的目标特征向量,并将所述设备信息、所述用户身份信息、所述用户行为信息以及业务特征信息分别对应的特征值作为所述目标特征向量的元素;
其中,所述用户信息可以包括用户身份信息和用户行为信息。其中,所述设备信息可以指用户设备环境信息,具体包括运行的进程特征、被调用的父进程、发送数据包采用的协议等等。所述用户身份信息可以指用户在所述客户端(如观众客户端)的记录,具体包括用户名、年龄、性别、注册地、注册IP、等级、昵称、简介、客户端登录状况等信息。所述用户行为信息可以指游戏直播平台记录的用户在各个频道中的行为,具体包括用户的登录信息、观看信息、消费信息(如送花,送道具等)以及互动行为信息(如留言等);其中,所述用户的登录信息可以包括在统计日起前i天用户累计的登录次数/天数/时长、登录时段、登录IP以及相关频次;所述观看信息可以包括观看直播累计的次数/天数/时长/时段;所述消费信息可以包括消费次数/天数/金额/时段;所述互动行为信息可以包括留言的时段等;其中,所述时段是指行为发生的具体时间。
所述向量创建单元102可以创建所述客户端对应的目标特征向量,并将所述设备信息、所述用户身份信息、所述用户行为信息以及业务特征信息分别对应的特征值作为所述目标特征向量的元素。其中,所述业务特征信息可以包括账号名的长度是否大于15个字符、账号名是否文字和数据混杂、账号名是否含有中文姓名拼音(如人口数据库中获取)、账号名是否含有英文姓名和英文常用词、账号注册IP是否有其他账号注册、账号登录IP是否有其他账号登录、账号是否绑定手机和邮箱、账号是否设定保密问题、账号使用的昵称是否与用户名相同、账号的个人签名和简介是否为空、账号等级和积分等等。
其中,所述目标特征向量的维度为所述目标特征向量中特征值的总数量。考虑到每个特征的原始特征值的原始数值范围不统一,譬如登录时长范围可能在1到3600间,而登录次数范围可能在1到100次内,因此,所述目标特征向量中属于数量值类型的特征值都是通过归一化处理得到的;其中,归一化处理的公式可以为:归一化处理后的某特征的特征值=(该特征的原始特征值-该特征的原始数值范围最小值)/(该特征的原始数值范围最大值-该特征的原始数值范围最小值),做归一化处理后的特征值所对应的数值范围会在[0,1]之间。另外,所述目标特征向量中属于非数量值类型的特征值是通过采用预设的指定数值进行赋值得到的,即对于非数量值类型的特征,可以对其类别赋值以作为所述目标特征向量的一个元素值,譬如特征“男/女”分别赋值为0,1。
所述创建识别模块20,用于基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;
具体的,获得所述目标特征向量后,所述创建识别模块20可以基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型。进一步的,再请一并参见图5,是所述创建识别模块20的结构示意图,所述创建识别模块20可以包括:位置计算单元201、模型创建单元202、距离计算单元203、识别单元204;
所述位置计算单元201,用于根据所述目标特征向量中的特征值,计算在向量空间的超平面中的位置;
具体的,为了提高在所述超平面中的坐标计算效率,所述位置计算单元201还可以具体用于根据用于判断特征值有效性的阈值以及不同特征向量之间的特征值相关性,在所述目标特征向量的特征值中筛选出有效特征值,并根据所述有效特征值计算所述目标特征向量在所述超平面中的位置。由于所述有效特征值的数量比所述目标特征向量中的所有特征值要少,所以可以提高在所述超平面中的坐标计算效率。其中,由于重要的特征携带信息较多,即特征值差异较大,所以所述位置计算单元201通过用于判断特征值有效性的阈值筛选有效特征值的方法具体可以包括:1、数值型特征变异系数大于预定阀值,则该特征可作为有效特征值;2、数值型特征标差大于预定阀值,则该特征可作为有效特征值;3、分类型特征若某类别值的个数小于预定阀值,则该特征可作为有效特征值;4、分类型特征若类别值的数量小于预定阀值,则该特征可作为有效特征值。其中,变异系数=正态分布的标准差/平均值。其中,通过将所述目标特征向量与所述标记数据集合中的特征向量进行比较,可以知道两者相关性值越靠近,特征越重要,所以所述位置计算单元201可以将特征值相关性值高的特征作为有效特征值,其中,检测特征值相关性的方法可以包括三方面检验:pearson相关系数检验、方差分析检验、卡方检验。
所述模型创建单元202,用于基于支持向量机SVM分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识,在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;所述分类模型包括在所述超平面中的合法用户区域和非法用户区域;
具体的,所述模型创建单元202可以基于SVM分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识(所述用户类型标识包括合法用户标识和非法用户标识),在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;其中,所述分类模型包括在所述超平面中的合法用户区域和非法用户区域,所述合法用户区域包括携带合法用户标识的特征向量,所述非法用户区域包括携带非法用户标识的特征向量,所述合法用户区域和非法用户区域均还可以包括多个未携带所述用户类型标识的特征向量,所述标记数据集合中的多个特征向量以及所述未携带所述用户类型标识的特征向量在所述超平面中的位置都是预先由所述位置计算单元201根据各特征向量的特征值(或有效特征值)所计算得到的,所述未携带所述用户类型标识的特征向量至少包括所述目标特征向量。
所述距离计算单元203,用于计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离;
具体的,所述模型创建单元202创建所述分类模型后,所述距离计算单元203可以计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离,例如,若未携带所述用户类型标识的特征向量有A、B两个,所述标记数据集合中的特征向量有C、D、E三个,则所述距离计算单元203需要分别计算A与C、A与D、A与E、B与C、B与D、B与E之间的欧氏距离。其中,计算两个特征向量之间的欧氏距离的公式为:d=sqrt(∑(Xi1-Xi2)^2),i=1,2..n;Xi1为其中一个特征向量中某特征的特征值,Xi2为另一个特征向量中该特征的特征值。
所述识别单元204,用于当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型;
具体的,当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,说明与所述目标特征向量相关联的至少一个欧氏距离中存在其中一个欧氏距离为所计算的所有欧氏距离中的最短欧氏距离,此时,所述识别单元204可以根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型,即如果所述目标特征向量在所述超平面中的位置属于所述分类模型中的合法用户区域,则所述识别单元204可以识别出所述目标特征向量对应的用户类型为合法用户,即说明所述目标特征向量对应的客户端不是协议号客户端;如果所述目标特征向量在所述超平面中的位置属于所述分类模型中的非法用户区域,则所述识别单元204可以识别出所述目标特征向量对应的用户类型为非法用户,即说明所述目标特征向量对应的客户端是协议号客户端。进一步的,当所述目标特征向量对应的欧氏距离不为所计算的所有欧氏距离中的最短欧氏距离时,暂时不对所述目标特征向量进行识别,并且当前只对具有最短欧氏距离的未携带所述用户类型标识的特征向量进行识别。例如,若未携带所述用户类型标识的特征向量有A、B两个,所述标记数据集合中的特征向量有C、D、E三个,并分别计算出A与C、A与D、A与E、B与C、B与D、B与E之间的欧氏距离,且检测出A与C为所有欧氏距离中的最短欧氏距离,则所述识别单元204可以通过所述分类模型先对A的用户类型进行识别。
其中,选择最短欧氏距离的目的是为了选择出当前所有未携带所述用户类型标识的特征向量中特征最明显的特征向量,即欧氏距离越短,说明该未携带所述用户类型标识的特征向量离携带所述用户类型标识的特征向量越近,即说明该未携带所述用户类型标识的特征向量的特征值越接近携带所述用户类型标识的特征向量的特征值,即该未携带所述用户类型标识的特征向量的特征越明显,通过对特征最明显的特征向量进行识别可以保证当前的识别是最准确的。
所述设置添加模块30,用于为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别;
具体的,在识别出所述目标特征向量对应的用户类型后,所述设置添加模块30可以为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别。其中,初始的标记数据集合中的少量特征向量可以通过人工标记其对应的用户类型标识,随着大量未携带所述用户类型标识的特征向量被逐一识别、标记,可以使标记数据集合中的特征向量越来越多,因此,重新根据新的标记数据集合所建立的新的分类模型将会比原先的分类模型更为精确,所以基于所述新的分类模型可以对所述新的目标特征向量进行精确的识别,所述新的目标特征向量可以是在剩余的未携带所述用户类型标识的特征向量中所选择出的具有最短欧氏距离的特征向量。由于每次识别的特征向量都为剩余的未携带所述用户类型标识的特征向量中特征最明显的特征向量,即将特征越不明显的特征向量放在越后进行识别,而越往后分类模型也就越精确,所以可以保证对每个特征向量都起到精确识别的效果,即实现了通过少量的人工标记即可在众多的观众客户端中将全部协议号客户端都查找出来。例如,若所述标记数据集合中有特征向量A、B、C,当前未携带所述用户类型标识的特征向量有D、E、F,则所述创建识别模块20可以先根据标记数据集合中的特征向量A、B、C创建分类模型a1,此时,若检测到特征向量D具有最短欧氏距离,则可以通过分类模型a1对特征向量D进行识别和标记,并由所述设置添加模块30将携带所述用户类型标识的特征向量D添加到标记数据集合;所述创建识别模块20再根据标记数据集合中的特征向量A、B、C、D创建分类模型a2,此时,若检测到特征向量F具有最短欧氏距离,则可以通过分类模型a2对特征向量F进行识别和标记,并由所述设置添加模块30将携带所述用户类型标识的特征向量F添加到标记数据集合;最后,所述创建识别模块20再根据标记数据集合中的特征向量A、B、C、D、F创建分类模型a3,此时,可知特征向量E具有最短欧氏距离,所以可以通过分类模型a3对特征向量E进行识别和标记,并由所述设置添加模块30将携带所述用户类型标识的特征向量E添加到标记数据集合,使得标记数据集合包括特征向量A、B、C、D、E、F。又例如,游戏直播的全量用户超过300万,而初始的标记数据集合中的由人工标记的少量特征向量可以只需包括100个携带非法用户标识的特征向量和100个携带合法用户标识的特征向量,所述数据识别处理装置1通过该初始的标记数据集合即可对全部用户的客户端逐一进行识别和标记。
本发明实施例通过收集客户端的设备信息和用户信息以及业务特征信息,可以构造客户端对应的目标特征向量,并根据所创建的分类模型和目标特征向量中的特征值识别出目标特征向量对应的用户类型,若用户类型为非法用户类型,则可以说明该客户端为协议号客户端,从而可以实现自动识别观众客户端是否为协议号客户端,以降低人力成本;进一步还可以为目标特征向量设置与目标特征向量的用户类型对应的用户类型标识,并将携带有用户类型标识的目标特征向量添加到标记数据集合,以便于后续可以根据新的标记数据集合更新分类模型以对新的目标特征向量进行识别,由此可见,随着标记数据集合中的特征向量的数量增加,所创建的分类模型也会越来越精准,从而对特征不明显的目标特征向量也可以准确识别,即提高了对协议号的识别准确性。
再请参见图6,是本发明实施例提供的另一种数据识别处理装置的结构示意图,所述数据识别处理装置1可以应用于后台服务器,所述数据识别处理装置1可以包括上述图3对应实施例中的收集构造模块10、创建识别模块20、设置添加模块30,进一步的,所述数据识别处理装置1还可以包括:计算模块40、排序模块50、策略处理模块60;
所述计算模块40,用于当所述目标特征向量的用户类型标识为非法用户标识时,计算所述目标特征向量分别与所述标记数据集合中携带非法用户标识的特征向量之间的欧氏距离,以获取平均欧氏距离;
具体的,当所有未携带所述用户类型标识的特征向量都被识别并标记之后,所述数据识别处理装置1可以对携带非法用户标识的特征向量对应的客户端做出相应的处罚措施。再以所述目标特征向量对应的客户端为例,当所述目标特征向量的用户类型标识为非法用户标识时,所述计算模块40可以计算所述目标特征向量分别与所述标记数据集合中携带非法用户标识的特征向量之间的欧氏距离,以获取平均欧氏距离;同样的,其他携带非法用户标识的特征向量也需计算出对应的平均欧氏距离,计算过程与所述目标特征向量相同。例如,若所述标记数据集合中携带所述非法用户标识的特征向量有A、B、C三个(A为所述目标特征向量),则需要由所述计算模块40先计算出A与B、B与C、A与C之间的欧氏距离(分别为AB、BC、AC),再计算A的平均欧氏距离为(AB+AC)/2,B的平均欧氏距离为(AB+BC)/2,C的平均欧氏距离为(AC+BC)/2。
所述计算模块40,还用于根据所述平均欧氏距离计算所述目标特征向量对应的置信度;
所述排序模块50,用于对所述目标特征向量对应的置信度和所述标记数据集合中携带非法用户标识的特征向量对应的置信度进行排序;
具体的,所述计算模块40再根据所述目标特征向量的所述平均欧氏距离计算所述目标特征向量对应的置信度,所述平均欧氏距离越长,则所述置信度越低;同样的,所述计算模块40也对其他携带非法用户标识的特征向量计算对应的置信度。所述排序模块50再对所述目标特征向量对应的置信度和其他携带非法用户标识的特征向量对应的置信度进行排序,具体可以按照置信度从大到小的顺序进行排序。
所述策略处理模块60,用于根据所述目标特征向量对应的置信度的排序位置,确定所述目标特征向量对应的非法等级,并根据所述非法等级对应的策略处理方式对所述客户端进行处理;
具体的,所述策略处理模块60可以根据所述目标特征向量对应的置信度的排序位置,确定所述目标特征向量对应的非法等级,并根据所述非法等级对应的策略处理方式对所述客户端进行处理。例如,预设四个非法等级,分别为重危用户、中危用户、轻危用户以及嫌疑用户,并由所述策略处理模块60将置信度排序中排在前10%的特征向量确定为重危用户,排在前10%到30%的特征向量确定为中危用户,排在前30%到60%的特征向量确定为轻危用户,排在前60%到100%的特征向量确定为嫌疑用户;其中,所述嫌疑用户对应的策略处理方式可以为:把用户踢下线,要求输入验证码;所述轻危用户对应的策略处理方式可以为:把用户踢下线并要求用户输入手机号验证,譬如用户可以输入一个手机号,然后输入手机验证码;所述中危用户对应的策略处理方式可以为:把用户踢下线并要求用手机修改密码;所述重危用户对应的策略处理方式可以为:直接封号,如果有反馈需要恢复账号,需人工审核。由此可见,通过计算各个携带非法用户标识的特征向量对应的置信度,可以确定各个携带非法用户标识的特征向量的非法等级,从而可以更加合理的对各个携带非法用户标识的特征向量对应的客户端做出相应处罚。
本发明实施例通过收集客户端的设备信息和用户信息以及业务特征信息,可以构造客户端对应的目标特征向量,并根据所创建的分类模型和目标特征向量中的特征值识别出目标特征向量对应的用户类型,若用户类型为非法用户类型,则可以说明该客户端为协议号客户端,从而可以实现自动识别观众客户端是否为协议号客户端,以降低人力成本;进一步还可以为目标特征向量设置与目标特征向量的用户类型对应的用户类型标识,并将携带有用户类型标识的目标特征向量添加到标记数据集合,以便于后续可以根据新的标记数据集合更新分类模型以对新的目标特征向量进行识别,由此可见,随着标记数据集合中的特征向量的数量增加,所创建的分类模型也会越来越精准,从而对特征不明显的目标特征向量也可以准确识别,即提高了对协议号的识别准确性;而且通过计算各个携带非法用户标识的特征向量对应的置信度,可以确定各个携带非法用户标识的特征向量的非法等级,从而可以更加合理的对各个携带非法用户标识的特征向量对应的客户端做出相应处罚。
请参见图7,是本发明实施例提供的又一种数据识别处理装置的结构示意图,所述数据识别处理装置1000可以包括处理器1001、通信接口1002和存储器1003(所述数据识别处理装置1000中的处理器1001的数量可以为一个或多个,图7中以一个处理器为例)。本发明的一些实施例中,处理器1001、通信接口1002和存储器1003可通过通信总线或其他方式连接,其中,图7以通过通信总线连接为例。
其中,所述通信接口1002,用于与客户端进行通信;
所述存储器1003用于存储程序;
所述处理器1001用于执行所述程序,以实现
收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;所述目标特征向量包括所述设备信息、所述用户信息以及所述业务特征信息分别对应的特征值;
基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;
为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别;所述用户类型标识包括合法用户标识和非法用户标识。
在一个实施例中,所述处理器1001还用于:
当所述目标特征向量的用户类型标识为非法用户标识时,计算所述目标特征向量分别与所述标记数据集合中携带非法用户标识的特征向量之间的欧氏距离,以获取平均欧氏距离;
根据所述平均欧氏距离计算所述目标特征向量对应的置信度,并对所述目标特征向量对应的置信度和所述标记数据集合中携带非法用户标识的特征向量对应的置信度进行排序;
根据所述目标特征向量对应的置信度的排序位置,确定所述目标特征向量对应的非法等级,并根据所述非法等级对应的策略处理方式对所述客户端进行处理。
在一个实施例中,所述处理器1001在执行收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量时,具体用于:
收集客户端的设备信息和用户信息;所述用户信息包括用户身份信息和用户行为信息;
创建所述客户端对应的目标特征向量,并将所述设备信息、所述用户身份信息、所述用户行为信息以及业务特征信息分别对应的特征值作为所述目标特征向量的元素;
其中,所述目标特征向量的维度为所述目标特征向量中特征值的总数量;所述目标特征向量中属于数量值类型的特征值是通过归一化处理得到的,且属于非数量值类型的特征值是通过采用预设的指定数值进行赋值得到的。
在一个实施例中,所述处理器1001在执行基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型时,具体用于:
根据所述目标特征向量中的特征值,计算在向量空间的超平面中的位置;
基于支持向量机SVM分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识,在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;所述分类模型包括在所述超平面中的合法用户区域和非法用户区域;
计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离;所有未携带所述用户类型标识的特征向量至少包括所述目标特征向量;
当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型。
在一个实施例中,所述处理器1001在执行根据所述目标特征向量中的特征值,计算在向量空间的超平面中的位置时,具体用于:
根据用于判断特征值有效性的阈值以及不同特征向量之间的特征值相关性,在所述目标特征向量的特征值中筛选出有效特征值,并根据所述有效特征值计算所述目标特征向量在所述超平面中的位置。
本发明实施例通过收集客户端的设备信息和用户信息以及业务特征信息,可以构造客户端对应的目标特征向量,并根据所创建的分类模型和目标特征向量中的特征值识别出目标特征向量对应的用户类型,若用户类型为非法用户类型,则可以说明该客户端为协议号客户端,从而可以实现自动识别观众客户端是否为协议号客户端,以降低人力成本;进一步还可以为目标特征向量设置与目标特征向量的用户类型对应的用户类型标识,并将携带有用户类型标识的目标特征向量添加到标记数据集合,以便于后续可以根据新的标记数据集合更新分类模型以对新的目标特征向量进行识别,由此可见,随着标记数据集合中的特征向量的数量增加,所创建的分类模型也会越来越精准,从而对特征不明显的目标特征向量也可以准确识别,即提高了对协议号的识别准确性;而且通过计算各个携带非法用户标识的特征向量对应的置信度,可以确定各个携带非法用户标识的特征向量的非法等级,从而可以更加合理的对各个携带非法用户标识的特征向量对应的客户端做出相应处罚。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种数据识别处理方法,其特征在于,包括:
收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;所述目标特征向量包括所述设备信息、所述用户信息以及所述业务特征信息分别对应的特征值;
基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,当分布在超平面中的所述目标特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离包含最短欧氏距离时,根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;其中,所述目标特征向量在所述超平面中的位置是根据目标特征向量中的有效特征值计算得到的;所述有效特征值是根据用于判断特征值有效性的阈值以及不同特征向量之间的特征值相关性筛选得到的,所述特征值相关性是基于pearson相关系数检验、方差分析检验、卡方检验得到的;
为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别;所述用户类型标识包括合法用户标识和非法用户标识。
2.如权利要求1所述的方法,其特征在于,还包括:
当所述目标特征向量的用户类型标识为非法用户标识时,计算所述目标特征向量分别与所述标记数据集合中携带非法用户标识的特征向量之间的欧氏距离,以获取平均欧氏距离;
根据所述平均欧氏距离计算所述目标特征向量对应的置信度,并对所述目标特征向量对应的置信度和所述标记数据集合中携带非法用户标识的特征向量对应的置信度进行排序;
根据所述目标特征向量对应的置信度的排序位置,确定所述目标特征向量对应的非法等级,并根据所述非法等级对应的策略处理方式对所述客户端进行处理。
3.如权利要求1所述的方法,其特征在于,所述收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量,包括:
收集客户端的设备信息和用户信息;所述用户信息包括用户身份信息和用户行为信息;
创建所述客户端对应的目标特征向量,并将所述设备信息、所述用户身份信息、所述用户行为信息以及业务特征信息分别对应的特征值作为所述目标特征向量的元素;
其中,所述目标特征向量的维度为所述目标特征向量中特征值的总数量;所述目标特征向量中属于数量值类型的特征值是通过归一化处理得到的,且属于非数量值类型的特征值是通过采用预设的指定数值进行赋值得到的。
4.如权利要求1所述的方法,其特征在于,所述基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,并根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型,包括:
根据所述目标特征向量中的特征值,计算在向量空间的超平面中的位置;
基于支持向量机SVM分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识,在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;所述分类模型包括在所述超平面中的合法用户区域和非法用户区域;
计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离;所有未携带所述用户类型标识的特征向量至少包括所述目标特征向量;
当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型。
5.如权利要求4所述的方法,其特征在于,所述根据所述目标特征向量中的特征值,计算在向量空间的超平面中的位置,具体包括:
根据用于判断特征值有效性的阈值以及不同特征向量之间的特征值相关性,在所述目标特征向量的特征值中筛选出有效特征值,并根据所述有效特征值计算所述目标特征向量在所述超平面中的位置。
6.一种数据识别处理装置,其特征在于,包括:
收集构造模块,用于收集客户端的设备信息和用户信息,并根据所述设备信息、所述用户信息以及业务特征信息构造所述客户端对应的目标特征向量;所述目标特征向量包括所述设备信息、所述用户信息以及所述业务特征信息分别对应的特征值;
创建识别模块,用于基于标记数据集合中的多个特征向量分别携带的用户类型标识,创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型,当分布在超平面中的所述目标特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离包含最短欧氏距离时,根据所述分类模型和所述目标特征向量中的特征值识别出所述目标特征向量对应的用户类型;其中,所述目标特征向量在所述超平面中的位置是根据目标特征向量中的有效特征值计算得到的;所述有效特征值是根据用于判断特征值有效性的阈值以及不同特征向量之间的特征值相关性筛选得到的,所述特征值相关性是基于pearson相关系数检验、方差分析检验、卡方检验得到的;
设置添加模块,用于为所述目标特征向量设置与所述目标特征向量的用户类型对应的用户类型标识,并将携带有所述用户类型标识的目标特征向量添加到所述标记数据集合,以便于后续根据新的标记数据集合更新所述分类模型以对新的目标特征向量进行识别;所述用户类型标识包括合法用户标识和非法用户标识。
7.如权利要求6所述的装置,其特征在于,还包括:
计算模块,用于当所述目标特征向量的用户类型标识为非法用户标识时,计算所述目标特征向量分别与所述标记数据集合中携带非法用户标识的特征向量之间的欧氏距离,以获取平均欧氏距离;
所述计算模块,还用于根据所述平均欧氏距离计算所述目标特征向量对应的置信度;
排序模块,用于对所述目标特征向量对应的置信度和所述标记数据集合中携带非法用户标识的特征向量对应的置信度进行排序;
策略处理模块,用于根据所述目标特征向量对应的置信度的排序位置,确定所述目标特征向量对应的非法等级,并根据所述非法等级对应的策略处理方式对所述客户端进行处理。
8.如权利要求6所述的装置,其特征在于,所述收集构造模块包括:
收集单元,用于收集客户端的设备信息和用户信息;所述用户信息包括用户身份信息和用户行为信息;
向量创建单元,用于创建所述客户端对应的目标特征向量,并将所述设备信息、所述用户身份信息、所述用户行为信息以及业务特征信息分别对应的特征值作为所述目标特征向量的元素;
其中,所述目标特征向量的维度为所述目标特征向量中特征值的总数量;所述目标特征向量中属于数量值类型的特征值是通过归一化处理得到的,且属于非数量值类型的特征值是通过采用预设的指定数值进行赋值得到的。
9.如权利要求6所述的装置,其特征在于,所述创建识别模块包括:
位置计算单元,用于根据所述目标特征向量中的特征值,计算在向量空间的超平面中的位置;
模型创建单元,用于基于支持向量机SVM分类器以及标记数据集合中的多个特征向量分别携带的用户类型标识,在所述超平面中创建用于对所述标记数据集合中的多个特征向量进行分类的分类模型;所述分类模型包括在所述超平面中的合法用户区域和非法用户区域;
距离计算单元,用于计算分布在所述超平面中所有未携带所述用户类型标识的特征向量与所述标记数据集合中的多个特征向量之间的欧氏距离;所有未携带所述用户类型标识的特征向量至少包括所述目标特征向量;
识别单元,用于当所述目标特征向量对应的欧氏距离为所计算的所有欧氏距离中的最短欧氏距离时,根据所述目标特征向量在所述超平面中的位置,确定所述目标特征向量在所述分类模型中的区域,以识别所述目标特征向量对应的用户类型。
10.如权利要求9所述的装置,其特征在于,
所述位置计算单元,具体用于根据用于判断特征值有效性的阈值以及不同特征向量之间的特征值相关性,在所述目标特征向量的特征值中筛选出有效特征值,并根据所述有效特征值计算所述目标特征向量在所述超平面中的位置。
CN201510835028.1A 2015-11-25 2015-11-25 一种数据识别处理方法以及装置 Active CN105491444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510835028.1A CN105491444B (zh) 2015-11-25 2015-11-25 一种数据识别处理方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510835028.1A CN105491444B (zh) 2015-11-25 2015-11-25 一种数据识别处理方法以及装置

Publications (2)

Publication Number Publication Date
CN105491444A CN105491444A (zh) 2016-04-13
CN105491444B true CN105491444B (zh) 2018-11-06

Family

ID=55678102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510835028.1A Active CN105491444B (zh) 2015-11-25 2015-11-25 一种数据识别处理方法以及装置

Country Status (1)

Country Link
CN (1) CN105491444B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089581A1 (en) * 2016-09-27 2018-03-29 Futurewei Technologies, Inc. Apparatus and method for dataset model fitting using a classifying engine
CN108268877A (zh) * 2016-12-30 2018-07-10 中国移动通信集团黑龙江有限公司 一种识别目标终端的方法和装置
CN108399418B (zh) * 2018-01-23 2021-09-03 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN110166344B (zh) * 2018-04-25 2021-08-24 腾讯科技(深圳)有限公司 一种身份标识识别方法、装置以及相关设备
CN110557447B (zh) * 2019-08-26 2022-06-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器
CN111417021B (zh) * 2020-03-16 2022-07-08 广州虎牙科技有限公司 外挂识别方法、装置、计算机设备和可读存储介质
CN111766487A (zh) * 2020-07-31 2020-10-13 南京南瑞继保电气有限公司 基于多性质特征量的电缆局部放电缺陷类型辨识方法
CN113521751B (zh) * 2021-07-27 2023-11-14 腾讯科技(深圳)有限公司 操作测试方法和装置、存储介质及电子设备
CN114466358B (zh) * 2022-01-30 2023-10-31 全球能源互联网研究院有限公司 一种基于零信任的用户身份持续认证方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN102708186A (zh) * 2012-05-11 2012-10-03 上海交通大学 一种钓鱼网站的识别方法
CN102768659A (zh) * 2011-05-03 2012-11-07 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
CN104471501A (zh) * 2012-06-12 2015-03-25 西门子公司 用于设备状态监测中故障诊断的归纳的模式识别
CN104579773A (zh) * 2014-12-31 2015-04-29 北京奇虎科技有限公司 域名系统分析方法及装置
CN104933082A (zh) * 2014-03-21 2015-09-23 华为技术有限公司 评价信息处理方法及其装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN102768659A (zh) * 2011-05-03 2012-11-07 阿里巴巴集团控股有限公司 重复账号自动识别方法和系统
CN102708186A (zh) * 2012-05-11 2012-10-03 上海交通大学 一种钓鱼网站的识别方法
CN104471501A (zh) * 2012-06-12 2015-03-25 西门子公司 用于设备状态监测中故障诊断的归纳的模式识别
CN104933082A (zh) * 2014-03-21 2015-09-23 华为技术有限公司 评价信息处理方法及其装置
CN104579773A (zh) * 2014-12-31 2015-04-29 北京奇虎科技有限公司 域名系统分析方法及装置

Also Published As

Publication number Publication date
CN105491444A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105491444B (zh) 一种数据识别处理方法以及装置
CN105447147B (zh) 一种数据处理方法及装置
CN106445796B (zh) 作弊渠道的自动检测方法及装置
CN108540431A (zh) 账号类型的识别方法、装置和系统
CN103455411B (zh) 日志分类模型的建立、行为日志分类方法及装置
CN112364202A (zh) 视频推荐方法、装置及电子设备
CN108304426B (zh) 标识的获取方法及装置
CN108399418A (zh) 一种用户分类方法及装置
CN111522724B (zh) 异常账号的确定方法、装置、服务器及存储介质
CN106469261A (zh) 一种身份验证方法及装置
CN107517394A (zh) 识别非法用户的方法、装置及计算机可读存储介质
CN110348519A (zh) 金融产品欺诈团伙的识别方法和装置
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和系统
CN105516192B (zh) 一种邮件地址安全识别控制方法和装置
CN108985048B (zh) 模拟器识别方法及相关装置
EP3882825A1 (en) Learning model application system, learning model application method, and program
CN107529093A (zh) 一种视频文件播放量的检测方法及系统
CN109478219A (zh) 用于显示网络分析的用户界面
CN106301979B (zh) 检测异常渠道的方法和系统
CN111179023B (zh) 订单识别方法及装置
CN107622406A (zh) 识别虚拟设备的方法及系统
CN109062945B (zh) 一种社交网络的信息推荐方法、装置及系统
EP3783543A1 (en) Learning system, learning method, and program
CN109685662A (zh) 投资数据处理方法、装置、计算机设备及其存储介质
CN110569475A (zh) 一种网民影响力的评估方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 519000 High-tech Zone, Zhuhai City, Guangdong Province, Unit 1, Fourth Floor C, Building A, Headquarters Base No. 1, Qianwan Third Road, Tangjiawan Town

Patentee after: ZHUHAI DUOWAN INFORMATION TECHNOLOGY LIMITED

Address before: 510000 Nancun Town Wanbo Business Center, Panyu District, Guangzhou City, Guangdong Province, 29 floors of B-1 Building, Wanda Business Plaza North District

Patentee before: ZHUHAI DUOWAN INFORMATION TECHNOLOGY LIMITED