CN104537118B - 一种微博数据处理方法、装置及系统 - Google Patents
一种微博数据处理方法、装置及系统 Download PDFInfo
- Publication number
- CN104537118B CN104537118B CN201510036778.2A CN201510036778A CN104537118B CN 104537118 B CN104537118 B CN 104537118B CN 201510036778 A CN201510036778 A CN 201510036778A CN 104537118 B CN104537118 B CN 104537118B
- Authority
- CN
- China
- Prior art keywords
- negative
- positive
- value
- subvalue
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000000052 comparative effect Effects 0.000 claims abstract 6
- 238000000605 extraction Methods 0.000 claims description 387
- 238000012549 training Methods 0.000 claims description 82
- 239000000284 extract Substances 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 7
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims 16
- 244000046052 Phaseolus vulgaris Species 0.000 claims 16
- 108010001267 Protein Subunits Proteins 0.000 claims 15
- 235000013399 edible fruits Nutrition 0.000 claims 3
- 230000006870 function Effects 0.000 description 63
- 238000004364 calculation method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 239000004235 Orange GGN Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004173 sunset yellow FCF Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种微博数据处理方法、装置及系统,所述方法中使用最大熵分类器计算每个待分类特征值在待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;然后得到待分类正预测条件概率和待分类负预测条件概率;在比较结果为待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在比较结果为待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本对应的两个账号属于同一用户,在预测出待测样本的类别为负时,确定出待测样本对应的两个账号不属于同一用户,从而实现了对不同微博网站下的同一用户的识别。
Description
技术领域
本申请涉及自然语言处理及社交网络领域,特别涉及一种微博数据处理方法、装置及系统。
背景技术
近几年来,随着社交网络的迅猛发展,微型博客(Micro-blog)备受用户的青睐,如新浪微博、腾讯微博是国内知名的微博网站,截止到2012年12月,新浪微博注册用户突破5.03亿,腾讯微博则达到了5.4亿,而微博用户每日发博量超过惊人的2亿条。由于微博既具有媒体传播特性,又具有社交网络特性,因此吸引了众多研究人员对微博数据进行分析研究。
其中,对微博数据进行分析研究中,识别不同微博网站下的同一用户是比较重要的,因为能够识别出不同微博网站下的同一用户将有利于企业制定精准的广告投放,有助于研究同一用户使用不同社交网络的使用动机分析及其相关分析以此来帮助社交网络运营更好的开发社交网络产品。
但是,目前尚不存在一种行之有效的方法来识别出不同微博网站下的同一用户。
发明内容
为解决上述技术问题,本申请实施例提供一种微博数据处理方法、装置及系统,以达到对不同微博网站下的同一用户的识别的目的,技术方案如下:
一种微博数据处理方法,包括:
对待测样本进行特征抽取,得到待测特征抽取结果值,其中,所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同;
确定所述待测特征抽取结果值所包含的各个数值为待分类特征值;
使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;
将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;
比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;
在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;
在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负;
在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用户;
在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用户。
优选的,所述使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程,包括:
使用最大熵目标函数公式分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该y为待测样本,该x为待分类特征值,Pλ(y|x)为待分类预测子条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同x对应的不同特征函数值的权值相同,为对每个待分类特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数;
其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该待分类特征值对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若待分类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为0。
优选的,所述第一微博账号信息和所述第二微博账号信息各自至少包括:
用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例。
优选的,所述对待测样本进行特征抽取,得到待测特征抽取结果值的过程,包括:
判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相同,则用数值0表示待测特征抽取结果第一子值;
判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同,若相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用数值0表示待测特征抽取结果第二子值;
判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同,若相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用数值0表示待测特征抽取结果第三子值;
比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写,用数值0表示待测特征抽取结果第四子值,若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博账号信息中的年龄已填写,则用数值1表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄相同,则用数值2表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相同,则用数值3表示待测特征抽取结果第四子值;
判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相同,若相同,则用数值1表示待测特征抽取结果第五子值,若不相同,则用数值0表示待测特征抽取结果第五子值;
判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示待测特征抽取结果第六子值,若否,则用数值0表示待测特征抽取结果第六子值;
将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和所述待测特征抽取结果第六子值组成待测特征抽取结果值。
优选的,所述最大熵分类器的训练过程包括:
获取多个不同的正类样本和多个不同的负类样本,所述正类样本包括两个正账号信息,两个正账号信息分别为同一用户在两个不同微博网站中的账号信息,所述负类样本包括两个负账号信信息,两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站,所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同,所述待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同;
分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本;
确定各个所述正训练样本和各个所述负训练样本中包含的数值为特征值;
依据公式分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率;
其中,所述y为任意一个正训练样本或任意一个负训练样本,所述x为特征值,Pλ(y|x)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)的权值且相同x对应的不同特征函数值的权值相同,为对每个特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数,所述λi的初始值已知;
利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自对应的特征函数值的正最优权值;
利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自对应的特征函数值的负最优权值。
优选的,在所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本的过程包括:
判断各个正类样本各自的两个正账号信息中的用户ID是否相同,若相同,则用数值1表示正特征抽取结果第一子值,若不相同,则用数值0表示正特征抽取结果第一子值;
判断各个正类样本各自的两个正账号信息中的昵称是否相同,若相同,则用数值1表示正特征抽取结果第二子值,若不相同,则用数值0表示正特征抽取结果第二子值;
判断各个正类样本各自的两个正账号信息中的性别是否相同,若相同,则用数值1表示正特征抽取结果第三子值,若不相同,则用数值0表示正特征抽取结果第三子值;
比较各个正类样本各自的两个正账号信息中的年龄,若两个正账号信息中的年龄均未填写,用数值0表示正特征抽取结果第四子值,若两个正账号信息中仅有一个正账号信息中的年龄已填写,则用数值1表示正特征抽取结果第四子值,若两个正账号信息中的年龄相同,则用数值2表示正特征抽取结果第四子值,若两个正账号信息中的年龄不相同,则用数值3表示正特征抽取结果第四子值;
判断各个正类样本各自的两个正账号信息中的所在地是否相同,若相同,则用数值1表示正特征抽取结果第五子值,若不相同,则用数值0表示正特征抽取结果第五子值;
判断各个正类样本各自的两个正账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示正特征抽取结果第六子值,若否,则用数值0表示正特征抽取结果第六子值;
将各个正类样本各自对应的所述正特征抽取结果第一子值、所述正特征抽取结果第二子值、所述正特征抽取结果第三子值、所述正特征抽取结果第四子值、所述正特征抽取结果第五子值和所述正特征抽取结果第六子值组成正特征抽取结果值,作为各个正类样本各自对应的正训练样本;
判断各个负类样本各自的两个负账号信息中的用户ID是否相同,若相同,则用数值1表示负特征抽取结果第一子值,若不相同,则用数值0表示负特征抽取结果第一子值;
判断各个负类样本各自的两个负账号信息中的昵称是否相同,若相同,则用数值1表示负特征抽取结果第二子值,若不相同,则用数值0表示负特征抽取结果第二子值;
判断各个负类样本各自的两个负账号信息中的性别是否相同,若相同,则用数值1表示负特征抽取结果第三子值,若不相同,则用数值0表示负特征抽取结果第三子值;
比较各个负类样本各自的两个负账号信息中的年龄,若两个负账号信息中的年龄均未填写,用数值0表示负特征抽取结果第四子值,若两个负账号信息中仅有一个负账号信息中的年龄已填写,则用数值1表示负特征抽取结果第四子值,若两个负账号信息中的年龄相同,则用数值2表示负特征抽取结果第四子值,若两个负账号信息中的年龄不相同,则用数值3表示负特征抽取结果第四子值;
判断各个负类样本各自的两个负账号信息中的所在地是否相同,若相同,则用数值1表示负特征抽取结果第五子值,若不相同,则用数值0表示负特征抽取结果第五子值;
判断各个负类样本各自的两个负账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示负特征抽取结果第六子值,若否,则用数值0表示负特征抽取结果第六子值;
将各个负类样本各自对应的所述负特征抽取结果第一子值、所述负特征抽取结果第二子值、所述负特征抽取结果第三子值、所述负特征抽取结果第四子值、所述负特征抽取结果第五子值和所述负特征抽取结果第六子值组成负特征抽取结果值,作为各个负类样本各自对应的负训练样本。
一种微博数据处理装置,包括:
第一特征抽取单元,用于对待测样本进行特征抽取,得到待测特征抽取结果值,其中,所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同;
第一确定单元,用于确定所述待测特征抽取结果值所包含的各个数值为待分类特征值;
第一计算单元,用于使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;
第二计算单元,用于将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;
比较单元,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第二确定单元确定所述待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第三确定单元确定所述待测样本的类别为负;
第四确定单元,用于在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用户;
第五确定单元,用于在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用户。
优选的,所述第一计算单元包括:
计算子单元,用于使用最大熵目标函数公式分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该y为待测样本,该x为待分类特征值,Pλ(y|x)为待分类预测子条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同x对应的不同特征函数值的权值相同,为对每个待分类特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数;
其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该待分类特征值对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若待分类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为0。
优选的,在所述第一微博账号信息和所述第二微博账号信息各自至少包括:用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述第一特征抽取单元包括:
第一判断子单元,用于判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相同,则用数值0表示待测特征抽取结果第一子值;
第二判断子单元,用于判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同,若相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用数值0表示待测特征抽取结果第二子值;
第三判断子单元,用于判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同,若相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用数值0表示待测特征抽取结果第三子值;
第一比较子单元,用于比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写,用数值0表示待测特征抽取结果第四子值,若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博账号信息中的年龄已填写,则用数值1表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄相同,则用数值2表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相同,则用数值3表示待测特征抽取结果第四子值;
第四判断子单元,用于判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相同,若相同,则用数值1表示待测特征抽取结果第五子值,若不相同,则用数值0表示待测特征抽取结果第五子值;
第五判断子单元,用于判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示待测特征抽取结果第六子值,若否,则用数值0表示待测特征抽取结果第六子值;
第一组成子单元,用于将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和所述待测特征抽取结果第六子值组成待测特征抽取结果值。
一种微博数据处理系统,包括最大熵分类器训练装置和如上述任意一项所述的微博数据处理装置,其中,所述最大熵分类器训练装置包括:
获取单元,用于获取多个不同的正类样本和多个不同的负类样本,所述正类样本包括两个正账号信息,两个正账号信息分别为同一用户在两个不同微博网站中的账号信息,所述负类样本包括两个负账号信信息,两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站,所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同,所述待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同,所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例;
第二特征抽取单元,用于分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本;
第六确定单元,用于确定各个所述正训练样本和各个所述负训练样本中包含的数值为特征值;
第三计算单元,用于依据公式分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率,其中,所述y为任意一个正训练样本或任意一个负训练样本,所述x为特征值,Pλ(y|x)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)的权值且相同x对应的不同特征函数值的权值相同,为对每个特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数,所述λi的初始值已知;
第四计算单元,用于利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自对应的特征函数值的正最优权值;
第五计算单元,用于利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自对应的特征函数值的负最优权值。
优选的,在所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述第二特征抽取单元包括:
第六判断子单元,用于判断各个正类样本各自的两个正账号信息中的用户ID是否相同,若相同,则用数值1表示正特征抽取结果第一子值,若不相同,则用数值0表示正特征抽取结果第一子值;
第七判断子单元,用于判断各个正类样本各自的两个正账号信息中的昵称是否相同,若相同,则用数值1表示正特征抽取结果第二子值,若不相同,则用数值0表示正特征抽取结果第二子值;
第八判断子单元,用于判断各个正类样本各自的两个正账号信息中的性别是否相同,若相同,则用数值1表示正特征抽取结果第三子值,若不相同,则用数值0表示正特征抽取结果第三子值;
第二比较子单元,用于比较各个正类样本各自的两个正账号信息中的年龄,若两个正账号信息中的年龄均未填写,用数值0表示正特征抽取结果第四子值,若两个正账号信息中仅有一个正账号信息中的年龄已填写,则用数值1表示正特征抽取结果第四子值,若两个正账号信息中的年龄相同,则用数值2表示正特征抽取结果第四子值,若两个正账号信息中的年龄不相同,则用数值3表示正特征抽取结果第四子值;
第九判断子单元,用于判断各个正类样本各自的两个正账号信息中的所在地是否相同,若相同,则用数值1表示正特征抽取结果第五子值,若不相同,则用数值0表示正特征抽取结果第五子值;
第十判断子单元,用于判断各个正类样本各自的两个正账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示正特征抽取结果第六子值,若否,则用数值0表示正特征抽取结果第六子值;
第二组成子单元,用于将各个正类样本各自对应的所述正特征抽取结果第一子值、所述正特征抽取结果第二子值、所述正特征抽取结果第三子值、所述正特征抽取结果第四子值、所述正特征抽取结果第五子值和所述正特征抽取结果第六子值组成正特征抽取结果值,作为各个正类样本各自对应的正训练样本;
第十一判断子单元,用于判断各个负类样本各自的两个负账号信息中的用户ID是否相同,若相同,则用数值1表示负特征抽取结果第一子值,若不相同,则用数值0表示负特征抽取结果第一子值;
第十二判断子单元,用于判断各个负类样本各自的两个负账号信息中的昵称是否相同,若相同,则用数值1表示负特征抽取结果第二子值,若不相同,则用数值0表示负特征抽取结果第二子值;
第十三判断子单元,用于判断各个负类样本各自的两个负账号信息中的性别是否相同,若相同,则用数值1表示负特征抽取结果第三子值,若不相同,则用数值0表示负特征抽取结果第三子值;
第三比较子单元,用于比较各个负类样本各自的两个负账号信息中的年龄,若两个负账号信息中的年龄均未填写,用数值0表示负特征抽取结果第四子值,若两个负账号信息中仅有一个负账号信息中的年龄已填写,则用数值1表示负特征抽取结果第四子值,若两个负账号信息中的年龄相同,则用数值2表示负特征抽取结果第四子值,若两个负账号信息中的年龄不相同,则用数值3表示负特征抽取结果第四子值;
第十三判断子单元,用于判断各个负类样本各自的两个负账号信息中的所在地是否相同,若相同,则用数值1表示负特征抽取结果第五子值,若不相同,则用数值0表示负特征抽取结果第五子值;
第十五判断子单元,用于判断各个负类样本各自的两个负账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示负特征抽取结果第六子值,若否,则用数值0表示负特征抽取结果第六子值;
第三组成子单元,用于将各个负类样本各自对应的所述负特征抽取结果第一子值、所述负特征抽取结果第二子值、所述负特征抽取结果第三子值、所述负特征抽取结果第四子值、所述负特征抽取结果第五子值和所述负特征抽取结果第六子值组成负特征抽取结果值,作为各个负类样本各自对应的负训练样本。
与现有技术相比,本申请的有益效果为:
在本申请中,使用最大熵分类器计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。
在预测出待测样本的类别为正时,确定出待测样本对应的两个账号属于同一用户,在预测出待测样本的类别为负时,确定出待测样本对应的两个账号不属于同一用户,从而实现了对不同微博网站下的同一用户的识别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的微博数据处理方法的一种流程图;
图2是本申请提供的最大熵分类器的训练过程的一种流程图;
图3是本申请提供的微博数据处理装置的一种逻辑结构示意图;
图4是本申请提供的微博数据处理系统的一种逻辑结构示意图;
图5是本申请提供的最大熵分类器训练装置的一种逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
在本实施例中,示出了本申请提供的微博数据处理方法,请参见图1,其示出了本申请提供的微博数据处理方法的一种流程图,可以包括以下步骤:
步骤S11:对待测样本进行特征抽取,得到待测特征抽取结果值。
其中,所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同。例如,第一微博账号信息用a表示,第二微博账号信息用b表示,则待测样本为(a,b),而a对应的账号所属微博网站和b对应的账号所属微博网站不同,如a对应的账号所属微博网站为新浪微博网站,b对应的账号所属微博网站为腾讯微博网站。
步骤S12:确定所述待测特征抽取结果值所包含的各个数值为待分类特征值。
步骤S13:使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率。
步骤S14:将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率。
步骤S15:比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小。
在比较结果为所述待分类正预测条件概率最大的情况下,执行步骤S16;在在比较结果为所述待分类负预测条件概率最大的情况下,执行步骤S17。
步骤S16:确定所述待测样本的类别为正。
步骤S17:确定所述待测样本的类别为负。
步骤S18:在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用户。
步骤S19:在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用户。
在本申请中,使用最大熵分类器计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。
在预测出待测样本的类别为正时,确定出待测样本对应的两个账号属于同一用户,在预测出待测样本的类别为负时,确定出待测样本对应的两个账号不属于同一用户,从而实现了对不同微博网站下的同一用户的识别。
实施例二
在本实施例中,示出的是使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的具体过程。
使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程具体为:
使用最大熵目标函数公式分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该y为待测样本,该x为待分类特征值,Pλ(y|x)为待分类预测子条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同x对应的不同特征函数值的权值相同,为对每个待分类特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数。
其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该待分类特征值对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若待分类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为0。
预设特征值为在训练最大熵分类器过程中,训练样本中包含的数值。
现举例对依据公式分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程进行说明。
例如,待分类特征值包括数值0,1,1,3,1,1。而特征值为0,1,2,则在计算数值3的待分类正预测子条件概率和待分类负预测子条件概率时,λ为0。
在计算待分类特征值中数值0对应的待分类正预测子条件概率时,λ为0对应的正最优权值,在计算待分类特征值中数值0对应的待分类负预测子条件概率时,λ为0对应的负最优权值。
在计算待分类特征值中数值1对应的待分类正预测子条件概率时,λ为1对应的正最优权值,在计算待分类特征值中数值1对应的待分类负预测子条件概率时,λ为1对应的负最优权值。
以待分类特征值中数值0为例,对分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率进行说明。令待分类特征值中数值0对应的正最优权值为λ'1,负最优权值为λ'2。在y为+1时,待分类特征值中数值0在待测样本的预设类型分别为正和负时对应的特征函数值分别为f1(1,0)和f-1(1,0);在y为-1时,待分类特征值中数值0在待测样本的预设类型分别为正和负时对应的特征函数值分别为f1(-1,0)和f-1(-1,0)。
在y为+1时,依据公式可以得到 即待分类特征值中数值0的待分类正预测子条件概率。
在y为-1时,依据公式可以得到 即待分类特征值中数值0的待分类负预测子条件概率。
每个待分类特征值各自对应的待分类正预测子条件概率和待分类负预测子条件概率的计算过程如本实施例中上述以待分类特征值中数值0为例的计算过程,在此不再赘述。
实施例三
在实施例一和实施例二中,所述第一微博账号信息和所述第二微博账号信息各自可以至少包括:用户ID(身份标识号码,IDentity)、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,即,第一微博账号信息可以至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例;第二微博账号信息可以至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例。
在本实施例中,在第一微博账号信息和所述第二微博账号信息各自至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述对待测样本进行特征抽取,得到待测特征抽取结果值的过程具体可以为:
A11:判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相同,则用数值0表示待测特征抽取结果第一子值。
A12:判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同,若相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用数值0表示待测特征抽取结果第二子值。
A13:判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同,若相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用数值0表示待测特征抽取结果第三子值。
A14:比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写,用数值0表示待测特征抽取结果第四子值,若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博账号信息中的年龄已填写,则用数值1表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄相同,则用数值2表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相同,则用数值3表示待测特征抽取结果第四子值。
A15:判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相同,若相同,则用数值1表示待测特征抽取结果第五子值,若不相同,则用数值0表示待测特征抽取结果第五子值。
A16:判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示待测特征抽取结果第六子值,若否,则用数值0表示待测特征抽取结果第六子值。
在本实施例中,粉丝用户与关注用户的预设比例范围可以分为:[0,0.8],(0.8,1.5),[1.5,3]及大于3。
A17:将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和所述待测特征抽取结果第六子值组成待测特征抽取结果值。
实施例四
在本实施例中,示出的是最大熵分类器的训练过程,请参见图2,其示出了本申请提供的最大熵分类器的训练过程的一种流程图,可以包括以下步骤:
步骤S21:获取多个不同的正类样本和多个不同的负类样本。
其中,所述正类样本包括两个正账号信息,两个正账号信息分别为同一用户在两个不同微博网站中的账号信息,所述负类样本包括两个负账号信信息,两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站,所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同,所述待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同。
两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站即两个负账号信息属于不同用户且两个负账号信息各自对应的账号属于不同的微博网站。
在本实施例中,正类样本和负类样本的生成过程具体可以参见步骤B11和步骤B12,如下:
步骤B11:收集多个取样用户各自在两个不同微博网站中的账号信息。
任意一个取样用户在两个不同微博网站中均有一个账号。如,取样用户U1在新浪微博网站中有一个新浪账号A,在腾讯微博网站中有一个腾讯账号B。
现以取样用户U1为例对收集任意一个取样用户在两个不同微博网站中的账号信息进行说明,如取样用户U1的新浪账号A的账号信息为a,取样用户U1的腾讯账号B的账号信息为b,则收集取用用户U1的账号信息a和账号信息b。
由于收集各个取样用户各自在两个不同微博网站中的账号信息的过程相同,因此本实施例仅对任意一个取样用户在两个不同微博网站中的账号信息的收集过程进行说明,如下:收集该取样用户在第一微博网站中的账号信息和收集该取样用户在第二微博网站中的账号信息,其中第一微博网站和第二微博网站为不同的微博网站。
收集该取样用户在第一微博网站中的账号信息的过程为:
C11:构建第一用户队列。
C12:将该取样用户加入第一用户队列。
C13:从第一用户队列中取出该取样用户,通过第一微博网站提供的API(Application Programming Interface,应用程序编程接口)提取该取样用户在第一微博网站中的账号信息,并将该取样用户在第一微博网站中的账号信息加入到第一用户队列中。
在后续使用该取样用户在第一微博网站中的账号信息时,可以从第一用户队列中提取。
收集该取样用户在第二微博网站中的账号信息的过程为:
D11:构建第二用户队列。
D12:将该取样用户加入第二用户队列。
D13:从第二用户队列中取出该取样用户,通过第二微博网站提供的API提取该取样用户在第二微博网站中的账号信息,并将该取样用户在第二微博网站中的账号信息加入到第二用户队列中。
在后续使用该取样用户在第二微博网站中的账号信息时,可以从第二用户队列中提取。
步骤B12:分别将各个取样用户各自在两个不同微博网站中的账号信息组成一对信息,作为正类样本;从任意两个取样用户各自的账号信息中,将不属于同一个取样用户且在不同微博网站中的两个账号信息组成一队信息,作为负类样本。
分别将各个取样用户各自在两个不同微博网站中的账号信息组成一对信息,作为正类样本为人工标注的过程。
从任意两个取样用户各自的账号信息中,将不属于同一个取样用户且在不同微博网站中的两个账号信息组成一队信息,作为负类样本也为人工标注的过程。
例如,取样用户U1在两个不同微博网站中的账号信息分别为a、b,取样用户U2在两个不同微博网站中的账号信息分别为c、d,a对应的账号和c对应的账号属于同一个微博网站,b对应的账号和d对应的账号属于同一个微博网站,a对应的账号和c对应的账号所属微博网站与b对应的账号和d对应的账号所属微博网站不同,则(a,b)和(c,d)为正类样本,(a,d)和(b,c)为负类样本。
步骤S22:分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本。
步骤S23:确定各个所述正训练样本和各个所述负训练样本中包含的数值为特征值。
在本实施例中,各个所述正训练样本和各个所述负训练样本中包含的数值即为实施例二中所涉及的预设特征值。
步骤S24:依据公式分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率。
其中,所述y为任意一个正训练样本或任意一个负训练样本,所述x为特征值,Pλ(y|x)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)的权值且相同x对应的不同特征函数值的权值相同,为对每个特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数,所述λi的初始值已知。
由于λi的初始值已知,y为已知值,因此可以依据公式分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率。
现举例对依据公式,分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率的过程进行详细说明。例如,两个个训练样本,序号分别为1和2,序号为1的训练样本为正训练样本,且正训练样本包括数值0,1,1,2,1,1,其中数值0对应序号为2的训练样本为负训练样本,且负训练样本包括数值0,0,0,1,0,0。
以第一个数值0(即用户ID对应的数值)为例,对在y分别为+1和-1时,对应的正预测条件概率和负预测条件概率的过程进行说明。
0(即用户ID对应的数值)在正训练样本中和负训练样本中都存在,因此在y为+1时,0(即用户ID对应的数值)对应两个特征函数值,分别为f1(1,0)、f2(1,0),在y为-1时,对应两个特征函数值,分别为f1(-1,0)、f2(-1,0)。由于相同x对应的不同特征函数值的权值相同,因此0(即用户ID对应的数值)对应的f1(1,0)的权值和对应f2(1,0)的权值相同,记为λ1;0(即用户ID对应的数值)对应的f1(-1,0)的权值和对应f2(-1,0)的权值相同,记为λ2。
在y为+1时,依据公式可以得到
即0(即用户ID对应的数值)的正预测条件概率。
在y为-1时,依据公式可以得到 即0(即用户ID对应的数值)的负预测条件概率。
由于λi的初始值已知,因此λ1和λ2的值已知,可以计算得到Pλ(1|0)和Pλ(-1|0)。
正训练样本中包括的数值1,1,2,1,1各自对应的正预测条件概率和负预测条件概率的计算过程如上述0(即用户ID对应的数值)对应的正预测条件概率和负预测条件概率的计算过程,在此不再赘述。
每个特征值各自对应的正预测条件概率和负预测条件概率的计算过程也如上述以0(即用户ID对应的数值)为例的计算过程,在此不再赘述。
步骤S25:利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自对应的特征函数值的正最优权值。
利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛的原理为已有的原理,在此不再赘述。
在本实施例中,每个特征值各自的正预测条件概率收敛即每个特征值各自的正预测条件概率达到最大值。
步骤S26:利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自对应的特征函数值的负最优权值。
利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛的原理为已有的原理,在此不再赘述。
在本实施例中,每个特征值各自的负预测条件概率收敛即每个特征值各自的负预测条件概率达到最大值。
经过步骤S21-步骤S26训练后得到的最大熵分类器,可以用于计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率,具体过程如实施例二所示。
在本实施例中,正账号信息可以至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息可以至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例。
在所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本的过程,具体为:
E11:判断各个正类样本各自的两个正账号信息中的用户ID是否相同,若相同,则用数值1表示正特征抽取结果第一子值,若不相同,则用数值0表示正特征抽取结果第一子值。
E12:判断各个正类样本各自的两个正账号信息中的昵称是否相同,若相同,则用数值1表示正特征抽取结果第二子值,若不相同,则用数值0表示正特征抽取结果第二子值。
E13:判断各个正类样本各自的两个正账号信息中的性别是否相同,若相同,则用数值1表示正特征抽取结果第三子值,若不相同,则用数值0表示正特征抽取结果第三子值。
E14:比较各个正类样本各自的两个正账号信息中的年龄,若两个正账号信息中的年龄均未填写,用数值0表示正特征抽取结果第四子值,若两个正账号信息中仅有一个正账号信息中的年龄已填写,则用数值1表示正特征抽取结果第四子值,若两个正账号信息中的年龄相同,则用数值2表示正特征抽取结果第四子值,若两个正账号信息中的年龄不相同,则用数值3表示正特征抽取结果第四子值。
E15:判断各个正类样本各自的两个正账号信息中的所在地是否相同,若相同,则用数值1表示正特征抽取结果第五子值,若不相同,则用数值0表示正特征抽取结果第五子值。
E16:判断各个正类样本各自的两个正账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示正特征抽取结果第六子值,若否,则用数值0表示正特征抽取结果第六子值。
在本实施例中,粉丝用户与关注用户的预设比例范围可以分为:[0,0.8],(0.8,1.5),[1.5,3]及大于3。
E17:将各个正类样本各自对应的所述正特征抽取结果第一子值、所述正特征抽取结果第二子值、所述正特征抽取结果第三子值、所述正特征抽取结果第四子值、所述正特征抽取结果第五子值和所述正特征抽取结果第六子值组成正特征抽取结果值,作为各个正类样本各自对应的正训练样本。
E18:判断各个负类样本各自的两个负账号信息中的用户ID是否相同,若相同,则用数值1表示负特征抽取结果第一子值,若不相同,则用数值0表示负特征抽取结果第一子值。
E19:判断各个负类样本各自的两个负账号信息中的昵称是否相同,若相同,则用数值1表示负特征抽取结果第二子值,若不相同,则用数值0表示负特征抽取结果第二子值。
E110:判断各个负类样本各自的两个负账号信息中的性别是否相同,若相同,则用数值1表示负特征抽取结果第三子值,若不相同,则用数值0表示负特征抽取结果第三子值。
E111:比较各个负类样本各自的两个负账号信息中的年龄,若两个负账号信息中的年龄均未填写,用数值0表示负特征抽取结果第四子值,若两个负账号信息中仅有一个负账号信息中的年龄已填写,则用数值1表示负特征抽取结果第四子值,若两个负账号信息中的年龄相同,则用数值2表示负特征抽取结果第四子值,若两个负账号信息中的年龄不相同,则用数值3表示负特征抽取结果第四子值。
E112:判断各个负类样本各自的两个负账号信息中的所在地是否相同,若相同,则用数值1表示负特征抽取结果第五子值,若不相同,则用数值0表示负特征抽取结果第五子值。
E113:判断各个负类样本各自的两个负账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示负特征抽取结果第六子值,若否,则用数值0表示负特征抽取结果第六子值。
在本实施例中,粉丝用户与关注用户的预设比例范围可以分为:[0,0.8],(0.8,1.5),[1.5,3]及大于3。
E114:将各个负类样本各自对应的所述负特征抽取结果第一子值、所述负特征抽取结果第二子值、所述负特征抽取结果第三子值、所述负特征抽取结果第四子值、所述负特征抽取结果第五子值和所述负特征抽取结果第六子值组成负特征抽取结果值,作为各个负类样本各自对应的负训练样本。
在本实施例中,现举例对步骤E11-步骤E17的过程进行说明,例如,用户U1在两个不同微博网站中的正账号信息a和b组成正类样本(a,b),结合表1对如何对正类样本(a,b)进行特征抽取,得到正训练样本进行说明。
表1
由表1可知,正特征抽取结果第一子值为0,正特征抽取结果第二子值为1,正特征抽取结果第三子值为1,正特征抽取结果第四子值为2,正特征抽取结果第五子值为1,正特征抽取结果第六子值为1,则正特征抽取结果值为一行数值,即{0,1,1,2,1,1}。
在上述实施例中,所述第一微博账号信息对应的账号所属微博网站可以但不局限于为新浪微博网站,所述第二微博账号信息对应的账号所属微博网站可以但不局限于为腾讯微博网站。
实施例五
与上述方法实施例相对应,本实施例提供了一种微博数据处理装置,请参见图3,其示出了本申请提供的微博数据处理装置的一种逻辑结构示意图,微博数据处理装置包括:第一特征抽取单元31、第一确定单元32、第一计算单元33、第二计算单元34、比较单元35、第二确定单元36、第三确定单元37、第四确定单元38和第五确定单元39。
第一特征抽取单元31,用于对待测样本进行特征抽取,得到待测特征抽取结果值,其中,所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同。
第一确定单元32,用于确定所述待测特征抽取结果值所包含的各个数值为待分类特征值。
第一计算单元33,用于使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率。
第二计算单元34,用于将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率。
比较单元35,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第二确定单元36确定所述待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第三确定单元37确定所述待测样本的类别为负。
第四确定单元38,用于在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用户。
第五确定单元39,用于在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用户。
在本实施例中,第一计算单元33具体包括:计算子单元,用于使用最大熵目标函数公式分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该y为待测样本,该x为待分类特征值,Pλ(y|x)为待分类预测子条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同x对应的不同特征函数值的权值相同,为对每个待分类特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数。
其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该待分类特征值对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若待分类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为0。
在上述装置中,在所述第一微博账号信息和所述第二微博账号信息各自至少包括:用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述第一特征抽取单元31具体包括:
第一判断子单元,用于判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相同,则用数值0表示待测特征抽取结果第一子值。
第二判断子单元,用于判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同,若相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用数值0表示待测特征抽取结果第二子值。
第三判断子单元,用于判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同,若相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用数值0表示待测特征抽取结果第三子值。
第一比较子单元,用于比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写,用数值0表示待测特征抽取结果第四子值,若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博账号信息中的年龄已填写,则用数值1表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄相同,则用数值2表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相同,则用数值3表示待测特征抽取结果第四子值。
第四判断子单元,用于判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相同,若相同,则用数值1表示待测特征抽取结果第五子值,若不相同,则用数值0表示待测特征抽取结果第五子值。
第五判断子单元,用于判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示待测特征抽取结果第六子值,若否,则用数值0表示待测特征抽取结果第六子值。
第一组成子单元,用于将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和所述待测特征抽取结果第六子值组成待测特征抽取结果值。
实施例六
在本实施例中,示出了一种微博数据处理系统,请参见图4,其示出了本申请提供的微博数据处理系统的一种逻辑结构示意图,微博数据处理系统包括:最大熵分类器训练装置41和微博数据处理装置42。
微博数据处理装置42的具体结构如实施例五示出的微博数据处理装置,在此不再赘述。
在本实施例中,最大熵分类器训练装置41的具体结构请参见图5,其示出了本申请提供的最大熵分类器训练装置的一种逻辑结构示意图,最大熵分类器训练装置包括:获取单元51、第二特征抽取单元52、第六确定单元53、第三计算单元54、第四计算单元55和第五计算单元56。
获取单元51,用于获取多个不同的正类样本和多个不同的负类样本。
所述正类样本包括两个正账号信息,两个正账号信息分别为同一用户在两个不同微博网站中的账号信息,所述负类样本包括两个负账号信信息,两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站,所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同,所述待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同,所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例。
第二特征抽取单元52,用于分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本。
第六确定单元53,用于确定各个所述正训练样本和各个所述负训练样本中包含的数值为特征值。
第三计算单元54,用于依据公式分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率,其中,所述y为任意一个正训练样本或任意一个负训练样本,所述x为特征值,Pλ(y|x)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)的权值且相同x对应的不同特征函数值的权值相同,为对每个特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数,所述λi的初始值已知。
第四计算单元55,用于利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自对应的特征函数值的正最优权值。
第五计算单元56,用于利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自对应的特征函数值的负最优权值。
在本实施例中,在所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述第二特征抽取单元52具体包括:
第六判断子单元,用于判断各个正类样本各自的两个正账号信息中的用户ID是否相同,若相同,则用数值1表示正特征抽取结果第一子值,若不相同,则用数值0表示正特征抽取结果第一子值。
第七判断子单元,用于判断各个正类样本各自的两个正账号信息中的昵称是否相同,若相同,则用数值1表示正特征抽取结果第二子值,若不相同,则用数值0表示正特征抽取结果第二子值。
第八判断子单元,用于判断各个正类样本各自的两个正账号信息中的性别是否相同,若相同,则用数值1表示正特征抽取结果第三子值,若不相同,则用数值0表示正特征抽取结果第三子值。
第二比较子单元,用于比较各个正类样本各自的两个正账号信息中的年龄,若两个正账号信息中的年龄均未填写,用数值0表示正特征抽取结果第四子值,若两个正账号信息中仅有一个正账号信息中的年龄已填写,则用数值1表示正特征抽取结果第四子值,若两个正账号信息中的年龄相同,则用数值2表示正特征抽取结果第四子值,若两个正账号信息中的年龄不相同,则用数值3表示正特征抽取结果第四子值。
第九判断子单元,用于判断各个正类样本各自的两个正账号信息中的所在地是否相同,若相同,则用数值1表示正特征抽取结果第五子值,若不相同,则用数值0表示正特征抽取结果第五子值。
第十判断子单元,用于判断各个正类样本各自的两个正账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示正特征抽取结果第六子值,若否,则用数值0表示正特征抽取结果第六子值。
第二组成子单元,用于将各个正类样本各自对应的所述正特征抽取结果第一子值、所述正特征抽取结果第二子值、所述正特征抽取结果第三子值、所述正特征抽取结果第四子值、所述正特征抽取结果第五子值和所述正特征抽取结果第六子值组成正特征抽取结果值,作为各个正类样本各自对应的正训练样本。
第十一判断子单元,用于判断各个负类样本各自的两个负账号信息中的用户ID是否相同,若相同,则用数值1表示负特征抽取结果第一子值,若不相同,则用数值0表示负特征抽取结果第一子值。
第十二判断子单元,用于判断各个负类样本各自的两个负账号信息中的昵称是否相同,若相同,则用数值1表示负特征抽取结果第二子值,若不相同,则用数值0表示负特征抽取结果第二子值。
第十三判断子单元,用于判断各个负类样本各自的两个负账号信息中的性别是否相同,若相同,则用数值1表示负特征抽取结果第三子值,若不相同,则用数值0表示负特征抽取结果第三子值。
第三比较子单元,用于比较各个负类样本各自的两个负账号信息中的年龄,若两个负账号信息中的年龄均未填写,用数值0表示负特征抽取结果第四子值,若两个负账号信息中仅有一个负账号信息中的年龄已填写,则用数值1表示负特征抽取结果第四子值,若两个负账号信息中的年龄相同,则用数值2表示负特征抽取结果第四子值,若两个负账号信息中的年龄不相同,则用数值3表示负特征抽取结果第四子值。
第十三判断子单元,用于判断各个负类样本各自的两个负账号信息中的所在地是否相同,若相同,则用数值1表示负特征抽取结果第五子值,若不相同,则用数值0表示负特征抽取结果第五子值。
第十五判断子单元,用于判断各个负类样本各自的两个负账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示负特征抽取结果第六子值,若否,则用数值0表示负特征抽取结果第六子值;
第三组成子单元,用于将各个负类样本各自对应的所述负特征抽取结果第一子值、所述负特征抽取结果第二子值、所述负特征抽取结果第三子值、所述负特征抽取结果第四子值、所述负特征抽取结果第五子值和所述负特征抽取结果第六子值组成负特征抽取结果值,作为各个负类样本各自对应的负训练样本。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种微博数据处理方法、装置及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种微博数据处理方法,其特征在于,包括:
对待测样本进行特征抽取,得到待测特征抽取结果值,其中,所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同;
确定所述待测特征抽取结果值所包含的各个数值为待分类特征值;
使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;
将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;
比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小;
在比较结果为所述待分类正预测条件概率最大的情况下,确定所述待测样本的类别为正;
在比较结果为所述待分类负预测条件概率最大的情况下,确定所述待测样本的类别为负;
在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用户;
在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用户。
2.根据权利要求1所述的方法,其特征在于,所述使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率的过程,包括:
使用最大熵目标函数公式分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该y为待测样本,该x为待分类特征值,Pλ(y|x)为待分类预测子条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同x对应的不同特征函数值的权值相同,为对每个待分类特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数;
其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该待分类特征值对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若待分类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为0。
3.根据权利要求1或2所述的方法,其特征在于,所述第一微博账号信息和所述第二微博账号信息各自至少包括:
用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例。
4.根据权利要求3所述的方法,其特征在于,所述对待测样本进行特征抽取,得到待测特征抽取结果值的过程,包括:
判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相同,则用数值0表示待测特征抽取结果第一子值;
判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同,若相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用数值0表示待测特征抽取结果第二子值;
判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同,若相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用数值0表示待测特征抽取结果第三子值;
比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写,用数值0表示待测特征抽取结果第四子值,若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博账号信息中的年龄已填写,则用数值1表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄相同,则用数值2表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相同,则用数值3表示待测特征抽取结果第四子值;
判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相同,若相同,则用数值1表示待测特征抽取结果第五子值,若不相同,则用数值0表示待测特征抽取结果第五子值;
判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示待测特征抽取结果第六子值,若否,则用数值0表示待测特征抽取结果第六子值;
将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和所述待测特征抽取结果第六子值组成待测特征抽取结果值。
5.根据权利要求1所述的方法,其特征在于,所述最大熵分类器的训练过程包括:
获取多个不同的正类样本和多个不同的负类样本,所述正类样本包括两个正账号信息,两个正账号信息分别为同一用户在两个不同微博网站中的账号信息,所述负类样本包括两个负账号信信息,两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站,所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同,所述待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同;
分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本;
确定各个所述正训练样本和各个所述负训练样本中包含的数值为特征值;
依据公式分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率;
其中,所述y为任意一个正训练样本或任意一个负训练样本,所述x为特征值,Pλ(yx)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)的权值且相同x对应的不同特征函数值的权值相同,为对每个特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数,所述λi的初始值已知;
利用GIS(通用迭代,generalized iterative scaling)算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自对应的特征函数值的正最优权值;
利用所述GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自对应的特征函数值的负最优权值。
6.根据权利要求5所述的方法,其特征在于,在所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本的过程包括:
判断各个正类样本各自的两个正账号信息中的用户ID是否相同,若相同,则用数值1表示正特征抽取结果第一子值,若不相同,则用数值0表示正特征抽取结果第一子值;
判断各个正类样本各自的两个正账号信息中的昵称是否相同,若相同,则用数值1表示正特征抽取结果第二子值,若不相同,则用数值0表示正特征抽取结果第二子值;
判断各个正类样本各自的两个正账号信息中的性别是否相同,若相同,则用数值1表示正特征抽取结果第三子值,若不相同,则用数值0表示正特征抽取结果第三子值;
比较各个正类样本各自的两个正账号信息中的年龄,若两个正账号信息中的年龄均未填写,用数值0表示正特征抽取结果第四子值,若两个正账号信息中仅有一个正账号信息中的年龄已填写,则用数值1表示正特征抽取结果第四子值,若两个正账号信息中的年龄相同,则用数值2表示正特征抽取结果第四子值,若两个正账号信息中的年龄不相同,则用数值3表示正特征抽取结果第四子值;
判断各个正类样本各自的两个正账号信息中的所在地是否相同,若相同,则用数值1表示正特征抽取结果第五子值,若不相同,则用数值0表示正特征抽取结果第五子值;
判断各个正类样本各自的两个正账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示正特征抽取结果第六子值,若否,则用数值0表示正特征抽取结果第六子值;
将各个正类样本各自对应的所述正特征抽取结果第一子值、所述正特征抽取结果第二子值、所述正特征抽取结果第三子值、所述正特征抽取结果第四子值、所述正特征抽取结果第五子值和所述正特征抽取结果第六子值组成正特征抽取结果值,作为各个正类样本各自对应的正训练样本;
判断各个负类样本各自的两个负账号信息中的用户ID是否相同,若相同,则用数值1表示负特征抽取结果第一子值,若不相同,则用数值0表示负特征抽取结果第一子值;
判断各个负类样本各自的两个负账号信息中的昵称是否相同,若相同,则用数值1表示负特征抽取结果第二子值,若不相同,则用数值0表示负特征抽取结果第二子值;
判断各个负类样本各自的两个负账号信息中的性别是否相同,若相同,则用数值1表示负特征抽取结果第三子值,若不相同,则用数值0表示负特征抽取结果第三子值;
比较各个负类样本各自的两个负账号信息中的年龄,若两个负账号信息中的年龄均未填写,用数值0表示负特征抽取结果第四子值,若两个负账号信息中仅有一个负账号信息中的年龄已填写,则用数值1表示负特征抽取结果第四子值,若两个负账号信息中的年龄相同,则用数值2表示负特征抽取结果第四子值,若两个负账号信息中的年龄不相同,则用数值3表示负特征抽取结果第四子值;
判断各个负类样本各自的两个负账号信息中的所在地是否相同,若相同,则用数值1表示负特征抽取结果第五子值,若不相同,则用数值0表示负特征抽取结果第五子值;
判断各个负类样本各自的两个负账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示负特征抽取结果第六子值,若否,则用数值0表示负特征抽取结果第六子值;
将各个负类样本各自对应的所述负特征抽取结果第一子值、所述负特征抽取结果第二子值、所述负特征抽取结果第三子值、所述负特征抽取结果第四子值、所述负特征抽取结果第五子值和所述负特征抽取结果第六子值组成负特征抽取结果值,作为各个负类样本各自对应的负训练样本。
7.一种微博数据处理装置,其特征在于,包括:
第一特征抽取单元,用于对待测样本进行特征抽取,得到待测特征抽取结果值,其中,所述待测样本为第一微博账号信息和第二微博账号信息组成的一对信息,所述第一微博账号信息对应的账号所属微博网站和所述第二微博账号信息对应的账号所属微博网站不同;
第一确定单元,用于确定所述待测特征抽取结果值所包含的各个数值为待分类特征值;
第一计算单元,用于使用最大熵分类器,计算每个待分类特征值在所述待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;
第二计算单元,用于将各个待分类特征值对应的待分类正预测子条件概率进行乘运算,得到待分类正预测条件概率,将各个待分类特征值对应的待分类负预测子条件概率进行乘运算,得到待分类负预测条件概率;
比较单元,用于比较所述待分类正预测条件概率和所述待分类负预测条件概率的大小,在比较结果为所述待分类正预测条件概率最大的情况下,触发第二确定单元确定所述待测样本的类别为正,在比较结果为所述待分类负预测条件概率最大的情况下,触发第三确定单元确定所述待测样本的类别为负;
第四确定单元,用于在所述待测样本的类别为正时,确定所述待测样本对应的两个账号属于同一用户;
第五确定单元,用于在所述待测样本的类别为负时,确定所述待测样本对应的两个账号不属于同一用户。
8.根据权利要求7所述的装置,其特征在于,所述第一计算单元包括:
计算子单元,用于使用最大熵目标函数公式分别计算每个待分类特征值在y分别为+1和-1时,对应的待分类正预测子条件概率和待分类负预测子条件概率,其中,该y为待测样本,该x为待分类特征值,Pλ(y|x)为待分类预测子条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)在y为+1时的正最优权值或在y为-1时的负最优权值且相同x对应的不同特征函数值的权值相同,为对每个待分类特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数;
其中,所述y为+1表示所述待测样本预设为正类,所述y为-1表示所述待测样本预设为负类,每个待分类特征值对应的各个特征函数值分别对应所述待测样本的预设类型正和负,在计算待分类正预测子条件概率时,若待分类特征值包含在预设特征值中,则λ为该待分类特征值对应的正最优权值,否则λ为0,在计算待分类负预测子条件概率时,若待分类特征值包含在所述预设特征值中,则λ为该待分类特征值对应的负最优权值,否则λ为0。
9.根据权利要求7或8所述的装置,其特征在于,在所述第一微博账号信息和所述第二微博账号信息各自至少包括:用户身份标识号码ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述第一特征抽取单元包括:
第一判断子单元,用于判断所述第一微博账号信息中的用户ID和所述第二微博账号信息中的用户ID是否相同,若相同,则用数值1表示待测特征抽取结果第一子值,若不相同,则用数值0表示待测特征抽取结果第一子值;
第二判断子单元,用于判断所述第一微博账号信息中的昵称和所述第二微博账号信息中的昵称是否相同,若相同,则用数值1表示待测特征抽取结果第二子值,若不相同,则用数值0表示待测特征抽取结果第二子值;
第三判断子单元,用于判断所述第一微博账号信息中的性别和所述第二微博账号信息中的性别是否相同,若相同,则用数值1表示待测特征抽取结果第三子值,若不相同,则用数值0表示待测特征抽取结果第三子值;
第一比较子单元,用于比较所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄均未填写,用数值0表示待测特征抽取结果第四子值,若所述第一微博账号信息和所述第二微博账号信息中仅有一个微博账号信息中的年龄已填写,则用数值1表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄相同,则用数值2表示待测特征抽取结果第四子值,若所述第一微博账号信息中的年龄和所述第二微博账号信息中的年龄不相同,则用数值3表示待测特征抽取结果第四子值;
第四判断子单元,用于判断所述第一微博账号信息中的所在地和所述第二微博账号信息中的所在地是否相同,若相同,则用数值1表示待测特征抽取结果第五子值,若不相同,则用数值0表示待测特征抽取结果第五子值;
第五判断子单元,用于判断所述第一微博账号信息中的粉丝用户与关注用户的比例和所述第二微博账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示待测特征抽取结果第六子值,若否,则用数值0表示待测特征抽取结果第六子值;
第一组成子单元,用于将所述待测特征抽取结果第一子值、所述待测特征抽取结果第二子值、所述待测特征抽取结果第三子值、所述待测特征抽取结果第四子值、所述待测特征抽取结果第五子值和所述待测特征抽取结果第六子值组成待测特征抽取结果值。
10.一种微博数据处理系统,其特征在于,包括最大熵分类器训练装置和如权利要求7-9任意一项所述的微博数据处理装置,其中,所述最大熵分类器训练装置包括:
获取单元,用于获取多个不同的正类样本和多个不同的负类样本,所述正类样本包括两个正账号信息,两个正账号信息分别为同一用户在两个不同微博网站中的账号信息,所述负类样本包括两个负账号信信息,两个负账号信息属于不同用户且其各自对应的账号属于不同的微博网站,所述正类样本对应的两个微博网站与所述负类样本对应的两个微博网站相同,所述待测样本对应的两个微博网站与所述正类样本对应的两个微博网站相同,所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例;
第二特征抽取单元,用于分别对各个所述正类样本和各个所述负类样本进行特征抽取,得到对应的正训练样本和负训练样本;
第六确定单元,用于确定各个所述正训练样本和各个所述负训练样本中包含的数值为特征值;
第三计算单元,用于依据公式分别计算每个特征值在各个y各自分别为+1和-1时,对应的正预测条件概率和负预测条件概率,其中,所述y为任意一个正训练样本或任意一个负训练样本,所述x为特征值,Pλ(y|x)为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,所述λi为特征函数值fi(x,y)的权值且相同x对应的不同特征函数值的权值相同,为对每个特征值对应的特征函数值进行求和的函数,为对y为不同值时对应的数据进行求和的函数,所述λi的初始值已知;
第四计算单元,用于利用GIS(通用迭代,generalized iterative scaling)算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自对应的特征函数值的正最优权值;
第五计算单元,用于利用所述GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自对应的特征函数值的负最优权值。
11.根据权利要求10所述的系统,其特征在于,在所述正账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例,所述负账号信息至少包括:用户ID、昵称、性别、年龄、所在地和粉丝用户与关注用户的比例的情况下,所述第二特征抽取单元包括:
第六判断子单元,用于判断各个正类样本各自的两个正账号信息中的用户ID是否相同,若相同,则用数值1表示正特征抽取结果第一子值,若不相同,则用数值0表示正特征抽取结果第一子值;
第七判断子单元,用于判断各个正类样本各自的两个正账号信息中的昵称是否相同,若相同,则用数值1表示正特征抽取结果第二子值,若不相同,则用数值0表示正特征抽取结果第二子值;
第八判断子单元,用于判断各个正类样本各自的两个正账号信息中的性别是否相同,若相同,则用数值1表示正特征抽取结果第三子值,若不相同,则用数值0表示正特征抽取结果第三子值;
第二比较子单元,用于比较各个正类样本各自的两个正账号信息中的年龄,若两个正账号信息中的年龄均未填写,用数值0表示正特征抽取结果第四子值,若两个正账号信息中仅有一个正账号信息中的年龄已填写,则用数值1表示正特征抽取结果第四子值,若两个正账号信息中的年龄相同,则用数值2表示正特征抽取结果第四子值,若两个正账号信息中的年龄不相同,则用数值3表示正特征抽取结果第四子值;
第九判断子单元,用于判断各个正类样本各自的两个正账号信息中的所在地是否相同,若相同,则用数值1表示正特征抽取结果第五子值,若不相同,则用数值0表示正特征抽取结果第五子值;
第十判断子单元,用于判断各个正类样本各自的两个正账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示正特征抽取结果第六子值,若否,则用数值0表示正特征抽取结果第六子值;
第二组成子单元,用于将各个正类样本各自对应的所述正特征抽取结果第一子值、所述正特征抽取结果第二子值、所述正特征抽取结果第三子值、所述正特征抽取结果第四子值、所述正特征抽取结果第五子值和所述正特征抽取结果第六子值组成正特征抽取结果值,作为各个正类样本各自对应的正训练样本;
第十一判断子单元,用于判断各个负类样本各自的两个负账号信息中的用户ID是否相同,若相同,则用数值1表示负特征抽取结果第一子值,若不相同,则用数值0表示负特征抽取结果第一子值;
第十二判断子单元,用于判断各个负类样本各自的两个负账号信息中的昵称是否相同,若相同,则用数值1表示负特征抽取结果第二子值,若不相同,则用数值0表示负特征抽取结果第二子值;
第十三判断子单元,用于判断各个负类样本各自的两个负账号信息中的性别是否相同,若相同,则用数值1表示负特征抽取结果第三子值,若不相同,则用数值0表示负特征抽取结果第三子值;
第三比较子单元,用于比较各个负类样本各自的两个负账号信息中的年龄,若两个负账号信息中的年龄均未填写,用数值0表示负特征抽取结果第四子值,若两个负账号信息中仅有一个负账号信息中的年龄已填写,则用数值1表示负特征抽取结果第四子值,若两个负账号信息中的年龄相同,则用数值2表示负特征抽取结果第四子值,若两个负账号信息中的年龄不相同,则用数值3表示负特征抽取结果第四子值;
第十三判断子单元,用于判断各个负类样本各自的两个负账号信息中的所在地是否相同,若相同,则用数值1表示负特征抽取结果第五子值,若不相同,则用数值0表示负特征抽取结果第五子值;
第十五判断子单元,用于判断各个负类样本各自的两个负账号信息中的粉丝用户与关注用户的比例是否属于同一比例范围,若是,则用数值1表示负特征抽取结果第六子值,若否,则用数值0表示负特征抽取结果第六子值;
第三组成子单元,用于将各个负类样本各自对应的所述负特征抽取结果第一子值、所述负特征抽取结果第二子值、所述负特征抽取结果第三子值、所述负特征抽取结果第四子值、所述负特征抽取结果第五子值和所述负特征抽取结果第六子值组成负特征抽取结果值,作为各个负类样本各自对应的负训练样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510036778.2A CN104537118B (zh) | 2015-01-26 | 2015-01-26 | 一种微博数据处理方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510036778.2A CN104537118B (zh) | 2015-01-26 | 2015-01-26 | 一种微博数据处理方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104537118A CN104537118A (zh) | 2015-04-22 |
CN104537118B true CN104537118B (zh) | 2017-12-26 |
Family
ID=52852646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510036778.2A Active CN104537118B (zh) | 2015-01-26 | 2015-01-26 | 一种微博数据处理方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104537118B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778388A (zh) * | 2015-05-04 | 2015-07-15 | 苏州大学 | 一种两个不同平台下同一用户识别方法及系统 |
CN104809236B (zh) * | 2015-05-11 | 2018-03-27 | 苏州大学 | 一种基于微博的用户年龄分类方法及系统 |
CN106529110A (zh) * | 2015-09-09 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 一种用户数据分类的方法和设备 |
CN105516282B (zh) * | 2015-12-01 | 2019-06-11 | 深圳市元征科技股份有限公司 | 一种数据同步处理的方法以及可穿戴设备 |
CN107025250A (zh) * | 2016-04-11 | 2017-08-08 | 苏州大学 | 一种互联网用户数据处理方法、装置及系统 |
CN105869073A (zh) * | 2016-04-11 | 2016-08-17 | 苏州大学 | 一种互联网用户数据处理方法、装置及系统 |
CN105868180A (zh) * | 2016-04-11 | 2016-08-17 | 苏州大学 | 一种互联网用户数据处理方法、装置及系统 |
CN111538892B (zh) * | 2020-04-26 | 2024-03-12 | 北京明略昭辉科技有限公司 | 一种信息查询方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710392A (zh) * | 2009-12-11 | 2010-05-19 | 西安电子科技大学 | 基于可变边界支撑向量机的重要信息获取方法 |
CN101937440A (zh) * | 2009-06-30 | 2011-01-05 | 华为技术有限公司 | 特征选择的方法及装置 |
CN101980210A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种标的词分类分级方法及系统 |
CN101980211A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种机器学习模型及其建立方法 |
US8176431B1 (en) * | 2007-07-30 | 2012-05-08 | Sprint Communications Company L.P. | Overlay menus for web interaction |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN104111969A (zh) * | 2014-06-04 | 2014-10-22 | 百度移信网络技术(北京)有限公司 | 一种相似性度量的方法以及系统 |
-
2015
- 2015-01-26 CN CN201510036778.2A patent/CN104537118B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8176431B1 (en) * | 2007-07-30 | 2012-05-08 | Sprint Communications Company L.P. | Overlay menus for web interaction |
CN101937440A (zh) * | 2009-06-30 | 2011-01-05 | 华为技术有限公司 | 特征选择的方法及装置 |
CN101710392A (zh) * | 2009-12-11 | 2010-05-19 | 西安电子科技大学 | 基于可变边界支撑向量机的重要信息获取方法 |
CN101980210A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种标的词分类分级方法及系统 |
CN101980211A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种机器学习模型及其建立方法 |
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN104111969A (zh) * | 2014-06-04 | 2014-10-22 | 百度移信网络技术(北京)有限公司 | 一种相似性度量的方法以及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104537118A (zh) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104537118B (zh) | 一种微博数据处理方法、装置及系统 | |
US20220188337A1 (en) | Organizing survey text responses | |
CN103458042B (zh) | 一种微博广告用户检测方法 | |
CN103761254B (zh) | 多领域服务主题匹配推荐方法 | |
CN104899267B (zh) | 一种社交网站账号相似度的综合数据挖掘方法 | |
WO2016180270A1 (zh) | 网页分类方法和装置、计算设备以及机器可读存储介质 | |
CN108628971A (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
WO2017167071A1 (zh) | 一种对应用程序进行项目评估的方法及系统 | |
CN107105031A (zh) | 信息推送方法和装置 | |
WO2021160157A1 (zh) | 群组展示方法及装置 | |
CN112528294B (zh) | 漏洞匹配方法、装置、计算机设备和可读存储介质 | |
CN104965905A (zh) | 一种网页分类的方法和装置 | |
CN107590232A (zh) | 一种基于网络学习环境的资源推荐系统及方法 | |
CN109636495A (zh) | 一种基于大数据的科技信息在线推荐方法 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
WO2017071474A1 (zh) | 一种语料处理方法和装置及语料分析方法和装置 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN104778388A (zh) | 一种两个不同平台下同一用户识别方法及系统 | |
CN107545075B (zh) | 一种基于在线评论和情境感知的餐馆推荐方法 | |
WO2019218452A1 (zh) | 热词分析方法、计算机可读存储介质、终端设备及装置 | |
Cheng et al. | ISC: An iterative social based classifier for adult account detection on twitter | |
CN104268214B (zh) | 一种基于微博用户关系的用户性别识别方法及系统 | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area | |
Heravi et al. | Tweet location detection | |
CN106445934A (zh) | 一种数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |