CN104239399B

CN104239399B - 社交网络中的潜在好友推荐方法

Info

Publication number: CN104239399B
Application number: CN201410333744.5A
Authority: CN
Inventors: 陈秀真; 李建华; 李生红; 史辰烨; 周泉
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2017-08-01
Anticipated expiration: 2034-07-14
Also published as: CN104239399A

Abstract

本发明通过两层模型实现对潜在好友的推荐。第一层首先是对每个用户的文章进行主题分类，构建出用户关注度向量，计算用户的余弦(cosine)相似度，获得粗略潜在好友推荐列表。第二层将用户随时间的兴趣变化计入考虑，将变化因素考虑到相似度计算中，再基于第一层的粗化推荐表进一步细化好友推荐。由于利用了文章反映用户兴趣这一特征，从相似兴趣度出发，绕过了现有社交网络基于用户原有好友关系的限制，实现了基于兴趣相似度的好友推荐方法，拓展了好友推荐的范围，进而在大范围中更准确有效地实现好友的推荐。

Description

社交网络中的潜在好友推荐方法

技术领域

本发明涉及计算机程序领域，尤其涉及一种社交网络中的潜在好友推荐方法。

背景技术

Web 2.0的兴起让越来越多的网络使用者参与到社交网络中，他们热衷于进行资源分享与信息互换，通过在线社交网络的相互交流越来越多。针对用户产生内容的研究不仅可以帮助商家了解各类不同用户群对商品的喜好趋势，也能改善多种网络服务，对于提升用户体验具有重要的意义。

由于网络用户渐渐已经不满足于现实中的朋友圈形成的社交圈，在社交网络中找到拥有共同兴趣爱好的陌生用户成了众多用户的需求。在社交网络中，扩大用户的交友圈是社交网络发展的主要方式之一，有效地找到感兴趣的联系人可以给予用户交友或者职业上的帮助。然而，现有系统提供的好友推荐功能并不十分理想。因此，提出一种有效的好友推荐机制具有很强的现实意义。

经文献检索发现，Chen W和Fong S在文章“Social network collaboratingfiltering framework and online trust factors:A case study on Facebook”(“通过研究Facebook数据，结合信任因素的社交网络协同过滤过滤模型”)(2010fifthinternational conference on ICDIM,IEEE 2010:266-273)中提出信任因素与协同过滤模型相结合的推荐方法，具体为：首先，利用数据挖掘的方法(决策树和关联规则)分析用户数据，得出社交活动中各要素对用户信任度的影响。然后将这些信任度影响因素量化，作为协同过滤模型的一部分输入。最后，结合用户特征进行协同过滤推荐。但是该方法在量化信任度各要素的权重时存在一定的困难，不能很好的确定各要素的权重，这势必对最终的推荐结果带来一定的影响。

经文献检索发现，Nitai B.Silva和Ing-Ren Tsang等人在文章“A graph-basedfriend recommendation system using genetic algorithm”(“利用遗传算法的基于图结构的好友推荐系统”)(2010IEEE congress on Evolutionary Computation,2010:1-7)提出利用网络拓扑结构来推荐好友。具体为：首先，分割出当前用户一定距离内的本地子图，然后利用遗传算法分析用户的好友以及好友的好友的网络结构特征，过滤出成为好友概率较大的节点推荐给用户。但是，该推荐系统是一种熟人推荐机制，对用户拓展交友圈贡献不是很显著。

发明内容

本发明要解决的技术问题是如何拓展好友推荐的范围，进而在大范围中更准确有效地实现好友的推荐。

为了解决这一技术问题，本发明提供了两种相类似的社交网络中的潜在好友推荐方法，其中一种方法包括如下步骤：

S01：从社交网络服务器上获得每位用户在一年内发表的所有文章，并进行存储记录；

S02：统计每位用户在每个主题下的文章总数；

完成步骤S02后，依次进行步骤S03和S04，完成步骤S04后，实施步骤S05，其中：

S03：利用余弦定理依据以下公式计算用户间的粗略相似度：

其中，similarity_(i,j)为用户i与用户j的粗略相似度，k为主题的数量， n_(i，t)表示用户i在主题t下发表的文章数，n_(j，t)表示用户j在主题t下发表的文章数；

对于一个特定的用户，对其他用户依据其与该特定的用户之间粗略相似度similarity_(i,j)的大小进行排列，选出相似度最高的x个用户作为该特定的用户的潜在用户粗略推荐表；

S04：根据每个用户每个月在k个主题下发表的文章数，依据以下公式计算第m月与第m+1月之间的差异dif_i[m]：

进而依据以下公式计算x个用户中每个用户在一年中的兴趣变化敏感度λ_i：

S05：统计文章的发表时间，通过以下公式计算主题t中两个用户的相似度sim_t(i,j)：

其中，n_(i,t)与n_(j,t)分别为主题t中用户i、用户j各自拥有的文章总数，a为用户j发表的有关主题t的文章编号，b为用户i发表的有关主题t的文章编号，time(a)为用户j发表的有关主题t的第a篇文章的时间，time(b)为用户i发表的有关主题t的第b篇文章的时间，λ为敏感因子，所述敏感因子λ通过以下公式计算得到：

最终，通过以下公式获得两个用户间的细化相似度sim(i,j)

完成S03和S05后，实施以下步骤：

S06：对于该特定的用户，将其粗略推荐列表中的x个用户依据其与该特定的用户之间的细化相似度sim(i,j)的大小进行排列，获得最终的推荐列表，从而向该特定的用户提供该最终的推荐列表。

另一种社交网络中的潜在好友推荐方法，包括如下步骤：

S02：统计每位用户在每个主题下的文章总数；

S03：利用余弦定理依据以下公式计算用户间的粗略相似度：

其中，similarity_(i,j)为用户i与用户j的粗略相似度，k为主题的数量，n_(i，t)表示用户i在主题t下发表的文章数，n_(j，t)表示用户j在主题t下发表的文章数；

S04：根据该特定用户和潜在用户粗略推荐表中的每个用户每个月在k个主题下发表的文章数，依据以下公式计算第m月与第m+1月之间的差异dif_i[m]：

进而依据以下公式计算x个用户中其中每个用户在一年中的兴趣变化敏感度λ_i：

S05：统计该特定用户和潜在用户粗略推荐表中的每个用户文章的发表时间，通过以下公式计算主题t中两个用户的相似度sim_t(i,j)：

最终，通过以下公式获得两个用户间的细化相似度sim(i,j)

在所述步骤S01中，每位用户在一年内发表的所有文章以以下方式存储：

Blog(uSer_i)＝{b₁，b₂，……，b_q}

其中，Blog(user_i)表示用户i的所有文章集合，b_q指的是Blog(user_i)中第q篇文章。

在所述步骤S01和S02之间还包括如下步骤：

对于每位用户的文章，基于预设的分类标签，利用多标签主题分类模型进行分类，经过分类后，每篇文章获得三个标签，每个标签对应一个主题。

多标签主题分类模型包括第一层模型和第二层模型；

所述第一层模型，用于通过分词工具为每篇文章进行分词处理，随后通过词性过滤与停止词的过滤获得每篇文章的有效词，之后使用词频-逆文档频率来计算每个词的权重，从而获得每篇文章的关键词；

所述第二层模型，用于依据语义知识库将所述第一层模型中获得的关键词与标签进行语义匹配，之后，对每篇文章的关键词获得的标签使用多源证据融合的方法计算出每篇文章最终的标签。

所述多源证据融合的方法采用了Dempster合成规则。

所述分词工具为ICTCLAS分词工具。

所述语义知识库为《知网》与《同义词词林拓展版》。

在所述步骤S03中，先依据用户每个主题下的文章总数，得到用户的文章主题关注度向量：

user_i＝((topic₁,n_(i,1)),(topic₂,n_(i,2)),……,(topic_k,n_(i,k)))

其中，user_i表示用户i，topic_t表示第t个主题，k为主题的数量；

进而依据该主题关注向量进行粗略相似度similarity_(i,j)计算。

在所述步骤S04中，先依据用户每个月每个主题下的文章总数，得到一年中每个月份中主题关注分布表：

user_i[m]＝{(topic₁,n_(i,m,1)),(topic₂,n_(i,m,2)),……,(topic_k,n_(i,m,k))}

其中，m表示月份，n_(i,m,t)表示用户i在第m月、主题t下发表的文章数,k为主题的数量，topic₁、topic₂、…、topic_k表示第1、2、…、k个主题。

附图说明

图1是本发明实施例1中潜在好友推荐模型图；

图2是本发明实施例1中关键词语义匹配与博客分类流程图；

图3是本发明实施例1中基于总兴趣相似度的粗略推荐图；

图4是本发明实施例1中计入文章时间的细化推荐图。

具体实施方式

以下将结合图1至图4，通过两个实施例，对本发明提供的社交网络中的潜在好友推荐方法进行详细的描述，其为本发明可选的两个实施例，可以认为，本领域的技术人员在不改变本发明精神和内容的范围内，能够对其进行修改和润色。

实施例1

请参考图1，本实施例提供了一种社交网络中的潜在好友推荐方法，本实施例利用人人网的开放数据平台获取数据集，对该数据按照本发明图1所示流程进行处理，该方法包括如下步骤：

S01：从社交网络服务器上获得每位用户在一年内发表的所有文章，并进行存储记录，本实施例中，即首先从人人网API接口上获得5314名好友，共挖掘到他们的17956篇分享文章以及138901篇原创文章，其中的文章，亦可称为博文；在所述步骤S01中，每位用户在一年内发表的所有文章以以下方式存储：

Blog(user_i)＝{b₁，b₂，……，b_q}

文章所属的主题可以是指社交网络中文章在撰写之初就选定的所属主题，所以，在此情况下，主题即为已知的，存储于社交网络服务器中的固定信息，本方法只是调取使用而已；当然，所属主题也可以如本实施例中所描述的而确定的，为了确定文章的主题，本实施例在所述步骤S01之后，S02之前，还包括如下步骤：

具体来说，在本实施例中，首先，对于每位用户的文章，基于新浪41个分类标签(见表1)，利用多标签主题分类模型进行分类。经过分类后，每篇文章获得三个标签：

b_q＝{label_(q,1),label_(q,2),label_(q,3)}

所述的多标签主题分类模型，是指基于blog内容的主题多样化及分散性等特点，采用了多类别、多标签分类的blog主题分类模型。该模型主要分为两层：

第一层模型采用向量空间模型(Vector space model，VSM)进行文本表示。基于汉语的具体特点，模型采用了ICTCLAS分词工具为每篇文章进行分词处理，随后通过词性过滤与停止词的过滤获得每篇文章的有效词，之后使用TF-IDF(Term frequency–Inversedocument frequency，词频-逆文档频率)来计算每个词的权重并获得每篇文章的关键词。

进一步来说，对于每位用户的文章利用向量空间模型(Vector space model，VSM)进行文本表示为：

B(q)＝{(KeyWord₁，w₁)，(KeyWord₂，w₂)，……，(KeyWord_i，w_i)}

其中，B(q)表示文章q的有效词条集合，w_i表示KeyWord_i的权重值。

第二层模型使用两种语义知识库：《知网》与《同义词词林拓展版》，将第所述第一层模型中获得的关键词与新浪博客的已定分类标签进行语义匹配。之后，对每篇文章的关键词获得的分类标签使用多源证据融合的方法：Dempster合成规则，计算出每篇文章最终的类别标签。语义匹配与标签分类流程图如图2所示。

文章的主题确定后，即可进行后续步骤。在本实施例中，请参考图1，文章主题确定后，分别进行步骤S03和S04，步骤03和步骤04之间并无先后关系，完成步骤S04后，实施步骤S05，只要分别完成S03和S05后再实施S06即可。本实施例中的S04计算了每个用户的兴趣变化敏感度，进而进行细化相似度计算。

关于步骤S03：粗略推荐的流程图如图3所示。

其中，利用余弦定理依据以下公式计算用户间的粗略相似度：

具体来说，在所述步骤S03中，先依据用户每个主题下的文章总数，得到用户的文章主题关注度向量：

user_i＝((topic₁,n_(i,1)),(topic₂,n_(i,2)),……,(topic_k,n_(i,k)))

进而依据该主题关注向量进行粗略相似度similarity_(i,j)。

关于步骤S04：根据每个用户每个月在k个主题下发表的文章数，依据以下公式计算第m月与第m+1月之间的差异dif_i[m]：

进而依据以下公式计算x个用户中每个用户在一年中的兴趣变化敏感度λ_i，即再通过11个差异的平均值获得用户在一年中的兴趣变化敏感度λ_i：

在所述步骤S04中，先依据用户每个月每个主题下的文章总数，得到一年中每个月份中主题关注分布表，具体来说，其以月作为节点，统计用户每个月的兴趣分布，构建用户在一年中每个月份m中的主题关注分布表：

有关步骤S05：统计文章的发表时间，通过以下公式计算主题t中两个用户的相似度sim_t(i,j)：

最终，通过以下公式获得两个用户间的细化相似度sim(i,j)

关于步骤S05：在得到了每位用户自身的兴趣变化敏感度λ_i之后，进一步回到每个主题类中，加入时间因子进行计算。

对任意主题j，找到该主题下用户i和用户j各自对应的文章集：Blog(user_i,topic_t)与Blog(user_j,topic_t)。追溯到主题中每篇文章的发表时间time(b)。

统计用户文章的发表时间，通过以下公式计算主题t中两个用户的相似度 sim_t(i,j)：

其中，n_(i,t)与n_(j,t)分别为主题t中用户i、用户j各自拥有的文章总数，λ为敏感因子，λ为敏感因子,如果变化λ→0,则相似度基本不受时间差距影响，但如果λ→1，则相似度会随时间差距的增大而大大减弱。由于用户自身的兴趣变化敏感度真实反映了用户对于时间差异的敏感度，本模型使用了用户i与j自身的兴趣变化敏感度λ_i与λ_j计算敏感因子。所述敏感因子λ通过以下公式计算得到：

最终，通过以下公式获得两个用户间的细化相似度sim(i,j)

完成S03和S05后，实施以下步骤：

S06：对于该特定的用户，将其粗略推荐列表中的x个用户依据其与该特定的用户之间的细化相似度sim(i,j)的大小进行排列，获得最终的推荐列表，从而向该特定的用户提供该最终的推荐列表。其过程可参见图4。

表1主题标签列表

实施例2

本实施例1与实施例1的区别仅在于，本实施例中，S3、S4、S5是有先后顺序的，即依次实施的，那么，在S4中仅仅计算粗略列表中的x个用户以及特定的那个用户的兴趣变化敏感度，S5中仅仅计算特定的那个用户与粗略列表中的x个用户的细化相似度即可，而不像实施例1中，计算了所有用户的兴趣变化敏感度以及细化相似度，实施例1中可以在所有结果中调取所需信息，只需计算一次，就可以满足所有用户的好友推荐，实施例2则是针对不同的用户分别进行S4和S5的计算，即需要分别计算。除以上区别外，每个步骤中具体的实施方式均与实施例1相似。

具体来说，本实施提供了一种社交网络中的潜在好友推荐方法，包括如下步骤：

S02：统计每位用户在每个主题下的文章总数；

S03：利用余弦定理依据以下公式计算用户间的粗略相似度：

最终，通过以下公式获得两个用户间的细化相似度sim(i,j)

本实施例中，使用人人网数据，对本发明的方法流程及用户相似度的计算进行了说明，实验结果证明，当不考虑排序时，本模型给出的粗略推荐列表可获得高达67％的效果，而细化过程将推荐列表的排名精度提升了17％。从而验证了方法的有效性和准确性。

综上所述，本发明通过两层模型实现对潜在好友的推荐。第一层首先是对每个用户的文章进行主题分类，构建出用户关注度向量，计算用户的余弦(cosine)相似度，获得粗略潜在好友推荐列表。第二层将用户随时间的兴趣变化计入考虑，将变化因素考虑到相似度计算中，再基于第一层的粗化推荐表进一步细化好友推荐。由于利用了文章反映用户兴趣这一特征，从相似兴趣度出发，绕过了现有社交网络基于用户原有好友关系的限制，实现了基于兴趣相似度的好友推荐方法，拓展了好友推荐的范围，进而在大范围中更准确有效地实现好友的推荐。

Claims

1.一种社交网络中的潜在好友推荐方法，包括如下步骤：

S02：统计每位用户在每个主题下的文章总数；

S03：利用余弦定理依据以下公式计算用户间的粗略相似度：

{similarity}_{(i, j)} = \frac{Σ_{t = 1}^{k} n_{(i, t)} \times n_{(j, t)}}{\sqrt{{n_{(i, 1)}}^{2} + {n_{(i, 2)}}^{2} + ... + {n_{(i, k)}}^{2}} \sqrt{{n_{(j, 1)}}^{2} + {n_{(j, 2)}}^{2} + ... + {n_{(j, k)}}^{2}}}

{dif}_{i} [m] = 1 - \frac{Σ_{t = 1}^{k} n_{(i, m + 1, t)} \times n_{(i, m, t)}}{\sqrt{n_{(i, m + 1, 1)}^{2} + n_{(i, m + 1, 2)}^{2} + ... + n_{(i, m + 1, k)}^{2}} \times \sqrt{n_{(i, m, 1)}^{2} + n_{(i, m, 2)}^{2} + ... + n_{(i, m, k)}^{2}}}

n_(i，m，t)为用户i在第m个月在t个主题下发表的文章数；

λ_{i} = \frac{Σ_{m = 1}^{11} {dif}_{i} [m]}{11}

{sim}_{t} (i, j) = \frac{Σ_{b = 1}^{| n_{(i, t)} |} Σ_{a = 1}^{| n_{(j, t)} |} e^{- λ (t i m e (a) - t i m e (b))}}{| n_{(i, t)} | \times | n_{(j, t)} |}

λ = \frac{(λ_{i} + λ_{j})}{2}

最终，通过以下公式获得两个用户间的细化相似度sim(i,j)

s i m (i, j) = \frac{Σ_{t = 1}^{k - 1} {sim}_{t} (i, j) * (n_{(i, t)} + n_{(j, t)})}{Σ_{t = 1}^{k - 1} (n_{(i, t)} + n_{(j, t)})}

2.如权利要求1所述的社交网络中的潜在好友推荐方法，其特征在于：在所述步骤S01中，每位用户在一年内发表的所有文章以以下方式存储：

Blog(user_i)＝{b₁，b₂，......，b_q}

3.如权利要求1所述的社交网络中的潜在好友推荐方法，其特征在于：在所述步骤S01和S02之间还包括如下步骤：

4.如权利要求3所述的社交网络中的潜在好友推荐方法，其特征在于：所述多标签主题分类模型包括第一层模型和第二层模型；

5.如权利要求4所述的社交网络中的潜在好友推荐方法，其特征在于：所述多源证据融合的方法采用了Dempster合成规则。

6.如权利要求4所述的社交网络中的潜在好友推荐方法，其特征在于：所述分词工具为ICTCLAS分词工具。

7.如权利要求4所述的社交网络中的潜在好友推荐方法，其特征在于：所述语义知识库为《知网》与《同义词词林拓展版》。

8.如权利要求1所述的社交网络中的潜在好友推荐方法，其特征在于：在所述步骤S03中，先依据用户每个主题下的文章总数，得到用户的文章主题关注度向量：

user_i＝((topic₁,n_(i,1)),(topic₂,n_(i,2)),……,(topic_k,n_(i,k)))

进而依据该主题关注向量进行粗略相似度similarity_(i,j)计算。

9.如权利要求1所述的社交网络中的潜在好友推荐方法，其特征在于：在所述步骤S04中，先依据用户每个月每个主题下的文章总数，得到一年中每个月份中主题关注分布表：