[go: up one dir, main page]

CN104239399B - 社交网络中的潜在好友推荐方法 - Google Patents

社交网络中的潜在好友推荐方法 Download PDF

Info

Publication number
CN104239399B
CN104239399B CN201410333744.5A CN201410333744A CN104239399B CN 104239399 B CN104239399 B CN 104239399B CN 201410333744 A CN201410333744 A CN 201410333744A CN 104239399 B CN104239399 B CN 104239399B
Authority
CN
China
Prior art keywords
user
topic
article
articles
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410333744.5A
Other languages
English (en)
Other versions
CN104239399A (zh
Inventor
陈秀真
李建华
李生红
史辰烨
周泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiao Tong University
Original Assignee
Shanghai Jiao Tong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiao Tong University filed Critical Shanghai Jiao Tong University
Priority to CN201410333744.5A priority Critical patent/CN104239399B/zh
Publication of CN104239399A publication Critical patent/CN104239399A/zh
Application granted granted Critical
Publication of CN104239399B publication Critical patent/CN104239399B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明通过两层模型实现对潜在好友的推荐。第一层首先是对每个用户的文章进行主题分类,构建出用户关注度向量,计算用户的余弦(cosine)相似度,获得粗略潜在好友推荐列表。第二层将用户随时间的兴趣变化计入考虑,将变化因素考虑到相似度计算中,再基于第一层的粗化推荐表进一步细化好友推荐。由于利用了文章反映用户兴趣这一特征,从相似兴趣度出发,绕过了现有社交网络基于用户原有好友关系的限制,实现了基于兴趣相似度的好友推荐方法,拓展了好友推荐的范围,进而在大范围中更准确有效地实现好友的推荐。

Description

社交网络中的潜在好友推荐方法
技术领域
本发明涉及计算机程序领域,尤其涉及一种社交网络中的潜在好友推荐方法。
背景技术
Web 2.0的兴起让越来越多的网络使用者参与到社交网络中,他们热衷于进行资源分享与信息互换,通过在线社交网络的相互交流越来越多。针对用户产生内容的研究不仅可以帮助商家了解各类不同用户群对商品的喜好趋势,也能改善多种网络服务,对于提升用户体验具有重要的意义。
由于网络用户渐渐已经不满足于现实中的朋友圈形成的社交圈,在社交网络中找到拥有共同兴趣爱好的陌生用户成了众多用户的需求。在社交网络中,扩大用户的交友圈是社交网络发展的主要方式之一,有效地找到感兴趣的联系人可以给予用户交友或者职业上的帮助。然而,现有系统提供的好友推荐功能并不十分理想。因此,提出一种有效的好友推荐机制具有很强的现实意义。
经文献检索发现,Chen W和Fong S在文章“Social network collaboratingfiltering framework and online trust factors:A case study on Facebook”(“通过研究Facebook数据,结合信任因素的社交网络协同过滤过滤模型”)(2010fifthinternational conference on ICDIM,IEEE 2010:266-273)中提出信任因素与协同过滤模型相结合的推荐方法,具体为:首先,利用数据挖掘的方法(决策树和关联规则)分析用户数据,得出社交活动中各要素对用户信任度的影响。然后将这些信任度影响因素量化,作为协同过滤模型的一部分输入。最后,结合用户特征进行协同过滤推荐。但是该方法在量化信任度各要素的权重时存在一定的困难,不能很好的确定各要素的权重,这势必对最终的推荐结果带来一定的 影响。
经文献检索发现,Nitai B.Silva和Ing-Ren Tsang等人在文章“A graph-basedfriend recommendation system using genetic algorithm”(“利用遗传算法的基于图结构的好友推荐系统”)(2010IEEE congress on Evolutionary Computation,2010:1-7)提出利用网络拓扑结构来推荐好友。具体为:首先,分割出当前用户一定距离内的本地子图,然后利用遗传算法分析用户的好友以及好友的好友的网络结构特征,过滤出成为好友概率较大的节点推荐给用户。但是,该推荐系统是一种熟人推荐机制,对用户拓展交友圈贡献不是很显著。
发明内容
本发明要解决的技术问题是如何拓展好友推荐的范围,进而在大范围中更准确有效地实现好友的推荐。
为了解决这一技术问题,本发明提供了两种相类似的社交网络中的潜在好友推荐方法,其中一种方法包括如下步骤:
S01:从社交网络服务器上获得每位用户在一年内发表的所有文章,并进行存储记录;
S02:统计每位用户在每个主题下的文章总数;
完成步骤S02后,依次进行步骤S03和S04,完成步骤S04后,实施步骤S05,其中:
S03:利用余弦定理依据以下公式计算用户间的粗略相似度:
其中,similarity(i,j)为用户i与用户j的粗略相似度,k为主题的数量, n(i,t)表示用户i在主题t下发表的文章数,n(j,t)表示用户j在主题t下发表的文章数;
对于一个特定的用户,对其他用户依据其与该特定的用户之间粗略相似度similarity(i,j)的大小进行排列,选出相似度最高的x个用户作为该特定的用户的潜在用户粗略推荐表;
S04:根据每个用户每个月在k个主题下发表的文章数,依据以下公式计算第m月与第m+1月之间的差异difi[m]:
进而依据以下公式计算x个用户中每个用户在一年中的兴趣变化敏感度λi
S05:统计文章的发表时间,通过以下公式计算主题t中两个用户的相似度simt(i,j):
其中,n(i,t)与n(j,t)分别为主题t中用户i、用户j各自拥有的文章总数,a为用户j发表的有关主题t的文章编号,b为用户i发表的有关主题t的文章编号,time(a)为用户j发表的有关主题t的第a篇文章的时间,time(b)为用户i发表的有关主题t的第b篇文章的时间,λ为敏感因子,所述敏感因子λ通过以下公式计算得到:
最终,通过以下公式获得两个用户间的细化相似度sim(i,j)
完成S03和S05后,实施以下步骤:
S06:对于该特定的用户,将其粗略推荐列表中的x个用户依据其与该特定的用户之间的细化相似度sim(i,j)的大小进行排列,获得最终的推荐列表,从而向该特定的用户提供该最终的推荐列表。
另一种社交网络中的潜在好友推荐方法,包括如下步骤:
S01:从社交网络服务器上获得每位用户在一年内发表的所有文章,并进行存储记录;
S02:统计每位用户在每个主题下的文章总数;
S03:利用余弦定理依据以下公式计算用户间的粗略相似度:
其中,similarity(i,j)为用户i与用户j的粗略相似度,k为主题的数量,n(i,t)表示用户i在主题t下发表的文章数,n(j,t)表示用户j在主题t下发表的文章数;
对于一个特定的用户,对其他用户依据其与该特定的用户之间粗略相似度similarity(i,j)的大小进行排列,选出相似度最高的x个用户作为该特定的用户的潜在用户粗略推荐表;
S04:根据该特定用户和潜在用户粗略推荐表中的每个用户每个月在k个主题下发表的文章数,依据以下公式计算第m月与第m+1月之间的差异difi[m]:
进而依据以下公式计算x个用户中其中每个用户在一年中的兴趣变化敏感度λi
S05:统计该特定用户和潜在用户粗略推荐表中的每个用户文章的发表时间,通过以下公式计算主题t中两个用户的相似度simt(i,j):
其中,n(i,t)与n(j,t)分别为主题t中用户i、用户j各自拥有的文章总数,a为用户j发表的有关主题t的文章编号,b为用户i发表的有关主题t的文章编号,time(a)为用户j发表的有关主题t的第a篇文章的时间,time(b)为用户i发表的有关主题t的第b篇文章的时间,λ为敏感因子,所述敏感因子λ通过以下公式计算得到:
最终,通过以下公式获得两个用户间的细化相似度sim(i,j)
S06:对于该特定的用户,将其粗略推荐列表中的x个用户依据其与该特定的用户之间的细化相似度sim(i,j)的大小进行排列,获得最终的推荐列表,从而向该特定的用户提供该最终的推荐列表。
在所述步骤S01中,每位用户在一年内发表的所有文章以以下方式存储:
Blog(uSeri)={b1,b2,……,bq}
其中,Blog(useri)表示用户i的所有文章集合,bq指的是Blog(useri)中第q篇文章。
在所述步骤S01和S02之间还包括如下步骤:
对于每位用户的文章,基于预设的分类标签,利用多标签主题分类模型进行分类,经过分类后,每篇文章获得三个标签,每个标签对应一个主题。
多标签主题分类模型包括第一层模型和第二层模型;
所述第一层模型,用于通过分词工具为每篇文章进行分词处理,随后通过词性过滤与停止词的过滤获得每篇文章的有效词,之后使用词频-逆文档频率来计算每个词的权重,从而获得每篇文章的关键词;
所述第二层模型,用于依据语义知识库将所述第一层模型中获得的关键词与标签进行语义匹配,之后,对每篇文章的关键词获得的标签使用多源证据融合的方法计算出每篇文章最终的标签。
所述多源证据融合的方法采用了Dempster合成规则。
所述分词工具为ICTCLAS分词工具。
所述语义知识库为《知网》与《同义词词林拓展版》。
在所述步骤S03中,先依据用户每个主题下的文章总数,得到用户的文章主题关注度向量:
useri=((topic1,n(i,1)),(topic2,n(i,2)),……,(topick,n(i,k)))
其中,useri表示用户i,topict表示第t个主题,k为主题的数量;
进而依据该主题关注向量进行粗略相似度similarity(i,j)计算。
在所述步骤S04中,先依据用户每个月每个主题下的文章总数,得到一年中每个月份中主题关注分布表:
useri[m]={(topic1,n(i,m,1)),(topic2,n(i,m,2)),……,(topick,n(i,m,k))}
其中,m表示月份,n(i,m,t)表示用户i在第m月、主题t下发表的文章数,k为主题的数量,topic1、topic2、…、topick表示第1、2、…、k个主题。
本发明通过两层模型实现对潜在好友的推荐。第一层首先是对每个用户的文章进行主题分类,构建出用户关注度向量,计算用户的余弦(cosine)相似度,获得粗略潜在好友推荐列表。第二层将用户随时间的兴趣变化计入考虑,将变化因素考虑到相似度计算中,再基于第一层的粗化推荐表进一步细化好友推荐。由于利用了文章反映用户兴趣这一特征,从相似兴趣度出发,绕过了现有社交网络基于用户原有好友关系的限制,实现了基于兴趣相似度的好友推荐方法,拓展了好友推荐的范围,进而在大范围中更准确有效地实现好友的推荐。
附图说明
图1是本发明实施例1中潜在好友推荐模型图;
图2是本发明实施例1中关键词语义匹配与博客分类流程图;
图3是本发明实施例1中基于总兴趣相似度的粗略推荐图;
图4是本发明实施例1中计入文章时间的细化推荐图。
具体实施方式
以下将结合图1至图4,通过两个实施例,对本发明提供的社交网络中的潜在好友推荐方法进行详细的描述,其为本发明可选的两个实施例,可以认为,本领域的技术人员在不改变本发明精神和内容的范围内,能够对其进行修改和润色。
实施例1
请参考图1,本实施例提供了一种社交网络中的潜在好友推荐方法,本实施例利用人人网的开放数据平台获取数据集,对该数据按照本发明图1所示流程进行处理,该方法包括如下步骤:
S01:从社交网络服务器上获得每位用户在一年内发表的所有文章,并进行存储记录,本实施例中,即首先从人人网API接口上获得5314名好友,共挖掘到他们的17956篇分享文章以及138901篇原创文章,其中的文章,亦可称为博文;在所述步骤S01中,每位用户在一年内发表的所有文章以以下方式存储:
Blog(useri)={b1,b2,……,bq}
其中,Blog(useri)表示用户i的所有文章集合,bq指的是Blog(useri)中第q篇文章。
文章所属的主题可以是指社交网络中文章在撰写之初就选定的所属主题,所以,在此情况下,主题即为已知的,存储于社交网络服务器中的固定信息,本方法只是调取使用而已;当然,所属主题也可以如本实施例中所描述的而确定的,为了确定文章的主题,本实施例在所述步骤S01之后,S02之前,还包括如下步骤:
对于每位用户的文章,基于预设的分类标签,利用多标签主题分类模型进行分类,经过分类后,每篇文章获得三个标签,每个标签对应一个主题。
具体来说,在本实施例中,首先,对于每位用户的文章,基于新浪41个分类标签(见表1),利用多标签主题分类模型进行分类。经过分类后,每篇文章获得三个标签:
bq={label(q,1),label(q,2),label(q,3)}
所述的多标签主题分类模型,是指基于blog内容的主题多样化及分散性等特点,采用了多类别、多标签分类的blog主题分类模型。该模型主要分为 两层:
第一层模型采用向量空间模型(Vector space model,VSM)进行文本表示。基于汉语的具体特点,模型采用了ICTCLAS分词工具为每篇文章进行分词处理,随后通过词性过滤与停止词的过滤获得每篇文章的有效词,之后使用TF-IDF(Term frequency–Inversedocument frequency,词频-逆文档频率)来计算每个词的权重并获得每篇文章的关键词。
进一步来说,对于每位用户的文章利用向量空间模型(Vector space model,VSM)进行文本表示为:
B(q)={(KeyWord1,w1),(KeyWord2,w2),……,(KeyWordi,wi)}
其中,B(q)表示文章q的有效词条集合,wi表示KeyWordi的权重值。
第二层模型使用两种语义知识库:《知网》与《同义词词林拓展版》,将第所述第一层模型中获得的关键词与新浪博客的已定分类标签进行语义匹配。之后,对每篇文章的关键词获得的分类标签使用多源证据融合的方法:Dempster合成规则,计算出每篇文章最终的类别标签。语义匹配与标签分类流程图如图2所示。
文章的主题确定后,即可进行后续步骤。在本实施例中,请参考图1,文章主题确定后,分别进行步骤S03和S04,步骤03和步骤04之间并无先后关系,完成步骤S04后,实施步骤S05,只要分别完成S03和S05后再实施S06即可。本实施例中的S04计算了每个用户的兴趣变化敏感度,进而进行细化相似度计算。
关于步骤S03:粗略推荐的流程图如图3所示。
其中,利用余弦定理依据以下公式计算用户间的粗略相似度:
其中,similarity(i,j)为用户i与用户j的粗略相似度,k为主题的数量,n(i,t)表示用户i在主题t下发表的文章数,n(j,t)表示用户j在主题t下发表的文章数;
对于一个特定的用户,对其他用户依据其与该特定的用户之间粗略相似度similarity(i,j)的大小进行排列,选出相似度最高的x个用户作为该特定的用户的潜在用户粗略推荐表;
具体来说,在所述步骤S03中,先依据用户每个主题下的文章总数,得到用户的文章主题关注度向量:
useri=((topic1,n(i,1)),(topic2,n(i,2)),……,(topick,n(i,k)))
其中,useri表示用户i,topict表示第t个主题,k为主题的数量;
进而依据该主题关注向量进行粗略相似度similarity(i,j)
关于步骤S04:根据每个用户每个月在k个主题下发表的文章数,依据以下公式计算第m月与第m+1月之间的差异difi[m]:
进而依据以下公式计算x个用户中每个用户在一年中的兴趣变化敏感度λi,即再通过11个差异的平均值获得用户在一年中的兴趣变化敏感度λi
在所述步骤S04中,先依据用户每个月每个主题下的文章总数,得到一年中每个月份中主题关注分布表,具体来说,其以月作为节点,统计用户每个月的兴趣分布,构建用户在一年中每个月份m中的主题关注分布表:
useri[m]={(topic1,n(i,m,1)),(topic2,n(i,m,2)),……,(topick,n(i,m,k))}
其中,m表示月份,n(i,m,t)表示用户i在第m月、主题t下发表的文章数,k为主题的数量,topic1、topic2、…、topick表示第1、2、…、k个主题。
有关步骤S05:统计文章的发表时间,通过以下公式计算主题t中两个用户的相似度simt(i,j):
其中,n(i,t)与n(j,t)分别为主题t中用户i、用户j各自拥有的文章总数,a为用户j发表的有关主题t的文章编号,b为用户i发表的有关主题t的文章编号,time(a)为用户j发表的有关主题t的第a篇文章的时间,time(b)为用户i发表的有关主题t的第b篇文章的时间,λ为敏感因子,所述敏感因子λ通过以下公式计算得到:
最终,通过以下公式获得两个用户间的细化相似度sim(i,j)
关于步骤S05:在得到了每位用户自身的兴趣变化敏感度λi之后,进一步回到每个主题类中,加入时间因子进行计算。
对任意主题j,找到该主题下用户i和用户j各自对应的文章集:Blog(useri,topict)与Blog(userj,topict)。追溯到主题中每篇文章的发表时间time(b)。
统计用户文章的发表时间,通过以下公式计算主题t中两个用户的相似度 simt(i,j):
其中,n(i,t)与n(j,t)分别为主题t中用户i、用户j各自拥有的文章总数,λ为敏感因子,λ为敏感因子,如果变化λ→0,则相似度基本不受时间差距影响,但如果λ→1,则相似度会随时间差距的增大而大大减弱。由于用户自身的兴趣变化敏感度真实反映了用户对于时间差异的敏感度,本模型使用了用户i与j自身的兴趣变化敏感度λi与λj计算敏感因子。所述敏感因子λ通过以下公式计算得到:
最终,通过以下公式获得两个用户间的细化相似度sim(i,j)
完成S03和S05后,实施以下步骤:
S06:对于该特定的用户,将其粗略推荐列表中的x个用户依据其与该特定的用户之间的细化相似度sim(i,j)的大小进行排列,获得最终的推荐列表,从而向该特定的用户提供该最终的推荐列表。其过程可参见图4。
表1主题标签列表
实施例2
本实施例1与实施例1的区别仅在于,本实施例中,S3、S4、S5是有先后顺序的,即依次实施的,那么,在S4中仅仅计算粗略列表中的x个用户以及特定的那个用户的兴趣变化敏感度,S5中仅仅计算特定的那个用户与粗略列表中的x个用户的细化相似度即可,而不像实施例1中,计算了所有用户的兴趣变化敏感度以及细化相似度,实施例1中可以在所有结果中调取所需信息,只需计算一次,就可以满足所有用户的好友推荐,实施例2则是针对不同的用户分别进行S4和S5的计算,即需要分别计算。除以上区别外,每个步骤中具体的实施方式均与实施例1相似。
具体来说,本实施提供了一种社交网络中的潜在好友推荐方法,包括如下步骤:
S01:从社交网络服务器上获得每位用户在一年内发表的所有文章,并进行存储记录;
S02:统计每位用户在每个主题下的文章总数;
S03:利用余弦定理依据以下公式计算用户间的粗略相似度:
其中,similarity(i,j)为用户i与用户j的粗略相似度,k为主题的数量,n(i,t)表示用户i在主题t下发表的文章数,n(j,t)表示用户j在主题t下发表的文章数;
对于一个特定的用户,对其他用户依据其与该特定的用户之间粗略相似度similarity(i,j)的大小进行排列,选出相似度最高的x个用户作为该特定的用户的潜在用户粗略推荐表;
S04:根据该特定用户和潜在用户粗略推荐表中的每个用户每个月在k个主题下发表的文章数,依据以下公式计算第m月与第m+1月之间的差异difi[m]:
进而依据以下公式计算x个用户中其中每个用户在一年中的兴趣变化敏感度λi
S05:统计该特定用户和潜在用户粗略推荐表中的每个用户文章的发表时间,通过以下公式计算主题t中两个用户的相似度simt(i,j):
其中,n(i,t)与n(j,t)分别为主题t中用户i、用户j各自拥有的文章总数,a为用户j发表的有关主题t的文章编号,b为用户i发表的有关主题t的文章编号,time(a)为用户j发表的有关主题t的第a篇文章的时间,time(b)为用户i发表的有关主题t的第b篇文章的时间,λ为敏感因子,所述敏感因子λ通过以下公式计算得到:
最终,通过以下公式获得两个用户间的细化相似度sim(i,j)
S06:对于该特定的用户,将其粗略推荐列表中的x个用户依据其与该特定的用户之间的细化相似度sim(i,j)的大小进行排列,获得最终的推荐列表,从而向该特定的用户提供该最终的推荐列表。
本实施例中,使用人人网数据,对本发明的方法流程及用户相似度的计算进行了说明,实验结果证明,当不考虑排序时,本模型给出的粗略推荐列表可获得高达67%的效果,而细化过程将推荐列表的排名精度提升了17%。从而验证了方法的有效性和准确性。
综上所述,本发明通过两层模型实现对潜在好友的推荐。第一层首先是对每个用户的文章进行主题分类,构建出用户关注度向量,计算用户的余弦(cosine)相似度,获得粗略潜在好友推荐列表。第二层将用户随时间的兴趣变化计入考虑,将变化因素考虑到相似度计算中,再基于第一层的粗化推荐表进一步细化好友推荐。由于利用了文章反映用户兴趣这一特征,从相似兴趣度出发,绕过了现有社交网络基于用户原有好友关系的限制,实现了基于兴趣相似度的好友推荐方法,拓展了好友推荐的范围,进而在大范围中更准确有效地 实现好友的推荐。

Claims (9)

1.一种社交网络中的潜在好友推荐方法,包括如下步骤:
S01:从社交网络服务器上获得每位用户在一年内发表的所有文章,并进行存储记录;
S02:统计每位用户在每个主题下的文章总数;
S03:利用余弦定理依据以下公式计算用户间的粗略相似度:
similarity ( i , j ) = Σ t = 1 k n ( i , t ) × n ( j , t ) n ( i , 1 ) 2 + n ( i , 2 ) 2 + ... + n ( i , k ) 2 n ( j , 1 ) 2 + n ( j , 2 ) 2 + ... + n ( j , k ) 2
其中,similarity(i,j)为用户i与用户j的粗略相似度,k为主题的数量,n(i,t)表示用户i在主题t下发表的文章数,n(j,t)表示用户j在主题t下发表的文章数;
对于一个特定的用户,对其他用户依据其与该特定的用户之间粗略相似度similarity(i,j)的大小进行排列,选出相似度最高的x个用户作为该特定的用户的潜在用户粗略推荐表;
S04:根据该特定用户和潜在用户粗略推荐表中的每个用户每个月在k个主题下发表的文章数,依据以下公式计算第m月与第m+1月之间的差异difi[m]:
dif i [ m ] = 1 - Σ t = 1 k n ( i , m + 1 , t ) × n ( i , m , t ) n ( i , m + 1 , 1 ) 2 + n ( i , m + 1 , 2 ) 2 + ... + n ( i , m + 1 , k ) 2 × n ( i , m , 1 ) 2 + n ( i , m , 2 ) 2 + ... + n ( i , m , k ) 2
n(i,m,t)为用户i在第m个月在t个主题下发表的文章数;
进而依据以下公式计算x个用户中其中每个用户在一年中的兴趣变化敏感度λi
λ i = Σ m = 1 11 dif i [ m ] 11
S05:统计该特定用户和潜在用户粗略推荐表中的每个用户文章的发表时间,通过以下公式计算主题t中两个用户的相似度simt(i,j):
sim t ( i , j ) = Σ b = 1 | n ( i , t ) | Σ a = 1 | n ( j , t ) | e - λ ( t i m e ( a ) - t i m e ( b ) ) | n ( i , t ) | × | n ( j , t ) |
其中,n(i,t)与n(j,t)分别为主题t中用户i、用户j各自拥有的文章总数,a为用户j发表的有关主题t的文章编号,b为用户i发表的有关主题t的文章编号,time(a)为用户j发表的有关主题t的第a篇文章的时间,time(b)为用户i发表的有关主题t的第b篇文章的时间,λ为敏感因子,所述敏感因子λ通过以下公式计算得到:
λ = ( λ i + λ j ) 2
最终,通过以下公式获得两个用户间的细化相似度sim(i,j)
s i m ( i , j ) = Σ t = 1 k - 1 sim t ( i , j ) * ( n ( i , t ) + n ( j , t ) ) Σ t = 1 k - 1 ( n ( i , t ) + n ( j , t ) )
S06:对于该特定的用户,将其粗略推荐列表中的x个用户依据其与该特定的用户之间的细化相似度sim(i,j)的大小进行排列,获得最终的推荐列表,从而向该特定的用户提供该最终的推荐列表。
2.如权利要求1所述的社交网络中的潜在好友推荐方法,其特征在于:在所述步骤S01中,每位用户在一年内发表的所有文章以以下方式存储:
Blog(useri)={b1,b2,......,bq}
其中,Blog(useri)表示用户i的所有文章集合,bq指的是Blog(useri)中第q篇文章。
3.如权利要求1所述的社交网络中的潜在好友推荐方法,其特征在于:在所述步骤S01和S02之间还包括如下步骤:
对于每位用户的文章,基于预设的分类标签,利用多标签主题分类模型进行分类,经过分类后,每篇文章获得三个标签,每个标签对应一个主题。
4.如权利要求3所述的社交网络中的潜在好友推荐方法,其特征在于:所述多标签主题分类模型包括第一层模型和第二层模型;
所述第一层模型,用于通过分词工具为每篇文章进行分词处理,随后通过词性过滤与停止词的过滤获得每篇文章的有效词,之后使用词频-逆文档频率来计算每个词的权重,从而获得每篇文章的关键词;
所述第二层模型,用于依据语义知识库将所述第一层模型中获得的关键词与标签进行语义匹配,之后,对每篇文章的关键词获得的标签使用多源证据融合的方法计算出每篇文章最终的标签。
5.如权利要求4所述的社交网络中的潜在好友推荐方法,其特征在于:所述多源证据融合的方法采用了Dempster合成规则。
6.如权利要求4所述的社交网络中的潜在好友推荐方法,其特征在于:所述分词工具为ICTCLAS分词工具。
7.如权利要求4所述的社交网络中的潜在好友推荐方法,其特征在于:所述语义知识库为《知网》与《同义词词林拓展版》。
8.如权利要求1所述的社交网络中的潜在好友推荐方法,其特征在于:在所述步骤S03中,先依据用户每个主题下的文章总数,得到用户的文章主题关注度向量:
useri=((topic1,n(i,1)),(topic2,n(i,2)),……,(topick,n(i,k)))
其中,useri表示用户i,topict表示第t个主题,k为主题的数量;
进而依据该主题关注向量进行粗略相似度similarity(i,j)计算。
9.如权利要求1所述的社交网络中的潜在好友推荐方法,其特征在于:在所述步骤S04中,先依据用户每个月每个主题下的文章总数,得到一年中每个月份中主题关注分布表:
useri[m]={(topic1,n(i,m,1)),(topic2,n(i,m,2)),……,(topick,n(i,m,k))}
其中,m表示月份,n(i,m,t)表示用户i在第m月、主题t下发表的文章数,k为主题的数量,topic1、topic2、…、topick表示第1、2、…、k个主题。
CN201410333744.5A 2014-07-14 2014-07-14 社交网络中的潜在好友推荐方法 Expired - Fee Related CN104239399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410333744.5A CN104239399B (zh) 2014-07-14 2014-07-14 社交网络中的潜在好友推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410333744.5A CN104239399B (zh) 2014-07-14 2014-07-14 社交网络中的潜在好友推荐方法

Publications (2)

Publication Number Publication Date
CN104239399A CN104239399A (zh) 2014-12-24
CN104239399B true CN104239399B (zh) 2017-08-01

Family

ID=52227463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410333744.5A Expired - Fee Related CN104239399B (zh) 2014-07-14 2014-07-14 社交网络中的潜在好友推荐方法

Country Status (1)

Country Link
CN (1) CN104239399B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156117B (zh) * 2015-04-07 2018-05-01 中国科学院信息工程研究所 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统
CN105045822A (zh) * 2015-06-26 2015-11-11 淮海工学院 一种微博中特定用户的相似用户监控方法
CN106709750B (zh) * 2015-11-18 2021-03-12 腾讯科技(深圳)有限公司 一种用户推荐方法及装置
CN105631749A (zh) * 2015-12-24 2016-06-01 成都陌云科技有限公司 基于统计数据的用户画像计算方法
CN105608194A (zh) * 2015-12-24 2016-05-25 成都陌云科技有限公司 社交媒体中用于主体特征分析的方法
CN106933943A (zh) * 2017-01-17 2017-07-07 浙江工业大学 一种基于记录时间差的朋友推荐方法
CN107038226B (zh) * 2017-03-31 2019-10-15 努比亚技术有限公司 一种信息推荐方法及网络设备
CN108804438A (zh) * 2017-04-26 2018-11-13 洪荣昭 交友配对方法
CN107866071A (zh) * 2017-11-03 2018-04-03 杭州电魂网络科技股份有限公司 游戏角色推荐方法和装置
CN109783740A (zh) * 2019-01-24 2019-05-21 北京字节跳动网络技术有限公司 关注页面的排序方法及装置
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN110909259A (zh) * 2019-11-27 2020-03-24 腾讯科技(深圳)有限公司 基于区块链的用户推荐方法、装置、设备及存储介质
CN113901333B (zh) * 2021-10-11 2024-05-28 东方财富信息股份有限公司 一种融合了图结构与文本特征的好友推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770459A (zh) * 2008-12-31 2010-07-07 华为技术有限公司 一种推荐好友的方法和设备
CN103312745A (zh) * 2012-03-12 2013-09-18 腾讯科技(深圳)有限公司 一种挖掘潜在好友信息的方法、系统和设备
CN103678531A (zh) * 2013-12-02 2014-03-26 三星电子(中国)研发中心 好友推荐方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915309B (zh) * 2011-08-03 2016-05-11 腾讯科技(深圳)有限公司 即时通信工具中好友关系链匹配方法和设备
CN103023944B (zh) * 2011-09-27 2015-11-25 腾讯科技(深圳)有限公司 一种sns网络中推送关联用户的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770459A (zh) * 2008-12-31 2010-07-07 华为技术有限公司 一种推荐好友的方法和设备
CN103312745A (zh) * 2012-03-12 2013-09-18 腾讯科技(深圳)有限公司 一种挖掘潜在好友信息的方法、系统和设备
CN103678531A (zh) * 2013-12-02 2014-03-26 三星电子(中国)研发中心 好友推荐方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Latent Friend Mining from Blog Data;Dou Shen 等;《Sixth International Conference on Data Mining》;20061231;552-561 *
社交网络中潜在好友推荐算法研究;王兵辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140215;I139-70 *

Also Published As

Publication number Publication date
CN104239399A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239399B (zh) 社交网络中的潜在好友推荐方法
US10685181B2 (en) Linguistic expression of preferences in social media for prediction and recommendation
US20180130019A1 (en) System and method for Managing user and project nodes in a graph database
CN107357793B (zh) 信息推荐方法和装置
Logesh et al. Learning recency and inferring associations in location based social network for emotion induced point-of-interest recommendation.
Ku et al. Artificial intelligence and visual analytics: a deep-learning approach to analyze hotel reviews & responses
CN103218400B (zh) 基于链接与文本内容的网络社区用户群划分方法
Saraswathi et al. Deep Learning Enabled Social Media Recommendation Based on User Comments.
CN108460153A (zh) 一种混合博文与用户关系的社交媒体好友推荐方法
He et al. Online spam review detection: A survey of literature
Wang et al. Memetic algorithm based location and topic aware recommender system
McKenzie et al. Weighted multi-attribute matching of user-generated points of interest
Ennaji et al. Social intelligence framework: Extracting and analyzing opinions for social CRM
Cai et al. An extension of social network group decision-making based on trustrank and personas
Anandhan et al. Expert Recommendation Through Tag Relationship In Community Question Answering
Gupta et al. Recent state-of-the-art of fake review detection: a comprehensive review
Salih et al. Trustworthiness in social big data incorporating semantic analysis, machine learning and distributed data processing
Kavitha et al. Tourism recommendation using social media profiles
Al-Saffar et al. Survey on Implicit Feedbacks Extraction based on Yelp Dataset using Collaborative Filtering
Feltoni Gurini et al. Enhancing social recommendation with sentiment communities
Said et al. Personalizing tags: a folksonomy-like approach for recommending movies
Wąsowicz-Zaborek Mapping Research on User-Generated Content in the Service Sector-A Bibliometric Analysis
Saputra et al. C4. 5 and naive bayes for sentiment analysis Indonesian Tweet on E-Money user during pandemic
Tang Link-prediction and its application in online social networks
Yang et al. Stc: A joint sentiment-topic model for community identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170801