[go: up one dir, main page]

CN113449205B - 一种基于元数据增强的推荐方法及系统 - Google Patents

一种基于元数据增强的推荐方法及系统 Download PDF

Info

Publication number
CN113449205B
CN113449205B CN202111000396.6A CN202111000396A CN113449205B CN 113449205 B CN113449205 B CN 113449205B CN 202111000396 A CN202111000396 A CN 202111000396A CN 113449205 B CN113449205 B CN 113449205B
Authority
CN
China
Prior art keywords
domain
target domain
user
recommendation
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111000396.6A
Other languages
English (en)
Other versions
CN113449205A (zh
Inventor
许辉
李长宇
张艳
邵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202111000396.6A priority Critical patent/CN113449205B/zh
Publication of CN113449205A publication Critical patent/CN113449205A/zh
Application granted granted Critical
Publication of CN113449205B publication Critical patent/CN113449205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元数据增强的推荐方法及系统,涉及计算机个性化推荐技术领域,包括:通过用户偏好数据训练跨域自适应编解码模型;通过训练完成的跨域自适应编解码模型对目标域用户项目组合的评分进行元增强;对推荐模型进行元学习训练;通过训练完成的推荐模型对用户进行项目推荐。本发明在推荐模型的元学习训练之前,通过用户偏好数据训练跨域自适应编解码模型,利用跨域自适应编解码模型对推荐模型的元学习训练所需数据进行元增强,有效地解决了推荐模型的现有元学习训练由于用户和项目数据稀疏以及缺乏处理冷启动的能力而导致的过拟合问题,可准确为用户推荐其偏好的项目。

Description

一种基于元数据增强的推荐方法及系统
技术领域
本发明涉及计算机个性化推荐技术领域,具体涉及一种基于元数据增强的推荐方法及系统。
背景技术
计算机个性化推荐技术是缓解信息过载的最关键和最有效的方法之一,也是各种应用程序中的关键因素,例如在线电子商务网站Amazon、Netflix、Yelp,在线教育和新闻系统。通常,推荐系统向特定用户推荐包含最有趣项目的个性化列表。
现有的推荐系统主要基于用户之前的行为交互,如购买记录、评分、点击动作、观看记录等,故又被称为协同过滤(CF,collaborative filtering)推荐系统,已被证明非常成功。CF推荐系统的类别包括:为相似用户提供有趣共享项目的基于用户的CF系统,以及为用户提供相似特征项目的基于项目的CF系统。然而,实际应用中表征用户行为交互的交互矩阵往往非常稀疏,原因是大多数用户和项目只有很少交互甚至没有交互。因此,CF推荐技术无法有效地从有限的交互中学习有用的用户偏好并导致性能不佳。
当前科研界主要利用元学习方法解决上述问题。元学习方法具有强大的泛化能力,可以快速适应仅具有少量样本的新任务。然而,现有的元学习方法直接从真实交互数据中构建非互斥任务,忽略了关键的元过度拟合问题,因此对现有推荐方法及系统在稀疏数据和冷启动场景的性能改善不佳。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于元数据增强的推荐方法及系统解决了现有计算机个性化推荐技术在稀疏数据和冷启动场景的性能不佳的问题。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,一种基于元数据增强的推荐方法,包括以下步骤:
S1、通过用户偏好数据训练跨域自适应编解码模型;
S2、通过训练完成的跨域自适应编解码模型对目标域用户项目组合的评分进行元增强,得到元增强的目标域用户项目组合的评分;
S3、根据目标域用户项目连接内容、目标域用户项目组合的评分和元增强的目标域用户项目组合的评分,构建支持集和查询集,并通过支持集和查询集对推荐模型进行元学习训练;
S4、通过训练完成的推荐模型对用户进行项目推荐。
本发明的有益效果为:在推荐模型的元学习训练之前,通过用户偏好数据训练跨域自适应编解码模型,利用跨域自适应编解码模型对推荐模型的元学习训练所需数据进行元增强,有效地解决了推荐模型的现有元学习训练由于用户和项目数据稀疏以及缺乏处理冷启动的能力而导致的过拟合问题,可准确为用户推荐其偏好的项目。
进一步地,所述步骤S1中的用户偏好数据包括:源域用户项目连接内容、目标域用户项目连接内容、源域用户项目组合的评分和目标域用户项目组合的评分。
进一步地,所述跨域自适应编解码模型包括第一源域编码器、第二源域编码器、第一目标域编码器、第二目标域编码器、源域解码器和目标域解码器。
进一步地,所述步骤S1包括以下分步骤:
S11、通过第一源域编码器对源域用户项目组合的评分按高斯分布
Figure 961422DEST_PATH_IMAGE001
进行编码,得到源域用户偏好潜在表征,其中N( )为高斯分布概率密度函数,
Figure 81825DEST_PATH_IMAGE002
为源域期望,
Figure 330404DEST_PATH_IMAGE003
为源域方差;
S12、通过第二源域编码器对源域用户项目连接内容进行编码,得到源域条件项;
S13、通过第一目标域编码器对目标域用户项目组合的评分按高斯分布
Figure 991192DEST_PATH_IMAGE004
进行编码,得到目标域用户偏好潜在表征,其中
Figure 258094DEST_PATH_IMAGE005
为目标域期望,
Figure 549398DEST_PATH_IMAGE006
为目标域方差;
S14、通过第二目标域编码器对目标域用户项目连接内容进行编码,得到目标域条件项;
S15、通过源域解码器重构源域用户项目组合的评分,并通过目标域解码器重构目标域用户项目组合的评分;
S16、根据用户偏好数据、源域用户偏好潜在表征、源域条件项、目标域用户偏好潜在表征和目标域条件项,通过源域损失函数、目标域损失函数、交替优化损失函数和多视图信息瓶颈约束目标函数训练跨域自适应编解码模型。
进一步地,所述步骤S16中的源域损失函数为:
Figure 82011DEST_PATH_IMAGE008
其中,
Figure 484173DEST_PATH_IMAGE009
为源域用户项目组合的评分,
Figure 418631DEST_PATH_IMAGE010
为源域用户项目连接内容,
Figure 615257DEST_PATH_IMAGE011
为源域条件项,
Figure 589161DEST_PATH_IMAGE012
为源域解码器参数,
Figure 591752DEST_PATH_IMAGE013
为第一源域编码器参数,
Figure 318399DEST_PATH_IMAGE014
为源域损失函数,
Figure 217085DEST_PATH_IMAGE015
为第一源域编码器概率分布函数,
Figure 927552DEST_PATH_IMAGE016
为源域解码器概率分布函数,ln( )为自然对数函数,
Figure 468255DEST_PATH_IMAGE017
为源域用户偏好潜在表征,
Figure 564256DEST_PATH_IMAGE018
为源域用户偏好潜在表征概率,
Figure 368264DEST_PATH_IMAGE019
为第一源域编码器至源域解码器的重构误差,
Figure 362765DEST_PATH_IMAGE020
为Kullback-Leibler散度函数;
所述步骤S16中的目标域损失函数为:
Figure 910421DEST_PATH_IMAGE021
其中,
Figure 877240DEST_PATH_IMAGE022
为目标域用户项目组合的评分,
Figure 865531DEST_PATH_IMAGE023
为目标域用户项目连接内容,
Figure 19432DEST_PATH_IMAGE024
为目标域条件项,
Figure 370779DEST_PATH_IMAGE025
为目标域解码器参数,
Figure 988842DEST_PATH_IMAGE026
为第一目标域编码器参数,
Figure 134652DEST_PATH_IMAGE027
为目标域损失函数,
Figure 838166DEST_PATH_IMAGE028
为第一目标域编码器概率分布函数,
Figure 976892DEST_PATH_IMAGE029
为目标域解码器概率分布函数,
Figure 652724DEST_PATH_IMAGE030
为目标域用户偏好潜在表征,
Figure 31753DEST_PATH_IMAGE031
为目标域用户偏好潜在表征概率,
Figure 425825DEST_PATH_IMAGE032
为第一目标域编码器至目标域解码器的重构误差;
所述步骤S16中的交替优化损失函数为:
Figure 853395DEST_PATH_IMAGE033
其中,
Figure 180472DEST_PATH_IMAGE034
为交替优化损失函数,
Figure 684396DEST_PATH_IMAGE035
为第二源域编码器概率分布函数,
Figure 300186DEST_PATH_IMAGE036
为第二目标域解码器概率分布函数,
Figure 593764DEST_PATH_IMAGE037
为范数平方函数。
所述步骤S16中的多视图信息瓶颈约束目标函数为:
Figure 978609DEST_PATH_IMAGE039
其中,
Figure 637123DEST_PATH_IMAGE040
为多视图信息瓶颈约束目标函数,
Figure 802525DEST_PATH_IMAGE041
为源域用户偏好潜在表征与目标域用户偏好潜在表征之间的互信息函数,
Figure 821166DEST_PATH_IMAGE042
为超参数,
Figure 388413DEST_PATH_IMAGE043
为对称Kullback-Leibler散度函数。
上述进一步方案的有益效果为:由第一源域编码器、第二源域编码器、第一目标域编码器、第二目标域编码器、源域解码器和目标域解码器构成的跨域自适应编解码模型,通过上述步骤S1的分步骤,实现了跨源域和目标域的用户偏好的域自适应;各损失函数均基于先验条件概率分布,以此进行先验学习实现跨域自适应编解码模型的训练;而作为一种有效的信息论工具,多视图信息瓶颈约束可以保留源域和目标域之间共享信息并丢弃非共享信息,从而将用户偏好从源域转移到目标域,继而构建元数据增强的基础。
进一步地,所述步骤S3包括以下分步骤:
S31、根据不同的目标域用户项目连接内容及其对应的目标域用户项目组合的评分,构建训练任务集的不同的任务样本;
S32、根据不同的目标域用户项目连接内容及其对应的元增强的目标域用户项目组合的评分,构建训练任务集的不同的增强任务样本;
S33、对训练任务集进行采样,得到不同的重采样任务,并对每个重采样任务进行划分,得到支持样本和查询样本;
S34、将所有的支持样本组合为支持集,并将所有的查询样本组合为查询集;
S35、根据支持集,对推荐模型进行内循环元学习训练;
S36、根据查询集,对推荐模型进行外循环元学习训练,得到训练完成的推荐模型。
上述进一步方案的有益效果为:用户元增强后的信息与原始信息共享相同的用户内容但具有不同的偏好,因此产生了互斥性,由此建立的既包含了任务样本又包含了增强任务样本的训练任务集则为具有互斥人物的训练任务集,基于此抽样出的支持集和查询集用于元学习训练,避免了元学习的过拟合现象,更适用于推荐模型的冷启动场景以及稀疏数据工况。
第二方面,一种基于元数据增强的推荐系统,包括:域适应子系统和推荐子系统;
所述域适应子系统采用所述的跨域自适应编解码模型,用于对目标域用户项目组合的评分进行元增强;
所述推荐子系统采用所述的推荐模型,用于对用户进行项目推荐。
进一步地,所述推荐子系统为推荐神经网络,包括:联结层、第一层至第M层,M为大于3的正整数;
所述联结层用于联结用户内容和项目内容;
所述第一层至第
Figure 217829DEST_PATH_IMAGE044
层用于提取中间特征信息;
所述第M层用于输出用户项目推荐结果。
上述进一步方案的有益效果为:采用多层神经网络进行协同过滤CF推荐,其特征分析能力相较于仅有联结层和输出层的神经网络更强,推荐性能更加。
第三方面,一种基于元数据增强的推荐设备,包括:存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述计算机程序时实现上述的基于元数据增强的推荐方法的步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于元数据增强的推荐方法的步骤。
附图说明
图1为本发明实施例提供的一种基于元数据增强的推荐方法流程示意图;
图2为本发明实施例提供的一种基于元数据增强的推荐系统的结构图;
图3为本发明实施例提供的一种基于元数据增强的推荐设备的结构图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种基于元数据增强的推荐方法,包括以下步骤:
S1、通过用户偏好数据训练跨域自适应编解码模型。
其中,用户偏好数据包括:源域用户项目连接内容、目标域用户项目连接内容、源域用户项目组合的评分和目标域用户项目组合的评分。
计算机个性化推荐技术的目的简单而言就是为用户推荐其偏好的项目,因此,本发明所述的用户项目连接内容为一种泛化概念,指计算机中存储的用户与项目之间组合联系的伴随信息,而所述的用户项目组合的评分,指计算机中存储的用户与项目之间组合关系的评分。
跨域自适应编解码模型包括第一源域编码器、第二源域编码器、第一目标域编码器、第二目标域编码器、源域解码器和目标域解码器。
步骤S1包括以下分步骤:
S11、通过第一源域编码器对源域用户项目组合的评分按高斯分布
Figure 808210DEST_PATH_IMAGE001
进行编码,得到源域用户偏好潜在表征,其中N( )为高斯分布概率密度函数,
Figure 443591DEST_PATH_IMAGE002
为源域期望,
Figure 537449DEST_PATH_IMAGE003
为源域方差;
S12、通过第二源域编码器对源域用户项目连接内容进行编码,得到源域条件项;
S13、通过第一目标域编码器对目标域用户项目组合的评分按高斯分布
Figure 600083DEST_PATH_IMAGE004
进行编码,得到目标域用户偏好潜在表征,其中
Figure 449000DEST_PATH_IMAGE005
为目标域期望,
Figure 825755DEST_PATH_IMAGE006
为目标域方差;
S14、通过第二目标域编码器对目标域用户项目连接内容进行编码,得到目标域条件项;
S15、通过源域解码器重构源域用户项目组合的评分,并通过目标域解码器重构目标域用户项目组合的评分;
S16、根据用户偏好数据、源域用户偏好潜在表征、源域条件项、目标域用户偏好潜在表征和目标域条件项,通过源域损失函数、目标域损失函数、交替优化损失函数和多视图信息瓶颈约束目标函数训练跨域自适应编解码模型。
源域损失函数为:
Figure 305278DEST_PATH_IMAGE045
其中,
Figure 538813DEST_PATH_IMAGE009
为源域用户项目组合的评分,
Figure 838208DEST_PATH_IMAGE010
为源域用户项目连接内容,
Figure 267921DEST_PATH_IMAGE011
为源域条件项,
Figure 398688DEST_PATH_IMAGE012
为源域解码器参数,
Figure 740807DEST_PATH_IMAGE013
为第一源域编码器参数,
Figure 589815DEST_PATH_IMAGE014
为源域损失函数,
Figure 308372DEST_PATH_IMAGE015
为第一源域编码器概率分布函数,
Figure 496908DEST_PATH_IMAGE016
为源域解码器概率分布函数,ln( )为自然对数函数,
Figure 72246DEST_PATH_IMAGE017
为源域用户偏好潜在表征,
Figure 362544DEST_PATH_IMAGE018
为源域用户偏好潜在表征概率,
Figure 619213DEST_PATH_IMAGE019
为第一源域编码器至源域解码器的重构误差,
Figure 927834DEST_PATH_IMAGE020
为Kullback-Leibler散度函数。代入Kullback-Leibler散度函数后:
Figure 674074DEST_PATH_IMAGE046
目标域损失函数为:
Figure 435356DEST_PATH_IMAGE047
其中,
Figure 744984DEST_PATH_IMAGE048
为目标域用户项目组合的评分,
Figure 704849DEST_PATH_IMAGE049
为目标域用户项目连接内容,
Figure 825252DEST_PATH_IMAGE024
为目标域条件项,
Figure 73831DEST_PATH_IMAGE050
为目标域解码器参数,
Figure 937882DEST_PATH_IMAGE051
为第一目标域编码器参数,
Figure 752254DEST_PATH_IMAGE027
为目标域损失函数,
Figure 56940DEST_PATH_IMAGE028
为第一目标域编码器概率分布函数,
Figure 527236DEST_PATH_IMAGE029
为目标域解码器概率分布函数,
Figure 991715DEST_PATH_IMAGE030
为目标域用户偏好潜在表征,
Figure 598277DEST_PATH_IMAGE031
为目标域用户偏好潜在表征概率,
Figure 122799DEST_PATH_IMAGE032
为第一目标域编码器至目标域解码器的重构误差;
交替优化损失函数为:
Figure 80391DEST_PATH_IMAGE052
其中,
Figure 535512DEST_PATH_IMAGE053
为交替优化损失函数,
Figure 324476DEST_PATH_IMAGE035
为第二源域编码器概率分布函数,
Figure 957583DEST_PATH_IMAGE054
为第二目标域解码器概率分布函数,
Figure 199208DEST_PATH_IMAGE037
为范数平方函数。
多视图信息瓶颈约束目标函数为:
Figure 208753DEST_PATH_IMAGE055
其中,
Figure 55486DEST_PATH_IMAGE040
为多视图信息瓶颈约束目标函数,
Figure 656232DEST_PATH_IMAGE041
为源域用户偏好潜在表征与目标域用户偏好潜在表征之间的互信息函数,
Figure 339148DEST_PATH_IMAGE042
为超参数,
Figure 683542DEST_PATH_IMAGE043
为对称Kullback-Leibler散度函数。对称Kullback-Leibler散度函数的计算表达式为:
Figure DEST_PATH_IMAGE057
由第一源域编码器、第二源域编码器、第一目标域编码器、第二目标域编码器、源域解码器和目标域解码器构成的跨域自适应编解码模型,通过上述步骤S1的分步骤,实现了跨源域和目标域的用户偏好的域自适应;各损失函数均基于先验条件概率分布,以此进行先验学习实现跨域自适应编解码模型的训练;而作为一种有效的信息论工具,多视图信息瓶颈约束可以保留源域和目标域之间共享信息并丢弃非共享信息,从而将用户偏好从源域转移到目标域,继而构建元数据增强的基础。
S2、通过训练完成的跨域自适应编解码模型对目标域用户项目组合的评分进行元增强,得到元增强的目标域用户项目组合的评分。
在本发明实施例中,对目标域用户项目组合的评分进行元增强的过程为:先沿用步骤S13和步骤S14的方法过程使用训练完成的跨域自适应编解码模型,得到新的目标域用户偏好潜在表征和新的目标域条件项,再通过目标域解码器使用目标域解码器概率分布函数
Figure 853623DEST_PATH_IMAGE058
对新的目标域用户偏好潜在表征进行采样,以此解码得到元增强的目标域用户项目组合的评分。
S3、根据目标域用户项目连接内容、目标域用户项目组合的评分和元增强的目标域用户项目组合的评分,构建支持集和查询集,并通过支持集和查询集对推荐模型进行元学习训练。
步骤S3包括以下分步骤:
S31、根据不同的目标域用户项目连接内容及其对应的目标域用户项目组合的评分,构建训练任务集的不同的任务样本。
在本实施例中,任务样本可表示为:
Figure DEST_PATH_IMAGE059
S32、根据不同的目标域用户项目连接内容及其对应的元增强的目标域用户项目组合的评分,构建训练任务集的不同的增强任务样本。
在本实施例中,增强任务样本可表示为:
Figure 828532DEST_PATH_IMAGE060
,其中
Figure DEST_PATH_IMAGE061
为元增强的目标域用户项目组合的评分。
S33、对训练任务集进行采样,得到不同的重采样任务,并对每个重采样任务进行划分,得到支持样本和查询样本。
在本发明实施例中如下式所示:
Figure 28438DEST_PATH_IMAGE062
其中,
Figure DEST_PATH_IMAGE063
为重采样任务,S为支持样本,Q为查询样本。
S34、将所有的支持样本组合为支持集,并将所有的查询样本组合为查询集。
S35、根据支持集,对推荐模型进行内循环元学习训练。
S36、根据查询集,对推荐模型进行外循环元学习训练,得到训练完成的推荐模型。
用户元增强后的信息与原始信息共享相同的用户内容但具有不同的偏好,因此产生了互斥性,由此建立的既包含了任务样本又包含了增强任务样本的训练任务集则为具有互斥人物的训练任务集,基于此抽样出的支持集和查询集用于元学习训练,避免了元学习的过拟合现象,更适用于推荐模型的冷启动场景以及稀疏数据工况。
由于内循环元学习训练和外循环元学习训练的方法是现有技术,本发明实施例不对其进行赘述。
S4、通过训练完成的推荐模型对用户进行项目推荐。
如图2所示,本发明实施例的一种基于元数据增强的推荐系统,包括:域适应子系统和推荐子系统;
域适应子系统采用上述的跨域自适应编解码模型,用于对目标域用户项目组合的评分进行元增强;
推荐子系统采用上述的推荐模型,用于对用户进行项目推荐,其为推荐神经网络,包括:联结层、第一层至第M层,M为大于3的正整数;联结层用于联结用户内容和项目内容;第一层至第
Figure 379785DEST_PATH_IMAGE044
层用于提取中间特征信息;第M层用于输出用户项目推荐结果。采用多层神经网络进行协同过滤推荐,其特征分析能力相较于仅有联结层和输出层的神经网络更强,推荐性能更加。
如图3所示,本发明实施例的一种基于元数据增强的推荐设备,包括:存储器和处理器;存储器用于存储计算机程序;处理器用于执行所述计算机程序时实现上述的基于元数据增强的推荐方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,上面存储有计算机程序,计算机程序被处理器执行时实现上述的基于元数据增强的推荐方法的步骤。
本发明实施例进行了一系列实验来验证本发明方法及系统的有效性。将所提出的基于元数据增强的推荐方法及系统与四类现有技术进行比较:(1)跨域方法,包括TDAR(基于文本的半监督迁移学习推荐算法,Text-enhanced domain adaptationrecommendation)、DARec(跨域自适应推荐算法Domain adaptation recommendation)和ETL(等效变换学习法,The equivalent transformation learner);(2)内容感知方法,包括CDL(协同深度学习法,Collaborative deep learning);(3)基于元学习的推荐,包括MeLU(元学习用户偏好估计器,Meta-learned user preference estimator);以及(4)基于矩阵分解的方法NeuMF(神经协同过滤法,Neural collaborative filtering)。
在包含来自电子商务网站Amazon.com的用户评论和元数据的Amazon datasets上评估本发明实施例的性能。亚马逊数据集涵盖了用户对商品(即本发明所述的项目)的交互以及24个产品类别的商品内容。本发明实施例选择了四个不同的类别:Electronics,Movies,Music和CD。
选择Electronics, Movies, Music作为三个源域,CD作为目标域来测试本发明针对CD上的跨域性能。然后交换源域和目标域以测试在Electronics,Movies和Music的跨域性能。形成了包括Electronics-to-CD、CD-to-Electronics、Movies-to-CD、CD-Movies、Music-to-CD 和 CD-to-Music的六个跨域数据集。继而,本实施例随机抽样了99个与用户没有交互的负面商品项目以及一个正面商品项目,在这100个商品项目进行排名。通过本领域常用的命中率、平均倒数排名和归一化折损累计增益来衡量性能,实验结果如表1所示:
其中,“现有技术1”为NeuMF技术,“现有技术2”为MeLU技术,“现有技术3”为CDL技术,“现有技术4”为TDAR技术,“现有技术5”为DARec技术,“现有技术6”为ETL技术,“现有技术7”为MeLU技术,本发明实施例的各项指标均优于表1中各个现有技术。
表1推荐效果对照表
Figure DEST_PATH_IMAGE065
综上,本发明在CF推荐模型的元学习训练之前,通过用户偏好数据训练跨域自适应编解码模型,利用跨域自适应编解码模型对CF推荐模型的元学习训练所需数据进行元增强,有效地解决了CF推荐模型的现有元学习训练由于用户和项目数据稀疏以及缺乏处理冷启动的能力而导致的过拟合问题,可准确为用户推荐其偏好的项目。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (6)

1.一种基于元数据增强的推荐方法,其特征在于,包括以下步骤:
S1、通过用户偏好数据训练跨域自适应编解码模型;
所述步骤S1中的用户偏好数据包括:源域用户项目连接内容、目标域用户项目连接内容、源域用户项目组合的评分和目标域用户项目组合的评分;
所述跨域自适应编解码模型包括第一源域编码器、第二源域编码器、第一目标域编码器、第二目标域编码器、源域解码器和目标域解码器;
所述步骤S1包括以下分步骤:
S11、通过第一源域编码器对源域用户项目组合的评分按高斯分布
Figure 951041DEST_PATH_IMAGE001
进行编码,得到源域用户偏好潜在表征,其中N( )为高斯分布概率密度函数,
Figure 839363DEST_PATH_IMAGE002
为源域期望,
Figure 659551DEST_PATH_IMAGE003
为源域方差;
S12、通过第二源域编码器对源域用户项目连接内容进行编码,得到源域条件项;
S13、通过第一目标域编码器对目标域用户项目组合的评分按高斯分布
Figure 448253DEST_PATH_IMAGE004
进行编码,得到目标域用户偏好潜在表征,其中
Figure 531747DEST_PATH_IMAGE005
为目标域期望,
Figure 907365DEST_PATH_IMAGE006
为目标域方差;
S14、通过第二目标域编码器对目标域用户项目连接内容进行编码,得到目标域条件项;
S15、通过源域解码器重构源域用户项目组合的评分,并通过目标域解码器重构目标域用户项目组合的评分;
S16、根据用户偏好数据、源域用户偏好潜在表征、源域条件项、目标域用户偏好潜在表征和目标域条件项,通过源域损失函数、目标域损失函数、交替优化损失函数和多视图信息瓶颈约束目标函数训练跨域自适应编解码模型;
所述步骤S16中的源域损失函数为:
Figure 531244DEST_PATH_IMAGE007
其中,
Figure 457610DEST_PATH_IMAGE008
为源域用户项目组合的评分,
Figure 508743DEST_PATH_IMAGE009
为源域用户项目连接内容,
Figure 699553DEST_PATH_IMAGE010
为源域条件项,
Figure 127123DEST_PATH_IMAGE011
为源域解码器参数,
Figure 126303DEST_PATH_IMAGE012
为第一源域编码器参数,
Figure 846872DEST_PATH_IMAGE013
为源域损失函数,
Figure 400344DEST_PATH_IMAGE014
为第一源域编码器概率分布函数,
Figure 366026DEST_PATH_IMAGE015
为源域解码器概率分布函数,ln( )为自然对数函数,
Figure 485292DEST_PATH_IMAGE016
为源域用户偏好潜在表征,
Figure 111183DEST_PATH_IMAGE017
为源域用户偏好潜在表征概率,
Figure 948689DEST_PATH_IMAGE018
为第一源域编码器至源域解码器的重构误差,
Figure 718062DEST_PATH_IMAGE019
为Kullback-Leibler散度函数;
所述步骤S16中的目标域损失函数为:
Figure 957413DEST_PATH_IMAGE020
其中,
Figure 754206DEST_PATH_IMAGE021
为目标域用户项目组合的评分,
Figure 406904DEST_PATH_IMAGE022
为目标域用户项目连接内容,
Figure 714389DEST_PATH_IMAGE023
为目标域条件项,
Figure 542667DEST_PATH_IMAGE024
为目标域解码器参数,
Figure 277405DEST_PATH_IMAGE025
为第一目标域编码器参数,
Figure 593898DEST_PATH_IMAGE026
为目标域损失函数,
Figure 705073DEST_PATH_IMAGE027
为第一目标域编码器概率分布函数,
Figure 653438DEST_PATH_IMAGE028
为目标域解码器概率分布函数,
Figure 559077DEST_PATH_IMAGE029
为目标域用户偏好潜在表征,
Figure 294689DEST_PATH_IMAGE030
为目标域用户偏好潜在表征概率,
Figure 943977DEST_PATH_IMAGE031
为第一目标域编码器至目标域解码器的重构误差;
所述步骤S16中的交替优化损失函数为:
Figure 12427DEST_PATH_IMAGE032
其中,
Figure 823388DEST_PATH_IMAGE033
为交替优化损失函数,
Figure 108614DEST_PATH_IMAGE034
为第二源域编码器概率分布函数,
Figure 296012DEST_PATH_IMAGE035
为第二目标域解码器概率分布函数,
Figure 546865DEST_PATH_IMAGE036
为范数平方函数;
所述步骤S16中的多视图信息瓶颈约束目标函数为:
Figure 794307DEST_PATH_IMAGE037
其中,
Figure 802714DEST_PATH_IMAGE038
为多视图信息瓶颈约束目标函数,
Figure 557918DEST_PATH_IMAGE039
为源域用户偏好潜在表征与目标域用户偏好潜在表征之间的互信息函数,
Figure 69802DEST_PATH_IMAGE041
为超参数,
Figure 753724DEST_PATH_IMAGE042
为对称Kullback-Leibler散度函数;
S2、通过训练完成的跨域自适应编解码模型对目标域用户项目组合的评分进行元增强,得到元增强的目标域用户项目组合的评分;
S3、根据目标域用户项目连接内容、目标域用户项目组合的评分和元增强的目标域用户项目组合的评分,构建支持集和查询集,并通过支持集和查询集对推荐模型进行元学习训练;
S4、通过训练完成的推荐模型对用户进行项目推荐。
2.根据权利要求1所述的基于元数据增强的推荐方法,其特征在于,所述步骤S3包括以下分步骤:
S31、根据不同的目标域用户项目连接内容及其对应的目标域用户项目组合的评分,构建训练任务集的不同的任务样本;
S32、根据不同的目标域用户项目连接内容及其对应的元增强的目标域用户项目组合的评分,构建训练任务集的不同的增强任务样本;
S33、对训练任务集进行采样,得到不同的重采样任务,并对每个重采样任务进行划分,得到支持样本和查询样本;
S34、将所有的支持样本组合为支持集,并将所有的查询样本组合为查询集;
S35、根据支持集,对推荐模型进行内循环元学习训练;
S36、根据查询集,对推荐模型进行外循环元学习训练,得到训练完成的推荐模型。
3.一种基于元数据增强的推荐系统,其特征在于,包括:域适应子系统和推荐子系统;
所述域适应子系统采用如权利要求1至2任一项所述的基于元数据增强的推荐方法中的跨域自适应编解码模型,用于对目标域用户项目组合的评分进行元增强;
所述推荐子系统采用推荐模型,用于对用户进行项目推荐。
4.根据权利要求3所述的基于元数据增强的推荐系统,其特征在于,所述推荐子系统为推荐神经网络,包括:联结层、第一层至第M层,M为大于3的正整数;
所述联结层用于联结用户内容和项目内容;
所述第一层至第
Figure DEST_PATH_IMAGE043
层用于提取中间特征信息;
所述第M层用于输出用户项目推荐结果。
5.一种基于元数据增强的推荐设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述计算机程序时实现如权利要求1至2任一项所述的基于元数据增强的推荐方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的基于元数据增强的推荐方法的步骤。
CN202111000396.6A 2021-08-30 2021-08-30 一种基于元数据增强的推荐方法及系统 Active CN113449205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111000396.6A CN113449205B (zh) 2021-08-30 2021-08-30 一种基于元数据增强的推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111000396.6A CN113449205B (zh) 2021-08-30 2021-08-30 一种基于元数据增强的推荐方法及系统

Publications (2)

Publication Number Publication Date
CN113449205A CN113449205A (zh) 2021-09-28
CN113449205B true CN113449205B (zh) 2021-11-09

Family

ID=77819102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111000396.6A Active CN113449205B (zh) 2021-08-30 2021-08-30 一种基于元数据增强的推荐方法及系统

Country Status (1)

Country Link
CN (1) CN113449205B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935477B (zh) * 2021-12-17 2022-02-22 深圳佑驾创新科技有限公司 推荐模型的训练方法、推荐方法及计算机可读存储介质
CN114443954B (zh) * 2022-01-07 2024-09-17 中国海洋大学 基于高阶图结构的一对多跨域推荐方法及系统
CN114647794B (zh) * 2022-03-14 2024-11-08 武汉大学 协同过滤推荐方法、服务器及存储介质
CN114691988B (zh) * 2022-03-23 2024-08-06 华南理工大学 一种基于用户偏好个性化迁移的跨领域推荐方法
CN114885215B (zh) * 2022-04-28 2023-07-25 清华大学 码率自适应模型的训练、视频码率自适应方法及装置
CN115438732B (zh) * 2022-09-06 2023-05-26 重庆理工大学 面向冷启动用户基于分类偏好迁移的跨域推荐方法
CN116910375B (zh) * 2023-09-13 2024-01-23 南京大数据集团有限公司 一种基于用户偏好多样性的跨域推荐方法及系统
CN117591543B (zh) * 2024-01-19 2024-04-02 成都工业学院 一种中文自然语言的sql语句生成方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394445A (zh) * 2008-10-22 2009-03-25 中兴通讯股份有限公司 一种实现编解码转换功能的系统和方法
CN104182543A (zh) * 2014-09-05 2014-12-03 上海理工大学 基于相似性传播与流行度降维的混合推荐方法
US10191990B2 (en) * 2016-11-21 2019-01-29 Comcast Cable Communications, Llc Content recommendation system with weighted metadata annotations
CN109902912A (zh) * 2019-01-04 2019-06-18 中国矿业大学 一种基于性格特征的个性化图像美学评价方法
CN111291274A (zh) * 2020-03-02 2020-06-16 苏州大学 一种物品推荐方法、装置、设备及计算机可读存储介质
CN111758108A (zh) * 2018-01-17 2020-10-09 非学习人工智能股份有限公司 用于对概率分布进行建模的系统和方法
US10936689B1 (en) * 2012-06-25 2021-03-02 Google Llc Selecting, ranking, and/or presenting microsite content

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141860B2 (en) * 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
CN105634941A (zh) * 2014-11-07 2016-06-01 中兴通讯股份有限公司 一种跨域路径的计算方法及装置
CN107613323A (zh) * 2016-07-12 2018-01-19 上海视畅信息科技有限公司 一种智能epg推荐引擎实现方法
US12248877B2 (en) * 2018-05-23 2025-03-11 Movidius Ltd. Hybrid neural network pruning
CN111314778B (zh) * 2020-03-02 2021-09-07 北京小鸟科技股份有限公司 基于多种压缩制式的编解码融合处理方法、系统及装置
CN112016332B (zh) * 2020-08-26 2021-05-07 华东师范大学 基于变分推理和多任务学习的多模态机器翻译方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394445A (zh) * 2008-10-22 2009-03-25 中兴通讯股份有限公司 一种实现编解码转换功能的系统和方法
US10936689B1 (en) * 2012-06-25 2021-03-02 Google Llc Selecting, ranking, and/or presenting microsite content
CN104182543A (zh) * 2014-09-05 2014-12-03 上海理工大学 基于相似性传播与流行度降维的混合推荐方法
US10191990B2 (en) * 2016-11-21 2019-01-29 Comcast Cable Communications, Llc Content recommendation system with weighted metadata annotations
CN111758108A (zh) * 2018-01-17 2020-10-09 非学习人工智能股份有限公司 用于对概率分布进行建模的系统和方法
CN109902912A (zh) * 2019-01-04 2019-06-18 中国矿业大学 一种基于性格特征的个性化图像美学评价方法
CN111291274A (zh) * 2020-03-02 2020-06-16 苏州大学 一种物品推荐方法、装置、设备及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Topic Model-based Recommendation System for Media Re-creation Service;Kyoung-Ju Noh et al.;《2016 International Conference on Information and Communication Technology Convergence》;20161205;132-134 *
全力打造国家级工程实验室平台,提升视频图像智能分析与应用能力,推动产业进步发展;张晓多;《Police Technology》;20180228;25-28 *
视频社区中海量数据管理方法研究;刘毅捷;《中国博士学位论文全文数据库 信息科技辑》;20111015;I138-57 *

Also Published As

Publication number Publication date
CN113449205A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113449205B (zh) 一种基于元数据增强的推荐方法及系统
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
JP7154334B2 (ja) ライブストリームコンテンツを推奨するための機械学習の使用
Weston et al. Nonlinear latent factorization by embedding multiple user interests
CN111310063B (zh) 基于神经网络的记忆感知门控因子分解机物品推荐方法
CN107563841B (zh) 一种基于用户评分分解的推荐系统
CN111949886B (zh) 一种用于信息推荐的样本数据生成方法和相关装置
CN114896517B (zh) 一种商品推荐方法、系统、设备及存储介质
CN112163149B (zh) 推荐消息的方法及装置
CN110413888A (zh) 一种书籍推荐方法及装置
CN116910375B (zh) 一种基于用户偏好多样性的跨域推荐方法及系统
CN118673220B (zh) 一种基于深度学习与大数据融合的智能推荐系统及其方法
Sun et al. REMIT: reinforced multi-interest transfer for cross-domain recommendation
CN116628236B (zh) 多媒体信息的投放方法、装置、电子设备及存储介质
Sharaff et al. Personalized recommendation system with user interaction based on LMF and popularity model
Hien et al. A deep learning model for context understanding in recommendation systems
Kapembe et al. A Personalised Hybrid Learning Object Recommender System
CN117609607A (zh) 基于对比学习增强数据的学习资源推荐方法及相关装置
Sangeetha et al. Predicting personalized recommendations using GNN
Li et al. Navigating the Future of Federated Recommendation Systems with Foundation Models
Majumdar Collaborative filtering: Recommender systems
Walunj et al. Smart tour advisor using machine learning and natural language processing
CN117370672B (zh) 基于混合结构图的用户兴趣点推荐方法、系统和设备
CN115455306B (zh) 推送模型训练、信息推送方法、装置和存储介质
Diaz-Aviles et al. Towards real-time collaborative filtering for big fast data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant