CN108269110B - 基于社区问答的物品推荐方法、系统及用户设备 - Google Patents
基于社区问答的物品推荐方法、系统及用户设备 Download PDFInfo
- Publication number
- CN108269110B CN108269110B CN201611263447.3A CN201611263447A CN108269110B CN 108269110 B CN108269110 B CN 108269110B CN 201611263447 A CN201611263447 A CN 201611263447A CN 108269110 B CN108269110 B CN 108269110B
- Authority
- CN
- China
- Prior art keywords
- information
- text
- preset
- matching model
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种基于社区问答的物品推荐方法,包括:获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。另,本发明实施例还提供一种基于社区问答的物品推荐系统及用户设备。所述物品推荐方法可以提升物品推荐的精确度。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于社区问答的物品推荐方法、系统及用户设备。
背景技术
物品推荐系统是一项可以从海量物品包括商品、电影、图书、音乐等信息内容中主动挖掘用户喜好,并将其推荐给用户的系统工具。它能够帮助用户在不能准确描述自己的需求时,实现信息过滤并帮助用户快速发现所需资源,从而避免人们淹没在庞大而杂乱无序的网络资源中。
围绕着提高物品推荐系统的准确率,衍生出了基于内容的推荐、基于协同过滤的推荐、以及混合模型的推荐三个主要分支。基于内容的推荐算法将对用户的内容描述与系统中对物品的属性描述匹配,并将匹配程度较高的物品作为结果返回给用户;基于协同过滤的算法是根据用户历史行为,预测出用户潜在的兴趣喜好;混合的推荐算法将上述两种思路融合,以实现更好的推荐效果。相比传统的信息检索,推荐系统能够在用户查找意图模糊时“主动发现”可能喜好的物品,更好地返回用户满意的结果。
然而,目前已有的物品推荐系统在交互形式上较为单一,采用由系统单方面将物品列表推送给用户的方式,而没有考虑其它可能发生的交互场景。例如,当用户无法给出物品的具体名称,但能够提供一些相关物品在特征或知识上的描述时,传统的物品推荐系统则无法根据这些描述来实现为用户推荐物品。
发明内容
本发明实施例提供一种基于社区问答的物品推荐方法、系统及用户设备,以实现根据用户输入的自然语句的问题提供物品推荐列表,提升物品推荐的精确度,优化物品推荐系统的用户体验。
本发明实施例第一方面提供一种基于社区问答的物品推荐方法,包括:
获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
将每一个所述二元组信息输入预设匹配模型,并结预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。
所述物品推荐方法通过构建问题的文本信息与物品的模态内容信息之间的二元组信息,并将该二元组作为预设匹配模型的输入,进而结合预设匹配模型参数,计算出所述问题与预设物品集合中多个物品的匹配分数,进而根据匹配分数的高低输出物品推荐列表,由于所述预设匹配模型参数可以通过大量的训练样本训练得到,从而有利于提升物品推荐的精确度。
在一种实施方式中,所述将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数计算每一个所述预设物品与所述问题的匹配分数,包括:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
在一种实施方式中,所述获取针对目标物品的问题的文本信息之前,所述方法还包括:
提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
通过从社区问答数据库中提取与所述预设物品相关的问题的文本信息,并构建针对所述预设物品的二元组信息训练样本,由于社区问答数据库中通常包含大量的问题-答案组合,从而可以保证训练样本的丰富性,有利于提升匹配模型的性能,并优化匹配模型参数,进而提升物品推荐的精确度。
在一种实施方式中,所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息中的至少一者,所述获取针对目标物品的在线问题的文本信息之前,所述方法还包括:
根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
在一种实施方式中,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中,wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的标签信息的特征向量vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中,wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品的图像展示信息的特征向量vim;
根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过建立问题与物品的多模态融合匹配模型,从而使得所述物品推荐方法可以应用于用户多样化、用户需求意图模糊的应用场景,多种模态内容信息的融合有利于提升用户多样化、用户需求意图模糊的应用场景下的物品推荐精确度。
本发明实施例第二方面提供一种基于社区问答的物品推荐系统,包括:
二元组构建单元,用于获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
匹配分数计算单元,用于将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
物品推荐单元,用于根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。
所述物品推荐系统通过构建问题的文本信息与物品的模态内容信息之间的二元组信息,并将该二元组作为预设匹配模型的输入,进而结合预设匹配模型参数,计算出所述问题与预设物品集合中多个物品的匹配分数,进而根据匹配分数的高低输出物品推荐列表,由于所述预设匹配模型参数可以通过大量的训练样本训练得到,从而有利于提升物品推荐的精确度。
在一种实施方式中,所述匹配分数计算单元,还用于:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
在一种实施方式中,所述系统还包括:
模态提取单元,用于提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
训练样本构建单元,用于结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
模型参数训练单元,用于将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
通过从社区问答数据库中提取与所述预设物品相关的问题的文本信息,并构建针对所述预设物品的二元组信息训练样本,由于社区问答数据库中通常包含大量的问题-答案组合,从而可以保证训练样本的丰富性,有利于提升匹配模型的性能,并优化匹配模型参数,进而提升物品推荐的精确度。
在一种实施方式中,所述系统还包括:
匹配模型构建单元,用于根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
在一种实施方式中,所述匹配模型构建单元,包括:
问题特征构建子单元,用于构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
模态特征构建子单元,用于构建所述预设物品的介绍文本信息的特征向量 vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
空间投影子单元,用于通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在一种实施方式中,所述匹配模型构建单元,包括:
文本模型构建子单元,用于通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中, wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在一种实施方式中,所述匹配模型构建单元,包括:
问题特征构建子单元,用于构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
模态特征构建子单元,用于构建所述预设物品的标签信息的特征向量 vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
空间投影子单元,用于通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在一种实施方式中,所述匹配模型构建单元,包括:
标签模型构建子单元,用于通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中,wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在一种实施方式中,所述匹配模型构建单元,包括:
模态特征构建子单元,用于构建所述预设物品的图像展示信息的特征向量 vim;
图像模型构建子单元,用于根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg = ws( σ (wm(vJR)+bm))+bs ,其中 ,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
在一种实施方式中,所述匹配模型构建单元,包括:
通过建立问题与物品的多模态融合匹配模型,从而使得所述物品推荐方法可以应用于用户多样化、用户需求意图模糊的应用场景,多种模态内容信息的融合有利于提升用户多样化、用户需求意图模糊的应用场景下的物品推荐精确度。
本发明实施例第三方面提供一种用户设备,包括至少一个处理器、存储器、通信接口和总线,所述至少一个处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;所述存储器用于存储可执行程序代码;所述处理器用于调用存储于所述存储器中的可执行程序代码,并执行如下操作:
获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。
通过构建问题的文本信息与物品的模态内容信息之间的二元组信息,并将该二元组作为预设匹配模型的输入,进而结合预设匹配模型参数,计算出所述问题与预设物品集合中多个物品的匹配分数,进而根据匹配分数的高低输出物品推荐列表,由于所述预设匹配模型参数可以通过大量的训练样本训练得到,从而有利于提升物品推荐的精确度。
在一种实施方式中,所述将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数计算每一个所述预设物品与所述问题的匹配分数,包括:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
在一种实施方式中,所述获取针对目标物品的问题的文本信息之前,所述操作还包括:
提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
通过从社区问答数据库中提取与所述预设物品相关的问题的文本信息,并构建针对所述预设物品的二元组信息训练样本,由于社区问答数据库中通常包含大量的问题-答案组合,从而可以保证训练样本的丰富性,有利于提升匹配模型的性能,并优化匹配模型参数,进而提升物品推荐的精确度。
在一种实施方式中,所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息中的至少一者,所述获取针对目标物品的在线问题的文本信息之前,所述操作还包括:
根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
在一种实施方式中,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中,wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的标签信息的特征向量vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中,wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品的图像展示信息的特征向量vim;
根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过建立问题与物品的多模态融合匹配模型,从而使得所述物品推荐方法可以应用于用户多样化、用户需求意图模糊的应用场景,并通过从社区问答中引入物品相关知识,对用户的自然语言问题自动产生相关性高的推荐结果,能够缩减在物品选择时繁琐的步骤,提升用户体验的同时提高物品推荐的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的基于社区问答的物品推荐方法的流程示意图;
图2是本发明实施例提供的基于社区问答的物品推荐方法的第一子流程示意图;
图3A和图3B是本发明实施例提供的基于社区问答的物品推荐方法的图像展示信息的示意图;
图4A和图4B是本发明实施例提供的基于社区问答的物品推荐方法的图像展示信息的示意图;
图5是本发明实施例提供的基于社区问答的物品推荐方法的多模态融合匹配模型的结构示意图;
图6是本发明实施例提供的基于社区问答的物品推荐方法的第二子流程示意图;
图7是本发明实施例提供的基于社区问答的物品推荐方法的文本匹配模型的结构示意图;
图8是本发明实施例提供的基于社区问答的物品推荐方法的第三子流程示意图;
图9是本发明实施例提供的基于社区问答的物品推荐方法的第四子流程示意图;
图10是本发明实施例提供的基于社区问答的物品推荐方法的图像匹配模型的结构示意图;
图11是本发明实施例提供的基于社区问答的物品推荐方法的第五子流程示意图;
图12是本发明实施例提供的基于社区问答的物品推荐系统的结构示意图;
图13是本发明实施例提供的基于社区问答的物品推荐系统的匹配模型构建单元第一结构示意图;
图14是本发明实施例提供的基于社区问答的物品推荐系统的匹配模型构建单元第二结构示意图;
图15是本发明实施例提供的基于社区问答的物品推荐系统的匹配模型构建单元第三结构示意图;
图16是本发明实施例提供的基于社区问答的物品推荐系统的匹配模型构建单元第四结构示意图;
图17是本发明实施例提供的基于社区问答的物品推荐系统的匹配模型构建单元第五结构示意图;
图18是本发明实施例提供的基于社区问答的物品推荐系统的匹配模型构建单元第六结构示意图;
图19是本发明实施例提供的用户设备的结构示意图。
具体实施方式
下面将结合附图,对本发明的实施例进行描述。
社区问答是在Web2.0背景下发展起来的一种交互式、开放性的知识共享平台。用户通过问答社区可以对任何主题进行提问,并且由其他用户提供可能性的答案。由于问题由人来回答,社区问答通常能够为提问用户在相应的线下生活中提供经验性的帮助。与社区问答相关的机器学习任务多种多样,包括专家发现、用户兴趣分析、回答满意度预测等。
由于问题和答案是用户从社区问答平台获取知识的主要途径,其中一项基本的任务是对用户提出的问题自动生成正确的回答。该任务的主要挑战在于:由用户产生的网络数据具有多样性和模糊性,从而不可避免地导致问题和答案之间的“字面鸿沟”,具体表现在问题中使用的词语和对应答案中的相关词语常常是不一致的。例如词语“公司”在英文中可以描述为“company”或“firm”,若在问题中用“company”表述,而在相关答案用“firm”表述,由于字面上的不匹配,可能导致无法准确地匹配相关答案。
在技术解决方案上,通常使用基于搜索模型的方法,对问答语料建立索引,将该任务看作是信息检索问题,检索与用户提问相关的文本并返回。然而,目前的社区问答系统仅强调答案的生成,而忽略了用户提问的最终目的,即对提问物品的实体获取。因此,用户在得到答案后仍然需要繁琐地线上操作过程。
在本发明一个实施例中,提供一种基于社区问答的物品推荐方法及系统,利用社区问答数据和技术上的特点,融合海量的自然语言问答信息,从推荐的准确性和高效性出发,实现支持用户多样化、模糊意图交互的物品推荐。
请参阅图1,所述基于社区问答的物品推荐方法至少包括如下步骤:
步骤101:获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
步骤102:将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
步骤103:根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。
其中,所述文本信息可以为自然语句的问题,例如“一款穿白衣的小女孩走迷宫的游戏”,相应地,所述目标物品则为用户希望通过所述问题搜索得到的结果,例如“纪念碑谷”。可以理解,所述预设物品集合可以是预先从特定的数据库中提取的所有物品的集合,例如,从Google Play应用市场或华为等其他应用市场提取的所有应用的集合。
所述目标物品可以为预设物品集合中的任意一个预设物品。所述预设物品的模态内容信息可以包括预设物品的属性中可能带有的介绍文本信息、标签信息、图像展示信息等一种或多种模态特征信息。通过将所述针对目标物品的问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息,并将每一个二元组信息作为经过训练的预设匹配模型的输入,则可以根据训练得到的匹配模型参数,计算所述预设物品集合中的多个预设物品与所述针对目标物品的问题的匹配分数,进而根据匹配分数的高低输出物品推荐列表给用户。例如,针对“一款穿白衣的小女孩走迷宫的游戏”的问题,经过预设匹配模型进行预测匹配,输出的物品推荐列表按照匹配分数的高低顺序可以为纪念碑谷、幽灵记忆、密室逃脱、机械迷城等。
请参阅图2,在一种实施方式中,所述获取针对目标物品的问题的文本信息之前,所述方法还包括:
步骤201:提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
步骤202:结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
步骤203:将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
其中,所述预设匹配模型参数用于计算每一个所述预设物品与针对目标物品的在线问题的匹配分数。
具体地,可以根据所述预设物品的介绍文本信息、标签信息、图像展示信息等不同模态的内容属性,从不同数据来源中获取物品信息。在本实施例中,预设物品的模态内容信息的提取方法如下:
介绍文本信息:利用应用市场中的应用简介,以及从百度百科中抓取的应用描述构建预设物品的介绍文本信息;
标签信息:由人工标注、第三方网站抓取、分词提取等方式可以获取含有噪声的标签数据,再通过机器学习算法滤除噪声标签,构建预设物品的标签信息;
图像展示信息:利用应用市场中的应用截图,以及从谷歌中抓取的图片搜索结果构建预设物品的图像展示信息。
在本实施例中,从社区问答数据库中提取与所述预设物品相关的问题和正确答案,以及所述预设物品的问题-物品相关对集合的构建可以划分为如下三个步骤:
(1)社区问答平台(例如,百度知道、知乎、Quora等)中有大量问题和其对应答案的数据,从社区问答平台抓取网页并解析出问题和其满足一定条件的答案,认为是该问题的正确答案,并用问题和其正确答案构社区问答集合;
(2)从社区问答集合中提取与物品相关的数据,具体操作为:由启发式的方法逐条查找答案字符串中是否包含物品名称信息,若是,则提取出该答案和其相应问题;否则,不进行提取操作;
(3)构建问题-物品相关对集合:将提取到的问题-物品两种实体间的相关性由二元组信息表示,若问题和物品在同一个二元组信息中,认为该问题和该物品相关,作为匹配模型的监督信息,即训练样本。
在本实施例中,所述预设物品的二元组信息训练样本可以通过如下方法构建:
训练数据构成方式为问题-物品二元组,并将所有的二元组构建成为训练集合,其中问题采用文本描述,而物品则采用模态内容信息描述,即根据问题的文本信息与对应物品的模态内容信息之间建立二元组信息。对应用市场的手机应用而言,多模态内容信息可以包含应用的介绍文本信息、标签信息、图像展示信息(应用的截图或海报)。例如:
训练样本一:
问题:三维旋转城堡搭桥游戏
答案:说的是纪念碑谷吧
二元组:<三维旋转城堡搭桥游戏,纪念碑谷>
介绍文本信息:是一款解谜游戏,玩家操作公主艾达在看似不可能存在的迷宫中...;
标签信息:解谜、益智、冒险、迷宫、游戏;
图像展示信息:如图3A和图3B所示。
训练样本二:
问题:明星A代言的安卓游戏叫什么
答案:宝岛奇兵手游
二元组:<明星A代言的安卓游戏叫什么,宝岛奇兵>
介绍文本信息:由芬兰Supercell Oy公司开发,Supercell Oy及昆仑游戏发行的一款战斗策略类、全球同服的手机游戏…;
标签信息:战争、塔防、模拟经营;
图像展示信息:如图4A和图4B所示。
可以理解,所述二元组中的物品名称可以用对应物品的任意一种或者多种模态内容信息替代,从而构成问题与对应物品的模态之间的二元组训练样本。通过收集大量的预设物品多模态内容信息来构建二元组信息训练样本,进而利用所述训练样本对预设匹配模型进行训练,并通过优化算法最大化在训练数据上的似然函数即可确定匹配模型参数集合。
当匹配模型参数确定之后,即可通过所述预设匹配模型进行物品推荐。具体地,所述将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数计算每一个所述预设物品与所述问题的匹配分数,包括:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
其中,当所述预设匹配模型通过所述二元组信息训练样本进行训练之后,可以获取与所述训练样本对应的预设匹配模型参数,通过将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值,当有二元组信息被输入所述预设匹配模型时,所述预设匹配模型即可根据所述匹配分数计算权值,计算所述二元组信息对应的预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
假设所述针对目标物品的问题的文本信息为“一款穿白衣的小女孩走迷宫的游戏”,则将该问题的文本信息与所述预设物品集合中每一个预设物品的模态内容信息分别构建二元组信息,进而将每一个所述二元组信息输入所述预设匹配模型,并将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值,即可根据所述匹配分数计算权值,计算输入所述预设匹配模型的二元组信息对应的预设物品与所述针对目标物品的问题的匹配分数,并输出所述预设物品与所述针对目标物品的问题的匹配分数。
表1二元组信息及其匹配分数
在本实施例中,假设所述预设物品集合中包含的物品列表及其与所述针对目标物品的问题构成的二元组信息如表1所示,则将每一个所述二元组信息输入所述预设匹配模型之后,可以得到对应的匹配分数。
根据预设匹配模型输出的匹配分数,从所述预设物品集合中按照匹配分数由高到低依次选取N个预设物品,生成输出所述针对目标物品的问题的物品推荐列表。例如,在本实施例中,N的取值可以为3,则输出物品推荐列表如下: 1、纪念碑谷,2、地铁逃亡,3、开心消消乐。
由表1中所示的匹配分数可以看出,“纪念碑谷”对应的匹配分数为0.83,在所有预设物品的匹配分数中最高,从而在推荐列表中,将“纪念碑谷”放在首位,如此,用户即可根据该推荐列表获取所述问题“一款穿白衣的小女孩走迷宫的游戏”对应的应用。
可以理解,在语句表达上,所述针对目标物品的问题可以与所述训练样本中关于该目标物品的问题存在差异。例如,假设所述目标物品为“纪念碑谷”,从社区问答平台获取的关于“纪念碑谷”的问题(即训练样本中关于目标物品的问题)为“一款穿白衣的小女孩走迷宫的游戏”,则当获取到用户针对目标物品“纪念碑谷”的问题为“一个穿白衣的小女孩在游戏中走迷宫”时,同样可以实现问题与目标物品的匹配。此外,述针对目标物品的问题还可以是用户根据所述目标物品的特征而表达的多个关键字组合,例如“白衣女孩、走迷宫”。
在一种实施方式中,为评估预设匹配模型推荐物品的准确性,需要对模型进行线下测试。其中,预设匹配模型的测试数据和训练样本保持相同的格式:由用户输入和训练数据不重合的自然语言测试问题(即针对目标物品的问题的文本信息),根据匹配模型参数集合和预测函数得到测试问题和预设物品集合中多个预设物品的匹配分数,并按照匹配分数由高到低的顺序输出测试问题的物品推荐结果。例如:
问题:一款穿白衣的小女孩走迷宫的游戏
推荐:纪念碑谷幽灵记忆密室逃脱机械迷城…
或者,
问题:探索未知世界的战斗经营类游戏
推荐:海岛奇兵部落冲突联盟战争列王的纷争…
可以理解,在关于每一个问题的物品推荐结果中,应用(即物品)与给定问题相关性随着排列顺序的先后依次递减。
在一种实施方式中,所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息中的至少一者,所述获取针对目标物品的在线问题的文本信息之前,所述方法还包括:
根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
由于所述模态内容信息可以包括不同种类的信息,例如介绍文本信息及标签信息属于文字类信息,而图像展示信息则属于图像类信息,因此,在构建预设匹配模型时,需要根据不同的模态内容信息的种类分别建立不同模态内容信息的匹配模型,然后利用不同模态内容信息的匹配模型,建立多模态融合匹配模型。
请参阅图5,在一种实施方式中,将预设物品集合记为P,与所述预设物品相关的问题集合记为Q,其中,任意一个物品p∈P和任意一个用户提问q∈Q的匹配关系用分数S(p,q)表示。每个物品可能存在多个模态内容信息,在每个模态下都有二元组信息的匹配分数。例如,可以分别将图像展示信息、介绍文本信息、标签信息三种模态内容信息对应的匹配分数表示为不同的匹配分数分别由物品相应模态内容信息的匹配模型得到。最后,用集成函数g(·)得到给定问题与物品的综合匹配分数S(p,q),记为:
其中参数集合{wimg,wtext,wtag,bimg,btext,btag}∈Θ可通过模型训练得到,Θ代表所有涉及到的模型参数集合。其中,所述集成函数g(·)可以是以为自变量,以参数集合{wimg,wtext,wtag,bimg,btext,btag}∈Θ中的参数为权值的任意函数。
请参阅图6,在一种实施方式中,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
步骤601:构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
步骤602:构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n 为所述介绍文本信息的特征向量vtext的维度;
步骤603:通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。在本实施例中,所述文本匹配模型为双线性模型。
请参阅图7,将问题的文本信息的特征向量表示为vqe∈Rm,物品的介绍文本信息的特征向量表示为vtext∈Rn,作为模型输入,R代表欧式空间。可以理解,在双线性模型中,vqe和vtext的特征维度可以不同,即m和n不一定相等。具体而言,可以由词向量等模型实现初始vqe,vtext的生成。问题的文本信息的特征向量和物品的介绍文本信息的特征向量分别通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k投影到相同维度的空间中,再经过隐含层特征的内积操作得到问题和物品在文本模态上的匹配相关性,即:
对于已构建的二元组信息训练样本,可以通过建立最大化匹配相关性的优化问题,求解双线性模型参数{Lqe,Ltext}∈Θ。
可以理解,在一种实施方式中,对于文本匹配模型的构建,并不限于采用双线性模型,还可以是其他任意可以实现文本匹配的模型,例如:也可以采用卷积神经网来建立所述问题的文本信息与所述介绍文本信息的文本匹配模型。具体地,采用卷积神经网来建立所述问题的文本信息与所述介绍文本信息的文本匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中,wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在本实施方式中,所述卷积神经网络CNNqe(·)、前向神经网络MLP(·),都不一定是固定的结构,例如卷积神经网络可能是一层convolution layer(卷积层)+ max-poolinglayer(池化层),也可能是多层的convolution layer+max-pooling layer;前向神经网络可能是一层,也可能是多层。其中,关于所述卷积神经网络CNNqe(·)、前向神经网络MLP(·)的数据表示可以参考图10所示实施例中的描述。
请参阅图8,在一种实施方式中,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
步骤801:构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
步骤802:构建所述预设物品的标签信息的特征向量vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
步骤803:通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。在本实施例中,所述标签匹配模型为双线性模型。
可以理解,对于物品标签和问题的匹配也可以采用双线性模型实现,具体实现方式为在二元组信息练样样本上最大化方程:
其中,参数{Lqe,Ltag}∈Θ可以用图6和图7所示实施方式中同样的方法求解。
可以理解,在一种实施方式中,对于标签匹配模型的构建,同样也可以采用卷积神经网来实现,具体包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中,wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在本实施方式中,所述卷积神经网络CNNqe(·)、前向神经网络MLP(·),都不一定是固定的结构,例如卷积神经网络可能是一层convolution layer+ max-pooling layer,也可能是多层的convolution layer+max-pooling layer;前向神经网络可能是一层,也可能是多层。其中,关于所述卷积神经网络CNNqe(·)、前向神经网络MLP(·)的数据表示可以参考图10所示实施例中的描述。请参阅图 9,在一种实施方式中,若所述模态内容信息为所述预设物品的图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
步骤901:构建所述预设物品的图像展示信息的特征向量vim;
步骤904:根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
请参阅图10,将输入的物品图像展示信息和自然语言问题的文本信息通过卷积神经网络(Convolutional Neural Networks,CNN)进行匹配,并输出一个匹配分数值,将该网络模型简称为m-CNN。m-CNN由三个部分组成:Image CNN, Matching CNN和MLP。Image CNN也称为图像CNN,用于生成物品在图像上的特征表示,其生成过程可表示为公式:
vim=σ(Wim(CNNim(I))+bim),
其中I是给定输入图像,vim是输出图像特征向量,CNNim(·)可以认为是卷积神经网络操作,输出为固定长度的特征向量,Wim,bim分别是投影矩阵和偏置项,且有{Wim,bim}∈Θ,σ(·)是激活函数,具体可以选择Sigmoid函数或ReLU;
Matching CNN也称匹配CNN,是主要用于特征匹配的卷积神经网络模型。输入为图像特征向量vim和词语特征向量其中词语特征向量可以由词向量 (word embedding)或词袋(bag of words)得到。从图10可以看出,Matching CNN 首先将词语划分成为不同的语义单元,然后用图像特征vim和每个语义单元交互作用,并产生共同的高层语义表示。具体的,这里使用词语级别(word-level) 的语义单元,对于多模特卷积神经网络中的卷积单元,模型输入可以写作:
Matching CNN中Max Pooling(最大池化)过程表述为:
其中,下角标(l,f)表示第l层、第f种特征映射块(Feature Map),相应 MatchingCNN的参数为{w(l,f),b(l,f)}∈Θ。Matching CNN输出是向量vJR,嵌入了问题和图像匹配信息的高层特征。
MLP代表多层感知机,用联合特征表示vJR作为MLP的输入,能够输出最终的图像-问题匹配分数结果,由下面公式计算:
Simg=ws(σ(wm(vJR)+bm))+bs
由此可见,这里采用两层的MLP,其中{wm,bm}∈Θ代表隐含层参数,{ws,bs}∈Θ用于计算最终的匹配分数Simg。
Image CNN、Matching CNN、MLP单元共同构成了多模态卷积神经网络 m-CNN。
请参阅图11,在一种实施方式中,若所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
可以理解,所述文本匹配模型标签匹配模型及图像匹配模型的具体构建方法可以参照图6至图9所示实施例中的相关描述,这里不再赘述。通过将图像匹配模型文本匹配模型和标签匹配模型融合在图5 给出的多模态融合匹配模型框架中,即可得到一个端到端(end-to-end)的多模态融合匹配模型,实现参数集合Θ中所有模型参数的联合优化。
其中,Θ为多模态融合匹配模型的参数集合,D为预设物品的二元组信息训练样本集合,Ω(·)是正则化项,用于防止参数过多可能导致的模型过拟合,λ为超参数,用于平衡相关性匹配和正则化项在优化问题中的作用。
对于上述多模态融合匹配模型,通过求解参数集合Θ,使得在针对目标物品的问题的文本信息在训练样本集合D上的相关性最大化,即可求解出所述问题与训练样本集合中不同物品的匹配分数。采用多模态融合匹配模型的好处在于可以自适应地调整不同模态对于整体匹配模型的贡献,同时由统一的目标函数优化多模态特征生成模型,如ImageCNN,词向量模型等,更好地适应匹配任务。
请参阅图12,在本发明一个实施例中,提供一种基于社区问答的物品推荐系统1200,包括:
二元组构建单元1210,用于获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
匹配分数计算单元1220,用于将每一个所述二元组信息输入预设匹配模型,并结预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
物品推荐单元1230,用于根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。
所述物品推荐系统1200通过构建问题的文本信息与物品的模态内容信息之间的二元组信息,并将该二元组作为预设匹配模型的输入,进而结合预设匹配模型参数,计算出所述问题与预设物品集合中多个物品的匹配分数,进而根据匹配分数的高低输出物品推荐列表,由于所述预设匹配模型参数可以通过大量的训练样本训练得到,从而有利于提升物品推荐的精确度。
在一种实施方式中,所述匹配分数计算单元1220,还用于:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
其中,当所述预设匹配模型通过所述二元组信息训练样本进行训练之后,可以获取与所述训练样本对应的预设匹配模型参数,通过将所述预设匹配模型参数加载为所述预设匹配模型的当前参数,当有二元组信息被输入所述预设匹配模型时,所述预设匹配模型即可根据所述预设匹配模型参数,计算所述二元组信息对应的预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
在一种实施方式中,所述物品推荐系统1200还包括:
模态提取单元1240,用于提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
训练样本构建单元1260,用于结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
模型参数训练单元1270,用于将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
其中,所述预设匹配模型参数用于计算每一个所述预设物品与针对目标物品的在线问题的匹配分数。
通过从社区问答数据库中提取与所述预设物品相关的问题的文本信息,并构建针对所述预设物品的二元组信息训练样本,由于社区问答数据库中通常包含大量的问题-答案组合,从而可以保证训练样本的丰富性,有利于提升匹配模型的性能,并优化匹配模型参数,进而提升物品推荐的精确度。
在一种实施方式中,所述物品推荐系统1200还包括:
匹配模型构建单元1280,用于根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
在本实施例中,所述二元组构建单元1210、匹配分数计算单元1220和物品推荐单元1230构成所述物品推荐系统1200的在线推荐模块,用于根据预设匹配模型,并结合通过训练得到的匹配模型参数,计算预设物品集合中每一个预设物品与用户输入的自然语句问题的匹配分数,并根据匹配分数的高低输出物品推荐列表。所述模态提取单元1240、相关对构建单元1250、训练样本构建单元1260、模型参数训练单元1270及匹配模型构建单元1280构成所述物品推荐系统1200的离线训练模块,用于构建训练样本以对预设匹配模型进行训练,并输出对应的匹配模型参数给所述在线推荐模块。
请参阅图13,在一种实施方式中,所述匹配模型构建单元1280,包括:
问题特征构建子单元1281,用于构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
模态特征构建子单元1282,用于构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
空间投影子单元1283,用于通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
文本模型构建子单元1284,用于通过隐含层特征的内积构建所述问题的文本信息与所述介绍文本信息的文本匹配模型:
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
请参阅图14,在一种实施方式中,所述匹配模型构建单元1280,包括:
文本模型构建子单元1284,用于通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中,wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
请参阅图15,在一种实施方式中,所述匹配模型构建单元1280,包括:
问题特征构建子单元1281,用于构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
模态特征构建子单元1282,用于构建所述预设物品的标签信息的特征向量 vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
空间投影子单元1283,用于通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
标签模型构建子单元1285,用于通过隐含层特征的内积构建所述问题的文本信息与所述标签信息的标签匹配模型:
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
请参阅图16,在一种实施方式中,所述匹配模型构建单元1280,包括:
标签模型构建子单元1285,用于通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中, wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
请参阅图17,在一种实施方式中,所述匹配模型构建单元1280,包括:
模态特征构建子单元1282,用于构建所述预设物品的图像展示信息的特征向量vim;
图像模型构建子单元1287,用于根据所述问题与图像的匹配信息特征向量 vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型 Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
请参阅图18,在一种实施方式中,所述匹配模型构建单元1280,包括:
通过建立问题与物品的多模态融合匹配模型,从而使得所述物品推荐方法可以应用于用户多样化、用户需求意图模糊的应用场景,多种模态内容信息的融合有利于提升用户多样化、用户需求意图模糊的应用场景下的物品推荐精确度。
可以理解,所述物品推荐系统1200的各组成单元的功能及其具体实现还可以参照图1至图11所示方法实施例中的相关描述,此处不再赘述。
请参阅图19,在本发明一个实施例中,提供一种用户设备1700,包括至少一个处理器1701、存储器1703、通信接口1705和总线1707,所述至少一个处理器1701、所述存储器1703和所述通信接口1705通过所述总线1707连接并完成相互间的通信;所述存储器1703用于存储可执行程序代码;所述处理器1701 用于调用存储于所述存储器1703中的可执行程序代码,并执行如下操作:
获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。
通过构建问题的文本信息与物品的模态内容信息之间的二元组信息,并将该二元组作为预设匹配模型的输入,进而结合预设匹配模型参数,计算出所述问题与预设物品集合中多个物品的匹配分数,进而根据匹配分数的高低输出物品推荐列表,由于所述预设匹配模型参数可以通过大量的训练样本训练得到,从而有利于提升物品推荐的精确度。
在一种实施方式中,所述将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数计算每一个所述预设物品与所述问题的匹配分数,包括:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
其中,当所述预设匹配模型通过所述二元组信息训练样本进行训练之后,可以获取与所述训练样本对应的预设匹配模型参数,通过将所述预设匹配模型参数加载为所述预设匹配模型的当前参数,当有二元组信息被输入所述预设匹配模型时,所述预设匹配模型即可根据所述预设匹配模型参数,计算所述二元组信息对应的预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
在一种实施方式中,所述获取针对目标物品的问题的文本信息之前,所述操作还包括:
提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
其中,所述预设匹配模型参数用于计算每一个所述预设物品与针对目标物品的在线问题的匹配分数。
通过从社区问答数据库中提取与所述预设物品相关的问题的文本信息,并构建针对所述预设物品的二元组信息训练样本,由于社区问答数据库中通常包含大量的问题-答案组合,从而可以保证训练样本的丰富性,有利于提升匹配模型的性能,并优化匹配模型参数,进而提升物品推荐的精确度。
在一种实施方式中,所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息中的至少一者,所述获取针对目标物品的在线问题的文本信息之前,所述操作还包括:
根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
在一种实施方式中,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的标签信息的特征向量vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息为所述预设物品的图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品的图像展示信息的特征向量vim;
根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
在一种实施方式中,若所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过建立问题与物品的多模态融合匹配模型,从而使得所述物品推荐方法可以应用于用户多样化、用户需求意图模糊的应用场景,并通过从社区问答中引入物品相关知识,对用户的自然语言问题自动产生相关性高的推荐结果,能够缩减在物品选择时繁琐的步骤,提升用户体验的同时提高物品推荐的准确性。
可以理解,所述处理器1701执行的各操作的具体步骤及其实现还可以参照图1至图11所示方法实施例中的相关描述,此处不再赘述。
本发明实施例通过将社区问答与物品推荐相关联,构建支持用户多样化、模糊意图交互的物品推荐系统。相较于传统系统,该物品推荐系统从社区问答中引入物品相关知识,对用户的自然语言问题自动产生相关性高的推荐结果,能够缩减在物品选择时繁琐的步骤,提升用户体验的同时提高物品推荐的准确性。
Claims (27)
1.一种基于社区问答的物品推荐方法,其特征在于,包括:
获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表;
所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息中的至少一者,所述获取针对目标物品的在线问题的文本信息之前,所述方法还包括:
根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
2.如权利要求1所述的方法,其特征在于,所述将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数计算每一个所述预设物品与所述问题的匹配分数,包括:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
3.如权利要求1或2所述的方法,其特征在于,所述获取针对目标物品的问题的文本信息之前,所述方法还包括:
提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
4.如权利要求1所述的方法,其特征在于,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
5.如权利要求1所述的方法,其特征在于,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中,wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
6.如权利要求1所述的方法,其特征在于,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的标签信息的特征向量vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
7.如权利要求1所述的方法,其特征在于,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中,wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
8.如权利要求1所述的方法,其特征在于,若所述模态内容信息为所述预设物品的图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品的图像展示信息的特征向量vim;
根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
9.如权利要求1所述的方法,其特征在于,若所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
10.一种基于社区问答的物品推荐系统,其特征在于,包括:
二元组构建单元,用于获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
匹配分数计算单元,用于将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
物品推荐单元,用于根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表;
匹配模型构建单元,用于根据所述模态内容信息,构建预设匹配模型;
其中,所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息中的至少一者,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
11.如权利要求10所述的系统,其特征在于,所述匹配分数计算单元,还用于:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
12.如权利要求10或11所述的系统,其特征在于,所述系统还包括:
模态提取单元,用于提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
训练样本构建单元,用于结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
模型参数训练单元,用于将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
13.如权利要求10所述的系统,其特征在于,所述匹配模型构建单元,包括:
问题特征构建子单元,用于构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
模态特征构建子单元,用于构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
空间投影子单元,用于通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
14.如权利要求10所述的系统,其特征在于,所述匹配模型构建单元,包括:
文本模型构建子单元,用于通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中,wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
15.如权利要求10所述的系统,其特征在于,所述匹配模型构建单元,包括:
问题特征构建子单元,用于构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
模态特征构建子单元,用于构建所述预设物品的标签信息的特征向量vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
空间投影子单元,用于通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
16.如权利要求10所述的系统,其特征在于,所述匹配模型构建单元,包括:
标签模型构建子单元,用于通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中,wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
17.如权利要求10所述的系统,其特征在于,所述匹配模型构建单元,包括:
模态特征构建子单元,用于构建所述预设物品的图像展示信息的特征向量vim;
图像模型构建子单元,用于根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
18.如权利要求10所述的系统,其特征在于,所述匹配模型构建单元,包括:
19.一种用户设备,其特征在于,包括至少一个处理器、存储器、通信接口和总线,所述至少一个处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;所述存储器用于存储可执行程序代码;所述处理器用于调用存储于所述存储器中的可执行程序代码,并执行如下操作:
获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;所述模态内容信息用于表征所述预设物品的特征,所述二元组信息包括所述问题的文本信息及所述预设物品的模态内容信息;
将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;所述预设匹配模型用于将所述预设物品集合中的每一个预设物品与所述针对目标物品的问题进行匹配,并输出对应的匹配分数;
根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表;
所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息中的至少一者,所述获取针对目标物品的在线问题的文本信息之前,所述操作还包括:
根据所述模态内容信息,构建预设匹配模型;
其中,所述预设匹配模型用于将输入的二元组信息中的问题的文本信息和模态内容信息进行匹配,并输出对应的匹配分数。
20.如权利要求19所述的用户设备,其特征在于,所述将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数计算每一个所述预设物品与所述问题的匹配分数,包括:
将每一个所述二元组信息对应的预设物品的模态内容信息与所述针对目标物品的问题的文本信息输入预设匹配模型;
将所述预设匹配模型参数加载为所述预设匹配模型的匹配分数计算权值;
根据所述匹配分数计算权值,计算所述预设物品与所述针对目标物品的问题的匹配分数,并将计算得到的匹配分数作为所述预设匹配模型的输出。
21.如权利要求19或20所述的用户设备,其特征在于,所述获取针对目标物品的问题的文本信息之前,所述操作还包括:
提取预设物品集合中的预设物品的模态内容信息,并根据所述预设物品的名称,从社区问答数据库中提取与所述预设物品相关的问题的文本信息;
结合所述预设物品的模态内容信息和与所述预设物品相关的问题的文本信息,构建针对所述预设物品的二元组信息训练样本;
将所述二元组信息训练样本输入预设匹配模型进行训练,得到对应的预设匹配模型参数。
22.如权利要求19所述的用户设备,其特征在于,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的介绍文本信息的特征向量vtext∈Rn,其中,n为所述介绍文本信息的特征向量vtext的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltext∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述介绍文本信息的特征向量vtext投影到相同维度的空间;
其中,{Lqe,Ltext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
23.如权利要求19所述的用户设备,其特征在于,若所述模态内容信息为所述预设物品的介绍文本信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述介绍文本信息的文本匹配模型Stext(zqe,ztext)=MLP([zqe;ztext];wtext),其中,wtext是所述前向神经网络的参数;
其中,{θqe,θtext,wtext}∈Θ为所述问题的文本信息与所述介绍文本信息的文本匹配模型参数,Θ为文本匹配模型的参数集合。
24.如权利要求19所述的用户设备,其特征在于,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品相关的问题的文本信息的特征向量vqe∈Rm,其中,R为欧式空间,m为所述问题的文本信息的特征向量vqe的维度;
构建所述预设物品的标签信息的特征向量vtag∈Rn,其中,n为所述标签信息的特征向量vtag的维度;
通过线性投影矩阵Lqe∈Rm×k和Ltag∈Rn×k分别将所述问题的文本信息的特征向量vqe和所述标签信息的特征向量vtag投影到相同维度的空间;
其中,{Lqe,Ltag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
25.如权利要求19所述的用户设备,其特征在于,若所述模态内容信息为所述预设物品的标签信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
通过前向神经网络MLP(·)构建所述问题的文本信息与所述标签信息的标签匹配模型Stag(zqe,ztag)=MLP([zqe;ztag];wtag),其中,wtag是所述前向神经网络的参数;
其中,{θqe,θtag,wtag}∈Θ为所述问题的文本信息与所述标签信息的标签匹配模型参数,Θ为标签匹配模型的参数集合。
26.如权利要求19所述的用户设备,其特征在于,若所述模态内容信息为所述预设物品的图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
构建所述预设物品的图像展示信息的特征向量vim;
根据所述问题与图像的匹配信息特征向量vJR,构建所述问题的文本信息与所述图像展示信息的图像匹配模型Simg=ws(σ(wm(vJR)+bm))+bs,其中,{wm,bm}∈Θ为隐含层参数,{ws,bs}∈Θ为输出层参数,用于计算最终的匹配分数Simg,Θ为图像匹配模型的参数集合。
27.如权利要求19所述的用户设备,其特征在于,若所述模态内容信息包括所述预设物品的介绍文本信息、标签信息及图像展示信息,则所述根据所述模态内容信息,构建预设匹配模型,包括:
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611263447.3A CN108269110B (zh) | 2016-12-30 | 2016-12-30 | 基于社区问答的物品推荐方法、系统及用户设备 |
PCT/CN2017/117533 WO2018121380A1 (zh) | 2016-12-30 | 2017-12-20 | 基于社区问答的物品推荐方法、系统及用户设备 |
US16/444,618 US20190303768A1 (en) | 2016-12-30 | 2019-06-18 | Community Question Answering-Based Article Recommendation Method, System, and User Device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611263447.3A CN108269110B (zh) | 2016-12-30 | 2016-12-30 | 基于社区问答的物品推荐方法、系统及用户设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108269110A CN108269110A (zh) | 2018-07-10 |
CN108269110B true CN108269110B (zh) | 2021-10-26 |
Family
ID=62710971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611263447.3A Active CN108269110B (zh) | 2016-12-30 | 2016-12-30 | 基于社区问答的物品推荐方法、系统及用户设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190303768A1 (zh) |
CN (1) | CN108269110B (zh) |
WO (1) | WO2018121380A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291684B (zh) * | 2016-04-12 | 2021-02-09 | 华为技术有限公司 | 语言文本的分词方法和系统 |
CN109165249B (zh) * | 2018-08-07 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 数据处理模型构建方法、装置、服务器和用户端 |
CN111177328B (zh) * | 2018-11-12 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 问答匹配系统和方法及问答处理设备和介质 |
CN110188195B (zh) * | 2019-04-29 | 2021-12-17 | 南京星云数字技术有限公司 | 一种基于深度学习的文本意图识别方法、装置及设备 |
CN110502694B (zh) * | 2019-07-23 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于大数据分析的律师推荐方法及相关设备 |
CN110442810B (zh) * | 2019-08-08 | 2023-06-13 | 广州华建工智慧科技有限公司 | 一种基于DeepFM推荐算法的移动端BIM模型智能缓存方法 |
CN110990698B (zh) * | 2019-11-29 | 2021-01-08 | 珠海大横琴科技发展有限公司 | 一种推荐模型构建方法和装置 |
CN111125566B (zh) * | 2019-12-11 | 2021-08-31 | 贝壳找房(北京)科技有限公司 | 信息获取方法和装置、电子设备和存储介质 |
CN111274483B (zh) * | 2020-01-19 | 2024-05-03 | 北京博学广阅教育科技有限公司 | 关联推荐方法及关联推荐交互方法 |
CN111461174B (zh) * | 2020-03-06 | 2023-04-07 | 西北大学 | 多层次注意力机制的多模态标签推荐模型构建方法及装置 |
CN111782964B (zh) * | 2020-06-23 | 2024-02-09 | 北京智能工场科技有限公司 | 一种社区帖子的推荐方法 |
CN111723293B (zh) * | 2020-06-24 | 2023-08-25 | 上海风秩科技有限公司 | 一种文章内容的推荐方法、装置、电子设备及存储介质 |
US11693897B2 (en) * | 2020-10-20 | 2023-07-04 | Spotify Ab | Using a hierarchical machine learning algorithm for providing personalized media content |
US11544315B2 (en) | 2020-10-20 | 2023-01-03 | Spotify Ab | Systems and methods for using hierarchical ordered weighted averaging for providing personalized media content |
CN113010662B (zh) * | 2021-04-23 | 2022-09-27 | 中国科学院深圳先进技术研究院 | 一种层次化会话式机器阅读理解系统和方法 |
CN113392196B (zh) * | 2021-06-04 | 2023-04-21 | 北京师范大学 | 一种基于多模态交叉比较的题目检索方法和系统 |
CN113987143A (zh) * | 2021-10-18 | 2022-01-28 | 浙江香侬慧语科技有限责任公司 | 提高对话模型预测质量的方法、装置及存储介质 |
CN116383372B (zh) * | 2023-04-14 | 2023-11-24 | 北京创益互联科技有限公司 | 基于人工智能的数据分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184225A (zh) * | 2011-05-09 | 2011-09-14 | 北京奥米时代生物技术有限公司 | 一种在问答系统中搜索优选专家信息的方法 |
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN105139237A (zh) * | 2015-09-25 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 信息推送的方法和装置 |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及系统 |
CN105630917A (zh) * | 2015-12-22 | 2016-06-01 | 成都小多科技有限公司 | 智能应答方法及装置 |
CN105843962A (zh) * | 2016-04-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 信息处理、显示方法及装置以及信息处理显示系统 |
US9483803B2 (en) * | 2013-05-03 | 2016-11-01 | Facebook, Inc. | Search intent for queries on online social networks |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6728695B1 (en) * | 2000-05-26 | 2004-04-27 | Burning Glass Technologies, Llc | Method and apparatus for making predictions about entities represented in documents |
JP4257925B2 (ja) * | 2006-08-24 | 2009-04-30 | シャープ株式会社 | 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体 |
US8341095B2 (en) * | 2009-01-12 | 2012-12-25 | Nec Laboratories America, Inc. | Supervised semantic indexing and its extensions |
US10726083B2 (en) * | 2010-10-30 | 2020-07-28 | International Business Machines Corporation | Search query transformations |
CN102253936B (zh) * | 2010-05-18 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 记录用户访问商品信息的方法及搜索方法和服务器 |
EP2709306B1 (en) * | 2012-09-14 | 2019-03-06 | Alcatel Lucent | Method and system to perform secure boolean search over encrypted documents |
US20140324808A1 (en) * | 2013-03-15 | 2014-10-30 | Sumeet Sandhu | Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis |
US10394838B2 (en) * | 2015-11-11 | 2019-08-27 | Apple Inc. | App store searching |
-
2016
- 2016-12-30 CN CN201611263447.3A patent/CN108269110B/zh active Active
-
2017
- 2017-12-20 WO PCT/CN2017/117533 patent/WO2018121380A1/zh active Application Filing
-
2019
- 2019-06-18 US US16/444,618 patent/US20190303768A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184225A (zh) * | 2011-05-09 | 2011-09-14 | 北京奥米时代生物技术有限公司 | 一种在问答系统中搜索优选专家信息的方法 |
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
US9483803B2 (en) * | 2013-05-03 | 2016-11-01 | Facebook, Inc. | Search intent for queries on online social networks |
CN105139237A (zh) * | 2015-09-25 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 信息推送的方法和装置 |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及系统 |
CN105630917A (zh) * | 2015-12-22 | 2016-06-01 | 成都小多科技有限公司 | 智能应答方法及装置 |
CN105843962A (zh) * | 2016-04-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 信息处理、显示方法及装置以及信息处理显示系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108269110A (zh) | 2018-07-10 |
US20190303768A1 (en) | 2019-10-03 |
WO2018121380A1 (zh) | 2018-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108269110B (zh) | 基于社区问答的物品推荐方法、系统及用户设备 | |
US10825227B2 (en) | Artificial intelligence for generating structured descriptions of scenes | |
US12136118B2 (en) | Deep learning based visual compatibility prediction for bundle recommendations | |
Serrano | Grokking machine learning | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
Lei et al. | Symbolic replay: Scene graph as prompt for continual learning on vqa task | |
CN112380453B (zh) | 物品推荐方法、装置、存储介质及设备 | |
JP2023527403A (ja) | ゲームタグの自動生成 | |
CN113761887A (zh) | 基于文本处理的匹配方法、装置、计算机设备和存储介质 | |
CN117251586A (zh) | 多媒体资源推荐方法、装置及存储介质 | |
CN116910201A (zh) | 一种对话数据生成方法及其相关设备 | |
KR101266499B1 (ko) | 인재개발시스템 및 인재개발방법 | |
KR102119518B1 (ko) | 인공지능을 이용하여 생성되는 스타일 공간에 기반한 상품 추천 방법 및 시스템 | |
JP2012194691A (ja) | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 | |
CN115487508A (zh) | 游戏战队推荐模型的训练方法和相关装置 | |
CN117217286A (zh) | 模型训练和信息处理方法、装置、电子设备及存储介质 | |
Liapis et al. | Modelling the quality of visual creations in iconoscope | |
CN116955599A (zh) | 一种类目确定的方法、相关装置、设备以及存储介质 | |
KR102738061B1 (ko) | 메타버스 환경에서 인공 지능에 기반한 커뮤니케이션 서비스 제공 장치 및 방법 | |
Sourek | Artificial Intelligence in Architecture and the Built Environment: The Revolution Yet to Come | |
Kermanidis et al. | Designing a Support Tool for Creative Advertising by Mining Collaboratively Tagged Ad Video Content: The Architecture of PromONTotion | |
Falcon et al. | Paving the Way for Personalized Museums Tours in the Metaverse. | |
Rawson | The Ngā Ara Whakamana Process: Conceptualising and Designing a Process to Engage with Māori Trust Factors in the Development of IT Artefacts | |
Lopes | NewsMQA: A Multimodal Question Answering Benchmark Over News Pieces | |
CN119406063A (zh) | 一种游戏中的信息处理方法、装置、以及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |