CN114610967A

CN114610967A - 一种应用于用户画像领域的数据增广方法

Info

Publication number: CN114610967A
Application number: CN202210232693.1A
Authority: CN
Inventors: 赵相国; 张官正; 毕鑫; 聂豪杰; 王秋宇
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-10
Anticipated expiration: 2042-03-09
Also published as: CN114610967B

Abstract

本发明公开了一种应用于用户画像领域的数据增广方法，涉及用户画像标签预测领域；克服了标签率极低的问题，同时提高模型的泛化性，以便于根据用户行为数据预测多维度多标签的用户画像标签，并且有效结合自监督学习，能够在用户标签率极低的情况下实现用户分类，降低了人工标注数据集的成本，提高了模型的泛化能力，同时克服图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降的问题，提高模型分类的准确性。

Description

一种应用于用户画像领域的数据增广方法

技术领域

本发明涉及用户画像标签预测领域，具体涉及一种应用于用户画像领域的数据增广方法。

背景技术

近年来，我国信息化建设速度已位居国际前列，随着信息化水平与普及率日益提高，根据CNNIC统计数据，我国网民人数规模已经突破10亿大关，截止2021年06月，我国网民规模已达到10.11亿，其中网络支付用户规模已近9亿。信息化快速发展“互联网+”应用越来越广泛和深入，只有了解市场、了解客户、了解竞争对手，才能推出物美价廉的产品，获得等多的市场青睐。最后是需要突破传统并建立新规则，传统金融机构想了解用户，更多的是选择依靠客户经理，依靠人与人的沟通，需要消耗大量的人力财力，并且由于用户间的差异性，很难达到有效的沟通。而用户画像系统则可以实现任何无需直接与用户对接便可以快速了解客户，最终目标是通过各类系统及产品，实现客户与公司绑定，实现真正意义的高用户忠诚度，此用户忠诚于系统，忠诚于公司的产品和服务，而不受限于人。

用户画像的概念最早是由交互设计之父Alan Copper提出的，他指出用户画像是虚拟用户的代表，是由一系列数据信息所组成的立体用户模型。简单来说，用户画像就是通过用户各种行为数据为用户制作标签，将每一个用户形象具体化，力求对用户特征进行客观准确描述的一种用户分析方法。用户画像最初是在电商领域得到应用的，由于实用效果非常明显且具有良好的适应性，它作为一种有效的目标用户分析工具迅速在计算机、图书情报等学科领域得到广泛应用。随着大数据技术的兴起，用户画像逐渐成为国内外学者尤其是国内学者的研究热点。虽然国内外学者对“用户画像”的理解在不同时期、不同学科领域中有所不同，但基本内涵一致，都认为用户属性、特征和标签是用户画像的三个要素。目前针对用户画像的研究大多集中于用户画像的应用，比如个性化推荐、广告系统、活动营销、内容推荐、兴趣偏好等；应用场景主要涉及到以图书馆、医疗、金融等为代表的传统行业和以在线社交平台、在线问答社区、电商网站等为代表的互联网行业等。

然而用户画像研究中存在一系列问题，例如由于其研究通常所涉及数据量极大，无用数据过多或者有用数据过少都会导致用户画像的噪声过大，严重影响其标签的准确性；用户画像的标签显而易见是多维度多标签的，而且原始数据中拥有标签的用户量极低，造成训练模型的数据量严重不足，而图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降。因此，如何实现在标签率极低的情况下准确为用户预测标签是亟待开展研究的一个重难点。

发明内容

为解决现有技术存在的问题，本发明提供一种应用于用户画像领域的数据增广方法，克服标签率极低的问题，同时提高模型的泛化性；

采用的技术方案为：

一种应用于用户画像领域的数据增广方法,包括以下步骤：

S1：根据原始数据中用户的好友关系，构建用户异质网络图，图中每个节点都代表一个用户，图中每一条边都代表连接的两个用户拥有好友关系，通过图神经网络聚合当前节点的邻域节点信息，得到当前节点嵌入向量；

S2:根据S1获取的当前节点嵌入向量，通过图神经网络分类器，得到多标签分类概率矩阵，对个节点的每个标签的概率进行过滤，大于阈值的生成节点标签；

所述节点标签数量为1-N个；

S3:根据用户异质网络图，利用自监督学习思想，采用图划分技术的自监督学习方式，得到若干个划分后的子图，在每个子图中对无标签节点进行对齐操作，使其与真正的标签匹配，为无标签节点生成伪标签；

S4：对S2生成的节点标签、利用S3中生成的伪标签进行自检，一致则加入真实标签集，迭代进行训练多次，以扩充训练数据集。

所述S1具体包括：

S1.1对待处理的原始数据进行缺失值填充、重复值过滤、异常值处理，得到处理后的用户行为数据；

S1.2:利用用户好友关系，构建用户邻接矩阵；利用用户行为数据，构建用户特征矩阵；

S1.3:根据所获得用户邻接矩阵和特征矩阵，利用图神经网络模型，通过图卷积算子，聚合邻域节点相关信息，得到节点的嵌入表示。

所述步骤S2具体包括：

S2.1:根据所获得的节点嵌入向量，通过图神经网络分类器，得到节点的多标签分类概率矩阵，矩阵的行数代表用户节点数量，列数代表标签数量；

S2.2:根据设置的阈值，对节点标签概率进行过滤，大于阈值的生成节点标签。

所述步骤S3具体包括：

S3.1:根据用户异质网络图的节点表示，计算节点在特征空间上的距离，根据距离计算节点的相似矩阵，以相似矩阵作为输入，利用图划分技术对整个用户异质图进行划分，得到若干个子图；

S3.2:在每个子图内，依次对属于每类标签的节点进行分类，然后在分类后的有标记节点嵌入向量中对每个维度计算平均值，得到的新的节点嵌入向量作为简易质心，根据得到的质心，利用欧式距离公式计算无标记节点嵌入向量到质心的距离，如式(1)所示：

其中，X表示节点，Y表示质心，x_i表示表示节点嵌入向量在第i个维度上的数值；y_i表示质心嵌入向量在第i个维度上的数值；大于设定阈值的被赋予该标签作为伪标签。

所述步骤S4具体包括：

对S2生成的标签、S3部生成的伪标签标签进行自检，一致则加入真实标签集，提高标签精确度，迭代进行训练多次，以扩充训练数据集。

有益技术效果

本发明提供了一种应用于用户画像领域的数据增广方法，克服了标签率极低的问题，同时提高模型的泛化性，以便于根据用户行为数据预测多维度多标签的用户画像标签，并且有效结合自监督学习，能够在用户标签率极低的情况下实现用户分类，降低了人工标注数据集的成本，提高了模型的泛化能力，同时克服图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降的问题，提高模型分类的准确性。

附图说明

图1是本发明用户画像标签预测方法流程图；

图2是本发明计算用户节点嵌入模型图；

图3是本发明用户异质图图划分算法流程图；

图4是本发明自监督学习的图神经网络用户画像标签预测框架图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明；

本实施例中，提供了一种应用于用户画像领域的数据增广方法,如图1所示，包括以下步骤：

S1.1：对待处理的原始数据进行缺失值填充、重复值过滤、异常值处理，得到处理后的用户行为数据；

其中，缺失值填充方法中，常用的方法为均值填补、建模预测和高维映射；

所述均值填补方法根据样本属性的距离是否可度量有不同的处理策略：如果样本属性的距离是可度量的，则使用该属性有效值的平均值来插补缺失的值；如果的距离是不可度量的，则使用该属性有效值的众数来插补缺失的值；

所述建模预测将缺失的属性作为预测目标来预测，将数据集按照是否含有特定属性的缺失值分为两类，利用现有的机器学习算法对待预测数据集的缺失值进行预测；

所述高维映射方法将属性映射到高维空间，采用独热码编码(one-hot)技术；将包含K 个离散取值范围的属性值扩展为K+1个属性值，若该属性值缺失，则扩展后的第K+1个属性值置为1；

S1.2：利用用户好友关系，构建用户邻接矩阵；利用用户行为数据，构建用户特征矩阵；

根据获得的用户好友关系，构造用户邻接矩阵；目前流行的邻接矩阵构造方法分类深度优先搜索法和广度优先搜索法；

深度优先搜索法从树的根节点，以递归的形式处理节点；具体方式如下所示：

(1)选中第一个被访问的顶点；

(2)对这个顶点作已访问过的标志；

(3)依次从顶点的未被访问过的第1,2,3,……,个邻接顶点出发，对他们进行深度优先搜索；

(4)如果还有顶点未被访问，则选中一个起始顶点，转向(2)；

(5)所有的顶点都被访问到，则结束；

广度优先搜索法是按层来处理顶点，距离开始点最近的那些顶点首先被访问，而最远的那些顶点则最后被访问，具体方式如下所示：

(1)选中第一个被访问的顶点；

(2)对顶点作已访问过的标志；

(3)依次访问已访问顶点的第1,2，……个未被访问过的邻接顶点，并进行标记；转向 (3)；

(4)如果还有顶点未被访问，则选中一个起始顶点，转向(2)；

(5)所有顶点都被访问到，则结束；

根据处理后得到的用户行为数据，采用流行的独热编码(one-hot)对其进行编码，得到用户的特征矩阵；

独热编码即One-Hot编码，又称一位有效编码；其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效；

S1.3：如图2所示，根据所获得用户邻接矩阵和特征矩阵，利用图神经网络模型，通过图卷积算子，聚合邻域节点相关信息，得到节点的嵌入表示；

根据所获得的用户邻接矩阵和特征矩阵，利用图神经网络模型，得到节点的嵌入表示；

图卷积神经网络将传统卷积推广到图领域卷积；基于谱域理论的GCN被广泛认知是从图形信号处理理论中推导出来的；图傅里叶域被图傅里叶基覆盖，图傅里叶基本质上是将图拉普拉斯的特征向量归一化得到的；可以根据类比传统卷积定理来定义图卷积算子，即在图的傅立叶域中图信号和图滤波器的图卷积等价于变换信号的乘法；在图滤波器的参数化方面做了大量的工作；空域GCN直接在图的结构上定义图卷积算子，提取并聚合邻居节点的特征学习图中节点嵌入；

S2:根据所获取的节点嵌入向量，得到多标签分类概率矩阵，对每个节点的每个标签的概率进行过滤，大于阈值的作为节点标签，可以是一个或多个；

通过多层图卷积神经网络得到每个节点对应每个标签的概率矩阵，设置阈值，如果某个节点的某个标签概率值大于阈值，将此标签设置为节点标签；

S3:如图4所示，根据用户异质图，利用自监督学习思想，采用图划分技术这一流行的自监督学习方式，得到若干个划分后的子图，在每个子图中对无标签节点进行对齐操作，使其与真正的标签匹配，为无标签节点生成伪标签；

自监督学习是神经网络首先应用在计算机视觉领域上的一个方向，旨在通过自监督学习得到具有更高泛化性、通用性和健壮性的模型，到目前为止，自监督学习主要分为两类：预训练及精调和多任务学习；在预训练和精调方面；首先用自监督的预训练任务进行预训练生成伪标签，然后利用下游的监督任务进行微调，而在多任务学习中，神经网络被同时训练，即目标监督任务和自监督任务的联合训练；

S3.1：根据用户异质网络图的节点表示，计算节点在特征空间上的距离，根据距离得到节点的相似矩阵，以相似矩阵作为输入，利用图划分技术对整个用户异质图进行划分，得到若干个子图；

目前计算向量间距离的方法主要有欧式距离、曼哈顿距离、切比雪夫距离，等；本实施例中，采用欧式距离作为距离度量方法；

由于向量维度很高，本实施例中，采用高斯核函数度量节点间相似性；高斯核函数(Gaussian kernel)，也称径向基(RBF)函数，是常用的一种核函数；可以将有限维数据映射到高维空间，如式(2)所示：

其中，式(2)涉及到两个向量的欧式距离计算，高斯核函数是两个向量欧式距离的单调函数，σ表示带宽，控制径向作用范围，σ控制高斯核函数的局部作用范围；当x和x′的欧式距离处于某一个区间范围内的时候，设定固定x′，k(x,x′)随x的变化而变化的相当显著；

根据高斯核函数得到节点相似矩阵，相似矩阵中元素代表节点间边上的权重；

如图3所示，图划分算法是将图中节点划分成若干个划分，并且使每个划分内的边权重最大化，划分间的边权重最小化，图划分算法输入为相似矩阵和划分数量K，输出为一个划分集其中所有划分的并集为整个节点集，每个划分间交集为空；并且图划分算法要求每个划分内的节点个数大致相同图划分的目标是最小化划分间边的权重最后得到划分索引；图划分不同于在特征空间上聚类的方法，它利用类似拉普拉斯平滑的思想，但不同的是GCNS中拉普拉是平滑当前节点和所有邻居节点，而图划分则是选择连接节点中边权重大的节点先进行分组，从而考虑全局平滑性；

S3.2:在每个子图内，对带有某个标签的所有节点计算其质心，根据得到的质心，计算子图内无标记节点到质心的距离，大于阈值的被赋予该标签作为伪标签；

对齐机制的目的是根据嵌入距离将图划分后的标签转化实际标签集中的标签；对于图划分之后的每个子图内标记数据，计算其每个标签对应的质心；根据质心计算每个节点到质心的距离，大于阈值的设置为伪标签；通过对齐机制，我们能够将每个划分中的无标签节点据它们的嵌入距离构造伪标签，并且通过和每一种标签的质心相比较进而为节点构造出一个或多个伪标签；

S4：对S2生成的标签、S3部生成的伪标签标签进行自检，一致则加入真实标签集，提高标签精确度，迭代进行训练多次，以扩充训练数据集。

为进一步对本发明做解释说明，基于自监督学习的迭代自训练算法为：

输入：特征矩阵，邻接矩阵，标记节点集和无标记节点集,图卷积网络

输出：图节点嵌入多标签节点概率矩阵；

首先在初始标记节点集和无标记节点集上训练图卷积网络模型，以获得节点嵌入向量；然后对所有节点的嵌入向量进行图划分，得到它们的划分标签；在此基础上，基于嵌入距离对齐每个划分的标签，得到每个无标签节点的伪标签；在接下来的自训练过程中，对于选取的每个类的置信度最高的节点，我们基于伪标签进行自检，以确保它们属于嵌入空间中的同一类，然后将过滤后的节点添加到标签集合中，并执行新的阶段自训练；

基于自监督学习的迭代自训练算法伪代码如下所示：

。

Claims

1.一种应用于用户画像领域的数据增广方法,其特征在于：包括以下步骤：

2.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述节点标签数量为1-N个。

3.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述S1具体包括：

4.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述步骤S2具体包括：

5.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述步骤S3具体包括：

S3.2:在每个子图内，依次对属于每类标签的节点进行分类，然后在分类后的有标记节点嵌入向量中对每个维度计算平均值，得到的新的节点嵌入向量作为简易质心，根据得到的质心，利用欧式距离公式计算无标记节点嵌入向量到质心的距离。

6.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述步骤S4具体包括：

7.如权利要求5所述的应用于用户画像领域的数据增广方法,其特征在于：所述欧氏距离公式，如式(1)所示：