CN112365335B

CN112365335B - 处理信贷数据的方法及装置

Info

Publication number: CN112365335B
Application number: CN202011146094.5A
Authority: CN
Inventors: 刘钱; 徐尚
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-07-29
Anticipated expiration: 2040-10-23
Also published as: CN112365335A; CA3135732A1

Abstract

本发明公开一种处理信贷数据的方法及装置，涉及数据处理技术领域。该方法包括：对样本数据重采样得到样本集，并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵；根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵，以及根据样本集中过滤掉的变量特征构建工程矩阵；针对稀疏矩阵中的元素去中心标准化处理后，通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵，以对稀疏矩阵中的变量特征降维更新；从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵，以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵；基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。

Description

处理信贷数据的方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种处理信贷数据的方法及装置。

背景技术

信用风险是金融监管机构重点关注的风险，关乎金融系统运行的稳定。在实际业务开展和模型构建的过程中，面临着高维稀疏特征以及样本不平衡等问题，因此如何应用机器学习等数据挖掘方法提高信用风险的评估和预测能力，是各家金融机构积极探索的方向。

实际业务场景中的信贷数据的可用于违约风险识别，对于违约风险识别而言，由于违约客户的信贷数据在整个信贷数据的占比为极少数，故样本不均衡的现象通常会存在。在数据维度上，信贷业务中涉及到较为繁多的源数据，对于个贷而言涉及到个人基本信息、征信数据等，其中征信数据相较于个人基本信息具有高维、稀疏的特点，除现有技术中利用征信数据设置强规则外，如何有效的利用此类数据进行算法建模是当下亟待解决的难题。

发明内容

本发明的目的在于提供一种处理信贷数据的方法及装置，能够解决样本数据中违约客户数据占比不均衡的问题，实现对高维稀疏征信数据的有效利用。

为了实现上述目的，本发明的第一方面提供一种处理信贷数据的方法，包括：

对样本数据重采样得到样本集，并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵；

根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵，以及根据样本集中过滤掉的变量特征构建工程矩阵；

针对稀疏矩阵中的元素去中心标准化处理后，通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵，以对稀疏矩阵中的变量特征降维更新；

从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵，以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵；

基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。

优选地，对样本数据重采样得到样本集的方法包括：

采用随机下采样方法对样本数据进行重构，使得样本集中的正样本数据数量与负样本数据数量维持预设比例。

优选地，根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵，以及根据样本集中过滤掉的变量特征构建工程矩阵的方法包括：

根据各变量特征对应的非零元素数量，将稀疏矩阵中非零元素数量小于或等于非零元素阈值的变量特征保留，将稀疏矩阵中非零元素数量大于非零元素阈值的变量特征输出构建工程矩阵。

优选地，针对稀疏矩阵中的元素去中心标准化处理后，通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵，以对稀疏矩阵中的变量特征降维更新的方法包括：

针对稀疏矩阵中的各元素做去中心标准化处理，之后采用公式

对处理后的稀疏矩阵进行容忍度分析，所述g_i表示变量特征i与稀疏矩阵中其他变量特征的相关性程度，所述T_i表示变量特征i的容忍度分析结果；

将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵，将容忍度分析结果小于容忍度阈值的变量特征在所述稀疏矩阵中做保留，以实现对所述稀疏矩阵中变量特征的降维更新。

较佳地，从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵的方法包括：

采用公式

计算稀疏矩阵的协方差矩阵，所述Cov表示协方差矩阵，所述A表示稀疏矩阵，所述A^T表示稀疏矩阵的转置，所述g表示稀疏矩阵中保留下的变量特征的数量；

通过奇异值分解协方差矩阵中的元素值，得到与稀疏矩阵对应的变量特征矩阵；

将稀疏矩阵与变量特征矩阵的转置相乘得到变换后的稀疏矩阵；

基于所述稀疏矩阵中变量特征的顺序，通过解释方差公式依次累加每个变量特征的方差和，直至方差和大于方差阈值时将结束运算；

将参与解释方差计算的变量特征作为主成分提取出来形成主成分稀疏矩阵。

较佳地，基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练的方法包括：

将主成分稀疏矩阵和主成分工程矩阵输入LightGBM模型中进行信贷数据的建模训练。

与现有技术相比，本发明提供的处理信贷数据的方法具有以下有益效果：

本发明提供的处理信贷数据的方法中，样本数据可从已有信贷数据中获取，然后对庞大的样本数据采用重采样处理使得正样本的数据量与负样本的数据量维持预设比例，接着根据预设的非零元素阈值对样本集中的变量特征筛选过滤，以将样本矩阵中变量特征非零元素数量大于非零元素阈值的变量特征导入工程矩阵，而将变量特征中非零元素数量小于非零元素阈值的变量特征进行保留形成稀疏矩阵，实现对稀疏矩阵中变量特征的初步降维，接下来，通过对稀疏矩阵中的每个元素做去中心标准化处理，使用容忍度分析法对稀疏矩阵进一步降维，具体为将稀疏矩阵中大于容忍度阈值的变量特征更新入工程矩阵，而将小于容忍度阈值的变量特征在稀疏矩阵中继续保留，由于此时的稀疏矩阵还未被压缩，故可采用奇异值分解法(SVD)对稀疏矩阵再做进一步地降维处理，具体为通过从稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵，以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵，实现对信贷数据的压缩处理，以便更好地用于对信贷数据的模型训练。

可见，本发明具有如下创新点：

1、在数据驱动的基础上，有效的区分了信贷业务中涉及到的数据特性，通过非零元素阈值的设置可有效评估不平衡分类问题的误差指标；

2、采用基于VIF-SVD-PCA的方法通过提取主成分的变量特征对稀疏矩阵和工程矩阵进行降维，然后将稀疏矩阵和工程矩阵两个维度的变量特征结合进行模型训练，在约简了数据维度的同时最大限度的保留了样本数据的完整性，使得训练出的信贷风险模型的识别效果更佳。

本发明的第二方面提供一种处理信贷数据的装置，包括：

样本处理单元，用于对样本数据重采样得到样本集，并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵；

矩阵构建单元，用于根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵，以及根据样本集中过滤掉的变量特征构建工程矩阵；

降维处理单元，用于针对稀疏矩阵中的元素去中心标准化处理后，通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵，以对稀疏矩阵中的变量特征降维更新；

主成分提取单元，用于从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵，以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵；

模型训练单元，用于基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。

优选地，对样本数据重采样得到样本集的方法包括：

所述降维处理单元包括：

中心化处理模块，用于针对稀疏矩阵中的各元素做去中心标准化处理，之后采用公式

筛选模块，用于将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵，将容忍度分析结果小于容忍度阈值的变量特征在所述稀疏矩阵中做保留，以实现对所述稀疏矩阵中变量特征的降维更新。

与现有技术相比，本发明提供的处理信贷数据装置的有益效果与上述技术方案提供的处理信贷数据方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述处理信贷数据方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的处理信贷数据方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中处理信贷数据方法的流程示意图；

图2为本发明实施例中稀疏矩阵变量特征方差和累加的曲线示例图；

图3为本发明实施例中信贷风险模型训练过程中auc迭代示例图；

图4为本发明实施例中ROC曲线示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种处理信贷数据的方法，包括：

对样本数据重采样得到样本集，并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵；根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵，以及根据样本集中过滤掉的变量特征构建工程矩阵；针对稀疏矩阵中的元素去中心标准化处理后，通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵，以对稀疏矩阵中的变量特征降维更新；从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵，以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵；基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。

本实施例提供的处理信贷数据的方法中，样本数据可从已有信贷数据中获取，然后对庞大的样本数据采用重采样处理使得正样本的数据量与负样本的数据量维持预设比例，接着根据预设的非零元素阈值对样本集中的变量特征筛选过滤，以将样本矩阵中变量特征非零元素数量大于非零元素阈值的变量特征导入工程矩阵，而将变量特征中非零元素数量小于非零元素阈值的变量特征进行保留形成稀疏矩阵，实现对稀疏矩阵中变量特征的初步降维，接下来，通过对稀疏矩阵中的每个元素做去中心标准化处理，使用容忍度分析法对稀疏矩阵进一步降维，具体为将稀疏矩阵中大于容忍度阈值的变量特征更新入工程矩阵，而将小于容忍度阈值的变量特征在稀疏矩阵中继续保留，由于此时的稀疏矩阵还未被压缩，故可采用奇异值分解法(SVD)对稀疏矩阵再做进一步地降维处理，具体为通过从稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵，以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵，实现对信贷数据的压缩处理，以便更好地用于对信贷数据的模型训练。

可见，本实施例具有如下创新点：

上述实施例中对样本数据重采样得到样本集的方法包括：

需要说明的是，此处的正样本数据是指未发生违约信贷客户的数据，负样本数据是指发生违约信贷客户的数据，考虑到信贷数据中的正样本数据量一般远大于负样本数据量，也即未发生违约的信贷客户量远大于发生违约的信贷客户量，若直接使用这些未经重构的样本数据建模，则会存在正负样本数据极端不平衡的问题，因此需采用重采样中的随机下采样方法对样本数据进行重构，以使样本矩阵中的正样本数据数量与负样本数据数量维持预设比例，进而提升信贷风险模型识别的准确率。

根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵，以及根据样本集中过滤掉的变量特征构建工程矩阵的方法包括：

根据各变量特征对应的非零元素数量，将样本矩阵中非零元素数量小于或等于非零元素阈值的变量特征保留形成稀疏矩阵，将样本矩阵中非零元素数量大于非零元素阈值的变量特征输出构建工程矩阵。

假设样本矩阵为D＝{x₁,x₂,…,x_m},x_i＝(x_i1,x_i2,…,x_in)，m表示样本集中样本数据的数量，n表示样本集中变量特征的数量，x_i表示第i个样本数据， x_i1表示第i个样本数据第1个变量特征的元素，通过非零元素阈值对各变量特征进行筛选过滤后，将样本矩阵中保留下的变量特征形成稀疏矩阵A，将样本矩阵中过滤掉的变量特征输出形成工程矩阵。其中，稀疏矩阵A为{x₁,x₂,…,x_m},x_i＝(x_i1,x_i2,…,x_ik),且k≤n，k表示稀疏矩阵中变量特征的数量，当k<n时表示稀疏矩阵中n-k个变量特征被过滤掉，且将这些被过滤掉的变量特征单独存入工程矩阵。

上述实施例中，针对稀疏矩阵中的元素去中心标准化处理后，通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵，以对稀疏矩阵中的变量特征降维更新的方法包括：

对处理后的稀疏矩阵进行容忍度分析，所述g_i表示变量特征i与稀疏矩阵中其他变量特征的相关性程度，所述T_i表示变量特征i的容忍度分析结果；将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵，将容忍度分析结果小于容忍度阈值的变量特征在所述稀疏矩阵中做保留，以实现对所述稀疏矩阵中变量特征的降维更新。

具体实施时，在对稀疏矩阵A进行降维(PCA)操作之前，首先需对稀疏矩阵A中的各元素做去中心标准化处理，具体采用公式

对稀疏矩阵A中的各元素做去中心标准化处理，使得各元素的值通过去中心化处理后更均匀，其中x_i为去中心标准化处理前的元素，x′_i为去中心标准化处理后的元素。之后，采用公式

对处理后的稀疏矩阵A进行容忍度分析，并将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵，将容忍度分析结果小于容忍度阈值的变量特征在稀疏矩阵A中做保留，以实现对稀疏矩阵A中变量特征的降维更新，假设此时的稀疏矩阵A的集合为{x₁,x₂,…,x_m},x_i＝(x_i1,x_i2,…,x_ig),且g≤k，g表示稀疏矩阵中当前保留下变量特征的数量。

需要说明的是，去中心标准化处理和容忍度分析的计算为本领域技术人员现有的技术手段，本实施例对其具体处理过程不做赘述。

进一步地，上述实施例中从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵的方法包括：

采用公式

计算稀疏矩阵的协方差矩阵，Cov表示协方差矩阵， A表示稀疏矩阵，A^T表示稀疏矩阵的转置，g表示稀疏矩阵中保留下的变量特征的数量；通过奇异值分解协方差矩阵中的元素值，得到与稀疏矩阵对应的变量特征矩阵；将稀疏矩阵与变量特征矩阵的转置相乘得到变换后的稀疏矩阵；基于稀疏矩阵中变量特征的顺序，通过解释方差公式依次累加每个变量特征的方差和，直至方差和大于方差阈值时将结束运算；将参与解释方差计算的变量特征作为主成分提取出来形成主成分稀疏矩阵。

具体实施时，通过奇异值(SVD)分解协方差矩阵中变量特征对应的特征值{λ₁,λ₂,…,λ_g}，得到相应的变量特征向量矩阵W＝{w₁,w₂,…,w_g}，接下来利用AW^T将稀疏矩阵A与变量特征向量矩阵W的转置相乘得到变换后的稀疏矩阵A′,

此时的稀疏矩阵A′未经过压缩处理，也即未对其中的主成分变量特征进行提取，仍然为m×g的稀疏矩阵。其中主成分变量特征提取过程如下：

利用解释方差公式

对稀疏矩阵中变量特征的方差和进行累加，直至累加的变量特征方差和大于方差阈值时，结束对稀疏矩阵A′中变量特征的筛选，此时把参与方差和计算的变量特征作为主成分提取出来形成主成分稀疏矩阵。示例性地，如图2所示，若稀疏矩阵A′中剩余变量特征的数量为g， Var(x_i)表示第i个变量特征的方差值，假设x₁、x₂、……、x₃₅的方差值累加后刚好大于方差阈值，则分别将x₁、x₂、……、x₃₅对应的变量特征作为主成分提取出来形成主成分稀疏矩阵。

可以理解的是，对工程矩阵中主成分变量特征的提取过程与上述稀疏矩阵A′的主成分变量特征提取过程的原理相同，也是首先对更新后的工程矩阵中的各元素做去中心标准化处理，然后采用容忍度分析公式对工程矩阵进行容忍度分析，以实现对工程矩阵中变量特征的降维更新。然后计算工程矩阵的协方差矩阵，通过奇异值分解协方差矩阵中的元素值，得到与工程矩阵对应的变量特征矩阵。接着将工程矩阵与变量特征矩阵的转置相乘得到变换后的工程矩阵，再基于工程矩阵中变量特征的顺序，通过解释方差公式依次累加每个变量特征的方差和，直至方差和大于方差阈值时将结束运算，最终将参与解释方差计算的变量特征作为主成分提取出来形成主成分工程矩阵。可选地，本实施例采用包括缺失/异常处理、哑变量编码、Spearman Correlation、随机森林特重要性等方法处理工程矩阵建模。

上述实施例中，基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练的方法包括：

LightGBM作为当下主流的Boosting型集成算法，已经在学界与业界证明了其强悍的运算能力，本实施例使用LightGBM对主成分稀疏矩阵和主成分工程矩阵进行训练与测试，信贷风险模型训练过程中的auc迭代如图3所示。

为了进一步提升信贷风险模型的识别性能，可在模型中给定一个阈值，根据主成分稀疏矩阵和主成分工程矩阵计算覆盖率TP和打扰率FPR， TPR＝TP/(TP+FN)，FPR＝FP/(FP+TN)，其中，TP表示主成分稀疏矩阵和主成分工程矩阵中真正例的数量，FP表示主成分稀疏矩阵和主成分工程矩阵中假反例的数量，TP表示主成分稀疏矩阵和主成分工程矩阵中假正例的数量，FN 表示主成分稀疏矩阵和主成分工程矩阵中真反例的数量，通过设定不同的阈值就会产生一系列的TPR和FPR，进而绘制出ROC曲线如图4。

然后设置分类误差auc评分指标和分类误差tpe评分指标，当分类误差auc 等于第一阈值且分类误差tpe等于第二阈值时，输出信贷风险识别模型。优选地，第一阈值为0.81，第二阈值为0.65。

实施例二

本实施例提供一种处理信贷数据的装置，包括：

优选地，对样本数据重采样得到样本集的方法包括：

优选地，所述降维处理单元包括：

与现有技术相比，本发明实施例提供的处理信贷数据装置的有益效果与上述实施例一提供的处理信贷数据方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述处理信贷数据方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的处理信贷数据方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种处理信贷数据的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对样本数据重采样得到样本集的方法包括：

3.根据权利要求1所述的方法，其特征在于，根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵，以及根据样本集中过滤掉的变量特征构建工程矩阵的方法包括：

4.根据权利要求1所述的方法，其特征在于，针对稀疏矩阵中的元素去中心标准化处理后，通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵，以对稀疏矩阵中的变量特征降维更新的方法包括：

5.根据权利要求4所述的方法，其特征在于，从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵的方法包括：

采用公式

6.根据权利要求5所述的方法，其特征在于，基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练的方法包括：

7.一种处理信贷数据的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，对样本数据重采样得到样本集的方法包括：

9.根据权利要求7所述的装置，其特征在于，所述降维处理单元包括：

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至6任一项所述方法的步骤。