CN112365335B - 处理信贷数据的方法及装置 - Google Patents
处理信贷数据的方法及装置 Download PDFInfo
- Publication number
- CN112365335B CN112365335B CN202011146094.5A CN202011146094A CN112365335B CN 112365335 B CN112365335 B CN 112365335B CN 202011146094 A CN202011146094 A CN 202011146094A CN 112365335 B CN112365335 B CN 112365335B
- Authority
- CN
- China
- Prior art keywords
- matrix
- sparse matrix
- variable
- variable characteristics
- engineering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 305
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000012952 Resampling Methods 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种处理信贷数据的方法及装置,涉及数据处理技术领域。该方法包括:对样本数据重采样得到样本集,并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵;根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵;针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新;从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵;基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种处理信贷数据的方法及装置。
背景技术
信用风险是金融监管机构重点关注的风险,关乎金融系统运行的稳定。在实际业务开展和模型构建的过程中,面临着高维稀疏特征以及样本不平衡等问题,因此如何应用机器学习等数据挖掘方法提高信用风险的评估和预测能力,是各家金融机构积极探索的方向。
实际业务场景中的信贷数据的可用于违约风险识别,对于违约风险识别而言,由于违约客户的信贷数据在整个信贷数据的占比为极少数,故样本不均衡的现象通常会存在。在数据维度上,信贷业务中涉及到较为繁多的源数据,对于个贷而言涉及到个人基本信息、征信数据等,其中征信数据相较于个人基本信息具有高维、稀疏的特点,除现有技术中利用征信数据设置强规则外,如何有效的利用此类数据进行算法建模是当下亟待解决的难题。
发明内容
本发明的目的在于提供一种处理信贷数据的方法及装置,能够解决样本数据中违约客户数据占比不均衡的问题,实现对高维稀疏征信数据的有效利用。
为了实现上述目的,本发明的第一方面提供一种处理信贷数据的方法,包括:
对样本数据重采样得到样本集,并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵;
根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵;
针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新;
从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵;
基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。
优选地,对样本数据重采样得到样本集的方法包括:
采用随机下采样方法对样本数据进行重构,使得样本集中的正样本数据数量与负样本数据数量维持预设比例。
优选地,根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵的方法包括:
根据各变量特征对应的非零元素数量,将稀疏矩阵中非零元素数量小于或等于非零元素阈值的变量特征保留,将稀疏矩阵中非零元素数量大于非零元素阈值的变量特征输出构建工程矩阵。
优选地,针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新的方法包括:
将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵,将容忍度分析结果小于容忍度阈值的变量特征在所述稀疏矩阵中做保留,以实现对所述稀疏矩阵中变量特征的降维更新。
较佳地,从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵的方法包括:
通过奇异值分解协方差矩阵中的元素值,得到与稀疏矩阵对应的变量特征矩阵;
将稀疏矩阵与变量特征矩阵的转置相乘得到变换后的稀疏矩阵;
基于所述稀疏矩阵中变量特征的顺序,通过解释方差公式依次累加每个变量特征的方差和,直至方差和大于方差阈值时将结束运算;
将参与解释方差计算的变量特征作为主成分提取出来形成主成分稀疏矩阵。
较佳地,基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练的方法包括:
将主成分稀疏矩阵和主成分工程矩阵输入LightGBM模型中进行信贷数据的建模训练。
与现有技术相比,本发明提供的处理信贷数据的方法具有以下有益效果:
本发明提供的处理信贷数据的方法中,样本数据可从已有信贷数据中获取,然后对庞大的样本数据采用重采样处理使得正样本的数据量与负样本的数据量维持预设比例,接着根据预设的非零元素阈值对样本集中的变量特征筛选过滤,以将样本矩阵中变量特征非零元素数量大于非零元素阈值的变量特征导入工程矩阵,而将变量特征中非零元素数量小于非零元素阈值的变量特征进行保留形成稀疏矩阵,实现对稀疏矩阵中变量特征的初步降维,接下来,通过对稀疏矩阵中的每个元素做去中心标准化处理,使用容忍度分析法对稀疏矩阵进一步降维,具体为将稀疏矩阵中大于容忍度阈值的变量特征更新入工程矩阵,而将小于容忍度阈值的变量特征在稀疏矩阵中继续保留,由于此时的稀疏矩阵还未被压缩,故可采用奇异值分解法(SVD)对稀疏矩阵再做进一步地降维处理,具体为通过从稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵,实现对信贷数据的压缩处理,以便更好地用于对信贷数据的模型训练。
可见,本发明具有如下创新点:
1、在数据驱动的基础上,有效的区分了信贷业务中涉及到的数据特性,通过非零元素阈值的设置可有效评估不平衡分类问题的误差指标;
2、采用基于VIF-SVD-PCA的方法通过提取主成分的变量特征对稀疏矩阵和工程矩阵进行降维,然后将稀疏矩阵和工程矩阵两个维度的变量特征结合进行模型训练,在约简了数据维度的同时最大限度的保留了样本数据的完整性,使得训练出的信贷风险模型的识别效果更佳。
本发明的第二方面提供一种处理信贷数据的装置,包括:
样本处理单元,用于对样本数据重采样得到样本集,并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵;
矩阵构建单元,用于根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵;
降维处理单元,用于针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新;
主成分提取单元,用于从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵;
模型训练单元,用于基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。
优选地,对样本数据重采样得到样本集的方法包括:
采用随机下采样方法对样本数据进行重构,使得样本集中的正样本数据数量与负样本数据数量维持预设比例。
所述降维处理单元包括:
中心化处理模块,用于针对稀疏矩阵中的各元素做去中心标准化处理,之后采用公式对处理后的稀疏矩阵进行容忍度分析,所述gi表示变量特征i与稀疏矩阵中其他变量特征的相关性程度,所述Ti表示变量特征i的容忍度分析结果;
筛选模块,用于将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵,将容忍度分析结果小于容忍度阈值的变量特征在所述稀疏矩阵中做保留,以实现对所述稀疏矩阵中变量特征的降维更新。
与现有技术相比,本发明提供的处理信贷数据装置的有益效果与上述技术方案提供的处理信贷数据方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述处理信贷数据方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的处理信贷数据方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中处理信贷数据方法的流程示意图;
图2为本发明实施例中稀疏矩阵变量特征方差和累加的曲线示例图;
图3为本发明实施例中信贷风险模型训练过程中auc迭代示例图;
图4为本发明实施例中ROC曲线示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种处理信贷数据的方法,包括:
对样本数据重采样得到样本集,并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵;根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵;针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新;从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵;基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。
本实施例提供的处理信贷数据的方法中,样本数据可从已有信贷数据中获取,然后对庞大的样本数据采用重采样处理使得正样本的数据量与负样本的数据量维持预设比例,接着根据预设的非零元素阈值对样本集中的变量特征筛选过滤,以将样本矩阵中变量特征非零元素数量大于非零元素阈值的变量特征导入工程矩阵,而将变量特征中非零元素数量小于非零元素阈值的变量特征进行保留形成稀疏矩阵,实现对稀疏矩阵中变量特征的初步降维,接下来,通过对稀疏矩阵中的每个元素做去中心标准化处理,使用容忍度分析法对稀疏矩阵进一步降维,具体为将稀疏矩阵中大于容忍度阈值的变量特征更新入工程矩阵,而将小于容忍度阈值的变量特征在稀疏矩阵中继续保留,由于此时的稀疏矩阵还未被压缩,故可采用奇异值分解法(SVD)对稀疏矩阵再做进一步地降维处理,具体为通过从稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵,实现对信贷数据的压缩处理,以便更好地用于对信贷数据的模型训练。
可见,本实施例具有如下创新点:
1、在数据驱动的基础上,有效的区分了信贷业务中涉及到的数据特性,通过非零元素阈值的设置可有效评估不平衡分类问题的误差指标;
2、采用基于VIF-SVD-PCA的方法通过提取主成分的变量特征对稀疏矩阵和工程矩阵进行降维,然后将稀疏矩阵和工程矩阵两个维度的变量特征结合进行模型训练,在约简了数据维度的同时最大限度的保留了样本数据的完整性,使得训练出的信贷风险模型的识别效果更佳。
上述实施例中对样本数据重采样得到样本集的方法包括:
采用随机下采样方法对样本数据进行重构,使得样本集中的正样本数据数量与负样本数据数量维持预设比例。
需要说明的是,此处的正样本数据是指未发生违约信贷客户的数据,负样本数据是指发生违约信贷客户的数据,考虑到信贷数据中的正样本数据量一般远大于负样本数据量,也即未发生违约的信贷客户量远大于发生违约的信贷客户量,若直接使用这些未经重构的样本数据建模,则会存在正负样本数据极端不平衡的问题,因此需采用重采样中的随机下采样方法对样本数据进行重构,以使样本矩阵中的正样本数据数量与负样本数据数量维持预设比例,进而提升信贷风险模型识别的准确率。
根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵的方法包括:
根据各变量特征对应的非零元素数量,将样本矩阵中非零元素数量小于或等于非零元素阈值的变量特征保留形成稀疏矩阵,将样本矩阵中非零元素数量大于非零元素阈值的变量特征输出构建工程矩阵。
假设样本矩阵为D={x1,x2,…,xm},xi=(xi1,xi2,…,xin),m表示样本集中样本数据的数量,n表示样本集中变量特征的数量,xi表示第i个样本数据, xi1表示第i个样本数据第1个变量特征的元素,通过非零元素阈值对各变量特征进行筛选过滤后,将样本矩阵中保留下的变量特征形成稀疏矩阵A,将样本矩阵中过滤掉的变量特征输出形成工程矩阵。其中,稀疏矩阵A为{x1,x2,…,xm},xi=(xi1,xi2,…,xik),且k≤n,k表示稀疏矩阵中变量特征的数量,当k<n时表示稀疏矩阵中n-k个变量特征被过滤掉,且将这些被过滤掉的变量特征单独存入工程矩阵。
上述实施例中,针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新的方法包括:
针对稀疏矩阵中的各元素做去中心标准化处理,之后采用公式对处理后的稀疏矩阵进行容忍度分析,所述gi表示变量特征i与稀疏矩阵中其他变量特征的相关性程度,所述Ti表示变量特征i的容忍度分析结果;将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵,将容忍度分析结果小于容忍度阈值的变量特征在所述稀疏矩阵中做保留,以实现对所述稀疏矩阵中变量特征的降维更新。
具体实施时,在对稀疏矩阵A进行降维(PCA)操作之前,首先需对稀疏矩阵A中的各元素做去中心标准化处理,具体采用公式对稀疏矩阵A中的各元素做去中心标准化处理,使得各元素的值通过去中心化处理后更均匀,其中xi为去中心标准化处理前的元素,x′i为去中心标准化处理后的元素。之后,采用公式对处理后的稀疏矩阵A进行容忍度分析,并将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵,将容忍度分析结果小于容忍度阈值的变量特征在稀疏矩阵A中做保留,以实现对稀疏矩阵A中变量特征的降维更新,假设此时的稀疏矩阵A的集合为{x1,x2,…,xm},xi=(xi1,xi2,…,xig),且g≤k,g表示稀疏矩阵中当前保留下变量特征的数量。
需要说明的是,去中心标准化处理和容忍度分析的计算为本领域技术人员现有的技术手段,本实施例对其具体处理过程不做赘述。
进一步地,上述实施例中从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵的方法包括:
采用公式计算稀疏矩阵的协方差矩阵,Cov表示协方差矩阵, A表示稀疏矩阵,AT表示稀疏矩阵的转置,g表示稀疏矩阵中保留下的变量特征的数量;通过奇异值分解协方差矩阵中的元素值,得到与稀疏矩阵对应的变量特征矩阵;将稀疏矩阵与变量特征矩阵的转置相乘得到变换后的稀疏矩阵;基于稀疏矩阵中变量特征的顺序,通过解释方差公式依次累加每个变量特征的方差和,直至方差和大于方差阈值时将结束运算;将参与解释方差计算的变量特征作为主成分提取出来形成主成分稀疏矩阵。
具体实施时,通过奇异值(SVD)分解协方差矩阵中变量特征对应的特征值{λ1,λ2,…,λg},得到相应的变量特征向量矩阵W={w1,w2,…,wg},接下来利用AWT将稀疏矩阵A与变量特征向量矩阵W的转置相乘得到变换后的稀疏矩阵A′,此时的稀疏矩阵A′未经过压缩处理,也即未对其中的主成分变量特征进行提取,仍然为m×g的稀疏矩阵。其中主成分变量特征提取过程如下:
利用解释方差公式对稀疏矩阵中变量特征的方差和进行累加,直至累加的变量特征方差和大于方差阈值时,结束对稀疏矩阵A′中变量特征的筛选,此时把参与方差和计算的变量特征作为主成分提取出来形成主成分稀疏矩阵。示例性地,如图2所示,若稀疏矩阵A′中剩余变量特征的数量为g, Var(xi)表示第i个变量特征的方差值,假设x1、x2、……、x35的方差值累加后刚好大于方差阈值,则分别将x1、x2、……、x35对应的变量特征作为主成分提取出来形成主成分稀疏矩阵。
可以理解的是,对工程矩阵中主成分变量特征的提取过程与上述稀疏矩阵A′的主成分变量特征提取过程的原理相同,也是首先对更新后的工程矩阵中的各元素做去中心标准化处理,然后采用容忍度分析公式对工程矩阵进行容忍度分析,以实现对工程矩阵中变量特征的降维更新。然后计算工程矩阵的协方差矩阵,通过奇异值分解协方差矩阵中的元素值,得到与工程矩阵对应的变量特征矩阵。接着将工程矩阵与变量特征矩阵的转置相乘得到变换后的工程矩阵,再基于工程矩阵中变量特征的顺序,通过解释方差公式依次累加每个变量特征的方差和,直至方差和大于方差阈值时将结束运算,最终将参与解释方差计算的变量特征作为主成分提取出来形成主成分工程矩阵。可选地,本实施例采用包括缺失/异常处理、哑变量编码、Spearman Correlation、随机森林特重要性等方法处理工程矩阵建模。
上述实施例中,基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练的方法包括:
将主成分稀疏矩阵和主成分工程矩阵输入LightGBM模型中进行信贷数据的建模训练。
LightGBM作为当下主流的Boosting型集成算法,已经在学界与业界证明了其强悍的运算能力,本实施例使用LightGBM对主成分稀疏矩阵和主成分工程矩阵进行训练与测试,信贷风险模型训练过程中的auc迭代如图3所示。
为了进一步提升信贷风险模型的识别性能,可在模型中给定一个阈 值,根据主成分稀疏矩阵和主成分工程矩阵计算覆盖率TP和打扰率FPR, TPR=TP/(TP+FN),FPR=FP/(FP+TN),其中,TP表示主成分稀疏矩阵和主成分工程矩阵中真正例的数量,FP表示主成分稀疏矩阵和主成分工程矩阵中假反例的数量,TP表示主成分稀疏矩阵和主成分工程矩阵中假正例的数量,FN 表示主成分稀疏矩阵和主成分工程矩阵中真反例的数量,通过设定不同的阈值就会产生一系列的TPR和FPR,进而绘制出ROC曲线如图4。
然后设置分类误差auc评分指标和分类误差tpe评分指标,当分类误差auc 等于第一阈值且分类误差tpe等于第二阈值时,输出信贷风险识别模型。优选地,第一阈值为0.81,第二阈值为0.65。
实施例二
本实施例提供一种处理信贷数据的装置,包括:
样本处理单元,用于对样本数据重采样得到样本集,并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵;
矩阵构建单元,用于根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵;
降维处理单元,用于针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新;
主成分提取单元,用于从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵;
模型训练单元,用于基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。
优选地,对样本数据重采样得到样本集的方法包括:
采用随机下采样方法对样本数据进行重构,使得样本集中的正样本数据数量与负样本数据数量维持预设比例。
优选地,所述降维处理单元包括:
中心化处理模块,用于针对稀疏矩阵中的各元素做去中心标准化处理,之后采用公式对处理后的稀疏矩阵进行容忍度分析,所述gi表示变量特征i与稀疏矩阵中其他变量特征的相关性程度,所述Ti表示变量特征i的容忍度分析结果;
筛选模块,用于将容忍度分析结果大于容忍度阈值的变量特征筛选出来补充入工程矩阵,将容忍度分析结果小于容忍度阈值的变量特征在所述稀疏矩阵中做保留,以实现对所述稀疏矩阵中变量特征的降维更新。
与现有技术相比,本发明实施例提供的处理信贷数据装置的有益效果与上述实施例一提供的处理信贷数据方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述处理信贷数据方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的处理信贷数据方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种处理信贷数据的方法,其特征在于,包括:
对样本数据重采样得到样本集,并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵;
根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵;
针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新;
从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵;
基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。
2.根据权利要求1所述的方法,其特征在于,对样本数据重采样得到样本集的方法包括:
采用随机下采样方法对样本数据进行重构,使得样本集中的正样本数据数量与负样本数据数量维持预设比例。
3.根据权利要求1所述的方法,其特征在于,根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵的方法包括:
根据各变量特征对应的非零元素数量,将样本矩阵中非零元素数量小于或等于非零元素阈值的变量特征保留形成稀疏矩阵,将样本矩阵中非零元素数量大于非零元素阈值的变量特征输出构建工程矩阵。
6.根据权利要求5所述的方法,其特征在于,基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练的方法包括:
将主成分稀疏矩阵和主成分工程矩阵输入LightGBM模型中进行信贷数据的建模训练。
7.一种处理信贷数据的装置,其特征在于,包括:
样本处理单元,用于对样本数据重采样得到样本集,并基于样本集中的样本数据和样本数据中的变量特征构建样本矩阵;
矩阵构建单元,用于根据非零元素阈值对样本集中的变量特征筛选过滤后构建稀疏矩阵,以及根据样本集中过滤掉的变量特征构建工程矩阵;
降维处理单元,用于针对稀疏矩阵中的元素去中心标准化处理后,通过容忍度分析将大于容忍度阈值的变量特征更新入工程矩阵,以对稀疏矩阵中的变量特征降维更新;
主成分提取单元,用于从更新后的稀疏矩阵中提取主成分的变量特征形成主成分稀疏矩阵,以及从更新后的工程矩阵中提取主成分的变量特征形成主成分工程矩阵;
模型训练单元,用于基于主成分稀疏矩阵和主成分工程矩阵进行信贷数据的模型训练。
8.根据权利要求7所述的装置,其特征在于,对样本数据重采样得到样本集的方法包括:
采用随机下采样方法对样本数据进行重构,使得样本集中的正样本数据数量与负样本数据数量维持预设比例。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1至6任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011146094.5A CN112365335B (zh) | 2020-10-23 | 2020-10-23 | 处理信贷数据的方法及装置 |
CA3135732A CA3135732A1 (en) | 2020-10-23 | 2021-10-25 | Method and device for processing credit data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011146094.5A CN112365335B (zh) | 2020-10-23 | 2020-10-23 | 处理信贷数据的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365335A CN112365335A (zh) | 2021-02-12 |
CN112365335B true CN112365335B (zh) | 2022-07-29 |
Family
ID=74511858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011146094.5A Active CN112365335B (zh) | 2020-10-23 | 2020-10-23 | 处理信贷数据的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112365335B (zh) |
CA (1) | CA3135732A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116165274B (zh) * | 2023-02-17 | 2023-11-14 | 哈尔滨工业大学 | 基于贝叶斯全局稀疏概率主成分分析的城市轨道损伤识别方法 |
CN116578877B (zh) * | 2023-07-14 | 2023-12-26 | 之江实验室 | 一种模型训练及二次优化打标的风险识别的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN209085657U (zh) * | 2017-08-02 | 2019-07-09 | 强力物联网投资组合2016有限公司 | 用于与化工生产工艺有关的或工业环境的数据收集系统 |
CN111461146B (zh) * | 2020-03-31 | 2023-04-07 | 武汉大学 | 一种基于稀疏交叉重构的变化检测方法 |
CN111783033B (zh) * | 2020-07-07 | 2024-08-23 | 香港中文大学(深圳) | 一种应用于数据稀疏投影算法的电子装置及存储介质 |
-
2020
- 2020-10-23 CN CN202011146094.5A patent/CN112365335B/zh active Active
-
2021
- 2021-10-25 CA CA3135732A patent/CA3135732A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN112365335A (zh) | 2021-02-12 |
CA3135732A1 (en) | 2022-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Eckerli et al. | Generative adversarial networks in finance: an overview | |
Horváth et al. | Testing the stability of the functional autoregressive process | |
CN110163261A (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CN112365335B (zh) | 处理信贷数据的方法及装置 | |
US12165054B2 (en) | Neural network rank optimization device and optimization method | |
CN105469063A (zh) | 鲁棒的人脸图像主成分特征提取方法及识别装置 | |
CN111275098A (zh) | 应用于信用卡欺诈检测的Encoder-LSTM深度学习模型及其方法 | |
CN113252323B (zh) | 一种基于人耳听觉特性的断路器机械故障识别方法及系统 | |
US10950244B2 (en) | System and method for speaker authentication and identification | |
Xu | Diffusion approximations for self-excited systems with applications to general branching processes | |
CN116703568A (zh) | 信用卡异常交易识别方法及装置 | |
CN108765137A (zh) | 一种信贷需求预测方法和系统、存储介质 | |
CN111325344A (zh) | 评估模型解释工具的方法和装置 | |
CN113221992A (zh) | 一种基于l2,1范数的大规模数据快速聚类方法 | |
CN118730926A (zh) | 基于智能光谱拟合的残余气体分析方法及系统 | |
CN112927719A (zh) | 风险信息评估方法、装置、设备及存储介质 | |
US10950243B2 (en) | Method for reduced computation of t-matrix training for speaker recognition | |
Guarin et al. | Recovering default risk from CDS spreads with a nonlinear filter | |
CN113970680B (zh) | 一种电弧检测方法及装置 | |
Li | Credit card fraud identification based on unbalanced data set based on fusion model | |
WO2022150062A1 (en) | Automated feature monitoring for data streams | |
Al-Kaltakchi et al. | Closed-set speaker identification system based on MFCC and PNCC features combination with different fusion strategies | |
CN114266653A (zh) | 集成学习的客户贷款风险预估方法 | |
Chen et al. | Multivariate stochastic volatility models based on generalized Fisher transformation | |
CN111950387A (zh) | 一种基于稀疏表示的误差人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |