CN110516818A - 一种基于集成学习技术的高维度数据预测方法 - Google Patents
一种基于集成学习技术的高维度数据预测方法 Download PDFInfo
- Publication number
- CN110516818A CN110516818A CN201910394269.5A CN201910394269A CN110516818A CN 110516818 A CN110516818 A CN 110516818A CN 201910394269 A CN201910394269 A CN 201910394269A CN 110516818 A CN110516818 A CN 110516818A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- dimensional data
- algorithm
- ensemble learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005516 engineering process Methods 0.000 title claims abstract description 12
- 230000002068 genetic effect Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012417 linear regression Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 108090000623 proteins and genes Proteins 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 230000035772 mutation Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000002790 cross-validation Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 9
- 238000005070 sampling Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 239000010409 thin film Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于集成学习技术的高维度数据预测方法,首先对原始高维数据进行预处理,包括缺失值和异常值的处理、去除重复数据等;接着利用GBDT特征重要性方法进行特征筛选,并利用遗传算法进一步优化筛选结果,尽量在不改变原始特征的前提下对数据集进行降维;在此基础上,本发明利用Stacking集成学习的思想构建集成模型,对数据进行回归预测,并评估方法的效果。本发明充分考虑了高维度数据多特征、小样本的特点,具有鲁棒性强、精度高、泛化能力强的特点,可以充分挖出出原始数据中的潜在规律,提供更加精细化的决策支持。
Description
技术领域
本发明涉及高维度数据的降维和预测技术,属于机器学习领域。
背景技术
随着我国进入大数据时代,制造业、服务业各领域的数据量激增,数据呈现复杂、高维、多元的态势,给信息处理带来了前所未有的挑战。以半导体的生产为例,TFT-LCD(薄膜晶体管液晶显示器)的生产包含几百道以上的工序,每道工序都有可能对产品的品质产生影响,在进行产品品质预测时,数据集往往会呈现出小样本、多特征的特点。
高维度数据的预测,通常包括降维和回归两步。降维方面,传统的数据降维方法,如主成分分析、线性判别分析等,在处理小样本、多特征的高维度数据时,往往会丢失很多原始特征中包含的信息,并且变换后的特征缺少可解释性。回归方面,传统的机器学习回归模型在处理具有不同特点的数据集时,训练效果往往差异很大,模型可靠度不高,鲁棒性能较差。
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习方法。近年来,集成学习成为机器学习的热门方向,在生产、科研和生活中地应用越来越广泛。与单个学习器的预测效果相比,集成学习在各个规模的数据集上都有很好的表现。因此,为解决小样本、多特征的数据集降维和预测困难的问题,更好地适应产业界的信息处理需求,有必要基于集成学习技术,有针对性地提供一种数据降维和回归预测的方案。
发明内容
为了解决背景技术中小样本、多特征的高维度数据预测困难的问题,本发明提供一种基于集成学习技术的特征降维和回归预测的方法。
本发明解决其技术问题所采用的技术方案是:一种基于集成学习技术的高维度数据预测方法,包括以下步骤:
步骤(1)对原始数据作预处理进行特征筛选,所述预处理包括标签的转换、重复数据的去除、缺失值和异常值处理;
步骤(2)对经特征筛选后的数据使用GBDT算法进行一次特征降维;
步骤(3)对经一次特征降维后的数据使用遗传算法进行二次特征降维;
步骤(4)将经二次特征降维后的数据作为基模型的输入进行训练,使用Stacking集成学习算法将多个基模型结果集成建立线性回归模型,获得最终预测结果。
具体的,所述步骤(1)中,需要对给定的原始数据进行预处理。处理方法包括标签的转换、重复数据的去除、缺失值和异常值的处理等。
(1.1)转换标签:原始数据集中常包含标签数据,为保证回归可以进行,此时可以对标签进行编码处理。
(1.2)去除重复数据:原始数据中存在某些特征,它们的取值只有一个,与回归目标的相关性为零,需要去除这类特征。另外,数据集中还存在重复的特征,只保留一个即可。
(1.3)缺失值和异常值处理:仪器故障、人工录入不当等原因经常会导致数据存在缺失,为了保证数据连贯,采用填充均值的方法处理缺失值。将数值位于外限以外的数据视为异常,对异常数据采用均值进行替换。去除最小值过大的列。
进一步的,所述步骤(2)中,基于树模型进行特征选择。
(2.1)决策树既能用于计算特征的重要性,也能用于去除不相关的特征。本发明使用一种基于GBDT进行特征重要性评估的方法,该方法的评估标准主要基于树模型中分裂节点对均方误差的影响。具体计算方法如下:
特征j的全局重要度为该特征在单棵树中重要度的均值:
其中,M表示树的棵数,Tm表示第m棵树,特征j在第m棵树中的重要度为:
其中,Lm表示该树的叶节点数,Lm-1表示该树的非叶节点数(构建的树都是具有左右子节点的二叉树),表示节点t分裂后平方损失的减少值,vt表示与节点t相关的特征。
进一步的,所述步骤(3)中,对步骤(2)中第一次降维的数据,采用遗传算法进行进一步的特征筛选。
(3.1)采用GBDT的方法进行特征筛选依然会保留很多特征,本发明在此基础上,采用遗传算法对特征选择进行改进,使特征筛选更加灵活。遗传算法细节如下:
1)设置初始种群数量,个体基因长度等于候选特征数,采用二进制编码,基因位取1时表示选择对应特征,初始种群由随机基因序列生成。
2)适应度函数采用线性回归模型的均方误差,计算如下:
3)选择算子采用轮盘赌算子,以选择进化过程中适应度最高的个体。
4)交叉算子采用两端交叉法,随机选择父本和母本的基因序列进行交换。
5)变异算子采用随机变异法,设定变异概率的阈值,对每个个体生成一个随机数,随机数小于阈值时,对个体的某随机基因点取反。
进一步的,所述步骤(4)中,将GBDT、XGB、LGB模型进行Stacking融合,得到最后的预测模型。
(4.1)GBDT模型介绍:
GBDT(Gradient Boosting Decision Tree)是集成学习Boosting家族的成员,该算法由多棵CART回归树组成,算法的每次迭代,都会找到一棵使样本损失量变得更小的树。定义输入为数据样本D=(xi,yi),i=1,2,…,m,最大迭代次数T,损失函数L,输出的是强学习器f(x)。具体步骤如下:
1)初始化弱学习器,此时c取值为所有训练样本标签值的均值:
2)对于每轮迭代t=1,2,…,T,用损失函数的负梯度来拟合本轮损失的近似值,进而拟合出一棵CART回归树,操作如下:
对于样本i=1,2,…,m,计算负梯度:
利用(xi,rti),我们可以拟合得到第t棵CART回归树,其对应的叶子节点区域为Rtj,j=1,2,…,J,其中J为回归树的叶子节点的个数。针对每一个叶子节点里的样本,求出使损失函数最小,也就是拟合叶子节点最好的输出值ctj,公式如下:
对于叶子区域j=1,2,…,J,计算最佳拟合值,更新强学习器为:
3)迭代最终得到强学习器f(x)的表达式:
(4.2)XGB模型介绍:
XGBoost(Extreme Gradient Boosting)算法的步骤和GBDT基本相同,不同的是,GBDT在优化时只用到一阶导数信息,而XGBoost对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。此外,XGBoost在代价函数里加入了正则项,用于控制模型的复杂度,对叶节点的权重进行了惩罚,防止模型过拟合。
假设XGBoost模型共有K棵树,fk表示第k棵树,表示样本xi的预测结构,则模型的损失函数定义为:
其中,表示样本xi的训练误差,O(fk)表示第k棵树的正则项。当损失函数采用均方误差时,用gi和hi分别表示一阶导数和二阶导数,将按二阶泰勒展开,可以得到:
损失函数中的正则项部分可以表示为:
其中,wj为叶子节点的得分值,T为该树的叶子节点个数。
(4.3)LGB框架介绍:
LGB是微软基于GBDT开发的开源boosting框架。与前面提到的XGB和GBDT模型相比,LGB在模型迭代过程中采用histogram算法,在决策树生长策略上采用leaf-wise的生长策略,占用的内存、数据分隔的复杂度更低。
XGB模型在迭代过程中采用预排序方法,需要多次遍历整个训练数据寻找最优划分点,而LGB框架采用的histogram算法只需要将数据分割成不同的段即可,不需要进行预先的排序。在决策树生长策略上,XGB采用的是level-wise生长策略,能够同时分裂同一层的叶子,不容易过拟合,但不加区分地对同一层的叶子进行分裂,带来很多没必要的开销;而LGB框架采用的是leaf-wise生长策略,每次从当前所有叶子中找到分裂增益最大的叶子进行分裂,训练速度快,但容易生长出比较深的决策树,因此训练时往往需要增加最大深度限制,在保证高效率的同时防止过拟合。
(4.4)利用Stacking方法集成模型
1)定义输入数据集为D=(xi,yi),i=1,2,…,m
2)训练T个基模型,得到预测模型ht(x)
3)构建集成训练数据集Dh={xi′,yi},其中,xi′={h1(xi),h2(xi),…,ht(xi)}
4)利用线性回归模型,训练出集成模型H
进一步的,所述步骤(5)中,模型方法地评估分为两步:
(5.1)对降维效果进行评估:首先由GBDT选出特征并构建线性回归模型,计算其均方误差;其次再由遗传算法进一步筛选特征并构建线性回归模型,计算其均方误差。
(5.2)对模型效果进行评估:分别构建线性回归模型、GBDT模型、XGB模型、LGB模型和Stacking模型,计算它们的均方误差并进行对比。
本发明的有益效果是:本发明充分考虑了样本量很小、特征维度很高情况下预测困难的问题,结合各种不同的特征选择方法进行降维,并利用多种模型进行预测,有效地提高了预测的准确性和鲁棒性。
附图说明
图1为本发明实施例的总体流程图。
图2为本发明实施例的Stacking模型图解。
图3为本发明实施例的模型输出结果。
图4为本发明实施例的样本格式表。
图5为本发明实施例的模型输出评价表
具体实施方式
下面结合附图对本发明实施例作进一步说明:
本发明实施例中,本发明以TFT-LCD(薄膜晶体管液晶显示器)生产数据作为实施例研究对象,具体预测过程如图1所示,下面对各步骤进行详细说明。
步骤1:采样数据的预处理
以TFT-LCD(薄膜晶体管液晶显示器)生产数据作为实施例原始样本,样本格式图4所示。
原始数据包括500条记录,每条记录特征维度为8028,按照步骤1所述数据预处理方法,采用填充均值的方法处理缺失值。将数值位于[Q1-3IQR,Q3+3IQR](Q1为下四分位值,Q3为上四分位值,IQR为四分位距,即Q3与Q1的差)以外的数据视为异常,对异常数据采用均值进行替换。去除最小值超过1013的列,处理后的数据维度为2881。
步骤2:基于GBDT进行特征选择
根据前文所述方法,取GBDT最大深度为8,估计器个数为400,共选出363个特征。
步骤3:使用遗传算法选取最佳特征
经过步骤2预处理后的样本数据共有500条,维度为363。在此基础上,采用遗传算法进一步提取特征,设置初始种群数量为10,选择算子选用轮盘赌算法和锦标赛算法,交叉算子采用两端交叉法,变异算子采用随机变异法,变异概率阈值为0.165,处理后数据维度为169。
步骤4:使用Stacking模型进行预测
Stacking模型图解如图2所示,构建四个基础模型。
模型一为GBDT模型,参数选择如下:估计器个数为300,最大深度为2,样本采样概率0.8,特征采样概率为0.2,学习率为0.01。
模型二为XGB模型,参数选择如下:估计器个数为2100,最大深度为3,样本采样概率0.8,特征采样概率为0.2,学习率为0.01。
模型三为XGB模型,参数选择如下:估计器个数为1600,最大深度为3,样本采样概率0.8,特征采样概率为0.3,学习率为0.01。
模型四为LGB模型,参数选择如下:估计器个数为350,最大叶节点数为4,样本采样概率0.8,特征采样概率为0.3,学习率为0.01。
分别用以上四个模型对数据进行拟合,再将拟合出的结果作为自变量,真实预测值作为因变量,进行线性回归,并以线性回归模型的预测结果作为最后的预测值。在该数据集上,最后拟合的均方误差为0.03266。
最后对模型进行对比评估:
降维效果评估:根据GBDT选出的363个特征对目标做线性回归,拟合训练集,回归模型在测试集上的均方误差MSE为0.290。在GBDT筛选特征的基础上,使用遗传算法继续筛选特征,根据选出的169个特征对目标做线性回归,拟合训练集,回归模型在测试集上的均方误差MSE为0.113。可以看出,与GBDT筛选的特征集相比,虽然遗传算法筛选后的特征数量减少了1/2,但是线性回归的均方误差反而表现更好,故采用遗传算法进行特征筛选,可以达到进一步优化降维效果的目的。
模型效果评估:对遗传算法选出的169维特征建立回归模型,各模型结果如图5所示。
为方便对比,引入LR线性回归模型作为对比模型6,可以看出,本发明所采用的Stacking模型,相较于LR线性回归模型,误差优化了71.07%;相较于GBDT、XGB1、XGB2、LGB模型,误差分别优化了2.91%、1.51%、3.14%、3.34%,预测结果如图3所示。
各位技术人员须知:虽然本发明已按照上述具体实施方式做了描述,但是本发明的发明思想并不仅限于此发明,任何运用本发明思想的改装,都将纳入本专利专利权保护范围内。
Claims (5)
1.一种基于集成学习技术的高维度数据预测方法,其特征在于,包括以下步骤:
步骤(1)对原始数据作预处理进行特征筛选;
步骤(2)对经特征筛选后的数据使用GBDT算法进行一次特征降维;
步骤(3)对经一次特征降维后的数据使用遗传算法进行二次特征降维;
步骤(4)将经二次特征降维后的数据作为基模型的输入进行训练,使用Stacking集成学习算法将多个基模型结果集成建立线性回归模型,获得最终预测结果。
2.根据权利要求1所述的一种基于集成学习技术的高维度数据预测方法,其特征在于:所述预处理包括标签的转换、重复数据的去除、缺失值和异常值处理。
3.根据权利要求1所述的一种基于集成学习技术的高维度数据预测方法,其特征在于:所述遗传算法的具体参数设置为:
1)设置初始种群数量,个体基因长度等于候选特征数,基因编码方式为二进制法,初始种群由随机基因序列生成;
2)适应函数采用交叉验证线性回归的均方误差;
3)选择算子选用轮盘赌算法和锦标赛算法,以选择进化过程中适应度最高的个体;
4)交叉算子采用两端交叉法,随机选择父本和母本的基因序列进行交换;
5)变异算子采用随机变异法,设定变异概率的阈值,对每个个体生成一个随机数,随机数小于阈值时,对个体的某随机基因点取反。
4.根据权利要求1所述的一种基于集成学习技术的高维度数据预测方法,其特征在于,所述步骤(4)具体包括:
(1)经二次特征降维后获得数据集D=(xi,yi),i=1,2,…,m;
(2)训练T个基模型,得到预测模型ht(x);
(3)构建集成训练数据集Dh={x′i,yi},其中,x′i={h1(xi),h2(xi),…,ht(xi)};
(4)利用线性回归模型,训练出最终预测模型H,获得最终预测结果。
5.根据权利要求1或4所述的一种基于集成学习技术的高维度数据预测方法,其特征在于,所述基模型包括GBDT模型、XGB模型和LGB模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394269.5A CN110516818A (zh) | 2019-05-13 | 2019-05-13 | 一种基于集成学习技术的高维度数据预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394269.5A CN110516818A (zh) | 2019-05-13 | 2019-05-13 | 一种基于集成学习技术的高维度数据预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516818A true CN110516818A (zh) | 2019-11-29 |
Family
ID=68622283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910394269.5A Pending CN110516818A (zh) | 2019-05-13 | 2019-05-13 | 一种基于集成学习技术的高维度数据预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516818A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221876A (zh) * | 2020-01-07 | 2020-06-02 | 平安科技(深圳)有限公司 | 数据降维处理方法、装置、计算机设备和存储介质 |
CN111242364A (zh) * | 2020-01-07 | 2020-06-05 | 上海钧正网络科技有限公司 | 基于神经网络的车辆故障和舒适度预测方法、装置、终端及介质 |
CN111507507A (zh) * | 2020-03-24 | 2020-08-07 | 重庆森鑫炬科技有限公司 | 基于大数据的月用水量预测方法 |
CN111553117A (zh) * | 2020-04-22 | 2020-08-18 | 东华大学 | 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 |
CN111832828A (zh) * | 2020-07-17 | 2020-10-27 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN112329262A (zh) * | 2020-11-24 | 2021-02-05 | 天津大学城市规划设计研究院有限公司 | 一种居住建筑燃气碳排放量预测方法 |
CN112418445A (zh) * | 2020-11-09 | 2021-02-26 | 深圳市洪堡智慧餐饮科技有限公司 | 一种基于机器学习的智能选址融合方法 |
CN112464154A (zh) * | 2020-11-27 | 2021-03-09 | 中国船舶重工集团公司第七0四研究所 | 一种基于无监督学习的自动筛选有效特征的方法 |
CN113176761A (zh) * | 2021-04-28 | 2021-07-27 | 西安电子科技大学 | 基于机器学习的多特征薄板零件质量预测与工艺参数优化 |
CN113283174A (zh) * | 2021-06-09 | 2021-08-20 | 中国石油天然气股份有限公司 | 基于算法集成与自控制的储层产能预测方法、系统及终端 |
CN113743752A (zh) * | 2021-08-23 | 2021-12-03 | 南京星云数字技术有限公司 | 一种数据处理方法及装置 |
CN114564699A (zh) * | 2022-04-28 | 2022-05-31 | 成都博瑞科传科技有限公司 | 一种总磷总氮连续在线监测方法及系统 |
CN114724715A (zh) * | 2022-04-12 | 2022-07-08 | 南京邮电大学 | 一种基于最优auc的多机器学习模型特征选择方法 |
CN114894725A (zh) * | 2022-03-21 | 2022-08-12 | 重庆邮电大学 | 一种水质多参数的光谱数据Stacking融合模型及水质多参数测量方法 |
-
2019
- 2019-05-13 CN CN201910394269.5A patent/CN110516818A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242364A (zh) * | 2020-01-07 | 2020-06-05 | 上海钧正网络科技有限公司 | 基于神经网络的车辆故障和舒适度预测方法、装置、终端及介质 |
CN111221876A (zh) * | 2020-01-07 | 2020-06-02 | 平安科技(深圳)有限公司 | 数据降维处理方法、装置、计算机设备和存储介质 |
CN111507507A (zh) * | 2020-03-24 | 2020-08-07 | 重庆森鑫炬科技有限公司 | 基于大数据的月用水量预测方法 |
CN111553117A (zh) * | 2020-04-22 | 2020-08-18 | 东华大学 | 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法 |
CN111832828B (zh) * | 2020-07-17 | 2023-12-19 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN111832828A (zh) * | 2020-07-17 | 2020-10-27 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN112418445A (zh) * | 2020-11-09 | 2021-02-26 | 深圳市洪堡智慧餐饮科技有限公司 | 一种基于机器学习的智能选址融合方法 |
CN112329262A (zh) * | 2020-11-24 | 2021-02-05 | 天津大学城市规划设计研究院有限公司 | 一种居住建筑燃气碳排放量预测方法 |
CN112464154A (zh) * | 2020-11-27 | 2021-03-09 | 中国船舶重工集团公司第七0四研究所 | 一种基于无监督学习的自动筛选有效特征的方法 |
CN112464154B (zh) * | 2020-11-27 | 2024-03-01 | 中国船舶重工集团公司第七0四研究所 | 一种基于无监督学习的自动筛选有效特征的方法 |
CN113176761A (zh) * | 2021-04-28 | 2021-07-27 | 西安电子科技大学 | 基于机器学习的多特征薄板零件质量预测与工艺参数优化 |
CN113283174A (zh) * | 2021-06-09 | 2021-08-20 | 中国石油天然气股份有限公司 | 基于算法集成与自控制的储层产能预测方法、系统及终端 |
CN113743752A (zh) * | 2021-08-23 | 2021-12-03 | 南京星云数字技术有限公司 | 一种数据处理方法及装置 |
CN114894725A (zh) * | 2022-03-21 | 2022-08-12 | 重庆邮电大学 | 一种水质多参数的光谱数据Stacking融合模型及水质多参数测量方法 |
CN114724715A (zh) * | 2022-04-12 | 2022-07-08 | 南京邮电大学 | 一种基于最优auc的多机器学习模型特征选择方法 |
CN114564699A (zh) * | 2022-04-28 | 2022-05-31 | 成都博瑞科传科技有限公司 | 一种总磷总氮连续在线监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516818A (zh) | 一种基于集成学习技术的高维度数据预测方法 | |
Cui et al. | A new hyperparameters optimization method for convolutional neural networks | |
Das et al. | A group incremental feature selection for classification using rough set theory based genetic algorithm | |
Hesami et al. | Machine learning: its challenges and opportunities in plant system biology | |
Harvey et al. | Automated feature design for numeric sequence classification by genetic programming | |
CN113707235A (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
CN112908414B (zh) | 一种大规模单细胞分型方法、系统及存储介质 | |
CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
CN114783526B (zh) | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 | |
CN103020979B (zh) | 基于稀疏遗传聚类的图像分割方法 | |
CN112232413A (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN106021990A (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN117334271B (zh) | 一种基于指定属性生成分子的方法 | |
CN106202999B (zh) | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 | |
CN117574274B (zh) | 一种混合特征筛选和超参数优化的PSO-XGBoost系统构建方法 | |
Dansawad et al. | Machine learning toward improving the performance of membrane-based wastewater treatment: A review | |
CN117392450A (zh) | 一种基于进化多尺度特征学习的钢铁材料质量解析方法 | |
CN112465054A (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
CN114093426B (zh) | 基于基因调控网络构建的标志物筛选方法 | |
CN116150455B (zh) | 一种异构数据解析方法 | |
CN113160886A (zh) | 基于单细胞Hi-C数据的细胞类型预测系统 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
CN117497038A (zh) | 一种基于核方法的快速优化培养基配方的方法 | |
CN117095762A (zh) | 一种基于遗传算法和自编码器的化合物生成方法 | |
CN114330089B (zh) | 一种稀土元素含量变化预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |