[go: up one dir, main page]

CN110516818A - 一种基于集成学习技术的高维度数据预测方法 - Google Patents

一种基于集成学习技术的高维度数据预测方法 Download PDF

Info

Publication number
CN110516818A
CN110516818A CN201910394269.5A CN201910394269A CN110516818A CN 110516818 A CN110516818 A CN 110516818A CN 201910394269 A CN201910394269 A CN 201910394269A CN 110516818 A CN110516818 A CN 110516818A
Authority
CN
China
Prior art keywords
model
data
dimensional data
algorithm
ensemble learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910394269.5A
Other languages
English (en)
Inventor
刘江川
张聪
樊小毅
庞海天
杨洋
邵俊松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jiangxing Lian Jia Intelligent Technology Co Ltd
Original Assignee
Nanjing Jiangxing Lian Jia Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jiangxing Lian Jia Intelligent Technology Co Ltd filed Critical Nanjing Jiangxing Lian Jia Intelligent Technology Co Ltd
Priority to CN201910394269.5A priority Critical patent/CN110516818A/zh
Publication of CN110516818A publication Critical patent/CN110516818A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习技术的高维度数据预测方法,首先对原始高维数据进行预处理,包括缺失值和异常值的处理、去除重复数据等;接着利用GBDT特征重要性方法进行特征筛选,并利用遗传算法进一步优化筛选结果,尽量在不改变原始特征的前提下对数据集进行降维;在此基础上,本发明利用Stacking集成学习的思想构建集成模型,对数据进行回归预测,并评估方法的效果。本发明充分考虑了高维度数据多特征、小样本的特点,具有鲁棒性强、精度高、泛化能力强的特点,可以充分挖出出原始数据中的潜在规律,提供更加精细化的决策支持。

Description

一种基于集成学习技术的高维度数据预测方法
技术领域
本发明涉及高维度数据的降维和预测技术,属于机器学习领域。
背景技术
随着我国进入大数据时代,制造业、服务业各领域的数据量激增,数据呈现复杂、高维、多元的态势,给信息处理带来了前所未有的挑战。以半导体的生产为例,TFT-LCD(薄膜晶体管液晶显示器)的生产包含几百道以上的工序,每道工序都有可能对产品的品质产生影响,在进行产品品质预测时,数据集往往会呈现出小样本、多特征的特点。
高维度数据的预测,通常包括降维和回归两步。降维方面,传统的数据降维方法,如主成分分析、线性判别分析等,在处理小样本、多特征的高维度数据时,往往会丢失很多原始特征中包含的信息,并且变换后的特征缺少可解释性。回归方面,传统的机器学习回归模型在处理具有不同特点的数据集时,训练效果往往差异很大,模型可靠度不高,鲁棒性能较差。
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习方法。近年来,集成学习成为机器学习的热门方向,在生产、科研和生活中地应用越来越广泛。与单个学习器的预测效果相比,集成学习在各个规模的数据集上都有很好的表现。因此,为解决小样本、多特征的数据集降维和预测困难的问题,更好地适应产业界的信息处理需求,有必要基于集成学习技术,有针对性地提供一种数据降维和回归预测的方案。
发明内容
为了解决背景技术中小样本、多特征的高维度数据预测困难的问题,本发明提供一种基于集成学习技术的特征降维和回归预测的方法。
本发明解决其技术问题所采用的技术方案是:一种基于集成学习技术的高维度数据预测方法,包括以下步骤:
步骤(1)对原始数据作预处理进行特征筛选,所述预处理包括标签的转换、重复数据的去除、缺失值和异常值处理;
步骤(2)对经特征筛选后的数据使用GBDT算法进行一次特征降维;
步骤(3)对经一次特征降维后的数据使用遗传算法进行二次特征降维;
步骤(4)将经二次特征降维后的数据作为基模型的输入进行训练,使用Stacking集成学习算法将多个基模型结果集成建立线性回归模型,获得最终预测结果。
具体的,所述步骤(1)中,需要对给定的原始数据进行预处理。处理方法包括标签的转换、重复数据的去除、缺失值和异常值的处理等。
(1.1)转换标签:原始数据集中常包含标签数据,为保证回归可以进行,此时可以对标签进行编码处理。
(1.2)去除重复数据:原始数据中存在某些特征,它们的取值只有一个,与回归目标的相关性为零,需要去除这类特征。另外,数据集中还存在重复的特征,只保留一个即可。
(1.3)缺失值和异常值处理:仪器故障、人工录入不当等原因经常会导致数据存在缺失,为了保证数据连贯,采用填充均值的方法处理缺失值。将数值位于外限以外的数据视为异常,对异常数据采用均值进行替换。去除最小值过大的列。
进一步的,所述步骤(2)中,基于树模型进行特征选择。
(2.1)决策树既能用于计算特征的重要性,也能用于去除不相关的特征。本发明使用一种基于GBDT进行特征重要性评估的方法,该方法的评估标准主要基于树模型中分裂节点对均方误差的影响。具体计算方法如下:
特征j的全局重要度为该特征在单棵树中重要度的均值:
其中,M表示树的棵数,Tm表示第m棵树,特征j在第m棵树中的重要度为:
其中,Lm表示该树的叶节点数,Lm-1表示该树的非叶节点数(构建的树都是具有左右子节点的二叉树),表示节点t分裂后平方损失的减少值,vt表示与节点t相关的特征。
进一步的,所述步骤(3)中,对步骤(2)中第一次降维的数据,采用遗传算法进行进一步的特征筛选。
(3.1)采用GBDT的方法进行特征筛选依然会保留很多特征,本发明在此基础上,采用遗传算法对特征选择进行改进,使特征筛选更加灵活。遗传算法细节如下:
1)设置初始种群数量,个体基因长度等于候选特征数,采用二进制编码,基因位取1时表示选择对应特征,初始种群由随机基因序列生成。
2)适应度函数采用线性回归模型的均方误差,计算如下:
3)选择算子采用轮盘赌算子,以选择进化过程中适应度最高的个体。
4)交叉算子采用两端交叉法,随机选择父本和母本的基因序列进行交换。
5)变异算子采用随机变异法,设定变异概率的阈值,对每个个体生成一个随机数,随机数小于阈值时,对个体的某随机基因点取反。
进一步的,所述步骤(4)中,将GBDT、XGB、LGB模型进行Stacking融合,得到最后的预测模型。
(4.1)GBDT模型介绍:
GBDT(Gradient Boosting Decision Tree)是集成学习Boosting家族的成员,该算法由多棵CART回归树组成,算法的每次迭代,都会找到一棵使样本损失量变得更小的树。定义输入为数据样本D=(xi,yi),i=1,2,…,m,最大迭代次数T,损失函数L,输出的是强学习器f(x)。具体步骤如下:
1)初始化弱学习器,此时c取值为所有训练样本标签值的均值:
2)对于每轮迭代t=1,2,…,T,用损失函数的负梯度来拟合本轮损失的近似值,进而拟合出一棵CART回归树,操作如下:
对于样本i=1,2,…,m,计算负梯度:
利用(xi,rti),我们可以拟合得到第t棵CART回归树,其对应的叶子节点区域为Rtj,j=1,2,…,J,其中J为回归树的叶子节点的个数。针对每一个叶子节点里的样本,求出使损失函数最小,也就是拟合叶子节点最好的输出值ctj,公式如下:
对于叶子区域j=1,2,…,J,计算最佳拟合值,更新强学习器为:
3)迭代最终得到强学习器f(x)的表达式:
(4.2)XGB模型介绍:
XGBoost(Extreme Gradient Boosting)算法的步骤和GBDT基本相同,不同的是,GBDT在优化时只用到一阶导数信息,而XGBoost对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。此外,XGBoost在代价函数里加入了正则项,用于控制模型的复杂度,对叶节点的权重进行了惩罚,防止模型过拟合。
假设XGBoost模型共有K棵树,fk表示第k棵树,表示样本xi的预测结构,则模型的损失函数定义为:
其中,表示样本xi的训练误差,O(fk)表示第k棵树的正则项。当损失函数采用均方误差时,用gi和hi分别表示一阶导数和二阶导数,将按二阶泰勒展开,可以得到:
损失函数中的正则项部分可以表示为:
其中,wj为叶子节点的得分值,T为该树的叶子节点个数。
(4.3)LGB框架介绍:
LGB是微软基于GBDT开发的开源boosting框架。与前面提到的XGB和GBDT模型相比,LGB在模型迭代过程中采用histogram算法,在决策树生长策略上采用leaf-wise的生长策略,占用的内存、数据分隔的复杂度更低。
XGB模型在迭代过程中采用预排序方法,需要多次遍历整个训练数据寻找最优划分点,而LGB框架采用的histogram算法只需要将数据分割成不同的段即可,不需要进行预先的排序。在决策树生长策略上,XGB采用的是level-wise生长策略,能够同时分裂同一层的叶子,不容易过拟合,但不加区分地对同一层的叶子进行分裂,带来很多没必要的开销;而LGB框架采用的是leaf-wise生长策略,每次从当前所有叶子中找到分裂增益最大的叶子进行分裂,训练速度快,但容易生长出比较深的决策树,因此训练时往往需要增加最大深度限制,在保证高效率的同时防止过拟合。
(4.4)利用Stacking方法集成模型
1)定义输入数据集为D=(xi,yi),i=1,2,…,m
2)训练T个基模型,得到预测模型ht(x)
3)构建集成训练数据集Dh={xi′,yi},其中,xi′={h1(xi),h2(xi),…,ht(xi)}
4)利用线性回归模型,训练出集成模型H
进一步的,所述步骤(5)中,模型方法地评估分为两步:
(5.1)对降维效果进行评估:首先由GBDT选出特征并构建线性回归模型,计算其均方误差;其次再由遗传算法进一步筛选特征并构建线性回归模型,计算其均方误差。
(5.2)对模型效果进行评估:分别构建线性回归模型、GBDT模型、XGB模型、LGB模型和Stacking模型,计算它们的均方误差并进行对比。
本发明的有益效果是:本发明充分考虑了样本量很小、特征维度很高情况下预测困难的问题,结合各种不同的特征选择方法进行降维,并利用多种模型进行预测,有效地提高了预测的准确性和鲁棒性。
附图说明
图1为本发明实施例的总体流程图。
图2为本发明实施例的Stacking模型图解。
图3为本发明实施例的模型输出结果。
图4为本发明实施例的样本格式表。
图5为本发明实施例的模型输出评价表
具体实施方式
下面结合附图对本发明实施例作进一步说明:
本发明实施例中,本发明以TFT-LCD(薄膜晶体管液晶显示器)生产数据作为实施例研究对象,具体预测过程如图1所示,下面对各步骤进行详细说明。
步骤1:采样数据的预处理
以TFT-LCD(薄膜晶体管液晶显示器)生产数据作为实施例原始样本,样本格式图4所示。
原始数据包括500条记录,每条记录特征维度为8028,按照步骤1所述数据预处理方法,采用填充均值的方法处理缺失值。将数值位于[Q1-3IQR,Q3+3IQR](Q1为下四分位值,Q3为上四分位值,IQR为四分位距,即Q3与Q1的差)以外的数据视为异常,对异常数据采用均值进行替换。去除最小值超过1013的列,处理后的数据维度为2881。
步骤2:基于GBDT进行特征选择
根据前文所述方法,取GBDT最大深度为8,估计器个数为400,共选出363个特征。
步骤3:使用遗传算法选取最佳特征
经过步骤2预处理后的样本数据共有500条,维度为363。在此基础上,采用遗传算法进一步提取特征,设置初始种群数量为10,选择算子选用轮盘赌算法和锦标赛算法,交叉算子采用两端交叉法,变异算子采用随机变异法,变异概率阈值为0.165,处理后数据维度为169。
步骤4:使用Stacking模型进行预测
Stacking模型图解如图2所示,构建四个基础模型。
模型一为GBDT模型,参数选择如下:估计器个数为300,最大深度为2,样本采样概率0.8,特征采样概率为0.2,学习率为0.01。
模型二为XGB模型,参数选择如下:估计器个数为2100,最大深度为3,样本采样概率0.8,特征采样概率为0.2,学习率为0.01。
模型三为XGB模型,参数选择如下:估计器个数为1600,最大深度为3,样本采样概率0.8,特征采样概率为0.3,学习率为0.01。
模型四为LGB模型,参数选择如下:估计器个数为350,最大叶节点数为4,样本采样概率0.8,特征采样概率为0.3,学习率为0.01。
分别用以上四个模型对数据进行拟合,再将拟合出的结果作为自变量,真实预测值作为因变量,进行线性回归,并以线性回归模型的预测结果作为最后的预测值。在该数据集上,最后拟合的均方误差为0.03266。
最后对模型进行对比评估:
降维效果评估:根据GBDT选出的363个特征对目标做线性回归,拟合训练集,回归模型在测试集上的均方误差MSE为0.290。在GBDT筛选特征的基础上,使用遗传算法继续筛选特征,根据选出的169个特征对目标做线性回归,拟合训练集,回归模型在测试集上的均方误差MSE为0.113。可以看出,与GBDT筛选的特征集相比,虽然遗传算法筛选后的特征数量减少了1/2,但是线性回归的均方误差反而表现更好,故采用遗传算法进行特征筛选,可以达到进一步优化降维效果的目的。
模型效果评估:对遗传算法选出的169维特征建立回归模型,各模型结果如图5所示。
为方便对比,引入LR线性回归模型作为对比模型6,可以看出,本发明所采用的Stacking模型,相较于LR线性回归模型,误差优化了71.07%;相较于GBDT、XGB1、XGB2、LGB模型,误差分别优化了2.91%、1.51%、3.14%、3.34%,预测结果如图3所示。
各位技术人员须知:虽然本发明已按照上述具体实施方式做了描述,但是本发明的发明思想并不仅限于此发明,任何运用本发明思想的改装,都将纳入本专利专利权保护范围内。

Claims (5)

1.一种基于集成学习技术的高维度数据预测方法,其特征在于,包括以下步骤:
步骤(1)对原始数据作预处理进行特征筛选;
步骤(2)对经特征筛选后的数据使用GBDT算法进行一次特征降维;
步骤(3)对经一次特征降维后的数据使用遗传算法进行二次特征降维;
步骤(4)将经二次特征降维后的数据作为基模型的输入进行训练,使用Stacking集成学习算法将多个基模型结果集成建立线性回归模型,获得最终预测结果。
2.根据权利要求1所述的一种基于集成学习技术的高维度数据预测方法,其特征在于:所述预处理包括标签的转换、重复数据的去除、缺失值和异常值处理。
3.根据权利要求1所述的一种基于集成学习技术的高维度数据预测方法,其特征在于:所述遗传算法的具体参数设置为:
1)设置初始种群数量,个体基因长度等于候选特征数,基因编码方式为二进制法,初始种群由随机基因序列生成;
2)适应函数采用交叉验证线性回归的均方误差;
3)选择算子选用轮盘赌算法和锦标赛算法,以选择进化过程中适应度最高的个体;
4)交叉算子采用两端交叉法,随机选择父本和母本的基因序列进行交换;
5)变异算子采用随机变异法,设定变异概率的阈值,对每个个体生成一个随机数,随机数小于阈值时,对个体的某随机基因点取反。
4.根据权利要求1所述的一种基于集成学习技术的高维度数据预测方法,其特征在于,所述步骤(4)具体包括:
(1)经二次特征降维后获得数据集D=(xi,yi),i=1,2,…,m;
(2)训练T个基模型,得到预测模型ht(x);
(3)构建集成训练数据集Dh={x′i,yi},其中,x′i={h1(xi),h2(xi),…,ht(xi)};
(4)利用线性回归模型,训练出最终预测模型H,获得最终预测结果。
5.根据权利要求1或4所述的一种基于集成学习技术的高维度数据预测方法,其特征在于,所述基模型包括GBDT模型、XGB模型和LGB模型。
CN201910394269.5A 2019-05-13 2019-05-13 一种基于集成学习技术的高维度数据预测方法 Pending CN110516818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910394269.5A CN110516818A (zh) 2019-05-13 2019-05-13 一种基于集成学习技术的高维度数据预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910394269.5A CN110516818A (zh) 2019-05-13 2019-05-13 一种基于集成学习技术的高维度数据预测方法

Publications (1)

Publication Number Publication Date
CN110516818A true CN110516818A (zh) 2019-11-29

Family

ID=68622283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910394269.5A Pending CN110516818A (zh) 2019-05-13 2019-05-13 一种基于集成学习技术的高维度数据预测方法

Country Status (1)

Country Link
CN (1) CN110516818A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221876A (zh) * 2020-01-07 2020-06-02 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备和存储介质
CN111242364A (zh) * 2020-01-07 2020-06-05 上海钧正网络科技有限公司 基于神经网络的车辆故障和舒适度预测方法、装置、终端及介质
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法
CN111553117A (zh) * 2020-04-22 2020-08-18 东华大学 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法
CN111832828A (zh) * 2020-07-17 2020-10-27 国家卫星气象中心(国家空间天气监测预警中心) 基于风云四号气象卫星的智能降水预测方法
CN112329262A (zh) * 2020-11-24 2021-02-05 天津大学城市规划设计研究院有限公司 一种居住建筑燃气碳排放量预测方法
CN112418445A (zh) * 2020-11-09 2021-02-26 深圳市洪堡智慧餐饮科技有限公司 一种基于机器学习的智能选址融合方法
CN112464154A (zh) * 2020-11-27 2021-03-09 中国船舶重工集团公司第七0四研究所 一种基于无监督学习的自动筛选有效特征的方法
CN113176761A (zh) * 2021-04-28 2021-07-27 西安电子科技大学 基于机器学习的多特征薄板零件质量预测与工艺参数优化
CN113283174A (zh) * 2021-06-09 2021-08-20 中国石油天然气股份有限公司 基于算法集成与自控制的储层产能预测方法、系统及终端
CN113743752A (zh) * 2021-08-23 2021-12-03 南京星云数字技术有限公司 一种数据处理方法及装置
CN114564699A (zh) * 2022-04-28 2022-05-31 成都博瑞科传科技有限公司 一种总磷总氮连续在线监测方法及系统
CN114724715A (zh) * 2022-04-12 2022-07-08 南京邮电大学 一种基于最优auc的多机器学习模型特征选择方法
CN114894725A (zh) * 2022-03-21 2022-08-12 重庆邮电大学 一种水质多参数的光谱数据Stacking融合模型及水质多参数测量方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242364A (zh) * 2020-01-07 2020-06-05 上海钧正网络科技有限公司 基于神经网络的车辆故障和舒适度预测方法、装置、终端及介质
CN111221876A (zh) * 2020-01-07 2020-06-02 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备和存储介质
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法
CN111553117A (zh) * 2020-04-22 2020-08-18 东华大学 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法
CN111832828B (zh) * 2020-07-17 2023-12-19 国家卫星气象中心(国家空间天气监测预警中心) 基于风云四号气象卫星的智能降水预测方法
CN111832828A (zh) * 2020-07-17 2020-10-27 国家卫星气象中心(国家空间天气监测预警中心) 基于风云四号气象卫星的智能降水预测方法
CN112418445A (zh) * 2020-11-09 2021-02-26 深圳市洪堡智慧餐饮科技有限公司 一种基于机器学习的智能选址融合方法
CN112329262A (zh) * 2020-11-24 2021-02-05 天津大学城市规划设计研究院有限公司 一种居住建筑燃气碳排放量预测方法
CN112464154A (zh) * 2020-11-27 2021-03-09 中国船舶重工集团公司第七0四研究所 一种基于无监督学习的自动筛选有效特征的方法
CN112464154B (zh) * 2020-11-27 2024-03-01 中国船舶重工集团公司第七0四研究所 一种基于无监督学习的自动筛选有效特征的方法
CN113176761A (zh) * 2021-04-28 2021-07-27 西安电子科技大学 基于机器学习的多特征薄板零件质量预测与工艺参数优化
CN113283174A (zh) * 2021-06-09 2021-08-20 中国石油天然气股份有限公司 基于算法集成与自控制的储层产能预测方法、系统及终端
CN113743752A (zh) * 2021-08-23 2021-12-03 南京星云数字技术有限公司 一种数据处理方法及装置
CN114894725A (zh) * 2022-03-21 2022-08-12 重庆邮电大学 一种水质多参数的光谱数据Stacking融合模型及水质多参数测量方法
CN114724715A (zh) * 2022-04-12 2022-07-08 南京邮电大学 一种基于最优auc的多机器学习模型特征选择方法
CN114564699A (zh) * 2022-04-28 2022-05-31 成都博瑞科传科技有限公司 一种总磷总氮连续在线监测方法及系统

Similar Documents

Publication Publication Date Title
CN110516818A (zh) 一种基于集成学习技术的高维度数据预测方法
Cui et al. A new hyperparameters optimization method for convolutional neural networks
Das et al. A group incremental feature selection for classification using rough set theory based genetic algorithm
Hesami et al. Machine learning: its challenges and opportunities in plant system biology
Harvey et al. Automated feature design for numeric sequence classification by genetic programming
CN113707235A (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN112908414B (zh) 一种大规模单细胞分型方法、系统及存储介质
CN108647226B (zh) 一种基于变分自动编码器的混合推荐方法
CN114783526B (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
CN103020979B (zh) 基于稀疏遗传聚类的图像分割方法
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN106021990A (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN117334271B (zh) 一种基于指定属性生成分子的方法
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN117574274B (zh) 一种混合特征筛选和超参数优化的PSO-XGBoost系统构建方法
Dansawad et al. Machine learning toward improving the performance of membrane-based wastewater treatment: A review
CN117392450A (zh) 一种基于进化多尺度特征学习的钢铁材料质量解析方法
CN112465054A (zh) 一种基于fcn的多变量时间序列数据分类方法
CN114093426B (zh) 基于基因调控网络构建的标志物筛选方法
CN116150455B (zh) 一种异构数据解析方法
CN113160886A (zh) 基于单细胞Hi-C数据的细胞类型预测系统
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN117497038A (zh) 一种基于核方法的快速优化培养基配方的方法
CN117095762A (zh) 一种基于遗传算法和自编码器的化合物生成方法
CN114330089B (zh) 一种稀土元素含量变化预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination