发明内容
本申请提供一种垃圾焚烧辅助燃料剂用量的预测方法和系统,旨在解决现有技术中对垃圾焚烧辅助燃料剂的用量依赖人工控制,导致效率低下的问题。
根据第一方面,一种实施例中提供一种垃圾焚烧辅助燃料剂用量的预测方法,包括:
获取垃圾成分参数,所述垃圾成分参数包括垃圾的成分及各成分含量;
将所述垃圾成分参数输入预先训练好的机器学习预测模型中;
通过所述机器学习预测模型对所述垃圾成分参数的计算,得到辅助燃料剂用量的预测值,其中所述机器学习预测模型在训练过程中的训练数据为垃圾成分参数,标志列为与所述垃圾成分参数对应的辅助燃料剂的用量。
一种实施例中,所述机器学习预测模型为支持向量回归模型。
一种实施例中,所述方法还包括:在建立所述支持向量回归模型时,使用遗传算法对所述支持向量回归模型进行超参数寻优。
一种实施例中,所述使用遗传算法对所述支持向量回归模型进行超参数寻优包括:
(1)以所述支持向量回归模型的超参数为元素组成超参数向量,随机生成N个不同的超参数向量作为遗传算法中N个不同的个体,超参数向量中的超参数为个体的染色体,对染色体进行编码得到染色体的基因型,其中N为大于0的整数;
(2)根据所述垃圾成分参数及其对应的辅助燃料剂的用量设置适应度函数;
(3)设置最大迭代次数;
(4)根据所述适应度函数计算个体的适应度,根据适应度选择若干个体作为父代个体;
(5)以预定的交叉概率pm对父代个体进行交叉操作,所述交叉操作指交换两个父代个体中对应染色体的部分基因;
(6)以预定的变异概率pc对经交叉操作后的父代个体进行变异操作,所述变异操作指对父代个体的部分基因进行随机变换;
重复执行上述步骤(4)至(6),直至达到最大迭代次数为止。
一种实施例中,所述适应度函数为将垃圾成分参数输入超参数向量对应的支持向量回归模型得到的辅助燃料剂用量的预测值与实际值的均方误差,所述根据适应度选择若干个体作为父代个体采用的是轮盘赌选择策略。
一种实施例中,在将所述垃圾的成分及各成分含量输入预先训练好的机器学习预测模型前,所述方法还包括:
将所获取的垃圾成分参数中的缺失值使用其临近值代替;
对垃圾成分参数进行归一化处理;
对经归一化处理后的垃圾成分参数进行主成分分析。
一种实施例中,所述超参数包括支持向量回归模型的惩罚系数C、不敏感损失系数epsilon和宽度系数gamma。
根据第二方面,一种实施例中提供一种垃圾焚烧辅助燃料剂用量的预测系统,包括:
垃圾成分获取装置,用于获取垃圾的成分及各成分含量;
预先训练好的机器学习预测模型,用于对所述垃圾的成分及各成分含量进行计算,得到辅助燃料剂用量的预测值,其中所述机器学习预测模型在训练过程中的训练数据为垃圾的成分及各成分含量,标志列为与所述垃圾的成分及各成分含量对应的辅助燃料剂的用量;
辅助燃料剂用量输出装置,用于输出所述机器学习预测模型计算得到的辅助燃料剂用量的预测值。
一种实施例中,所述机器学习预测模型为支持向量回归模型,所述系统还包括超参数寻优装置,所述超参数寻优装置用于使用遗传算法对所述支持向量回归模型进行超参数寻优。
根据第三方面,一种实施例中提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现上述第一方面所述的方法。
依据上述实施例的垃圾焚烧辅助燃料剂用量的预测方法和系统,运用机器学习算法,以垃圾成分参数为训练数据,以与所述垃圾成分参数对应的辅助燃料剂的用量为标志列,建立机器学习预测模型进行训练,挖掘垃圾成分参数与辅助燃料剂用量的关系,使得可以将垃圾成分参数输入训练好的机器学习预测模型中得到辅助燃料剂用量的预测值,以指导实际生产,从而避免依赖工人经验,大大节省了人力成本与燃料剂成本。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
垃圾焚烧过程中燃油等辅助燃料剂的用量与垃圾的成分及各成分的含量是有着密切关系的,因此,在本申请中,申请人运用机器学习算法,以垃圾成分参数为训练数据,以与垃圾成分参数对应的辅助燃料剂的用量为标志列,建立机器学习预测模型进行训练,挖掘垃圾成分参数与辅助燃料剂用量的关系,在后续的使用过程中就可以将垃圾的成分及各成分含量输入该训练好的机器学习预测模型中得到辅助燃料剂用量的预测值,以指导实际生产,从而实现自动计算辅助燃料剂用量,节省了人力成本,也使辅助燃料剂用量的调控更加精准。下面对本申请的技术方案进行详细说明。
请参考图1,本申请一种实施例中的垃圾焚烧辅助燃料剂用量的预测方法包括步骤100~300,下面具体说明。
步骤100:获取垃圾的成分及各成分含量,在本申请中将垃圾的成分及各成分含量称为垃圾成分参数。可以通过红外检测技术对垃圾进行扫描来获得垃圾成分参数,例如碳、氢、氧、氮、硫、氯、水分的含量,以及一些物理成分如塑料、纸、草木、食品、灰土、玻璃、金属等的含量。
步骤200:将所获取的垃圾成分参数输入预先训练好的机器学习预测模型中,机器学习预测模型在训练过程中的训练数据为垃圾成分参数,标志列为这些垃圾成分参数对应的辅助燃料剂的用量,这样一来,经过机器学习训练后,机器学习预测模型就能够根据垃圾成分参数预测辅助燃料剂的用量。通过红外扫描获取的垃圾成分参数中难免会有一些缺失值或异常值,这些缺失值或异常值可以使用其临近值或垃圾成分参数的均值代替。同时,为了去除冗余信息,加快处理速度,可以对垃圾成分参数进行归一化处理,然后进行主成分分析,降低输入数据的维度,减少特征。用作训练数据的垃圾成分参数也可以做同样的处理。
一种实施例中,可以使用支持向量回归(Supprt Vactor Regression,SVR)模型来作为机器学习预测模型。SVR是SVM(支持向量机,support vector machine)对回归问题的一种运用。请参考图2,SVR的目标是找出一个超平面,使得所有数据到这个超平面的距离最小,假设这个超平面的方程为y=wx+b,那么SVR的优化目标为找到符合下列条件的w和b:
其中,ξ和ξ*为松弛变量,C为惩罚系数,ε(epsilon)为不敏感损失系数。
与优化目标无关的,即SVR自身的参数就是SVR的超参数,例如惩罚系数C和不敏感损失系数epsilon都是超参数。SVR的性能受其超参数的影响。SVR中,除了核函数外有三个重要的超参数:惩罚系数C,不敏感损失系数epsilon和宽度系数gamma。epsilon控制着回归函数对样本数据的不敏感区域的宽度,影响支持向量的数目,其值和样本噪声有密切关系。epsilon过大,支持向量数就少,可能导致模型过于简单,学习精度不够;epsilon过小,回归精度较高,但可能导致模型过于复杂,得不到好的泛化能力。惩罚系数C反映了算法对超出epsilon所限定区域的样本数据的惩罚程度,其值影响模型的复杂性和稳定性。C过小,对超出epsilon所限定区域的样本数据的惩罚就小,训练误差变大;C过大,学习精度相应提高,但模型的泛化能力变差。另外,C的值影响到对样本中离群点(噪声影响下非正常数据点)的处理,选取合适的C就能在一定程度上抵抗噪声干扰,从而保证模型的稳定性。由此可见,若能选取到合适的(C,epsilon)对,就能得到比较精确、稳定的SVR模型。宽度系数gamma反映了支持向量之间的相关程度。gamma过小,支持向量间的联系就比较松弛,模型相对复杂,泛化能力得不到保证;gamma过大,支持向量间的影响过强,模型难以达到足够的精度。在SVR中,当gamma很小时,惩罚系数C可相应取得小些,以保证模型的泛化能力。由以上分析可见,SVR模型的复杂度、泛化能力等性能取决于其超参数和超参数间的相互影响,因此SVR超参数的选取是非常关键的。
为了能够选取合适的超参数,申请人提出了使用遗传算法来对SVR模型的超参数寻优的方法。遗传算法(Genetic Algorithm,GA)是一种最基本的进化算法,它是模拟达尔文生物进化理论的一种优化模型,最早由J.Holland教授于1975年提出。遗传算法中种群中的每个个体都是解空间上的一个可行解,通过模拟生物的进化过程对可行解进行选择,从而在解空间内搜索最优解。请参考图3,使用遗传算法对SVR模型进行超参数寻优的方法包括步骤201~207,下面具体说明。
步骤201:以SVR模型的超参数为元素组成超参数向量,随机生成N个不同的超参数向量作为遗传算法中N个不同的个体,超参数向量中的超参数为个体的染色体,对染色体进行编码得到染色体的基因型,其中N为大于0的整数。
例如以惩罚系数C,不敏感损失系数epsilon和宽度系数gamma组成超参数向量[C,epsilon,gamma],对C,epsilon,gamma取不同的值,随机生成N个不同的向量[C,epsilon,gamma]作为N个不同的个体,其中的每一个超参数都是个体的一个染色体。对染色体进行编码可以采用现有技术的各种编码方法,以二进制编码为例,对染色体进行编码就是将向量[C,epsilon,gamma]中的超参数C,epsilon,gamma分别转化为二进制数,二进制数中的数字0或1就是染色体的基因。
步骤202:根据垃圾成分参数及其对应的辅助燃料剂的用量设置适应度函数。一种实施例中,可以将适应度函数设置为将垃圾成分参数输入超参数向量对应的SVR模型得到的辅助燃料剂用量的预测值与实际值的均方误差。均方误差越小说明由该超参数向量形成的SVR模型的预测结果越准确,个体的适应度越高。
步骤203:设置最大迭代次数。
步骤204:根据步骤202中设置的适应度函数计算个体的适应度,根据适应度选择若干个体作为父代个体。一些实施例中,可以采用轮盘赌选择策略来对个体进行选择。在轮盘赌选择策略中,个体被选择的概率等于它的适应度值与所有个体适应度值和的比例。在具体的实现中,可以随机产生一个[0,1]区间内的随机数,若该随机数小于或等于个体被选择的概率,则该个体被选择。
步骤205:以预定的交叉概率pm对父代个体进行交叉操作。具体的,可以生成一个[0,1]区间内的随机数,当该随机数小于交叉概率pm时则执行交叉操作,交叉概率pm可以设置为0.9。在交叉操作中,先对父代个体两两进行配对,然后交换两个配对的父代个体中对应染色体的部分基因,这一过程与生物学上染色体的交叉类似。例如,如图4所示,当采用二进制编码时,交叉操作就是交换两个染色体上的二进制数字串。交叉操作中使用的交叉算子可以是现有技术的各种交叉算子。
步骤206:以预定的变异概率pc对经交叉操作后的父代个体进行变异操作。具体的,可以生成一个[0,1]区间内的随机数,当该随机数小于变异概率pc时则执行变异操作,变异概率pc可以设置为0.1。变异操作指对父代个体的部分基因进行随机变换,例如当采用二进制编码时,就是随机地将某个基因从0变为1或从1变为0。变异操作中使用的变异算子可以是现有技术的各种变异算子。
步骤207:判断迭代次数是否达到步骤203中设置的最大迭代次数,若未达到则返回步骤204,若已达到则结束算法流程。
最终选择通过遗传算法寻找到的超参数来构建SVR模型,对模型进行训练,得到最优模型。
步骤300:通过机器学习预测模型对垃圾成分参数的计算,得到辅助燃料剂用量的预测值。
请参考图5,本申请还提供一种垃圾焚烧辅助燃料剂用量的预测系统,一种实施例中该系统包括垃圾成分参数获取装置10、机器学习预测模型20和辅助燃料剂用量输出装置30,下面具体说明。
垃圾成分参数获取装置10用于获取垃圾成分参数,一种实施例中,垃圾成分参数获取装置10可以是红外检测装置,通过红外检测技术对垃圾进行扫描来获得垃圾成分参数,例如碳、氢、氧、氮、硫、氯、水分的含量,以及一些物理成分如塑料、纸、草木、食品、灰土、玻璃、金属等的含量。
机器学习预测模型20用于对垃圾成分参数进行计算,得到辅助燃料剂用量的预测值。机器学习预测模型20在训练过程中的训练数据为垃圾成分参数,标志列为与这些垃圾成分参数对应的辅助燃料剂的用量,这样一来,经过机器学习训练后,机器学习预测模型20就能够根据垃圾成分参数预测辅助燃料剂的用量。一种实施例中,可以使用支持向量回归(Supprt Vactor Regression,SVR)模型来作为机器学习预测模型。
通过红外扫描获取的垃圾成分参数中难免会有一些缺失值或异常值,请参考图6,一种实施例中,垃圾焚烧辅助燃料剂用量的预测系统还可以包括数据预处理装置40,数据预处理装置40用于使用临近值或垃圾成分参数的均值代替垃圾成分参数中的缺失值或异常值。同时,为了去除冗余信息,加快处理速度,数据预处理装置40还用于对垃圾成分参数进行归一化处理,然后进行主成分分析,降低输入数据的维度,减少特征。数据预处理装置40还可以对用作训练数据的垃圾成分参数做同样的处理。
SVR的性能受其超参数的影响。与优化目标无关的,即SVR自身的参数就是SVR的超参数,例如惩罚系数C和不敏感损失系数epsilon都是超参数。SVR中,除了核函数外有三个重要的超参数:惩罚系数C,不敏感损失系数epsilon和宽度系数gamma。epsilon控制着回归函数对样本数据的不敏感区域的宽度,影响支持向量的数目,其值和样本噪声有密切关系。epsilon过大,支持向量数就少,可能导致模型过于简单,学习精度不够;epsilon过小,回归精度较高,但可能导致模型过于复杂,得不到好的泛化能力。惩罚系数C反映了算法对超出epsilon所限定区域的样本数据的惩罚程度,其值影响模型的复杂性和稳定性。C过小,对超出epsilon所限定区域的样本数据的惩罚就小,训练误差变大;C过大,学习精度相应提高,但模型的泛化能力变差。另外,C的值影响到对样本中离群点(噪声影响下非正常数据点)的处理,选取合适的C就能在一定程度上抵抗噪声干扰,从而保证模型的稳定性。由此可见,若能选取到合适的(C,epsilon)对,就能得到比较精确、稳定的SVR模型。宽度系数gamma反映了支持向量之间的相关程度。gamma过小,支持向量间的联系就比较松弛,模型相对复杂,泛化能力得不到保证;gamma过大,支持向量间的影响过强,模型难以达到足够的精度。在SVR中,当gamma很小时,惩罚系数C可相应取得小些,以保证模型的泛化能力。由以上分析可见,SVR模型的复杂度、泛化能力等性能取决于其超参数和超参数间的相互影响,因此SVR超参数的选取是非常关键的。
为了能够选取合适的超参数,申请人提出了使用遗传算法来对SVR模型的超参数寻优的方法。遗传算法(Genetic Algorithm,GA)是一种最基本的进化算法,它是模拟达尔文生物进化理论的一种优化模型,最早由J.Holland教授于1975年提出。遗传算法中种群中的每个个体都是解空间上的一个可行解,通过模拟生物的进化过程对可行解进行选择,从而在解空间内搜索最优解。请参考图7,一种实施例中,垃圾焚烧辅助燃料剂用量的预测系统还可以包括超参数寻优装置50,超参数寻优装置50用于使用遗传算法对SVR模型进行超参数寻优,具体可以通过以下方式实现:
(1)以SVR模型的超参数为元素组成超参数向量,随机生成N个不同的超参数向量作为遗传算法中N个不同的个体,超参数向量中的超参数为个体的染色体,对染色体进行编码得到染色体的基因型,其中N为大于0的整数。
例如以惩罚系数C,不敏感损失系数epsilon和宽度系数gamma组成超参数向量[C,epsilon,gamma],对C,epsilon,gamma取不同的值,随机生成N个不同的向量[C,epsilon,gamma]作为N个不同的个体,其中的每一个超参数都是个体的一个染色体。对染色体进行编码可以采用现有技术的各种编码方法,以二进制编码为例,对染色体进行编码就是将向量[C,epsilon,gamma]中的超参数C,epsilon,gamma分别转化为二进制数,二进制数中的数字0或1就是染色体的基因。
(2)根据垃圾成分参数及其对应的辅助燃料剂的用量设置适应度函数。一种实施例中,可以将适应度函数设置为将垃圾成分参数输入超参数向量对应的SVR模型得到的辅助燃料剂用量的预测值与实际值的均方误差。均方误差越小说明由该超参数向量形成的SVR模型的预测结果越准确,个体的适应度越高。
(3)设置最大迭代次数。
(4)根据所设置的适应度函数计算个体的适应度,根据适应度选择若干个体作为父代个体。一些实施例中,可以采用轮盘赌选择策略来对个体进行选择。在轮盘赌选择策略中,个体被选择的概率等于它的适应度值与所有个体适应度值和的比例。在具体的实现中,可以随机产生一个[0,1]区间内的随机数,若该随机数小于或等于个体被选择的概率,则该个体被选择。
(5)以预定的交叉概率pm对父代个体进行交叉操作。具体的,可以生成一个[0,1]区间内的随机数,当该随机数小于交叉概率pm时则执行交叉操作,交叉概率pm可以设置为0.9。在交叉操作中,先对父代个体两两进行配对,然后交换两个配对的父代个体中对应染色体的部分基因,这一过程与生物学上染色体的交叉类似。例如,如图4所示,当采用二进制编码时,交叉操作就是交换两个染色体上的二进制数字串。交叉操作中使用的交叉算子可以是现有技术的各种交叉算子。
(6)以预定的变异概率pc对经交叉操作后的父代个体进行变异操作。具体的,可以生成一个[0,1]区间内的随机数,当该随机数小于变异概率pc时则执行变异操作,变异概率pc可以设置为0.1。变异操作指对父代个体的部分基因进行随机变换,例如当采用二进制编码时,就是随机地将某个基因从0变为1或从1变为0。变异操作中使用的变异算子可以是现有技术的各种变异算子。
(7)判断迭代次数是否达到所设置的最大迭代次数,若未达到则继续执行上述(4)~(6)的过程,若已达到则结束算法流程。
最终选择通过遗传算法寻找到的超参数来构建SVR模型,对模型进行训练,得到最优模型。
辅助燃料剂用量输出装置30用于输出机器学习预测模型20计算得到的辅助燃料剂用量的预测值。
本申请提供的垃圾焚烧辅助燃料剂用量的预测方法和系统,运用机器学习算法,以垃圾成分参数为训练数据,以与所述垃圾成分参数对应的辅助燃料剂的用量为标志列,建立机器学习预测模型进行训练,挖掘垃圾成分参数与辅助燃料剂用量的关系,使得可以将垃圾成分参数输入训练好的机器学习预测模型中得到辅助燃料剂用量的预测值,以指导实际生产,从而避免依赖工人经验,也使辅助燃料剂用量的调控更加精准,大大节省了人力成本与燃料剂成本。同时,在构建机器学习预测模型时,使用遗传算法来寻找模型的最优超参数,解决了机器学习预测模型的超参数难以选取的问题,提升了模型的性能。
本文参照了各种示范实施例进行说明。然而,本领域的技术人员将认识到,在不脱离本文范围的情况下,可以对示范性实施例做出改变和修正。例如,各种操作步骤以及用于执行操作步骤的组件,可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外,如本领域技术人员所理解的,本文的原理可以反映在计算机可读存储介质上的计算机程序产品中,该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
虽然在各种实施例中已经示出了本文的原理,但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。
前述具体说明已参照各种实施例进行了描述。然而,本领域技术人员将认识到,可以在不脱离本披露的范围的情况下进行各种修正和改变。因此,对于本披露的考虑将是说明性的而非限制性的意义上的,并且所有这些修改都将被包含在其范围内。同样,有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而,益处、优点、问题的解决方案以及任何能产生这些的要素,或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体,皆属于非排他性包含,这样包括要素列表的过程、方法、文章或设备不仅包括这些要素,还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外,本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。
具有本领域技术的人将认识到,在不脱离本发明的基本原理的情况下,可以对上述实施例的细节进行许多改变。因此,本发明的范围应仅由权利要求确定。