CN107330294A

CN107330294A - 带遗忘因子的在线时序多隐含层极限学习机的应用方法

Info

Publication number: CN107330294A
Application number: CN201710577695.3A
Authority: CN
Inventors: 肖冬; 李北京; 毛亚纯; 柳小波
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-07-15
Filing date: 2017-07-15
Publication date: 2017-11-07

Abstract

本发明涉及一种带遗忘因子的在线时序多隐含层极限学习机的应用方法，包括以下步骤：1)求一个具有多隐含层的极限学习机模型，得到该多隐含层极限学习机模型的输出表达式；2)对上述多隐含层极限学习机模型进行实时更新，输出更新后模型的表达式。本发明采用带遗忘因子的在线时序多隐含层极限学习机的方法来处理间歇过程的数据变化，法既能根据数据结构上的变化来调整模型，也可以对模型参数进行深度优化，达到更好的效果，保证最终的隐藏输出更接近预期的隐藏输出。

Description

带遗忘因子的在线时序多隐含层极限学习机的应用方法

技术领域

本发明涉及一种学习机，具体为一种带遗忘因子的在线时序多隐含层极限学习机的应用方法。

背景技术

由于间歇过程的变量间存在着很强的非线性和耦合性，且很多实时数据都随时间变化，具有很强的时效性，而传统的单隐层极限学习机或者多隐层极限学习机都是事先根据建立好的模型预测结果输出，不能根据数据结构上的变化来调整模型的变化，模型太过僵硬；单隐层的极限学习机对模型结构参数的优化不够彻底，不能有效的减少噪声的干扰，无法保证最终的隐藏输出更接近预期的隐藏输出。因此需要使用集成的在线时序单隐层极限学习机(EOS-ELM)，或者带遗忘机制的集成的在线时序单隐层极限学习机(FOS-ELM)，它们可以根据数据结构上的变化调整模型变化，适应不同的时间阶段，达到更好地效果；由于实时变化的数据都带有一系列的不可避免噪声信号的干扰。

目前，能够满足上述要求的在线时序学习机尚未见报道。

发明内容

针对现有技术中单隐层极限学习机或者多隐层极限学习机存在不能根据数据结构上的变化来调整模型变化等不足，本发明要解决的问题是提供一种既能根据数据结构上的变化来调整模型，也可以对模型参数进行深度优化的带遗忘因子的在线时序多隐含层极限学习机的应用方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种带遗忘因子的在线时序多隐含层极限学习机的应用方法，包括以下步骤：

1)求一个具有多隐含层的极限学习机模型，得到该多隐含层极限学习机模型的输出表达式；

2)对上述多隐含层极限学习机模型进行实时更新，输出更新后模型的表达式。

步骤1)中，求一个具有多隐含层的极限学习机模型，得到该多隐含层极限学习机模型的输出表达式，具体为：

11)给定样本和多个隐含层的网络结构，隐含层的激活函数为g，网络输出为g(a,b,X)，其中a为输入层和第一隐含层之间的权重，b为第一隐层的偏差，X为输入矩阵；

12)假设数据分批次变化，且每一批次都持续S个单位时间，在第k-th个单位时间的数据表示为N_j为j批次数据的个数；χ_k在[k k+s]的范围内有效，j＝0,1,…k.，t_i为标志变量，在第(k+1)-th个单位时间的数据表示为k为任意大的正整数，x_i为输入样本，t_i为样本标志量，th为批次。

13)假设k≥s-1，训练数据的个数远大于隐藏层节点的数目，Z_k+1为第(k+1)-th个单位时间预测出的结果，设l＝k-s+1,k-s+2,…k；数据在l-th时刻网络第一个隐含层的输出为：

(a_i,b_i)为输入层和第一个隐含层之间的权值与阈值，i＝1,...L.随机初始化；G为隐含层激活函数，T为[k-s+1，k]内批数据样本的标志量，T_l为第l批数据样本的标志量；l为在[k-s+1，k]内的一个正整数；

得到最终隐含层的输出权值β为：

且

14)假设第二个隐含层的权值和偏差为W₁,B₁，则第二个隐含层的输出为：

15)假设W_HE＝[B₁ W₁]，则第二个隐含层的权值和偏差通过计算且假设H_E＝[1 H]^T，1为元素全为1的一维行向量，g^-1(x)为激活函数的g(x)反函数，W_HE和HE为假设的变量；

16)更新第二个隐含层的输出为H₂＝g(W_HEH_E)；更新最终隐含层的输出权值β为

17)假设第三个隐含层的权值和偏差为W₂,B₂，则第三个隐含层的输出为

18)假设W_HE1＝[B₂ W₂]，则第三个隐含层的权值和偏差通过计算且H_E1＝[1 H₂]^T，1为元素全为1的一维行向量；g^-1(x)为激活函数的g(x)反函数；W_HE1、HE1为为假设的变量；

更新第三个隐含层的输出为：

H₄＝g(W_HE1H_E1) (2)

19)更新最终隐含层的输出权值β为：

则最终的输出为f＝β_new1H₄。

对于具有多个隐含层的网络结构，循环迭代公式(1)、(2)、(3)，三个隐层迭代一次，四个隐层迭代两次，N个隐层迭代N-2次，每次迭代结束使得β_new＝β_new1，H₂＝H₄。

步骤2)中，对上述多隐含层极限学习机模型进行实时更新，输出更新后模型的表达式，具体为：

21)假设Z_k+2为第(k+2)-th个单位时间预测出的结果，在(k+1)-th时间的结果已知的情况下，与上一次保持同样的(a_i,b_i),i＝1,...L，输出权值表示为：

且则P_k+1由P_k表示为：

且

则

22)假设第二个隐含层的权值和偏差为W₁,B₁，则第二个隐含层的输出为

23)假设W_HE＝[B₁ W₁]，则第二个隐含层的权值和偏差通过计算且H_E＝[1 H]^T，1为元素全为1的一维行向量；g^-1(x)为激活函数的g(x)反函数，

24)更新第二个隐含层的输出为H₂＝g(W_HEH_E)；更新最终隐含层的输出权值β为

25)假设第三个隐含层的权值和偏差为W₂,B₂，则第三个隐含层的输出为

26)假设W_HE1＝[B₂ W₂]，则第三个隐含层的权值和偏差通过计算且H_E1＝[1 H₂]^T，1为元素全为1的一维行向量，g^-1(x)为激活函数的g(x)反函数；

27)更新第三个隐含层的输出为：H₄＝g(W_HE1H_E1) (5)

28)更新最终隐含层的输出权值β为：

则最终的输出为f＝β_new1H₄。

本发明还包括以下步骤：

对于具有多个隐含层的网络结构，循环迭代公式(4)、(5)、(6)，三个隐层迭代一次，四个隐层迭代两次，N个隐层迭代N-2次，每次迭代结束，使得β_new＝β_new1，H₂＝H₄。

本发明具有以下有益效果及优点：

1.本发明采用带遗忘因子的在线时序多隐含层极限学习机的方法来处理间歇过程的数据变化，法既能根据数据结构上的变化来调整模型，也可以对模型参数进行深度优化，达到更好的效果，保证最终的隐藏输出更接近预期的隐藏输出。

附图说明

图1为FOS-ELM模型和FOS-MELM模型下，在每一批次的数据只有2个有效时间时，训练集的均方根误差值；

图2为FOS-ELM模型和FOS-MELM模型下，在每一批次的数据只有2个有效时间时，测试集的均方根误差值；

图3为FOS-ELM模型和FOS-MELM模型下，在每一批次的数据只有3个有效时间时，训练集的均方根误差值；

图4为FOS-ELM模型和FOS-MELM模型下，在每一批次的数据只有3个有效时间时，测试集的均方根误差值。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

为了使训练输出更加接近于实际输出，考虑到单隐层的极限学习机对模型结构参数的优化不够彻底，不能有效的减少噪声的干扰，因此为了保证最终的隐藏输出更接近预期的隐藏输出，结合以前的改进极限学习机的优势成果，本发明用一种带遗忘因子的在线时序多隐含层极限学习机的方法来处理间歇过程的数据变化，这种方法既能根据数据结构上的变化来调整模型，也可以对模型参数进行深度优化，以达到更好地效果。

本发明带遗忘因子的在线时序多隐含层极限学习机的应用方法包括以下步骤：

本实施例使用一个带有三个隐含层的ELM网络结构为例，来分析带遗忘机制的在线时序多隐层极值学习机(FOS-MELM)的算法步骤。步骤1)中，求一个具有多隐含层的极限学习机模型，得到该多隐含层极限学习机模型的输出表达式，具体为：

11)首先给定样本和三个隐含层的网络结构(每个隐含层含有L个节点)，隐含层的激活函数选择为g，因此网络输出为g(a,b,X)，其中a为输入层和第一隐含层之间的权重，b为第一隐层的偏差，X为输入矩阵；

12)假设数据是一批一批的变化，且每一批都持续S个单位时间。因此在第k-th个单位时间的数据可以表示为并且N_j为j批次数据的个数，χ_k在[kk+s]的范围内有效j＝0,1,…k.，t_i为标志变量。所以在第(k+1)-th个单位时间的数据可以表示为

13)假设k≥s-1，训练数据的个数远大于隐藏层节点的数目，Z_k+1为第(k+1)-th个单位时间预测出的结果，设l＝k-s+1,k-s+2,…k.。数据在l-th时刻网络第一个隐含层的输出为：

(a_i,b_i)为输入层和第一个隐含层之间的权值与阈值,i＝1,...L.为随机初始化的；可以得到最终隐含层的输出权值β为：

且

24)假设第二个隐含层的权值和偏差为W₁,B₁，则第二个隐含层的输出为：

15)假设W_HE＝[B₁ W₁]，则第二个隐含层的权值和偏差通过计算且H_E＝[1 H]^T，1为元素全为1的一维行向量。g^-1(x)为激活函数的g(x)反函数，

17)现在假设第三个隐含层的权值和偏差为W₂,B₂，则第三个隐含层的输出为

18)假设W_HE1＝[B₂ W₂]，则第三个隐含层的权值和偏差通过计算且H_E1＝[1 H₂]^T，1为元素全为1的一维行向量；g^-1(x)为激活函数的g(x)反函数；更新第三个隐含层的输出为H₄＝g(W_HE1H_E1)(2)

19)更新最终隐含层的输出权值β为

则最终的输出为f＝β_new1H₄。

21)假设Z_k+2为第(k+2)-th个单位时间预测出的结果，在(k+1)-th时间的结果已知的情况下，与上一次保持同样的(a_i,b_i),i＝1,...L；输出权值可以表示为：

且则P_k+1可以由P_k表示为

且

则

22)现在假设第二个隐含层的权值和偏差为W₁,B₁，则第二个隐含层的输出为

23)现在假设W_HE＝[B₁ W₁]，则第二个隐含层的权值和偏差通过计算且H_E＝[1 H]^T，1为元素全为1的一维行向量，g^-1(x)为激活函数的g(x)反函数，

25)现在假设第三个隐含层的权值和偏差为W₂,B₂，则第三个隐含层的输出为

26)现在假设W_HE1＝[B₂ W₂]，则第三个隐含层的权值和偏差通过计算且H_E1＝[1 H₂]^T，1为元素全为1的一维行向量。g^-1(x)为激活函数的g(x)反函数；

27)更新第三个隐含层的输出为H₄＝g(W_HE1H_E1) (5)

28)更新最终隐含层的输出权值β为

则最终的输出为f＝β_new1H₄。

本实施例采用苯乙烯的聚合反应器作为研究对象，该反应器的生产目的是通过调节反应器的温度，使得反应的转化率、反应产物的数均链长和重均链长在反应结束时接近最优。反应的机理模型如下：

表3.2标称参数值

式中T表示反应器的绝对温度，Tc为摄氏温度值，Aw和B为重均链长与温度的相关系数，Am和Em为单体聚合反应的频率因子和激活能量，r1-r4为密度-温度修正值，Mm和χ分别为单体分子重量和聚合体相互作用参数。产品的质量指标包括转化率y₁，无量纲数均链长y₂，无量纲重均链长y₃，即终点质量指标为：y＝[y₁(t_f)y₂(t_f)y₃(t_f)]，t_f代表终点时刻。设总反应时间设定为400分钟，控制变量为反应器温度T，按时间平均分成20个区间段，在每一段内温度保持恒定，即过程变量为X＝[T₁ T₂ T₃ … T₂₀]，方程中的参数由表3.2给出。产生60个批次的数据X(60×20)，在反应器上实施得到质量变量矩阵Y(60×3)。取前20个数据作为训练样本，建立初始模型；中间20个样本作为更新样本；后20个数据作为测试样本，用于检验模型预测效果。建模前选取激励函数为sigmoid函数。

如图1～4所示，图1、2分别为当每一批次的数据只有2个有效时间时，训练集与测试集的均方根误差值在两种不同的模型下(FOS-ELM和FOS-MELM)和不同的隐含层节点；图3、4分别为当每一批次的数据只有3个有效时间时，训练集与测试集的均方根误差值在两种不同的模型下(FOS-ELM和FOS-MELM)和不同的隐含层节点。

以上图示说明，由于聚合反应器的参数变化有时效性，为了有效的预测温度值，我们采用本方法在线时序更新系统模型，减少甚至避免数据剧烈变化对模型以及预测输出带来的影响。

Claims

1.一种带遗忘因子的在线时序多隐含层极限学习机的应用方法，其特征在于包括以下步骤：

2.根据权利要求1所述的带遗忘因子的在线时序多隐含层极限学习机的应用方法，其特征在于：

(a_i,b_i)为输入层和第一个隐含层之间的权值与阈值，i＝1,...L.随机初始化；(G为隐含层激活函数，T为[k-s+1，k]内批数据样本的标志量，T_l为第l批数据样本的标志量；l为在[k-s+1，k]内的一个正整数；

得到最终隐含层的输出权值β为：

且

更新第三个隐含层的输出为：

H₄＝g(W_HE1H_E1) (2)

19)更新最终隐含层的输出权值β为：

则最终的输出为f＝β_new1H₄。

3.根据权利要求2所述的带遗忘因子的在线时序多隐含层极限学习机的应用方法，其特征在于：

4.根据权利要求1所述的带遗忘因子的在线时序多隐含层极限学习机的应用方法，其特征在于：

且则P_k+1由P_k表示为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>P</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>2</mn> </mrow> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>H</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>H</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msub> <mi>H</mi> <mi>l</mi> </msub> <mo>+</mo> <msup> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mi>T</mi> </msup> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msub> <mi>P</mi> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>P</mi> <mi>k</mi> </msub> <msup> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mi>T</mi> </msup> <msup> <mrow> <mo>(</mo> <mrow> <mi>I</mi> <mo>+</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <msub> <mi>P</mi> <mi>k</mi> </msub> <msup> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mi>T</mi> </msup> </mrow> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>&times;</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>-</mo> <mi>s</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <msub> <mi>P</mi> <mi>k</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>

且

则

23)假设W_HE＝[B₁ W₁]，则第二个隐含层的权值和偏差通过计算且H_E＝[1H]^T，1为元素全为1的一维行向量；g^-1(x)为激活函数的g(x)反函数，

27)更新第三个隐含层的输出为：H₄＝g(W_HE1H_E1) (5)

28)更新最终隐含层的输出权值β为：

则最终的输出为f＝β_new1H₄。

5.根据权利要求4所述的带遗忘因子的在线时序多隐含层极限学习机的应用方法，其特征在于还包括以下步骤：