[go: up one dir, main page]

CN116340384A - 基于规则演化的核递归最大相关熵时间序列在线预测方法 - Google Patents

基于规则演化的核递归最大相关熵时间序列在线预测方法 Download PDF

Info

Publication number
CN116340384A
CN116340384A CN202310105269.5A CN202310105269A CN116340384A CN 116340384 A CN116340384 A CN 116340384A CN 202310105269 A CN202310105269 A CN 202310105269A CN 116340384 A CN116340384 A CN 116340384A
Authority
CN
China
Prior art keywords
rule
data
dictionary
time sequence
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310105269.5A
Other languages
English (en)
Inventor
韩敏
夏慧娟
梁漪
胡磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202310105269.5A priority Critical patent/CN116340384A/zh
Publication of CN116340384A publication Critical patent/CN116340384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • G06F16/24566Recursive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于时间序列预测领域,提供一种基于规则演化的核递归最大相关熵时间序列在线预测方法。本发明首先运用归一化方法和相空间重构对获取数据进行预处理,充分挖掘数据中有用信息;然后利用兼容性度量和唤醒指数双规则实现规则库的自主学习演化,弱化离群值或复杂噪声的不利影响;之后将核递归最大互相关熵方法和稀疏化策略结合对模型参数进行更新,形成紧凑型字典降低计算复杂度的同时,进一步增强模型对时间序列的动态跟踪能力,提高预测精度;最后采用测试数据在训练好的模型进行输出预测,验证模型的高效性。本发明可以针对未知复杂环境进行结构进化,具有较强的自主性和鲁棒性,且能够实现高预测精度和低计算复杂度的平衡。

Description

基于规则演化的核递归最大相关熵时间序列在线预测方法
技术领域
本发明属于时间序列预测领域,涉及一种基于规则演化的核递归最大相关熵时间序列在线预测方法。
背景技术
时间序列是一组按照时间顺序排列的数据集合,广泛存在于自然界、工业生产、金融技术等众多领域。随着传感器和存储设备的快速发展,时间序列的数据规模和更新速度也在不断提高,面对数据爆发和噪声复杂的环境,这就要求所建在线预测的模型在挖掘数据隐藏信息的同时,还需要对时间序列的非线性、非平稳、非高斯等方面表现出较强的性能。相较于其他在线预测的模型,核自适应滤波器具有泛化能力强、迭代更新简单及计算复杂度低等优点,能够有效处理复杂的非线性预测问题。
尽管核自适应滤波器在时间序列预测领域被广泛应用,但仍存在以下不足:(1)捕获动态系统时变特征的能力差。虽然Wu等人在论文“Wu Z,Shi J,Zhang X,et al.Kernelrecursive maximum correntropy[J].Signal Processing,2015,117:11-16.”中使用相关熵准则替换传统的均方误差准则,提出核递归最大相关熵方法,提高了模型在异常值或非高斯噪声环境下的性能,但是由于模型仅对参数进行调整,没有结构自适应进化,使得模型跟踪时间序列的时变特性效果差,导致预测精度不高。(2)加载完备字典的计算复杂度高。当每次迭代处理数据时,模型都需要增加相应的内核空间存储新数据,且完备字典的大小取决于数据样本的大小,这对于计算时间和内存方面提出了挑战,使模型难以适用于较大数据规模的时间序列。
因此,本发明以较大规模和具有时变特性的时间序列为研究对象,提出一种基于规则演化的核递归最大相关熵时间序列在线预测方法,以实现模型结构自适应进化、参数自适应更新,进而降低计算复杂度,提高时间序列的预测精度。本发明由国家自然基金项目(62173063)资助。
发明内容
本发明针对现有技术中在线预测性能不佳和计算成本过高问题,提供了一种基于规则演化的核递归最大相关熵时间序列在线预测方法。
为了达到上述目的,本发明采用的技术方案如下:
一种基于规则演化的核递归最大相关熵时间序列在线预测方法,具体步骤如下:
步骤1:从现实世界中收集时间序列数据,并对其进行归一化处理。
首先,针对预测问题构建样本{(x(n),d(n)),n=1,2,…},其中x(n)表示由t维特征输入x(n)组成的模型输入向量,即x(n)=[x1(n),x2(n),…,xt(n)],d(n)表示预测目标,n表示时刻;其次,考虑输入向量中的多维特征的量纲差别,采用归一化方法对数据进行处理,进而减少数据对模型准确预测的不利影响,计算公式如下所示:
Figure BDA0004086150380000021
其中,x(n)和x′(n)分别为输入数据归一化前后的值,xmin和xmax分别为输入数据的最小值和最大值;同理,对预测目标进行归一化处理,得出预测目标归一化后值为d′(n)。
步骤2:对归一化后的时间序列数据进行相空间重构,其目的是深入挖掘时间序列中有用信息(相关性和动力学特征等)。因此,对时间序列数据进行相空间重构,重构后的输入向量
Figure BDA0004086150380000029
表示为:
Figure BDA0004086150380000022
其中,τt(n)和mt(n)分别为归一化后输入向量x′(n)中第t个特征序列的延迟时间和嵌入维数,T为转置,此时预测目标为
Figure BDA0004086150380000023
步骤3:划分步骤2重构后的数据集,并对参数进行设置和初始化。
选取重构后的时间序列数据的80%作为训练集,且将训练集的总量记为N,其余部分作为测试集。
设置模型参数,包括相关熵中核宽度σ′、高斯核大小σ、聚类中心学习率η、唤醒指数学习率β、正则化参数γ、唤醒阈值
Figure BDA0004086150380000024
以及距离阈值δ。
在第1个时刻,第1个训练数据代入模型,创建首条规则,形成规则库,并对模型关键参数进行初始化设置,包括唤醒指数a1(1)=0,聚类中心
Figure BDA0004086150380000025
字典/>
Figure BDA0004086150380000026
以及扩展系数/>
Figure BDA0004086150380000027
κ<·,·>表示高斯核函数,变量b和b*的核函数定义为:
Figure BDA0004086150380000028
其中,σ是高斯核大小。
步骤4:根据训练数据集及参数设置,从第2个时刻开始进行模型的迭代训练。具体为
步骤4.1:每个时刻加载1个训练数据,计算其与规则库中每条规则下的兼容性度量和唤醒指数;
模型采用兼容性度量和唤醒指数定义规则。
所述的兼容性度量ρi是用来衡量输入向量
Figure BDA0004086150380000031
与第i条规则下聚类中心R的相关性。当兼容性度量值达到最大时,表明当前输入样本与规则之间的相似程度最大,此时该规则为最兼容规则。输入向量/>
Figure BDA0004086150380000032
与第i条规则聚类中心Ri(n)之间的兼容性度量如下所示:
Figure BDA0004086150380000033
其中,ρi(n)∈[0,1],t表示输入向量包含的总特征数,r表示两个观测变量之间的相关依赖性,计算为:
Figure BDA0004086150380000034
其中,
Figure BDA0004086150380000035
和/>
Figure BDA0004086150380000036
分别表示第n时刻第l个特征输入/>
Figure BDA0004086150380000037
和聚类中心R的平均值。
所述的唤醒指数ai可以作为兼容性度量ρi的补充,用来创建新规则减少异常值带来的负面影响。在第n时刻第i条规则下唤醒指数a计算公式表示为:
ai(n)=(1-β)ai(n-1)+β(1-ρi(n)) (6)
其中,β表示唤醒指数的学习率。
步骤4.2:将唤醒指数ai(n)最小值与唤醒阈值
Figure BDA0004086150380000038
作比较,判断是否创建新规则,其中,所述的唤醒阈值/>
Figure BDA0004086150380000039
的范围为0-1,具体分为以下两种情况:
情况1:当最小唤醒指数大于唤醒阈值,即
Figure BDA00040861503800000310
时,创建新规则,此时规则库中规则条数增加,更新为r=r+1,并初始化该新规则中各参数,包括聚类中心/>
Figure BDA00040861503800000311
字典/>
Figure BDA00040861503800000312
扩展系数/>
Figure BDA00040861503800000313
情况2:当最小唤醒指数小于或等于唤醒阈值
Figure BDA00040861503800000314
即/>
Figure BDA00040861503800000315
时,则将此输入向量(即当前的时间序列)纳入规则库中最兼容规则中,并对聚类中心进行递归更新,计算公式如下所示:
Figure BDA00040861503800000316
其中,η∈[0,1]表示聚类中心的学习率。
之后,在模型结构后续参数更新中,选择相关熵准则取代传统核递归最小二乘方法中均方误差准则作为代价函数,利用核递归最大相关熵方法改善模型在存在非高斯噪声或者异常值情况下的预测性能。基于相关熵的优化目标定义为:
Figure BDA0004086150380000041
其中,Ω为滤波器权重,
Figure BDA0004086150380000042
表示在第j时刻当前输入/>
Figure BDA0004086150380000043
通过非线性映射后的输入向量,γ表示正则化参数,||·||表示L2范数。在第n时刻第i条规则下,运用梯度下降方法,获得中间变量hi(n)、zi(n)和λi(n),即根据公式(9)计算中间变量,计算公式为:
Figure BDA0004086150380000044
其中,cik(n)为第n时刻第i条规则中的字典集,k为字典集包含的输入向量的数量,Qi(n-1)为第n-1时刻第i条规则的矩阵变量。
由于核递归最大相关熵方法根据历史数据的集合进行参数计算,每个集合会形成一个字典,即Ci(n)=[ci1(n),…,cin′(n)],式中n′为存储在字典集中的数量。如果字典包含全部的输入数据,将会导致计算负担大幅度增加。因此,为减少计算复杂度,采用新颖性准则进行稀疏化处理,使字典中仅保留相关输入向量,形成紧凑型字典。定义距离计算公式为
Figure BDA0004086150380000045
式中cii*=[c1,…,cm]表示第i条规则下字典集c中第i*个输入向量;之后,将其与距离阈值进行比较,确定数据是否纳入字典,其中所述阈值范围为0-1。具体分为以下两部分:
(1)当
Figure BDA0004086150380000046
时,将当前输入样本/>
Figure BDA0004086150380000047
纳入字典,
Figure BDA0004086150380000048
此时矩阵变量Qi(n)及扩展系数θi(n)更新公式如下所示:
Figure BDA0004086150380000049
其中,
Figure BDA00040861503800000410
ei(n)为预测误差,表示为
Figure BDA00040861503800000411
(2)当
Figure BDA00040861503800000412
时,当前数据被排除字典外,字典维持不变,此时矩阵变量Qi(n)及扩展系数θi(n)计算形式为:
Figure BDA0004086150380000051
其中
Figure BDA0004086150380000052
步骤4.3:加载训练数据,判断是否训练结束;
若当前时刻小于训练集的总量,即n<N,则返回步骤4.1,进入下一时刻迭代更新;否则,模型训练完成,导出规则库,并进入下一步骤。
步骤5:利用步骤4训练好的模型,选择规则库中最兼容规则对测试数据集进行输出预测,然后对样本数据进行反归一化计算。最后,利用评价指标度量模型的预测精度,包括均方根误差(RMSE)和对称平均绝对百分比误差(SMAPE),定义如下:
Figure BDA0004086150380000053
其中d(j)和
Figure BDA0004086150380000054
分别为真实值和预测值,n为样本数量。
与现有技术相比,本发明具有以下明显优势:
(1)本发明可以针对未知复杂环境进行结构进化,具有较强的自主性和鲁棒性,具体表现在本发明通过兼容性度量和唤醒指数根据输入数据从无到有构建规则库,自适应更新结构,充分提取数据包含的有用信息,使得规则质量得到保证;
(2)当处理包含异常值或者非高斯噪声数据时,本发明采用核递归最大相关熵方法能够有效抑制其带来的不利影响,实现时间序列动态变化的实时捕获,产生准确的预测结果;
(3)此外,本发明中规则库的自适应与稀疏化方法的使用,能够确保字典结构的紧凑型,实现了高预测精度和低计算复杂度的平衡。
附图说明
图1为本发明时间序列在线预测模型流程图。
图2(a)为本发明对北京PM2.5时间序列的预测曲线。
图2(b)为本发明对北京PM2.5时间序列的误差曲线。
具体实施方式
以下将结合附图及具体实施例对本发明做进一步说明。
本发明所使用硬件设备包括PC机器一台。
如图1所示,基于规则演化的核递归最大相关熵时间序列在线预测方法,具体实施措施如下:
步骤1:获取北京2019年1月1日至2019年12月31日共计8760组PM2.5污染物及4维首都国际机场气象数据,包括气温、气压、露点和风速,数据均为每小时采集一次。此时模型的输入向量为x(n)=[x1(n),x2(n),…,x5(n)],对北京PM2.5污染物进行单步预测,确定预测目标为d(n)=x1(n+1);将数据集{(x(n),d(n)),n=1,2,…}按照公式(1)进行归一化处理构建输入-输出样本集(x′(n),d′(n)),避免因多维数据集量纲差距较大造成模型预测效果不佳。
步骤2:为充分提取出时间序列中隐藏信息,根据相空间重构理论,确定延迟时间和嵌入维数分别为τ=1和m=20,选取重构后5000组数据,此时输入向量及预测目标分别为
Figure BDA0004086150380000061
步骤3:将重构后北京时间序列的80%作为训练集,此时训练集的数据总量为4000,剩余数据作为测试集。在第1个时刻,第1个训练数据步入模型,创建首条规则,形成规则库,模型参数设定如表1所示;初始化关键参数,包括唤醒指数a1(1)=0,聚类中心
Figure BDA0004086150380000062
字典/>
Figure BDA0004086150380000063
和扩展系数/>
Figure BDA0004086150380000064
表1模型参数设置
Figure BDA0004086150380000065
步骤4:利用按序到达的训练集,从第2个时刻进行规则库演化,迭代训练模型。具体为
步骤4.1:根据公式(4)和公式(6)分别计算当前时刻训练数据与规则库中每条规则的兼容性度量和唤醒指数;
针对北京5维时间序列数据,第n时刻输入向量
Figure BDA0004086150380000066
和第i条规则聚类中心Ri(n)的兼容性度量如下所示:
Figure BDA0004086150380000067
其中,当前时刻输入
Figure BDA0004086150380000071
与第i条规则聚类中心Ri(n)之间的相关依赖性r按照公式(5)计算。
步骤4.2:比较唤醒指数最小值aimin(n)和唤醒阈值
Figure BDA0004086150380000072
讨论是否增加新规则,具体分为以下两种情况:
情况1:当aimin(n)>1e-5时,生成新规则。此时规则库中规则数量增加,即r=r+1,并初始化该规则下的关键参数,包括聚类中心
Figure BDA0004086150380000073
字典/>
Figure BDA0004086150380000074
以及扩展系数/>
Figure BDA0004086150380000075
情况2:当aimin(n)≤1e-5时,将当前时间序列存储至最兼容规则库中,并进行聚类中心Ri(n)更新,表示为
Figure BDA0004086150380000076
由于外部环境噪声的复杂性,导致采集的北京时间序列数据具有非高斯特性,致使模型最终预测效果不理想。为解决上述问题,按照公式(8)建立优化目标,本质上采用相关熵准则替代传统均方误差准则,基于核递归最大相关熵方法进行模型参数更新,削弱非高斯噪声或者异常值的不利影响。之后根据公式(9)进行中间变量的计算。除此之外,核递归最大相关熵方法中核矩阵的维数取决于数据量的大小,当处理大规模的数据时,难以避免产生大量的计算和存储负担。因此,采用稀疏化方法,使模型仅保存相关输入向量,形成紧凑型字典。通过比较
Figure BDA0004086150380000077
与距离阈值δ之间的关系,分析当前数据是否添加到字典中,具体分为以下两部分:
(1)当
Figure BDA0004086150380000078
时,当前输入数据/>
Figure BDA0004086150380000079
添加至字典中,矩阵变量Qi(n)及扩展系数θi(n)按照公式(10)更新;
(2)当
Figure BDA00040861503800000710
时,当前输入数据/>
Figure BDA00040861503800000711
被剔除,字典保持不变,矩阵变量Qi(n)及扩展系数θi(n)按照公式(11)更新;
步骤4.3:判断训练数据集是否加载完毕,即n<4000?
若n<4000,表示训练未结束,继续进行下一时刻迭代更新,返回步骤4.1;否则,模型训练完成,进入下一步骤。
步骤5:利用测试集在训练好的模型上进行测试,计算北京PM2.5污染物的预测值,并对其进行反归一化处理,绘制本发明对北京PM2.5污染物的预测曲线和误差曲线,如图2所示。从图中可以看出,本发明能够有效跟踪时间序列的变化趋势,并且预测误差值较小,说明模型预测的准确。最后,按照公式(12)计算出RMSE和SMAPE,如表2所示。与基于自适应归一化稀疏的量化核递归最小二乘方法(ANS-QKRLS)和量化核递归广义最大相关熵方法(QKRGMC)继续对比,本发明得到的评价指标均最佳,进一步验证了本发明对北京PM2.5预测的有效性。
表2各种方法预测结果
Figure BDA0004086150380000081
最后应说明的是:以上实例仅用以表达本发明的实施方式,应理解实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围,均属于本发明的保护范围。

Claims (7)

1.一种基于规则演化的核递归最大相关熵时间序列在线预测方法,其特征在于,包括以下步骤:
步骤1:收集时间序列数据,并对其进行归一化处理;
步骤2:对归一化后的时间序列数据进行相空间重构,用于深入挖掘时间序列中有用信息;
步骤3:划分步骤2重构后的数据集,并对参数进行设置和初始化;
步骤4:根据训练数据集及参数设置,从第2个时刻开始进行模型的迭代训练;
步骤5:利用步骤4训练好的模型,选择规则库中最兼容规则对测试数据集进行输出预测,然后对样本数据进行反归一化计算,最后利用评价指标度量模型预测精度。
2.根据权利要求1所述的一种基于规则演化的核递归最大相关熵时间序列在线预测方法,其特征在于,所述的步骤1具体如下:
针对预测问题构建样本{(x(n),d(n)),n=1,2,…},其中x(n)表示由t维特征输入x(n)组成的模型输入向量,即x(n)=[x1(n),x2(n),…,xt(n)],d(n)表示预测目标,n表示时刻;其次,考虑输入向量中的多维特征的量纲差别,采用归一化方法对数据进行处理;
对预测目标进行归一化处理,得出预测目标归一化后值为d′(n)。
3.根据权利要求2所述的一种基于规则演化的核递归最大相关熵时间序列在线预测方法,其特征在于,所述的步骤1中,归一化处理的计算公式如下所示:
Figure FDA0004086150370000011
其中,x(n)和x′(n)分别为输入数据归一化前后的值,xmin和xmax分别为输入数据的最小值和最大值。
4.根据权利要求1所述的一种基于规则演化的核递归最大相关熵时间序列在线预测方法,其特征在于,所述的步骤2具体如下:
对归一化后的时间序列数据进行相空间重构,重构后的输入向量
Figure FDA0004086150370000014
表示为:
Figure FDA0004086150370000012
其中,τt(n)和mt(n)分别为归一化后输入向量x′(n)中第t个特征序列的延迟时间和嵌入维数,T为转置,此时预测目标为
Figure FDA0004086150370000013
5.根据权利要求1所述的一种基于规则演化的核递归最大相关熵时间序列在线预测方法,其特征在于,所述的步骤3具体如下:
选取重构后的时间序列数据的80%作为训练集,且将训练集的总量记为N,其余部分作为测试集;
设置模型参数,包括相关熵中核宽度σ′、高斯核大小σ、聚类中心学习率η、唤醒指数学习率β、正则化参数γ、唤醒阈值
Figure FDA0004086150370000021
以及距离阈值δ;
在第1个时刻,第1个训练数据代入模型,创建首条规则,形成规则库,并对模型关键参数进行初始化设置,包括唤醒指数a1(1)=0,聚类中心
Figure FDA0004086150370000022
字典/>
Figure FDA0004086150370000023
以及扩展系数/>
Figure FDA0004086150370000024
κ·,·表示高斯核函数,变量b和b*的核函数定义为:
Figure FDA0004086150370000025
其中,σ是高斯核大小。
6.根据权利要求1所述的一种基于规则演化的核递归最大相关熵时间序列在线预测方法,其特征在于,所述的步骤4具体如下:
步骤4.1:每个时刻加载1个训练数据,计算其与规则库中每条规则下的兼容性度量和唤醒指数;
模型采用兼容性度量和唤醒指数定义规则;
所述的兼容性度量ρi是用来衡量输入向量
Figure FDA0004086150370000026
与第i条规则下聚类中心R的相关性;当兼容性度量值达到最大时,表明当前输入样本与规则之间的相似程度最大,此时该规则为最兼容规则;输入向量/>
Figure FDA0004086150370000027
与第i条规则聚类中心Ri(n)之间的兼容性度量如下所示:
Figure FDA0004086150370000028
其中,ρi(n)∈[0,1],t表示输入向量包含的总特征数,r表示两个观测变量之间的相关依赖性,计算为:
Figure FDA0004086150370000029
其中,
Figure FDA00040861503700000210
和/>
Figure FDA00040861503700000211
分别表示第n时刻第l个特征输入/>
Figure FDA00040861503700000212
和聚类中心R的平均值;
所述的唤醒指数ai可以作为兼容性度量ρi的补充,用来创建新规则减少异常值带来的负面影响;在第n时刻第i条规则下唤醒指数a计算公式表示为:
ai(n)=(1-β)ai(n-1)+β(1-ρi(n)) (6)
其中,β表示唤醒指数的学习率;
步骤4.2:将唤醒指数ai(n)最小值与唤醒阈值
Figure FDA0004086150370000031
作比较,判断是否创建新规则,其中,所述的唤醒阈值/>
Figure FDA0004086150370000032
的范围为0-1,具体分为以下两种情况:
情况1:当最小唤醒指数大于唤醒阈值,即
Figure FDA0004086150370000033
时,创建新规则,此时规则库中规则条数增加,更新为r=r+1,并初始化该新规则中各参数,包括聚类中心/>
Figure FDA0004086150370000034
字典
Figure FDA0004086150370000035
扩展系数/>
Figure FDA0004086150370000036
情况2:当最小唤醒指数小于或等于唤醒阈值
Figure FDA0004086150370000037
即/>
Figure FDA0004086150370000038
时,则将此输入向量(即当前的时间序列)纳入规则库中最兼容规则中,并对聚类中心进行递归更新,计算公式如下所示:
Figure FDA0004086150370000039
其中,η∈[0,1]表示聚类中心的学习率;
之后,在模型结构后续参数更新中,选择相关熵准则取代传统核递归最小二乘方法中均方误差准则作为代价函数,利用核递归最大相关熵方法改善模型在存在非高斯噪声或者异常值情况下的预测性能;基于相关熵的优化目标定义为:
Figure FDA00040861503700000310
其中,Ω为滤波器权重,
Figure FDA00040861503700000311
表示在第j时刻当前输入/>
Figure FDA00040861503700000312
通过非线性映射后的输入向量,γ表示正则化参数,||·||表示L2范数;在第n时刻第i条规则下,运用梯度下降方法,获得中间变量hi(n)、zi(n)和λi(n),即根据公式(9)计算中间变量,计算公式为:
Figure FDA00040861503700000313
其中,cik(n)为第n时刻第i条规则中的字典集,k为字典集包含的输入向量的数量,Qi(n-1)为第n-1时刻第i条规则的矩阵变量;
由于核递归最大相关熵方法根据历史数据的集合进行参数计算,每个集合会形成一个字典,即Ci(n)=[ci1(n),…,cin′(n)],式中n′为存储在字典集中的数量;如果字典包含全部的输入数据,将会导致计算负担大幅度增加;因此,为减少计算复杂度,采用新颖性准则进行稀疏化处理,使字典中仅保留相关输入向量,形成紧凑型字典;定义距离计算公式为
Figure FDA00040861503700000314
式中/>
Figure FDA00040861503700000315
表示第i条规则下字典集c中第i*个输入向量;之后,将其与距离阈值进行比较,确定数据是否纳入字典,其中所述阈值范围为0-1;具体分为以下两部分:
(1)当
Figure FDA0004086150370000041
时,将当前输入样本/>
Figure FDA0004086150370000042
纳入字典,
Figure FDA0004086150370000043
此时矩阵变量Qi(n)及扩展系数θi(n)更新公式如下所示:
Figure FDA0004086150370000044
其中,
Figure FDA0004086150370000045
ei(n)为预测误差,表示为/>
Figure FDA0004086150370000046
(2)当
Figure FDA0004086150370000047
时,当前数据被排除字典外,字典维持不变,此时矩阵变量Qi(n)及扩展系数θi(n)计算形式为:
Figure FDA0004086150370000048
其中
Figure FDA0004086150370000049
步骤4.3:加载训练数据,判断是否训练结束;
若当前时刻小于训练集的总量,即n<N,则返回步骤4.1,进入下一时刻迭代更新;否则,模型训练完成,导出规则库,并进入下一步骤。
7.根据权利要求1所述的一种基于规则演化的核递归最大相关熵时间序列在线预测方法,其特征在于,所述的步骤5中,采用评价指标度量模型的预测精度,包括均方根误差RMSE和对称平均绝对百分比误差SMAPE。
CN202310105269.5A 2023-02-13 2023-02-13 基于规则演化的核递归最大相关熵时间序列在线预测方法 Pending CN116340384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310105269.5A CN116340384A (zh) 2023-02-13 2023-02-13 基于规则演化的核递归最大相关熵时间序列在线预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310105269.5A CN116340384A (zh) 2023-02-13 2023-02-13 基于规则演化的核递归最大相关熵时间序列在线预测方法

Publications (1)

Publication Number Publication Date
CN116340384A true CN116340384A (zh) 2023-06-27

Family

ID=86881286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310105269.5A Pending CN116340384A (zh) 2023-02-13 2023-02-13 基于规则演化的核递归最大相关熵时间序列在线预测方法

Country Status (1)

Country Link
CN (1) CN116340384A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041359A (zh) * 2023-10-10 2023-11-10 北京安视华业科技有限责任公司 一种信息数据高效压缩传输方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041359A (zh) * 2023-10-10 2023-11-10 北京安视华业科技有限责任公司 一种信息数据高效压缩传输方法
CN117041359B (zh) * 2023-10-10 2023-12-22 北京安视华业科技有限责任公司 一种信息数据高效压缩传输方法

Similar Documents

Publication Publication Date Title
CN110414788B (zh) 一种基于相似日和改进lstm的电能质量预测方法
CN109472321B (zh) 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN112434848B (zh) 基于深度信念网络的非线性加权组合风电功率预测方法
CN104463381B (zh) 基于kpca与wlssvm的建筑能耗预测方法
CN116448419A (zh) 基于深度模型高维参数多目标高效寻优的零样本轴承故障诊断方法
CN110472689B (zh) 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法
CN110083125A (zh) 一种基于深度学习的机床热误差建模方法
CN111832839B (zh) 基于充分增量学习的能耗预测方法
CN112182954A (zh) 一种基于lstm的流体仿真数据预测模型
CN107704970A (zh) 一种基于Spark的需求侧负荷预测方法
CN114487890A (zh) 一种改进长短期记忆神经网络的锂电池健康状态估计方法
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置
CN116975645A (zh) 一种基于vae-mrcnn的工业过程软测量建模方法
CN117077509A (zh) 一种北方苍鹰算法优化kelm神经网络电主轴热误差建模方法
CN110490188A (zh) 一种基于ssd网络改进型的目标物体快速检测方法
CN116681159A (zh) 一种基于鲸鱼优化算法和dresn的短期电力负荷预测方法
CN116340384A (zh) 基于规则演化的核递归最大相关熵时间序列在线预测方法
CN111066562A (zh) 一种葡萄霜霉病预测方法及系统
Wang et al. Precipitation prediction in several Chinese regions using machine learning methods
CN105787265A (zh) 基于综合集成赋权法的原子自旋陀螺随机误差建模方法
CN117171681B (zh) 非平衡小样本下的无人机舵面智能故障诊断方法及装置
CN113256018A (zh) 一种基于条件分位数回归模型的风电功率超短期概率预测方法
CN117932995A (zh) 一种基于注意力机制与深度学习的变压器性能预测方法
CN117313936A (zh) 一种燃煤电厂烟气脱硫过程净烟气so2浓度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination