CN118824409A - 一种基于Transformer和长短期记忆网络的污水出水指标BOD5软测量方法 - Google Patents
一种基于Transformer和长短期记忆网络的污水出水指标BOD5软测量方法 Download PDFInfo
- Publication number
- CN118824409A CN118824409A CN202410812536.7A CN202410812536A CN118824409A CN 118824409 A CN118824409 A CN 118824409A CN 202410812536 A CN202410812536 A CN 202410812536A CN 118824409 A CN118824409 A CN 118824409A
- Authority
- CN
- China
- Prior art keywords
- model
- lstm
- soft measurement
- attention
- transformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000010865 sewage Substances 0.000 title claims abstract description 41
- 230000006403 short-term memory Effects 0.000 title claims abstract description 11
- 238000005259 measurement Methods 0.000 claims abstract description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 26
- 210000002569 neuron Anatomy 0.000 claims abstract description 18
- 230000004913 activation Effects 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000000691 measurement method Methods 0.000 claims abstract description 6
- 230000002779 inactivation Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 20
- 210000004027 cell Anatomy 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000000116 mitigating effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 17
- 239000005416 organic matter Substances 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 5
- 239000001301 oxygen Substances 0.000 description 5
- 229910052760 oxygen Inorganic materials 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 241000894006 Bacteria Species 0.000 description 4
- 239000002028 Biomass Substances 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 125000001477 organic nitrogen group Chemical group 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 2
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 2
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 2
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 2
- MMDJDBSEMBIJBB-UHFFFAOYSA-N [O-][N+]([O-])=O.[O-][N+]([O-])=O.[O-][N+]([O-])=O.[NH6+3] Chemical compound [O-][N+]([O-])=O.[O-][N+]([O-])=O.[O-][N+]([O-])=O.[NH6+3] MMDJDBSEMBIJBB-UHFFFAOYSA-N 0.000 description 2
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 description 2
- 230000001651 autotrophic effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002957 persistent organic pollutant Substances 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002351 wastewater Substances 0.000 description 1
- 238000004065 wastewater treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Transformer和长短期记忆网络的BOD5指标软测量方法。该方法利用污水处理中的易于测量的出水指标参数和对BOD5造成影响的出水指标参数的连续时间数据,构造可用于预测的完整空气质量数据集。随后基于预处理后的数据集进行比例划分,构造训练集和测试集。利用训练集数据对LSTM‑former模型进行参数调优,包括注意力头层数,模型维度、注意力机制中Q、K、V的维度、神经元个数、随机失活率、初始学习率、迭代次数、批次大小等。接着构造可用于软测量BOD5浓度的参数调优后的LSTM‑former模型,确定优化算法,选定激活函数。基于训练完毕的LSTM‑former软测量模型预测得到BOD5的浓度预测值,本发明提高模型精度,增强了泛化能力。
Description
技术领域
本发明涉及污水出水指标BOD5的时序预测领域,特别是涉及一种针对BOD5浓度的数据具有非线性、复杂性的软测量技术。本发明是基于高效的多头注意力结构的transformer网络与长短期记忆网络相结合的方法在污水处理BOD5软测量领域的具体应用。本发明提高了污水处理中软测量精度并保留了隐藏在时间序列中的时序相关性。
背景技术
水是生态系统和人类健康的重要组成部分。为了确保水资源的可持续利用和环境保护,污水处理过程就尤为重要。污水处理是否达到标准直接影响这生态环境和人体健康。衡量污水处理的质量经常用一些关键的出水指标,比如五日生化需氧量(BOD5)是一项用于评估水体中有机污染物浓度的关键指标,该参数定义为有氧生物在特定时间(通常为5天)内在特定温度分解水中有机物所需的溶解氧量。它被用于衡量水体中有机物质分解所需的氧气量。
现实污水处理中出水指标的监测往往采用仪器测量,然而有些重要指标通常难以直接测量,这会涉及耗时且昂贵的实验室测试,且测量仪器的精度不稳定,这让出水指标的监测存在滞后性和不稳定性。所以为了提升对污水处理出水指标的监测能力,可以采用间接测量的软测量方法:利用易于测量的辅助变量估算关键变量。在污水处理系统中,利用软测量技术监测产品生产的关键变量,以控制产品质量,降低传统硬件测量的成本。
目前BOD5软测量建模方法主要有机理建模、经验模型建模和数据驱动建模。机理建模方法为白箱模型,其思路就是将建模对象中发生的全部反应使用公式与方程表达出来,通过这些表达展现出变量间的关系,依据易测变量关系与难测变量间的关系进行计算。机理模型需要知道各参数之间的化学物理关系,较多的化学物理公式,以及操作数据,故其复杂程度高,运算量大,对研究人员拥有的知识要求较高,且模型精度低。经验模型只需关注输入输出变量之间的关系公式来表示系统行为即可,但是模型只注重对平稳状态的描述,难以很好地处理复杂情况和非平稳情况,使用条件有限,模型精度低。数据驱动建模方法为黑箱模型,无需知道各参数之间的内部机理,是一种描述出输入输出变量之间的关系,学习这种关系之后构建出获得输出变量的方法。它的输入通常选择容易测量、采集成本低廉、能够大量获取的变量,而输出变量则是存在测量困难、采集成本昂贵等特点的变量,因此很适合污水处理的相关工作。
基于数据驱动的建模方法主要包括多元统计法和人工神经网络法。污水处理中BOD5浓度受多种因素的影响,具有较强的非线性特性,而神经网络作为一门非线性科学,适用于对具有多因素性、不确定性、随机性、非线性特点的对象进行研究。然而目前的方法由于使用的神经网络串行计算机制的特点,只能逐步处理数据,无法同时将所有辅助变量的所有历史信息与关键变量进行联系,因此不能准确反应出辅助变量与关键变量之间的权重关系,导致模型软测量结果并不理想。
发明内容
为了解决由于BOD5软测量过程数据的非线性和时间维度上依赖性导致的软测量结果不准确的问题,本发明提供了一种Transformer网络与长短期记忆网络相结合的模型(LSTM-former)用于污水处理出水指标BOD5的软测量。使用LSTM-former将长短期记忆网络加入到Transformer的多头注意力层中Q、K、V的运算中,通过将数据信息先后经过LSTM和多头注意力机制的处理,更进一步解决了污水指标BOD5软测量中存在的无法准确分配权重关系的问题。相较于其他神经网络模型,我们的方法独特处在于,这一模型能够利用Transformer的多头注意力机制更好地关注到辅助变量与BOD5的权重关系,捕捉BOD5浓度时间序列数据中的关键特征的同时,也会利用LSTM保持对每个辅助变量时间序列数据中的长期依赖关系的关注,弥补了传统Transformer模型在单一变量历史信息关注度不足的问题。
本发明采用了如下的技术方案及实现步骤:
S1:获取某污水处理厂在处理污水之后多个易于测量的出水指标参数和对BOD5造成影响的出水指标参数的连续时间数据,构造污水指标原始数据集。
S2:对所构造的污水指标初始数据集进行预处理,对异常值进行修正,采用插值法填补数据空缺,构造可用于软测量的完整污水指标数据集。
S3:基于预处理后的数据集进行比例划分,构造训练集和测试集。利用训练集数据对LSTM-former模型进行参数调优,包括括注意力头层数,模型维度、注意力机制中Q、K、V的维度、神经元个数、随机失活率、初始学习率、迭代次数、批次大小。
S4:构造可用于软测量BOD5浓度的参数调优后的LSTM-former模型,确定优化算法,选定激活函数,确保训练序列和原始真实序列之间的动态一致性。
S5:基于训练完毕的LSTM-former软测量模型对测试集进行预测得到BOD5的浓度预测值。并根据预测值与真实值对模型进行性能评估。
具体的,受不同的天气环境、降水的影响,随着天气的恶劣情况的增加,BOD5浓度的复杂性也随之增加。因此本实验选取暴风雨天气时的污水出水指标数据集对相应天气下的BOD5进行浓度软测量。数据集中包含目标变量变量BOD5每十五分钟浓度数据以及其他相关变量如可溶性不可降解有机物、可溶性快速可生物降解的有机物、不溶颗粒不可降解有机物、不溶的缓慢可降解有机物、活性异养细菌的生物量、活性自养细菌的生物量、由生物固体衰变而产生的惰性物质、溶解氧、硝酸盐氮、氨氮、可溶性可生物降解有机氮、颗粒状可降解有机氮、碱度和总悬浮固体量。
进一步,首先对异常值和空缺值进行检验,然后对异常值进行删除操作,采用中位数插值法对数据集进行空缺值填充。
优选的,将数据集的百分之八十五划分为训练集,其余百分之十五划分为测试集。注意力头层数为4,模型维度为512、注意力机制中Q、K、V的维度为64、神经元个数为64,随机失活率为0.1,学习率为0.001,迭代次数为200,批次大小为128。
进一步,所述模型包含基础LSTM框架、一个新的多头注意力运算机制的Transformer框架、编码解码输入输出策略和全连接层。LSTM细胞单元内部的门结构门结构由三部分组成:遗忘门、输入门和输出门,这些门结构负责对细胞状态和隐藏层状态进行更新。多头注意力层采用全新的运算机制,先将输入序列解码之后输出的Q、K、V三个变量分别经过LSTM的运算形成新的Q、K、V,再将其通过多头注意力机制原本的点积计算、归一化等相关运算,形成最终的注意力头输出。在Transformer原因运算机制的基础上先将Q、K、V作为LSTM输入进行处理,使得模型先从局部具体分析了每个辅助变量历史数据信息中的长期依赖关系,再通过原有注意力机制全局考虑辅助变量和目标变量的权重关系,提高了对系统动态的建模能力。编码解码输入输出结构则是实现了模型对目标序列的输入和输出。全连接层则负责本发明软测量模型最后的结果输出。
优选的,所述软测量模型中的损失函数采用标准归一化MSE,激活函数采用RelU函数,S4的训练过程中,通过Adam函数进行学习。
与现有技术相比,本发明的有益效果是:
(1)将长短期记忆网络融入到Transformer网络的多头注意力层的运算中,增强了模型训练时对每个辅助变量的历史信息的分析能力,解决了传统Transformer在单一辅助变量历史信息关注度不足的问题。
(2)精巧独特的LSTM-former结构设计,使得模型既利用Transformer的并行计算能力全局考虑辅助变量对关键变量的影响,又利用LSTM关注每个辅助变量的序列中的长期依赖关系,更准确地捕捉BOD5的数据特征,提高了模型对具有长期依赖特性数据进行软测量时的精度。
附图说明
图1为本发明方法所提的软测量网络整体结构图;
图2为本发明方法所提的LSTM-former网络结构图;
图3为本发明方法所提的新的多头注意力层中的运算流程图;
图4为本发明方法的软测量结果对比示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于以上问题提出了一个新的软测量框架LSTM-former,用于多变量时间序列的软测量。LSTM-former的核心思想是:将信息依次经过LSTM和多头注意力机制的处理,在实现具体分析每个辅助变量历史信息的同时,也能从全局考虑输入序列中的所有位置,充分利用整个序列中的信息,提高了模型捕捉BOD5浓度时间序列数据中的关键特征的能力,从而准确分配辅助变量与BOD5的权重关系。最后,通过构建全连接层网络输出BOD5浓度值从而实现BOD5浓度的精准软测量。
如本发明图1软测量BOD5浓度的总体流程图所示,主要分为以下步骤S1:获取某污水处理厂在处理污水之后多个易于测量的出水指标参数和对BOD5造成影响的出水指标参数的连续时间数据,构造污水指标原始数据集。S2:对所构造的污水指标初始数据集进行预处理,对异常值进行修正,采用插值法填补数据空缺,构造可用于软测量的完整污水指标数据集。S3:基于预处理后的数据集进行比例划分,构造训练集和测试集。利用训练集数据对LSTM-former模型进行参数调优,包括括注意力头层数,模型维度、注意力机制中Q、K、V的维度、神经元个数、随机失活率、初始学习率、迭代次数、批次大小。S4:构造可用于软测量BOD5浓度的参数调优后的LSTM-former模型,确定优化算法,选定激活函数,确保训练序列和原始真实序列之间的动态一致性。S5:基于训练完毕的LSTM-former软测量模型对测试集进行预测得到BOD5的浓度预测值。并根据预测值与真实值对模型进行性能评估。
S1:受不同的天气环境、降水的影响,随着天气的恶劣情况的增加,如晴天、雨天、暴雨天,BOD5浓度的复杂性也随之增加。本实验选取数据复杂性最高的暴风雨天气时的污水出水指标数据集并对相应天气下的BOD5进行浓度软测量。收集到北京市某污水处理厂在污水处理后采集到的数据集,其中包含目标变量变量BOD5每十五分钟浓度数据以及其他相关辅助变量如可溶性不可降解有机物、可溶性快速可生物降解的有机物、不溶颗粒不可降解有机物、不溶的缓慢可降解有机物、活性异养细菌的生物量、活性自养细菌的生物量、由生物固体衰变而产生的惰性物质、溶解氧、硝酸盐氮、氨氮、可溶性可生物降解有机氮、颗粒状可降解有机氮、碱度和总悬浮固体量。
这些出水指标由国际标准化组织(ISO)制定的国际标准(ISO 14001环境管理体系以及IS0 55001资产管理标准),和中国城镇污水处理厂污染物排放标准(GB18918-2002)、污水综合排放标准(GB8978-1996)制定的相关标准规定。这些变量除BOD5外皆为实际污水处理过程中用硬件传感器直接测量的出水指标,但它们不能作为判别污水处理好坏的关键变量。具体内容如下表1所示:
表1本发明BOD5浓度软测量时所用变量
S2:由于数据采集设备的故障不确定因素,所采集的数据总会存在一些空缺值和异常值,这些数值的存在会影响模型的精度。我们的发明方法提出一种位数插值法应用于数据预处理,首先将异常值去除,然后找出所有存在的空缺值,这些数值都需要被处理,我们的方法采用滑动窗原理结合空缺处上下文数据对空缺数据进行中位数填补,这样的步骤将从第一个空缺数据采样点开始持续到最后一个空缺数据采样点,之后我们结合S1中所采集到的数据规模构造M*N(M>0,N>0)维初始数据集,其中M为S1中辅助变量与目标变量的和,即为14,N为所获取数据总采样数,本发明中N为1344。输入数据可由如下公式表示:
具体形式为
t时刻的输入即为:Xt=[x2t,x2t…x14t]T
S3:将S2所建立的数据集划分为训练集和测试集,训练集占85%,其余为测试集。前者用以建立模型,后者则用来评估该模型对未知样本进行预测时模型的泛化能力。当模型的泛化能力达不到要求时(本实验以R2低于80%为标准),我们需要调整网络的超参数。具体操作如下:
STEP1:将神经元输入记为Z,每一维度为Z i,对应可实现对输入信号的增强或削弱的权重vi,实现到[0,1]或[-1,1]的非线性映射。神经元的具体个数将根据模型实际反馈进行调整,为避免模型得整体过于复杂选取神经元数量应该低于100,以2n规律性变化,选取模型精度最高时的神经元数量,本例神经元个数确定64。神经元个数增加一般会提高模型的精度,但是如果增加的个数太多模型会出现过拟合现象。
STEP2:dropout是一种针对神经网络模型的正则化方法。在训练过程中通过随机的忽略部分神经元增强模型的泛化能力。在深度网络的训练中,以一定的概率随机地“临时丢弃”一部分神经元节点,如dropout为0.1,则丢弃百分之十的节点。具体来讲,dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。本例为了防止模型过拟合但又避免神经元节点丢弃太多选择将dropout设置为0.1。
STEP3:选定学习率方案,作为监督学习以及深度学习中重要的超参数,学习率决定着目标函数是否能收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。为避免模型的损失函数变化速度太慢陷入局部最小值或损失函数无法收敛的问题,我们制定了分数递变学习率减缓方案,将初始学习率α0设置为0.001,学习率按照下式递减:
α=α0/(1+kt)
其中k为超参数,用来控制学习率减缓幅度,α的每一次变换为上一次的90%之上,因此本例将k制定为0.1。t为训练轮数,与epoch保持一致设置为200;
STEP4:制定合适的迭代次数epoch,当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次epoch。设置epoch的主要作用是把模型的训练的整个训练过程分为若干个段,这样我们可以更好的观察和调整模型的训练。通过epoch每次增加10的方式迭代对比网络精度,在epoch达到200后对其增加时,网络精度提升不明显。为避免网络训练耗时太久设定epoch为200,这也保障了模型的预测精度。
STEP5:制定合适的批次大小,在没有使用Batch Size之前,这意味着网络在训练时,是一次把所有的数据输入网络中,然后计算它们的梯度进行反向传播。Batch size设置为2m(m>0),递增Batchsize直到模型精度变化不明显。为了保障模型精度的同时提高训练速度,将批次大小设定为128。
S4:本发明构造软测量模型的主体神经网络为LSTM-former,如图2中描述。其中LSTM(Long Short-Term Memory)是一种时间循环网络,常用于深度学习中的时间序列预测领域。LSTM的核心概念是cell状态。通过训练,门结构可以控制哪些信息需要保留哪些信息需要被忘记,这些经过选择的信息通过运算被添加到cell状态中,而随着cell状态在时刻间的循环传递使得来自较早时间步的信息也可用于较晚的时间步,从而实现了长期记忆功能。其相应的细胞更新过程公式如下:
ft=σ(Wf·[xt,ht-1]+bf)
其中ft为遗忘门,σ为sigmoid激活函数,Wf为ft的权重矩阵,xt为t时刻的输入,ht-1为t-1时刻的记忆即为隐藏层状态,bf为ft的偏置项。
it=σ(Wi·[xt,ht-1]+bi)
其中it为输入门,σ为sigmoid激活函数,Wi为it的权重矩阵,xt为t时刻的输入,bi为it的偏置项。
在遗忘门输入xt和隐藏层状态ht-1要经过一个tanh层,得到一个新的候选值Wc和bc
分别代表候选层的权重和偏置;Ct表示cell状态更新后的输出;Ct-1表示上一时刻的cell状态,*为矩阵元素映射乘法运算。
ot=σ(Wo·[xt,ht-1]+bo)
其中ot为输出门,Wo为ot的权重矩阵,bo为ot的偏置项。
ht=ot*tanh(Ct)
tanh为双曲正切函数,*为矩阵元素映射乘法运算,ht表示最终的输出。
Transformer神经网络是一种具有强大建模能力的深度学习模型,已经被证明在自然语言处理、计算机视觉等领域取得了良好的效果。Transformer最显著的特点是它使用了自注意力机制(Self-Attention),这种机制允许模型同时考虑输入序列中所有位置的信息,从而更好地捕捉输入之间的依赖关系。Transformer中的自注意力机制被扩展为多头注意力机制(Multi-head Attention)。在这种机制中,模型将输入序列分成多个头(heads),并对每个头应用单独的自注意力机制。最终,每个头产生的输出被连接起来,并传递到下一层。
下面是Transformer的注意力机制的具体介绍:
对于给定的一个输入序列X={x1,x2,…,xn},其中每个元素xi(i为1到n中任意一数)是一个向量,一共有n个元素。我们将每个输入向量xi转换为一个查询向量(queryvector),一个键向量(key vector)和一个值向量(value vector)。这些向量可以通过矩阵乘法和偏置向量(bias vector)计算得到:
查询向量Qi=WQ·xi
键向量Ki=WK·xi
值向量Vi=WV·xi
其中WQ、WK、WV是可学习的权重矩阵,这些向量的维度是模型维度。
接下来,我们将每个查询向量Qi(i为1到n中任意一数)与所有键向量Kj(j为1,2,3,4...n)计算点积,每个Qi得到j个注意力分数(attention scores),其计算公式为:
其中dk是向量维度。注意力分数的目的是衡量查询向量和键向量之间的相关性。点积被除以是为了平衡分数的数量级。这些分数被称为注意力权重(Attention weights),可以通过Softmax函数进行归一化,以便它们在总和为1的情况下表示注意力分配,以下为它们的归一化公式,得到输入xi的j个注意力权重:
最后,我们将每个值向量Vj与相应的注意力权重进行加权求和,得到第i个输入xi的自注意力输出:
Attention(Qi,V)=Σj AttnWeights(Qi,Kj)Vj
以上过程就是自注意力机制的核心,它允许模型从所有输入位置中提取有用的信息,并在表示序列时考虑输入之间的依赖关系。为提升计算效率,上述自注意力过程在实际操作中一般通过矩阵表达进行并行计算,那么整个过程的输出就可以归纳为下面这个公式:
在多头注意力机制中,这个过程被应用于输入矩阵X的每个注意力头Oi(假设一共有h个注意力头,即i为1到h):我们把所有词向量放到一个矩阵X中,然后分别和3个权重矩阵相乘,得到Qi,Ki,Vi矩阵。矩阵X中的每一行,表示每一个词的词向量。Qi,Ki,Vi矩阵中的每一行表示Query向量,Key向量,Value向量,向量维度是dk。随后应用上面的公式,最后将h个头的注意力结果进行拼接得到最终的多头注意力结果O,公式如下:
Oi=Attention(Qi,Ki,Vi)i=1......h
O=Concat(O1,O2,...,Oh)WO
其中Oi是多头注意力层h个注意力头中第i个注意力头的输出,O为最终的多头注意力输出,Concat函数是将多个向量按照指定的维度进行拼接,WO是最终的输出权重矩阵。
如图3所示,将LSTM的机制融入到Transformer多头注意力的运算中,在Q、K、V进行自注意力机制的运算前先经过LSTM的处理,它们分别作为公式里的xt输入到LSTM里,输出得到新的Q*、K*、V*,在进行后续运算。
搭建好核心网络LSTM-former后,我们需要一些优化方法确保训练序列和原始真实序列之间的动态一致性。具体操作如下:
STEP1:选定优化算法,目前主流优化算法包括梯度下降法、Nesterov梯度加速法,本发明针对BOD5数据存在大规模和非稳态特点使用Adam算法。具体步骤如下:
(1)初始化确定参数(步长)、(矩估计得指数衰弱速率,在[0,1)之间)和随机目标函数。
(2)初始化参数向量、一阶矩向量、二阶矩向量和时间步;
(3)循环,当参数没有收敛时,循环迭代地更新各个部分。即时间步加1、更新目标函数在该时间步上对参数所求的梯度、更新偏差的一阶矩估计和二阶原始矩估计,再计算偏差修正的一阶矩估计和偏差修正的二阶矩估计,然后再用以上计算出来的值更新模型的初始参数;
(4)当参数收敛时,返回模型参数。
STEP2:确定激活函数。隐藏层和输出层的神经元通过激活函数将输入端的加权和转换成神经元输出值。为适应BOD5数据存在的非线性并提高网络的鲁棒性,本发明采用ReLU激活函数,其公式如下:
ReLU(x))=max(0,x)
S5:基于训练完毕的LSTM-former软测量模型对测试集进行预测得到PM2.5的浓度预测值。图4为生成的软测量值与真实值的对比图。然后根据软测量值与真实值对模型进行性能评估。本发明采用的评估公式如下:
其中MAE为平均绝对误差,RMSE为均方根误差,。和yi分别代表预测值和真实值。。MAE与RMSE越低代表着模型的效果越好,表二为本发明选取暴雨天气下进污水处理出水指标BOD5软测量的评估实例,为了减少随机性给实验带来的影响,实验重复运行10次,最后比较两个指标的平均值。本发明采取的LSTM-former网络针对BOD5的软测量表现出了非常好的精度,模型的LSTM机制和多头注意力机制保障了其泛化能力。
表2:实验十次的LSTM-former软测量性能评估
本发明的核心技术难点在于将常见的将LSTM与Transformer模型线性组合,创新为融合算法。首先,本发明使得LSTM算法处理的并非初始输入的数据集,而是Transformer多头注意力机制运算过程中的三个矩阵变量Q、K、V。与直接将数据集中的数据转变为普通矩阵形式相比,这三个变量将数据集表达为更细化的词矩阵形式,并用于之后的多头注意力计算。其次,由于Transformer强大的并行计算机制,将LSTM算法融入到多头注意力机制的运算中,保留了整体模型从始至终并行处理输入信息的特点,避免了模型线性组合中需要LSTM先串行处理输入数据所带来的误差影响,提高了运算效率。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何在上述实施方式的精神和原则之内所作的修改、同替换和改进,均应包含在该技术方案的保护范围之内。
Claims (4)
1.基于Transformer和长短期记忆网络的污水出水指标BOD5软测量方法,其特征在于,包括以下步骤:
S1:获取某污水处理厂在处理污水之后多个易于测量的出水指标参数和对BOD5造成影响的出水指标参数的连续时间数据,构造污水指标原始数据集;
S2:对所构造的污水出水指标初始数据集进行预处理,对异常值进行修正,采用插值法填补数据空缺,构造可用于软测量的完整污水出水指标数据集Z;其中M为辅助变量与目标变量的和,N为所获取数据总采样数;M为14;
具体形式为
t时刻的输入即为:Xt=[x2t,x2t…x14t]T
S3:基于预处理后的数据集进行比例划分,构造训练集和测试集;利用训练集数据对LSTM-former模型进行参数调优,包括神经元个数、随机失活率、学习率α、初始学习率α0、迭代次数、批次大小;
α=α0/(1+kt)
其中k为超参数,用来控制学习率α减缓幅度,设置为0.1,α的每一次变换为上一次的90%之上,;t为训练轮数,与epoch保持一致设置为200;
S4:构造可用于软测量BOD5浓度的参数调优后的LSTM-former模型,根据模型训练表现,确定优化算法,选定激活函数ReLU,确保训练序列和原始真实序列之间的动态一致性;用于BOD5软测量的公式如下:
首先为LSTM的计算公式:
ft=σ(Wf·[xt,ht-1]+bf)
it=σ(Wi·[xt,ht-1]+bi)
ot=σ(Wo·[xt,ht-1]+bo)
ht=ot*tanh(Ct)
其中角标t表示时刻,ft表示输入门,it表示遗忘门,ot表示输出门;σ表示Sigmoid函数;Wf和bf分别表示遗忘门ft的权重和偏置,Wi和bi分别表示输入门it的权重和偏置,Wo和bo分别表示输入门ot的权重和偏置;ht-1表示隐藏层状态,xt表示当前时刻t的输入,它们在遗忘门经过一个tanh层,得到一个新的候选值Wc和bc分别代表候选层的权重和偏置;Ct表示细胞(cell)状态更新后的输出;Ct-1表示上一时刻的cell状态,ht表示最终的输出;
其次是Transformer多头注意力机制的计算公式:
Qi=X·Wi Q
Ki=X·Wi K
Vi=X·Wi V
Oi=Attention(Qi,Ki,Vi) i=1......h
O=Concat(O1,O2,...,Oh)WO
其中Qi、Ki、Vi是输入矩阵X通过矩阵运算变化得到的3个矩阵,并将其乘以训练的权重矩阵(Wi Q、Wi K、Wi V)转换出来的查询矩阵、键矩阵和值矩阵;dk是向量维度,Oi是多头注意力层h个注意力头中第i个注意力头的输出,Concat函数是将多个向量按照指定的维度进行拼接,WO是最终的输出权重矩阵,O为最终的多头注意力输出;最后将LSTM的机制融入到Transformer多头注意力的运算中,在Q、K、V进行自注意力机制的运算前先经过LSTM的处理,它们分别作为公式里的xt输入到LSTM里,输出得到新的Q*、K*、V*,在进行后续运算;
S5:基于训练完毕的LSTM-former软测量模型对测试集进行软测量得到BOD5的浓度软测量值;并根据软测量值与真实值对模型进行性能评估。
2.如权利要求1所述的基于Transformer和长短期记忆网络的污水出水指标BOD5指标软测量方法,其特征在于赋予异常值空值,检测缺失值数量,之后对所有缺失值采用中位数插值法补充,中位数插值法为通过找到最接近数据集中间位置的数值来填补缺失值。
3.如权利要求1所述的基于Transformer和长短期记忆网络的污水出水指标BOD5指标软测量方法,其特征在于,使用分数递变学习率减缓方案中学习率初始值设置为0.001,减缓幅度为0.95。
4.如权利要求1所述的基于Transformer和长短期记忆网络的污水出水指标BOD5指标软测量方法,其特征在于,优化算法选择Adam,激活函数选择ReLU。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410812536.7A CN118824409A (zh) | 2024-06-22 | 2024-06-22 | 一种基于Transformer和长短期记忆网络的污水出水指标BOD5软测量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410812536.7A CN118824409A (zh) | 2024-06-22 | 2024-06-22 | 一种基于Transformer和长短期记忆网络的污水出水指标BOD5软测量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118824409A true CN118824409A (zh) | 2024-10-22 |
Family
ID=93081893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410812536.7A Pending CN118824409A (zh) | 2024-06-22 | 2024-06-22 | 一种基于Transformer和长短期记忆网络的污水出水指标BOD5软测量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118824409A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119149928A (zh) * | 2024-11-08 | 2024-12-17 | 厦门大学 | 基于智能恢复的地表沉降数据实现沉降预测的方法和装置 |
CN119538755A (zh) * | 2025-01-23 | 2025-02-28 | 福建理工大学 | 一种海上落水人员漂流轨迹预测方法 |
-
2024
- 2024-06-22 CN CN202410812536.7A patent/CN118824409A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119149928A (zh) * | 2024-11-08 | 2024-12-17 | 厦门大学 | 基于智能恢复的地表沉降数据实现沉降预测的方法和装置 |
CN119538755A (zh) * | 2025-01-23 | 2025-02-28 | 福建理工大学 | 一种海上落水人员漂流轨迹预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | Wind speed forecasting system based on gated recurrent units and convolutional spiking neural networks | |
CN112884056A (zh) | 基于优化的lstm神经网络的污水水质预测方法 | |
CN118824409A (zh) | 一种基于Transformer和长短期记忆网络的污水出水指标BOD5软测量方法 | |
CN113095550B (zh) | 基于变分递归网络和自注意力机制的空气质量预测方法 | |
CN107292098A (zh) | 基于前期气象因子与数据挖掘技术的中长期径流预报方法 | |
CN106503867A (zh) | 一种遗传算法最小二乘风电功率预测方法 | |
CN111784061B (zh) | 一种电网工程造价预测模型的训练方法、装置和设备 | |
CN108595892A (zh) | 基于时间差分模型的软测量建模方法 | |
CN114462718A (zh) | 基于时间滑动窗口的cnn-gru风电功率预测方法 | |
CN109447333A (zh) | 一种基于不定长模糊信息粒的时间序列预测方法和装置 | |
CN115061103B (zh) | 基于编码器-解码器的多功能雷达功能识别方法 | |
CN116703644A (zh) | 一种基于Attention-RNN的短期电力负荷预测方法 | |
CN113836783A (zh) | 斜拉桥主梁温致挠度监测基准值的数字回归模型建模方法 | |
CN116628442B (zh) | 一种基于人工神经网络的地下水储量变化空间降尺度方法 | |
CN114694379A (zh) | 一种基于自适应动态图卷积的交通流预测方法及系统 | |
Tyass et al. | Wind speed prediction based on statistical and deep learning models | |
Lu et al. | Quality-relevant feature extraction method based on teacher-student uncertainty autoencoder and its application to soft sensors | |
Osman et al. | Soft Sensor Modeling of Key Effluent Parameters in Wastewater Treatment Process Based on SAE‐NN | |
CN116681159A (zh) | 一种基于鲸鱼优化算法和dresn的短期电力负荷预测方法 | |
Yang et al. | A prediction model of aquaculture water quality based on multiscale decomposition | |
Li et al. | An interpretable hierarchical neural network insight for long-term water quality forecast: A study in marine ranches of Eastern China | |
Vogt et al. | Wind power forecasting based on deep neural networks and transfer learning | |
CN116050478A (zh) | 基于注意力机制的时间序列填补方法 | |
CN115688602A (zh) | 一种融合时间特征和交叉注意力的短期风速预测方法 | |
Han et al. | Online aware synapse weighted autoencoder for recovering random missing data in wastewater treatment process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |