CN115034504B - 基于云边协同训练的刀具磨损状态预测系统及方法 - Google Patents
基于云边协同训练的刀具磨损状态预测系统及方法 Download PDFInfo
- Publication number
- CN115034504B CN115034504B CN202210754025.5A CN202210754025A CN115034504B CN 115034504 B CN115034504 B CN 115034504B CN 202210754025 A CN202210754025 A CN 202210754025A CN 115034504 B CN115034504 B CN 115034504B
- Authority
- CN
- China
- Prior art keywords
- model
- convolution
- feature
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 108091006146 Channels Proteins 0.000 claims description 69
- 230000006870 function Effects 0.000 claims description 54
- 230000000875 corresponding effect Effects 0.000 claims description 48
- 238000011176 pooling Methods 0.000 claims description 48
- 230000004913 activation Effects 0.000 claims description 36
- 238000004821 distillation Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 20
- 230000007423 decrease Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000017105 transposition Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000002759 z-score normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000005520 cutting process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明具体涉及基于云边协同训练的刀具磨损状态预测系统及方法。所述系统包括:设备层,用于获取待测刀具的传感器数据;边缘平台,部署有经过训练的特征提取模型和轻量化预测模型;特征提取模型用于提取传感器数据中的数据特征作为待测特征信息,轻量化预测模型用于将待测特征信息作为输入并输出对应的刀具磨损状态预测结果;云平台,部署有基于注意力机制的大规模预测模型;所述大规模预测模型学习注意力特征,并将其蒸馏到边缘平台的轻量化预测模型中,以实现云边模型的协同训练。本发明还公开了刀具磨损状态预测方法。本发明能够在边缘侧部署预测模型来实现刀具磨损状态的预测,并通过云边协同训练的方式提高刀具磨损状态预测的精度。
Description
技术领域
本发明涉及刀具磨损状态预测技术领域,具体涉及基于云边协同训练的刀具磨损状态预测系统及方法。
背景技术
机床刀具的磨损状态是影响制造车间产品加工质量稳定性和可靠性的重要因素。当刀具磨损量增加到一定限度时,切削参数失稳,产品不合格率上升,继续加工将造成时间和材料的浪费,严重时会导致整个生产过程无法正常运行。因此,在机械加工过程中实现对机床刀具磨损状态的实时、准确监控与预测显得尤为重要。
现有的刀具磨损状态检测方法分为直接测量法和间接测量法。直接测量法可通过传感器直接识别刀具的外观、表面品质和磨损状态,但其要求停机时才能够检测。由于实际生产加工过程刀具周围环境复杂,无法直接实时检测刀具的磨损状态,通常采用间接测量法,实时采集刀具加工过程中的振动信号、切削力、切削温度、切削功率等多传感器数据,经过数据清洗、数据融合、特征工程,将特征数据输入到机器学习模型当中,输出预测结果,完成刀具磨损状态的监测。
申请人发现,大数据驱动下的深度学习方法往往需要大量的计算资源。然而,现有的中心智能运行模式一般将预测模型部署到云端,这使得无论是模型训练还是实际预测均受到网络流畅度的影响,导致刀具磨损状态预测的稳定性偏低。同时,大量训练数据或传感器数据上传到云端会造成严重的带宽消耗,进而无法满足实际生产加工环境中刀具磨损状态监测的实时响应需求,导致刀具磨损状态预测的实时性差。因此,如何设计一种能够提高刀具磨损状态预测稳定性和实时性的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于云边协同训练的刀具磨损状态预测方法,以能够在边缘侧部署预测模型来实现刀具磨损状态的预测,从而能够提高刀具磨损状态预测的稳定性和实时性,并通过云边协同训练的方式提高刀具磨损状态预测的精度。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于云边协同训练的刀具磨损状态预测系统,包括:
设备层,用于获取待测刀具的传感器数据;
边缘平台,部署有经过训练的特征提取模型和轻量化预测模型;特征提取模型用于提取传感器数据中的数据特征作为待测特征信息,轻量化预测模型用于将待测特征信息作为输入并输出对应的刀具磨损状态预测结果;
云平台,部署有基于注意力机制的大规模预测模型;所述大规模预测模型学习注意力特征,并将其蒸馏到边缘平台的轻量化预测模型中,以实现云边模型的协同训练。
优选的,边缘平台还部署有数据预处理模块;数据预处理模块用于对传感器数据进行数据清洗和Z-score归一化处理。
本发明还公开了基于云边协同训练的刀具磨损状态预测方法,基于本发明的刀具磨损状态预测系统实施,具体包括以下步骤:
S1:通过设备层获取待测刀具的传感器数据,并上传至边缘平台;
S2:边缘平台接收传感器数据并输入经过训练的特征提取模型中,提取出数据特征作为待测特征信息;然后将待测特征信息输入经过云边协同训练的轻量化预测模型中,输出对应的刀具磨损状态预测结果;
S3:边缘平台基于刀具磨损状态预测结果生成反馈控制信息,并下发至设备层;
S4:设备层基于反馈控制信息控制待测刀具的机床执行对应动作。
优选的,步骤S2中,通过如下步骤实现云边协同训练:
S201:获取具有若干组训练数据及其标签数据的训练数据集;
S202:将训练数据输入特征提取模型中,提取出数据特征作为训练特征信息;
S203:将训练特征信息及对应的标签数据输入轻量化预测模型中,更新特征提取模型和轻量化预测模型的参数;
S204:将训练特征信息及对应的标签数据上传至云平台并输入至大规模预测模型中,更新大规模预测模型的参数,进而蒸馏输出该轮训练的注意力特征;
S205:基于云端迁移的注意力特征和历史数据对特征提取模型和轻量化预测模型进行训练和参数更新;
S206:重复步骤S202至S205,直至轻量化预测模型达到预期。
优选的,步骤S202中,特征提取模型包括两部分卷积操作,第一部分卷积操作包括将1×1卷积核和3×1卷积核的卷积结果相加并进行批量正则化;第二部分卷积操作包括将不同尺寸核的基本卷积结果进行通道拼接,基本卷积包含卷积、批量正则化和ReLU激活函数;
特征提取模型将传感器数据作为第一部分卷积操作的输入;对经过第一部分卷积操作批量正则化后输出的结果进行池化处理,并作为第二部分卷积操作的输入;最后对第二部分卷积操作和通道拼接后的结果进行池化处理,输出对应的特征张量即数据特征;
其中,基本卷积表示为:
BasicConv(X)=relu(bn(conv(X,k,1)))=relu(bn(Wk*X+bk));
式中:X表示输入数据;Wk表示大小为k1×k2的卷积核;*表示卷积操作;bk表示偏置;relu表示ReLU激活函数;在卷积与ReLU激活函数之间添加批量正则化操作bn;
ReLU激活函数relu表示为:
式中:x表示输入数据;
通过学习小批量数据中的均值μβ和方差以实现批量正则化;
式中:xi表示输入数据样本;m表示当前批次数据大小;
式中:ε表示大于零的较小值;γ和β分别表示可训练的比例参数和偏差参数;表示规范化后的数据;yi是自学习尺寸变换和偏移后的输出;
池化操作的基本池化层表示为:
BasicPool(x)=concat(pool(x,k1,s),conv(x,k2,s));
式中:pool表示池化操作;conv表示卷积操作;k1和k2分别表示池化核和卷积核的尺寸;s表示步长;concat表示将特征向量进行通道维度拼接;
特征张量Ff的形状为wf×1×cf;
式中:wf表示时域尺寸;cf表示通道域尺寸。
优选的,步骤S204中,大规模预测模型包括由三个注意力密集模块依次连接构成的密集连接结构、两层池化层和全连接层;
其中,每个注意力密集模块包含若干个相应的密集层和一个注意力层,各个层之间进行密集连接;每一个密集层包含若干不同尺寸卷积核的基本卷积,对张量进行通道拼接后输入线性卷积,并与输入张量构成残差连接后进行ReLU激活得到该密集层的输出;注意力模块从时间和通道两个维度出发,为目标数据的特征进行权重学习;
其中,密集层的结构表示为:
IncepResLayer_B(Xi)=relu(Xi+linerConv(Xm,5×1));
Xm=concat(BasicConv(Xi,1×1),BasicConv(BasicConv(Xi,1×1),5×1));
式中:IncepResLayer_B表示第B种类型的密集层;Xi表示密集层的输入;relu表示ReLU激活函数;linerConv(x)函数表示无激活的线性卷积层;concat表示将特征向量进行通道维度拼接;BasicConv(x)表示基本卷积;
池化层包含相同步长、多尺寸卷积核的最大池化层和基本卷积层;
池化层的结构表示为:
Pool(Xi)=concat(Xm1,Xm2,Xm3);
Xm1=Maxpool(Xi,k1×1);
Xm2=BasicConv(Xi,k1×1);
Xm3=BasicConv(BasicConv(Xi,1×1),k1×1);
式中:Pool表示池化层;concat表示将特征向量进行通道维度拼接;Maxpool(x)表示最大池化操作,核尺寸为k1×1;Xi表示池化层的输入;BasicConv(x)表示基本卷积;所有卷积操作和池化操作的步长均为strides=4;
注意力模块的工作逻辑如下:
1)对给定的输入序列X=x1,x2,...,xT和滤波器F=f1,f2,...fK进行如下的时域卷积,得到相关序列A=a1,a2,...,aT;
通过Softmax函数获取最终的时域权重序列Y=y1,y2,...,yT;
2)对于输入特征Fi w×1×c,经过单通道1×1卷积得到一维序列并通过时域卷积和Softmax函数得到时域权重/>
式中:Softmax表示Softmax函数;TemporalConv表示时域卷积;Conv表示卷积;1×1和3×1分别表示卷积与时域卷积的卷积核形状;
3)时域权重转置后与输入特征Fi w×1×c进行矩阵相乘,得到一维序列/>并按照c/r的比率将一维序列/>的通道数进行缩小,同时进行层归一化与ReLU激活,再按照原始倍率进行原通道数的放回,得到通道域权重/>
式中:Conv表示卷积;ReLU表示ReLU激活函数;LayerNorm表示层归一化;表示时域权重;上标T表示转置操作;c/r表示通道域降维比率;
4)将时域与通道域的特征分别与对应的时域权重和通道域权重/>相乘,得到注意力映射张量/>并与输入特征Fi w×1×c构成残差连接得到注意力特征输出/>即注意力特征。
优选的,步骤S203中,轻量化预测模型在大规模预测模型的架构基础上取消了密集连接结构并通过空洞卷积来替代普通卷积,以实现轻量化设计。
优选的,步骤S205中,基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失,进而通过该训练损失对轻量化预测模型进行参数更新;
其中,Loss_all=Loss_mse+λLoss_att=Loss_mse+λ∑i=a,b,cDC(ft c_i,ft e_i);
λ=(1-αep)λ0;
式中:Loss_all表示训练损失;Loss_mse表示MSE损失;Loss_att表示注意力蒸馏损失;N为批量大小;为预测值;yi为标签数据;DC(f1,f2)表示余弦距离;<f1,f2>表示两向量内积;ft c_i和ft e_i分别为大规模预测模型和轻量化预测模型中注意力特征的时间特征序列;/>和/>分别表示时间特征序列ft c_i和ft e_i中的元素值;w为张量时间域数量;λ表示动态蒸馏损失系数;α表示一个小于1的数;λ0表示初始蒸馏损失系数;ep表示训练轮数;
通过如下公式计算时间特征序列:
式中:ft表示时间特征序列;Fo w×1×c为注意力特征;为注意力特征/>每个通道域的特征向量;c表示通道个数;通过该式计算得到大规模预测模型和轻量化预测模型中注意力特征的时间特征序列ft c_i和ft e_i。
优选的,步骤S2中,将待测特征信息上传至云平台并输入至大规模预测模型中进行模型精度评估,当大规模预测模型的损失超出期望阈值时,对大规模预测模型进行增量式训练。
优选的,增量式训练具体包括步骤如下:
S211:用历史模型库中最新的参数初始化待训练模型,将新的训练数据分别输入待训练模型和历史模型,分别计算各个历史模型与待训练模型特征映射之间的欧氏距离;
式中:表示模型特征之间的欧式距离;F和Fi分别为待训练模型与历史模型的特征张量;Dt和Dc分别为时间序列和通道序列的欧式距离;xj和/>分别为待训练模型与历史模型的时间序列元素;yk和/>分别为待训练模型与历史模型的通道序列元素;
S212:基于每一个历史模型均得到一个距离损失
S213:基于历史模型的重要程度,设置对应的遗忘因子η;
η=η0e-ki;
式中:η0表示初始遗忘因子;k表示遗忘系数;i表示历史模型编号;随着模型的更新,历史模型的特征距离损失权重成指数级下跌;
S214:基于历史模型与待训练模型特征映射之间的欧氏距离构建增量式损失函数,以此为指标进行增量化训练;
式中:Lincre表示增量式损失;Lmse表示标签数据的均方方差;n表示历史模型个数。
本发明中基于云边协同训练的刀具磨损状态预测方法,具有如下有益效果:
本发明通过设备层获取待测刀具的传感器数据,进而通过边缘平台的特征提取模型和轻量化预测模型提取数据特征并输出刀具磨损状态预测结果,而边缘平台设置于实际生产环境附近,有效解决了传统云端范式框架的高延迟响应问题,能够提高整个系统的灵活性和可扩展性,从而能够提高刀具磨损状态预测的稳定性和实时性。并且,本发明在边缘平台部署的是轻量化预测模型,其能够在保留模型拟合能力的情况下,具有更少的参数和更快的推理速度,从而能够进一步提高刀具磨损状态预测的实时性。
同时,本发明通过部署在云平台的大规模预测模型,在每一轮训练过程中蒸馏出注意力特征来辅助轻量化预测模型的训练,进而形成了一种云边缘协同训练、边缘侧实时推理的智能框架,能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度,避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题,从而能够通过云边协同训练的方式进一步提高刀具磨损状态预测的精度。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于云边协同训练的刀具磨损状态预测系统的逻辑框图;
图2为基于云边协同训练的刀具磨损状态预测方法的逻辑框图;
图3为特征提取模型的框架图;
图4为大规模预测模型的框架图;
图5为注意力模块的时通域注意力机制模块示意图;
图6为轻量化预测模型的框架图;
图7为云边协同训练方法的逻辑框图;
图8为基于余弦距离的特征映射和蒸馏损失示意图;
图9为增量式训练的逻辑示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例一:
本实施例中公开了一种基于云边协同训练的刀具磨损状态预测系统。
如图1所示,基于云边协同训练的刀具磨损状态预测系统,包括:
设备层,用于获取待测刀具的传感器数据;
本实施例中,在待测刀具的数控机床上安装若干数据采集卡与控制器,机床刀具主轴和主轴电机上分别安装加速度传感器与电流传感器,将其与数据采集卡相连,分别获取待测刀具的切削振动信号与电流信号即传感器数据。
机床进行切削加工过程中的传感器数据通过DDS上传至边缘平台进行后续处理,同时设备层所安装的控制器可以接收边缘层返回的反馈控制信息(包括控制指令和预警信号),控制机床等相关设备采取相应的措施。
边缘平台,部署有经过训练的特征提取模型和轻量化预测模型;特征提取模型用于提取(预处理后)传感器数据中的特征作为待测特征信息,轻量化预测模型用于将待测特征信息作为输入并输出对应的刀具磨损状态预测结果;
本实施例中,边缘平台还部署有数据预处理模块以及用于存储历史模型及其数据的边缘模型库;数据预处理模块用于对传感器数据进行数据清洗和Z-score归一化处理,进而将预处理后的传感器数据存储至边缘数据库中,用以后续输入至特征提取模型。
边缘平台还能够基于刀具磨损状态预测结果生成对应的反馈控制信息(包括控制指令和预警信号)并下发至设备层。刀具磨损状态预测结果生成反馈控制信息采用的是现有成熟手段,具体内容这里不再赘述。
云平台,部署有基于注意力机制的大规模预测模型;该模型学习注意力特征,并将其蒸馏到边缘平台的轻量化预测模型中,以实现云边模型的协同训练。
本实施例中,云平台还部署有用于评估大规模预测模型预测精度的模型评估模块,以及用于对大规模预测模型进行增量式训练的增量式训练模块。
需要说明的是,本发明所述的轻量化预测模型不是绝对的“轻量化”,而是相对于本发明中的大规模预测模型或现有的其他深度网络模型而言的“轻量化”,其相比于上述模型具有更少的参数和更快的推理速度。
本发明通过设备层获取待测刀具的传感器数据,进而通过边缘平台的特征提取模型和轻量化预测模型提取数据特征并输出刀具磨损状态预测结果,而边缘平台设置于实际生产环境附近,有效解决了传统云端范式框架的高延迟响应问题,能够提高整个系统的灵活性和可扩展性,从而能够提高刀具磨损状态预测的稳定性和实时性。并且,本发明在边缘平台部署的是轻量化预测模型,其能够在保留模型拟合能力的情况下,具有更少的参数和更快的推理速度,能够降低模型的训练难度低并提高模型的预测效率,从而能够进一步提高刀具磨损状态预测的实时性。
同时,本发明通过部署在云平台的大规模预测模型,在每一轮训练过程中蒸馏出注意力特征来辅助训练轻量化预测模型,进而形成了一种云边缘协同训练、边缘侧实时推理的智能框架,能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度,避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题,从而能够通过云边协同训练的方式进一步提高刀具磨损状态预测的精度。
具体的:
如图3所示,特征提取模型包括两部分卷积操作,第一部分卷积操作包括将1×1卷积核和3×1卷积核的卷积结果相加并进行批量正则化;第二部分卷积操作包括将不同尺寸核的基本卷积结果进行通道拼接,基本卷积包含卷积、批量正则化和ReLU激活函数;
特征提取模型将传感器数据作为第一部分卷积操作的输入;对经过第一部分卷积操作批量正则化后输出的结果进行池化处理,并作为第二部分卷积操作的输入;最后对第二部分卷积操作和通道拼接后的结果进行池化处理,输出对应的特征张量即数据特征;
其中,基本卷积表示为:
BasicConv(X)=relu(bn(conv(X,k,1)))=relu(bn(Wk*X+bk));
式中:X表示输入数据;Wk表示大小为k1×k2的卷积核;*表示卷积操作;bk表示偏置;relu表示ReLU激活函数;在卷积与ReLU激活函数之间添加批量正则化操作bn;
ReLU激活函数relu表示为:
式中:x表示输入数据;
通过学习小批量数据中的均值μβ和以实现批量正则化;
式中:xi表示输入数据样本;m表示当前批次数据大小;
式中:ε表示大于零的较小值;γ和β分别表示可训练的比例参数和偏差参数;表示规范化后的数据;yi是自学习尺寸变换和偏移后的输出;
池化操作的基本池化层表示为:
BasicPool(x)=concat(pool(x,k1,s),conv(x,k2,s));
式中:pool表示池化操作;conv表示卷积操作;k1和k2别表示池化核和卷积核的尺寸;s表示步长;concat表示将特征向量进行通道维度拼接;
特征张量Ff的形状为wf×1×cf;
式中:wf表示时域尺寸;cf表示通道域尺寸。
本发明的特征提取模型具有稀疏交互和参数共享的能力,使得能够有效的从传感器数据中提取出数据特征用于模型训练和实时预侧,能够有效的减少计算量并抑制过拟合,从而能够进一步提高刀具磨损状态预测的实时性。
如图4所示,大规模预测模型包括由三个注意力密集模块依次连接构成的密集连接结构、两层池化层和全连接层;
其中,每个注意力密集模块包含若干个相应的密集层和一个注意力层,各个层之间进行密集连接;每一个密集层包含若干不同尺寸卷积核的基本卷积,对张量进行通道拼接后输入线性卷积,并与输入张量构成残差连接后进行ReLU激活得到该密集层的输出;注意力模块从时间和通道两个维度出发,为目标数据的特征进行权重学习;
其中,密集层的结构表示为:
IncepResLayer_B(Xi)=relu(Xi+linerConv(Xm,5×1));
Xm=concat(BasicConv(Xi,1×1),BasicConv(BasicConv(Xi,1×1),5×1));
式中:IncepResLayer_B表示第B种类型的密集层;Xi表示密集层的输入;relu表示ReLU激活函数;linerConv(x)函数表示无激活的线性卷积层;concat表示将特征向量进行通道维度拼接;BasicConv(x)表示基本卷积;
池化层包含相同步长、多尺寸卷积核的最大池化层和基本卷积层;
池化层的结构表示为:
Pool(Xi)=concat(Xm1,Xm2,Xm3);
Xm1=Maxpool(Xi,k1×1);
Xm2=BasicConv(Xi,k1×1);
Xm3=BasicConv(BasicConv(Xi,1×1),k1×1);
式中:Pool表示池化层;concat表示将特征向量进行通道维度拼接;Maxpool(x)表示最大池化操作,核尺寸为k1×1;Xi表示池化层的输入;BasicConv(x)表示基本卷积;所有卷积操作和池化操作的步长均为strides=4;
如图5所示,注意力模块的工作逻辑如下:
1)对给定的输入序列X=x1,x2,...,xT和滤波器F=f1,f2,...fK进行如下的时域卷积,得到相关序列A=a1,a2,...,aT;
通过Softmax函数获取最终的时域权重序列Y=y1,y2,...,yT;
2)对于输入特征Fi w×1×c,经过单通道1×1卷积得到一维序列并通过时域卷积和Softmax函数得到时域权重/>
式中:Softmax表示Softmax函数;TemporalConv表示时域卷积;Conv表示卷积;1×1和3×1分别表示卷积与时域卷积的卷积核形状;
3)时域权重转置后与输入特征Fi w×1×c进行矩阵相乘,得到一维序列/>并按照c/r的比率将一维序列/>的通道数进行缩小,同时进行层归一化与ReLU激活,再按照原始倍率进行原通道数的放回,得到通道域权重/>
式中:Conv表示卷积;ReLU表示ReLU激活函数;LayerNorm表示层归一化;表示时域权重;上标T表示转置操作;c/r表示通道域降维比率;
4)将时域与通道域的特征分别与对应的时域权重和通道域权重/>相乘,得到注意力映射张量/>并与输入特征Fi w×1×c构成残差连接得到注意力特征输出/>即注意力特征。
具体实施过程中,如图6所示,轻量化预测模型在大规模预测模型的架构基础上取消了密集连接结构并通过空洞卷积来替代普通卷积,以实现轻量化设计。
具体实施过程中,由于轻量化预测模型的学习能力有限,为了能够使得模型能够在边缘端挖掘到更多的数据信息,具有更强的泛化能力,我们需要将大规模预测模型学习到的知识向边缘侧迁移。
如图7所示,边缘模型库、特征提取模型和轻量化预测模型均部署在边缘平台,云平台中则部署有大规模预测模型。每一轮的训练过程都进行了三个模型的参数更新和云边数据传输。首先,忽略云模型,特征提取模型提取数据特征后传入轻量化预测模型中并根据MSE规则进行两参数的更新,然后数据再次经过特征提取模型进行正向传播,并将特征与标签上传到云平台中,进行注意力蒸馏参数的更新,并将大规模预测模型的注意力特征只是发送至边缘平台,最后,轻量化预测模型按照MSE损失函数,以及加权的注意力特征蒸馏损失更新参数,从而完成一轮的训练。
云边系统训练的算法如下:
通过如下步骤实现云边协同训练:
S201:获取具有若干组训练数据及其标签数据的训练数据集;
S202:将训练数据输入特征提取模型中,提取出数据特征作为训练特征信息;
S203:将训练特征信息及对应的标签数据输入轻量化预测模型中,更新特征提取模型和轻量化预测模型的参数;
本实施例中,通过现有的MSE损失函数优化特征提取模型和轻量化预测模型的参数。
S204:将训练特征信息及对应的标签数据上传至云平台并输入至大规模预测模型中,更新大规模预测模型的参数,进而蒸馏输出该轮训练的注意力特征;
本实施例中,通过现有的MSE损失函数优化大规模预测模型的参数。
S205:基于云端迁移的注意力特征和历史数据对特征提取模型和轻量化预测模型进行训练和参数更新;
本实施例中,通过MSE损失函数+注意力蒸馏损失函数优化轻量化预测模型的参数。
S206:重复步骤S202至S205,直至特征提取模型和轻量化预测模型达到预期。
本发明基于注意力机制、残差网络等深度学习方法,提出了一种深度多卷积核注意力残差网络模型即大规模预测模型,以及轻量化动态空洞卷积模型即轻量化预测模型,并建立了云边缘协同训练、边缘侧实时推理的智能框架,使得能够充分发掘不同传感器数据的时序信号在不同领域之间的数据特征,并对其进行了时间和空间上的数据融合,与现有其他常用模型相比,本发明的云边协同构架具有更好的预测精度和更快的推理速度,从而能够进一步提高刀具磨损状态预测的精度和实时性。
具体实施过程中,如图8所示,云模型与轻量化模型分别得到相应的注意力特征Fo w ×1×c,分别按照下式进行注意力映射操作,得到对应的时间特征序列ft。
式中:ft表示时间特征序列;Fo w×1×c为注意力特征;为注意力特征Fo w×1×c每个通道域的特征向量;c表示通道个数;通过该式计算得到大规模预测模型和轻量化预测模型中注意力特征的时间特征序列ft c_i和ft e_i。
采用余弦距离来度量边缘模型中每个特征时间序列与其对应云模型序列之间的权重相似程度。
基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失,进而通过该训练损失对轻量化预测模型进行参数更新;
其中,Loss_all=Loss_mse+λLoss_att=Loss_mse+λ∑i=a,b,cDC(ft c_i,ft e_i);
λ=(1-αep)λ0;
式中:Loss_all表示训练损失;Loss_mse表示MSE损失;Loss_att表示注意力蒸馏损失;N为批量大小;为预测值;yi为标签数据;DC(f1,f2)表示余弦距离;<f1,f2>表示两向量内积;ft c_i和ft e_i分别为大规模预测模型和轻量化预测模型中注意力特征的时间特征序列;/>和/>分别表示时间特征序列ft c_i和ft e_i中的元素值;w为张量时间域数量;λ表示动态蒸馏损失系数;α表示一个小于1的数;λ0表示初始蒸馏损失系数;ep表示训练轮数。
本发明基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失,进而通过该训练损失对轻量化预测模型进行参数更新,实现了基于注意力特征的云边协同训练,能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度,避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题。
具体实施过程中,在实际生产环境当中,机床刀具磨损数据源源不断产生,随着时间的推移、设备的老化以及加工条件变化等,模型的性能也会随之降低。由于存储限制或隐私保护等原因,旧数据往往无法用于模型的重新训练,但仅依靠新数据当中的知识,则很容易造成模型的灾难性遗忘。
为此,本发明将待测特征信息上传至云平台并输入至大规模预测模型中进行模型精度评估,当大规模预测模型的损失超出期望阈值时,对大规模预测模型进行增量式训练,进而提出了一种基于历史模型库与注意力遗忘因子的增量式训练方法。
基于历史模型库与注意力遗忘因子的增量式训练方法的算法如下:
如图9所示,增量式训练具体包括步骤如下:
S211:用历史模型库中最新的参数初始化待训练模型,将新的训练数据分别输入待训练模型和历史模型,分别计算各个历史模型与待训练模型特征映射之间的欧氏距离;
本实施例中,历史模型库存储历史训练过程中每一个版本的大规模预测模型的参数。
式中:表示模型特征之间的欧式距离;F和Fi分别为待训练模型与历史模型的特征张量;Dt和Dc分别为时间序列和通道序列的欧式距离;xj和/>分别为待训练模型与历史模型的时间序列元素;yk和/>分别为待训练模型与历史模型的通道序列元素;
S212:基于每一个历史模型均得到一个距离损失
S213:基于历史模型的重要程度,设置对应的遗忘因子η;
η=η0e-ki;
式中:η0表示初始遗忘因子;k表示遗忘系数;i表示历史模型编号;随着模型的更新,历史模型的特征距离损失权重成指数级下跌;
S214:基于历史模型与待训练模型特征映射之间的欧氏距离构建增量式损失函数,以此为指标进行增量化训练;
式中:Lincre表示增量式损失;Lmse表示标签数据的均方方差;n表示历史模型个数。
在实际生产环境当中,机床刀具磨损数据源源不断产生,随着时间的推移、设备的老化以及加工条件变化等,模型的性能也会随之降低。
为此,本发明提出了上述基于注意力遗忘因子的增量化训练算法,通过边缘模型库的历史模型及参数结合遗忘因子对大规模预测模型进行增量式训练,使得能够避免历史数据的大规模重复训练或灾难性遗忘,进而提高大规模预测模型的终身学习能力,从而能够在长期运行过程中持续性的保证轻量化预测模型的刀具磨损状态预测精度,为数控机床刀具磨损状态检测提供了一种切实可行的解决方案。
实施例二:
本实施例还公开了一种基于云边协同训练的刀具磨损状态预测方法,基于实施例一中的刀具磨损状态预测系统实施。
如图2所示,基于云边协同训练的刀具磨损状态预测方法,具体包括以下步骤:
S1:通过设备层获取待测刀具的传感器数据,并上传至边缘平台;
本实施例中,在待测刀具的数控机床上安装若干数据采集卡与控制器,机床刀具主轴和主轴电机上分别安装加速度传感器与电流传感器,将其与数据采集卡相连,分别获取待测刀具的切削振动信号与电流信号即传感器数据。机床进行切削加工过程中的传感器数据通过DDS上传至边缘平台进行后续处理。
S2:边缘平台接收传感器数据并输入经过训练的特征提取模型中,提取出数据特征作为待测特征信息;然后将待测特征信息输入经过云边协同训练的轻量化预测模型中,输出对应的刀具磨损状态预测结果;
本实施例中,边缘平台还部署有数据预处理模块以及用于存储历史模型及其数据的边缘模型库;数据预处理模块用于对传感器数据进行数据清洗和Z-score归一化处理,进而将预处理后的传感器数据存储至边缘数据库中,用以后续输入至特征提取模型。
S3:边缘平台基于刀具磨损状态预测结果生成反馈控制信息,并下发至设备层;
本实施例中,刀具磨损状态预测结果生成反馈控制信息(包括控制指令和预警信号)采用的是现有成熟手段,具体内容这里不再赘述。
S4:设备层基于反馈控制信息控制待测刀具的机床执行对应动作。
本实施例中,设备层所安装的控制器可以接收边缘层返回的反馈控制信息(包括控制指令和预警信号),控制机床等相关设备采取相应的措施。
本发明通过设备层获取待测刀具的传感器数据,进而通过边缘平台的特征提取模型和轻量化预测模型提取数据特征并输出刀具磨损状态预测结果,而边缘平台设置于实际生产环境附近,有效解决了传统云端范式框架的高延迟响应问题,能够提高整个系统的灵活性和可扩展性,从而能够提高刀具磨损状态预测的稳定性和实时性。并且,本发明在边缘平台部署的是轻量化预测模型,其能够在保留模型拟合能力的情况下,具有更少的参数和更快的推理速度,能够降低模型的训练难度低并提高模型的预测效率,从而能够进一步提高刀具磨损状态预测的实时性。
同时,本发明通过部署在云平台的大规模预测模型,在每一轮训练过程中蒸馏出注意力特征来辅助训练轻量化预测模型,进而形成了一种云边缘协同训练、边缘侧实时推理的智能框架,能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度,避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题,从而能够通过云边协同训练的方式进一步提高刀具磨损状态预测的精度。
具体实施过程中,相比于循环神经网络,卷积神经网络可执行并行计算,能够更快速地进行训练和推理。另外,因其具有稀疏交互和参数共享的能力,有效地减少了计算量并抑制过拟合。
如图3所示,特征提取模型包括两部分卷积操作,第一部分卷积操作包括将1×1卷积核和3×1卷积核的卷积结果相加并进行批量正则化;第二部分卷积操作包括将不同尺寸核的基本卷积结果进行通道拼接,基本卷积包含卷积、批量正则化和ReLU激活函数;
特征提取模型将传感器数据作为第一部分卷积操作的输入;对经过第一部分卷积操作批量正则化后输出的结果进行池化处理,并作为第二部分卷积操作的输入;最后对第二部分卷积操作和通道拼接后的结果进行池化处理,输出对应的特征张量即数据特征;其中,基本卷积表示为:
BasicConv(X)=relu(bn(conv(X,k,1)))=relu(bn(Wk*X+bk));
式中:X表示输入数据;Wk表示大小为k1×k2的卷积核;*表示卷积操作;bk表示偏置;relu表示ReLU激活函数;在卷积与ReLU激活函数之间添加批量正则化操作bn;
ReLU激活函数relu表示为:
式中:x表示输入数据;
通过学习小批量数据中的均值μβ和方差以实现批量正则化;
式中:xi表示输入数据样本;m表示当前批次数据大小;
式中:ε表示大于零的较小值;γ和β分别表示可训练的比例参数和偏差参数;表示规范化后的数据;yi是自学习尺寸变换和偏移后的输出;
池化操作的基本池化层表示为:
BasicPool(x)=concat(pool(x,k1,s),conv(x,k2,s));
式中:pool表示池化操作;conv表示卷积操作;k1和k2分别表示池化核和卷积核的尺寸;s表示步长;concat表示将特征向量进行通道维度拼接;
特征张量Ff的形状为wf×1×cf;
式中:wf表示时域尺寸;cf表示通道域尺寸。
本发明的特征提取模型具有稀疏交互和参数共享的能力,使得能够有效的从传感器数据中提取出数据特征用于模型训练和实时预侧,能够有效的减少计算量并抑制过拟合,从而能够进一步提高刀具磨损状态预测的实时性。
具体实施过程中,当数据特征提取到之后,需要设计一种大规模的刀具磨损值预测模型部署到云平台来进行知识抽取。注意力机制的引入更有利于模型特征域知识的迁移。相比于图像数据,信号在时间域具有一维性和时序性,并且不同传感器数据以及不同通道特征的重要性有差异。
如图4所示,大规模预测模型包括由三个注意力密集模块依次连接构成的密集连接结构、两层池化层和全连接层;
其中,每个注意力密集模块包含若干个相应的密集层和一个注意力层,各个层之间进行密集连接;每一个密集层包含若干不同尺寸卷积核的基本卷积,对张量进行通道拼接后输入线性卷积,并与输入张量构成残差连接后进行ReLU激活得到该密集层的输出;注意力模块从时间和通道两个维度出发,为目标数据的特征进行权重学习;
其中,密集层的结构表示为:
IncepResLayer_B(Xi)=relu(Xi+linerConv(Xm,5×1));
Xm=concat(BasicConv(Xi,1×1),BasicConv(BasicConv(Xi,1×1),5×1));
式中:IncepResLayer_B表示第B种类型的密集层;Xi表示密集层的输入;relu表示ReLU激活函数;linerConv(x)函数表示无激活的线性卷积层;concat表示将特征向量进行通道维度拼接;BasicConv(x)表示基本卷积;
池化层包含相同步长、多尺寸卷积核的最大池化层和基本卷积层;
池化层的结构表示为:
Pool(Xi)=concat(Xm1,Xm2,Xm3);
Xm1=Maxpool(Xi,k1×1);
Xm2=BasicConv(Xi,k1×1);
Xm3=BasicConv(BasicConv(Xi,1×1),k1×1);
式中:Pool表示池化层;concat表示将特征向量进行通道维度拼接;Maxpool(x)表示最大池化操作,核尺寸为k1×1;Xi表示池化层的输入;BasicConv(x)表示基本卷积;所有卷积操作和池化操作的步长均为strides=4;
如图5所示,注意力模块的工作逻辑如下:
1)对给定的输入序列X=x1,x2,...,xT和滤波器F=f1,f2,...fK进行如下的时域卷积,得到相关序列A=a1,a2,...,aT;
通过Softmax函数获取最终的时域权重序列Y=y1,y2,...,yT;
2)对于输入特征Fi w×1×c,经过单通道1×1卷积得到一维序列并通过时域卷积和Softmax函数得到时域权重/>
式中:Softmax表示Softmax函数;TemporalConv表示时域卷积;Conv表示卷积;1×1和3×1分别表示卷积与时域卷积的卷积核形状;
3)时域权重转置后与输入特征Fi w×1×c进行矩阵相乘,得到一维序列/>并按照c/r的比率将一维序列/>的通道数进行缩小,同时进行层归一化与ReLU激活,再按照原始倍率进行原通道数的放回,得到通道域权重/>
式中:Conv表示卷积;ReLU表示ReLU激活函数;LayerNorm表示层归一化;表示时域权重;上标T表示转置操作;c/r表示通道域降维比率;
4)将时域与通道域的特征分别与对应的时域权重和通道域权重/>相乘,得到注意力映射张量/>并与输入特征Fi w×1×c构成残差连接得到注意力特征输出/>即注意力特征。
具体实施过程中,如图6所示,轻量化预测模型在大规模预测模型的架构基础上取消了密集连接结构并通过空洞卷积来替代普通卷积,以实现轻量化设计。
具体实施过程中,由于轻量化预测模型的学习能力有限,为了能够使得模型能够在边缘端挖掘到更多的数据信息,具有更强的泛化能力,我们需要将大规模预测模型学习到的知识向边缘侧迁移。
如图7所示,边缘模型库、特征提取模型和轻量化预测模型均部署在边缘侧,云平台中则部署有大规模预测模型。每一轮的训练过程都进行了三个模型的参数更新和云边数据传输。首先,忽略云模型,特征提取模型提取数据特征后传入轻量化预测模型中并根据MSE规则进行两参数的更新,然后数据再次经过特征提取模型进行正向传播,并将特征与标签上传到云平台中,进行注意力蒸馏参数的更新,并将大规模预测模型的注意力特征只是发送至边缘平台,最后,轻量化预测模型按照MSE损失函数,以及加权的注意力特征蒸馏损失更新参数,从而完成一轮的训练。
云边系统训练的算法如下:
具体的,通过如下步骤实现云边协同训练:
S201:获取具有若干组训练数据及其标签数据的训练数据集;
S202:将训练数据输入特征提取模型中,提取出数据特征作为训练特征信息;
S203:将训练特征信息及对应的标签数据输入轻量化预测模型中,更新特征提取模型和轻量化预测模型的参数;
本实施例中,通过现有的MSE损失函数优化特征提取模型和轻量化预测模型的参数。
S204:将训练特征信息及对应的标签数据上传至云平台并输入至大规模预测模型中,更新大规模预测模型的参数,进而蒸馏输出该轮训练的注意力特征;
本实施例中,通过现有的MSE损失函数优化大规模预测模型的参数。
S205:基于云端迁移的注意力特征和历史数据对特征提取模型和轻量化预测模型进行训练和参数更新;
本实施例中,通过MSE损失函数+注意力蒸馏损失函数优化轻量化预测模型的参数。
S206:重复步骤S202至S205,直至特征提取模型和轻量化预测模型达到预期。
本发明基于注意力机制、残差网络等深度学习方法,提出了一种深度多卷积核注意力残差网络模型即大规模预测模型,以及轻量化动态空洞卷积模型即轻量化预测模型,并建立了云边缘协同训练、边缘侧实时推理的智能框架,使得能够充分发掘不同传感器数据的时序信号在不同领域之间的数据特征,并对其进行了时间和空间上的数据融合,与现有其他模型相比,本发明的云边协同构架具有更好的预测精度和更快的推理速度,从而能够进一步提高刀具磨损状态预测的精度和实时性。
具体实施过程中,如图8所示,云模型与轻量化模型分别得到相应的注意力特征Fo w ×1×c,分别按照下式进行注意力映射操作,得到对应的时间特征序列ft。
式中:ft表示时间特征序列;Fo w×1×c为注意力特征;为注意力特征Fo w×1×c每个通道域的特征向量;c表示通道个数;通过该式计算得到大规模预测模型和轻量化预测模型中注意力特征的时间特征序列ft c_i和ft e_i。
采用余弦距离来度量边缘模型中每个特征时间序列与其对应云模型序列之间的权重相似程度。
基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失,进而通过该训练损失对轻量化预测模型进行参数更新;
其中,Loss_all=Loss_mse+λLoss_att=Loss_mse+λ∑i=a,b,cDC(ft c_i,ft e_i);
λ=(1-αep)λ0;
式中:Loss_all表示训练损失;Loss_mse表示MSE损失;Loss_att表示注意力蒸馏损失;N为批量大小;为预测值;yi为标签数据;DC(f1,f2)表示余弦距离;<f1,f2>表示两向量内积;ft c_i和ft e_i分别为大规模预测模型和轻量化预测模型中注意力特征的时间特征序列;/>和/>分别表示时间特征序列ft c_i和ft e_i中的元素值;w为张量时间域数量;λ表示动态蒸馏损失系数;α表示一个小于1的数;λ0表示初始蒸馏损失系数;ep表示训练轮数。
本发明基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失,进而通过该训练损失对轻量化预测模型进行参数更新,实现了基于注意力特征的云边协同训练,能够充分利用云平台的模型知识来提升边缘侧轻量化预测模型的精度,避免了因边缘侧轻量化预测模型的结构简单、参数量少导致的模型预测精度有限的问题。
具体实施过程中,在实际生产环境当中,机床刀具磨损数据源源不断产生,随着时间的推移、设备的老化以及加工条件变化等,模型的性能也会随之降低。由于存储限制或隐私保护等原因,旧数据往往无法用于模型的重新训练,但仅依靠新数据当中的知识,则很容易造成模型的灾难性遗忘。
为此,本发明将待测特征信息上传至云平台并输入至大规模预测模型中进行模型精度评估,当大规模预测模型的损失超出期望阈值时,对大规模预测模型进行增量式训练,进而提出了一种基于历史模型库与注意力遗忘因子的增量式训练方法。
基于历史模型库与注意力遗忘因子的增量式训练方法的算法如下:
如图9所示,增量式训练具体包括步骤如下:
S211:用历史模型库中最新的参数初始化待训练模型,将新的训练数据分别输入待训练模型和历史模型,分别计算各个历史模型与待训练模型特征映射之间的欧氏距离;
本实施例中,历史模型库存储历史训练过程中每一个版本的大规模预测模型的参数。
式中:表示模型特征之间的欧式距离;F和Fi分别为待训练模型与历史模型的特征张量;Dt和Dc分别为时间序列和通道序列的欧式距离;xj和/>分别为待训练模型与历史模型的时间序列元素;yk和/>分别为待训练模型与历史模型的通道序列元素;
S212:基于每一个历史模型均得到一个距离损失
S213:基于历史模型的重要程度,设置对应的遗忘因子η;
η=η0e-ki;
式中:η0表示初始遗忘因子;k表示遗忘系数;i表示历史模型编号;随着模型的更新,历史模型的特征距离损失权重成指数级下跌;
S214:基于历史模型与待训练模型特征映射之间的欧氏距离构建增量式损失函数,以此为指标进行增量化训练;
式中:Lincre表示增量式损失;Lmse表示标签数据的均方方差;n表示历史模型个数。
在实际生产环境当中,机床刀具磨损数据源源不断产生,随着时间的推移、设备的老化以及加工条件变化等,模型的性能也会随之降低。
为此,本发明提出了上述基于注意力遗忘因子的增量化训练算法,通过边缘模型库的历史模型及参数结合遗忘因子对大规模预测模型进行增量式训练,使得能够避免历史数据的大规模重复训练或灾难性遗忘,进而提高大规模预测模型的终身学习能力,从而能够在长期运行过程中持续性的保证轻量化预测模型的刀具磨损状态预测精度,为数控机床刀具磨损状态检测提供了一种切实可行的解决方案。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.基于云边协同训练的刀具磨损状态预测系统,其特征在于,包括:
设备层,用于获取待测刀具的传感器数据;
边缘平台,部署有经过训练的特征提取模型和轻量化预测模型;特征提取模型用于提取传感器数据中的数据特征作为待测特征信息,轻量化预测模型用于将待测特征信息作为输入并输出对应的刀具磨损状态预测结果;
云平台,部署有基于注意力机制的大规模预测模型;所述大规模预测模型学习注意力特征,并将其蒸馏到边缘平台的轻量化预测模型中,以实现云边模型的协同训练;
基于云边协同训练的刀具磨损状态预测方法,基于刀具磨损状态预测系统实施,具体包括以下步骤:
S1:通过设备层获取待测刀具的传感器数据,并上传至边缘平台;
S2:边缘平台接收传感器数据并输入经过训练的特征提取模型中,提取出数据特征作为待测特征信息;然后将待测特征信息输入经过云边协同训练的轻量化预测模型中,输出对应的刀具磨损状态预测结果;
步骤S2中,通过如下步骤实现云边协同训练:
S201:获取具有若干组训练数据及其标签数据的训练数据集;
S202:将训练数据输入特征提取模型中,提取出数据特征作为训练特征信息;
步骤S202中,特征提取模型包括两部分卷积操作,第一部分卷积操作包括将1×1卷积核和3×1卷积核的卷积结果相加并进行批量正则化;第二部分卷积操作包括将不同尺寸核的基本卷积结果进行通道拼接,基本卷积包含卷积、批量正则化和ReLU激活函数;
特征提取模型将传感器数据作为第一部分卷积操作的输入;对经过第一部分卷积操作批量正则化后输出的结果进行池化处理,并作为第二部分卷积操作的输入;最后对第二部分卷积操作和通道拼接后的结果进行池化处理,输出对应的特征张量即数据特征;
其中,基本卷积表示为:
BasicConv(X)=relu(bn(conv(X,k,1)))=relu(bn(Wk*X+bk));
式中:X表示输入数据;Wk表示大小为k1×k2的卷积核;*表示卷积操作;bk表示偏置;relu表示ReLU激活函数;在卷积与ReLU激活函数之间添加批量正则化操作bn;
ReLU激活函数relu表示为:
式中:x表示输入数据;
通过学习小批量数据中的均值μβ和方差以实现批量正则化;
式中:xi表示输入数据样本;m表示当前批次数据大小;
式中:ε表示大于零的较小值;γ和β分别表示可训练的比例参数和偏差参数;表示规范化后的数据;yi是自学习尺寸变换和偏移后的输出;
池化操作的基本池化层表示为:
BasicPool(x)=concat(pool(x,k1,s),conv(x,k2,s));
式中:pool表示池化操作;conv表示卷积操作;k1和k2分别表示池化核和卷积核的尺寸;s表示步长;concat表示将特征向量进行通道维度拼接;
特征张量Ff的形状为wf×1×cf;
式中:wf表示时域尺寸;cf表示通道域尺寸;
S203:将训练特征信息及对应的标签数据输入轻量化预测模型中,更新特征提取模型和轻量化预测模型的参数;
步骤S203中,轻量化预测模型在大规模预测模型的架构基础上取消了密集连接结构并通过空洞卷积来替代普通卷积,以实现轻量化设计;
S204:将训练特征信息及对应的标签数据上传至云平台并输入至大规模预测模型中,更新大规模预测模型的参数,进而蒸馏输出该轮训练的注意力特征;
步骤S204中,大规模预测模型包括由三个注意力密集模块依次连接构成的密集连接结构、两层池化层和全连接层;
其中,每个注意力密集模块包含若干个相应的密集层和一个注意力层,各个层之间进行密集连接;每一个密集层包含若干不同尺寸卷积核的基本卷积,对张量进行通道拼接后输入线性卷积,并与输入张量构成残差连接后进行ReLU激活得到该密集层的输出;注意力模块从时间和通道两个维度出发,为目标数据的特征进行权重学习;
其中,密集层的结构表示为:
IncepResLayer_B(Xi)=relu(Xi+linerConv(Xm,5×1));
Xm=concat(BasicConv(Xi,1×1),BasicConv(BasicConv(Xi,1×1),5×1));
式中:IncepResLayer_B表示第B种类型的密集层;Xi表示密集层的输入;relu表示ReLU激活函数;linerConv(x)函数表示无激活的线性卷积层;concat表示将特征向量进行通道维度拼接;BasicConv(x)表示基本卷积;
池化层包含相同步长、多尺寸卷积核的最大池化层和基本卷积层;
池化层的结构表示为:
Pool(Xi)=concat(Xm1,Xm2,Xm3);
Xm1=Maxpool(Xi,k1×1);
Xm2=BasicConv(Xi,k1×1);
Xm3=BasicConv(BasicConv(Xi,1×1),k1×1);
式中:Pool表示池化层;concat表示将特征向量进行通道维度拼接;Maxpool(x)表示最大池化操作,核尺寸为k1×1;Xi表示池化层的输入;BasicConv(x)表示基本卷积;所有卷积操作和池化操作的步长均为strides=4;
注意力模块的工作逻辑如下:
1)对给定的输入序列X=x1,x2,...,xT和滤波器F=f1,f2,...fK进行如下的时域卷积,得到相关序列A=a1,a2,...,aT;
通过Softmax函数获取最终的时域权重序列Y=y1,y2,...,yT;
2)对于输入特征Fi w×1×c,经过单通道1×1卷积得到一维序列并通过时域卷积和Softmax函数得到时域权重/>
式中:Softmax表示Softmax函数;TemporalConv表示时域卷积;Conv表示卷积;1×1和3×1分别表示卷积与时域卷积的卷积核形状;
3)时域权重转置后与输入特征Fi w×1×c进行矩阵相乘,得到一维序列/>并按照c/r的比率将一维序列/>的通道数进行缩小,同时进行层归一化与ReLU激活,再按照原始倍率进行原通道数的放回,得到通道域权重/>
式中:Conv表示卷积;ReLU表示ReLU激活函数;LayerNorm表示层归一化;表示时域权重;上标T表示转置操作;c/r表示通道域降维比率;
4)将时域与通道域的特征分别与对应的时域权重和通道域权重/>相乘,得到注意力映射张量/>并与输入特征Fi w×1×c构成残差连接得到注意力特征输出/>即注意力特征;
S205:基于云端迁移的注意力特征和历史数据对特征提取模型和轻量化预测模型进行训练和参数更新;
步骤S205中,基于历史数据的标签数据和注意力特征分别计算MSE损失和注意力蒸馏损失以得到对应的训练损失,进而通过该训练损失对轻量化预测模型进行参数更新;
其中,Loss_all=Loss_mse+λLoss_att=Loss_mse+λ∑i=a,b,cDC(ft c_i,ft e_i);
λ=(1-αep)λ0;
式中:Loss_all表示训练损失;Loss_mse表示MSE损失;Loss_att表示注意力蒸馏损失;N为批量大小;为预测值;yi为标签数据;DC(f1,f2)表示余弦距离;<f1,f2>表示两向量内积;ft c_i和ft e_i分别为大规模预测模型和轻量化预测模型中注意力特征的时间特征序列;和/>分别表示时间特征序列ft c_i和ft e_i中的元素值;w为张量时间域数量;λ表示动态蒸馏损失系数;α表示一个小于1的数;λ0表示初始蒸馏损失系数;ep表示训练轮数;
通过如下公式计算时间特征序列:
式中:ft表示时间特征序列;为注意力特征;/>为注意力特征/>每个通道域的特征向量;c表示通道个数;通过该式计算得到大规模预测模型和轻量化预测模型中注意力特征的时间特征序列ft c_i和ft e_i;
S206:重复步骤S202至S205,直至轻量化预测模型达到预期;
步骤S2中,将待测特征信息上传至云平台并输入至大规模预测模型中进行模型精度评估,当大规模预测模型的损失超出期望阈值时,对大规模预测模型进行增量式训练;
增量式训练具体包括步骤如下:
S211:用历史模型库中最新的参数初始化待训练模型,将新的训练数据分别输入待训练模型和历史模型,分别计算各个历史模型与待训练模型特征映射之间的欧氏距离;
式中:表示模型特征之间的欧式距离;F和Fi分别为待训练模型与历史模型的特征张量;Dt和Dc分别为时间序列和通道序列的欧式距离;xj和/>分别为待训练模型与历史模型的时间序列元素;yk和/>分别为待训练模型与历史模型的通道序列元素;
S212:基于每一个历史模型均得到一个距离损失
S213:基于历史模型的重要程度,设置对应的遗忘因子η;
η=η0e-ki;
式中:η0表示初始遗忘因子;k表示遗忘系数;i表示历史模型编号;随着模型的更新,历史模型的特征距离损失权重成指数级下跌;
S214:基于历史模型与待训练模型特征映射之间的欧氏距离构建增量式损失函数,以此为指标进行增量化训练;
式中:Lincre表示增量式损失;Lmse表示标签数据的均方方差;n表示历史模型个数;
S3:边缘平台基于刀具磨损状态预测结果生成反馈控制信息,并下发至设备层;
S4:设备层基于反馈控制信息控制待测刀具的机床执行对应动作。
2.如权利要求1所述的基于云边协同训练的刀具磨损状态预测系统,其特征在于:边缘平台还部署有数据预处理模块;数据预处理模块用于对传感器数据进行数据清洗和Z-score归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210754025.5A CN115034504B (zh) | 2022-06-28 | 2022-06-28 | 基于云边协同训练的刀具磨损状态预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210754025.5A CN115034504B (zh) | 2022-06-28 | 2022-06-28 | 基于云边协同训练的刀具磨损状态预测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034504A CN115034504A (zh) | 2022-09-09 |
CN115034504B true CN115034504B (zh) | 2024-05-28 |
Family
ID=83126925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210754025.5A Active CN115034504B (zh) | 2022-06-28 | 2022-06-28 | 基于云边协同训练的刀具磨损状态预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034504B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934931B (zh) * | 2024-01-16 | 2024-09-24 | 广州杰鑫科技股份有限公司 | 一种模型更新方法、装置、光缆智能运维系统和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070208A (zh) * | 2020-08-05 | 2020-12-11 | 同济大学 | 基于编码器-解码器阶段注意力机制的刀具磨损预测方法 |
CN112706001A (zh) * | 2020-12-23 | 2021-04-27 | 重庆邮电大学 | 一种基于边缘数据处理和BiGRU-CNN网络的机床刀具磨损预测方法 |
CN113569903A (zh) * | 2021-06-09 | 2021-10-29 | 西安电子科技大学 | 数控机床刀具磨损预测方法、系统、设备、介质、终端 |
CN114297912A (zh) * | 2021-12-08 | 2022-04-08 | 燕山大学 | 基于深度学习的刀具磨损预测方法 |
CN114619292A (zh) * | 2022-03-25 | 2022-06-14 | 南京航空航天大学 | 一种基于小波降噪和注意力机制融合gru网络的铣削加工刀具磨损监测方法 |
-
2022
- 2022-06-28 CN CN202210754025.5A patent/CN115034504B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070208A (zh) * | 2020-08-05 | 2020-12-11 | 同济大学 | 基于编码器-解码器阶段注意力机制的刀具磨损预测方法 |
CN112706001A (zh) * | 2020-12-23 | 2021-04-27 | 重庆邮电大学 | 一种基于边缘数据处理和BiGRU-CNN网络的机床刀具磨损预测方法 |
CN113569903A (zh) * | 2021-06-09 | 2021-10-29 | 西安电子科技大学 | 数控机床刀具磨损预测方法、系统、设备、介质、终端 |
CN114297912A (zh) * | 2021-12-08 | 2022-04-08 | 燕山大学 | 基于深度学习的刀具磨损预测方法 |
CN114619292A (zh) * | 2022-03-25 | 2022-06-14 | 南京航空航天大学 | 一种基于小波降噪和注意力机制融合gru网络的铣削加工刀具磨损监测方法 |
Non-Patent Citations (2)
Title |
---|
基于深度门控循环单元神经网络的刀具磨损状态实时监测方法;陈启鹏;谢庆生;袁庆霓;黄海松;魏琴;李宜汀;;计算机集成制造系统;20200715(第07期);58-69 * |
多监控数据融合下的铣削刀具磨损量预测;陈熠道 等;组合机床与自动化加工技术;20220415(第4期);96-100 * |
Also Published As
Publication number | Publication date |
---|---|
CN115034504A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738360B (zh) | 一种设备剩余寿命预测方法及系统 | |
Zan et al. | Control chart pattern recognition using the convolutional neural network | |
Liao et al. | Remaining useful life with self-attention assisted physics-informed neural network | |
KR102295805B1 (ko) | 학습 데이터 관리 방법 | |
WO2019022854A1 (en) | DATA2DATA: DEEP LEARNING FOR REPRESENTATION AND RECOVERY OF CHRONOLOGICAL SERIES | |
Abdullayeva et al. | Development of oil production forecasting method based on deep learning | |
Chen et al. | Transfer life prediction of gears by cross-domain health indicator construction and multi-hierarchical long-term memory augmented network | |
CN114218872A (zh) | 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法 | |
Hsu et al. | Remaining useful life prediction based on state assessment using edge computing on deep learning | |
CN116929815A (zh) | 基于物联网的设备工作状态监测系统及其方法 | |
US20240289610A1 (en) | Hybrid data- and model-driven method for predicting remaining useful life of mechanical component | |
CN117010263A (zh) | 一种基于卷积神经网络和长短期记忆网络的剩余寿命预测方法 | |
CN114118225A (zh) | 发电机剩余寿命预测方法、系统、电子设备和存储介质 | |
CN115034504B (zh) | 基于云边协同训练的刀具磨损状态预测系统及方法 | |
CN117669373A (zh) | 一种锻造成形装备液压系统能耗预测方法及系统 | |
CN115128978A (zh) | 物联网环境大数据检测与智能监控系统 | |
CN113984389A (zh) | 一种基于多感受野与改进胶囊图神经网络的滚动轴承故障诊断方法 | |
CN116628444A (zh) | 一种基于改进元学习的水质预警方法 | |
CN114417248B (zh) | 基于dcgan的线性轮廓过程质量异常监控方法和系统 | |
CN113094996B (zh) | 基于dda域自适应机制的智能故障迁移诊断方法 | |
CN114118139A (zh) | 一种基于谱范数gan的多工况机械故障诊断方法 | |
CN117154256B (zh) | 锂电池的电化学修复方法 | |
CN116894180B (zh) | 一种基于异构图注意力网络的产品制造质量预测方法 | |
Liu et al. | STA-APSNFIS: STA-optimized adaptive pre-sparse neuro-fuzzy inference system for online soft sensor modeling | |
Martins et al. | Prediction maintenance based on vibration analysis and deep learning–A case study of a drying press supported on a hidden Markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |