CN119894620A

CN119894620A - 提供双辊连铸机的自主运行的行动者-评论者学习代理

Info

Publication number: CN119894620A
Application number: CN202380066085.0A
Authority: CN
Inventors: J·阮; G·T·C·赵; N·J·森达拉姆; R·G·努宁; I·D·帕克斯; W·N·布莱杰德
Original assignee: Nucor Corp
Current assignee: Nucor Corp
Priority date: 2022-07-15
Filing date: 2023-07-14
Publication date: 2025-04-25
Also published as: WO2024015601A1; EP4540006A1; US20260021529A1; MX2025000576A; WO2024015601A9

Abstract

一种双辊连铸系统，包括反向旋转的铸辊、铸辊控制器、铸带传感器和控制器，所述反向旋转的铸辊在铸辊之间具有辊隙并且能够从辊隙向下输送铸带，铸辊控制器被配置为响应于控制信号调节铸辊之间的至少一个过程控制设定点，铸带传感器能够测量铸带的至少一个参数，控制器联接到铸带传感器以从铸带传感器接收铸带测量信号，并且联接到铸辊控制器以向铸辊控制器提供控制信号，控制器包括强化学习(RL)代理。RL代理还包括具有值函数和策略函数的无模型行动者‑评论者代理，RL代理已经在由多个不同人类操作者执行的连铸运行组成的多个连铸系统操作数据集上被训练。

Description

提供双辊连铸机的自主运行的行动者-评论者学习代理

背景技术

双辊连铸(TRC)是一种近净成形制造工艺，其用于生产钢和其他金属的带材。在该过程中，将熔融金属倾倒在两个铸辊的表面上，这两个铸辊同时将金属冷却并固化成接近其最终厚度的带材。该过程的特征在于快速的热机械动力学，其难以控制以实现最终产品的期望特性。这不仅对于稳态铸造是真实的，而且在“启动”期间(稳态铸造之前的铸造过渡时期)更是如此。在启动期间生产的带材金属通常包含不可接受量的缺陷。例如，带颤振是连铸机在35Hz和65Hz附近振动的现象。更具体地，振动引起固化过程中的变化并导致表面缺陷，如图1A和1B所示。在能够制造商业上可接受的带材金属之前，需要使颤振低于上限。

在启动和稳态铸造过程期间，人类操作者的任务是手动调节某些过程控制设定点。在启动过程期间，操作者的目标是尽可能快地稳定钢带的生产，包括减少颤振，以便在满足特定带质量度量的情况下最小化启动周期的长度，从而通过最小化过程启动损失来增加产品产量。他们通过一系列二元决策(接通/断开开关)和多个设定点的连续调节来做到这一点。总共，操作者控制超过二十个开关和设定点；对于后者，操作者必须确定何时调节设定点以及调节多少。

在操作者调节的设定点中，铸辊分离力设定点(从这里起将被称为“力设定点”)是在启动过程中被最频繁调节的设定点。它可以在大约五分钟的时段内被调节数十次。操作者在调节力设定点时考虑许多因素，但最重要的是带颤振，这是由连铸机的固有频率引起的带材缺陷。

操作者使用各种策略来调节力设定点。一种是考虑颤振测量的阈值；当颤振值增加到阈值以上时，操作者将开始减小力。然而，各个操作者基于他们自己的经验以及包括钢的特定等级或正在铸造的宽度的因素来使用不同的阈值。另一方面，将力减小太多可能导致钢带内的其他质量问题；因此，操作者通常被训练成在颤振减轻的情况下维持尽可能高的力。

已经尝试改进各种工业工艺，包括双辊连铸。近年来，人在回路控制系统变得越来越普及。代替将人考虑为外源信号(诸如干扰)，人在回路系统将人视为控制系统的一部分。人在回路应用可以分为三个主要类别：人类控制、人类监测以及这两者的混合。人类控制是当人直接控制过程时，这也可以被称为直接控制。监督控制是一种混合途径，其中人类操作者调节特定的设定点并且以其他方式监督主要自动控制的过程。监督控制通常出现在工业中，并且到目前为止一直是操作双辊连铸机的主要方式。然而，人类操作者之间的变化，例如他们的个性特征、过去的经验、技能水平或甚至他们当前的情绪的变化，以及变化的、非特征的过程因素，持续导致过程操作的不一致。

已经考虑将人类行为建模为黑盒问题。更具体地，研究人员同意系统识别技术可以用于模拟人在回路控制系统中的人类行为。这些通常参考人类行为的预测模型，并且随后参考基于所识别的模型的控制器设计。首先识别人类行为的模型并且然后设计基于模型的控制器的这种途径的有效性取决于可用数据。不利地，如果人类数据包含多个不同的操作者行为，则由于不同操作者之间的显著变化，任何识别的模型将可能对数据欠拟合并导致表现不佳的控制器。

此外，所提出的途径旨在表征人类操作者在系统中作为反馈控制器的角色，但是，所提出的途径不是对人类操作者的行为进行建模，而是基于系统模型来识别最优控制策略。换句话说，它们不直接从经验丰富的人类操作者使用的策略中学习。在一些工业应用中，特别是在诸如过程启动的操作的高度瞬态时段期间，系统建模可能极其困难，并且不是所有控制目标都能够被量化。因此，使用基于模型的方法使这样的过程自动化并不是微不足道的；相反，需要一种方法来根据显式控制目标和人类操作者行为揭示的隐式控制目标两者来确定最优操作策略。

发明内容

双辊连铸系统包括一对反向旋转的铸辊、铸辊控制器、铸带传感器、以及控制器，所述一对反向旋转的铸辊在铸辊之间具有辊隙并且能够从辊隙向下输送铸带，铸辊控制器被配置为响应于控制信号调节铸辊之间的至少一个过程控制设定点，铸带传感器能够测量铸带的至少一个参数，控制器联接到铸带传感器以从铸带传感器接收铸带测量信号，并且联接到铸辊控制器以向铸辊控制器提供控制信号，控制器包括强化学习(RL)代理。RL代理还包括具有值函数和策略函数的无模型行动者-评论者代理(actor-critic agent)，RL代理已经在由多个不同的人类操作者执行的连铸运行组成的多个连铸系统操作数据集上被训练。

在一些实施例中，RL代理还包括优势函数，该优势函数将所选动作的优势值计算为所选动作的即时奖励值加上所选动作的后续状态的折扣值减去当前状态的值；并且优势值用于训练策略函数。在一些实施例中，策略函数被配置为以如下方式评估优势函数：相对于在所述多个连铸系统操作数据集中未找到的动作，对来自所述多个连铸系统操作数据集的具有负优势值的动作进行赋值(value)。

在一些实施例中，RL代理还包括优势函数，该优势函数将所选动作的优势值计算为所选动作的即时奖励值加上所选动作的后续状态的折扣值减去当前状态的值；并且优势值的自然指数用于训练策略函数。

铸带传感器可以包括厚度测量仪，该厚度测量仪跨铸带的宽度上以间隔测量铸带的厚度。过程控制设定点可以包括铸辊之间的力设定点，并且铸带的参数可以包括颤振。

在一些实施例中，RL代理还包括奖励函数，该奖励函数基于颤振和边缘尖峰参数的用户定义阈值将即时奖励计算为加权的分段定义的奖励函数。在一些实施例中，RL代理还包括优势函数，该优势函数将优势值计算为所选动作的即时奖励值加上所选动作的后续状态的折扣值减去当前状态的值。

铸带的所述至少一个参数可包括颤振和至少一个带轮廓参数。所述至少一个带轮廓参数可选自由边缘凸起、边缘脊、最大峰值和高边缘标志(high edge flag)组成的组。

策略函数可以包括随机策略函数。策略函数还可以包括对先前步骤的动作的依赖性。

操作数据集中的数据可以被扩充。在该实施例中，对于操作数据集中的每个步骤，嵌入来自前一步骤的递归(recurrence)以改进行动者训练过程。

附图说明

图1A是没有颤振缺陷的带轮廓。

图1B是具有颤振缺陷的带轮廓。

图2是根据本发明的至少一个方面的双辊连铸机的图示。

图3是图2中所示的双辊连铸机的细节的图示。

图4是训练数据集的簇的平均力轨迹的图。

图5A是图4中的簇1的力轨迹的示例的图。

图5B是图4中的簇2的力轨迹的示例的图。

图5C是图4中的簇3的力轨迹的示例的图。

图6A是图4中的簇1的最大颤振幅度谱的图。

图6B是图4中的簇2的最大颤振幅度谱的图。

图6C是图4中的簇3的最大颤振幅度谱的图。

图7是RL代理的力设定点值轨迹和相关联的颤振轨迹的绘图。

图8是比较两个RL代理的力设定点值轨迹和相关联的颤振轨迹的绘图。

图9是比较两个RL代理的力设定点值轨迹和相关联的颤振轨迹的第二绘图。

图10是比较两个RL代理的力设定点值轨迹和相关联的颤振轨迹的第三绘图。

图11是比较两个RL代理的力设定点值轨迹和相关联的颤振轨迹的第四曲线图。

图12是比较RL代理的力设定点值轨迹与操作者的力设定点值轨迹以及相关联的颤振轨迹的绘图。

图13是比较RL代理的力设定点值轨迹与操作者的力设定点值轨迹以及相关联的颤振轨迹的第二绘图。

图14A是沿着铸带的长度的厚度变化的图示。

图14B是铸带轮廓中的波纹缺陷的图示，包括边缘尖峰。

图15是描述边缘尖峰参数的铸带横截面的示意图。

图16是操作数据集的平均轮廓宽度与簇的数量的图。

图17示出了在不同聚类设置下每个样品的轮廓宽度。

图18A示出了第一簇中的力轨迹的示例。

图18B示出了第二簇中的力轨迹的示例。

图19A示出了在初始边缘尖峰的第一情况下的RL代理验证。

图19B示出了在初始边缘尖峰的第二情况下的RL代理验证，第二情况具有比第一情况更低的边缘尖峰。

图20A示出了在初始边缘尖峰的第三情况下的RL代理验证。

图20B示出了在初始边缘尖峰的第四情况下的RL代理验证，第四情况具有与第三情况类似的边缘尖峰。

图21是双辊连铸机的简化图，示出了辊分离力与铸造钢带的关系。

图22示出了在第五情况的操作条件下、在没有增强的数据集控制的情况下，人类操作者和RL代理的力和控制目标的轨迹。

图23示出了在第五情况的操作条件下、在没有增强的数据集控制的情况下，具有人类操作者和RL代理的对应损失的力和厚度的轨迹。

图24示出了在第五情况的操作条件下、在具有增强的数据集控制的情况下，人类操作者和RL代理的力和控制目标的轨迹。

图25示出了在第五情况的操作条件下、在具有增强数据集控制的情况下，具有人类操作者和RL代理的对应损失的力和厚度的轨迹。

具体实施方式

参考图2和图3，双辊连铸机总体上由11表示，其生产薄铸钢带12，薄铸钢带12穿过引导台13进入过渡路径到达夹送辊架14。在离开夹送辊架14之后，薄铸带12进入并通过热轧机16，热轧机16包括支承辊16B以及上工作辊和下工作辊16A，在那里带的厚度减小。带12在离开轧机15时传送到输出台17上，在输出台17处带12可以通过水(或水/空气)射流18被强制冷却，然后带12通过包括一对夹送辊20A的夹送辊架20并到达卷取机19。

双辊连铸机11包括主机架21，主机架21支撑一对侧向定位的铸辊22，铸辊22具有铸造表面22A并在它们之间形成辊隙27。熔融金属在铸造活动期间从浇包(未示出)供应到中间包23，通过耐火护罩24供应到可移除中间包25(也称为分配器容器或过渡件)，然后通过铸辊22之间的辊隙27上方的金属输送喷嘴26(也称为芯喷嘴)。钢水经由护罩24的出口从中间包23引入可移除中间包25中。中间包23装配有滑动闸阀(未示出)以选择性地打开和关闭出口24并有效地控制熔融金属从中间包23到连铸机的流动。熔融金属从可移除中间包25流动通过出口，并且可选地流动到芯喷嘴26并通过芯喷嘴26。

这样输送到铸辊22的熔融金属在辊隙27上方形成由铸辊表面22A支撑的铸造池30。该铸造池在辊的端部处由一对侧挡板或板28限制，侧挡板或板28通过一对推进器(未示出)施加到辊的端部，推进器包括连接到侧挡板的液压缸单元。铸造池30的上表面(通常称为“弯液面”水平)可以升高到输送喷嘴26的下端上方，使得输送喷嘴26的下端浸没在铸造池内。

铸辊22通过冷却剂供应(未示出)在内部被水冷却，并通过驱动器(未示出)在反向旋转方向上被驱动，使得壳在移动的铸辊表面上固化并在辊隙27处被带到一起以产生薄铸带12，薄铸带12从铸辊之间的辊隙被向下输送。

在双辊连铸机11下方，铸钢带12在密封外壳10内被传送到引导台13，引导台13引导带通过用于测量带轮廓的X射线仪到达夹送辊架14，带通过夹送辊架14离开密封外壳10。外壳10的密封可以不是完全的，但是适合于允许控制外壳内的气氛和控制氧气接取到外壳内的铸带。在离开密封外壳10之后，带可以在夹送辊架14之后穿过另外的密封外壳(未示出)。

铸辊控制器94联接到控制所有铸辊操作功能的致动器。控制之一是力设定点调节。这决定了当带在铸辊之间被铸造和凝固时施加到带上的力的大小。来自力致动器的反馈中的振荡指示颤振。力致动器反馈可以提供给铸辊控制器或由单独的设备/软件记录。

控制器92包括经训练的RL代理，其通过例如计算机网络联接到铸辊控制器94。控制器92向铸辊控制器94提供力致动器控制输入并接收力致动器反馈。力致动器反馈可以来自可商购的数据记录软件或铸辊控制器94。

在一些实施例中，在带进入热轧支架之前，通过厚度测量仪44获得横向厚度轮廓并将其传送到控制器92。

本发明通过采用诸如深度Q网络(DQN)的无模型强化学习引擎来避免已知控制系统的缺点，深度Q网络已经在来自手动控制过程的度量上被训练作为控制器92中的RL代理，度量包括操作者动作和连铸机响应。DQN是近似每个状态-动作对的动作值的神经网络。

在下面提供的第一实施例中，提供了具有一个动作以及奖励函数的RL代理的配置和训练，该奖励函数具有一个连铸机质量度量。然而，这是为了本公开的清楚，并且附加的动作和连铸机反馈响应可以并入RL代理中。附加的动作包括轧机控制。附加的度量可以包括例如铸带轮廓测量和平坦度测量。此外，虽然本文公开的各种实施例使用RL代理作为示例，但是其他无模型自适应和/或学习代理也可以是合适的，并且因此可以在任何公开的实施例中进行代替。

在第一实施例中，DQN是将状态映射到动作集中所有动作的动作值的函数，如等式1所示，其中Q是神经网络，S是样本的状态信息，并且对应于动作集中N个元素的动作值。

在一些实施例中，时间步t处的状态被定义为S_t＝[C_t,δC_t,F_t,δF_t]，其中C和δC分别是颤振和在一个时间步长上的颤振的变化，并且F和δF分别是力和在一个时间步长上的力的变化。在一些实施例中，以10Hz记录铸造数据。可以将操作者进行的力设定点调节下采样到0.2Hz，这基于观察到操作者通常不比0.2Hz更频繁地调节力设定点。给定颤振信号的噪声特性，可以对每50个连续样本求平均(即，在5秒时段内平均颤振)以获得C_t。在一些实施例中，使用非重叠的5秒块。两个索引下标表示数据样本，即t和k。时间索引t表示单个铸造序列(cast sequence)内的时间步。样本索引k表示数据集中样本的唯一索引，该数据集包含来自所有铸造序列的样本。

在一些实施例中，动作被定义为当前时间步和下一时间步之间的力设定点值的变化。与连续值的状态不同，动作是从离散集A∈a_i,{i＝1,2,…,N}中选择的。在这里考虑的问题中，N＝4；存在三个常用的力减小速率，并且最后一个动作代表保持力值不变。

在强化学习(RL)中，奖励反映了用户重视的内容以及用户避免的内容。在使用RL来设计用于调节过程设定点的策略的背景下，可以使用两种类型的信息：1)“专家”操作者的行为，以及2)在状态方面明确定义的性能度量。每个都在定义激励期望行为的奖励函数方面发挥不同的作用。

考虑到人类操作者可以基于一般经验规则和他们对该过程的个人经验来控制该过程，旨在模拟操作者的行为的奖励函数是在不需要他们的决策模型的情况下捕获他们的专业知识的方式。另一方面，如果奖励函数被设计为仅模拟其行为，则经训练的RL代理将不一定能够改进操作者的动作。为了实现后者，考虑奖励函数的第二分量是有用的，其将价值置于显式性能度量上。例如，在该第一实施例中解决的力设定点调节问题中，期望的性能目标是低于某个上限T_su的短启动时间和低于某个上限C_ub的低颤振水平，如下所述。

在一些实施例中，性能目标的隐式表征包括以下内容。为了更好地表征不同的力设定点调节行为，可以基于操作者在每次铸造期间针对给定金属等级和带宽度实施的力设定点轨迹、应用k均值聚类算法来聚类超过200个单独的铸造序列，所有铸造序列表示相同的金属等级和带宽度，以确保通过聚类识别的差异是在针对该等级和宽度的每次铸造活动期间工作的人类操作者的行为的函数。

附加的等级和宽度可以以类似的方式表征。替代地，附加的等级和宽度可以使用相同的经训练的RL代理，但是具有分配给不同等级和宽度的不同起始点。

在本文的示例中，力设定点调节行为的特征在于初始自动调节之后的500秒时段的力设定点轨迹。在一个示例中，在可用的铸造数据序列中，表示总共6个不同操作者的行为。在给定的铸造期间，该过程由2个操作者的班组(crew)操作，其中一个负责力设定点调节。为了考虑不同班组的不同力设定点调节行为，对训练数据集进行聚类并识别受偏好的行为。在一些实施例中，对于k均值算法，k＝{3,4,5,6}。在该示例中，对于数据集，聚类结果对于k＝3是最稳定的。只有2％的铸造序列保持从一个簇偏移到另一个簇。k的其他值可能适用于其他数据集。图4示出了平均力轨迹，其通过分别对每个簇的力轨迹中的每个时间步的值求平均来计算。图5(a)-5(c)示出了来自三个簇中的每一个的示例。图6(a)-6(c)示出了三个簇中的每一个的颤振幅度的直方图。根据表I，簇3具有最短的平均启动时间，但不具有最小的启动时间变化；簇1具有最小的启动时间变化，但不具有最短的平均启动时间。

簇3的特征还在于最激进(aggressive)的设定点调节行为，既在力设定点减小的速率方面，也在力设定点减小的总幅度方面。属于簇3的铸造序列的另一个特征是，由于对设定点的激进调节，它们覆盖更宽范围的力设定点值。簇3是受偏好的，因为它在三个力行为簇中具有最短的平均启动时间和最低的总颤振水平。

表I：力簇的经缩放(scaled)的时间性能统计；平均启动时间和标准偏差被归一化至簇2。

除了奖励对某些操作者设定点调节行为的模拟之外，奖励函数还应当显式地激励期望的性能度量。关于实现短启动时间T_su，重要的是同等地奖励或惩罚每个时间步，因为不知道在铸造开始附近做出的决定是否导致短启动时间。为了强调具有不同启动时间的铸造序列应该被不同地奖励，在一些实施例中，每个步的时间奖励是其中T_su是启动时间，并且T_ub是用户认为可接受的启动时间的上限。当序列启动时间T_su接近上限时，指数函数导致增加的惩罚率。

在该实施例中，第二性能目标是将颤振值维持在某个用户定义的阈值以下。因此，定义了由C_ub表示的最大可接受颤振值；如果颤振值低于C_ub，则不存在分配给该步的颤振惩罚。在数学上，颤振奖励可以表示为[min(0,C_ub-C_t)]。以减少颤振为代价，将力减小太多可能导致钢带的其他质量问题。因此，可接受力的下限F_lb也是强制的。

总奖励函数如等式2所示：

除了上述隐式和显式性能目标之外，使用R_t的第一项在每个样本处施加常数奖励。根据铸造活动记录，可以观察到，当给定样本处的颤振值和启动时间都在可接受的水平内时，操作者通常避免在给定时间步处减小力设定点。为了激励RL代理从该行为中学习，将常数奖励分配给从操作者的铸造记录获得的每个样本。如果对于一样本，时间和颤振罚分(负奖励)两者的总和小于该常数，该样本的净奖励仍然是正的。此外，为了强调存在期望RL代理从中学习的特定类型的行为，可以向来自受偏好的力行为的簇的铸造序列中的样本分配额外的常数奖励，并且这些样本中的每一个的净奖励将是正的。与下面的修改的训练算法相关联，这些正净奖励激励RL代理在某些情况下遵循操作者的行为。

在典型的DQN训练过程中，RL代理基于更新的值函数执行附加试验，并从新试验收集更多数据。然而，操作实际双辊带钢连铸机的费用，包括所考虑和生产的材料，使得训练RL代理在实际连铸机上执行试验是不可行的。在这种情况下，从铸造收集来自操作者控制的铸造活动的所有可用样本，以在每个训练步骤中训练值函数Q。可以在实际运行的连铸机上继续训练。

在一些实施例中，使用MATLAB深度学习工具箱来初始化和训练DQN。然而，可以使用其他强化学习网络和工具。具体地，如算法1所示，采用train()函数，并且所有样本的状态S_K作为网络输入，并且其对应的动作值q_K用作训练值函数的参数集的标签。

算法1深度Q网络学习过程的伪代码(修改版本)

1：初始化折扣因子γ

2：初始化参数集并创建神经网络

3：初始化每个样本的动作值q_k

4：用所有样本训练

5：for每次迭代do

6：更新q_K：

7：用所有样本训练

8：end for每个q_k收敛

训练过程中的另一修改是动作值q_k的更新。q_k是1乘N向量，并且其每个元素(entry)表示一个动作选项的动作值。如以下等式3所示：

其中onehot(A_k)是动作A_k的独热编码(所选动作的元素为1并且其余为0的1乘N向量)，d是指示当前状态是否是轨迹的终端的二进制指示符，ones是所有元素为1的1乘N向量，S_k′是在当前状态S_k之后一个时间步长的状态。该等式将所选动作的动作值更新为即时奖励与下一时间步的状态的折扣最大值之和。然而，对于未被选择的那些动作，不是通过使用来自先前迭代的值函数来近似它们的动作值，而是将它们的动作值设置为零加上下一状态的折扣最大值。该q_k更新更像分类问题的标记过程一样工作。如果即时奖励是正的，则经训练的RL代理更可能像操作者一样行动，并且增加即时奖励会提高模拟操作者行为的可能性。相反，如果即时奖励是负的，则与未被选择的其他N-1个动作相比，由操作者选择的动作更少可能被选择。另外，选择所述N-1个动作中的每一个的可能性相等地增加。

通过将DQN与贪婪策略组合并在每个给定状态下选择最有价值的动作，经训练的RL代理可以调节力设定点。要求RL代理基于可用的铸造序列数据提供力设定点调节，并在验证集中记录每个铸造序列的力设定点轨迹。算法2中示出了更具体的测试过程。

算法2代理检查的伪代码

1：从铸造序列数据获得F₁、C₁、C₀

2：初始化δ(F₁)＝0

3：计算δ(C₁)＝C₁-C₀

4：形成第一状态：S₁＝[F₁,δ(F₁),C₁,δ(C₁)]

5：导入经训练的动作值函数Q

6：初始化时间步t＝1

7：for每个时间步t do

8：计算当前状态下的动作值：

9：基于动作值选择动作：

10：从铸造序列获得C_t+1。

11：计算δ(C_t+1)←C_t+1-C_t

12:ifF_t≥F_lb then

13：更新δ(F_t+1)←A_t

14：计算F_t+1←F_t+A_t

15：else

16：更新δ(F_t+1)←0

17：计算F_t+1←F_t

18：end if

19：形成下一个状态：S_t+1←[F_t+1,δ(F_t+1),C_t+1,δ(C_t+1)]

20：更新t←t+1

21：end for直到铸造序列结束

算法2用于计算和收集不同颤振场景下每个RL代理的力决策轨迹。图7包含RL代理的力设定点值轨迹和相关联的颤振轨迹，在该颤振轨迹下，针对T_ub＝500、C_ub＝0.5进行这些力调节，并且偏好由簇3描述的操作者行为。当颤振超过指定阈值和/或颤振具有增加的趋势时，RL代理开始减小力设定点；类似地，随着颤振减小到阈值以下和/或颤振显示出减小的趋势，RL代理停止力设定点的进一步减小。如所预期的，这些结果与奖励函数的设计一致。

为了证明经训练的RL代理对用于训练的操作者数据的敏感性，创建了两个不同的受偏好的簇。第一个仅包含来自最激进的簇(来自k均值聚类结果的簇3)的铸造序列，而第二个包含来自最激进的簇(簇3)和适度簇(簇2)两者的铸造序列。两个RL代理都用相同的数据集但不同的偏好簇设置进行训练。属于簇3的铸造序列在两种训练设置中被认为是受偏好的，因为这些数据包括跨可能的力状态值的整个范围的系统操作，而属于簇1和2的数据则不是。

图8和图9给出了在不同颤振场景下的RL代理反应的示例。RL代理A选择比RL代理B更快地减小力设定点，RL代理A是用偏好最激进的操作者行为的奖励函数训练的RL代理，RL代理B用偏好适度以及激进的操作者行为的奖励函数训练。这些结果与奖励函数的设计一致，并且证明了用于训练的操作者行为的选择如何影响每个RL代理。

为了证明奖励函数对性能指定变化的敏感性，奖励函数中的其他参数可以被固定，但是改变最大可接受颤振值C_ub并训练两个RL代理。表II示出了两个RL代理的奖励函数设置的细节。

表II：代理C和D参数设置

代理	颤振值阈值C_ub	启动时间阈值T_ub	受偏好的簇
				C	0.5	500	3
D	1	500	3

图10和图11提供了在不同颤振场景下的RL代理反应的示例。用较低的最大可接受颤振值训练的RL代理C显示出比用较高的最大可接受颤振值训练的RL代理D更激进的力调节行为。这再次与奖励函数的设计一致，并且展示了即使当使用相同的数据来训练每个RL代理时，性能指定如何影响每个RL代理的行为。

最终，训练RL代理以自动调节力设定点的目的是改善双辊带连铸工艺(或可能适用的其他工艺)的性能和一致性。为了在运行的双辊连铸机上实施RL代理之前验证经训练的RL代理，将经训练的RL代理的行为直接与不同人类操作者的行为进行比较。因为RL代理并未为了验证目的而在在线连铸机上实施，所以比较是在操作者的过去动作(其中他们的决定影响力状态并且进而影响颤振)与RL代理在给定那些特定力和颤振测量值的情况下将做的动作之间进行的。尽管如此，这为评估人类操作者和机器RL代理之间的差异提供了一些基础。

在一个示例中，将RL代理C与人类操作者行为在两个不同铸造中进行比较。在图12中，即使颤振显示出强烈的增加趋势，操作者也不减小力设定点。在图13中，操作者在颤振开始增加之前开始减小力。具有双辊带连铸专业知识的工程师评估了这些比较，并认为RL代理的行为优于人类操作者的行为。然而，重要的是要注意，在每种情况下，人类操作者可能会考虑除了颤振之外的影响带的质量的其他因素，这些因素可能解释他们在这些铸造期间的决策。

在一些实施例中，将附加的连铸机响应添加到奖励函数。例如，在一些实施例中，带轮廓由测量仪44测量并提供给RL代理92。测量仪44可位于铸辊与热轧机16之间。带轮廓参数可以包括边缘凸起、边缘脊、相对于100mm的最大峰值和高边缘标志。这些中的每一个可以被分配上限。与颤振奖励函数一样，轮廓参数的奖励函数被设计为当测得的参数接近它们各自的上限时分配负奖励。这些奖励函数可以被缩放，例如，以向每个参数分配相等的权重，然后求和。总和可以被缩放以确保颤振奖励项至少在启动期间占主导地位。这种奖励函数的示例在等式4中示出：

其中C是颤振，bg是边缘凸起，rg是边缘脊，mp是相对于100mm的最大峰值，并且fg是高边缘标志。这导致奖励函数具有颤振分数和轮廓分数。可以测量并包括在奖励函数中的附加轮廓参数包括总厚度轮廓、轮廓凸度和与铸辊的旋转频率相关的重复周期性干扰。

在另一个实施例中，上述每个实施例可以扩展到在启动时间过去之后在稳定状态条件下操作连铸机。在一些实施例中，奖励函数被修改，例如，以消除启动时间项。例如，在具有上面提供的颤振项和轮廓项两者的实施例中，奖励函数可以如等式5所示进行修改：

还可以调节颤振和轮廓奖励函数的相对权重。

在其他实施例中，针对稳态操作开发不同的奖励函数，并且针对稳态操作训练不同的RL代理。在其它实施例中，开发并训练基于模型的A.I.代理用于稳态操作。在一些实施例中，一个或多个基于模型的控制器与经训练的无模型RL代理被同时操作。例如，迭代学习控制器可以控制楔形以减少周期性干扰，如WO 2019/060717 A1中所述，其通过引用并入本文，并且本文所述的任何RL代理可以实现动作以减少颤振和/或轮廓缺陷。

在上面的深度Q网络RL代理中，示出了经训练的RL代理能够基于单个目标信号独立地调节一个设定点。然而，可能期望将RL代理扩展到多个目标信号和包含多个时变目标的奖励函数，以确定和应用偏移可能是不切实际的。此外，由于训练过程仅使用来自人类记录的有限数据集，因此不平衡的数据集也可能负面地影响代理的行为。

因此，在RL代理的另一个实施例中，为其中定义了多个控制目标的控制问题提供了修改的行动者-评论者算法。类似于上面的修改的DQN算法，修改的行动者-评论者算法仅用人类记录训练RL代理。还期望经训练的代理在类似情况下采取由一些操作者完成的最有回报的动作。然而，不是将偏移应用于奖励函数，而是采用行动者-评论者算法，其将策略函数训练作为多类别分类问题，使得能够基于数据集中的奖励和动作分布两者、应用成本敏感方法来更新策略函数。此外，该方法被应用于学习双辊连铸过程中的设定点控制策略，并且表明经训练的代理能够在给定场景下独立地进行合理且一致的设定点调节。

遵循下文表III中提供的命名法来讨论行动者-评论者算法。

表III：命名法

标记描述

S 状态

A 动作

Δ(.) 两个连续步之间的(.)的差

D 训练数据库

F 辊分离力设定点值

R 即时奖励

N 训练数据库中的样本数量

Φ 值函数的参数集

Ψ 策略函数的参数集

下标/上标的描述

(.)_k离散时间索引

(.)_i数据库中的样本索引

(.)_lb(.)的下限

使用行动者-评论者算法的RL代理包括两个主要函数，值函数和策略函数。值(评论者)函数V将状态映射到其值，该值被定义为从给定状态开始的预期长期奖励；即策略(行动者)函数π将状态-动作对映射到0和1之间的概率值，其表示在该策略下，在给定状态S下采取动作A的可能性。RL代理根据策略函数π与真实或模拟环境交互，并收集当前状态S、动作A、下一个时间步的状态S+1和即时奖励R，以更新值函数和策略函数两者。可以如上面的等式2、4或5、下面的等式9的分段定义的奖励函数或其他合适的奖励函数中所示来计算即时奖励R。考虑到有限训练数据集，可以如算法3所示来评估值函数。

算法3：值(评论者)函数训练过程的伪代码

1：初始化

2：形成具有样本的训练数据集：d_i∈D,d_i＝{S_ki,A_ki,S_(k+1)i,R_ki},i＝1,2,…N,

3：

4：forf＝1:迭代数do

5：ford_i∈D do

6：计算v_i＝R_ki+γ(1-β_i)V(R_(k+1)i|Φ_f-1)

(*β_i是二进制指示符，指示状态S_Ki是否是序列的结束状态)

7：end for

8：

9：end for

如果收集了任何新的观察结果，总是可以将它们包括到数据集D中并增加训练迭代。然而，在该示例中，使用有限训练集，并且收敛的值函数V将被固定并用于训练策略函数。策略函数的训练过程涉及根据优势值a更新在给定状态下选择特定动作的可能性。如等式6中的优势函数所示，如果即时奖励R和后续状态的折扣值γV(S_(k+1)i)之和大于当前状态的值V(S_ki)，则优势值a_i为正，并且动作A_ki被认为是有价值的，并且其在给定S_ki的情况下的可能性应该基于优势有多少而增加。然而，如果优势值a_i为负，则更新的策略函数在遇到S_ki时更少可能选择A_ki。当真实或模拟环境中的自由探索不可获得时，负优势值可能增加策略选择数据集中未表示的动作的可能性。换句话说，那个动作在所导致的状态方面的结果是未知的。为了缓解这一问题，用于确定增加π(A_ki|S_ki)的可能性多少。由于总是正的，所以与给定特定状态的情况下从未采取的那些动作相比，在数据集中观察到的价值较小的动作将仍然具有更高的被选择的机会。

此外，有限训练数据集在人类操作者采取的动作方面可能具有不均匀的分布。为了有效地从不平衡的数据集学习，研究人员已经开发了诸如重新采样、随机森林和成本敏感方法之类的方法。当自由探索可用时，重新采样不是一个挑战，因为代理能够与环境交互并且对更不常见的那些动作进行上采样。然而，当自由探索不可能时，成本敏感方法是在策略函数更新场景中实现的有效途径。可以将η(A_ki)定义为动作A_ki出现在训练数据集D内的可能性。损失函数取决于η(A_ki)和两者。如等式7所示，如果在训练数据集中频繁采取一动作、并且该动作具有很小的或负的优势值，则其权重在损失函数中将是低的。策略函数的训练过程如算法4所示。

算法4：策略(行动者)函数训练过程的伪代码

1：初始化学习率a、折扣因子γ

2：形成具有样本的训练数据集：d_i∈D，d_i＝{S_ki,A_ki,S_(k+1)i,R_ki}，i＝1,2,…,N

3：输入Φ*，来自算法1的值函数的参数

4：随机初始化Ψ₀，策略函数的参数集

5：forf＝1：迭代数do

6：Loss＝0

7：for d∈D do

8：计算优势值

a_i＝R_ki+γ(1-β_i)V(S_(k+1)i|Φ^*)-V(S_ki|Φ^*) (6)

(*β_i是二进制指示符，指示状态S是否是序列的结束状态)

9：更新损失(Loss)

10：end for

11：

12：end for

在启动过程期间，铸辊分离力设定点(将被称为“力设定点”)是最频繁调节的设定点。操作者调节力设定点以响应如上所述的不同轮廓问题。带颤振(C)是表示沿着铸造长度方向的厚度变化的非负值，其是调节力设定点的主要因素。此外，操作者可以调节力设定点以响应另一类轮廓缺陷，边缘尖峰。与描述沿着铸造长度方向的轮廓缺陷的颤振不同，边缘尖峰是沿着带横截面存在的轮廓缺陷。使用四个参数来表征不同的边缘尖峰问题：

(1)边缘凸起(bg)：在距外端0mm至25mm的边缘区域中，在远离外端的方向上从峰到最接近的最小值的厚度范围。它是非负值。

(2)边缘脊(eg)：在距外端25mm至50mm的边缘区域中，在远离外端的方向上从峰到最接近的最小值的厚度范围。它是非负值。

(3)最大峰值(mp)：边缘凸起位置和边缘脊位置之间的相对于边缘区域的内端的最大厚度。它是实数值。

(4)高边缘标志(fg)：指示任一边缘区域是否比横截面中心厚度更厚的二进制值。图15示出了边缘区域比中心区域更厚的场景。

关于边缘凸起、边缘脊和最大峰值的图示，参见图14和图15。

通常，增加力设定点增加了施加在带表面上的力，并减少了固化壳之间的半固体材料(也称为“糊状”材料)的量，这减轻了一些边缘尖峰问题。然而，糊状材料起到阻尼器的作用，这减小了带的振动。因此，糊状材料的减少导致带材中更少的阻尼和更多的振动，这又使颤振问题恶化。因此，在减轻颤振与减轻边缘尖峰问题之间存在权衡。

鉴于在启动过程期间对系统动力学进行建模可能是困难的，这里考虑的强化学习代理被设计为仅通过观察人类操作的记录来学习，然后向人类操作者建议最佳设定点调节(值和时间)。时间步k处的状态由以下组成：

S_k＝{C_k,ΔC_k, F_k,ΔF_k, bg_k,Δbg_k, eg_k,Δeg_k, fg_k,Δfg_k, mp_k,Δmp_k}， (8)

其中Δ(.)＝(.)_k-(.)_k-1是当前时间步的值与先前时间步的值之间的差。以1Hz记录铸造数据，并用10秒移动平均滤波器平滑。此外，基于观察到人类操作者不比0.2Hz更频繁地调节力设定点，数据可以进一步下采样到0.2Hz，以适应人类操作者使用的力设定点调节频率。

还观察到，操作者通常通过八个固定值中的一个来调节力设定点。因此，在时间步k处，代理被容许以这八个值A_k∈{a_j,j＝1,2,...,8}中的一个来调节力设定点。在这些动作中，三个表示减小力设定点，四个表示增加力设定点，并且一个被定义为保持力设定点不变。所考虑的特定问题的挑战性方面是，当人类操作者保持力设定点恒定时，不知道该动作是否是故意采取的，或者它是否表示由于操作者被其他操作任务分心而导致的更消极的行为。下面更详细地描述如何解决这种模糊性。

奖励函数显示地激励期望的性能度量。边缘尖峰和颤振是能够在启动过程期间通过力设定点调节来解决的主要问题。颤振问题由颤振参数值表征，并且边缘尖峰由边缘凸起、边缘脊和最大峰值参数表征。高边缘标志参数不用于表征边缘尖峰问题，因为它是二进制值并且与和边缘尖峰相关的其他三个参数不可比较。然而，高边缘标志信息被嵌入在状态向量中，以向代理提供额外的信息来做出决定。期望具有低的颤振、边缘凸起、边缘脊、最大峰值的值以及这些参数的减小趋势。然而，一旦参数的值减小到用户定义的阈值以下，则不需要继续减小其值。基于这些观察，边缘尖峰参数被定义为P_k＝max(bg_k,eg_k,mp_k)，并且为性能目标构建分段定义的奖励函数为：

其中W_Δ(.)是用于在[-1,1]范围内缩放Δ(.)的权重，W_(.)是用于在[-2,2]范围内缩放(.)的权重，并且C_lb和P_lb是颤振和边缘尖峰参数的用户定义阈值。

为了对不同的力设定点调节行为进行分类，采用k均值聚类算法对训练数据集中的95个单独的铸造序列进行聚类。每个序列的启动过程由六个人类操作者中的一个操作。所有铸造序列代表相同的钢等级和带宽度，并且从同一连铸机收集以防止由铸造条件的差异引起的任何行为变化。

力设定点调节行为由在力设定点的手动模式开始之后的500秒的力设定点轨迹表征。由于在该示例的数据集中存在6个操作者，因此聚类被评估为k＝{2,3,...,6}的结果。平均轮廓宽度(silhouette width)表明k＝2和k＝3均具有高于0.5的平均轮廓宽度。根据图17，在k＝2和k＝3之间没有大的区别。因此，为了简单起见，使用k＝2的聚类结果。图17a还示出了聚类中的不均匀分布。结合图18A(簇1)和图18B(簇2)中所示的力轨迹示例，超过70％的序列具有簇1力行为，其在力调节范围和频率两者方面较不激进。此外，训练数据集中超过90％的样本具有零力变化的动作。

值函数和策略函数两者都被表示为神经网络。神经网络架构的选择是启发式的，并且在表IV中示出。在一个示例中，值函数具有701个可学习参数，并且策略函数具有848个可学习参数。用于训练这两个神经网络的样本总数为4594。

表IV：值函数和策略函数的神经网络架构

值函数策略函数

全连接层(12→20) 全连接层(12→20)

双曲正切激活层带泄漏的ReLU(leaky ReLU)激活层

全连接层(20→20) 全连接层(20→20)

双曲正切激活层带泄漏的ReLU(leaky ReLU)激活层

全连接输出层(20→1) 全连接输出层(20→8)

softmax激活层

在测试过程中，九十五个铸造序列用于训练强化学习代理，并且具有相同金属等级和宽度条件的另外8个铸造序列用于测试。除了由操作人员选择的力设定点值F、ΔF之外，在每个时间步向代理提供其他定义的状态。在初始时间步，代理观察初始力设定点值并且被要求基于状态信息对其进行调节；由代理做出的决定影响后续步的力设定点值。该测试的目标是，在钢带中存在特定缺陷的情况下，验证经训练的代理是否以直观的方式对双辊连铸过程作出反应。图19和20示出了两对(情况1和情况2)测试序列比较。动作力(蓝色曲线)表示人类操作者的实际力轨迹，并且力预测(黑色“+”曲线)表示代理的力轨迹。

这些比较证明了两个重要的点。第一点在图19A(情况1)和19B(情况2)中示出。与情况2相比，情况1表现出更高的边缘尖峰值。因为过程在两个铸造之间表现不同，所以RL代理做出不同的设定点决定；这是期望的和预期的。相比之下，尽管过程表现得如何不同，但底层的人类操作者轨迹是相似的。第二点在图20A(情况3)和20B(情况4)中示出。当两个铸造之间的客观相关参数相似时，代理同样在两个铸造中做出一致的决定。这与人类操作者在实际铸造中所做的相反，尽管过程表现相似，但是人类操作者在实际铸造中做出不同的力设定点决定。尽管这些结果不代表代理和双辊连铸过程之间的闭环相互作用，但它们提供了代理在不同铸造情景下如何表现的有价值的见解。

在本发明的一个方面，给定对所考虑的设定类别的以下约束，修改行动者-评论者算法以更好地适应来自多个人类专家的学习：

1)在算法训练阶段期间，仅有的可用数据由人类专家生成。

2)多个专家的数据混合在数据集中。所有专家都能够稳定闭环监督控制系统。

3)当基于给定标准评估专家的表现时，表现可能不是同等地被偏好的。

鉴于强化学习代理仅从人类数据(并且没有过程模型)训练，以下内容成立：

1)如果人类专家的行为非常一致，使得状态-动作映射是1对1，则强化学习代理应该准确地学习该映射。

2)如果存在不一致性，使得在特定状态下观察到采取了多个动作，

则代理应当学习挑选最优选的一个。

通过用自然指数的exp(α_i)替换优势α_i来暂时禁止强化学习算法的探索性质，因为负的α_i导致由策略函数采取的动作偏离由人类专家采取的动作a_i。函数exp(α_i)具有与α_i相同的单调性。因此，如果样本具有高的正的优势，则相应的exp(α_i)也高，因此认为该样本是优选的。相反，如果样本具有低的正的优势或负的优势，则其对应的exp(α_i)变低，并且该样本被认为较不优选。

此外，期望确定性的策略函数，但是由于对由多个专家生成的训练数据集中的不一致性的关注，采用随机策略函数π(a_i|s_i,Ψ_h)来表征动作的条件分布。该策略函数起到处理不平衡的训练数据集的灵敏度权重的作用。修改的损失函数在等式10中示出。

嵌入来自前一步的递归(recurrence)以改进行动者训练过程。在训练数据集D中重构样本，使得每个样本d_i＝{a_i ^(-1),s_i,a_i,α_i}，其中a_i ^(-1)是在前一步中采取的动作，α_i是优势。因为该数据重构主要用于行动者训练，所以认为已经确定固定的并且已经计算相应的优势。

策略函数也被重新设计为依赖于先前步的动作，使得：

其中，是策略函数π在给定条件下采取的动作。如果仅考虑教师强制技术(teacher forcing technique)，这就足够了。然而，还期望代理表现得更稳健，这意味着代理还应该能够容忍其在先前步中所犯的错误。因此，如下构造增强数据。假设样本d_i不是轨迹的最后一步，则其对应的增强样本为

在每次迭代中，训练过程首先基于等式11确定并且基于等式12形成然后，它确定并更新参数集Ψ，其满足等式13。在算法5中示出了使用增强数据集的策略函数训练过程。

算法5：训练过程的伪代码

在该实施例中，关注点在于两个设定点：辊分离力和进入规格厚度。如图21所示，辊分离力设定点直接影响施加到辊并因此施加到钢带的力。进入规格厚度设定点影响铸造速度；设定点越小，辊越快。在下文中，这些设定点被称为“力”和“厚度”设定点。

表面质量和厚度轮廓均匀性是钢带制造中的两个主要问题。这包括颤振、表面缺陷和边缘尖峰、厚度轮廓不均匀性。颤振，如图1B所示，是沿着铸造长度方向的厚度变化。基于振动频率，颤振被分离成高频颤振和中频颤振。

边缘尖峰表征沿着带的横截面的厚度缺陷，如图15所示。使用四个量来表征边缘尖峰问题。它们是：

1)边缘凸起(bg)：在距外端0至25mm的边缘区域中，在远离外端的方向上从峰到最接近的最小值的厚度范围。它是非负值。

2)边缘脊(eg)：在距外端25mm至50mm的边缘区域中，在远离外端的方向上从峰到最接近的最小值的厚度范围。它是非负值。

3)最大峰值(mp)：边缘凸起位置和边缘脊位置之间的相对于边缘区域的内端的最大厚度。它是实数值。

4)高边缘标志(fg)：指示任一边缘区域是否比横截面中心厚度更厚的二进制值。

在一些实施例中，状态、动作和奖励函数被构造如下。

状态：在固定数量的状态元素的情况下，我们偏好编码关于动力学的更多信息。因此，状态向量被定义为

其中Ch_i和Cm_i是样本d_i的高频颤振和中频颤振，是允许的最小厚度值，t_i是相对于人类操作者可以开始调节设定点的时间的时间，并且对于任何元素是两个连续步之间的差。时间和允许的最小厚度也包括在状态向量中，因为期望的带厚度是最终产品要求的一部分。导致厚度设定点小于允许的最小厚度的任何决定都应导致惩罚。随着时间增加，惩罚也增加。

动作：动作被简单地定义为下一个时间步处的力(F)和厚度(Th)设定点值：

奖励：奖励函数是状态向量中的所有控制目标的函数，包括除了t和之外的每个元素，t和在下面单独考虑。此外，奖励是所有控制目标的变化加权和，使得

r_i＝R(s_i)＝-W(s_i)^Ts_i，(16)

其中，W(s_i)是状态向量的分段线性加权函数。当状态向量中的控制目标xi低于其阈值时，对应于目标及其变化Δ(x)_i两者的权重减小。加权函数总是非负的，因此其前面的负号使得值更低，并且控制目标的减小趋势导致更高的奖励。

时间相关的厚度惩罚在损失函数中被直接编码为

注意到

其中，(Ψ)是由策略函数π决定的厚度设定点调节。然后，使用厚度惩罚损失J_Th来确定参数集Ψ，这简单地通过将等式13中的J_m替换为等式19中定义的J来确定。

J(d_i,Ψ)＝J_m(d_i,Ψ)+J_Th(d_i,Ψ) (19)

如上所述，训练过程仅依赖于人类专家生成的数据，因为由于系统复杂性，还没有可用的模拟器。然而，我们仍然想要在实际实施之前评估和比较经训练的代理。因此，提供了一种在没有模拟器的情况下评估代理性能的方法。然后，可以将用递归增强数据集训练的代理与没有增强数据集的代理进行比较。

类似于序列到序列RNN，要求策略函数基于K步状态轨迹{s⁽⁺¹⁾,s⁽⁺²⁾,...,s^(+K)}生成设定点轨迹由于策略函数具有来自先前输出的递归，如等式11所示，因此代理在时间步k处采取的动作应该是

并且当k＝1时，给出初始动作a⁽⁰⁾。

假设K步状态轨迹由人类专家生成的设定点轨迹{a⁽⁺¹⁾,a⁽⁺²⁾,...,a^(+K)}产生。如前所述，如果所有人类专家共享相同的一致的控制策略，则代理应该完美地学习该策略，并且由人类专家或代理生成的设定点轨迹也应该是相似的。然而，如果存在策略不一致，这可能导致专家的控制策略的不完美模仿，则代理应该优先考虑从具有更高优势的样本中学习。因此，对于每个时间步k，可以基于等式22计算优势α(k)，其中β^(k)是二进制指示符，用于显示步k是否是序列的结束步。验证损失定义为

本文比较了使用八个未见测试序列的两个代理。详细示出了一个序列的轨迹图，并且示出和讨论了所有八个序列的损失统计。图22示出了没有增强数据集的代理的力轨迹。所呈现的铸造序列从铸造序列的开始具有增加的边缘尖峰。相应地，人类专家增加力设定点。在约100秒之后，边缘尖峰开始减小。代理确定的力轨迹在大约50秒处开始偏离人类专家选择的实际力轨迹，并且两个轨迹之间的差异随着时间增加而增加。相应地，在图23中，力跟踪的损失随序列而增加。代理确定的厚度很好地跟随人选择的厚度，因此厚度跟踪的损失保持较低。

图24示出了具有增强数据集的代理的力轨迹。尽管具有增强数据集的代理也在铸造开始时保持力设定点不变，在约75秒，随着边缘尖峰超过1并继续增加，代理开始增加力设定点。当看到对应于图25中的该代理的损失时，力跟踪的损失仍然随着时间的增加而增加，尽管代理确定的力与实际力之间的差异没有增加。这是因为根据等式21，损失是代理确定的力设定点与真实力之间的加权差。在该序列中，优势α^(+k)随着k的增加而增加。因此，虽然跟踪误差保持不变，但是损失增大。表IV示出了所有测试序列的损失统计。通过用增强数据进行训练，在大多数测试序列中改善了与力和厚度跟踪相对应的损失。

表IV

测试序列的损失统计

在该实施例中，嵌入递归特征以改善用于复杂监督控制场景的强化学习控制器的性能。如在其他实施例中，问题设置考虑没有可用的系统模型，并且强化学习算法应该评估、选择和学习多个人类专家的数据。迭代地构建增强数据集以扰动输出递归，从而在序列中的后续步中增强动作学习过程的鲁棒性。在具有双辊连铸示例的监督控制问题的背景下，与不使用任何递归增强数据集训练的代理相比，用递归增强数据集训练的代理在测试序列上的有利动作跟踪方面表现更好。

还可以将附加动作分配给RL代理。例如，可以训练RL代理以通过控制铸辊的楔形控制来减少周期性干扰。一些实施例包括铸辊的局部温度控制，以控制铸辊形状，从而控制铸带轮廓。参见例如WO 2019/217700，其通过引用并入本文。在一些实施例中，带轮廓测量用于奖励函数，因此RL代理可以控制铸辊的局部加热和/或冷却以控制带轮廓。

动作也可以扩展到双辊连铸工艺设备的其他部分，包括热轧机16和水射流18的控制。例如，已经开发了用于使热轧机的工作辊成形以减少平坦度缺陷的各种控制。例如，已经提供工作辊弯曲千斤顶以影响工作辊的辊缝轮廓中心区域相对于邻近边缘的区域的对称变化。辊弯曲能够校正带的中心区域和两个边缘共有的对称形状缺陷。而且，力缸可以影响辊缝轮廓在一侧相对于另一侧的不对称变化。辊力缸能够使辊缝轮廓偏斜或倾斜，以校正带中的形状缺陷，该形状缺陷在带的任一侧处不对称地发生，其中一侧比带上的平均拉伸应力更紧，另一侧比带上的平均拉伸应力更松。在一些实施例中，训练RL代理以响应于在热轧带以减小厚度之前和/或之后对铸带的测量而向这些控制中的每一个提供动作。

控制工作辊的形状(并且因此控制在工作辊之间通过的铸带的伸长)的另一种方法是通过工作辊的局部分段冷却。参见例如美国专利号7,181,822，其通过引用并入本文。通过控制工作辊的工作表面的局部冷却，可以通过工作辊的热膨胀或收缩来控制上工作辊轮廓和下工作辊轮廓，以减少形状缺陷和局部屈曲。具体地，局部冷却的控制可以通过增加通过喷嘴喷射到工作辊表面上、喷射到观察到的带形状屈曲区域的一个或多个区部中的冷却剂的相对体积或速度来实现，导致该区域中的任一个或两个工作辊的工作辊直径收缩，增加辊缝轮廓，并有效地减小该区部中的伸长率。相反，通过减小由喷嘴喷射到工作辊的工作表面上的冷却剂的相对体积或速度，导致该区域中的工作辊直径扩大，减小辊缝轮廓，并有效地增加伸长率。替代地或组合地，局部冷却的控制可以通过局部控制在工作表面附近流通经过工作辊的水的温度或体积，在工作辊上的区部中内部控制工作辊的工作表面的冷却来实现。在一些实施例中，训练RL代理以提供动作，以响应于连铸轧机度量(例如平坦度缺陷)提供工作辊的局部分段冷却。

在一些实施例中，任何上述实施例中的RL代理不仅从由操作者手动控制的铸造活动接收强化学习，而且还从RL代理自己的对物理连铸机的操作接收强化学习。也就是说，在操作中，RL代理响应于RL代理的控制动作、通过包括实时连铸机度量的强化学习来继续学习，从而改善RL代理和连铸机的性能。

在一些实施例中，包括智能警报器以提醒操作者在必要时进行干预。例如，RL代理可能指导阶跃变化但接收到意外响应。例如，如果传感器故障或致动器故障，则可能发生这种情况。

使RL代理能够有效地驱动所有工艺设定点并且还能够进行工艺和机器状况监测的功能特征构成了自主驱动的双辊连铸机，其中操作者仅在存在机器部件故障或工艺紧急情况(例如关键耐火元件失效)的情况下需要进行干预。

应当理解，可以使用一个或多个控制器来执行利用如所描述或预期的任何增强学习代理的本文描述的任何方法以及任何相关联的算法，其中增强学习代理作为指令存储在任何存储器存储设备上。所述指令被配置成使用一个或多个处理器结合双辊连铸机来进行(执行)，以控制通过双辊连铸形成薄金属带。任何这样的控制器以及任何处理器和存储器存储装置可以根据需要布置成与双辊连铸机的任何部件可操作地通信，这包括布置成与任何传感器和致动器可操作地通信。如本文所用的传感器可以产生信号，该信号可以存储在存储器存储装置中并由处理器使用以控制如本文所述的双辊连铸机的特定操作。如本文所用的致动器可以从控制器、处理器或存储器存储装置接收信号，以调节或改变如本文所述的双辊连铸机的任何部分。

就所使用的程度而言，如在本文的权利要求和/或说明书中使用的术语“包括”、“包含”和“具有”或其任何变型应被认为是指示可以包括未指定的其他元素的开放组。术语“一”、“一个”和词的单数形式应被视为包括相同词的复数形式，使得这些术语意指提供一个或多个某物。术语“至少一个”和“一个或多个”可互换使用。术语“单个”应用于指示意图一个且仅一个某物。类似地，当预期特定数量的事物时，使用其他特定整数值，例如“两个”。术语“优选地”、“优选的”、“优选”、“可选地”、“可以”和类似术语用于指示所提及的事物、条件或步骤是实施例的可选(即，不是必需的)特征。除非另有说明，否则描述为“在a和b之间”的范围包括“a”和“b”的值。

虽然本文已经参考其特定实施例描述了各种改进，但是应当理解，这种描述仅是说明性的，并且不应被解释为限制任何要求保护的发明的范围。此外，应当理解，除非另有说明，否则本文讨论的任何具体实施例的特征可以与本文另外讨论或设想的任何一个或多个实施例的一个或多个特征组合。

Claims

1.一种双辊连铸系统，包括：

一对反向旋转的铸辊，所述一对反向旋转的铸辊在所述铸辊之间具有辊隙并且能够从所述辊隙向下输送铸带；

铸辊控制器，所述铸辊控制器被配置为响应于控制信号调节所述铸辊之间的至少一个过程控制设定点；

铸带传感器，所述铸带传感器能够测量所述铸带的至少一个参数；和

控制器，所述控制器联接到所述铸带传感器以从所述铸带传感器接收铸带测量信号，并且联接到所述铸辊控制器以向所述铸辊控制器提供控制信号，所述控制器包括强化学习(RL)代理；

所述RL代理还包括具有值函数和策略函数的无模型行动者-评论者代理，所述RL代理已经在由多个不同的人类操作者执行的连铸运行组成的多个连铸系统操作数据集上被训练。

2.根据权利要求1所述的双辊连铸系统，其中，所述RL代理还包括优势函数，所述优势函数将所选动作的优势值计算为所选动作的即时奖励值加上所选动作的后续状态的折扣值减去当前状态的值；并且

其中，所述优势值用于训练所述策略函数。

3.根据权利要求2所述的双辊连铸系统，其中，所述策略函数被配置为以如下方式评估所述优势函数：相对于在所述多个连铸系统操作数据集中未找到的动作，对来自所述多个连铸系统操作数据集的具有负优势值的动作进行赋值。

4.根据权利要求1所述的双辊连铸系统，其中，所述RL代理还包括优势函数，所述优势函数将所选动作的优势值计算为所选动作的即时奖励值加上所选动作的后续状态的折扣值减去当前状态的值；并且

其中，所述优势值的所述自然指数用于训练所述策略函数。

5.根据权利要求1所述的双辊连铸系统，其中，所述铸带传感器包括厚度测量仪，所述厚度测量仪跨所述铸带的宽度以间隔测量所述铸带的厚度。

6.根据权利要求1所述的双辊连铸系统，其中，所述过程控制设定点包括所述铸辊之间的力设定点；并且

其中，所述铸带的所述参数包括颤振。

7.根据权利要求1所述的双辊连铸系统，其中，所述RL代理还包括奖励函数，所述奖励函数将即时奖励计算为分段定义的奖励函数：

其中，W_Δ(.)是用于在[-1,1]范围内缩放Δ(.)的权重，W_(.)是用于在[-2,2]范围内缩放(.)的权重，并且C_lb和P_lb是颤振和边缘尖峰参数的用户定义阈值。

8.根据权利要求1所述的双辊连铸系统，还包括优势函数，所述优势函数将优势值计算为所选动作的即时奖励值加上所选动作的后续状态的折扣值减去当前状态的值；

其中，所述即时奖励由奖励函数计算，所述奖励函数基于所述颤振和边缘尖峰参数的用户定义阈值将即时奖励计算为加权分段定义的奖励函数。

9.根据权利要求1所述的双辊连铸系统，其中，所述铸带的所述至少一个参数包括颤振和至少一个带轮廓参数。

10.根据权利要求9所述的双辊连铸系统，其中，所述至少一个带轮廓参数选自由边缘凸起、边缘脊、最大峰值和高边缘标志组成的组。

11.根据权利要求1所述的双辊连铸系统，其中，所述策略函数包括随机策略函数。

12.根据权利要求1所述的双辊连铸系统，其中，所述策略函数包括对先前步骤的动作的依赖性。

13.根据权利要求1所述的双辊连铸系统，其中，对于操作数据集中的每个步骤，嵌入来自先前步骤的递归以改进所述行动者训练过程。