CN116755888A

CN116755888A - 一种面向高性能计算云平台的作业调度装置及方法

Info

Publication number: CN116755888A
Application number: CN202310953322.7A
Authority: CN
Inventors: 甘润东; 龙玉江; 王策; 李洵; 卫薇; 卢仁猛; 钟掖; 龙娜; 陈卿
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-09-15

Abstract

本发明公开了一种面向高性能计算云平台的作业调度装置及方法，涉及云平台作业调度技术领域。本发明包括调度器、全局资源管理器以及应用程序管理器，全局资源管理器用于负责作业调度的资源分配，应用程序管理器用于负责作业调度前的数据管理以及信息监控；全局资源管理器包括分配模块以及输送模块；应用程序管理器包括作业解析模块、优先级计算模块、节点负载模块以及轮询模块。本发明通过划分了作业负载类型并将其分配到对应的队列中，结合优先级权重对队列中的作业进行重新排序，优先为权重高的作业分配资源，充分利用了集群资源，以缩短了作业平均完成时间。

Description

一种面向高性能计算云平台的作业调度装置及方法

技术领域

本发明属于云平台作业调度技术领域，涉及一种面向高性能计算云平台的作业调度装置，还涉及一种面向高性能计算云平台的作业调度装置的调度方法。

背景技术

高性能计算是指利用超级计算机实现多个节点以集群的形式协同作业，在短时间内执行海量计算，从容应对这些规模庞大而又极其复杂的负载挑战；随着用户规模的不断增长和精细化运营管理要求的不断提高，高性能计算在大数据计算云平台中体现出其重要性，大数据总体可以分为结构化数据、半结构化数据、非结构化数据三类。大数据通常具有数据量巨大、数据类型多样、数据产生、收集、处理的速度快等特点。大数据分析为通过分析数据背后的隐藏信息，为企业提供最佳决策能力。

在现有的架构下，各业务系统独立地提交作业至云计算平台，并预先声明资源需求，云计算平台接收作业并放入统一的作业队列中，作业调度模块按照一个简单的先进先出调度算法进行作业调度，并按照各作业预先提出的资源需求进行资源分配；所有作业的资源需求均需要提前确认，多任务之间的资源争用以及作业之间一来关系也需要在提交作业之间提前规划这种作业调度的方法在任务单一模式使用时具有较高的调度效率，但是在多任务作业调度环境中，存在无法根据作业特性和依赖性进行调度的问题，多个存在依赖关系的作业由于作业提交时间或者作业异常中断而导致作业数据处理结果异常，同时无法根据作业优先级来进行作业调度。

现有的作业调度装置无法根据作业特性和依赖性对作业进行调度，同时通过作业优先级进行作业调度的方式并不能考虑到实际作业调度中资源负载的情况，为此，提出一种面向高性能计算云平台的作业调度装置及方法。

发明内容

本发明要解决的技术问题是：提供一种面向高性能计算云平台的作业调度装置及方法，解决现有的作业调度装置无法根据作业特性和依赖性对作业进行调度，同时通过作业优先级进行作业调度的方式并不能考虑到实际作业调度中资源负载的情况的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种面向高性能计算云平台的作业调度装置，包括调度器、全局资源管理器以及应用程序管理器，全局资源管理器用于负责作业调度的资源分配，应用程序管理器用于负责作业调度前的数据管理以及信息监控；全局资源管理器包括分配模块以及输送模块；应用程序管理器包括作业解析模块、优先级计算模块、节点负载模块以及轮询模块。

进一步地，上述调度器支持多队列服务，资源按照一定的权重分配给队列，在其进行资源调度时，先计算队列中运行的任务数和应分的计算资源的比值，选择比值最小的队列执行任务，队列内部再按照初始优先级和先进先出调度机制选择作业执行，在当前运行的作业被终止后，资源分配至新传送至此的作业。

进一步地，上述应用程序管理器、全局资源管理器以及调度器之间分别建立通信连接；

作业解析模块：用于对客户所提交作业进行解析，获得作业的特征参数，特征参数包括作业类型、作业提交时间、作业数据大小以及各作业之间从属关系；

优先级计算模块：用于根据作业的特征参数计算作业的资源需求，并按照预设优先级权重计算方法对各作业的优先级权重进行确定，优先级权重由各作业资源需求以及节点实时负载情况确定，优先级权重等级由低至高分为五档；

节点负载模块：用于采集调度器队列内部各节点资源信息，计算节点负载，并按照节点实时负载情况对负载量小的节点分配任务执行；

轮询模块：根据预设轮询时间，每隔周期对按作业提交时间顺序排序的待调度作业进行重新排序，按照优先级权重等级对作业排序进行越级调整，优先级等级越高越级排序次数越多，反之优先级等级越低则越级排序次数越低；

分配模块：根据每次轮询排序的作业调度顺序以及高性能云计算平台资源剩余信息为作业分配资源；

输送模块：用于将资源分配结果发送至调度器执行作业调度。

进一步地，上述作业类型划分为CPU负载类型作业以及I/O负载类型作业，CPU负载类型作业指处理速度受CPU限制的进程，作业执行时需要进行大量的计算和逻辑判断，消耗CPU资源，CPU占用率高，系统的硬盘或内存效能高于CPU效能；I/O负载类型作业指处理速度受I/O子系统限制的进程，作业执行时的状况是CPU等待I/O读写，此时CPU消耗小、效率更高；CPU负载类型作业优先级权重小于I/O负载类型作业。

进一步地，上述调度器内部支持多队列任务，每个队列均设置多个节点，各节点资源共享，队列并行执行的任务数等于队列个数。

进一步地，上述节点负载模块采用节点负载算法在节点资源被调度之前，按照节点实时负载情况从小到大进行排序，并每隔设定心跳周期更新一次节点队列的节点排序；节点负载情况受CPU、内存、磁盘资源以及网络状况因素的影响，节点负载计算公式如下：

ω_CPU+ω_men+ω_disk+ω_nr＝1,ω_CPU,ω_men,ω_disk,ω_nr∈[0,1] (1)

L_node＝ω_CPU×μ_CPU+ω_men×μ_men+ω_disk×μ_disk+ω_nr×μ_nr (2)

式(1)－(2)中，ω_CPU,ω_men,ω_disk，ω_nr分别为节点CPU、内存、磁盘和网络资源的使用率；L_node为节点负载值，μ_CPU，μ_men，μ_disk，μ_nr分别为节点CPU、内存、磁盘和网络资源的权重值。

进一步地，上述作业优先级权重考虑作业初始优先级、作业等待时间、作业占用CPU和内存资源大小这4个因素，作业等待时间超过阈值的作业，通过提高权重实现作业优先级提升，对于占用CPU和内存资源过大的作业，基于负载类型以及节点负载情况进行优先级定位；作业优先级权重计算公式如下所示：

式(3)中：P_W为权重优先级，P为作业初始优先级，T_wait为当前作业等待时间，T_wait＝T_current-T_start；T为等待时间阈值，P_CPU为当前作业占用CPU资源大小，P_ram为作业占用内存资源大小；T_current为当前时间，T_start为作业提交时间；权重值之和满足：

ω_time+ω_CPU+ω_ram+ω_priority＝1,ω_time,ω_CPU,ω_ram,ω_priority∈[0,1] (4)

式(4)中，ω_time,ω_CPU,ω_ram,ω_priority分别为作业等待时间，作业占用CPU资源大小、作业占用内存资源大小和初始优先级的权重值。

一种面向高性能计算云平台的作业调度方法，应用于一种面向高性能计算云平台的作业调度装置，包括以下步骤：

S1、接收客户所提交的作业并对其进行解析，获得作业的特征参数；

S2、根据作业的特征参数计算作业的资源需求，并按照预设优先级权重计算方法对各作业的优先级权重等级进行计算定位；

S3、判断作业等待时间是否大于等待时间阈值，若是则重新计算该作业权重优先级等级；

S4、根据预设轮询时间，每隔周期对按照作业提交时间顺序排序的待调度作业进行重新排序；设当前实时作业m排名位次为k，优先级权重等级为A，作业m排序排名为k-A；

S5、根据作业调度顺序以及高性能云计算平台资源剩余信息为作业进行资源分配，并将资源分配结果发送至调度器执行作业调度。

优选地，步骤S5中高性能平台资源剩余信息资源分配包括以下具体步骤：

S5.1、监控调度器内队列中是否有空闲节点，实时采集调度器各队列内节点资源信息；

S5.2、计算节点实时负载状况，按照节点实时负载情况从小到大进行排序；

S5.3、每隔设定的心跳周期更新一次节点队列的节点排序。

本发明具有以下有益效果：

1)本发明通过作业权重优先级能满足用户作业多样性的需求，优先完成紧急程度高的作业；在用户提交作业后，首先划分作业的负载类型，并把作业分配到相应的队列中；其次进行作业初始优先级的判断，并将默认的初始作业优先级量化，调度器按照优先级权重公式更新权重优先级，并将队列中的作业重新排序；最后结合节点负载情况优先给权重作业优先级高的作业分配资源。

2)本发明通过设置做作业权重优先级等级来对待调度作业进行排序，作业优先级由低至高1-5分为五级，待调度作业在确定完成其作业优先级等级后进行排序，每隔预设间隔时间进行排序位置的更换，根据作业优先级等级进行位次提升，每一级提升一个位次，这样能够保证在排序的过程中所有的作业都可以进行调度，避免了优先级等级过低的作业一直无法得到调度，并且每隔一段时间判定排序中的作业等待时间是否超过预设时间，从而提升该作业的优先级等级，本方法能够保证优先级高的作业能够以较快的速度进行排序从而调度，而优先级较低的作业可以逐渐提高其优先级等级最终完成作业调度，避免了优先级低的作业沉积的情况发生。

3)本发明通过调度器的调度策略能可同时维护多个队列，队列可共享空闲资源；结合作业负载类型、节点实时负载情况和作业优先级权重调度提出了基于作业类型和优先级权重的容量调度算法，能自动将用户提交的作业进行作业负载分类并结合节点实时负载情况进行作业调度，能有效地避免同节点的资源竞争问题，通过基于权重作业优先级的作业选择机制满足用户和作业多样化的需求，综合考虑多因素来衡量作业的紧急程度，实现根据用户紧急程度的作业调度，以达到优先分配资源的目的。通过作业的优先级权重能综合考虑作业初始优先级、作业等待时间、作业占用CPU和内存资源大小这4个因素，根据权重优先级来衡量作业紧急程度，优先执行紧急程度高的作业，以满足用户和作业的多样性需求，从而提高系统性能；本发明划分了作业负载类型并将其分配到对应的队列中，结合优先级权重对队列中的作业进行重新排序，优先为权重高的作业分配资源，充分利用了集群资源，以缩短了作业平均完成时间。

附图说明

图1为面向高性能计算云平台的作业调度装置的系统框图；

图2为面向高性能计算云平台的作业调度方法的流程图。

具体实施方式

下面结合附图及具体的实施例对本发明进行进一步介绍。

实施例1：参阅图1，本发明为一种面向高性能计算云平台的作业调度装置，包括调度器、全局资源管理器以及应用程序管理器，全局资源管理器用于负责作业调度的资源分配，应用程序管理器用于负责作业调度前的数据管理以及信息监控；全局资源管理器包括分配模块以及输送模块；应用程序管理器包括作业解析模块、优先级计算模块、节点负载模块以及轮询模块。

其中，调度器支持多队列服务，资源按照一定的权重分配给队列，在其进行资源调度时，先计算队列中运行的任务数和应分的计算资源的比值，选择比值最小的队列执行任务，队列内部再按照初始优先级和先进先出调度机制选择作业执行，在当前运行的作业被终止后，资源分配至新传送至此的作业。

其中，应用程序管理器、全局资源管理器以及调度器之间分别建立通信连接；

在本发明中，作业负载分类采用MR程序进行，MR程序主要分为两个过程，即映射(map)阶段和化简(reduce)阶段，其中，中map阶段是MR过程的关键，先将输入的数据进行分割，再为每个数据块分配map任务。Key/value键值对作为map函数的输入，map函数输出的中间Key/value键值对存在本地磁盘中。reduce阶段运行用户自定义的reduce函数对中间Key/value键值对进行处理。在当前作业的map阶段完成之后才会进入reduce阶段，且节点执行同一个作业的map任务时，每个map任务具有相同的运行特性。根据CPU和内存的利用率，对map阶段的作业负载进行了分类，划分为CPU负载类型作业和I/O负载类型作业。

本发明中，参数β为map任务输出数据M_o和输入数据M_i的比值，定义如下：

该参数反映了map任务的负载状况，若作业的map任务负载状况相同，即表示具有相同的β值。由式(A)，可以推导出当前该任务在节点上的数据传输速率：

式(B)中：n为节点中正在执行的map任务数；T_map为map任务的完成时间。当节点上的数据传输速率大于磁盘I/O速率时，表示当前作业需要进行大量的I/O操作，因此本研究将此类作业划分为I/O负载类型作业；当一个作业的磁盘I/O速率较低时，其CPU使用率相对较高，将此类作业划分为CPU负载类型作业。I/O负载类型作业和CPU负载类型作业的定义分别如下：

式(C)－(D)中：D_r为磁盘I/O速率。

其中，作业类型划分为CPU负载类型作业以及I/O负载类型作业，CPU负载类型作业指处理速度受CPU限制的进程，作业执行时需要进行大量的计算和逻辑判断，消耗CPU资源，CPU占用率高，系统的硬盘或内存效能高于CPU效能；I/O负载类型作业指处理速度受I/O子系统限制的进程，作业执行时的状况是CPU等待I/O读写，此时CPU消耗小、效率更高；CPU负载类型作业优先级权重小于I/O负载类型作业。

其中，调度器内部支持多队列任务，每个队列均设置多个节点，各节点资源共享，队列并行执行的任务数等于队列个数。

其中，节点负载模块采用节点负载算法在节点资源被调度之前，按照节点实时负载情况从小到大进行排序，并每隔设定心跳周期更新一次节点队列的节点排序；节点负载情况受CPU、内存、磁盘资源以及网络状况因素的影响，节点负载计算公式如下：

ω_CPU+ω_men+ω_disk+ω_nr＝1,ω_CPU,ω_men,ω_disk,ω_nr∈[0,1] (1)

L_node＝ω_CPU×μ_CPU+ω_men×μ_men+ω_disk×μ_disk+ω_nr×μ_nr (2)

其中，作业优先级权重考虑作业初始优先级、作业等待时间、作业占用CPU和内存资源大小这4个因素，作业等待时间超过阈值的作业，通过提高权重实现作业优先级提升，对于占用CPU和内存资源过大的作业，基于负载类型以及节点负载情况进行优先级定位；作业优先级权重计算公式如下所示：

实施例2：参阅图2，基于一种面向高性能计算云平台的作业调度方法，应用于一种面向高性能计算云平台的作业调度装置，包括以下步骤：

其中，步骤S5中高性能平台资源剩余信息资源分配包括以下具体步骤：

S5.3、每隔设定的心跳周期更新一次节点队列的节点排序。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种面向高性能计算云平台的作业调度装置，其特征在于，包括调度器、全局资源管理器以及应用程序管理器，所述全局资源管理器用于负责作业调度的资源分配，所述应用程序管理器用于负责作业调度前的数据管理以及信息监控；所述全局资源管理器包括分配模块以及输送模块；所述应用程序管理器包括作业解析模块、优先级计算模块、节点负载模块以及轮询模块。

2.根据权利要求1所述的一种面向高性能计算云平台的作业调度装置，其特征在于，所述调度器支持多队列服务，资源按照设定的权重分配给队列，在调度器进行资源调度时，先计算队列中运行的任务数和应分的计算资源的比值，选择比值最小的队列执行任务，队列内部再按照初始优先级和先进先出调度机制选择作业执行，在当前运行的作业被终止后，资源分配至新传送至此的作业。

3.根据权利要求2所述的一种面向高性能计算云平台的作业调度装置，其特征在于，所述应用程序管理器、全局资源管理器以及调度器之间分别建立通信连接；

作业解析模块：用于对客户所提交作业进行解析，获得所述作业的特征参数，所述特征参数包括作业类型、作业提交时间、作业数据大小以及各作业之间从属关系；

优先级计算模块：用于根据所述作业的特征参数计算作业的资源需求，并按照预设优先级权重计算方法对各作业的优先级权重进行确定，所述优先级权重由各作业资源需求以及节点实时负载情况确定，优先级权重等级由低至高分为五档；

轮询模块：根据预设轮询时间，每隔周期对按作业提交时间顺序排序的待调度作业进行重新排序，按照所述优先级权重等级对作业排序进行越级调整；

分配模块：根据每次轮询排序的作业调度顺序以及高性能云计算平台资源剩余信息为所述作业分配资源；

4.根据权利要求3所述的一种面向高性能计算云平台的作业调度装置，其特征在于，所述作业类型划分为CPU负载类型作业以及I/O负载类型作业，所述CPU负载类型作业指处理速度受CPU限制的进程；所述I/O负载类型作业指处理速度受I/O子系统限制的进程；所述CPU负载类型作业优先级权重小于I/O负载类型作业。

5.根据权利要求4所述的一种面向高性能计算云平台的作业调度装置，其特征在于，所述调度器内部支持多队列任务，每个所述队列均设置多个节点，各节点资源共享，所述队列并行执行的任务数等于队列个数。

6.根据权利要求5所述的一种面向高性能计算云平台的作业调度装置，其特征在于，所述节点负载模块采用节点负载算法在节点资源被调度之前，按照节点实时负载情况从小到大进行排序，并每隔设定心跳周期更新一次节点队列的节点排序；所述节点负载情况受CPU、内存、磁盘资源以及网络状况因素的影响，所述节点负载计算公式如下：

ω_CPU+ω_men+ω_disk+ω_nr＝1,ω_CPU,ω_men,ω_disk,ω_nr∈[0,1] (1)

L_node＝ω_CPU×μ_CPU+ω_men×μ_men+ω_disk×μ_disk+ω_nr×μ_nr (2)

式中，ω_CPU、ω_men、ω_disk和ω_nr分别为节点CPU、内存、磁盘和网络资源的使用率；L_node为节点负载值，μ_CPU、μ_men、μ_disk和μ_nr分别为节点CPU、内存、磁盘和网络资源的权重值。

7.根据权利要求6所述的一种面向高性能计算云平台的作业调度装置，其特征在于，所述作业优先级权重考虑作业初始优先级、作业等待时间、作业占用CPU和内存资源大小这4个因素，作业等待时间超过阈值的作业，通过提高权重实现作业优先级提升，对于占用CPU和内存资源过大的作业，基于负载类型以及节点负载情况进行优先级定位；所述作业优先级权重计算公式如下所示：

式中，P_W为权重优先级，P为作业初始优先级，T_wait为当前作业等待时间，T_wait＝T_current-T_start；T为等待时间阈值，P_CPU为当前作业占用CPU资源大小，P_ram为作业占用内存资源大小；T_current为当前时间，T_start为作业提交时间；权重值之和满足：

ω_time+ω_CPU+ω_ram+ω_priority＝1 (4)

式中，ω_time、ω_CPU、ω_ram和ω_priority分别为作业等待时间、作业占用CPU资源大小、作业占用内存资源大小和初始优先级的权重值，ω_time∈[0,1]，ω_CPU∈[0,1]，ω_ram∈[0,1]，ω_priority∈[0,1]。

8.基于一种面向高性能计算云平台的作业调度方法，应用于权利要求1-7任一所述的一种面向高性能计算云平台的作业调度装置，其特征在于，包括以下步骤：

S1、接收客户所提交的作业并对其进行解析，获得所述作业的特征参数；

S4、根据预设轮询时间，每隔周期对按照作业提交时间顺序排序的待调度作业进行重新排序；设当前实时作业m排名位次为k，优先级权重等级为A，所述作业m排序排名为k-A；

9.根据权利要求8所述的一种面向高性能计算云平台的作业调度方法，其特征在于，所述步骤S5中高性能平台资源剩余信息资源分配包括以下具体步骤：

S5.3、每隔设定的心跳周期更新一次节点队列的节点排序。