WO2024109312A1

WO2024109312A1 - 任务调度执行方法、任务调度执行指令的生成方法及装置

Info

Publication number: WO2024109312A1
Application number: PCT/CN2023/120845
Authority: WO
Inventors: 李建军; 王振江; 黄畅
Original assignee: 北京地平线信息技术有限公司
Priority date: 2022-11-22
Filing date: 2023-09-22
Publication date: 2024-05-30
Also published as: EP4398101A1; CN115756794A

Abstract

提供了一种任务调度执行方法、任务调度执行指令的生成方法及装置。任务调度执行方法包括：确定存在对应第一版本模型文件的第一目标任务，第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源（310）；基于第一版本模型文件的状态信息组以及预定占用比例，将满足预设并发执行条件的第一目标任务的集合确定为第一任务组，第一版本模型文件的状态信息组包括：第一版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态（320）；并发运行第一任务组中的各个第一目标任务分别对应的第一版本模型文件（330）。实现了神经网络加速器对多个任务的并行处理，从而能够提升神经网络加速器的运算效率。

Description

任务调度执行方法、任务调度执行指令的生成方法及装置

本公开要求在2022年11月22日提交中国专利局、申请号为CN202211467576.X、发明名称为“任务调度执行方法、任务调度执行指令的生成方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及芯片技术，尤其涉及一种任务调度执行方法、任务调度执行指令的生成方法及装置。

背景技术

芯片中可以包括神经网络加速器，例如可以包括大脑处理器(Brain Processing Unit，BPU)。一些情况下，神经网络加速器存在多个待处理的任务，神经网络加速器往往是按任务产生的时间先后顺序，依次执行这些任务。

发明内容

本公开的实施例提供了一种任务调度执行方法、任务调度执行指令的生成方法及装置。

根据本公开实施例的一个方面，提供了一种任务调度执行方法，包括：

确定存在对应第一版本模型文件的第一目标任务，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

基于所述第一版本模型文件的状态信息组以及所述预定占用比例，将满足预设并发执行条件的所述第一目标任务的集合确定为第一任务组，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

并发运行所述第一任务组中的各个所述第一目标任务分别对应的所述第一版本模型文件。

根据本公开实施例的另一个方面，提供了一种任务调度执行指令的生成方法，包括：

通过编译处理，生成第一算子组对应的第一版本模型文件，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

基于所述第一算子组对应的功能单元组，生成所述第一版本模型文件的状态信息组，所述第一算子组对应的功能单元组包括：所述神经网络加速器的用于供所述第一算子组运行的各个功能单元，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

基于所述第一版本模型文件、所述第一版本模型文件的状态信息组，以及所述预定占用比例，生成任务调度执行指令，所述任务调度执行指令用于执行上述任务调度执行方法。

根据本公开实施例的再一个方面，提供了一种任务调度执行装置，包括：

第一确定模块，用于确定存在对应第一版本模型文件的第一目标任务，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

第二确定模块，用于基于所述第一版本模型文件的状态信息组以及所述预定占用比例，将满足预设并发执行条件的所述第一确定模块确定的所述第一目标任务的集合确定为第一任务组，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

第一运行模块，用于并发运行所述第二确定模块确定的所述第一任务组中的各个所述第一目标任务分别对应的所述第一版本模型文件。

根据本公开实施例的又一个方面，提供了一种任务调度执行指令的生成装置，包括：

第一生成模块，用于通过编译处理，生成第一算子组对应的第一版本模型文件，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

第二生成模块，用于基于所述第一算子组对应的功能单元组，生成所述第一生成模块生成的所述第一版本模型文件的状态信息组，所述第一算子组对应的功能单元组包括：所述神经网络加速器的用于供所述第一算子组运行的各个功能单元，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

第三生成模块，用于基于所述第一生成模块生成的所述第一版本模型文件、所述第二生成模块生成的所述第一版本模型文件的状态信息组，以及所述预定占用比例，生成任务调度执行指令，所述任务调度执行指令用于执行上述任务调度执行方法。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任务调度执行方法或者任务调度执行指令的生成方法。

根据本公开实施例的又一个方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任务调度执行方法或者任务调度执行指令的生成方法。

根据本公开实施例的又一个方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令被处理器执行时，实现上述任务调度执行方法，或者实现上述任务调度执行指令的生成方法。

基于本公开上述实施例提供的一种任务调度执行方法、任务调度执行指令的生成方法、装置、计算机可读存储介质、电子设备及产品，可以基于第一版本模型文件的状态信息组，以及第一版本模型文件在运行状态下对神经网络加速器的计算资源的预定占用比例，确定第一任务组，且并发运行第一任务组中的各个第一目标任务分别对应的第一版本模型文件，这样相当于通过任务调度机制，实现了神经网络加速器对多个任务的并行处理，从而能够提升神经网络加速器的运算效率，以较好地满足实际需求。

附图说明

图1是本公开一示例性实施例中芯片的结构示意图。

图2是本公开的实施例中实现神经网络加速器对多个任务的并行处理的原理图。

图3是本公开一示例性实施例提供的任务调度执行方法的流程示意图。

图4是本公开另一示例性实施例提供的任务调度执行方法的流程示意图。

图5-1是本公开一示例性实施例提供的任务调度执行方法中任务队列和任务调度表的示意图。

图5-2是本公开一示例性实施例提供的任务调度执行方法中任务的拆分示意图。

图6是本公开再一示例性实施例提供的任务调度执行方法的流程示意图。

图7是本公开一示例性实施例提供的任务调度执行指令的生成方法的流程示意图。

图8是本公开另一示例性实施例提供的任务调度执行指令的生成方法的流程示意图。

图9是本公开再一示例性实施例提供的任务调度执行指令的生成方法的流程示意图。

图10是本公开又一示例性实施例提供的任务调度执行指令的生成方法的流程示意图。

图11是本公开一示例性实施例提供的任务调度执行装置的结构示意图。

图12是本公开另一示例性实施例提供的任务调度执行装置的结构示意图。

图13是本公开一示例性实施例提供的任务调度执行指令的生成装置的结构示意图。

图14是本公开另一示例性实施例提供的任务调度执行指令的生成装置的结构示意图。

图15是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

为了解释本公开，下面将参考附图详细地描述本公开的示例实施例，显然，所描述的实施例仅是本公开的一部分实施例，而不是全部实施例，应理解，本公开不受示例性实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

申请概述

一些芯片中可以包括神经网络加速器，例如，人工智能(Artificial Intelligence，AI)芯片中可以包括BPU。一些情况下，神经网络加速器存在多个待处理的任务，神经网络加速器往往是按任务产生的时间先后顺序，依次执行这些任务，神经网络加速器在同一时刻仅执行一个任务。

示例性系统

芯片中的神经网络加速器可以包括：计算部件和多个功能单元(Function Unit)；其中，图1中的L1SRAM(Static Random-Access Memory，静态随机存取存储器)可以作为计算部件；图1中的Tensor Core(张量核)、Vector core(矢量核)、Scalar core(标量核)、DSU(Domain Specific Unit，域特定单元)可以分别作为一个功能单元。

可选地，芯片中除了包括神经网络加速器，还可以包括其他组成，例如还可以包括图形处理器(Graphics Processing Unit，GPU)、数字信号处理器(Digital Signal Processing，DSP)等。

需要说明的是，如图2所示，本公开的实施例中可以分别对编译阶段和执行阶段进行改进；其中，在编译阶段，可以生成任务调度执行指令；在执行阶段，可以通过编译阶段生成的任务调度执行指令的执行，实现神经网络加速器对多个任务的并行处理，从而提升神经网络加速器的运算效率。

示例性方法

图3是本公开一示例性实施例提供的任务调度执行方法的流程示意图。图3所示的方法包括步骤310、步骤320和步骤330，下面分别对各步骤进行说明。

步骤310，确定存在对应第一版本模型文件的第一目标任务，第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源。

在一个可选示例中，步骤310可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一确定模块执行。

在步骤310中，可以确定神经网络加速器待处理的所有任务，并对这些任务进行遍历，以确定这些任务中的哪些任务具有对应的第一版本模型文件，之后可以将具有对应的第一版本模型文件的每个任务分别作为一个第一目标任务，这样，通过执行步骤310可以确定若干个第一目标任务(为了便于说明，后续均假设第一目标任务的数量为N个，N可以为大于或等于2的整数)。

需要说明的是，任一第一目标任务与对应的第一版本模型文件之间的关系可以理解为：通过该第一版本模型文件的运行，可以完成该第一目标任务，并且，在该第一版本模型文件的运行状态下，该第一版本模型文件对神经网络加速器的计算资源的占用比例是一个预定占用比例。

可选地，任一预定占用比例可以为大于0％且小于100％的任意比例，例如为30％、40％、60％等；不同第一版本模型文件对应的预定占用比例可以相同或者不同；神经网络加速器的计算资源可以是指神经网络加速器中的计算部件的计算资源，例如图1中的L1SRAM的计算资源。

步骤320，基于第一版本模型文件的状态信息组以及预定占用比例，将满足预设并发执行条件的第一目标任务的集合确定为第一任务组，第一版本模型文件的状态信息组包括：第一版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态。

在一个可选示例中，步骤320可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二确定模块执行。

在通过执行步骤310确定N个第一目标任务之后，可以针对N个第一目标任务中的每个第一目标任务对应的第一版本模型文件，确定对应的状态信息组和预定占用比例，由此可以得到N个状态信息组和N个预定占用比例；其中，任一第一版本模型文件对应的状态信息组中，任一功能单元对应的状态可以用于表征该第一版本模型文件在运行状态下，该功能单元是否被使用。参考N个状态信息组和N个预定占用比例，可以确定N个第一目标任务中的哪些第一目标任务满足预设并发执行条件，由此可以确定第一任务组。

在一个例子中，N个第一目标任务具体可以为4个第一目标任务，分别是任务1至任务4，且仅任务1、任务3、任务4三者满足预设并发执行条件，则可以将任务1、任务3、任务4三者组成的集合确定为一个第一任务组。

在另一个例子中，N个第一目标任务具体可以为6个第一目标任务，分别是任务1至任务6，且任务1至任务3三者满足预设并发执行条件，任务4至任务6三者满足预设并发执行条件，则可以将任务1至任务3三者组成的集合确定为一个第一任务组，并将任务4至任务6三者组成的集合确定为另一个第一任务组。

步骤330，并发运行第一任务组中的各个第一目标任务分别对应的第一版本模型文件。

在一个可选示例中，步骤330可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一运行模块执行。

如果第一任务组的数量为一个，且这个第一任务组为任务1、任务3、任务4三者组成的集合，则可以通过神经网络加速器并发运行任务1、任务3、任务4分别对应的第一版本模型文件，由此实现神经网络加速器对任务1、任务3、任务4的并行处理。

如果第一任务组的数量为两个，且其中一个第一任务组为任务1至任务3三者组成的集合，另一个第一任务组为任务4至任务6三者组成的集合，则可以先通过神经网络加速器并发运行任务1、任务2、任务3分别对应的第一版本模型文件，由此实现神经网络加速器对任务1、任务2、任务3的并行处理，然后通过神经网络加速器并发运行任务4、任务5、任务6分别对应的第一版本模型文件，由此实现神经网络加速器对任务4、任务5、任务6的并行处理。当然，根据实际情况，也可以先通过神经网络加速器并发运行任务4、任务5、任务6分别对应的第一版本模型文件，然后通过神经网络加速器并发运行任务1、任务2、任务3分别对应的第一版本模型文件。

本公开的实施例中，可以基于第一版本模型文件的状态信息组，以及第一版本模型文件在运行状态下对神经网络加速器的计算资源的预定占用比例，确定第一任务组，且并发运行第一任务组中的各个第一目标任务分别对应的第一版本模型文件，这样相当于通过任务调度机制，实现了神经网络加速器对多个任务的并行处理，从而能够提升神经网络加速器的运算效率，以较好地满足实际需求。

在一个可选示例中，多个第一目标任务满足预设并发执行条件可以包括以下任意一者或者多者：

(1)多个第一目标任务中的各个第一目标任务分别对应的状态信息组所组成的信息集合中，对应于任一功能单元的所有状态中：一个状态为使用状态，剩余状态均为空闲状态；或者，各个状态均为空闲状态；

(2)多个第一目标任务中的各个第一目标任务分别对应的预定占用比例的和值小于预设比例。

可选地，预设比例可以为100％。或者，预设比例可以为小于100％且接近100％的比例。为了便于理解，本公开的实施例中均以预设比例为100％的情况为例进行说明。

需要说明的是，任一第一目标任务对应的状态信息组中，任一功能单元对应的状态可以为以下两者中的一者：使用状态、空闲状态；其中，使用状态可以用shared表示，空闲状态可以用available表示。

在一个例子中，神经网络加速器中包括3个功能单元，分别是Tensor Core、Vector core、DSU，N个第一目标任务具体为4个第一目标任务，分别是任务1至任务4，且任务1至任务4各自对应的状态信息组如下：

任务1：Tensor Core-shared、Vector core-available、DSU-available

任务2：Tensor Core-shared、Vector core-shared、DSU-shared

任务3：Tensor Core-available、Vector core-shared、DSU-available

任务4：Tensor Core-available、Vector core-available、DSU-shared

其中，如“A-shared”的形式表示A这个功能单元对应的状态为使用状态，“B-available”的形式表示B这个功能单元对应的状态为空闲状态。

容易看出，任务1、任务3、任务4三者中仅任务1一者对应于Tensor Core的状态为使用状态，另外两者对应于Tensor Core的状态均为空闲状态；任务1、任务3、任务4三者中仅任务3一者对应于Vector core的状态为使用状态，另外两者对应于Vector core的状态均为空闲状态；任务1、任务3、任务4三者中仅任务4一者对应于DSU的状态为使用状态，另外两者对应于DSU的状态均为空闲状态。那么，对于任务1、任务3、任务4三者，上述(1)中限定的条件满足。与此同时，假设任务1至任务4分别对应的预定占用比例依次为30％、30％、25％、35％，很明显，任务1、任务3、任务4三者对应的三个预定占用比例的和值小于100％，那么，对于任务1、任务3、任务4三者，上述(2)中限定的条件也满足，由此可以确定任务1、任务3、任务4三者满足预设并发执行条件。这样，可以在通过Tensor Core的使用实现任务1的同时，通过Vector core的使用实现任务3，并通过DSU的使用实现任务4，也即，神经网络加速器在同一时刻可以执行任务1、任务3、任务4三者。

需要说明的是，在对于任务1、任务3、任务4三者，上述(1)中限定的条件满足的情况下，假设任务1至任务4分别对应的预定占用比例依次为40％、25％、50％、65％，很明显，任务1、任务3、任务4三者对应的三个预定占用比例的和值大于100％，任务1和任务4两者对应的两个预定占用比例的和值大于100％，任务3和任务4两者对应的两个预定占用比例的和值大于100％，任务1和任务3两者对应的两个预定占用比例的和值小于100％，也即，对于任务1和任务3两者而言，上述(2)中限定的条件满足，由此可以确定任务1和任务3两者满足预设并发执行条件。这样，可以在通过Tensor Core的使用实现任务1的同时，通过Vector core的使用实现任务3，也即，神经网络加速器在同一时刻可以执行任务1和任务3两者。

假设上述例子中的N个第一目标任务不是4个第一目标任务，而是5个第一目标任务，例如除了包括上述的任务1至任务4之外，还包括任务5，任务5对应的预定占用比例为30％，任务5对应的状态信息组如下：

任务5：Tensor Core-shared、Vector core-shared、DSU-available

假设任务1至任务4分别对应的预定占用比例依次为40％、25％、50％、65％，容易看出，任务1和任务3两者满足预设并发执行条件，并且，由于任务4和任务5中仅一者对应于Tensor Core的状态为使用状态，任务4和任务5中仅一者对应于Vector core的状态为使用状态，任务4和任务5中仅一者对应于DSU的状态为使用状态，且任务4和任务5两者对应的两个预定占用比例的和值为95％，小于100％，可以判定任务4和任务5也满足预设并发执行条件，这样，可以将任务1和任务3划分至一个第一任务组中，将任务4和任务5划分至另一第一任务组中，由此可以确定出两个第一任务组。

本公开的实施例中，通过上述(1)中限定的条件，针对神经网络加速器中的每个功能单元，同一时刻第一任务组中至多可以有一个第一目标任务使用该功能单元，由此可以避免第一任务组中的不同第一目标任务同时使用同一功能单元，从而避免功能单元的使用冲突；通过上述(2)中限定的条件，可以保证神经网络加速器的计算资源能够支持第一任务组中的各个第一目标任务的并行处理，从而保证通过并行处理，成功完成第一任务组中的各个第一目标任务，由此可以提升神经网络加速器中的计算部件的利用率。

在图3所示实施例的基础上，如图4所示，该方法还包括步骤301、步骤303、步骤305和步骤307。

步骤301，获取任务队列，任务队列中的各个任务分别对应一个神经网络模型。

在一个可选示例中，步骤301可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块执行。

可选地，任务队列可以为图5-1中的BPU Task Queue。

可以理解的是，神经网络模型可以认为是算子单元序列，也即，神经网络模型中可以包括按照一定顺序排列的多个(例如40个、50个、100个等)算子单元；其中，多个算子单元包括但不限于卷积(Convolution，Conv)算子单元、池化(Pooling，Pool)算子单元、反卷积算子单元、修正线性单元(Rectified Linear Unit，ReLU)算子单元、批归一化(Batch Normalization，BN)算子单元等。

需要说明的是，任务队列中的任一任务与对应的神经网络模型之间的关系可以理解为：该任务需要依赖于该神经网络模型完成，例如，该任务为目标检测任务，该神经网络模型为用于目标检测的模型，则通过将待进行目标检测的图像作为输入提供给该神经网络模型进行运算处理，并得到该神经网络模型输出的目标检测结果，可以认为完成了该任务。

步骤303，确定第二目标任务对应的目标神经网络模型是否存在对应的划分方式信息，第二目标任务为任务队列中的任一任务；响应于目标神经网络模型存在对应的划分方式信息，执行步骤305；响应于目标神经网络模型不存在对应的划分方式信息，执行步骤307。

在一个可选示例中，步骤303可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三确定模块执行。

可选地，目标存储区中可以存储有神经网络模型与划分方式信息之间的对应关系，目标存储区存储的对应关系的由来可以参照下文中编译阶段的相关说明，在此不做展开介绍。

在步骤303中，可以对目标存储区中存储的对应关系进行遍历。如果通过对目标存储区中存储的对应关系的遍历，确定目标存储区中存储的对应关系中存在目标神经网络模型对应的划分方式信息，则可以执行步骤305；如果通过对目标存储区中存储的对应关系的遍历，确定目标存储区中存储的对应关系中不存在目标神经网络模型对应的划分方式信息，则可以执行步骤307。

步骤305，对第二目标任务进行划分，得到K个划分任务，并将K个划分任务添加至任务调度表中；K个划分任务与按照目标神经网络模型对应的划分方式信息，对目标神经网络模型进行划分得到的K个算子组对应。

在一个可选示例中，步骤305可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一处理模块执行。

可选地，任务调度表可以为图5-1中的Task Scheduler。

需要说明的是，目标神经网络模型对应的划分方式信息可以用于将目标神经网络模型划分为K个算子组，每个算子组中包括目标神经网络模型中的至少一个算子单元。这样，可以基于目标神经网络模型对应的划分方式信息，对第二目标任务进行划分，以得到与K个算子组一一对应的K个划分任务。可选地，K可以为2、3、4或者大于4的整数，在此不再一一列举。

步骤307，将第二目标任务添加至任务调度表中。

在一个可选示例中，步骤307可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二处理模块执行。

步骤310，包括步骤3101。

步骤3101，从任务调度表中，确定存在对应第一版本模型文件的第一目标任务。

在步骤3101中，可以对任务调度表中的所有任务进行遍历，以确定这些任务中的哪些任务具有对应的第一版本模型文件，之后可以将具有对应的第一版本模型文件的每个任务分别作为一个第一目标任务。

在一个例子中，第二目标任务为图5-2中的Task1，目标神经网络模型包括5个算子单元，依次为Convolution1、Pooling1、Convolution2、Pooling2、Convolution3，则可以对Task1进行划分，得到5个划分任务，分别是Task1.1、Task1.2、Task1.3、Task1.4、Task1.5；其中，Task1.1与Convolution1对应，Task1.2与Pooling1对应，Task1.3与Convolution2对应、Task1.4与Pooling2对应、Task1.5与Convolution3对应。假设各个Convolution均执行在Tensor Core上，各个Pooling均执行在Vector core上，则Task1执行时需要运用Tensor Core和Vector core，Task1.1执行时需要运用Tensor Core，Task1.2执行时需要运用Vector core，Task1.3执行时需要运用Tensor Core，Task1.4执行时需要运用Vector core，Task1.5执行时需要运用Vector core，很明显，Task1.1至Task1.5中的任一者执行时需要运用的功能单元均少于Task1执行时需要运用的功能单元。

这样，如果Task1.1和Task1.2可以分别作为一个第一目标任务，且Task1.1和Task1.2两者对应的两个预定占用比例的和值小于100％，神经网络加速器可以对Task1.1和Task1.2两者进行并行处理，以提升神经网络加速器的运算效率。类似地，如果Task1.3和Task1.4后续可以分别作为一个第一目标任务，且Task1.3和Task1.4两者对应的两个预定占用比例的和值小于100％，神经网络加速器可以对Task1.3和Task1.4两者进行并行处理。

本公开的实施例中，可以依据任务队列中的第二目标任务对应的神经网络模型是否存在对应的划分方式信息，确定是直接将第二目标任务添加至任务调度表中，还是将对第二目标任务进行划分得到的K个划分任务添加至任务调度表中，这样，对于存在对应的划分方式信息的任务，通过划分处理，可以得到相比于该任务细粒度更小的若干个划分任务，每个划分任务执行时需要运用的功能单元相对更少，由此可以提高任务调度表中的不同任务可并行处理的概率，从而有利于提升神经网络加速器的运算效率。

在图4所示实施例的基础上，如图6所示，该方法还包括步骤340和步骤350。

步骤340，确定第二任务组，第二任务组包括：任务调度表中除第一任务组中的各个第一目标任务之外的第三目标任务的集合。

在一个可选示例中，步骤340可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四确定模块执行。

在步骤340中，可以对任务调度表中的所有任务进行遍历，以确定任务调度表中的哪些任务不位于第一任务组中，这些任务中的每个任务可以分别作为第一第三目标任务，所有第三目标任务组成的集合可以作为第二任务组。

步骤350，按照预设顺序运行第二任务组中的各个第三目标任务分别对应的第二版本模型文件，第二版本模型文件在运行状态下完整占用计算资源。

在一个可选示例中，步骤350可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二运行模块执行。

需要说明的是，任一第三目标任务与对应的第二版本模型文件之间的关系可以理解为：通过该第二版本模型文件的运行，可以完成该第三目标任务，并且，在该第二版本模型文件的运行状态下，该第二版本模型文件对神经网络加速器的计算资源的占用比例是100％。

可选地，任一第二版本模型文件可以具有状态信息组，并且，任一第二版本模型的状态信息组包括：该第二版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态，且该状态信息组中的各个状态均为独占状态；其中，独占状态可以用exclusive表示。

在步骤350中，可以确定第二任务组中的各个第三目标任务分别添加至任务调度表中的时间，并按照添加时间由早至晚的顺序，通过神经网络加速器依次运行第二任务组中的各个第三目标任务分别对应的第二版本模型文件，由此可以实现第二任务组中的各个第三目标任务的串行处理。

本公开的实施例中，对于任务调度表中无法并行处理的那部分任务，可以通过神经网络加速器对这部分任务进行串行处理，这样，任务调度表中的任务均能够被成功处理，不会造成任务的遗漏。

在一个例子中，如图5-1所示，任务队列中存在三个任务，分别是Task1、Task2、Task3，假设Task1对应的神经网络模型为model1，Task2对应的神经网络模型为model2，Task3对应的神经网络模型为model3，model1不存在对应的划分方式信息，model2存在对应的划分方式信息，且该划分方式信息用于将model2划分为算子组1和算子组2，model3存在对应的划分方式信息且该划分方式信息用于将model3划分为算子组3和算子组4。那么，可以不对Task1进行划分，且可以对Task2进行划分，以得到Task2.1和Task2.2，还可以对Task3进行划分，以得到Task3.1和Task3.2；其中，Task2.1与算子组1对应，Task2.2与算子组2对应，Task3.1与算子组3对应，Task3.2与算子组4对应。Task1、Task2.1、Task2.2、Task3.1、Task3.2均可以添加至Task Scheduler中。

假设神经网络加速器中包括2个功能单元，分别是Tensor Core、Vector core，Task1、Task2.1、Task3.1均不存在对应的第一版本模型文件，而仅存在对应的第二版本模型文件，而Task2.2、Task3.2均存在对应的第一版本模型文件，则Task Scheduler中还可以添加有Task1、Task2.1、Task3.1分别对应的第二版本模型文件的状态信息组，以及Task2.2、Task3.2分别对应的第一版本模型文件的状态信息组，Task Scheduler中添加的内容具体可以参见图5-1；其中，如“A_exclusive”的形式表示A这个功能单元对应的状态为独占状态，如“B_available”的形式表示B这个功能单元对应的状态为空闲状态，如“C_shared”的形式表示C这个功能单元对应的状态为使用状态。

由于Task1、Task2.1、Task3.1均不存在对应的第一版本模型文件，Task1、Task2.1、Task3.1均不能作为第一目标任务，而仅能分别作为一个第三目标任务，这样，Task1、Task2.1、Task3.1中的任一者均无法与其他任务并行处理，而只能分别单独处理。由于Task2.2和Task3.2两者中仅一者对应于Tensor Core的状态为使用状态，且Task2.2和Task3.2两者中仅一者对应于Vector core的状态为使用状态，如果Task2.2和Task3.2各自对应的第一版本模型文件所对应的预定占用比例的和值小于100％，则可以确定Task2.2和Task3.2两者满足预设并发执行条件，那么，神经网络加速器可以先并行处理Task2.2和Task3.2，然后再串行处理Task1、Task2.1、Task3.1，由此实现对Task Scheduler中的所有任务的处理。

本公开实施例提供的任一种任务调度执行方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种任务调度执行方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种任务调度执行方法。下文不再赘述。

图7是本公开一示例性实施例提供的任务调度执行指令的生成方法的流程示意图。图7所示的方法包括步骤710、步骤720和步骤730，下面分别对各步骤进行说明。

步骤710，通过编译处理，生成第一算子组对应的第一版本模型文件，第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源。

在一个可选示例中，步骤710可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一生成模块执行。

可选地，可以将一个完整的神经网络模型作为第一算子组，或者，可以将一个完整的神经网络模型中连续若干个算子单元组成的集合作为第一算子组；第一算子组的数量可以为多个，多个第一算子组中的每个第一算子组可以对应上文中的一个第一目标任务。

在步骤710中，可以通过编译器进行编译处理，以生成各个第一算子组分别对应的第一版本模型文件，具体编译处理方式可以根据实际需求采用任意可实施的方式，本公开对此不做赘述。

步骤720，基于第一算子组对应的功能单元组，生成第一版本模型文件的状态信息组，第一算子组对应的功能单元组包括：神经网络加速器的用于供第一算子组运行的各个功能单元，第一版本模型文件的状态信息组包括：第一版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态。

在一个可选示例中，步骤720可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二生成模块执行。

在步骤720中，可以先确定第一算子组对应的功能单元组，假设神经网络加速器中包括3个功能单元，分别是Tensor Core、Vector core、DSU，第一算子组运行时需要用到Tensor Core和Vector core，则第一算子组对应的功能单元组中包括Tensor Core和Vector core。接下来，可以参考第一算子组对应的功能单元组，生成第一版本模型文件的状态信息组，第一版本文件的状态信息组中，任一功能单元对应的状态可以用于表征该第一版本模型文件在运行状态下，该功能单元是否被使用。

步骤730，基于第一版本模型文件、第一版本模型文件的状态信息组，以及预定占用比例，生成任务调度执行指令，任务调度执行指令用于任务调度执行方法(其具体可以为图3所示实施例中的任务调度执行方法)。

在一个可选示例中，步骤730可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三生成模块执行。

本公开的实施例中，在编译阶段，可以依次执行第一版本模型文件的生成步骤，第一版本模型文件的状态信息组的生成步骤，再结合第一版本模型文件对应的预定占用比例，可以进行任务调度执行指令的生成，这样，在执行阶段，通过执行编译阶段生成的任务调度执行指令，可以依次确定第一目标任务和第一任务组，以便并发运行第一任务组中的各个第一目标任务分别对应的第一版本模型文件，这样相当于通过任务调度机制，实现了神经网络加速器对多个任务的并行处理，从而能够提升神经网络加速器的运算效率，以较好地满足实际需求。

在图7所示实施例的基础上，可以将神经网络加速器的任一功能单元作为目标功能单元，如图8所示，步骤720包括步骤7201和步骤7203。

步骤7201，响应于目标功能单元位于第一算子组对应的功能单元组中，确定第一版本模型文件的状态信息组中目标功能单元对应的状态为使用状态。

在一个可选示例中，步骤7201可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一确定子模块执行。

步骤7203，响应于目标功能单元不位于第一算子组对应的功能单元组中，确定第一版本模型文件的状态信息组中目标功能单元对应的状态为空闲状态。

在一个可选示例中，步骤7203可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二确定子模块执行。

在一个例子中，神经网络加速器中包括3个功能单元，分别是Tensor Core、Vector core、DSU，第一算子组对应的功能单元组中包括Tensor Core和Vector core，由于Tensor Core和Vector core均位于第一算子组对应的功能单元组中，第一版本模型文件的状态信息组中Tensor Core和Vector core分别对应的状态可以均为使用状态，又由于DSU不位于第一算子组对应的功能单元组中，第一版本模型文件的状态信息组中DSU对应的状态可以为空闲状态，这样，第一版本模型文件的状态信息组可以表示为如下形式：Tensor Core-shared、Vector core-shared、DSU-available。

本公开的实施例中，参考目标功能单元在第一算子组对应的功能单元组中存在与否，能够高效可靠地确定目标功能单元对应于神经网络加速器中的各个功能单元分别为何种状态，由此可以高效可靠地生成第一版本模型文件的状态信息组。

在图7所示实施例的基础上，如图9所示，在步骤710之前，该方法还包括步骤701和步骤703。

步骤701，在神经网络模型中的各个算子单元分别对应的功能单元组不完全相同的情况下，将该神经网络模型划分为分别对应不同功能单元组的K个算子组，并记录相应的划分方式信息，任一算子组对应的功能单元组包括：神经网络加速器的用于供该算子组运行的各个功能单元。

在一个可选示例中，步骤701可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三处理模块执行。

可选地，K可以为2、3、4或者大于4的整数，在此不再一一列举。

在步骤701中，可以先确定神经网络模型中的各个算子单元分别对应的功能单元组；其中，任一算子单元对应的功能单元组包括：神经网络加速器的用于供该算子单元运行的各个功能单元。接下来，可以将该神经网络模型中的各个算子单元分别对应的功能单元组进行比对，以确定该神经网络模型中的各个算子单元分别对应的功能单元组是否完全相同。

在该神经网络模型的各个算子单元分别对应的功能单元组完全相同的情况下，可以不对该神经网络模型进行划分，该神经网络模型自然也不存在对应的划分方式信息。

在一个例子中，神经网络加速器中包括3个功能单元，分别是Tensor Core、Vector core、DSU，该神经网络模型为图5-1中的Task2对应的神经网络模型，也即，该神经网络模型包括的各个算子单元对应的功能单元组均仅包括Tensor Core，那么，可以不对该神经网络模型进行划分，这样，在执行阶段，Task2整体可以运行在Tensor Core上。与Task2类似，在执行阶段，图5-1中的Task3整体可以运行在Vector core上。

在该神经网络模型中的各个算子单元分别对应的功能单元组不完全相同的情况下，可以将该神经网络模型划分为分别对应不同功能单元组的K个算子组，并记录相应的划分方式信息。

在一个例子中，神经网络加速器中包括3个功能单元，分别是Tensor Core、Vector core、DSU，该神经网络模型包括30个算子单元，其中，前10个算子单元对应的功能单元组中包括Tensor Core、Vector core，中间10个算子单元对应的功能单元组中包括Vector core和DSU，后10个算子单元对应的功能单元组中包括Tensor Core、Vector core、DSU，那么，可以将该神经网络模型划分为3个算子组；其中，第1个算子组中包括该神经网络模型包括的30个算子单元中的前10个算子单元，第2个算子组中包括该神经网络模型包括的30个算子单元中的中间10个算子单元，第3个算子组中包括该神经网络模型包括30个算子单元中的后10个算子单元，针对该神经网络模型记录的划分方式信息可以用于表征将该神经网络模型包括的30个算子单元平均划分为3份。或者，也可以将该神经网络模型划分为2个算子组；其中，第1个算子组中包括该神经网络模型包括的30个算子单元中的前10个算子单元，第2个算子组中包括该神经网络模型包括的30个算子单元中的剩余20个算子单元，针对该神经网络模型记录的划分方式信息可以用于表征将该神经网络模型包括的30个算子单元按照1:2的比例划分。需要说明的是，在针对该神经网络模型进行划分方式信息的记录之后，还可以在目标存储区中记录该神经网络模型与该划分方式信息之间的对应关系。

步骤703，将K个算子组中的至少部分算子组中的各个算子组分别作为一个第一算子组。

在一个可选示例中，步骤703可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第五确定模块执行。

可选地，可以将K个算子组中的各个算子组分别作为一个第一算子组。

步骤730，包括：

步骤7301，分别针对各个第一算子组，基于该第一算子组对应的第一版本模型文件、该第一算子组对应的第一版本模型文件的状态信息组、该第一算子组对应的预定占用比例，以及划分方式信息，生成任务调度执行指令，任务调度执行指令用于执行任务调度执行方法(其具体可以为图4所示实施例中的任务调度执行方法)。

通过执行步骤7301，可以针对每个第一算子组，分别生成对应的任务调度执行指令。

本公开的实施例中，对于神经网络模型中的各个算子单元分别对应的功能单元组不完全相同的情况下，可以参照各个算子单元分别对应的功能单元组，针对该神经网络模型进行划分，以使得划分得到的不同算子组对应不同功能单元组，并进行划分方式信息的记录，这样，在执行阶段，可以参考目标存储区中存储的对应关系，确定是直接将第二目标任务添加至任务调度表中，还是对第二目标任务进行划分后再添加至任务调度表中，通过任务的划分处理，有利于提高任务调度表中的不同任务可并行处理的概率。

在图9所示实施例的基础上，如图10所示，该方法还包括步骤711。

步骤711，通过编译处理，生成各个第一算子组分别对应的第二版本模型文件，第二版本模型文件在运行状态下完整占用计算资源。

在一个可选示例中，步骤711可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四生成模块执行。

在步骤711中，可以通过编译器进行编译处理，以生成各个第一算子组分别对应的第二版本模型文件，具体编译处理方式可以根据实际需求采用任意可实施的方式，本公开对此不做赘述。

步骤7301，包括步骤73011。

步骤73011，分别针对各个第一算子组，基于该第一算子组对应的第一版本模型文件、该第一算子组对应的第一版本模型文件的状态信息组、该第一算子组对应的预定占用比例、划分方式信息，以及该第一算子组对应的第二版本模块文件，生成任务调度执行指令，任务调度执行指令用于执行任务调度执行方法(其具体可以为图6所示实施例中的任务调度执行方法)。

本公开的实施例中，通过生成各个第一算子组分别对应的第二版本模型文件，并将所生成的第二版本模型文件用于任务调度执行指令的生成，在执行阶段，对于任务调度表中无法并行处理的那部分任务，可以通过神经网络加速器对这部分任务进行串行处理，以保证这部分任务能够被成功处理，这样，任务调度表中的各个任务均能够被成功处理。

在一个可选示例中，在编译阶段，可以针对多个算子组中的每个算子组(例如上文中的每个第一算子组)，进行多版本模型文件的编译，以生成用于实现相同功能的第一版本模型文件和第二版本模型文件；其中，第一版本模型文件按照预定占用比例占用L1SRAM，第二版本模型文件占用全部的L1SRAM。

需要说明的是，第一版本模型文件和第二版本模型文件均可以具有对应的状态信息组，每个状态信息组中均包括神经网络加速器的各个功能单元分别对应的状态，任一功能单元对应的状态有三种可能的情况，分别是：exclusive、shared、available；其中，exclusive表示算子组需要独占全部的L1SRAM；available表示算子组无需使用该功能单元，且算子组仅占用部分L1SRAM；shared表示算子组需要使用该功能单元，且可以共享除了自身需要使用的功能单元之外的功能单元，算子组仅占用部分L1SRAM。

这样，在执行阶段，参考第一版本模型文件的状态信息组以及第一版本模型文件对应的预定占用比例，能够高效可靠地确定哪些任务满足预设并发执行条件，之后可以对这些任务进行并行处理，从而提升神经网络加速器的运算效率，对于无法并行处理的任务，可以对这部分任务进行串行处理。

本公开实施例提供的任一种任务调度执行指令的生成方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种任务调度执行指令的生成方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例中的任一种任务调度执行指令的生成方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

示例性装置

图11是本公开一示例性实施例提供的任务调度执行装置的结构示意图。图11所示的装置可以用于实现本公开上述任一任务调度执行方法实施例。图11所示的装置包括第一确定模块1110、第二确定模块1120和第一运行模块1130。

第一确定模块1110，用于确定存在对应第一版本模型文件的第一目标任务，第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

第二确定模块1120，用于基于第一版本模型文件的状态信息组以及预定占用比例，将满足预设并发执行条件的第一确定模块1110确定的第一目标任务的集合确定为第一任务组，第一版本模型文件的状态信息组包括：第一版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态；

第一运行模块1130，用于并发运行第二确定模块1120确定的第一任务组中的各个第一目标任务分别对应的第一版本模型文件。

在一个可选示例中，多个第一目标任务满足预设并发执行条件包括以下任意一者或者多者：

多个第一目标任务中的各个第一目标任务分别对应的状态信息组所组成的信息集合中，对应于任一功能单元的所有状态中：一个状态为使用状态，剩余状态均为空闲状态；或者，各个状态均为空闲状态；

多个第一目标任务中的各个第一目标任务分别对应的预定占用比例的和值小于预设比例。

在一个可选示例中，如图12所示，该装置还包括：

获取模块1101，用于获取任务队列，任务队列中的各个任务分别对应一个神经网络模型；

第三确定模块1103，用于确定第二目标任务对应的目标神经网络模型是否存在对应的划分方式信息，第二目标任务为获取模块1101获取的任务队列中的任一任务；

第一处理模块1105，用于响应于第三确定模块1103确定出目标神经网络模型存在对应的划分方式信息，对第二目标任务进行划分，得到K个划分任务，并将K个划分任务添加至任务调度表中；K个划分任务与按照目标神经网络模型对应的划分方式信息，对目标神经网络模型进行划分得到的K个算子组对应；

第二处理模块1107，用于响应于第三确定模块1103确定出目标神经网络模型不存在对应的划分方式信息，将第二目标任务添加至任务调度表中；

第一确定模块1110，具体用于从任务调度表中，确定存在对应第一版本模型文件的第一目标任务。

在一个可选示例中，如图12所示，该装置还包括：

第四确定模块1140，用于确定第二任务组，第二任务组包括：任务调度表中除第二确定模块1120确定的第一任务组中的各个第一目标任务之外的第三目标任务的集合；

第二运行模块1150，用于按照预设顺序运行第四确定模块1140确定的第二任务组中的各个第三目标任务分别对应的第二版本模型文件，第二版本模型文件在运行状态下完整占用计算资源。

图13是本公开一示例性实施例提供的任务调度执行指令的生成装置的结构示意图。图13所示的装置可以用于实现本公开上述任一任务调度执行指令的生成方法实施例。图13所示的装置包括第一生成模块1310、第二生成模块1320和第三生成模块1330。

第一生成模块1310，用于通过编译处理，生成第一算子组对应的第一版本模型文件，第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

第二生成模块1320，用于基于第一算子组对应的功能单元组，生成第一生成模块1310生成的第一版本模型文件的状态信息组，第一算子组对应的功能单元组包括：神经网络加速器的用于供第一算子组运行的各个功能单元，第一版本模型文件的状态信息组包括：第一版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态；

第三生成模块1320，用于基于第一生成模块1310生成的第一版本模型文件、第二生成模块1320生成的第一版本模型文件的状态信息组，以及预定占用比例，生成任务调度执行指令，任务调度执行指令用于执行上述图3所示实施例中的任务调度执行方法。

在一个可选示例中，将神经网络加速器的任一功能单元作为目标功能单元，如图14所示，第二生成模块1320，包括：

第一确定子模块13201，用于响应于目标功能单元位于第一算子组对应的功能单元组中，确定第一生成模块1310生成的第一版本模型文件的状态信息组中目标功能单元对应的状态为使用状态；

第二确定子模块13203，用于响应于目标功能单元不位于第一算子组对应的功能单元组中，确定第一生成模块1310生成的第一版本模型文件的状态信息组中目标功能单元对应的状态为空闲状态。

在一个可选示例中，如图14所示，该装置还包括：

第三处理模块1301，用于在通过编译处理，生成第一算子组对应的第一版本模型文件之前，在神经网络模型中的各个算子单元分别对应的功能单元组不完全相同的情况下，将该神经网络模型划分为分别对应不同功能单元组的K个算子组，并记录相应的划分方式信息，任一算子组对应的功能单元组包括：神经网络加速器的用于供该算子组运行的各个功能单元；

第五确定模块1303，用于将第三处理模块1301划分得到的K个算子组中的至少部分算子组中的各个算子组分别作为一个第一算子组；

第三生成模块1320，具体用于分别针对第五确定模块1303确定的各个第一算子组，基于该第一算子组对应的第一版本模型文件、该第一算子组对应的第一版本模型文件的状态信息组、该第一算子组对应的预定占用比例，以及划分方式信息，生成任务调度执行指令，任务调度执行指令用于执行上述图4所示实施例中的任务调度执行方法。

在一个可选示例中，如图14所示，该装置还包括：

第四生成模块1311，用于通过编译处理，生成第五确定模块1303确定的各个第一算子组分别对应的第二版本模型文件，第二版本模型文件在运行状态下完整占用计算资源；

第三生成模块1320，具体用于分别针对第五确定模块1303确定的各个第一算子组，基于该第一算子组对应的第一版本模型文件、该第一算子组对应的第一版本模型文件的状态信息组、该第一算子组对应的预定占用比例、划分方式信息，以及该第一算子组对应的第二版本模块文件，生成任务调度执行指令，任务调度执行指令用于执行上述图6所示实施例中的任务调度执行方法。

在本公开的装置中，上述公开的各种可选实施例、可选实施方式和可选示例，都可以根据需要进行灵活的选择和组合，从而实现相应的功能和效果，本公开不进行一一列举。

示例性电子设备

图15图示了根据本公开实施例的电子设备的框图。电子设备1500包括一个或多个处理器1510和存储器1520。

处理器1510可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1500中的其他组件以执行期望的功能。

存储器1520可以包括一个或多个计算机程序产品，所述计算机程序产品可包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1510可以运行一个或多个计算机程序指令，以实现上文所述的本公开的任一方法实施例，例如，确定存在对应第一版本模型文件的第一目标任务，第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；基于第一版本模型文件的状态信息组以及预定占用比例，将满足预设并发执行条件的第一目标任务的集合确定为第一任务组，第一版本模型文件的状态信息组包括：第一版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态；并发运行第一任务组中的各个第一目标任务分别对应的第一版本模型文件。

在一个可选示例中，电子设备1500还可以包括：输入装置1530和输出装置1540，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，输入装置1530可以包括例如键盘、鼠标等。输出装置1540可以向外部输出各种信息。输出装置1540可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图15中仅示出了该电子设备1500中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1500还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开任一方法实施例中的步骤，例如，确定存在对应第一版本模型文件的第一目标任务，第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；基于第一版本模型文件的状态信息组以及预定占用比例，将满足预设并发执行条件的第一目标任务的集合确定为第一任务组，第一版本模型文件的状态信息组包括：第一版本模型文件在运行状态下，神经网络加速器的各个功能单元分别对应的状态；并发运行第一任务组中的各个第一目标任务分别对应的第一版本模型文件。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开任一方法实施例中的步骤。

所述计算机可读存储介质可采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本领域的技术人员可以对本公开进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

一种任务调度执行方法，包括：

确定存在对应第一版本模型文件的第一目标任务，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

基于所述第一版本模型文件的状态信息组以及所述预定占用比例，将满足预设并发执行条件的所述第一目标任务的集合确定为第一任务组，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

并发运行所述第一任务组中的各个所述第一目标任务分别对应的所述第一版本模型文件。
根据权利要求1所述的方法，其中，多个所述第一目标任务满足所述预设并发执行条件包括以下任意一者或者多者：

多个所述第一目标任务中的各个所述第一目标任务分别对应的所述状态信息组所组成的信息集合中，对应于任一所述功能单元的所有状态中：一个状态为使用状态，剩余状态均为空闲状态；或者，各个状态均为空闲状态；

多个所述第一目标任务中的各个所述第一目标任务分别对应的所述预定占用比例的和值小于预设比例。
根据权利要求1或2所述的方法，所述方法还包括：

获取任务队列，所述任务队列中的各个任务分别对应一个神经网络模型；

确定第二目标任务对应的目标神经网络模型是否存在对应的划分方式信息，所述第二目标任务为所述任务队列中的任一任务；

响应于所述目标神经网络模型存在对应的划分方式信息，对所述第二目标任务进行划分，得到K个划分任务，并将所述K个划分任务添加至任务调度表中；所述K个划分任务与按照所述目标神经网络模型对应的划分方式信息，对所述目标神经网络模型进行划分得到的K个算子组对应；

响应于所述目标神经网络模型不存在对应的划分方式信息，将所述第二目标任务添加至所述任务调度表中；

所述确定存在对应第一版本模型文件的第一目标任务，包括：

从所述任务调度表中，确定存在对应第一版本模型文件的所述第一目标任务。
根据权利要求3所述的方法，所述方法还包括：

确定第二任务组，所述第二任务组包括：所述任务调度表中除所述第一任务组中的各个所述第一目标任务之外的第三目标任务的集合；

按照预设顺序运行所述第二任务组中的各个所述第三目标任务分别对应的第二版本模型文件，所述第二版本模型文件在运行状态下完整占用所述计算资源。
一种任务调度执行指令的生成方法，包括：

通过编译处理，生成第一算子组对应的第一版本模型文件，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

基于所述第一算子组对应的功能单元组，生成所述第一版本模型文件的状态信息组，所述第一算子组对应的功能单元组包括：所述神经网络加速器的用于供所述第一算子组运行的各个功能单元，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

基于所述第一版本模型文件、所述第一版本模型文件的状态信息组，以及所述预定占用比例，生成任务调度执行指令，所述任务调度执行指令用于执行上述权利要求1或2所述的任务调度执行方法。
根据权利要求5所述的方法，其中，将所述神经网络加速器的任一所述功能单元作为目标功能单元，所述基于所述第一算子组对应的功能单元组，生成所述第一版本模型文件的状态信息组，包括：

响应于所述目标功能单元位于所述第一算子组对应的功能单元组中，确定所述第一版本模型文件的状态信息组中所述目标功能单元对应的状态为使用状态；

响应于所述目标功能单元不位于所述第一算子组对应的功能单元组中，确定所述第一版本模型文件的状态信息组中所述目标功能单元对应的状态为空闲状态。
根据权利要求5所述的方法，其中，

所述通过编译处理，生成第一算子组对应的第一版本模型文件之前，所述方法还包括：

在神经网络模型中的各个算子单元分别对应的功能单元组不完全相同的情况下，将该神经网络模型划分为分别对应不同功能单元组的K个算子组，并记录相应的划分方式信息，任一算子组对应的功能单元组包括：所述神经网络加速器的用于供该算子组运行的各个功能单元；

将所述K个算子组中的至少部分算子组中的各个所述算子组分别作为一个所述第一算子组；

所述基于所述第一版本模型文件、所述第一版本模型文件的状态信息组，以及所述预定占用比例，生成任务调度执行指令，所述任务调度执行指令用于执行上述权利要求1或2所述的任务调度执行方法，包括：

分别针对各个所述第一算子组，基于该第一算子组对应的所述第一版本模型文件、该第一算子组对应的所述第一版本模型文件的状态信息组、该第一算子组对应的所述预定占用比例，以及所述划分方式信息，生成任务调度执行指令，所述任务调度执行指令用于执行上述权利要求3所述的任务调度执行方法。
根据权利要求7所述的方法，还包括：

通过编译处理，生成各个所述第一算子组分别对应的第二版本模型文件，所述第二版本模型文件在运行状态下完整占用所述计算资源；

所述分别针对各个所述第一算子组，基于该第一算子组对应的所述第一版本模型文件、该第一算子组对应的所述第一版本模型文件的状态信息组、该第一算子组对应的所述预定占用比例，以及所述划分方式信息，生成任务调度执行指令，所述任务调度执行指令用于执行上述权利要求3所述的任务调度执行方法，包括：

分别针对各个所述第一算子组，基于该第一算子组对应的所述第一版本模型文件、该第一算子组对应的所述第一版本模型文件的状态信息组、该第一算子组对应的所述预定占用比例、所述划分方式信息，以及该第一算子组对应的所述第二版本模块文件，生成任务调度执行指令，所述任务调度执行指令用于执行上述权利要求4所述的任务调度执行方法。
一种任务调度执行装置，包括：

第一确定模块，用于确定存在对应第一版本模型文件的第一目标任务，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

第二确定模块，用于基于所述第一版本模型文件的状态信息组以及所述预定占用比例，将满足预设并发执行条件的所述第一确定模块确定的所述第一目标任务的集合确定为第一任务组，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

第一运行模块，用于并发运行所述第二确定模块确定的所述第一任务组中的各个所述第一目标任务分别对应的所述第一版本模型文件。
一种任务调度执行指令的生成装置，包括：

第一生成模块，用于通过编译处理，生成第一算子组对应的第一版本模型文件，所述第一版本模型文件在运行状态下按预定占用比例占用神经网络加速器的计算资源；

第二生成模块，用于基于所述第一算子组对应的功能单元组，生成所述第一生成模块生成的所述第一版本模型文件的状态信息组，所述第一算子组对应的功能单元组包括：所述神经网络加速器的用于供所述第一算子组运行的各个功能单元，所述第一版本模型文件的状态信息组包括：所述第一版本模型文件在运行状态下，所述神经网络加速器的各个功能单元分别对应的状态；

第三生成模块，用于基于所述第一生成模块生成的所述第一版本模型文件、所述第二生成模块生成的所述第一版本模型文件的状态信息组，以及所述预定占用比例，生成任务调度执行指令，所述任务调度执行指令用于执行上述权利要求1或2所述的任务调度执行方法。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-4中任一所述的任务调度执行方法，或者用于执行上述权利要求5-8中任一所述的任务调度执行指令的生成方法。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-4中任一所述的任务调度执行方法，或者实现上述权利要求5-8中任一所述的任务调度执行指令的生成方法。
一种计算机程序产品，当所述计算机程序产品中的指令被处理器执行时，实现上述权利要求1-4中任一所述的任务调度执行方法，或者实现上述权利要求5-8中任一所述的任务调度执行指令的生成方法。