CN115345287B

CN115345287B - 存储器内计算宏排列的方法、计算机可读介质及电子装置

Info

Publication number: CN115345287B
Application number: CN202210523375.0A
Authority: CN
Inventors: 董建德; 阮志峰; 梁仁尉
Original assignee: Novatek Microelectronics Corp
Current assignee: Novatek Microelectronics Corp
Priority date: 2021-05-13
Filing date: 2022-05-13
Publication date: 2025-11-04
Anticipated expiration: 2042-05-13
Also published as: TW202244722A; CN115345287A; US12236332B2; US12541674B2; TWI788257B; CN115344528A; TW202244794A; TWI798081B; US20220366216A1; US20220366947A1

Abstract

本申请提出一种存储器内计算宏排列的方法、计算机可读介质及电子装置。所述用于存储器内计算宏排列的方法包括：获得存储器内计算宏的数目的信息及存储器内计算宏中的每一个的维度的信息；获得指定神经网络的指定卷积层的输入通道的数目及输出通道的数目的信息；以及根据存储器内计算宏的数目、存储器内计算宏中的每一个的维度、指定神经网络的指定卷积层的输入通道的数目及输出通道的数目来确定用于对存储器内计算宏进行排列的存储器内计算宏排列，以用于对输入通道应用卷积运算以产生输出通道。

Description

存储器内计算宏排列的方法、计算机可读介质及电子装置

技术领域

本申请涉及一种用于存储器内计算(compute-in-memory，CIM)宏排列的方法及非暂时性计算机可读介质以及电子装置。

背景技术

CIM是一种用于对流行且广泛使用的冯诺依曼(von-Neumann)处理器/架构内的带宽与计算不匹配问题进行解决的技术。可通过将存储器与计算组合在同一区块中来解决带宽不匹配问题。然而，由于卷积神经网络的高计算要求，将使用并且应使用多个CIM宏，但多个CIM宏的水平/垂直比率是固定的且无法根据用于不同卷积计算的不同数目的输入通道及输出通道来进行调整，且所述固定的比率不会针对计算功率/能量度量而进行优化。

发明内容

本申请提出一种CIM宏排列的方法及非暂时性计算机可读介质以及电子装置。

根据示例性实施例中的一个，所述用于CIM宏排列的方法包括：获得CIM宏的数目的信息及所述CIM宏中的每一个的维度的信息；获得指定神经网络的指定卷积层的输入通道的数目及输出通道的数目的信息；以及根据所述CIM宏的所述数目、所述CIM宏中的每一个的所述维度、所述指定神经网络的所述指定卷积层的所述输入通道的所述数目及所述输出通道的所述数目来确定用于对所述CIM宏进行排列的CIM宏排列，以用于对所述输入通道进行卷积运算以产生所述输出通道。

根据示例性实施例中的一个，电子装置包括CIM宏及处理电路。所述CIM宏基于所述CIM宏的数目、所述CIM宏中的每一个的维度、以及指定神经网络的指定卷积层的输入通道的数目及输出通道的数目而排列成预定的CIM宏排列。所述处理电路被配置成：在经排列的所述CIM宏中加载权重；以及将一个输入特征图的多个输入通道输入到具有加载的所述权重的经排列的所述CIM宏中，以进行用于产生多个输出特征图中的一个的输出激活的卷积运算。

根据示例性实施例中的一个，所述非暂时性计算机可读介质存储程序，所述程序使计算机获得CIM宏的数目的信息及所述CIM宏中的每一个的维度的信息；获得指定神经网络的指定卷积层的输入通道的数目及输出通道的数目的信息；以及根据所述CIM宏的所述数目、所述CIM宏中的每一个的所述维度、所述指定神经网络的所述指定卷积层的所述输入通道的所述数目及所述输出通道的所述数目来确定用于对所述CIM宏进行排列的CIM宏排列，以用于对所述输入通道进行卷积运算以产生所述输出通道。

然而，应理解，此发明内容可能不包含本申请的所有方面及实施例，且因此并不意指以任何方式进行限制或局限。另外，本申请将包括对所属领域中的技术人员来说显而易见的改善及修改。

附图说明

包括附图以提供对本申请的进一步理解，且附图被并入本说明书中并构成本说明书的一部分。附图示出本申请的实施例，且与说明一同用于阐释本申请的原理。

图1示出卷积神经网络(convolutional neural network，CNN)中的卷积。

图2示出根据本申请示例性实施例中的一个的用于CIM宏排列的所提出方法的流程图。

图3示出根据本申请示例性实施例中的一个的不同CIM宏排列。

图4示出根据本申请示例性实施例中的一个的卷积运算。

图5示出根据本申请示例性实施例中的一个的垂直CIM宏排列。

图6示出根据本申请示例性实施例中的一个的水平CIM宏排列。

图7示出根据本申请示例性实施例中的一个的实行卷积运算的系统的方块图。

图8示出根据本申请示例性实施例中的一个的所提出电子装置的示意图。

为使本申请的以上特征及优点更易于理解，以下结合附图详细阐述若干实施例。

具体实施方式

深度神经网络(deep neural network，DNN)的常见形式是由多个卷积层构成的卷积神经网络(CNN)。在此种网络中，每一卷积层获取输入激活(input activation)数据且产生输入数据的更高层次的抽象(被称为特征图)，所述更高层次的抽象保留必要而独特的信息。CNN中的卷积激活层中的每一个主要由高维卷积构成。举例来说，图1示出CNN中的卷积。

参照图1，在此计算100中，一个层的输入激活被构造为具有多个通道的一组二维(2D)输入特征图(IX×IY且具有C个通道)，所述多个通道中的每一个被称为输入通道。每一输入通道与来自2D滤波器堆叠的不同2D滤波器(即，内核)进行卷积。此2D滤波器堆叠也被称为单个三维(3D)滤波器。多个3D滤波器110(具有维度FX×FY×C的M个滤波器)与输入特征图120进行卷积。跨所有输入通道对每一点的卷积结果进行求和。此计算的结果是一个输出通道的所有输出激活(output activations)，即，具有维度OX×OY的一个输出特征图。换句话说，3D滤波器110被应用于3D输入特征图120(具有批量大小N)以创建N个输出特征图130。对于不同DNN中的不同层，输入通道的数目(由C或IC表示)及输出通道的数目(由M或OC表示)将依据不同的参数设计而发生大量变化。然而，现有技术中用于多个CIM宏的CIM宏排列是固定的且与卷积的输入/输出通道数目无关。

为解决上述问题，现在将在下文中参考附图更全面地阐述本申请的一些实施例，在附图中示出本申请的一些实施例但并非全部实施例。实际上，本申请的各种实施例可以许多不同的形式来实施且不应被视为仅限于本文中陈述的实施例；确切来说，提供这些实施例是为了使本申请满足适用的法律要求。通篇中相同的参考编号指代相同的元件。

图2示出根据本申请示例性实施例中的一个的用于CIM宏排列的所提出方法的流程图。图2中的步骤将由产品开发阶段中的计算机系统来实施。

参照图2，获得CIM宏的数目的信息及CIM宏中的每一个的维度的信息(步骤S202)，且获得指定神经网络的指定卷积层的输入通道的数目及输出通道的数目的信息(步骤S204)。接下来，根据CIM宏的数目、CIM宏中的每一个的维度、指定神经网络的指定卷积层的输入通道的数目及输出通道的数目来确定用于对CIM宏进行排列的CIM宏排列，以用于对输入通道进行卷积运算以产生输出通道(步骤S206)。也就是说，通过在硬件中提供动态CIM形状配置，在软件中被实施为模块的CIM形状决策器(decider)可将输入通道及输出通道作为输入且决定能够产生最优配置的CIM形状配置。

在本示例性实施例中，根据延迟(latency)、能量消耗(energy consumption)及利用率(utilization)来确定能够实行多个滤波器与输入通道的卷积的CIM宏排列。所述延迟与存取动态随机存取存储器(dynamic random access memory，DRAM)的延迟、用于将权重加载到CIM宏中的延迟以及CIM宏的处理时间中的至少一个相关联。在本文中，权重意指滤波器的参数，且滤波器的参数的数目等于FX×FY×IC×OC。能量是表示用于使用一种类型的CIM宏排列来对卷积层进行计算的能量成本的因素，且能量消耗与用于存取至少一个存储器的能量成本相关联，所述至少一个存储器包括与CIM宏位于同一芯片中的芯片上静态随机存取存储器(static random access memory，SRAM)以及位于芯片之外的DRAM。利用率是CIM宏的已使用部分对所有CIM宏的比率。举例来说，DRAM:SRAM:CIM＝200:6:1的比率意指在存取相同数量的数据的基础上，存取SRAM相对于存取CIM要花费6倍的能量成本。

在一种情况下，所确定的CIM宏排列可提供的所有CIM宏在垂直维度的总和能够让此排列的CIM宏适于以最少的批量加载次数去载入输入通道以实行滤波器与指定卷积层的输入通道的卷积。在另一种情况下，所确定的CIM宏排列可提供的所有CIM宏在水平维度的总和能够让此排列的CIM宏适于以最少的批量加载次数去载入输入通道以实行滤波器与指定卷积层的输入通道的卷积。

为直观地阐释如何有效地使用多个CIM宏来将计算性能最大化，图3示出根据本申请示例性实施例中的一个的不同CIM宏排列。

参照图3，CNN网络的每一卷积层可具有输入/输出通道的相应配置。假设CIM宏的数目是4且每一CIM宏具有256行(row)及64列(column)的CIM单元。如果输入通道的数目多于输出通道的数目，则使用垂直排列310的CIM宏可更高效。如果输出通道的数目多于输入通道的数目，则使用水平排列320的CIM宏可更高效。如果输入通道的数目等于输出通道的数目，则使用正方形排列330的CIM宏可更高效。

为进行更好地理解，图4示出根据本申请示例性实施例中的一个的卷积运算。

参照图4，假设对于输入数据来说IC＝512、OX＝28且OY＝28，对于滤波器F0到F127来说FX＝1、FY＝1，且OC＝128、IX＝1、IY＝1。在使用两个宏、每一宏具有256行及64列的情形中，用于对卷积进行计算的高效CIM宏排列可为如图5中所示的根据本申请示例性实施例中的一个的垂直CIM宏排列。

参照图5，64个滤波器F0、F1、…、F63预先存储在CIM宏中。输入通道1到256被输入到第一CIM宏(上部CIM宏)且输入通道257到512被输入到第二CIM宏(下部CIM宏)。换句话说，具有维度1×1×512的输入立方体510的数据(对应于图4中的输入立方体410的数据)被分成两部分且分别被输入到第一CIM宏及第二CIM宏的每一列(每一列存储滤波器)以进行乘法运算。对于第一CIM宏及第二CIM宏中的每一个，由CIM宏对每一列的256个乘法结果进行求和以作为输出值，且外部电路可将所述两个输出值相加作为512个乘法结果的总和，以产生卷积输出。因此，作为整体的第一CIM宏与第二CIM宏可产生64个卷积输出。举例来说：

对于滤波器F0的列，

且对于滤波器F1的列，

其余64个滤波器F65、F66、…、F127的卷积运算将是相似的。

在使用两个CIM宏、每一CIM宏具有256行及64列的相同情形中，也可使用水平排列的CIM宏对卷积进行计算。在此种情形中，第一半数量的输入通道1到256可被输入到两个水平排列的CIM宏的共128列(所述128列分别预先存储128个滤波器)中的每一列，且每一列的256个乘法结果由CIM宏进行求和以作为输出值。然而，由于尚未对第二半数量的输入通道257到512进行计算，因此此种输出值无法作为完整的卷积输出。这些输出值(不完整的卷积输出)必须存储在累加缓冲器(SRAM或D触发器(D Flip-flop，DFF))中。直到也完成第二半数量的输入通道257到512的卷积运算才将不完整的卷积输出的两个部分相加以产生128个卷积输出。在此种情形中，在对累加缓冲器进行存取上花费较多的能量，因此其效率比使用两个垂直排列的CIM宏低。

接下来，假设输入通道的数目是128且输出通道的数目是512。由于每一宏具有256行(大于128)，因此无需将两个CIM宏垂直排列。单个CIM宏将能够完成输入通道1到256的卷积运算(即，单个CIM宏的利用率仅为50％)。在此种情形中，用于对卷积进行计算的高效CIM宏排列可为如图6中所示的根据本申请示例性实施例中的一个的水平CIM宏排列。

参照图6，将一次性加载128个滤波器F0到F127，以减少加载权重的数目。相似地，输入立方体610的数据被分别输入到第一CIM宏及第二CIM宏的每一列，以用于进行对应的输出的乘法运算。

不同的产品可应用不同的CNN架构进行数据处理。举例来说，监视系统(surveillance system)可应用CNN架构A进行数据处理，而外科器械(surgicalinstrument)可应用CNN架构B进行数据处理。可由离线工具基于产品所选择的CNN架构的卷积层的配置(即，OX、OY、IC、OC、FX、FY、…等)来预先确定产品的适当CIM宏排列。

一旦离线确定出产品的CIM宏排列，图7示出根据本申请示例性实施例中的一个的实行卷积运算的系统的方块图。

参照图7，CIM宏CIM0、CIM1、CIM2及CIM3在系统700中排列成预定的CIM宏排列。权重(即，滤波器的参数)及指令可存储在DRAM 720中。当系统700接收到输入特征图时，中央处理器(central processing unit，CPU)710可触发CNN调度器770及CIM宏CIM0到CIM3，以通过硬件(例如DRAM 720、DDR控制器730、系统芯片(system on chip，SoC)总线740及数据线性地址(data linear address，DLA)处理器75)对指定神经网络的指定卷积层实行卷积。CNN调度器770可从芯片上SRAM 760接收权重及输入特征图(input feature map，IFM)且从指令解析器750接收CIM配置，将权重及输入特征图加载到CIM0到CIM4中以进行卷积运算，从CIM0到CIM3接收CIM输出，对所有CIM输出实行求和以向SRAM 760产生中间结果作为当前卷积层的输出特征图(output feature map，OFM)中且等待另一新的触发。

在实际应用中，图8示出根据本申请示例性实施例中的一个的所提出电子装置的示意图，其中假设所述电子装置由终端用户使用。

参照图8，电子装置800包括多个CIM宏810及处理电路820。CIM宏810基于CIM宏的数目、CIM宏中的每一个的维度、以及指定神经网络的指定卷积层的输入通道的数目及输出通道的数目而排列成预定的CIM宏排列。在本示例性实施例中，可基于图2中提出的用于CIM宏排列的方法来确定预定的CIM宏排列。处理电路820被配置成在经排列的CIM宏中加载权重，且将一个输入特征图的多个输入通道输入到具有加载的权重的经排列的CIM宏中，以进行用于产生输出特征图中的一个的输出激活的卷积运算。

在实例中，首先可将滤波器的权重加载到CIM宏中，且然后可将输入通道(输入特征图)输入到CIM宏中以进行卷积运算。在另一个实例中，首先可将输入用到加载到CIM宏，且然后可将权重输入到CIM宏以进行卷积运算。

在本示例性实施例中，处理电路820基于预定的CIM宏排列、滤波器的数目、滤波器中的每一个的每一内核的高度及宽度以及每一滤波器中的内核的数目来在经排列的CIM宏中加载多个滤波器的权重，其中每一滤波器的内核中的每一个分别被应用于指定神经网络的指定卷积层的输入通道中的对应一个。

在一个示例性实施例中，处理电路820将滤波器中的每一个逐列加载到经排列的CIM宏中。处理电路820可基于每一内核的高度及宽度以及经排列的CIM宏的水平维度的总和来判断是否在经排列的CIM宏中批量加载滤波器的权重。

本申请还提供一种非暂时性计算机可读记录介质，所述非暂时性计算机可读记录介质对欲加载到计算机系统中的计算机程序进行记录以执行所提出方法的步骤。计算机程序由多个程序指令构成。一旦程序区段被加载到计算机系统中且由计算机系统执行，便完成所提出方法的步骤。

鉴于前述说明，所提出技术使得能够有效地使用具有最优配置的多个CIM宏来将计算性能最大化。

对于所属领域中的技术人员来说将显而易见的是，在不背离本申请的范围或精神的条件下，可对所公开的实施例的结构进行各种修改及变化。鉴于以上内容，本申请旨在覆盖落入以下权利要求书及其等效内容的范围内的对本申请的修改及变化。

[相关申请的交叉参考]

本申请主张在2021年5月13日提出申请的序列号为63/187，952的美国临时申请的优先权权益。上述专利申请的全文并入本申请供参考且构成本说明书的一部分。

Claims

1.一种存储器内计算宏排列的方法，包括：

获得多个存储器内计算宏的数目的信息及所述多个存储器内计算宏中的每一个的维度的信息；

获得指定神经网络的指定卷积层的多个输入通道的数目及多个输出通道的数目的信息；以及

根据所述多个存储器内计算宏的所述数目、所述多个存储器内计算宏中的每一个的所述维度、所述指定神经网络的所述指定卷积层的所述多个输入通道的所述数目及所述多个输出通道的所述数目来确定用于对所述多个存储器内计算宏进行排列的存储器内计算宏排列，以用于对所述多个输入通道进行卷积运算以产生所述多个输出通道。

2.根据权利要求1所述的方法，其中所述根据所述多个存储器内计算宏的所述数目、所述多个存储器内计算宏中的每一个的所述维度、以及所述指定神经网络的所述指定卷积层的所述多个输入通道的所述数目及所述多个输出通道的所述数目来确定所述存储器内计算宏排列的步骤包括：

根据延迟、能量消耗及利用率来确定能够实行多个滤波器与所述多个输入通道的卷积的所述存储器内计算宏排列。

3.根据权利要求2所述的方法，其中所确定的所述存储器内计算宏排列提供所述多个存储器内计算宏的垂直维度的总和，所述多个存储器内计算宏适于以最小次数实行所述多个滤波器与所述指定卷积层的所述多个输入通道的所述卷积，以用于批量加载所述多个输入通道。

4.根据权利要求2所述的方法，其中所确定的所述存储器内计算宏排列提供所述多个存储器内计算宏的水平维度的总和，所述多个存储器内计算宏适于以最小次数实行所述多个滤波器与所述指定卷积层的所述多个输入通道的所述卷积，以用于批量加载所述多个滤波器。

5.根据权利要求2所述的方法，

其中所述延迟与动态随机存取存储器延迟、用于将权重加载到所述多个存储器内计算宏中的延迟以及所述多个存储器内计算宏的处理时间中的至少一个相关联，

其中所述能量消耗与用于存取至少一个存储器的能量成本相关联，所述至少一个存储器包括与所述多个存储器内计算宏位于同一芯片中的芯片上静态随机存取存储器以及位于所述芯片之外的动态随机存取存储器，且

其中所述利用率是所述多个存储器内计算宏的已使用部分对所有所述多个存储器内计算宏的比率。

6.一种电子装置，包括：

多个存储器内计算宏，其中所述多个存储器内计算宏基于所述多个存储器内计算宏的数目、所述多个存储器内计算宏中的每一个的维度、以及指定神经网络的指定卷积层的多个输入通道的数目及多个输出通道的数目而排列成预定的存储器内计算宏排列；以及

处理电路，被配置成：

在经排列的所述多个存储器内计算宏中加载权重；以及

将一个输入特征图的多个输入通道输入到具有加载的所述权重的经排列的所述多个存储器内计算宏中，以进行用于产生多个输出特征图中的一个的输出激活的卷积运算。

7.根据权利要求6所述的电子装置，

其中所述处理电路基于所述预定的存储器内计算宏排列、多个滤波器的数目、所述多个滤波器中的每一个的多个内核中的每一内核的高度及宽度以及所述多个滤波器中的每一滤波器中的所述多个内核的数目来在经排列的所述多个存储器内计算宏中加载所述多个滤波器的所述权重，其中每一滤波器的所述多个内核中的每一个分别被应用于所述指定神经网络的所述指定卷积层的所述多个输入通道中的对应一个。

8.根据权利要求7所述的电子装置，

其中所述处理电路将所述多个滤波器中的每一个逐列加载到经排列的所述多个存储器内计算宏中。

9.根据权利要求7所述的电子装置，

其中所述处理电路基于每一内核的所述高度及所述宽度以及经排列的所述多个存储器内计算宏的水平维度的总和来判断是否在经排列的所述多个存储器内计算宏中批量加载所述多个滤波器的所述权重。

10.一种非暂时性计算机可读介质，存储程序，所述程序使计算机：