CN111047034A

CN111047034A - 一种基于乘加器单元的现场可编程神经网络阵列

Info

Publication number: CN111047034A
Application number: CN201911175090.7A
Authority: CN
Inventors: 粟涛; 苏梓培; 陈弟虎; 徐小清
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-21
Anticipated expiration: 2039-11-26
Also published as: CN111047034B

Abstract

本发明公开了一种基于乘加器单元的现场可编程神经网络阵列。该现场可编程神经网络阵列包括多个相互连接的乘加簇，所述乘加簇包括：开关矩阵；多个乘加单元，所述乘加单元用于乘法或者加法运算，输入数据经所述开关矩阵选择后，进入所述乘加单元进行乘法和/或加法运算后输出运算结果并反馈至所述开关矩阵。上述的基于现场可编程神经网络阵列包含有大量的乘加簇，乘加簇中包含有多个乘加单元和开关矩阵，使得乘加单元可以作为神经网络阵列的基本逻辑单元代替FPGA中传统的基于LUT的逻辑单元，加速神经网络中乘法和加法运算效率，能够提高神经网络加速器的性能，不仅在面积上存在优化，还减少了关键路径的延时，可以以更快的频率进行神经网络加速的运算。

Description

一种基于乘加器单元的现场可编程神经网络阵列

技术领域

本发明属于神经网络芯片技术领域，具体涉及一种基于乘加器单元的现场可编程神经网络阵列。

背景技术

FPGA(Field Programmable Gate Array)，全称现场可编程逻辑门阵列。其中包含了可编程的逻辑功能块CLB，可编程的输入/输出模块IOB，可编程内部连线的连接块CB与开关块SB，如图1所示。该结构的FPGA可以通过可编程改变逻辑块的功能与相互之间的连线，以达到可配置的硬件实现电路。

神经网络运算过程中常见的操作有卷积、全连接、池化、激活等，其中运算时间最长，运算量最大的基本运算是乘加运算。现有的基于FPGA的神经网络加速器，都是通过写RTL代码，综合编译到FPGA上实现。

神经网络需要部署在在嵌入式系统中，会考虑采用FPGA加速的形式，因为其可配置，变更成本低。但是由于底层基本逻辑为LUT，而在神经网络运算过程中，需要循环上百万次的乘加运算，如果使用LUT作为基本逻辑单元，则出现消耗巨大的LUT资源面积，并且会导致多个逻辑单元串行，关键路径很长，时钟频率变低，运算速度变慢，同时也功耗大。尽管使用了FPGA里面的DSP资源来进行乘加运算，但是DSP数量有限，并行度存在巨大的瓶颈限制，而且内部结构复杂，比起专用的乘加器面积大，功耗大。

发明内容

本发明的目的是提供一种基于乘加器单元的现场可编程神经网络阵列，旨在解决神经网络在现场可编程阵列中占有芯片资源过大的问题。

为此，本发明提供了一种基于乘加器单元的现场可编程神经网络阵列，包括多个相互连接的乘加簇，所述乘加簇包括：

开关矩阵；

多个乘加单元，输入端连接于所述开关矩阵并且输出端反馈至所述开关矩阵，所述乘加单元用于乘法或者加法运算，输入数据经所述开关矩阵选择后，进入所述乘加单元进行乘法和/或加法运算后输出运算结果并反馈至所述开关矩阵。

优选地，所述乘加单元还包括乘法器、加法器和寄存器，所述乘法器和加法器用于进行乘法或者加法运算，并通过所述寄存器输出计算数据。

优选地，所述乘加单元包括：

乘法器，输入端连接所述乘加单元的输入端以进行乘法运算；

加法器，输入端连接所述乘加单元的输入端和所述乘法器的输出端，用于输出乘法和加法运算后的计算结果；

第一输出件，输入端与所述加法器的输出端连接，用于输出所述加法器的计算结果。

优选地，所述第一输出件包括：

组件输入接口，用于输入结算结果；

组件输出接口，用于输出计算结果；

寄存器，输入端连接所述组件输入接口；

查找表，输入端连接所述寄存器的输出端和所述组件输入接口，输出端连接所述组件输出接口，用于根据所述寄存器的输出信号经所述组件输出接口输出所述组件输入接口输入的计算结果。

优选地，所述乘加单元包括：

选择开关，输入端连接所述乘法器的输出端和所述乘加单元的输入端；

加法器，输入端连接所述选择开关的输出端和所述乘加单元的输入端；

第二输出件，输入端连接所述乘法器的输出端，输出端连接所述乘加单元的输出端以输出所述乘法器进行乘法运算的乘法结果；

第三输出件，输入端连接所述加法器的输出端，输出端连接所述乘加单元的输出端以输出所述加法器进行加法运算的加法结果。

优选地，所述第二输出件或第三输出件包括：

组件输入接口，用于输入结算结果；

组件输出接口，用于输出计算结果；

寄存器，输入端连接所述组件输入接口；

优选地，还包括逻辑块、连接块和开关块，所述逻辑块和所述乘加簇通过所述连接块连接，相邻的两个所述开关块之间通过所述连接块连接。

优选地，还包括片上缓存，所述片上缓存连接所述开关块和所述连接块。

优选地，所述逻辑块包括池化基本单元、Relu基本单元和LUT基本单元中的一种或多种。

优选地，所述连接块和开关块通过晶体传输管或三态传输器选择开端。

与现有技术相比，上述的基于乘加器单元的现场可编程神经网络阵列包含有大量的乘加簇，乘加簇中包含有多个乘加单元和开关矩阵，使得乘加单元可以作为神经网络阵列的基本逻辑单元代替FPGA中传统的基于LUT的逻辑单元，加速神经网络中乘法和加法运算效率，能够提高神经网络加速器的性能，也减少了大量的LUT面积的浪费，不仅在面积上存在优化，还减少了关键路径的延时，在已做成的乘加单元的延时远比多级LUT串联要少的多，可以以更快的频率进行神经网络加速的运算。

因此，上述的基于现场可编程神经网络阵列更加适用于神经网络在嵌入式系统上的部署，达到在相同面积下，利用率高，并行度高，运算效率大的优势。

附图说明

图1是现有FPGA的结构示意图。

图2是基于现场可编程神经网络阵列的结构示意图。

图3是乘加簇的结构示意图。

图4是乘加单元在一实施方式中的结构示意图。

图5是乘加单元在另一实施方式中的结构示意图。

图6是乘加单元在乘加应用中的结构示意图。

图7a是逻辑块中池化基本单元的结构示意图。

图7b是逻辑块中Relu基本单元的结构示意图。

图7c是逻辑块中LUT基本单元的结构示意图。

图8是连接块的结构示意图。

具体实施方式

下面结合附图，对本发明做进一步详细说明。

图2是基于现场可编程神经网络阵列的结构示意图。如图2所示，该基于现场可编程神经网络阵列包括乘加簇20(Multiply-AddCluster，MAC，)、逻辑块40、片上缓存50、输入输出模块(IOB)10、连接块60和开关块30，乘加簇20、逻辑块40、连接块60和开关块30的连接关系、数量可按照实际需求配置。该输入输出模块10用于对外进行连接，输入数据或者输出数据。

神经网络运算中，乘加运算占据了绝大部分的运算操作，因此本实施方式提供的现场可编程神经网络阵列将乘加运算作为最基础单元，代替现有FPGA基于LUT的逻辑单元，能够提高神经网络加速器的性能，也减少了大量的LUT面积的浪费。

图3是乘加簇20的结构示意图。如图3所示，所述乘加簇20包括开关矩阵22和多个乘加单元21(即MAE)。其中，图3中连接线的数字表示数据的位数。图3示出的乘加簇20包括4个乘加单元21，乘加单元21的输入端连接于所述开关矩阵22并且输出端反馈至所述开关矩阵22。所述乘加单元21用于乘法或者加法运算，输入数据经所述开关矩阵22选择后，进入所述乘加单元21进行乘法和/或加法运算后输出运算结果并反馈至所述开关矩阵22。

在一些实施方式中，所述乘加单元21还包括乘法器213、加法器214和寄存器215，所述乘法器213和加法器214用于进行乘法或者加法运算，并通过所述寄存器215输出计算数据。

本实施方式中，将多个乘加单元21组合成一个乘加簇20的结构可以提高乘加的功能性。在神经网络运算过程中，乘加运算的结果需要持续的乘加，经有反馈线可减少连线开销，把相关的运算放在同一块单元里运算。同时，考虑到输入复用，同一个输入需要对应多个输出，因此当复用输入时，可以通过乘加簇20来提高性能。图3示出的乘加簇20中，乘加单元21的输入由全交叉开关矩阵22可编程决定，每个乘加单元21会把结果反馈到开关矩阵22的输入。

作为示例性的，以下介绍两种乘加单元21的结构，但乘加单元21的结构并不以此为限。

图4是乘加单元21在一实施方式中的结构示意图，如图4所示，所述乘加单元21包括乘法器213、加法器214和第一输出件212。其中，图4中连接线的数字表示数据的位数。所述乘法器213的输入端连接所述乘加单元21的输入端以进行乘法运算。所述加法器214的输入端连接所述乘加单元21的输入端和所述乘法器213的输出端，用于输出乘法和加法运算后的计算结果。所述第一输出件212的输入端与所述加法器214的输出端连接，用于输出所述加法器214的计算结果。

所述第一输出件212包括组件输入接口211、组件输出接口217、寄存器215和查找表216。组件输入接口211用于输入结算结果，组件输出接口217用于输出计算结果。寄存器215的输入端连接所述组件输入接口211，查找表216的输入端连接所述寄存器215的输出端和所述组件输入接口211，输出端连接所述组件输出接口217，用于根据所述寄存器215的输出信号经所述组件输出接口217输出所述组件输入接口211输入的计算结果。图4示出的乘加单元21用于提供乘加运算功能，并通过第一输出件212输出乘加运算结果。

图5是乘加单元21在另一实施方式中的结构示意图。如图5所示，所述乘加单元21包括乘法器213、选择开关、加法器214、第二输出件218和第三输出件219。其中，图5中连接线的数字表示数据的位数。乘法器213的输入端连接所述乘加单元21的输入端以进行乘法运算。选择开关的输入端连接所述乘法器213的输出端和所述乘加单元21的输入端。加法器214的输入端连接所述选择开关的输出端和所述乘加单元21的输入端。

第二输出件218的输入端连接所述乘法器213的输出端，输出端连接所述乘加单元21的输出端以输出所述乘法器213进行乘法运算的乘法结果。第三输出件219的输入端连接所述加法器214的输出端，输出端连接所述乘加单元21的输出端以输出所述加法器214进行加法运算的加法结果。

所述第二输出件218和第三输出件219的结构相同，均包括组件输入接口211、组件输出接口217、寄存器215和查找表216。组件输入接口211用于输入结算结果，组件输出接口217用于输出计算结果。寄存器215的输入端连接所述组件输入接口211。查找表216的输入端连接所述寄存器215的输出端和所述组件输入接口211，输出端连接所述组件输出接口217，用于根据所述寄存器215的输出信号经所述组件输出接口217输出所述组件输入接口211输入的计算结果。

由于很多很多不同的并行策略中需要单独使用乘法运算或加法运算，图5示出的乘加单元21既可以当作一个乘加器使用，也可以将其拆分为一个乘法器213与一个加法器214，其中，第二输出件218可以单独输出乘法计算结果，第三输出件219可以单独输出加法计算结果。

图5示出的乘加单元21的优点在于，提高了乘加单元21对于编程的灵活性，以及乘加单元21的利用率。图6是乘加单元21在乘加应用中的结构示意图。如图6所示，将乘加应用分成了3个乘加单元21(被虚线框一起的单元)和一个乘法单元，因此使用只能乘加乘加单元21和可以分开的乘加单元21共同组成，可以适配更多的运算。

在神经网络的运算中，除了卷积、全连接等乘加基本运算外，还涉及到池化、激活等操作。本基于现场可编程神经网络阵列还可以包括通用LUT组成的逻辑单元(LB)，并同时增加常见的池化和激活的电路单元。逻辑块40(LB)的主要作用为运算非乘加的神经网络运算，以及完成部分控制逻辑。

所述逻辑块40和所述乘加簇20通过所述连接块60连接，相邻的两个所述开关块30之间通过所述连接块60连接。所述逻辑块40包括池化基本单元、Relu基本单元和LUT基本单元中的一种或多种。

例如，如图7a所示，图7a是逻辑块40可以是池化基本单元，作为比较器使用。如图7b所示，逻辑块40可以是Relu基本单元则是符号位的与门，如图7c所示，逻辑块40可以是LUT基本单元，作为控制信号与其他不常见操作中使用。

图8是连接块60的结构示意图。所述连接块60和开关块30与现有的FPGA的结构类似，通过晶体传输管或三态传输器选择开端。图8中，每段线表示一个传输门。线两端的数字表示出入端口。所述片上缓存50连接所述开关块30和所述连接块60，可以增加把BRAM与乘加单元21的融合，做到存算一体的架构。

上述的基于现场可编程神经网络阵列包含有大量的乘加簇20，使用大量的乘加运算单元代替传统FPGA里面的LUT与DSP单元，让其成为针对于神经网络加速应用的现场可编程神经网络加速器。乘加簇20中包含有多个乘加单元21和开关矩阵22，使得乘加单元21可以作为神经网络阵列的基本逻辑单元代替FPGA中传统的基于LUT的逻辑单元，可以增加更多的神经网络中应用到的基本电路单元，继续减少LUT的使用，加速神经网络中乘法和加法运算效率，能够提高神经网络加速器的性能，也减少了大量的LUT面积的浪费，不仅在面积上存在优化，还减少了关键路径的延时，在已做成的乘加单元21的延时远比多级LUT串联要少的多，可以以更快的频率进行神经网络加速的运算。

例如，一个8bit乘加器若使用LUT实现，需要使用86个LUT和14个加法器214。若使用一个确定的乘法单元，在130nm工艺库，只需要149个cells，面积远小于使用LUT实现。这样一块相同面积的芯片，FPNN可以集成更多的基本乘加运算单元。这大大增加了乘加运算的并行度，且可以减少了神经网络加速器中的冗余的控制逻辑

因此，上述的基于现场可编程神经网络阵列更加适用于神经网络在嵌入式系统上的部署，达到在相同面积下，利用率高，并行度高，运算效率大的优势，不仅可以提高编译器能力，适配更多的神经网络操作，或者其他以乘加运算为基本的科学计算，如FDTD，矩阵运算等。

应该理解，本发明并不局限于上述实施方式，凡是对本发明的各种改动或变型不脱离本发明的精神和范围，倘若这些改动和变型属于本发明的权利要求和等同技术范围之内，则本发明也意味着包含这些改动和变型。

Claims

1.一种基于乘加器单元的现场可编程神经网络阵列，包括多个相互连接的乘加簇，其特征在于：所述乘加簇包括：

开关矩阵；

2.如权利要求1所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：所述乘加单元还包括乘法器、加法器和寄存器，所述乘法器和加法器用于进行乘法或者加法运算，并通过所述寄存器输出计算数据。

3.如权利要求2所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：所述乘加单元包括：

加法器，输入端连接所述乘加单元的输入端和所述乘法器的输出端：用于输出乘法和加法运算后的计算结果；

4.如权利要求3所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：所述第一输出件包括：

组件输入接口，用于输入结算结果；

组件输出接口，用于输出计算结果；

寄存器，输入端连接所述组件输入接口；

5.如权利要求2所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：所述乘加单元包括：

6.如权利要求5所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：所述第二输出件或第三输出件包括：

组件输入接口，用于输入结算结果；

组件输出接口，用于输出计算结果；

寄存器，输入端连接所述组件输入接口；

7.如权利要求3或5所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：还包括逻辑块、连接块和开关块，所述逻辑块和所述乘加簇通过所述连接块连接，相邻的两个所述开关块之间通过所述连接块连接。

8.如权利要求7所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：还包括片上缓存，所述片上缓存连接所述开关块和所述连接块。

9.如权利要求8所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：所述逻辑块包括池化基本单元、Relu基本单元和LUT基本单元中的一种或多种。

10.如权利要求9所述的基于乘加器单元的现场可编程神经网络阵列，其特征在于：所述连接块和开关块通过晶体传输管或三态传输器选择开端。