[go: up one dir, main page]

CN111047034A - 一种基于乘加器单元的现场可编程神经网络阵列 - Google Patents

一种基于乘加器单元的现场可编程神经网络阵列 Download PDF

Info

Publication number
CN111047034A
CN111047034A CN201911175090.7A CN201911175090A CN111047034A CN 111047034 A CN111047034 A CN 111047034A CN 201911175090 A CN201911175090 A CN 201911175090A CN 111047034 A CN111047034 A CN 111047034A
Authority
CN
China
Prior art keywords
multiplication
output
multiplier
addition
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911175090.7A
Other languages
English (en)
Other versions
CN111047034B (zh
Inventor
粟涛
苏梓培
陈弟虎
徐小清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911175090.7A priority Critical patent/CN111047034B/zh
Publication of CN111047034A publication Critical patent/CN111047034A/zh
Application granted granted Critical
Publication of CN111047034B publication Critical patent/CN111047034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)
  • Logic Circuits (AREA)

Abstract

本发明公开了一种基于乘加器单元的现场可编程神经网络阵列。该现场可编程神经网络阵列包括多个相互连接的乘加簇,所述乘加簇包括:开关矩阵;多个乘加单元,所述乘加单元用于乘法或者加法运算,输入数据经所述开关矩阵选择后,进入所述乘加单元进行乘法和/或加法运算后输出运算结果并反馈至所述开关矩阵。上述的基于现场可编程神经网络阵列包含有大量的乘加簇,乘加簇中包含有多个乘加单元和开关矩阵,使得乘加单元可以作为神经网络阵列的基本逻辑单元代替FPGA中传统的基于LUT的逻辑单元,加速神经网络中乘法和加法运算效率,能够提高神经网络加速器的性能,不仅在面积上存在优化,还减少了关键路径的延时,可以以更快的频率进行神经网络加速的运算。

Description

一种基于乘加器单元的现场可编程神经网络阵列
技术领域
本发明属于神经网络芯片技术领域,具体涉及一种基于乘加器单元的现场可编程神经网络阵列。
背景技术
FPGA(Field Programmable Gate Array),全称现场可编程逻辑门阵列。其中包含了可编程的逻辑功能块CLB,可编程的输入/输出模块IOB,可编程内部连线的连接块CB与开关块SB,如图1所示。该结构的FPGA可以通过可编程改变逻辑块的功能与相互之间的连线,以达到可配置的硬件实现电路。
神经网络运算过程中常见的操作有卷积、全连接、池化、激活等,其中运算时间最长,运算量最大的基本运算是乘加运算。现有的基于FPGA的神经网络加速器,都是通过写RTL代码,综合编译到FPGA上实现。
神经网络需要部署在在嵌入式系统中,会考虑采用FPGA加速的形式,因为其可配置,变更成本低。但是由于底层基本逻辑为LUT,而在神经网络运算过程中,需要循环上百万次的乘加运算,如果使用LUT作为基本逻辑单元,则出现消耗巨大的LUT资源面积,并且会导致多个逻辑单元串行,关键路径很长,时钟频率变低,运算速度变慢,同时也功耗大。尽管使用了FPGA里面的DSP资源来进行乘加运算,但是DSP数量有限,并行度存在巨大的瓶颈限制,而且内部结构复杂,比起专用的乘加器面积大,功耗大。
发明内容
本发明的目的是提供一种基于乘加器单元的现场可编程神经网络阵列,旨在解决神经网络在现场可编程阵列中占有芯片资源过大的问题。
为此,本发明提供了一种基于乘加器单元的现场可编程神经网络阵列,包括多个相互连接的乘加簇,所述乘加簇包括:
开关矩阵;
多个乘加单元,输入端连接于所述开关矩阵并且输出端反馈至所述开关矩阵,所述乘加单元用于乘法或者加法运算,输入数据经所述开关矩阵选择后,进入所述乘加单元进行乘法和/或加法运算后输出运算结果并反馈至所述开关矩阵。
优选地,所述乘加单元还包括乘法器、加法器和寄存器,所述乘法器和加法器用于进行乘法或者加法运算,并通过所述寄存器输出计算数据。
优选地,所述乘加单元包括:
乘法器,输入端连接所述乘加单元的输入端以进行乘法运算;
加法器,输入端连接所述乘加单元的输入端和所述乘法器的输出端,用于输出乘法和加法运算后的计算结果;
第一输出件,输入端与所述加法器的输出端连接,用于输出所述加法器的计算结果。
优选地,所述第一输出件包括:
组件输入接口,用于输入结算结果;
组件输出接口,用于输出计算结果;
寄存器,输入端连接所述组件输入接口;
查找表,输入端连接所述寄存器的输出端和所述组件输入接口,输出端连接所述组件输出接口,用于根据所述寄存器的输出信号经所述组件输出接口输出所述组件输入接口输入的计算结果。
优选地,所述乘加单元包括:
乘法器,输入端连接所述乘加单元的输入端以进行乘法运算;
选择开关,输入端连接所述乘法器的输出端和所述乘加单元的输入端;
加法器,输入端连接所述选择开关的输出端和所述乘加单元的输入端;
第二输出件,输入端连接所述乘法器的输出端,输出端连接所述乘加单元的输出端以输出所述乘法器进行乘法运算的乘法结果;
第三输出件,输入端连接所述加法器的输出端,输出端连接所述乘加单元的输出端以输出所述加法器进行加法运算的加法结果。
优选地,所述第二输出件或第三输出件包括:
组件输入接口,用于输入结算结果;
组件输出接口,用于输出计算结果;
寄存器,输入端连接所述组件输入接口;
查找表,输入端连接所述寄存器的输出端和所述组件输入接口,输出端连接所述组件输出接口,用于根据所述寄存器的输出信号经所述组件输出接口输出所述组件输入接口输入的计算结果。
优选地,还包括逻辑块、连接块和开关块,所述逻辑块和所述乘加簇通过所述连接块连接,相邻的两个所述开关块之间通过所述连接块连接。
优选地,还包括片上缓存,所述片上缓存连接所述开关块和所述连接块。
优选地,所述逻辑块包括池化基本单元、Relu基本单元和LUT基本单元中的一种或多种。
优选地,所述连接块和开关块通过晶体传输管或三态传输器选择开端。
与现有技术相比,上述的基于乘加器单元的现场可编程神经网络阵列包含有大量的乘加簇,乘加簇中包含有多个乘加单元和开关矩阵,使得乘加单元可以作为神经网络阵列的基本逻辑单元代替FPGA中传统的基于LUT的逻辑单元,加速神经网络中乘法和加法运算效率,能够提高神经网络加速器的性能,也减少了大量的LUT面积的浪费,不仅在面积上存在优化,还减少了关键路径的延时,在已做成的乘加单元的延时远比多级LUT串联要少的多,可以以更快的频率进行神经网络加速的运算。
因此,上述的基于现场可编程神经网络阵列更加适用于神经网络在嵌入式系统上的部署,达到在相同面积下,利用率高,并行度高,运算效率大的优势。
附图说明
图1是现有FPGA的结构示意图。
图2是基于现场可编程神经网络阵列的结构示意图。
图3是乘加簇的结构示意图。
图4是乘加单元在一实施方式中的结构示意图。
图5是乘加单元在另一实施方式中的结构示意图。
图6是乘加单元在乘加应用中的结构示意图。
图7a是逻辑块中池化基本单元的结构示意图。
图7b是逻辑块中Relu基本单元的结构示意图。
图7c是逻辑块中LUT基本单元的结构示意图。
图8是连接块的结构示意图。
Figure BDA0002289748390000031
Figure BDA0002289748390000041
具体实施方式
下面结合附图,对本发明做进一步详细说明。
图2是基于现场可编程神经网络阵列的结构示意图。如图2所示,该基于现场可编程神经网络阵列包括乘加簇20(Multiply-AddCluster,MAC,)、逻辑块40、片上缓存50、输入输出模块(IOB)10、连接块60和开关块30,乘加簇20、逻辑块40、连接块60和开关块30的连接关系、数量可按照实际需求配置。该输入输出模块10用于对外进行连接,输入数据或者输出数据。
神经网络运算中,乘加运算占据了绝大部分的运算操作,因此本实施方式提供的现场可编程神经网络阵列将乘加运算作为最基础单元,代替现有FPGA基于LUT的逻辑单元,能够提高神经网络加速器的性能,也减少了大量的LUT面积的浪费。
图3是乘加簇20的结构示意图。如图3所示,所述乘加簇20包括开关矩阵22和多个乘加单元21(即MAE)。其中,图3中连接线的数字表示数据的位数。图3示出的乘加簇20包括4个乘加单元21,乘加单元21的输入端连接于所述开关矩阵22并且输出端反馈至所述开关矩阵22。所述乘加单元21用于乘法或者加法运算,输入数据经所述开关矩阵22选择后,进入所述乘加单元21进行乘法和/或加法运算后输出运算结果并反馈至所述开关矩阵22。
在一些实施方式中,所述乘加单元21还包括乘法器213、加法器214和寄存器215,所述乘法器213和加法器214用于进行乘法或者加法运算,并通过所述寄存器215输出计算数据。
本实施方式中,将多个乘加单元21组合成一个乘加簇20的结构可以提高乘加的功能性。在神经网络运算过程中,乘加运算的结果需要持续的乘加,经有反馈线可减少连线开销,把相关的运算放在同一块单元里运算。同时,考虑到输入复用,同一个输入需要对应多个输出,因此当复用输入时,可以通过乘加簇20来提高性能。图3示出的乘加簇20中,乘加单元21的输入由全交叉开关矩阵22可编程决定,每个乘加单元21会把结果反馈到开关矩阵22的输入。
作为示例性的,以下介绍两种乘加单元21的结构,但乘加单元21的结构并不以此为限。
图4是乘加单元21在一实施方式中的结构示意图,如图4所示,所述乘加单元21包括乘法器213、加法器214和第一输出件212。其中,图4中连接线的数字表示数据的位数。所述乘法器213的输入端连接所述乘加单元21的输入端以进行乘法运算。所述加法器214的输入端连接所述乘加单元21的输入端和所述乘法器213的输出端,用于输出乘法和加法运算后的计算结果。所述第一输出件212的输入端与所述加法器214的输出端连接,用于输出所述加法器214的计算结果。
所述第一输出件212包括组件输入接口211、组件输出接口217、寄存器215和查找表216。组件输入接口211用于输入结算结果,组件输出接口217用于输出计算结果。寄存器215的输入端连接所述组件输入接口211,查找表216的输入端连接所述寄存器215的输出端和所述组件输入接口211,输出端连接所述组件输出接口217,用于根据所述寄存器215的输出信号经所述组件输出接口217输出所述组件输入接口211输入的计算结果。图4示出的乘加单元21用于提供乘加运算功能,并通过第一输出件212输出乘加运算结果。
图5是乘加单元21在另一实施方式中的结构示意图。如图5所示,所述乘加单元21包括乘法器213、选择开关、加法器214、第二输出件218和第三输出件219。其中,图5中连接线的数字表示数据的位数。乘法器213的输入端连接所述乘加单元21的输入端以进行乘法运算。选择开关的输入端连接所述乘法器213的输出端和所述乘加单元21的输入端。加法器214的输入端连接所述选择开关的输出端和所述乘加单元21的输入端。
第二输出件218的输入端连接所述乘法器213的输出端,输出端连接所述乘加单元21的输出端以输出所述乘法器213进行乘法运算的乘法结果。第三输出件219的输入端连接所述加法器214的输出端,输出端连接所述乘加单元21的输出端以输出所述加法器214进行加法运算的加法结果。
所述第二输出件218和第三输出件219的结构相同,均包括组件输入接口211、组件输出接口217、寄存器215和查找表216。组件输入接口211用于输入结算结果,组件输出接口217用于输出计算结果。寄存器215的输入端连接所述组件输入接口211。查找表216的输入端连接所述寄存器215的输出端和所述组件输入接口211,输出端连接所述组件输出接口217,用于根据所述寄存器215的输出信号经所述组件输出接口217输出所述组件输入接口211输入的计算结果。
由于很多很多不同的并行策略中需要单独使用乘法运算或加法运算,图5示出的乘加单元21既可以当作一个乘加器使用,也可以将其拆分为一个乘法器213与一个加法器214,其中,第二输出件218可以单独输出乘法计算结果,第三输出件219可以单独输出加法计算结果。
图5示出的乘加单元21的优点在于,提高了乘加单元21对于编程的灵活性,以及乘加单元21的利用率。图6是乘加单元21在乘加应用中的结构示意图。如图6所示,将乘加应用分成了3个乘加单元21(被虚线框一起的单元)和一个乘法单元,因此使用只能乘加乘加单元21和可以分开的乘加单元21共同组成,可以适配更多的运算。
在神经网络的运算中,除了卷积、全连接等乘加基本运算外,还涉及到池化、激活等操作。本基于现场可编程神经网络阵列还可以包括通用LUT组成的逻辑单元(LB),并同时增加常见的池化和激活的电路单元。逻辑块40(LB)的主要作用为运算非乘加的神经网络运算,以及完成部分控制逻辑。
所述逻辑块40和所述乘加簇20通过所述连接块60连接,相邻的两个所述开关块30之间通过所述连接块60连接。所述逻辑块40包括池化基本单元、Relu基本单元和LUT基本单元中的一种或多种。
例如,如图7a所示,图7a是逻辑块40可以是池化基本单元,作为比较器使用。如图7b所示,逻辑块40可以是Relu基本单元则是符号位的与门,如图7c所示,逻辑块40可以是LUT基本单元,作为控制信号与其他不常见操作中使用。
图8是连接块60的结构示意图。所述连接块60和开关块30与现有的FPGA的结构类似,通过晶体传输管或三态传输器选择开端。图8中,每段线表示一个传输门。线两端的数字表示出入端口。所述片上缓存50连接所述开关块30和所述连接块60,可以增加把BRAM与乘加单元21的融合,做到存算一体的架构。
上述的基于现场可编程神经网络阵列包含有大量的乘加簇20,使用大量的乘加运算单元代替传统FPGA里面的LUT与DSP单元,让其成为针对于神经网络加速应用的现场可编程神经网络加速器。乘加簇20中包含有多个乘加单元21和开关矩阵22,使得乘加单元21可以作为神经网络阵列的基本逻辑单元代替FPGA中传统的基于LUT的逻辑单元,可以增加更多的神经网络中应用到的基本电路单元,继续减少LUT的使用,加速神经网络中乘法和加法运算效率,能够提高神经网络加速器的性能,也减少了大量的LUT面积的浪费,不仅在面积上存在优化,还减少了关键路径的延时,在已做成的乘加单元21的延时远比多级LUT串联要少的多,可以以更快的频率进行神经网络加速的运算。
例如,一个8bit乘加器若使用LUT实现,需要使用86个LUT和14个加法器214。若使用一个确定的乘法单元,在130nm工艺库,只需要149个cells,面积远小于使用LUT实现。这样一块相同面积的芯片,FPNN可以集成更多的基本乘加运算单元。这大大增加了乘加运算的并行度,且可以减少了神经网络加速器中的冗余的控制逻辑
因此,上述的基于现场可编程神经网络阵列更加适用于神经网络在嵌入式系统上的部署,达到在相同面积下,利用率高,并行度高,运算效率大的优势,不仅可以提高编译器能力,适配更多的神经网络操作,或者其他以乘加运算为基本的科学计算,如FDTD,矩阵运算等。
应该理解,本发明并不局限于上述实施方式,凡是对本发明的各种改动或变型不脱离本发明的精神和范围,倘若这些改动和变型属于本发明的权利要求和等同技术范围之内,则本发明也意味着包含这些改动和变型。

Claims (10)

1.一种基于乘加器单元的现场可编程神经网络阵列,包括多个相互连接的乘加簇,其特征在于:所述乘加簇包括:
开关矩阵;
多个乘加单元,输入端连接于所述开关矩阵并且输出端反馈至所述开关矩阵,所述乘加单元用于乘法或者加法运算,输入数据经所述开关矩阵选择后,进入所述乘加单元进行乘法和/或加法运算后输出运算结果并反馈至所述开关矩阵。
2.如权利要求1所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:所述乘加单元还包括乘法器、加法器和寄存器,所述乘法器和加法器用于进行乘法或者加法运算,并通过所述寄存器输出计算数据。
3.如权利要求2所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:所述乘加单元包括:
乘法器,输入端连接所述乘加单元的输入端以进行乘法运算;
加法器,输入端连接所述乘加单元的输入端和所述乘法器的输出端:用于输出乘法和加法运算后的计算结果;
第一输出件,输入端与所述加法器的输出端连接,用于输出所述加法器的计算结果。
4.如权利要求3所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:所述第一输出件包括:
组件输入接口,用于输入结算结果;
组件输出接口,用于输出计算结果;
寄存器,输入端连接所述组件输入接口;
查找表,输入端连接所述寄存器的输出端和所述组件输入接口,输出端连接所述组件输出接口,用于根据所述寄存器的输出信号经所述组件输出接口输出所述组件输入接口输入的计算结果。
5.如权利要求2所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:所述乘加单元包括:
乘法器,输入端连接所述乘加单元的输入端以进行乘法运算;
选择开关,输入端连接所述乘法器的输出端和所述乘加单元的输入端;
加法器,输入端连接所述选择开关的输出端和所述乘加单元的输入端;
第二输出件,输入端连接所述乘法器的输出端,输出端连接所述乘加单元的输出端以输出所述乘法器进行乘法运算的乘法结果;
第三输出件,输入端连接所述加法器的输出端,输出端连接所述乘加单元的输出端以输出所述加法器进行加法运算的加法结果。
6.如权利要求5所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:所述第二输出件或第三输出件包括:
组件输入接口,用于输入结算结果;
组件输出接口,用于输出计算结果;
寄存器,输入端连接所述组件输入接口;
查找表,输入端连接所述寄存器的输出端和所述组件输入接口,输出端连接所述组件输出接口,用于根据所述寄存器的输出信号经所述组件输出接口输出所述组件输入接口输入的计算结果。
7.如权利要求3或5所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:还包括逻辑块、连接块和开关块,所述逻辑块和所述乘加簇通过所述连接块连接,相邻的两个所述开关块之间通过所述连接块连接。
8.如权利要求7所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:还包括片上缓存,所述片上缓存连接所述开关块和所述连接块。
9.如权利要求8所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:所述逻辑块包括池化基本单元、Relu基本单元和LUT基本单元中的一种或多种。
10.如权利要求9所述的基于乘加器单元的现场可编程神经网络阵列,其特征在于:所述连接块和开关块通过晶体传输管或三态传输器选择开端。
CN201911175090.7A 2019-11-26 2019-11-26 一种基于乘加器单元的现场可编程神经网络阵列 Active CN111047034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911175090.7A CN111047034B (zh) 2019-11-26 2019-11-26 一种基于乘加器单元的现场可编程神经网络阵列

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911175090.7A CN111047034B (zh) 2019-11-26 2019-11-26 一种基于乘加器单元的现场可编程神经网络阵列

Publications (2)

Publication Number Publication Date
CN111047034A true CN111047034A (zh) 2020-04-21
CN111047034B CN111047034B (zh) 2023-09-15

Family

ID=70233430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911175090.7A Active CN111047034B (zh) 2019-11-26 2019-11-26 一种基于乘加器单元的现场可编程神经网络阵列

Country Status (1)

Country Link
CN (1) CN111047034B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465108A (zh) * 2020-11-11 2021-03-09 上海交通大学 一种面向存算一体平台的神经网络编译方法
CN113671009A (zh) * 2021-07-27 2021-11-19 浙江华才检测技术有限公司 基于人工智能算法搭建的矩阵式广谱性物质检测传感器
CN114064119A (zh) * 2020-08-04 2022-02-18 第四范式(北京)技术有限公司 Fpga硬件加速器中非乘加类计算操作的优化方法和优化系统
CN114239818A (zh) * 2021-12-23 2022-03-25 电子科技大学 基于tcam和lut的存内计算架构神经网络加速器
CN114841329A (zh) * 2022-06-06 2022-08-02 中国科学院计算技术研究所 一种支持向量多序列运算的神经网络加速器及加速装置
CN118839099A (zh) * 2024-07-11 2024-10-25 北京无问芯穹科技有限公司 加速单元及片上系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102301325A (zh) * 2009-01-27 2011-12-28 吉林克斯公司 具有预加法器级的数字信号处理块
CN106330209A (zh) * 2016-08-25 2017-01-11 合肥工业大学 一种基于fpga的前端数字化装置
CN109144793A (zh) * 2018-09-07 2019-01-04 合肥工业大学 一种基于数据流驱动计算的故障校正装置和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102301325A (zh) * 2009-01-27 2011-12-28 吉林克斯公司 具有预加法器级的数字信号处理块
CN106330209A (zh) * 2016-08-25 2017-01-11 合肥工业大学 一种基于fpga的前端数字化装置
CN109144793A (zh) * 2018-09-07 2019-01-04 合肥工业大学 一种基于数据流驱动计算的故障校正装置和方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064119A (zh) * 2020-08-04 2022-02-18 第四范式(北京)技术有限公司 Fpga硬件加速器中非乘加类计算操作的优化方法和优化系统
CN112465108A (zh) * 2020-11-11 2021-03-09 上海交通大学 一种面向存算一体平台的神经网络编译方法
CN112465108B (zh) * 2020-11-11 2022-07-22 上海交通大学 一种面向存算一体平台的神经网络编译方法
CN113671009A (zh) * 2021-07-27 2021-11-19 浙江华才检测技术有限公司 基于人工智能算法搭建的矩阵式广谱性物质检测传感器
CN114239818A (zh) * 2021-12-23 2022-03-25 电子科技大学 基于tcam和lut的存内计算架构神经网络加速器
CN114841329A (zh) * 2022-06-06 2022-08-02 中国科学院计算技术研究所 一种支持向量多序列运算的神经网络加速器及加速装置
CN118839099A (zh) * 2024-07-11 2024-10-25 北京无问芯穹科技有限公司 加速单元及片上系统

Also Published As

Publication number Publication date
CN111047034B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN111047034B (zh) 一种基于乘加器单元的现场可编程神经网络阵列
CN109828744B (zh) 一种基于fpga的可配置浮点向量乘法ip核
KR101058468B1 (ko) 집적 회로용의 재구성 가능한 로직 패브릭과, 재구성 가능한 로직 패브릭을 구성하기 위한 시스템 및 방법
US10275219B2 (en) Bit-serial multiplier for FPGA applications
US7765382B2 (en) Propagating reconfiguration command over asynchronous self-synchronous global and inter-cluster local buses coupling wrappers of clusters of processing module matrix
CN105874714B (zh) 支持多模式可配置的六输入查找表结构和fpga器件
CN107885485B (zh) 一种基于超前进位实现快速加法的可编程逻辑单元结构
US20070074001A1 (en) Reconfigurable integrated circuit device
CN101136070A (zh) 基于可重构架构的多协议射频标签读写器基带处理器
CN114282471A (zh) 一种针对fpga自适应逻辑模块的装箱方法
Shi et al. Efficient FPGA implementation of digit parallel online arithmetic operators
CN111752529B (zh) 支持高效乘累加运算的可编程逻辑单元结构
US7545196B1 (en) Clock distribution for specialized processing block in programmable logic device
US7617269B2 (en) Logic entity with two outputs for efficient adder and other macro implementations
CN111401533B (zh) 一种神经网络专用计算阵列及其计算方法
US6750674B1 (en) Carry chain for use between logic modules in a field programmable gate array
Hong et al. Design and implementation of a high-speed matrix multiplier based on word-width decomposition
WO2016090599A1 (zh) 一种可扩展可配置的逻辑元件和fpga器件
US9590633B2 (en) Carry-skip one-bit full adder and FPGA device
WO2005038644A1 (ja) データ処理装置
CN111752528B (zh) 一种支持高效乘法运算的基本逻辑单元
Palchaudhuri et al. High performance bit-sliced pipelined comparator tree for FPGAs
Pritha et al. Enhancing the Efficiency of Wallace Tree Multipliers Through Optimized ECSLA Design
US8150949B2 (en) Computing apparatus
Wojko Pipelined multipliers and FPGA architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant