CN108921292B - 面向深度神经网络加速器应用的近似计算系统 - Google Patents
面向深度神经网络加速器应用的近似计算系统 Download PDFInfo
- Publication number
- CN108921292B CN108921292B CN201810409591.6A CN201810409591A CN108921292B CN 108921292 B CN108921292 B CN 108921292B CN 201810409591 A CN201810409591 A CN 201810409591A CN 108921292 B CN108921292 B CN 108921292B
- Authority
- CN
- China
- Prior art keywords
- bit
- weight
- accumulation
- input
- multiplier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种面向深度神经网络加速器应用的近似计算系统,包括:片上分布式静态随机存取存储器:存放压缩后的权重;控制单元和霍夫曼解码器:对配置单元中的编码进行解码操作,控制单元将数据分配到处理单元阵列。首“1”探测电路:探测输入数据的首“1”位置;处理单元阵列:实现权重和输入数据的乘加操作。此种技术方案可解决加速器中运算速度慢、运算量复杂、无法实现高性能高运算速率的问题,达到了深度神经网络加速器的高性能、高能效以及高运算速率的设计优点。
Description
技术领域
本发明属于神经网络近似计算技术领域,特别涉及一种面向深度神经网络加速器应用的近似计算系统设计。
背景技术
深度学习是机器学习研究中的一个新的领域,其动机在于模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,在多个领域得到应用,有极大的研究与商业价值。深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于分类或特征的可视化(参考文献1)。通过深度学习得到的深度网络结构符合神经网络的特征,深度学习应用在图像识别,自动驾驶,人工智能,语音识别等多个领域(参考文献2、3)。目前图像识别已在我们日常生活里被广泛使用,例如扫描图片购物、人脸识别、手写字母识别等等,以后的使用场景只会更加丰富。卷积神经网络功能强大,可以应用在不同的数据资源和平台。
现有的深度神经网络表现出了问题处理的强大能力。为了解决更加抽象、更加复杂的学习问题,深度学习的网络规模在不断增加,计算和数据的复杂度也随之剧增,比如GoogleNet网络具有10亿个神经元连接口。CNN网络的规模也越来越大,从手写图像识别网络LeNet-5的五层,AlexNet的8层到VGG的19层,再到ResNet的152层,网络规模日益增大。神经网络的访存密集和计算密集型问题日益突出。如何高能效地实现深度学习相关算法,成为科研与商业机构的研究热点。
神经网络计算算法经常严重依赖于大量的乘法,这是既耗时又耗电。但是,有许多简化乘法的实际解决方案,如截断乘法器和对数乘法器。这些方法消耗更少的时间和功率,但会引入错误。尽管如此,它们可以用于延迟时间比精度更重要的情况。Esmaeilzadeh(参考文献4)等人证明神经网络具有更好的容错性。因此,在神经网络计算中,经常会遇到这些情况。(参考文献5)等人提出了一个简单高效的乘法器,通过迭代程序达到任意精度的可能性,然后达到确切的结果。
近似乘法器的功耗和精确度之间的权衡一直是业内研究的热点。如何将近似乘法器引入到神经网络中更是本领域研究的热点问题。
其中涉及的参考文献如下:
[1]BENGIO Y.Learning deep architectures for AI[J].Foundations andTrends in Machine Learning,2009,2(1):1-127.
[2]Markoff J.Scientists see promise in deep-learning programs[N]. TheNew York Times,2012-11-23
[3]10Breakthrough Technologies 2013[N].MIT Technology Review, 2013-04-23.
[4]Esmaeilzadeh H,Sampson A,Ceze L,et al.Neural Acceleration forGeneral-Purpose Approximate Programs[J].IEEE Micro,2013,33(3):16-27.
[5]Babic Z,Avramovic A,Bulic P.An Iterative Mitchell's AlgorithmBased Multiplier[C]//IEEE International Symposium on Signal Processing andInformation Technology.IEEE,2009:303-308.
发明内容
本发明的目的,在于提供一种面向深度神经网络加速器应用的近似计算系统,其可解决加速器中运算速度慢、运算量复杂、无法实现高性能高运算速率的问题,达到了深度神经网络加速器的高性能、高能效以及高运算速率的设计优点。
为了达成上述目的,本发明的解决方案是:
一种面向深度神经网络加速器应用的近似计算系统,包括:
片上分布式静态随机存取存储器,片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中;
控制单元和霍夫曼解码器,压缩后的权重的首“1”位置的霍夫曼编码比特流被存储到配置单元的静态随机存取存储器中,霍夫曼解码器对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列;
首“1”探测电路,用于得到输入数据的首“1”位置,并将输入数据和其首“1”位置输出到处理单元阵列中;以及,
阈值函数单元和处理单元阵列,处理单元阵列包括4*4=16个处理单元,每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果;运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元进行处理后输出最终结果。
上述各处理单元中均设有累加对数乘法器,累加对数乘法器包括移位器、超前进位加法器、快速优先编码器以及零检测门,移位器获得权重和输入数据的最高有效位,并且通过快速优先编码器控制移位得到下一组乘数与被乘数;零检测门检测输入的乘数和被乘数有没有为0的情况,通过移位器对准乘数与被乘数的相乘位;超前进位加法器实现乘数与被乘数的最高有效位的相加以及相邻两次最高有效位的和的累加。
上述累加对数乘法器采用自适应精度调节的电路设计,根据权重的不同量化结果,自适应地改变累加对数乘法器的精度,对于16比特的权重,当权重的最高有效位在第0-6位时,通过控制权重的有效长度,实现权重和输入数据的一次累加;当权重的最高有效位在第7-12位时,实现权重和输入数据二次累加;当权重的最高有效位在第13-15位时,累加对数乘法器的电路完全开启,权重和输入数据会一直进行到三次累加输出结果。
上述首“1”探测电路采用16比特首“1”探测器。
上述16比特首“1”探测器包括8组D触发器组、5个4比特首“1”探测器、5个或门和4组4位选择器,其中,每个D触发器组包含4个D触发器,5 个或门均采用四输入或门;第一至第四D触发器组的输出端分别对应连接第一至第四或门的输入端,第一至第四D触发器组的输出端还分别对应连接第一至第四 4比特首“1”探测器的输入端;第一至第五4比特首“1”探测器的输出端分别对应连接第一至第四组4位选择器的输入端,第一至第四或门的输出端均连接第五4比特首“1”探测器的输入端,第一至第四或门的输出端还分别连接第五或门的输入端,第五或门的输出端用于输出零输入标志;第一至第四组4位选择器的输出端连接第五至第八D触发器组的输入端。
采用上述方案后,本发明在处理单元阵列中引入累加对数乘法器,二维处理单元阵列实现权重和输入数据的流水运算,每一个处理单元包括一个静态随机存取存储,实现片上分布式静态随机存取存储的设计,提高访存效率。每一个处理单元阵列通过配置信号可以实现加法和乘法的操作并且引入近似乘法的概念。累积对数乘法器一次计算实现传统对数乘法器的三次迭代的结果。根据权重的量化结果可以自适应调节乘法器的累加次数,关闭部分工作电路,分别实现一次累加、二次累加以及三次累加的乘法结果。
本发明通过引入累加对数乘法器实现近似计算,提高深度神经网络的运算速度,实现自适应精度可调的神经网络设计,提高了处理单元阵列中数据的存储效率,实现高能效、高性能的深度神经网络加速器。
附图说明
图1是本发明的系统框图;
图2(a)是本发明中16位首“1”探测电路的电路结构图;
图2(b)是本发明中4位首“1”探测电路的电路结构图;
图3是本发明中累加对数乘法器的算法框图;
图4是本发明中累加对数乘法器的电路结构图;
图5是本发明中累加对数乘法器自适应精度调节示意图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
如图1所示,本发明提供一种面向深度神经网络加速器应用的近似计算系统,包括控制单元、阈值函数单元、霍夫曼解码器、片上分布式静态随机存取存储器、首“1”探测电路和处理单元阵列,通过直接内存存取直接访问数据,下面分别介绍。
所述片上分布式静态随机存取存储器:片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中,提高神经网络加速器的运算速度。
如图1所示,其中的片上分布式静态随机存取存储器是指在处理单元阵列中的每一个处理单元均对应一个静态随机存取存储结构,提高加速器的数据重用率,实现流水计算操作,进一步提高神经网络加速器的运算速度和访存效率。
所述控制单元和霍夫曼解码器:压缩后的权重的首“1”位置的霍夫曼编码被逐个存储到配置单元静态随机存取存储器中,霍夫曼解码器会对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列。
如图1所示,其中的控制单元可以对霍夫曼解码器、处理单元阵列以及目标寄存器阵列进行控制;其中的霍夫曼解码器对片上分布式静态随机存取存储器的压缩后的权重的霍夫曼编码进行解码操作,并且通过控制单元将解码后的输出数据输入到处理单元阵列中,实现权重和输入数据的乘法和加法的操作。
所述首“1”探测电路:输入数据的首“1”位置可以通过首“1”探测电路得到,并将输入数据和其首“1”位置输出到处理单元阵列中,实现和权重的乘加操作。
如图2(a) 和图 2(b) 所示的首“1”探测电路结构,16比特首“1”探测器主要由D触发器、五个4比特首“1”探测器、或门以及4组4位选择器组成。假设最高有效位是d15,最低有效位是d0。16比特首“1”探测电路是一个串行并行结合电路。将16比特的首“1”探测器由四组4比特首“1”探测器组合设计,并且4组探测器并行工作;每组4比特首“1”探测器是从最高有效位到最低有效位串行工作的;4组首“1”探测器的输出会被输入到中间的4比特首“1”探测器中,再次探测首“1”位置,并且控制选择器的工作状态,引入或门作零输入标志;四组4比特首“1”探测器的输出控制四条线作为四组4位MUX选择信号;最后,四组4位D触发器输出结果。显然,当且仅当选择信号为高电平时,4位选择器才能输出首位“1”的4位解码字。该电路产生一个16位有效高位解码的二进制字,只有一个高位对应于首“1”位。该电路的最坏情况延迟对应于以十六进制表示为“0001”的16位输入二进制字。
所述处理单元阵列:二维处理单元(PE)阵列,包括4*4=16个处理单元。每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果。运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元输出最终结果。每个处理单元引入累加对数乘法器,实现近似计算,提高神经网络加速器的运算效率。
如图1所示的深度神经网络加速器的系统框架,其中处理单元阵列结构包括 4*4个二维处理单元。处理单元之间可以并行工作,提高了神经网络加速器的吞吐率和运算速度。
如图3所示的对数乘法器的算法实现,将输入数据和权重分别拆分成对数的表达形式,即N=2k(1+x),其中x*2k=N-2k。通过首“1”探测器检测输入数据的首1位置,权重的首“1”检测在对权重进行量化时线下完成。那么有其中 通过加法、移位以及解码得到最后的输出。
所述累加对数乘法器:累加对数乘法器包括移位器,超前进位加法器,快速优先编码器以及零检测门。移位器可以获得权重和输入数据的最高有效位,并且通过快速优先编码器控制移位得到下一组乘数与被乘数。这里的零检测门会检测输入的乘数和被乘数有没有为0的情况,通过移位器对准乘数与被乘数的相乘位。超前进位加法器实现乘数与被乘数的最高有效位的相加以及相邻两次最高有效位的和的累加。快速优先编码器相比于传统的优先编码器具有明显的优势,可快速实现首“1”的检测并输出编码器结果。传统首“1”探测器的复杂,延时长。快速优先编码器提高了乘法器的整体运算速率。
如图4所示的累加对数乘法器的电路结构,电路一次计算可以达到乘法器迭代3次的精度效果。通过移位器的移位操作可以将权重和输入数据的最高有效位相加,三输入与门可以作为零输入标志,输出给自对准移位器,并将移位后的结果存放到寄存器中,为下一步的累加做准备。优先编码器部分引入了改进的优先编码器代替了传统优先编码器,消除了传统的优先编码器耗时长的缺点,大大提高了运算速度,提高了累加对数乘法器的性能。
所述累加对数乘法器自适应精度调节结构,根据权重的不同量化结果,可以自适应的改变累加对数乘法器的精度。对于16比特的权重,当权重的最高有效位在第0-6位时,通过控制权重的有效长度,实现权重和输入数据的一次累加;当权重的最高有效位在第7-12位时,实现权重和输入数据二次累加;当权重的最高有效位在第13-15位时,电路中的单元全部开启,权重和输入数据会一直进行到三次累加输出结果。通过权重的最高有效位的位置实现累加对数乘法器的自适应精度调节。这大大地降低了神经网络加速器的功耗并且提高了神经网络的运算速度。
如图5所示的累加对数乘法器自适应精度调节电路设计,由权重的量化结果控制累加对数乘法器的累加次数以及相对应的工作电路,从而自适应地改变累加对数乘法器的精度。对于16比特的权重,当权重的最高有效位在第0-6位时,如图5中的(a)所示,累加对数乘法器的灰色部分的2/3的电路处于不工作状态,权重和输入数据累加一次输出结果;当权重首位最高有效位在第7-12位时,如图 5中的(b)所示,累加对数乘法器的灰色部分的1/3的电路处于不工作状态,权重和输入数据累加两次输出结果;当权重的最高有效位在第13-15位时,如图5中的(a) 所示,累加对数乘法器的电路均处于工作状态,权重和输入数据累加三次输出结果,相当于传统对数乘法器迭代三次的精度输出。通过权重的最高有效位即可以自适应地调节累加对数乘法器的精度,实现高性能、高能效、低功耗的神经网络加速器设计,大大地提高了运算速度。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (3)
1.一种面向深度神经网络加速器应用的近似计算系统,其特征在于包括:
片上分布式静态随机存取存储器,片下压缩后的权重被存放在对应处理单元中的片上分布式静态随机存取存储器中;
控制单元和霍夫曼解码器,压缩后的权重的首“1”位置的霍夫曼编码比特流被存储到配置单元的静态随机存取存储器中,霍夫曼解码器对配置单元中的编码进行解码操作,并将结果返回给控制单元,控制单元将数据分配到处理单元阵列;
首“1”探测电路,用于得到输入数据的首“1”位置,并将输入数据和其首“1”位置输出到处理单元阵列中;以及,
阈值函数单元和处理单元阵列,处理单元阵列包括4*4=16个处理单元,每个处理单元实现权重和输入数据的乘加操作,利用近似计算的设计方法输出运算结果;运算输出的部分和结果放在目标寄存器阵列中,并经过阈值函数单元进行处理后输出最终结果;
所述各处理单元中均设有累加对数乘法器,累加对数乘法器包括移位器、超前进位加法器、快速优先编码器以及零检测门,移位器获得权重和输入数据的最高有效位,并且通过快速优先编码器控制移位得到下一组乘数与被乘数;零检测门检测输入的乘数和被乘数有没有为0的情况,通过移位器对准乘数与被乘数的相乘位;超前进位加法器实现乘数与被乘数的最高有效位的相加以及相邻两次最高有效位的和的累加;
所述累加对数乘法器采用自适应精度调节的电路设计,根据权重的不同量化结果,自适应地改变累加对数乘法器的精度,对于16比特的权重,当权重的最高有效位在第0-6位时,通过控制权重的有效长度,实现权重和输入数据的一次累加;当权重的最高有效位在第7-12位时,实现权重和输入数据二次累加;当权重的最高有效位在第13-15位时,累加对数乘法器的电路完全开启,权重和输入数据会一直进行到三次累加输出结果。
2.如权利要求1所述的面向深度神经网络加速器应用的近似计算系统,其特征在于:所述首“1”探测电路采用16比特首“1”探测器。
3.如权利要求2所述的面向深度神经网络加速器应用的近似计算系统,其特征在于:所述16比特首“1”探测器包括8组D触发器组、5个4比特首“1”探测器、5个或门和4组4位选择器,其中,每个D触发器组包含4个D触发器,5个或门均采用四输入或门;第一至第四D触发器组的输出端分别对应连接第一至第四或门的输入端,第一至第四D触发器组的输出端还分别对应连接第一至第四4比特首“1”探测器的输入端;第一至第五4比特首“1”探测器的输出端分别对应连接第一至第四组4位选择器的输入端,第一至第四或门的输出端均连接第五4比特首“1”探测器的输入端,第一至第四或门的输出端还分别连接第五或门的输入端,第五或门的输出端用于输出零输入标志;第一至第四组4位选择器的输出端连接第五至第八D触发器组的输入端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810409591.6A CN108921292B (zh) | 2018-05-02 | 2018-05-02 | 面向深度神经网络加速器应用的近似计算系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810409591.6A CN108921292B (zh) | 2018-05-02 | 2018-05-02 | 面向深度神经网络加速器应用的近似计算系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108921292A CN108921292A (zh) | 2018-11-30 |
CN108921292B true CN108921292B (zh) | 2021-11-30 |
Family
ID=64403875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810409591.6A Active CN108921292B (zh) | 2018-05-02 | 2018-05-02 | 面向深度神经网络加速器应用的近似计算系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108921292B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102562320B1 (ko) * | 2018-12-24 | 2023-08-01 | 삼성전자주식회사 | 비트 연산 기반의 뉴럴 네트워크 처리 방법 및 장치 |
US10886943B2 (en) * | 2019-03-18 | 2021-01-05 | Samsung Electronics Co., Ltd | Method and apparatus for variable rate compression with a conditional autoencoder |
CN111492369B (zh) * | 2019-09-19 | 2023-12-12 | 香港应用科技研究院有限公司 | 人工神经网络中移位权重的残差量化 |
US20210241080A1 (en) * | 2020-02-05 | 2021-08-05 | Macronix International Co., Ltd. | Artificial intelligence accelerator and operation thereof |
CN111340206A (zh) * | 2020-02-20 | 2020-06-26 | 云南大学 | 一种基于FPGA的Alexnet前向网络加速器 |
CN111858721B (zh) * | 2020-08-03 | 2023-07-21 | 南京大学 | 一种基于优先级编码的分布式计算方法 |
CN112906863B (zh) * | 2021-02-19 | 2023-04-07 | 山东英信计算机技术有限公司 | 一种神经元加速处理方法、装置、设备及可读存储介质 |
CN113253973A (zh) * | 2021-05-10 | 2021-08-13 | 南京博芯电子技术有限公司 | 适用于神经网络数据和权重预分类的近似计算装置及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1202744A (zh) * | 1997-03-25 | 1998-12-23 | 松下电器产业株式会社 | 无线电发射装置及其增益控制方法 |
CN103260022A (zh) * | 2012-02-21 | 2013-08-21 | 安凯(广州)微电子技术有限公司 | 一种低功耗的视频解码方法和装置 |
CN106909970A (zh) * | 2017-01-12 | 2017-06-30 | 南京大学 | 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块 |
CN107710238A (zh) * | 2015-06-29 | 2018-02-16 | 微软技术许可有限责任公司 | 具有堆栈存储器的硬件加速器上的深度神经网络处理 |
-
2018
- 2018-05-02 CN CN201810409591.6A patent/CN108921292B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1202744A (zh) * | 1997-03-25 | 1998-12-23 | 松下电器产业株式会社 | 无线电发射装置及其增益控制方法 |
CN103260022A (zh) * | 2012-02-21 | 2013-08-21 | 安凯(广州)微电子技术有限公司 | 一种低功耗的视频解码方法和装置 |
CN107710238A (zh) * | 2015-06-29 | 2018-02-16 | 微软技术许可有限责任公司 | 具有堆栈存储器的硬件加速器上的深度神经网络处理 |
CN106909970A (zh) * | 2017-01-12 | 2017-06-30 | 南京大学 | 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块 |
Non-Patent Citations (4)
Title |
---|
《AEP: An Error-bearing Neural Network Accelerator for Energy Efficiency and Model Protection》;Lei Zhao 等;《IEEE/ACM 36th International Conference on Computer-Aided Design (ICCAD)》;20171231;全文 * |
《Deep Convolutional Neural Network Architecture With Reconfigurable Computation Patterns》;Fengbin Tu 等;《IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION (VLSI) SYSTEMS》;20170831;第25卷(第8期);全文 * |
《EIE: Efficient Inference Engine on Compressed Deep Neural Network》;Song Han 等;《2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture》;20161231;全文 * |
《FPGA Acceleration of Recurrent Neural Network based Language Model》;Sicheng Li 等;《2015 IEEE 23rd Annual International Symposium on Field-Programmable Custom Computing Machines》;20151231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108921292A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108921292B (zh) | 面向深度神经网络加速器应用的近似计算系统 | |
US11727276B2 (en) | Processing method and accelerating device | |
Tsai et al. | A hardware-efficient sigmoid function with adjustable precision for a neural network system | |
Kim et al. | Orchard: Visual object recognition accelerator based on approximate in-memory processing | |
Kim et al. | Low-power implementation of Mitchell's approximate logarithmic multiplication for convolutional neural networks | |
CN111832719A (zh) | 一种定点量化的卷积神经网络加速器计算电路 | |
CN109325590B (zh) | 用于实现计算精度可变的神经网络处理器的装置 | |
Nazari et al. | Tot-net: An endeavor toward optimizing ternary neural networks | |
CN112257844B (zh) | 一种基于混合精度配置的卷积神经网络加速器及其实现方法 | |
Wang et al. | PL-NPU: An energy-efficient edge-device DNN training processor with posit-based logarithm-domain computing | |
Choi et al. | Retrain-less weight quantization for multiplier-less convolutional neural networks | |
Kim et al. | V-LSTM: An efficient LSTM accelerator using fixed nonzero-ratio viterbi-based pruning | |
Ahn et al. | Deeper weight pruning without accuracy loss in deep neural networks: Signed-digit representation-based approach | |
CN109697509B (zh) | 处理方法及装置、运算方法及装置 | |
Zhan et al. | Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems | |
CN109389209B (zh) | 处理装置及处理方法 | |
Huang et al. | Hardware-friendly compression and hardware acceleration for transformer: A survey. | |
Hsiao et al. | Sparsity-aware deep learning accelerator design supporting CNN and LSTM operations | |
CN118014030A (zh) | 一种神经网络加速器及系统 | |
Wang et al. | EERA-DNN: An energy-efficient reconfigurable architecture for DNNs with hybrid bit-width and logarithmic multiplier | |
CN117035028A (zh) | 一种基于fpga的卷积加速器高效计算方法 | |
Zhao et al. | Fast sparse deep neural networks: theory and performance analysis | |
CN110135561A (zh) | 一种实时在线飞行器ai神经网络系统 | |
Haghi et al. | O⁴-DNN: A Hybrid DSP-LUT-Based Processing Unit With Operation Packing and Out-of-Order Execution for Efficient Realization of Convolutional Neural Networks on FPGA Devices | |
Mozafari et al. | Implementing convolutional neural networks using hartley stochastic computing with adaptive rate feature map compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |