CN115480729A

CN115480729A - 用于图像卷积处理的高速低功耗近似乘累加运算器

Info

Publication number: CN115480729A
Application number: CN202211161068.9A
Authority: CN
Inventors: 陈志杰; 李青林
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-16

Abstract

本发明公开了用于图像卷积处理的高速低功耗近似乘累加运算器，处理8bit有符号数×8bit无符号数。乘累加运算器由乘法器与加法器构成，分为部分积产生，部分积压缩，进位加法，累加四个阶段。本发明在部分积产生阶段使用了近似基‑8布斯算法，在进位加法和累加阶段使用近似4进位加法器。±3倍的被乘数被近似为±2，±4倍的被乘数，由于移位运算的延时，功耗较小，通过该近似能减小电路的复杂度，提高速度，降低功耗。对于nbit的加法运算，需要进行n‑1bit的进位；将16bit的加法运算使用4bit的进位，减小延时，加快了计算速度。通过近似计算提高了乘法累加器的速度，降低了功耗，适用于要求高速、低功耗、且容忍一定误差图像卷积处理。

Description

用于图像卷积处理的高速低功耗近似乘累加运算器

技术领域

本发明属于集成电路技术领域，具体来说是一种用于图像卷积处理的高速低功耗的近似乘累加器。

背景技术

近年来，随着大数据，人工智能的发展，物联网设备需要处理海量的图片，并且这些图像的尺寸和位深也在不断增加，这就对图像处理设备在速度，功耗方面的要求不断提高。卷积在图像中经常被用于平滑，模糊，锐化，去噪，边缘等工作，是图像处理中一种常用的操作。卷积计算就是乘累加运算，核心是乘累加(MultiplierAccumulator,MAC)运算器，设计一种高速，低功耗的乘累加器用于图像卷积处理有重要的意义。

物联网设备由于以下的原因，使得近似计算很有前途：1.图像、音频，视频处理中，最终的结果是由人的感官解释的，而人类感官感知受限的事实降低了对准确性的严格限制。2.需要处理冗余，噪音数据。近似计算的基本前提是用逻辑数少、复杂度低的数据处理块取代传统的复杂且浪费能量的数据处理块。该方法以降低处理数据的精度为代价，有效减少了芯片能耗和面积，提高了速度。

目前相关的乘累加器的相关研究并不充分，没有在速度，功耗，面积等性能上均衡的电路，同时也少有专门为图像卷积处理设计的乘累加器，因此本发明设计一种用于图像卷积处理，并且以近似计算的方法达到一种具备高速，低功耗性能的乘累加器。

发明内容

本发明设计的近似乘累加器能在速度，功耗，面积等性能方面相对于传统电路有全面的提升，同时该电路用于图像卷积处理，能满足图像处理的精度的容忍度。

用于图像卷积处理的高速低功耗近似乘累加运算器，处理8bit有符号数×8bit无符号数，其中无符号数用于处理图像像素，有符号数用于处理卷积核，对于输入的有符号数，增加一位符号位，值为有符号数的第8位。

该近似累加器分为部分积产生模块，部分积压缩模块，进位加法模块，累加模块四个模块。其中部分积产生模块为近似基8-布斯编码器，产生高度为3的部分积矩阵。其中部分积压缩模块为3：2压缩机。其中进位加法模块将16位的进位加法近似为4进位的加法。其中累加器由加法器和D触发器组成，加法运算采用4进位的近似加法。

本发明所述的近似基8-布斯编码器的特征在于：由两个两输入的异或门、一个两输入的同或门、一个两输入的或门、一个三输入的或门、一个四输入的或门、5个两输入与门、4个三输入与门、2个四输入与门、一个三输入的与非门组成，并依次为：两输入的第一异或门、第二异或门，两输入的同或门，两输入的第一或门，三输入的第二或门，四输入的第三或门，两输入的第一与门、第二与门、第三与门、第四与门、第五与门，三输入的第六与门、第七与门、第八与门、第九与门，四输入的第十与门、第十一与门，三输入的与非门。

将乘数(Y)编码为4位一组，分别为y_3i+2、y_3i+1、y_3i、y_3i-1作为输入，被乘数的x_i、x_i-1、x_i-2作为输入，生成的部分积PP_ij为输出。

第一与非门的第一输入端连接第一输入信号(y_3i+2)，其第二输入端连接第二输入信号(y_3i+1)，其输出端连接第一与门的第一输入端。

第一同或门的第一输入端连接第三输入信号(y_3i)，其第二输入端连接第四输入信号(y_3i-1)，其输出端连接第一与门的第二输入端；

第二与门的第一输入端连接第一与门的输出端，其第二输入端连接第五输入信号(x_i)，其输出端连接第二或门的第一输入端；

第十与门的第一输入端连接第一输入信号(y_3i+2)，其第二输入端连接取反的第二输入信号(y_3i+1)，其第三输入端连接第三输入信号(y_3i)，其第四输入端连接第四输入信号(y_3i-1)，其输出端连接第三或门的第一输入端；

第十一与门的第一输入端连接取反的第一输入信号(y_3i+2)，其第二输入端连接第二输入信号(y_3i+1)，其第三输入端连接取反第三输入信号(y_3i)，其第四输入端连接第四输入信号(y_3i-1)，其输出端连接第三或门的第二输入端；

第六与门的第一输入端连接第二输入信号(y_3i+1)，其第二输入端连接取反的第三输入信号(y_3i)，其第三输入端连接取反的第三输入信号(y_3i-1)，其输出端连接第三或门的第三输入端；

第七与门的第一输入端连接取反的第二输入信号(y_3i+1)，其第二输入端连接第三输入信号(y_3i)，其第三输入端连接第四输入信号(y_3i-1)，其输出端连接第三或门的第四输入端；

第三与门的第一输入端连接第三或门的输出端，其第二输入端连接第六输入信号(x_i-1)，其输出端连接第二或门的第二输入端；

第八与门的第一输入端连接取反的第一输入信号(y_3i+2)，其第二输入端连接第二输入信号(y_3i+1)，其第三输入端连接第三输入信号(y_3i)，其输出端连接第一或门的第一输入端；

第九与门的第一输入端连接第一输入信号(y_3i+2)，其第二输入端连接取反的第二输入信号(y_3i+1)，其第三输入端连接取反的第三输入信号(y_3i)，其输出端连接第一或门的第二输入端；

第四与门的第一输入端连接第七输入信号(x_i-2)，其第二输入端连接第一或门的输出，其输出端连接第二或门的第三输入端；

与非门的第一输入端连接第二输入信号(y_3i+1)，其第二输入端连接第三输入信号(y_3i)，其第三输入端连接第四输入信号(y_3i-1)，其输出端连接第五与门的第一输入端；

第五与门的第一输入端连接与非门的输出端，其第二输入端连接第一输入信号(y_3i+2)，其输出端连接第二异或门的第二输入端；

第二异或门的第一输入端连接第二或门的输出端，其第二输入端连接第五与门的输出端，其输出端连接输出信号PP_ij；

本发明所述的部分积压缩模块的特点在于：3:2压缩机由16个全加器构成，第一个全加器的第一个输入为部分积矩阵的第一行的第一位数据，第一个全加器的第二个输入为部分积矩阵的第二行的第一位数据，第一个全加器的第三个输入为部分积矩阵的第三行的第一位数据，以此类推，每一个全加器的第一个输入为第一行的数据，第二个输入为第二行的数据，第三个输入为第三行的数据，每一个全加器处理部分积的一列数据，全加器的两个输出组成高度为2的矩阵。

本发明所述的近似进位加法模块的特点在于：该近似进位加法中，二进制整数表示为A，B，整数A,B的每一位表示为a_i-1,b_i-1。为了将两个n位整数A和B相加，可以在每个位定义生成信号g_i、传播信号p_i和终止信号k_i，其中g_i等于a_i与b_i，p_i等于a_i异或b_i；k_i等于a_i或非b_i。

使用这些信号，产生每个位i的进位输出信号c_i，并用于计算每位的和s_i。c_i和s_i的递归式为：

当K_i等于1时，c_i等于0；当g_i等于1时，c_i等于1；当p_i等于1时，c_i等于c_i-1。

s_i等于a_i异或b_i异或c_i-1。

对于本发明的16位加法器，将其最长序列设为4，因此，s_i用从第i位开始的前5位的输入位来计算。即S₅由a₀～a₅,b₀～b₅计算，S₆由a₁～a₆,b₁～b₆计算，以此类推，S₁₅由a₁₀～a₁₅,b₁₀～b₁₅计算。共形成11个6位加法器。

本发明所述的累加器模块，其特征在于：该累加器由近似加法器和D触发器组成，其中近似加法器为前述的近似进位加法，近似加法器的第一输入端连接输入信号(din)，其第二输入端连接D触发器的输出(sum_d)，其输出端连接D触发器的输入(dout)和输出信号(dout)；D触发器的输入端连接近似加法器的输出(dout),其输出端连接近似加法器的输入(sum_d)。

与现有技术相比，本发明的有益效果在于：

1.本发明设计的近似乘累加器专用于图像处理，为8bit无符号数×8bit有符号数，其中无符号数用于处理图像像素，有符号数用于处理卷积核，减少了电路资源，提高了速度，减少了功耗，面积。

2.用了近似基8-布斯算法，简化了电路结构，减少了功耗和面积。

3.使用了近似4进位的加法器，减少了延时，提高速度。

4.使用该近似电路进行图像卷积处理，图像质量在容忍度内。

附图说明

图1本发明近似乘累加器原理结构图

图2乘累加器运算过程

图3近似基8-布斯编码器的值

图4本发明近似基8-布斯编码器电路

图5基-8布斯编码乘法器的部分积行

图6本发明近似加法器的示意图

图7三种乘法累加器的性能对比

图8使用近似乘累加器进行图像处理后的图片

具体实施方式

本实施例中，一种用于图像卷积处理的高速低功耗近似乘累加运算器，结构如图1所示。本发明设计的近似乘累加器用于图像卷积处理，图片的像素为8位无符号，而卷积核可为正数，也可为负数,如均值卷积核1/9[1,1,1；1,1,1；1,1,1],锐化卷积核[-1,-1,-1；-1,9,-1；-1,-1,-1]等，为了适用于这种情况，本发明设计的近似乘累加器为8bit无符号数(X)×8bit有符号数(Y)，其中无符号数用于处理图像像素，有符号数用于处理卷积核。实现方法为：对于输入的有符号数Y，将最高位用于符号位，得到Y_MAC，即Y_MAC＝{B[7]，Y[7:0]}。

乘累加运算器由乘法器与加法器构成，分为部分积产生，部分积压缩，进位加法，累加四个阶段，四个阶段如图2所示。本发明在部分积产生、进位加法和累加阶段使用了近似算法。

部分积产生，对于nbit的被乘数X与乘数Y,阵列乘法中用与逻辑门对被乘数和乘数进行位乘，产生n×n个部分积，部分积矩阵的高度为n。为了提高速度，普遍使用布斯编码器，基2^r-布斯编码器将乘数(Y)编码为一组r+1位，重叠1位，产生的部分积矩阵高度为[n/r]，共[n/r]×n个部分积。随着r值的增大，部分积矩阵的高度减小，部分积压缩阶段简化，但布斯编码器复杂度增加。以基4-布斯编码器为例，部分积矩阵高度从n减小为[n/2]，需要被乘数(X)的0、±1和±2倍生成部分乘积。同样的，基8-布斯编码器，部分积矩阵高度从n减小为[n/3]，需要被乘数(X)的0、±1、±2、±3和±4倍生成部分乘积。

由于本应用中乘累加器用于图像卷积处理,故乘累加的被乘数X与被乘数Y为8bit位宽,使用基8-布斯编码器在部分积矩阵的高度及编码器的复杂程度均衡来说是合适的，在基8-布斯编码器的项中，3X不是2的幂，它不能通过移动X来得到。3X项通常是通过一个n位加法器将X项和2X项相加得到的，这个n位加法器被称为重新编码加法器。编码加法器增加了总体关键路径延迟，这是基8—布斯编码器的主要缺点。

为了降低基8-布斯编码器中的复杂性，提出了近似的基8-布斯编码器。近似方法是将消耗大量资源的3X项近似为2X项，4X项，减少电路的复杂性，如图3所示，将3X输入项(0101,1010)和(0110,1001)近似于2X和4X项，在该图中，y_3i+2y_3i+1y_3iy_3i-1表示被乘数,pp_ij表示精确部分积，R8ABE1表示近似部分积，ED表示近似编码器的误差。

近似后的近似基8-布斯编码器的电路，如图4所示，其电路描述为：由两个两输入的异或门、一个两输入的同或门、一个两输入的或门、一个三输入的或门、一个四输入的或门、5个两输入与门、4个三输入与门、2个四输入与门、一个三输入的与非门组成，并依次为：两输入的第一异或门、第二异或门，两输入的同或门，两输入的第一或门，三输入的第二或门，四输入的第三或门，两输入的第一与门、第二与门、第三与门、第四与门、第五与门，三输入的第六与门、第七与门、第八与门、第九与门，四输入的第十与门、第十一与门，三输入的与非门。

简化逻辑的PP_ij的表达式由下式给出：

PP_ij＝[x_i(y_3i+2⊙y_3i+1)(y_3i⊕y_3i-1)+x_i-1((～y_3i+1)y_3iy_3i-1+y_3i+1(～y_3i)(～y_3i-1)+(y_3i+2)y_3i+1(～y_3i)y_3i-1+y_3i+2(～y_3i+1)y_3i(～y_3i-1))+x_i-1((～y_3i+2)y_3i+1y_3i+y_3i+2(～y_3i＝1)(～y_3i))]⊕y_3i+2(～(y_3i+1y_3iy_3i-1))

对于负部分积行，还需在LSB处加1。图5中使用点符号表示出了基-8布斯编码乘法器的部分积行，其中每个点表示部分积位。

部分积压缩部分，经过部分积产生的矩阵的高度为3，使用一个3：2压缩机，完成部分积压缩部分。特征在于：3:2压缩机由16个全加器构成，第一个全加器的第一个输入为部分积矩阵的第一行的第一位数据，第一个全加器的第二个输入为部分积矩阵的第二行的第一位数据，第一个全加器的第三个输入为部分积矩阵的第三行的第一位数据，以此类推，每一个全加器的第一个输入为第一行的数据，第二个输入为第二行的数据，第三个输入为第三行的数据，每一个全加器处理部分积的一列数据，全加器的两个输出组成高度为2的矩阵。

进位加法，在精确的进位加法中，二进制整数表示为A，B，整数A,B的最高位表示为a_i-1,b_i-1。为了将两个n位整数A和B相加，可以在每个位定义生成信号g_i、传播信号p_i和终止信号k_i如下：

g_i＝a_ib_i,p_i＝a_i⊕b_i，k_i＝～(a_i+b_i)

使用这些信号，产生每个位i的进位输出信号c_i，并用于计算每位的和。c_i的递归式和每位的和如下所示。

c_i＝0(k_i＝1),c_i＝1(g_i＝1)，c_i＝c_i-1(p_i＝1)

s_i＝a_i⊕b_i⊕c_i-1

只有当传播信号p_i为真时，进位c_i才依赖于进位c_i-1，否则c_i可以根据g_i和k_i的值确定。类似地，只有当p_i-1为真时，c_i-1依赖于c_i-2。这意味着只有当p_i和p_i-1都为真时c_i才依赖于c_i-2。一般来说，只有当位c_i和c_i-k+1之间的每个传播信号p_i为真时，c_i才依赖于c_i-k。

对于16位的两个整数相加，其最长序列为14，但是平均的传播序列为(㏒₂n),即4.故本发明的近似方法为将传播信号的最长序列设为4，在图6中，我们想要将两个16位整数相加。由于传播信号的最长序列为4，因此，s_i只能用从第i位开始的前5位的输入位来计算，即S₅由a₀～a₅,b₀～b₅计算，S₆由a₁～a₆,b₁～b₆计算，以此类推，S₁₅由a₁₀～a₁₅,b₁₀～b₁₅计算。共形成11个6位加法器，如图6所示。这种特殊的20位加法器的延迟实际上与6位加法器相同。通过这种近似方法减小了累加器的延迟，提高了速度。

累加器由近似加法器和D触发器组成，其中近似加法器为前述的近似进位加法，近似加法器的第一输入端连接输入信号(din)，其第二输入端连接D触发器的输出(sum_d)，其输出端连接D触发器的输入(dout)和输出信号(dout)；D触发器的输入端连接近似加法器的输出(dout),其输出端连接近似加法器的输入(sum_d)。

综上所述，本发明提出的用于图像卷积处理的高速低功耗近似乘累加运算器，由于卷积图像处理的特点，设计了8bit有符号数×8bit无符号数的累加器，避免了电路的资源浪费，减小延时，面积，功耗；在部分积生成阶段使用了近似基8-布斯编码器，减少了功耗和面积；在加法阶段使用近似算法，减少了进位的位数，从而减少了关键路径和延迟时间，提高了运算速度。

使用verilog语言设计了乘累加器的硬件设计，将该电路在DC中使用scc018ug_hd_rvt_ff_v1p98_-40c的库得到延迟，面积，功耗等各性能，如图7，其中无优化的MAC中，乘法器，加法器直接使用了*，+算数符号，由于乘法累加器要处理图像卷积，故无优化MAC为16bit*16bit的有符号数。优化的精确MAC为8bit有符号数×8bit无符号数，但是未使用近似算法。由图7可知本发明与未优化的MAC相比，延迟时间降低了44.29％，功耗降低了57.03％，面积减少了71.42％；与优化的精确MAC相比，延迟时间降低了6.02％，功耗降低了4.84％，面积减少了13.68％。

图像卷积处理的过程为，使用matlab处理图片，得到图片的像素，将图像的像素用近似累加器进行卷积处理，再将处理后的像素点，导入matlab,进行图像质量的评判。进行锐化卷积图像处理后的图片，如图8，其中灰度图片是未处理的原图，第二张图片为使用matlab自带的卷积处理后的图片，第三张图片为使用近似乘累加器处理后的图片。并且图像处理后的两张图片的峰值信噪比(PSNR)为11.0636。由此可见，使用该近似乘法累加器进行图像卷积处理后，图像的质量并未大幅度下降。

Claims

1.用于图像卷积处理的高速低功耗近似乘累加运算器，其特征在于，该高速低功耗近似乘累加运算器用于处理8bit有符号数×8bit无符号数，其中8bit无符号数用于处理图像像素，8bit有符号数用于处理卷积核，对于输入的有符号数，增加一位符号位，符号位的值为有符号数的第8位；

该高速低功耗近似乘累加运算器分为部分积产生模块、部分积压缩模块、进位加法模块、累加模块四个模块；

所述部分积产生模块为近似基8-布斯编码器，产生高度为3的部分积矩阵；

所述部分积压缩模块为3：2压缩机；

所述进位加法模块将16位的进位加法近似为4进位的加法；

所述累加器由加法器和D触发器组成，其中加法运算采用4进位的近似加法。

2.根据权利要求1所述的用于图像卷积处理的高速低功耗近似乘累加运算器，其特征在于：近似基8-布斯编码器由两个两输入的异或门、一个两输入的同或门、一个两输入的或门、一个三输入的或门、一个四输入的或门、5个两输入与门、4个三输入与门、2个四输入与门、一个三输入的与非门组成，并依次为：两输入的第一异或门、第二异或门，两输入的同或门，两输入的第一或门，三输入的第二或门，四输入的第三或门，两输入的第一与门、第二与门、第三与门、第四与门、第五与门，三输入的第六与门、第七与门、第八与门、第九与门，四输入的第十与门、第十一与门，三输入的与非门；

将乘数Y编码为4位一组，分别为y_3i+2、y_3i+1、y_3i、y_3i-1作为输入，被乘数的x_i、x_i-1、x_i-2作为输入，生成的部分积PP_ij为输出；

第一与非门的第一输入端连接第一输入信号y_3i+2，其第二输入端连接第二输入信号y_3i+1，其输出端连接第一与门的第一输入端；

第一同或门的第一输入端连接第三输入信号y_3i，其第二输入端连接第四输入信号y_3i-1，其输出端连接第一与门的第二输入端；

第二与门的第一输入端连接第一与门的输出端，其第二输入端连接第五输入信号x_i，其输出端连接第二或门的第一输入端；

第十与门的第一输入端连接第一输入信号y_3i+2，其第二输入端连接取反的第二输入信号y_3i+1，其第三输入端连接第三输入信号y_3i，其第四输入端连接第四输入信号y_3i-1，其输出端连接第三或门的第一输入端；

第十一与门的第一输入端连接取反的第一输入信号y_3i+2，其第二输入端连接第二输入信号y_3i+1，其第三输入端连接取反第三输入信号y_3i，其第四输入端连接第四输入信号y_3i-1，其输出端连接第三或门的第二输入端；

第六与门的第一输入端连接第二输入信号y_3i+1，其第二输入端连接取反的第三输入信号y_3i，其第三输入端连接取反的第三输入信号y_3i-1，其输出端连接第三或门的第三输入端；

第七与门的第一输入端连接取反的第二输入信号y_3i+1，其第二输入端连接第三输入信号y_3i，其第三输入端连接第四输入信号y_3i-1，其输出端连接第三或门的第四输入端；

第三与门的第一输入端连接第三或门的输出端，其第二输入端连接第六输入信号x_i-1，其输出端连接第二或门的第二输入端；

第八与门的第一输入端连接取反的第一输入信号y_3i+2，其第二输入端连接第二输入信号y_3i+1，其第三输入端连接第三输入信号y_3i，其输出端连接第一或门的第一输入端；

第九与门的第一输入端连接第一输入信号y_3i+2，其第二输入端连接取反的第二输入信号y_3i+1，其第三输入端连接取反的第三输入信号y_3i，其输出端连接第一或门的第二输入端；

第四与门的第一输入端连接第七输入信号x_i-2，其第二输入端连接第一或门的输出，其输出端连接第二或门的第三输入端；

与非门的第一输入端连接第二输入信号y_3i+1，其第二输入端连接第三输入信号y_3i，其第三输入端连接第四输入信号y_3i-1，其输出端连接第五与门的第一输入端；

第五与门的第一输入端连接与非门的输出端，其第二输入端连接第一输入信号y_3i+2，其输出端连接第二异或门的第二输入端；

第二异或门的第一输入端连接第二或门的输出端，其第二输入端连接第五与门的输出端，其输出端连接输出信号PP_ij。

3.根据权利要求1所述的用于图像卷积处理的高速低功耗近似乘累加运算器，特征在于：部分积压缩模块为3：2压缩机中，3:2压缩机由16个全加器构成，第一个全加器的第一个输入为部分积矩阵的第一行的第一位数据，第一个全加器的第二个输入为部分积矩阵的第二行的第一位数据，第一个全加器的第三个输入为部分积矩阵的第三行的第一位数据，以此类推，每一个全加器的第一个输入为第一行的数据，第二个输入为第二行的数据，第三个输入为第三行的数据，每一个全加器处理部分积的一列数据，全加器的两个输出组成高度为2的矩阵。

4.根据权利要求1所述的用于图像卷积处理的高速低功耗近似乘累加运算器，其特征在于：近似进位加法模块的近似进位加法中，二进制整数表示为A，B，整数A,B的位表示为a_i,b_i；为了将两个n位整数A和B相加，在每个位定义生成信号g_i、传播信号p_i和终止信号k_i,其中g_i等于a_i与b_i，p_i等于a_i异或b_i；k_i等于a_i或非b_i；

使用这些信号，产生每个位i的进位输出信号c_i，并用于计算每位的和s_i；c_i和s_i的递归式为：

当K_i等于1时，c_i等于0；当g_i等于1时，c_i等于1；当p_i等于1时，c_i等于c_i-1；

s_i等于a_i异或b_i异或c_i-1；

对于16位加法器，将其最长序列设为4，s_i用从第i位开始的前5位的输入位来计算；即S₅由a₀～a₅,b₀～b₅计算，S₆由a₁～a₆,b₁～b₆计算，直至，S₁₅由a₁₀～a₁₅,b₁₀～b₁₅计算；共形成11个6位加法器。

5.根据权利要求1所述的用于图像卷积处理的高速低功耗近似乘累加运算器，其特征在于：累加器模块由近似加法器和D触发器组成，其中近似加法器为权利要求4所述的近似进位加法，近似加法器的第一输入端连接输入信号din，其第二输入端连接D触发器的输出sum_d，其输出端连接D触发器的输入dout和输出信号dout；D触发器的输入端连接近似加法器的输出dout，其输出端连接近似加法器的输入sum_d。