[go: up one dir, main page]

CN110689113A - 一种基于大脑共识主动性的深度神经网络压缩方法 - Google Patents

一种基于大脑共识主动性的深度神经网络压缩方法 Download PDF

Info

Publication number
CN110689113A
CN110689113A CN201910885350.3A CN201910885350A CN110689113A CN 110689113 A CN110689113 A CN 110689113A CN 201910885350 A CN201910885350 A CN 201910885350A CN 110689113 A CN110689113 A CN 110689113A
Authority
CN
China
Prior art keywords
channel
neural network
channels
deep neural
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910885350.3A
Other languages
English (en)
Inventor
申世博
李荣鹏
张宏纲
赵志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910885350.3A priority Critical patent/CN110689113A/zh
Publication of CN110689113A publication Critical patent/CN110689113A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于大脑共识主动性的深度神经网络压缩方法,该方法在每一次神经网络训练的前向过程中,在卷积层中逐层地筛选部分重要的通道,而将其它通道的激活值置零。这样,在误差的反向传播过程中,生成这些不重要的通道的卷积核的梯度值为零,因此不会被更新或训练。同时,将通道效用的更新过程嵌入于误差的反向传播当中,并且通过“共识主动”方法来增强它们之间的联系。每一次网络的迭代更新,都是有选择地“训练”了那些有效通道对应的卷积核,因此,当训练结束的时候,保留具有高通道效用的通道,从而实现通道剪枝和深度神经网络压缩。该方法大大简化了现有深度神经网络压缩方法的一般流程,具有很高的效率。

Description

一种基于大脑共识主动性的深度神经网络压缩方法
技术领域
本发明涉及人工智能和神经网络计算领域,更具体地,涉及一种基于大脑共识主动性的深度神经网络压缩方法。
背景技术
这些年来,深度神经网络的发展引发了人工智能领域的巨大变革。一般认为,深度神经网络的性能取决于其深度。然而,很深的神经网络往往会带来计算量和存储量的巨大开销。为了让深度神经网络可以应用于一些低功率设备,比如手机当中,降低其复杂度是很有必要的。在许多模型压缩算法中,通道剪枝是一种特别针对于深度神经网络的卷积层设计的压缩算法。
通道剪枝指的是对深度神经网络的卷积层的通道进行裁剪的模型压缩算法。通过不同的策略或者方法,筛选出对于输入图像表达性能最好的若干通道,并将剩余通道裁减掉,以实现深度神经网络模型的压缩。一般的通道剪枝算法包括三个基本步骤:训练好一个冗余的神经网络;根据某种规则对它进行裁剪;再训练裁剪后的神经网络,来恢复模型性能。这个过程是十分冗余的,并且目前的通道剪枝算法关注的都是各个通道自身的显著性或者重要性,从而忽略了它们之间的内在联系。
发明内容
针对现有技术存在的问题,本发明提出了一种基于大脑共识主动性的深度神经网络压缩方法,同时进行深度神经网络训练和剪枝的模型压缩方法,通过共识主动性从一层的所有通道当中选择出协同性最好,表达性最强的若干个通道,剪除其余通道,从而实现网络压缩。
本发明是通过如下技术方案实现的:一种基于大脑共识主动性的深度神经网络压缩方法,具体包括以下步骤:
(1)在深度神经网络训练的每一次前向过程中,对于每一层的通道,按照初始化通道效用值
Figure BDA0002207145580000011
由高到低对通道进行排列,再根据设定的剪枝率,保留该剪枝率下的通道效用值对应的通道激活值,并将该层其余通道的通道激活值置零。所述
Figure BDA0002207145580000024
为每一层神经网络的通道在深度神经网络训练过程中对于深度神经网络误差重要程度的长期评价值,其中l表示层的索引,k表示该层的通道索引。
(2)在深度神经网络训练的反向传播过程中,确定规范化显著性评价具体为:
(2.1)在深度神经网络训练的反向传播过程中,将各个通道中所有通道激活值和梯度相乘,累加求平均,确定各个通道的显著性评价
Figure BDA0002207145580000026
Figure BDA0002207145580000021
其中,J表示网络的误差函数;
Figure BDA0002207145580000027
表示第l层,第k个通道,第m个激活值;M为第l层一个通道的所有激活值的个数。
(2.2)对通道的显著性评价通过L2范数规范化处理,得到规范化显著性评价
Figure BDA0002207145580000029
为:
Figure BDA0002207145580000022
其中,
Figure BDA00022071455800000210
的取值范围在0到1之间。
(3)通过共识主动性算法,融合不同通道之间的规范化显著性评价,考量不同通道之间的相互作用。
(3.1)通过计算两通道之间规范化显著性评价
Figure BDA00022071455800000211
Figure BDA00022071455800000212
的乘积,再按照迭代次数求平均,获得该两通道之间的相关性
Figure BDA00022071455800000213
Figure BDA0002207145580000023
其中,
Figure BDA00022071455800000214
表示第l层,第i个通道和第j个通道之间的相关性,取值范围0~1,为两通道参与深度神经网络训练的迭代次数。
(3.2)将同层其它通道的
Figure BDA00022071455800000216
和(3.1)计算的相关性
Figure BDA00022071455800000217
相乘、求和到当前通道当中,得到融合显著性评价值
Figure BDA0002207145580000033
Figure BDA0002207145580000031
(3.3)将
Figure BDA0002207145580000034
通过移动平均的策略累加到步骤1所述初始通道效用值
Figure BDA0002207145580000035
中:
Figure BDA0002207145580000032
其中,λ表示衰减因子,取值范围在0到1之间,n为通道参与深度神经网络的迭代次数。
(4)循环进行步骤3,更新所有通道的通道效用值直至深度神经网络收敛。
(5)当深度神经网络收敛之后,根据通道效用值
Figure BDA0002207145580000037
逐层将通道进行排列,根据预先设定的剪枝率,剪除该剪枝率下通道效用值对应的通道及生成它们的卷积核,实现模型压缩和加速。
与现有技术相比,本发明具有如下有益效果:在深度神经网络训练的过程中,有选择性的标识和训练那些对于输入图像表达能力强的通道,将深度神经网络的学习过程和剪枝过程结合,大大简化了传统神经网络剪枝算法的流程,提高了压缩算法的效率;通过引入大脑中神经元之间的共识主动现象,考虑了神经网络同一层神经元之间的内在联系,使得剪枝之后的神经网络同样具有很高的准确性,性能超过了现有的算法。该压缩方法具有实现简单,效率高,压缩后的模型准确率高的特点。
附图说明
图1为本发明方法的流程图。
具体实施方式
如图1所示,为本发明一种基于大脑共识主动性的深度神经网络压缩方法,具体包括以下步骤:
(1)通道效用为每一层神经网络的通道在深度神经网络训练过程中对于深度神经网络误差重要程度的长期评价值,其中,l表示层的索引,k表示该层的通道索引。那些具有很高的通道效用值的通道对于神经网络模型来说是比较重要的,如果剪除它们,会对训练误差造成比较大的影响,从而降低模型性能。因此在深度神经网络训练的每一次前向过程中,对于每一层的通道,按照初始化通道效用值
Figure BDA0002207145580000044
的高低对通道进行排列,再根据设定的剪枝率,保留该剪枝率下的通道效用值对应的通道激活值,并将该层其余通道的通道激活值置零。所述剪枝率为要剪除的通道占全部通道的比例,它的取值范围是0到1之间,综合考虑深度神经网络的性能损失和压缩收益来确定。
(2)在深度神经网络训练的反向传播过程中,得到规范化显著性评价
Figure BDA0002207145580000045
具体为:
(2.1)在深度神经网络训练的反向传播过程中,将各个通道中所有通道激活值和梯度相乘,累加求平均,确定各个通道的显著性评价
Figure BDA0002207145580000046
Figure BDA0002207145580000041
其中,J表示网络的误差函数;
Figure BDA0002207145580000047
表示第l层,第k个通道,第m个激活值;M为第l层一个通道的所有激活值的个数。
(2.2)对通道的显著性评价
Figure BDA0002207145580000048
通过L2范数规范化处理,得到规范化显著性评价
Figure BDA0002207145580000049
为:
Figure BDA0002207145580000042
其中,的取值范围在0到1之间。
(3)通过共识主动性算法,融合不同通道之间的规范化显著性评价,考量不同通道之间的相互作用,可以实现协同选取有效通道的效果,有利于提高压缩后的神经网络的准确性。
(3.1)通过计算两通道之间规范化显著性评价
Figure BDA00022071455800000411
Figure BDA00022071455800000412
的乘积,再按照迭代次数求平均,获得该两通道之间的相关性
Figure BDA00022071455800000413
Figure BDA0002207145580000043
其中,表示第l层,第i个通道和第j个通道之间的相关性,取值范围0~1,
Figure BDA0002207145580000054
为两通道参与深度神经网络训练的迭代次数。
(3.2)将同层其它通道的
Figure BDA0002207145580000055
和(3.1)计算的相关性
Figure BDA0002207145580000056
相乘、求和到当前通道当中,得到融合显著性评价值
Figure BDA0002207145580000057
Figure BDA0002207145580000051
融合后的显著性评价值
Figure BDA0002207145580000058
考虑了同层其它通道对于当前通道的影响,是共识主动性算法的核心。
(3.3)将
Figure BDA0002207145580000059
通过移动平均的策略累加到步骤1所述初始通道效用值
Figure BDA00022071455800000510
中:
Figure BDA0002207145580000052
其中,λ表示衰减因子,取值范围在0到1之间,n为通道参与深度神经网络的迭代次数。衰减因子的作用在于,对于每一个通道效用值,都会随着迭代次数的增加而不断衰减;在一次如(3.3)的更新过程中,如果某通道的通道效用值的增加量(公式(5)的最后一项)小于其衰减量(衰减因子导致),该通道效用值会降低,那么在进行下一次训练迭代(如步骤1)的过程中,该通道可能不会参与训练(激活值被置零),从而实现通道“筛选”的作用。
(4)循环进行步骤3,更新所有通道的通道效用值
Figure BDA00022071455800000511
进而不断地进行有效通道的选择,直到深度神经网络收敛。
(5)当深度神经网络收敛之后,根据通道效用值逐层将通道进行排列,根据预先设定的剪枝率,剪除该剪枝率下通道效用值对应的通道及生成它们的卷积核,实现模型压缩和加速。该方法在深度神经网络训练的过程中,不断计算和更新每个通道的通道效用值,即在神经网络的训练过程中就获得了网络剪枝依赖的标准。这样,在神经网络训练结束之际就直接可以进行网络剪枝,大大简化了一般剪枝方法的流程,具有很高的效率。
实施例
下面给出该方法的一个实施例。以压缩VGG-16深度神经网络为例,它包含有13个卷积层,各个层的通道数量分别为[64,64,128,128,256,256,256,512,512,512,512,512,512]。
1.给定输入数据集或输入图片z0;每一层的剪枝率{pl←0.5,1≤l≤13}即每一层压缩一半的通道;初始化模型{convl,1≤l≤13};衰减常数λ←0.8和训练的最大迭代次数lmax。由于本方法旨在压缩深度神经网络中的卷积层参数,记号“conv”仅表示卷积层。
2.初始化神经网络训练的迭代次数i←0,每一层的通道效用值{ul←0,1≤l≤13},每一层的相关性矩阵{Rl←0,1≤l≤13}。
3.当迭代次数i小于最大迭代步数Imax的时候,该方法进行神经网络的训练。在执行一次神经网络的前向过程中,具体地,逐层地进行以下步骤:
(3.1)计算得到每一层的输出通道激活值zl←convl(zl-1)。
(3.2)初始化一个二值化掩模ml←0,该掩模的作用是指示被选择的通道。
(3.3)首先,将ul进行从高到低的顺序排列。对于当前层的所有输出通道(用Cl表示其数量),该方法保留最高通道效用对应的Cl(1-pl)=0.5Cl个通道的激活值,具体的,将这些通道对应位置的掩模值置1即
Figure BDA0002207145580000061
(3.4)将通道掩模和通道激活值按通道相乘zl←zl·ml,结果输入到下一层。
4.计算最终神经网络输出的误差J。
5.执行神经网络的一次反向传播过程,具体地,逐层进行以下步骤。
(5.1)计算得到每一层通道的通道梯度
Figure BDA0002207145580000062
(5.2)计算由公式(1)和公式(2)描述的显著性评价并规范化。
(5.3)计算和更新公式(3)出现的计数器:如果
Figure BDA0002207145580000063
否则保持不变。
(5.4)根据公式(3)更新相关矩阵Rl
(5.5)使用公式(4)更新通道的重要性评估θl←Rlθl
(5.6)更新公式(5)中描述的通道效用ul←λul+(1-λ)θl
6.当达到最大训练步长或者神经网络收敛之后,根据每一层的通道效用ul,逐层剪枝小的一半(每一层的剪枝率为0.5)通道效用对应的通道和生成该通道的卷积核。再把剩余的参数拷贝到一个更紧致的模型当中,这样就实现了神经网络的训练和剪枝。
下表给出该方法在不同剪枝率(或称压缩率)的情况下,能达到的准确率及和其它方法的对比。如表格所示,在浮点运算数即FLOPs压缩35%左右时,该方法仍可以达到93.78%的准确性,这个结果超过了一般的基于范数剪枝方法;当压缩率达到49.6%的时候,该方法仍可以维持93.68%的准确性,同样超过了结构化贝叶斯剪枝方法,后者只有92.50%;当压缩率达到75.2%,该方法只有1.28%的准确率损失即可以达到92.72%的压缩后神经网络的识别准确性。因此,本发明压缩方法可以直接将一个冗余的、无智能的神经网络转化为一个紧致的、表达能力丰富的神经网络。
不同方法的准确率比较
Figure BDA0002207145580000071

Claims (1)

1.一种基于大脑共识主动性的深度神经网络压缩方法,其特征在于,具体包括以下步骤:
(1)在深度神经网络训练的每一次前向过程中,对于每一层的通道,按照初始化通道效用值
Figure FDA0002207145570000011
由高到低对通道进行排列,再根据设定的剪枝率,保留该剪枝率下的通道效用值对应的通道激活值,并将该层其余通道的通道激活值置零。所述
Figure FDA0002207145570000012
为每一层神经网络的通道在深度神经网络训练过程中对于深度神经网络误差重要程度的长期评价值,其中l表示层的索引,k表示该层的通道索引。
(2)在深度神经网络训练的反向传播过程中,确定规范化显著性评价
Figure FDA0002207145570000013
具体为:
(2.1)在深度神经网络训练的反向传播过程中,将各个通道中所有通道激活值和梯度相乘,累加求平均,确定各个通道的显著性评价
Figure FDA0002207145570000014
Figure FDA0002207145570000015
其中,J表示网络的误差函数;
Figure FDA0002207145570000016
表示第l层,第k个通道,第m个激活值;M为第l层一个通道的所有激活值的个数。
(2.2)对通道的显著性评价通过L2范数规范化处理,得到规范化显著性评价
Figure FDA0002207145570000018
为:
Figure FDA0002207145570000019
其中,的取值范围在0到1之间。
(3)通过共识主动性算法,融合不同通道之间的规范化显著性评价,考量不同通道之间的相互作用。
(3.1)通过计算两通道之间规范化显著性评价
Figure FDA00022071455700000111
Figure FDA00022071455700000112
的乘积,再按照迭代次数求平均,获得该两通道之间的相关性
Figure FDA00022071455700000113
Figure FDA0002207145570000021
其中,表示第l层,第i个通道和第j个通道之间的相关性,取值范围0~1,
Figure FDA0002207145570000023
为两通道参与深度神经网络训练的迭代次数。
(3.2)将同层其它通道的
Figure FDA0002207145570000024
和(3.1)计算的相关性
Figure FDA0002207145570000025
相乘、求和到当前通道当中,得到融合显著性评价值
(3.3)将
Figure FDA0002207145570000028
通过移动平均的策略累加到步骤1所述初始通道效用值
Figure FDA0002207145570000029
中:
Figure FDA00022071455700000210
其中,λ表示衰减因子,取值范围在0到1之间,n为通道参与深度神经网络的迭代次数。
(4)循环进行步骤3,更新所有通道的通道效用值
Figure FDA00022071455700000211
直至深度神经网络收敛。
(5)当深度神经网络收敛之后,根据通道效用值
Figure FDA00022071455700000212
逐层将通道进行排列,根据预先设定的剪枝率,剪除该剪枝率下通道效用值对应的通道及生成它们的卷积核,实现模型压缩和加速。
CN201910885350.3A 2019-09-19 2019-09-19 一种基于大脑共识主动性的深度神经网络压缩方法 Pending CN110689113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910885350.3A CN110689113A (zh) 2019-09-19 2019-09-19 一种基于大脑共识主动性的深度神经网络压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910885350.3A CN110689113A (zh) 2019-09-19 2019-09-19 一种基于大脑共识主动性的深度神经网络压缩方法

Publications (1)

Publication Number Publication Date
CN110689113A true CN110689113A (zh) 2020-01-14

Family

ID=69109619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910885350.3A Pending CN110689113A (zh) 2019-09-19 2019-09-19 一种基于大脑共识主动性的深度神经网络压缩方法

Country Status (1)

Country Link
CN (1) CN110689113A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931914A (zh) * 2020-08-10 2020-11-13 北京计算机技术及应用研究所 一种基于模型微调的卷积神经网络通道剪枝方法
CN113283473A (zh) * 2021-04-20 2021-08-20 中国海洋大学 一种基于cnn特征映射剪枝的快速水下目标识别方法
WO2021164752A1 (zh) * 2020-02-21 2021-08-26 华为技术有限公司 一种神经网络通道参数的搜索方法及相关设备
WO2022022625A1 (zh) * 2020-07-29 2022-02-03 北京智行者科技有限公司 深度学习模型的加速方法及装置
WO2022178908A1 (zh) * 2021-02-26 2022-09-01 中国科学院深圳先进技术研究院 神经网络的剪枝方法及其剪枝装置、存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164752A1 (zh) * 2020-02-21 2021-08-26 华为技术有限公司 一种神经网络通道参数的搜索方法及相关设备
WO2022022625A1 (zh) * 2020-07-29 2022-02-03 北京智行者科技有限公司 深度学习模型的加速方法及装置
CN111931914A (zh) * 2020-08-10 2020-11-13 北京计算机技术及应用研究所 一种基于模型微调的卷积神经网络通道剪枝方法
WO2022178908A1 (zh) * 2021-02-26 2022-09-01 中国科学院深圳先进技术研究院 神经网络的剪枝方法及其剪枝装置、存储介质
CN113283473A (zh) * 2021-04-20 2021-08-20 中国海洋大学 一种基于cnn特征映射剪枝的快速水下目标识别方法
CN113283473B (zh) * 2021-04-20 2023-10-13 中国海洋大学 一种基于cnn特征映射剪枝的快速水下目标识别方法

Similar Documents

Publication Publication Date Title
CN110689113A (zh) 一种基于大脑共识主动性的深度神经网络压缩方法
CN107680611B (zh) 基于卷积神经网络的单通道声音分离方法
CN109524020B (zh) 一种语音增强处理方法
CN110874631A (zh) 一种基于特征图稀疏化的卷积神经网络剪枝方法
CN112331224B (zh) 轻量级时域卷积网络语音增强方法与系统
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN111243579B (zh) 一种时域单通道多说话人语音识别方法与系统
CN108764472A (zh) 卷积神经网络分数阶误差反向传播方法
CN111461322A (zh) 一种深度神经网络模型压缩方法
CN111062382A (zh) 用于目标检测网络的通道剪枝方法
CN101819782A (zh) 一种变步长自适应盲源分离方法及盲源分离系统
CN110377711B (zh) 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN112598129A (zh) 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架
CN113837940A (zh) 基于密集残差网络的图像超分辨率重建方法及系统
CN111401523A (zh) 一种基于网络层剪枝的深度学习网络模型压缩方法
CN110619887A (zh) 一种基于卷积神经网络的多说话人语音分离方法
CN116992941A (zh) 基于特征相似与特征补偿的卷积神经网络剪枝方法及装置
CN111079615A (zh) 一种基于莱维飞行细菌觅食进化的盲源分离方法
CN110555518A (zh) 一种基于feature map重要性得分的通道剪枝方法及系统
CN101710988B (zh) 应用于图像压缩的图像矢量量化的邻域粒子对优化方法
Cho et al. Espn: Extremely sparse pruned networks
WO2020087254A1 (zh) 卷积神经网络的优化方法及相关产品
CN118036672A (zh) 一种基于泰勒展开动量修正的神经网络优化方法
CN113408602A (zh) 一种树突神经网络初始化方法
CN113947203A (zh) 一种面向智能汽车车载平台的yolov3模型剪枝方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114

RJ01 Rejection of invention patent application after publication