CN112163601B - 图像分类方法、系统、计算机设备及存储介质 - Google Patents
图像分类方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112163601B CN112163601B CN202010959142.6A CN202010959142A CN112163601B CN 112163601 B CN112163601 B CN 112163601B CN 202010959142 A CN202010959142 A CN 202010959142A CN 112163601 B CN112163601 B CN 112163601B
- Authority
- CN
- China
- Prior art keywords
- image classification
- network
- image
- channel
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 238000011478 gradient descent method Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 16
- 230000007774 longterm Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013526 transfer learning Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000001419 dependent effect Effects 0.000 abstract 1
- 238000005457 optimization Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 210000002798 bone marrow cell Anatomy 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图像分类方法、系统、计算机设备及存储介质,所述方法包括:构造高效全局上下文模块;搭建图像分类网络,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块;获取训练集,所述训练集包括多张训练图像;利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型;获取待分类图像;将待分类图像输入图像分类模型中,得到分类预测结果。本发明通过在残差网络中插入高效全局上下文模块,以搭建图像分类网络,有效地捕获全局信息以及通道依赖信息,提高了图像分类网络的分类识别能力,达到更好的图像分类效果。
Description
技术领域
本发明涉及一种图像分类方法、系统、计算机设备及存储介质,属于图像识别分类领域。
背景技术
随着深度学习的发展,卷积神经网络被广泛应用在各种计算机视觉的任务中,如图像分类、图像分割、目标检测。在图像分类任务中,现有的被广泛使用的卷积神经网络如ResNet,能达到较好的分类效果。但由于卷积层只能建模局部邻域内的像素关系,网络捕获长期依赖关系的能力有限,同时网络不能很好地学习到通道注意力,在分类任务上仍有改进空间,尤其是在一些分类目标占据图像大部分区域的任务上。
要达到更好的分类效果,模型必须具备建立距离遥远的任意两点之间的依赖关系的能力,即能有效提取视觉场景的全局理解。同时,有效学习通道注意力也有助于网络性能的提高。现有的工作中,部分模型通过选择一个较大的卷积核或者重复应用卷积层,达到扩大感受野的效果,从而增强对全局信息的理解。然而,这存在着计算效率低的局限性。部分工作通过构造能够有效建模长期依赖关系的模块,来提高网络的识别能力,但存在着计算量冗余的问题。在建模通道注意力方法上,同样也存在着冗余的计算量与低效的通道依赖捕获能力的问题。
性能与速度是卷积神经网络应用中的两个矛盾方面,部分模型虽然能够获得更好的分类性能,但并不适合实际场景的应用。尤其是部署到资源有限的嵌入式系统上时,可能会出现响应时间长,计算速度慢等问题。
发明内容
有鉴于此,本发明提供了一种图像分类方法、系统、计算机设备及存储介质,其通过在残差网络中插入高效全局上下文模块,以搭建图像分类网络,有效地捕获全局信息以及通道依赖信息,提高了图像分类网络的分类识别能力,达到更好的图像分类效果。
本发明的第一个目的在于提供一种图像分类方法。
本发明的第二个目的在于提供一种图像分类系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种图像分类方法,所述方法包括:
构造高效全局上下文模块;
搭建图像分类网络;其中,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块;
获取训练集;其中,所述训练集包括多张训练图像;
利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型;
获取待分类图像;
将待分类图像输入图像分类模型中,得到分类预测结果。
进一步的,所述高效全局上下文模块包括上下文建模部分、特征变换部分和特征聚合部分;
所述上下文建模部分,用于捕获与查询位置无关的长期依赖关系;
所述特征变换部分,用于采用多样化有效通道注意力模块,使用不同空洞卷积率的一维空洞卷积层,通过门控机制随机选择不同范围的局部邻域,以直接的方式建模每个通道与多种不同范围的局部邻域内的多个相邻通道的依赖关系;
所述特征聚合部分,用于将特征变换部分输出的通道特征与原始特征在通道维度上进行相乘,得到高效全局上下文模块最终的输出。
进一步的,所述捕获与查询位置无关的长期依赖关系,具体包括:
将输入上下文建模部分的特征图分别送到两路,第一路经过第一下采样器实现特征降维,得到第一路的输出;第二路先经过一个卷积层对特征进行变换,然后经过第二下采样器进行下采样,再经过Softmax层运算之后得到第二路的输出;将两路输出的结果进行矩阵相乘,得到上下文建模部分的输出。
进一步的,所述门控机制是指根据随机概率从不同空洞率的一维空洞卷积层中选择其中一个,所述随机概率是(0,1]区间内均匀分布生成的随机数,根据随机概率选择索引号为index的一维空洞卷积层,如下式:
其中,P表示随机概率。
进一步的,所述残差网络包括五个卷积层组、一个全局池化层、一个全连接层与一个softmax层,五个卷积层组分别第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组,四个高效全局上下文模块分别插在第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组之后。
进一步的,所述利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型,具体包括:
运用迁移学习原理,在残差网络除全连接层外的结构中导入ImageNet上的预训练模型,并随机初始化全连接层和高效全局上下文模块中的参数权值;
设置网络参数和训练参数;
加载训练集,对训练集中的训练图像进行预处理;
将预处理的训练图像输入图像分类网络中,输出一个分类置信度,使用交叉熵损失函数进行损失计算,经过梯度反传,更新网络参数,使损失逐渐减小直至收敛,得到图像分类模型。
进一步的,所述将待分类图像输入图像分类模型中,得到分类预测结果,具体包括:
对待分类图像进行预处理;
将预处理后的待分类图像送入图像分类模型进行计算,得到对应的各个类别的分类置信度;
将分类置信度最高的类别作为待分类图像的预测类别。
本发明的第二个目的可以通过采取如下技术方案达到:
一种图像分类系统,所述系统包括:
构造单元,用于构造高效全局上下文模块;
搭建单元,用于搭建图像分类网络;其中,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块;
第一获取单元,用于获取训练集;其中,所述训练集包括多张训练图像;
训练单元,用于利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型;
第二获取单元,用于获取待分类图像;
预测单元,用于将待分类图像输入图像分类模型中,得到分类预测结果。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的图像分类方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的图像分类方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明构造了高效全局上下文模块,高效全局上下文模块是一个轻量级的、灵活的模块,可自由插入到卷积神经网络的任意位置,在残差网络的基础上插入高效全局上下文模块,以搭建图像分类网络,旨在有效建立全局理解,建模通道注意力,该图像分类网络在略微提高参数量的基础上,获得了比残差网络更好的分类效果。
2、本发明构造的高效全局上下文模块,旨在有效捕获长期依赖,同时直接有效地建模通道间的注意力,图像的长期依赖关系与通道间注意力对图像分类均是有效的,长期依赖关系能增强对图像全局信息的理解,通道间的注意力有助于增强卷积神经网络的性能。
3、本发明构造的高效全局上下文模块包括上下文建模部分、特征变换部分和特征聚合部分,在上下文建模的部分中,采用了下采样的方式,达到了在计算量降低的情况下,性能基本不变的效果,在通道注意力建模的部分中,采用了直接建模的方式,同时采用了多个不同的空洞卷积随机选择的机制,实现更有效的通道建模,这一部分也有较低的参数量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的图像分类方法的流程图。
图2为本发明实施例1的高效全局上下文模块的示意图。
图3为本发明实施例1的多样化有效通道注意力模块的结构示意图。
图4为本发明实施例1的多样化有效通道注意力模块的空洞卷积示意图。
图5为本发明实施例1的图像分类网络的结构示意图。
图6为本发明实施例2的图像分类系统的结构框图。
图7为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种图像分类方法,该方法包括以下步骤:
S101、构造高效全局上下文(Efficient Global Context,简称EGC)模块。
本实施例构造的高效全局上下文模块如图2所示,是一个即插即用的轻量级的模块,包括上下文建模部分、特征变换部分和特征聚合部分,各个部分的具体说明如下:
上下文建模部分,用于捕获与查询位置无关的长期依赖关系,具体为:将输入上下文建模部分的尺寸为C*H*W的特征图分别送到两路,第一路经过第一下采样器Samplerv实现特征降维,得到第一路的输出,输出尺寸为的特征;第二路先经过一个卷积层对特征进行变换,然后经过第二下采样器Samplerk进行下采样,输出尺寸为H*W*1的特征,再经过Softmax层运算之后得到第二路的输出,输出尺寸为/>的特征;将两路输出的结果进行矩阵相乘,得到上下文建模部分的输出,输出尺寸为C*1*1的特征;其中,第一下采样器和第二下采样器均采用全局平均池化,目的在于降低高效全局上下文模块的计算量。
特征变换部分,用于采用多样化有效通道注意力(Diversity EffectiveChannels Attention,简称DECA)模块,多样化有效通道注意力模块的结构如图3所示,使用不同空洞卷积率的一维空洞卷积层,通过门控机制随机选择不同范围的局部邻域,以直接的方式建模每个通道与多种不同范围的局部邻域内的多个相邻通道的依赖关系,实现更高效的通道建模,具体地,上下文建模部分输出的C*1*1的特征,送到空洞卷积层组,在这个空洞卷积层组中,采用了四种不同空洞率的一维空洞卷积层,不同空洞率的一维空洞卷积层如图4所示,可见空洞率越大,感受野也越大,采用空洞卷积能扩大感受野。为了保持模型复杂度尽可能低,在多样化有效通道注意力模块中增加一个门控机制,这个门控机制是根据随机概率从四个不同空洞率的空洞卷积层中选择其中一个,保证增加局部邻域的多样化的同时,还能有助于提高模型的鲁棒性。
随机概率是(0,1]区间内均匀分布生成的随机数,根据随机概率选择索引号为index的一维空洞卷积层,如下式:
其中,P表示随机概率。
特征聚合部分,将特征变换部分输出的通道特征与原始特征在通道维度上进行相乘,得到高效全局上下文模块最终的输出。
S102、搭建图像分类网络。
本实施例搭建的图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块,该图像分类网络能够有效建立全局理解与利用通道间信息关系。
进一步地,残差网络采用ResNet-50结构,ResNet-50的输入尺寸为3*224*224,其包括五个卷积层组、一个全局池化层、一个全连接层与一个softmax层,五个卷积层组分别为第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组,四个高效全局上下文模块分别插在第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组之后。
S103、获取训练集。
本实施例先获取具有多张图像的数据集,采用分层采样的方式对数据集进行划分,随机从每一类数据中选出80%的图像组成训练集,其余20%的图片作为测试集,目的在于尽可能使训练集与测试集保持相同的分布,训练集中的图像为训练图像,测试集中的图像为测试图像。
S104、利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型。
进一步地,该步骤S104的具体步骤包括:
(1)网络初始化:运用迁移学习原理,在残差网络除全连接层外的结构中导入ImageNet上的预训练模型,并随机初始化全连接层和高效全局上下文模块中的参数权值。
(2)设置网络参数:对图像分类网络中的一些超参数进行设置,参数经过多次实验得到,在第二个与第三个卷积层组后的高效全局上下文模块中,设置特征变换部分中的下采样比率为2,第四个与第五个卷积层组后的为1;在每一个高效全局上下文模块的多样化有效通道注意力模块中,设置四个不同空洞卷积率的一维空洞卷积层,分别为1、2、3和4,采用随机门控机制进行选择,每一个一维空洞卷积层的卷积核大小通过自适应定义。
(3)设置训练参数:采用随机梯度下降法优化,权重衰减系数为1e-4,动量为0.9,最小批处理数据为64,初始学习率设置为1e-3,并采用固定步长衰减方式,每两个epoch衰减为原来的0.85。
(4)加载训练集,对训练集中的训练图像进行预处理:首先加载训练集,对训练集中的训练图像进行预处理,将输入图像大小随机裁剪为224*224,之后通过随机垂直翻转、随机旋转、颜色抖动三种方式进行在线数据增强,在一定程度上缓解图像分类网络过拟合的问题。
(5)对输入图像分类网络进行训练:将预处理的训练图像输入图像分类网络中,输出一个分类置信度,使用交叉熵损失函数进行损失计算,经过梯度反传,更新网络参数,使损失逐渐减小直至收敛,得到一个较佳的图像分类模型。
S105、获取待分类图像。
S106、将待分类图像输入图像分类模型中,得到分类预测结果。
本实施例将步骤S103所划分的测试图像作为待分类图像,因此步骤S105~S106的具体步骤如下:
(1)读取测试图像并对测试图像进行预处理,在测试过程中预处理仅仅将图像尺寸变换为224*224,而不进行任何数据增强操作。
(2)将预处理后的测试图像送入图像分类模型进行计算,得到每张测试图像对应的各个类别的分类置信度。
(3)将分类置信度最高的类别作为待分类图像的预测类别,完成预测任务。
本实施例的图像分类方法可以应用于骨髓细胞分类,在骨髓细胞分类的数据库上达到了75.49%的准确率,基于高效全局上下文模块的图像分类网络较ResNet-50有2.88%的准确率提升,基于高效全局上下文模块的图像分类网络参数量为22.611M,仅仅比ResNet-50的22.446M参数量增加了0.165M,基于深度学习的骨髓细胞分类有助于辅助医生对疾病的诊断,在骨髓细胞分类数据集上能得到更高的准确率,但仅仅增加了少量的参数量。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读取存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图6所示,本实施例提供了一种图像分类系统,该系统包括构造单元601、第一搭建单元602、第一获取单元603、训练单元604、第二获取单元605和预测单元606,各个单元的具体功能如下:
构造单元601,用于构造高效全局上下文模块。
搭建单元602,用于搭建图像分类网络;其中,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块。
第一获取单元603,用于获取训练集;其中,所述训练集包括多张训练图像。
训练单元604,用于利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型。
第二获取单元605,用于获取待分类图像。
预测单元606,用于将待分类图像输入图像分类模型中,得到分类预测结果。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的系统仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配给不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
如图7所示,本实施例提供了一种计算机设备,该计算机设备可以是服务器、计算机等,包括通过系统总线701连接的处理器702、存储器、输入装置703、显示器704和网络接口705;其中,处理器702用于提供计算和控制能力,存储器包括非易失性存储介质706和内存储器707,该非易失性存储介质506存储有操作系统、计算机程序和数据库,该内存储器707为非易失性存储介质706中的操作系统和计算机程序的运行提供环境,计算机程序被处理器702执行时,实现上述实施例1的图像分类方法,如下:
构造高效全局上下文模块;
搭建图像分类网络;其中,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块;
获取训练集;其中,所述训练集包括多张训练图像;
利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型;
获取待分类图像;
将待分类图像输入图像分类模型中,得到分类预测结果。
实施例4:
本实施例提供一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的图像分类方法,如下:
构造高效全局上下文模块;
搭建图像分类网络;其中,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块;
获取训练集;其中,所述训练集包括多张训练图像;
利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型;
获取待分类图像;
将待分类图像输入图像分类模型中,得到分类预测结果。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
综上所述,本发明构造了高效全局上下文模块,并在残差网络的基础上插入高效全局上下文模块,以搭建图像分类网络,该图像分类网络的主干模型的多个卷积层组结构后都插入高效全局上下文模块,高效全局上下文模块采用少量的参数量和计算量捕获长期依赖关系,并通过门控机制随机选择不同范围的局部邻域学习跨通道注意力,将长期依赖信息与跨通道注意力信息有效结合起来,达到了提高图像分类网络识别性能的效果。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (8)
1.一种图像分类方法,其特征在于,所述方法包括:
构造高效全局上下文模块;
搭建图像分类网络;其中,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块;
获取训练集;其中,所述训练集包括多张训练图像;
利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型;
获取待分类图像;
将待分类图像输入图像分类模型中,得到分类预测结果;
所述高效全局上下文模块包括上下文建模部分、特征变换部分和特征聚合部分;
所述上下文建模部分,用于捕获与查询位置无关的长期依赖关系;
所述特征变换部分,用于采用多样化有效通道注意力模块,使用不同空洞卷积率的一维空洞卷积层,通过门控机制随机选择不同范围的局部邻域,以直接的方式建模每个通道与多种不同范围的局部邻域内的多个相邻通道的依赖关系;
所述特征聚合部分,用于将特征变换部分输出的通道特征与原始特征在通道维度上进行相乘,得到高效全局上下文模块最终的输出;
所述捕获与查询位置无关的长期依赖关系,具体包括:
将输入上下文建模部分的特征图分别送到两路,第一路经过第一下采样器实现特征降维,得到第一路的输出;第二路先经过一个卷积层对特征进行变换,然后经过第二下采样器进行下采样,再经过Softmax层运算之后得到第二路的输出;将两路输出的结果进行矩阵相乘,得到上下文建模部分的输出。
2.根据权利要求1所述的图像分类方法,其特征在于,所述门控机制是指根据随机概率从不同空洞率的一维空洞卷积层中选择其中一个,所述随机概率是(0,1]区间内均匀分布生成的随机数,根据随机概率选择索引号为index的一维空洞卷积层,如下式:
其中,P表示随机概率。
3.根据权利要求1-2任一项所述的图像分类方法,其特征在于,所述残差网络包括五个卷积层组、一个全局池化层、一个全连接层与一个softmax层,五个卷积层组分别第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组,四个高效全局上下文模块分别插在第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组之后。
4.根据权利要求3所述的图像分类方法,其特征在于,所述利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型,具体包括:
运用迁移学习原理,在残差网络除全连接层外的结构中导入ImageNet上的预训练模型,并随机初始化全连接层和高效全局上下文模块中的参数权值;
设置网络参数和训练参数;
加载训练集,对训练集中的训练图像进行预处理;
将预处理的训练图像输入图像分类网络中,输出一个分类置信度,使用交叉熵损失函数进行损失计算,经过梯度反传,更新网络参数,使损失逐渐减小直至收敛,得到图像分类模型。
5.根据权利要求1-2任一项所述的图像分类方法,其特征在于,所述将待分类图像输入图像分类模型中,得到分类预测结果,具体包括:
对待分类图像进行预处理;
将预处理后的待分类图像送入图像分类模型进行计算,得到对应的各个类别的分类置信度;
将分类置信度最高的类别作为待分类图像的预测类别。
6.一种图像分类系统,其特征在于,所述系统包括:
构造单元,用于构造高效全局上下文模块;
搭建单元,用于搭建图像分类网络;其中,所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块;
第一获取单元,用于获取训练集;其中,所述训练集包括多张训练图像;
训练单元,用于利用训练集对图像分类网络进行训练,使用交叉熵损失函数,采用随机梯度下降法对图像分类网络进行迭代优化,得到图像分类模型;
第二获取单元,用于获取待分类图像;
预测单元,用于将待分类图像输入图像分类模型中,得到分类预测结果;
所述高效全局上下文模块包括上下文建模部分、特征变换部分和特征聚合部分;
所述上下文建模部分,用于捕获与查询位置无关的长期依赖关系;
所述特征变换部分,用于采用多样化有效通道注意力模块,使用不同空洞卷积率的一维空洞卷积层,通过门控机制随机选择不同范围的局部邻域,以直接的方式建模每个通道与多种不同范围的局部邻域内的多个相邻通道的依赖关系;
所述特征聚合部分,用于将特征变换部分输出的通道特征与原始特征在通道维度上进行相乘,得到高效全局上下文模块最终的输出;
所述捕获与查询位置无关的长期依赖关系,具体包括:
将输入上下文建模部分的特征图分别送到两路,第一路经过第一下采样器实现特征降维,得到第一路的输出;第二路先经过一个卷积层对特征进行变换,然后经过第二下采样器进行下采样,再经过Softmax层运算之后得到第二路的输出;将两路输出的结果进行矩阵相乘,得到上下文建模部分的输出。
7.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-5任一项所述的图像分类方法。
8.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-5任一项所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959142.6A CN112163601B (zh) | 2020-09-14 | 2020-09-14 | 图像分类方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959142.6A CN112163601B (zh) | 2020-09-14 | 2020-09-14 | 图像分类方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163601A CN112163601A (zh) | 2021-01-01 |
CN112163601B true CN112163601B (zh) | 2023-09-26 |
Family
ID=73858480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010959142.6A Active CN112163601B (zh) | 2020-09-14 | 2020-09-14 | 图像分类方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163601B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991476B (zh) * | 2021-02-18 | 2021-09-28 | 中国科学院自动化研究所 | 基于深度压缩域特征的场景分类方法、系统及设备 |
CN113111970B (zh) * | 2021-04-30 | 2023-12-26 | 陕西师范大学 | 通过构建全局嵌入式注意力残差网络对图像分类的方法 |
CN113159231B (zh) * | 2021-05-21 | 2024-04-23 | 华东理工大学 | 基于残差网络的分子筛sem图像分类方法和系统 |
CN113657408B (zh) * | 2021-08-13 | 2022-11-18 | 北京百度网讯科技有限公司 | 确定图像特征的方法、装置、电子设备和存储介质 |
CN113705641B (zh) * | 2021-08-16 | 2023-11-10 | 武汉大学 | 基于富上下文网络的高光谱图像分类方法 |
CN114338442B (zh) * | 2021-11-16 | 2024-05-10 | 山东师范大学 | 一种基于特征数据和深度学习的网络流量识别方法及系统 |
CN114140463A (zh) * | 2021-12-10 | 2022-03-04 | 深圳市通元慧视科技有限公司 | 一种焊接缺陷识别方法、装置、设备及存储介质 |
CN114298218A (zh) * | 2021-12-27 | 2022-04-08 | 中国建设银行股份有限公司 | 一种无人车自主导航方法、装置、计算机设备和存储介质 |
CN115035353B (zh) * | 2022-08-11 | 2022-12-23 | 粤港澳大湾区数字经济研究院(福田) | 图像分类方法、图像分类模型、智能终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN111178432A (zh) * | 2019-12-30 | 2020-05-19 | 武汉科技大学 | 多分支神经网络模型的弱监督细粒度图像分类方法 |
CN111259982A (zh) * | 2020-02-13 | 2020-06-09 | 苏州大学 | 一种基于注意力机制的早产儿视网膜图像分类方法和装置 |
CN111582225A (zh) * | 2020-05-19 | 2020-08-25 | 长沙理工大学 | 一种遥感图像场景分类方法及装置 |
-
2020
- 2020-09-14 CN CN202010959142.6A patent/CN112163601B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN111178432A (zh) * | 2019-12-30 | 2020-05-19 | 武汉科技大学 | 多分支神经网络模型的弱监督细粒度图像分类方法 |
CN111259982A (zh) * | 2020-02-13 | 2020-06-09 | 苏州大学 | 一种基于注意力机制的早产儿视网膜图像分类方法和装置 |
CN111582225A (zh) * | 2020-05-19 | 2020-08-25 | 长沙理工大学 | 一种遥感图像场景分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112163601A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163601B (zh) | 图像分类方法、系统、计算机设备及存储介质 | |
WO2022042713A1 (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN111882031B (zh) | 一种神经网络蒸馏方法及装置 | |
CN112561027B (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
WO2020221200A1 (zh) | 神经网络的构建方法、图像处理方法及装置 | |
WO2019228358A1 (zh) | 深度神经网络的训练方法和装置 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
WO2020073211A1 (zh) | 运算加速器、处理方法及相关设备 | |
KR20200060302A (ko) | 처리방법 및 장치 | |
CN111797589B (zh) | 一种文本处理网络、神经网络训练的方法以及相关设备 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
WO2021008206A1 (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
CN112561028B (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
WO2020062299A1 (zh) | 一种神经网络处理器、数据处理方法及相关设备 | |
CN113449859A (zh) | 一种数据处理方法及其装置 | |
WO2023231794A1 (zh) | 一种神经网络参数量化方法和装置 | |
CN116739071A (zh) | 一种模型训练方法及相关装置 | |
CN113869496A (zh) | 一种神经网络的获取方法、数据处理方法以及相关设备 | |
CN112532251B (zh) | 一种数据处理的方法及设备 | |
WO2023185541A1 (zh) | 一种模型训练方法及其相关设备 | |
CN114861859A (zh) | 神经网络模型的训练方法、数据处理方法及装置 | |
WO2024179485A1 (zh) | 一种图像处理方法及其相关设备 | |
WO2024175014A1 (zh) | 一种图像处理方法及其相关设备 | |
WO2024140630A1 (zh) | 一种模型训练方法及其相关设备 | |
WO2024175079A1 (zh) | 一种模型的量化方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |