CN113344070B - 一种基于多头自注意力模块的遥感图像分类系统及方法 - Google Patents
一种基于多头自注意力模块的遥感图像分类系统及方法 Download PDFInfo
- Publication number
- CN113344070B CN113344070B CN202110609315.6A CN202110609315A CN113344070B CN 113344070 B CN113344070 B CN 113344070B CN 202110609315 A CN202110609315 A CN 202110609315A CN 113344070 B CN113344070 B CN 113344070B
- Authority
- CN
- China
- Prior art keywords
- image
- matrix
- detection
- attention
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000010606 normalization Methods 0.000 claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 14
- 230000008034 disappearance Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000009901 attention process Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多头自注意力模块的遥感图像分类系统及方法,分类模型的框架网络主干采用的是RestNet50卷积神经网络,分类模型将RestNet50卷积神经网络最后三个瓶颈层模块替换为多头自注意力模块;模型包括:缩放点积注意力模块,用于将输入分类模型的检测图像参数进行运缩放点积注意力处理;多头自注意力模块,用于感知检测图像中可识别度最高的区域;第一归一化及残差连接模块、第二归一化及残差连接模块,用于保持检测图像参数在输入分类模型后与输入分类模型前维度上的一致,降低在分类模型网络中发生梯度消失的可能;全连接模块,用于对检测图像进行特征提取。
Description
技术领域
本发明涉及图像识别技术领域,具体为一种基于多头自注意力模块的遥感图像分类系统及方法。
背景技术
在实际生产生活中,遥感图像被应用于诸多领域,其中,在城市规划、森林状态评估、生态环境监测等方面,遥感图像都起着至关重要的作用;这些应用的主要目的是通过对采集到的遥感图像特征进行提取和分析,准确判断出图像中所包含的主要目标类别,如建筑、森林或湿地等。目前,实现遥感图像分类的主要手段主要是利用计算机技术模拟生物对视觉的感知能力,对遥感图像中每个像素根据特征的异同,如光谱亮度、空间结构特征等,按照某种流程或规则对属性进行自动判别和分类,以实现提取图像中包含的地物信息的目标。在对遥感图像分类早期的研究当中,研究者主要选择手工提取图像特征的方法分类遥感图像,但伴随图像采集技术的不断发展,获取遥感图像的方法逐渐具有采集速度快、采集信息量巨大等特点,且由于人工提取出的图像特征所包含的信息量小、有效性低等特点,传统的手工特征提取方法难以满足遥感图像广泛应用的需求;随着研究的不断深入,研究者开始尝试融合不同的人工提取方法提取出的图像特征,其中,常用的图像特征提取方法有HOG、ORB、SIFT等;在结合不同人工提取的图像特征的过程中,需要不停地调整每种提取方法提取到的图像特征的权值参数大小,以得到更优的效果。虽然给定的权值参数大小在某些遥感图像分类上取得较高的精度,但在规模很大的数据集中使用该方法时十分困难。因此,为解决传统的图像分类方法在特征提取分析中存在的速度慢和精度低的问题,模糊聚类分类法和机器学习等方法被综合应用到对图像特征提取和分析方法中。
近年来,深度学习技术被广泛应用在计算机视觉领域,其中,深度卷积神经网络CNN使得图像分类效率和准确度具有显著的提高。不同于传统的分类方法,CNN具有局部感知和权值共享的特点。局部感知即CNN每层中的每个神经元只需要从当前层输入图像中提取局部的像素特征,在网络的深层中将这些局部信息合并,从而得到图像的所有特征。目前,基于CNN的图像识别分类算法在计算机视觉领域中取得了重大突破。
为了在已有分类方法基础上提高遥感图像的分类效率和精度,本发明提出了一种基于多头自注意力模块的遥感图像分类系统及方法;鉴于已有的卷积神经网络在遥感图像分类的精度较高,本系统框架选择使用ResNet50作为主干网络,并将ResNet50最后三个瓶颈层的中间层替换为多头自注意力模块,本发明与目前已有的遥感图像分类系统相比,在精度上有明显提高,并且减少了框架的参数,提高了分类的速度。
发明内容
本发明的目的在于提供一种基于多头自注意力模块的遥感图像分类系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于多头自注意力模块的遥感图像分类方法,其特征在于,分类方法的工作流程如下:
S100:上传检测图像,对检测图像的图像参数进行提取并进行缩放点积注意力处理;得到第一处理结果;
S200:将步骤S100得到的诸多个第一处理结果进行连接处理,得到连接处理结果;
S300:将连接处理结果进行一次归一化处理和残差连接,得到第二处理结果;
S400:将第二处理结果进行特征信息提取;
S500:将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果;
上述方法加入了步骤S200有利于在对检测图像进行分类时,捕捉更多检测图像的特征信息,提高分类速度。
进一步的,检测图像的图像参数初始化采用的是正态随机生成的方式;
该初始化方法使得在进行图像分类时可以对于训练所使用的参数集更加敏感,同时提高系统的分类精度。
进一步的,步骤S100中的图像参数包括:检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵;
检测图像的键矩阵指检测图像中某个区域的矩阵;检测图像的值矩阵是指将检测图像的向量或者矩阵和检测图像的键矩阵进行点乘得到的矩阵;
缩放点积注意力处理公式如下:
其中,Q表示检测图像的向量或者矩阵;K表示检测图像的键矩阵,而KT表示K矩阵的转置矩阵;V表示检测图像的值矩阵;表示缩放因子;
因Softmax在对数据进行分类时,如果输入数据过大或者过小,会出现识别能力较差,识别率较低的情况,该步骤的设置有利于提高softmax的分类能力。
进一步的,步骤S100中的缩放点积注意力处理的处理过程如下:
S101:先将检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵经过多次不同线性映射运算得到矩阵:Q·Wi Q、K·Wi K、V·Wi V;
S102:将矩阵:Q·Wi Q、K·Wi K、V·Wi V带入缩放点积注意力处理公式得到:
其中,Q·Wi Q表示经过多次不同线性映射运算后的检测图像的向量或者矩阵;K·Wi K表示经过多次不同线性映射运算后的检测图像的键矩阵;V·Wi V表示经过多次不同线性映射运算后的检测图像的值矩阵;(K·Wi K)T表示K·Wi K矩阵的转置矩阵;表示缩放因子。
进一步的,步骤S200中多头自注意力处理包括以下过程:
S210:将步骤S100得到的一次处理结果作为多头注意力运算中的一个头,即:
headi=Attention(Q·Wi Q,K·Wi K,V·Wi V)
其中,i表示第i次缩放点积注意力运算;headi表示第i个头;
S220:将每一次缩放点积注意力处理后得到的结果进行连接处理;即:
MultiHead(Q,K,V)=Concat(head1,head2,...headi)
多头自注意力模块的处理过程有助于本分类模型网络捕捉到更丰富的特征或者信息,缓解分类模型运行过程中梯度消失的问题。
进一步的,第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法,归一化方法过程如下:
SS100:获取检测图像的高度Hinput,宽度Winput,计算检测图像的纵横比,公式下:
SS200:获取目标图像的高度Hgoal,宽度Wgoal,计算检测图像的纵横比,公式下:
SS300:若AspectRatioinput=AspectRatiogoal,使用最近邻插值方法对检测图像直接进行裁剪,使检测图像尺寸直接等同于目标图像的尺寸;edgeshort=min(Hinput,Winput)
SS400:若AspectRatioinput≠AspectRatiogoal,计算检测图像的两边边长,公式如下:
edgeshort=min(Hinput,Winput)
edgelong=max(Hinput,Winput)
其中,edgeshort表示短边边长,edgelong代表长边边长;
SS500:在长边边长中以短边边长作为度量,计算步长,截取长度为步长值的图像,将检测图像转化成了纵横比与目标图像的纵横比相同的小图像,步长的计算公式如下:
SS600:将步骤SS500得到的小图像进行等比变换,并将其归一化,使得最终得到的图像与目标图像尺寸保持一致;
归一化运算的流程,主要是把输入的参数转换到0-1区间内,避免输入参数数量级差别太大,将参数进行归一化处理有利于后续的参数处理与利用。
进一步的,步骤S400中的特征提取应用以下公式:
FNN(x)=max(0,W1·x+b1)·W2+b2
其中,b1、b2分别代表第一偏差参数、第二偏差参数,x为步骤S300得到的第二处理结果。
为实现上述方法,本发明还提供了一种基于多头自注意力模块的遥感图像分类系统,其特征在于:分类系统包括:
缩放点积注意力模块,缩放点积注意力模块用于将输入分类模型的检测图像参数进行运缩放点积注意力处理;
多头自注意力模块,多头自注意力模块用于感知检测图像中可识别度最高的区域;
第一归一化及残差连接模块、第二归一化及残差连接模块,第一归一化及残差连接模块和第二归一化及残差连接模块用于保持检测图像参数在输入分类系统后与输入分类系统前维度上的一致,降低在分类系统的网络中发生梯度消失的可能;
全连接模块,全连接模块用于对检测图像进行特征提取;
全连接模块的设置可将本分类模型中的输入和输出进行连接,且全连接模块具有吞吐量大、可靠性高、低延时的特点。
与现有技术相比,本发明所达到的有益效果是:本发明在系统框架上选择使用ResNet50作为主干网络,并将ResNet50最后三个瓶颈层的中间层替换为多头自注意力模块,与目前已有的遥感图像分类系统相比,本专利提出的分类系统在精度上有明显提高,并且减少了系统的参数,提高了系统分类的速度。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是一种基于多头自注意力模块的遥感图像分类系统的结构示意图;
图2是一种基于多头自注意力模块的遥感图像分类方法的工作流程示意图;
图3是不同参数集在不同分类系统中精度的比较结果的示意图;
图4是不同分类系统包含的参数数量的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
“softmax”逻辑回归模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值。Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,不过后面也会介绍它与深度学习无监督学习方法的结合。
“FNN”前馈神经网络是神经网络中最基本也是最经典的形式,结构包括输入层,隐藏层和输出层,根据隐藏层的多少,分为shallow network和deep network。
损失函数“Loss(y,k)”用于测量预测类别与真实类别之间的差距,“交叉熵损失函数”是一种常用的损失函数,交叉熵就是用来判断实际输出与期望输出的接近程度,它刻画的是两个概率分布之间的距离。
请参阅图1-4,本发明提供技术方案:一种基于多头自注意力模块的遥感图像分类方法,其特征在于,分类方法的工作流程如下:
S100:上传检测图像,对检测图像的图像参数进行提取并进行缩放点积注意力处理;得到第一处理结果;检测图像的图像参数初始化采用的是正态随机生成的方式;该初始化方法使得在进行图像分类时可以对于训练所使用的参数集更加敏感,同时提高系统的分类精度;
其中,图像参数包括:检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵;
检测图像的键矩阵指检测图像中某个区域的矩阵;检测图像的值矩阵是指将检测图像的向量或者矩阵和检测图像的键矩阵进行点乘得到的矩阵;
缩放点积注意力处理公式如下:
其中,Q表示检测图像的向量或者矩阵;K表示检测图像的键矩阵,而KT表示K矩阵的转置矩阵;V表示检测图像的值矩阵;表示缩放因子;
步骤S100中的缩放点积注意力处理的处理过程如下:
S101:先将检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵经过多次不同线性映射运算得到矩阵:Q·Wi Q、K·Wi K、V·Wi V;
S102:将矩阵:Q·Wi Q、K·Wi K、V·Wi V带入缩放点积注意力处理公式得到:
其中,Q·Wi Q表示经过多次不同线性映射运算后的检测图像的向量或者矩阵;K·Wi K表示经过多次不同线性映射运算后的检测图像的键矩阵;V·Wi V表示经过多次不同线性映射运算后的检测图像的值矩阵;(K·Wi K)T表示K·Wi K矩阵的转置矩阵;表示缩放因子;
S200:将步骤S100得到的诸多个第一处理结果进行连接处理,得到连接处理结果;
其中,多头自注意力处理包括以下过程:
S210:将步骤S100得到的一次处理结果作为多头注意力运算中的一个头,即:
headi=Attention(Q·Wi Q,K·Wi K,V·Wi V)
其中,i表示第i次缩放点积注意力运算;headi表示第i个头;
S220:将每一次缩放点积注意力处理后得到的结果进行连接处理;即:
MultiHead(Q,K,V)=Concat(head1,head2,…headi)
S300:将连接处理结果进行一次归一化处理和残差连接,得到第二处理结果;
其中,第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法,归一化方法过程如下:
SS100:获取检测图像的高度Hinput,宽度Winput,计算检测图像的纵横比,公式下:
SS200:获取目标图像的高度Hgoal,宽度Wgoal,计算检测图像的纵横比,公式下:
SS300:若AspectRatioinput=AspectRatiogoal,使用最近邻插值方法对检测图像直接进行裁剪,使检测图像尺寸直接等同于目标图像的尺寸;edgeshort=min(Hinput,Winput)
SS400:若AspectRatioinput≠AspectRatiogoal,计算检测图像的两边边长,公式如下:
edgeshort=min(Hinput,Winput)
edgelong=max(Hinput,Winput)
其中,edgeshort表示短边边长,edgelong代表长边边长;
SS500:在长边边长中以短边边长作为度量,计算步长,截取长度为步长值的图像,将检测图像转化成了纵横比与目标图像的纵横比相同的小图像,步长的计算公式如下:
SS600:将步骤SS500得到的小图像进行等比变换,并将其归一化,使得最终得到的图像与目标图像尺寸保持一致;
S400:将第二处理结果进行特征信息提取;
其中,特征提取应用以下公式:
FNN(x)=max(0,W1·x+b1)·W2+b2
其中,b1、b2分别代表第一偏差参数、第二偏差参数,x为步骤S300得到的第二处理结果。
S500:将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果。
为实现上述方法,本发明还提供了一种基于多头自注意力模块的遥感图像分类系统,其特征在于:分类系统的框架网络主干采用的是RestNet50卷积神经网络,分类系统将RestNet50卷积神经网络最后三个瓶颈层模块替换为多头自注意力模块;
分类系统包括:
缩放点积注意力模块,缩放点积注意力模块用于将输入分类模型的检测图像参数进行运缩放点积注意力处理;
多头自注意力模块,多头自注意力模块用于感知检测图像中可识别度最高的区域;
第一归一化及残差连接模块、第二归一化及残差连接模块,第一归一化及残差连接模块和第二归一化及残差连接模块用于保持检测图像参数在输入分类系统后与输入分类系统前维度上的一致,降低在分类系统的网络中发生梯度消失的可能;
全连接模块,全连接模块用于对检测图像进行特征提取;
全连接模块的设置可将本分类模型中的输入和输出进行连接,且全连接模块具有吞吐量大、可靠性高、低延时的特点。
分类系统的工作流程如下:
SS100:上传检测图像至分类系统,先将检测图像传输至缩放点积注意力模块,缩放点积注意力模块对检测图像进行图像参数矩阵的提取并进行缩放点积注意力处理;
SSS200:缩放点积注意力模块将处理后的图像信息矩阵输入多头自注意力模块,多头自注意力模块将每一次缩放点积注意力模块处理后得到的结果进行连接处理;
SSS300:多头自注意力模块将连接处理结果输入第一归一化及残差连接模块进行第一次归一化处理和残差连接;
SSS400:第一归一化处理和残差连接模块将运算结果输入全连接模块进行特征信息提取;
SSS500:全连接模块将特征信息输入第二归一化处理和残差连接模块进行第二次归一化处理和残差连接得到最终的图像分类结果。
在对分类系统进行训练的过程中,采用的是交叉熵损失函数来计算分类系统框架在输入的参数集上的损失值;
公式如下:
其中,变量y为分类模型中根据输入参数输出的类别预测概率,y是张量,y[j]指的是y的第j维,即输入图像预测为第j类的概率;变量k为输入图像的实际类别号。
如图3所示,本发明提出的系统框架相比目前已有的几种分类系统系统,在RSSCN7和EuroSAT数据集上得到了最高的分类精度(91.310%,97.877%)。且对比本发明提出的系统框架使用的主干网络ResNet50框架,分类精度也有了明显的提高。在PatternNet参数集上,本发明提出的系统框架分类精度与ResNet50分类精度接近,但对比ViT分类系统,该系统框架分类精度较低;经过分析得出,由于ViT分类系统输入图片尺寸为224×224,而本专利提出的系统框架输入尺寸为200×200,于图像的下采样使得图像丢失部分特征,使得本发明提出的框架分类精度比ViT系统分类精度低。由此可以得出本发明提出的系统框架能够更加准确的感知到在图像中最具有辨别力的区域,使得分类精度更加准确。
如图4所示,本发明提出的分类系统框架包含了20.8×106个参数,ResNet50框架中包含了25.5×106个参数。在以ResNet50为主干网络,使用多头自注意力模块替换其中部分结构后,参数量有了明显的降低,减少了显存的开销和运行时的计算量;且本发明提出的系统框架在RSSCN7、EuroSAT参数集上具有最优的分类效果,参数量与分类速度都得到了优化。相比已有的遥感图像分类系统框架,本发明提出的系统框架能够在GPU加速的环境中,取得更高精度的分类效果,减少系统框架中包含的参数,降低对显存的占用。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于多头自注意力模块的遥感图像分类方法,其特征在于,所述分类方法的工作流程如下:
S100:上传检测图像,对所述检测图像的图像参数进行提取并进行缩放点积注意力处理;得到第一处理结果;所述检测图像的图像参数初始化采用的是正态随机生成的方式;
S200:将步骤S100得到的诸多个第一处理结果进行连接处理,得到连接处理结果;
S300:将所述连接处理结果进行一次归一化处理和残差连接,得到第二处理结果;
S400:将所述第二处理结果进行特征信息提取;
S500:将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果;
所述步骤S100中的图像参数包括:检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵;
所述检测图像的键矩阵指所述检测图像中某个区域的矩阵;所述检测图像的值矩阵是指将所述检测图像的向量或者矩阵和所述检测图像的键矩阵进行点乘得到的矩阵;
缩放点积注意力处理公式如下:
其中,Q表示检测图像的向量或者矩阵;K表示检测图像的键矩阵,而表示K矩阵的转置矩阵;V表示检测图像的值矩阵;表示缩放因子;
所述步骤S100中的缩放点积注意力处理的处理过程如下:
S101:先将所述检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵经过多次不同线性映射运算得到矩阵:、、;
S102:将所述矩阵:、、带入所述缩放点积注意力处理公式得到:
其中,表示经过多次不同线性映射运算后的检测图像的向量或者矩阵;表示经过多次不同线性映射运算后的检测图像的键矩阵;表示经过多次不同线性映射运算后的检测图像的值矩阵;表示所述矩阵的转置矩阵;表示缩放因子;
第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法,所述归一化方法过程如下:
SS100:获取所述检测图像的高度,宽度,计算所述检测图像的纵横比,公式下:SS200:获取目标图像的高度,宽度,计算所述检测图像的纵横比,公式下:
SS300:若,使用最近邻插值方法对检测图像直接进行裁剪,使检测图像尺寸直接等同于目标图像的尺寸;
SS400:若,计算所述检测图像的两边边长,公式如下: 其中,表示短边边长,代表长边边长;
SS500:在所述长边边长中以所述短边边长作为度量,计算步长,截取长度为步长值的图像,将所述检测图像转化成了纵横比与所述目标图像的纵横比相同的小图像,所述步长的计算公式如下:
SS600:将步骤SS500得到的小图像进行等比变换,并将其归一化,使得最终得到的图像与目标图像尺寸保持一致。
2.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类方法,其特征在于:所述步骤S200中多头自注意力处理包括以下过程:
S210:将所述步骤S100得到的一次处理结果作为多头注意力运算中的一个头,即:
其中,i表示第i次缩放点积注意力运算;表示第i个头;
S220:将每一次缩放点积注意力处理后得到的结果进行连接处理;即。
3.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类方法,其特征在于,所述步骤S400中的特征提取应用以下公式:
其中,、分别代表第一偏差参数、第二偏差参数,x为步骤S300得到的所述第二处理结果。
4.应用于权利要求1-3中任意一项所述的一种基于多头自注意力模块的遥感图像分类方法的遥感图像分类系统,其特征在于:所述分类系统包括:
缩放点积注意力模块,所述缩放点积注意力模块用于将输入分类模型的检测图像参数进行运缩放点积注意力处理;
多头自注意力模块,所述多头自注意力模块用于感知所述检测图像中可识别度最高的区域;
第一归一化及残差连接模块、第二归一化及残差连接模块,所述第一归一化及残差连接模块和第二归一化及残差连接模块用于保持检测图像参数在输入所述分类系统后与输入所述分类系统前维度上的一致,降低在所述分类系统的网络中发生梯度消失的可能;
全连接模块,所述全连接模块用于对检测图像进行特征提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609315.6A CN113344070B (zh) | 2021-06-01 | 2021-06-01 | 一种基于多头自注意力模块的遥感图像分类系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609315.6A CN113344070B (zh) | 2021-06-01 | 2021-06-01 | 一种基于多头自注意力模块的遥感图像分类系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113344070A CN113344070A (zh) | 2021-09-03 |
CN113344070B true CN113344070B (zh) | 2024-12-13 |
Family
ID=77472764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110609315.6A Active CN113344070B (zh) | 2021-06-01 | 2021-06-01 | 一种基于多头自注意力模块的遥感图像分类系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344070B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037899B (zh) * | 2021-12-01 | 2024-09-06 | 福州大学 | 基于vit的面向高光谱遥感图像分类径向累加位置编码系统 |
CN114677322B (zh) * | 2021-12-30 | 2023-04-07 | 东北农业大学 | 基于注意力引导点云特征学习的奶牛体况自动评分方法 |
CN114463551A (zh) * | 2022-02-14 | 2022-05-10 | 北京百度网讯科技有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN114463646B (zh) * | 2022-04-13 | 2022-07-05 | 齐鲁工业大学 | 一种基于多头自注意力卷积神经网络的遥感场景分类方法 |
CN114998653B (zh) * | 2022-05-24 | 2024-04-26 | 电子科技大学 | 一种基于ViT网络的小样本遥感图像分类方法、介质及设备 |
CN118941791B (zh) * | 2024-07-23 | 2025-02-07 | 南京林业大学 | 一种基于视觉结构信息指导的遥感图像语义分割方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232156A (zh) * | 2020-09-30 | 2021-01-15 | 河海大学 | 一种基于多头注意力生成对抗网络的遥感场景分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084299B (zh) * | 2019-04-24 | 2021-08-06 | 中国人民解放军国防科技大学 | 基于多头融合注意力的目标检测方法和装置 |
CN111721535B (zh) * | 2020-06-23 | 2021-11-30 | 中国人民解放军战略支援部队航天工程大学 | 一种基于卷积多头自注意力机制的轴承故障检测方法 |
-
2021
- 2021-06-01 CN CN202110609315.6A patent/CN113344070B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232156A (zh) * | 2020-09-30 | 2021-01-15 | 河海大学 | 一种基于多头注意力生成对抗网络的遥感场景分类方法 |
Non-Patent Citations (1)
Title |
---|
Attention Is All You Need;Ashish Vaswani 等;31st Conference on Neural Information Processing Systems (NIPS 2017);20171231;第1-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113344070A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113344070B (zh) | 一种基于多头自注意力模块的遥感图像分类系统及方法 | |
CN112949673A (zh) | 一种基于全局注意力的特征融合目标检测与识别方法 | |
CN107506692A (zh) | 一种基于深度学习的密集人群计数与人员分布估计方法 | |
CN104599275A (zh) | 基于概率图模型的非参数化的rgb-d场景理解方法 | |
CN112991269A (zh) | 一种肺部ct图像的识别分类方法 | |
CN114155443B (zh) | 一种基于多感受野图注意力网络的高光谱图像分类方法 | |
CN113611368B (zh) | 基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备 | |
CN112200090A (zh) | 基于交叉分组空谱特征增强网络的高光谱图像分类方法 | |
CN106709528A (zh) | 基于多目标函数深度学习的车辆重识别方法及装置 | |
CN102169631A (zh) | 基于流形学习的交通拥堵事件协同检测方法 | |
CN111950498A (zh) | 一种基于端到端实例分割的车道线检测方法及装置 | |
CN108388904B (zh) | 一种基于卷积神经网络和协方差张量矩阵的降维方法 | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
CN112906813A (zh) | 一种基于密度聚类和胶囊神经网络的浮选工况识别方法 | |
CN105279485A (zh) | 激光夜视下监控目标异常行为的检测方法 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN104634265A (zh) | 一种基于多元图像特征融合的矿物浮选泡沫层厚度软测量方法 | |
CN112766145B (zh) | 人工神经网络的人脸动态表情识别方法及装置 | |
CN115393944A (zh) | 一种基于多维特征融合的微表情识别方法 | |
CN116912573A (zh) | 基于改进ResNet的花生荚果品质检测分类方法 | |
CN117726939A (zh) | 一种基于多特征融合的高光谱图像分类方法 | |
Cao et al. | Non-overlapping classification of hyperspectral imagery with superpixel segmentation | |
CN114529730A (zh) | 一种基于lbp特征的卷积神经网络地面材质图像分类方法 | |
CN115019096A (zh) | 一种基于动态神经网络的武装人员装备检测方法和系统 | |
CN118587481A (zh) | 一种基于半监督学习的多源遥感影像融合分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |