CN114510929A - 基于lstm和yolox的图像标题生成方法 - Google Patents
基于lstm和yolox的图像标题生成方法 Download PDFInfo
- Publication number
- CN114510929A CN114510929A CN202210008914.7A CN202210008914A CN114510929A CN 114510929 A CN114510929 A CN 114510929A CN 202210008914 A CN202210008914 A CN 202210008914A CN 114510929 A CN114510929 A CN 114510929A
- Authority
- CN
- China
- Prior art keywords
- yolox
- image
- lstm
- network
- generation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 31
- 230000015654 memory Effects 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 230000006403 short-term memory Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及深度学习技术领域,尤其涉及一种基于LSTM和YOLOX的图像标题生成方法,采用YOLOX作为特征提取网络,通过YOLOX将预测分支解耦改善了收敛速度,提取后的特征向量会被传输给解码器长短期记忆网络,长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成标题,此外还引入了SE通道注意力机制,当解码器LSTM生成一个用于构成目标句子的词时,根据源句子动态地生成一个语境向量,然后网络会根据这个语境向量来预测词,有效地解决了现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于LSTM和YOLOX的图像标题生成方法。
背景技术
图像标题生成对机器学习算法来说是一个很大的挑战,标题生成所需要的模型不仅必须足够强大,以解决计算机视觉中确定图像中的对象的挑战,而且还必须能够用自然语言捕捉和表达它们之间的关系,这相当于模仿人类将大量显著的视觉信息压缩成描述性语言,这是很困难的。
为了生成图像标题,必须先进行图像特征的提取,传统的图像特征提取采用卷积神经网络,其中具有代表性的VGGNet使用小卷积核和更深的网络进行的正则化,其内部的三个全连接网络会使用更多的参数,导致更多的内存占用,并且增加更多的运算时间,这样的方法会耗费很多的计算资源,无法很好的兼顾图像标题生成的速度和效果,而且卷积神经网络虽然特别擅长处理视觉数据,但其全连接模式过于冗余和低效,且生物学基础支持不足,没有记忆功能,除此之外,其更擅长特征提取,不擅长特征理解。
发明内容
本发明的目的在于提供一种基于LSTM和YOLOX的图像标题生成方法,旨在解决现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。
为实现上述目的,本发明提供了一种基于LSTM和YOLOX的图像标题生成方法,包括下列步骤:
选择图片输入YOLOX网络;
YOLOX网络生成图片的特征向量;
所述特征向量传输给长短期记忆网络;
所述长短期记忆网络生成图像标题。
其中,在YOLOX网络生成图片的特征向量的过程中,对于每一层FPN特征,先采用1×1conv层,将特征通道减少到256个,然后添加两个并行分支,每个分支具有2个3×3conv层,同时通过分类任务支线,最后生成W×H×C的特征图。
其中,在所述YOLOX网络中使用去耦的YOLO头替换耦合的YOLO头。
其中,所述长短期记忆网络包括输入门、输出门、遗忘门和一个记忆单元,所述记忆单元的维度与隐藏状态的维度相同,并设计用于记录额外的信息,所述输入门用于决定何时将数据读入记忆单元中,所述输出门用于读取记忆单元中的元素,所述遗忘门用于决定何时将数据读入记忆单元中。
其中,在所述长短期记忆网络生成图像标题的过程中,所述长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成图片标题。
其中,所述基于LSTM和YOLOX的图像标题生成方法还引入了SE通道注意力机制,当所述长短期记忆网络生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的,此时应用SE通道注意力机制来根据源句子动态地生成一个语境向量,然后所述长短期记忆网络会根据语境向量来预测词。
其中,所述SE通道注意力机制的具体流程为输入H×W×C图像,通过池化连接拉伸成1×1×C图像,然后再与输入的原图像相乘,将每个通道赋予权重。
本发明的提供了一种基于LSTM和YOLOX的图像标题生成方法,采用YOLOX作为特征提取网络,通过YOLOX将预测分支解耦改善了收敛速度,提取后的特征向量会被传输给解码器长短期记忆网络,长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成标题,此外还引入了SE通道注意力机制,当解码器LSTM生成一个用于构成目标句子的词时,根据源句子动态地生成一个语境向量,然后网络会根据这个语境向量来预测词,有效地解决了现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于LSTM和YOLOX的图像标题生成方法的流程示意图。
图2是本发明的LSTM网络中记忆块的结构示意图。
图3是本发明YOLOX生成特征向量的具体流程示意图。
图4是本发明的SE通道注意力机制的具体流程示意图。
图5是本发明中包含2个隐含层的LSTM网络结构示意图。
图6是本发明中单个时间步骤上的LSTM网络示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明涉及的相关英文术语如下,后续配合使用英文进行描述:
长短期记忆网络(LSTM);
SE(Squeeze-and-Excitation:压缩和激励)通道注意力机制;
BP(Back Propagation)网络:一种按误差逆传播算法训练的多层前馈网络。
请参阅图1,本发明提出了一种基于LSTM和YOLOX的图像标题生成方法,包括下列步骤:
S1:选择图片输入YOLOX网络;
S2:YOLOX网络生成图片的特征向量;
S3:所述特征向量传输给长短期记忆网络;
S4:所述长短期记忆网络生成图像标题。
在YOLOX网络生成图片的特征向量的过程中,对于每一层FPN特征,先采用1×1conv层,将特征通道减少到256个,然后添加两个并行分支,每个分支具有2个3×3conv层,同时通过分类任务支线,最后生成W×H×C的特征图。
在所述YOLOX网络中使用去耦的YOLO头替换耦合的YOLO头。
所述长短期记忆网络包括输入门、输出门、遗忘门和一个记忆单元,所述记忆单元的维度与隐藏状态的维度相同,并设计用于记录额外的信息,所述输入门用于决定何时将数据读入记忆单元中,所述输出门用于读取记忆单元中的元素,所述遗忘门用于决定何时将数据读入记忆单元中。
在所述长短期记忆网络生成图像标题的过程中,所述长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成图片标题。
所述基于LSTM和YOLOX的图像标题生成方法还引入了SE通道注意力机制,当所述长短期记忆网络生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的,此时应用SE通道注意力机制来根据源句子动态地生成一个语境向量,然后所述长短期记忆网络会根据语境向量来预测词。
所述SE通道注意力机制的具体流程为输入H×W×C图像,通过池化连接拉伸成1×1×C图像,然后再与输入的原图像相乘,将每个通道赋予权重。
以下就本发明中的相关术语做进一步说明:
(1)LSTM网络技术:
以下为LSTM网络的原理公式:
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct).
其中it,ft,ct,ot,ht分别为LSTM的输入状态、遗忘状态、记忆状态、输出状态和隐藏状态,向量^z∈RD是上下文向量,z^t是图像输入相关部分在t时刻的动态表示,i=1,…,L表示在图像不同位置提取的特征;E∈Rm×K是一个嵌入矩阵。m和n分别表示嵌入维数和LSTM维数,σ为sigmoid激活函数,其能将变量映射到0到1之间。tanh为双曲正切激活函数,其能将变量映射到-1到1之间。
请参阅图2,图为LSTM网络中的记忆块,LSTM主要包含了三个门(forget gate、input gate、output gate)与一个记忆单元(cell)。
1、Input Gate:中文是输入门,在每一时刻从输入层输入的信息会首先经过输入门,输入门的开关会决定这一时刻是否会有信息输入到Memory Cell。
2、Output Gate:中文是输出门,每一时刻是否有信息从Memory Cell输出取决于这一道门。
3、Forget Gate:中文是遗忘门,每一时刻Memory Cell里的值都会经历一个是否被遗忘的过程,就是由该门控制的,如果打卡,那么将会把Memory Cell里的值清除,也就是遗忘掉。
具体的,Forget gate实现信息的筛选:
ft=σ(wt·[ht-1,xt]+bf
将当前时刻的输入xt和上一时刻隐藏层状态的输出ht-1经过激活函数sigmoid实现信息的选择得到输出ft,此过程会遗忘掉一些无关的信息,而保留一些有用的信息。
Input gate决定记忆单元里面的更新:
it=σ(wi·[ht-1,xt]+bi)
Ct状态更新,与遗忘门和输入门有关
Output gate决定t时刻的输出:
Ot=σ(W0[ht-1,xt]+b0)
ht=Ot*tanh(Ct)
将输入ht-1和xt通过sigmoid层来得到一个初始输出,然后使用tanh将更新后的值缩放到-1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型当前时刻的输出ht。
(2)SE模块技术
1、卷积操作公式:
2、因为每个卷积提取到的特征都是一个局部特征,或者说是个局部的感受野,因此特征是不能利用感受野外的一些信息。为此提出了全局平均池化操作,下面是全局平均池化公式:
z∈Rc是对特征U在空间维度H×W执行全局平均池化后的结果
3、为了利用压缩操作的信息和利用通道间的信息依赖,我们使用激活函数来完成,该操作能够获得通道间的非线性关系,且使得多个通道特征被加强,激活操作公式如下:
s=Fex(2,W)=σ(g(z,W))=σ(W2δ(W1z))
4、最终输出公式:
(3)YOLOX技术实现:
用去耦的YOLO头替换耦合的YOLO头能够大大提高收敛速度,耦合头的端到端特性降低了4.2%AP,而去耦头则只降低了0.8%AP,因此将YOLO检测头替换为精简的解耦头大大提升了网络性能,虽然将检测头解耦无疑会增加运算的复杂度,但经过权衡速度和性能上的得失,最终使用1个1x1的卷积先进行降维,并在分类和回归分支里各使用了2个3x3卷积,最终调整到仅仅增加一点点参数,YOLOX在s,m,l,x模型速度上的轻微下降也全源自于此,所以从总体来说,YOLOX的识别速度还是能够满足需要的。
进一步地,本发明从具体过程做继续说明:
请参阅图3,YOLOX生成特征向量的具体流程,对于每一层FPN特征,先采用1×1conv层,将特征通道减少到256个,然后添加两个并行分支,每个分支具有2个3×3conv层,本发明采用分类任务支线,通过该支线,最后生成W×H×C的特征图。
进一步地,SE通道注意力机制的具体流程请参阅图4,在正常的卷积操作后分出了一个旁路分支,首先进行Squeeze(压缩)操作,它将空间维度进行特征压缩,即每个二维的特征图变成一个实数,相当于具有全局感受野的池化操作,特征通道数不变。然后是Excitatio(激活)操作,它通过对每个特征通道生成权重,权重被学习用来显式地建模特征通道间的相关性。在得到了每一个特征通道的权重之后,就将该权重应用于原来的每个特征通道,基于特定的任务,就可以学习到不同通道的重要性。整个流程可以概括为输入图像H×W×C,通过global pooling+FC层,拉伸成1×1×C,然后再与原图像相乘,将每个通道赋予权重的过程。
请参阅图5和图6,分别为包含2个隐含层的LSTM网络与单个时间步骤上的LSTM网络,在T=1时刻看,它是一个普通的BP网络,在T=2时刻看也是一个普通的BP网络,只是沿时间轴展开后,隐含层的信息会被传递到下一时刻。该网络会根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成一段描述性语句即图像标题。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (7)
1.一种基于LSTM和YOLOX的图像标题生成方法,其特征在于,包括下列步骤:
选择图片输入YOLOX网络;
YOLOX网络生成图片的特征向量;
所述特征向量传输给长短期记忆网络;
所述长短期记忆网络生成图像标题。
2.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,
在YOLOX网络生成图片的特征向量的过程中,对于每一层FPN特征,先采用1×1conv层,将特征通道减少到256个,然后添加两个并行分支,每个分支具有2个3×3conv层,同时通过分类任务支线,最后生成W×H×C的特征图。
3.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,
在所述YOLOX网络中使用去耦的YOLO头替换耦合的YOLO头。
4.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,
所述长短期记忆网络包括输入门、输出门、遗忘门和一个记忆单元,所述记忆单元的维度与隐藏状态的维度相同,并设计用于记录额外的信息,所述输入门用于决定何时将数据读入记忆单元中,所述输出门用于读取记忆单元中的元素,所述遗忘门用于决定何时将数据读入记忆单元中。
5.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,
在所述长短期记忆网络生成图像标题的过程中,所述长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成图片标题。
6.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,
所述基于LSTM和YOLOX的图像标题生成方法还引入了SE通道注意力机制,当所述长短期记忆网络生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的,此时应用SE通道注意力机制来根据源句子动态地生成一个语境向量,然后所述长短期记忆网络会根据语境向量来预测词。
7.如权利要求6所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,
所述SE通道注意力机制的具体流程为输入H×W×C图像,通过池化连接拉伸成1×1×C图像,然后再与输入的原图像相乘,将每个通道赋予权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210008914.7A CN114510929A (zh) | 2022-01-06 | 2022-01-06 | 基于lstm和yolox的图像标题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210008914.7A CN114510929A (zh) | 2022-01-06 | 2022-01-06 | 基于lstm和yolox的图像标题生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114510929A true CN114510929A (zh) | 2022-05-17 |
Family
ID=81549084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210008914.7A Pending CN114510929A (zh) | 2022-01-06 | 2022-01-06 | 基于lstm和yolox的图像标题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510929A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674783A (zh) * | 2019-10-08 | 2020-01-10 | 山东浪潮人工智能研究院有限公司 | 一种基于多级预测架构的视频描述方法及系统 |
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
-
2022
- 2022-01-06 CN CN202210008914.7A patent/CN114510929A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674783A (zh) * | 2019-10-08 | 2020-01-10 | 山东浪潮人工智能研究院有限公司 | 一种基于多级预测架构的视频描述方法及系统 |
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
Non-Patent Citations (2)
Title |
---|
DEAR_QUEEN: "小白读论文-YOLOX", pages 1 - 8, Retrieved from the Internet <URL:《blog.csdn.net/dear_queen/article/details/119991641》> * |
LUTIANFEI: "论文阅读《通过注意力转移提升神经网络性能》", pages 1 - 18, Retrieved from the Internet <URL:《bbs.huaweicloud.com/blogs/274361》> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102434726B1 (ko) | 처리방법 및 장치 | |
CN112507898B (zh) | 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法 | |
CN110473141B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
Chen et al. | ReGAN: A pipelined ReRAM-based accelerator for generative adversarial networks | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
Yu et al. | 3d medical point transformer: Introducing convolution to attention networks for medical point cloud analysis | |
CN108764281A (zh) | 一种基于半监督自步学习跨任务深度网络的图像分类方法 | |
CN111242844B (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN111062395A (zh) | 一种实时的视频语义分割方法 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN112561028A (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
CN115459996B (zh) | 基于门控卷积和特征金字塔的网络入侵检测方法 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN116401552A (zh) | 一种分类模型的训练方法及相关装置 | |
CN116246110A (zh) | 基于改进胶囊网络的图像分类方法 | |
CN113537384A (zh) | 基于通道注意力的哈希遥感图像检索方法、装置及介质 | |
CN114882288B (zh) | 基于分层图增强堆叠自编码器的多视图图像分类方法 | |
CN114979801A (zh) | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 | |
CN112100376B (zh) | 用于细粒度情感分析的相互增强转换方法 | |
CN112347965A (zh) | 一种基于时空图的视频关系检测方法和系统 | |
CN112036495A (zh) | 一种基于网络爬虫和迁移学习的服装图像分类方法 | |
CN115082840B (zh) | 基于数据组合和通道相关性的动作视频分类方法和装置 | |
CN114510929A (zh) | 基于lstm和yolox的图像标题生成方法 | |
CN114898339B (zh) | 驾驶行为预测模型的训练方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |