[go: up one dir, main page]

CN109543820B - 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 - Google Patents

基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 Download PDF

Info

Publication number
CN109543820B
CN109543820B CN201811408575.1A CN201811408575A CN109543820B CN 109543820 B CN109543820 B CN 109543820B CN 201811408575 A CN201811408575 A CN 201811408575A CN 109543820 B CN109543820 B CN 109543820B
Authority
CN
China
Prior art keywords
image
attention
word
lstm
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811408575.1A
Other languages
English (en)
Other versions
CN109543820A (zh
Inventor
胡海峰
杨梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811408575.1A priority Critical patent/CN109543820B/zh
Publication of CN109543820A publication Critical patent/CN109543820A/zh
Application granted granted Critical
Publication of CN109543820B publication Critical patent/CN109543820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,通过对海量已标注文本描述的图像训练得到一个自动描述图像视觉内容信息的语义模型,其由三部分:架构短句生成模型,双重视觉关注机制和约束化语言模型。并实现对任意输入测试图像,自动生成文本描述。本发明能够有效地建立文本描述中单词和图像的联系,对基于语义上,图像显著目标或场景间的描述有很好的表现。

Description

基于架构短句约束向量和双重视觉关注机制的图像描述生成 方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于深度神经网络的图像理解文本描述生成方法。
背景技术
获得文本级别的图像描述已经成为当前计算机视觉领域一个重要的研究课题,而在现实生活中,它有很多应用场景。比如早期的儿童教育,图像检索和盲人导航等。随着计算机视觉和自然语言处理技术的飞速发展,大量关于此课题的有效工作出现,其中很多是将它视为一个检索问题。研究者们通过学习一个节点嵌入层将文本句子和图像的特征投影至一个相同的语义空间中。这些方法通过从文本句子数据集中检索相似描述来生成图像描述,但是其缺乏能够产生有效结合目标和场景两者联系的图像描述。
绝大多数现有工作大都是基于CNN+RNN的框架上做效果上的提升。CNN可以从原始图像中提取强有力的视觉特征,而RNN能在给定视觉特征的情况下预测生成单词序列并生成句子。比如,(Mao et al.,2014)提出一个多模态RNN(M-RNN)模型来实现对单词的预测过程。(Jia et al.,2015)提出一个LSTM的扩展模型(g-LSTM),它使用一种从图像中提取的额外语义信息作为LSTM的引导信息。(Fu et al.,2016)提出了一个能挖掘图像和句子平行结构的图像描述模型,及一种特殊场景上下文向量,其能概括图像的高层次语义信息,并可以使用它让模型指定场景化。(Yao et al.,2017)提出带属性的LSTM模型(LSTM-A),其整合了属性信息到CNN+RNN架构中。然而,以上方法都忽略了句子的语义单词和图像视觉单词之间的语义联系。
而近来关于视觉关注机制的方法能结果上述联系问题,在单词的预测过程,并能可视化与之相关的视觉区域。比如随机性’hard’和决策性’soft’关注机制(Xu et al.,2015),自适应关注(Lu et al.,2017),语义关注(You et al.,2016),自上而下及自下而上关注(Anderson et al.,2018)。所有的这些机制都能在一定程度上反映文本和视觉模态间的内在联系,并能获得较好的性能。
发明内容
针对现有的方法缺乏能够产生有效结合目标和场景两者联系的图像描述的问题,本发明提出一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,本发明采用的技术方案是:
基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,包括以下步骤:
S10.训练集中的训练图片数据包含5个参考句子,每个句子中的单词经过one-hot编码,再经过嵌入矩阵,投影到嵌入空间,成为具有语义的字表达向量Wt
S20.字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的,在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接,作为该时刻的LSTM输入。
S30.图像经过Faster-RCNN提取全局特征和中间卷积层的局部特征,并采用决策性’soft’关注机制及上一时刻预测的单词表达,算出所有的局部特征图在该时刻的权重值,权值∈(0~1),采用Faster-RCNN对每张图片提取N个主要目标的局部区域表达,并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值,获得基于目标级别的视觉关注,最终结合空间及目标级别的两个关注过程,获得了具有超强视觉表征能力的关注特征,图像的关注特征作为步骤S20中与单词特征同等地位的LSTM输入;
S40.架构短句的获得及使用,借助S30中获得的20个显著目标,精提取10个显著目标及其对应的边界框和标签;对10个标签进行排序,生成了具有视觉意义的架构短句,并采用另一个预训练好编解码LSTM的中学习得到该短句的表达,且将该短句的表达和全局视觉特征一起作为语言模型LSTM的初始化;
S50.将以上的字表达向量Wt、循环层激活Rt、图像的图像特征和构架短句通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S60.整个模型的损失函数为对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
优选的,所述S10中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0;通过两个嵌入层将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字通过计算两个稠密字向量的欧式距离找出;其中由于每个图片会对应5个参考句子,将其看作5组训练数据对。
优选的,所述S20中,对于每一时刻帧的循环层激活Rt,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的;首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵;
在每一时刻加入双重视觉关注机制求得的视觉特征vt,在时刻0即初始时刻,将图形的全局特征vg和架构短句的向量拼接形态作为LSTM的初始化,即LSTM每一时刻的输入如下所示:
X={[vg,hsN],[w1,v1],...,[wL,vL],wL+1}
其中L是句子长度,vi是第i时刻的关注后的视觉特征,i∈{1,2,...,L}。
优选的,所述S30中,使用Faster-RCNN提取图像的全局特征vg和局部特征图va={a1,a2,...,aP},
Figure BDA0001877967290000031
D=2048,P=256;并在此基础上,借助感兴趣区域选择,得到20个最具目标特性的视觉区域vl={l1,l2,...,lK},
Figure BDA0001877967290000032
D=2048,K=20;则利用决策性’soft’关注机制,可得:
Figure BDA0001877967290000033
Figure BDA0001877967290000034
其中αlti和βati是基于目标关注和空间关注针对第i区域的关注权重值,而这两个权重值通过下式算得:
αlti∝exp{fwl(li,ht-1)}
βati∝exp{fwa(ai,ht-1)}
其中ht-1是LSTM在时刻t-1的表达,fwl和fwa是投影方程,则具有强视觉表征能力的视觉特征表达vt
vt=Wl·vlt+Wa·vat
其中Wl和Wa是vlt和vat的投影矩阵。在LSTM语言模型中将vt和wt相结合作为其t时刻的输入。
优选的,所述S40中,从vl提取top-10的目标,及其目标框和标签,通过架构短句的计算算法,可得出视觉架构短句Ls={ls1,ls2,...,lsN},N=10,提出一个编解码结构来学习这样的架构短句的表达:
hst=LSTMen(wst,hs(t-1))
hdt=LSTMde(hsN,hd(t-1))
其中wst是t时刻架构短句的单词的嵌入表达,hsN是最后N时刻LSTM解码器的输出。
优选的,所述S50中,将字表达向量Wt、循环层激活Rt、图像特征和构架短句整合在一起,具体过程如下:
ht=LSTM(Xt,ht-1)
mt=g(Wv·vt+Wh·ht)
其中g(·)是基于元素张量的hyperbolic tangent方程,Wv和Wh是vt和ht的投影矩阵。
优选的,所述S60中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
Figure BDA0001877967290000041
Figure BDA0001877967290000042
其中L是文本描述的句子长度(字的个数),PPL(w1:L|I)是指定图像I和w1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子长度。
优选的,模型在LSTM的初始化时,是采用具有超强视觉信息的架构短句约束向量和图像的全局特征作为初始化。
与现有技术相比,本发明技术方案的有益效果是:
1)采用视觉架构短句来获得图像的视觉先验知识,其具有更强的表征能力,并能反映图像的视觉内容。。
2)图像的特征表达是与句子的单词特征结合输入语言模型中去的,这样能更紧密联系这两个模态的信息。
3)借助双重视觉关注机制,本发明将图像显著区域的关注度体现出来,并由于其能准确定位到具体的目标框中,并采用空间上的关注来弥补基于目标关注的一些不足,如目标框无法完整概括视觉目标。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
附图说明
图1为基于架构短句约束向量和双重视觉关注机制的图像描述模型即本发明的总体流程图;
图2是架构短句约束向量生成模型,算法1是生成视觉架构短句的算法流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
图1~2所示,基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,包括以下步骤:
S10.训练集中的训练图片数据包含5个参考句子,每个句子中的单词经过one-hot编码,再经过嵌入矩阵,投影到嵌入空间,成为具有语义的字表达向量Wt
S20.字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的,在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接,作为该时刻的LSTM输入。
S30.图像经过Faster-RCNN提取全局特征和中间卷积层的局部特征,并采用决策性’soft’关注机制及上一时刻预测的单词表达,算出所有的局部特征图在该时刻的权重值,权值∈(0~1),采用Faster-RCNN对每张图片提取N个主要目标的局部区域表达,并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值,获得基于目标级别的视觉关注,最终结合空间及目标级别的两个关注过程,获得了具有超强视觉表征能力的关注特征,图像的关注特征作为步骤S20中与单词特征同等地位的LSTM输入;
S40.架构短句的获得及使用,借助S30中获得的20个显著目标,精提取10个显著目标及其对应的边界框和标签;对10个标签进行排序,生成了具有视觉意义的架构短句,并采用另一个预训练好编解码LSTM的中学习得到该短句的表达,且将该短句的表达和全局视觉特征一起作为语言模型LSTM的初始化;
S50.将以上的字表达向量Wt、循环层激活Rt、图像的图像特征和构架短句通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S60.整个模型的损失函数为对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
优选的,所述S10中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0;通过两个嵌入层将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字通过计算两个稠密字向量的欧式距离找出;其中由于每个图片会对应5个参考句子,将其看作5组训练数据对。
优选的,所述S20中,对于每一时刻帧的循环层激活Rt,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的;首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵;
在每一时刻加入双重视觉关注机制求得的视觉特征vt,在时刻0即初始时刻,将图形的全局特征vg和架构短句的向量拼接形态作为LSTM的初始化,即LSTM每一时刻的输入如下所示:
X={[vg,hsN],[w1,v1],...,[wL,vL],wL+1}
其中L是句子长度,vi是第i时刻的关注后的视觉特征,i∈{1,2,...,L}。
优选的,所述S30中,使用Faster-RCNN提取图像的全局特征vg和局部特征图va={a1,a2,...,aP},
Figure BDA0001877967290000061
D=2048,P=256;并在此基础上,借助感兴趣区域选择,得到20个最具目标特性的视觉区域vl={l1,l2,...,lK},
Figure BDA0001877967290000062
D=2048,K=20;则利用决策性’soft’关注机制,可得:
Figure BDA0001877967290000063
Figure BDA0001877967290000064
其中αlti和βati是基于目标关注和空间关注针对第i区域的关注权重值,而这两个权重值通过下式算得:
αlti∝exp{fwl(li,ht-1)}
βati∝exp{fwa(ai,ht-1)}
其中ht-1是LSTM在时刻t-1的表达,fwl和fwa是投影方程,则具有强视觉表征能力的视觉特征表达vt
vt=Wl·vlt+Wa·vat
其中Wl和Wa是vlt和vat的投影矩阵。在LSTM语言模型中将vt和wt相结合作为其t时刻的输入。
优选的,所述S40中,从vl提取top-10的目标,及其目标框和标签,通过架构短句的计算算法,可得出视觉架构短句Ls={ls1,ls2,...,lsN},N=10,提出一个编解码结构来学习这样的架构短句的表达:
hst=LSTMen(wst,hs(t-1))
hdt=LSTMde(hsN,hd(t-1))
其中wst是t时刻架构短句的单词的嵌入表达,hsN是最后N时刻LSTM解码器的输出。
优选的,所述S50中,将字表达向量Wt、循环层激活Rt、图像特征和构架短句整合在一起,具体过程如下:
ht=LSTM(Xt,ht-1)
mt=g(Wv·vt+Wh·ht)
其中g(·)是基于元素张量的hyperbolic tangent方程,Wv和Wh是vt和ht的投影矩阵。
优选的,所述S60中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
Figure BDA0001877967290000071
Figure BDA0001877967290000072
其中L是文本描述的句子长度(字的个数),PPL(w1:L|I)是指定图像I和w1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子长度。
优选的,模型在LSTM的初始化时,是采用具有超强视觉信息的架构短句约束向量和图像的全局特征作为初始化。
实施例2
本发明的生成架构短句的伪代码如下,
输入:视觉目标标签集L={l1,l2,...,lN};视觉目标框B={b1,b2,…,bN},以及每个目标框对应的位置坐标bi={xi1,yi1,xi2,yi2},i∈{1,2,...,N},N=10;
输出:架构短句Ls={ls1,ls2,...,lsN};
Figure BDA0001877967290000073
Figure BDA0001877967290000081
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,其特征在于,包括以下步骤:
S10.训练集中的训练图片数据包含5个参考句子,每个句子中的单词经过one-hot编码,再经过嵌入矩阵,投影到嵌入空间,成为具有语义的字表达向量Wt
S20.字表达向量用于循环卷积神经网络RNN某时刻帧t的输入,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的,在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接,作为该时刻的LSTM输入;
S30.图像经过Faster-RCNN提取全局特征和中间卷积层的局部特征,并采用决策性’soft’关注机制及上一时刻预测的单词表达,算出所有的局部特征图在该时刻的权重值,权值∈(0~1),采用Faster-RCNN对每张图片提取20个主要目标的局部区域表达,并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值,获得基于目标级别的视觉关注,最终结合空间及目标级别的两个关注过程,获得了具有超强视觉表征能力的关注特征,图像的关注特征作为步骤S20中与单词特征同等地位的LSTM输入;
S40.架构短句的获得及使用,借助S30中获得的20个显著目标,精提取10个显著目标及其对应的边界框和标签;对10个标签进行排序,生成了具有视觉意义的架构短句,并采用另一个预训练好编解码LSTM的中学习得到该短句的表达,且将该短句的表达和全局视觉特征一起作为语言模型LSTM的初始化;
S50.将以上的字表达向量Wt、循环层激活Rt、图像的图像特征和构架短句通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S60.整个模型的损失函数看成是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
2.根据权利要求1所述的基于神经网络及图像区域关注点的图像描述生成方法,其特征在于,所述S10中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0;通过两个嵌入层将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字通过计算两个稠密字向量的欧式距离找出;其中由于每个图片会对应5个参考句子,将其看作5组训练数据对。
3.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述S20中,对于每一时刻帧的循环层激活Rt,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的;首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵;
在每一时刻加入双重视觉关注机制求得的视觉特征vt,在时刻0即初始时刻,将图形的全局特征vg和架构短句的向量拼接形态作为LSTM的初始化,即LSTM每一时刻的输入如下所示:
X={[vg,hsN],[w1,v1],…,[wL,vL],wL+1}
其中L是句子长度,vi是第i时刻的关注后的视觉特征,i∈{1,2,…,L}。
4.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述S30中,使用Faster-RCNN提取图像的全局特征vg和局部特征图va={a1,a2,…,aP},
Figure FDA0003779202110000021
D=2048,P=256;并在此基础上,借助感兴趣区域选择,得到20个最具目标特性的视觉区域vl={l1,l2,…,lK},
Figure FDA0003779202110000022
D=2048,K=20;则利用决策性’soft’关注机制,可得:
Figure FDA0003779202110000023
Figure FDA0003779202110000024
其中αlti和βati是基于目标关注和空间关注针对第i区域的关注权重值,而这两个权重值通过下式算得:
αlti∝exp{fwl(li,ht-1)}
βati∝exp{fwa(ai,ht-1)}
其中ht-1是LSTM在时刻t-1的表达,fwl和fwa是投影方程,则具有强视觉表征能力的视觉特征表达vt
vt=Wl·vlt+Wa·vat
其中Wl和Wa是vlt和vat的投影矩阵,在LSTM语言模型中将vt和wt相结合作为其t时刻的输入。
5.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述S40中,从vl提取top-10的目标,及其目标框和标签,通过架构短句的计算算法,可得出视觉架构短句Ls={ls1,ls2,…,lsN},N=10,提出一个编解码结构来学习这样的架构短句的表达:
hst=LSTMen(wst,hs(t-1))
hdt=LSTMde(hsN,hd(t-1))
其中wst是t时刻架构短句的单词的嵌入表达,hsN是最后N时刻LSTM解码器的输出。
6.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述S50中,将字表达向量Wt、循环层激活Rt、图像特征和构架短句整合在一起,具体过程如下:
ht=LSTM(Xt,ht-1)
mt=g(Wv·vt+Wh·ht)
其中g(·)是基于元素张量的hyperbolic tangent方程,Wv和Wh是vt和ht的投影矩阵。
7.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述S60中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
Figure FDA0003779202110000031
Figure FDA0003779202110000032
其中L是文本描述的句子长度,所述的句子长度为句子中字的个数;PPL(w1:L|I)是指定图像I和w1:L下的句子混乱度;Ns和N分别是训练集中句子个数和字集中字个数;Li是ith句子长度。
8.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,模型在LSTM的初始化时,是采用具有超强视觉信息的架构短句约束向量和图像的全局特征作为初始化。
CN201811408575.1A 2018-11-23 2018-11-23 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 Active CN109543820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811408575.1A CN109543820B (zh) 2018-11-23 2018-11-23 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811408575.1A CN109543820B (zh) 2018-11-23 2018-11-23 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN109543820A CN109543820A (zh) 2019-03-29
CN109543820B true CN109543820B (zh) 2022-09-23

Family

ID=65850026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811408575.1A Active CN109543820B (zh) 2018-11-23 2018-11-23 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN109543820B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111864B (zh) * 2019-04-15 2023-05-26 中山大学 一种基于关系模型的医学报告生成系统及其生成方法
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN112070852B (zh) * 2019-06-10 2025-02-14 阿里巴巴集团控股有限公司 图像的生成方法和系统、数据处理方法
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN111062451B (zh) * 2019-12-30 2023-03-31 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN111368118B (zh) * 2020-02-13 2023-04-18 中山大学 一种图像描述生成方法、系统、装置和存储介质
CN111626116B (zh) * 2020-04-21 2022-12-27 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
CN111598041B (zh) * 2020-05-25 2023-05-02 青岛联合创智科技有限公司 一种用于物品查找的图像生成文本方法
CN112947930B (zh) * 2021-01-29 2024-05-17 南通大学 一种基于Transformer的Python伪代码自动生成方法
CN113095431B (zh) * 2021-04-27 2023-08-18 中山大学 一种基于注意力机制的图像描述方法、系统及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法
CN107169484A (zh) * 2017-07-14 2017-09-15 南京邮电大学 基于人眼视觉特性的图像质量评价方法
CN107391460A (zh) * 2017-07-04 2017-11-24 北京航空航天大学 一种工业安全主题多文档摘要自动生成方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103770733B (zh) * 2014-01-15 2017-01-11 中国人民解放军国防科学技术大学 一种驾驶员安全驾驶状态检测方法及装置
US11113598B2 (en) * 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US10621486B2 (en) * 2016-08-12 2020-04-14 Beijing Deephi Intelligent Technology Co., Ltd. Method for optimizing an artificial neural network (ANN)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法
CN107391460A (zh) * 2017-07-04 2017-11-24 北京航空航天大学 一种工业安全主题多文档摘要自动生成方法及装置
CN107169484A (zh) * 2017-07-14 2017-09-15 南京邮电大学 基于人眼视觉特性的图像质量评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Variable lighting face recognition using discrete wavelet transform;Haifeng Hu;《Pattern Recognition Letters》;20110623;全文 *
核主成分分析网络的人脸识别方法;胡伟鹏等;《中山大学学报》;20160930;全文 *

Also Published As

Publication number Publication date
CN109543820A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543820B (zh) 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN106777125B (zh) 一种基于神经网络及图像关注点的图像描述生成方法
CN111488726B (zh) 基于指针网络的非结构文本抽取多任务联合训练方法
JP7087938B2 (ja) 質問生成装置、質問生成方法及びプログラム
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN109800434B (zh) 基于眼动注意力的抽象文本标题生成方法
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN110188779A (zh) 一种图像语义描述的生成方法
CN111611805B (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN113553850A (zh) 一种基于有序结构编码指针网络解码的实体关系抽取方法
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN113784199B (zh) 一种用于生成视频描述文本的系统、方法、存储介质与电子设备
CN117058673A (zh) 文本生成图像模型训练方法、系统以及文本生成图像方法、系统
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN112784848A (zh) 一种基于多种注意力机制和外部知识的图像描述生成方法
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
CN114925703A (zh) 一种多粒度文本表示和图文融合的视觉问答方法及系统
CN113378919A (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
CN107665356A (zh) 一种图像标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant