CN109543820B

CN109543820B - 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法

Info

Publication number: CN109543820B
Application number: CN201811408575.1A
Authority: CN
Inventors: 胡海峰; 杨梁
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2022-09-23
Anticipated expiration: 2038-11-23
Also published as: CN109543820A

Abstract

本发明公开一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，通过对海量已标注文本描述的图像训练得到一个自动描述图像视觉内容信息的语义模型，其由三部分：架构短句生成模型，双重视觉关注机制和约束化语言模型。并实现对任意输入测试图像，自动生成文本描述。本发明能够有效地建立文本描述中单词和图像的联系，对基于语义上，图像显著目标或场景间的描述有很好的表现。

Description

基于架构短句约束向量和双重视觉关注机制的图像描述生成方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于深度神经网络的图像理解文本描述生成方法。

背景技术

获得文本级别的图像描述已经成为当前计算机视觉领域一个重要的研究课题，而在现实生活中，它有很多应用场景。比如早期的儿童教育，图像检索和盲人导航等。随着计算机视觉和自然语言处理技术的飞速发展，大量关于此课题的有效工作出现，其中很多是将它视为一个检索问题。研究者们通过学习一个节点嵌入层将文本句子和图像的特征投影至一个相同的语义空间中。这些方法通过从文本句子数据集中检索相似描述来生成图像描述，但是其缺乏能够产生有效结合目标和场景两者联系的图像描述。

绝大多数现有工作大都是基于CNN+RNN的框架上做效果上的提升。CNN可以从原始图像中提取强有力的视觉特征，而RNN能在给定视觉特征的情况下预测生成单词序列并生成句子。比如，(Mao et al.,2014)提出一个多模态RNN(M-RNN)模型来实现对单词的预测过程。(Jia et al.,2015)提出一个LSTM的扩展模型(g-LSTM)，它使用一种从图像中提取的额外语义信息作为LSTM的引导信息。(Fu et al.,2016)提出了一个能挖掘图像和句子平行结构的图像描述模型，及一种特殊场景上下文向量，其能概括图像的高层次语义信息，并可以使用它让模型指定场景化。(Yao et al.,2017)提出带属性的LSTM模型(LSTM-A)，其整合了属性信息到CNN+RNN架构中。然而，以上方法都忽略了句子的语义单词和图像视觉单词之间的语义联系。

而近来关于视觉关注机制的方法能结果上述联系问题，在单词的预测过程，并能可视化与之相关的视觉区域。比如随机性’hard’和决策性’soft’关注机制(Xu et al.,2015)，自适应关注(Lu et al.,2017)，语义关注(You et al.,2016),自上而下及自下而上关注(Anderson et al.,2018)。所有的这些机制都能在一定程度上反映文本和视觉模态间的内在联系，并能获得较好的性能。

发明内容

针对现有的方法缺乏能够产生有效结合目标和场景两者联系的图像描述的问题，本发明提出一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，本发明采用的技术方案是：

基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，包括以下步骤：

S10.训练集中的训练图片数据包含5个参考句子，每个句子中的单词经过one-hot编码，再经过嵌入矩阵，投影到嵌入空间，成为具有语义的字表达向量W_t；

S20.字表达向量用于循环卷积神经网络RNN某时刻帧t的输入，该时刻帧t的循环层激活R_t是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层R_t-1共同决定的，在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接，作为该时刻的LSTM输入。

S30.图像经过Faster-RCNN提取全局特征和中间卷积层的局部特征，并采用决策性’soft’关注机制及上一时刻预测的单词表达，算出所有的局部特征图在该时刻的权重值，权值∈(0～1)，采用Faster-RCNN对每张图片提取N个主要目标的局部区域表达，并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值，获得基于目标级别的视觉关注，最终结合空间及目标级别的两个关注过程，获得了具有超强视觉表征能力的关注特征，图像的关注特征作为步骤S20中与单词特征同等地位的LSTM输入；

S40.架构短句的获得及使用，借助S30中获得的20个显著目标，精提取10个显著目标及其对应的边界框和标签；对10个标签进行排序，生成了具有视觉意义的架构短句，并采用另一个预训练好编解码LSTM的中学习得到该短句的表达，且将该短句的表达和全局视觉特征一起作为语言模型LSTM的初始化；

S50.将以上的字表达向量W_t、循环层激活R_t、图像的图像特征和构架短句通过转换矩阵投影至同一维度的多模态空间上并直接元素相加，再用元素比例双曲线正切函数激活，最后通过softmax层得到下一字的概率分布；

S60.整个模型的损失函数为对应图片的文本标注的混乱度，其等价于字集的平均对数似然值，对其使用标准梯度下降算法，通过反向传播算法学习模型参数。

优选的，所述S10中，用one-hot码对子集编码，相应位置置1，代表某一特定字，其余置0；通过两个嵌入层将one-hot码投影至一个稠密字表达空间，其能将字的句法和语义含义编码出来，语义相关的字通过计算两个稠密字向量的欧式距离找出；其中由于每个图片会对应5个参考句子，将其看作5组训练数据对。

优选的，所述S20中，对于每一时刻帧的循环层激活R_t，是与当前时刻帧的字表达向量W_t和之前时刻帧t-1的循环层R_t-1共同决定的；首先将R_t-1到和W_t相同向量空间上，并将它们相加：

R_t＝f₁(U_r·R_t-1+W_t)

其中，f₁设置为ReLU，U_r是投影转换矩阵；

在每一时刻加入双重视觉关注机制求得的视觉特征v_t，在时刻0即初始时刻，将图形的全局特征v_g和架构短句的向量拼接形态作为LSTM的初始化，即LSTM每一时刻的输入如下所示：

X＝{[v_g，h_sN]，[w₁，v₁]，...，[w_L，v_L]，w_L+1}

其中L是句子长度，v_i是第i时刻的关注后的视觉特征，i∈{1，2，...，L}。

优选的，所述S30中，使用Faster-RCNN提取图像的全局特征v_g和局部特征图v_a＝{a₁，a₂，...，a_P}，

D＝2048，P＝256；并在此基础上，借助感兴趣区域选择，得到20个最具目标特性的视觉区域v_l＝{l₁，l₂，...，l_K}，

D＝2048，K＝20；则利用决策性’soft’关注机制，可得：

其中α_lti和β_ati是基于目标关注和空间关注针对第i区域的关注权重值，而这两个权重值通过下式算得：

α_lti∝exp{f_wl(l_i，h_t-1)}

β_ati∝exp{f_wa(a_i，h_t-1)}

其中h_t-1是LSTM在时刻t-1的表达，f_wl和f_wa是投影方程，则具有强视觉表征能力的视觉特征表达v_t：

v_t＝W_l·v_lt+W_a·v_at

其中W_l和W_a是v_lt和v_at的投影矩阵。在LSTM语言模型中将v_t和w_t相结合作为其t时刻的输入。

优选的，所述S40中，从v_l提取top-10的目标，及其目标框和标签，通过架构短句的计算算法，可得出视觉架构短句L_s＝{l_s1，l_s2，...，l_sN}，N＝10，提出一个编解码结构来学习这样的架构短句的表达:

h_st＝LSTM_en(w_st，h_s(t-1))

h_dt＝LSTM_de(h_sN，h_d(t-1))

其中w_st是t时刻架构短句的单词的嵌入表达，h_sN是最后N时刻LSTM解码器的输出。

优选的，所述S50中，将字表达向量W_t、循环层激活R_t、图像特征和构架短句整合在一起，具体过程如下：

h_t＝LSTM(X_t，h_t-1)

m_t＝g(W_v·v_t+W_h·h_t)

其中g(·)是基于元素张量的hyperbolic tangent方程，W_v和W_h是v_t和h_t的投影矩阵。

优选的，所述S60中，整个模型的训练采用对数似然损失函数，通过最小化损失函数，误差反向传播来更新模型参数，具体过程如下：

其中L是文本描述的句子长度(字的个数)，PPL(w_1:L|I)是指定图像I和w_1:L下的句子混乱度，N_s和N分别是训练集中句子个数和字集中字个数，L_i是i^th句子长度。

优选的，模型在LSTM的初始化时，是采用具有超强视觉信息的架构短句约束向量和图像的全局特征作为初始化。

与现有技术相比，本发明技术方案的有益效果是：

1)采用视觉架构短句来获得图像的视觉先验知识，其具有更强的表征能力，并能反映图像的视觉内容。。

2)图像的特征表达是与句子的单词特征结合输入语言模型中去的，这样能更紧密联系这两个模态的信息。

3)借助双重视觉关注机制，本发明将图像显著区域的关注度体现出来，并由于其能准确定位到具体的目标框中，并采用空间上的关注来弥补基于目标关注的一些不足，如目标框无法完整概括视觉目标。通过这个方式，有效地利用了目标或场景间的轻重关系，针对性地描绘图像的语义特性。

附图说明

图1为基于架构短句约束向量和双重视觉关注机制的图像描述模型即本发明的总体流程图；

图2是架构短句约束向量生成模型，算法1是生成视觉架构短句的算法流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，仅用于示例性说明，不能理解为对本专利的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

图1～2所示，基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，包括以下步骤：

R_t＝f₁(U_r·R_t-1+W_t)

其中，f₁设置为ReLU，U_r是投影转换矩阵；

X＝{[v_g，h_sN]，[w₁，v₁]，...，[w_L，v_L]，w_L+1}

D＝2048，P＝256；并在此基础上，借助感兴趣区域选择，得到20个最具目标特性的视觉区域v_l＝{l1，l₂，...，l_K}，

D＝2048，K＝20；则利用决策性’soft’关注机制，可得：

α_lti∝exp{f_wl(l_i，h_t-1)}

β_ati∝exp{f_wa(a_i，h_t-1)}

v_t＝W_l·v_lt+W_a·v_at

h_st＝LSTM_en(w_st，h_s(t-1))

h_dt＝LSTM_de(h_sN，h_d(t-1))

h_t＝LSTM(X_t，h_t-1)

m_t＝g(W_v·v_t+W_h·h_t)

实施例2

本发明的生成架构短句的伪代码如下，

输入：视觉目标标签集L＝{l₁，l₂，...，l_N}；视觉目标框B＝{b₁，b₂，…，b_N}，以及每个目标框对应的位置坐标b_i＝{x_i1，y_i1，x_i2，y_i2}，i∈{1，2，...，N}，N＝10；

输出：架构短句L_s＝{l_s1，l_s2，...，l_sN}；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，其特征在于，包括以下步骤：

S20.字表达向量用于循环卷积神经网络RNN某时刻帧t的输入，该时刻帧t的循环层激活R_t是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层R_t-1共同决定的，在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接，作为该时刻的LSTM输入；

S30.图像经过Faster-RCNN提取全局特征和中间卷积层的局部特征，并采用决策性’soft’关注机制及上一时刻预测的单词表达，算出所有的局部特征图在该时刻的权重值，权值∈(0～1)，采用Faster-RCNN对每张图片提取20个主要目标的局部区域表达，并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值，获得基于目标级别的视觉关注，最终结合空间及目标级别的两个关注过程，获得了具有超强视觉表征能力的关注特征，图像的关注特征作为步骤S20中与单词特征同等地位的LSTM输入；

S60.整个模型的损失函数看成是对应图片的文本标注的混乱度，其等价于字集的平均对数似然值，对其使用标准梯度下降算法，通过反向传播算法学习模型参数。

2.根据权利要求1所述的基于神经网络及图像区域关注点的图像描述生成方法，其特征在于，所述S10中，用one-hot码对子集编码，相应位置置1，代表某一特定字，其余置0；通过两个嵌入层将one-hot码投影至一个稠密字表达空间，其能将字的句法和语义含义编码出来，语义相关的字通过计算两个稠密字向量的欧式距离找出；其中由于每个图片会对应5个参考句子，将其看作5组训练数据对。

3.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述S20中，对于每一时刻帧的循环层激活R_t，是与当前时刻帧的字表达向量W_t和之前时刻帧t-1的循环层R_t-1共同决定的；首先将R_t-1到和W_t相同向量空间上，并将它们相加：

R_t＝f₁(U_r·R_t-1+W_t)

其中，f₁设置为ReLU，U_r是投影转换矩阵；

X＝{[v_g,h_sN],[w₁,v₁],…,[w_L,v_L],w_L+1}

其中L是句子长度，v_i是第i时刻的关注后的视觉特征,i∈{1,2,…,L}。

4.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述S30中，使用Faster-RCNN提取图像的全局特征v_g和局部特征图v_a＝{a₁,a₂,…,a_P},

D＝2048,P＝256；并在此基础上，借助感兴趣区域选择，得到20个最具目标特性的视觉区域v_l＝{l₁,l₂,…,l_K},

D＝2048,K＝20；则利用决策性’soft’关注机制，可得：

α_lti∝exp{f_wl(l_i,h_t-1)}

β_ati∝exp{f_wa(a_i,h_t-1)}

v_t＝W_l·v_lt+W_a·v_at

其中W_l和W_a是v_lt和v_at的投影矩阵，在LSTM语言模型中将v_t和w_t相结合作为其t时刻的输入。

5.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述S40中，从v_l提取top-10的目标，及其目标框和标签，通过架构短句的计算算法，可得出视觉架构短句L_s＝{l_s1,l_s2,…,l_sN}，N＝10，提出一个编解码结构来学习这样的架构短句的表达:

h_st＝LSTM_en(w_st,h_s(t-1))

h_dt＝LSTM_de(h_sN,h_d(t-1))

6.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述S50中，将字表达向量W_t、循环层激活R_t、图像特征和构架短句整合在一起，具体过程如下：

h_t＝LSTM(X_t,h_t-1)

m_t＝g(W_v·v_t+W_h·h_t)

7.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，所述S60中，整个模型的训练采用对数似然损失函数，通过最小化损失函数，误差反向传播来更新模型参数，具体过程如下：

其中L是文本描述的句子长度，所述的句子长度为句子中字的个数；PPL(w_1:L|I)是指定图像I和w_1:L下的句子混乱度；N_s和N分别是训练集中句子个数和字集中字个数；L_i是i^th句子长度。

8.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法，其特征在于，模型在LSTM的初始化时，是采用具有超强视觉信息的架构短句约束向量和图像的全局特征作为初始化。