CN108959322A - 信息处理方法和基于文本生成图像的装置 - Google Patents
信息处理方法和基于文本生成图像的装置 Download PDFInfo
- Publication number
- CN108959322A CN108959322A CN201710379515.0A CN201710379515A CN108959322A CN 108959322 A CN108959322 A CN 108959322A CN 201710379515 A CN201710379515 A CN 201710379515A CN 108959322 A CN108959322 A CN 108959322A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- sample
- decoder
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了信息处理方法和基于文本生成图像的装置。所述方法包括:从样本文本中提取表征样本文本中的词之间的关联性的文本特征;以尺寸变化的窗口来选择性地截取文本特征的各个局部,以得到各个局部文本特征;基于样本文本的各个局部文本特征和与样本文本对应的样本图像来训练图像生成模型,其中,图像生成模型包括编码器模块和解码器模块,训练后的图像生成模型中的解码器模块根据所输入的文本的各个局部文本特征来迭代地生成与所输入的文本对应的图像,并且各个局部文本特征分别在各次迭代中截取。
Description
技术领域
本发明涉及信息处理领域,尤其深度学习领域,并且具体地涉及信息处理方法和基于文本生成图像的装置。
背景技术
基于自然语言描述而自动生成图像是人工智能领域中非常重要的研究内容,有非常广泛的应用。在这方面,深度学习方法已经取得很多进展。在深度学习技术中主要有两类方法生成图像,一类是变分自编码方法,一类是生成对抗网络方法。
Kingma&Welling提出的变分自编码方法可看做是一个有连续隐变量的神经网络。编码端模型近似隐变量的后验概率分布,解码端模型基于隐变量的概率分布而构造图像。Gregor等人提出了深度循环关注写模型(Deep Recurrent Attention Write(DRAW))生成图像,DRAW模型将变分自编码方法扩展到序列变分自编码框架。
生成对抗网络方法包括一个基于概率分布生成数据的生成器模型和一个判断数据是真实数据还是生成数据的判别器模型。Gauthier提出了一种条件对抗网络来生成不同类别的图像。Denton等人在拉普拉斯金字塔框架下为每层图像都训练一个条件生成对抗网络,然后在拉普拉斯金字塔框架下基于每层的条件对抗网络由粗糙到精细地生成图像。
虽然现有技术中已存在上述生成图像的技术,但仍需要改进的基于文本生成图像的方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,该概述并不是关于本发明的穷举性概述,它并非意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为后文的具体实施方式部分的铺垫。
本发明提供了一种信息处理方法,包括:从样本文本中提取表征样本文本中的词之间的关联性的文本特征;以尺寸可变的窗口来选择性地截取所述文本特征的各个局部,以得到各个局部文本特征;基于所述样本文本的各个局部文本特征和与所述样本文本对应的样本图像来训练图像生成模型,其中,所述图像生成模型包括编码器模块和解码器模块,训练后的图像生成模型中的解码器模块根据所输入的文本的各个局部文本特征来迭代地生成与所输入的文本对应的图像,并且各个局部文本特征分别在各次迭代中截取。
根据本发明的另一方面,提供了一种基于文本生成图像的装置,包括:文本特征提取部,提取表征文本中的词之间的关联性的文本特征;局部文本特征截取部,以尺寸可变的窗口来选择性地截取所述文本特征的各个局部,以得到局部文本特征;以及图像生成模型,所述图像生成模型中的解码器模块根据输入文本的各个局部文本特征来迭代地生成与所述输入文本对应的图像,各个局部文本特征分别在各次迭代中来截取。
根据本发明的又一方面,提供了一种利用上述的训练后的装置来基于文本生成图像的方法,包括:由所述文本特征提取部提取表征文本中的词之间的关联性的文本特征;由所述局部文本特征截取部以尺寸可变的窗口来选择性地截取所述文本特征的各个局部,以得到局部文本特征;以及所述图像生成模型中的解码器模块根据输入文本的各个局部文本特征来迭代地生成与所述输入文本对应的图像,各个局部文本特征分别在各次迭代中来截取。
根据本发明的再一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
根据本发明的再一方面,还提供了一种程序。所述程序包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照附图来阅读本发明的各实施方式,将更容易理解本发明的其它特征和优点,在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:
图1是示出根据本发明实施方式的基于文本生成图像的装置的结构的示意图。
图2是示出根据本发明实施方式的基于文本生成图像的装置中的文本特征提取部的结构的示意图。
图3是示出根据本发明实施方式的基于文本生成图像的装置中的图像生成模型的结构的示意图。
图4是示出根据本发明实施方式的基于文本生成图像的装置的训练处理的流程图。
图5是示出根据本发明实施方式的基于文本生成图像的装置中的图像生成模型的训练处理的流程图。
图6是示出根据本发明实施方式的基于文本生成图像的装置在训练状态下的配置示例的示意图。
图7是示出根据本发明实施方式的基于文本生成图像的装置中的图像生成模型的配置示例的示意图。
图8是示出利用根据本发明实施方式的训练后的基于文本生成图像的装置来生成图像的方法的流程图。
图9是示出在使用状态下解码器模块生成图像的处理的流程图。
图10是示出根据本发明实施方式的基于文本生成图像的装置在使用状态下的配置示例的示意图。
图11是示出用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施方式
现参照附图对本发明的实施方式进行详细描述。应注意,以下描述仅仅是示例性的,而并不旨在限制本发明。此外,在以下描述中,将采用相同的附图标号表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征,可彼此结合,以形成本发明范围内的其他实施方式。
首先参照图1,其示出了根据本发明实施方式的基于文本生成图像的装置的结构的示意图。如图1所示,装置100包括文本特征提取部110、局部文本特征截取部120和图像生成模型130。
文本特征提取部110用于提取表征文本中的词之间的关联性的文本特征。具体地,如图2所示,文本特征提取部110包括向量化单元111和文本特征提取单元112。向量化单元111利用现有的分布表示技术(诸如Log双线性语言模型(LBL)、C&W模型、Word2vec等)对文本进行向量化(图1中未示出),以得到低维度的词向量。文本特征提取单元112利用公知的前向循环神经网络和后向循环神经网络,基于词向量来提取表征文本中的词之间的关联性的文本特征。此处,也可以单独利用前向循环神经网络或后向循环神经网络来提取文本特征。
局部文本特征截取部120以尺寸可变的窗口来选择性地截取文本特征的各个局部,以得到局部文本特征。其中,各个局部文本特征分别在图像生成模型130的各次迭代操作中来截取,并且在当前迭代中,局部文本特征截取部120基于前次迭代中的解码器模块中的解码器的输出来截取局部文本特征。
图像生成模型130基于样本文本的各个局部文本特征和与样本文本对应的样本图像来训练。其中,训练后的图像生成模型中的解码器模块根据所输入的文本的各个局部文本特征来迭代地生成与所输入的文本对应的图像。图像生成模型130可以是公知的DRAW(Deep Recurrent Attentive Writer)模型。
图3示出了根据本发明实施方式的图像生成模型130的结构示意图。如图3所示,图像生成模型130包括解码器模块131、编码器模块132和计算模块133。
在训练状态下,编码器模块132迭代地压缩样本图像,并且在各次迭代中输出特征量的第一分布,该特征量表征样本图像和样本文本的关键信息。在训练状态下,解码器模块131基于样本文本的各个局部文本特征和各个第一分布来迭代地生成输出图像,并且计算各次迭代中的特征量的第二分布。在此,编码器模块132和解码器模块131均通过循环神经网络(RNN)来实现。计算模块133基于样本图像、输出图像、第一分布和第二分布来计算图像生成模型的损失函数以优化图像生成模型。
在利用训练后的装置100基于文本来生成图像的使用状态下,解码器模块131根据输入文本的各个局部文本特征和各个第二分布来迭代地生成与输入文本对应的图像,各个局部文本特征分别在各次迭代中来截取。在使用状态下,编码器模块132不参与操作。
如图3所示,编码器模块132包括读取部1321、编码器1322和构建部1323。读取部1321基于在前次迭代中解码器模块的输出和解码器的输出来读取样本图像的局部,以得到局部样本图像。编码器1322基于编码器和解码器在前次迭代中的输出来压缩局部样本图像。构建部1323基于编码器的输出来构建第一分布。
解码器模块131包括采样部1311,解码器1312、构建部1313和写出部1314。在训练状态下,采样部1311从第一分布中采集特征量。解码器1312基于局部文本特征和前次迭代中的解码器输出,对所采集的特征量进行解码。构建部1313基于前次迭代中解码器的输出来构建第二分布。写出部1314将当前迭代中的解码器输出写出到帆布矩阵的相应区域中。解码器模块基于最终的得到帆布矩阵来生成输出图像。
在使用状态下,构建部1313基于前次迭代中解码器的输出来构建第二分布。采样部1311从第二分布中采集特征量。解码器1312基于局部文本特征和前次迭代中的解码器输出,对所采集的特征量进行解码。写出部1314将当前迭代中的解码器输出写出到帆布矩阵的相应区域中。
计算模块133包括第一计算部1331、第二计算1332和确定部1333。第一计算部1331计算关于样本图像和输出图像的第一损失函数。第二计算部1332计算关于第一分布和第二分布的第二损失函数。确定部1333基于第一损失函数和第二损失函数来确定总的损失函数。
下面,参考图4至图7来描述装置100的训练处理。图4是示出根据本发明实施方式的基于文本生成图像的装置的训练处理的流程图。如图4所示,训练处理200包括步骤S210至步骤S230。
在步骤S210中,从样本文本中提取表征样本文本中的词之间的关联性的文本特征。具体地,首先利用公知的分布表示技术来对样本文本进行向量化,以得到低维度的多个词向量。然后,基于词向量来提取表征样本文本中的词之间的关联性的文本特征,在此可以利用前向循环神经网络和/或后向循环神经网络来提取文本特征。
在步骤220中,以尺寸可变的窗口来选择性地截取文本特征的各个局部,以得到各个局部文本特征。
在步骤S230中,基于样本文本的各个局部文本特征和与样本文本对应的样本图像来训练图像生成模型,其中,图像生成模型包括编码器模块和解码器模块,训练后的图像生成模型中的解码器模块根据所输入的文本的各个局部文本特征来迭代地生成与所输入的文本对应的图像,并且各个局部文本特征分别在各次迭代中截取。
图5示出了图像生成模型130的训练处理的具体流程。如图5所示,步骤S230的处理具体包括步骤S231至步骤S233。
参考图5,在步骤S231中,利用编码器模块来迭代地压缩样本图像,并且在各次迭代中从编码器模块输出特征量的第一分布,该特征量表征样本图像和样本文本的关键信息。具体地,基于在前次迭代中解码器模块的输出和解码器的输出来读取样本图像的局部,以得到局部样本图像;并且基于解码器和编码器在前次迭代中的输出,来压缩局部样本图像。另外,每次迭代中的第一分布基于编码器的输出来构建。
在步骤S232中,基于样本文本的各个局部文本特征和各个第一分布,利用解码器模块来计算各次迭代中的特征量的第二分布并且迭代地生成输出图像。具体地,在每次迭代中从第一分布中采集特征量;基于局部文本特征和前次迭代中解码器的输出,利用解码器对所采集的特征量进行解码;基于前次迭代中解码器的输出来构建第二分布;在每次迭代中将解码器的输出写出到同一矩阵,作为解码器模块的输出;以及基于最终得到的矩阵来生成输出图像。
在步骤S233中,基于样本图像、输出图像、第一分布和第二分布来计算图像生成模型的损失函数以优化图像生成模型。具体地,首先计算关于样本图像和输出图像之间的第一损失函数,接着计算关于第一分布和第二分布之间的第二损失函数,最后基于第一损失函数和第二损失函数来确定总的损失函数,并利用诸如反向传播法更新模型的参数以最小化损失函数。
下面参考图6和图7中的配置示例,来具体解释根据本发明实施方式的基于文本生成图像的装置的训练处理。图6是示出根据本发明实施方式的基于文本生成图像的装置100在训练状态下的配置示例的示意图。图7是示出图像生成模型的配置示例的示意图。在图6和图7中,图像生成模型被示出为DRAW模型,然而本发明的图像生成模型不限于DRAW,本领域技术人员可以根据需要而采用能够实现本发明的任何其他的模型。
在以下描述中,用RNNenc表示由编码器1322在单个迭代步中实现的函数,RNNenc在第t个迭代步中的输出为编码端的隐矢量ht enc。类似地,用RNNdec表示解码器1312在单个迭代步中实现的函数,并且RNNdec在第t个迭代步中的输出为编码端的隐矢量ht dec。用RNNf表示由文本特征提取部110中的前向循环神经网络在单个迭代步中实现的函数,RNNf在第t个迭代步中的输出为矢量ht f。类似地,用RNNb表示后向循环神经网络在单个迭代步中实现的函数,RNNb在第t个迭代步中的输出为矢量ht b。另外,在以下描述中,除非另有说明,否则b=W(a)表示对矢量a进行线性加权和偏置运算以得到矢量b。具体训练过程如下:
过程1.初始化:初始化编码端和解码端的循环神经网络的初始状态,初始化双向循环神经网络的初始状态。令编码器的状态h0 enc,解码器的状态h0 dec,前向循环神经网络的状态h0 f,后向循环神经网络的状态hL-1 b为对应维度的0向量。初始化帆布矩阵C0为0矩阵。初始化写出部1313,读取部1321和局部文本特征截取部120的初始状态。设定总的迭代步数T的值。
过程2.从样本文本中提取文本特征:输入自然语言描述的句子y,并利用公知的分布表示技术(诸如Log双线性语言模型(LBL)、C&W模型、Word2vec等)将句子y向量化为低维的词向量ey=(ey0,ey1,..eyL-1),其中L是句子y所包含的单词的数量。将L个词向量eyi输入到双向循环神经网络中,得到作为文本特征的L个双向状态S=(h0 s,h1 s,…hL-1 s)=(h0 f h0 b,h1 f h1 b,…,hL-1 f hL-1 b),其中,hi f=RNNf(hi-1 f,eyi),hi b=RNNb(hi-1 b,eyi_r),其中词向量(ey0_r,ey1_r,…,eyL-1_r)=(eyL-1,...,ey1,ey0)。
过程3.截取局部文本特征:局部文本特征截取部120利用注意力模型Text_att以尺寸可变的注意窗口来选择性地截取文本特征S的各个局部。具体地,注意力模型基于解码器在第t-1个迭代步中的输出ht-1 dec计算注意窗口在S上的中心位置和尺寸:
注意窗口的中心位置Pcenter=L×sigmoid(ht-1 dec×Watt+batt),
注意窗口的尺寸Kwidth=0.5×L×sigmoid(ht-1 dec×Wwid+bwid),
其中Watt、batt、Wwid和bwid是注意模型Text_att的参数。
接着,将注意力模型Text_att作用于S得到st,st是S上以Pcenter为中心、宽度为Kwidth的局部文本特征。
过程4.读取局部样本图像:读取部1321利用现有的注意力模型Read_att来读取图像x的局部。具体地,通过将二维高斯滤波器阵列应用于图像x并且改变注意窗口的位置和变焦来得到各个局部图像。
N×N高斯滤波器阵列在图像中的位置通过指定该滤波器阵列的中心坐标(gX,gY)和相邻的滤波器之间的步幅δ来定位。步幅δ控制注意窗口的“变焦”,换言之,步幅δ越大,从原始图像中截取到的局部图像的区域越大,但图像的分辨率越低。在滤波器阵列中,位于第i行、第j列的滤波器的位置μi X,μj Y可以表示为:
除了以上注意参数gX,gY和δ以外,还需要另外两个注意参数来决定高斯滤波器的操作,即,高斯滤波器的精度σ2;以及增大滤波器响应的标量强度γ。给定A×B的输入图像x,在每个迭代步中,通过解码器的输出hdec的线性变换来动态地确定五个参数:
给定以上注意参数,则滤波器阵列的水平滤波矩阵FX和竖直滤波矩阵FY(分别为N×A维和N×B维)定义如下:
其中(i,j)是在注意窗口中的点,并且i和j的变化范围是从0到N-1;而(a,b)是在输入图像中的点,a、b的变化范围分别是[0,A-1]和[0,B-1]并且Zx,Zy是满足∑aFX[i,a]=1和∑bFY[j,b]=1的标准化常数。
给定由ht-1 dec确定的FX,FY和强度γ以及输入图像x和误差图像其中并且σ表示逻辑sigmoid函数则读取部返回根据输入图像和误差图像的两个N×N矩阵的串联:
在此,相同的滤波器矩阵同时应用于输入图像和误差图像。
过程5.压缩样本图像:在第t个迭代步将ht-1 dec、xt和输入到编码器1322,得到状态 其中Wenc1、Wenc2和benc是编码器的参数。
过程6.构建第一分布:基于编码器的输出ht enc来构建关于特征量zt的第一分布Q(Zt|z1,…,zt-1,x,y)。在此,第一分布Q服从具有以下等式所表示的均值μt和方差σt的高斯分布
第一分布Q不限于上述高斯分布,本领域技术人员可以根据实际需要选用合适的其他分布。
过程7.从第一分布采样特征量:采样部1311对第一分布Q(Zt|z1,…,zt-1,x,y)进行采样,以得到特征量zt。
过程8.对特征量进行解码:将zt和st输入到解码器1312以得到解码器1312在第t个迭代步的状态ht dec。
过程9.将解码器的输出写出到帆布矩阵:写出部1313利用注意力模型Write_att来将解码器在第t个迭代步的输出ht dec写出到帆布矩阵C。具体地,类似于过程4来计算注意力模型Write_att的五个参数(gX,gY,σ,δ,γ):
其中W(ht dec)=sigmoid(ht dec×Wwrite+bwrite)。并且,高斯滤波器的滤波矩阵Fx和Fy分别为:
接着,将注意力模型Write_att作用于ht dec得到矩Writet:
过程10.构建第二分布:基于ht dec构建第二分布P(Zt|z1…zt-1),第二分布P服从均值为μ’t和方差为σ’t的高斯分布N(Zt|μ’t,σ’t),其中:
μ’t=W(ht dec),
σ’t=exp(W(ht dec))。
过程11.更新帆布矩阵:更新帆布矩阵Ct=Ct-1+Writet,其中C是和输入图像大小一样的矩阵。
过程12.迭代操作:重复执行过程3到过程11,直到满足最大迭代次数T。
过程13.计算损失函数,用反向传播法更新装置100的参数以最小化损失函数:在此使用的损失函数为:
其中,-logP(x|y,z1,…,zT)表示图像重构损失,可以理解为所生成图像与输入图像的相似度;并且表示所构建的第一分布Q与第二分布P的损失。
以上描述了基于文本生成图像的装置100的训练处理。下面将参考图8至图10来说明利用训练后的装置100来生成图像的方法以及装置100在使用状态下的配置。
图8示出了利用根据本发明实施方式的训练后的装置100基于文本来生成图像的方法的流程图。如图8所示,方法300包括步骤S310至步骤S330。在步骤S310中,由文本特征提取部从样本文本中提取表征样本文本中的词之间的关联性的文本特征。在步骤S320中,由局部文本特征截取部以尺寸可变的窗口来选择性地截取文本特征的各个局部,以得到各个局部文本特征。在步骤S330中,解码器模块根据输入文本的各个局部文本特征来迭代地生成与输入文本对应的图像,各个局部文本特征分别在各次迭代中来截取。
步骤S310和步骤S320的操作与图4中的步骤S210和步骤S220的操作相同,为了简便起见,在此不再赘述。以下,参考图9来具体描述步骤S330的处理。
如图9所示,解码器模块生成图像的处理S330包括步骤S331至步骤S335。在步骤S331中,在每次迭代中由构建部1313基于前次迭代中解码器的输出来构建第二分布P。在步骤S332中,由采样部1311从第二分布P中采集特征量。在步骤S333中,基于局部文本特征和前次迭代中的解码器输出,由解码器1312对所采集的特征量进行解码。在步骤S334中,在每次迭代中,由写出部1314将解码器的输出写出到同一矩阵。在步骤S334中,由解码器模块131基于最终得到的矩阵来生成输出图像。
图10是示出根据本发明实施方式的装置100在使用状态下的配置示例的示意图。因在使用状态下不需要编码器模块来构建第一分布Q,从而图10省略了未参与操作的编码器模块132。
下面,参考图10来详细解释利用训练后的装置100来生成图像的具体过程。
过程1.初始化:初始化解码端循环神经网络的初始状态、初始化双向循环神经网络的初始状态。令解码器的状态h0 dec,前向循环神经网络的状态h0 f,后向循环神经网络的状态hL-1 b和帆布矩阵C0为对应维度的0向量或矩阵。初始化写出部1313和局部文本特征截取部120的初始状态。设定总的迭代步数T的值,优选地在使用状态下的T值与训练状态下的T值相同。
过程2.提取文本特征:利用公知的分布表示技术提取所输入的文本y的文本特征S。
过程3:提取局部文本特征:基于ht-1dec计算局部文本特征截取部120中的注意力模型Text_att的注意窗口的中心位置和尺寸,并将注意力模型Text_att作用于S以获得局部文本特征st。
过程4.构建第二分布:基于ht-1 dec来构建关于特征量zt的第二分布P(Zt|z1,…,zt-1)。
过程5.从第二分布采样特征量:采样部1311从第二分布中P(Zt|z1,…,zt-1)采样特征量zt。
过程6:对特征量进行解码:将zt和st输入到解码器1312,得到第t步的状态ht dec。
过程7.将解码器的输出写出到帆布矩阵:基于ht dec计算写出部1313中的注意力模型Write_att的参数(gX,gY,σ,δ,γ),并将注意力模型Write_att作用于ht dec得到矩阵Writet。
过程8.更新帆布矩阵:更新帆布矩阵Ct=Ct-1+Writet。
过程9.迭代操作:重复执行过程3到过程8,直到满足最大迭代次数T。
过程10.生成图像:基于矩阵CT生成输出图像x’,x’=sigmoid(CT)。
另外,这里尚需指出的是,上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图11所示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图11示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,还根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的次序顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
以上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是示例性的,而非旨在对本发明进行限制。应注意,在以上描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。本领域技术人员可以理解,在不脱离本发明的发明构思的情况下,针对以上所描述的实施方式进行的各种变化和修改,均属于本发明的范围内。
综上,在根据本发明的实施例中,本发明提供了如下技术方案。
方案1.一种信息处理方法,包括:
从样本文本中提取表征样本文本中的词之间的关联性的文本特征;
以尺寸变化的窗口来选择性地截取所述文本特征的各个局部,以得到各个局部文本特征;
基于所述样本文本的各个局部文本特征和与所述样本文本对应的样本图像来训练图像生成模型,
其中,所述图像生成模型包括编码器模块和解码器模块,训练后的图像生成模型中的解码器模块根据所输入的文本的各个局部文本特征来迭代地生成与所输入的文本对应的图像,并且各个局部文本特征分别在各次迭代中截取。
方案2.根据方案1所述的信息处理方法,其中,从样本文本中提取所述文本特征包括:
对所述样本文本进行向量化,以得到低维度的多个词向量;以及
基于所述词向量来提取表征所述样本文本中的词之间的关联性的文本特征。
方案3.根据方案2所述的信息处理方法,其中,利用前向循环神经网络和/或后向循环神经网络来提取所述文本特征。
方案4.根据方案1所述的信息处理方法,其中,训练所述图像生成模型包括:
利用所述编码器模块来迭代地压缩所述样本图像,并且在各次迭代中从所述编码器模块输出特征量的第一分布,所述特征量表征所述样本图像和所述样本文本的关键信息;
利用所述解码器模块基于所述样本文本的各个局部文本特征和各个第一分布来迭代地生成输出图像,并且利用所述解码器模块来构建各次迭代中的所述特征量的第二分布;以及
基于所述样本图像、所述输出图像、所述第一分布和所述第二分布来计算所述图像生成模型的损失函数以优化所述图像生成模型。
方案5.根据方案4所述的信息处理方法,其中,在每次迭代中,基于前次迭代中的解码器模块中的解码器的输出来截取所述局部文本特征。
方案6.根据方案5所述的信息处理方法,其中,在每次迭代中,利用编码器模块来迭代地压缩所述样本图像包括:
基于在前次迭代中所述解码器模块的输出和所述解码器的输出来读取所述样本图像的局部,以得到局部样本图像;以及
基于所述编码器模块中的编码器和所述解码器在前次迭代中的输出,所述编码器压缩所述局部样本图像。
方案7.根据方案6所述的信息处理方法,其中,每次迭代中的第一分布基于所述编码器的输出来构建。
方案8.根据方案7所述的信息处理方法,其中,利用所述解码器模块来迭代地生成图像包括:
在每次迭代中从所述第一分布中采集所述特征量;
基于局部文本特征和前次迭代中解码器的输出,利用所述解码器对所采集的特征量进行解码;
基于前次迭代中解码器的输出来构建所述第二分布;
在每次迭代中将解码器的输出写出到同一矩阵,作为所述解码器模块的输出;以及
基于最终得到的矩阵来生成所述输出图像。
方案9.根据方案8所述的信息处理方法,其中,计算所述图像生成模型的损失函数包括:
计算关于所述样本图像和所述输出图像的第一损失函数;
计算关于所述第一分布和所述第二分布的第二损失函数;以及
基于所述第一损失函数和所述第二损失函数来确定所述损失函数。
方案10.根据方案6-9中任一项所述的信息处理方法,其中,所述编码器和所述解码器利用循环神经网络来实现。
方案11.根据方案10所述的信息处理方法,其中,所述图像生成模型为DRAW神经网络。
方案12.一种基于文本生成图像的装置,包括:
文本特征提取部,提取表征文本中的词之间的关联性的文本特征;
局部文本特征截取部,以尺寸变化的窗口来选择性地截取所述文本特征的各个局部,以得到局部文本特征;以及
图像生成模型,所述图像生成模型中的解码器模块根据输入文本的各个局部文本特征来迭代地生成与所述输入文本对应的图像,各个局部文本特征分别在各次迭代中来截取。
13.根据方案12所述的装置,其中,所述文本特征提取部包括:
向量化单元,对所述样本文本进行向量化,以得到低维度的多个词向量;以及
文本特征提取单元,基于所述词向量来提取表征所述样本文本中的词之间的关联性的文本特征。
14.根据方案13所述的装置,其中,所述文本特征提取部利用前向循环神经网络和/或后向循环神经网络来提取所述文本特征。
15.根据方案12所述的装置,其中,所述图像生成模型包括:
编码器模块,迭代地压缩所述样本图像,并且在各次迭代中输出特征量的第一分布,所述特征量表征所述样本图像和所述样本文本的关键信息;
解码器模块,基于所述样本文本的各个局部文本特征和各个第一分布,计算各次迭代中的所述特征量的第二分布并且迭代地生成输出图像;以及
计算模块,基于所述样本图像、所述输出图像、所述第一分布和所述第二分布来计算所述图像生成模型的损失函数以优化所述图像生成模型。
16.根据方案15所述的装置,其中,所述编码器模块包括:
读取部,基于在前次迭代中所述解码器模块的输出和所述解码器模块内的解码器的输出来读取所述样本图像的局部,以得到局部样本图像;
编码器,基于编码器和所述解码器在前次迭代中的输出来压缩所述局部样本图像;以及
构建部,在每次迭代中基于所述编码器的输出来构建第一分布。
17.根据方案16所述的装置,其中,所述解码器模块包括:
采样部,在每次迭代中从所述第一分布中采集所述特征量;
解码部,基于所述局部文本特征和前次迭代中的解码器输出,对所采集的特征量进行解码;
构建部,基于前次迭代中解码器的输出来构建所述第二分布;以及
写出部,在每次迭代中将解码器的输出写出到同一矩阵,作为所述解码器模块的输出,
其中,所述解码器模块基于最终的得到矩阵来生成所述输出图像。
18.根据方案17所述的装置,其中,所述计算模块包括:
第一计算部,计算关于所述样本图像和所述输出图像的第一损失函数;
第二计算部,计算关于所述第一分布和所述第二分布的第二损失函数;以及
确定部,基于所述第一损失函数和所述第二损失函数来确定所述损失函数。
19,根据方案12-18中任一项所述的装置,其中,所述图像生成模型为DRAW神经网络。
20.一种利用根据方案12-19的训练后的装置而基于文本生成图像的方法,包括:
由所述文本特征提取部提取表征文本中的词之间的关联性的文本特征;
由所述局部文本特征截取部以尺寸变化的窗口来选择性地截取所述文本特征的各个局部,以得到局部文本特征;以及
所述图像生成模型中的解码器模块根据输入文本的各个局部文本特征来迭代地生成与所述输入文本对应的图像,各个局部文本特征分别在各次迭代中来截取。
Claims (10)
1.一种信息处理方法,包括:
从样本文本中提取表征样本文本中的词之间的关联性的文本特征;
以尺寸变化的窗口来选择性地截取所述文本特征的各个局部,以得到各个局部文本特征;
基于所述样本文本的各个局部文本特征和与所述样本文本对应的样本图像来训练图像生成模型,
其中,所述图像生成模型包括编码器模块和解码器模块,训练后的图像生成模型中的解码器模块根据所输入的文本的各个局部文本特征来迭代地生成与所输入的文本对应的图像,并且各个局部文本特征分别在各次迭代中截取。
2.根据权利要求1所述的信息处理方法,其中,从样本文本中提取所述文本特征包括:
对所述样本文本进行向量化,以得到低维度的多个词向量;以及
基于所述词向量来提取表征所述样本文本中的词之间的关联性的文本特征。
3.根据权利要求1所述的信息处理方法,其中,训练所述图像生成模型包括:
利用所述编码器模块来迭代地压缩所述样本图像,并且在各次迭代中从所述编码器模块输出特征量的第一分布,所述特征量表征所述样本图像和所述样本文本的关键信息;
利用所述解码器模块基于所述样本文本的各个局部文本特征和各个第一分布来迭代地生成输出图像,并且利用所述解码器模块来构建各次迭代中的所述特征量的第二分布;以及
基于所述样本图像、所述输出图像、所述第一分布和所述第二分布来计算所述图像生成模型的损失函数以优化所述图像生成模型。
4.根据权利要求3所述的信息处理方法,其中,在每次迭代中,基于前次迭代中的解码器模块中的解码器的输出来截取所述局部文本特征。
5.根据权利要求4所述的信息处理方法,其中,在每次迭代中,利用编码器模块来迭代地压缩所述样本图像包括:
基于在前次迭代中所述解码器模块的输出和所述解码器的输出来读取所述样本图像的局部,以得到局部样本图像;以及
基于所述编码器模块中的编码器和所述解码器在前次迭代中的输出,所述编码器压缩所述局部样本图像。
6.根据权利要求5所述的信息处理方法,其中,每次迭代中的第一分布基于所述编码器的输出来构建。
7.根据权利要求6所述的信息处理方法,其中,利用所述解码器模块来迭代地生成图像包括:
在每次迭代中从所述第一分布中采集所述特征量;
基于局部文本特征和前次迭代中解码器的输出,利用所述解码器对所采集的特征量进行解码;
基于前次迭代中解码器的输出来构建所述第二分布;
在每次迭代中将解码器的输出写出到同一矩阵,作为所述解码器模块的输出;以及
基于最终得到的矩阵来生成所述输出图像。
8.根据权利要求7所述的信息处理方法,其中,计算所述图像生成模型的损失函数包括:
计算关于所述样本图像和所述输出图像的第一损失函数;
计算关于所述第一分布和所述第二分布的第二损失函数;以及
基于所述第一损失函数和所述第二损失函数来确定所述损失函数。
9.根据权利要求5-8中任一项所述的信息处理方法,其中,所述编码器和所述解码器利用循环神经网络来实现。
10.一种基于文本生成图像的装置,包括:
文本特征提取部,提取表征文本中的词之间的关联性的文本特征;
局部文本特征截取部,以尺寸变化的窗口来选择性地截取所述文本特征的各个局部,以得到局部文本特征;以及
图像生成模型,所述图像生成模型中的解码器模块根据输入文本的各个局部文本特征来迭代地生成与所述输入文本对应的图像,各个局部文本特征分别在各次迭代中来截取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710379515.0A CN108959322B (zh) | 2017-05-25 | 2017-05-25 | 信息处理方法和基于文本生成图像的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710379515.0A CN108959322B (zh) | 2017-05-25 | 2017-05-25 | 信息处理方法和基于文本生成图像的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959322A true CN108959322A (zh) | 2018-12-07 |
CN108959322B CN108959322B (zh) | 2021-09-10 |
Family
ID=64494571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710379515.0A Expired - Fee Related CN108959322B (zh) | 2017-05-25 | 2017-05-25 | 信息处理方法和基于文本生成图像的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959322B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920016A (zh) * | 2019-03-18 | 2019-06-21 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN109933320A (zh) * | 2018-12-28 | 2019-06-25 | 联想(北京)有限公司 | 一种图像生成方法及服务器 |
CN110163267A (zh) * | 2019-05-09 | 2019-08-23 | 厦门美图之家科技有限公司 | 一种图像生成模型的训练方法和生成图像的方法 |
CN111340056A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 信息处理方法以及信息处理设备 |
CN111985243A (zh) * | 2019-05-23 | 2020-11-24 | 中移(苏州)软件技术有限公司 | 情感模型的训练方法、情感分析方法、装置及存储介质 |
CN113841161A (zh) * | 2019-09-13 | 2021-12-24 | 甲骨文国际公司 | 用于自动生成内容分发图像的可扩展体系架构 |
CN117611705A (zh) * | 2023-12-20 | 2024-02-27 | 前锦网络信息技术(上海)有限公司 | 基于文本内容生成视觉内容的方法、搜索方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402853A (zh) * | 1999-12-02 | 2003-03-12 | 三菱电机株式会社 | 图像检索系统及图像检索方法 |
CN101655912A (zh) * | 2009-09-17 | 2010-02-24 | 上海交通大学 | 小波变换的计算机生成图像与自然图像的检测方法 |
CN101924851A (zh) * | 2009-06-16 | 2010-12-22 | 佳能株式会社 | 图像处理装置及图像处理方法 |
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN106529586A (zh) * | 2016-10-25 | 2017-03-22 | 天津大学 | 基于补充文本特征的图像分类方法 |
-
2017
- 2017-05-25 CN CN201710379515.0A patent/CN108959322B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402853A (zh) * | 1999-12-02 | 2003-03-12 | 三菱电机株式会社 | 图像检索系统及图像检索方法 |
CN101924851A (zh) * | 2009-06-16 | 2010-12-22 | 佳能株式会社 | 图像处理装置及图像处理方法 |
CN101655912A (zh) * | 2009-09-17 | 2010-02-24 | 上海交通大学 | 小波变换的计算机生成图像与自然图像的检测方法 |
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN106529586A (zh) * | 2016-10-25 | 2017-03-22 | 天津大学 | 基于补充文本特征的图像分类方法 |
Non-Patent Citations (2)
Title |
---|
ATZMON,Y.等: "Learning to generalize to new compositions in image understanding", 《ARXIV》 * |
梁欢: "基于深度学习的图像语义理解研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340056A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 信息处理方法以及信息处理设备 |
CN111340056B (zh) * | 2018-12-18 | 2023-09-08 | 富士通株式会社 | 信息处理方法以及信息处理设备 |
CN109933320A (zh) * | 2018-12-28 | 2019-06-25 | 联想(北京)有限公司 | 一种图像生成方法及服务器 |
CN109933320B (zh) * | 2018-12-28 | 2021-05-18 | 联想(北京)有限公司 | 一种图像生成方法及服务器 |
CN109920016A (zh) * | 2019-03-18 | 2019-06-21 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN110163267A (zh) * | 2019-05-09 | 2019-08-23 | 厦门美图之家科技有限公司 | 一种图像生成模型的训练方法和生成图像的方法 |
CN111985243A (zh) * | 2019-05-23 | 2020-11-24 | 中移(苏州)软件技术有限公司 | 情感模型的训练方法、情感分析方法、装置及存储介质 |
CN111985243B (zh) * | 2019-05-23 | 2023-09-08 | 中移(苏州)软件技术有限公司 | 情感模型的训练方法、情感分析方法、装置及存储介质 |
CN113841161A (zh) * | 2019-09-13 | 2021-12-24 | 甲骨文国际公司 | 用于自动生成内容分发图像的可扩展体系架构 |
CN117611705A (zh) * | 2023-12-20 | 2024-02-27 | 前锦网络信息技术(上海)有限公司 | 基于文本内容生成视觉内容的方法、搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108959322B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959322B (zh) | 信息处理方法和基于文本生成图像的装置 | |
US10671889B2 (en) | Committed information rate variational autoencoders | |
US11657230B2 (en) | Referring image segmentation | |
CN109906460B (zh) | 用于问答的动态协同注意力网络 | |
US11010666B1 (en) | Systems and methods for generation and use of tensor networks | |
US11966707B2 (en) | Quantum enhanced word embedding for natural language processing | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN106650813A (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
JP7648800B2 (ja) | 潜在的な埋込みのセットに対するクエリ埋込みのクロスアテンションによる、ニューラルネットワーク出力の生成 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
WO2022173497A9 (en) | Enhancing combinatorial optimization with quantum generative models | |
CN113408418A (zh) | 一种书法字体与文字内容同步识别方法及系统 | |
CN108509427A (zh) | 文本数据的数据处理方法及应用 | |
CN114519344B (zh) | 一种基于论元子图提示生成与引导的篇章级多事件抽取方法 | |
US20240062096A1 (en) | Enhancing optimization with an evolutionary generative algorithm using quantum or classical generative models | |
CN112712855B (zh) | 一种基于联合训练的含缺失值基因微阵列的聚类方法 | |
CN114494701A (zh) | 一种基于图结构神经网络的语义分割方法及装置 | |
CN118298431A (zh) | 一种自然场景图像描述生成方法及系统 | |
CN111161266B (zh) | 一种基于矢量量化的变分自编码机的多风格字体生成方法 | |
Yang et al. | Semantic layout-guided diffusion model for high-fidelity image synthesis in ‘The Thousand Li of Rivers and Mountains’ | |
Chen et al. | ELANet: an efficiently lightweight asymmetrical network for real-time semantic segmentation | |
CN116975315A (zh) | 文本匹配方法、装置、计算机设备和存储介质 | |
Zhang et al. | Byte-level recursive convolutional auto-encoder for text | |
CN108875758A (zh) | 信息处理方法和装置以及信息检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210910 |
|
CF01 | Termination of patent right due to non-payment of annual fee |