CN119206245A - 由电子设备执行的方法、电子设备、存储介质及程序产品 - Google Patents
由电子设备执行的方法、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN119206245A CN119206245A CN202310763525.XA CN202310763525A CN119206245A CN 119206245 A CN119206245 A CN 119206245A CN 202310763525 A CN202310763525 A CN 202310763525A CN 119206245 A CN119206245 A CN 119206245A
- Authority
- CN
- China
- Prior art keywords
- feature
- level feature
- semantic
- level
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本公开实施例提供了一种由电子设备执行的方法、电子设备、存储介质及程序产品,涉及人工智能技术领域。该方法包括:获取对第一图像进行编码所得的第一顶层特征与第一底层特征;基于第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素;基于目标语义元素进行稀疏编码,得到第一底层特征的量化表示;第一顶层特征的量化表示与第一底层特征的量化表示用于图像生成的解码输入,以得到第二图像。本公开的实施可以充分利用层级之间的关系,降低多层级表示的计算量。可选地,由电子设备执行的上述方法可以使用人工智能模型来执行。
Description
技术领域
本公开涉及人工智能技术领域,具体而言,本公开涉及一种由电子设备执行的方法、电子设备、存储介质及程序产品。
背景技术
在基于多层级表示的图像生成技术中,包含全局信息的顶层特征与包含细节信息的底层特征的相互补充可以有效提高重构图像的质量;然而,层级之间的关系没有被充分利用。
发明内容
本公开实施例提供了一种由电子设备执行的方法、电子设备、存储介质及程序产品,旨在充分利用层级特征之间的关系。该技术方案如下:
根据本公开实施例的一个方面,提供了一种由电子设备执行的方法,该方法包括:
获取对第一图像进行编码所得的第一顶层特征与第一底层特征;
基于所述第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素;
基于所述目标语义元素进行稀疏编码,得到第一底层特征的量化表示;
其中,所述第一顶层特征的量化表示与所述第一底层特征的量化表示用于图像生成的解码输入,以得到第二图像。
在一可行的实施例中,所述获取对第一图像进行编码所得的第一顶层特征与第一底层特征,包括:
获取对第一图像进行编码所得的第一顶层特征与第二底层特征;
通过神经网络中第一模块,对所述第一顶层特征进行语义特征提取,得到第二顶层特征;
基于所述第二顶层特征与所述第二底层特征获得第一底层特征。
在一可行的实施例中,所述基于所述第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素,包括:
获取对所述第一顶层特征进行量化所得的第一顶层特征的量化表示;
通过神经网络中第二模块,基于所述第一顶层特征的量化表示得到第一底层特征的目标语义组索引;
基于所述目标语义组索引得到与第一底层特征相应的目标语义元素;
其中,所述第一底层特征的码本被划分为若干语义组,每一语义组包括若干语义元素,且每一语义组与语义组索引具有一一对应的关系。
在一可行的实施例中,通过神经网络中第二模块,基于所述第一顶层特征的量化表示得到第一底层特征的目标语义组索引,包括:
通过所述第二模块包括的至少两个级联的卷积层,对所述第一顶层特征的量化表示进行卷积操作,获得第一顶层特征所属语义组的概率分布;
通过所述第二模块包括的激活函数层,基于所述第一顶层特征所属语义组的概率分布确定第一底层特征的目标语义组索引,所述激活函数层由可导函数构成。
在一可行的实施例中,所述第二模块包括的至少两个级联的卷积层包括级联设置的若干第一卷积层和若干第二卷积层;所述第一卷积层包括级联设置的卷积子层、组归一化子层和激活函数子层;所述第二卷积层包括卷积子层。
在一可行的实施例中,所述基于所述目标语义元素进行稀疏编码,得到第一底层特征的量化表示,包括:
通过神经网络中的第三模块,对所述目标语义元素进行线性组合,得到第一底层特征的量化表示。
在一可行的实施例中,所述对所述目标语义元素进行线性组合,得到第一底层特征的量化表示,包括:
基于可学习的参数矩阵与所述目标语义元素进行线性组合,得到第一底层特征的量化表示;所述参数矩阵通过约束所述神经网络整体的目标损失函数得到。
在一可行的实施例中,所述目标损失函数中将L1范数作为对所述参数矩阵的稀疏性约束。
根据本公开实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行该计算机程序以实现上述由电子设备执行的方法的步骤。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述由电子设备执行的方法的步骤。
根据本公开实施例的又一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述由电子设备执行的方法的步骤。
本公开实施例提供的技术方案带来的有益效果是:
本公开提供一种由电子设备执行的方法、电子设备、存储介质及程序产品,具体地,在图像生成过程中,在获取到对第一图像进行编码所得的第一顶层特征和第一底层特征后,基于量化后的第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素,继而基于该目标语义元素进行稀疏编码实现对第一底层特征的量化,得到第一底层特征的量化表示,得到的第一顶层特征的量化表示和第一底层特征的量化表示用于图像生成的解码输入,以得到第二图像。本公开的实施基于第一顶层特征的量化表示进行语义预测和稀疏编码,可以基于顶层特征(包含全局信息)自适应地计算相应的底层特征(包含细节信息),得到更加适用于全局特征的局部细节特征,实现在图像生成中对多层特征之间关系的充分利用。同时,使得在transformer阶段无需对底层特征的序列进行建模,可有效降低多层级表示的图像生成所需的计算量。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍。
图1为本公开实施例提供的一种由电子设备执行的方法的流程示意图;
图2为本公开实施例提供的一种VQ-GAN网络的架构示意图;
图3为本公开实施例提供的一种HR-VQVAE网络的架构示意图;
图4为本公开实施例提供的一种AHQ-VAE网络的架构示意图;
图5为本公开实施例提供的一种空间语义一致性模块的示意图;
图6为本公开实施例提供的一种语义组预测模块的示意图;
图7为本公开实施例提供的另一种语义组预测模块的示意图;
图8为本公开实施例提供的与语义组预测模块与稀疏编码模块相关的操作流程示意图;
图9为本公开实施例提供的一种视觉效果比较示意图;
图10为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
提供下列参考附图的描述以有助于对通过权利要求及其等效物定义的本公开的各种实施例的全面理解。本描述包括各种具体细节以有助于理解但是仅应当被认为是示例性的。因此,本领域普通技术人员将认识到,能够对这里描述的各种实施例进行各种改变和修改而不脱离本公开的范围与精神。此外,为了清楚和简明起见,可以略去对公知功能与结构的描述。
在下面说明书和权利要求书中使用的术语和措词不局限于它们的词典意义,而是仅仅由发明人用于使得能够对于本公开清楚和一致的理解。因此,对本领域技术人员来说应当明显的是,提供以下对本公开的各种实施例的描述仅用于图示的目的而非限制如所附权利要求及其等效物所定义的本公开的目的。
应当理解,单数形式的“一”、“一个”和“该”也可包括复数指代,除非上下文清楚地指示不是如此。因此,例如,对“部件表面”的指代包括指代一个或多个这样的表面。当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。
术语“包括”或“可以包括”指的是可以在本公开的各种实施例中使用的相应公开的功能、操作或组件的存在,而不是限制一个或多个附加功能、操作或特征的存在。此外,术语“包括”或“具有”可以被解释为表示某些特性、数字、步骤、操作、构成元件、组件或其组合,但是不应被解释为排除一个或多个其它特性、数字、步骤、操作、构成元件、组件或其组合的存在可能性。
在本公开的各种实施例中使用的术语“或”包括任意所列术语及其所有组合。例如,“A或B”可以包括A、可以包括B、或者可以包括A和B二者。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“参数A包括A1、A2、A3”的描述,可以实现为参数A包括A1或A2或A3,还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。
除非不同地定义,本公开使用的所有术语(包括技术术语或科学术语)具有本公开所述的本领域技术人员理解的相同含义。如在词典中定义的通常术语被解释为具有与在相关技术领域中的上下文一致的含义,而且不应理想化地或过分形式化地对其进行解释,除非本公开中明确地如此定义。
本公开实施例中所提供的装置或电子设备中的至少部分功能,可以通过AI(Artificial Intelligence,人工智能)模型来实现,如可以通过AI模型实现装置或电子设备的多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。
该处理器可以包括一个或多个处理器。此时,该一个或多个处理器可以是通用处理器,例如中央处理单元(CPU)、应用处理器(AP)等、或者是纯图形处理单元,例如,图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器,例如神经处理单元(NPU)。
该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。
这里,通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置或电子设备本身中执行,和/或可以通过单独的服务器/系统来实现。
AI模型可以包含多个神经网络层。每一层具有多个权重值,每一层通过该层的输入数据(如前一层的计算结果和/或AI模型的输入数据)和当前层的多个权重值之间的计算来执行神经网络计算。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。
学习算法是一种使用多个学习数据训练预定目标装置(例如,机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。
根据本公开,在电子设备中执行的至少一个步骤,如对第一顶层特征的量化表示进行卷积得到第一底层特征的语义组索引等步骤,可以使用人工智能模型来实现。电子设备的处理器可以对数据执行预处理操作,以转换成适合用作人工智能模型输入的形式。人工智能模型可以通过训练获得。这里,“通过训练获得”意味着通过训练算法用多条训练数据训练基本人工智能模型来获得被配置成执行期望特征(或目的)的预定义操作规则或人工智能模型。
在相关的图像生成(Image Generation)技术中,自回归(Auto-regressive,AR)模型作为图像生成方法之一,近年来取得了显著的成果。这些模型通常采用两阶段框架,第一阶段使用一组离散编码表示图像,第二阶段对这些编码进行自动回归建模。向量量化(Vector quantization,VQ)是离散化连续潜伏特征的一项重要技术,使AR模型能够有效地生成高分辨率的图像,而无需依赖像素对像素的预测。其中,VQ-GAN(vectorquantization-Generative Adversarial Network,量化的对抗生成网络,对应一种自回归图像生成方法),其涉及两个阶段的处理,在阶段1中包括编码器、VQ和解码器;编码器Encoder将输入图像表示成然后通过在码本codebook中查找最相似的向量代替得到zq,这一步也称为向量量化vector quantization;解码器Decoder将zq映射成图像,判别器discriminator用来判别是生成图像还是真实图像。在阶段2中根据阶段1得到的量化序列(如图2中1,42,3…)使用网络transformer(变换器)来拟合这个序列,根据虚线框中的公式给定前i-1个序列,transformer会预测第i个位置的元素(自回归)。Transformer预测得到全部的zq序列后,再通过decoder去生成图像;通过最小化交叉熵损失,采用变换器对离散编码进行建模。
在相关技术中,一方面,不同的VQ方法被用来缩小连续潜伏特征和量化离散表示之间的差距。另一方面,为使得重构的图像具有高保真性,分层的离散表征(多层级表示),特别是顶部(top layer)和底部(bottom layer)的表征,被用来捕捉全局语义信息,同时保留局部的精细细节,全局信息和细节信息的相互补充可以有效提高重构图像的质量。虽然这种直观的方法表现出了很好的性能,但多层级之间的关系没有被充分利用。
针对相关技术存在的问题或需要改善的地方,本公开提出一种自适应分层量化变异自动编码器(Adaptively Hierarchical Quantization Variational AutoEncoder,AHQ-VAE)来探索分层离散表示中的关系。具体地,使用了语义组预测(Semantic GroupPrediction,SGP)模块将顶部编码映射到相应的语义组,以便对底层潜伏特征进行量化处理和使用稀疏编码(Sparse Coding,SC)技术来计算所选语义组内元素的线性组合,为底层生成量化的表示,从而得到更加适用于全局特征的局部细节特征,充分利用层级特征之间的关系,并降低多层级表示的计算量。
下面通过对几个示例性实施方式的描述,对本公开实施例的技术方案以及本公开的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1示出了本公开实施例提供的一种由电子设备执行的方法的流程示意图,该方法可以终端或服务器执行。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。将在后续实施例中通过具体示例说明由各项设备执行的具体内容。
在针对本公开提供的方案进行具体说明之前,对图像生成中的相关操作进行说明。
给定输入的图像x∈RH×W×3,首先使用编码器Encoder E对输入图像进行编码,得到然后使用VQ对得到的z进行量化,得到接着使用解码器decoder D来得到重构的图像其中,使用Q(·)表示VQ的过程。在VQ过程中学习到的码本Codebook是一个元组的集合C=(k,ek)k∈[K],其中K是codebook的大小,是codebook中的第k个元素。量化过程是通过在codebook中查找与zi,j最近的元素ek得到zq,如下公式(1)所示:
在上述处理中,采用的目标函数可以表示如下公式(2):
在公式(2)中,第一项sg表示stop-gradient操作(即不对该变量进行参数更新),γ是最后一项损失函数的超参数。第一项损失函数是重构损失,表示生成的图像和输入图像x的差异,第二项表示用来优化codebook学习的损失函数,第三项表示相似commitmentloss,目的是鼓励encoder的输出尽量与所选中的codebook元素保持一致。
在基于多层级表示的图像生成方法中,通常考虑两个层级,可以将它们分别表示为ztop,zbot。它们用来做量化使用的codebook被表示为Ctop和Cbot。量化后的表示被写作和因此,基于层级表示的图像生成方法的损失函数表示如下公式(3):
上面的编码捕捉输入的全局信息,使模型能够理解整体结构和背景。另一方面,底层编码补偿了局部的精细细节,使模型能够捕捉到复杂而精确的特征。通过利用这种分层结构,该框架可以生成高保真的图像。
下面针对本公开实施例提供的由电子设备执行的方法进行说明。
具体地,如图1所示,本公开实施例提供的由电子设备执行的方法包括以下步骤S101-步骤S103:
步骤S101:获取对第一图像进行编码所得的第一顶层特征与第一底层特征。
步骤S102:基于所述第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素。
步骤S103:基于所述目标语义元素进行稀疏编码,得到第一底层特征的量化表示。
其中,所述第一顶层特征的量化表示与所述第一底层特征的量化表示用于图像生成的解码输入,以得到第二图像。
本公开实施例中,可以通过神经网络执行上述步骤S101-步骤S103。如图4所示,本公开提供的网络框架中可以包括语义组预测模块、稀疏编码模块。
其中,第一图像可以为图像生成中的输入图像,适应于不同的应用场景,其也可以是其他任意图像。第一顶层特征可以是顶层top layer的特征,包含全局语义信息;第一底层特征可以是底层bottom layer的特征,包含输入图像中的细节信息。第二图像可以为图像生成中的输出图像,也即生成图像。
可选地,如图4所示,第一顶层特征可以是编码器对输入图像进行编码所得的输出(nz是特征的维度);第一底层特征可以是编码器对输入图像进行编码所得的输出zbot;继而,将量化后的(第一顶层特征的量化表示)作为SGP的输入,该模块输出可以作为SC模块的输入,以用于对bottom layer的特征进行量化。在得到与第一底层特征相应的目标语义元素后,可以通过SC对该元素进行稀疏编码,得到最终bottom layer的量化表示。
其中,用来量化第一顶层特征的码本可以表示为Ctop,用来量化第一底层特征的码本可以表示为Cbot。
在VQ步骤中,本公开提供的网络框架使用近邻搜索来计算顶层编码,包含全局语义信息的输出(第一顶层特征)被应用于指导底部潜伏特征的语义组预测;通过SGP模块将顶层编码作为输入,并输出语义组信息,继而该语义组信息被用于底层潜势特征的量化。为了获得底层的量化表示,本公开应用SC操作,计算所选语义元素的线性组合。这个过程确保了底层编码适应相关的顶层编码,从而产生了具有精致细节和改进保真度的重构和生成。本公开的AHQ-VAE框架采用了分层表示法,以减少重构误差,且不增加第二阶段的计算成本。此外,包括SGP和SC的框架可以有效地利用顶层编码和底层编码之间的关系,使图像生成得到了显著的改善。
在一可行的实施例中,为充分利用顶层特征和底层特征之间的相关性,使得顶层特征与底层特征在空间语义上保持一致,本公开实施例提供的网络中还包括空间语义一致性映射(Spatially Consistent Semantics Embedding,SCSE)模块(又称第一模块),该模块可以将全局语义信息嵌入到底层表示中,以增强层级表示之间的语义一致性。
其中,如图4和图5所示,该模块的输入包括编码器输出的第一顶层特征和第二底层特征。可选地,步骤S101中获取对第一图像进行编码所得的第一顶层特征与第一底层特征,包括步骤A1-步骤A3:
步骤A1:获取对第一图像进行编码所得的第一顶层特征与第二底层特征。
步骤A2:通过神经网络中第一模块,对所述第一顶层特征进行语义特征提取,得到第二顶层特征。
步骤A3:基于所述第二顶层特征与所述第二底层特征获得第一底层特征。
可选地,在引入SCSE后,第一底层特征可以为在获得编码器输出的第二底层特征zbot和第一顶层特征ztop后,将该两者输入SCSE后得到的输出结果第一底层特征为时,其指示该特征经过SCSE模块后与第一顶层特征ztop具有一致性语义。在VQ步骤之前,利用SCSE模块可以有效地将高层捕获的语义信息注入底层特征中,该模块的结构如图5所示,其包括一个卷积层,该层负责纳入语义信息并提高潜伏特征之间的一致性。可选地,通过一个3*3的卷积conv对第一顶层特征ztop进行语义特征提取可以得到第二顶层特征,继而将第二顶层特征与第二底层特征zbot进行点积处理(也可以采用其他特征组合的方式,本公开对此不作限定),使用(i,j)处与ztop有相同语义的部分得到激活,达到空间语义一致性的目的;在此基础上,第一底层特征可以表示如下公式(4)所示:
本公开实施例中,所提出的AHQ-VAE利用SCSE模块促进语义一致性属性来计算对应于全局语义特征的自适应局部细节,使得AHQ-VAE框架所生成的图像在高保真下既能捕捉到细粒度特征,又能捕捉到全局特征。
本公开提出了一个自适应分层量化框架AHQ-VAE,它利用两层离散表示来进行高保真图像重建,如图4所示。AHQ-VAE首先使用卷积编码器将输入图像编码为顶层和底层的潜伏特征。顶层信息捕捉全局语义,而底层信息则关注局部细节。为了加强语义的一致性,引入了SCSE模块,该模块在空间上对顶层和底层潜伏特征中的语义信息进行调整。通过注入顶层潜伏特征捕获的全局语义信息,底层特征可以表现出一致的语义,同时保留了局部细节。在量化步骤中,本公开提出了两个模块,即SGP和SC,以计算相应顶层编码的自适应底层编码。SGP预测每个底层编码的语义组,而SC则结合所选组的元素来增强底层离散表示能力。在AHQVAE的支持下,分层表征内的关系被充分挖掘出来,以实现高保真重建。
下面针对本公开实施例中提供的SGP模块涉及的网络结构及其处理内容进行说明。
如图6所示,SGP模块(又称第二模块)中包括级联设置的若干卷积层、激活函数层。其中,至少两个级联的卷积层包括级联设置的若干第一卷积层和若干第二卷积层。可选地,第一卷积层包括级联设置的卷积子层(如3*3的卷积conv)、组归一化子层(GN,groupnormalization)和激活函数子层(如可以是Leaky ReLU,或其他激活函数);所述第二卷积层包括卷积子层(如3*3的卷积conv)。
可选地,步骤S102中基于所述第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素,包括步骤B1-步骤B3:
步骤B1:获取对所述第一顶层特征进行量化所得的第一顶层特征的量化表示。
步骤B2:通过神经网络中第二模块,基于所述第一顶层特征的量化表示得到第一底层特征的目标语义组索引。
步骤B3:基于所述目标语义组索引得到与第一底层特征相应的目标语义元素。
其中,所述第一底层特征的码本被划分为若干语义组,每一语义组包括若干语义元素,且每一语义组与语义组索引具有一一对应的关系。
SGP是本公开自适应分层量化的一个组成部分,它可以在充分利用空间语义一致性的基础上,实现将底层编码码本分割成多个语义组的合理假设。SGP模块的流程如图6所示。SGP模块可以由卷积层、组归一化层和激活函数层组成。这种结构能够有效地预测底层潜伏特征的语义组。其中,关于语义组,在框架中可以将码本Cbot分成M组(示例的,假设码本中包括9个元素,则可以依元素的排序划分为每一组包括三个元素的三个语义组),表示为Cbot={g1,g2,…,gM}。每个组,用gm=(h,en)n∈[N]表示,由N个元素组成。组间的元素代表不同的语义信息,而组内的元素则捕捉具有类似语义的不同概念。该模块将量化的顶层表示作为输入,并输出选定的组的底层潜势特征所对应的目标语义组索引。
可选地,SGP模块的输出,如下公式(5)所示:
其表示SGP模块预测的语义组group所对应的bottom codebook中的索引index。在SCSE的协助下,SGP模块有效地识别了相关的语义组并将其分配给底层潜势特征,且还确保了对来自顶层的全局语义信息和来自底层的局部细节的利用。
在一示例中,如图6所示,SGP的输出可以是语义组索引G(对应步骤B2);在另一示例中,如图7所示,SGP的输出可以是基于语义组索引G在第一底层特征的码本分组中进行查找后得到的目标语义组所包括的目标语义元素(对应步骤B3)。在本公开中为每个空间位置(i,j)的的量化分配一组元素可选地,如图8所示,基于语义组索引G在第一底层特征的码本分组中查找与其相应的目标语义组的操作可以独立于SGP和SC进行。
对查找目标语义组的过程进行示例说明:如图4所示,针对索引2,可以在码本中查找到对应的第二语义组g2作为目标语义组;针对索引11,可以在码本中查找到对应的第十一语义组g11作为目标语义组;以此类推,可以获取到与语义组索引相应的目标语义组。可以理解的是,每一目标语义组索引对应一组目标语义组,每一目标语义组包括若干语义元素,因此目标语义元素可以是指所有目标语义组所包括的元素。
可选地,步骤B2中通过神经网络中第二模块,基于所述第一顶层特征的量化表示得到第一底层特征的目标语义组索引,包括步骤B21-步骤B22:
步骤B21:通过所述第二模块包括的至少两个级联的卷积层,对所述第一顶层特征的量化表示进行卷积操作,获得第一顶层特征所属语义组的概率分布。
步骤B22:通过所述第二模块包括的激活函数层,基于所述第一顶层特征所属语义组的概率分布确定第一底层特征的目标语义组索引,所述激活函数层由可导函数构成。
其中,本公开实施例可以使用如图6对应的网络结构来实现所提出的SGP。可选地,可以基于编码器对输入图像x编码所得的第一顶层特征ztop进行量化(针对第一顶层特征的量化操作可以采用transformer阶段对序列的建模操作,在此不做赘述),得到量化后的作为该模块的输入,继而通过若干级联的第一卷积层对输入作卷积和归一化处理,并将得到的输出输入若干级联的第二卷积层得到第一顶层特征所属语义组的概率分布,进而通过可导函数Gumbel Softmax从概率分布中进行采样(也即从所得的若干个语义值中取最大值作为第一底层特征的目标语义组索引)。
下面针对本公开实施例提供的SC模块(第三模块)的处理内容进行说明。
在一可行的实施例中,步骤S103中基于所述第一底层特征的语义组索引进行稀疏编码,得到第一底层特征的量化表示,包括步骤C1:
步骤C1:通过神经网络中的第三模块,对所述目标语义元素进行线性组合,得到第一底层特征的量化表示。
其中,如图4所示,使用目标语义组索引index在bottom codebook进行查询,得到目标语义组该矩阵表示对于每个位置(i,j),可以为该位置的底层特征分配了一个有N个元素的语义组,并使用这N个元素对bottom特征进行量化,得到第一底层特征的量化表示。
可选地,第一底层特征的量化表示可以基于可学习的参数矩阵与基于G所获得的第一底层特征的码本分组中的目标语义组所包括的元素进行线性组合得到的结果;如下公式(6)所示:
其中,⊙为点乘操作。所述参数矩阵α通过约束所述神经网络整体的目标损失函数得到;可以理解的是,参数矩阵α为本公开创建的可学习的参数矩阵,其学习过程通过约束目标损失函数完成。
可选地,所述目标损失函数中将L1范数作为对所述参数矩阵的稀疏性约束;其中,目标损失函数如下公式(7)所示:
在该公式(7)中加入了l1范数作为对α稀疏性的约束。其中τ是稀疏性的权重;γ是所属项的loss权重;sg表示stop-gradient operator,不对该变量进行参数更新。
具体地,第一项损失函数是重构损失,表示生成的图像与输入图像之间的差异;第二项损失函数是针对顶层特征用于优化码本学习的损失函数;第三项损失函数是针对顶层特征的相似损失commitment loss,用于鼓励编码器的输出尽量与所选中的码本元素保持一致;第四项损失函数与第二项损失函数相应,区别在于第四项损失函数针对底层特征;第五项损失函数与第三项损失函数相应,区别在于第五项损失函数针对底层特征;第六项损失函数则是对α稀疏性的约束。
在本公开中,基于上述第一阶段训练的E(编码器)和D(解码器),可以驯服变换器,为图像生成的离散编码的先验分布建模。具体来说,的码本索引被重新排列成一个序列s∈{0,1,…K}h×w的栅格扫描顺序。由于本公开旨在提高第一阶段中分层量化的性能,因此可以应用相关技术(如VQGAN)中的变换器模型来拟合s的分布。第二阶段的目标函数可以表示如下公式(8):
本公开实施例提出一个用于图像生成的自适应分层量化框架AHQ-VAE,旨在探索分层表示中的关系,以实现高质量的图像生成。首先,提出SCSE模块,该模块使得顶层和底层的特征在语义上保持一致。继而利用此特性,设计了基于语义映射的底层量化;底层量化处理中,首先将量化后的作为SGP模块的输入,SGP输出语义组的索引,索引(i,j)代表选中的语义组,它被用来对bottom layer的(i,j)处进行量化。然后引入了SC模块,使用系数αi,j对选中的组中的元素进行线性组合得到本公开利用所提出的SCSE,SGP和SC,在transformer阶段,仅仅需要对顶层的序列进行建模,不仅获得了多层级表示带来的高保真性,并且没有增加第二阶段transformer的计算量。
在图9中,展示了部分可视化结果,该结果是在FFHQ(Flickr-Faces-Hight-Quality,高清人脸)数据集上的实验结果,结合图9所示的视觉效果可见本公开实施例相比现有的VQGAN、HQ-VAE方法而言,具有更好的保真性。
本公开实施例中还提供了一种电子设备,该电子设备包括处理器,可选的,还可包括与处理器耦接的收发器和/或存储器,该处理器被配置为执行本公开任一可选实施例提供的方法的步骤。
图10中示出了本公开实施例所适用的一种电子设备的结构示意图,如图10所示,图10所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本公开实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本公开实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本公开实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本公开实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本公开实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本公开实施例对此不限制。
以上文本和附图仅作为示例提供,以帮助阅读者理解本公开。它们不意图也不应该被解释为以任何方式限制本公开的范围。尽管已经提供了某些实施例和示例,但是基于本文所公开的内容,对于本领域技术人员而言显而易见的是,在不脱离本公开的范围的情况下,可以对所示的实施例和示例进行改变,采用基于本公开技术思想的其他类似实施手段,同样属于本公开实施例的保护范畴。
Claims (11)
1.一种由电子设备执行的方法,其特征在于,包括:
获取对第一图像进行编码所得的第一顶层特征与第一底层特征;
基于所述第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素;
基于所述目标语义元素进行稀疏编码,得到第一底层特征的量化表示;
其中,所述第一顶层特征的量化表示与所述第一底层特征的量化表示用于图像生成的解码输入,以得到第二图像。
2.根据权利要求1所述的方法,其特征在于,所述获取对第一图像进行编码所得的第一顶层特征与第一底层特征,包括:
获取对第一图像进行编码所得的第一顶层特征与第二底层特征;
通过神经网络中第一模块,对所述第一顶层特征进行语义特征提取,得到第二顶层特征;
基于所述第二顶层特征与所述第二底层特征获得第一底层特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一顶层特征的量化表示进行语义预测,得到与第一底层特征相应的目标语义元素,包括:
获取对所述第一顶层特征进行量化所得的第一顶层特征的量化表示;
通过神经网络中第二模块,基于所述第一顶层特征的量化表示得到第一底层特征的目标语义组索引;
基于所述目标语义组索引得到与第一底层特征相应的目标语义元素;
其中,所述第一底层特征的码本被划分为若干语义组,每一语义组包括若干语义元素,且每一语义组与语义组索引具有一一对应的关系。
4.根据权利要求3所述的方法,其特征在于,所述通过神经网络中第二模块,基于所述第一顶层特征的量化表示得到第一底层特征的目标语义组索引,包括:
通过所述第二模块包括的至少两个级联的卷积层,对所述第一顶层特征的量化表示进行卷积操作,获得第一顶层特征所属语义组的概率分布;
通过所述第二模块包括的激活函数层,基于所述第一顶层特征所属语义组的概率分布确定第一底层特征的目标语义组索引,所述激活函数层由可导函数构成。
5.根据权利要求4所述的方法,其特征在于,所述第二模块包括的至少两个级联的卷积层包括级联设置的若干第一卷积层和若干第二卷积层;所述第一卷积层包括级联设置的卷积子层、组归一化子层和激活函数子层;所述第二卷积层包括卷积子层。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标语义元素进行稀疏编码,得到第一底层特征的量化表示,包括:
通过神经网络中的第三模块,对所述目标语义元素进行线性组合,得到第一底层特征的量化表示。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标语义元素进行线性组合,得到第一底层特征的量化表示,包括:
基于可学习的参数矩阵与所述目标语义元素进行线性组合,得到第一底层特征的量化表示;所述参数矩阵通过约束所述神经网络整体的目标损失函数得到。
8.根据权利要求7所述的方法,其特征在于,所述目标损失函数中将L1范数作为对所述参数矩阵的稀疏性约束。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310763525.XA CN119206245A (zh) | 2023-06-26 | 2023-06-26 | 由电子设备执行的方法、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310763525.XA CN119206245A (zh) | 2023-06-26 | 2023-06-26 | 由电子设备执行的方法、电子设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN119206245A true CN119206245A (zh) | 2024-12-27 |
Family
ID=94057279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310763525.XA Pending CN119206245A (zh) | 2023-06-26 | 2023-06-26 | 由电子设备执行的方法、电子设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN119206245A (zh) |
-
2023
- 2023-06-26 CN CN202310763525.XA patent/CN119206245A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Flowformer: A transformer architecture for optical flow | |
US12033077B2 (en) | Learning compressible features | |
KR102434726B1 (ko) | 처리방법 및 장치 | |
US10599935B2 (en) | Processing artificial neural network weights | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
KR102771938B1 (ko) | 신경망 모델 압축 | |
CN110378383B (zh) | 一种基于Keras框架和深度神经网络的图片分类方法 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN112633330A (zh) | 点云分割方法、系统、介质、计算机设备、终端及应用 | |
KR20200144398A (ko) | 클래스 증가 학습을 수행하는 장치 및 그의 동작 방법 | |
CN117499711A (zh) | 视频生成模型的训练方法、装置、设备及存储介质 | |
CN114861859A (zh) | 神经网络模型的训练方法、数据处理方法及装置 | |
CN116306808A (zh) | 一种联合动态剪枝和条件卷积的卷积神经网络压缩方法及装置 | |
Ye et al. | GFSCompNet: remote sensing image compression network based on global feature-assisted segmentation | |
CN117009792A (zh) | 模型数据处理方法、装置、计算机设备和存储介质 | |
CN119206245A (zh) | 由电子设备执行的方法、电子设备、存储介质及程序产品 | |
WO2023185209A1 (zh) | 模型剪枝 | |
CN115115835A (zh) | 图像的语义分割方法、装置、设备、存储介质及程序产品 | |
WO2021179117A1 (zh) | 神经网络通道数搜索方法和装置 | |
CN116150462A (zh) | 针对目标对象的向量构建方法、装置和计算机设备 | |
CN115409150A (zh) | 一种数据压缩方法、数据解压方法及相关设备 | |
CN113365072B (zh) | 特征图压缩方法、装置、计算设备以及存储介质 | |
Xu et al. | Fast Point Cloud Geometry Compression with Context-based Residual Coding and INR-based Refinement | |
CN119538977B (zh) | 基于剪枝网络的渐进式知识蒸馏轻量化方法、装置和设备 | |
Li et al. | CED-Net: A more effective DenseNet model with channel enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |