CN112053338A - 图像分解方法和相关装置、设备 - Google Patents
图像分解方法和相关装置、设备 Download PDFInfo
- Publication number
- CN112053338A CN112053338A CN202010898798.1A CN202010898798A CN112053338A CN 112053338 A CN112053338 A CN 112053338A CN 202010898798 A CN202010898798 A CN 202010898798A CN 112053338 A CN112053338 A CN 112053338A
- Authority
- CN
- China
- Prior art keywords
- image
- normal vector
- decomposed
- feature map
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 383
- 238000005286 illumination Methods 0.000 claims description 115
- 230000004927 fusion Effects 0.000 claims description 67
- 238000002310 reflectometry Methods 0.000 claims description 66
- 238000010586 diagram Methods 0.000 claims description 60
- 230000003044 adaptive effect Effects 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 21
- 239000010410 layer Substances 0.000 description 61
- 238000000605 extraction Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000002365 multiple layer Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种图像分解方法和相关装置、设备。该方法包括:获取待分解图像;利用法向量估计模型获取待分解图像的法向量信息;基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像。上述方案,提高了本征图像的分解效果。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像分解方法和相关装置、设备。
背景技术
本征图像分解是计算机视觉和计算机图形学领域的重要问题之一。本征图像是指将一幅原图像分解成光照率(shading)图像和反射率(reflectance/albedo)图像。本征图像在三维重建、真实感图像编辑、增强现实、语义分割等领域有着广泛的应用,影响重大。
目前,如何实现本征图像的分解,使得本征图像更好与原图像中场景信息匹配,具有非常重要的意义。
发明内容
本申请至少提供一种图像分解方法和相关装置、设备。
本申请第一方面提供了一种图像分解方法,该方法包括:获取待分解图像;利用法向量估计模型获取待分解图像的法向量信息;基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像。
因此,通过获取待分解图像的法向量信息,使得图像分解模型能够利用法向量信息更好地理解待分解图像中场景的环境情况,使得图像分解模型分解得到的本征图像能够与待分解图像的场景较好匹配,提高了本征图像的分解效果;另外,待分解图像的法向量信息是利用独立于图像分解模型的法向量估计模型得到,采用针对性模型,能够得到准确的法向量信息,进一步提高了后续分解得到的本征图像与待分解图像的场景的匹配度。
其中,上述的本征图像包括光照率图像;上述的基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像,包括:利用图像分解模型对待分解图像进行处理,得到待分解图像的场景光照条件信息;基于场景光照条件信息和法向量信息,得到待分解图像的光照率图像。
因此,通过获取关于待分解图像的场景光照条件信息,可以提高图像分解模型在光照环境复杂的场景下的本征图像分解的效果。
其中,上述的场景光照条件信息为包含待分解图像不同像素的法向量自适应向量的法向量自适应图,上述的法向量信息为包含待分解图像不同像素的法向量的法向量图。上述的基于场景光照条件信息和法向量信息,得到待分解图像的光照率图像,包括:将法向量自适应图和法向量图进行点积,得到待分解图像的光照率图像。
因此,通过法向量自适应图,可以建模随空间的变化而变化的光照条件,提高了图像分解模型在光照环境复杂的场景下的本征图像分解的效果。
其中,上述的图像分解模型包括共享编码器和光照率解码器。上述的利用图像分解模型对待分解图像进行处理,得到待分解图像的场景光照条件信息,包括:利用共享编码器对待分解图像进行特征提取得到图像特征图,并对图像特征图和法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,得到第一融合特征图;利用光照率解码器对第一融合特征图进行解码,得到待分解图像的场景光照条件信息。
因此,通过利用共享编码器将图像特征图和法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,使得图像分解模型可以利用第一场景结构特征图的结构特征信息,提高了本征图像的分解效果。
其中,上述的共享编码器包括顺序连接的至少一个编码单元,每个编码单元包括法向量自适应器。上述的对图像特征图和法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,得到第一融合特征图,包括:将图像特征图输出至第一个编码单元;对于每个编码单元:利用法向量自适应器对前一编码单元输出的特征图和第一场景结构特征图进行融合,得到编码单元对应的第二融合特征图;其中,每个编码单元对应的场景结构特征图中的特征丰富度不同;基于最后一个编码单元的第二融合特征图,得到第一融合特征图。
因此,通过利用法向量自适应器将法向量估计模型输出的场景结构特征图和图像分解模型对待分解图像进行特征提取得到的图像特征图进行融合,使得图像分解模型后续可以利用场景结构特征图中的关于待分解图像中场景的场景结构信息,实现了将法向量估计模型得到的特征信息传递给图像分解模型来利用的效果。
其中,上述的在利用法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图之前,方法还包括:对前一编码单元输出的特征图进行降采样处理;和/或,利用法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图,包括:利用法向量自适应器执行:将场景结构特征图调整为预设尺度的场景结构特征图,将调整后的场景结构特征图与前一编码单元输出的特征图进行串联并卷积,得到编码单元对应的第二融合特征图。
因此,通过降采样处理,可以缩小前一编码单元输出的特征图。另外,法向量自适应器还通过场景结构特征图与前一编码单元输出的特征图进行串联并卷积,实现了对场景结构特征图和前一编码单元输出的特征图的融合。
其中,上述的利用光照率解码器对第一融合特征图进行解码,得到待分解图像的场景光照条件信息,包括:利用光照率解码器对第一融合特征图和至少一个法向量自适应器的第二融合特征图进行解码,得到待分解图像的场景光照条件信息。
因此,光照率解码器通过利用第一融合特征图和法向量自适应器输出的第二融合特征图,可以得到待分解图像的场景光照条件信息。
其中,上述的图像分解模型还包括反射率解码器;基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像,还包括:利用反射率解码器对第一融合特征图进行解码,得到待分解图像的反射率图像。
因此,反射率解码器通过利用第一融合特征图,可以得到待分解图像的反射率图像。
其中,上述的利用反射率解码器对第一融合特征图进行解码,得到待分解图像的反射率图像,包括:利用反射率解码器对第一融合特征图和至少一个法向量自适应器的第二融合特征图进行解码,得到待分解图像的反射率图像。
因此,反射率解码器通过利用第一融合特征图和至少一个法向量自适应器的第二融合特征图,可以得到待分解图像的反射率图像。
其中,上述的法向量估计模型包括法向量编码器、法向量解码器和细分子网络。上述的利用法向量估计模型获取待分解图像的法向量信息,包括:利用法向量编码器对待分解图像进行编码,得到第一场景结构特征图;利用法向量解码器对第一场景结构特征图进行解码,得到解码特征图;利用细分子网络对第一场景结构特征图和解码特征图进行融合,得到待分解图像的法向量信息。
因此,通过利用法向量估计模型的法向量编码器、法向量解码器和细分子网络来对待分解图像进行处理,可以获得待分解图像的法向量信息。
其中,上述的利用法向量编码器对待分解图像进行编码,得到第一场景结构特征图,包括:利用法向量编码器对待分解图像进行多层编码,得到每层对应的第一场景结构特征图,其中,每层对应的第一场景结构特征图中的特征丰富度不同,最后一层编码器对应的第一场景结构特征图输出至法向量解码器。上述的利用细分子网络对第一场景结构特征图和解码特征图进行融合,得到待分解图像的法向量信息,包括:利用细分子网络执行:将每层对应的第一场景结构特征图串联得到第二场景结构特征图,并将第二场景结构特征图与解码特征图串联得到第三场景结构特征图,基于第三场景结构特征图,得到待分解图像的法向量信息。
因此,通过对待分解图像进行多层编码,可以逐步抽取出更高维度的特征信息,使得获得待分解图像的场景的结构特征能够更加准确。
其中,上述的法向量估计模型和图像分解模型分别训练得到的。
其中,上述的在利用法向量估计模型获取待分解图像的法向量信息之前,方法还包括:利用第一样本集训练得到法向量估计模型,其中,第一样本集中的图像标注有法向量信息;利用经训练的法向量估计模型获取第二样本集中的图像的样本法向量信息,并利用第二样本集以及样本法向量信息对图像分解模型进行训练。
因此,通过对法向量估计模型进行单独的训练,以此就可以仅利用法向量样本数据来训练法向量估计模型,并以此来提高本征图像的分解效果,降低了因为缺乏本征图像样本数据而造成的对本征图像分解效果的影响。
其中,上述的第二样本集包括第一子样本集和第二子样本集,利用第二样本集以及样本法向量信息对图像分解模型进行训练,包括:利用第一子样本集以及第一子样本集对应的样本法向量信息对图像分解模型进行训练,以调整图像分解模型中共享编码器和光照率解码器的参数;利用第二子样本集以及第二子样本集对应的样本法向量信息对图像分解模型进行训练,以调整图像分解模型中共享编码器和反射率解码器的参数。
因此,通过分别训练共享编码器和光照率解码器和共享编码器和反射率解码器,可以使得图像分解模型对待分解图像进行分解时,能够获得效果较好的光照率图和反射率图。
本申请第二方面提供了一种图像分解装置,该装置包括获取模块、法向量估计模块和分解模块。获取模块用于获取待分解图像。法向量估计模块用于利用法向量估计模型获取待分解图像的法向量信息。分解模块用于基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像。
本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的图像分解方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的图像分解方法。
上述方案,通过获取待分解图像的法向量信息,使得图像分解模型能够利用法向量信息更好地理解待分解图像中场景的环境情况,使得图像分解模型分解得到的本征图像能够与待分解图像的场景较好匹配,提高了本征图像的分解效果;另外,待分解图像的法向量信息是利用独立于图像分解模型的法向量估计模型得到,采用针对性模型,能够得到准确的法向量信息,进一步提高了后续分解得到的本征图像与待分解图像的场景的匹配度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请图像分解方法第一实施例的流程示意图;
图2是本申请图像分解方法第二实施例的第一流程示意图;
图3是本申请图像分解方法第二实施例的第二流程示意图;
图4是本申请图像分解方法中法向量估计模型的一实施例的框架示意图;
图5是本申请图像分解方法第二实施例的第三流程示意图;
图6是本申请图像分解方法中图像分解模型的一实施例的框架示意图;
图7是本申请图像分解装置一实施例的框架示意图;
图8是本申请电子设备一实施例的框架示意图;
图9是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
本征图像分解旨在从单张输入图像估计场景的光照率与材质的反射率,也即是得到光照率图像和反射率图像。在本申请中,用于实现本申请所描述的图像分解方法的设备可以是计算机或是服务器等设备。在一些可能的实现方式中,该图像分解方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
请参阅图1,图1是本申请图像分解方法第一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取待分解图像。
待分解图像是作为原始输入图像,用以分解出与之对应的本征图像。待分解图像可以是彩色图像,或是深度图像等。
步骤S12:利用法向量估计模型获取待分解图像的法向量信息。
法向量估计模型是基于深度学习搭建的神经网络,用于对待分解图像提取特征信息,以获得待分解图像的法向量信息。法向量估计模型对待分解图像提取特征信息可以得到若干张特征图。法向量信息例如是待分解图像中的每个像素点的法向量信息,通过法向量信息,可以获得待输入图像中的环境信息,例如是待分解图像中场景的结构信息。
在一个公开实施例中,法向量估计模型是一个全卷积神经网络,可以由粗粒度到细粒度的双层级网络结构组成。该双层网络可以融合多尺度(不同特征数量、不同图像分辨率)的特征图,从而获得分辨率较高,细节较丰富,图像中的物体边界较准确的本征图像。
步骤S13:基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像。
在得到待分解图像的法向量信息后,图像分解模型就可以利用法向量信息,来对待输入图像进行分解。具体而言,图像分解模型可以基于法向量信息中每个像素的法向量信息以及法向量信息中包含的场景的结构信息,来对待分解图像进行分解,以得到本征图像,即是得到光照率图像和反射率图像。
在一个公开实施例中,图像分解模型是一个全卷积神经网络。
因此,通过获取待分解图像的法向量信息,使得图像分解模型能够利用法向量信息更好地理解待分解图像中场景的环境情况,使得图像分解模型分解得到的本征图像能够与待分解图像的场景较好匹配,提高了本征图像的分解效果;另外,待分解图像的法向量信息是利用独立于图像分解模型的法向量估计模型得到,采用针对性模型,能够得到准确的法向量信息,进一步提高了后续分解得到的本征图像与待分解图像的场景的匹配度。
请参阅图2,图2是本申请图像分解方法第二实施例的第一流程示意图。具体而言,可以包括如下步骤:
步骤S21:获取待分解图像。
请参阅上述步骤S11,此处不再赘述。
步骤S22:利用法向量估计模型获取待分解图像的法向量信息。
请参阅上述步骤S12,此处不再赘述。
在一个公开的实施例中,法向量信息为包含待分解图像不同像素的法向量的法向量图,也即待分解图像中的每个像素都有对应的法向量。
在一个公开的实施例中,法向量估计模型包括法向量编码器、法向量解码器和细分子网络。法向量编码器可以对待分解图像进行特征提取,法向量解码器可以解码特征并输出特征图,细分子网络可以细化解码器的输出。
参阅图3,图3是本申请图像分解方法第二实施例的第二流程示意图。具体而言,利用法向量估计模型获取待分解图像的法向量信息,可以包括以下步骤S221-步骤S223。
步骤S221:利用法向量编码器对待分解图像进行编码,得到第一场景结构特征图。
可以利用法向量估计模型的法向量编码器来对待分解图像进行编码,以提取待分解图像中的特征信息。法向量编码器对待分解图像进行编码得到的特征信息例如是待分解图像中场景的结构特征信息,结构特征信息例如包括平面信息与物体边界信息。最终,法向量编码器可以输出第一场景结构特征图,也即是关于待分解图像中场景的结构特征图。
在法向量编码器具有多层结构的情况下,可以利用法向量编码器对待分解图像进行多层编码(即进行特征提取),每层编码器得到的特征图为第一场景结构特征图。例如,当编码器含有4个编码块来进行编码时,第一层编码块均会对待分解图像进行编码,然后输出第一场景结构特征图。第二层编码块以上一层编码块输出的第一场景结构特征图为基础,再次进行编码,然后输出对应的第一场景结构特征图。另外,还可以设置法向量编码器的每一层输出的第一场景结构特征图中的特征丰富度不同。特指丰富程度可以包括第一场景结构特征图的分辨率以及特征信息的维度等。此时,最后一层对应的第一场景结构特征图会输出至法向量解码器。通过对待分解图像进行多层编码,可以逐步抽取出更高维度的特征信息,使得获得待分解图像的场景的结构特征能够更加准确。
步骤S222:利用法向量解码器对第一场景结构特征图进行解码,得到解码特征图。
在利用法向量编码器对待分解图像进行编码并输出第一场景结构特征图后,可以利用法向量解码器对第一场景结构特征图进行解码,得到解码特征图。在法向量解码器对第一场景结构特征图进行解码时,具体可以是针对法向量编码器提取的特征信息进行解码,并且重建出预设维度的、预设分辨率的解码特征图。例如,解码特征图的中的特征信息的维度可以是64维度,分辨率为待分解图像的1/2。
在一个公开实施例中,当法向量解码器具有多层结构的情况下,法向量解码器同样也会对第一场景结构特征图进行多层解码,第一层解码器针对第一场景结构特征图进行解码,然后输出对应的预解码特征图。第二层解码器针对第一层解码器输出的解码特征图进行解码,然后输出对应的预解码特征图。以此类推,最后一层输出的预解码特征图,即为解码特征图。
步骤S223:利用细分子网络对第一场景结构特征图和解码特征图进行融合,得到待分解图像的法向量信息。
在利用法向量编码器进行解码后,为了进一步细化法向量编码器输出的特征信息,以及获得更加准确的待分解图像的场景结构信息,可以利用细分子网络对第一场景结构特征图和解码特征图进行融合,以得到待分解图像的法向量信息。例如,可以将第一场景结构特征图中的特征信息和解码特征图的特征信息一起融合,以得到待分解图像的法向量信息。例如,第一场景结构特征图中的特征信息和解码特征图的特征信息均为64维,融合后得到的法向量信息可以为128维。
在一个公开实施例中,法向量信息为包含待分解图像不同像素的法向量的法向量图,也即待分解图像中的每个像素都有对应的法向量。
在一个公开实施例中,在法向量编码器具有多层结构的情况下,可以利用细分子网络将每层对应的第一场景结构特征图串联得到第二场景结构特征图,并将第二场景结构特征图与解码特征图串联得到第三场景结构特征图。
在一些公开实施例中,也可以设置为利用法向量编码器的部分编码层输出的第一场景结构特征图来进行串联。
在一个可能的实施方式中,可以先利用细化子网络处理每一层编码器输出的第一场景结构特征图,使得每个第二场景结构特征图的特征维度和分辨率相同。
在得到第三场景结构特征图后,细化子网络可以基于第三场景结构特征图的特征信息,进行进一步的解码,以得到待分解图像的法向量信息,法向量信息例如是法向量图。
请参阅图4,图4是本申请图像分解方法中法向量估计模型的一实施例的框架示意图。在一个公开实施例中,法向量估计模型400包括:法向量编码器401、法向量解码器402和细化子网络403。
法向量编码器401由1个初始卷积块4011(三层卷积层与一个最大池化层),和4个含有SE块(Squeeze-and-Excitation block,挤压与激励块)的编码块4012组成。初始卷积块4011可以对待分解图像进行初步的编码,向编码块4012输入特征图。编码块4012在逐步抽取更高维度的特征的同时,压缩特征图的分辨率至原始输入图像的1/4,1/8,1/16,1/32。每一个编码块4012都会输出第一场景结构特征图,最后一个编码块4012输出的第一场景结构特征图会输出至法向量解码器402。
法向量解码器402由1个卷积块4021和4个上投射(up-projection)块(图中用up表示)4022组成,这4个up-projection块4022会逐步解码特征并重建出维度为64,分辨率为待分解图像1/2的解码特征图。
细化子网络403包括4个up-projection块4031和4个卷积层4032组成。其中,使用跳跃链接(skip-connection)和up-projection块4031串联(concatenate)由编码块4012抽取得到的第一场景特征图,得到的即为第二场景结构特征图。再将第二场景结构特征图和解码特征图串联,得到第三场景结构特征图。进而再利用4个卷积层4032进行逐层解码,最后得到待分解图像的法向量信息,即法向量图。
在得到待分解图像的法向量信息以后,就可以利用得到的法向量信息来对待分解图像进行分解,以得到待分解图像的本征图像。在需要得到光照率图像时,上述的步骤“基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像”,具体包括以下步骤。
步骤S23:利用图像分解模型对待分解图像进行处理,得到待分解图像的场景光照条件信息。
图像分解模型例如是一个全卷积神经网络。图像分解模型可以对待分解图像进行特征提取的操作,以得到待分解图像的场景光照条件信息。例如,场景光照条件信息可以理解为待分解图像中的场景的光照情况。具体而言,场景光照条件信息为包含待分解图像不同像素的法向量自适应向量的法向量自适应图。法向量自适应图可以用于编码场景光照条件。
在一个公开实施例中,图像分解模型包括共享编码器、光照率解码器和反射率解码器。利用图像分解模型对待分解图像进行处理,得到待分解图像的场景光照条件信息,具体可以包括以下步骤:
步骤S231:利用共享编码器对待分解图像进行特征提取得到图像特征图,并对图像特征图和法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,得到第一融合特征图。
共享编码器是指该编码器提取的特征信息会同时用于得到光照率图像和反射率图像。融合后得到的第一融合特征图,可以包括待分解图像中场景的结构特征信息以及其他特征信息。
在一个可能的实施方式中,共享编码器包括顺序连接的至少一个编码单元,每个编码单元包括法向量自适应器(normal feature adapter,NFA)。
参阅图5,图5是本申请图像分解方法第二实施例的第三流程示意图。对图像特征图和法向量估计模型的法向量编码器输出的场景结构特征图进行融合,得到第一融合特征图,具体可以包括以下步骤S2311-步骤S2313。
步骤S2311:将图像特征图输出至第一个编码单元。
首先,图像分解模型的其他编码器可以先对待分解图像进行特征提取,以获得图像特征图。然后,将图像特征图输出至第一个编码单元。由编码单元对图像特征图进行进一步的处理。
步骤S2312:每个编码单元利用法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图;其中,每个编码单元对应的场景结构特征图中的特性丰富度不同。
编码单元获取到图像特征图后,可以利用法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图。其中,每个编码单元对应的场景结构特征图中的特征丰富度不同。特征丰富度不同可以理解场景结构特征图的分辨率、特征信息的维度不同,既可以是分辨率、特征信息的维度的其中一者不同,也可以是二者均不相同。
对于第一个编码单元而言,其获取的是由其他卷积块进行特征提取后的图像特征图。对于第二个编码单元而言,其获取的图像特征图就是上一个编码单元输出的第二融合特征图。
当法向量估计模型的法向量编码器仅有一层时,意味着法向量编码器仅输出一张第一场景结构特征图,此时所有的编码单元都可以将该唯一的第一场景结构特征图与上一编码单元输出的特征图进行融合。当法向量估计模型的法向量编码器有多层时,则可以将多层法向量编码器的输出的第一场景结构特征图,分别与编码单元输出的特征图进行融合,例如,将由第一层的法向量编码器得到的第一场景结构特征图输出至第一个编码单元,将由第二层的法向量编码器得到的第一场景结构特征图输出至第二个编码单元,使得第二个编码单元能够利用上一编码单元输出的特征图与由第二层的法向量编码器得到的第一场景结构特征图进行融合。
在一个可能的实施方式中,法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图,具体包括:法向量自适应器将场景结构特征图调整为预设尺度的场景结构特征图,例如是调整场景结构特征图的分辨率和特征信息的维度。法向量自适应器再将调整后的场景结构特征图与前一编码单元输出的特征图进行串联并卷积,得到编码单元对应的第二融合特征图。例如,第二个编码单元的法向量自适应器可以将第一编码单元输出的第二融合特征图和向其输入的场景结构特征图进行串联并卷积,以此得到与第二个编码单元对应的第二融合特征图。
因此,法向量自适应器还通过场景结构特征图与前一编码单元输出的特征图进行串联并卷积,实现了对场景结构特征图和前一编码单元输出的特征图的融合。
在一个公开实施例中,对于每一编码单元,可以在利用法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图之前,对前一编码单元输出的特征图进行降采样处理。例如,第二编码单元对第一单元输出的第二融合特征图进行降采样处理。通过降采样的处理,可以缩小第二融合特征图,使得第二融合特征图的满足要求。
步骤S2313:基于最后一个编码单元的第二融合特征图,得到第一融合特征图。
在一个公开实施例中,在图像分解模型的共享编码器最后一层不是最后一个编码单元的情况下,即意味着共享编码器在最后一个编码单元之后,还有若干个编码块,用于在最后一个编码单元输出第二融合特征图以后,继续对其进行编码,来对融合的特征信息进行进一步地处理。共享编码器最后一层处理后输出的图即为第一融合特征图。例如,可以对最后一个编码单元输出第二融合特征图进行降采样处理,进一步的缩小第二融合特征图,然后再次利用编码块进行编码,来提取特征信息。此时,输出的特征图即为第一融合特征图。
在一个公开实施例中,也可以直接将第二融合特征图作为第一融合特征图。
因此,通过利用法向量自适应器将法向量估计模型输出的场景结构特征图和图像分解模型对待分解图像进行特征提取得到的图像特征图进行融合,使得图像分解模型后续可以利用场景结构特征图中的关于待分解图像中场景的场景结构信息,实现了将法向量估计模型得到的特征信息传递给图像分解模型来利用的效果,提升了本征图像的分解效果。
得到第一融合特征图后,可以继续利用第一融合特征图来对待分解图像进行分解,以得到本征图像。
步骤S232:利用光照率解码器对第一融合特征图进行解码,得到待分解图像的场景光照条件信息。
因为第一融合特征图包含了场景的结构特征信息以及待分解图像的其他特征信息,因此可以利用光照率解码器对第一融合特征图进行解码,以获得待分解图像的场景光照条件信息,例如是获得关于待分解图像中每一个像素的法向量自适应向量的法向量自适应图。
在一个公开实施例中,法向量自适应向量定义如下:用x、y、z表示法向量自适应向量的三个分量,
在一个公开实施例中,可以利用光照率解码器对第一融合特征图和至少一个法向量自适应器的第二融合特征图进行解码,得到待分解图像的场景光照条件信息。光照率解码器可以同时获取图像分解模型的共享编码器最后一层输出的第一融合特征图,以及至少一个法向量自适应器的第二融合特征图,并对这两个特征图进行解码,以得到待分解图像的场景光照条件信息。当共享编码器的最后一层是编码单元时,则可以是获取最后一个编码单元输出的第一融合特征图,以及其他编码单元的法向量自适应器输出的第二融合特征图进行解码。
在一个可能的实施方式中,共享编码器的编码单元的数量有多个,光照率解码器可以同时获取多个编码单元输出的第二融合特征图来进行解码。例如,光照率解码器获取了3个连接的编码单元输出的第二融合特征图,则可以在光照率解码器中,设置3个连接的卷积层(例如是up-projection块)分别获取3个编码单元输出的第二融合特征图,来进行解码。例如,光照率解码器的第一个卷积层可以获取共享编码器输出的第一融合特征图和第一个法向量自适应器输出的第二融合特征图来进行解码,并输出特征图。光照率解码器的第二个卷积层可以利用上一个卷积层输出的特征图以及第二个法向量自适应器输出的第二融合特征图来进行解码。
在一个可能的实施方式中,可以在光照率解码器的卷积层利用第一融合特征图和第二融合特征图进行解码后,再利用若干个卷积层进行解码,用以调整光照率解码器最后输出的光照率图。
因此,通过获取关于待分解图像的场景光照条件信息,例如是获得每一个像素的法向量自适应向量的法向量自适应图,可以建模随空间的变化而变化的光照条件,提高了图像分解模型在光照环境复杂的场景下的本征图像分解的效果。
步骤S24:基于场景光照条件信息和法向量信息,得到待分解图像的光照率图像。
在得到待分解图像中场景的场景光照条件信息以后,就可以基于场景光照条件信息和法向量估计模型输出的法向量信息来对待分解图形进行分解,以获得待分解图像的光照率图像。例如,可以法向量自适应图和法向量图来得到待分解图像的光照率图像。
在一个公开实施例中,可以将法向量自适应图和法向量图进行点积,得到待分解图像的光照率图像。
因此,法向量自适应图充分利用了法向量估计模型提供的场景结构特征信息中的平面信息与物体边界信息,使得图像分解模型分解得到的光照率图像可以减少平面区域上的纹理残留的问题,同时又能够使物体具有清晰、锐利的轮廓,并且使得反射率图像的场景能够与待分解图像的场景较好匹配。
在本公开实施例中,图像分解模型还包括反射率解码器。因为共享编码器提取的特征信息可以用于得到反射率图像。因此,在共享编码器对待分解图像进行特征提取后,也即在步骤S231之后,可以继续执行以下步骤1:
步骤1:利用反射率解码器对第一融合特征图进行解码,得到待分解图像的反射率图像。
从上述第二实施例可知,共享编码器最后一层输出的是第一融合特征图,该第一融合特征图包含了待分解图像中场景的场景结构特征信息。因此,可以利用反射率解码器对第一融合特征图进行解码,得到待分解图像的反射率图像。
在一个公开实施例中,可以利用反射率解码器对第一融合特征图和至少一个法向量自适应器的第二融合特征图进行解码,得到待分解图像的反射率图像。反射率解码器可以同时获取图像分解模型的共享编码器最后一层输出的第一融合特征图,以及至少一个法向量自适应器的第二融合特征图,并对这两个特征图进行解码,以得到待分解图像的反射率图像。当共享编码器的最后一层是编码单元时,则可以是获取最后一个编码单元输出的第一融合特征图,以及其他编码单元的法向量自适应器输出的第二融合特征图进行解码。
在一个可能的实施方式中,共享编码器的编码单元的数量有多个,反射率解码器可以同时获取多个编码单元输出的第二融合特征图来进行解码。例如,反射率解码器获取了3个顺序连接的编码单元输出的第二融合特征图,则可以在反射率解码器中,设置3个顺序连接的卷积层(例如是up-projection块)分别获取3个编码单元输出的第二融合特征图,来进行解码。例如,反射率解码器的第一个卷积层可以获取共享编码器输出的第一融合特征图和第一个法向量自适应器输出的第二融合特征图来进行解码,并输出特征图。反射率解码器的第二个卷积层可以利用上一个卷积层输出的特征图以及第二个法向量自适应器输出的第二融合特征图来进行解码。
在一个可能的实施方式中,可以在反射率解码器的卷积层利用第一融合特征图和第二融合特征图进行解码后,再利用若干个卷积层进行解码,用以调整反射率解码器最后输出的反射率图。
因此,通过利用包含了待分解图像中场景的场景结构特征信息的第一融合特征图来对待分解图像进行分解,利用了场景结构特征信息,进而为待分解图像中场景的各个物体分配更加一致的反射率,提高了本征图像的分解效果。
参阅图6,图6是本申请图像分解方法中图像分解模型的一实施例的框架示意图。在一个公开实施例中,图像分解模型60包括:共享编码器61、光照率解码器62和反射率解码器63。图像分解模型60例如是一个全卷积神经网络。
共享编码器61包括卷积块611和若干个编码单元612。编码单元612包括有法向量自适应器6121。法向量自适应器6121可以与法向量估计模型的部分编码链接。光照率解码器62包括若干个卷积块621,其中部分是up-projection块。反射率解码器63包括若干个卷积块631,其中部分是up-projection块。其中,法向量自适应器6121分别与光照率解码器62的部分卷积块621以及反射率解码器63的部分卷积块631跳跃链接。
图像分解模型60可以对待分解图像进行处理,得到待分解图像的场景光照条件信息。图像分解模型60还可以基于场景光照条件信息和法向量估计模型输出的法向量信息,得到待分解图像的光照率图像。另外,图像分解模型60也可以输出反射率图像。
共享编码器61具体可以对待分解图像进行特征提取得到图像特征图,并对图像特征图和法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,输出第一融合特征图。具体而言,位于编码单元612之前的卷积块6111可以对待分解图像进行特征提取,以获得上述的实施例提及的图像特征图。编码单元612可以利用法向量自适应器6121对前一编码单元输出的特征图和法向量估计模型的编码器输出的场景结构特征图进行融合,得到与该编码单元对应的第二融合特征图。图中Y代表法向量估计模型的编码器输出的场景结构特征图。位于编码单元612之后的卷积块6112可以对最后一个编码单元输出的第二融合特征图进行进一步的编码,最后输出第一融合特征图。编码单元612还可以包括降采样卷积块6012,用于前一编码单元输出的特征图进行降采样处理。
光照率解码器62包括5个卷积块。最后一层卷积块621输出待分解图像的场景光照条件信息,例如是法向量自适应图。图中A代表法向量自适应图,N代表细化子网络输出的法向量图。图像分解模型60将法向量自适应图A和法向量图N进行点积,就可以得到光照率图形。
反射率解码器63包括5个卷积块631,卷积块631会针对共享编码器输出的第一融合结构特征图进行逐层解码,最后一层卷积块631直接输出反射率图像。
本申请还提供了关于上述图像分解方法实施例提及的法向量估计模型和图像分解模型的训练方法的一实施例。
在执行利用法向量估计模型获取待分解图像的法向量信息之前,可以先对法向量估计模型和图像分解模型进行训练。
因为法向量估计模型包含有独立的法向量编码器、法向量解码器和细分子网络。因此,可以利用实现对法向量估计模型的单独训练。同时,也可以实现对图像分解模型的单独训练。
因此,在一个公开实施例中,法向量估计模型和图像分解模型分别训练得到的。即在训练法向量估计模型和图像分解模型时,可以单独对法向量估计模型和图像分解模型进行训练。
通过为法向量估计模型设置独立的法向量编码器、法向量解码器和细分子网络,使得可以对法向量估计模型进行单独的训练,以此就可以仅利用法向量样本数据来训练法向量估计模型,并以此来提高本征图像的分解效果,降低了因为缺乏本征图像样本数据而造成的对本征图像分解效果的影响。
在一个公开实施例中,在对法向量估计模型进行训练时,可以利用第一样本集训练得到法向量估计模型,其中,第一样本集中的图像标注有法向量信息。法向量信息例如是图像中的每一个像素点都有对应的法向量。第一样本集例如包括:NYUv2数据集、DIODE数据集。
在对法向量估计模型进行训练后,可以利用经训练的法向量估计模型获取第二样本集中的图像的样本法向量信息,并利用第二样本集以及样本法向量信息对图像分解模型进行训练。第二样本集的图像可以标注有光照率图真值和反射率图真值。第二样本集例如是CGI数据集。
在一个公开实施例中,第二样本集包括第一子样本集和第二子样本集。第一子样本集的图像可以标注有光照率图真值,第二子样本集的图像可以标注有反射率图真值。
在利用第二样本集以及样本法向量信息对图像分解模型进行训练时,具体可以执行步骤1和步骤2。
步骤1:利用第一子样本集以及第一子样本集对应的样本法向量信息对图像分解模型进行训练,以调整图像分解模型中共享编码器和光照率解码器的参数。
第一子样本集对应的法向量信息是利用经过训练的法向量估计模型获得的。通过利用标注有光照率图真值的第一子样本集,可以实现对图像分解模型中共享编码器和光照率解码器的训练。
步骤2:利用第二子样本集以及第二子样本集对应的样本法向量信息对图像分解模型进行训练,以调整图像分解模型中共享编码器和反射率解码器的参数。
第二子样本集对应的法向量信息是利用经过训练的法向量估计模型获得的。在利用标注有光照率图真值的第一子样本集对图像分解模型中共享编码器和光照率解码器进行训练后,可以在此基础上进一步的对图像分解模型中共享编码器和反射率解码器进行训练。具体可以通过利用标注有反射率图真值的第二子样本集,对图像分解模型中共享编码器和反射率解码器的训练。
在上述对法向量估计模型和图像分解模型的训练过程中,可以根据相关的损失函数来判断训练的效果,进而根据损失值的大小来调整各个模型的网络参数,以此来完成训练。
以此,通过分别训练共享编码器和光照率解码器和共享编码器和反射率解码器,可以使得图像分解模型对待分解图像进行分解时,能够获得效果较好的光照率图和反射率图。
上述方案,通过获取待分解图像的法向量信息,使得图像分解模型能够利用法向量信息更好地理解待分解图像中场景的环境情况,使得图像分解模型分解得到的本征图像能够与待分解图像的场景较好匹配,提高了本征图像的分解效果;另外,待分解图像的法向量信息是利用独立于图像分解模型的法向量估计模型得到,采用针对性模型,能够得到准确的法向量信息,进一步提高了后续分解得到的本征图像与待分解图像的场景的匹配度。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
请参阅图7,图7是本申请图像分解装置一实施例的框架示意图。图像分解装置70包括获取模块71、法向量估计模块72和分解模块73。
获取模块71用于执行获取待分解图像。法向量估计模块72用于执行利用法向量估计模型获取待分解图像的法向量信息。分解模块73用于执行基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像。
其中,上述的本征图像包括光照率图像。上述的分解模块73用于执行基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像,具体包括:利用图像分解模型对待分解图像进行处理,得到待分解图像的场景光照条件信息;基于场景光照条件信息和法向量信息,得到待分解图像的光照率图像。
其中,上述的场景光照条件信息为包含待分解图像不同像素的法向量自适应向量的法向量自适应图,法向量信息为包含待分解图像不同像素的法向量的法向量图。上述的分解模块73用于执行基于场景光照条件信息和法向量信息,得到待分解图像的光照率图像,具体包括:将法向量自适应图和法向量图进行点积,得到待分解图像的光照率图像。
其中,上述的图像分解模型包括共享编码器和光照率解码器。上述的分解模块73用于执行利用图像分解模型对待分解图像进行处理,得到待分解图像的场景光照条件信息,具体包括:利用共享编码器对待分解图像进行特征提取得到图像特征图,并对图像特征图和法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,得到第一融合特征图;利用光照率解码器对第一融合特征图进行解码,得到待分解图像的场景光照条件信息。
其中,上述的共享编码器包括顺序连接的至少一个编码单元,每个编码单元包括法向量自适应器、上述的分解模块73用于执行对图像特征图和法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,得到第一融合特征图,具体包括:将图像特征图输出至第一个编码单元;对于每个编码单元:利用法向量自适应器对前一编码单元输出的特征图和第一场景结构特征图进行融合,得到编码单元对应的第二融合特征图;其中,每个编码单元对应的场景结构特征图中的特征丰富度不同;基于最后一个编码单元的第二融合特征图,得到第一融合特征图。
其中,上述的分解模块73用于执行在利用法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图之前,还可以执行:对前一编码单元输出的特征图进行降采样处理。上述的分解模块73用于执行利用法向量自适应器对前一编码单元输出的特征图和场景结构特征图进行融合,得到编码单元对应的第二融合特征图,具体包括:利用法向量自适应器执行:将场景结构特征图调整为预设尺度的场景结构特征图,将调整后的场景结构特征图与前一编码单元输出的特征图进行串联并卷积,得到编码单元对应的第二融合特征图。
其中,上述的分解模块73用于执行利用光照率解码器对第一融合特征图进行解码,得到待分解图像的场景光照条件信息,具体包括:利用光照率解码器对第一融合特征图和至少一个法向量自适应器的第二融合特征图进行解码,得到待分解图像的场景光照条件信息。
其中,上述的图像分解模型还包括反射率解码器。上述的分解模块73用于执行基于法向量信息,利用图像分解模型对待分解图像进行分解,得到待分解图像的本征图像,具体还包括:利用反射率解码器对第一融合特征图进行解码,得到待分解图像的反射率图像。
其中,上述的分解模块73用于执行用反射率解码器对第一融合特征图进行解码,得到待分解图像的反射率图像,包括:利用反射率解码器对第一融合特征图和至少一个法向量自适应器的第二融合特征图进行解码,得到待分解图像的反射率图像。
其中,上述的法向量估计模型包括法向量编码器、法向量解码器和细分子网络。上述的法向量估计模块72用于执行利用法向量估计模型获取待分解图像的法向量信息,包括:利用法向量编码器对待分解图像进行编码,得到第一场景结构特征图;利用法向量解码器对第一场景结构特征图进行解码,得到解码特征图;利用细分子网络对第一场景结构特征图和解码特征图进行融合,得到待分解图像的法向量信息。
其中,上述的法向量估计模块72用于执行利用法向量编码器对待分解图像进行编码,得到第一场景结构特征图,包括:利用法向量编码器对待分解图像进行多层编码,得到每层对应的第一场景结构特征图,其中,每层对应的第二场景结构特征图中的特征丰富度不同,最后一层对应的第一场景结构特征图输出至法向量解码器。其中,上述的法向量估计模块72用于执行利用细分子网络对第一场景结构特征图和解码特征图进行融合,得到待分解图像的法向量信息,具体包括:利用细分子网络执行:将每层对应的第一场景结构特征图串联得到第二场景结构特征图,并将第二场景结构特征图与解码特征图串联得到第三场景结构特征图,基于第三场景结构特征图,得到待分解图像的法向量信息。
其中,上述的法向量估计模型和图像分解模型分别训练得到的。
在一个公开实施例中,图像分解装置70还包括训练模块。在法向量估计模块72用于执行利用法向量估计模型获取待分解图像的法向量信息之前,训练模块用于执行利用第一样本集训练得到法向量估计模型,其中,第一样本集中的图像标注有法向量信息;利用经训练的法向量估计模型获取第二样本集中的图像的样本法向量信息,并利用第二样本集以及样本法向量信息对图像分解模型进行训练。
其中,上述的第二样本集包括第一子样本集和第二子样本集。上述的训练模块用于执行利用第二样本集以及样本法向量信息对图像分解模型进行训练,包括:利用第一子样本集以及第一子样本集对应的样本法向量信息对图像分解模型进行训练,以调整图像分解模型中共享编码器和光照率解码器的参数;利用第二子样本集以及第二子样本集对应的样本法向量信息对图像分解模型进行训练,以调整图像分解模型中共享编码器和反射率解码器的参数。
请参阅图8,图8是本申请电子设备一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82,处理器82用于执行存储器81中存储的程序指令,以实现上述任一图像分解方法实施例的步骤。在一个具体的实施场景中,电子设备80可以包括但不限于:微型计算机、服务器,此外,电子设备80还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器82用于控制其自身以及存储器81以实现上述任一图像分解方法实施例的步骤。处理器82还可以称为CPU(Central Processing Unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由集成电路芯片共同实现。
请参阅图9,图9为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令901,程序指令901用于实现上述任一图像分解方法实施例的步骤。
上述方案,通过获取待分解图像的法向量信息,使得图像分解模型能够利用法向量信息更好地理解待分解图像中场景的环境情况,使得图像分解模型分解得到的本征图像能够与待分解图像的场景较好匹配,提高了本征图像的分解效果;另外,待分解图像的法向量信息是利用独立于图像分解模型的法向量估计模型得到,采用针对性模型,能够得到准确的法向量信息,进一步提高了后续分解得到的本征图像与待分解图像的场景的匹配度。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (16)
1.一种图像分解方法,其特征在于,包括:
获取待分解图像;
利用法向量估计模型获取所述待分解图像的法向量信息;
基于所述法向量信息,利用图像分解模型对所述待分解图像进行分解,得到所述待分解图像的本征图像。
2.根据权利要求1所述的方法,其特征在于,所述本征图像包括光照率图像;所述基于所述法向量信息,利用图像分解模型对所述待分解图像进行分解,得到所述待分解图像的本征图像,包括:
利用图像分解模型对所述待分解图像进行处理,得到所述待分解图像的场景光照条件信息;
基于所述场景光照条件信息和所述法向量信息,得到所述待分解图像的光照率图像。
3.根据权利要求2所述的方法,其特征在于,所述场景光照条件信息为包含所述待分解图像不同像素的法向量自适应向量的法向量自适应图,所述法向量信息为包含所述待分解图像不同像素的法向量的法向量图;所述基于所述场景光照条件信息和所述法向量信息,得到所述待分解图像的光照率图像,包括:
将所述法向量自适应图和所述法向量图进行点积,得到所述待分解图像的光照率图像。
4.根据权利要求2或3所述的方法,其特征在于,所述图像分解模型包括共享编码器和光照率解码器;所述利用图像分解模型对所述待分解图像进行处理,得到所述待分解图像的场景光照条件信息,包括:
利用所述共享编码器对所述待分解图像进行特征提取得到图像特征图,并对所述图像特征图和所述法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,得到第一融合特征图;
利用所述光照率解码器对所述第一融合特征图进行解码,得到所述待分解图像的场景光照条件信息。
5.根据权利要求4所述的方法,其特征在于,所述共享编码器包括顺序连接的至少一个编码单元,每个所述编码单元包括法向量自适应器;所述对所述图像特征图和所述法向量估计模型的法向量编码器输出的第一场景结构特征图进行融合,得到第一融合特征图,包括:
将所述图像特征图输出至第一个所述编码单元;
对于每个所述编码单元:利用所述法向量自适应器对前一所述编码单元输出的特征图和所述第一场景结构特征图进行融合,得到所述编码单元对应的第二融合特征图;其中,每个所述编码单元对应的所述场景结构特征图中的特征丰富度不同;
基于最后一个所述编码单元的所述第二融合特征图,得到所述第一融合特征图。
6.根据权利要求5所述的方法,其特征在于,在所述利用所述法向量自适应器对前一所述编码单元输出的特征图和所述场景结构特征图进行融合,得到所述编码单元对应的第二融合特征图之前,所述方法还包括:
对前一所述编码单元输出的特征图进行降采样处理;
和/或,所述利用所述法向量自适应器对前一所述编码单元输出的特征图和所述场景结构特征图进行融合,得到所述编码单元对应的第二融合特征图,包括:
利用所述法向量自适应器执行:将所述场景结构特征图调整为预设尺度的场景结构特征图,将调整后的场景结构特征图与前一所述编码单元输出的特征图进行串联并卷积,得到所述编码单元对应的第二融合特征图。
7.根据权利要求5或6所述的方法,其特征在于,所述利用所述光照率解码器对所述第一融合特征图进行解码,得到所述待分解图像的场景光照条件信息,包括:
利用所述光照率解码器对所述第一融合特征图和至少一个所述法向量自适应器的第二融合特征图进行解码,得到所述待分解图像的场景光照条件信息。
8.根据权利要求4至7任一项所述的方法,其特征在于,所述图像分解模型还包括反射率解码器;所述基于所述法向量信息,利用图像分解模型对所述待分解图像进行分解,得到所述待分解图像的本征图像,还包括:
利用所述反射率解码器对所述第一融合特征图进行解码,得到所述待分解图像的反射率图像。
9.根据权利要求8所述的方法,其特征在于,所述利用所述反射率解码器对所述第一融合特征图进行解码,得到所述待分解图像的反射率图像,包括:
利用所述反射率解码器对所述第一融合特征图和至少一个所述法向量自适应器的第二融合特征图进行解码,得到所述待分解图像的反射率图像。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述法向量估计模型包括法向量编码器、法向量解码器和细分子网络;
所述利用法向量估计模型获取所述待分解图像的法向量信息,包括:
利用所述法向量编码器对所述待分解图像进行编码,得到第一场景结构特征图;
利用所述法向量解码器对所述第一场景结构特征图进行解码,得到解码特征图;
利用所述细分子网络对所述第一场景结构特征图和解码特征图进行融合,得到所述待分解图像的法向量信息。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述法向量估计模型和所述图像分解模型分别训练得到的。
12.根据权利要求11所述的方法,其特征在于,在所述利用法向量估计模型获取所述待分解图像的法向量信息之前,所述方法还包括:
利用第一样本集训练得到所述法向量估计模型,其中,所述第一样本集中的图像标注有法向量信息;
利用经训练的所述法向量估计模型获取所述第二样本集中的图像的样本法向量信息,并利用所述第二样本集以及所述样本法向量信息对所述图像分解模型进行训练。
13.根据权利要求12所述的方法,其特征在于,所述第二样本集包括第一子样本集和第二子样本集,所述利用所述第二样本集以及所述样本法向量信息对所述图像分解模型进行训练,包括:
利用所述第一子样本集以及所述第一子样本集对应的所述样本法向量信息对所述图像分解模型进行训练,以调整所述图像分解模型中共享编码器和光照率解码器的参数;
利用所述第二子样本集以及所述第二子样本集对应的所述样本法向量信息对所述图像分解模型进行训练,以调整所述图像分解模型中共享编码器和反射率解码器的参数。
14.一种图像分解装置,其特征在于,包括:
获取模块,用于获取待分解图像;
法向量估计模块,用于利用法向量估计模型获取所述待分解图像的法向量信息;
分解模块,用于基于所述法向量信息,利用图像分解模型对所述待分解图像进行分解,得到所述待分解图像的本征图像。
15.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至13任一项所述的图像分解方法。
16.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至13任一项所述的图像分解方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010898798.1A CN112053338A (zh) | 2020-08-31 | 2020-08-31 | 图像分解方法和相关装置、设备 |
PCT/CN2021/114023 WO2022042470A1 (zh) | 2020-08-31 | 2021-08-23 | 图像分解方法和相关装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010898798.1A CN112053338A (zh) | 2020-08-31 | 2020-08-31 | 图像分解方法和相关装置、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112053338A true CN112053338A (zh) | 2020-12-08 |
Family
ID=73608057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010898798.1A Withdrawn CN112053338A (zh) | 2020-08-31 | 2020-08-31 | 图像分解方法和相关装置、设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112053338A (zh) |
WO (1) | WO2022042470A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022042470A1 (zh) * | 2020-08-31 | 2022-03-03 | 浙江商汤科技开发有限公司 | 图像分解方法和相关装置、设备 |
CN115222930A (zh) * | 2022-09-02 | 2022-10-21 | 四川蜀天信息技术有限公司 | 一种基于WebGL的3D模型的编排组合的方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095158B (zh) * | 2023-08-23 | 2024-04-26 | 广东工业大学 | 一种基于多尺度分解卷积的太赫兹图像危险品检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940539B2 (en) * | 2015-05-08 | 2018-04-10 | Samsung Electronics Co., Ltd. | Object recognition apparatus and method |
CN105447906B (zh) * | 2015-11-12 | 2018-03-13 | 浙江大学 | 基于图像和模型计算光照参数进行重光照渲染的方法 |
CN106296749B (zh) * | 2016-08-05 | 2019-10-18 | 天津大学 | 基于l1范数约束的rgb-d图像本征分解方法 |
CN111445582A (zh) * | 2019-01-16 | 2020-07-24 | 南京大学 | 一种基于光照先验的单张图像人脸三维重建方法 |
CN110428491B (zh) * | 2019-06-24 | 2021-05-04 | 北京大学 | 基于单帧图像的三维人脸重建方法、装置、设备及介质 |
CN110647859B (zh) * | 2019-09-29 | 2023-01-31 | 浙江商汤科技开发有限公司 | 人脸图像分解方法和装置、电子设备及存储介质 |
CN112053338A (zh) * | 2020-08-31 | 2020-12-08 | 浙江商汤科技开发有限公司 | 图像分解方法和相关装置、设备 |
-
2020
- 2020-08-31 CN CN202010898798.1A patent/CN112053338A/zh not_active Withdrawn
-
2021
- 2021-08-23 WO PCT/CN2021/114023 patent/WO2022042470A1/zh active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022042470A1 (zh) * | 2020-08-31 | 2022-03-03 | 浙江商汤科技开发有限公司 | 图像分解方法和相关装置、设备 |
CN115222930A (zh) * | 2022-09-02 | 2022-10-21 | 四川蜀天信息技术有限公司 | 一种基于WebGL的3D模型的编排组合的方法 |
CN115222930B (zh) * | 2022-09-02 | 2022-11-29 | 四川蜀天信息技术有限公司 | 一种基于WebGL的3D模型的编排组合的方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022042470A1 (zh) | 2022-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112543347B (zh) | 基于机器视觉编解码的视频超分辨率方法、装置、系统和介质 | |
CN112053338A (zh) | 图像分解方法和相关装置、设备 | |
CN118570054B (zh) | 图像生成模型的训练方法、相关装置和介质 | |
EP4463822A1 (en) | Scalable framework for point cloud compression | |
CN118614061A (zh) | 编解码方法、编码器、解码器以及存储介质 | |
CN117501696A (zh) | 使用在分块之间共享的信息进行并行上下文建模 | |
CN117499711A (zh) | 视频生成模型的训练方法、装置、设备及存储介质 | |
CN114529785A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN117242493A (zh) | 点云解码、上采样及模型训练方法与装置 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN111294614B (zh) | 用于数字图像、音频或视频数据处理的方法和设备 | |
Dumka et al. | Advanced digital image processing and its applications in big data | |
CN115358917B (zh) | 一种手绘风格非对齐人脸迁移方法、设备、介质和系统 | |
CN114998583B (zh) | 图像处理方法、图像处理装置、设备及存储介质 | |
CN112580645A (zh) | 基于卷积稀疏编码的Unet语义分割方法 | |
CN115700771A (zh) | 编解码方法及装置 | |
CN117522884B (zh) | 一种海洋遥感图像语义分割方法、装置及电子设备 | |
CN117710295A (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN116310660B (zh) | 一种增强样本的生成方法及装置 | |
WO2024217512A1 (en) | Method, apparatus, and medium for point cloud processing | |
WO2024153154A1 (en) | Method, apparatus, and medium for video processing | |
WO2024175012A1 (en) | Method, apparatus, and medium for video processing | |
CN114494392B (zh) | 一种图像处理方法、装置、计算机设备以及可读存储介质 | |
CN118747726B (zh) | 图像生成模型的训练方法、相关装置和介质 | |
CN118521472B (zh) | 图像处理方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40041137 Country of ref document: HK |
|
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201208 |