CN115511708A

CN115511708A - 基于不确定性感知特征传输的深度图超分辨率方法及系统

Info

Publication number: CN115511708A
Application number: CN202211135383.4A
Authority: CN
Inventors: 叶茫; 施武轩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-23

Abstract

本发明公开了一种基于不确定性感知特征传输的深度图超分辨率方法及系统，通过在特征传输时构建迭代式上下采样的流水线替代现有方法中的前置插值上采样，从而在消除深度图与RGB引导图像之间分辨率差距的同时避免了噪声放大等副作用。本发明提出了一种对称不确定性方案，能够在特征传输过程中对深度特征的不确定性建模。然后利用生成的不确定性图对RGB特征加权从而去除与深度图像纹理不匹配的RGB特征，缓解由于两种图像之间的跨模态差距导致的纹理复制现象。本发明在每次迭代中只向前传播一次就可以对得到不确定性图，减少了计算资源的冗余消耗。同时本发明易于集成到现有的颜色引导的深度图像超分辨率模型，并进一步有效地提升模型的性能。

Description

基于不确定性感知特征传输的深度图超分辨率方法及系统

技术领域

本发明属于图像重建技术领域，涉及一种深度图超分辨率方法及系统，具体涉及一种基于不确定性感知特征传输的深度图超分辨率方法及系统。

背景技术

深度图像是对RGB模态的重要补充，可以为人类或计算机视觉系统更好地理解场景提供深度信息。更好的场景理解对计算机视觉中许多领域的研究都是有益的，例如场景识别、自主导航、3D重建等，这些任务通常都依赖于高质量的深度信息。但是，现有商业深度传感器获得的深度图通常分辨率较低，难以用于各种计算机视觉任务。因此，深度图超分辨率是一种实用且有价值的技术，它将深度图从低分辨率空间提升到高分辨率空间。

现有的一些深度图超分辨率方法通常利用同一场景下配准的高分辨率RGB图像来指导深度图的重建(文献1、2)。这类方法被称为颜色引导的深度图超分辨率。目前颜色引导的深度图超分辨率方法主要面临两大难题：

1.分辨率差距：深度图和RGB引导图像的分辨率大小不一致导致无法直接融合两种模态的特征；

2.跨模态差距：深度图和RGB引导图像的纹理不完全匹配。这会在重建的高分辨率深度图中引发纹理复制伪影和深度出血现象。

常规的颜色引导的深度图超分辨率方法的基本训练和测试步骤如下：

1.准备RGB-深度图像对数据集，将数据集分为训练集和测试集；

2.将训练集中的数据输入到神经网络中进行训练，其中包括基础网络的构建，RGB图像和深度图的特征提取，特征融合，损失优化等步骤；

3.保存训练过程中的最优模型，最终用该模型对测试集的数据进行测试得到模型表现结果。

对于深度图和RGB引导图像之间的分辨率差距，现阶段的方法通常使用前置插值上采样将深度图的分辨率提升到与RGB引导图像一致。但是这样做会带来一些副作用，例如噪声放大和模糊现象。此外，现有方法通常有两个分支或子网络，其中一个用于提取低分辨率深度图的特征，另一个用于提取对应的高分辨率RGB图像的特征。它们将从RGB图像提取的高频特征传递给深度图分支或子网络，以更好地恢复深度图中的边缘细节。但是这样的做法忽略了两种图像的跨模态差距。RGB图像中的高频信息并不全都是深度图重建所需要的。

综上所述，如何使深度特征和RGB特征在空间大小上保持一致的同时避免上述副作用以及在特征传输过程中准确地估计并去除与深度图像纹理不匹配的RGB特征，从而使得模型能够准确地重建高分辨率深度图是一个亟待解决的问题。

[文献1]He,Linzhi,et al."Towards Fast and Accurate Real-World DepthSuper-Resolution:Benchmark Dataset and Baseline."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021.

[文献2]Tang,Qi,et al."BridgeNet:A Joint Learning Network of Depth MapSuper-Resolution and Monocular Depth Estimation."Proceedings of the 29th ACMInternational Conference on Multimedia.2021.

发明内容

针对现有技术存在的问题，本发明提供了一种基于不确定性感知的特征传输(SymmetricUncertainty-aware Feature Transmission，SUFT)技术，以减小深度图和RGB引导图像之间的分辨率差距和跨模态差距，提升深度超分辨率方法的性能。

本发明的方法所采用的技术方案是：一种基于不确定性感知特征传输的深度图超分辨率方法，包括以下步骤：

步骤1：针对输入图，通过基于不确定性感知特征传输网络的RGB分支和Depth分支提取低分辨率深度图像和高分辨率RGB引导图像的特征；

将低分辨率深度图像和高分辨率RGB引导图像的特征都输入到基于不确定性感知特征传输网络的SUFT模块中，所述SUFT模块首先复制并在空间维度中水平翻转输入的深度特征，然后再将这两个水平镜像的深度特征投影到高分辨率域：

其中

是从低分辨率深度图中提取的特征，

是通过上采样得到的高分辨率深度特征，

是经过翻转的高分辨率深度特征，HFlip(·)和(·)↑_s分别代表水平翻转操作和缩放因子为s的上投影操作；

所述基于不确定性感知特征传输网络，整体由RGB分支，Depth分支和SUFT模块构成；

所述RGB分支由第一3×3卷积层、第一残差块、第二残差块、第三残差块顺序连接构成，输入高分辨率RGB图像，经过RGB分支，提取高分辨率RGB图像的特征以传入相应的SUFT模块；

所述Depth分支由第二3×3卷积层、第一残差组、第二残差组、第三残差组、第四残差组、上投影单元、第五残差组、第六残差组、第三3×3卷积层组成和双三次线性插值模块组成，输入低分辨率深度图，经过Depth分支，提取低分辨率深度图的特征以传入相应的SUFT模块，最终将网络提取的高分辨率深度图高频成分和经过双三次线性插值模块得到的高分辨率深度图的低频成分逐元素相加，输出重建的高分辨率深度图；

所述第一残差块、第二残差块、第三残差块由两个3×3卷积层和一个修正线性单元层构成；所述第一残差组、第二残差组、第三残差组、第四残差组由八个卷积层、四个修正线性单元层和四个通道注意力模块构成；所述第五残差组、第六残差组由十六个卷积层、八个修正线性单元层和八个通道注意力模块构成；所述上投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成；所述双三次线性插值模块将输入低分辨率深度图上采样得到一个模糊的高分辨率深度图；

步骤2：利用步骤1中获得的两个水平镜像的高分辨率深度特征计算对称不确定性的空间分布，获得不确定性图

步骤3：将步骤2中获得的不确定性图

与步骤1中提取的高分辨率RGB引导图像特征相乘，再与上采样的高分辨率深度特征

沿通道轴拼接：

其中

是从高分辨率RGB引导图像中提取的特征，

是融合后的特征，[·；·]表示沿通道轴拼接操作；

步骤4：将融合后的特征

通过下投影单元映射回低分辨率空间域：

其中(·)↓_s表示比例因子为s的下投影操作。

本发明的系统所采用的技术方案是：一种基于不确定性感知特征传输的深度图超分辨率系统，包括以下模块：

模块1：针对输入图，通过基于不确定性感知特征传输网络的RGB分支和Depth分支提取低分辨率深度图像和高分辨率RGB引导图像的特征；

其中

是从低分辨率深度图中提取的特征，

是通过上采样得到的高分辨率深度特征，

模块2：利用模块1中获得的两个水平镜像的高分辨率深度特征计算对称不确定性的空间分布，获得不确定性图

模块3：将模块2中获得的不确定性图

与模块1中提取的高分辨率RGB引导图像特征相乘，再与上采样的高分辨率深度特征

沿通道轴拼接：

其中

是从高分辨率RGB引导图像中提取的特征，

是融合后的特征，[·；·]表示沿通道轴拼接操作；

模块4：将融合后的特征

通过下投影单元映射回低分辨率空间域：

其中(·)↓_s表示比例因子为s的下投影操作。

本发明具有以下的优点：

(1)本发明在特征传输中构建迭代式上下采样流水线替代常用的前置插值上采样，可以在消除分辨率差异同时为每个特征融合阶段的投影误差提供误差反馈机制，以减轻噪声放大和模糊。

(2)本发明提出的对称不确定性方案可以在特征传输过程中精确地选择RGB引导图像中的有效信息，减少重建结果中产生的虚假纹理。并且基于该方案，网络在每次迭代中只向前传播一次就可以对得到不确定性图，减少了计算资源的冗余消耗。

(3)本发明提出的方法可以作为一个独立模块添加到现有的颜色引导的深度图超分辨率方法的架构中，具有易于集成的特点。

附图说明

图1为本发明实施例的基于不确定性感知特征传输网络结构图；

图2为本发明实施例的SUFT模块结构图；

图3为本发明实施例的对称不确定性的计算流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种基于不确定性感知特征传输的深度图超分辨率方法，包括以下步骤：

将低分辨率深度图像和高分辨率RGB引导图像的特征都输入到基于不确定性感知特征传输网络的SUFT模块中，本实施例的SUFT模块首先复制并在空间维度中水平翻转输入的深度特征，然后再将这两个水平镜像的深度特征投影到高分辨率域：

其中

是从低分辨率深度图中提取的特征，

是通过上采样得到的高分辨率深度特征，

请见图1，本实施例的基于不确定性感知特征传输网络，整体由RGB分支，Depth分支和SUFT模块构成；

本实施例的RGB分支由第一3×3卷积层、第一残差块、第二残差块、第三残差块顺序连接构成，输入高分辨率RGB图像，经过RGB分支，提取高分辨率RGB图像的特征以传入相应的SUFT模块；

本实施例的Depth分支由第二3×3卷积层、第一残差组、第二残差组、第三残差组、第四残差组、上投影单元、第五残差组、第六残差组、第三3×3卷积层组成和双三次线性插值模块组成，输入低分辨率深度图，经过Depth分支，提取低分辨率深度图的特征以传入相应的SUFT模块，最终将网络提取的高分辨率深度图高频成分和经过双三次线性插值模块得到的高分辨率深度图的低频成分逐元素相加，输出重建的高分辨率深度图；

本实施例的第一残差块、第二残差块、第三残差块由两个3×3卷积层和一个修正线性单元层构成；本实施例的第一残差组、第二残差组、第三残差组、第四残差组由八个卷积层、四个修正线性单元层和四个通道注意力模块构成；本实施例的第五残差组、第六残差组由十六个卷积层、八个修正线性单元层和八个通道注意力模块构成；本实施例的上投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成；本实施例的双三次线性插值模块将输入低分辨率深度图上采样得到一个模糊的高分辨率深度图；

请见图2，本实施例的SUFT模块，由第一上投影单元，第二上投影单元，一个不确定性模块，一个下投影单元构成，输入从高分辨率RGB图像和低分辨率深度图中提取的特征，去除RGB图像特征中的纹理不匹配信息，输出高分辨率RGB图像和低分辨率深度图的融合特征进入Depth分支；

本实施例的不确定性模块由一个卷积层和一个归一化层构成，输入镜像的深度图特征，经过逐元素相减和绝对值操作，得到的差异图沿通道轴分别执行最大值和均值操作后沿通道轴拼接，然后经过卷积层和归一化层，输出对称不确定性图；

本实施例的第一上投影单元，第二上投影单元和下投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成；

请见图3，本实施例中步骤2的具体实现包括以下子步骤：

步骤2.1：再次水平翻转

使其与

在空间上对齐；然后通过逐元素相减操作后取绝对值以初步计算不确定性图：

其中

表示两个深度特征之间的绝对差异；

步骤2.2：对

沿通道轴进行平均池化和最大池化操作，以汇总其通道信息并生成两个二维的信息图；然后将这两个二维的信息图沿通道轴串联起来，再由标准卷积层对其进行卷积，生成二维的对称不确定度图；对称不确定度图的值最后被归一化到[0,1]的范围：

其中

表示归一化的对称不确定图，AvgPool(·)代表平均池化操作，MaxPool(·)代表最大池化操作，Conv(·)代表卷积操作，归一化Norm(·)的具体操作表示为：

其中∈是一个小值，以避免计算过程中被零除，默认为1e^-12，X_norm是归一化的结果，max和min分别代表输入数据X的最大值和最小值。

步骤3：将步骤2中获得的不确定性图

与步骤1中提取的高分辨率RGB引导图像特征相乘，使深度图中不确定性较大的区域所对应的RGB特征获得较高的权重，反之亦然；再与上采样的高分辨率深度特征

沿通道轴拼接：

其中

是从高分辨率RGB引导图像中提取的特征，

是融合后的特征，[·；·]表示沿通道轴拼接操作；

步骤4：将融合后的特征

通过下投影单元映射回低分辨率空间域：

其中(·)↓_s表示比例因子为s的下投影操作，其确保SUFT模块的输出与输入具有相同的空间大小，从而可以执行多级特征融合。通过将SUFT模块嵌入到多阶段融合网络中可以在消除分辨率差异同时为每个特征融合阶段的投影误差提供误差反馈机制，以减轻噪声放大和模糊。

以下通过实验对本实施例的方案做进一步的阐述。

本实施例采用的深度学习框架为Pytorch，版本为1.9.0，CUDA版本为11.3。实验的硬件环境是NVIDIA GeForce RTX 3090显卡，处理器为Intel(R)Xeon(R)Gold 6240C。基于不确定性感知特征传输的深度图超分辨率方法的具体实施流程如下：

本实施例的基于不确定性感知特征传输网络，可作为一个独立模块添加到现有的颜色引导的深度图超分辨率网络架构中，只需要移除前置插值上采样，并将不确定性感知特征传输模块的输入设置为经过CNN提取的RGB特征和深度特征后，接入现有的深度神经网络架构即可。实验中将不确定性感知特征传输模块嵌入到一个简单的多阶段融合模型中实施。

本实施例的基于不确定性感知特征传输网络为训练好的网络。其训练过程包括以下步骤：

(1)数据的准备：准备低分辨率深度图和对应的RGB引导图像以及高分率深度图作为训练和测试数据。

本发明使用NYU v2，Middlebury和RGB-D-D数据集。NYUv2数据集包含1449个RGB-深度图像对，其中1000对作为训练数据，449对作为测试数据。Middlebury数据集总共包括30个RGB-深度图像对分别来自Middlebury 2001、2005、2006数据集。RGB-D-D数据集中有2215个RGB-深度图像对用于训练和405个RGB-深度图像对用于测试。其中NYUv2数据集和RGB-D-D数据集深度图的值代表以毫米为单位的16位绝对深度，Middlebury的深度图的值代表8位相对深度。此外，本发明还在RGB-D-D数据集上的real-world manner设定下对提出的方法进行了评估。该设定下包括2215对用于训练和405对用于测试的RGB-深度图像对，其中低分辨率深度图通过手机ToF摄像头拍摄，大小为192×144；高分辨率深度图通过工业ToF摄像头拍摄，大小为512×384。该设定下低分辨率深度图的退化更复杂所以对于深度图超分辨率方法而言更具有挑战性。

上述三个数据集都有三种缩放倍率：×4，×8和×16。低分辨率深度图像由高分辨率深度图像通过双三次线性插值获得(real-world manner除外)。在训练期间，将原始高分辨率深度图和高分辨率RGB图像裁剪成256×256的固定大小的块，这可以在不削弱网络性能的情况下加快训练速度。当选取的比例因子为×4，×8和×16时，对应的低分辨率深度图分别被分割成大小64×64、32×32和16×16的块。本发明在NYUv2数据集上训练，在NYUv2的测试集，Middlebury数据集以及RGB-D-D的测试集上测试，以验证本发明的性能和泛化能力。此外，本发明在RGB-D-D数据集的real-world manner设定下使用NYUv2数据集上×4缩放倍率条件下训练的模型进行测试，以分析本发明在真实场景中的有效性。对于NYUv2数据集和RGB-D-D数据集，RMSE以厘米为单位测量；对于Middlebury数据集，RMSE是以所提供的差异的原始标度测量。

在训练期间，批大小设置为1，并且使用Adam优化器对模型进行优化，其中β₁＝0.9、β₂＝0.999和∈＝1e^-8。网络的初始学习率设置为1e^-4，每100个轮次学习率减少为0.1倍。

(2)把训练图像对送入基于不确定性感知特征传输网络进行训练。

(3)网络优化及参数更新。

更新包括前向传播和反向传播两部分。前向传播通过网络计算输出与损失函数。为了和现有方法进行公平的比较，本发明在训练网络时采用了与现有方法相同的损失函数，即L₁损失函数，该函数已近被证明在深度图超分辨率任务上比L₂损失有更好的表现和收敛性。给定训练集

它包含N张低分辨率深度图和相应的高分辨率RGB引导图像作为输入，目标深度图作为真实值：

其中，

代表数据集中的第i张低分辨率深度图，

代表数据集中的第i张高分辨率RGB引导图像，

代表数据集中的第i张高分辨率目标深度图，

代表颜色引导的深度图像超分辨率模型，θ表示

所学习的参数集。然后再反向传播过程中反传损失的梯度，通过随机梯度下降的优化策略对网络进行更新。

训练阶段按批输入RGB-深度图像对，前向传播计算各项损失，反向传播更新网络参数，经过多次迭代得到最终的网络模型。

(4)网络测试。

在测试阶段，不进行网络的训练以及参数更新，使用训练好的模型处理测试RGB-深度图像对，重建高分辨率深度图。通过计算网络重建的高分辨率深度图与真实的高分辨率深度图之间的均方根误差(Root Mean Square Error，RMSE)来衡量重建结果的质量。RMSE值越低，代表重建结果的质量越好。其计算方法如下：

其中，i、j分别代表像素点的横、纵坐标，D_ij代表真实的高分辨率图像中位置(i,j)处的像素值，D′_ij代表通过网络重建的高分辨率图像中位置(i,j)处的像素值，H和W分别代表D的高度和宽度。

为了验证本发明的有效性，将本发明与现有的深度图超分辨率方法进行对比，现有的深度图超分辨率方法主要有：

(1)DJF:Yijun Li,Jia-Bin Huang,Narendra Ahuja,and Ming-HsuanYang.2016.Deep joint image filtering.In ECCV.154–169.

(2)SVLRM:Jinshan Pan,Jiangxin Dong,Jimmy S Ren,Liang Lin,Jinhui Tang,and MingHsuan Yang.2019.Spatially variant linear representation models forjoint filtering.In CVPR.1702–1711.

(3)DJFR:Yijun Li,Jia-Bin Huang,Narendra Ahuja,and Ming-HsuanYang.2019.Jointimage filtering with deep convolutional networks.IEEE TPAMI(2019),1909–1923.

(4)FDKN，DKN:Beomjun Kim,Jean Ponce,and Bumsub Ham.2019.Deformablekernel networksfor guided depth map upsampling.IJCV.579–600.

(5)FDSR:Lingzhi He,Hongguang Zhu,Feng Li,Huihui Bai,Runmin Cong,Chunjie Zhang,Chunyu Lin,Meiqin Liu,and Yao Zhao.2021.Towards fast andaccurate real-world depth super-resolution:Benchmark dataset and baseline.InCVPR.9229–9238.

(6)JIIF:Jiaxiang Tang,Xiaokang Chen,and Gang Zeng.2021.Joint implicitimage functionfor guided depth super-resolution.In ACM MM.4390–4399.

(7)CTKT:Baoli Sun,Xinchen Ye,Baopu Li,Haojie Li,Zhihui Wang,and RuiXu.2021.Learning scene structure guidance via cross-task knowledge transferfor singledepth super-resolution.In CVPR.7792–7801.

(8)BridgeNet:Qi Tang,Runmin Cong,Ronghui Sheng,Lingzhi He,Dan Zhang,Yao Zhao,and Sam Kwong.2021.BridgeNet:A Joint Learning Network of DepthMapSuper-Resolution and Monocular Depth Estimation.In ACM MM.2148–2157.

在NYU v2数据集上进行测试，结果见表1：

表1

在Middlebury数据集和RGB-D-D数据集上进行测试，结果见表2：

表2

从表1和表2可以看出：与近些年的深度图超分辨率模型相比，本发明取得的RMSE结果比现有方法都高，图像重建质量明显提高。从表2的real-world设定下的结果可以看出：本发明比现有方法在面对真实世界中更复杂的退化时，重建的效果更好，证明了本发明的健壮性及其在现实世界场景中处理实际深度图超分辨率任务的潜力。这主要有两点原因：1.本发明使用的迭代式上下采样比现有方法常用的前置插值上采样造成的噪声放大和模糊更小。2.本发明提出的对称不确定性方案能有效缩小两种模态图像之间的跨模态差距，从而减少重建结果中的纹理复制伪影。

本发明在特征传输中构建迭代式上下采样流水线，以取代现有方法中常用的前置插值上采样，在消除分辨率差距的同时减小噪声放大和模糊等副作用。具体地说，本发明在每次特征融合之前对深度特征进行上采样，使其与RGB特征在空间大小上一致，并在每次融合后将高分辨率特征投影回低分辨率空间域以便后续操作。本发明还提出了一种对称不确定性方案以缩小两种模态图像之间的跨模态差距。它通过一种简单而有效的翻转操作来计算特征的不确定性以估计RGB特征中与深度纹理不匹配的区域，并对这些不匹配的部分赋予低权重以避免对深度图恢复产生错误的引导。本发明采用的技术方案可以作为一个独立模块添加到现有的颜色引导的深度图像超分辨方法的架构中。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于不确定性感知特征传输的深度图超分辨率方法，其特征在于，包括以下步骤：

其中

是从低分辨率深度图中提取的特征，

是通过上采样得到的高分辨率深度特征，

步骤3：将步骤2中获得的不确定性图

沿通道轴拼接：

其中

是从高分辨率RGB引导图像中提取的特征，

是融合后的特征，[·；·]表示沿通道轴拼接操作；

步骤4：将融合后的特征

通过下投影单元映射回低分辨率空间域：

其中(·)↓_s表示比例因子为s的下投影操作。

2.根据权利要求1所述的基于不确定性感知特征传输的深度图超分辨率方法，其特征在于：步骤1中，所述SUFT模块，由第一上投影单元，第二上投影单元，一个不确定性模块，一个下投影单元构成，输入从高分辨率RGB图像和低分辨率深度图中提取的特征，去除RGB图像特征中的纹理不匹配信息，输出高分辨率RGB图像和低分辨率深度图的融合特征进入Depth分支；

所述不确定性模块由一个卷积层和一个归一化层构成，输入镜像的深度图特征，经过逐元素相减和绝对值操作，得到的差异图沿通道轴分别执行最大值和均值操作后沿通道轴拼接，然后经过卷积层和归一化层，输出对称不确定性图；

所述第一上投影单元，第二上投影单元和下投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成。

3.根据权利要求1所述的基于不确定性感知特征传输的深度图超分辨率方法，其特征在于：步骤2的具体实现包括以下子步骤：

步骤2.1：再次水平翻转