CN113506336B

CN113506336B - 一种基于卷积神经网络和注意力机制的光场深度预测方法

Info

Publication number: CN113506336B
Application number: CN202110732927.4A
Authority: CN
Inventors: 张倩; 杜昀璋; 刘敬怀; 花定康; 王斌; 朱苏磊
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-04-26
Anticipated expiration: 2041-06-30
Also published as: CN113506336A

Abstract

本发明涉及一种基于卷积神经网络和注意力机制的光场深度预测方法，包括：获取光场图像并对其进行预处理，生成光场图像集；构建光场深度预测模型，该模型包括EPI学习模块、注意力模块和特征融合模块；将光场图像集分别输入EPI学习模块和注意力模块，分别获取光场图像的EPI信息以及各个图像权重；分别将光场图像EPI信息以及各个图像的权重输入特征融合模块，获得光场深度预测结果。与现有技术相比，本发明具有预测精度高、实用性好等优点。

Description

一种基于卷积神经网络和注意力机制的光场深度预测方法

技术领域

本发明涉及光场深度估计技术领域，尤其是涉及一种基于卷积神经网络和注意力机制的光场深度预测方法。

背景技术

光场深度信息反映了相应目标的精确空间信息。场景深度获取是决定光场图像能否得到广泛应用的技术关键，也是计算机视觉等领域的研究热点之一。它在三维重建，目标识别，汽车自动驾驶等领域发挥着重要作用。

目前，光场深度估计算法主要分为基于非学习的方法和基于学习的方法。非学习方法主要包括聚焦与离焦融合方法和基于立体匹配的方法。聚焦和离焦融合方法通过测量不同焦堆像素的模糊度，得到相应的深度，使用该方法得到的深度图可以保留更多的细节，但会引入散焦误差，降低深度图的精度。

近年来，深度学习在光场深度估计领域取得了巨大的成就，如中国专利CN112785637A中公开了一种基于动态融合网络的光场深度估计方法，包括以下步骤：确定光场数据集，基于光场数据集确定训练集和测试集；扩充光场数据集；搭建动态融合网络模型；动态融合网络模型由双流网络和一个多模态动态融合模块构成；双流网络由RGB流和焦点堆栈流组成；将双流网络的输出全局RGB特征和焦点特征作为多模态动态融合模块的输入，输出最终深度图；基于训练集训练构建的动态融合网络模型；在所述测试集上测试训练好的动态融合网络模型，并在手机数据集上进行验证。该专利中的光场深度估计方法可以获得优于其它光场深度估计方法的精度，减小噪声，保留更多细节信息，且打破了光场相机的限制，成功地应用于普通消费级相机数据，但是该专利中的光场深度估计方法未充分考虑光场图像的几何特征，预测的精准度不高。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种预测精度高、实用性好的基于卷积神经网络和注意力机制的光场深度预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于卷积神经网络和注意力机制的光场深度预测方法，所述的光场深度预测方法包括：

步骤1：获取光场图像并对其进行预处理，生成光场图像集；

步骤2：构建光场深度预测模型，该模型包括EPI学习模块、注意力模块和特征融合模块；

步骤3：将步骤1获取的光场图像集分别输入EPI学习模块和注意力模块，分别获取光场图像的EPI信息以及各个图像权重；

步骤4：分别将光场图像EPI信息以及各个图像的权重输入特征融合模块，获得光场深度预测结果。

优选地，所述步骤1中对光场图像的预处理具体为：对光场图像进行数据增强操作。

优选地，所述的EPI学习模块具体为：

在0°、45°、90°和135°四个角度分别设置并行的EPI学习网络，四个并行EPI学习网络均包括依次相连的二维卷积层、激活层、二维卷积层、激活层和批量归一化层。

更加优选地，所述的EPI学习网络的损失函数为：

其中，L为返回损失值，N为样本总量，x和y分别为预测的输出。

更加优选地，所述的激活层具体为：Sigmoid函数。

优选地，所述的注意力模块包括依次相连的二维卷积层、Resblock、特征提取层、Cost volume层、池化层、全连接层和激活层。

更加优选地，所述的特征提取层具体为：空间金字塔池化层。

优选地，所述的步骤2还包括在训练时对光场深度预测模型进行验证。

更加优选地，所述的验证方法为：

首先，计算光场深度预测结果与ground truth的均方误差MSE：

其中，N为光场图像中的像素总数；Dep和GT分别为光场深度预测结果和groundtruth；i为光场图像中的每个像素；

其次，计算峰值信噪比PSNR：

其中，MAX为光场图像中像素的最大值；

然后，计算结构相似性指标SSIM：

其中，x和y分别为光场深度预测结果和ground truth；μ为光场图像像素值的平均值；σ_x ²和σ_y ²分别为对应图像的方差；σ_x,y为x和y的协方差；

最后判断MSE、PSNR和SSIM是否均在预设阈值内，若是，则完成模型的训练，否则，继续对模型进行训练。

优选地，所述的特征融合模块包括8个依次相连的卷积块和1个优化块；所述的优化块包括两个二维卷积层和一个激活层。

与现有技术相比，本发明具有以下有益效果：

一、预测精度高：本发明中的光场深度预测方法充分考虑了光场图像的几何特征，充分利用其角度特性与对称性，提高了深度估计的精度，在同样的工作时长和工作条件下，可以提供更为精确的结果。

二、实用性好：本发明中的光场深度预测方法不依靠雷达，天线等精密设备，可以便利的获取所需深度信息，具有较强的实用性。

附图说明

图1为本发明中光场深度预测方法的流程示意图；

图2为本发明中光场深度预测模型的结构示意图；

图3为本发明实施例中注意力模块的三种模式示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于卷积神经网络和注意力机制的光场深度预测方法，其流程如图1所示：

步骤1：获取光场图像并对其进行预处理，生成光场图像集；

光场图像的获取：随着光场成像技术逐渐成熟，消费级的光场相机得到大规模应用，利用光场相机可以采集到场景中光线丰富的位置和方向信息，通过对这些信息用被动式的深度估计方法进行分析处理可以进一步获取场景的深度信息。光场相机可以在一次拍摄之后获得四维光场信息，即获得多个视角的场景图像。这些图像组成9×9共计81个的图像阵列，阵列中每张图片的相对位置都是固定的。计算每张图片相对位置之间的差值(即基线)和每张图片中对应的同一个空间点之间的位置差值(即视差)。通过计算基线和视差之间的关系，得到空间中对应点与摄像机中心镜头视角的距离。

由于光场图像的获取需要借助一定的专业设备，如固定相机阵列，相机龙门架或光场相机等，有时可能会出现同一场景下进行计算的图片数据不足的问题，针对实际操作中的这类问题，通过数据增强对数据进行预处理。

在保持光场中子孔径图像间几何关系不变的情况下，对有限的数据进行变换以扩大可用的数据规模，本实施例中的数据增强操作包括：

1、转移中心视点的光场图像

采集到的光场数据有9×9个视图，每个视图的空间分辨率为512×512，使用7×7大小的窗口，在9×9阵列上平移，则可以得到9倍以上可用于训练的数据；

2、变换角度

既可以通过旋转的方式直接获得新的可用于训练的数据，也可以通过提取视点的极面特征，首先旋转子孔径图像，然后重新排列各视点图片进行连接。

3、放缩和翻转

需要注意的是，在对图像进行放大或缩小的同时，也要对视差值进行相应的变换。

以上三种方法可以在图像的多种维度上进行操作，如中心视图，图像大小，图像RGB值，图像随机颜色变换，图像灰度值，伽马值等。

步骤2：构建如图2所示的光场深度预测模型，该模型包括EPI学习模块、注意力模块和特征融合模块；

EPI学习模块的构建方法为：

四维光场图像可以表示为L(x,y,u,v)，其中(x,y)为空间分辨率，(u,v)为角度分辨率，光场图像中心与其他视点的关系可以表示为：

L(x,y,0,0)＝L(x+d(x,y)*u,y+d(x,y)*v,u,v)

其中，d(x,y)为中心视点像素(x,y)与相邻视点对应像素的视差。

对于角度方向为θ(tanθ＝v/u)，重新建立如下关系：

L(x,y,0,0)＝L(x+d(x,y)*u,y+d(x,y)*utanθ,u,utanθ)

其中，光场视点是整齐的9×9阵列，只有utanθ是一个整数时，才能确保有相应的视点。因此选择四种视点方向的图像角度0°、45°、90°和135°，可以假设光场图像的角分辨率为(2N+1)×(2N+1)。

因此，EPI学习网络在0°、45°、90°和135°四个角度分别设置并行的EPI学习网络，分别对光场图像数据进行特征提取。四个并行EPI学习网络均包括依次相连的二维卷积层2D Conv、激活层Relu、二维卷积层2D Conv、激活层Relu和批量归一化层BN。

在二维卷积层2D Conv中，A和B均为二维矩阵，卷积结果为：

C(j,l)＝∑_p∑_q A(p,q)B(j-p+1,k-q+1)

在激活层Relu采用sigmoid函数，具体为：

上述激活函数将非线性输出引入上层神经元的输出z，Φ(z)为下一层的输出，Relu在一定程度上避免了梯度爆炸和梯度消失的问题。

由于深层神经网络是多层叠加的，会降低学习速度。为防止下层输入的变化变大或变小，导致上层落入饱和区，使学习过早停止。在最后一次激活功能层之后，选择批处理规范化(BN，batch normalization)。批量归一化层BN具体为：

其中，μ是转换参数，σ为缩放参数，这两个参数用于转换和缩放数据，使数据符合平均值为0、方差为1的标准分布；b为重转换参数，g为重缩放参数，以确保模型的表达能力不会因标准化而降低。

EPI学习网络的损失函数为：

为了应对光场中存在的基线过小的问题，使用步长为1的2×2大小的卷积核测量微小的视差值。在网络中设置卷积深度为7，学习速率为1e^-5。

注意力模块的构建方法为：

在光场数据中获取了大量不同角度视角的图片。如第一步所介绍，通过计算这些图片中对应点的视差信息和EPI信息，可以得到三维空间中的深度信息。但是，这些图片中包含大量冗余信息，因此设置注意力模块，对光场中图片进行计算并分配权重，突出对光场深度估计更具价值的图片的重要性和贡献度。

注意力模块包括依次相连的二维卷积层2D Conv、Resblock、特征提取层FEblock、Cost volume层、池化层Pooling、全连接层Connected和激活层Relu，具体的：

首先，通过二维卷积层2D Conv和Resblock对光场图像进行预处理，然后在特征提取层FE block中进行特征提取，剔除纹理区域和非朗伯体曲面。特征提取层FE block根据相邻区域的连接提取特征，并连接所有特征映射，得到输出特征映射。接下来，在Costvolume层中，调整特征视图的相对位置，计算五维(批量大小×差距×高度×宽度×特征尺寸)连接这些特征映射后的Cost volume。最后，汇集输入成本量以生成注意图，接着是连接层和激活层。以HCI数据集为例，每个场景中有9×9个子孔径视点，所以最终得到9×9尺寸的注意力图。这一部分操作分为三步：

第一步，使用特征提取层提取图像特征

特征提取层选用SPP(spatial pyramid pooling，空间金字塔池化)模块，使用SPP模块利用对应点邻近区域的信息估计视差值。

SPP模块具体为：在一个CNN里，把最以后一层池化层去掉，换成一个SPP去做最大池化操作(max pooling)。SPP-net可以用标准的back-propagation来训练。

第二步，计算Cost volume

将每个子孔径视图的特征图通过SPP模块传递后获得每个视图的特征图。为了更好地利用这些特征图，设置计算Cost volume。根据SPP模块提供的特征图，沿u或v方向以不同的视差级别手动移动输入图像，以便网络的后半部分可以使用相对较小的接收信号直接查看不同空间位置的像素信息。设置9个视差级别，范围从-4到4。移动特征图后，将这些特征图连接到一个5D Cost volume中，其大小等于批处理大小×视差×高度×宽度×特征尺寸。

第三步，获取注意力图

注意图本质上是一个9×9图，其表明相应视图的重要性。第一种类型是自由注意力映射，其中每个视图都有自己的重要值。对光场图片中所有图像进行学习；第二种类型是对称注意图，光场图像阵列沿u和v轴是对称的。可以根据对称性学习其中对称的25个图像。整个映射可以通过沿u轴和v轴进行镜像来构建；第三种类型中，图像是对称的沿u、v和两个对角线轴。再次利用对称性，计算对称的15个图像的权重，然后通过沿对角线、v和u轴镜像构建完整的注意力地图。通过对注意力图的结构进行约束，减少了可学习权值的数量。以Cost volume作为输入，视图选择模块通过一个全局池化层生成注意图，然后是全连接层，最后是一个激活层，由此得到对光场图像所有图片的注意力分配图。

注意力模块包括三种模式，如图3所示，在第一种模式中，模块对每幅图像进行注意力评估；在第二种模式中，只有0°和90°利用方向图像进行镜像计算；在最后一个模式中，添加45°和135°方向。将三种方法结合起来得到注意图。将注意力图与神经网络中的卷积层以权值的形式结合起来，然后增强子孔径视点的权值。

特征融合模块的构建方法为：

特征融合模块包括8个依次相连的卷积块和1个优化块，优化块包括两个二维卷积层和一个激活层。

步骤2还包括在训练时对光场深度预测模型进行验证，具体为：

首先，计算光场深度预测结果与ground truth的均方误差MSE：

其次，计算峰值信噪比PSNR：

其中，MAX为光场图像中像素的最大值；

然后，计算结构相似性指标SSIM：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述的光场深度预测方法包括：

步骤1：获取光场图像并对其进行预处理，生成光场图像集；

步骤4：分别将光场图像EPI信息以及各个图像的权重输入特征融合模块，获得光场深度预测结果；

所述的注意力模块包括依次相连的二维卷积层、Resblock、特征提取层、Cost volume层、池化层、全连接层和激活层；所述的特征提取层具体为：空间金字塔池化层；具体的：

首先，通过二维卷积层2D Conv和Resblock对光场图像进行预处理，然后在特征提取层FE block中进行特征提取，剔除纹理区域和非朗伯体曲面；特征提取层FE block根据相邻区域的连接提取特征，并连接所有特征映射，得到输出特征映射；接下来，在Cost volume层中，调整特征视图的相对位置，计算五维连接这些特征映射后的Cost volume，其中五维是批处理大小×视差×高度×宽度×特征尺寸；最后，汇集输入成本量以生成注意图，接着是连接层和激活层；这一部分操作分为三步：

第一步，使用特征提取层提取图像特征

特征提取层选用SPP空间金字塔池化模块，使用SPP模块利用对应点邻近区域的信息估计视差值；

SPP模块具体为：在一个CNN里，把最后一层池化层去掉，换成一个SPP去做最大池化操作；

第二步，计算Cost volume

将每个子孔径视图的特征图通过SPP模块传递后获得每个视图的特征图；设置计算Cost volume，根据SPP模块提供的特征图，沿u或v方向以不同的视差级别手动移动输入图像；设置9个视差级别，范围从-4到4；移动特征图后，将这些特征图连接到一个5D Costvolume中，其大小等于批处理大小×视差×高度×宽度×特征尺寸；

第三步，获取注意力图

注意图本质上是一个9×9图，其表明相应视图的重要性；第一种类型是自由注意力映射，其中每个视图都有自己的重要值；对光场图片中所有图像进行学习；第二种类型是对称注意图，光场图像阵列沿u和v轴是对称的；根据对称性学习其中对称的25个图像；整个映射通过沿u轴和v轴进行镜像来构建；第三种类型中，图像是对称的沿u、v和两个对角线轴；再次利用对称性，计算对称的15个图像的权重，然后通过沿对角线、v和u轴镜像构建完整的注意力地图；通过对注意力图的结构进行约束，减少了可学习权值的数量；以Cost volume作为输入，视图选择模块通过一个全局池化层生成注意图，然后是全连接层，最后是一个激活层，由此得到对光场图像所有图片的注意力分配图。

2.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述步骤1中对光场图像的预处理具体为：对光场图像进行数据增强操作。

3.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述的EPI学习模块具体为：

4.根据权利要求3所述的一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述的EPI学习网络的损失函数为：

5.根据权利要求3所述的一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述的激活层具体为：Sigmoid函数。

6.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述的步骤2还包括在训练时对光场深度预测模型进行验证。

7.根据权利要求6所述的一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述的验证方法为：

首先，计算光场深度预测结果与ground truth的均方误差MSE：

其中，N为光场图像中的像素总数；Dep和GT分别为光场深度预测结果和ground truth；i为光场图像中的每个像素；

其次，计算峰值信噪比PSNR：

其中，MAX为光场图像中像素的最大值；

然后，计算结构相似性指标SSIM：

8.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法，其特征在于，所述的特征融合模块包括8个依次相连的卷积块和1个优化块；所述的优化块包括两个二维卷积层和一个激活层。