[go: up one dir, main page]

CN113506336B - 一种基于卷积神经网络和注意力机制的光场深度预测方法 - Google Patents

一种基于卷积神经网络和注意力机制的光场深度预测方法 Download PDF

Info

Publication number
CN113506336B
CN113506336B CN202110732927.4A CN202110732927A CN113506336B CN 113506336 B CN113506336 B CN 113506336B CN 202110732927 A CN202110732927 A CN 202110732927A CN 113506336 B CN113506336 B CN 113506336B
Authority
CN
China
Prior art keywords
light field
layer
module
attention
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110732927.4A
Other languages
English (en)
Other versions
CN113506336A (zh
Inventor
张倩
杜昀璋
刘敬怀
花定康
王斌
朱苏磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN202110732927.4A priority Critical patent/CN113506336B/zh
Publication of CN113506336A publication Critical patent/CN113506336A/zh
Application granted granted Critical
Publication of CN113506336B publication Critical patent/CN113506336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于卷积神经网络和注意力机制的光场深度预测方法,包括:获取光场图像并对其进行预处理,生成光场图像集;构建光场深度预测模型,该模型包括EPI学习模块、注意力模块和特征融合模块;将光场图像集分别输入EPI学习模块和注意力模块,分别获取光场图像的EPI信息以及各个图像权重;分别将光场图像EPI信息以及各个图像的权重输入特征融合模块,获得光场深度预测结果。与现有技术相比,本发明具有预测精度高、实用性好等优点。

Description

一种基于卷积神经网络和注意力机制的光场深度预测方法
技术领域
本发明涉及光场深度估计技术领域,尤其是涉及一种基于卷积神经网络和注意力机制的光场深度预测方法。
背景技术
光场深度信息反映了相应目标的精确空间信息。场景深度获取是决定光场图像能否得到广泛应用的技术关键,也是计算机视觉等领域的研究热点之一。它在三维重建,目标识别,汽车自动驾驶等领域发挥着重要作用。
目前,光场深度估计算法主要分为基于非学习的方法和基于学习的方法。非学习方法主要包括聚焦与离焦融合方法和基于立体匹配的方法。聚焦和离焦融合方法通过测量不同焦堆像素的模糊度,得到相应的深度,使用该方法得到的深度图可以保留更多的细节,但会引入散焦误差,降低深度图的精度。
近年来,深度学习在光场深度估计领域取得了巨大的成就,如中国专利CN112785637A中公开了一种基于动态融合网络的光场深度估计方法,包括以下步骤:确定光场数据集,基于光场数据集确定训练集和测试集;扩充光场数据集;搭建动态融合网络模型;动态融合网络模型由双流网络和一个多模态动态融合模块构成;双流网络由RGB流和焦点堆栈流组成;将双流网络的输出全局RGB特征和焦点特征作为多模态动态融合模块的输入,输出最终深度图;基于训练集训练构建的动态融合网络模型;在所述测试集上测试训练好的动态融合网络模型,并在手机数据集上进行验证。该专利中的光场深度估计方法可以获得优于其它光场深度估计方法的精度,减小噪声,保留更多细节信息,且打破了光场相机的限制,成功地应用于普通消费级相机数据,但是该专利中的光场深度估计方法未充分考虑光场图像的几何特征,预测的精准度不高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种预测精度高、实用性好的基于卷积神经网络和注意力机制的光场深度预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于卷积神经网络和注意力机制的光场深度预测方法,所述的光场深度预测方法包括:
步骤1:获取光场图像并对其进行预处理,生成光场图像集;
步骤2:构建光场深度预测模型,该模型包括EPI学习模块、注意力模块和特征融合模块;
步骤3:将步骤1获取的光场图像集分别输入EPI学习模块和注意力模块,分别获取光场图像的EPI信息以及各个图像权重;
步骤4:分别将光场图像EPI信息以及各个图像的权重输入特征融合模块,获得光场深度预测结果。
优选地,所述步骤1中对光场图像的预处理具体为:对光场图像进行数据增强操作。
优选地,所述的EPI学习模块具体为:
在0°、45°、90°和135°四个角度分别设置并行的EPI学习网络,四个并行EPI学习网络均包括依次相连的二维卷积层、激活层、二维卷积层、激活层和批量归一化层。
更加优选地,所述的EPI学习网络的损失函数为:
其中,L为返回损失值,N为样本总量,x和y分别为预测的输出。
更加优选地,所述的激活层具体为:Sigmoid函数。
优选地,所述的注意力模块包括依次相连的二维卷积层、Resblock、特征提取层、Cost volume层、池化层、全连接层和激活层。
更加优选地,所述的特征提取层具体为:空间金字塔池化层。
优选地,所述的步骤2还包括在训练时对光场深度预测模型进行验证。
更加优选地,所述的验证方法为:
首先,计算光场深度预测结果与ground truth的均方误差MSE:
其中,N为光场图像中的像素总数;Dep和GT分别为光场深度预测结果和groundtruth;i为光场图像中的每个像素;
其次,计算峰值信噪比PSNR:
其中,MAX为光场图像中像素的最大值;
然后,计算结构相似性指标SSIM:
其中,x和y分别为光场深度预测结果和ground truth;μ为光场图像像素值的平均值;σx 2和σy 2分别为对应图像的方差;σx,y为x和y的协方差;
最后判断MSE、PSNR和SSIM是否均在预设阈值内,若是,则完成模型的训练,否则,继续对模型进行训练。
优选地,所述的特征融合模块包括8个依次相连的卷积块和1个优化块;所述的优化块包括两个二维卷积层和一个激活层。
与现有技术相比,本发明具有以下有益效果:
一、预测精度高:本发明中的光场深度预测方法充分考虑了光场图像的几何特征,充分利用其角度特性与对称性,提高了深度估计的精度,在同样的工作时长和工作条件下,可以提供更为精确的结果。
二、实用性好:本发明中的光场深度预测方法不依靠雷达,天线等精密设备,可以便利的获取所需深度信息,具有较强的实用性。
附图说明
图1为本发明中光场深度预测方法的流程示意图;
图2为本发明中光场深度预测模型的结构示意图;
图3为本发明实施例中注意力模块的三种模式示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种基于卷积神经网络和注意力机制的光场深度预测方法,其流程如图1所示:
步骤1:获取光场图像并对其进行预处理,生成光场图像集;
光场图像的获取:随着光场成像技术逐渐成熟,消费级的光场相机得到大规模应用,利用光场相机可以采集到场景中光线丰富的位置和方向信息,通过对这些信息用被动式的深度估计方法进行分析处理可以进一步获取场景的深度信息。光场相机可以在一次拍摄之后获得四维光场信息,即获得多个视角的场景图像。这些图像组成9×9共计81个的图像阵列,阵列中每张图片的相对位置都是固定的。计算每张图片相对位置之间的差值(即基线)和每张图片中对应的同一个空间点之间的位置差值(即视差)。通过计算基线和视差之间的关系,得到空间中对应点与摄像机中心镜头视角的距离。
由于光场图像的获取需要借助一定的专业设备,如固定相机阵列,相机龙门架或光场相机等,有时可能会出现同一场景下进行计算的图片数据不足的问题,针对实际操作中的这类问题,通过数据增强对数据进行预处理。
在保持光场中子孔径图像间几何关系不变的情况下,对有限的数据进行变换以扩大可用的数据规模,本实施例中的数据增强操作包括:
1、转移中心视点的光场图像
采集到的光场数据有9×9个视图,每个视图的空间分辨率为512×512,使用7×7大小的窗口,在9×9阵列上平移,则可以得到9倍以上可用于训练的数据;
2、变换角度
既可以通过旋转的方式直接获得新的可用于训练的数据,也可以通过提取视点的极面特征,首先旋转子孔径图像,然后重新排列各视点图片进行连接。
3、放缩和翻转
需要注意的是,在对图像进行放大或缩小的同时,也要对视差值进行相应的变换。
以上三种方法可以在图像的多种维度上进行操作,如中心视图,图像大小,图像RGB值,图像随机颜色变换,图像灰度值,伽马值等。
步骤2:构建如图2所示的光场深度预测模型,该模型包括EPI学习模块、注意力模块和特征融合模块;
EPI学习模块的构建方法为:
四维光场图像可以表示为L(x,y,u,v),其中(x,y)为空间分辨率,(u,v)为角度分辨率,光场图像中心与其他视点的关系可以表示为:
L(x,y,0,0)=L(x+d(x,y)*u,y+d(x,y)*v,u,v)
其中,d(x,y)为中心视点像素(x,y)与相邻视点对应像素的视差。
对于角度方向为θ(tanθ=v/u),重新建立如下关系:
L(x,y,0,0)=L(x+d(x,y)*u,y+d(x,y)*utanθ,u,utanθ)
其中,光场视点是整齐的9×9阵列,只有utanθ是一个整数时,才能确保有相应的视点。因此选择四种视点方向的图像角度0°、45°、90°和135°,可以假设光场图像的角分辨率为(2N+1)×(2N+1)。
因此,EPI学习网络在0°、45°、90°和135°四个角度分别设置并行的EPI学习网络,分别对光场图像数据进行特征提取。四个并行EPI学习网络均包括依次相连的二维卷积层2D Conv、激活层Relu、二维卷积层2D Conv、激活层Relu和批量归一化层BN。
在二维卷积层2D Conv中,A和B均为二维矩阵,卷积结果为:
C(j,l)=∑pq A(p,q)B(j-p+1,k-q+1)
在激活层Relu采用sigmoid函数,具体为:
上述激活函数将非线性输出引入上层神经元的输出z,Φ(z)为下一层的输出,Relu在一定程度上避免了梯度爆炸和梯度消失的问题。
由于深层神经网络是多层叠加的,会降低学习速度。为防止下层输入的变化变大或变小,导致上层落入饱和区,使学习过早停止。在最后一次激活功能层之后,选择批处理规范化(BN,batch normalization)。批量归一化层BN具体为:
其中,μ是转换参数,σ为缩放参数,这两个参数用于转换和缩放数据,使数据符合平均值为0、方差为1的标准分布;b为重转换参数,g为重缩放参数,以确保模型的表达能力不会因标准化而降低。
EPI学习网络的损失函数为:
其中,L为返回损失值,N为样本总量,x和y分别为预测的输出。
为了应对光场中存在的基线过小的问题,使用步长为1的2×2大小的卷积核测量微小的视差值。在网络中设置卷积深度为7,学习速率为1e-5
注意力模块的构建方法为:
在光场数据中获取了大量不同角度视角的图片。如第一步所介绍,通过计算这些图片中对应点的视差信息和EPI信息,可以得到三维空间中的深度信息。但是,这些图片中包含大量冗余信息,因此设置注意力模块,对光场中图片进行计算并分配权重,突出对光场深度估计更具价值的图片的重要性和贡献度。
注意力模块包括依次相连的二维卷积层2D Conv、Resblock、特征提取层FEblock、Cost volume层、池化层Pooling、全连接层Connected和激活层Relu,具体的:
首先,通过二维卷积层2D Conv和Resblock对光场图像进行预处理,然后在特征提取层FE block中进行特征提取,剔除纹理区域和非朗伯体曲面。特征提取层FE block根据相邻区域的连接提取特征,并连接所有特征映射,得到输出特征映射。接下来,在Costvolume层中,调整特征视图的相对位置,计算五维(批量大小×差距×高度×宽度×特征尺寸)连接这些特征映射后的Cost volume。最后,汇集输入成本量以生成注意图,接着是连接层和激活层。以HCI数据集为例,每个场景中有9×9个子孔径视点,所以最终得到9×9尺寸的注意力图。这一部分操作分为三步:
第一步,使用特征提取层提取图像特征
特征提取层选用SPP(spatial pyramid pooling,空间金字塔池化)模块,使用SPP模块利用对应点邻近区域的信息估计视差值。
SPP模块具体为:在一个CNN里,把最以后一层池化层去掉,换成一个SPP去做最大池化操作(max pooling)。SPP-net可以用标准的back-propagation来训练。
第二步,计算Cost volume
将每个子孔径视图的特征图通过SPP模块传递后获得每个视图的特征图。为了更好地利用这些特征图,设置计算Cost volume。根据SPP模块提供的特征图,沿u或v方向以不同的视差级别手动移动输入图像,以便网络的后半部分可以使用相对较小的接收信号直接查看不同空间位置的像素信息。设置9个视差级别,范围从-4到4。移动特征图后,将这些特征图连接到一个5D Cost volume中,其大小等于批处理大小×视差×高度×宽度×特征尺寸。
第三步,获取注意力图
注意图本质上是一个9×9图,其表明相应视图的重要性。第一种类型是自由注意力映射,其中每个视图都有自己的重要值。对光场图片中所有图像进行学习;第二种类型是对称注意图,光场图像阵列沿u和v轴是对称的。可以根据对称性学习其中对称的25个图像。整个映射可以通过沿u轴和v轴进行镜像来构建;第三种类型中,图像是对称的沿u、v和两个对角线轴。再次利用对称性,计算对称的15个图像的权重,然后通过沿对角线、v和u轴镜像构建完整的注意力地图。通过对注意力图的结构进行约束,减少了可学习权值的数量。以Cost volume作为输入,视图选择模块通过一个全局池化层生成注意图,然后是全连接层,最后是一个激活层,由此得到对光场图像所有图片的注意力分配图。
注意力模块包括三种模式,如图3所示,在第一种模式中,模块对每幅图像进行注意力评估;在第二种模式中,只有0°和90°利用方向图像进行镜像计算;在最后一个模式中,添加45°和135°方向。将三种方法结合起来得到注意图。将注意力图与神经网络中的卷积层以权值的形式结合起来,然后增强子孔径视点的权值。
特征融合模块的构建方法为:
特征融合模块包括8个依次相连的卷积块和1个优化块,优化块包括两个二维卷积层和一个激活层。
步骤2还包括在训练时对光场深度预测模型进行验证,具体为:
首先,计算光场深度预测结果与ground truth的均方误差MSE:
其中,N为光场图像中的像素总数;Dep和GT分别为光场深度预测结果和groundtruth;i为光场图像中的每个像素;
其次,计算峰值信噪比PSNR:
其中,MAX为光场图像中像素的最大值;
然后,计算结构相似性指标SSIM:
其中,x和y分别为光场深度预测结果和ground truth;μ为光场图像像素值的平均值;σx 2和σy 2分别为对应图像的方差;σx,y为x和y的协方差;
最后判断MSE、PSNR和SSIM是否均在预设阈值内,若是,则完成模型的训练,否则,继续对模型进行训练。
步骤3:将步骤1获取的光场图像集分别输入EPI学习模块和注意力模块,分别获取光场图像的EPI信息以及各个图像权重;
步骤4:分别将光场图像EPI信息以及各个图像的权重输入特征融合模块,获得光场深度预测结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述的光场深度预测方法包括:
步骤1:获取光场图像并对其进行预处理,生成光场图像集;
步骤2:构建光场深度预测模型,该模型包括EPI学习模块、注意力模块和特征融合模块;
步骤3:将步骤1获取的光场图像集分别输入EPI学习模块和注意力模块,分别获取光场图像的EPI信息以及各个图像权重;
步骤4:分别将光场图像EPI信息以及各个图像的权重输入特征融合模块,获得光场深度预测结果;
所述的注意力模块包括依次相连的二维卷积层、Resblock、特征提取层、Cost volume层、池化层、全连接层和激活层;所述的特征提取层具体为:空间金字塔池化层;具体的:
首先,通过二维卷积层2D Conv和Resblock对光场图像进行预处理,然后在特征提取层FE block中进行特征提取,剔除纹理区域和非朗伯体曲面;特征提取层FE block根据相邻区域的连接提取特征,并连接所有特征映射,得到输出特征映射;接下来,在Cost volume层中,调整特征视图的相对位置,计算五维连接这些特征映射后的Cost volume,其中五维是批处理大小×视差×高度×宽度×特征尺寸;最后,汇集输入成本量以生成注意图,接着是连接层和激活层;这一部分操作分为三步:
第一步,使用特征提取层提取图像特征
特征提取层选用SPP空间金字塔池化模块,使用SPP模块利用对应点邻近区域的信息估计视差值;
SPP模块具体为:在一个CNN里,把最后一层池化层去掉,换成一个SPP去做最大池化操作;
第二步,计算Cost volume
将每个子孔径视图的特征图通过SPP模块传递后获得每个视图的特征图;设置计算Cost volume,根据SPP模块提供的特征图,沿u或v方向以不同的视差级别手动移动输入图像;设置9个视差级别,范围从-4到4;移动特征图后,将这些特征图连接到一个5D Costvolume中,其大小等于批处理大小×视差×高度×宽度×特征尺寸;
第三步,获取注意力图
注意图本质上是一个9×9图,其表明相应视图的重要性;第一种类型是自由注意力映射,其中每个视图都有自己的重要值;对光场图片中所有图像进行学习;第二种类型是对称注意图,光场图像阵列沿u和v轴是对称的;根据对称性学习其中对称的25个图像;整个映射通过沿u轴和v轴进行镜像来构建;第三种类型中,图像是对称的沿u、v和两个对角线轴;再次利用对称性,计算对称的15个图像的权重,然后通过沿对角线、v和u轴镜像构建完整的注意力地图;通过对注意力图的结构进行约束,减少了可学习权值的数量;以Cost volume作为输入,视图选择模块通过一个全局池化层生成注意图,然后是全连接层,最后是一个激活层,由此得到对光场图像所有图片的注意力分配图。
2.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述步骤1中对光场图像的预处理具体为:对光场图像进行数据增强操作。
3.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述的EPI学习模块具体为:
在0°、45°、90°和135°四个角度分别设置并行的EPI学习网络,四个并行EPI学习网络均包括依次相连的二维卷积层、激活层、二维卷积层、激活层和批量归一化层。
4.根据权利要求3所述的一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述的EPI学习网络的损失函数为:
其中,L为返回损失值,N为样本总量,x和y分别为预测的输出。
5.根据权利要求3所述的一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述的激活层具体为:Sigmoid函数。
6.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述的步骤2还包括在训练时对光场深度预测模型进行验证。
7.根据权利要求6所述的一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述的验证方法为:
首先,计算光场深度预测结果与ground truth的均方误差MSE:
其中,N为光场图像中的像素总数;Dep和GT分别为光场深度预测结果和ground truth;i为光场图像中的每个像素;
其次,计算峰值信噪比PSNR:
其中,MAX为光场图像中像素的最大值;
然后,计算结构相似性指标SSIM:
其中,x和y分别为光场深度预测结果和ground truth;μ为光场图像像素值的平均值;σx 2和σy 2分别为对应图像的方差;σx,y为x和y的协方差;
最后判断MSE、PSNR和SSIM是否均在预设阈值内,若是,则完成模型的训练,否则,继续对模型进行训练。
8.根据权利要求1所述的一种基于卷积神经网络和注意力机制的光场深度预测方法,其特征在于,所述的特征融合模块包括8个依次相连的卷积块和1个优化块;所述的优化块包括两个二维卷积层和一个激活层。
CN202110732927.4A 2021-06-30 2021-06-30 一种基于卷积神经网络和注意力机制的光场深度预测方法 Active CN113506336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110732927.4A CN113506336B (zh) 2021-06-30 2021-06-30 一种基于卷积神经网络和注意力机制的光场深度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110732927.4A CN113506336B (zh) 2021-06-30 2021-06-30 一种基于卷积神经网络和注意力机制的光场深度预测方法

Publications (2)

Publication Number Publication Date
CN113506336A CN113506336A (zh) 2021-10-15
CN113506336B true CN113506336B (zh) 2024-04-26

Family

ID=78011428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110732927.4A Active CN113506336B (zh) 2021-06-30 2021-06-30 一种基于卷积神经网络和注意力机制的光场深度预测方法

Country Status (1)

Country Link
CN (1) CN113506336B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113965757A (zh) * 2021-10-21 2022-01-21 上海师范大学 基于epi内在相似性的光场图像编码方法、设备及存储介质
CN114511609B (zh) * 2022-04-18 2022-09-02 清华大学 基于遮挡感知的无监督光场视差估计系统及方法
CN114511605B (zh) * 2022-04-18 2022-09-02 清华大学 光场深度估计方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846473A (zh) * 2018-04-10 2018-11-20 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法
CN109064405A (zh) * 2018-08-23 2018-12-21 武汉嫦娥医学抗衰机器人股份有限公司 一种基于双路径网络的多尺度图像超分辨率方法
CN111583313A (zh) * 2020-03-25 2020-08-25 上海物联网有限公司 一种基于PSMNet改进的双目立体匹配方法
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112767466A (zh) * 2021-01-20 2021-05-07 大连理工大学 一种基于多模态信息的光场深度估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019096310A1 (en) * 2017-11-20 2019-05-23 Shanghaitech University Light field image rendering method and system for creating see-through effects

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846473A (zh) * 2018-04-10 2018-11-20 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法
CN109064405A (zh) * 2018-08-23 2018-12-21 武汉嫦娥医学抗衰机器人股份有限公司 一种基于双路径网络的多尺度图像超分辨率方法
CN111583313A (zh) * 2020-03-25 2020-08-25 上海物联网有限公司 一种基于PSMNet改进的双目立体匹配方法
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112767466A (zh) * 2021-01-20 2021-05-07 大连理工大学 一种基于多模态信息的光场深度估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Changha Shin,etal..EPINET: A Fully-Convolutional Neural Network Using Epipolar Geometry for Depth from Light Field Images.《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》.2018,摘要,第1、3节. *
一种基于PSMNet改进的立体匹配算法;刘建国;冯云剑;纪郭;颜伏伍;朱仕卓;;华南理工大学学报(自然科学版)(01);全文 *
光场成像技术及其在计算机视觉中的应用;张驰;刘菲;侯广琦;孙哲南;谭铁牛;;中国图象图形学报(03);全文 *
杨博雄主编.《深度学习理论与实践》.北京邮电大学出版社,2020,第142-143页. *

Also Published As

Publication number Publication date
CN113506336A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN113506336B (zh) 一种基于卷积神经网络和注意力机制的光场深度预测方法
RU2698402C1 (ru) Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты)
CN110036410B (zh) 用于从视图中获得距离信息的设备和方法
CN111508013B (zh) 立体匹配方法
CN110880162B (zh) 基于深度学习的快照光谱深度联合成像方法及系统
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN115082450A (zh) 基于深度学习网络的路面裂缝检测方法和系统
CN116468768B (zh) 基于条件变分自编码器和几何引导的场景深度补全方法
CN116129037B (zh) 视触觉传感器及其三维重建方法、系统、设备及存储介质
CN111325828A (zh) 一种基于三目相机的三维人脸采集方法及装置
US20220044068A1 (en) Processing perspective view range images using neural networks
CN113160416A (zh) 一种用于煤流检测的散斑成像装置及方法
CN117710931A (zh) 环境信息感知方法、装置、系统、计算机设备及存储介质
CN111028273A (zh) 一种基于多流卷积神经网络的光场深度估计方法及其实现系统
CN115019208B (zh) 一种面向动态交通场景的路面三维重建方法和系统
Alaniz-Plata et al. ROS and stereovision collaborative system
CN114092540A (zh) 基于注意力机制的光场深度估计方法及计算机可读介质
CN113538545A (zh) 一种基于电液可调焦镜头的单目深度估计方法及相应的相机和存储介质
CN117670969A (zh) 深度估计方法、装置、终端设备以及存储介质
CN117670796A (zh) 一种路面裂缝图像自动化检测方法
CN116777973A (zh) 基于深度学习的异源图像双目立体视觉测距方法和系统
CN115272067A (zh) 一种基于神经网络的激光雷达三维距离像超分辨率重建方法
CN114998532A (zh) 一种基于数字图像重建的三维影像视觉传达优化方法
CN113096174A (zh) 一种基于多平面扫描的端到端网络的多视点场景重建方法
CN114550124A (zh) 车位内障碍物的检测方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant