[go: up one dir, main page]

CN118901083A - 用于广义场景重建的系统和方法 - Google Patents

用于广义场景重建的系统和方法 Download PDF

Info

Publication number
CN118901083A
CN118901083A CN202380026144.1A CN202380026144A CN118901083A CN 118901083 A CN118901083 A CN 118901083A CN 202380026144 A CN202380026144 A CN 202380026144A CN 118901083 A CN118901083 A CN 118901083A
Authority
CN
China
Prior art keywords
scene
light
matter
model
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380026144.1A
Other languages
English (en)
Inventor
大卫·斯科特·埃克森
约翰·莱芬韦尔
亚历山德鲁·拉布劳
斯塔拉·戴蒙德
布雷特-迈克尔·托马斯·格林
菲利普·安东尼·麦克布莱德
萨克希·马丹·卡卡德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quidient LLC
Original Assignee
Quidient LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quidient LLC filed Critical Quidient LLC
Publication of CN118901083A publication Critical patent/CN118901083A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30156Vehicle coating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本公开的各种实施例涉及场景重建和机器学习系统。在实施例中,该系统包括存储介质,存储介质被配置为存储图像数据、一个或多个场景模型、一个或多个可重新照亮物质场、以及与机器学习模型相关的信息。在一个或多个实施例中,该系统包括输入电路,该输入电路被配置为接收图像数据,该图像数据表征场景中的光。在实施例中,该系统包括处理器。在实施例中,该处理器被配置为使用图像数据来重建表示该场景的场景模型。在实施例中,该处理器被配置为:从表示对象的场景模型中提取可重新照亮物质场,将场景模型和表示该对象的可重新照亮物质场存储在存储介质中,应用可重新照亮物质场作为机器学习模型的输入,并且从机器学习模型生成输出。

Description

用于广义场景重建的系统和方法
相关申请
本申请要求2022年3月7日提交的US临时申请No.63/317,330的优先权,其内容由此通过引用整体并入。
技术领域
本发明总体上涉及3D成像领域,并且更具体地,涉及用于实现与从图像生成3D模型(有时被称为广义场景重建(GSR)、立体场景重建(VSR)或日常场景重建(QSR))相关的各种系统和方法以及用于光场重建(LFR)的系统和方法的工具,如本文进一步所述。
背景技术
真实世界场景的3D模型存在无数种用途。应用包括包含国防、安全、娱乐、教育、医疗保健、基础设施、制造和移动的全球领域。在元宇宙中,应用包括虚拟不动产创建、NFT创建和头像创建。已经提出或开发了用于捕获3D图像的各种方法,其中一些方法能够提供具有变化的保真度的真实世界场景的数字3D模型并且用于各种目的,包括可视化和信息提取。这种3D图像可以由3D成像仪来获取,3D成像仪也被称为3D传感器、3D相机、3D扫描仪、VR相机、360°相机、RGBD相机和深度相机。
先前用于从场景中提取3D信息的方法通常涉及诸如激光之类的有源光源,并且具有诸如高功耗和有限范围之类的局限性。更理想的方法是使用来自廉价传感器(包括相机或通过使用探测器感测光场来形成图像的设备)的一个或多个图像来生成详细的场景模型。为了提高从图像中提取场景模型的鲁棒性,需要改进对光的传输的建模。这包括光与物质相互作用的特性,包括透射、反射、折射、散射等。Jaros z的论文“Efficient MonteCarlo Methods for Light Transport in Scattering Media(用于散射介质中的光传输的有效蒙特卡罗方法)”(2008)提出了对该主题的深入分析。
早期工作已经建议一种使用通常被称为广义场景重建(“GSR”)的过程来创建3D图像和模型的方式,该过程也可以备选地被称为立体场景重建(“VSR”)或日常场景重建(“QSR”)。例如,Ackerson等人的美国专利No.10,521,952、Ackerson等人的美国专利No.11,508,115、以及Ackerson等人的美国专利公开No.2021/0133929A1和Ackerson等人的美国临时专利申请No.63/317,330(每个申请通过引用整体并入本文)各自不同地描述了用于实现GSR的方面的系统和方法。在一些情况下,可以使用场景重建引擎(“SRE”)来实现GSR,该SRE用于使用被称为场景重建的过程从数字图像创建3D场景模型。SRE可以启用一类使用场景重建的设备(DSR)的组件,诸如3D移动电话、平板计算机、计算机、虚拟现实(VR)和增强现实(AR)眼镜和其他设备、无人机和其他自主、半自主或受控无人驾驶系统、以及其他数字手持或非手持设备。
上面引用的专利和专利申请中已经阐述了GSR的某些优点。例如,美国专利公开No.2021/0133929A1的图4B和图10是表示真实世界场景的图形图,其中,该表示可以被认为是全光场景数据库内包括的数据的抽象场景模型视图。图4B聚焦于较大场景,而图10聚焦于较小场景。这两类不同类型的场景的场景模型的抽象表示包含由场景的物质场和光场组成的全光场。光场与物质场中的任何数量的对象以及其他对象(诸如例如已说明对象、未说明区域、不透明对象、精细结构对象、远处对象、发射对象、高反射对象、无特征的对象或部分透射对象)相互作用。美国专利公开No.2021/0133929A1教导了GSR的重要方面是通过场景重建来识别物质场以足以区分多种类型的对象,其中,然后例如可以通过使用机器学习来执行对象识别和分类、改变各种特性和性质以引起模型呈现效果(诸如可视化的变化、对象增强和标记、甚至对象移除),进一步处理唯一地位于模型场景中的任何单独类型的对象。
在某些实施例中,可以利用编解码器来实现GSR。各种编解码器在本领域中是公知的,并且通常是压缩数据以实现更快传输并对所接收到的数据进行解压缩的设备或程序。编解码器的示例性类型包括视频(例如,MPEG、H.264)、音频(例如,MP3、ACC)、图像(例如,JPEG、PNG)和数据(例如,PKZIP),其中,编解码器类型包封数据类型并且与数据类型强耦合。在许多传统应用中,强耦合必然导致有限的最终用户体验。编解码器通常以本质上“基于文件”的方式实现,其中,文件是某种真实或合成的预先捕获的感官体验的数据表示,并且其中,文件(诸如电影,歌曲或书籍)必然将用户体验限制到由文件创建者选择的体验路径。因此,用户可以在由创作者限定的基本上有序的体验中观看电影、听歌和读书。
在GSR的上下文中,编解码器的使用要求增加由这种编解码器处理(并且具体地,执行GSR)的数据类型,其中,诸如相机和测距设备之类的传感器创建真实世界场景的场景模型。实现GSR的挑战包括以有效可控和高度可扩展方式充分地表示和组织表示以描述真实世界物质和光场的复杂性,并且其中,在管理多个交互式客户端上在活动(甚至实时)场景模型方面的分布存在挑战,每个交互式客户端可能请求几乎无限数量的场景视角、细节和数据类型中的任一种。
另外,机器学习(ML)和人工智能(AI)系统近年来已经取得了巨大的进步并且在许多应用领域已经变得有用和有效。许多这种系统用于场景中的对象识别和其他有用目的。ML和AI系统通常基于对来自相机系统的2D图像的处理。这种图像通常是红色、绿色、蓝色(RGB)值的数组。这种感测的信息由进入相机透镜并在视点处汇聚的光场的样本组成。这些光样本是场景中的光和物质之间的一系列复杂相互作用的结果,并且受物理定律的支配。虽然对象的“真实”特征(诸如实际颜色和反射性质)对于确定场景中的物质的类型或性质可能很重要,但该信息通常不能根据常规照片来确定。
来自场景内部和外部的光源的光线被场景中的其他物质反射掉和遮挡的相互作用形成了复杂的场景光场,从而有效地掩盖了关于场景中的物质的基本信息。除了诸如阴影之类的明显示例之外,当从另一对象反射掉的光影响从对象反射的光时,发生可见的颜色会变化。朗伯(Lambertian)表面沿所有方向近似均匀地反射光。当对象表面是非朗伯时,出现重大附加困难。这种表面具有在常规系统中不能容易解决的复杂反射特性。该困难包括次表面散射、镜面反射、透明度等。例如,次表面散射是人体皮肤的视觉外观的主要组成部分。
由于难以根据由相机捕获的场景中的反射光来确定材料的基本特性,因此基于图像的监督ML系统通常需要大型训练集来合理地表示操作期间可能预期的光相互作用情况。通常通过使用每个图像中的每个感兴趣对象(OOI)的标识信息对图像进行标记来手动地对这种图像训练集进行分类。取决于用途,训练集可以将对象标识为“好”(在图像或图像的一部分包含OOI的情况下)或“坏”(图像不包含OOI)。通常,好对象和坏对象的数量大致相等。
在一些情况(诸如异常检测)下,仅需要好或大多数好的训练示例。如果生产图像未被标识为OOI,则已经检测到异常。如果训练集中存在误差(即使是细微的误差),则结果的质量可能受到影响。例如,如果好训练案例和坏训练案例的混合明显不利,则存在过度拟合的风险,过度拟合是系统将正确地识别训练对象但不能可靠地识别生产图像中的对象的情况。
在大多数情况下,用于训练和测试的正确、无误差的标记数据集是机器学习系统的最重要部分。编译这种数据集通常需要数千或者甚至数百个手动标记的图像,这是不小的开支并且成为广泛使用的重大障碍。如果可以对场景中的光场相互作用的影响以及相机图像中解开的影响进行建模,则这种系统可能更有效且更容易训练。
各种专利、专利申请和其他公开已经考虑如何执行GSR、其他形式的3D成像或场景重建、或这种活动的组成过程或系统。例如,以下文献引用了GSR的各个方面以及按照介质特性分割三维空间的方面:Lef fingwell,J.等人的“Generalized Scene Reconstruction(广义场景重建)”,arXiv:1803.08496,2018年5月24日;Kutulakos,K.等人的“ATheory ofShape by Space Carving(空间雕刻的形状理论)”,罗彻斯特大学,2000年;Bonfort,T.和Sturm,P.的“Voxel Carving for Specular Surfaces(对镜面的体素雕刻)”,第九届IEEE国际计算机视觉会议(ICCV)论文集,2003年;Broadhurst,A.等人的“A Probabil isticFramework for Space Carving(用于空间雕刻的概率框架)”,国际计算机视觉会议论文集,I,第282-291页,2001年;Broadhurst,A.和Cipolla,R.的“A Statistical ConsistencyCheck for the Sp ace Carving Algorithm(对空间雕刻算法的统计一致性检查)”,第11届英国机器视觉会议论文集,第282-291页,2000年;Gaillard,M.等人的“Voxel CarvingBased 3D Reconstruction of Sorghum Ident ities Generic Determinants of RationInterception Efficiency(对高粱属植物配给拦截效率的一般性决定因素的基于体素雕刻的3D重建)”,bioRxiv预印本https://doi.org/10.1101/2020.04.06.028605,2020年4月7日;Sainz,M.等人的“Hardware Accelerated Voxel Carving(硬件加速体素雕刻)”,研究之门,公开228917433;Scharr,H.等人的“Fast High Resolution Volume Carving for 3DPlant Shoot Reconstruction(用于3D植物枝条重建的快速高分辨率立体雕刻)”,植物科学前沿,2017年9月28日;Seitz,S.和Dyer,C.等人的“Photoreal istic SceneReconstruction by Voxel Coloring(通过体素着色的逼真场景重建)”,计算机视觉和模式识别会议论文集,第1067-1073页,1997年;Culbertson,W.、Malzbender,T.和Slabaugh,G.等人的“Generalized Voxel Coloring(广义体素着色)”,第七届计算机视觉国际会议,1999年9月;Dyer,C.等人的“Volumetric Scene Re construction from Mult iple Views(从多个视图进行立体场景重建)”,图像分析基础,L.S.Davis编辑,第1章,2001年;Seitz,S.和Kutulakos,K.等人的“Plenoptic Image Editing(全光图像编辑)”,第六届计算机视觉国际会议(IEEE Cat.No.98CH36271),1998年;Tro ccoli,A.和Allen,P.等人的“Relighting Acquired Models of Outd oor Scenes(户外场景的重新照亮获取的模型)”,第五届国际3D数字成像和建模会议论文集,2005年;Singh,R.等人的“3Dconvolutiona l neural network for object recognition:a review(用于对象识别的3D卷积神经网络:综述)”,多媒体工具和应用,2018年;Riegle r,G.等人的“OctNetFusion:Learning Depth Fusion from Data(Oc tNetFusion:从数据学习深度融合)”,arXiv:1704.01047v3,2017年10月31日;Riegler,G.等人的“OctNet:Learning Deep 3D Representations at High Resolutions(OctNet:在高分辨率下学习深度3D表示)”,arXiv:1611.05009v4,2017年4月10日;Meka,A.等人的“Deep Rel ightable Textures(深度可重新照亮纹理)”,ACMTrans.Graph.,Vol.39,No.6,Article 259,2020年;Liu,J.等人的“RocNet:Recur sive Octree Network for Efficient 3D Deep Representation(RocNet:用于高效的3D深度表示)”,arXiv:2008.03875v1,2020年8月10日;Lei,H.等人的“Octree guided CNN with Spherical Kernels for 3D Point Clouds(用于3D点云的具有球形核的八叉树引导CNN)”,计算机视觉基金会,第9631-40页;Bi,S.等人的“DeepRelightable Appearance Models for Animatable Faces(用于可动画面部的深度可重新照亮外观模型)”,ACMTrans.Graph.,Vol.40,No.4,Article89,2021年8月;Wang,P.等人的“O-CNN:Octree-based Convolutiona l Neural Networks for 3D Shape Analysis(O-CNN:用于3D形状分析的基于八叉树的卷积神经网络)”,ACM Transactionson Graphics,Vol.36,No.4,Article 72,2017年7月;Wang,P.等人的“Adaptive O-CNN:A Patch-basedDeep Representation of 3D Shapes(自适应O-CNN:3D形状的基于块的深度表示)”,arXiv:1809.07917v1,2018年9月21日;Wang,P.等人的“Deep Octree-based CNNs withOutput-Guided Skip Connections for 3D Shape and Scene Completion(具有用于3D形状和场景完成的输出引导跳过连接的基于深度八叉树的CN N)”,计算机视觉基金会,2020年;美国专利No.4,694,404;美国专利No.5,123,084;美国专利No.6,123,733;美国专利No.6,980,935;美国专利No.6,831,641;美国专利No.7,843,449;美国专利No.8,432,435;美国专利No.8,547,374;美国专利No.8,749,620;美国专利No.8,749,694;美国专利No.o.9,179,126;美国专利No.9,857,470;美国专利No.10,169,910;美国专利No.10,509,153;美国专利No.10,893,262;美国专利No.11,164,368;美国专利公开No.20080068372;美国专利公开No.20110128412;美国专利公开No.20130038696;美国专利公开No.20130156297;美国专利公开No.20140184749;美国专利公开No.20140201022;美国专利公开No.20150146032;美国专利公开No.20150305612;美国专利公开No.20150373320;美国专利公开No.20160028935;美国专利公开No.20180113200;美国专利公开No.20180144540;美国专利公开No.20180149791;美国专利公开No.20180227568;美国专利公开No.20190011621;美国专利公开No.20190072897;美国专利公开No.20190155835;美国专利公开No.20220058854;英国专利No.GB2535475B;欧洲专利申请No.EP3144887A1;PCT公开No.WO2011066275A2;PCT公开No.2018200316;PCT公开No.WO2018200316;PCT公开No.WO2019213450A1;新西兰专利公开No.NZ743841A;中国专利公开No.CN111796255A。以下文献引用了GSR的各个方面和非参数建模的方面:Freeman,H.的“On the encoding ofarbitrary geometric configur ations(论任意几何配置的编码)”,电子计算机的IRE交易EC-10,第260-268页;Samet,H.的“The Design and Analysis of Spatial Dat aStructures(空间数据结构的设计和分析)”,Addison-Wesley计算机科学系列,1989年;Marschner,S.、Shirley,P.等人的“Fundament als of Computer Graphics(计算机图形基础)”,CRCP ress,2016年;Varma,M.和Zisserman,A.的“A Statistical Approach toTexture Classification from single Images(从单个图像进行纹理分类的统计方法)”,国际计算机视觉杂志62(1/2),61-81m,2005年。以下文献引用了GSR的各个方面和积分渲染的方面:Mildenhall,B.等人的“NeRF:Representing Scenes as Neural Radiance Fieldsfor View Synthesis(NeRF:将场景表示为用于视图合成的神经辐射场)”arxiv:2003.08934v4,2020年8月3日(video:https://www.matthewtancik.com/nerf);Yu,Alex等人的“Plenoxels:Radiance Fields without Neural Networks(Plenoxels:没有神经网络的辐射场)”arXiv:2103.14024(2021);Yu,A.等人的“Plenoxels:Radiance Fieldswithout Neural Networks(Plenoxels:没有神经网络的辐射场)”arXiv:2112.05131v1(2021);EyeCue Vision Tech的“Qlone 3D Scanner(Qlone3D扫描仪)”,苹果应用商店,版本4.6.0(2022)(可在https://apps.apple.com/us/app/qlone-3d-scanner/id1229460906处获取);J.Pau l Morrison的“Flow-based Programming:A New Approach to Application Development(基于流程的编程:一种新应用开发方法)”,第二版,J.P.Morrison企业,2010年;Karras,T.等人的“A Style-Base d Generator Architecture forGenerative Adversarial Networks(用于生成式对抗网络的基于样式的生成器架构)”,CoRR 2018,vol abs/1812.04948(可在https://arxiv.org/abs/1812.04948处获取);R.Martin-Brualla等人的“NeRF in the Wi ld:Neural Radiance Fie lds forUnconstrained Photo Collections(NeRFintheWild:用于无约束照片集的神经辐射场)”,2021年IEEE/CVF计算机视觉和模式识别会议(CVPR),7206-7215(2020);Zhang,X.等人的“NeRFactor:Ne ural Factorization of Shape and Reflectance Under an UnknownIllumination(NeRFactor:未知照明下的形状和反射的神经分解)”,ACM|SIGGRAPH Asia2021Technical Papers(2021)(可在https://dspace.mit.edu/handle/1721.1/146375处获取)。前述文献及其中的公开中的每一个通过引用整体并入本文。
因此,需要通过提供用于实现GSR及其组件的各种系统和方法以及市场的许多需求和机会来克服本领域中的缺点和不足。
发明内容
以下简化的发明内容可以提供对本文讨论的系统和/或方法的一些方面的基本初步理解。本发明内容并非对本文讨论的系统和/或方法的广泛概述。它并非旨在识别所有关键/重要要素或者描绘这种系统和/或方法的整个范围。其唯一目的是以简化形式呈现一些构思,作为稍后呈现的更详细描述的前言。
在一些实施例中,可以使用用于处理数字场景数据的处理器和用于接收与要捕获的场景相关的输入的接口来重建该场景中的一个或多个对象。在该实施例中,(i)该输入包括图像数据形式的数字场景数据,该图像数据表示来自视点的场景,(ii)处理器处理数字场景数据和输入以生成场景的至少一部分的三维模型,该场景包括包含相互作用介质的物质,(iii)处理器通过访问由图像数据表示的物质场中的一个或多个体素来处理图像数据,以及(iv)处理器通过确定一个或多个体素中的每一个中表示的物质是否包括相互作用介质来处理图像数据。图像数据可以由相机来捕获,并且可以是与电磁辐射相关的数据,诸如可见光、红外光、偏振光或非偏振光和/或雷达的辐射值。该取向可以包括相机的姿势,并且在一些实施例中可以包括多于一个姿势或取向。三维模型可以以数据结构来表示。在一些实施例中,三维模型由第一数据结构和第二数据结构的组合来表示,该第一数据结构存储全光数据,该第二数据结构包括数字场景数据的取向。本发明的一些实施例还可以将与该场景中的光场相关的信息存储在第一数据结构或第三数据结构中。在一些实施例中,处理器顺序地处理来自至少两个取向的图像数据。在一些实施例中,体素中表示的物质由介元(mediel)来表示,并且与该介元相关的数据可以存储在全光数据结构中。与介元相关的数据可以包括出射光场和/或入射光场,并且这种数据可以由辐射元(radiel)来表示。
在一些实施例中,场景重建可以包括通过假设数字场景数据的取向来处理图像数据。处理图像数据可以包括:(i)假设体素中存在介质;(ii)假设介质的表面法线、光相互作用性质、出射辐射矢量、入射光场和其他性质中的一种或多种;(iii)基于所假设的介质的表面法线、光相互作用性质(例如,折射率、粗糙度、偏振漫射系数、非偏振漫射系数或消光系数)、出射辐射矢量和入射光场中的一种或多种来计算介质在体素中存在的成本;(iv)将成本与成本阈值进行比较;以及(iv)当成本低于成本阈值时,接受介质存在于体素处。在一些实施例中,当该系统已经接受介质存在于体素处时,该介质在该场景的后续处理中保留在该场景中。某些实施例可以基于所接受的介质的存在来更新对一个或多个其他体素的光场的假设。该系统可以对多于一个体素和/或多于一个图像数据集合迭代地执行该过程。在一些实施例中,处理的结果可以存储在数据结构中,包括存储在分层数据结构中。可以通过从更粗略级别到更精细级别分层地遍历数据结构来完成处理,并且可以通过细分数据结构将更精细级别的细节存储在数据结构中。
本发明的某些实施例包括一种训练机器学习模型的方法,其包括:向机器学习模型提供图像数据,其中,图像数据包括一个或多个感兴趣对象;处理图像数据以生成模型,其中,这种处理包括分析图像数据以生成该场景的光场模型或该场景中的一个或多个物质场的重建中的一种或多种;在该场景的模型中选择感兴趣的对象;在该场景的模型中提取感兴趣的对象;以及输出该场景中的感兴趣对象的可重新照亮物质场模型。图像数据可以包括可重新照亮物质场数据。在一些实施例中,图像数据包括多个场景中的一个或多个感兴趣对象以及各种条件下的感兴趣对象。可重新照亮物质场可以从多个二维或更高维度的图像构建。可重新照亮物质场模型可以包括形状信息、双向光相互作用函数(BLIF)信息、发射光场(如果存在的话;例如,该场景本身中的光源)、以及由发射光场引起的入射和/或响应光场中的一种或多种。此外,光场信息可以用于计算物质场中的位置的光相互作用特性。在一些实施例中,该方法还可以包括:改变模型的BLIF和/或几何信息;将具有经改变的BLIF信息的模型输入到机器学习模型中;以及对具有经改变的BLIF信息的模型执行一个或多个前述步骤以进一步训练机器学习模型。
本发明的一些实施例包括一种使用机器学习模型的方法,其包括:识别场景的模型中的一个或多个感兴趣对象;访问该场景的可重新照亮物质场;选择该物质场的要处理的部分;处理该物质场的选定部分以提取可重新照亮物质场的至少一部分;以及输出可重新照亮物质场的提取部分。该方法还可以包括测试可重新照亮物质场的由机器学习模型输出的部分的效用。
在一些实施例中,本发明包括:使用经训练的机器学习模型来识别场景中的一个或多个感兴趣对象或特征,并且使用这种识别来提供对光场和/或物质场重建的初始假设。在这种实施例中,本发明可以提供更快地处理图像数据以执行场景或其一部分的重建。在一些实施例中,经训练的机器学习模型的输出包括该场景中的介质的尺寸、形状和/或位置和/或该场景中的介质的光相互作用性质中的一种或多种。
本发明的一些实施例可以使用光场和/或物质场性质的附加输入重建作为场景重建过程的输入。例如,本发明的实施例可以使用由LiD AR提供的点云和/或由其他技术(例如,多视图立体、拍摄测量、红外、雷达等)提供的另一物质场或光场重建来提供场该景中的介质的特性的初始或更新假设。然后,本发明的实施例可以执行本文描述的场景重建过程以重建该场景中的光场和/或物质场。
在一些实施例中,本发明可以通过用于处理数字场景数据的处理器和用于接收与要捕获的场景相关的输入的接口来重建场景中的一个或多个对象,其中,处理器处理数字场景数据和输入以生成该场景的至少一部分的三维模型;其中,处理器输入指示数字场景数据的处理的至少一部分;以及其中,处理器提供包括该场景的至少一部分的三维模型在内的输出。该输入可以包括以下项中的至少一项:该场景中的光场的至少一部分的近似值、该场景中的物质场的至少一部分的近似值、该场景中存在的一个或多个形状、该场景中的一个或多个对象、或与该场景中的一个或多个光源相关的信息。该输入可以控制提供数字场景数据的一个或多个感测设备。在一些实施例中,该系统可以提供与该场景内要重建的一个或多个对象相关的反馈,并且该反馈可以包括该场景内要重建的一个或多个对象的预览。当使用这种重建的结果来重建一个或多个对象时,该系统可以更新该预览。该预览还可以包括与该重建的一个或多个参数相关的一个或多个指示。该预览可以包括一个或多个蒙版,其表示与所生成的模型相关的数据和从数字场景数据捕获设备接收到的信息。该反馈可以包括与数字场景数据的捕获的速率、用于捕获数字场景数据的位置、用于捕获数字场景数据的传感器角度、该场景中的光场的方面、或该场景中的物质场的方面相关的信息中的一个或多个。在一些实施例中,该输入是允许数字场景数据与新接收到的数字场景数据对齐的数据。在一些实施例中,该系统还可以包括用于实现生成三维模型的一个或多个目标的指令集,其中,该一个或多个目标包括光场的期望分辨率、物质场的期望分辨率、重建的期望确定性阈值、消除所捕获的数字场景信息中的间隙的阈值、以及在捕获数字场景信息期间遇到的事件的触发器中的一种或多种。在一些实施例中,该触发器包括指定的物质场结构、指定的光场结构、时间的推移、以及该模型中的不确定性水平的变化中的一种或多种。该系统可以被配置为响应于该触发器而采取行动,并且该响应可以包括改变显示配置、向显示器添加覆盖层、提供音频提示、提供视觉提示、改变重建目标、以及改变与该系统连接的设备的设置中的一种或多种。
本发明的某些实施例可以被配置为改变场景模型的一个或多个特征。例如,该改变可以包括以下项中的一项或多项:编辑光场重建;编辑物质场重建;变换该模型;使该模型变形;重新照亮该模型的全部或任何部分;改变BLIF的一个或多个光相互作用性质;向物质场的不同区域分配一个或多个BLIF;通过拖拽锚点、通过键入键盘快捷键、或通过使用画笔工具在该模型上雕刻和绘画来操纵模型;插入新物质场;插入新光场;重新照亮一个或多个物质场(全部或部分);全部或部分地删除光场;以及全部或部分地删除物质场。在一些实施例中,该系统可以被配置为使用包括一个或多个参数在内的搜索查询在空间上搜索该模型。这种空间搜索可以包括:获得光场结构的计数、选择或组中的一种或多种,或者获得物质场结构的计数、选择或组中的一种或多种,匹配该搜索查询的一个或多个参数。该搜索查询可以作为选定的光区域、选定的物质区域、和/或基于机器学习生成响应的描述性词语来提供。这些参数可以包括物质场形状、光场结构、辐射强度、尺寸和BLIF中的一种或多种。
在一些实施例中,该系统还包括用于捕获数字场景信息的显示器,其中,在捕获来自多个源的信息期间,在显示器的三个或更多个相邻区域中显示空间交错的层。显示器的区域可以包括实时重建预览,并且显示器上的所有层可以与相同视点基本上对齐。此外,显示器上的所有层可以包含关于该场景的信息。在一些实施例中,显示器上的层之一是预场景渲染(例如,先验场景和/或部分地或完全初始化的场景模型),其对齐到与其他层基本上相同的视点。在捕获期间可以使用显示器来指示已经捕获该场景的某个区域周围的多少个角度,并且可以通过显示以包括BLIF在内的选定介元为中心的球形或半球形覆盖层来提供该指示。球形覆盖层的至少一个部分可以响应于从相对于介元在真实空间中的对应位置的各种角度观看介元而改变,并且球形覆盖层的至少一个部分的变化可以包括消失、改变颜色、或经历其他可见改变中的一种或多种。
尽管示例实施例以系统或方法的形式表达,但本领域技术人员将认识到,这些示例可以被修改为包括至少与以下项类似的结构:(A)驻留有所要求保护的功能的机器装置,(B)执行由系统描述的过程的方法步骤的执行,和/或(C)包含可执行程序指令的非易失性计算机程序存储介质,该可执行程序指令当在兼容的数字处理器上执行时,提供所述系统或方法的功能。
下面描述了示例实施例的附加特征和优点。
附图说明
通过结合以下附图参考以下对示例非限制性说明性实施例的详细描述,将更好且更完整地理解这些和其他特征和优点。
图1A至图1E示出了使用广义场景重建(GSR)的系统的示例性结构、用于捕获图像数据的示例性配置、以及包括物质场和光场在内的示例性场景。
图2A和图2B示出了面元(surfel)和模元(mogel)的示例。
图3A至图3G示出了用于重建场景的示例性方法。
图4示出了介元的示例性类型分层结构。
图5示出了包含各种介元和其他元素在内的示例性场景。
图6示出了表示曲线的面元的端视图。
图7示出了表示曲线的面元的侧视图。
图8示出了表示角的面元。
图9示出了用于生成经训练的机器学习模型(TMLM)的示例性方法。
图10示出了使用经训练的机器学习模型(TMLM)的示例性方法。
图11示出了重建预览的点网格示例。
图12A和图12B示出了与重建预览交织的视频馈送的示例。
图13示出了场景捕获指导。
图14A至图14C示出了用于确定场景的区域内的介质的存在和相互作用的示例性过程。
图15是机器学习模型的图示。
图16是物理信息神经网络(PINN)的图示。
图17是具有物理约束的神经网络架构的图示。
图18是将物理先验纳入损失函数的图示。
图19是残差建模的图示。
图20是基于物理的方法与神经网络的结合的图示。
图21是使用本文描述的方法执行的重建与使用另一种方法创建的重建的结合的图示。
具体实施方式
如本文的各种实施例所述,本发明的一个目的在于提供用于执行场景重建(并且具体地,执行广义场景重建(GSR))的系统和方法。在一些实施例中,GSR过程或系统的结果可以导致光场、物质场(包括可重新照亮物质场)的重建、相机姿势的表征或前述项的任何组合。GSR过程的结果可以生成表示单独地且分开地基于经重建的光场或物质场(包括可重新照亮物质场)或者基于这两者的场景的模型,这可以取决于具体情况。如本文所使用的,场景可以指图像中表示的光场和/或物质场的整个范围、其任何部分或其中的任何介质。尽管术语“子场景”、“场景的一部分”、“感兴趣的区域”、“感兴趣的对象”和其他类似术语可以用于指代较大场景的一部分,但前述术语中的每一个本身是场景。
在一些实施例中,本发明可以被配置为使用静态数据(即,场景的内容不移动的场景的捕获数据)或动态场景(即,场景的内容相对于彼此和/或相对于图像捕获设备移动的场景的捕获数据)来创建场景的模型。类似地,该模型可以被配置为以静态配置(即,该重建描绘场景的内容不移动的场景)或动态配置(即,场景的内容的一部分或全部处于运动状态)来表示场景、场景的一部分、或场景中的一个或多个对象。在动态配置的情况下,模型可以被配置为表示物质场、光场或两者中的动态性。
本文描述的发明可以提供优于动态场景的常规表示的优点。例如,在用于表示场景的一些已知系统中(例如,其中,该表示主要涉及场景的光场而不是场景的物质场),表示动态性可能存在挑战,因为相关联的光特性与该场景中的介质直接相关联,从而导致需要针对物质场已经改变配置(例如,改变形状或运动)的每个时间步骤重新初始化和/或重新训练该场景模型的大部分。在本发明的一些实施例中,当重建动态场景时,本文描述的发明可以计算该场景中的光场与该场景中的处于运动状态的部分的相互作用,从而允许更好地理解包括这种对象的介质。类似地,当使用模型来表示动态场景时,本文描述的本发明的实施例可以通过了解该场景的处于运动状态的部分将如何与所建模的场景中的光相互作用来更准确地呈现这种部分。在一些实施例中,被表示为可重新照亮物质场的子场景可以使用具有可选变形的运动模型来表示真实物质场中的动态性。无论是出于渲染目的还是出于其他目的,动态性对光场的影响都可以使用本文描述的光传输操作来更直接地计算。
如本文所述,使用GSR 100的系统可以包括图1A所示的组件。具体地,系统100可以包括:应用软件101,用于与该系统接口连接;场景解算器102,被配置为执行某些GSR功能;全光场景数据库103,被配置为存储与该场景的重建相关的信息;以及场景编解码器104,用于对与该场景的重建相关的信息进行编码和/或解码。
图1C至图1E中描绘了场景模型的各种示例性实施例。场景模型110可以包括物质场120和光场130,其可以在单个模型中(如图1C所示)或者可以是分开的(如图1D(物质场)和图1E(光场)所示)。场景可以具有外部照明112,其流入到该场景中并且提供该场景中的光源。场景还可以是单一场景,其中,不存在流入到该场景中的光112。场景可以具有边界115,该边界115可以可选地由该系统在重建该场景期间定义、由该场景中的物理边界来定义、由用户或其他输入来定义、由前述项的某种组合来定义、或以其他方式定义。场景的边界之外的信息可以被视为边界117,并且可以不在该场景中表示。然而,在一些实施例中,边界115可以全部或部分地包括窗状边界111。窗状边界111可以是场景边界115的一部分,通过该部分,入射光112可以流入到该场景中并且出射光116可以流出该场景。在一些实施例中,边界117的部分可至少部分地表示在窗状边界111处。举例来说,可以基于该场景中的物理特征(例如,墙壁或天花板中的窗户或天窗,光线可以通过该窗户或天窗进入该场景)、基于场景视差(例如,基于距离或图像数据的分辨率的不足的边界,诸如对于户外夜景看天空,其中视场的范围非常远)、这两者的某种组合或某种其他因素来定义窗状边界111。该场景可以包括一个或多个对象,包括响应对象113和发射对象114。发射对象114可以独立于入射到该对象的光而发光,而响应对象可以与入射光相互作用而不自行发光。
本文描述的系统和过程可以使用图像数据。图像数据可以提供某一时刻(例如,对于静止图像或视频的帧)或一系列时刻(例如,对于视频或随着时间提供图像信息的其他数据)的光场的一个或多个特性。在各种实施例中,图像数据可以是二维、三维或更高维的。图像数据可以可选地包括关于与该场景中的介质相关联的距离或位置的信息、深度和/或范围的一个或多个测量值或表征、偏振数据、红外数据、高光谱数据、或与辐射特性相关的其他数据。图像数据可以包括先前捕获的图像数据、与本文讨论的过程同时从一个或多个相机或其他成像设备捕获的图像数据、合成或计算机生成的图像数据、或前述项的任何组合。另外,本文描述的系统和过程可以在执行GSR过程时使用其他类型的数据。
如图1B所示,本发明的实施例可以获得该场景的一个或多个图像,这些图像可以是由相机或其他图像感测设备105捕获的图像、先前存储的图像、或表示该场景的其他图像数据的形式中的任一种。在一些实施例中,图像数据可以包括与光(即,电磁辐射)相关的数据,包括但不限于可见光、红外线、雷达和/或偏振光或非偏振光的辐射值。可以基于像素或其他方式来表示这种数据。每个图像或图像数据集可以优选地表示从其正在或过去捕获图像数据的点处的入射光场。在一些实施例中,本发明可以选择图像(可能是所拍摄的第一个图像)来定义该场景的原点和取向。
本发明的某些实施例提供了使用来自场景的信息(包括例如可以以数字形式表示的图像信息)来创建场景、场景内的感兴趣区域或整个场景的一个或多个模型。
在一些实施例中,场景或其一部分可以由能够被存储在数据结构中的一个或多个全光元素或基元来表示。在本发明的一些实施例中,场景中的空间信息被分离为全光信息和分析信息。在该实施例中,全光元素可以表示该模型中的场景,并且优选地可以比求解元素更真实地表示场景中的元素。本发明的一些实施例使用至少一个全光元素,其中一个或多个可以被包含在体素、和/或萨埃尔(sael)、或立体角元素内。
场景可以包含一个或多个体素,每个体素可以具有相同的尺寸和形状,或者可以从由用户或系统确定的一系列尺寸和/或形状中选择。体素可以包含介元或介质元素,其可以表示在体素中采样的介质的全部或一部分。介质是立体区域,其包括光在其中流动的某种物质或者不包括光在其中流动的物质。介质可以是同质或异质的。同质介质的示例包括:空的空间、空气和水。异质介质的示例包括立体区域,包括镜子的表面(部分为空气且部分为碎片玻璃)、玻璃板的表面(部分为空气且部分为透射玻璃)和松树的树枝(部分为空气且部分为有机材料)。通过包括吸收、反射、透射和散射在内的现象,光在介质中流动。部分透射的介质的示例包括松树的树枝和玻璃板。
萨埃尔可以包含辐射元或辐射元素,其可以表示沿一个或多个方向流动的光的全部或一部分。光包括包含可见光、红外线和紫外线的频率下的电磁波。本发明的某些实施例可以使用数字图像、数字艺术、其他过程、或前述项的某种组合来创建、计算和/或存储由全光元素包含的介元和/或辐射元。因此,在某些实施例中,全光元素可以用于对空间场景中的光和物质进行采样,以可以类似于像素元素如何可以用于对场景中的特定位置处的光进行采样的方式表示物质场的三维和在场景中流动的光的二维(5D)。分析元素可以包括如点、线、平面和CA D模型之类的几何实体。
全光元素可以具有一个或多个特征、或特性集,例如长度、颜色和/或形状。在一些实施例中,可以在场景中的段中和/或段之间识别特征。特征具有描述和实例中的一个或多个。
某些全光元素可以包括介元201,该介元201包括表面元素或面元202。这种元素可以表示两个同质但不同介质的区域之间的突变界面。图2A中示例性地描绘了面元202,图2A描绘了平面面元,其包括作为平面的轴的矢量204和205以及从该平面垂直地延伸的法线方向203。
一些介元可以包括同质元素或“模元”210,其表示在其整个边界体素中具有均匀成分的介质。图2B中描绘了示例性模元210,图2B描绘了具有矢量213和214的坐标框架,矢量213和214表示关于所包含的介质的方向信息。模元210可以用于定义材料梯度,诸如3D“纹理”。如果全光元素是异质的(即,在其整个边界体素中不具有均匀成分),则可以将其称为混合元素或“混元”。
又另一种类型的介元可以包括夹在介元或“桑德尔(sandel)”内的一种或多种其他类型的介质(通常但不总是同质介质)之间的介质。在求解一个或多个面时、之后出现桑德尔,该系统确定介元包含相反取向或部分地相反取向的多个面元。桑德尔的示例是包含玻璃板的侧面的全部或一部分在内的介元。在前述示例中,该玻璃的表面表示桑德尔内的表面元素,并且该玻璃的任一侧处的空气表示“夹在中间的”玻璃面元的每一侧处的同质介质。桑德尔可以提供数据、功率或处理节省的机会。例如,与仅使用其他类型的介元相比,使用桑德尔可以允许以更粗糙程度的介元尺寸完成处理。这种节省可以在场景重建期间通过在单个介元内指定该介元内的多个表面来实现,而不是将该介元细分为每个表面的单独面元。桑德尔还可以允许在以类似的更粗糙程度的中间尺寸输出和/或呈现该场景重建期间使用更低的带宽、功率或处理。例如,如果示例性玻璃的厚度是0.25英寸,则尺寸为0.5英寸的立方体形状的桑德尔可以表示该玻璃的一侧、该玻璃和两个表面上的空气和该玻璃的另一侧处的空气两者。如果该系统被配置为仅使用面元、模元和混元,则该系统可能需要细分该介元至少附加一次,从而创建至少两个附加介元来表示该表面和同质介质。
图4和图5中示出了三种类型的介元及其使用的示例。图4描绘了示例性介元401的类型分层结构,其中,该介元可以包括面元402、模型元素403和混元404。本发明的各种实施例可以包括前述元素的全部、任何组合,或者不包括前述元素。图5描绘了由包含介元502在内的体素集表示的示例性玻璃板501,其在图中被示出为框。为了视觉清晰起见,该图仅示出了少量体素中的少量基元。在典型的真实世界场景的数字模型中,基元将密集地存在于整个场景中,并且将在存储与物质场相关的信息的数据结构中以若干种不同级别的分辨率出现。
如图5所示,面元503可以包含多于一种类型的物质。在该图中,面元503包含玻璃和空气两者,一个表面将这两者隔开;模元504仅包含玻璃;混元505表示该板的角,因此包含多个表面。一般而言,介元可以包含各种形式的性质信息。例如,面元和模元可以包含BLIF值或可以用于重新照亮的其他性质信息。在一些情况下,混元可以包含使其可重新照亮的信息。
BLIF的特性在其他地方进行了描述,诸如关于Ackerson等人的美国专利No.10,521,952的图10。BLIF可以表征入射光场、发射光场、响应光场和/或出射光场。美国专利No.10,521,952的图10描绘了示例性模型,其可以用于表示在单个介元处发生的相互作用,该介元由体素和相关联的BLIF组成。入射光场的辐射元进入该介元。BLIF对入射光场进行操作并且生成离开该介元的响应光场。总出射光场是响应光场和(可选的)发射光场的并集。发射光场由介元来发射,独立于入射光的刺激。
在一些实施例中,本文描述的发明可以使用非全光基元,其例如可以包含分析信息。这种非全光基元可以表示场景中的除了介元和辐射元之外的元素,并且通常不包含与该场景中的光和物质之间的相互作用相关的信息。这种非全光基元的示例包括但不限于计算机辅助绘图(CAD)或类似结构,其表示球体、圆锥体、或可能已经适合于局部面元组、计算机视觉或由图像中的像素的图案形成的其他尺度不变特征变换(SIFT)样式特征或其他信息的其他形状。
前述元素或参数中的每一个可以可选地被配置为可扩展为多个更精细的参数和/或可折叠或可组合为单个参数、较小参数集和/或更粗略的参数。该配置可选地适用于所有类型的元素或参数,包括全光、分析、采样和学习参数和元素。例如,可以细分体素和/或萨埃尔,或者可以组合多个体素和/或萨埃尔。类似地,整体漫反射率可以被细分为偏振漫反射率和非偏振漫反射率。另一示例是,Phong反射模型可以被扩展为一组采样BLIF系数(例如,比率),其存储在方向萨埃尔对的出射辐射与入射辐射比的分层萨埃尔数据结构中。本文参考图20进一步讨论了示例,其中,分析BLIF可以被扩展为粗略分析加上精细神经网络,以更准确地预测出射辐射。
参考图3A,本发明的一些实施例可操作以重建全光场,包括使用增量过程,其中,全光场可以表示整个场景、场景的一部分、或场景中的特定对象或感兴趣区域。在一些实施例中,该系统可以首先确定用于重建场景301的设置。例如,该系统可以访问或设置工作分辨率、初始尺寸、目标精度、可重新照亮特性或其他特性。在本发明的一些实施例中,该系统可以向场景赋予初始尺寸。场景的尺寸例如可以是室内场景的人类生活空间的尺寸、室外场景的不同尺寸、或者由系统、用户或能够被确定为可接受或有利的其他因素定义的另一尺寸。在一些实施例中,包括图1B所示的示例性实施例,第一相机105或图像数据集可以定义场景的原点,并且由相机105、第二相机或图像感测设备106捕获或以其他方式捕获的后续相机图像可以被添加到该场景中并进行处理。
然后,本发明的一些实施例可以初始化用于存储场景302的数据结构,该场景302在一些实施例中可以包括全光场,并且在本文中参考图3B和其他地方进行了进一步描述。本发明的一些实施例可以以粗略细分级别开始将数据存储在数据结构中。本发明的某些实施例可以将与该场景相关的进一步数据存储在数据结构中,包括以迭代更精细的细节级别。本发明的一些实施例还可以被配置为计算或细化场景303的特性,该场景303可以包括计算或细化全光场的特性,并且在本文中参考图3C和其他地方进行了进一步描述。在某些实施例中,该系统可以被配置为使用终止标准、计算预算或其他因素来指导重建活动304。在具有这种终止标准304的实施例中,在满足该标准的情况下,处理可以结束,否则该系统可以确定任何新图像数据是否可用305。如果新图像数据可用,则该系统可以被配置为合并新数据306,这在本文中参考图3D和其他地方进行了进一步描述。在合并新图像数据306之后,或者如果不存在可用305的新图像数据,则该系统可以重复从步骤303开始的过程,直到终止为止。
参考图3B,该系统的一些实施例可以将与该场景相关的物质场和/或光场存储在数据结构中。该数据结构可以采用本领域已知的任何数量的形式,包括在一些实施例中,分层、多分辨率和/或空间排序中的一种或多种的数据结构。示例性数据结构包括边界立体分层结构、树结构、二进制空间划分、或能够以可访问方式存储图像数据的其他结构。在一些实施例中,数据结构可以被配置为使得如果场景被划分为本文讨论的一个或多个全光元素。此外,数据结构可以被配置为使得与数据结构的一个方面(例如,物质场)相关联的信息可以与该数据结构的一个或多个其他方面(例如,相机姿势、光场的特征、或段中的一种或多种)相关联。
在一些实施例(具体地,本发明被配置为重建和/或存储物质场)中,本发明可以被配置为初始化数据结构以存储场景311中的物质场。初始化物质场可以包括准备数据结构以存储与该场景中的物质相关联的尺寸、形状、位置和/或光相互作用性质中的一种或多种。在物质场被划分为一个或多个体素或介元的实施例中,数据结构可以被配置为存储与每个体素或介元相关的信息。在一些实施例中,可以初始化数据结构以假设与该介元相关联的介质的特定类型,该介质可以是一些同质介质(例如,空气、水、雾、浑浊水或其他同质介质)。本发明的某些实施例可以访问与物质场相关的一些先验信息,其中,这些信息可以包括以下项中的一项或多项:描述该场景或其中的对象的几何形状的信息(例如,表征房间及其内容的OBJ文件)、低维参数BLIF中的参数的值、高维采样BLIF中的参数和/或系数的值、和/或场景的一部分或全部的几何形状(位置和/或取向)和/或BLIF信息的任何组合。在本发明未被配置为重建和/或存储物质场的实施例中,这些过程可能是不必要的。
本发明的某些实施例还可以被配置为初始化数据结构以存储与一个或多个相机姿势312相关的信息。在一些实施例中,数据结构可以存储与该场景的一个或多个图像的假设或已知位置相关的信息,并且可以与数据结构的其他方面(诸如体素或介元中的一个或多个)相关。
本发明的一些实施例还可以被配置为初始化数据结构以存储与场景313中的光场相关的信息。该数据结构最初可以被配置为存储关于与空间中的各种点、位置或体素相关联的入射光和出射光两者的信息,包括关于与物质场相关的数据结构的部分的信息。这种信息可以被表示为与每个位置或体素/介元相关联的一个或多个辐射元。本发明的某些实施例可以访问与光场相关的一些先验信息,其中,这种信息可以包括描述以下光场的量化的信息中的一个或多个:位置空间(例如,全景“环境地图”)中的点的入射光场;对位置空间中的一个或多个点处的一个或多个方向上的入射光场和/或出射光场进行量化的表面光场(例如,4D光场),可能在可触及的物理表面处;对位置空间中的一个或多个点处的各向同性(或接近各向同性)的入射光场和/或出射光场进行量化的表面光场(例如,2D光场),可能在可触及的物理表面处;和/或场景的全光空间的一部分或全部的入射光场和/或出射光场信息的任何组合。
本发明的实施例还可以被配置为初始化数据结构以存储与场景314中的一个或多个段相关的信息。段可能表示该场景中的一组或多组介质。在一些实施例中,段可以表示具有指定关联可能性(例如,适当高的关联置信度)的介质。例如,如果该场景包括具有花的花瓶,则段可以表示该花的叶子或花瓣、整个花、该花瓶、包含该花的花瓶等。
在一些实施例中,本发明还可以被配置为初始化数据结构以存储与场景315相关的其他数据。例如,这种数据可以包括非全光信息,其例如可以表示分析信息。
尽管前述步骤可以按照任何顺序执行,但本发明的某些实施例可以按照本文描述的顺序执行这些步骤。例如,首先初始化数据结构以存储物质场可以有助于将辐射元与更相关(或最相关)的归属介元进行关联。类似地,在发起数据结构以存储与光场相关的信息之前发起数据结构以存储与一个或多个相机姿势相关的信息可以允许发起具有更相关(或最相关)位置和/或方向信息的辐射元。
参考图3C,本发明的一些实施例可以提供计算或细化场景(例如,全光场)的一个或多个特性。本发明的某些实施例可以顺序地、并行地或以这两者的某种组合处理相机图像或其他图像数据。在一些实施例中,该系统可以基于图像数据来计算场景321中的光场,这在本文中参考图3E和其他地方进行了描述。
该系统可以计算或细化关于与图像数据322相关联的一个或多个姿势的信息,如参考图3F和其他地方所述。在一些实施例中,该系统可以确定一个或多个相机或图像数据视点的包含体素的光场是否已经被改变322,这可以可选地基于能够由该系统预设或计算的某个重要性阈值来确定。该确定可以部分地基于该系统假设或具有指示相机图像或图像数据集存在于数据结构中的体素201处的其他信息,如图2A所示。在这种实施例中,对于每个假设的位置,该系统可以在粗略取向空间中假设取向。
在一些实施例(具体地,该系统被配置为重建和/或存储物质场)中,该系统可以被配置为访问并测试其包含体素的光场已经被改变323的一个或多个(或所有)介元。在一些实施例中,如果与该介元相关联的光场已经发生一定量的变化(包括该系统中设置的阈值、或由用户设置的阈值、或由该系统计算的阈值),则该系统可以被配置为计算或细化该介元,这参考图3G和其他地方进行了描述。在一些实施例中,该系统可以被配置为计算该场景中的一个或多个段324。该系统的一些实施例可以被配置为计算或细化与场景325相关联的其他数据,诸如非全光和/或分析信息。在本发明未被配置为重建和/或存储物质场的实施例中,这些过程可能是不必要的。
该系统还可以被配置为包括特定终止标准、计算预算或其他阈值326,包括关于计算或细化全光场。在这种实施例中,该系统可以确定是否已经超过终止标准、计算预算或其他阈值,如本文其他地方所讨论的。如果尚未超过阈值,则该系统可以被配置为重复该过程,例如从步骤321开始。如果已经超过阈值,则该系统可以完成该过程。
参考图3E,该系统可以被配置为计算和/或细化该场景中的光场。本发明的一些实施例可以执行光传输操作341来计算光场。例如,该系统可以计算通过默认介质的辐射的传播和/或使入射辐射通过BLIF以产生出射辐射。光传输操作可以可选地限于超过从先前状态的阈值变化的辐射元。光传输操作可以限于路径长度或取决于路径长度。路径长度可以例如通过置信度或置信度的变化来自动地确定,并且可以按照下游方向和上游方向的某种组合运行。光传输操作可以包括通过默认介质的下游(时间上向前)辐射传播、通过默认介质的上游(时间上向后)辐射传播、通过BLIF以产生出射辐射(下游方向上的BLIF操作)的入射辐射、和/或通过BLIF以产生入射辐射(上游方向上的BLIF操作)的发射辐射的任何组合。
例如,光传输可以相对于半光漆的面元沿下游方向进行。在这种情况下,入射辐射元可以在其颜色波段中的至少一个中具有经更新的、更高置信度的辐射值。更高置信度的辐射值可以促使下游(时间上向前)BLIF相互作用,其可以在来自面元的一个或多个辐射元中产生一个或多个新辐射值。作为另一示例,光传输可以相对于闪亮铬的面元沿上游方向进行。在这种情况下,出射辐射元可以具有经更新的、更高置信度的值(例如,其颜色波段中的至少一个中的辐射值)。在添加直接看到铬面元的新相机视点时,可能发生这种情况。新出射辐射可以促使上游(时间上向后)的BLIF相互作用,其产生入射到该面元的一个或多个辐射元的新辐射值。在其他实施例中,诸如在提供表示房间中某个视点处的新图像的图像数据之后,光传输可以在两个时间方向上发生。新图像的像素可以被重新采样为包含该视点的体素处的高置信度入射辐射元。入射辐射可以向上游传播,以改变该场景中的面元处(例如,相机在其视场内看到的墙壁上)的较低置信度的出射辐射。另外,可以可选地计算相机视点体素处的入射辐射,以使其成为对映出射辐射,其然后可以使其向下游传播以改变该场景中的面元处(诸如相机后面的墙壁上的面元上)的较低置信度的入射辐射。
尽管光场(辐射元)和物质场(介元)计算、细化和/或更新可以是单独的步骤,但可以可选地修改该配置。在一些实施例中,这种结构可能导致不期望地避免在正在重建的(子)场景的整体成本函数空间中找到全局最佳(最深)解。例如,某些计算可能达到一定程度的解决精度,但不再接近最佳解(例如,全局最佳解)。例如,在“仅光场”和“仅物质场”搜索方向之间迭代(其在多维成本函数空间中可以避免光场和物质场参数两者同时改变的最佳参数步进方向)时,可能发生该情况。由该系统可选地实现的对该问题的示例性解决方案是使用关于所假设的场景模型正在极限循环中重新访问相同状态(这可能在整个场景内的任何子场景级别下发生)的识别。在识别到极限循环的存在时,该系统可以恢复到较早和/或较粗略的访问状态,并且在改变搜索的一个或多个控制参数(例如,要访问的参数空间的下一个区域、和/或每个或特定参数维度的步长)之后继续进行。此后,该系统可以遵循任何已知的方法来摆脱极限循环。
这种操作可以可选地使用辐射的实际值和/或值的变化、其他辐射元特性、和/或辐射元特性的置信度(一致性)来决定何时终止该操作序列。例如,该系统还可以被配置为包括特定终止标准、计算预算或其他阈值342,包括关于反映迭代和/或递归计算集的光传输深度。在这种实施例中,该系统可以确定是否已经超过终止标准、计算预算或其他阈值,如本文其他地方所讨论的。如果尚未超过阈值,则该系统可以被配置为重复该过程,例如从步骤341开始。如果已经超过阈值,则该系统可以完成该过程。
参考图3F,该系统可以被配置为计算或细化与特定图像数据相关联的相机姿势。在一些实施例中,该系统可以被配置为创建该场景或其相关部分的试验副本351。系统可以确定所假设的相机姿势352。在一些实施例中,对所假设的相机姿势的确定可以在定义潜在相机姿势的参数空间中按照从粗略到精细的顺序进行。该系统可以确定所假设的相机姿势是否位于场景边界353之外。如果所假设的姿势位于该场景边界之外,则该系统可以增加该场景的试验副本的尺寸以适应所假设的相机姿势354。
如果所假设的姿势位于该场景边界内,或者在已经增加该场景边界之后,该系统可以例如通过使用参考图3C的步骤322和其他地方描述的过程来计算或细化场景355的试验副本。这种计算可以使用适度的计算预算来执行和/或跳过递归相机姿势细化。
在一些实施例中,相机姿势的准确性可以对场景准确性生成巨大影响。该系统可以被配置为以比包含相机视点的离散空间元素更高的精度分析表示相机姿势。例如,给定视点处的相机姿势可以被表示为浮点数,而不是通过将视点的包含体素细分为位置分层结构中的许多更精细的级别。类似地,可以使用包含诸如偏航、俯仰和滚转之类的参数的浮点来表示相机的取向,而不是使用离散的萨埃尔数据结构来表示这些特征。
该系统还可以被配置为包括特定终止标准、计算预算或其他阈值356,包括关于与相机姿势相关的信息。在这种实施例中,该系统可以确定是否已经超过终止标准、计算预算或其他阈值,如本文其他地方所讨论的。如果已经超过阈值,则该系统可以用试验副本357替换全光场或其相关部分,完成该过程,或两者兼而有之。如果尚未超过阈值,则该系统可以被配置为重复该过程,例如从步骤352开始。
在一些实施例中,该系统可以执行计算以确定是否存在可测量视差。可测量视差计算可以基于所接收到的光的变化来计算,并且可以进一步取决于相机或图像数据分辨率以及视点之间的位置分离。在一些实施例中,前两个量可以设置从相机/图像数据工作空间或相机视点的包络向外沿不同方向的实际视差边界距离。视差边界通常是定向的,这意味着取决于相机/图像数据工作空间的形状,在不同方向上,边界可以是不同的距离。例如,给定方向上的视点之间的宽分离可以在与该视点分离矢量垂直的方向的平面中将视差边界进一步向外推。
在一些实施例中,该系统可以使用视差边界来设置场景的尺寸(例如,场景的外边界)。在一些实施例中,视差边界可以是限制定向视差边界距离的包络的边界体素。在一些实施例中,例如,当访问新图像数据时,相机/图像数据工作空间可以扩大,并且将视差边界向外推。该系统可以响应于视差边界的延伸而增加场景和/或相关联的全光场的尺寸。
在一些实施例中,该系统可以以二维性质表示视差边界之外的场景信息。例如,这种信息可以被表示为二维地图和/或多分辨率网格量。作为说明,夜空可以被表示为二维光场。取决于场景的尺寸,在高空飞行的飞机也可以存在于视差边界之外的二维层中。视差边界之外的信息不一定仅包含光,还可以具有其他相关联的性质。例如,在夜空的情况下,月亮可以被表示为具有关联BLIF的二维物质场中的月尘。此外,可以基于已知距离或其他优先级,按照某种顺序来堆叠任何数量的层。在一些实施例中,这种层中的光场和/或物质场信息或数据可以以与视差边界内的信息在时间上是动态的相同方式在时间上是动态的。
关于图3G,该系统可以被配置为计算一个或多个介元的属性。该系统可以首先使用图像数据来计算介元属性361。在一些实施例中,该系统可以被配置为计算介元属性,使得在提高对介元计算的总体置信度度量的方向上进行调整(例如,可以通过更高置信度的辐射元来更新具有较低当前置信度的关联辐射元)。例如,可以通过以下方式计算介元的总体置信度:在一个或多个感兴趣方向(例如,朝向直接相机视点)上获取新预测的出射辐射,从预测的辐射中减去预先存在的参考和/或观察到的出射辐射,并且计算预测辐射减去参考辐射偏差的平均值的一些变化以产生标量成本和/或误差。在这种实施例中,置信度可以被认为是成本的某种倒数(例如,1-成本或1/成本)。
在一些实施例中,该系统可以假设或以其他方式确定介元内存在表面。包含表面的介元可以称被为表面元素或面元。在这种实施例中,该系统可以被配置为搜索与表面相关联的几何参数。例如,该系统可以计算表面法线矢量、BLIF、或与面元相关联的其他尺寸或参数。
在该系统测试数据结构中的体素是否是面元的实施例中,该系统可以根据相机105和106中的一个或多个或包含由相机捕获的视场中的体素或该数据中表示的体素在内的其他图像数据来计算该体素处的出射光。在一些实施例中,每个相机可以观察体素,或者每个图像数据集可以表示来自不同角度的体素,并且可以观察在特定方向上从空间中的该位置发出的特定辐射。该系统可以使用这些观测值中的一个或多个来确定空间中的该位置或体素的所观察到的出射光场。类似地,该系统可以根据观察进入空间中该点或体素的光的一个或多个相机或图像数据集来计算空间中的位置或体素的入射光场。
在一些实施例中,该系统可以被配置为计算与介元的光场相关联的性质,诸如包含体素的光场362的方向分辨率。例如,如果计算和/或调整了包含体素的光场的方向分辨率,则该系统可以分割和/或合并与该体素或相邻体素相关联的辐射元。本发明的某些实施例还可以自适应地对与介元相关联的光场进行采样。例如,该系统可以使用一个或多个数据集(诸如所假设的BLIF、感兴趣的出射方向(例如,相机视点)或与被测介元相关联的其他数据)来自适应地对该介元处的入射全光光场进行采样。本发明的一些实施例可以基于出射全光光场置信度的目标(例如,基于该介元处的所观察到的光)或计算预算(例如,可以与介元相关联的辐射元素(或辐射元)的最大数量)来执行这种计算。在一些实施例中,该系统可以被配置为使用球面谐波来表示方向分辨率。例如,在该系统表征与光泽漆面元相关联的光场的实施例中,这种面元在真实场景中可以具有高度镜面行为。在早期处理中,对候选BLIF性质的搜索可以指示该面元可能更具有镜面性而不是漫反射性。然后该系统可以被配置为实例化高阶球面谐波系数以在来自其他场景区域的高入射辐射的方向上产生更紧密的镜面瓣。球面谐波可以在随着所假设的法向矢量旋转的坐标系中定义。对于具有颗粒状外观的材料(例如,拉丝金属),该系统可以配置有与各向异性BLIF相关联的材料颗粒切线矢量。
本发明的一些实施例可以假设一个或多个介元内存在表面,如图2A所示。通过假设体素内存在表面,该系统还可以假设特定表面法线203、该表面在该介元内的位移、和/或该表面的光相互作用性质。然后,该系统可以计算一组预测出射辐射矢量,包括基于所假设的表面法线和/或光相互作用性质,其可以包括折射率、粗糙度、偏振漫射系数、非偏振漫射系数和/或消光系数中的一种或多种,后者可能特别适用于金属材料。在一些实施例中,该系统可以被配置为以串行方式搜索前述性质中的一种或多种(例如,通过基于所适用的图像数据遵循从最可能到最不可能的正确性的“瀑布”测试)。
本发明的一些实施例可以计算表面的存在的“成本”。在一些实施例中,具有所计算的性质的表面的存在的成本可以被表示为所预测或计算的(i)表面法线、(ii)光相互作用值、(iii)出射辐射矢量和/或(iv)其他性质与对应的观察值之间的差异。在一些实施例中,该系统可以具有指定或可指定的成本阈值,其中,当成本低于阈值时,接受面元存在于体素处。在这种实施例中,当确定体素是物质和/或包含表面时,该表面可以保留在该场景中以进行后续迭代。在一些实施例中,可以以与存储萨埃尔或辐射元的数据结构相匹配的分层方式搜索表面法线。在立方体形状的体素的情况下,该系统可以对六个面中的每个面执行计算。另外,该系统可以被配置为将该体素划分为八个立方体形状的子体素,从而产生了计算总共24个面向外部的面和96个整体子辐射元的表面法线的需求。对于每个方向,该系统可以被配置为计算预测的出射辐射矢量和相关联的表面法线和/或光相互作用性质。这种处理可以以多种方式完成,包括以高度并行或多线程的方式,使用GPU、AI和/或ML、二叉树分层结构或其他配置来加速处理。在一些实施例中,该系统可以确定最可能、成本最低、置信度最高或其他父假设集,并且使用这些假设作为对细分的处理的起点。
在一些实施例中,对于体素201处的光场和/或表面的存在性的求解可以使用针对一个或多个其他体素计算的光场来计算体素201的假设入射光、出射光和/或其他辐射性质。这种计算可以是由相机图像或其他图像数据集表示的入射光场的补充,或者使用该入射光场来计算。因此,本发明的某些实施例可以通过使用从一个或多个其他体素发射的投影的一个或多个辐射元素或辐射元(通过跟踪辐射元对该场景的影响和/或辐射元与其他体素中的介质的相互作用)来更新一个或多个体素201的光场的假设。
在一些实施例中,该系统可以首先计算与场景相关联的光场,并且提供关于该光场的信息以告知该处理来检测面元的存在。在计算由该面元表示的场景中的介质的存在性时,该系统可以使用该存在性作为重新计算与该场景相关联的光场的因素。该过程可以按任何顺序执行,并且可以被迭代地执行以增加置信度或降低与该场景中的光场和/或物质场相关联的成本。在一些实施例中,该系统可以在将一个介元细分为多个子介元之前执行该过程。该系统还可以被配置为:在细分介元之后执行光场和/或物质场的类似测试(这可以部分地基于父介元),然后执行与上面关于父介元描述的处理相同的处理。
在一些实施例中,前述过程可以继续,直到系统实现某些特定终止标准、计算预算或其他阈值363,包括与该介元相关联的光场和/或物质场。在这种实施例中,该系统可以确定是否已经超过终止标准、计算预算或其他阈值,如本文其他地方所讨论的。如果尚未超过阈值,则该系统可以被配置为迭代地和/或递归地重复该过程,例如从步骤361开始。如果已经超过阈值,则该系统可以确定一个或多个介元性质是否已经超过置信度阈值364。如果已经超过置信度阈值,则该系统可以完成该过程。如果尚未完成置信度阈值,则该系统可以可选地如下所述将该介元细分为N个子介元365,除非已经达到分辨率预算或限制。
然后,本发明的一些实施例可以使用置信度阈值或其他度量来指导处理,并且计算相关联的置信度或与该场景内每个介元或其他立体元素相关联的其他度量。如果使用置信度阈值,则该系统可以检查置信度低于置信度阈值的一个或多个介元。在一些实施例中,如果置信度低于阈值,则该系统可以将该介元的特性与各种已知的光相互作用特性(诸如与不同类型的介质相关联的双向光相互作用函数(或BLIF))进行比较。例如,在图14A所示的示例中,如果置信度阈值是75,则该系统可以被配置为对所示的四个模元1403中的每一个执行进一步的计算,因为相关联的置信度低于75。一些实施例可以使用基于该系统已经计算的特定介元的最可能候选特性(例如,最可能的候选BLIF)的瀑布式或连续式比较顺序。例如,对于特定介元,该系统可以首先测试该介元是否包含空气,然后测试一般介电介质,然后测试一般金属介质等。
在一些实施例中,诸如图14A所示,感兴趣的场景可以包含同质透射介质和不透明介质两者。在感兴趣的区域包括空的空间(例如,空气或不包含与光实质上相互作用的介质的其他同质空间)的实施例中,该系统可以在数据结构内指定该场景由包括空的空间(例如,空气)的介元组成。空的介元或包括空气和其他同质元素在内的介元可以被称为模元。在一些实施例中,即使介元1401包含不透明表面1402,该系统也可以最初规定介元1401由包含空的空间或空气(或空气模元)的一个或多个模元1403组成,其中,这种初始化将允许该系统让光流过介元1401和模元1403,而不是假设被相互作用的介质(诸如1402)阻挡。本发明的一些实施例可以指定与每个空气模元相关联的低置信度1405,这可以有助于该系统稍后确定每个空气模元内的其他介质的存在。在图14A中,描绘了所假设的内容1404和置信度1405,其中,内容“A”1404表示包含空气的模元1403的初始假设,并且置信度“10”1405表示与该假设相关联的假设置信度值。
该系统可以以多种方式确定与特定介元相关联的置信度(或成本)。例如,对于被假设为空的或空气的介元,该系统可以预期进入该介元的辐射元之间的差异应基本上等于沿对映方向离开该介元的辐射元。类似地,如果该介元是面元,则该系统可以基于包括该面元在内的特定介质特性来预期入射到该介元的光场与从该介元出射的光场之间的特定关系。因此,该系统可以被配置为通过计算入射光和出射光的预期差异和实际差异之间的误差(例如,被假设为空气的模元或空气模元的辐射元的对映误差)来确定与特定介元相关联的置信度。
在一些实施例中,本发明可以利用如本文其他地方所述的机器学习(ML)和/或人工智能组件来辅助确定与辐射元差异相关联的置信度(或成本)。对于空气模元的示例,AI/ML模型可以被配置为通过将所计算的结果与对映辐射元差异进行比较来确定该介元为空气模元的置信度或成本。在各种实施例中,AI/ML模型可以被配置为比较各种所计算的辐射元之间的平均值、中值、最小值、最大值和/或其他差异。在一些实施例中,AI/ML模型可以被配置为在执行置信度或成本确定时抛弃选定或可变数量或百分比的辐射元(例如,最不一致的辐射元的特定百分比)。
本发明的一些实施例可以以迭代和/或递归方式执行前述计算。例如,在一些实施例中,该系统可以针对特定相机姿势或图像数据集计算本文描述的场景数据,包括发现其中的任何面元202。此后,该系统可以以类似方式处理后续的相机图像或图像数据集。在这种迭代处理导致在场景中发现更多面元202的情况下,该系统可以更准确地确定后续相机姿势和/或图像数据集的取向。本发明的一些实施例还可以更新与一个或多个先前确定的相机姿势和/或图像数据集的取向相关的信息,以更好地拟合新观察结果。在一些实施例中,当定位新相机图像和/或访问来自备选视点的图像数据,并且更新现有相机图像位置和/或图像数据集的取向时,相机数据结构可以从粗略级别分层地遍历到更精细的级别。当更多相机图像和/或图像数据集变得可用时,该系统可以将该场景中存在的物质场求解为更精细级别的细节。在一些实施例中,本发明可以将这种更精细级别的细节存储在物质场数据结构中,包括通过细分物质场数据结构。本发明的某些实施例中的结果是一组相机图像、相机姿势、其他图像数据和/或与前述项中的任一项的取向相关的信息、由该系统计算的物质场、以及与其相关联的光场。前述结果可以可选地是通过光传输计算最能说明给定图像的数据,并且可以称被为重建的场景。
在一些实施例中,本发明可以对感兴趣的区域或场景内的其他介元(或所有介元)执行前述计算。然后,该系统可以例如基于预测的辐射特性减去与该介元的出射辐射元相关联的观察特性,将一个或多个介元的结果与置信度阈值或其他度量进行比较。对于未达到置信度阈值或其他度量的介元,该系统可以被配置为执行与这种介元相关的进一步处理。例如,图14B描绘了该系统已经确定介元1401的右下模元1403不满足适当阈值的情况。在一些实施例中,该系统可以将不满足阈值或其他度量的介元细分为两个或更多个子介元,诸如将立方体形状的介元细分为八个立方体形状的子介元。在图14B中,该系统将模元1403细分为四个子介元1406,每个子介元1406具有相关联的内容假设1407和置信度1408。在图14B所示的实施例中,该系统现在已经假设子介元1409包含表面,如1413处所示,例如,可以由面元表示的不透明介电表面(由“S”表示),置信度为50。其余子介元仍然被假设为包含空气且具有变化的置信度。
在这种细分之后,该系统可以被配置为执行前述处理以确定与感兴趣的区域或场景相关联的BLIF或其他特性,直到达到置信度阈值、其他度量或最大计算阈值为止。在一些实施例中,该系统可以确定介元的置信度在细分之后不发生很大变化。在这种情况下,该系统可以被配置为例如基于可以在传统成本函数最小化问题中确定的渐近确定来确定局部最小阈值。例如参考图14C,在置信度阈值被设置为75的假设情况下,该系统已经进一步细分子介元1409、1410和1411,因为这些子介元未超过阈值,但不进一步细分介元1412,因为置信度超过阈值。在完成图14C所示的处理之后,除了子介元1413外,所有子介元都已经满足相关联的阈值。具体地,子介元1410、1411和1412内的所有子介元都已经超过作为空气的置信度阈值。子介元1409内的所有子介元都已经超过包含表面的阈值,但该系统已经确定无法进一步求解子介元1413,因为子介元1413内的物质已经完全被子介元1409内的其余子介元遮挡。
在一些实施例中,该系统可以被配置为基于与相邻介元相关联的置信度或成本来假设特定介元的更高置信度或更低成本。例如,该系统可以被配置为:如果相邻的介元包含表面,则假设与介元内的表面的存在相关联的更高置信度或更低成本,如果两个相邻介元包含表面,则假设甚至更高的置信度或更低的成本等。可以针对其他类型的介质做出类似的假设(例如,模元包括相邻介元中的特定类型的介质,或者与所讨论的介元相邻的一个或多个空介元或空气介元)。
参考图3D,该系统可以被配置为合并新图像数据。在一些实施例中,该系统可以初始化一个或多个新相机姿势331,这例如可以参考图3B和图3F所述来实现。然后,本发明的一些实施例可以将一个或多个新辐射元放置到该场景中的包含一个或多个新视点332的体素处。
本发明的一些实施例可以选择在算法的该次迭代中针对传入相机的最佳姿势提供假设面元的位置和取向。例如,该系统可以向特定位置或取向分配置信度(或者相反,分配与置信度的缺乏相关联的成本)。这种置信度可以可选地与表面的存在或不存在、诸如入射光场或出射光场之类的辐射特性、或该位置或取向处的另一特性相关联。该系统可以基于多种因素来确定置信度或成本,其中一些因素包括位置与相机姿势取向的接近度或不接近、观察结果与来自其他相机姿势的数据的一致性、或其他信息。举例来说,在该信息是与空间中的位置相关联的辐射元的实施例中,对于与来自相机的观察结果直接相关联的位置,所分配的置信度可以更高,或者所分配的成本可以更低。类似地,对于被定位为与由相机观察到的位置或图像数据中描绘的位置不太接近的位置,所分配的置信度可以更低,或者所分配的成本可以更高。本发明的一些实施例可以使用置信度或成本作为加权因子。以这种方式,该系统可以能够确定存在高一致性和/或低成本、低一致性和高成本的场景中、或介于这两者之间的一些场景中的位置、取向或其他信息。
在一些实施例中,前述处理的结果可以导致存储与物质场和/或光场相关的信息的数据结构内的一个或多个局部区域可以被细分为更精细或更深的分辨率。这种精细的细分可以由局部对比度(诸如体素占用率、介元类型、BLIF、几何形状或其他特性的急剧变化和/或梯度)来触发。更精细和/或更深分辨率的局部区域可以出现在物质场中(例如,在特定位置、体素、数据结构中的位置处)和/或光场中(例如,在特定方向、萨埃尔、数据结构中的位置处)。举例来说,这种局部区域可以发生在大块纯色墙壁中间的物质场中,其中小点可以由精细细分的面元来表示。作为第二示例,这种局部区域可以发生在光场中,其中直接阳光由入射在闪亮铬的面元处的光场中精细细分的辐射元来表示。在从铬面元反射掉之后,所得出射光场可以在相对于入射阳光的镜面反射方向上具有精细细分的面元。
在一些实施例中,可以存在能够应用额外计算能量以便以比该场景的其余部分更高的精度重建某些场景特性的局部区域(例如,子场景)。例如,可以应用该系统来重建整个房间,但该房间中可能存在特别感兴趣的单个对象。可以将额外计算能量应用于感兴趣的对象。本发明的一些实施例可以在与数据结构被细分为精细和/或深得多的分辨率的区域相同或相似的区域中应用额外计算能量。例如,在具有小点的纯色墙壁的情况下,在与该墙壁垂直的方向上以1mm精度重建墙壁面元的位置可以是有利的,但墙面可以具有同质BLIF,并且可以被表示为10cm宽的面元。
本领域技术人员将认识到,本文描述的过程可以与本领域中已知的各种场景重建技术结合使用、用作本领域中已知的各种场景重建技术的一部分、或用于增强本领域中已知的各种场景重建技术。例如,Ackerson等人的美国专利No.10,521,952中教导了用于执行场景重建的各种方法。本文例如关于图3A至图3G和图14A至图14C描述的过程可以全部或部分地并入在美国专利No.10,521,952中描述的过程的各个点处,包括作为关于其图3(例如,在步骤309、311和/或313处)、其图14(例如,在步骤1403处)、其图16(例如,在步骤1609处)、其图18A(例如,在步骤1811、1813、1815和/或1819处)、其图18B(例如,关于步骤1819)和其图18D(例如,在步骤1880处)所讨论的过程的一部分。因此,本文描述的本发明的一些实施例旨在与美国专利No.10,521,952中教导的过程以及其他场景重建技术完全兼容。
另外,在本发明的一些实施例中,对象或场景的不透明外部结构的重建可以与相同对象或场景的内部结构的重建(包括使用不同方法创建的内部重建,诸如X射线成像或MRI扫描)相结合,诸如图21所示。内部结构可以嵌套在外部结构内,以形成对象或场景的更完整模型。在一些实施例中,如果用于重建内部结构的方法缺少BLIF信息,则可以基于外部结构的BLIF,使用诸如机器学习之类的方法来自动地生成BLIF信息。
本发明的某些实施例可以用于表示管状结构,3D角或其他表面。在一些实施例中,可以基于先验知识或后验段(区域)数据来确定表面是弯曲的,这些表面中的每一个可以可选地由面元来表示。在一些实施例中,面元可以具有与切线矢量对齐的图。这种图可以可选地表示各种性质,例如该表面的粗糙度(凹凸图)、颜色(纹理图)、材料和/或其他性质。在一些实施例中,沿法线的材料梯度可以是阶跃函数,或者可以更复杂(例如,“模糊”表面或多层表面,如透明涂层汽车),或者以其他方式表示。
图6和图7示例性地描绘了使用面元表示的实心管状结构(例如,树枝)。如图6所示,图6示出了沿着具有一些面元601的曲线的图,体素603内的面元601被示出为平面,但被存储为法线矢量和切线矢量。管状边界602可以用由分析曲线604来表示。图7描绘了具有体素702中描绘的表示性面元703的弯曲对象的分析曲线701的侧视图。以这种方式,面元可以被识别为平面,但不一定被识别为平面。图8示例性地描绘了使用体素802内的面元801来表示角803。角803可以是单个点状特征,其可以是在束初始化过程期间能够发现的典型分析特征。
本发明的一些实施例可以按照被设计为优化该系统的性能的优先级顺序保留与面元或介元相关的数据。例如,本发明的某些实施例可以按照图像或其他数字成像信息、点状特征和/或取向的特征、介质基元、出射光场和入射光场(其本身可以在观察方向上是精确的、内插的、仅在非观察方向上内插)、几何形状、凹凸图和纹理的降序优先级顺序保留信息。本发明的其他实施例可以使用备选优先级顺序,省略前述信息的一个或多个类别,和/或包括信息的一个或多个其他类别。在一些实施例中,本发明可以保留所有前述信息,可以在较低级别信息可用或可说明的情况下丢弃较高级别信息或这两者的某种组合。
在本发明的某些实施例中,该系统可以能够捕获、接收、处理、使用和/或表示场景内的某些分析基元。分析基元可以可选地包括以下类型的数据或者从场景获得或关于场景提供的其他类型的信息中的一种或多种:点、矢量、线、平面、球体、矩形、平行六面体、网格、其他CAD类模型或特征(包括构造立体几何(CSG)和/或边界表示(B-re p))和/或其他信息。
在广义场景重建的上下文中,全光信息和分析信息可以独立地处理,一起处理、或以这两者的某种组合的方式处理。在本发明的一些实施例中,可以在公共工作空间中处理全光信息和分析信息(优选地以“根据需要”方式),以实现该场景的重建或另一目标。本发明包括用于检查、处理、存储和使用这种信息的方式,包括例如空间元素、数据结构和相关处理功能。在一些实施例中,可以可选地通过使用并行计算元件、专用处理器等(包括前述项的阵列),以提高的效率执行空间、全光和其他处理操作中的一些。这种提高效率的示例是场景中的介元之间光场辐射值的传输。例如,该系统可以使用一组FPGA核、CPU、CPU核或者使用一个或多个图形处理单元(GPU)、神经处理单元(NPU)、张量处理单元(TPU)和/或其他专门处理单元的硬件加速(HWA)(包括使用由一个或多个CPU或其他计算设备管理的HWA)来处理入射辐射元和/或出射辐射元。当处理许多介元和/或入射辐射元时,基于FPGA的示例实施例可以并行运行数十、数百、数千或更多辐射元的光传输计算。在一些实施例中,如果场景被划分为段或子场景,则该系统可以提供对一个或多个子场景中的每一个内的辐射元、介元或其组的并行处理。
在某些实施例中,本发明可以使用段或子场景,其可以包括一个或多个全光元素的集合,每个全光元素可以包含一个或多个相关联的介元和辐射元。段可以具有:子段,其可以包括段中的一个或多个全光元素的子集;以及超级段,其可以包括来自一个或多个段的一个或多个全光元素。
某些场景可以包括一个或多个对象(其在一些实施例中表示由人类或计算机表征的一个或多个段),其是场景中存在的物质(例如,篮球、鸟或人)。尽管草坪或甚至草叶在口语上可能不被称为对象,但这种物质可以被表示为段并且被称为段或者在本发明的一些实施例的上下文中被称为对象。
在某些实施例中,广义场景重建可以被实现为非参数过程。在一些实施例中,非参数建模表示段的结构的建模不是完全预先确定的。相反,在这种实施例中,用于表示段的参数信息中的至少一些是从感测数据本身导出的。
本发明的一些实施例可以使用在空间上排序的、分层的和/或多分辨率的全光元素、或前述项的任何组合。在本发明的一些实施例中,局部曲率约束(例如,B样条)可以用于对一个或多个段、子段或超级段中的面元或表面元素进行正则化。可以使用这种过程来先验地指定或后验地发现场景内存在不连续导数的位置。
本发明的一些实施例允许区分不同段或段集合(超级段),其在一些实施例中可以表示场景的不同对象、材料或其他特性。在一些实施例中,这种区分可以至少部分地使用附加到全光元素的某些信息,这些信息被统称为性质并且可以在数据结构内的一个或多个节点或区域中表示。这种信息可以包括但不限于诸如颜色、法线、梯度或切线矢量、材料、相关联的双向光相互作用函数、密度、透明度、辐射和/或其他因素之类的特性。在全光数据集在空间上排序的实施例中,本发明可以通过例如同时遍历经对齐的数据结构以访问结构中的空间的相同或对应立体或定向区域,以计算高效方式实现。在一些实施例中,在空间上对数据集进行排序的能力可以有助于维护表示相同场景中的不同信息的多个数据集,并且允许性质的搭配。以这种方式,本发明的示例性实施方式可以在多个结构中维护场景的一个或多个特征,并且使其与特定操作相关的子集可用和/或处理该子集。
本发明的某些实施例可以使用数据结构来表示全光信息的段。取决于特定应用的要求,全光数据的子集可以以多种方式表示。在一些实施例中,全光数据结构可以包括段标识符,例如作为用于标识附加到该数据结构内的段的类型或性质的核心结构的一部分。在需要或期望表示少量段的情况下,这种实现可能特别有利。
在数据可以被包括在多个段中的实施例中,标识符可以优选地提供多个段成员资格。在一些实施例中,这种标识可以直接使用性质来实现,在其他实施例中,通过使用表指针性质以及表中的成员资格情况来实现,并且在其他实施例中,可以使用前述项的组合或备选方法来实现。
在一些实施例中,可以基于类型、性质或其他特性或变量来隐式地表示段。例如,段可以被定义为全光数据结构的与包含或排除性质(例如,指定的限制范围内的密度)的某个集合相匹配的部分。
在某些实施例中,可以定义单独的阴影全光数据结构。阴影全光数据结构可以是表示另一个或多个全光数据结构的至少子集的数据的部分但表示备选信息(例如,选择集中的成员资格或性质偏差)的全光数据结构。当需要或期望表示大量段时,阴影全光数据结构可以是有利的。例如,二进制的数据结构(例如,数据被标记为包括或不包括在选择集中)可以表示属于特定段的另一全光数据结构中的数据。在这种实施例中,多个这种段可以使用与相关联的全光数据结构同时进行的集合运算进行组合,从而可以创建超级段。这种超级段可能具有重叠的数据。
在本发明的一些实施例中,可能期望在场景内的一个或多个位置处复制结构。该偏好对于分析项目可能特别有用。图形结构可以用于消除相同数据的重复、避免需要在多个位置处进行任何更改、这两者的某种组合、或用于其他目的。在某些实施例中,图形在用于诸如显示场景或其一部分的操作之前,可以被评估或“扁平化”为更简单的数据结构,其中,适用于各个元素的所有变换被组合为单次变换。作为在场景中使用图形结构的非限制性示例,考虑包括多个螺栓在内的组件。前述过程可以用于改变螺栓类型、位置、取向或其他特征。由此,本发明可以用于基于所设置或确定的参数,通过单次变换或减少次数的变换来实现该场景中所有相关螺栓的变换。
在一些实施例中,该系统可以提供采样来确定可以表示表面的函数。在某些实施例中,采样可以包括对偏振数据的采样,使得该函数可以表示表面上的强度、表面上的偏振信息、光源、出射光场或输出、或前述项的任何组合。当该系统分配表面上的函数时,所得函数可以提供能够表示该表面的数据集。例如,该函数可以提供某个体素拟合模型,其可以允许确定该体素在不同条件下将如何响应。可以使用这种函数来确定特定光场中的响应或者确定如何投射单个光场中的响应如何可以转化为其他光场。例如,在该系统还未(或尚未)将物质场与光场分离的情况下,也可以使用这种表示。
在本发明的某些实施例中,可以使用前述全光表示来执行广义场景重建。例如,某些前述全光表示可以是空间填充(3D立体空间或方向空间的空间填充),并且可以支持比本文详细描述的示例性表面、线或点表示更强大的处理操作。本发明的某些实施例可以组合、处理、分析或执行其他操作,以实现和促进具有使用低维表示难以或不可能实现的功能的场景重建。可以作为场景重建或本文描述的其他过程的一部分而执行的示例性操作类别包括但不限于:基于一个或多个性质的阈值处理;对一个或多个元素或对象的连接性的计算;计算质量性质(体积、质量、质心等);标识符标记(例如,标识立体空间或方向空间的区域);执行集合运算、变换和/或形态学操作(例如,扩张、侵蚀等);计算定向投影和/或可见性;确定空间和/或定向掩蔽;确定内部填充;以及执行冲突和/或碰撞分析;等等。在一些实施例中,多个操作可以一起用于实现一个或多个复合操作,诸如隔离不相交部分、区域选择、和/或确定最近邻居(空间上或方向上)。
参考本文描述的各种实施例,本发明的某些实施例可以利用本文描述的建模方法和处理工具中一种或多种来执行重建任务和相关操作,以支持多种用途。
作为第一示例,本文描述的实施例可以用于重建包括树在内的场景和/或从远处观看树。在该示例中,在很大距离处拍摄包含静态树的一个或多个图像。在该示例中,图像中的单个像素可以包括一个或许多叶子、背景或这两者的某种组合。在本发明的一些实施例中,该像素中包含的信息可以由萨埃尔来表示,其中原点在视点处并且包围与该像素的边缘相交的平面。附加到该萨埃尔的信息可以包括颜色和计算的法线矢量。这种计算的法向矢量可以根据数据的偏振分析、根据图像的组合或以其他方式来计算。该颜色可以是由该像素表示的树叶、树枝和背景的组合颜色。在该示例中,法线矢量是许多次表面反射的结果。因此,对于在这种距离处观看的树的示例,图像信息将无法达到足以指示该信息来自单个表面的置信度。
在一些情况下,图像的区域中可以存在多个相关像素。如果相关像素的数量足够,则本发明的某些实施例可以执行纹理的统计分析。这种统计分析可以涉及将一个或多个过滤器的集合应用于该区域,并且优选地将包括被组合为纹理签名的对一个或多个过滤器的响应的聚类。在该示例中,计算的纹理签名然后可以作为性质被添加到场景模型,并且稍后用于将合成生成的纹理插入到渲染中以提供逼真视图。
继续在某个距离处拍摄的树的图像的示例,可以根据各个像素来计算更高级别的萨埃尔数据。由于相对较低的分辨率和/或单个像素中表示的对象的高程度,因此不存在足够的信息来开始构建树的空间表示。因此,在该系统可以被实现为重建3D场景以进行3D观看的某些实施例中,树的图像和这种图像内的任何东西将被假设为超过视差距离(即,可重建场景边界)并且在一些实施例中用作背景。
如果所提出的示例系统从不同的视点接收到同一树的一个或多个附加图像或其他场景数据,则该系统可以从原始图像和新接收到的图像或数据中提取某些地标点或射线信息,并且在优选实施例中,尝试匹配这种地标点或射线信息。如果该系统成功地匹配这种标志点或射线信息,则该系统就可以估计这些点的3D位置。此时,本发明的一些实施例可以发起3D模型,并且可以为匹配点周围的空间区域赋予来自两个图像中的像素的颜色值或该点的其他特性。该系统可以对匹配点周围的区域执行类似的操作。如果来自较近范围的附加图像可用,则该系统可以创建较高分辨率空间区域,并且该系统可以可选地重新评估相关较高、较低分辨率区域。该过程可以基于需要来执行,使得仅在需要时处理高分辨率信息以实现即时目标。该目标例如可以是重建特定感兴趣对象,由此该系统可以保留大部分或所有成像数据(其将被保留以供稍后使用),但除非需要,否则不被处理到高级别细节。在一些实施例中,可以立即处理较高分辨率信息和/或被存储以用于稍后处理。然后,该系统可以使用全部可用数据或可用数据子集来构建3D模型。在一些实施例中,空间模型的最高分辨率将大致对应于像素的投影尺寸。
本文描述的系统还可以使用根据较低级别计算的颜色信息来生成空间模型的较低分辨率区域。在一些实施例中,处理数据结构的较高分辨率区域中包含的颜色信息以生成父节点中表示的一种或多种颜色。然后,该系统可以基于对应的较高分辨率信息来计算对所计算颜色在图像的较低分辨率表示中占据的面积的分数的估计。然后,该系统可以使用该计算来计算对多个分辨率级别的空间区域的透明度估计,其中,透明度估计可以是被计为对图像中的关联区域贡献颜色的空间区域的分数。在一些实施例中,其余一种或多种颜色被假设为来自较大距离处(例如,在图像的背景中)的物质。在一些实施例中,该系统可以通过包含附加颜色和透明度值来继续表示不断增加尺寸的空间区域,这在一些情况下可以导致增加的复杂度。表示场景中的不同项目的颜色可以被分离到其他空间区域中,从而限制各个节点中的需求。因此,可以基于子值将区域的复合颜色和透明度值计算为该区域的单一颜色和透明度值。
在本发明的某些实施例中,该系统可以允许从新视角进行显示。在这种情况下,可以可选地从视点按照从前到后的顺序遍历全光表示,其中从大致对应于投影像素尺寸的空间区域积累的像素信息,其中,空间区域可以随着距离而增大。在这种实施例中,该系统可以基于通过所遇到的透明度值加权的颜色来累积像素的复合颜色值,这可以在遇到适当尺寸的节点时继续。在一些实施例中,该系统可以包括像素的阈值,由此当所累积的透明度权重超过像素的阈值时,确定该颜色并且终止全光遍历。
作为第二示例,本文描述的实施例可以用于重建场景,该场景包括包含一朵或多朵花的花瓶并且从底座移除一朵花。在该示例中,已经从图像中获取具有花的花瓶的全光模型。该系统可以使用一个或多个3D分割工具来生成用于表征段的数据结构,诸如本文所述。然后,该系统可以向该模型的一个或多个区域提供一个或多个段标识号,其中,段标识号可以基于一个或多个段之间的介元的估计相似度。例如,该系统可以基于花瓶的外表面的空间平滑度来进行段标识,从而指示各个介元是相关的并且一起属于相同类别。在一些实施例中,可以采用先验信息(或许AI辅助)来指导分割。某些实施例可以连接属于可识别结构(如该场景中的花瓶、花或其他对象)的各个段。可以实现这种示例性实施例,以存储可以可选地将形成花的段进行关联的信息。示例性实施例还可以包括高级数据结构,其可以连接花的各个部分(例如,花瓣、茎和叶子)的各种表示。示例性实施例还可以包括甚至更高级数据结构,其可以表示具有花的整个花瓶。
为了提取特定花,本发明的示例性实施例可以执行一个或多个操作,例如变换。在这种做时,该系统然后可以使一个或多个关联段进行变换,从而操纵一个或多个关联段并且操纵这些段远离花瓶。该系统还可以进行碰撞分析,其可以引导该花在该场景中的运动轨迹,从而避免空间交叉。在一些实施例中,取决于所实现的识别和建模水平,花模型的被遮挡和/或未被重建的部分可以进行内插,或者使用分析模型进行插入。
作为第三示例,本文描述的实施例可以用于重建包括水、浸没或部分地浸没在水中的对象、进入水体(诸如游泳池)的一个或多个水滴、或浸没在水或另一种液体中的对象在内的场景。在一个这种示例中,可以重建多个水滴和附近的水体。在某些实施例中,可以根据物理定律或该系统可以提供或已知的其他特性对移动到水体并进入水体的水滴进行建模。在一些实施例中,水滴可以以立体地表示,这为该系统使用水的已知质量性质来计算每个水滴的质量性质提供了基础。然后,该系统可以全部、部分地或以其他方式基于水滴的质量和/或质心,对每个水滴掉入水里的轨迹进行建模。在一些实施例中,该系统可以可选地包括先进的建模系统,其可以支持一个或多个水滴或游泳池的变形。
在一些实施例中,可以在离散的时间实例处对水滴的运动进行建模。在水滴首次进入表示水体的较大段的时间点处,可以执行操作来确定在游泳池和水滴之间共同的水量。然后,该系统可以使用这种操作的结果来补偿较大段的体积增加,这可以可选地使用形态学扩张操作来实现。在这种操作之后,与可移动材料(水滴)交界的较大段表面(游泳池)上的一个或多个立体元素可以逐渐延伸,以补偿所置换的水量,并且可以进一步修改以考虑段表面对与可移动材料的相互作用的动态反应。该系统可以使用这种工具和类似工具来实现更高级的置换模型。在一些实施例中,整个过程可以继续进行附加水置换,直到水滴完全融入到水体中。
作为第四示例,本文描述的实施例可以用于重建包括卫星、航天器、或围绕地球或另一天体运行的其他对象在内的场景。使用航天器作为用于重建的示例性对象,成像设备(诸如相机)可以捕获航天器的一个或多个图像。数字成像设备可以被提供为航天器本身的一部分(例如,设置在吊杆、臂或其他结构上,以允许航天器检查自身),或者可以设置在单独的航天器或对象(其例如可以可操作以检查该航天器)上。在一些实施例中,本文描述的系统可以提供根据已经获取的图像数据来创建航天器的全光模型。在一些实施例中,本文描述的系统可以提供根据所捕获的图像数据或先前获取的数据和所捕获的数据的组合来创建航天器的全光模型。这种模型可以用于评估航天器的状况、是否存在对航天器的全部或一部分的损坏、航天器上存在的材料、航天器上存在的仪器、或能够有助于评估航天器的其他信息、或前述项的任何组合。
在一些实施例中,该系统可以将一个或多个模型存储在数据库或其他数据结构中。除了提供对模型的存储之外,数据库还可以提供对一个或多个模型的访问。在一些实施例中,可以通过搜索该模型的一个或多个特征、通过索引、通过用户界面(其提供浏览一个或多个类别的模型)等来提供访问。本发明的某些实施例可以提供允许访问一个或多个模型的数据服务。这种数据服务可以是个人的(即,以用户为单位,允许用户访问与用户相关联的模型子集)、可用于一组用户(例如,团体、公司、企业、商业、或对这种团体的访问受限的其他团体)、或者甚至可用于公众。一些实施例可以提供数据服务作为与其他系统或应用的接口。例如,该系统可以向能够将模型用于其他目的应用或系统提供对模型的访问或关于模型的信息(例如,第三方元宇宙应用可以使用由该系统提供的一个或多个家具模型来重新创建房屋)。在一些实施例中,该系统可以存储由该系统本身创建的模型、由第三方模型创建系统或软件创建的模型、或这两者的组合创建的模型。
该系统可以使用一个或多个3D分割工具来生成段的表示性数据结构,诸如本文所述。然后,该系统可以向该模型的一个或多个区域提供一个或多个段标识号,其中,段标识号可以基于一个或多个段之间的介元的估计相似度。例如,该系统可以基于航天器外表面或该模型中存在的材料的空间平滑度来进行段标识(例如,使用段识别号对航天器的太阳能电池阵列中的材料进行分类),从而指示各个介元是相关的并且一起属于相同类别。在一些实施例中,可以采用先验信息(或许AI辅助)来指导分割。某些实施例可以使用一个或多个高级数据结构来连接属于可识别结构(如太阳能电池阵列、热管理系统、推进系统、通信系统、或航天器的其他方面)的各个段。这种示例性实施例可以使用单独的高级数据结构来实现,该单独的高级数据结构可以可选地关联形成航天器的特定系统或子系统的段。示例性实施例还可以包括甚至更高级的数据结构,其可以连接表示航天器的各个部分的各种单独的高级数据结构,例如,包括可在航天器上观察的更广泛系统在内的子系统。该示例性实施例还可以包括能够表示整个航天器的甚至更高级数据结构。
作为第五示例,本文描述的实施例可以用于重建包括人体的部分在内的场景。作为示例,本文所公开的本发明的实施例可以用于牙科应用,以重建牙齿、牙龈或其他软组织、牙科植入物或产品、或个人口腔中的其他对象,以重建人眼的全部或一部分,或者用于其他医疗相关应用。例如,该系统可以被实现为在牙医或其他提供商的办公室、外科中心或医院、或甚至患者的家中执行牙科虚拟化。在各种实施例中,可以使用手持式商业设备(例如,移动电话、平板计算机或相机)或专用医疗或牙科设备(例如,本领域中已知的其他范围的牙科范围)来执行成像。在一些实施例中,该系统可以处理所捕获的图像以虚拟化患者口腔内的感兴趣场景,包括可选地提供对该场景中的对象(例如,牙齿)的大小/尺寸、颜色、反射率、半透明度和/或其他光学特性的表征。这种虚拟化场景可以包括能够用于多种应用(诸如对牙套或对准设备、牙科植入物或其他器具、护齿器、保持器等的设计和尺寸确定)的模型(诸如全光模型)。尽管该系统是在牙科相关应用的上下文中提供的,但该系统可以以类似的方式用于医疗相关应用(例如,诊断、手术和手术室、治疗等)、对身体尺寸和/或结构的分析以用于运动训练、对服装的尺寸确定和许多其他应用。例如,该系统可以创建能够用于以下目的的模型:在进入手术环境以执行手术之前验证手术设备、药物或其他对象的准确性和完整性;在手术之前、期间和/或之后对人体内或人体上的感兴趣区域进行建模;用于训练目的;或者许多其他应用。
除了前述示例之外,本文描述的系统还可以用于多种其他上下文,包括场景中的光和物质的重建相比于现有系统具有优点的情况。这种情况包括但不限于高级驾驶支持系统、交通解决方案(例如,超速或车牌检测)、人体扫描(例如,用于健康、医疗、牙科和/或时尚行业)、对象分类和/或识别、无人机能够用于区域访问的检查、电池检查、机器人技术(例如,箱子拾取或室内测绘)、物流(例如,包装卡车或测量要包装的对象的尺寸)、汽车应用(例如,车身检查)、分类应用(例如,食品分类或回收)、或与红外扫描仪(长波或短波)的连接。
本文公开的本发明的实施例的优点之一是能够将本发明的实施例配置为联合或单独地重建光场、物质场(其可以是可重新照亮物质场)或两者。本领域技术人员将认识到,本发明的实施例的各种应用可以仅需要光场和物质场重建中的一者或两者,此外,可重新照亮物质场可以在特定情况下具有优点,而在其它情况下可能不是必要的。另外,本文描述的本发明的实施例可以被配置为针对场景的全部执行某些前述重建技术,或者备选地针对该场景内的不同区域或对象以各种配置执行这些技术。此外,前述重建技术可以与用于表征场景的其他技术(例如,拍摄测量、NeRF和本文描述的其他技术)配对,以重建场景的全部或相同区域,或者通过使用不同的技术来表征该场景中感兴趣的不同区域或对象。例如,本发明的实施例可以被配置为确定哪种技术可以提供最快、计算效率最高、功率最低等的备选方案来重建场景(或其一些或所有单独部分),并且结合各种重建技术。
参考Ackerson等人的美国专利公开No.2021/0133929A1中的相关讨论和图73,以示例的方式说明光场和物质场重建的若干个优点。图73突出显示了如下情况:物质和光场的表示及其产生图像的相互作用可能很复杂并且难以分析和理解,特别是在试图从图像本身收集这种理解的情况下。在一些实施例中,本文描述的发明可以例如通过指定场景元素的类型和观看特性(例如,缩放因子)以及如何对元素进行渲染(例如,线框与阴影),根据视图的直接需求来定制所显示的信息。
参考图1C至图1E,在一些实施例中,本文公开的发明可以被配置为允许定制模型中存在的可重新照亮特性的性质。例如,用户、调用过程、更高级重建目标(手动或自动地确定)或其他特征可以指定任何给定场景的期望可重新照亮特性。在一些实施例中,如果场景内的介元具有能够在给定入射光场的情况下预测一个或多个(或任何)感兴趣的出射方向上的响应辐射的相关特性(例如,一个或多个BLIF),则可以认为场景可重新照亮。在一些实施例中,如果该场景内的所有介元都具有前述特性并且该模型已经移除外部照明(即,除了使用指定的入射光场来重建模型的情况之外,响应辐射仅基于该场景内的发射光),则可以认为场景完全可重新照亮。例如,图1D描绘了物质场120,其中所有外部照明(例如,流入的光112)都已经被移除。完全可重新照亮物质场可以被配置为响应来自发射对象114的发射光场和/或窗状光场112。窗状光场112可以表示从其较大封闭环境(边界117)入射在该场景上的光。具有窗状光场112可能期望在根据相关联的图像数据进行捕获或测量期间存在的原始光场的条件下照亮或重新照亮场景和/或期望在备选照明条件下表征该场景(例如,模型是房间,窗状光场可以允许在白天和夜晚条件下表征房间)。如果不期望重建原始光场的特性,则表征原始孔隙光场112可能不太重要,尽管一些实施例可以在将该场景缩小为主要由全光元素场中的光相互作用的物理性表示的形式的过程中重建近似等同物。例如,如果重建目标是获得鞋子订单的脚的尺寸和形状,则窗状光场可能不太重要。在这种情况下,重建目标是脚面元的固有物质场,并且光场则太重要。
在一些实施例中,本发明可以协调或平衡子场景或区域之间的窗状边界111处的入射光场和出射光场。例如,在窗状边界元素111处,被计算为入射的辐射应与被计算为在另一子场景的窗状边界111处沿该给定方向出射的辐射相匹配。这种配置可以允许该系统被配置为实现该场景中的子场景或区域之间的不同重建技术。例如,单个场景可以包含使用本文描述的各种技术(例如,使用基于物理的光传输、NeR F等)中的每种技术而重建的单独子场景,每个子场景可以共存于整个重建场景中。通过在每个子场景中查询每个子场景窗状边界元素111处在指定查询方向上的预测出射光,可以使各个子场景彼此协调或平衡,并且可选地查询预测的入射光也可能很重要。通过在边界处提供过渡,具有这种平衡可以允许子场景或区域之间具有不同程度的重新照亮能力,这可以被认为是类似的,尽管可能更粗略,但与通过子场景中的介元BLIF来平衡入射光和出射光的方式类似。
图1C至图1E示出了场景模型的各种实施例。该场景模型可以是外部照明场景模型,如图1C和1E所示,这意味着入射光流112存在于孔隙边界111处,从而向场景提供光。场景模型110可以可选地包含一个或多个发射对象114,如图1C所示,其中,发射对象独立于入射光流112向该场景发射光流。因此,该模型可以基于入射光流112和来自发射对象114的发射光流(如适用的话)两者来表示该场景中的介质。场景模型110可以可选地包含一个或多个响应对象113,如图1C所示,其中,响应对象响应于入射光流而提供响应光流或出射光流。
例如如果不存在孔边界111处表示的入射光流并且该场景中不存在发射光,则场景模型可以是单一场景模型或可重新照亮物质场120,如图1D所示。因此,单一场景模型可以表示在没有外部入射光的情况下的场景。当单一模型120完全没有光时,诸如图1D所示,该系统必须提供窗状光源或发射光源来照亮该场景(例如,当期望用于预测出射光的目的时,诸如渲染)。在这种实施例中,如图1D所示,单一模型120将表示在没有固有照明的情况下的该场景的光相互作用性质,使得最终的渲染表示与所提供的光源的相互作用。在一些实施例中,当单一模型120包括发射对象114时,场景本身中存在潜在的光源。在这种实施例中,可以仅使用发射光源来重建单一场景模型,或者可以使用发射光源和另一光源的组合来重建单一场景模型。
在一些实施例中,单一场景模型120可以被视为完全可重新照亮(例如,如果该模型可以消除从其构建该模型的原始图像数据中存在的入射光流112的影响),其中,可以通过确定表征该场景中的物质的立体、辐射和光相互作用特性的可重新照亮物质场来促进这种可重新照亮能力。在提供给定光场(例如,照明条件)之后,该模型可以重建将在这种光场中出现的物质场。在一些实施例中,场景模型110可以被认为不可重新照亮(例如,如果入射光112不能与该模型的物质场分离)、部分地可重新照亮(例如,如果入射光112可以与该模型的物质场部分分离)、或完全可重新照亮(例如,如果入射光112可以与模型的物质场完全分离)。可以通过根据本文公开的各种实施例执行光场和/或物质场重建(包括通过基于需要或偏好将这种重建执行到特定细节或分辨率级别)来影响可重新照亮的程度。
该场景模型也可以是光场模型130,如图1E所示。光场模型130可以表征场景内的光流。例如,光场模型130可以表征进入场景112的光流和/或流出场景116的光流。另外,光场模型130可以表征该场景内的光相互作用和流动,包括例如来自光与响应介质相互作用的响应光流和来自发射对象的发射光流。
尽管本文描述的本发明的实施例可以应用于各种情况以重建场景中的光场和物质场两者并且将这些重建一起输出,但本文描述的本发明的实施例的某些应用可能仅需要重建该场景中的光场。场景光场的重建可以允许观看不需要该场景中的物质的特定特性的场景。例如,如果本文描述的过程用于由自动驾驶汽车检测交通信号,则该应用的主要目标将是确定特定照明条件下的交通信号灯的状态。然而,物质场的特定特性(例如,交通信号灯本身的尺寸和形状)可能与最终应用无关。当然,存在能够独立地示意根据本文描述的本发明的实施例重建的光场来实现期望结果的许多应用。
类似地,本发明的一些实施例的应用可能仅需要重建该场景中的物质场,而不需要重建对应的光场。例如,考虑使用本文的过程进行重建的结果可以用于部件或组件的逆向工程或增材制造的情况。该应用可能仅需要与物质场相关的信息,并且具体地,仅需要该场景中一个或多个对象或该场景本身的尺寸和形状的模型。当然,存在能够独立地示意根据本文描述的本发明的实施例重建的物质场来实现期望结果的许多应用。
另外,可以通过重建可重新照亮物质场来增强一些实施例的应用。术语“可重新照亮”可以被理解为提供该场景中的物质的某些光相互作用性质,其非限制性示例包括与透明度、折射率、粗糙度、偏振漫射特性、非偏振漫射特性和/或消光系数等相关的特性。这些和/或其他性质的表征可以允许对物质将如何与除了从其重建该模型的图像数据中存在的光场之外的光场相互作用进行建模。另外,可重新照亮物质场的光相互作用特性可以与本文描述的本发明的实施例结合使用,以表征该场景中的物质的成分或物质性。例如,对于本文描述的重建技术被实现为创建用于元宇宙的模型的应用,准确且可用的模型可以优选地能够对元宇宙场景中的模拟照明条件进行响应,但原始光场可能无关。当然,存在能够独立地示意根据本文描述的本发明的实施例重建的可重新照亮物质场来实现期望结果的许多应用。本文描述的本发明的实施例还可以被配置为在单个场景内提供多种程度或不同程度的重新照亮能力。例如,在某些实施例中,可能希望场景的某些部分具有更高程度的可重新照亮能力(例如,Ackerson等人的美国专利公开2021/0133929A1的图73所示的反射罐),而场景的其他区域可能仅需要较低程度的可重新照亮能力(例如,Ackerson等人的美国专利公开2021/0133929A1的图73所示的场景的更接近视差或边界的墙壁、树或其他特征)。
图9和图10中示例性地示出了ML在广义场景重建(GSR)中的使用。图9示出了生成完全训练的机器学习系统的过程,该完全训练的机器学习系统可以被称为经训练的机器学习模型或TMLM。第一步骤901是提供用于训练的新场景图像。可以在许多场景和/或各种条件下拍摄感兴趣对象的用于训练的图像。示例性GSR系统可以在步骤902中分析该信息和/或其他信息,以在步骤903中生成每个场景的光场模型和/或重建该场景的一个或多个物质场。在步骤904中,可以采用物质场选择器函数从场景中提取感兴趣的对象。在一些实施例中,在步骤905中,这种处理可以生成包含几何(例如,形状)和BLIF信息在内的一个或多个可重新照亮物质场(RMF)模型。在步骤906中,这种模型可以用作机器学习系统的训练中的示例。尽管未示出,但在某些实施例中,可以改变BLIF参数以根据单个RMF模型来创建多个训练示例。步骤907的结果是TMLM。
图10示出了TMLM的示例性生产用途的图示。在步骤1001中,可以提供新场景的图像。在步骤1002中,GSR系统可以处理图像并且创建新的光场模型,并且在步骤1003中重建新的RMF。在一些实施例中,在步骤1004和1005中,物质场选择器函数可以用于提取该物质场的要处理(诸如用于识别)的部分。最后,在步骤1006和1007中,然后可以使用先前训练的TMLM来测试新RMF以生成有用的输出。
在一些实施例中,该系统可以使用以下项中的一项或多项来训练和使用TMLM:一个或多个物质场、一个或多个源光场、一个或多个窗状光源、以及一个或多个所捕获的图像,每个所捕获的图像可以可选地具有相关联的姿势信息。可以如本文所述(包括通过使用一个或多个神经网络)完成这种训练,以计算场景或子场景的光场。在一些实施例中,可以使用一个或多个模型来训练TMLM,其中,这些模型包括全光场、颜色的神经重建、强度、或与该场景相关的其他辐射信息、或包含其他信息的模型。TMLM的一些实施例可以应用基于物理的建模方法来单独地或与一个或多个神经网络结合执行光场重建。前述实施例可以允许TMLM基于TMLM的输入(在一些实施例中,其包括与一个或多个图像相关联的姿势)来创建、重建或以其他方式生成一个或多个图像。
在一些实施例中,可以使用体素网格或多边形网格来存储多维场景,但其他实施例可以避免使用前述网格中的任一种。具体地,在数据尺寸或所需处理方面,体素的存储成本可能很高,并且多边形网格通常仅可以表示硬表面。该系统可以使用定义一组空间和/或时间坐标的一个或多个场。在使用神经网络对一个或多个场进行建模的实施例中,这些场可以被称为神经场,或者在对3D空间进行建模的情况下,被称为神经图形基元。
在一些实施例中,光场物理模块可以用于对一个或多个介元与进入和/或离开这些介元中的一个或多个介元的辐射元之间的相互作用进行建模。本发明的一些实施例可以使用神经网络代替或结合参数函数来表示光相互作用。在一些实施例中,该系统可以使用正弦表示网络(SIREN)来纳入高频(纹理布局)。
尽管本文描述的系统可以使用参数化函数来表示场景中的光相互作用,但该系统可以以备选方式进行配置。光相互作用函数可能很复杂,并且参数空间通常是高维的。该系统可以可选地选择尝试学习并近似光相互作用函数的ML模型。能够提高这种ML模型的成功训练的一个方面是确保遵守与光相互作用相关的物理定律。本发明的某些实施例可以使用物理信息神经网络来确保这种遵守。该方法可以利用该系统的先验知识来修改损失函数,并且使用神经网络对未知的物理分量或特性进行建模。这些神经网络可以被配置为使用非线性激活函数来增加模型的表示能力。通过使用先验信息(诸如本文其他地方讨论的已知的光相互作用的物理性),该系统可以根据物理定律纳入附加约束。
存在用于将基于物理的建模纳入神经网络的多种方式,包括例如物理信息神经网络(PINN),具有物理约束的神经网络架构、将物理先验纳入损失函数、混合建模和残差建模。
参考图16,在使用PINN架构的实施例中,ML模型可以包括两个主要部分:全连接神经网络1602和残差层1604,它们都可以被设计为满足正在建模的系统的底层物理方程。在一些实施例中,PINN的输入可以是空间和/或时间坐标1601,其可以被归一化为0和1之间。全连接神经网络1602可以处理该输入以输出正在建模的系统的预测解1603。PI NN可以由具有非线性激活函数的若干隐藏层组成。
残差层1604可以应用于该预测解。残差层可选地被设计为确保该预测解满足该系统的控制物理方程。残差层可以对来自全连接神经网络的预测解关于输入坐标和时间的偏导数进行计算,并且强制执行控制预测解1603的物理方程。然后,残差层1605的输出可以与损失函数相结合,该损失函数可以包括数据约束(诸如已知的边界条件或初始条件)和物理约束(诸如守恒定律或其他控制方程)中的一者或两者。损失函数可以用于训练神经网络,以最小化预测解和观察数据之间的差异,同时仍满足底层物理性。
本发明的一些实施例可以在重建期间强使用PINN来制执行诸如对象刚度、对象连续性和/或对象运动不变性之类的物理约束。将这些约束纳入神经网络可以生成更准确和/或更鲁棒的输出模型。在一些实施例中,本发明可以使用PINN来提高场景重建过程的效率。例如,PINN可以代替或结合计算成本昂贵的算法(例如,用于求解偏微分方程(PDE)的算法)。PINN可以用神经网络近似一个或多个PDE的解,这可以显著减少场景重建所需的计算时间。
参考图20,本发明的一些实施例可以将基于物理的方法(例如,计算BLIF和/或其参数)与能够执行残差建模的神经网络相结合。在示例性实施例中,该模型的输入是入射数据(例如,光线)2001。该系统可以使用基于物理的模型2002,诸如计算BLIF来预测出射光强度2003。基于物理的计算可以被配置为计算到一定精度,这可以减少处理和/或功率需求。入射光场2001和/或基于物理的计算2002的结果可以被提供给神经网络2004,以进一步细化该输出,以便提高预测的光相互作用2005的预测性能和/或分辨率。在一些实施例中,使用能量守恒约束(例如,纳入损失函数中)可以改进神经网络训练。
参考图17,已经开发具有内置物理约束的一些神经网络架构。例如,神经汉密尔顿网络(NHN)架构被设计为遵守汉密尔顿动力学并且节约系统中的能量。NHN 1701的输入可以是该系统的状态变量(q,p),其例如可以表示粒子的位置和动量。神经网络可以被配置为基于输入状态变量1702来预测状态变量的时间导数。该神经网络可以是一个具有若干个隐藏层的全连接神经网络。
可以使神经网络的输出通过汉密尔顿层1703,该汉密尔顿层1703可以被配置为基于预测的导数来计算该系统的汉密尔顿动力学。汉密尔顿层可以计算预测的导数与表示该系统的底层物理性的雅可比(Ja cobian)矩阵的点积。这种配置将确保NHN的预测与该系统的底层物理性一致,并且能量随着时间的推移而保存。
汉密尔顿层1704的输出可以是下一个时间步长处的预测状态变量。这些预测状态变量可以用于针对系统或其他下游任务(诸如控制或优化)生成物理上合理的轨迹。
参考图18,该系统还可以被配置为将物理先验纳入损失函数中。神经网络1804的损失函数可以被修改以包括物理先验或约束。例如,在该系统被配置为接收输入1801、使用神经网络1802来处理该输入、以及生成预测输出1803的处理应用中,该系统可以将对成像系统的物理性的约束(诸如点扩展函数)纳入损失函数中。
参考图19,用于解决基于物理的模型的不完善性的另一种方法是残差建模。在该系统被配置为使用残差建模的情况下,ML模型可以学习预测由基于物理的模型1902产生的误差1905或残差。一些实施例可向物理模型1902和数据模型1903提供输入数据1901。该系统可以被配置为学习物理模型1902及其输出1904相对于观测值的偏差,并且使用预测偏差1905对物理模型的预测进行校正。由于这种方法对误差而不是基于物理的问题中的物理量进行建模,残差建模可以不强制执行基于物理的约束。因此,将残差建模与另一种形式的建模相结合以确保与物理定律的一致性可以是有利的。
在一些实施例中,该系统可以使用基于物理的建模和依赖于数据的建模的组合、或混合建模。混合模型可以利用两种方法的优点来提供准确的预测。
在一些实施例中,可以通过在训练神经网络时将一个或多个已知的微分方程直接添加到损失函数中来设计上述神经网络。在一些实施例中,可以通过对一组输入训练位置进行采样并且将样本传递到网络来完成该训练。网络可以计算网络的输出相对于其在一个或多个采样位置处的输入的一个或多个梯度。在一些实施例中,可以使用自动求导或类似特征来计算梯度,自动求导或类似特征存在于许多ML库(如PyTorch和TensorFlow)中。然后,该系统可以使用一个或多个梯度来计算底层微分方程的残差,该残差可以作为额外项被添加到损失函数中。
一些实施例可以使用类似的方法来预测场景中的一个或多个表面法线,包括至少部分地基于入射光场。使用经训练的ML模型可以能够克服模型中存在的误差源。例如,即使对于具有空气或空的空间的体积,也难以对模型中的误差进行建模,并且对于具有复杂或不均匀介质的体积,这种问题可能甚至更复杂。在这种情况下,该系统可以被配置为:使用神经网络来近似损失函数,然后使用已知的光物理性质在损失函数中添加附加约束。
在一些实施例中,本文描述的发明可以利用运动恢复结构(SfM)技术。SfM是一种用于3D场景重建的技术,其可以根据一组2D图像来估计场景的3D结构。SfM系统可以匹配图像中的点,然后使用该信息来估计诸如相机姿势和/或3D场景结构之类的数据。SfM可以用于重建来自各种源(包括照片、视频和LiDAR数据)的场景。
本发明的一些实施例可以利用多视图立体(MVS)技术。MVS是一种用于3D场景重建技术,其可以根据多个2D图像来估计场景的深度。MVS系统可以找到不同图像中的点之间的对应,并且使用该信息来估计该场景的3D结构。MVS可以用于从照片和视频重建场景。
本领域技术人员将理解,SfM和MVS有时被称为拍摄测量。本发明的一些实施例可以被配置为使用拍摄测量从航空照片、卫星图像和地面照片重建场景。
本发明的某些实施例可以利用来自LiDAR系统的数据。LiDAR是一种用于3D场景重建技术,其中,发射激光脉冲,并且可以用于通过计算光从该场景中的对象反射回该源所花费的时间来估计对象的位置。通过测量激光脉冲的飞行时间和角度,LiDAR可以生成该场景的点云,其可以用于重建该场景的3D结构。
在一些实施例中,本发明可以在做出初始假设之前使用其他数据来初始化数据结构,其中,这种图像数据可以是2D信息和/或3D信息。在一些实施例中,本发明可以使用3D数据集,诸如来自3D感测组件(诸如Kinect RGB-D(RGB和深度)相机系统、结构光、多视图立体、立体相机、LiDAR、雷达和/或红外传感器、拍摄测量软件、激光扫描仪、以及提供3D图像信息、同步定位和映射(SLAM)其他设备、以及其他技术、软件和技巧)的数据集。这种实施例可以接收3D输入信息,其中,例如,除了颜色信息之外,深度信息还可以确定每个像素相对于相机的3D位置。这种信息可以被表示为3D点云、体素阵列和/或其他数据存储结构。
在这种实施例中,该系统可以使用先前捕获和/或处理的数据来提供关于场景中的介质的相对位置的初始假设并且将对应的置信度值与这种数据进行关联。提供这种数据可以通过降低与填充该场景相关联的初始处理来提供有利的处理结果,或许提供更快的性能。举例来说,该系统可以与拍摄测量或其他技术结合操作,以便以相对较低的处理成本提供对象、子场景或场景的稀疏网格模型,然后执行本文描述的全光处理技术。本发明的实施例与这种系统的结合可以允许对该场景中的光和/或介质的相对位置进行其他可视化。在一些实施例中,ML模型可以技艺光场信息(诸如入射和/或出射辐射元树)进行训练,作为一种用于加速识别场景内的介质和/或表面的手段。作为非限制性示例,朗伯表面的某些出射光场可以具有圆盘形状的伪影。该伪影可以表示特定表面的表面法线周围的余弦衰减,这可以加速对适用的表面法线的识别。
在某些实施例中,本发明可以与人工智能(AI)、机器学习(ML)和神经网络(包括神经辐射网络,诸如神经辐射场(或NeRF)、立体场景方法(诸如PlenOctrees或Plenoxels)、深度有符号距离函数(SDF)和神经体积)或其他技术结合、并行使用、由上述项补充、或以其他方式全部或部分地使用上述项来实现。这种方法可以用于场景重建、新视图合成(NVS)和其他用途,以使用多层感知器(MLP)或体素(诸如体素阵列)将辐射、密度或其他信息建模为3D空间(诸如立体空间)中的连续函数。例如,给定空间中具有3D坐标(x、y和z)的位置和观看方向,该表示将返回该位置处的颜色(红色、绿色和蓝色)和密度。深度SDF系统可以被配置为学习3D空间中的有符号距离函数,其零水平集表示2D表面。神经体积系统可以被配置为神经图形基元,其可以通过全连接神经网络进行参数化。NeRF系统可以被配置为对场景的颜色和密度进行建模。其他实施例使用备选输入和返回信息进行操作。在某些实施例中,所返回的密度可以是差分不透明度值,其部分地或全部包括对辐射的估计值和其他信息(诸如能够由通过指定点的指定方向上的射线累积的颜色)。
在一些实施例中,可以使用随机值来初始化这种表示。一开始,任何指定的点和方向都可能返回无意义的值。然后可以使用来自各种已知视点的校准图像(例如,来自真实或模拟场景上方的半球上的随机位置的几百个图像)或其他图像相关信息来训练示例性系统。在一些实施例中,可以通过选择训练图像中的一个或一组像素来发起该过程。对于每个像素,网络可以发射从该视点到该场景中的射线。然后,网络可以对沿该射线上的某个数量的点(例如,50、100、200个点或针对该查询选择的任何其他数量的点)执行查询或其他过程。可以以各种方式选择这些点。在一些实施例中,网络或其部分可以执行“积分渲染”操作来计算沿投影射线的返回颜色或其他值,并且以某种方式对这些值进行积分以计算该像素的估计颜色或其他信息。在一些实施例中,例如,当使用随机值来初始化网络时,这种颜色值将与真实颜色无关。在某些实施例中,网络可以计算估计颜色和真实颜色之间的差异的表征(例如,颜色分量差异的平方和)。该差异可以用于使用反向传播来修改MLP权重或立体信息。在一些实施例中,前述过程可以迭代以允许越来越准确的估计颜色或其他值。
在一些实施例中,前述过程可以在一定程度的“学习”之后生成具有高度真实感的新视点。例如,这可以通过AI(诸如收敛场景内的估计颜色值)来实现。在本领域已知的某些过程中,使用神经辐射网络或立体表示来生成新视点图像可能需要大量处理和/或时间。某些查询或许可能需要针对该射线上的每个点进行的500,000到1,000,000次乘法和/或其他运算。某些先前系统可能需要30秒或更长时间在强大的图形处理单元(“GPU”)(诸如NvidiaV100)上生成单个800像素×800像素的图像。
已经开发了若干种方法来减少使用这些方法来生成图像所需的时间、计算、成本和功率。在一些实施例中,部分训练的系统可以用于生成被称为PlenOctree的八叉树,其是与“全光八叉树”不同的数据结构。在这种实施例中,该系统可以通过对沿该射线的点处的PlenOct ree进行采样而不是通过使用MLP来生成像素值。这种实施例可以将性能提高两个、五个或更多个数量级。本发明可以被实现为进一步减少从八叉树数据结构生成像素值所需的计算和硬件,同时提高性能。
在一些NeRF架构中,可以使用单个神经网络来预测该场景中的3D点的颜色和密度。在一些架构中,可以使用单独的网络来预测不同的性质。例如,可以使用单独的网络来学习材料性质,诸如反射率、粗糙度或透明度。这些网络可以被配置为预测场景的不同部分的材料性质,并且可选地可以与颜色和密度预测相结合以渲染场景的图像。在一些实施例中,该系统可以使用两阶段方法进行配置,其中,使用单独的网络来预测场景的形状和材料特性,可以组合这些形状和材料特性以生成最终的渲染。
然而,基于NeRF的架构可能存在一定的局限性。例如,这种网络可以具有:有限的可扩展性,需要大量的训练数据来捕获真实世界场景的外观和照明的变化;有限的一般化,其中,该方法可能严重依赖于训练数据的质量和多样性,并且可能无法很好地推广到与训练数据显著不同的场景;有限的准确性,其中,可能存在误差和/或伪影,特别是在该场景的被遮挡或照明不足的区域;以及由于NeRF的隐式性质而对输出的有限控制,这可能导致难以控制输出的特定性质,诸如该场景中的对象的精确位置或取向。将基于NeRF的方法与本文描述的系统结合使用可以解决这些限制中的一个或多个。
在一些实施例中,本发明可以通过将平面拟合到相邻表面元素来生成表面法线矢量。这种表面法线矢量可以用于处理操作,可选地具有空间和颜色信息。
本发明的某些实施例可以使用ML来重建场景中的光场,包括在一些情况下构建该场景中的光场和物质场的相互作用的物理模型。在这种实施例中,该系统可以对能够有助于由相机像素或另一成像设备感测的光的组件进行解耦。该数据可以用于确定该场景中的物质和对象的特性,包括非朗伯表面(例如,人体皮肤、布、镜子、玻璃和水)。在一些实施例中,某些表面信息可以表示成对象上的一个或多个感测位置(并且可选地,对象上的所有感测位置)的双向光相互作用函数(BLIF)。感测位置可以包括由相机或成像设备的各个像素捕获的位置。本发明可以使用BLIF和基于BLIF的建模来扩展诸如双向反射分布函数(BDRF)和/或余弦叶反射模型之类的构思,以通过包括涉及颜色、材料、粗糙度、偏振等的光/物质相互作用来开发更高水平的复杂程度。
在一些实施例中,该处理可以与关于该场景中的物质的相对位置的其他数据结合使用。例如,本领域已知用于提供粗略、精细或高精度的三维信息的多种技术,包括拍摄测量(例如,通过如COLMAP或Met ashape之类的软件封装)、结构光、多视图立体、LiDAR、雷达、红外线、激光扫描仪、同时定位和绘图(SLAM)以及其他技术和技巧。ML模型可以被配置为使用图像数据与其他数据(诸如仅从图像数据中不容易看出的信息或比仅从图像数据中可获得的信息更好的信息)的组合来对该场景中的介质的性质做出假设。然后可以使用这种假设来加速对该场景的全光场的处理。例如,这种假设可以允许该系统预测与该场景中的介质相关联的光相互作用特性(其中在执行该场景中的光的重建之前将这种假设作为假设提供给处理器),提供光相互作用所依据的更新假设集,或者对处理工作流进行重新排序以匹配该场景中的预测介质。
在一些实施例中,该系统可以被配置为使用原始点云数据(诸如可以由LiDAR提供)对3D场景/对象进行分类。例如,该系统可以使用诸如PointNet(全局特征)或PointNet++(局部特征)之类的方法,这些方法使用原始笛卡尔点数据来执行分类和分割任务。该系统可以被配置为对每个点使用MLP层并且使用对称函数来处理排列方差。该系统还可以被配置为使用可重新照亮物质场(RMF)数据,包括与全局和/或局部特征提取器结合使用可重新照亮物质场(RMF)数据。
本发明的一些实施例可以实现NeRF自监督对象分割(NeRF SOS)或类似的处理方案,以使用潜在表示来执行下游对象识别、对象分割和/或其他任务。在一些实施例中,RMF数据可以用作场景的潜在表示,并且用于下游任务,诸如对象识别和/或分割。
本发明的某些实施例可以利用AI和/或ML来执行诸如对象分类之类的活动。现有技术系统通常基于作为训练输入的图像来执行对象分类,但这种系统的性能通常取决于训练数据的质量和范围。例如,在正常条件下训练的交通信号检测模型可能没有足够的鲁棒性来解决困难的照明条件(例如,太阳位于交通信号灯后面或前面)和/或恶劣的天气条件(例如,雪、雨或雾)。
本发明的某些实施例可以包括提取感测表面的BLIF参数(直接测量或数学模型)的能力。这种提取的BLIF参数可以用于为新情况构建新的光场模型,在一些实施例中,这可以允许该系统对光与表示具有不同照明的新场景中的对象或材料的重建物质场的相互作用进行建模。因此,在某些实施例中,该系统可以包括在各种照明条件下(并且优选地,在几乎任何照明条件下)生成物质场的真实感渲染(其被称为“重新照亮”)的能力。在这种实施例中,重建的物质场变成可重新照亮物质场(RMF),其可能已经大幅提高表示鲁棒性和/或支持应用中的改进的真实感水平。
本发明的一些实施例可以在场景中的对象的表面上的观察位置处使用以BLIF形式的感测材料“签名”,以代替和/或结合3D ML系统(卷积神经网络(CNN)、NeRF等)中的感测颜色信息。在这种实施例中,ML系统的训练模型可以包含关于具有和/或不具有场景照明的相互作用的观看对象的基本表面材料和特性的信息。在应用这种训练模型时,本发明的某些实施例可以允许减少必须从真实世界获得以进行有效训练的照明和场景情况的数量,和/或允许通过改变单个对象模型中的一个或多个BLIF参数来合成生成新的训练模型,以考虑对象在生产使用时能够遇到的各种特性(例如,颜色和/或表面条件)。在本发明的一些实施例中,这种签名可以简化2D ML系统的训练和使用。通过获得包括BLIF信息的真实世界对象的3D模型,可以通过从各种视点渲染模型和/或适当地改变照明和BLIF参数来合成生成2D训练数据集。在这种实施例中,该系统可以用于向TMLM提供大量训练或合成数据集。
在一些实施例中,该系统可以使用可重新照亮物质场数据进行对象类型分类。在示例性结构中,该系统可以使用基于CNN的架构和/或基于变换器的架构。CNN的节点可以被视为序列,并且馈送到基于自注意力的模型中,如图15所示。在图15所示的实施例中,可重新照亮物质场1501的模型可以用作模型1502的输入。模型1502可以包括基于深度学习的模型fθ,其可以针对参数θ进行训练。模型1502可以是顺序的、基于卷积的或多层感知器。模型1502可以被配置为创建输出1503作为分类、形状完成(例如,经由ShapeNet)或另一输出参数。对于存在不同尺寸的实施例,基于变换器的模型可以是一种有效方法(例如,通过将提交划分为多个体素并且将体素视为序列)。对于训练该系统以执行形状完成(其可以涉及预测场景中的一个或多个对象的体积)的实施例,还可以利用基于变分自动编码器(VAE)和/或生成式对抗网络(GAN)的架构。
在一些实施例中,该系统可以执行图像绘入和/或图像绘出。图像绘入可以预测图像的损坏、遮挡或缺失部分的状态。图像绘出是生成超过原始图像的边界的新图像内容。该系统可以使用与这些技术相关联的任何数量的已知方法。
在一些实施例中,该系统可以使用生成式对抗网络(GAN),包括用于图像绘入任务。GAN可以学习图像数据的底层分布并且生成新的图像。GAN可以使用生成式和鉴别式网络来获得良好的视觉效果。可以训练生成器来填充缺失像素,并且可以训练鉴别器来区分所生成的图像和真实图像。
本发明的一些实施例可以使用自动编码器。自动编码器可以包括编码器网络和/或解码器网络。编码器网络可以被配置为将输入图像压缩为低维表示。解码器网络可以被配置为从压缩表示重建图像。在图像绘入中,可以训练编码器网络来对损坏图像进行编码,并且可以训练解码器网络来填充编码表示中的缺失像素。
本发明的某些实施例可以使用深度图像先验。深度图像先验可以使用随机值来初始化深度神经网络的权重,并且优化权重以最小化所生成的图像和输入图像数据之间的重建损失。通过优化权重,网络可以学习以生成与输入图像数据一致的合理图像完成。
在一些实施例中,该系统可以执行各种任务来重建3D点云的缺失或损坏部分。例如,以与使用图像的方式类似的方式,可以训练GAN来学习点云数据的分布。一种这样的方法是PCGAN,它使用条件GAN来生成输入点云中的缺失点。在其他实施例中,可以使用编码器-解码器架构,诸如U-Net或PointCNN。U-Net或PointCNN架构可以包括将输入点云映射到低维特征空间的编码器以及将特征映射回重建点云的解码器。一些方法还可以将注意力机制纳入编码器-解码器架构中,以更好地捕获局部结构和全局结构。一些实施例可以使用条件可逆神经网络或PI-NeRF(例如,通过使用点云绘入网络填充输入视图中缺失点,然后使用NeRF从完成的视图重建该场景)。
在该场景的缺失部分在输入图像数据中不明显的情况下,针对所生成的3D场景进行直接绘入可能更可行。一些实施例可以被配置为学习场景中的体素的分布并然后预测缺失/损坏部分的占用值。例如,3D-GAN可以通过训练条件GAN以在给定的不完整或损坏输入的情况下生成完整的基于体素的3D场景来绘入缺失体素。
在一些实施例中,该系统可以预测缺失或损坏部分的材料特性和光特性。该系统可以被配置为学习两个分布函数:用于物质场的分布函数和用于光场的另一分布函数。
本发明的一些实施例可以使用交替优化,即,用于通过对各个参数子集交替进行受限优化来针对所有参数联合优化某些函数的迭代过程。例如,如本文其他地方所述,该系统可以被配置为计算与BLIF和/或表面法线相关的参数。这些计算本质上可以是非凸的,这意味着不能保证收敛,并且可能存在最小化某些局部最小值的有效处理的风险。在联合优化无效或不这样做是有利的情况下,该系统可以使用备选优化来执行光场和/或物质场重建。与联合优化相比,备选优化在一些情况下可以改善优化时间,并且在一些情况下也可以更好地绕过局部最优值。
一些ML模型的一个问题是,这种ML模型可能基于训练数据中存在的学习统计数据或模式进行处理或做出决策。由于ML模型的训练和推理高度依赖数据,因此数据不一致或不准确可能对输出生成不利影响。在一些实施例中,该系统可以被配置为对一个或多个ML模型施加某些限制、公式或其他约束。例如,该系统可以强加始终遵循自然法则的光场物理定律的一些公式。备选地,该系统可以配置ML模型,使得该系统可以结合经由神经网络的处理使用常规光物理性来执行参数建模。
在一些实施例中,该系统可以将物理约束纳入ML模型中以提高该模型的可说明性。例如,如果模型被设计为结合物理运动定律来预测球的轨迹,则它可以辅助以有助于使系统更易于说明的方式约束该模型的预测。通过包括与光物理定律相关或表征光物理定律的约束,可以与本文描述的模型一起使用类似的方法。
本发明的某些实施例可以使用基于物理的模型来说明ML模型。例如,基于物理的模型可以用于解释神经网络的输出和/或说明神经网络做出某些预测的原因。该基于物理的模型可以帮助识别驱动模型预测的关键特征或输入。在场景或光场重建的上下文中,基于物理的模型可以辅助识别和提供有助于特定重建输出或结果的特定辐射元、节点或其他数据的特性。
本发明的一些实施例可以使用基于物理的模拟来验证ML模型。这种实施例可以将ML模型的预测与基于物理的模拟的结果进行比较。这些比较可以辅助识别模型可能不准确或有偏差的区域和/或提高模型的准确性和/或可靠性。例如,该系统可以被配置为使用未由ML辅助或仅部分地由ML辅助的重建方法的输出作为与基于机器学习的方法的输出的比较。
在一些实施例中,该系统可以将基于物理的模型与ML模型相结合。该结合可以生更易于说明的成一个或多个混合模型。例如,基于物理的模型可以用于针对ML模型生成初始条件或约束,或者ML模型可以用于细化对基于物理的模型的预测。
本发明的一个优点是它能够以对现有模型进行逆向工程的方式进行配置。尽管诸如NeRF之类的传统技术可以用于重建场景,但重建不一定是“可解构”和/或“可重建”技术,因为这种技术不能用于对已经存在的3D模型进行逆向工程。
在一些实施例中,本发明可以结合基于物理的方法并入一种或多种非基于光物理的技术(例如,LiDAR、MVS、SfM、拍摄测量等),以实现更好的可解构性和/或可重构性。在基于ML的方法的示例中,目标可以是学习场景中的物质场和/或光场。该系统可以被配置为生成具有对图像的各个方面(诸如主体的姿势、表情和外观)的精细粒度的控制的高分辨率图像。例如,本发明的一些实施例可以被配置为使用Style GAN,其被配置为使用“样式”矢量。这种矢量可以控制所生成的图像的各种性质,可以在训练过程期间进行学习,并且可以被操纵以生成具有不同样式的新图像,以丰富重新照亮场景的生成能力。以类似的方式,本系统可以被配置为生成光和材料性质的潜在变量,这可以帮助改善场景的可解构性和/或可重建性。
本文描述的系统可以被配置为以可解构和/或可重建的方式重建场景。例如,该系统可以被配置为将场景(或子场景、对象等)分解为部分,这可以使用诸如分割或聚类之类的技术来手动或自动地完成。在一些实施例中,可以使用诸如立体视觉、运动恢复结构之类的技术或其他技术来单独地重建一个或多个部分。部分可以合并在一起以形成完整的重建。该系统的一些实施例可以注入物理性质以增强过程的鲁棒性。例如,该系统可以识别对象的核心单独部分,并且尝试表征包括这些部分的物质的基本性质。在构建每个部分的模型之后,每个部分可能仍然保留该对象的可解构物质性质。
本发明的一些实施例可以使用分层神经网络(HNN)来实现不同的准确度。HNN可以具有多层神经网络的堆叠。每个层可以被配置为从输入数据学习越来越复杂的特征和模式,从而允许HNN实现更高的准确度。初始层可以用于学习低级特征。取决于所期望的精度,后续层可以使用不同的堆叠。
HNN的另一种方法是使用树结构网络,其中,树中的每个节点对应不同级别的抽象层。这种配置可以允许网络基于输入数据的复杂度来选择性地激活网络的不同部分。这种结构可以提高效率和/或减少训练所需的数据量。网络中的每个节点可以对应于不同级别的分层数据结构,其中,较低级节点表示较小的体素,并且较高级节点表示较大的体素。网络可以学习基于输入数据的复杂度来选择性地激活数据结构的不同部分。
该系统还可以被配置为计算距离函数来评估表面模型,包括例如偏振表面模型。这种距离函数可以具有多种用途,包括用于测试模型(即,场景或子场景的重建)与其他模型配置(例如,本行业已知的其他模型,诸如通过虚幻引擎(Unreal Engine)5)的兼容性。该系统可以被配置为使用统计比较方法来确定该模型与另一模型配置之间的一致性。
在一些实施例中,距离函数还可以用于开发如本文其他地方所述建模的介质和/或光相互作用的一个或多个段或组。距离函数还可以用于比较多个(例如,两个)不同的参数空间或相同的参数空间,并且可以以欧几里得方式(例如,在相同的参数空间中)、非欧几里得方式(例如,在不同的参数空间中)或这两者的某种组合来完成。例如,距离函数可以用于平面形式空间(例如,使用虚幻引擎5)以在该空间和不同的参数空间之间进行映射。例如,如果使用表示场景中的光场和物质场两者的全光参数空间来创建模型,则距离函数可以通过提供每个模型内的相对点之间的距离来促进转换为平面形式空间。
在一些实施例中,本文描述的发明可以可操作以实现某些目标,这些目标可以是在该系统中设置的、由用户指定的、由该系统在处理期间确定的、响应于条件或一些其他因素而做出的,包括前述项的任何组合。说明性实施例是当本发明被操作以表征交通信号灯的状态时,如本文其他地方所述。在自动驾驶汽车或高级驾驶员辅助系统的上下文下,这种表征可能需要识别交通信号和了解信号的状态两者,所有这些都需要足够提前完成,以便该系统做出关于减速、停止、或不减速、不停止的决策,这是一个挑战。本领域技术人员可以认识到与表征交通信号灯的状态相关联的某些挑战。例如,交通信号灯存在很少的标准,这导致堆叠和取向(例如,水平、竖直、并排和其他变化)、颜色(例如,所使用的颜色的变化)、灯泡的类型(例如,白炽灯和LE D)和信号灯的其他特征(例如,红灯不总是位于信号的顶部处)存在显著差异。颜色检测可能更具挑战性,因为红色和黄色在色谱中很接近,而绿色在窄频带内。环境因素也可能造成问题(例如,如果太阳在交通信号灯后面,则交通信号灯处于阴影中并且造成过度捕获;如果太阳直接在观察者的后面,则交通信号灯中的光线被冲淡)。当考虑结构、灯光颜色、额外组件、以及世界其他国家中存在的灯光顺序时,挑战可以变得更加复杂(例如,美国地区通常使用绿色、黄色、红色并然后回到绿色的顺序,而英国通常使用绿色、黄色、红色、黄色并然后回到绿色的顺序)。
本领域技术人员可以认识到某些已知方法,诸如通过首先分析美国最常见的配置之一(例如,从上到下为红灯、黄灯和绿灯的三层堆叠交通信号灯)来缩小问题空间。然后,分析可以继续以扩展用于构建ML模型的数据集,以包括尽可能多的角度变化、修复的状态、光色范围、灯泡类型(例如,白炽灯在模型中可以是白色,然后在模型之外是适当颜色)和环境变化,如上所述。可以使用合成生成的图像来增强数据集,以模拟不同的太阳位置并且解决在自然界中捕获时发现的不平衡问题(例如,由于黄色通常是持续时间最短的信号,因此黄灯较少)。执行前述操作可以导致产生与创建平衡的适当变化集相关联的大量数据和/或高成本。
在一些实施例中,本文描述的发明可以提供交通信号灯的模型,例如作为具有交通信号灯对象周围的边界的体素场。这种模型可以包括可重新照亮物质场,使得模型已经移除与该信号灯相关联的入射光场的至少某个部分。在一些实施例中,与该模型相关联的唯一光可以是由信号灯本身发射的光。这种模型可以可选地与采用由发射光状态标记的全光模型的监督训练方法结合使用。该系统可以被配置为可操作以捕获并重建未照亮的场景,包括某种状态下的可能交通信号灯,其可以用于对模型进行推断。
在一些实施例中,本文描述的发明可以使用基于图像的机器学习来构建机器学习模型。基于图像的机器学习可以包括收集主体的示例并且捕获尽可能多的变化的图像(例如,对于交通信号灯,变化可以包括照明状态、类型和环境条件(诸如照明、天气、质量、位置等)中的每一种)。本发明的实施例可以被配置为使用主体本身的全光场景重建以可重新照亮的方式构建主体(例如,交通信号灯)的模型,消除任何外部影响,使得该场景中的唯一光可以是从主体本身发射的光(例如,交通信号灯中的照明光)。例如,该模型可以是单一子场景,其中,体素边界围绕交通信号灯且没有光线进入子场景。在这种情况下,子场景中的唯一光可以是由交通信号灯发射的光以及由于该发射光而产生的下游响应光。
该系统可以收集捕获的全光子场景主体(例如,交通信号灯)的各种集合,以允许ML模型了解主体的形状和类型(例如,它是交通信号灯,它的灯光特性,它的形状(三层堆叠,五层堆叠等),交通信号灯透镜的类型和颜色,每个灯泡的发射状态、以及其他特征)。在一些实施例中,在每种可能状态下具有平衡数量的主体对象可以是有利的。本发明的一些实施例可以可操作以生成附加全光子场景表示,例如通过包括改变表面质量、位置方面和发射特性。
本发明的一些实施例可以通过提供与每种类型的主体及其可能的状态相关联的一个或多个标签来使用机器学习模型的监督训练。在交通信号灯的情况下,标签可以以各种排列方式表征发射红光的对象、发射黄光的对象、发射绿光的对象等。标签可以手动地完成,或者可以在捕获或生成时生成。可以在所有场景子重建对象都被标记之后构建机器学习模型。备选地,一些实施例可以使用自我监督训练方法,其中,代替生成标签,机器学习训练方法发现主体的正确类别或状态。采用全光场景重新捕获方法可能更有可能实现自我监督训练。例如,在交通信号灯的情况下,与根据图像源的传统方法相比,颜色透镜和从哪个交通信号灯发射更易于计算。
一些实施例可以获得新的主体,将该主体处理为全光子场景对象(例如,可重新照亮物质场),并且将全光场景对象应用于机器学习模型。这种应用可以具有多种目的,例如推断或确定主体所处的类别或状态。在交通信号灯的情况下,给定从可重新照亮物质场训练数据构建的机器学习模型,表征交通信号灯的新可重新照亮物质场可以按照其被点亮的灯进行分类。
该方法存在若干个潜在的优点,包括例如解决不利的环境照明问题(例如,通过计算可重新照亮物质场,消除外部/入射光的影响),更好地表征发射光源的质量(例如,通过提供信号的发射光质量的模型以更紧密地匹配真实世界观察结果),检测或表征交通信号灯透镜材料(例如,确定与透镜相关联的颜色),检测灯泡发射(例如,光过滤器后面的发射,这可以有助于确定颜色),求解发射源(例如,在白炽灯、LED、卤素灯等之中确定灯泡的类型),消除天气影响(例如,信号灯上的水或冰,降水导致成像困难),以及避免单独的模型分类类别(例如,通过求解所检测的潜在信号是实际信号还是诸如反射之类的伪影)。
更具体地,本文描述的方法的潜在优点是求解主体中存在的不同光源(例如,交通信号灯中的灯泡的类型)。在交通信号灯的情况下,光源可以是位于彩色和/或纹理透镜后面的白炽灯泡、可选地位于透镜后面的LED光源、位于透镜后面的卤素光源等。在一些情况下,灯可以具有初始过滤器(其使光源散射)和光滑或纹理透镜(用于保护和/或更好地发光)中的一者或两者。在前述类型的灯泡中,由于光源、透镜或其他变体的质量下降,所发射的颜色的频率和质量可以有很宽的范围。例如,在白炽灯泡位于彩色透镜后面的情况下,在中心发射的光往往更白,而该中心之外发射的光的频率发生变化。这种变化可以导致难以区分红色交通信号灯和黄色交通信号灯。这种变化可能需要开发更大机器学习模型和/或附加光类型类别来处理准确的推理。本文描述的本发明的实施例可以通过使用全光子场景重建直接处理透镜、任何附加过滤、变化的光源、以及变化的颜色范围和发射质量来解决这些缺点。本文描述的本发明的实施例可以使用全光物质和光场重建来理解和/或处理透镜和任何过滤。例如,本文描述的实施例可以理解发射的光的颜色如何以及为何可以从中心变化,例如,通过光场处理对发射光的物理性进行编码。
更具体地,本文描述的方法的一个潜在优点是将交通信号灯与交通信号灯的反射(诸如建筑物或其他车辆的窗户的反射)或者与金属卡车拖车的闪亮表面(如侧面)的反射区分开。在针对该问题的已知方法中,对于各种材料中反射的所有不同状态的交通信号灯,反射可能需要要添加到机器学习模型的新类别,其目的是从实际信号中筛选反射。这种方法可能有问题的和/或成本过高。本文描述的方法可以通过将玻璃或其他反射材料理解为反射表面来基本上解决这些问题。全光重建可以允许该系统理解该场景中的材料,如建筑物上的玻璃或车辆的闪亮表面等,从而无需将类别添加到机器学习模型以处理反射。
另外,本发明提供可重新照亮模型的本文描述的实施例可以可操作以创建和/或提供用于训练的合成图像数据集,包括作为光独立模型。这种合成数据集可以有利于区分红色或黄色玻璃或塑料盖(其在一些情况下可以具有相似的光特性)后面的白炽灯泡。
本发明的一些实施例可以可选地包括用于执行广义场景重建(GS R)和/或该系统的其他功能的人机界面。
在本发明的某些实施例中,场景的重建(包括使用GSR)可以经由图形用户界面、命令行界面运行、音频输入(包括语音识别)或计算设备上的其他输入来执行,该计算设备可以包括便携式计算设备、个人计算机、服务器、移动电话、增强现实或虚拟现实设备、无人驾驶飞行器或其他车辆、或其他数字设备。在一些实施例中,该界面可以提供导入或构建光场和物质场的近似值(在下文中被称为预场景)的能力,以便稍后进行重建。在这种实施例中,该起点可以提高重建处理的速度和/或避免误差。本发明的一些实施例可以提供原始形状、常见对象和数字生成的光或以其他方式使其可访问来构建预场景。当使用移动设备时,本发明的某些实施例可以为用户提供如下选项:将光和物质放置在与设备的物理位置相对应的位置处,同时物理地穿过要被重建为预场景的一部分的场景。在一些实施例中,预场景还可以由先前重建组成,这些先前重建可以可选地使用新场景数据进行更新。例如,预场景可以完全更新、仅在光场中更新、仅在物质场中更新、仅在指定区域中更新、或前述项的任何组合。
在本发明的某些实施例中,人机界面可以提供对用于获得图像的感测设备的控制。例如,可以允许用户在捕获开始之前改变设备设置和/或查看预览视频馈送中的潜在图像输入。在一些实施例中,人机界面可以显示所选预场景的覆盖层,并且仅在预场景与预览视频馈送大致对齐之后才允许用户开始捕获。在这种实施例中,该系统可以被配置为在空间上捕获该重建的预览。在捕获期间,人机界面还可以显示来自每个输入设备的持续视频馈送。如果来自感测设备的输入被暂停,则人机界面可以在输入恢复之前要求和/或辅助预览视频馈送和重建预览的现有部分之间的对齐。
在本发明的某些实施例中,人机界面可以在捕获期间提供重建的实时预览,并且随着每个传入图像或视频帧进行更新。如果正在使用预场景,则该重建预览可以包括该预场景。视频馈送可以显示在屏幕的一个或多个区域中,而实时预览可以显示在屏幕的一个或多个其他区域中,从而允许比较视频馈送和重建预览。实时预览可以显示整个光场和物质场,如图12A所示,或者仅显示光场和/或物质场的一部分(诸如小区域中的BLIF),如图12B所示。分析信息可以叠加在相机馈送显示器上和/或实时预览显示器上,包括与设置参数(诸如分辨率)相关的假彩色和/或关于与屏幕上的一个或多个区域相关的BLIF的信息。在本发明的某些实施例中,可以通过旋转、平移和/或缩放来随意地导航该重建的实时预览。
本发明的一些实施例可以以一种或多种配置来布置视频馈送1101和重建预览1102。在一些实施例中,视频馈送1101和预览1102可以包括点、棋盘格或其他形状的剪贴蒙版,其可选地具有可调整的尺寸并且可选地布置成规则网格,在显示视频馈送的背景层上方显示重建预览,其中,这两者在空间上对齐并且被渲染到相同的观看角度,如示例性图11和图12所示。在一些实施例中,视频馈送和预览可以包括可调整尺寸的不规则形状的剪贴蒙版,其可选地随机布置,显示重建预览的全部或一部分和/或显示视频馈送的背景层上方,其中,该蒙版和层在空间上对齐并且渲染到相同的观看角度。在一些实施例中,视频馈送和预览可以包括自适应剪切蒙版,该自适应剪切蒙版在显示视频馈送的背景层上方显示重建预览的指定特征,其中,该蒙版和背景层尽可能地对齐。在一些实施例中,视频馈送和预览可以包括矩形窗口,该矩形窗口在显示视频馈送的背景窗口上方显示重建预览,其中,预览和背景窗口最大程度可能地对齐。
在一些实施例中,如图12A和图12B所示,重建预览和视频馈送可以被设计为允许用户导航重建过程,而无需先前使用3D软件进行训练。本发明的某些实施例可以使重建预览(可选地包括预场景)和当前相机馈送之间的差异非常明显,诸如通过在预览和实时捕获之间使用棋盘格、点图案或其他交错图案。在一些实施例中,该实现可以使重建误差和滞后更加明显。在这种实施例中,用户可以能够注意到场景中的自先前重建以来已经改变的区域,其中,先前重建可以包括或包含预场景。在一些实施例中,本发明可以提供关于误差和滞后的信息,这可以为用户提供与捕获场景的全部或一部分的速率相关的反馈,从多个角度观看该场景的区域,或者执行另一动作以获得关于场景的全部或一部分的附加信息。在一些实施例中,该系统可以便于用户在完成捕获过程之前了解重建是否足够准确。例如,如图12A和图12B所示,预览可以被设计为使得:随着该重建的保真度在捕获期间提高,实时捕获和预览之间的差异减小,包括达到实时捕获和预览之间几乎没有或没有明显差异的程度。
在本发明的某些实施例中,用户可以接收反馈以指导1301用于通过从尽可能多的角度捕获所选介元来细化双向光相互作用函数或BLIF重建的过程。图13中描述了这种BLIF捕获指导1301的示例性实施例。在本发明的一些实施例中,BLIF捕获指导1301将在视频馈送和/或重建预览上显示球形增强现实覆盖层。当用户在真实空间中围绕介元的对应位置移动并从各种角度观看该球形覆盖层的部分时,该球形覆盖层的部分可以可选地改变(例如,通过消失、改变颜色、或进行其他可见的改变)。由此,该覆盖层可以辅助用户确定已经观看的角度的数量。
在本发明的某些实施例中,人机界面可以提供一种用于在捕获期间创建要读取的程序的手段,该手段可以可选地指导用户和/或自动化设备的行为。例如,程序可以包括重建过程的目标,诸如光场和/或物质场的期望分辨率、重建的期望确定性阈值、和/或消除所捕获的信息中的间隙的目标。该程序还可以包括用于对在输入捕获期间遇到的触发器进行响应的功能。触发器可以包括指定的物质场和/或光场结构、时间的推移、和/或由传入信息生成的模型中的不确定性水平的变化。当遇到这些触发器时,软件可以改变其显示配置,将能够使用增强现实进行定位的覆盖层添加到其显示器,播放音频提示或口头指令,改变重建目标、和/或改变任何连接设备的设置。在本发明的一些实施例中,用户可以使用图形用户界面中的基于节点的程序编辑器将触发器链接到其对应的功能。在本发明的一些实施例中,用户还可以通过在预场景中画线或者通过沿着物理空间中的期望路径移动捕获设备来创建要用于指导未来捕获过程的路径。在一些实施例中,触发器可以被设计为使得增强系统对用户的可用性或可访问性。
在本发明的某些实施例中,人机界面能够渲染并显示已完成的重建。在一些实施例中,除了真实视图之外,显示还可以包括分析可视化。在一些实施例中,一个或多个介元、辐射元、体素和萨埃尔可以被渲染为以一个或多个位置为中心的较小的原始形状。可以根据能够随着介元或辐射元而变化的任何性质(其可以包括z深度、环境光遮蔽和/或分割)来应用假彩色。BLIF可以根据所产生的出射光进行渲染,或者被替换为默认BLIF以提供场景中特定几何图形的统一视图。在一些实施例中,辐射元的路径可以被追溯所指定的反射次数,并且可选地将其可视化为覆盖层。在一些实施例中,用户可以以与其设备相对应的方式在场景中移动渲染相机的视点,诸如在桌面上滚动和单击或者戴着VR头戴式耳机行走。
在本发明的某些实施例中,由该系统捕获或重建的数据的全部或部分可以完全对用户隐藏和/或被自动删除。这些过程可以包括可能泄露用户的位置或其他个人信息、敏感信息、被捕获以执行重建的图像、或重建数据本身的数据。这些数据可以包括光场或物质场或两者的全部或部分。例如,在一些实施例中,完整具有所有光相互作用性质的其余物质场可以在通用光场和/或由用户选择的新光场中渲染和显示。备选地,在重建期间发现的物质场可以完全对用户隐藏和/或被自动删除。其余光场可以用于照亮通用物质场和/或由用户选择的新物质场。备选地,在重建期间发现的光场和物质场可以完全对用户隐藏和/或被自动删除。其余光相互作用性质可以应用于通用物质场和/或由用户选择的新物质场,其可以在通用光场和/或由用户选择的新光场中渲染和显示。在一些实施例中,该系统可以使用AI/ML来识别和删除关注的信息或以其他方式被识别用于删除或隐藏的信息。
在本发明的某些实施例中,人机界面将允许用户编辑光场和物质场重建。在一些实施例中,用户可以变换、变形或重新照亮重建的全部或任何部分。在一些实施例中,用户可以改变BLIF的光相互作用性质,并且将一个或多个BLIF分配给物质场的不同区域。在本发明的某些实施例中,用户可以通过在锚点上拖拽、通过键入键盘快捷键、或通过使用画笔工具在该重建上雕刻和绘画来操纵该场景。在本发明的一些实施例中,用户可以将新的物质场和光场插入到该重建中,和/或重新照亮物质场(全部或部分地)以匹配指定的光场。在一些实施例中,用户可以全部或部分地删除光场和物质场。
在本发明的某些实施例中,人机界面可以允许用户选择介元和辐射元。例如,可以选择段,可以单独地或一起选择介元和辐射元,或者可以使用机器学习来基于语义描述符创建选择。在一些实施例中,用户可以对介元和辐射元进行分组,和/或可以选择组。在一些实施例中,组和段可以被隐藏和/或显示。
在本发明的某些实施例中,人机界面可以允许用户在该重建之后执行计量分析。例如,用户可以对物质场结构进行一次或多次测量,并且可选地使用这种测量值中的全部或一部分来计算几何性质,诸如体积。在一些实施例中,可以保存和导出测量结果和计算结果。在一些实施例中,本发明可以允许用户在空间上搜索该场景以获得与该查询充分相匹配的光场和/或物质场结构的计数、选择或组中的一种或更多种。在本发明的某些实施例中,该查询可以被提供为光和/或物质的选定区域,被呈现为基于机器学习来生成响应的描述性词语,或者这两者的某种组合。被评估以确定匹配的特性可以包括物质场形状、光场结构、辐射强度、尺寸和BLIF。
在一些实施例中,该系统可以被设计为使用信息(包括与场景中的光场和/或物质场相关的信息)来支持过程生成活动。例如,该系统可以用于创建重建的光场和/或物质场的重复或扩展,以改变重建的尺寸或形状。另外,该系统可以基于该场景中的原始照明条件或计算的光场来调整与所生成的数据相关联的照明条件。
本发明的另外方面和实施例将根据以下实施例列表而变得显而易见:
1.一种用于重建场景的方法,包括:访问表征场景中的光的图像数据;处理图像数据以提供光场模型和物质场模型,其中,物质场模型包括物质场中的介质的表示,其包括表征介质与物质场中的位置处的光的相互作用的函数;将光场模型和物质场模型存储在数据结构中,其中,表示光场模型的数据可单独访问,并且表示物质场模型的数据可单独访问并被配置为使用具有光场模型中表示的光且具有与由光场模型表示的光不同的光的特性的函数来重建;以及输出物质场模型的至少一部分。
2.根据实施例1所述的方法,还包括输出光场模型的至少一部分。
3.根据实施例1所述的方法,其中,所述函数是双向光相互作用函数。
4.根据实施例1所述的方法,其中,所述函数表征与介质相关联的吸收率、透射率、反射率、散射率、折射率、粗糙度、偏振漫射系数、非偏振漫射系数和消光系数。
5.根据实施例1所述的方法,其中,物质场模型包括全光场,该全光场由表征场景中的介质的位置、尺寸和形状的至少三个维度以及表征介质与光的相互作用的至少两个维度来表示。
6.根据实施例1所述的方法,其中,所述处理包括使用机器学习模型来执行该处理的至少一部分。
7.根据实施例6所述的方法,其中,机器学习模型包括物理信息神经网络(PINN)、具有物理约束的神经网络架构、将物理先验纳入损失函数中、混合建模和残差建模中的一种或多种。
8.根据实施例6所述的方法,其中,机器学习模型提供附加信息,该附加信息表征尺寸、形状、位置、或介质与光的相互作用。
9.根据实施例6所述的方法,其中,该处理包括使用神经网络和非神经网络来查找光场模型、物质场模型或两者的参数。
10.根据实施例1所述的方法,还包括访问提供与该场景中的光场和/或介质场相关的附加信息的数据,并且其中,该处理还包括使用附加信息来告知该处理。
11.根据实施例10所述的方法,其中,附加信息包括表征该场景中的介质的尺寸、形状、相对位置、或光相互作用特性的一个或多个信息。
12.根据实施例1所述的方法,其中,所述模型是可分解的、可重组的和可说明的中的一种或多种。
13.根据实施例1所述的方法,其中,物质场模型被配置为允许提取该场景中的介质的一个或多个段。
14.根据实施例13所述的方法,还包括将所提取的段放置在该场景或不同场景的不同位置处。
15.根据实施例1所述的方法,其中,该处理允许更高分辨率的局部区域或应用附加计算能量来以比其他区域更高的精度重建某些场景特征。
16.一种使用神经网络来表示场景的各种区域中的表面光场的方法,其中,场景模型包括至少一个全光场。
17.根据实施例16所述的方法,其中,该方法被实现为支持自动立体屏幕或中观空间。
18.一种使用神经网络来表示场景中的实体的方法,包括一个或多个双向光相互作用函数、二维光场、四维光场、或二维光场和四维光场两者、以及可重新照亮物质场。
19.一种从光场模型构建可重新照亮物质场(RMF)的方法。
20.一种同时优化神经网络参数和常规方程的方法,其中,常规方程可以在物理学领域或其他领域中理解。
21.一种包括同时寻找神经网络和非神经网络参数的优化方法。
22.一种用于重建场景的方法,包括:访问包括该场景的一个或多个图像的图像数据;使用存储器中的表示多个立体元素的数据结构,该多个立体元素表示该场景;使用图像数据来重建多个立体元素中的每一个的辐射特性,其中,辐射特性表征与每个立体元素相关联的光场以及一个或多个光场与立体元素中的介质的相互作用,并且其中,经重建的辐射特性的集合足以从除了一个或多个视点之外的视点重建该场景的视点;使用经重建的辐射特性来填充数据结构;以及输出表示从除了该一个或多个视点之外的视点观看该场景的视点的数据结构的至少一部分。
23.根据实施例22所述的方法,其中,辐射特性包括来自立体元素的出射光、立体元素处的颜色的强度、与立体元素相关联的透明度、与立体元素相关联的透射率、或与立体元素相关联的不透明度中的一种或多种。
24.根据实施例22所述的方法,其中,数据结构包括分层、多分辨率、空间排序的数据结构,并且填充数据结构包括填充空数据结构、部分填充的数据结构、或填充有先前计算的辐射特性的数据结构中的一种或多种。
25.根据实施例22所述的方法,其中,重建辐射特性包括:通过选择视点来使用图像数据,并且计算与沿着从该视点延伸的一个或多个走廊的每个立体元素相关联的辐射特性。
26.根据实施例25所述的方法,其中,一个或多个走廊由从该视点向外延伸的射线来表示,并且确定该射线所穿过的一个或多个立体元素。
27.根据实施例22所述的方法,其中,光场表示流入到立体元素中的光和流出立体元素的光中的一种或多种,并且通过计算与立体元素相关的透射率、不透明度、透明度中的一种或多种以及一个或多个立体元素中存在的表面来表示与该介质的相互作用。
28.根据实施例27所述的方法,还包括使用该介质的相互作用来重新照亮该场景中全部或一部分。
29.根据实施例22所述的方法,其中,重建辐射特性使用球面谐波、内插、机器学习或机器智能中的一种或多种。
30.根据实施例22所述的方法,其中,重建辐射特性包括通过迭代地执行重建来优化经重建的辐射特性,直到经重建的辐射特性以及超过准确性、确定性、置信度或另一因素的阈值水平。
31.一种用于重建场景的系统,包括:存储介质,被配置为存储来自该场景的一个或多个视点的图像数据和该场景的辐射特性的模型;处理器;以及输出电路,被配置为输出模型,该处理器被配置为:访问图像数据的至少一部分;创建包括与多个立体元素相关联的辐射特性的模型;使用图像数据来重建该场景的每个立体元素的辐射特性,其中,经重建的辐射特性的集合足以允许从除了与图像数据相关联的一个或多个视点之外的视点观看该场景;使用经重建的辐射特性填充该模型;以及至少暂时将该模型存储在存储介质中。
32.根据实施例31所述的系统,其中,辐射特性包括来自立体元素的出射光、立体元素处的颜色的强度、与立体元素相关联的透明度、与立体元素相关联的透射率、或与立体元素相关联的不透明度中的一种或多种。
33.根据实施例31所述的系统,其中,存储介质包括分层、多分辨率、空间排序的数据结构,并且处理器被配置为至少暂时将该模型存储在数据结构中。
34.根据实施例31所述的系统,其中,处理器被配置为从空模型、部分填充的模型、或填充有先前计算的辐射数据的模型中的一个或多个创建该模型。
35.根据实施例31所述的系统,其中,处理器被配置为:通过选择视点并且计算与沿着从该视点延伸的一个或多个走廊的每个立体元素相关联的辐射特性,使用图像数据来重建辐射特性。
36.根据实施例35所述的系统,其中,通过从该视点向外延伸射线并且确定该射线所穿过的一个或多个立体元素来形成一个或多个走廊。
37.根据实施例31所述的系统,其中,经重建的辐射特性包括该场景中的光场的重建,其中,光场表示流入和流出一个或多个立体元素的光。
38.根据实施例37所述的系统,其中,该模型还包括该场景中的物质场的重建,其中,物质场表示一个或多个立体元素中存在的一个或多个表面。
39.根据实施例38的系统,其中,物质场由与立体元素相关联的折射率、偏振特性、一个或多个孔的存在、透射率、不透明度或透明度中的一种或多种来表示。
40.根据实施例38的系统,其中,物质场是可重新照亮物质场。
41.根据实施例31所述的系统,其中,处理器还被配置为使用球面谐波、机器学习或机器智能中的一种或多种来重建辐射特性。
42.根据实施例31的系统,其中,处理器迭代地执行重建,直到处理器确定该模型已经超过阈值精度水平为止。
43.一种训练机器学习模型的方法,包括:向机器学习模型提供图像数据,其中,图像数据包括表征场景中的光的信息;处理图像数据以生成该场景的可重新照亮模型,其中,这种处理包括将该场景划分为多个立体元素、分析图像数据以生成立体元素的至少一部分中的光场的模型、预测该场景中的光与一个或多个立体元素中的介质之间的相互作用、以及提供用于表征除了图像数据中的光之外的照明条件下的介质的外观的信息;以及输出该模型。
44.根据实施例43所述的方法,其中,该场景包括一个或多个感兴趣对象。
45.根据实施例44所述的方法,还包括从该模型中提取一个或多个感兴趣对象,并且将该一个或多个提取的感兴趣对象插入第二场景中。
46.根据实施例43所述的方法,其中,该处理还包括确定与该场景中的介质相关联的形状信息,并且其中,该预测包括计算与该介质相关联的双向光相互作用函数。
47.根据实施例46所述的方法,其中,该处理还包括生成该场景中的介质的模型作为物质场,该物质场在至少三个维度上表征该场景中的介质。
48.根据实施例43所述的方法,其中,图像数据包括一个或多个可重新照亮模型。
49.根据实施例48所述的方法,还包括:改变与所输出的模型相关联的双向光相互作用函数以创建经修改的模型;将修经改的模型输入到机器学习模型中;以及重复该处理以进一步训练机器学习模型。
50.根据实施例43所述的方法,其还包括:接收第二图像数据集;使用经训练的机器学习模型来通过处理第二图像数据集生成第二模型;以及输出第二模型。
51.一种用于重建场景中的一个或多个对象的系统,包括:处理器,用于处理数字场景数据;接口,用于接收与要捕获的场景相关的输入,其中,输入包括图像数据形式的数字场景数据,其表示来自某个取向的场景,其中,处理器处理数字场景数据和输入以生成该场景的至少一部分的三维模型,该场景包括包含至少一个表面的物质,其中,处理器通过访问由图像数据表示的物质场中的一个或多个立体元素来处理图像数据,并且其中,处理器通过确定一个或多个立体元素中的每个立体元素中表示的物质是否包括表面来处理图像数据。
52.根据实施例51所述的系统,其中,图像数据由相机来捕获。
53.根据实施例51所述的系统,其中,取向是相机的姿势。
54.根据实施例51所述的系统,其中,图像数据包括与电磁辐射相关的数据。
55.根据实施例54所述的系统,其中,与电磁辐射相关的数据包括可见光、红外线和/或偏振光或非偏振光和/或雷达的辐射值中的一个或多个。
56.根据实施例51所述的系统,其中,数字场景数据包括表示来自至少两个取向的场景的图像数据。
57.根据权利要求56所述的系统,其中,处理器顺序地处理来自至少两个取向的图像数据。
58.根据实施例51所述的系统,其中,立体元素中表示的物质由面元来表示。
59.根据实施例58所述的系统,其中,与面元相关的数据包括出射光场和入射光场中一种或多种。
60.根据实施例51所述的系统,其中,处理器通过假设数字场景数据的取向来处理图像数据。
61.根据实施例51所述的系统,其中,处理器通过以下方式处理图像数据:假设立体元素中存在表面;假设表面法线、光相互作用性质、出射辐射矢量、以及该表面的入射光场中的一种或多种;基于所假设的表面法线、光相互作用性质、出射辐射矢量和该表面的入射光场中的一种或多种来计算该表面在立体元素中存在的成本;将该成本与成本阈值进行比较;以及当该成本低于成本阈值时,接受面元存在于立体元素中。
62.根据实施例61所述的系统,其中,当该系统已经接受面元存在于立体元素中时,该表面在该场景的后续处理中保留在该场景中。
63.根据实施例61的系统,还包括基于所接受的该面元的存在来更新对一个或多个其他立体元素的光场的假设。
64.根据实施例61所述的系统,其中,处理器针对多于一个立体元素迭代地执行该过程。
65.根据实施例61所述的系统,其中,处理器针对多于一个图像数据集迭代地执行该过程。
66.根据实施例63所述的系统,其中,光场不被传送给用户。
67.根据实施例63所述的系统,其中,物质场不被传送给用户。
68.根据实施例63所述的系统,其中,光场和物质场不被传送给用户,并且物质场光相互作用性质不被传送给用户。
69.一种训练机器学习模型的方法,包括:向机器学习模型提供图像数据,其中,图像数据包括一个或多个感兴趣对象;处理图像数据以生成模型,其中,这种处理包括分析图像数据以生成该场景的光场模型或该场景中的一个或多个物质场的重建中的一种或多种;在该场景的模型中选择感兴趣的对象;在该场景的模型中提取感兴趣的对象;以及输出该场景中的感兴趣对象的可重新照亮物质场模型。
70.根据实施例69所述的方法,其中,图像数据包括可重新照亮物质场数据。
71.根据实施例69所述的方法,其中,图像数据包括多个场景中的感兴趣对象和多种条件下的感兴趣对象中的一个或多个。
72.根据实施例69所述的方法,其中,可重新照亮物质场由多个二维或更高维图像构成。
73.根据实施例69所述的方法,其中,可重新照亮物质场模型包括形状信息和双向光相互作用函数(BLIF)信息中的一种或多种。
74.根据实施例69所述的方法,其中,光场信息用于计算物质场中的位置的光反射特性。
75.根据实施例69所述的方法,其中,光场不被传送给用户。
76.根据实施例69所述的方法,其中,物质场不被传送给用户。
77.根据实施例69所述的方法,其中,光场和物质场不被传送给用户,并且物质场光相互作用性质传送给用户。
78.根据实施例69所述的方法,还包括:改变模型的BLIF信息;将具有经改变的BLIF信息的模型输入到机器学习模型中;以及对具有经改变的BLIF信息的模型执行一个或多个前述步骤以进一步训练机器学习模型。
79.一种使用机器学习模型的方法,包括:识别场景的模型中的一个或多个感兴趣对象;访问该场景的可重新照亮物质场;选择该物质场的要处理的部分;处理该物质场的选定部分以提取可重新照亮物质场的至少一部分;以及输出可重新照亮物质场的提取部分。
80.根据实施例79所述的方法,还包括测试可重新照亮物质场的由机器学习模型输出的部分的效用。
81.一种用于重建场景中的一个或多个对象的系统,包括:处理器,用于处理数字场景数据;接口,用于接收与要捕获的场景相关的输入,其中,处理器处理数字场景数据和输入以生成该场景的至少一部分的三维模型,其中,处理器输入指导数字场景数据的处理的至少一部分,并且其中,处理器提供包括该场景的至少一部分的三维模型在内的输出。
82.根据实施例81所述的系统,其中,该输入包括以下项中的至少一项:该场景中的光场的至少一部分的近似值、该场景中的物质场的至少一部分的近似值、该场景中存在的一个或多个形状、该场景中的一个或多个对象、或与该场景中的一个或多个光源相关的信息。
83.根据实施例81所述的系统,其中,该输入控制提供数字场景数据的一个或多个感测设备。
84.根据实施例81所述的系统,其中,该系统提供与该场景内要重建的一个或多个对象相关的反馈。
85.根据实施例84所述的系统,其中,该反馈包括该场景内要重建的一个或多个对象的预览。
86.根据实施例85所述的系统,其中,当使用这种重建的结果来重建一个或多个对象时,该系统可以更新该预览。
87.根据实施例86所述的系统,其中,该预览还包括与该重建的一个或多个参数相关的一个或多个指示。
88.根据实施例85所述的系统,其中,该预览包括一个或多个蒙版,其表示与所生成的模型相关的数据和从数字场景数据捕获设备接收到的信息。
89.根据实施例84所述的系统,其中,该反馈包括与数字场景数据的捕获的速率、用于捕获数字场景数据的位置、用于捕获数字场景数据的传感器角度、该场景中的光场的方面、或该场景中的物质场的方面相关的信息中的一个或多个。
90.根据实施例81所述的系统,其中,该输入是允许数字场景数据与新接收到的数字场景数据对齐的数据。
91.根据实施例81所述的系统,其中,该系统还包括用于实现用于生成三维模型的一个或多个目标的指令集。
92.根据实施例91所述的系统,其中,一个或多个目标包括以下项中的一项或多项:光场的期望分辨率、物质场的期望分辨率、重建的期望确定性阈值、消除所捕获的数字场景信息中的间隙的阈值、以及在捕获数字场景信息期间遇到的事件的触发器。
93.根据实施例92所述的系统,其中,该触发器包括指定的物质场结构、指定的光场结构、时间的推移、以及该模型中的不确定性水平的变化中的一种或多种。
94.根据实施例92所述的系统,其中,该系统被配置为响应该触发器而采取行动。
95.根据实施例94所述的系统,其中,该响应包括以下项中的一项或多项:改变显示配置、向显示器添加覆盖层、提供音频提示、提供视觉提示、改变重建目标、以及改变与该系统连接的设备的设置。
96.根据实施例81所述的系统,其中,该系统被配置为改变该模型的一个或多个特征。
97.根据实施例96所述的系统,其中,该改变包括以下项中的一项或多项:编辑光场重建;编辑物质场重建;变换该模型;使该模型变形;重新照亮该模型的全部或任何部分;改变BLIF的一个或多个光相互作用性质;向物质场的不同区域分配一个或多个BLIF;通过拖拽锚点、通过键入键盘快捷键、或通过使用画笔工具在该模型上雕刻和绘画来操纵模型;插入新物质场;插入新光场;重新照亮一个或多个物质场(全部或部分);全部或部分地删除光场;以及全部或部分地删除物质场。
98.根据实施例81所述的系统,其中,该系统被配置为使用包括一个或多个参数在内的搜索查询在空间上搜索该模型。
99.根据实施例98所述的系统,其中,该空间搜索包括:获得光场结构的计数、选择或组中的一种或多种,或者获得物质场结构的计数、选择或组中的一种或多种,匹配该搜索查询的一个或多个参数。
100.根据实施例98所述的系统,其中,该搜索查询被提供为选定的光区域。
101.根据实施例98所述的系统,其中,搜索查询被提供作为选定的物质区域。
102.根据实施例98所述的系统,其中,该搜索查询被呈现为基于机器学习来生成响应的描述性词语。
103.根据实施例98所述的系统,其中,一个或多个参数包括物质场形状、光场结构、辐射强度、尺寸和BLIF中的一种或多种。
104.根据实施例81所述的系统,还包括用于捕获数字场景信息的显示器,其中,在捕获来自多个源的信息期间,在显示器的三个或更多个相邻区域中显示空间交错的层。
105.根据实施例104所述的系统,其中,这些区域中的至少一个是实时重建预览。
106.根据实施例104所述的系统,其中,该显示器上的所有层与相同的视点基本上对齐。
107.根据实施例104所述的系统,其中,该显示器上的所有层包含关于该场景的信息。
108.根据实施例104所述的系统,其中,该显示器上的层之一是与其它层基本上相同的视点对齐的预场景渲染。
109.根据实施例81所述的系统,还包括显示器,该显示器在捕获期间用于指示在某个BLIF周围已经捕获多少个角度。
110.根据实施例109所述的系统,其中,通过显示以包括该BLIF在内的所选介质为中心的球形或半球形覆盖层来提供该指示。
111.根据实施例110所述的系统,其中,球形覆盖层的至少一个部分响应于从相对于该介质在真实空间中的对应位置的各种角度观看介质而改变。
112.根据实施例111所述的系统,其中,球形覆盖层的至少一个部分的变化包括消失、改变颜色或经历其他可见改变中的一种或多种。
113.一种用于重建场景中的一个或多个对象的方法,包括:访问数字场景数据和与场景相关的输入;处理数字场景数据以生成该场景的至少一部分的三维模型,其中,该处理包括响应该输入以指导处理数字场景数据的至少一部分的方式;以及输出该场景的至少一部分的三维模型。
114.根据实施例113所述的方法,其中,该输入包括以下项中的至少一项:该场景中的光场的至少一部分的近似值、该场景中的物质场的至少一部分的近似值、该场景中存在的一个或多个形状、该场景中的一个或多个对象、或与该场景中的一个或多个光源相关的信息。
115.根据实施例113所述的方法,还包括使用该输入来控制提供数字场景数据的一个或多个感测设备。
116.根据实施例113所述的方法,还包括提供与该场景内要重建的一个或多个对象相关的反馈。
117.根据实施例116所述的方法,其中,提供该反馈包括提供该场景内要重建的一个或多个对象的预览。
118.根据实施例117所述的方法,还包括:当使用这种重建的结果来重建一个或多个对象时,更新该预览。
119.根据实施例118所述的方法,还包括为该预览提供与该重建的一个或多个参数相关的一个或多个指示。
120.根据实施例117所述的方法,还包括为该预览提供一个或多个蒙版,其表示与所生成的模型相关的数据和从数字场景数据捕获设备接收到的信息。
121.根据实施例116所述的方法,其中,提供该反馈包括提供与数字场景数据的捕获的速率、用于捕获数字场景数据的位置、用于捕获数字场景数据的传感器角度、该场景中的光场的方面、或该场景中的物质场的方面相关的信息中的一个或多个。
122.根据实施例113所述的方法,还包括使用该输入将数字场景数据与新接收到的数字场景数据对齐。
123.根据实施例113所述的方法,还包括访问指令集并且执行该组指令以实现用于生成三维模型的一个或多个目标。
124.根据实施例123所述的方法,其中,一个或多个目标包括以下项中的一项或多项:光场的期望分辨率、物质场的期望分辨率、重建的期望确定性阈值、消除所捕获的数字场景信息中的间隙的阈值、以及在捕获数字场景信息期间遇到的事件的触发器。
125.根据实施例124所述的方法,其中,该触发器包括指定的物质场结构、指定的光场结构、时间的推移、以及该模型中的不确定性水平的变化中的一种或多种。
126.根据实施例124所述的方法,还包括响应该触发器而采取行动。
127.根据实施例126所述的方法,其中,采取行动包括以下一项或多项:改变显示配置、向显示器添加覆盖层、提供音频提示、提供视觉提示、改变重建目标、以及改变与该系统连接的设备的设置。
128.根据实施例113所述的方法,还包括基于该输入来改变该模型的一个或多个特征。
129.根据实施例128所述的方法,其中,该改变包括以下项中的一项或多项:编辑光场重建;编辑物质场重建;变换该模型;使该模型变形;重新照亮该模型的全部或任何部分;改变BLIF的一个或多个光相互作用性质;向物质场的不同区域分配一个或多个BLIF;通过拖拽锚点、通过键入键盘快捷键、或通过使用画笔工具在该模型上雕刻和绘画来操纵模型;插入新物质场;插入新光场;重新照亮一个或多个物质场(全部或部分);全部或部分地删除光场;以及全部或部分地删除物质场。
130.根据实施例113所述的方法,还包括使用包括一个或多个参数在内的搜索查询在空间上搜索该模型。
131.根据实施例130所述的方法,其中,该空间搜索包括:获得光场结构的计数、选择或组中的一种或多种,或者获得物质场结构的计数、选择或组中的一种或多种,匹配该搜索查询的一个或多个参数。
132.根据实施例130所述的方法,其中,该搜索查询被提供为选定的光区域。
133.根据实施例130所述的方法,其中,该搜索查询被提供为选定的物质区域。
134.根据实施例130所述的方法,其中,该搜索查询被呈现为基于机器学习来生成响应的描述性词语。
135.根据实施例130所述的方法,其中,一个或多个参数包括物质场形状、光场结构、辐射强度、尺寸和BLIF中的一种或多种。
136.根据实施例113所述的方法,还包括提供用于捕获数字场景信息的显示器,其中,在捕获来自多个源的信息期间,在显示器的三个或更多个相邻区域中显示空间交错的层。
137.根据实施例136所述的方法,其中,这些区域中的至少一个是实时重建预览。
138.根据实施例136所述的方法,其中,该显示器上的所有层与相同的视点基本上对齐。
139.根据实施例136所述的方法,其中,该显示器上的所有层包含关于该场景的信息。
140.根据实施例136所述的方法,其中,这些层之一是与其它层基本上相同的视点对齐的预场景渲染。
141.根据实施例113所述的方法,还包括提供显示器并且在捕获数字图像数据期间使用该显示器来指示在某个BLIF周围已经捕获多少个角度。
142.根据实施例141所述的方法,其中,通过显示以包括该BLIF在内的所选介质为中心的球形或半球形覆盖层来提供该指示。
143.根据实施例142所述的方法,其中,球形覆盖层的至少一个部分响应于从相对于该介质在真实空间中的对应位置的各种角度观看介质而改变。
144.根据实施例143所述的方法,其中,球形覆盖层的至少一个部分的变化包括消失、改变颜色或经历其他可见改变中的一种或多种。
145.根据前述实施例所述的方法,其中,不透明外部结构的重建与内部结构的重建相结合,以形成更完整的重建。
146.根据前述实施例所述的方法,其中,内部结构尚未包括BLIF信息,并且BLIF信息是基于外部结构而自动生成的。
147.一种用于操作机器学习模型的方法,包括:创建包括对象的模型在内的训练集,其中,这些模型包括可重新照亮特性,该可重新照亮特性允许在除了与从其创建该模型的图像数据相关联的照明条件之外的入射照明条件下重建这些模型,其中,可重新照亮特性包括表征该模型内的介质与物质场中的位置处的光的相互作用的函数;使用机器学习模型来访问训练集;使用训练集来训练机器学习模型,其中,该训练包括将机器学习模型配置为执行对象分类、表面分辨率、光场重建、物质场重建和材料签名标识中的一种或多种;以及使用经训练的机器学习模型来表征新对象。
148.根据权利要求147所述的方法,其中,可重新照亮模型包括表示多个立体元素处的一个或多个发射立体角元素的数据。
149.根据权利要求147所述的方法,其中,机器学习模型包括物理信息神经网络(PINN)、具有物理约束的神经网络架构、将物理先验纳入损失函数中、混合建模和残差建模中的一种或多种。
150.根据权利要求147所述的方法,其中,该函数由一个或多个双向光相互作用函数(BLIF)组成。
151.根据权利要求150所述的方法,其中,使用神经网络或采样数据函数来处理一个或多个BLIF。
152.根据权利要求150所述的方法,其中,这些BLIF中至少一个在空间上是变化的。
153.根据权利要求150所述的方法,其中,BLIF表示包括吸收、透射、反射和散射在内的一种或多种光相互作用现象。
154.根据权利要求147所述的方法,其中,该函数表示包括折射率、粗糙度、介质中的孔的表征、偏振漫射系数、非偏振漫射系数和消光系数在内的性质。
155.根据权利要求147所述的方法,其中,分类包括表征交通信号灯的状态之一。
在本文描述的示例中,出于说明和非限制的目的,阐述了诸如具体节点、功能实体、技术、协议、标准等的大量特定的细节,以便提供对所描述技术的理解。对于本领域技术人员而言显而易见的是,可以脱离下面公开的特定细节来实践其他的实施例。在其他实例中,省略了对公知方法、设备、技术等的详细描述,以不会以不必要的细节使描述不清楚。在图中示出了单独的功能块。本领域技术人员将意识到,可使用单独的硬件电路、使用与适当编程的微处理器或通用计算机相结合的软件程序和数据、使用专用集成电路(ASIC)和/或使用一个或更多个数字信号处理器(DSP)来实现这些框的功能。可以将软件程序指令和数据存储在计算机可读存储介质中,并且当由计算机或其他适合的处理器执行指令时,控制计算机或处理器执行功能。尽管本文将数据库描绘为表,但也可以使用其他格式(包括关系数据库、基于对象的模型和/或分布式数据库)来存储并操纵数据。
尽管可以按照特定顺序描述或要求保护过程步骤、算法等,但这些过程可以被配置为按照不同的顺序工作。换言之,能够明确描述或要求保护的步骤的任何顺序或次序不一定指示按照该顺序执行这些步骤的要求。可以按照任何可能的顺序执行本文描述的过程的步骤。此外,尽管一些步骤被描述或暗示为非同时发生(例如,由于一个步骤在另一步骤之后进行描述),但这些步骤可以被同时执行。此外,通过在附图中描绘过程来示出该过程并不意味着所示出的过程排除其他变体和对其的修改,不意味着所示出的过程或其任何步骤对于该技术是必需的,并且不意味着所示出的过程是优选的。此外,被描述为递归过程的过程步骤、算法等可以被迭代地执行,并且迭代描述的过程步骤、算法等可以递归地执行。
上述处理器、存储器、网络接口、I/O接口和显示器是或者包括被配置为执行计算设备的各种不同功能的硬件设备(例如,电子电路或电路的组合)。
在一些实施例中,处理器中的每一个或任一个是或者包括例如单核或多核处理器、微处理器(例如,其可以被称为中央处理单元或CP U)、数字信号处理器(DSP)、与DSP核相关联的微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路或片上系统(SOC)(例如,包括CPU和诸如存储器、网络接口等的其他硬件组件在内的集成电路)。在一些实施例中,处理器中的每一个或任一个使用诸如x86或高级RIS C机器(ARM)之类的指令集架构。
在一些实施例中,存储器件中的每一个或任一个是或者包括随机存取存储器(RAM)(诸如动态RAM(DRAM)或静态RAM(SRAM))、闪存(基于例如NAND或NOR技术)、硬盘、磁光介质、光学介质、缓冲存储器、寄存器(例如,其保存指令)、或执行数据和/或指令(例如,在处理器上或由处理器执行的软件)的易失性或非易失性存储的其他类型的器件。存储器件是非易失性计算机可读存储介质的示例。
在一些实施例中,网络接口设备中的每一个或任一个包括一个或多个电路(诸如基带处理器和/或有线或无线收发机),并且针对一种或多种有线通信技术(诸如以太网(IEEE 802.3)和/或无线通信技术(诸如蓝牙、WiFi(IEEE 802.11)、GSM、CDMA2000、UMTS、LTE、高级LTE(LTE-A)、5G和5G新无线电(5G NR)(包括但不限于IEEE 1914.1和IEEE1914.3)、增强型移动宽带(eMBB)、超可靠低时延通信(URLL C)、大规模机器类型通信(mMTC)和/或其他短距离、中距离和/或长距离无线通信技术)实现层1、层2和/或更高层。收发机可以包括用于发射机和接收机的电路。发射机和接收机可以共享公共外壳,并且可以共享该外壳中的一些或全部电路来执行传输和接收。在一些实施例中,收发机的发射机和接收机可以不共享任何公共电路,和/或可以在相同或单独的外壳中。
在一些实施例中,I/O接口中的中的每一个或任一个显示接口是或者包括一个或多个电路,该一个或多个电路从处理器接收数据,基于所接收到的数据来生成(例如,经由分立GPU、集成GPU、执行图形处理的CPU等)对应的图像数据,和/或将生成的图像数据输出(例如,经由高清多媒体接口(HDMI)、显示端口(DisplayPort)接口、视频图形阵列(VGA)接口、数字视频接口(DVI)等)到显示设备,该显示设备显示该图像数据。备选地或附加地,在一些实施例中,显示接口中的每一个或任一个是或者包括例如视频卡、视频适配器或图形处理单元(GPU)。
在一些实施例中,I/O接口中的用户输入适配器中的每一个或任一个是或者包括一个或多个电路,该一个或多个电路接收并处理来自一个或多个用户输入设备的用户输入数据,该一个或多个用户输入设备被包括在计算设备中、附接到计算设备、或以其他方式与计算设备进行通信并且基于所接收到的输入数据将数据输出到处理器。备选地或附加地,在一些实施例中,用户输入适配器中的每一个或任一个是或者包括例如PS/2接口、USB接口、触摸屏控制器等;和/或用户输入适配器方便来自用户输入设备(诸如例如键盘、鼠标、触控板、触摸屏等)的输入。
各种形式的计算机可读介质/传输可以涉及将数据(例如,指令序列)携带到处理器。例如,数据可以(i)从存储器传送给处理器;(ii)通过任何类型的传输介质(例如,有线、无线、光学等传输介质)携带;(iii)根据多种有线或无线格式、标准或协议(诸如以太网(或IEEE 802.3)、ATP、蓝牙和TCP/IP、TDMA、CDMA、3G等)进行格式化和/或发送;和/或(iv)以本领域中公知的各种方式进行加密以确保隐私或防止欺诈。
将理解,如本文所使用的,术语系统、子系统、服务、编程逻辑电路等可以被实现为软件、硬件、固件等的任何合适组合。还将理解,本文中的存储位置可以是磁盘驱动设备、存储器位置、固态驱动器、CD-ROM、DVD、磁带备份、存储区域网络(SAN)系统和/或任何其他适当的有形计算机可读存储介质的任何合适组合。还将理解,本文描述的技术可以通过使处理器执行能够有形地存储在计算机可读存储介质上的指令来实现。
如本文所使用的,术语“非暂时性计算机可读存储介质”包括寄存器、缓冲存储器、ROM、半导体存储器件(诸如D-RAM、S-RAM或其他RAM)、磁介质(诸如闪存)、硬盘、磁光介质、光学介质(诸如CD-ROM、DVD或蓝光盘)、或其他类型的非暂时性电子数据存储设备。术语“非暂时性计算机可读存储介质”不包括暂时性传播电磁信号。
当本文献中描述“可以”、“能够”或“可能”执行动作,特征或组件“可以”、“能够”或“可能”被包括在给定上下文中或适用于给定上下文,给定项目“可以”、“能够”或“可能”拥有给定属性,或者每当使用涉及术语“可以”、“能够”或“可能”的任何类似短语时,应当理解,给定动作、特征、组件、属性等存在于至少一个实施例中,但不一定存在于所有实施例中。
虽然已经结合当前被认为是最实用和最优选的实施例的内容描述了本发明,但应当理解,本发明并不限于所公开的实施例,而是相反,旨在涵盖所附权利要求的精神和范围内包括的各种修改和等同布置。

Claims (28)

1.一种场景重建和机器学习系统,包括:
存储介质,被配置为存储图像数据、一个或多个场景模型、一个或多个可重新照亮物质场、与机器学习模型相关的信息、以及所述机器学习模型的输出;
输入电路,被配置为接收表征场景中的光的图像数据,其中,所述场景由包括对象在内的物质占据;
处理器,被配置为:
使用所述图像数据来重建表示所述场景的场景模型,其中,所述场景模型表示所述场景中的由与所述光相互作用的物质占据的立体区域,
从表示所述对象的所述场景模型中提取可重新照亮物质场,其中,所述可重新照亮物质场表征与所述对象的光相互作用,
将所述场景模型和表示所述对象的所述可重新照亮物质场存储在所述存储介质中,
应用所述可重新照亮物质场作为所述机器学习模型的输入,并且
在应用所述可重新照亮物质场作为输入之后,从所述机器学习模型生成输出;以及
输出电路,被配置为输出所生成的输出。
2.根据权利要求1所述的系统,其中,所述可重新照亮物质场使用表示神经网络的参数的数据来表征所述光相互作用。
3.根据权利要求1所述的系统,其中,所述处理器还被配置为计算在给定入射光场中的光的立体角元素下出射光场中的光的立体角元素。
4.根据权利要求1所述的系统,其中,所述可重新照亮物质场表示包括折射率、粗糙度、吸收率、透射率、反射率、散射率、所述介质中的孔的表征、偏振漫射系数、非偏振漫射系数和消光系数中的至少一种的性质。
5.根据权利要求4所述的系统,其中,所述性质被表示为至少一个双向光相互作用函数。
6.根据权利要求5所述的系统,其中,所述至少一个双向光相互作用函数在空间上是变化的。
7.根据权利要求1所述的系统,其中,所述输出是分类、回归、聚类、预测、模式识别、对交通信号灯的状态的确定、对表面异常的检测、对象的特征的表征、对用于修复冰雹损坏对象的成本的估计中的一种或多种。
8.一种用于使用机器学习模型和可重新照亮物质场数据来服务于目的的方法:
访问表征场景中的光的图像数据,其中,所述场景由包括对象在内的物质占据;
使用所述图像数据来重建表示所述场景的场景模型,其中,所述场景模型表示所述场景中的由与所述光相互作用的物质占据的立体区域;
从表示所述对象的所述场景模型中提取可重新照亮物质场,其中,所述可重新照亮物质场表征与所述对象的光相互作用;
将所述场景模型和表示所述对象的所述可重新照亮物质场存储在存储介质中;
应用所述可重新照亮物质场作为机器学习模型的输入;以及
在应用所述可重新照亮物质场作为输入之后,从所述机器学习模型生成输出。
9.根据权利要求8所述的方法,其中,所述可重新照亮物质场使用表示神经网络的参数的数据来表征所述光相互作用。
10.根据权利要求8所述的方法,其中,所述方法还包括使用与所述光相互作用相关的数据来计算在给定入射光场中的光的立体角元素下出射光场中的光的立体角元素。
11.根据权利要求8所述的方法,其中,所述可重新照亮物质场表示包括折射率、粗糙度、吸收率、透射率、反射率、散射率、所述介质中的孔的表征、偏振漫射系数、非偏振漫射系数和消光系数中的至少一种的性质。
12.根据权利要求11所述的方法,其中,所述性质被表示为至少一个双向光相互作用函数。
13.根据权利要求12所述的方法,其中,所述至少一个双向光相互作用函数在空间上是变化的。
14.根据权利要求8所述的方法,还包括使用所述输出进行分类、回归、聚类、预测、模式识别、确定交通信号灯的状态、检测表面异常、表征对象的特征、以及估计用于修复冰雹损坏对象的成本中的一种或多种。
15.一种用于与可重新照亮物质场数据一起使用的机器学习系统,包括:
存储介质,被配置为存储可重新照亮物质场数据、与机器学习模型相关的信息、以及所述机器学习模型的输出;
输入电路,用于接收表示一个或多个对象的可重新照亮物质场数据,其中,至少一些所述可重新照亮物质场数据表征与所述对象的光相互作用;
处理器,被配置为:
使用所述数据作为训练集来训练所述机器学习模型,
接收新对象的可重新照亮物质场作为输入,并且
响应于所述输入而生成输出;以及
输出电路,被配置为输出所生成的输出。
16.根据权利要求15所述的系统,其中,所述可重新照亮物质场数据表征光与所述对象的性质的相互作用,所述性质包括折射率、粗糙度、吸收率、透射率、反射率、散射率、所述介质中的孔的表征、偏振漫射系数、非偏振漫射系数和消光系数中的至少一种。
17.根据权利要求16所述的系统,其中,所述光相互作用性质表示神经网络的参数。
18.根据权利要求17所述的系统,其中,所述光相互作用性质被表示为至少一个双向光相互作用函数。
19.根据权利要求17所述的系统,其中,所述至少一个双向光相互作用函数在空间上是变化的。
20.根据权利要求15所述的系统,其中,所述输出是分类、回归、聚类、预测、模式识别、对交通信号灯的状态的确定、对表面异常的检测、对象的特征的表征、对用于修复冰雹损坏对象的成本的估计中的一种或多种。
21.根据权利要求15所述的系统,其中:
所述存储介质还被配置为存储一个或多个场景模型;
所述输入电路还被配置为接收所述一个或多个场景模型,其中,所述一个或多个场景模型表示所述场景中的由与光相互作用的物质占据的立体区域;以及
所述处理器还被配置为从所述一个或多个场景模型中提取可重新照亮物质场数据,其中,所述可重新照亮物质场数据表示对象,并且其中,至少一些所述可重新照亮物质场数据表征在给定入射到所述对象的光场下从所述对象出射的光场。
22.一种使用可重新照亮物质场数据来训练机器学习模型的方法,包括:
收集表示一个或多个对象的可重新照亮物质场数据,其中,至少一些所述可重新照亮物质场数据表征与所述对象的光相互作用;以及
使用所述可重新照亮物质场数据作为训练集来训练所述机器学习模型,其中,经训练的机器学习模型被配置为接收新对象的可重新照亮物质场作为输入,从而响应于所述输入而生成输出。
23.根据权利要求22所述的方法,其中,所述可重新照亮物质场数据表征光与所述对象的性质的相互作用,所述性质包括折射率、粗糙度、吸收率、透射率、反射率、散射率、所述介质中的孔的表征、偏振漫射系数、非偏振漫射系数和消光系数中的至少一种。
24.根据权利要求23所述的方法,其中,所述光相互作用性质表示神经网络的参数。
25.根据权利要求23所述的方法,其中,所述光相互作用性质被表示为至少一个双向光相互作用函数。
26.根据权利要求25所述的方法,其中,所述至少一个双向光相互作用函数在空间上是变化的。
27.根据权利要求22所述的方法,其中,所述输出用于分类、回归、聚类、预测、模式识别、确定交通信号灯的状态、检测表面异常、表征对象的特征、以及估计用于修复冰雹损坏对象的成本中的一种或多种。
28.根据权利要求22所述的方法,其中,所述收集还包括:
访问表示场景的一个或多个场景模型,其中,所述场景模型表示所述场景中的由与光相互作用的物质占据的立体区域;以及
从所述一个或多个场景模型中提取可重新照亮物质场,其中,所述可重新照亮物质表示所述对象。
CN202380026144.1A 2022-03-07 2023-03-07 用于广义场景重建的系统和方法 Pending CN118901083A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263317330P 2022-03-07 2022-03-07
US63/317,330 2022-03-07
PCT/US2023/014734 WO2023172573A1 (en) 2022-03-07 2023-03-07 Systems and methods for generalized scene reconstruction

Publications (1)

Publication Number Publication Date
CN118901083A true CN118901083A (zh) 2024-11-05

Family

ID=85724710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380026144.1A Pending CN118901083A (zh) 2022-03-07 2023-03-07 用于广义场景重建的系统和方法

Country Status (6)

Country Link
US (1) US20230281955A1 (zh)
EP (1) EP4490700A1 (zh)
KR (1) KR20240160160A (zh)
CN (1) CN118901083A (zh)
AU (1) AU2023230778A1 (zh)
WO (1) WO2023172573A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12236517B2 (en) * 2021-11-16 2025-02-25 Disney Enterprises, Inc. Techniques for multi-view neural object modeling
US11448879B1 (en) 2022-01-07 2022-09-20 Brilliant Labs Limited Augmented reality device and methods of use
US11782271B2 (en) * 2022-01-07 2023-10-10 Brilliant Labs Limited Augmented reality device and methods of use
EP4254350A1 (en) * 2022-04-01 2023-10-04 Siemens Healthcare GmbH Determination of illumination parameters in medical image rendering
US12125143B2 (en) * 2022-06-01 2024-10-22 Rovi Guides, Inc. Systems and methods for neural-network based video encoding
US12190558B2 (en) * 2022-06-10 2025-01-07 Lemon Inc. View synthesis from sparse volume data structure
CN117036207B (zh) * 2023-10-10 2024-01-19 慧医谷中医药科技(天津)股份有限公司 一种三维采集箱内红外图像增强方法
CN117422645B (zh) * 2023-11-14 2024-08-27 中国科学院长春光学精密机械与物理研究所 基于置信度聚合的雷达点云形状补全方法
CN117649785B (zh) * 2023-11-28 2024-06-07 中国民航管理干部学院 一种无人机多运行人分布式协同冲突化解方法及系统
CN117893691B (zh) * 2024-02-05 2024-08-20 哈尔滨工业大学 基于三平面特征表示和视角条件扩散模型的结构智能三维重构方法
CN117765187B (zh) * 2024-02-22 2024-04-26 成都信息工程大学 基于多模态深度估计引导的单目隐神经的建图方法
CN118781000B (zh) * 2024-07-08 2025-04-04 武汉科技大学 一种基于图像增强和NeRF的单目稠密SLAM地图构建方法
CN118697552B (zh) * 2024-08-27 2024-12-20 江苏拓尔奇光电技术有限公司 基于应用场景的自动变光面罩调节方法
CN118822877B (zh) * 2024-09-18 2024-12-27 北京西南交大盛阳科技股份有限公司 一种图像增强装置及方法、存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2019001A (en) 1934-05-28 1935-10-29 Desbarats Hullett Spiral lock binding
US4694404A (en) 1984-01-12 1987-09-15 Key Bank N.A. High-speed image generation of complex solid objects using octree encoding
FR2625345A1 (fr) 1987-12-24 1989-06-30 Thomson Cgr Procede de visualisation en trois dimensions d'objets codes numeriquement sous forme arborescente et dispositif de mise en oeuvre
US6123733A (en) 1996-11-27 2000-09-26 Voxel, Inc. Method and apparatus for rapidly evaluating digital data processing parameters
US6980935B2 (en) 2001-07-31 2005-12-27 Schlumberger Technology Corp. Method, apparatus and system for constructing and maintaining scenegraphs for interactive feature-based geoscience geometric modeling
US6831641B2 (en) 2002-06-17 2004-12-14 Mitsubishi Electric Research Labs, Inc. Modeling and rendering of surface reflectance fields of 3D objects
US7843449B2 (en) 2006-09-20 2010-11-30 Apple Inc. Three-dimensional display system
US8547374B1 (en) 2009-07-24 2013-10-01 Lockheed Martin Corporation Detection and reconstruction of 3D objects with passive imaging sensors
WO2011066275A2 (en) 2009-11-25 2011-06-03 Massachusetts Institute Of Technology Actively addressable aperture light field camera
US8749620B1 (en) 2010-02-20 2014-06-10 Lytro, Inc. 3D light field cameras, images and files, and methods of using, operating, processing and viewing same
US8749694B2 (en) 2010-08-27 2014-06-10 Adobe Systems Incorporated Methods and apparatus for rendering focused plenoptic camera data using super-resolved demosaicing
US8432435B2 (en) 2011-08-10 2013-04-30 Seiko Epson Corporation Ray image modeling for fast catadioptric light field rendering
US8971612B2 (en) 2011-12-15 2015-03-03 Microsoft Corporation Learning image processing tasks from scene reconstructions
US9179126B2 (en) 2012-06-01 2015-11-03 Ostendo Technologies, Inc. Spatio-temporal light field cameras
US9857470B2 (en) 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US20140201022A1 (en) 2013-01-16 2014-07-17 Andre Balzer Vehicle damage processing and information system
US20150146032A1 (en) 2013-11-22 2015-05-28 Vidinoti Sa Light field processing method
US20150305612A1 (en) 2014-04-23 2015-10-29 Mark Hunter Apparatuses and methods for registering a real-time image feed from an imaging device to a steerable catheter
US20150373320A1 (en) 2014-06-24 2015-12-24 Photon-X Visual cognition system
GB2535475B (en) 2015-02-16 2019-09-18 Canon Kk Optimized plenoptic image encoding
EP3144887A1 (en) 2015-09-17 2017-03-22 Thomson Licensing A method and an apparatus for generating data representative of a pixel beam
US20190155835A1 (en) 2015-11-03 2019-05-23 President And Fellows Of Harvard College Systems and Methods for Processing Spatially Related Sequence Data Received from a Sequencing Device
CN109076148B (zh) 2016-04-12 2021-02-05 奎蒂安特有限公司 日常场景重建引擎
KR102609330B1 (ko) 2016-07-15 2023-12-05 라이트 필드 랩 인코포레이티드 라이트 필드 및 홀로그램 도파관 어레이에서의 에너지의 선택적 전파
KR102782006B1 (ko) 2016-09-20 2025-03-14 이노비즈 테크놀로지스 엘티디 Lidar 시스템 및 방법
US10169910B2 (en) 2016-11-18 2019-01-01 Disney Enterprises, Inc. Efficient rendering of heterogeneous polydisperse granular media
US10509153B2 (en) 2016-11-29 2019-12-17 Akonia Holographics Llc Input coupling
US10893262B2 (en) 2017-02-07 2021-01-12 Siemens Healthcare Gmbh Lightfield rendering based on depths from physically-based volume rendering
CN108805261B (zh) 2017-04-28 2021-11-12 微软技术许可有限责任公司 基于八叉树的卷积神经网络
US20190072897A1 (en) 2017-08-14 2019-03-07 Open Water, Inc. Applications of diffuse medium imaging
CN119031139A (zh) 2018-05-02 2024-11-26 奎蒂安特有限公司 用于处理具有几乎无限细节的场景的编解码器
US11164368B2 (en) 2019-10-07 2021-11-02 Zillow, Inc. Providing simulated lighting information for three-dimensional building models
US11704859B2 (en) 2020-08-20 2023-07-18 Sony Interactive Entertainment LLC System and method for accelerated ray tracing

Also Published As

Publication number Publication date
WO2023172573A1 (en) 2023-09-14
US20230281955A1 (en) 2023-09-07
AU2023230778A1 (en) 2024-09-19
KR20240160160A (ko) 2024-11-08
EP4490700A1 (en) 2025-01-15

Similar Documents

Publication Publication Date Title
US20230281955A1 (en) Systems and methods for generalized scene reconstruction
US11816907B2 (en) Systems and methods for extracting information about objects from scene information
Boulch et al. SnapNet: 3D point cloud semantic labeling with 2D deep segmentation networks
Kaiser et al. A survey of simple geometric primitives detection methods for captured 3D data
JP6911045B2 (ja) 日常シーン復元エンジン
Liu et al. 3D Point cloud analysis
Condorelli et al. A comparison between 3D reconstruction using nerf neural networks and mvs algorithms on cultural heritage images
CN110633628B (zh) 基于人工神经网络的rgb图像场景三维模型重建方法
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
Mittal Neural radiance fields: Past, present, and future
CN115222896B (zh) 三维重建方法、装置、电子设备及计算机可读存储介质
Lin et al. Visual saliency and quality evaluation for 3D point clouds and meshes: An overview
Mohan et al. Room layout estimation in indoor environment: a review
Huang et al. Fast neural distance field-based three-dimensional reconstruction method for geometrical parameter extraction of walnut shell from multiview images
US20240386650A1 (en) Planar mesh reconstruction using images from multiple camera poses
CN118736537A (zh) 一种基于物资称重影像画面的自动抓拍获取方法
de Jesús Osuna-Coutiño et al. Volumetric structure extraction in a single image
Tancik Object and Scene Reconstruction Using Neural Radiance Fields
Udayan An analysis of reconstruction algorithms applied to 3d building modeling
Yang et al. 3D Geometry and Semantic Reconstruction
Yang et al. 3D Scene Modeling and Robotics Interaction
WO2024238237A1 (en) Planar mesh reconstruction using images from multiple camera poses
Beebe A Complete Bibliography of Computer Graphics
Petse Modeling Virtual Environments 3d Assets from Visual Inputs
Mor Domènech Neural radiance fields for heads: towards accurate digital avatars

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination