CN110322542B - 重建真实世界3d场景的视图 - Google Patents
重建真实世界3d场景的视图 Download PDFInfo
- Publication number
- CN110322542B CN110322542B CN201910222279.0A CN201910222279A CN110322542B CN 110322542 B CN110322542 B CN 110322542B CN 201910222279 A CN201910222279 A CN 201910222279A CN 110322542 B CN110322542 B CN 110322542B
- Authority
- CN
- China
- Prior art keywords
- camera
- current
- frame
- values
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 81
- 230000015654 memory Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 13
- 230000004927 fusion Effects 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 9
- 238000005259 measurement Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施例涉及重建真实世界3D场景的视图。本发明公开了产生场景的三维模型的各种具体实施。各种方法、电子设备或系统具体实施使用RGB‑D相机来提供RGB‑D视频内容或周期性对准的RGB图像和深度图像,以定位在三维(3D)坐标系中限定的相机空间位置,或重建当前相机帧在3D坐标系中的3D虚拟表示,两种操作都是实时进行的。
Description
相关申请的交叉引用
本申请要求2018年3月28日提交的美国临时申请序列No.62/649,202的权益,该申请全文以引用方式并入本文。
技术领域
本申请整体涉及视频编码,并且还涉及用于从RGB-D传感器产生场景的三维模型的系统、方法和设备。
背景技术
数字视频能力可被结合到很宽范围的设备中,包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型计算机或台式计算机、平板电脑、电子书阅读器、数字相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝或卫星无线电话、所谓的“智能电话”、视频会议设备、视频流式传输设备等。数字视频设备实施视频编码技术,诸如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4、Part 10、高级视频编码(AVC)、高效率视频编码(HEVC)定义的标准和此类标准的扩展中描述的那些技术。视频设备可通过实施此类视频编码技术来更有效地发送、接收、编码、解码或存储数字视频信息。
数字视频能力包括RGB-D传感器的真实世界场景的当前视图的虚拟表示。
发明内容
本文公开的各种具体实施包括实现RGB-D传感器(诸如RGB-D相机)的同时定位和映射的设备、系统和方法。本文所公开的各种具体实施包括估计RGB-D传感器的轨线或者渲染由RGB-D传感器捕获的场景(例如,正在进行的视频内容)的3D重建的设备、系统和方法。在一些具体实施中,此类虚拟重建可由虚拟现实(VR)应用、混合现实(MR)应用或增强现实(AR)应用访问,与它们交互或与之结合使用。
一种示例性具体实施涉及在具有一个或多个处理器和计算机可读存储介质的设备处执行操作。该设备在多个时间在相机的视场之内接收真实世界场景的多个帧,这些帧包括针对相机的视场的像素的颜色值和深度值。该设备从相机的视场内的真实世界场景的多个帧中选择关键帧。关键帧与在三维(3D)坐标系中限定的相机姿态相关联。该设备接收当前在相机的视场之内的真实世界场景的当前帧。该当前帧包括当前时间下相机视场的像素的当前颜色值和当前深度值。该设备基于当前帧确定相机在3D坐标系中的当前相机姿态。该设备基于相机的当前相机姿态和关键帧中的两个或更多个来提供当前帧的虚拟表示。基于关键帧中的两个或更多个的颜色值和深度值来提供虚拟表示。
一种示例性具体实施涉及在具有一个或多个处理器和计算机可读存储介质的设备处执行操作。该设备在多个时间在相机的视场之内接收真实世界场景的多个帧,这些帧包括针对相机的视场的像素的颜色值和深度值。该设备从相机的视场内的真实世界场景的多个帧中选择关键帧。关键帧与在三维(3D)坐标系中限定的相机姿态相关联。该设备接收当前在相机的视场之内的真实世界场景的当前帧。该当前帧包括当前时间下相机视场的像素的当前颜色值和当前深度值。该设备基于当前帧确定相机在3D坐标系中的当前相机姿态。该设备基于当前帧和当前姿态来调节关键帧中的一个关键帧。通过使用深度值的对应概率方差值来组合深度值,并使用关键帧和当前帧的颜色值的对应概率方差值来组合颜色值,从而调节关键帧。该设备基于相机的当前相机姿态和经调节关键帧中的至少一个来提供当前帧的虚拟表示。
各种具体实施提供了当前帧或真实世界场景的视图的虚拟表示。各种方法、电子设备或系统具体实施使用RGB-D相机来提供RGB-D视频或周期性对准的RGB图像和深度图像,以(1)定位在三维(3D)坐标系中限定的相机空间位置,和/或(2)重建当前相机帧或视图的3D虚拟表示,两种操作都是实时进行的。
根据一些具体实施,一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序;这一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行,并且这一个或多个程序包括用于执行或导致执行本文所述方法中的任一种的指令。根据一些具体实施,一种非暂态计算机可读存储介质中存储有指令,当由设备的一个或多个处理器执行时,这些指令使得该设备执行或导致执行本文所述方法中的任一种。根据一些具体实施,一种设备包括:一个或多个处理器、非暂态存储器,以及用于执行或导致执行本文所述方法中的任一种的装置。
附图说明
因此,本公开可由本领域的普通技术人员理解,更详细的描述可参考一些示例性具体实施的方面,其中一些具体实施在附图中示出。
图1是根据一些具体实施的简化电子设备的框图。
图2是根据一些具体实施,融合来自当前帧的深度信息和现有关键帧的简化方法的框图。
图3A是示出了当前RGB-D传感器输入的图,例如,来自相机视频内容的标准RGB彩色图像和对准的标准相机深度图。
图3B是示出了根据一些具体实施,向对应于图3A中所示图像的相同姿态中渲染当前3D虚拟重建的图。
图4A是示出了针对根据一些具体实施,相对于重建的3D虚拟表示的全局点云的示例性姿态图、关键帧和可移动当前相机位置的图。
图4B是根据一些具体实施,融合来自当前帧的深度信息和现有关键帧的简化方法的框图。
图5是根据一些具体实施,用于真实世界场景的3D重建的简化方法的框图。
图6是根据一些具体实施,基于关键帧处的颜色或深度信息的像素级融合对真实世界场景进行3D重建的简化方法的框图。
图7是示出了根据一些具体实施的当前相机片段姿态图的图。
图8是根据一些具体实施,用于真实世界场景的3D重建的简化方法的框图。
图9是示出根据一些具体实施的简化多功能设备的框图。
根据通常的做法,附图中示出的各种特征部可能未按比例绘制。因此,为了清楚起见,可以任意地扩展或减小各种特征部的尺寸。另外,一些附图可能未描绘给定的系统、方法或设备的所有部件。最后,在整个说明书和附图中,类似的附图标号可用于表示类似的特征部。
具体实施方式
描述了许多细节以便提供对附图中所示的示例性具体实施的透彻理解。然而,附图仅示出了本公开的一些示例方面,因此不应被视为限制。本领域的普通技术人员将会知道,其他有效方面或变体不包括本文所述的所有具体细节。此外,没有详尽地描述众所周知的系统、方法、部件、设备和电路,以免模糊本文所述的示例性具体实施的更多相关方面。
参见图1,其示出了根据一些具体实施的电子设备100的简化框图。在一些具体实施中,电子设备100是多功能设备的一部分,多功能设备诸如移动电话、平板电脑、个人数字助理、便携式音乐/视频播放器、可穿戴设备或包括图像处理设备的其他电子设备,尽管在图1中未示出。在一些具体实施中,电子设备100经由网络连接到其他网络设备,诸如其他移动设备、平板设备、台式设备以及网络存储设备,包括服务器等。
在一些具体实施中,电子设备100包括中央处理单元(CPU)130和设备传感器175(例如,接近传感器/加速度计或陀螺仪等)。在一些具体实施中,处理器130可以是片上系统,诸如存在于移动设备中的那些片上系统,并且可包括一个或多个专用图形处理单元(GPU)。此外,在一些具体实施中,处理器130包括相同类型或不同类型的多个处理器。
在一些具体实施中,电子设备100包括存储器140。存储器140包括用于结合处理器130执行设备功能的一种或多种类型的存储器。在一些具体实施中,存储器140包括高速缓存、ROM或RAM。在一些具体实施中,存储器140在执行期间存储各种编程模块。在一些具体实施中,存储器140可充当用于进行在线图像处理期间存储一个或多个图像的缓冲器。在一些具体实施中,存储器140存储由处理器130执行的计算机可读指令。
在一些具体实施中,电子设备100包括一个或多个相机110,相机包括RGB相机或RGB-D相机。
在一些具体实施中,电子设备100包括相机姿态估计器144、关键帧估计器146或姿态图计算器148。
计算机视觉、机器人和其他领域中的许多相关应用需要能够采集环境的3D模型并估计相机相对于模型的位置。另外,此类应用通常具有通过结合VR、MR或AR功能而随后与3D模型进行交互的能力。
图2是根据一些具体实施,基于RGB-D相机的当前姿态,虚拟表示当前RGB-D传感器或相机帧或视图的方法200的流程图。在一些具体实施中,示例性方法200、500、600和800由诸如移动设备、台式计算机、膝上型计算机或服务器设备的设备(例如,电子设备100或多功能设备900)执行。在一些具体实施中,示例性方法200、500、600和800由处理逻辑(包括硬件、固件、软件或它们的组合)执行。在一些具体实施中,示例性方法200、500、600和800由执行存储在非暂态计算机可读介质(例如,存储器)中的代码的处理器执行。在一些具体实施中,示例性方法200、500、600和800可在便携式电子设备(例如,膝上型计算机、平板电脑、智能电话或头戴式显示器(HMD))上执行,该便携式电子设备具有用于显示2D/3D图像的屏幕或用于查看立体图像并且包括诸如VR显示、MR显示或AR显示的操作的屏幕。
在框210处,方法200接收或捕获当前RGB-D相机视图的RGB-D信息。RGB-D信息包括针对RGB-D相机的视场(FOV)的密集RGB像素的帧(例如,图3A的帧305)和密集深度像素的帧(例如,图3A的帧310)。密集RGB信息的帧与RGB-D相机的FOV中的密集深度信息帧对准。在一些具体实施中,方法200在每个RGB-D相机片段查看期间,针对多个时间下RGB-D相机FOV之内真实世界场景的多个帧(例如,视频或视频内容),接收颜色和深度信息(例如,密集RGB像素的帧和密集深度像素的帧)。在各种具体实施中,方法200将深度信息接收为线性深度信息或反向深度信息。
在框220处,方法200使用当前RGB-D相机帧的深度信息来估计RGB-D相机的位置和空间取向(例如,相机姿态)。在一些具体实施中,方法200在框220处使用当前RGB-D相机帧的颜色信息来估计RGB-D相机的位置和空间取向。在一些具体实施中,方法200在框220处使用当前RGB-D相机帧的深度信息和颜色信息来估计RGB-D相机的位置和空间取向。在一些具体实施中,在框220处,方法200相对于真实世界场景的虚拟重建或模型对准当前RGB-D帧。在一些具体实施中,方法200包括首先将当前RGB-D帧的深度数据粗略对准到真实世界相机场景的虚拟表示(即,紧接于前的相机帧的虚拟表示)的深度数据,接下来进行第二精细调节,以减小或最小化对准的当前RGB-D帧(例如,深度)和真实世界相机场景的前一帧的虚拟表示(例如,深度)之间的总体深度帧信息误差。然后,使用总体深度帧误差来确定当前RGB-D相机视图的姿态。在一种具体实施中,框220中的深度数据对准使用刚性变换,该刚性变换将相应的深度数据朝彼此“走”,直到它们之间的总体深度帧信息误差被减小或最小化。在一种具体实施中,当前RGB-D相机帧被对准到虚拟重建。在另一种具体实施中,虚拟重建与当前RGB-D相机帧对准。在一种具体实施中,框220还相对于真实世界场景的先前虚拟重建的RGB颜色数据对准当前RGB颜色数据,以减小或最小化对准的当前RGB-D帧(例如,颜色)与真实世界相机场景的先前虚拟表示(例如,颜色)之间的总体RGB颜色帧信息误差。然后,框220使用总体颜色和深度帧误差来确定当前RGB-D相机视图的姿态。通过对准当前相机帧的RGB-D帧信息和前一相机帧的虚拟表示,方法200能够估计生成当前RGB-D图像的3D相机姿态,即,相机相对于3D模型在3D空间中的位置以及相机如何相对于3D模型在3D空间中取向。
另选地,在框220处,为了确定当前RGB-D相机姿态,一个示例性操作选择当前RGB-D相机帧的深度信息中的一组被识别特征,并且使用当前相机深度信息中的一组被识别特征的对准以匹配相机先前帧中的深度信息中的先前组特征,并根据匹配的被识别特征来确定相机姿态。
在框230处,方法200识别关键帧。关键帧是RGB-D相机生成的数据的所有RGB-D帧的子集(例如,在观察片段之内)。每个关键帧,像RGB-D相机数据的所有帧,包括与已知时间的相机姿态(例如,在空间中的位置和取向)相关联的对准的RGB颜色信息和深度信息。在各种具体实施中,使用满足真实世界场景的3D虚拟重建的关键帧表示的技术来选择关键帧。在各种具体实施中,可基于RGB-D相机的运动来识别(例如,在多个帧中选择)关键帧。在当前相机帧或视点和邻近关键帧(例如,紧接于前的关键帧)之间有充分移动(例如,阈值以上的3D空间距离)或足够移动时,创建或发起新的关键帧。在另选的具体实施中,关键帧的发起可基于RGB-D相机的其他特性(例如时间、移动速度等)或真实世界场景。每个关键帧可存储在存储器中并且包括RGB信息(例如,融合像素数据的帧)、深度信息(例如,融合深度信息的帧)和姿态(例如,在3D坐标系中的取向和3D位置)。可以对相对RGB-D相机移动进行历史记录,这被称为姿态图。图4A是示出了根据一些具体实施的示例性姿态图的图。如图4A所示,可沿姿态图400分配或定位关键帧402,并可相对于姿态图示出当前相机位置420(例如,图4A)。根据一些具体实施,姿态图400被示出在当前观察片段的全局点云之内。
在框240处,方法200沿姿态图对关键帧进行深度/颜色融合调整,这有利于更好的3D虚拟重建。在一些具体实施中,将多个RGB-D相机帧的当前RGB-D信息局部融合到一个关键帧中改善了融合关键帧的质量。例如,将深度信息的多个帧融合到单一关键帧中可改善关键帧的深度信息(或深度图)之内的平滑度。将深度信息的多个帧融合到单一关键帧中还可以减少融合关键帧深度信息中的噪声。因此,将深度信息的多个帧融合到单一关键帧中改善了关键帧深度信息的质量。在一种具体实施中,融合将来自多个相机帧的RGB-D视频内容的一部分组合到单个关键帧中。在一种具体实施中,关键帧包括比单个相机帧更多的RGB-D数据。在一种具体实施中,在顺序关键帧之间,所有RGB-D视频内容(例如,所有相机视图)被融合回前一关键帧。
图4B是根据一些具体实施,融合来自当前帧的深度信息和现有关键帧的简化方法的框图。如图4B所示,当前RGB-D相机帧的深度信息或深度数据442的帧与所选择的关键帧的深度信息或深度数据440的帧对准。在各种具体实施中,对准444(例如,以与关键帧融合数据)为3D空间对准。然而,在图4B中,通过将深度像素值向右偏移一列,将关键帧深度数据440与当前RGB-D相机帧的深度数据442对准444。然后将关键帧的深度数据446的对准帧与当前RGB-D相机视图的深度数据442组合。在各种具体实施中,可通过对关键帧的对准深度数据446和当前RGB-D相机视图的深度数据442进行简单平均(例如,如图4B所示)或复杂的加权平均,从而组合448深度数据。在一些具体实施中,当前RGB-D相机帧的深度数据442和关键帧深度数据440包括概率值(例如置信度值),概率值提供当前RGB-D相机帧的深度数据442与关键帧的对准深度数据446的更稳健或精确的组合448,这可获得“融合”关键帧数据449。例如,深度概率值可唯一地附接到每个像素或以减小的粒度寻址到多个空间相关像素、数据相关像素等。通常,关键帧的对准深度数据440比当前RGB-D相机视图的深度数据442更精确。在图4B中,关键帧的深度数据446与当前RGB-D相机视图的深度数据442对准,然而,当前RGB-D相机帧的深度数据442可与关键帧深度数据440对准。
将当前RGB信息融合到关键帧中可以与关键帧深度信息融合类似的方式实现(例如,参见图4B)。当前RGB-D相机帧的颜色数据需要与关键帧的颜色数据对准。在对准之后,将附接到RGB-D相机帧的RGB信息帧和关键帧的RGB信息帧中的像素的概率值(例如置信度值)用于将信息的颜色帧融合在一起。在一种具体实施中,深度信息的对准足以将用于融合来自当前相机帧的RGB-D数据的颜色信息对准到关键帧。
将RGB颜色信息的多个帧融合到单个关键帧中可减少融合关键帧RGB图像帧中的噪声。通过利用RGB-D相机的快门在时间上变化而RGB-D相机视图的多个部分重叠的事实,将RGB颜色信息的多个帧融合到单个关键帧中可允许在单个融合关键帧处生成高动态范围(HDR)颜色信息。因此,每个关键帧将具有比一个RGB-D相机视图的任何单个RGB颜色帧更多/更好的信息(例如,HDR信息和/或HDR像素值)。HDR图像产生比标准数字成像或摄影可能产生的更大的动态光度范围(例如,发射或反射的波长加权的功率),并且可呈现与通过人类视觉系统所经历的亮度相似的亮度范围。可通过捕获并随后组合同一主题的若干不同更窄范围的曝光来实现HDR。
图5是根据一些具体实施,基于关键帧的像素级融合对真实世界场景进行3D重建的简化方法的框图以提供致密重建。
在框560处,方法500接收或捕获当前相机帧的RGB-D信息(例如,如上文在框210处所述)。
在框570处,方法500可使用当前相机帧的深度信息或颜色信息(如框220处所述)来估计RGB-D相机的位置和空间取向(例如,相机姿态)。
在框580处,方法500选择N个关键帧,其中N为大于1的正整数。在一种具体实施中,所选择的N个关键帧最接近当前相机位置(例如,姿态)。在一种具体实施中,N在3-5之间。在一些具体实施中,使用水平距离或包括x、y和z方向上的距离的3D空间距离来选择“最近”关键帧。在一些具体实施中,可基于其他因素来识别或创建关键帧。在各种具体实施中,可基于RGB-D相机的运动来识别或创建关键帧。当在当前相机帧和附近的关键帧(诸如紧接于前的关键帧)之间存在充分移动(例如,超过阈值)或足够移动时,识别/创建新的关键帧(例如,如框230中所述)。
在框590处,在各种具体实施中,当重建RGB-D相机的当前帧的真实世界3D场景时,方法500可使用N个所选择的关键帧。为了渲染当前相机视图的当前虚拟重建,将N个关键帧的颜色和深度信息重新投影到当前相机视点(例如,基于框570中识别的相机位置)并组合(例如,融合)以重建真实世界场景的3D虚拟表示。在框590处,通过使用用于融合关键帧的深度融合和颜色融合(例如,框240,图4B),各种具体实施使得能够实时地对真实世界场景进行密集高质量的重建。因此,产生了更准确、更高质量、更平滑、噪声减少或高动态范围的彩色重建。例如,通过利用相机的快门在时间上变化而相机帧的多个部分重叠的事实,将RGB颜色信息的多个帧融合到单个关键帧中可允许重建高动态范围纹理。在图3B中示出了根据一些具体实施的重建330。
在框590处,在一些具体实施中,每个彩色像素值和深度像素值都具有对应的概率值(例如,置信度值/可信度)。在这种情况下,一旦重新投影到同一相机视图中,则根据概率值将来自N个所选择的关键帧的颜色和深度信息组合。在一些具体实施中,将相应的N个关键帧深度值融合在一起(例如,与当前RGB-D相机视点的任选颜色和深度信息融合),并且将相应的N个关键帧颜色值融合在一起,以与环境的当前相机帧实时地构成单个对应虚拟重建。
图6是根据一些具体实施,基于关键帧处的颜色或深度信息的像素级融合对真实世界场景进行3D重建的简化方法的框图。如图6所示,在框605处,方法600在多个时间接收针对RGB-D相机视场之内真实世界场景的多个帧的颜色和深度信息,该颜色和深度信息包括在多个时间的每个时间针对相机视场的像素的颜色值和深度值(例如,如在框210中所述)。
在框615处,方法600识别关键帧,该关键帧包括针对RGB-D相机的多个帧的所选择帧的颜色和深度信息,以及在三维(3D)坐标系中限定的关联相机位置。
在框625处,方法600接收RGB-D相机的当前帧,该当前帧包括针对RGB-D相机当前时间的视场的像素的当前颜色值和当前深度值。在框635处,方法600基于相机的当前帧来确定RGB-D相机在3D坐标系中的当前姿态。
在框645处,方法600基于当前帧和当前姿态来调节(例如,更新)关键帧的至少一个关键帧。在一种具体实施中,通过将关键帧的颜色值与当前颜色值融合,或将关键帧的深度值和当前深度值融合(例如,如在框240和图4B处所述)来调节关键帧。
在框655处,方法600基于至少一个关键帧提供真实世界场景的当前帧的虚拟表示。在各种具体实施中,在框655处,使用RGB-D相机的当前姿态和两个或更多个关键帧来形成当前帧的虚拟表示,该虚拟表示是通过融合两个或更多个关键帧的颜色和深度信息来提供的。在一些具体实施中,两个或更多个关键帧本身具有融合的颜色和深度信息(例如,如在框240和图4B处所述)。
图8是根据一些具体实施,基于RGB-D相机的当前姿态,虚拟表示真实世界3D场景的当前RGB-D相机FOV的方法800的流程图。在各种具体实施中,方法800可使用所接收的RGB-D视频或周期性对准的RGB图像和深度图像来(1)定位在三维(3D)坐标系中限定的RGB-D相机空间位置,以及(2)重建当前RGB-D相机视图的3D虚拟表示,两种操作都是实时进行的。
如图8所示,在框810处,方法800可在RGB-D相机的视场内在多个时间接收真实世界场景的多个帧的颜色和深度信息。颜色和深度信息可包括在多个时间中的每个时间的相机视场像素的颜色值和深度值。颜色和深度信息可包括RGB帧和对准的深度数据。在一种具体实施中,多个时间的多个帧形成RGB-D相机观看片段。
在框820处,方法800使用当前相机帧的深度信息或颜色信息(参见框220)来估计相机的位置和空间取向(例如,相机姿态)。
在框830处,方法800基于相机运动识别关键帧。关键帧包括与已知时间的相机姿态(例如,在空间中的位置和取向)相关联的对准的RGB图像信息和深度信息。如果在框830处确定这是当前相机观看片段的第一帧,则在框832处创建/识别新的关键帧。另选地,如果在框830处确定相机位置与任何现有关键帧或在时间上紧接于前的关键帧有足够大的移动(例如,大于规定距离),则在框832中使用当前相机视场的颜色和深度信息来创建/识别新的关键帧。否则,控制从框830传递到框840,并且调节(例如,更新)当前关键帧。在一些具体实施中,通过将一个或多个帧组合成关键帧来调节关键帧。在一种具体实施中,将当前相机FOV的颜色和深度信息融合到现有关键帧(例如,紧接于前的关键帧)中。通过针对视场的像素融合颜色值和融合深度值(例如,参见框240)来实现融合。
在框850处,方法800可使用当前相机姿态来生成或更新当前相机观看片段的姿态图。每个相机观看片段在一个点开始,然后开始移动离开该起点。如图7所示,姿态图700具有起点701和当前相机位置720,该当前相机位置可相对于姿态图700被活动地显示。根据一些具体实施,姿态图700还可包括关键帧702/704。如图7所示,在当前相机视点的当前虚拟重建中使用N=3个关键帧704。
在如图7所示的一种具体实施中,在围绕现有关键帧移动当前RGB-D相机时,方法800将当前RGB-D相机信息融合到紧接于前的关键帧706。在图7中,当前RGB-D相机位置正在扩展姿态图700。在图4A所示的另一种具体实施中,当前RGB-D相机帧(例如,信息)正被融合到在当前相机视点的当前虚拟重建中使用的关键帧406,并且当前RGB-D相机位置不扩展姿态图400。
由于相机轨线和3D模型均相对于彼此进行估计,因此测量误差可在每个RGB-D相机观看片段期间累积。换句话讲,随着时间的推移相机深度测量中积累了测量漂移,这随后可能导致相机位置的漂移。每个相机观看片段在一个起点开始,然后移动离开该起点。因此,相机位置的漂移将由于深度测量中的误差开始随时间推移而累积。减小或最小化整个相机观看片段(例如,姿态图)中相机位置漂移的一个示例性操作是环路闭合。当检测到相机位置已返回至先前位置(例如,从而闭合姿态图中的环路)时,可确定并随后校正累积漂移的误差。另外地,该校正可用于更新沿姿态图的所有关键帧,以减小整个姿态图中的漂移误差。在图7中,在姿态图700中示出了环路闭合点730。例如,可重新传播在环路闭合点确定的校正以校正沿图的每个关键帧在空间中的3D位置和3D旋转(例如,取向)。
在框880处,方法800可选择N个关键帧(例如,参见框580)。优选地,N个关键帧最接近新型当前RGB-D相机视点(例如,如姿态图700中所示)。例如,N可以在2-10之间。
在框890处,当重建RGB-D相机的当前帧的真实世界3D场景时,方法800可使用N个所选择的关键帧。为了渲染当前相机视图的当前虚拟重建,将N个关键帧的颜色和深度信息重新投影到当前相机视点(例如,基于框570中识别的相机位置)并组合(例如,融合)以重建真实世界场景的3D虚拟表示(例如,参见框590)。
现在参见图9,其示出了根据一些具体实施的多功能设备900的简化功能框图。在一些具体实施中,多功能电子设备900包括处理器905、显示器910、用户界面915、图形硬件920、设备传感器925(例如,接近传感器/环境光传感器、加速度计或陀螺仪)、麦克风930、音频编解码器935、扬声器940、通信电路945、数字图像捕获电路950(例如,包括RGB-D相机110)、视频编解码器955(例如,由数字图像捕获单元950支持)、存储器960、存储设备965和通信总线970。在一些具体实施中,多功能电子设备900是数字相机、便携式电子设备或个人电子设备,诸如个人数字助理(PDA)、个人音乐播放器、移动电话或平板电脑。
在一些具体实施中,处理器905执行必要的指令以实施或控制设备900执行的很多功能的操作(例如,如本文所公开的生成或处理图像)。例如,处理器905驱动显示器910并从用户界面915接收用户输入。在一些具体实施中,用户界面915允许用户与设备900交互。例如,用户界面915可呈现多种形式诸如按钮、小键盘、拨号盘、点击式触摸转盘、键盘、显示屏或触摸屏。处理器905也可例如为片上系统,诸如存在于移动设备中的那些,并且包括专用图形处理单元(GPU)。在一些具体实施中,处理器905基于精简指令集计算机(RISC)或复杂指令集计算机(CISC)架构或任何其他合适的架构,并且可包括一个或多个处理核心。在一些具体实施中,图形硬件920是用于处理图形或辅助处理器905处理图形信息的专用计算硬件。在一些具体实施中,图形硬件920包括可编程GPU。
在一些具体实施中,图像捕获电路950使用传感器(或像素传感器,或传感器元件或像素元件)来捕获图像或事件。至少部分地通过以下设备处理来自图像捕获电路950的输出:一个或多个视频编解码器955,或处理器905,或图形硬件920,或结合在电路950之内的专用图像处理单元或流水线。由此捕获的图像可存储在存储器960或存储装置955中。
在一些具体实施中,根据本文公开的方法,至少部分地通过以下设备处理由传感器和相机电路950捕获的图像:一个或多个视频编解码器955,或处理器905,或图形硬件920,或结合在电路950之内的专用图像处理单元。由此捕获或处理的图像被存储在存储器960或存储装置965中。存储器960包括由处理器905和图形硬件920用于执行设备功能的一个或多个不同类型的介质。例如,存储器960可包括存储器高速缓存、只读存储器(ROM)或随机存取存储器(RAM)。存储装置965可存储媒体(如,音频、图像和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。在一些具体实施中,存储装置965包括一个或多个非暂态存储介质,包括例如磁盘(固定盘、软盘和可移除盘)和磁带、光学介质(诸如CD-ROM和数字视频光盘(DVD)),以及半导体存储设备(诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。在一些具体实施中,存储器960和存储装置965用于有形地保持组织成一个或多个模块并以任何所需的计算机编程语言写成的计算机程序指令或代码。例如,在由处理器905执行时,此类计算机程序代码可实现本文所述的方法中的一种或多种。
本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而,本领域的技术人员将理解,可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中,没有详细地介绍普通技术人员已知的方法、设备或系统,以便不使要求保护的主题晦涩难懂。
除非另外特别说明,否则应当理解,在整个说明书中,利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程,诸如一个或多个计算机或类似的电子计算设备,其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。
本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统,其访问存储的软件,该软件将计算系统从通用计算设备编程或配置为实现本发明主题的一个或多个具体实施的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。
本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化,例如,可以将框重新排序、组合或者分成子框。某些框或过程可以并行执行。
本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言,其不排除适用于或被配置为执行额外任务或步骤的设备。另外,“基于”的使用意味着开放和包容性,因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。
还将理解的是,虽然术语“第一”、“第二”等可能在本文中用于描述各种元素,但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如,第一节点可以被称为第二节点,并且类似地,第二节点可以被称为第一节点,其改变描述的含义,只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点,但它们不是同一个节点。
本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样,单数形式的“一个”(“a”“an”)和“该”旨在也涵盖复数形式,除非上下文清楚地另有指示。还将理解的是,本文中所使用的术语“或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“comprises”或“comprising”)本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件或其分组。
如本文所使用的,术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真,具体取决于上下文。类似地,短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真,具体取决于上下文。
本发明的前述描述和概述应被理解为在每个方面都是例示性和示例性的,而非限制性的,并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定,而是根据专利法允许的全部广度。应当理解,本文所示和所述的具体实施仅是对本发明原理的说明,并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。
Claims (18)
1.一种用于提供虚拟表示的方法,包括:
在具有一个或多个处理器的电子设备处:
在多个时间在相机的视场之内接收真实世界场景的多个帧,所述多个帧包括针对所述相机的所述视场的像素的颜色值和深度值;
从所述相机的所述视场内的所述真实世界场景的所述多个帧中选择关键帧,所述关键帧与在三维3D坐标系中限定的相机姿态相关联;
接收当前在所述相机的所述视场之内的所述真实世界场景的当前帧,所述当前帧包括针对当前时间下所述相机的所述视场的所述像素的当前颜色值和当前深度值;
基于所述当前帧确定所述相机在所述3D坐标系中的当前相机姿态;以及
基于所述相机的所述当前相机姿态、所述当前帧和所述关键帧中的两个或更多个来提供所述当前帧的虚拟表示,所述虚拟表示是基于所述关键帧中的两个或更多个关键帧的所述颜色值和所述深度值提供的,其中提供所述当前帧的所述虚拟表示包括:
基于与所选择的关键帧中的每个关键帧相关联的所述相机姿态与所述当前相机姿态的空间接近度来选择所述两个或更多个关键帧;以及
将所选择的所述两个或更多个关键帧的所述颜色值和所述深度值与所述当前帧的针对所述当前相机姿态的视场中的像素的所述当前颜色值和所述当前深度值进行组合,以提供所述当前帧的所述虚拟表示。
2.根据权利要求1所述的方法,还包括:
将所选择的两个或更多个所述关键帧投影到所述当前相机姿态中。
3.根据权利要求2所述的方法,其中所述组合包括:
所选择的两个或更多个所述关键帧和所述当前帧的所述深度值的对应概率方差值;或者
所选择的两个或更多个所述关键帧和使用高动态范围图像处理的所述当前帧的颜色值的对应概率方差值;或者
所选择的两个或更多个所述关键帧和所述当前帧的所述深度值的对应概率方差值以及所选择的两个或更多个所述关键帧和所述当前帧的所述颜色值的对应概率方差值。
4.根据权利要求1所述的方法,还包括调节所述关键帧中的一个关键帧,其中通过将所述真实世界场景的所述多个帧中的至少一个帧组合到所述关键帧中,直到满足用于选择新关键帧的条件,从而调节所述关键帧。
5.根据权利要求4所述的方法,其中用于选择新关键帧的条件是在所述3D坐标系中从所述当前相机姿态的相机位置到紧接于前的关键帧的相机姿态的相机位置的规定3D空间距离。
6.根据权利要求1所述的方法,还包括:调节所述关键帧中的关键帧,其中通过将来自所述真实世界场景的多个后续帧的深度值与所述关键帧的所述深度值进行组合并且将来自所述真实世界场景的多个后续帧的颜色值与所述关键帧的颜色值进行组合来调节所述关键帧,直到满足选择新关键帧的条件。
7.根据权利要求1所述的方法,还包括:
在当前片段记录期间形成所述相机的所述姿态所行进的路径的历史姿态图,其中所述当前片段记录包括所述真实世界场景的所述多个帧;
将所述关键帧存储在存储器中,所述关键帧对应于历史姿态图中的相对3D空间位置;
比较所述当前相机姿态的相机位置与所述历史姿态图;
在所述当前相机姿态的所述相机位置匹配所述当前片段记录的历史姿态图中的相机位置时,确定环路闭合条件;以及
更新所述当前片段记录的所述关键帧,其中所述环路闭合条件是通过图像帧比较确定的。
8.根据权利要求1所述的方法,其中确定所述相机的所述当前相机姿态包括:
定义函数,以将所述当前帧的所述颜色值和深度值翘曲成所述相机的紧接于前的帧的虚拟表示的颜色值和深度值,其中所述函数在针对不同潜在当前相机姿态的颜色值和深度值中导致不同误差量;以及
通过使用所述函数最小化颜色值和深度值中的误差来确定所述当前相机姿态。
9.一种用于提供虚拟表示的方法,包括:
在具有一个或多个处理器的电子设备处:
在多个时间在相机的视场之内接收真实世界场景的多个帧,所述多个帧包括针对所述相机的所述视场的像素的颜色值和深度值;
从所述相机的所述视场内的所述真实世界场景的所述多个帧中选择关键帧,所述关键帧与在三维3D坐标系中限定的相机姿态相关联;
接收当前在所述相机的所述视场之内的所述真实世界场景的当前帧,所述当前帧包括针对当前时间下所述相机所述视场的所述像素的当前颜色值和当前深度值;
基于所述当前帧确定所述相机在所述3D坐标系中的当前相机姿态;
基于所述当前帧和当前姿态来调节所述关键帧中的一个关键帧,通过使用所选择的所述关键帧和所述当前帧的所述深度值的对应概率方差值来组合所述深度值、并使用所选择的所述关键帧和所述当前帧的所述颜色值的对应概率方差值来组合所述颜色值,从而调节所述关键帧,并且所述颜色值和所述深度值来自所述真实世界场景的多个后续帧;以及
基于所述相机的所述当前相机姿态和经调节的所述关键帧中的至少一个来提供所述当前帧的虚拟表示。
10.根据权利要求9所述的方法,其中每个关键帧包括来自所述真实世界场景的多个后续帧的RGB-D数据。
11.根据权利要求9所述的方法,其中调节所述关键帧包括:
将所述真实世界场景的多个后续帧组合到紧接于前的关键帧中,直到满足用于选择新关键帧的空间距离条件,其中所述组合包括使用所述深度值的对应概率方差值来组合所述深度值,以及使用所述多个后续帧的所述颜色值的对应概率方差值来将所述颜色值组合到所述紧接于前的关键帧中,其中所述紧接于前的关键帧是所述关键帧。
12.根据权利要求9所述的方法,还包括:
在当前片段记录期间,形成由所述相机的所述姿态所行进的路径的历史姿态图;以及
将所述关键帧存储在存储器中,所述关键帧对应于历史姿态图中的相对3D空间位置。
13.根据权利要求12所述的方法,还包括:
比较所述当前相机姿态的相机位置与所述历史姿态图;
在所述当前相机姿态的所述相机位置匹配所述当前片段记录的历史姿态图中的相机位置时,确定环路闭合条件;以及
更新所述当前片段记录的所述关键帧,其中所述环路闭合条件是通过图像帧比较确定的。
14.根据权利要求9所述的方法,其中确定所述相机的所述当前相机姿态包括:
定义函数,以将所述当前帧的所述颜色值和深度值翘曲成所述相机的紧接于前的帧的虚拟表示的颜色值和深度值,其中所述函数在针对不同潜在当前相机姿态的颜色值和深度值中导致不同误差量;以及
通过使用所述函数最小化颜色值和深度值中的误差来确定所述当前相机姿态。
15.根据权利要求9所述的方法,其中提供所述当前帧的所述虚拟表示包括基于与所述关键帧相关联的相机姿态与所述当前相机姿态的空间接近度来选择所述关键帧中的两个或更多个。
16.根据权利要求9所述的方法,其中所述相机输出密集的红-绿-蓝-深度RGB-D信息。
17.根据权利要求9所述的方法,其中经调节的所述关键帧中的每个关键帧是通过将来自所述真实世界场景的所述多个后续帧的所述颜色值和所述深度值组合到每个现有关键帧中而被调节的,直到满足选择新的关键帧的条件。
18.一种用于提供虚拟表示的方法,包括:
在具有一个或多个处理器的电子设备处:
在多个时间在相机的视场之内接收真实世界场景的多个帧,所述多个帧包括针对所述相机的所述视场的像素的颜色值和深度值;
从所述相机的所述视场内的所述真实世界场景的所述多个帧中选择关键帧,所述关键帧与在三维3D坐标系中限定的相机姿态相关联;
接收当前在所述相机的所述视场之内的所述真实世界场景的当前帧,所述当前帧包括针对当前时间下所述相机的所述视场的所述像素的当前颜色值和当前深度值;
基于所述当前帧确定所述相机在所述3D坐标系中的当前相机姿态;
基于所述当前帧和当前相机姿态来调节所述关键帧中的关键帧,所述关键帧通过以下被调节:使用所述关键帧和所述当前帧所述深度值的对应概率方差值来组合所述深度值、并使用所述关键帧和所述当前帧的颜色值的对应概率方差值来组合所述颜色值;以及
基于所述相机的所述当前相机姿态和经调节的所述关键帧中的至少一个关键帧来提供所述当前帧的虚拟表示,提供所述当前帧的所述虚拟表示包括:
基于与所述关键帧相关联的相机姿态与所述当前相机姿态的空间接近度来选择两个或更多个关键帧,
将所选择的两个或多个关键帧投影到当前相机姿态中;和
组合所投影的所述所选择的两个或更多个关键帧和所述当前帧以提供所述虚拟表示,其中所述组合包括:使用所述所选择的两个或更多个关键帧和所述当前帧的所述深度值的对应概率方差值来组合所述深度值,并使用所述所选择的两个或更多个关键帧和所述当前帧的颜色值的对应概率方差值来组合所述颜色值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862649202P | 2018-03-28 | 2018-03-28 | |
US62/649,202 | 2018-03-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110322542A CN110322542A (zh) | 2019-10-11 |
CN110322542B true CN110322542B (zh) | 2023-10-27 |
Family
ID=68057118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910222279.0A Active CN110322542B (zh) | 2018-03-28 | 2019-03-22 | 重建真实世界3d场景的视图 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10984583B2 (zh) |
CN (1) | CN110322542B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3028708A1 (en) * | 2018-12-28 | 2020-06-28 | Zih Corp. | Method, system and apparatus for dynamic loop closure in mapping trajectories |
US11288842B2 (en) | 2019-02-15 | 2022-03-29 | Interaptix Inc. | Method and system for re-projecting and combining sensor data for visualization |
KR102664410B1 (ko) * | 2019-05-03 | 2024-05-08 | 엘지전자 주식회사 | 다중 센서 및 인공지능에 기반하여 맵을 생성하고 맵을 이용하여 주행하는 로봇 |
US11158087B2 (en) * | 2019-12-06 | 2021-10-26 | Intel Corporation | Adaptive virtual camera for indirect-sparse simultaneous localization and mapping systems |
GB2613958A (en) * | 2020-05-13 | 2023-06-21 | Apple Inc | Spatial video capture and replay |
EP3942794B1 (en) | 2020-05-26 | 2023-11-29 | Baidu.com Times Technology (Beijing) Co., Ltd. | Depth-guided video inpainting for autonomous driving |
CN112235556B (zh) * | 2020-09-27 | 2022-10-14 | 北京灵境世界科技有限公司 | 一种vr场景构建方法、系统和装置 |
CN112102411B (zh) * | 2020-11-02 | 2021-02-12 | 中国人民解放军国防科技大学 | 一种基于语义误差图像的视觉定位方法及装置 |
CN112446845B (zh) * | 2020-11-27 | 2024-12-10 | 鹏城实验室 | 地图构建方法、装置、slam系统以及存储介质 |
CN112378409B (zh) * | 2020-12-01 | 2022-08-12 | 杭州宇芯机器人科技有限公司 | 动态环境下基于几何与运动约束的机器人rgb-d slam方法 |
CN113689540B (zh) * | 2021-07-22 | 2024-04-23 | 清华大学 | 基于rgb视频的物体重建方法和装置 |
CN114401451B (zh) * | 2021-12-28 | 2025-04-04 | 有半岛(北京)信息科技有限公司 | 视频编辑方法、装置、电子设备及可读存储介质 |
US12062145B2 (en) * | 2022-02-01 | 2024-08-13 | Samsung Electronics Co., Ltd. | System and method for three-dimensional scene reconstruction and understanding in extended reality (XR) applications |
CN114693762A (zh) * | 2022-04-15 | 2022-07-01 | 西南科技大学 | 一种核辐射场景空间与辐射信息三维融合重建装置及方法 |
CN116824070B (zh) * | 2023-08-31 | 2023-11-24 | 江西求是高等研究院 | 一种基于深度图像的实时三维重建方法及系统 |
CN119091060B (zh) * | 2024-11-07 | 2025-02-11 | 合肥工业大学 | 基于三维高斯溅射的腹腔镜手术场景三维重建方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934827A (zh) * | 2015-12-31 | 2017-07-07 | 杭州华为数字技术有限公司 | 三维场景的重建方法和装置 |
CN107680074A (zh) * | 2016-08-02 | 2018-02-09 | 富士通株式会社 | 几何重建对象的方法和设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6377257B1 (en) * | 1999-10-04 | 2002-04-23 | International Business Machines Corporation | Methods and apparatus for delivering 3D graphics in a networked environment |
JP4591576B2 (ja) * | 2008-08-18 | 2010-12-01 | ソニー株式会社 | 画像処理装置、画像処理方法、プログラム |
US8537200B2 (en) * | 2009-10-23 | 2013-09-17 | Qualcomm Incorporated | Depth map generation techniques for conversion of 2D video data to 3D video data |
US8570320B2 (en) * | 2011-01-31 | 2013-10-29 | Microsoft Corporation | Using a three-dimensional environment model in gameplay |
US10674135B2 (en) * | 2012-10-17 | 2020-06-02 | DotProduct LLC | Handheld portable optical scanner and method of using |
GB201303076D0 (en) * | 2013-02-21 | 2013-04-10 | Isis Innovation | Generation of 3D models of an environment |
KR102137264B1 (ko) * | 2013-07-09 | 2020-07-24 | 삼성전자주식회사 | 카메라 포즈 추정 장치 및 방법 |
JP6381198B2 (ja) * | 2013-11-08 | 2018-08-29 | キヤノン株式会社 | 制御装置、制御方法及びプログラム |
US20180176483A1 (en) * | 2014-12-29 | 2018-06-21 | Metaio Gmbh | Method and sytem for generating at least one image of a real environment |
US10701282B2 (en) * | 2015-06-24 | 2020-06-30 | Intel Corporation | View interpolation for visual storytelling |
KR102146398B1 (ko) | 2015-07-14 | 2020-08-20 | 삼성전자주식회사 | 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법 |
CN105100773B (zh) | 2015-07-20 | 2017-07-28 | 清华大学 | 立体视频制作方法、立体视图制作方法和制作系统 |
US9965689B2 (en) * | 2016-06-09 | 2018-05-08 | Qualcomm Incorporated | Geometric matching in visual navigation systems |
US20180005015A1 (en) | 2016-07-01 | 2018-01-04 | Vangogh Imaging, Inc. | Sparse simultaneous localization and matching with unified tracking |
-
2019
- 2019-02-28 US US16/288,211 patent/US10984583B2/en active Active
- 2019-03-22 CN CN201910222279.0A patent/CN110322542B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934827A (zh) * | 2015-12-31 | 2017-07-07 | 杭州华为数字技术有限公司 | 三维场景的重建方法和装置 |
CN107680074A (zh) * | 2016-08-02 | 2018-02-09 | 富士通株式会社 | 几何重建对象的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
US10984583B2 (en) | 2021-04-20 |
US20190304170A1 (en) | 2019-10-03 |
CN110322542A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322542B (zh) | 重建真实世界3d场景的视图 | |
US11295473B2 (en) | Continuous local 3D reconstruction refinement in video | |
CN111557016B (zh) | 用于生成包括模拟的运动模糊的图像的方法和设备 | |
US20200380769A1 (en) | Image processing method and apparatus, storage medium, and computer device | |
EP2992508B1 (en) | Diminished and mediated reality effects from reconstruction | |
JP6410918B2 (ja) | パノラマ映像コンテンツの再生に使用するシステム及び方法 | |
EP3735677A1 (en) | Fusing, texturing, and rendering views of dynamic three-dimensional models | |
US10404962B2 (en) | Drift correction for camera tracking | |
GB2602180A (en) | Embedding complex 3D objects into an augmented reality scene using image segmentation | |
US11451758B1 (en) | Systems, methods, and media for colorizing grayscale images | |
US10332242B2 (en) | Method and system for reconstructing 360-degree video | |
CN112561978B (zh) | 深度估计网络的训练方法、图像的深度估计方法、设备 | |
JP2017529620A (ja) | 姿勢推定のシステムおよび方法 | |
US20170374256A1 (en) | Method and apparatus for rolling shutter compensation | |
US20170064279A1 (en) | Multi-view 3d video method and system | |
WO2021031210A1 (zh) | 视频处理方法和装置、存储介质和电子设备 | |
US11948257B2 (en) | Systems and methods for augmented reality video generation | |
CN114220038A (zh) | 使用空间-时间模型的视频背景估计 | |
CN110490131B (zh) | 一种拍摄设备的定位方法、装置、电子设备及存储介质 | |
EP4443869A1 (en) | Foveal region processing for artificial reality devices | |
CN108027646B (zh) | 一种终端显示防抖方法及装置 | |
EP3716217A1 (en) | Techniques for detection of real-time occlusion | |
KR102561903B1 (ko) | 클라우드 서버를 이용한 ai 기반의 xr 콘텐츠 서비스 방법 | |
WO2022061631A1 (en) | Optical tracking for small objects in immersive video | |
Jang et al. | Dual-Modality Cross-Interaction-Based Hybrid Full-Frame Video Stabilization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |