CN107958446B - 信息处理设备和信息处理方法 - Google Patents
信息处理设备和信息处理方法 Download PDFInfo
- Publication number
- CN107958446B CN107958446B CN201610901553.3A CN201610901553A CN107958446B CN 107958446 B CN107958446 B CN 107958446B CN 201610901553 A CN201610901553 A CN 201610901553A CN 107958446 B CN107958446 B CN 107958446B
- Authority
- CN
- China
- Prior art keywords
- information
- depth
- image
- processing apparatus
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/521—Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Optics & Photonics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Processing (AREA)
Abstract
本公开涉及信息处理设备和信息处理方法。根据一个实施例的信息处理设备包括处理电路,处理电路被配置为获取深度图像以及关于拍摄该深度图像的图像获取装置的成像特性的信息;基于该信息确定用于对深度图像进行处理的优化模型;以及基于优化模型对深度图像进行处理。
Description
技术领域
本公开一般涉及信息处理,更具体地,涉及用于深度图像增强的信息处理设备和信息处理方法。
背景技术
深度图像在诸如机器人科学、人机交互以及增强现实等许多应用中起到重要作用。特别地,消费级(consumer-grade)深度传感器使得许多基于深度的应用成为可能,这些应用例如包括不需要控制器的视频游戏、简单的三维重建等。
由于深度图像的质量影响基于深度的应用的性能,研究者已经开发和扩展了多种图像滤波器以用于深度图像恢复和增强。这些方法大致可以分成基于滤波的方法和基于优化的方法。一般来说,基于滤波的方法较快但具有有限的增强性能,而基于优化的方法较慢但具有较好的增强能力。
发明内容
在下文中给出了关于本发明实施例的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,以下概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据一个实施例,提供一种信息处理设备,其包括处理电路。处理电路被配置为获取深度图像以及关于拍摄该深度图像的图像获取装置的成像特性的信息;基于该信息确定用于对深度图像进行处理的优化模型;以及基于优化模型对深度图像进行处理。
根据另一个实施例,提供一种信息处理方法,包括获取深度图像以及关于拍摄该深度图像的图像获取装置的成像特性的信息的步骤。该方法还包括基于该信息确定用于对深度图像进行处理的优化模型的步骤。该方法还包括基于优化模型对深度图像进行处理的步骤。
根据本发明的实施例,通过在考虑拍摄深度图像的图像获取设备的成像特性的情况下对深度图像进行优化,能够提高深度图像的优化效果。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示出根据本发明一个实施例的信息处理设备的配置示例的框图;
图2是示出根据本发明另一个实施例的信息处理设备的配置示例的框图;
图3是示出根据又一个实施例的信息处理设备的配置示例的框图;
图4是示出根据再一个实施例的信息处理设备的配置示例的框图;
图5是示出根据本发明一个实施例的信息处理方法的过程示例的流程图;
图6是示出根据本发明另一个实施例的信息处理设备的配置示例的框图;
图7是示出实现本公开的方法和设备的计算机的示例性结构的框图;
图8是用于说明根据本发明实施例的总体配置的示意图;
图9是用于说明量化步长与摄像机参数之间的关系的示意图;
图10是用于说明噪声水平的测量和内插的示意图;以及
图11a至图11d示出了用于对本发明示例实施例的优化处理进行定量评估的示例视图。
具体实施方式
下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1示出了根据本发明一个实施例的信息处理设备100的配置示例。信息处理设备例如可以被实现为个人计算机(例如桌上型计算机、膝上型计算机等)、工作站、游戏机(例如体感游戏机)、电视机、移动终端(诸如智能电话、平板计算机、便携式游戏终端等)或者摄像装置(例如摄像机、监视器)等。然而,本发明实施例的应用范围不限于以上列举的方面,而是可以用于任何能够获取深度图像的设备,或者与够能获取深度图像的设备通信耦合或电气耦合以对深度图像进行处理的设备。
如图1所示,根据本实施例的信息处理设备100包括处理电路110。处理电路110例如可以实现为特定芯片、芯片组或者中央处理单元(CPU)等。
处理电路110包括获取单元111、确定单元113和优化单元115。需要指出,虽然附图中以功能块的形式示出了获取单元111、确定单元113和优化单元115,然而应理解,获取单元111、确定单元113和优化单元115的功能也可以由处理电路110作为一个整体来实现,而并不一定是通过处理电路110中分立的实际部件来实现。另外,虽然图中以一个框示出处理电路110,然而信息处理设备100可以包括多个处理电路,并且可以将获取单元111、确定单元113和优化单元115的功能分布到多个处理电路中,从而由多个处理电路协同操作来执行这些功能。
获取单元111被配置为获取深度图像以及关于拍摄该深度图像的图像获取装置的成像特性的信息。
需要指出,深度图像和成像特性信息并不一定是由信息处理设备直接获取的,而是可以从其他设备获取。
其中,深度图像可以是从独立于信息处理设备100的图像获取装置如深度传感器等获取的。深度传感器可以包括任何已有的能够产生深度图像(以及相应强度图像)的设备,例如微软公司的Kinect传感器、英特尔公司的RealSense传感器以及其他混合深度获取系统等。
成像特性信息例如可以是利用标定板、尺子等工具通过标定算法等预先确定的,或者可以是从图像获取装置的制造商获取的。可以对于每个深度传感器分别测量其成像特性,并且可以将测量的成像特性例如作为简档存储在信息处理设备处。当信息处理设备连接至深度传感器时,可以识别出所连接的深度传感器并且从预先存储的成像特性信息中获取与所连接的深度传感器相应的成像特性信息。
深度图像的成像特性通常与距离或空间有关。根据一个实施例,与深度图像获取装置的成像特性有关的信息可以包括与图像获取装置的量化步长有关的信息和/或与图像获取装置的噪声水平有关的信息。
此外,与深度图像获取装置的成像特性有关的信息还可以包括与图像获取装置的噪声类型有关的信息。噪声类型例如包括高斯噪声、泊松噪声、白噪声等。噪声类型的信息例如可以通过针对深度传感器进行标定、测量或计算等过程来获得。
接下来,分别以量化步长和噪声水平为例说明对深度图像的成像特性的获取的示例方式。
在图像获取装置包括两个摄像单元的情况下,根据一个实施例,与量化步长有关的信息可以包括:摄像单元之间的基线距离(baseline distance),摄像单元的焦距,以及摄像单元的视差比特数。
在通过三角法测量深度的情况下,量化步长qs(z)由摄像单元间的基线距离B和焦距f等确定。图9示出了量化步长与各参数之间的关系,该关系可以表示为
量化步长对应于相邻像素所能分辨的距离差,如图9和等式1所示,该距离差z2-z1与摄像单元与对象之间的距离有关。等式1a中的c表示视差比特数,例如,对于8比特视差,c=1/256,对于12比特视差,c=1/4096。等式1a适用于任何使用两个摄像机的深度传感器(例如立体彩色摄像机)或者“一个投影仪加一个摄像机”式的深度传感器(例如Kinect)。这种估计的近似误差不超过一个量化步长。此外,可以假设两个摄像机具有相同的焦距。
因此,根据一个实施例,如当采用结构光深度传感器时,可以根据以下等式1b近似地确定量化步长:
其中,z表示深度即图像获取装置与拍摄对象之间的距离,qs(z)表示量化步长,c表示视差比特数,f表示焦距,B表示基线距离。
例如,可以采用摄像机校准工具来估计基线距离B和焦距f。针对特定像素,可以根据该像素的深度值自适应地计算出量化步长。
在上述对于量化步长的测量的示例中,给出了针对结构光深度传感器的方法。需要指出的是,这种方法对双目摄像头也同样有效。另外,其他类型的深度传感器例如飞行时间(ToF)传感器也有量化步长,并且可以采用相应的方式进行确定。
另一方面,深度传感器测量的深度值的噪声水平也是与距离有关的。除了与距离有关以外,噪声水平还可以是随空间而变化(spatially variant)的。例如,不同图像区域可以具有不同的噪声水平。相应地,可以在不同的距离处和不同位置处测量噪声水平。
为了获得各个距离和位置处的噪声水平,根据一个实施例,由获取单元111获取的与噪声水平有关的信息可以包括基准深度或基准位置处的基准噪声水平。并且,获取单元111可以被配置为:基于基准噪声水平,通过内插法估计目标深度或目标位置处的噪声水平。
例如,可以将有效工作距离范围(例如,对于Kinect传感器为50至5000毫米)分成多个(例如50至100个)基准距离,并且测量其相应噪声水平。然后,可以将针对这些基准距离测量的噪声水平例如以矩阵的形式存储在信息处理设备中。在测量噪声水平时,可以对多个(例如几十个)所拍摄的深度图进行聚合来作为估计的真实深度图,并通过与该真实深度图进行比较得出噪声水平。
如图10所示,在得到了基准位置处的噪声水平后,对于处于两个基准距离之间的任意距离处的像素,可以通过例如线性内插来计算估计的噪声水平,如以下等式2所示:
其中,nlev(z,u,v)表示深度图坐标位置为(u,v)、深度值为z的像素处的噪声水平,nlev(z1,u,v)和nlev(z2,u,v)分别为基准深度z1和z2处的与坐标位置(u,v)对应的噪声水平。
以上分别以量化步长和噪声水平为例说明对深度图像的成像特性的获取的示例方式。然而,本发明不限于于此。根据深度图像获取装置的具体类型和配置,可以获取与多种其他成像特性有关的信息。
继续参照图1,确定单元113被配置为基于由获取单元111获取的关于图像获取装置的成像特性的信息确定用于对深度图像进行处理的优化模型。
根据一个实施例,优化模型包括二次项,该二次项具有深度值的二次函数的加权和的形式,并且确定单元113被配置为根据由获取单元111获取的信息确定加权和的权重。
根据一个示例实施例,二次项可以包括具有以下形式的保真项:
其中,Di(U)表示保真项,U表示优化后的深度图像,i为保真项的下标,p表示目标像素,Zi表示测量深度图像,Ωi表示测量深度图像中的可用像素的集合,ηi(p)≥0是针对目标像素的权重。
如前所述,由获取单元111获取的关于图像获取装置的成像特性的信息可以包括与图像获取装置的量化步长有关的信息,在这种情况下,确定单元113可以被配置为基于与量化步长有关的信息确定保真项的权重,使得量化步长越大则权重ηi(p)越小。
此外,二次项还可以包括具有以下形式的能量项:
其中,Ei(U)表示能量项,U表示优化后的深度图像,i为能量项的下标,p表示目标像素,q表示目标像素周围的可用像素,Ωi表示测量深度图像中的可用像素的集合,Ωq表示目标像素周围的可用像素的集合,λpq≥0是针对像素对p和q的权重
如前所述,由获取单元111获取的关于图像获取装置的成像特性的信息可以包括与图像获取装置的噪声水平有关的信息,在这种情况下,确定单元113可以被配置为将优化模型确定为使得像素对p和q之间的相似度越大则权重λpq越大,并且噪声水平越高则能量项中加权和的有效项数越多。在能量项中,通常深度值越大则噪声水平越大,因此使得加权和中的有效项数越多。其中,加权和的有效项是指加权和中权值大于某预定阈值(例如0.001)的项。
根据一个实施例,可以将深度增强转化为由下式表示的凸优化问题:
其中k≥1和l≥0分别为保真项和能量项的数量。
在优化模型包括保真项和能量项的情况下,例如能够将保真项和能量项转换成滤波器,从而能够提高处理速度。
此外,根据一个实施例,优化模型还可以包括除上述二次项之外的正则项,并且可以分别针对正则项与二次项进行求解,然后将求解结果进行融合与迭代更新。
在上述示例实施例中,将深度增强转化为由下式表示的凸优化问题:
其中k≥1、l≥0和m≥0分别为保真项、能量项和正则项的数量。
在优化模型包括保真项、能量项和正则项的情况下,一方面,通过将保真项和能量项转换成滤波器能够提高处理速度,另一方面,正则项使得图像的优化效果能够得到增强。
此外,根据一个实施例,优化模型可以包括保真项和正则项,相应地,将深度增强转化为由下式表示的凸优化问题:
其中k≥1和m≥0分别为保真项和正则项的数量。
在优化模型包括保真项和正则项的情况下,正则项使得图像的优化效果能够得到增强。
此外,下面列出了对上述等式中的一些主要符号的附加说明:
k:其对应于深度传感器的数量,k=1对应于单传感器系统,k>1对应于多输入系统;
Zi:第i个深度传感器拍摄的深度图;
Ei(U):根据第i个局部滤波器定义的二次函数;
λpq:归一化权重形式的像素相似度,其可以由颜色、深度或其他局部描述符描述;
Ri(U):与深度图U有关的非二次正则项,例如空间域总方差||U||TV和变换域稀疏度||TU||1。
对于正则项的要求是其对于深度图U是凸的,优化模型可以包含任何有助于改善深度图质量的正则项。
此外,对于上述加权和中的权重可以施加以下要求:
要求2:当Z(p)较大时ηi(p)应该较小,参照前面的等式1a和1b,当深度z较大时量化步长较大,因此该要求对应于前面提到的量化步长越大则权重ηi(p)越小的要求。换句话说,量化步长越大,说明深度值越不可靠,因此在保真项里相应的权值越小。
要求3:当Z(p)与Z(q)较相似时λpq应较大。
上述要求2和要求3使得所确定的优化模型中包含了成像特性的影响。
接下来,给出优化模型的更具体的示例。
示例1:
其中,保真项被定义为:
另外,可以根据等式4,使用以下形式的权重来定义能量项E(U),
其中w=9是滤波窗口,σ=2η(p)是点p处的估计噪声水平。这种定义可以看作是自适应双边滤波器(BF)的变型。
示例2:
其中I1是与深度图像对应的灰度图像。这种定义可以看作是自适应联合双边滤波器(JBF)的变型。
在上述示例中,优化模型包括保真项和能量项。此外,如前所述,优化模型还可以包括正则项。
接下来,给出这种优化模型的一个示例。
示例3:本示例优化模型为其包括一个保真项、一个能量项和一个正则项。其中,保真项和能量项可以具有前面的示例1和示例2中描述的示例形式,正则项可以具有如下面的表1给出的示例形式。例如,正则项可以与偏振信息有关。在本示例中,通过进一步加入正则项,能够步基于例如偏振信息的其他信息进一步提高深度图像增强效果。
本发明实施例中的优化模型中的各项可以具有多种不同的具体形式,并且优化模型可以包括各种形式的项的组合。下面的表1中列出了这些项的一些示例形式,表1的“参数和说明”和“注释”栏中给出了对相应项及其参数的说明。
表1
上面列出的仅仅是优化模型的示例形式,可以根据应用需要确定各项的形式或其组合。
此外,上述示例中包含于偏振有关的项。相应地,根据一个实施例,获取单元111还可以被配置为获取与所述深度图像相对应的偏振信息。
例如,获取单元111可以从能够获取偏振信息的深度传感器获取深度图像和偏振信息,这种传感器例如包括RGB+D+P型传感器,其中RGB表示强度图像,D表示深度图像,P表示偏振信息。
可以使用根据偏振信息得到的形状信息来对深度图像进行增强。例如,通过将根据偏振信息得出的表面法线(也称为偏振法线)与深度图结合来用于深度增强。其中,粗深度图提供对象的几何结构,表面法线能够获取较精细的细节以用于融合。利用偏振信息,能够提高三维建模的质量。
继续参照图1,优化单元115被配置为基于确定单元113所确定的优化模型对深度图像进行处理。
根据一个实施例,优化单元115基于优化模型对深度图像进行处理可以包括:将二次项转换为线性系统;通过求解线性系统得出滤波器;以及将滤波器应用于深度图像。例如,可以通过雅可比迭代方法求解线性系统而得出滤波器。
下面,结合具体示例说明从优化模型得出滤波器的具体方式。
如前所述,在优化模型包括除上述二次项之外的正则项的情况下,可以分别针对正则项与二次项进行求解。对于模型中的二次项,其可以被看作如下优化子问题:
其被转换成对角优势线性系统。使用雅克比迭代方法求解该线性系统可以被视为将加权平均应用于每个像素,其中根据式9得出权重。例如,令k=1、l=1且α1=1,则式9被简化为并且其相关线性系统的第p个等式可以写成
因此,U(p)的雅克比迭代可以写成:
其中t是迭代数量。根据雅克比迭代的形式,可以将针对传感器的滤波器定义为:
其中,X是输入深度图像,Y是经滤波的深度图像。以这种方式,可以得出针对传感器的滤波器。
其中,β2是针对该相似度测量的权重。
接下来,说明分别针对正则项与二次项进行求解的示例方式。可采用分裂近似框架方式(splitting proximal framework)来分别求解所述正则项和二次项,该过程可以包括以下过程:滤波、应用接近算子(proximity operator)、以及聚合。其中,应用接近算子的过程取决于Ri(U)的定义。可以使用高效的定义以实现快速执行。例如,在定义的情况下,存在需对快速算法来求解下式:
而求解过程可以由一系列轻量化的操作来等效,因此,该快速算法成为轻量化运算。
以下给出求解式5的优化问题的示例过程:
接下来,给出利用前述示例1和示例2的优化模型对图11a至图11d所示的示例合成数据集合进行的处理的结果。图11a至图11d分别对应于下面的表2中的视图1至视图4,其中,图11a至图11d的左侧为强度图,右侧为相应的深度图。
其中,参数β1=β=20,β2=40。迭代滤波的迭代次数为5次。
另外,如前所述,示例1可以看作是自适应双边滤波器(BF)的变型,示例2可以看作是自适应联合双边滤波器(JBF)的变型,因此将示例1和示例2的优化模型的处理结果分别与BF和JBF的处理结果(峰值信噪比(PSNR)以及均方误差(MSE))进行了比较。
通过比较表2中的结果可以看出,根据本发明实施例的示例1和示例2的优化模型的处理结果均优于相应的现有优化模型。此外,由于示例2具有更多的项和参数,因此其性能进一步优于示例1。
表2(其中PSNR的单位为分贝,MSE的单位为毫米)
另外,根据一些实施例,信息处理设备可以包括图像获取装置。并且,优化单元所处理的深度图像例如可以是由图像获取装置实时获取的图像。
图2示出了根据一个实施例的信息处理设备的配置示例。如图2所示,信息处理设备200包括处理电路210,处理电路210包括获取单元211、确定单元213和优化单元215。信息处理设备200还包括图像获取装置220,被配置为拍摄对象的深度图像以作为优化单元215的处理的对象。优化单元215从图像获取装置220获取输入深度图像(需要时,还可以包括强度图像、偏振图像等)。除此之外,获取单元211、确定单元213和优化单元215的其他方面的配置与前面参照图1说明的相应单元类似,因此在此省略其重复说明。
根据一个实施例,图像获取装置220还可以被配置为拍摄强度图像和/或偏振图像。图像获取装置220例如可以包括RGB-D数据采集装置,其包括深度图像拍摄装置如深度传感器以及强度图像拍摄装置如彩色摄像机。其中,彩色摄像机例如能够采集连续的彩色图像序列,可以是市面上任意一款摄像机;深度传感器负责采集连续的深度图序列,可以是类似Kinect的结构光深度获取设备,也可以是ToF摄像机。如前所述,图像获取装置220还可以包括RGB-D-P数据采集装置。
图像获取装置220能提供同一时刻采集到的具有像素对应关系的深度图和强度图。其中,强度图、深度图以及偏振图之间的像素对应关系可以通过摄像机标定技术确定,而同一时刻采集例如可以通过硬件同步电路来保证。RGB-D数据采集模块的输出,是同步的彩色图和深度图序列,也称为RGB-D序列或者RGB-D数据流。
此外,根据一个实施例,成像的对象可以包括人,并且信息处理设备可以通过对象识别来实现人机接口的功能,例如用于不需要控制器(controller-free)的人机交互接口。此外,作为人机接口的应用示例包括但不限于:FaceShift(脸部捕捉)是基于深度数据对人脸进行解析,然后把人的表情转移到虚拟角色上的一款产品;例如Xbox 360的体感游戏机能够基于深度数据对人的动作进行解析和识别,实现对游戏角色动作的控制;智能电视上可以集成手势识别的算法,用于帮助用户控制电视。本发明的涉及人机接口的实施例可以与此类示例应用结合,通过提高深度图像的质量来进一步提高上述应用的效果。
如图3所示,根据本实施例的信息处理设备300包括处理电路310以及图像获取装置320。处理电路310包括获取单元311、确定单元313、优化单元315、识别单元317以及生成单元319。其中,获取单元311、确定单元313、优化单元315以及图像获取装置320的配置与前面描述的实施例类似,在此省略其重复说明。
识别单元317被配置为基于由图像获取装置320获取的强度图像和/或经优化单元315处理的深度图像,识别例如成像对象的表情、动作或手势等。
可以基于模式识别领域中已知的技术如深度神经网络等实现识别单元317的识别处理。
生成单元319可以被配置为基于识别单元317所识别出的表情、动作(例如包括人身体的部分或整体的动作)或手势生成相应的操作指令。
此外,除了人机接口功能之外,根据本发明实施例的深度图像处理还可以用于三维图像重建。
如图4所示,根据一个实施例的信息处理设备400包括处理电路410,处理电路410包括获取单元411、确定单元413、优化单元415以及重建单元417。获取单元411、确定单元413以及优化单元415的配置与前面描述的实施例类似,在此省略其重复说明。
重建单元417被配置为基于经优化单元415处理的深度图像,进行对象的三维重建过程。
例如,三维重建过程可以包括深度融合(depth fusion)和/或纹理映射(Texturemapping)。
纹理映射是指把对象的纹理特征设置到的三维模型的相应位置上,纹理特征例如包括色彩、光照、表面结构的细致变化等,以使得三维模型表面的效果更真实。
如果给定的深度图序列是在不同角度下对某个物体或者场景拍摄所得的,那么通过深度融合技术可以获得这个物体或者场景的三维模型。深度图的融合需要知道每个深度图在拍摄时候的姿态。如果连续两帧深度图的姿态区别不大,那么可以先通过迭代最近点(Iterative closest point)方法从深度图中获取拍摄姿态,然后根据深度图对应的姿态将多张深度图融合为一个完整的三维模型。深度融合技术例如包括基于可见度(visibility)的方法、基于总方差(total variance)的方法、基于概率的方法以及基于八叉树的方法等。
以上结合示例实施例说明了根据本发明实施例的信息处理设备及其示例应用。然而,本发明实施例可应用的方面不限于上述方面,而是可以包括各种与深度图像有关的应用领域。
在以上对根据本发明实施例的信息处理设备的描述中,显然还公开了一些方法和过程,接下来,在不重复前面已经描述的一些具体细节的情况下,给出对根据本发明实施例的信息处理方法的说明。
如图5所示,根据本发明实施例的信息处理方法,包括:
在S510,获取深度图像以及关于拍摄该深度图像的图像获取装置的成像特性的信息;
在S520,基于该信息确定用于对深度图像进行处理的优化模型;以及
在S530,基于优化模型对深度图像进行处理。
图6示出了根据一个实施例的信息处理设备的配置示例。如图6所示,信息处理设备600包括获取装置610、确定装置620和优化装置630。获取装置610被配置为获取深度图像以及关于拍摄该深度图像的图像获取装置的成像特性的信息。确定装置620被配置为基于所获取的信息确定用于对深度图像进行处理的优化模型。优化装置630被配置为基于所确定的优化模型对深度图像进行处理。
接下来,参照图8的示意图对本发明实施例的总体方案进行简要总结。如图8所示,在S801,获取关于图像获取装置810的成像特性的信息;在S803,根据成像特性确定优化模型(例如前述针对传感器的滤波器等);在S805,利用所确定的模型对图像获取装置810的深度图进行处理,以得出优化后的深度图820。
通过在考虑拍摄深度图像的图像获取设备的成像特性的情况下对深度图像进行优化,能够提高深度图像的优化效果。此外,在一些实施例中,通过将模型中的二次项转化为滤波器,能够在保证优化效果的情况下提高处理效率。
作为示例,上述方法的各个步骤以及上述装置的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合。在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成用于实施上述方法的软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图7中,运算处理单元(即CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此链路。输入/输出接口705也链路到总线704。
下述部件链路到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可链路到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明的实施例还涉及一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以用相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在上述实施例和示例中,采用了数字组成的附图标记来表示各个步骤和/或单元。本领域的普通技术人员应理解,这些附图标记只是为了便于叙述和绘图,而并非表示其顺序或任何其他限定。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
Claims (21)
1.一种信息处理设备,包括:
处理电路,被配置为
获取深度图像以及关于拍摄所述深度图像的图像获取装置的成像特性的信息;
基于所获取的关于所述图像获取装置的成像特性的信息确定用于对所述深度图像进行处理的优化模型;以及
基于所述优化模型对所述深度图像进行处理,
其中,所述优化模型包括二次项,所述二次项包括具有以下形式的保真项:
其中,Di(U)表示所述保真项,U表示优化后的深度图像,i为保真项的下标,p表示目标像素,Zi表示测量深度图像,Ωi表示测量深度图像中的可用像素的集合,ηi(p)≥0是针对目标像素的权重,以及
其中,关于所述图像获取装置的成像特性的信息包括与所述图像获取装置的量化步长有关的信息,并且确定所述优化模型包括:基于与所述量化步长有关的信息确定所述保真项的所述权重,使得所述量化步长越大则权重ηi(p)越小。
2.根据权利要求1所述的信息处理设备,其中,基于所述优化模型对所述深度图像进行处理包括:
将所述二次项转换为线性系统;
通过求解所述线性系统得出滤波器;以及
将所述滤波器应用于所述深度图像。
3.根据权利要求2所述的信息处理设备,其中,对所述线性系统的求解包括通过雅可比迭代方法求解所述线性系统而得出所述滤波器。
4.根据权利要求1所述的信息处理设备,其中,所述二次项具有深度值的二次函数的加权和的形式,并且确定所述优化模型包括:根据关于所述图像获取装置的成像特性的信息确定所述加权和中的各项的权重。
5.根据权利要求1所述的信息处理设备,其中,关于所述图像获取装置的成像特性的信息至少还包括如下之一:
与所述图像获取装置的噪声水平有关的信息;以及
所述图像获取装置的噪声类型有关的信息。
6.根据权利要求5所述的信息处理设备,其中,所述噪声水平随深度和/或空间位置而变化。
7.根据权利要求1所述的信息处理设备,其中,所述优化模型包括所述保真项以及正则项。
9.根据权利要求8所述的信息处理设备,其中,关于所述图像获取装置的成像特性的信息还包括与所述图像获取装置的噪声水平有关的信息,并且
所述优化模型被确定为使得像素对p和q之间的相似度越大则权重λpq越大,并且所述噪声水平越高则所述二次项中加权和的有效项数越大。
10.根据权利要求1所述的信息处理设备,其中,所述图像获取装置包括两个摄像单元,并且与所述量化步长有关的信息包括:
所述摄像单元之间的基线距离;
所述摄像单元的焦距;以及
所述摄像单元的视差比特数。
12.根据权利要求5所述的信息处理设备,其中,与所述噪声水平有关的信息包括:基准深度或基准位置处的基准噪声水平,并且,
对关于所述图像获取装置的成像特性的信息的获取还包括:基于所述基准噪声水平,通过内插法估计目标深度或目标位置处的噪声水平。
13.根据权利要求2所述的信息处理设备,其中,所述优化模型还包括除所述二次项之外的正则项,并且,
基于所述优化模型对所述深度图像进行处理包括:分别针对所述正则项与所述二次项单独进行求解,然后将求解结果进行融合与迭代更新。
14.根据权利要求1所述的信息处理设备,其中,所述处理电路还被配置为:获取与所述深度图像相对应的偏振信息,并且所述优化模型还包括与所述偏振信息有关的项。
15.根据权利要求1至14中任一项所述的信息处理设备,还包括:
所述图像获取装置,被配置为拍摄对象的深度图像以作为基于所述优化模型进行的所述处理的对象。
16.根据权利要求15所述的信息处理设备,其中,所述图像获取装置还被配置为拍摄强度图像和/或偏振图像。
17.根据权利要求16所述的信息处理设备,其中,所述处理电路还被配置为:基于经处理的深度图像,识别表情、动作或手势。
18.根据权利要求17所述的信息处理设备,其中,所述处理电路还被配置为:基于所识别的表情、动作或手势生成相应的操作指令。
19.根据权利要求1至14中任一项所述的信息处理设备,其中,所述处理电路还被配置为:
基于经处理的深度图像,进行对象的三维重建过程,其中所述三维重建过程包括深度融合和/或纹理映射。
20.根据权利要求1的信息处理设备,其中,所述成像特性是测量的成像特性。
21.一种信息处理方法,包括:
获取深度图像以及关于拍摄所述深度图像的图像获取装置的成像特性的信息;
基于所获取的关于所述图像获取装置的成像特性的信息确定用于对所述深度图像进行处理的优化模型;以及
基于所述优化模型对所述深度图像进行处理,
其中,所述优化模型包括二次项,所述二次项包括具有以下形式的保真项:
其中,Di(U)表示所述保真项,U表示优化后的深度图像,i为保真项的下标,p表示目标像素,Zi表示测量深度图像,Ωi表示测量深度图像中的可用像素的集合,ηi(p)≥0是针对目标像素的权重,以及
其中,关于所述图像获取装置的成像特性的信息包括与所述图像获取装置的量化步长有关的信息,并且确定所述优化模型包括:基于与所述量化步长有关的信息确定所述保真项的所述权重,使得所述量化步长越大则权重ηi(p)越小。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610901553.3A CN107958446B (zh) | 2016-10-17 | 2016-10-17 | 信息处理设备和信息处理方法 |
US15/681,686 US10521919B2 (en) | 2016-10-17 | 2017-08-21 | Information processing device and information processing method for applying an optimization model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610901553.3A CN107958446B (zh) | 2016-10-17 | 2016-10-17 | 信息处理设备和信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107958446A CN107958446A (zh) | 2018-04-24 |
CN107958446B true CN107958446B (zh) | 2023-04-07 |
Family
ID=61904653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610901553.3A Active CN107958446B (zh) | 2016-10-17 | 2016-10-17 | 信息处理设备和信息处理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10521919B2 (zh) |
CN (1) | CN107958446B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3480626A1 (en) * | 2017-11-02 | 2019-05-08 | Koninklijke Philips N.V. | Improved depth image reconstruction |
CN109409375B (zh) * | 2018-10-11 | 2021-12-14 | 西安电子科技大学 | 一种基于轮廓结构学习模型的sar图像语义分割方法 |
CN109615652B (zh) * | 2018-10-23 | 2020-10-27 | 西安交通大学 | 一种深度信息获取方法及装置 |
CN110400262B (zh) * | 2019-04-10 | 2020-11-06 | 诸暨良嘉环保科技咨询有限公司 | 基于定制数据处理的识别装置 |
CN111814511B (zh) * | 2019-04-10 | 2021-02-23 | 青岛大学附属医院 | 基于定制数据处理的识别方法 |
EP3751514B1 (en) * | 2019-06-13 | 2022-11-09 | Tata Consultancy Services Limited | Method and system for impurity detection using multi-modal imaging |
CN110400273B (zh) | 2019-07-11 | 2022-03-22 | Oppo广东移动通信有限公司 | 深度数据的滤波方法、装置、电子设备和可读存储介质 |
CN110794422B (zh) * | 2019-10-08 | 2022-03-29 | 歌尔光学科技有限公司 | 一种含有tof成像模组的机器人数据采集系统及方法 |
DE112020004872T5 (de) * | 2019-10-10 | 2022-08-04 | Sony Group Corporation | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm |
CN110728259B (zh) * | 2019-10-23 | 2023-08-22 | 南京农业大学 | 一种基于深度图像的鸡群体重监测系统 |
WO2022096127A1 (en) * | 2020-11-06 | 2022-05-12 | Huawei Technologies Co., Ltd. | A device and method for image processing |
CN114758339B (zh) * | 2022-06-15 | 2022-09-20 | 深圳思谋信息科技有限公司 | 字符识别模型的获取方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101156175A (zh) * | 2005-04-11 | 2008-04-02 | 三星电子株式会社 | 3d对象的基于深度图像呈现方法和使用该方法的建模方法和设备以及渲染方法和设备 |
CN103500467A (zh) * | 2013-10-21 | 2014-01-08 | 深圳市易尚展示股份有限公司 | 基于图像的三维模型构成方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4355341B2 (ja) * | 2003-05-29 | 2009-10-28 | 本田技研工業株式会社 | 深度データを用いたビジュアルトラッキング |
US8264536B2 (en) * | 2009-08-25 | 2012-09-11 | Microsoft Corporation | Depth-sensitive imaging via polarization-state mapping |
EP2672880B1 (en) * | 2011-02-09 | 2019-05-22 | Apple Inc. | Gaze detection in a 3d mapping environment |
JP2013118468A (ja) * | 2011-12-02 | 2013-06-13 | Sony Corp | 画像処理装置および画像処理方法 |
KR101893771B1 (ko) * | 2012-05-10 | 2018-08-31 | 삼성전자주식회사 | 3d 정보 처리 장치 및 방법 |
WO2015081213A1 (en) * | 2013-11-27 | 2015-06-04 | Children's National Medical Center | 3d corrected imaging |
JP6009502B2 (ja) * | 2014-07-29 | 2016-10-19 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置および情報処理方法 |
EP3032495B1 (en) * | 2014-12-10 | 2019-11-13 | Dassault Systèmes | Texturing a 3d modeled object |
US10726581B2 (en) * | 2015-06-18 | 2020-07-28 | Disney Enterprises, Inc. | System and method for scene-space video processing |
-
2016
- 2016-10-17 CN CN201610901553.3A patent/CN107958446B/zh active Active
-
2017
- 2017-08-21 US US15/681,686 patent/US10521919B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101156175A (zh) * | 2005-04-11 | 2008-04-02 | 三星电子株式会社 | 3d对象的基于深度图像呈现方法和使用该方法的建模方法和设备以及渲染方法和设备 |
CN103500467A (zh) * | 2013-10-21 | 2014-01-08 | 深圳市易尚展示股份有限公司 | 基于图像的三维模型构成方法 |
Non-Patent Citations (2)
Title |
---|
《Dynamic 2D/3D Registrationfor the Kinect》;sofien bouaziz;《ACM SIGGRAPH》;20130731;全文 * |
《Kinect Depth Recovery Using a Color-Guided, Region-Adaptive, and Depth-Selective Framework》;Chongyu Chen;《ACM Transactions on Intelligent Systems and Technology (TIST) 》;20150531;第1-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107958446A (zh) | 2018-04-24 |
US10521919B2 (en) | 2019-12-31 |
US20180108141A1 (en) | 2018-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107958446B (zh) | 信息处理设备和信息处理方法 | |
Lee et al. | From big to small: Multi-scale local planar guidance for monocular depth estimation | |
EP3852068A1 (en) | Method for training generative network, method for generating near-infrared image and apparatuses | |
JP7161150B2 (ja) | ジオメトリ情報の動き補償 | |
KR102687339B1 (ko) | Icp 기술에 기초하는 이미지 프로세싱 방법 | |
CN110264509B (zh) | 确定图像捕捉设备的位姿的方法、装置及其存储介质 | |
CN105654492B (zh) | 基于消费级摄像头的鲁棒实时三维重建方法 | |
JP2020507850A (ja) | 画像内の物体の姿の確定方法、装置、設備及び記憶媒体 | |
CN112561978B (zh) | 深度估计网络的训练方法、图像的深度估计方法、设备 | |
US20180018805A1 (en) | Three dimensional scene reconstruction based on contextual analysis | |
CN107025660B (zh) | 一种确定双目动态视觉传感器图像视差的方法和装置 | |
JP2015215895A (ja) | 深度画像の深度値復元方法及びシステム | |
CN104205826A (zh) | 用于重建高密度三维图像的设备和方法 | |
CN114529946A (zh) | 基于自监督学习的行人重识别方法、装置、设备及存储介质 | |
EP3756163A1 (en) | Methods, devices, and computer program products for gradient based depth reconstructions with robust statistics | |
TW201436552A (zh) | 用於使用至少一較高訊框率之影像流而增加影像流之訊框率之方法及裝置 | |
CN114067051A (zh) | 三维重建处理方法、装置、电子设备以及存储介质 | |
Junayed et al. | HiMODE: A hybrid monocular omnidirectional depth estimation model | |
CN112927251A (zh) | 基于形态学的场景稠密深度图获取方法、系统及装置 | |
KR20140001168A (ko) | Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치 | |
WO2024055379A1 (zh) | 基于角色化身模型的视频处理方法、系统及相关设备 | |
CN114730480A (zh) | 基于体积捕获和网格跟踪的机器学习 | |
CN117934778B (zh) | 基于虚拟现实的数字化交互仿真方法及系统 | |
JP6806160B2 (ja) | 3次元運動評価装置、3次元運動評価方法、及びプログラム | |
US20230260211A1 (en) | Three-Dimensional Point Cloud Generation Method, Apparatus and Electronic Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment | ||
TG01 | Patent term adjustment |