CN101714262B

CN101714262B - 单幅图像的三维场景重建方法

Info

Publication number: CN101714262B
Application number: CN2009102424163A
Authority: CN
Inventors: 王亦洲; 张哲斌; 高文
Original assignee: Peking University
Current assignee: Beijing Shenrui Bolian Technology Co Ltd
Priority date: 2009-12-10
Filing date: 2009-12-10
Publication date: 2011-12-21
Anticipated expiration: 2029-12-10
Also published as: CN101714262A

Abstract

本发明公开了一种单幅图像的三维场景重建方法，包括以下步骤：图像输入步骤，输入图像序列中的各幅图像；特征提取步骤，从所述图像的场景中提取特征，基于提取的特征进行场景分类、物体识别，从而获取语义信息，同时基于所述提取的特征进行单目几何信息的提取，并获得单目几何信息；物体检测步骤，基于所述提取的特征，并参照所述场景分类进行物体检测；三维图形基元模型选择步骤，根据所述物体检测的结果选择三维图形基元模型；以及场景三维模型生成步骤，根据场景语义先验、所述三维图形基元模型和所述单目几何信息进行场景三维模型的推理和验证，从而生成最终的场景三维模型。

Description

单幅图像的三维场景重建方法

技术领域

本发明涉及一种单幅图像的三维场景重建方法，属于计算机视觉和图像处理技术领域。

背景技术

从单幅图像中恢复场景的三维结构是计算机视觉中的一个经典问题和典型的病态问题，其难度在于，图像是由场景内容经过摄像机从三维空间投影到了二维成像平面上，关于场景三维结构的几何信息不可避免的受到了损失，从而使该问题病态化。而人类却能够通过自身的认知，准确的从一幅图像中识别出场景中的空间结构、远近关系等三维信息。所以，在计算机视觉领域中，关于单幅图像的三维场景重建一直致力于模仿人类认知，从图像的像素级信息中获取各种有助于三维场景理解的信息来实现三维场景重构。

关于单幅图像三维重建的研究一直是计算机视觉领域的关注点之一，每年都有大量的文章发表，提出新的方法或理论。经典的单幅图像三维重建方法包括：利用场景中存在的平行线、平行面关系来进行消失点、消失线的推断从而获取场景几何信息；利用场景中纹理一致性的约束，更具相似纹理的大小关系恢复其所在位置的空间深度(层次)信息；根据自然场景中大气浓度、雾气或者摄像机焦距引起图像上不同区域的成像的清晰度来推断场景的空间信息等。

上述方法明显存在的问题是，对数据的依赖性强，显然并非所有图像都会出现其所需要的信息从而导致无法使用重建方法进行重建。究其根本原因在于只对图像底层特征信息进行处理而忽略了关于场景高层语义信息及其相关约束对场景(三维结构)理解的重要作用，进而引起了图像信息与场景信息之间的语义空白。近年来，计算机视觉领域中关于场景理解的建模方法、场景分类技术、物体识别技术以及机器学习方法的长足发展正是填补上述空白所需要的。例如斯坦福大学的Saxena等人和伊利诺伊大学香槟分校的Hoiem等人提出利用机器学习的方法融合多种底层信息来学习场景模型，进而对场景的三维结构进行推断。其中，Saxena使用场景深度探测仪器所获得的深度图进行模型学习，在马尔科夫场(MRF)模型下建立起图像特征与深度之间的关联，从而进行场景三维重建。但由于其使用了三维网格模型场景的表示，没有明确三维模型与特定类型物体的关联，从而无法使用更高层的语义信息帮助三维重建。Hoiem等人通过初略的把场景分成上下左右几个面和前景着地物体，并通过学习分类器建立起图像特征与上述各类别的关系，从而可以推断图像中各个像素的几何属性(上下左右几个面和前景着地物体)，其同样也未明确物体类型。

此外，北京大学于2009年3月11日申请的申请号为200810224347.9、发明名称为“一种基于图像的三维重建方法”(专利文件1)，专利文件1公开了一种基于特征点约束的多幅图像三维重建方法，该方法包括：对每幅图像特征点的三维重建，计算每幅图像的特征点，对每个特征点进行三维重建，确定所述待重建点空间位置的搜索范围；对所述搜索范围内的点进行采样，将所有采样点投影到图像，然后根据颜色一致性获取待重建点在空间的位置。此外，在专利文件1中还公开了基于单幅图像的三维重建技术，其利用统计学习的结果得到对场景中一些结构性信息如天空、地面、建筑物立面的分类或者得到对场景的特征描述与深度的关系，利用这些分类结果或者是特征与深度的对应关系可以对场景进行简单的三维重建。但其依旧没有解决上述技术问题。

发明内容

本发明的目的在于提供一种基于场景分类和物体识别的单幅图像的三维场景重建方法，与现有的单幅图像重建方法相比较，该方法对图像数据的约束大大放宽，适应性更广，同时也提高了重建方法的性能。其借鉴了通过机器学习建立场景几何属性与图像特征之间关系的方法，同时引入了三维图形基元的表示，通过对三维图形基元及其组合的推理计算，形成一套融合底层图像特征、高层语义信息(场景类型、物体类型)、基本基元表示的三维场景重建方法。

根据本发明第一方面的单幅图像的三维场景重建方法，包括以下步骤：图像输入步骤，输入图像序列中的各幅图像；特征提取步骤，从所述图像的场景中提取特征，基于提取的特征进行场景分类、物体识别，从而获取语义信息，同时基于所述提取的特征进行单目几何信息的提取，并获得单目几何信息；物体检测步骤，基于所述提取的特征，并参照所述场景分类进行物体检测；三维图形基元模型选择步骤，根据所述物体检测的结果选择三维图形基元模型；以及场景三维模型生成步骤，根据场景语义先验、所述三维图形基元模型和所述单目几何信息进行场景三维模型的推理和验证，从而生成最终的场景三维模型。

在上述的单幅图像的三维场景重建方法中，在所述物体检测步骤和所述三维图形基元模型选择步骤之间还包括物体部件检测步骤，基于所述物体检测的结果，对所述物体部件进行检测，其中，在所述三维图形基元模型选择步骤中，根据所述物体检测以及所述物体部件检测的结果选择所述三维图形基元模型。

在上述的单幅图像的三维场景重建方法中，在所述特征提取步骤中，利用所述图像的场景中上下文相关图像以及自底向上和自顶向下的推理方法对所述场景的语义信息进行层次化的描述，将所述图像的场景描述为场景类别层、物体层、物体部件层和图像特征层四个层面。

在上述的单幅图像的三维场景重建方法中，在对所述场景的语义信息的层次化描述中，基于场景分类、物体识别获取所述图像的场景的基本语义信息，同时使用所述场景中各种组成部分的上下文关系，即先验模型，以强化语义信息，并对所述基本语义信息进行约束。

在上述的单幅图像的三维场景重建方法中，使用马尔可夫随机场来描述所述物体层和所述物体部件层中各个元素之间的空间关系和语义关系，使用上下文无关文法对各层之间元素的包容关系或者依属关系进行建模，以形成由基本像素信息到图像特征信息、物体部件信息、物体类别信息、场景类别信息的统一描述。

在上述的单幅图像的三维场景重建方法中，利用所述语义约束关系以及所述单目几何信息，对所述三维图形基元进行验证和组合，从而求解出整个场景的场景三维模型。

在上述的单幅图像的三维场景重建方法中，在所述场景三维模型生成步骤中，利用以下的数学模型1：

M～P(M|I)∝P(I|M)P(M)

数学模型1

M^{*} = \underset{M}{\arg \max} P (I | M) P (M)

P(I|M)为似然模型，I为输入的单幅图像，M是对单幅图像的三维理解，即M表示场景三维模型，其中，

M＝(n，m₁，m₂，...，m_n)

m_i＝(l_i，θ_i)

场景三维模型M由n个子模型m_i构成，子模型m_i由类别标签l_i指定它是哪一类物体，及相应参数θ_i指定该子模型在世界坐标下的位置及姿态，

所述似然模型P(I|M)形式如下：

P (I | M) = Π_{i = 1}^{n} P (I | s_{i}, m_{i}) Π_{i = 1}^{n} P (s_{i} | m_{i})

在所述似然模型P(I|M)中，φ_i(s_i，m_i，f_i(I))表示在推断的场景语义标注信息下与原始的图像序列中对应部分的拟合程度，f_i(I)表示三维子模型m_i经过投影在原始图像中对应的图像特征，

表示根据所推断的语义信息选择某一种三维基元信息的可靠性，

P (M) = Π_{k = 1}^{C} P_{k} (n_{k}) Π_{i = 1, (i, j) &Element; ϵ}^{n} Q_{i} (m_{i}, m_{j}) Π_{l = 2}^{4} \underset{i}{Π} H_{li} (s_{li}, S_{(l - 1) i})

= Π_{k = 1}^{C} P_{k} (n_{k}) Π_{i = 1}^{n} \exp {- \underset{(i, j) &Element; ϵ}{Σ} ψ_{i} (m_{i}, m_{j})} Π_{l = 2}^{4} \underset{i}{Π} \exp {- η_{li} (s_{li}, S_{(l - 1) i}) - γ_{li} (s_{li}, s_{lj})}

其中，P_k(n_k)表示关于第k类物体的子模型的个数n_k的先验，ψ_i(m_i，m_j)描述在整个所述场景三维模型中子模型和其周围子模型之间在物体类别、位置、姿态和尺度方面的一致性，η_li(s_li，S_(l-1)i)表示某层中第i个结点的语义信息s_li与其下一层子节点集合S_(l-1)i先验知识之间的关系；γ_li(s_li，s_lj)表示同层相邻结点之间的语义关系的先验，其中i、j、k、l为自然数，c为大于等于k的自然数。

在上述的单幅图像的三维场景重建方法中，所述图像特征包括外观特征和几何特征，所述外观特征至少包括颜色、纹理和光照；所述几何特征根据消失线或者纹理相似关系以及图像模糊程度获得。

在上述的单幅图像的三维场景重建方法中，利用分类器在所述图像中标注其内含的各类型物体，并基于所述标注从三维模型数据库中选取与之对应物体或物体部件类别的三维模型基元，作为当前图像对应的各类物体的初始几何模型，所述分类器是针对物体识别和物体部件识别而训练得到的，并加入场景分类作为约束条件。

相比于现有技术，本发明具有以下有益效果：

第一、提出了关于图像场景理解的统一数学模型表示，包括场景分类、物体识别、物体部件组成等，从而可以实现对图像场景的层次化理解，这些层次化的语义信息首先能够对场景有一个整体描述从而放宽了数据受限的条件；其次它能够驱动重建算法。

第二、提出了一种基于图像语义信息的三维图形基元模型选择方法，使得图像信息和图形信息得到了融合，语义信息驱动的三维图形基元模型选择成为构成整个三维场景的基本单位，从而避免了现有单目重建方法由于使用基于网格模型的关于整个场景三维模型而引起的重建失真问题。

第三、由于使用了统一的场景表示方法，本方法提出的场景模型可以很好地利用自底向上和自顶向下相结合的推理方法来进行模型的学习和计算，其主要利用了物体(部件)识别的方法驱动模型基元的选择，从而加速计算过程；而且利用场景中的上下文关系等先验知识来实现整个场景模型的组合和验证，从而提高场景理解和场景重建的计算精度。

本发明的其它优点将在以下的说明中描述，并且本发明的优点和有益效果可以通过实施例展现或者本领域技术人员结合实施例和实践经验直接推导出。

附图说明

当结合附图考虑时，通过参照下面的详细描述，能够更完整更好地理解本发明以及容易得知其中许多伴随的优点，但此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，其中：

图1为本发明第一实施例的单幅图像的三维场景重建方法的流程图。

图2为本发明第二实施例的单幅图像的三维场景重建方法的流程图。

图3为本发明第三实施例的单幅图像的三维场景重建方法的流程图。

具体实施方式

图1为本发明第一实施例的单幅图像的三维场景重建方法的流程图。如图1所示，包括以下步骤：

S110图像输入步骤，输入图像序列中的各幅图像；

S120特征提取步骤，从所述图像的场景中提取特征，基于提取的特征进行场景分类、物体识别，从而获取语义信息，同时基于所述提取的特征进行单目几何信息的提取，并获得单目几何信息；

S130物体检测步骤，基于所述提取的特征，并参照所述场景分类进行物体检测；

S140三维图形基元模型选择步骤，根据所述物体检测的结果选择三维图形基元模型；以及

S150场景三维模型生成步骤，根据场景语义先验、所述三维图形基元模型和所述单目几何信息进行场景三维模型的推理和验证，从而生成最终的场景三维模型。

图2为本发明第二实施例的单幅图像的三维场景重建方法的流程图。如图2所示，在上述的的单幅图像的三维场景重建方法中，在所述物体检测步骤S130和所述三维图形基元模型选择步骤S140之间还包括物体部件检测步骤S135，基于所述物体检测的结果，对所述物体部件进行检测，其中，在所述三维图形基元模型选择步骤中，根据所述物体检测以及所述物体部件检测的结果选择所述三维图形基元模型。

图3为本发明第三实施例的单幅图像的三维场景重建方法的流程图。如图3所示，在本发明的单幅图像三维场景重建方法中，提出了一种关于单幅图像场景(语义和几何)理解的统一的、层次化的数学模型表示，结合场景分类、物体识别、单目三维几何信息提取等方法，融合关于场景构成的上下文关系，使用结合自底向上和自顶向下的推理方法来实现模型的学习和对于场景理解的语义解析计算，从而构成一套完整的单幅图像重建方法。

在本发明的单幅图像三维场景重建方法中，使用场景分类和物体识别、物体部件识别等方法获取关于场景的基本语义信息，同时使用场景中各种组成部分的上下文关系强化语义信息对基本语义信息进行约束。

此外，使用语义信息推断的结果进行基本的三维图形基元模型选择，从而建立起图像信息和场景三维模型基本单元的联系，从而形成语义驱动的三维图形基元模型选择，为整个场景的三维模型提供基本的组成部件。

此外，利用语义约束关系以及单目几何信息，对三维图形基元模型进行验证和组合，从而构成整个场景的三维模型，详细过程见具体实施方式部分。

具体地，借鉴随机上下文相关图像语法来对场景的语义信息进行层次化的描述。把关于一幅图像的场景描述分为场景类别层、物体层、物体部件层和图像特征层四个层面；其中在物体层和物体部件层使用马尔可夫随机场(Markov Random Field，MRF)来描述该层中各个元素之间的空间关系和语义关系；使用上下文无关语法(Stochastic Context Free Grammar，SCFG)对模型中层与层之间元素的包容关系或者依属关系进行建模，从而形成由基本像素信息到图像特征信息、物体部件信息、物体类别信息、场景类别信息的统一描述。

我们把基于场景分类和物体识别的单幅图像场景三维重建形式化为一个在贝叶斯理论框架下求取最大后验概率的问题，即在给定图像序列的条件下，计算一个最优的三维模型，使得该模型最能满足关于对输入图像所能提供的三维信息的理解。该概率模型具有以下形式：

M～P(M|I)∝P(I|M)P(M)

M^{*} = \underset{M}{\arg \max} P (I | M) P (M)

其中，P(I|M)为似然模型，I为输入的单幅场景图像，M是对图像的三维理解，即三维模型。该模型具有如下形式：

M＝(n，m₁，m₂，...，m_n)

m_i＝(l_i，θ_i)

上式M集合的含义为：场景三维模型M由n个子模型构成，子模型由类别标签l_i指定它是哪一类物体(比如车辆、楼房、树木、行人等)，及相应参数θ_i指定该子模型在世界坐标下的位置及姿态。在执行过程中，依据类别标签l_i从模型库中调用对应的基本模型，即三维图形基元模型构成。

似然模型

似然模型P(I|M)形式如下：

P (I | M) = Π_{i = 1}^{n} P (I | s_{i}, m_{i}) Π_{i = 1}^{n} P (s_{i} | m_{i})

该似然模型中，φ_i(s_i，m_i，f_i(I))表示在推断的场景语义标注信息下与原始图像序中对应部分(的特征)的拟合程度。f_i(I)表示三维子模型m_i经过投影在原始图像中对应的图像特征，这些特征既包括外观特征(颜色、纹理、光照等)，也包括几何特征(主要由消失线提供，亦可利用纹理相似关系和图像模糊程度获得)。在对φ_i(s_i，m_i，f_i(I))进行计算时，外观特征可以帮助我们有效地判别当前图像区域更接近哪一类物体，从而为选择三维子模型提供依据；几何特征衡量所选的三维模型的投影与图像几何特征的差异性(如投影轮廓与图像上线条特征之间的距离)。

表示根据所推断的语义信息选择某一种三维基元信息的可靠性。所推断的场景模型基元与某一类语义标注信息和特征能够帮助我们精确地恢复三维模型在世界坐标系中的位置、姿态和尺度等。上述模型实际上是对计算过程中对于图像各区域所提出的关于语义假设和模型假设与图像原始信息拟合程度的一种考量，其中i为自然数，c为大于等于k的自然数。

先验模型

在前面给出的最大后验公式中的先验模型可以分解为：

P (M) = Π_{k = 1}^{C} P_{k} (n_{k}) Π_{i = 1, (i, j) &Element; ϵ}^{n} Q_{i} (m_{i}, m_{j}) Π_{l = 2}^{4} \underset{i}{Π} H_{li} (s_{li}, S_{(l - 1) i})

= Π_{k = 1}^{C} P_{k} (n_{k}) Π_{i = 1}^{n} \exp {- \underset{(i, j) &Element; ϵ}{Σ} ψ_{i} (m_{i}, m_{j})} Π_{l = 2}^{4} \underset{i}{Π} \exp {- η_{li} (s_{li}, S_{(l - 1) i}) - γ_{li} (s_{li}, s_{lj})}

该先验模型由三部分组成，在第一部分中P_k(n_k)表示关于第k类物体的子模型的个数n_k的先验，在第二部分中ψ_i(m_i，m_j)描述了在整个三维模型中，子模型和其周围子模型之间，在物体类别、位置、姿态和尺度等方面的一致性。例如车辆应该出现在公路上，路边的树木通常会在一排上等等。第三部分描述关于场景层次化描述中各层中以及层与层之间语义关系的先验知识，其中η_li(s_li，S_(l-1)i)表示某层(例如是第1层)中第i个结点的语义信息s_li与其下一层子节点集合S_(l-1)i先验知识之间的关系；γ_li(s_li，s_lj)表示同层相邻结点之间的语义关系的先验，其中i，j，k、l为自然数。

语义驱动的三维基元模型选择

在提取图像特征(外观特征和部分几何特征)的同时，对图像进行初始的标注，即：使用训练好的分类器(如Adaboost或SVM等)在图像中标注出其内含的各类型物体。基于这些标注我们可以从场景三维模型数据库中选取与之对应物体类别的三维图形基元模型，作为当前图像对应的各类物体的初始几何模型。

建立三维图形基元模型是形成最终场景模型的基础，同时也是快速计算三维模型的关键的前提(在计算过程中通过语义信息驱动基本三维模型基元的抽取)。这包括如何决定基元表示形式、属性和基元个体之间的关系集等。在这里，我们依据人的认知角度和现实环境的基本常识，借鉴参数化的GEON模型的思想，手工建立常见的基元模型库，包括不同类型的模型及其属性和不同模型之间的关系(互斥、相容等)。

概率模型的计算

关于模型计算的方法，其核心策略是：融合多场景分类、物体识别、单目三维几何信息提取等方法，结合关于场景构成的上下文关系，在贝叶斯理论框架下，利用自底向上和自顶向下的计算机制，通过最大化生成三维场景模型的后验概率来进行场景语义的解析，并对其中各个物体进行三维重构，包括对模型的选取以及对其参数(位置、姿态、尺度)的求取。其中自底向上的过程主要是对进行物体类别的计算并由此选取三维基元模型。自顶向下的计算过程主要完成场景语义信息的验证，并完成整个场景模型的计算。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种单幅图像的三维场景重建方法，其特征在于，包括以下步骤：

图像输入步骤，输入图像序列中的各幅图像；

特征提取步骤，从所述图像的场景中提取特征，基于提取的特征进行场景分类、物体识别，从而获取场景语义信息，同时基于所述提取的特征进行单目几何信息的提取，并获得单目几何信息；

物体检测步骤，在从图像的场景中提取特征的同时，利用分类器在所述每一幅图像中标注其内含的各类型物体，并参照所述场景分类进行物体检测；所述分类器是针对物体识别和物体部件识别训练得到的，并加入场景分类作为约束条件；

三维图形基元模型选择步骤，根据标注的所述各类型物体，从三维模型数据库中选取三维图形基元模型；以及

场景三维模型生成步骤，根据所述场景语义信息、所述三维图形基元模型和所述单目几何信息进行场景三维模型的推理和验证，从而生成最终的场景三维模型。

2.根据权利要求1所述的单幅图像的三维场景重建方法，其特征在于，在所述物体检测步骤和所述三维图形基元模型选择步骤之间还包括物体部件检测步骤，基于所述物体检测的结果，对所述物体部件进行检测，其中，在所述三维图形基元模型选择步骤中，根据所述物体检测以及所述物体部件检测的结果选择所述三维图形基元模型。

3.根据权利要求2所述的单幅图像的三维场景重建方法，其特征在于，在所述特征提取步骤中，利用所述图像的场景中上下文相关图像以及自底向上和自顶向下的推理方法对所述场景语义信息进行层次化的描述，将所述图像的场景描述为场景类别层、物体层、物体部件层和图像特征层四个层面。

4.根据权利要求3所述的单幅图像的三维场景重建方法，其特征在于，在对所述场景的语义信息的层次化描述中，基于场景分类、物体识别获取图像的所述场景语义信息，同时使用所述场景中各种组成部分的上下文关系，即先验模型，以强化语义信息，并对所述场景语义信息进行约束。

5.根据权利要求3所述的单幅图像的三维场景重建方法，其特征在于，使用马尔可夫随机场来描述所述物体层和所述物体部件层中各个元素之间的空间关系和语义关系，使用上下文无关文法对各层之间元素的包容关系或者依属关系进行建模，以形成由基本像素信息到图像特征信息、物体部件信息、物体类别信息、场景类别信息的统一描述。