CN102902355B

CN102902355B - 移动设备的空间交互方法

Info

Publication number: CN102902355B
Application number: CN201210320166.2A
Authority: CN
Inventors: 黄向生; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2015-12-02
Anticipated expiration: 2032-08-31
Also published as: CN102902355A

Abstract

本发明公开了一种具有人机交互能力的移动设备的空间交互方法，包括如下步骤：根据移动设备实时拍摄的二维图像，重建关于该图像的深度图；对所述深度图进行区域分割，得到该深度图中的人体部位区域；将所述深度图中的人体部位区域映射到一个虚拟场景中；检测所述虚拟场景中的人体部位是否与该虚拟场景中的其他物体发生碰撞，若发生碰撞，则根据所述虚拟场景中的人体部位在时间上的空间变化来确定肢体语言，所述虚拟场景根据所述肢体做出响应。本发明能够提高空间交互的准确性和实时性。

Description

移动设备的空间交互方法

技术领域

本发明涉及图像处理、三维图像重建、人机交互和计算机应用等领域，尤其涉及一种移动设备的空间交互方法。

背景技术

移动设备的空间交互技术是利用具有人机交互能力的移动设备(如手机、IPad等)进行空间交互，使得移动设备中的虚拟物体可以按照人的指示做出相应的响应。图1是现有的移动设备的空间交互技术的示意图。如图1所示，移动设备中显示有一幅猫的图像，通过移动设备的空间交互，我们可以在移动设备的前方(其摄像头可拍摄的地方)用手做一个假的抓取动作的手势，移动设备通过识别该手势，使其显示的虚拟猫被虚拟的手抓取。

空间交互方法通常包括深度图像重建、手部区域分割、坐标归一、碰撞检测、运动过程描述和手势识别、虚拟场景响应等步骤，其中深度图像重建是其中一个关键步骤。

在计算机视觉领域中，深度图扮演着十分重要的角色，它的快速获取显得非常重要。深度图不仅可以生成立体图像，还可以实现三维模型的重建和基于图像的渲染。其中在实时的三维模型重建中，深度图获取的准确性和实时性显得尤为重要。

对于深度图的获取有着多种多样的方法，例如激光成像雷达、激光测量机法、结构光法、计算机立体视觉法等。其中计算机立体视觉法是一种传统的深度图获取方法，包括单目、双目和多目立体视觉法。目前在三维模型重建中，大多采用计算机立体视觉的方法。然而这种方法却存在着一些缺点和待改进之处：对于特征点提取准确性而言，由于不同图像之中的纹理变化不同，过于平坦的区域很难提取到准确的特征点；对于特征点提取的实时性而言，不同的提取方法在速度上存在着很大的差异，往往在保证实时性时，失去了准确性，而在保证准确性时，失去了实时性。因此，怎样同时保证准确性和实时性是一个重要课题。

发明内容

(一)要解决的技术问题

本发明所要解决的技术问题是提出一种移动设备的空间交互方法，以解决现有的空间交互技术准确性和实时性不佳的问题。

(二)技术方案

本发明提出一种一种应用于移动设备的空间交互方法，所述移动设备是指具有人机交互能力和图像拍摄功能的便携式信息处理装置，该交互方法包括如下步骤：

步骤1、利用移动设备拍摄二维图像，重建该二维图像的深度图，所述二维图像中包含人体部位的图像；

步骤2、对所述深度图进行区域分割，得到该深度图中的人体部位图像；

步骤3、将所述深度图中的人体部位图像映射到一个虚拟场景中；

步骤4、检测所述虚拟场景中的人体部位是否与该场景中的其他物体发生碰撞，若发生碰撞，则转到步骤6，若没有发生碰撞，则转到步骤7；

步骤5、根据所述虚拟场景中的人体部位在时间上的空间变化来确定人的肢体语言；

步骤6、所述虚拟场景根据所述肢体语言做出响应；

步骤7、判断所述移动设备拍摄的人体部位的图像是否进行了更新，如果进行了更新，则返回到步骤1，如果没有进行更新，则该方法结束。

(三)有益效果

本发明通过对移动设备的空间交互方法在深度图重建、区域分割、碰撞检测时的算法进行全新设计，在深度图的重建方面，有效解决了获取深度图像的准确性和实时性；在区域分割方面，结合连通域和肤色分割法能够准确提取出手部区域；在碰撞检测方面，使用球包围盒的方法，保证了交互的实时性。

附图说明

图1是现有的空间交互技术示意图；

图2是本发明所提出的移动设备的空间交互方法的流程图；

图3是本发明深度图像重建步骤的主流程图；

图4是本发明深度图像重建步骤中生成描述器的流程图；

图5是本发明深度图像重建步骤中生成深度图步骤流程图；

图6是本发明手部区域分割步骤主流程图；

图7是本发明手部区域分割步骤中邻域判断步骤的流程图；

图8是本发明手部区域分割步骤中肤色判断步骤的流程图；

图9是本发明的碰撞检测步骤流程图；

图10是本发明的坐标归一化步骤的流程图；

图11是本发明运动过程描述和手势识别步骤的流程图；

图12是本发明运动过程描述和手势识别步骤中二维空间四个方向的整数表示示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图2为本发明所提出的移动设备的空间交互方法的流程图，所述移动设备的空间交互方法具体包括以下步骤：

步骤1、利用移动设备拍摄二维图像，重建该二维图像的深度图，所述二维图像中包含人体部位的图像。

现有技术中存在多种获得实时图像的深度图的方法，例如采用具有多角度拍摄功能的移动设备对手部图像进行拍摄，之后对所获取的二维图形进行深度重建。在本发明的一种实施方式中，所述具有多角度拍摄功能的移动设备是指具有双摄像头的可移动的人机交互工具。该步骤将双目移动设备采集的图像进行实时深度图重建，所谓双目是指位于同一平面及同一水平线上的具有适当距离的两个图像采集装置。采用双目移动设备实时采集图像，通过摄像机定标预处理，将采集到的双目图像进行极线校正，实现双目图像的行对准。对校正后的双目图像进行快速视差图重建并进行后期的连续性检查、滤波等步骤，最后将视差图转换为深度图。

步骤2、对所述深度图进行区域分割，得到该深度图中的人体部位图像。

根据本发明的一种实施方式，该步骤可采用连通域的增长和肤色判断相结合的方式进行。

由于在空间交互中，手部往往位于图像的前景区，因此它所产生的深度是最大的，故查找最大深度所对应的像素点，将其确定为手部位置像素点，然后向各个方向生长区域，该像素点邻域内的像素点若符合一定的规则，则将这些像素点视为同一区域。所述规则应保证图像中位于手部区域内的像素点全部被分割出来，例如相邻两个像素点之间的灰度差值的绝对值若小于规定阈值，则可以确定该相邻两个像素点位于同一连通域中。

接着，可继续采用肤色判断的方法分割出精确的手部区域。该方法即获取已经分割出来的手部彩色像素点信息，如果某个像素点满足给定的条件就为肤色，否则为非肤色，并将该像素点剔除。

步骤3、将所述深度图中的人体部位图像映射到一个虚拟场景中。

该步骤将从现实空间中分割出来的手部区域的重建深度图像映射到一个虚拟场景中。确定虚拟场景与深度图像中手部区域之间的比例之后，将深度图像中手部区域的图像坐标映射到虚拟场景中，即生成虚拟手。

步骤4、检测所述虚拟场景中的人体部位是否与该虚拟场景中的其他物体发生碰撞，若发生碰撞，则转到步骤6，若没有发生碰撞，则转到步骤7。

根据本发明的一种实施方式，可将步骤3中得到虚拟手部的点集合变为三角网格集合，并采用球包围盒的技术进行所述检测。

步骤5、根据所述虚拟场景中的人体部位在时间上的空间变化来确定人的肢体语言。

根据本发明的一种具体实施方式，根据该手部区域在虚拟场景的连续帧中的运动方向、速度、加速度等规则来确定手部手势行为。在一个具体实施例中，可以定义六个手势：左移、右移、上移，下移、推、拉，其中推和拉分别指垂直于双目移动设备平面做由远及近和由近及远的手势。

步骤6、所述虚拟场景根据所述肢体语言做出响应。

该步骤例如是手部做出左移手势，虚拟场景中的虚拟手也做出左移的手势，虚拟物体根据虚拟手的左移手势做出响应。

步骤7，判断所述多个摄像机拍摄的人体部位的图像是否进行了更新，如果进行了更新，则返回到步骤1，如果没有，则本方法结束。

由于空间交互技术的实时性，因此需要判断数据是否有更新，若有，则回到步骤1，对新采集的双目图像进行深度图像重建(模块101)；若没有，则处理结束。

下面对上述方法中涉及的主要步骤进行详细描述。

所述人体部位通常是指手部区域。在将现实空间中的手部区域转换到虚拟场景之前，需要先进行深度图像的重建，从而获取手部区域在现实空间的位置。图3是根据本发明的一种实施方式的重建深度图的流程图，在该实施方式中，所述二维图像是由一双目移动设备拍摄的左右两幅手部区域的二维图像。如图3所示，深度图像重建的具体实现过程进一步包括以下步骤：

步骤101、对所述两幅二维图像进行极线校正。

在此需要对双目移动设备进行定标预处理工作。通过定标获取每个图像采集装置的焦距、成像原点和畸变系数，从而确定图像坐标与世界坐标的对应变换关系。之后进行立体定标，得到双目移动设备相对位置的旋转矩阵和平移向量。运用极线校正原理对双目移动设备取得的图像进行校正，使两幅图像的对极线恰好在同一水平线上，这样一幅图像上任意一点与其在另一幅图像上的对应点就必须具有相同的行号，只需在该行进行一维搜索即可匹配到对应点。

步骤102、对所述两幅二维图像隔行对每个像素提取像素点描述器，该像素点描述器用于描述像素点周围灰度值的变化情况。

在该实施例中，像素点描述器的生成方法为：对双目图像的当前帧的像素灰度值分别进行横向和纵向的Sobel算子平面卷积，横向卷积的核为

[\begin{matrix} - 1 & 0 & + 1 \\ - 2 & 0 & + 2 \\ - 1 & 0 & + 1 \end{matrix}],

纵向卷积的核为

[\begin{matrix} + 1 & + 2 & + 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}];

采用5×5的窗口作为特征点描述器的提取窗口，以横向及纵向Sobel卷积后的图像为对象隔行对像素点的Sobel卷积值进行描述器的提取，在横向Sobel卷积后的窗口中提取12个像素点对应的Sobel卷积值，在纵向Sobel卷积后的窗口中提取4个像素点对应的Sobel卷积值。图4表示的是该步骤提取卷积值的具体位置，方格中的数字1代表提取一次Sobel卷积值，数字2代表提取两次Sobel卷积值，共提取16个卷积值作为特征描述器。

步骤103、在所述两幅二维图像中确定显著立体匹配点，并计算其视差，显著立体匹配点是指位于指定位置并且纹理值大于规定阈值的像素点。

为了提高计算速度，在该具体实施方式中，在计算视差时，采取隔行计算的方法，并且每隔一定的步长进行一次像素点视差计算。

在该实施例中，每隔五个步长进行一次像素点的视差计算，首先判断当前像素点的描述器16个卷积值之和是否大于纹理阈值，从而保证该像素点所在位置的纹理不要过于平坦，若小于设定的纹理阈值，则将该像素点的视差值置为无效；以每一个显著像素点为中心，创建5×5大小的窗口，提取这个窗口的四个角的像素点所对应的描述器作为中心像素点的匹配参数，将左图作为参考图像，假设左图中待计算视差的像素与右图中所对应的像素视差为d，则可以得到右图对应的像素点，对该像素点的左右视图所对应的窗口四角描述器，即匹配参数，求差并进行绝对值求和，由于视差d有一个取值范围，当差的绝对值之和最小时，此时所对应的视差d为该像素点的视差值。

步骤104、从显著立体匹配点进行扩散，得到所有像素点的视差。

在该实施例中，对初步选取的显著立体匹配点进行扩散，采用德劳内三角剖分法将这些稀疏点进行三角剖分，将显著立体匹配点剖分成三角网格，可以得到三角网格三个顶点所对应的像素坐标，从而可以计算出三条边的直线方程，继而可以确定被该三角网格所包围的每个像素点的坐标，最后对包含在三角网格内的所有像素点进行视差计算。

在该实施例中，判断当前像素点的描述器16个卷积值之和是否大于纹理阈值，从而保证该像素点所在位置的纹理不要过于平坦，若小于设定的纹理阈值，则将该像素点的视差值置为无效；以计算左视差图为例，将左视图作为参考图像，假设某像素的视差为d_curr，则可以得到右视图对应的像素点，对该像素点对应的左右视图描述器求差并进行绝对值求和，记为SSE，由于视差d_curr有一个取值范围，当SSE+p最小时，此时所采用的视差为该像素点的视差值。其中

p = \{\begin{matrix} (- \log (γ + \exp (- Δd / 2 σ^{2})) + \log γ) / β + | d_curr - d_plane | & if | d_curr - d_plane | < σ \\ 0 & otherwise \end{matrix}

，d_plane＝au+bv+c，u和v为当前像素点的横纵坐标，a，b，c为当前网格的权重值，它们是通过当前三角网格的三个顶点坐标及对应视差求解出来的，即解方程组

\{\begin{matrix} a u_{1} + b v_{1} + c = d_{1} \\ a u_{2} + b v_{2} + c = d_{2} \\ a u_{3} + b v_{3} + c = d_{3} \end{matrix},

(u₁，v₁)，(u₂，v₂)和(u₃，v₃)为三角网格的顶点，d₁，d₂和d₃为对应的视差图。用同样的方法对右视差图进行支撑点扩散。

步骤105、根据所述每个像素的视差重建深度图。

在该实施例中，该步骤105包括左右一致性检查；移除小区域；插值；滤波。

如图5所示，步骤105生成深度图的过程又进一步包括以下几个步骤：

步骤1051、对所述两幅二维图像的像素点的左右一致性进行检查。当左右视图的对应像素点视差之差在一定范围内时，视为具有视差一致性，否则将该像素点的视差置为无效。

步骤1052、移除具有视差一致性的小区域。小区域的定义为，在一个具有视差连续性的区域内，如果该区域所包含的像素点小于某一规定的阈值，则将该区域视为小区域，并将该区域内的所有像素点的视差置为无效。

步骤1053、对存在无效视差值的像素点进行视差值的插值。分为按行插值和按列插值两个部分。以按行插值为例，当每行中的像素视差存在无效值的情况时，应对该像素进行视差插值。取无效视差左右两端具有有效视差的像素点，当端点的两个像素点视差之差小于某阈值时，则位于这两个像素点之间的所有无效视差像素点插值大小为两端点像素视差值的平均值；当端点的两个像素点视差之差大于这个阈值时，则位于这两个像素点之间的所有无效视差像素点插值大小为端点的两个视差的最小值。

步骤1054、对所述两幅二维图像的像素点进行滤波。采取中值滤波的方法分别对左右视差图的每个像素点进行水平和垂直滤波。掩模长度为7个像素，将这个7个像素按照从小到大的顺序进行排列，取中间值作为掩模的中心像素视差值。

步骤2、对所述深度图进行区域分割，得到该深度图中的人体部位。

由于在进行空间交互时只需要获取人体部位(例如手部)的运动过程，所以需要将获取的深度图进行手部区域的分割。分割时采用连通域增长和肤色判断相结合的方法。如图6所示，手部区域分割步骤进一步包括以下几个步骤：

步骤201、查找深度图中最大深度对应的像素点，将其初步确定为手部位置像素点。

在空间交互中，手部往往位于空间场景的前方，所以只要查找到深度图中最大深度所对应的像素点，即可确定手部区域的大致位置。

步骤202、判断所述初步确定为手部区域的每个像素点的邻域像素点是否与该像素点位于同一区域。

在该实施例中，像素点的邻域指的是该像素周围四个像素的区域。

如图7所示，步骤202的邻域判断的过程又进一步包括以下几个步骤：

步骤2021、确定起始像素点：在开始时，该起始像素点是最大深度对应的像素点，以后每一次判断所采用的起始像素点都是上一次判断时确定的同一连通域内的像素点。

步骤2022、读取该起始像素点的邻域内各个像素点的深度值。

步骤2023、当所述起始像素点的邻域内的各个像素点的深度值之差小于一个阈值时，则将该起始像素点的邻域作为一个连通域，即判断该起始像素点的邻域内的像素点与该起始像素点位于同一区域，返回步骤2021。

步骤203、判断像素图中是否还存在别的属于手部区域的像素点。

该步骤即判断是否已无增长点，在该实施例中当位于连通域边缘的所有像素点与邻域像素点的深度值差值始终大于规定阈值时，则说明此时已无增长点。

步骤204、对所述确定为手部区域的像素点进行肤色判断，以去除明显不属于手部区域的像素点。

在使用连通域增长的方法将手部区域大致分割出来之后，需要进行肤色判断，从而精确提取出手部区域。如图8所示，步骤204的肤色判断的过程又进一步包括以下几个步骤：

步骤2041、提取手部分割出来的像素点彩色信息。由于该步骤是肤色判断，所以获取的信息应该是彩色信息。

步骤2042、判断该像素点彩色信息是否满足给定肤色条件。肤色点的确定方法为：将分割出来的区域根据变换法则将RGB空间变换到HSV空间，如果像素点的H、S、V分量满足

\{\begin{matrix} H &GreaterEqual; 0; S &GreaterEqual; 15; S &GreaterEqual; 0.75 H + 0.3 V - 30 \\ S \leq - H - 0.1 V + 110; H \leq - 0.4 v + 75 \\ S \leq 0.08 (100 - V) H + 0.6 V \end{matrix},

则将像素点确定为肤色点，否则就是非肤色点。如果某个像素点被确定为肤色点，则转到步骤2044，否则转到步骤2043。

步骤2043、将该像素点的灰度值置为(0，0，0)。

步骤2044、保留该像素点的灰度值信息。

步骤2045、判断是否存在未经判断的手部区域像素点。若存在位于手部区域的像素点未经判断，则回到步骤2041，若所有位于手部区域的像素点完成判断，则结束处理。

由于重建的深度图像与虚拟场景的坐标不统一，需要将两个不同的坐标系进行归一，并对归一后的虚拟手大小与虚拟场景大小调整到对应比例。如图9所示，坐标归一化步骤进一步包括以下几个步骤：

步骤301，设定虚拟场景。虚拟场景可以取自现实场景，也可以是三维素材，也可以是两者的结合。

步骤302，确定虚拟场景与深度图像中手部区域之间的比例。在虚拟场景中选取参照物，根据虚拟场景中参照物在显示屏幕中的坐标以及手部区域的图像坐标可以得到两者之间的比例。

步骤303，将深度图像中手部区域的图像坐标映射到虚拟场景中，即生成虚拟手。根据参照物与手部区域的比例以及参照物与将要被投影的虚拟手之间的比例，可以确定手部区域的投影缩放比，由该缩放比可以将手部区域的图像坐标映射到虚拟场景中。

将现实空间中的手部区域映射到虚拟空间中形成虚拟手之后，需要检测虚拟手与虚拟场景之间的碰撞关系，以便使虚拟场景做出相应的反应。如图10所示，碰撞检测步骤包括以下步骤：

步骤401，分别用包围球包围虚拟手部与虚拟场景。虚拟场景中的包围球被定义为包含某对象的最小球体，该最小球体的球面上必有两个点属于它所包含的虚拟对象，只有当包围虚拟手与包围虚拟对象的两个最小球体发生碰撞时，虚拟手与虚拟对象才可能发生碰撞。描述包围球只需要两个参数，即球心坐标与球半径。

步骤402、判断所述虚拟手部区域与所述虚拟场景的包围球是否发生碰撞。

碰撞检测标准为：两球的球心距与两球半径之和的关系，如果球心距小于等于半径之和，则说明两个球体发生了碰撞，如果球心距大于半径之和，则说明两个球体没有发生碰撞。

步骤5、根据所述虚拟场景中的人体部位在时间上的变化来确定肢体语言。

根据连续的几帧获取手部的运动方向、速度、加速度等规则来确定手部运动状态。本发明规定了六种手势，具体描述如下表所示：

如图11所示，运动过程描述和手势识别步骤进一步包括以下几个步骤：

步骤501、记录虚拟手部在每一帧上的轨迹。确定手部区域的一个固定点，本发明取中指指尖作为固定点，因此应该保证手部运动时中指指尖始终位于世界坐标中手部区域的最上端，记录下该固定点每一帧的运动轨迹。

步骤502、对所述轨迹采用直线拟合的方法进行拟合。由于本发明在二维空间中只定义了上下左右四个运动方向，所以采用直线拟合的方法对步骤501中的运动轨迹进行拟合。

步骤503、判断所述拟合直线两端长度是否大于某一阈值，该阈值为符合二维空间四种运动方式的起始点与终止点的最短距离，如果大于这一长度，则确定所述虚拟手部为二维空间中的运动，转到步骤504，否则转到步骤505。

步骤504、将拟合直线用整数表示。在二维空间中定义了四种运动方向，因此将二维空间360°平均分为四份，如图12所示，四个方向分别用0，1，2，3这四个整数来表示。

步骤505、获取虚拟手部区域面积变化情况，确定虚拟手的前后运动方向。本发明应保证手部运动时手部形状不发生变化，如果运动的起始点与终止点的距离小于某一阈值，说明手部运动是垂直于二维空间，在三维空间中运动，根据起始手部面积与终止手部面积的比较，从而确定手是向前运动还是向后运动。

步骤506、根据步骤504和步骤505对于虚拟手部的手势的进行特定描述，与预定义的手势模型进行匹配，从而确定出是哪种手势。

在本发明的该实施例中，所述手势模型为前述的六种手势模型。

步骤6、所述虚拟场景根据所述肢体语言做出响应。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种应用于移动设备的空间交互方法，所述移动设备是指具有人机交互能力和图像拍摄功能的便携式信息处理装置且具有两个摄像装置，其特征在于，包括如下步骤：

步骤1、利用移动设备的两个摄像装置分别拍摄人的手部的两幅二维图像，重建该二维图像的深度图，所述二维图像中包含手部的图像；

步骤2、对所述深度图进行区域分割，得到该深度图中的手部图像；

步骤3、将所述深度图中的手部图像映射到一个虚拟场景中；

步骤4、检测所述虚拟场景中的手部是否与该场景中的其他物体发生碰撞，若发生碰撞，则转到步骤6，若没有发生碰撞，则转到步骤7；

步骤5、在步骤4的同时，根据所述虚拟场景中的手部在时间上的空间变化来确定人的手势；

步骤6、所述虚拟场景根据所述手势做出响应；

步骤7、判断所述移动设备拍摄的手部的图像是否进行了更新，如果进行了更新，则返回到步骤1，如果没有进行更新，则该方法结束；

所述步骤1包括如下步骤：

步骤101、对所述两幅二维图像进行极线校正；

步骤102、对所述两幅二维图像隔行对每个像素点提取像素点描述器，该像素点描述器用于描述像素点周围灰度值的变化情况；

步骤103、在所述两幅二维图像中确定显著立体匹配点，并计算其视差，显著立体匹配点是指位于指定位置并且纹理值大于规定阈值的像素点；

步骤104、从所述显著立体匹配点进行扩散，得到所述两幅二维图像的所有像素点的视差；

步骤105、根据每个所述像素点的视差重建深度图。

2.如权利要求1所述的空间交互方法，其特征在于，所述步骤102包括如下步骤：对所述两幅二维图像的当前帧的像素点灰度值分别进行横向Sobel算子平面卷积和纵向Sobel算子平面卷积，该横向Sobel算子平面卷积的核为

[\begin{matrix} - 1 & 0 & + 1 \\ - 2 & 0 & + 2 \\ - 1 & 0 & + 1 \end{matrix}],

该纵向Sobel算子平面卷积的核为

[\begin{matrix} + 1 & + 2 & + 1 \\ 0 & 0 & 0 \\ - 1 & - 2 & - 1 \end{matrix}];

采用5×5的窗口作为像素点描述器的提取窗口，以横向Sobel算子平面卷积及纵向Sobel算子平面卷积后的图像为对象隔行对像素点的Sobel算子平面卷积值进行描述器的提取，在横向Sobel算子平面卷积后的窗口中提取12个像素点对应的Sobel算子平面卷积值，在纵向Sobel算子平面卷积后的窗口中提取4个像素点对应的Sobel算子平面卷积值。

3.如权利要求1所述的空间交互方法，其特征在于，所述步骤103采取隔行计算的方法，并且每隔一定的步长进行一次像素点视差计算。

4.如权利要求1所述的空间交互方法，其特征在于，所述步骤104包括：采用德劳内三角剖分法将所述显著立体匹配点进行三角剖分，将所述显著立体匹配点剖分成三角网格，得到三角网格三个顶点所对应的像素点的坐标，计算出三条边的直线方程，确定被该三角网格所包围的每个像素点的坐标，最后对包含在三角网格内的所有像素点进行视差计算。

5.如权利要求1所述的空间交互方法，其特征在于，所述步骤105包括如下步骤：

步骤1051、对所述两幅二维图像的像素点的左右一致性进行检查；

步骤1052、移除具有视差一致性的小区域；

步骤1053、对存在无效视差值的像素点进行视差值的插值；

步骤1054、对所述两幅二维图像的像素点进行滤波。

6.如权利要求1所述的空间交互方法，其特征在于，所述步骤2包括如下步骤：

步骤201、查找所述深度图中最大深度对应的像素点，将其初步确定为手部区域像素点；

步骤202、判断所述初步确定为手部区域像素点的邻域像素点是否与该像素点位于同一区域；

步骤203、判断像素图中是否还存在别的属于手部区域的像素点；

7.如权利要求6所述的空间交互方法，其特征在于，所述步骤202包括如下步骤：

步骤2021、确定起始像素点：在开始时，该起始像素点是最大深度对应的像素点，以后每一次判断所采用的起始像素点都是上一次判断时确定的同一连通域内的像素点；

步骤2022、读取该起始像素点的邻域内各个像素点的深度值；

步骤2023、当所述起始像素点的邻域内的各个像素点的深度值之差小于一个阈值时，则将该起始像素点的邻域作为一个连通域，即判断该起始像素点的邻域内的像素点与该起始像素点位于同一区域，并返回步骤2021。

8.如权利要求6所述的空间交互方法，其特征在于，所述步骤204包括如下步骤：

步骤2041、提取手部分割出来的像素点彩色信息；

步骤2042、根据像素点的彩色信息判断该像素点是否满足给定肤色条件，如果某个像素点被确定为肤色点，则转到步骤2044，否则转到步骤2043；

步骤2043、将该像素点的灰度值置为(0,0,0)；

步骤2044、保留该像素点的灰度值信息；

步骤2045、判断是否存在未经判断的手部区域像素点，若存在位于手部区域的像素点未经判断，则回到步骤2041，若所有位于手部区域的像素点完成判断，则结束。

9.如权利要求1所述的空间交互方法，其特征在于，所述步骤3包括如下步骤：

步骤301、对虚拟场景进行定标；

步骤302、获得深度图的坐标；

步骤303、求得虚拟场景坐标与深度图坐标的转换矩阵；

步骤304、统一虚拟手部与虚拟场景的大小。

10.如权利要求1所述的空间交互方法，其特征在于，所述步骤4包括如下步骤：

步骤401、分别用包围球包围虚拟手部与虚拟场景；

步骤402、判断所述虚拟手部区域与所述虚拟场景的所述包围球是否发生碰撞。

11.如权利要求1所述的空间交互方法，其特征在于，所述步骤5包括如下步骤：

步骤501、记录虚拟手部在每一帧上的轨迹；

步骤502、对所述轨迹采用直线拟合的方法进行拟合，得到拟合直线；

步骤503、判断所述拟合直线两端长度是否大于某一阈值，如果该长度大于该阈值，则确定所述虚拟手部为二维空间中的运动，转到步骤504，否则转到步骤505；

步骤504、将所述拟合直线用整数表示；

步骤505、获取虚拟手部区域面积变化情况，确定虚拟手部的前后运动方向；

步骤506、根据步骤504和步骤505对于虚拟手部的手势进行特定描述，与预定义手势模型进行匹配，从而确定出人的手势。