CN108682021B

CN108682021B - 快速手部跟踪方法、装置、终端及存储介质

Info

Publication number: CN108682021B
Application number: CN201810349972.XA
Authority: CN
Inventors: 阮晓雯; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2021-03-05
Anticipated expiration: 2038-04-18
Also published as: WO2019200785A1; CN108682021A

Abstract

一种快速手部跟踪方法，包括：在显示界面上显示成像设备采集的包含人体手部区域的视频；接收用户在所述包含人体手部区域的视频上标定的标定框；提取所述标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标定框标定的区域进行分割得到手部图像；及利用连续自适应数学期望移动算子对所述手部图像进行跟踪。本发明还提供一种快速手部跟踪装置、终端及存储介质。本发明能够快速的提取标定的标定框中的HOG特征，根据HOG特征精确的分割手部区域，获得了较佳的跟踪效果。

Description

快速手部跟踪方法、装置、终端及存储介质

技术领域

本发明涉及手部跟踪技术领域，具体涉及一种快速手部跟踪方法、装置、终端及存储介质。

背景技术

手势作为自然交互的一种重要手段，有着重要的研究价值和广泛的应用前景。手势识别和手部跟踪的第一步，也是最重要的一步，便是将手部区域从图形中分割出来。手部区域分割的优劣直接影响到后续的手势识别和手势跟踪的效果。

在人与机器人交互过程中，机器人上安装的视频采集设备与人体有一定的距离时，采集的照片中包含人体全身。由于此类照片存在大量背景，手部区域只是图片中很小的一部分，如何从大量背景区域中检测到手部，并将其快速且准确的分割出来，是值得研究的问题。

发明内容

鉴于以上内容，有必要提出一种快速手部跟踪方法、装置、终端及存储介质，能够缩短提取手部区域的时间，提高手部识别和手部跟踪的准确度及效率，尤其是在复杂背景下的手部区域跟踪，跟踪效率较佳。

本发明的第一方面提供一种快速手部跟踪方法，所述方法包括：

在显示界面上显示成像设备采集的包含人体手部区域的视频；

接收用户在所述包含人体手部区域的视频上标定的标定框；

提取所述标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标定框标定的区域进行分割得到手部图像；及

利用连续自适应数学期望移动算子对所述手部图像进行跟踪，其中所述利用连续自适应数学期望移动算子对所述手部图像进行跟踪具体包括：

将所述手部图像的色彩空间转换到HSV色彩空间，分离出色调分量的手部图像，基于所述色调分量的手部图像I(i,j)及初始化的搜索框的质心位置和大小，计算当前搜索窗的质心位置(M₁₀/M₀₀,M₀₁/M₀₀)及当前搜索窗的大小

其中，

及

为当前搜索窗的一阶矩，

为当前搜索窗的零阶矩，i为I(i,j)的水平方向上的像素值，j I(i,j)的垂直方向上的像素值。

一种优选的实现方式中，所述在显示界面上显示成像设备采集的包含人体手部区域的视频还包括：

以预先设置的显示方式显示预先设置的标准标定框，所述预先设置的显示方式包括以下一种或多种的组合：

接收到显示指令时，显示所述预先设置的标准标定框；

接收到隐藏指令时，隐藏所述预先设置的标准标定框；

在接收到所述显示指令显示所述预先设置的标准标定框，且之后没有接收到任何指令的时间超过预设时间段时，自动隐藏所述预先设置的标准标定框。

一种优选的实现方式中，所述接收用户在所述包含人体手部区域的视频上标定的标定框包括:

接收用户在所述包含人体手部区域的视频上标定的标准标定框,包括：

接收用户在所述包含人体手部区域的视频中画出的粗略标定框；

通过模糊匹配的方法匹配出与所述粗略标定框相对应的预先设置的标准标定框；

根据匹配出的标准标定框对所述包含人体手部区域的视频中进行标定并显示标定的标准标定框，其中，所述粗略标定框的几何中心与所匹配出的标准标定框的几何中心相同。

一种优选的实现方式中，所述接收用户在所述包含人体手部区域的视频上标定的标定框还包括：

接收用户在所述包含人体手部区域的视频上标定的标准标定框,包括:

直接接收用户选取的标准标定框，根据所述标准标定框在所述包含人体手部区域的视频上进行标定并显示标定的标准标定框。

一种优选的实现方式中，所述所述接收用户在所述包含人体手部区域的视频上标定的标准标定框还包括：接收到放大、缩小、移动、删除的指令时，对显示的标准标定框进行放大、缩小、移动、删除。

一种优选的实现方式中，所述方法还包括：

对所述标准标定框标定的区域进行预处理，所述预处理可以包括以下一种或多种的组合：灰度化处理，校正处理。

一种优选的实现方式中，所述方法还包括：

获取所述标定框标定的区域对应的包含人体手部区域的视频中的深度信息，根据所述深度信息对所述手部图像进行规范化，所述规范化的过程为：S2*(H2/H1)，其中S1为从第一次的标准标定框标定的区域分割得到的手部图像的尺寸，H1为第一次的标定框标定的区域对应的景深信息；S2为当前的标准标定框标定的区域分割得到的手部图像的尺寸，H2为当前的标定框标定的区域对应的景深信息。

本发明的第二方面提供一种快速手部跟踪装置，所述装置包括：

显示模块，用于在显示界面上显示成像设备采集的包含人体手部区域的视频；

标定模块，用于接收用户在所述包含人体手部区域的视频上标定的标定框；

分割模块，用于提取所述标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标定框标定的区域进行分割得到手部图像；及

跟踪模块，用于利用连续自适应数学期望移动算子对所述手部图像进行跟踪。

本发明的第三方面提供一种终端，所述终端包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述快速手部跟踪方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述快速手部跟踪方法。

本发明所述的快速手部跟踪方法、装置、终端及存储介质，先对手部区域进行粗略标定得到标定框，再提取所述标定框标定的区域中的HOG特征，根据所述HOG特征将将手部区域从所述标定框标定的区域中精确的分割出来，从而减少了提取HOG特征的区域的面积，有效的缩短了提取HOG特征的时间，因而能够快速的进行手部区域分割和跟踪；其次，获取包含手部的视频的深度信息，能够进一步保证手部轮廓的清晰度，尤其是在复杂背景下的手部区域跟踪，跟踪效率尤其显著。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的快速手部跟踪方法的流程图。

图2是本发明实施例二提供的快速手部跟踪方法的流程图。

图3是本发明实施例三提供的快速手部跟踪装置的结构图。

图4是本发明实施例四提供的快速手部跟踪装置的结构图。

图5是本发明实施例五提供的终端的示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例的快速手部跟踪方法应用在一个或者多个终端中。所述快速手部跟踪方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于：广域网、城域网或局域网。本发明实施例的快速手部跟踪方法可以由服务器来执行，也可以由终端来执行；还可以是由服务器和终端共同执行。

所述对于需要进行快速手部跟踪方法的终端，可以直接在终端上集成本发明的方法所提供的快速手部跟踪功能，或者安装用于实现本发明的方法的客户端。再如，本发明所提供的方法还可以以软件开发工具包(Software Development Kit，SDK)的形式运行在服务器等设备上，以SDK的形式提供快速手部跟踪功能的接口，终端或其他设备通过提供的接口即可实现手部的跟踪。

实施例一

图1是本发明实施例一提供的快速手部跟踪方法的流程图。根据不同的需求，该流程图中的执行顺序可以改变，某些步骤可以省略。

101：在显示界面上显示成像设备采集的包含人体手部区域的视频。

本实施例中，所述终端提供一显示界面，所述显示界面用以同步显示成像设备采集的包含人体手部区域的视频。所述成像设备为2D相机。

102：接收用户在所述包含人体手部区域的视频上标定的标定框。

本实施例中，当用户在所述显示界面显示的包含人体手部区域的视频中发现了感兴趣的手部信息时，通过在所述显示界面上添加一个标定框表示标定出的感兴趣的手部信息。

用户可以用手指、触控笔或者其他任何合适的物体触摸所述显示界面，优选为手指触摸所述显示界面并在所述显示界面上添加一个标定框。

103：提取所述标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标定框标定的区域进行分割得到手部图像。

所述提取所述标定框标定的区域的梯度方向直方图(Histogram Of Gradient，HOG)特征具体过程包括：

11)计算所述标定框标定的区域的各个像素点的梯度信息，所述梯度信息包括梯度幅值及梯度方向；

可以采用一维中心[1，0，-1]、一维非中心[-1，1]、一维立方修正[1，-8，-8，-1]、索贝尔(Soble)算子等一阶微分模板分别计算所述标定框标定的区域的各个像素点在水平方向上和垂直方向上的梯度；根据水平方向上的梯度和垂直方向上的梯度计算该标定框标定的区域的梯度幅值以及梯度方向。

本较佳实施例中，以一维中心[1，0，-1]模板为例计算所述标定框标定的区域的各个像素点的梯度信息。将所述标定框标定的区域记为I(x,y)，计算像素点在水平方向和垂直方上向的梯度分别如下式(1-1)所示：

其中，G_h(x,y)和G_v(x,y)分别表示像素点(x,y)在水平方向和垂直方向上的梯度值。

计算像素点(x,y)的梯度幅值(或称之为梯度强度)以及梯度方向如下式(1-2)所示：

θ(x,y)＝arctan(G_v(x,y)/G_h(x,y)) (1-2)

其中，M(x,y)和θ(x,y)分别表示像素点(x,y)的梯度幅值及梯度方向。

进一步地，对于梯度方向的范围限定，一般可以采用无符号的范围，即忽略梯度方向的角度度数的正负级，无符号的梯度方向可用下式(1-3)所示表示：

经过式(1-3)的计算后，所述标定框标定的区域的各个像素点的梯度方向限定为0度至180度。

12)将所述标定框标定的区域划分为多个块，每个块划分为多个细胞单元，每个细胞单元包括多个像素点；

本实施例中，所述细胞单元的尺寸为8*8像素，相邻的细胞单元之间不重叠。

举例而言，假设所述标定框标定的区域I(x,y)大小为64*128，设定每个块的大小为16*16，每个细胞单元的大小为8*8，则所述标定框标定的区域可以划分为105个块，每个块包括4个细胞单元，每个细胞单元包括64个像素点。

本实施例中使用不重叠的方式划分细胞单元，可以使得计算每个块中的梯度方向直方图速度更快。

13)对每个细胞单元中的各个像素的梯度信息进行量化处理，得到所述标定框标定的区域的梯度直方图；

本实施例中，首先将每个细胞单元的各个像素点的梯度方向划分为9个bin(9个方向通道)，该9个bin作为梯度直方图的横轴，分别是[0°，20°]、[20°，40°]、[40°，40°]、[40°，80°]、[80°，100°]、[100°，120°]、[120°，140°]、[140°，140°]、[140°，180°]；然后将每个bin所对应的像素点的梯度幅值进行累加作为梯度直方图的纵轴。

14)对每个块的梯度直方图进行归一化处理，得到每个块的梯度直方图归一化结果；

本较佳实施例中，可以采用归一化函数对每个块的梯度直方图进行归一化，所述归一化函数可以是L2范数、L1范数。

由于局部光照的变化以及前景/背景对比度的变化，使得像素点的梯度幅值的变化范围非常大，归一化能够对光照、阴影和边缘进行压缩，使得梯度方向直方图特征向量空间对光照、阴影和边缘变化具有鲁棒性。

15)将所有块的梯度直方图归一化结果进行连接，得到所述标定框标定的区域最终的HOG特征；

16)根据所述最终的HOG特征，将手部区域从所述标定框标定的区域中分割出来。

104：利用连续自适应数学期望移动算子对所述手部图像进行跟踪。

本实施例中，连续自适应数学期望移动(Continuously Adaptive Mean Shift，CamShift)算法，是一种基于颜色信息的方法，能够利用目标的特定颜色进行跟踪，自动调节搜索窗的大小和位置，定位被跟踪目标的大小和中心，并把前一帧的结果(即搜索窗大小和质心)作为下一帧目标在图像中的大小和质心。

所述利用连续自适应数学期望移动算子对所述手部图像进行跟踪具体包括：

21)将所述手部图像的色彩空间转换到HSV(Hue色度，Saturation饱和度，Value纯度)色彩空间，分离出色调H分量的手部图像；

22)基于色调H分量的手部图像，初始化搜索窗W的质心位置和大小S；

23)计算当前搜索窗的阶矩；

根据式(1-4)计算当前搜索窗的零阶矩，根据式(1-5)计算当前搜索窗的一阶矩。

24)根据当前搜索窗的阶矩计算当前搜索窗的质心位置(M₁₀/M₀₀,M₀₁/M₀₀)

25)根据当前搜索窗的阶矩计算当前搜索窗

比较当前计算的搜索窗与预设搜索窗阈值之间的关系，当当前计算的搜索窗大于或等于所述预设搜索窗阈值时，重复执行上述步骤21)-25)；当当前计算的搜索窗小于所述预设搜索窗阈值时，则结束跟踪，此时搜索窗的质心所在的位置就是跟踪目标的当前位置。

综上所述，本发明所述的快速手部跟踪方法，由用户对所述包含人体手部区域的视频中感兴趣的手部信息用标定框标定后，再提取所述标定框标定的区域的HOG特征，根据所述HOG特征将手部区域从所述标定框标定的区域中分割出来。因而，仅需计算所述标定框标定的区域中的HOG特征，相较于计算整个包含人体手部区域的视频图像，本发明通过接收用户标定的标定框，能减少提取HOG特征的区域面积，从而有效的缩短提取HOG特征的时间，因而能够快速的将手部区域从所述包含人体手部区域的视频中分割出来。

另外，由于所述标定框标定的区域中的各个像素的梯度信息是以细胞单元为处理单元，因而计算得到的HOG特征能保持手部区域的几何和光学特性；其次，分块分细胞单元的计算处理方式，可使得手部区域各个像素点之间的关系能够得到很好的表征；最后采取归一化处理，可以部分抵消光照变化带来的影响，进而保证了提取出的手部区域的清晰度，将手部区域准确地分割出来。

实施例二

图2是本发明实施例二提供的快速手部跟踪方法的流程图。根据不同的需求，该流程图中的执行顺序可以改变，某些步骤可以省略。

201：在显示界面上显示成像设备采集的包含人体手部区域的视频，同时以预先设置的显示方式显示预先设置的标准标定框。

本实施例中，所述终端提供一显示界面，所述显示界面用以同步显示成像设备采集的包含人体手部区域的视频，所述显示界面还同时显示标准标定框。

所述成像设备为3D深度相机，所述3D深度相机与2D相机不同之处在于3D深度相机可同时拍摄景物的灰阶影像资讯及包含深度信息的3维资讯。当采用所述3D深度相机采集到包含人体手部区域的视频之后，在终端的显示界面上同步显示所述包含人体手部区域的视频。

本实施例中，所述预先设置的标准标定框供用户在所显示的包含人体手部区域的视频上进行标定以获得感兴趣的手部信息。

所述预先设置的显示方式包括以下一种或多种的组合：

1)接收到显示指令时，显示所述预先设置的标准标定框；

所述显示指令对应用户输入的显示操作，所述用户输入的显示操作包括，但不限于：点击显示界面任意位置，或者触摸显示界面任意位置的时间超过第一预设时间段(例如，1秒)，或者发出第一预设语音(例如，“标定框”)等。

当侦测到用户在所述显示界面上执行了点击操作，或者当侦测到用户在所述显示界面上执行的触摸操作时间超过预设时间，或者当侦测到用户发出了所述第一预设语音时，所述终端确定接收到了显示指令，显示所述预先设置的标准标定框。

2)接收到隐藏指令时，隐藏所述预先设置的标准标定框；

所述隐藏指令对应用户输入的隐藏操作，所述用户输入的隐藏操作包括，但不限于：点击显示界面任意位置，或者触摸显示界面任意位置的时间超过第二预设时间段(例如，2秒)，或者发出第二预设语音(例如，“退出”)等。

当侦测到用户在所述显示界面上执行了点击操作，或者当侦测到用户在所述显示界面上执行的触摸操作时间超过第二预设时间，或者当侦测到用户发出了第二预设语音时，所述终端确定接收到了隐藏指令，隐藏所述预先设置的标准标定框。

所述隐藏指令可以与所述显示指令相同，也可以不同。所述第一预设时间段可以与所述第二预设时间段相同，也可以不相同。优选地，所述第一预设时间段小与所述第二预设时间段，设置较短的第一预设时间段，能够快速的显示所述预先设置的标准标定框，设置较长的第二预设时间段，能够避免用户无意识或者操作失误造成的隐藏所述预先设置的标准标定框的情况发生。

接收到显示指令时显示所述预先设置的标准标定框，能够使得显示界面在显示所述包含人体手部区域的视频时，用户能够对感兴趣的手部区域进行标定；同时在没有接收到所述显示指令时，不显示所述预先设置的标准标定框，或者接收到所述隐藏指令隐藏所述预先设置的标准标定框，能够避免显示的所述包含人体手部区域的视频长时间被所述预先设置的标准标定框遮挡，从而造成了重要信息的遗漏或者给用户在查看所述包含人体手部区域的视频时带来视觉上的不适感。

3)在接收到所述显示指令显示所述预先设置的标准标定框，且之后没有接收到任何指令的时间超过第三预设时间段时，自动隐藏所述预先设置的标准标定框。

在显示所述预先设置的标准标定框后，当用户不再输入任何操作且超过所述第三预设时间段时，自动将预先设置的标准标定框进行隐藏，可以避免用户在无意识间触发了显示指令而长时间显示预先设置的标准标定框的情况发生，其次，自动将预先设置的标准标定框进行隐藏，也有助于提升用户的交互体验。

本实施例中，所述预先设置的标准标定框可以为圆形、椭圆形、长方形、正方形等。

202：接收用户在所述包含人体手部区域的视频上标定的标准标定框。

本实施例中，当用户在所述显示界面显示的包含人体手部区域的视频中发现了感兴趣的手部信息时，通过在所述显示界面上添加一个标准标定框表示标定出的感兴趣的手部信息。

本实施例中，所述接收用户在所述包含人体手部区域的视频上标定的标准标定框包括以下两种情形：

第一种情形：接收用户在所述包含人体手部区域的视频中画出的粗略标定框；通过模糊匹配的方法匹配出与所述粗略标定框相对应的预先设置的标准标定框；根据匹配出的标准标定框对所述包含人体手部区域的视频中进行标定并显示标定的标准标定框，其中，所述粗略标定框的几何中心与所匹配出的标准标定框的几何中心相同。

本实施例中，由于用户通过手指在所述显示界面上画出的标定框的形状并非规范或者标准，例如，用户画出的圆形的标定框并不是十分精准，因而当终端接收到用户画出的大致的粗略标定框的形状后，根据所述粗略标定框的大致形状匹配出相对应的预先设置的标准标定框的形状。通过模糊匹配的方法匹配出对应的标准标定框，便于后续对该标定框标定的区域进行裁剪。

第二种情形：直接接收用户选取的标准标定框，根据所述标准标定框在所述包含人体手部区域的视频上进行标定并显示标定的标准标定框。

本实施例中，用户输入显示操作触发显示指令，从而显示预先设置的多个标准标定框，用户触摸标准标定框，终端侦测到标准标定框上的触摸信号后，确定该标准标定框被选取。用户移动被选取的标准标定框并将其拖拽在所述包含人体手部区域的视频上，终端即在所述包含人体手部区域的视频上显示被拖拽的标准标定框。

优选地，所述步骤202还可以包括：接收到放大、缩小、移动、删除的指令时，对显示的标准标定框进行放大、缩小、移动、删除。

203：对所述标准标定框标定的区域进行预处理。

本实施例中，所述预处理可以包括以下一种或多种的组合：灰度化处理，校正处理。

所述灰度化处理是指将所述标准标定框标定的区域图像转化为灰度图像，因为色彩信息对提取梯度方向直方图特征影响不大，因而所述标准标定框标定的区域图像转化为灰度图像，既不会影响后续计算所述标准标定框标定的区域的各个像素点的梯度信息，还可以减少各个像素点的梯度信息的计算量。

所述校正处理可以采用伽马(Gamma)校正，因在图像的纹理强度中，局部的表层曝光贡献的比重较大，经过Gamma校正处理后的图像能够有效地降低局部的阴影和光照变化。

204：提取所述预处理后的所述标准标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标准标定框标定的区域进行分割得到手部图像。

本实施例中所述的步骤204同实施例一中所述的步骤103，在此不再详细赘述。

205：利用连续自适应数学期望移动算子对所述手部图像进行跟踪。

本实施例中所述的步骤205同实施例一中所述的步骤104，在此不再详细赘述。

进一步地，为了充分利用深度信息，在所述步骤204之后，在所述步骤205之前，所述方法还包括：获取所述标定框标定的区域对应的包含人体手部区域的视频中的深度信息，根据所述深度信息对所述手部图像进行规范化。

所述深度信息为从所述3D深度相机中获取。所述根据所述深度信息对所述手部图像进行规范化的具体过程为：将从第一次的标准标定框标定的区域分割得到的手部图像的尺寸记为标准尺寸S1，第一次的标定框标定的区域对应的景深信息为记为标准景深H1；当前的标准标定框标定的区域分割得到的手部图像的尺寸记为S2，当前的标定框标定的区域对应的景深信息记为H2，对当前的标定框标定的区域分割得到的手部图像进行规范化为S2*(H2/H1)。

对所述手部图像的尺寸进行规范化，是为了使得最终提取出的HOG特征表示具有统一的批判标准，即具有相同的量纲，提高手部跟踪的准确度。

综上所述，本发明所述的快速手部跟踪方法，提供两种标准标定框对所述包含人体手部区域的视频进行标定，能够使得用户标定的标定框为标准标定框，进而分割得到的手部区域的形状是标准的，基于该分割的标准的标定框进行手部跟踪效果更佳。

需要说明的是，本发明所述的快速动态手部跟踪方法可以适用于单个手部的跟踪，也可以适用于多个手部的跟踪。对于多个手部的跟踪，采用并行跟踪的方法进行跟踪，其实质为多个单一的手部跟踪的过程，在此不进行详细描述，任何采用本发明的思想进行手部跟踪的方法都应包含在本发明的范围内。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

下面结合第3至5图，分别对实现上述快速手部跟踪方法的终端的功能模块及硬件结构进行介绍。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

实施例三

图3为本发明快速手部跟踪装置较佳实施例中的功能模块图。

在一些实施例中，所述快速手部跟踪装置30运行于终端中。所述快速手部跟踪装置30可以包括多个由程序代码段所组成的功能模块。所述快速手部跟踪装置30中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行(详见图1及其相关描述)对手部区域的跟踪。

本实施例中，所述终端的快速手部跟踪装置30根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：显示模块301、标定模块302、分割模块303及跟踪模块304。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在所述存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

显示模块301，用于在显示界面上显示成像设备采集的包含人体手部区域的视频。

标定模块302，用于接收用户在所述包含人体手部区域的视频上标定的标定框。

分割模块303，用于提取所述标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标定框标定的区域进行分割得到手部图像。

所述分割模块303提取所述标定框标定的区域的梯度方向直方图(Histogram OfGradient，HOG)特征具体包括：

跟踪模块304，用于利用连续自适应数学期望移动算子对所述手部图像进行跟踪。

23)计算当前搜索窗的阶矩；

25)根据当前搜索窗的阶矩计算当前搜索窗的大小

综上所述，本发明所述的快速手部跟踪装置30，由用户对所述包含人体手部区域的视频中感兴趣的手部信息用标定框标定后，再提取所述标定框标定的区域的HOG特征，根据所述HOG特征将手部区域从所述标定框标定的区域中分割出来。因而，仅需计算所述标定框标定的区域中的HOG特征，相较于计算整个包含人体手部区域的视频图像，本发明通过接收用户标定的标定框，能减少提取HOG特征的区域面积，从而有效的缩短提取HOG特征的时间，因而能够快速的将手部区域从所述包含人体手部区域的视频中分割出来。

实施例四

图4为本发明快速手部跟踪装置的较佳实施例中的功能模块图。

在一些实施例中，所述快速手部跟踪装置40运行于终端中。所述快速手部跟踪装置40可以包括多个由程序代码段所组成的功能模块。所述快速手部跟踪装置40中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行(详见图2及其相关描述)对手部区域的跟踪。

本实施例中，所述终端的快速手部跟踪装置根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：显示模块401、标定模块402、预处理模块403、分割模块404、跟踪模块405及规范化模块406。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在所述存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

显示模块401包括：第一显示子模块4010及第二显示子模块4012。其中，所述第一显示子模块4010用于在显示界面上显示成像设备采集的包含人体手部区域的视频，所述第二显示子模块4012用于以预先设置的显示方式显示预先设置的标准标定框。

所述预先设置的显示方式包括以下一种或多种的组合：

1)接收到显示指令时，显示所述预先设置的标准标定框；

2)接收到隐藏指令时，隐藏所述预先设置的标准标定框；

标定模块402，用于接收用户在所述包含人体手部区域的视频上标定的标准标定框。

本实施例中，所述标定模块402还包括第一标定子模块4020、第二标定子模块4022及第三标定子模块4024。

所述第一标定子模块4020，用于接收用户在所述包含人体手部区域的视频中画出的粗略标定框；通过模糊匹配的方法匹配出与所述粗略标定框相对应的预先设置的标准标定框；根据匹配出的标准标定框对所述包含人体手部区域的视频中进行标定并显示标定的标准标定框，其中，所述粗略标定框的几何中心与所匹配出的标准标定框的几何中心相同。

所述第二标定子模块4022，用于直接接收用户选取的标准标定框，根据所述标准标定框在所述包含人体手部区域的视频上进行标定并显示标定的标准标定框。

所述第三标定子模块4024，用于接收到放大、缩小、移动、删除的指令时，对显示的标准标定框进行放大、缩小、移动、删除。

预处理模块403，用于对所述标准标定框标定的区域进行预处理。

分割模块404，用于提取所述预处理后的所述标准标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标准标定框标定的区域进行分割得到手部图像。

跟踪模块405，用于利用连续自适应数学期望移动算子对所述手部图像进行跟踪。

进一步地，所述快速手部跟踪装置40还包括规范化模块406，用于获取所述标定框标定的区域对应的包含人体手部区域的视频中的深度信息，根据所述深度信息对所述手部图像进行规范化。

综上所述，本发明所述的快速手部跟踪装置40，提供两种标准标定框对所述包含人体手部区域的视频进行标定，能够使得用户标定的标定框为标准标定框，进而分割得到的手部区域的形状是标准的，基于该分割的标准的标定框进行手部跟踪效果更佳。

需要说明的是，本发明所述的快速动态手部跟踪装置30、40可以适用于单个手部的跟踪，也可以适用于多个手部的跟踪。对于多个手部的跟踪，采用并行跟踪的方法进行跟踪，其实质为多个单一的手部跟踪的过程，在此不进行详细描述，任何采用本发明的思想进行手部跟踪的装置都应包含在本发明的范围内。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，双屏设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

实施例五

图5为本发明实施例五提供的终端的示意图。

所述终端5包括：存储器51、至少一个处理器52、存储在所述存储器51中并可在所述至少一个处理器52上运行的计算机程序53、至少一条通讯总线54及成像设备55。

所述至少一个处理器52执行所述计算机程序53时实现上述快速手部跟踪方法实施例中的步骤，例如图1所示的步骤101至104或图2所示的步骤201至205。或者，所述至少一个处理器52执行所述计算机程序53时实现上述装置实施例中各模块/单元的功能，例如图3中的模块301至304或图4中的模块401至406。

示例性的，所述计算机程序53可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述至少一个处理器52执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序53在所述终端5中的执行过程。例如，所述计算机程序53可以被分割成图3中的显示模块301、标定模块302、分割模块303及跟踪模块304，或者被分割为图4中的显示模块401、标定模块402、预处理模块403、分割模块404、跟踪模块405及规范化模块406。所述显示模块401包括第一显示子模块4010及第二显示子模块4012，所述标定模块402包括第一标定子模块4020、第二标定子模块4022及第三标定子模块4024，各模块的具体功能参见实施例一、二及其相应描述。

所述成像设备55包括2D摄像机、3D深度相机等，所述成像设备55可以装设在所述终端5上，也可以与所述终端5分离作为独立的元件存在。

所述终端5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图5仅仅是终端5的示例，并不构成对终端5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端5还可以包括输入输出设备、网络接入设备、总线等。

所述至少一个处理器52可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器52可以是微处理器或者该处理器52也可以是任何常规的处理器等，所述处理器52是所述终端5的控制中心，利用各种接口和线路连接整个终端5的各个部分。

所述存储器51可用于存储所述计算机程序53和/或模块/单元，所述处理器52通过运行或执行存储在所述存储器51内的计算机程序和/或模块/单元，以及调用存储在存储器51内的数据，实现所述终端5的各种功能。所述存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端5的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述终端5集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

Claims

1.一种快速手部跟踪方法，其特征在于，所述方法包括：

在显示界面上显示成像设备采集的包含人体手部区域的视频，同时以预先设置的显示方式显示预先设置的标准标定框；

接收用户在所述包含人体手部区域的视频中画出的粗略标定框，通过模糊匹配的方法匹配出与所述粗略标定框相对应的预先设置的标准标定框，根据匹配出的标准标定框对所述包含人体手部区域的视频中进行标定并显示标定的标准标定框，其中，所述粗略标定框的几何中心与所匹配出的标准标定框的几何中心相同；或者，接收用户选取的标准标定框，根据所述标准标定框在所述包含人体手部区域的视频上进行标定并显示标定的标准标定框；

提取所述标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标定框标定的区域进行分割得到手部图像；

获取所述标定框标定的区域对应的包含人体手部区域的视频中的深度信息，根据所述深度信息对所述手部图像进行规范化，所述规范化的过程为：S2＝S1*(H2/H1)，其中S1为从第一次的标准标定框标定的区域分割得到的手部图像的尺寸，H1为第一次的标定框标定的区域对应的景深信息；S2为当前的标准标定框标定的区域分割得到的手部图像的尺寸，H2为当前的标定框标定的区域对应的景深信息；及

其中，

及

为当前搜索窗的一阶矩，

为当前搜索窗的零阶矩，i为I(i,j)的水平方向上的像素值，jI(i,j)的垂直方向上的像素值；比较所述当前搜索窗的大小与预设搜索窗阈值；当所述当前搜索窗的大小大于或等于所述预设搜索窗阈值时，重复执行上述过程；当所述当前搜索窗的大小小于所述预设搜索窗阈值时，确定所述当前搜索窗的质心位置为跟踪目标的当前位置。

2.如权利要求1所述的方法，其特征在于，所述预先设置的显示方式包括以下一种或多种的组合：

接收到显示指令时，显示所述预先设置的标准标定框；

接收到隐藏指令时，隐藏所述预先设置的标准标定框；

3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

接收到放大、缩小、移动、删除的指令时，对显示的标准标定框进行放大、缩小、移动、删除。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种快速手部跟踪装置，其特征在于，所述装置包括：

显示模块，用于在显示界面上显示成像设备采集的包含人体手部区域的视频，同时以预先设置的显示方式显示预先设置的标准标定框；

标定模块，用于接收用户在所述包含人体手部区域的视频中画出的粗略标定框，通过模糊匹配的方法匹配出与所述粗略标定框相对应的预先设置的标准标定框，根据匹配出的标准标定框对所述包含人体手部区域的视频中进行标定并显示标定的标准标定框，其中，所述粗略标定框的几何中心与所匹配出的标准标定框的几何中心相同；或者，接收用户选取的标准标定框，根据所述标准标定框在所述包含人体手部区域的视频上进行标定并显示标定的标准标定框；

分割模块，用于提取所述标定框标定的区域的梯度方向直方图特征，并根据所述梯度方向直方图特征对所述标定框标定的区域进行分割得到手部图像；

规范化模块，用于获取所述标定框标定的区域对应的包含人体手部区域的视频中的深度信息，根据所述深度信息对所述手部图像进行规范化，所述规范化的过程为：S2＝S1*(H2/H1)，其中S1为从第一次的标准标定框标定的区域分割得到的手部图像的尺寸，H1为第一次的标定框标定的区域对应的景深信息；S2为当前的标准标定框标定的区域分割得到的手部图像的尺寸，H2为当前的标定框标定的区域对应的景深信息；及

跟踪模块，用于利用连续自适应数学期望移动算子对所述手部图像进行跟踪，其中所述利用连续自适应数学期望移动算子对所述手部图像进行跟踪具体包括：

其中，

及

为当前搜索窗的一阶矩，

6.一种终端，其特征在于，所述终端包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序以实现如权利要求1至4中任意一项所述的快速手部跟踪方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的快速手部跟踪方法。