CN105654021B

CN105654021B - 检测人群对目标位置关注度的方法及设备

Info

Publication number: CN105654021B
Application number: CN201410645077.4A
Authority: CN
Inventors: 王鑫; 范圣印; 王千; 乔刚
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2019-02-01
Anticipated expiration: 2034-11-12
Also published as: JP2016095848A; US9881217B2; CN105654021A; US20160133025A1

Abstract

提供了一种检测人群对目标位置的关注度的方法和设备、以及人群密度的检测方法。所述检测人群对目标位置的关注度的方法包括：将拍摄得到的包含人群和目标位置的深度图投影到高度顶视图中；将所述高度顶视图划分为预定大小的单元格；确定每个所述单元格中的人群密度；确定每个所述单元格中人群的运动速率和运动方向；确定每个所述单元格中人群的朝向；基于所述人群密度、人群的运动速率和运动方向、人群的朝向，确定每个单元格中的人群对所述目标位置的关注度。通过该方法，即使在人群拥挤从而难以检测和跟踪单个人的情况下，也能够较为准确地检测出人群对目标位置的关注度。

Description

检测人群对目标位置关注度的方法及设备

技术领域

本公开总体涉及图像处理，具体涉及检测人群对目标位置关注度的方法和设备，以及人群密度的检测方法。

背景技术

检测人群对目标位置关注度的技术在诸如建筑物内部布置、安防监控等许多领域中都有着广泛的应用。例如，该技术在建筑物内部布置领域中的一个常见应用是检测参观人群对展厅内位于目标位置的展项的关注度，由此可以为决策者合理安排展位、控制人流、有效利用展厅空间等提供重要的决策依据。再比如，该技术在安防监控领域中的一个常见应用是检测诸如火车站、政府大楼等安防监控目标位置周围的聚集人群对该安防监控目标位置的关注度，由此可以为决策者判断聚集人群是否可能会妨碍公共秩序(如示威游行)、危害公共安全等提供决策依据。

目前，用于检测所述关注度的常用方式是通过人工计数、基于WIFI、RFID等自动计数、以及在拍摄的图像中检测和跟踪人来确定人群的密度(人群中的人数)，并且当人群密度越大则认为对目标位置的关注度越大，反之，认为对目标位置的关注度越小。然而，通过人工计数来确定人数的人力成本往往很高，基于WIFI、RFID等自动计数人数则准确率较低，而通过在拍摄的图像中检测和跟踪人来确定人数在人群拥挤的情况下准确率大大降低。另一方面，这几种方式均只考虑人群密度来判断人群对目标位置的关注度，忽略了其他因素对关注度的影响，因而不够客观。例如，展厅内位于参观的必经之路的展项周围的人群密度通常较高，但是这并不能说明人群对这些展项的兴趣度很高，因为人群可能只是简单的通过该展项附近而已。

发明内容

本公开的目的在于至少解决上述的一个或多个问题，具体而言，本公开的目的在于提出一种检测人群对目标位置关注度的技术，该技术即使在人群拥挤从而难以跟踪个体的情况下也能够客观、准确地自动检测出人群对目标位置的关注度。

根据本公开的一个方面的实施例，提供了一种检测人群对目标位置的关注度的方法，包括：将拍摄得到的包含人群和目标位置的深度图投影到高度顶视图中；将所述高度顶视图划分为预定大小的单元格；确定每个所述单元格中的人群密度；确定每个所述单元格中人群的运动速率和运动方向；确定每个所述单元格中人群的朝向；基于所述人群密度、人群的运动速率和运动方向、人群的朝向，确定每个单元格中的人群对所述目标位置的关注度。

根据本公开的另一个方面的实施例，提供了一种检测人群对目标位置的关注度的设备，包括：投影单元，配置用于将拍摄得到的包含人群和目标位置的深度图投影到高度顶视图中；分割单元，配置用于将所述高度顶视图划分为预定大小的单元格；密度确定单元，配置用于确定每个所述单元格中的人群密度；运动确定单元，配置用于确定每个所述单元格中人群的运动速率和运动方向；朝向确定单元，配置用于确定每个所述单元格中人群的朝向；关注度检测单元，配置用于基于所述人群密度、人群的运动速率和运动方向、人群的朝向，确定每个单元格中的人群对所述目标位置的关注度。

根据本公开第三方面的实施例，提供了一种人群密度的检测方法，包括：将拍摄得到的包含人群的深度图投影到高度顶视图中；将所述高度顶视图划分为预定大小的单元格；对于每个单元格，提取密度检测特征，该密度检测特征用于表示该单元格内各像素之间的高度差分布；以及根据所述密度检测特征，利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数。

根据本公开实施例的检测人群对目标位置的关注度的技术基于人群密度、人群的运动以及人群朝向综合确定人群对目标位置的关注度，相比于仅基于人群密度来检测人群对目标位置的关注度的方式更客观，检测结果更加准确。另一方面，该检测人群对目标位置的关注度的技术不是通过跟踪检测每个个体来检测关注度，而将人群看作一个整体来进行检测，因而即使在人群拥挤从而导致难以跟踪个体的情况下，也可以获得较好的检测结果。此外，在该检测人群对目标位置的关注度的技术中，采用基于高度的密度检测特征来检测人群的密度，由于该基于高度的密度检测特征考虑了人体的比例，因而能够较好地代表人体，使得能够较为准确地检测出人体并由此提高人群密度检测的准确性。

附图说明

图1示出了根据本公开实施例的检测人群对目标位置关注度的方法的流程图

图2示出了根据本公开实施例的检测人群对目标位置关注度的方法中确定每个单元格中的人群密度的处理的流程图。

图3示意性示出了具有不同半径R的圆形LBP特征的示例。

图4(a)示意性地示出了三种示例性的人群排布场景；图4(b)示出了与图4(a)中所示的人群排布场景对应的高度顶视图；图4(c)示出了从图4(b)中所示的高度顶视图中提取LBP特征的结果。

图5示出了根据本公开实施例的检测人群对目标位置关注度的方法中确定每个单元格中人群的运动速率和运动方向的处理的流程图。

图6示出了根据本公开实施例的检测人群对目标位置关注度的方法中基于人群密度、人群的运动速率和运动方向、人群的朝向来确定关注度的处理的流程图。

图7例示了根据本公开实施例检测得到的人群对目标位置的关注度的分布图。

图8示出了根据本公开实施例的检测人群对目标位置的关注度的设备的功能配置框图。

图9示出了根据本公开实施例的检测人群对目标位置的关注度的系统的总体硬件图。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开作进一步详细说明。

首先对本公开中涉及的技术术语进行简单的介绍。

众所周知，灰度图是一种具有从黑到白多个灰度色域或多个灰度等级的单色图像。该图像中的每个像素通常用8位数据表示，这样该图像可以有256种灰度。而彩色图则是每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来表示的，分量介于0到255之间。尽管如此，灰度图和彩色图的形成方式和主要功能都是类似的(用来表示颜色信息)。因此，虽然在下文中对本公开技术方案的描述中采用灰度图，但是将灰度图替换为彩色图也是完全可以的。

深度图是图像中每一像素点的值表示场景中某一点与摄像机之间的距离的图像。相比于灰度图(彩色图)，深度图具有物体的深度(距离)信息，因此适合于需要立体信息的各种应用。

顶视图是由物体上方向下做正投影得到的视图，也叫俯视图。顶视图包括面积顶视图、高度顶视图等多种类型。在本公开中，如无特别说明，顶视图特指高度顶视图，即以空间中的最高点的高度值作为顶视图对应位置的像素值。

下面参考图1对根据本公开实施例的检测人群对目标位置关注度的方法进行描述。图1示出了根据本公开实施例的检测人群对目标位置关注度的方法的流程图。

如图1所示，在步骤S110，将拍摄得到的包含人群和目标位置的深度图投影到高度顶视图中。

所述投影处理可以通过本领域中任何已知的方法来实现。例如一种常用的方法是先通过坐标转换将拍摄得到的深度图中的各个像素在图像坐标系中的坐标转换为世界坐标系中的坐标，再将转换得到的世界坐标系中的各个像素点映射到高度顶视图中。

上述将各个像素在图像坐标系中的坐标转换为世界坐标系中的坐标的转换过程是本领域中公知的，此处不再赘述。而将世界坐标系中的各个点映射到高度顶视图的常用方式如表达式(1)所示：

其中X_w,Z_w表示世界坐标系中的像素点(X_w,Y_w,Z_w)在地面的投影点的坐标，(topU,topV)是该像素点在高度顶视图中的坐标，δ_ground表示定义的高度顶视图中每个像素表示的真实长度，X_min和Y_min是根据相机的拍摄范围预定义的常量，其具体值可以根据试验和经验来确定，以使得topU和topV为正即可。

关于上述进行投影处理的常用方法的更具体的描述可以参考Michael Harville于2003年发表的文章"Stereo Person Tracking with Adaptive Plan-View Templatesof Height and Occupancy Statistics"，此处，将该文章全文并入本申请，作为参考。

另外，可选的，在该步骤中，代替将拍摄得到的包含人群和目标位置的整个深度图直接投影到高度顶视图中，也可以通过背景建模等方式分割出该图像中的前景区域，并仅将该前景区域投影到高度顶视图中。前景区域为目标位置周围的有效区域，由于通过前景分割去除了干扰像素，因此将前景区域投影到高度顶视图中可以减小高度顶视图中的噪声。

在步骤S120，将所述高度顶视图划分为预定大小的单元格。

考虑到人群拥挤的情况下往往难以跟踪每个单独的个体，因此在本实施例中，将人群作为整体来进行检测。更明确的说，以高度顶视图中的一个单元格为单位，计算每个单元格中的人群对目标位置的关注度，所述单元格对应于真实世界中地面上的一块单位区域。单元格的大小可以根据人群拥挤程度和经验值来预先设定，例如可以是边长为1米或2米的正方形区域等等。作为一种极端情况，也可以将整个高度顶视图作为一个单元格。当然，高度顶视图并非必须划分为相等大小的单元格，根据实际需要，也可以划分为不同大小的单元格。

在步骤S130，确定每个所述单元格中的人群密度。下面将结合图2，对该步骤的具体处理进行描述。

如图2所示，在步骤S1301，在该单元格中提取密度检测特征，该密度检测特征用于表示该单元格内各像素之间的高度差分布。

此处，可以采用诸如局部二值模式(LBP)特征、梯度特征、harris特征、haar特征等任何适当的图像特征作为密度检测特征，只要其能够表示该单元格内各像素之间的高度差分布即可。在下文中，将以采用LBP特征作为密度检测特征为例进行描述。

LBP特征是一种本领域中常用的用来描述图像局部纹理的特征。基本LBP特征是指在3×3的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若相邻像素值大于中心像素值，则该相邻像素点被分配值1，否则分配值0。随后，将3×3窗口内的8个像素被分配的0或1值顺序排列组成的8位二进制编码作为该窗口中心像素的LBP值，并用这个值来反映该区域的纹理信息。

基本LBP算子具有一个固有的缺陷，即它只覆盖了一个固定范围内的小区域，这显然不能满足不同尺寸和频率纹理的需要。为了适应不同尺度的纹理特征，研究人员对LBP特征进行了改进，将3×3窗口扩展到任意窗口，并用圆形窗口代替正方形窗口，由此得到圆形LBP特征。圆形LBP特征允许在以中心像素为中心、以半径为R的圆形邻域内有任意多个像素点。例如，图3示意性示出了具有不同半径R的圆形LBP特征的示例。在本实施例中，如无特别说明，LBP特征将指圆形LBP特征。

在采用例如LBP特征作为密度检测特征时，在该步骤S1301中，将在单元格中提取LBP特征，该处理是本领域技术人员公知的。此处，仅仅是为了下文中便于说明，对该处理简单描述如下。具体的，在该步骤S1301中，对于该单元格中的每一个像素执行以下处理：(S1)确定以该像素P为中心，距离该像素P预定距离的各个邻域像素J；(S2)对该像素P的像素值和每个邻域像素J的像素值进行比较；(S3)如果某一邻域像素J的像素值大于该像素P的像素值，则为该邻域像素J分配值1，否则为该邻域像素J分配值0；(S4)将由各个所述邻域像素J的值组成的二进制编码作为所述像素P的LBP编码。需要说明的是，传统LBP特征是在灰度图中提取的，因而反映的是中心像素与邻域像素之间灰度值的差异，而在该步骤S1301中则是在高度顶视图中提取的，其反映的是中心像素与邻域像素之间的高度值的差异。因此，更准确的说，在该步骤S1301中提取的是基于高度的LBP特征。

考虑到人体固有的比例特性，可替换的，在上述处理(S3)中可以如表达式(2)所示来为各邻域像素分配1或0值：

其中，g(J)是为邻域像素J分配的值，h(P)和h(J)分别是中心像素P和邻域像素J在高度顶视图中的像素值。T和Hmin是根据人体的头肩模型预先设定的阈值。具体的，由于人体固有的比例，因此在俯视人的头肩时，其外观具有中间高(头的部分)，两边低(肩的部分)的一般规律。此处，T表示人体头部的最高点与肩部的最高点之间的高度差，Hmin表示人体肩部的最高点距地面的距离。按照该表达式(2)，在所述处理(S3)中，如果某一邻域像素J的像素值h(J)与中心像素P的像素值h(P)之差小于第一阈值T，并且该邻域像素J的像素值h(J)大于第二阈值Hmin，则为该邻域像素J分配值1，否则为该邻域像素J分配值0。由于如表达式(2)所示提取LBP特征时应用了人体的头肩模型，因此能够更好地表征人体，进而能够更准确地检测出人群密度。

另外，上述处理(S4)中最基本的方式是直接将由各个所述邻域像素的值顺序排列组成的二进制编码作为所述像素的LBP编码。然而，按照这一方式，每种二进制编码经旋转(循环位移)后会产生不同的结果。换句话说，如果图像发生旋转，对于相同的人群排布，LBP编码将会是不同的，这显然会对人群密度的检测结果造成不利影响。因此，可选的，可以对所述顺序排列组成的二进制编码进行旋转不变处理，并将经过该旋转不变处理的二进制编码作为所述像素P的LBP编码。LBP的旋转不变处理是本领域技术人员公知的，此处仅仅是为了说明的完整，对该处理进行简单的介绍。旋转不变处理可以按照如下的表达式(3)来进行：

LBP_P,R＝min{ROR(LBP_P,R,i))|i＝0,1,...,P-1}…(3)

其中P为二进制编码的长度，也就是中心像素P周围的邻域像素J的个数，本实施例中假设P＝8；R是邻域半径，即各个邻域像素J距离中心像素P的距离，本实施例中假设R＝2；ROR是循环位移指令，比如ROR(11000000,1)＝10000001。

通过如表达式(3)所示的旋转不变处理，具有同一编码模式的各个二进制编码统一为同一个编码结果，即该编码模式的旋转结果中的最小值。例如，对于两个二进制编码“10011110”和“11110100”，其具有同一编码模式，即中心像素P的8个邻域像素J中有5个邻域像素满足预定条件因而被分配值1(例如其像素值大于中心像素P的像素值，或者其与中心像素满足人的头肩模型等)，其余3个邻域像素则不满足预定条件因而被分配值0，则这两个二进制编码旋转不变处理后的结果均为“00111101”。经过该旋转不变处理，二进制编码具有旋转不变性，从而理论上不论人的朝向如何，对人群密度的检测结果都是相同，即人群密度的检测具有鲁棒性。

能够理解，当二进制编码的长度为8时，最多有256种不同的二进制编码，而通过如表达式(3)所示的旋转不变处理后，则最多有36种不同的二进制编码，其对应的十进制数值如下所示：

{LBP_P,R}＝{0,1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,37,39,43,45,

47,51,53,55,59,61,63,85,87,91,95,111,119,127,255}

回到图2，在步骤S1302，根据所述密度检测特征，利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数。

在该步骤中将针对每个单元格进行操作以计算出该单元格中的人数。具体的，首先对单元格中各个像素的LBP编码进行分类，以将相同的LBP编码分类到同一类中，并确定各类LBP编码中各自包含的LBP编码的数量。

在步骤S1301中已经通过在单元格中提取密度检测特征(LBP特征)，针对单元格中的各个像素计算出了其LBP编码。能够理解，单元格中不同像素的二进制编码可能是相同的。此处，对单元格中的各个像素的LBP编码进行分类统计，以统计出单元格内共包括多少种不同的LBP编码，以及每种不同的LBP编码各自包括多少个LBP编码，或者说每种不同的LBP编码分别出现了多少次。作为一种示例性的统计结果表示方式，可以将单元格中LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量用一个多维数组来表示，其中数组中的每个元素代表一种LBP编码，元素的值则代表该种LBP编码出现的次数。

需要说明的是，进行分类的LBP编码可以是直接由各个邻域像素的值顺序排列组成的二进制编码，也可以是该顺序排列的二进制编码进行旋转不变处理后得到的二进制编码。在下文中，以进行分类的LBP编码是进行旋转不变处理后得到的二进制编码为例进行说明。

在对单元格中各个像素的LBP编码进行分类统计后，针对分类得到的LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量，应用密度模型，计算出该单元格中的人数。

所述密度模型是以LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量作为自变量，以预先统计的与所述自变量的各种取值对应的单元格内的实际人数为因变量，利用统计学习方法训练得到的。下面将参考图4(a)-(c)举例对此进行说明。图4(a)示意性地示出了三种示例性的人群排布场景；图4(b)示出了与图4(a)中所示的人群排布场景对应的高度顶视图；图4(c)示出了从图4(b)中所示的高度顶视图中提取LBP特征的结果。

如图所示，图4(a)从上到下分别例示了包含2个人、5个人、12个人的人群排布场景，图4(b)则示出了与这三种人群排布场景对应高度顶视图。对于图4(b)中的三幅高度顶视图，通过根据本公开实施例的前述步骤S120和S1301可以得到如图4(c)所示的LBP特征提取结果(此处为了简单起见，认为图4(b)中的一副高度顶视图即为一个单元格)。对于图4(c)中的每幅LBP特征提取结果图，如上文中所述对其中的各个像素的LBP编码进行分类统计，以统计出其中共包括多少种不同的LBP编码，以及每种不同的LBP编码各自包括多少个LBP编码，或者说每种不同的LBP编码分别出现了多少次。由此，可以得到分别与2个人、5个人、12个人的人群密度对应的LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量，作为训练样本。类似的，可以对于更多的其他人群密度，统计出与其对应的LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量，作为训练样本。当获得一定数量的训练样本后，可以以LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量作为自变量，以与其对应的人群密度(即人数)为因变量，利用统计学习方法训练得到密度模型。所述统计学习方法可以采用例如线性回归法、SVM回归法、二分类法等各种现有方法，由于利用所述统计学习方法训练得到密度模型的处理是本领域中公知的，此处省略对其的具体描述，以免不必要地混淆本公开的发明点所在。

能够理解，所述密度模型描述了人群密度与对应的LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量之间的对应关系。因此，在对单元格中各个像素的LBP编码进行分类统计后，通过应用该密度模型就可以得到与分类统计出的LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量所对应的人群密度。

以上描述了根据本公开实施例的用于确定每个单元格中的人群密度的具体处理方法。能够理解，用于确定每个单元格中的人群密度的方法不限于此，也可以采用本领域中常用的其他适当方式来确定每个单元格中的人群密度。例如，可以基于高度顶视图统计每个单元格内有效像素(即排除噪声像素的、可能表示人体的像素)的个数，并利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数，其中密度模型表示有效像素与预先获知的实际人数之间的对应关系。在比如，可以在拍摄得到的包含人群和目标位置的深度图中确定与所述单元格对应的区域，并通过现有的图像检测技术在该深度图中检测人，并将检测到的结果作为所述单元格中的人群密度。再比如，可以确定与所述单元格对应的真实世界中地面上的一块单位区域，并通过WIFI、RFID等自动计数该区域内的人数，作为所述单元格中的人群密度。

回到图1，在步骤S140，确定每个所述单元格中人群的运动速率和运动方向。下面将结合图5，对该处理进行描述。

如图5所示，对于每个单元格，在步骤S1401，基于所述深度图以及与该深度图对应的灰度图或彩色图，计算该单元格中每个像素的运动速率和方向。

在该步骤中，可以通过光流法等各种现有图像处理技术在所述深度图和灰度图(彩色图)中进行跟踪，以获得每个像素的运动信息。例如假设(x^t,y^t,d^t)为跟踪得到的像素在当前时刻的图像坐标及深度值，其在世界坐标系的对应像素点的坐标为(X_w ^t,Y_w ^t和Z_w ^t)，(x^t-1,y^t-1,d^t-1)为跟踪得到的该像素在前一时刻的图像坐标及深度值，其在世界坐标系的对应像素点的坐标为(X_w ^t-1,Y_w ^t-1和Z_w ^t-1)。由此，可以如表达式(4)所示计算出该像素在世界坐标系下的帧间位移，即该像素点的运动速率。

dx＝X_w ^t-X_w ^t-1

dy＝Y_w ^t-Y_w ^t-1

dz＝Z_w ^t-Z_w ^t-1…(4)

另一方面，可以如表达式(1)所示将世界坐标系中的点映射到高度顶视图中，由此可以得到高度顶视图的该单元格中每个像素的运动速率，进而，可以如表达式(5)所示计算出每个像素i的运动方向θ_i。

其中，dx_i和dz_i分别是如表达式(4)所示计算出的该像素在x和z轴上的帧间位移。

在步骤S1402，根据该单元格中每个像素的运动速率和方向，确定该单元格中人群的运动速率和方向。

如前所述，在本实施例中，以高度顶视图中的一个单元格为单位，计算每个单元格中的人群对目标位置的关注度。因此，在该步骤中，将计算单元格中人群的整体运动速率和方向。

假设该单元格中有K个像素，则可以将该K个像素的运动速率的算术平均值、加权平均值或中值等作为该单元格的整体运动速率。例如，在采用算术平均值作为单元格的整体运动速率时，可以如表达式(6)所示进行计算：

其中，ρ表示单元格的整体运动速率，i是像素编号。

另一方面，可以统计单元格内K个像素的运动方向中最主要的方向作为该单元格的整体运动方向。例如，可以将0到360度以一定角度(例如30度、40度、45度等)为单位划分为若干个区间，然后统计K个像素的运动方向分别落在哪个区间，以将落在其中的像素运动方向最多的区间作为单元格的整体运动方向区间，并将该区间内的诸如最小值、中间值或最大值等作为单元格的整体运动方向θ。

当然，以上描述的仅仅是计算单元格中人群的整体运动速率和方向的一个示例，也可以采用其他适当方式来根据单元格中每个像素的运动速率和方向，确定单元格中人群的运动速率和方向。例如，可以将每个像素的运动速率和运动方向看作一个速度矢量，并对单元格中的所有像素的速度矢量进行矢量相加得到最终的矢量和，作为该单元格的整体运动速度，由此得到该单元格的整体运动速率和方向。

回到图1，在步骤S150，确定每个所述单元格中人群的朝向。

在该步骤中，可以通过例如以下的处理来群定单元格中人群的朝向：(S1)在该单元格中进行人的检测；(S2)判断每个检测出的人的朝向；(S3)根据每个检测出的人的朝向，确定该单元格中人群的朝向。

在处理(S1)中，可以采用诸如连通域分析法等常规方法在单元格中分割和检测出人。或者，也可以参考诸如前文中提到的Michael Harville于2003年发表的论文"StereoPerson Tracking with Adaptive Plan-View Templates of Height and OccupancyStatistics"中采用的特殊检测方法在该单元格中检测人。需要说明的是，此处的人的检测并不要求是精确检测，只需粗略检测出该单元格中可能的各个人即可。

在处理(S2)中，对于在处理(S1)中在高度顶视图的单元格中检测出的每个人，可以在与该高度顶视图对应的灰度图中确定对应的人，并利用现有的正面检测器、左侧面检测器、右侧面检测器这几种人脸识别检测器对灰度图中该对应的人进行人脸识别，从而判断出该人的朝向。通过这一方式，可以获得最多4种不同的朝向。

可替换的，在该处理中，也可以采用“Plan-View Eigenposes”特征来训练0°,45°,90°,135°的4方向的分类器，然后利用训练得到的4方向分类器来判断每个检测到的人的朝向。关于该朝向检测方法的更具体的描述可以参考Michael Harville于2004年发表的文章“Fast,Integrated Person Tracking and Activity Recognition with Plan-ViewTemplates from a Single Stereo Camera”，此处，将该文章全文并入本申请，作为参考。

在处理(S3)中，可以统计单元格内K个像素的朝向中最主要的朝向作为该单元格的整体朝向。例如，可以对单元格内K个像素各自的朝向进行统计，并将出现次数最多的朝向作为单元格的整体朝向或者，可替换的，可以将每个像素的朝向看作一个幅值为1的矢量，并对单元格中所有像素各自的矢量进行矢量相加得到最终的矢量和，作为代表该单元格的整体运动朝向的矢量，由此得到该单元格的整体运动朝向。

在步骤S160，基于所述人群密度、人群的运动速率和运动方向、人群的朝向，确定每个单元格中的人群对所述目标位置的关注度。下面将结合图6，对该处理进行描述。

如图6所示，在步骤S1601，基于该单元格中人群的运动方向和朝向，确定该单元格中人群相对于目标位置的运动方向和朝向。

如前所述计算出的单元格中人群的运动方向θ和朝向均是相对于高度顶视图的图像坐标系中的0度轴而言的，在该步骤中，可以通过如下的表达式(7)转换得到单元格中的人群相对于目标位置的运动方向θ_I和朝向

其中，(U_I,V_I)为目标位置在高度顶视图中的坐标，(u,v)为单元格在高度顶视图中的坐标(此处可以例如取单元格的中心像素的位置坐标作为该单元格的位置坐标)。

在步骤S1602，基于该单元格中人群的运动速率、所述相对于目标位置的运动方向和朝向，确定加权系数，以使得当所述运动速率大于预先设定的速率阈值时，该单元格中人群越朝着靠近目标位置的方向运动则加权系数越大，以及当所述运动速率不大于所述速率阈值时时，该单元格中人群越面向所述目标位置则加权系数越大。

在该步骤中可以根据具体情况采用任何适当的方式来确定加权系数。作为一个示例，可以如表达式(8)和(9)所示来确定加权系数：

其中，ρ表示单元格中人群的运动速率，表示基于单元格中人群的运动速率ρ、相对于目标位置的运动方向θ_I和朝向确定的加权系数，speedThreshold是预先设定的速率阈值，该速率阈值可以根据单元格中的人群密度和经验值来设定。根据表达式(9)，当运动速率大于预先设定的速率阈值speedThreshold时，加权系数由人群相对于目标位置的运动方向来确定，而当运动速率不大于预先设定的速率阈值speedThreshold时，加权系数由人群相对于目标位置的朝向来确定。表达式(8)描述了根据人群相对于目标位置的运动方向/朝向来确定加权系数的一种具体方式。应当理解，表达式(8)所示的仅仅是一种示例性的确定方式，也可以采用其他适当的方式来确定加权系数，只要使得单元格中人群越朝着靠近目标位置的方向运动/越面向所述目标位置则加权系数越大即可。

在步骤S1603，将该加权系数与该单元格中的人数的乘积作为该单元格中人群对所述目标位置的关注度。

在该步骤中，可以如表达式(10)所示将加权系数与单元格中的人群密度的乘积作为人群对目标位置的关注度：

其中，I_t(u,v)表示坐标为(u,v)的单元格对目标位置的关注度，D表示单元格中的人群密度。根据表达式(10)，人群对目标位置的关注度不仅仅取决于人群的密度，而是还与人群相对于目标位置的运动速率、运动方向以及朝向有关。

至此可以计算出高度顶视图中每个单元格中的人群对目标位置的关注度。由于如前文中提到的，高度顶视图中的每个单元格对应于真实世界中地面上的一个单位区域，因此实际上检测出了真实世界中地面上每个单位区域中的人群对目标位置的关注度。图7例示了根据本公开实施例检测得到的人群对目标位置的关注度的分布图，图中颜色越深的位置表示该位置处的人群对目标位置的关注度越高。

另一方面，如上计算出的是在某一时刻各个单位区域中的人群对目标位置的关注度。可选的，也可以如表达式(11)所示计算在一段时间内各个单位区域中的人群对目标位置的累计关注度，所述一段时间可以是诸如一小时、半天、一天等

其中，I为累计关注度，I_t为在时刻t的关注度，k为归一化因子，其与拍摄视频的帧率或者系统处理的帧率相关，例如k＝1/fps。

以上已经参考附图描述了根据本公开实施例的检测人群对目标位置的关注度的方法。在该方法中，基于利用高度顶视图检测出的人群密度、人群的运动以及人群朝向综合确定人群对目标位置的关注度，相比于仅基于人群密度来确定人群对目标位置的关注度的方式更客观，检测结果更加准确。另一方面，该检测人群对目标位置的关注度的方法不是通过跟踪检测每个人来检测关注度，而将人群看作一个整体来进行检测，因而即使在人群拥挤从而导致难以跟踪单个人的情况下，也可以获得较好的检测结果。此外，在该检测人群对目标位置的关注度的方法中，采用用于表示高度顶视图中的像素之间的高度差分布的密度检测特征来检测人群的密度，由于该密度检测特征考虑了人体的比例，因而能够较好地代表人体，使得能够较为准确地检测出人体并由此提高人群密度检测的准确性。

需要说明的是，在以上的描述中以基于高度顶视图检测人群密度、人群的运动以及人群朝向，进而确定人群对目标位置的关注度为例进行了描述，实际上，该方案也适用于其他类型的顶视图。例如，也可以基于面积顶视图来确定人群对目标位置的关注度，其与上述基于高度顶视图检测人群对目标位置的关注度的方案是一致的，只需将用于表示高度顶视图中各像素之间的高度差分布的密度检测特征改变为适合面积顶视图的密度检测特征即可。

另外，上文中以采用LBP特征作为密度检测特征为例进行了描述，实际上，将LBP特征替换为梯度特征、harris特征、haar特征等其他适当的图像特征也是完全可以的。

此外，本公开事实上还提供了一种人群密度的检测方法，包括步骤：将拍摄得到的包含人群的深度图投影到高度顶视图中；将所述高度顶视图划分为预定大小的单元格；对于每个单元格，提取密度检测特征，该密度检测特征用于表示该单元格内各像素之间的高度差分布；以及根据所述密度检测特征，利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数。

在一个实施例中，所述密度检测特征是基于高度的局部二值模式(LBP)特征，并且所述对于每个单元格提取密度检测特征包括对于该单元格中的每一个像素执行下述处理：确定以该像素为中心，距离该像素预定距离的各个邻域像素；对该像素的像素值和每个邻域像素的像素值进行比较；如果某一邻域像素的像素值与该像素的像素值之差小于第一阈值，并且该邻域像素的像素值大于第二阈值，则为该邻域像素分配值1，否则为该邻域像素分配值0；以及将由各个所述邻域像素的值组成的二进制编码作为所述像素的LBP编码。其中，所述第一阈值和第二阈值可以按照人体比例来设置。

在一个实施例中，所述将由各个所述邻域像素的值组成的二进制编码作为所述像素的LBP编码可以包括：对由各个所述邻域像素的值顺序排列组成的二进制编码进行旋转不变处理，并将经过该旋转不变处理的二进制编码作为所述像素的LBP编码。

在一个实施例中，所述根据所述密度检测特征、利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数可以进一步包括针对每个单元格进行以下操作：对该单元格中各个像素的LBP编码进行分类，以将相同的LBP编码分类到同一类中，并确定各类LBP编码中各自包含的LBP编码的数量；以及针对分类得到的LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量，应用所述密度模型，计算出该单元格中的人数。其中，所述密度模型是以所述LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量作为自变量，以预先统计的与所述自变量的各种取值对应的单元格内的实际人数为因变量，利用统计学习方法训练得到的。

上述人群密度的检测方法中的各个步骤的具体处理可以参考上文中结合图1到图4(c)的相关描述，此处不再重复描述。该方法采用用于表示高度顶视图中的各像素之间的高度差分布的密度检测特征来检测人群的密度，由于该密度检测特征考虑了人体的比例，因而能够较好地代表人，使得能够较为准确地检测出人并由此提高人群密度检测的准确性。

下面参考图8描述根据本公开实施例的检测人群对目标位置的关注度的设备。

如图8所示，对象设备800可以包括：投影单元801，配置用于将拍摄得到的包含人群和目标位置的深度图投影到高度顶视图中；分割单元802，配置用于将所述高度顶视图划分为预定大小的单元格；密度确定单元803，配置用于确定每个所述单元格中的人群密度；运动确定单元804，配置用于确定每个所述单元格中人群的运动速率和运动方向；朝向确定单元805，配置用于确定每个所述单元格中人群的朝向；关注度检测单元806，配置用于基于所述人群密度、人群的运动速率和运动方向、人群的朝向，确定每个单元格中的人群对所述目标位置的关注度。

可选的，所述密度确定单元803进一步包括：提取单元，配置为在单元格中提取密度检测特征；和密度检测单元，配置为根据所述密度检测特征，利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数。

可选的，所述运动确定单元804进一步包括：像素运动确定单元，配置为基于所述深度图以及与该深度图对应的灰度图或彩色图，计算该单元格中每个像素的运动速率和方向；和整体运动确定单元，配置为根据该单元格中每个像素的运动速率和方向，确定该单元格中人群的运动速率和方向。

可选的，所述朝向确定单元805进一步包括：个体检测单元，配置为在该单元格中进行人的检测；个体朝向确定单元，配置为判断每个检测出的人的朝向；以及整体朝向确定单元，配置为根据每个检测出的人的朝向，确定该单元格中人群的朝向。

可选的，所述关注度检测单元806进一步包括：转换单元，配置为基于该单元格中人群的运动方向和朝向，确定该单元格中人群相对于目标位置的运动方向和朝向；加权系数确定单元，配置为基于该单元格中人群的运动速率、所述相对于目标位置的运动方向和朝向，确定加权系数，以使得当所述运动速率大于预先设定的速率阈值时，该单元格中人群越朝着靠近目标位置的方向运动则加权系数越大，以及当所述运动速率不大于所述速率阈值时时，该单元格中人群越面向所述目标位置则加权系数越大；以及加权单元，配置为将该加权系数与该单元格中的人数的乘积作为该单元格中人群对所述目标位置的关注度。

上述投影单元801、分割单元802、密度确定单元803、运动确定单元804、朝向确定单元805、关注度检测单元806、提取单元、密度检测单元、像素运动确定单元、整体运动确定单元、个体检测单元、个体朝向确定单元、整体朝向确定单元、转换单元、加权系数确定单元、加权单元的具体功能和操作可以参考上述图1到图7的相关描述，此处不再重复描述。

下面参考图9描述根据本公开实施例的检测人群对目标位置的关注度的系统900的总体硬件框图。如图9所示，检测人群对目标位置的关注度的系统900可以包括：输入设备910，用于从外部输入有关图像或信息，例如摄像机拍摄的深度图、灰度图(彩色图)等，该输入设备例如可以是键盘、鼠标、摄像机等等；处理设备920，用于实施上述的按照本公开实施例的检测人群对目标位置的关注度的方法，或者实施为上述的检测人群对目标位置的关注度的设备，该处理设备例如可以是计算机的中央处理器或其它的具有处理能力的芯片等等；输出设备930，用于向外部输出实施上述检测过程所得到的结果，例如真实世界中目标位置附近的各个单位区域对目标位置的关注度等等，该输出设备例如可以是显示器、打印机等等；以及存储设备940，用于以易失或非易失的方式存储上述对象跟踪过程所涉及的诸如深度图、灰度图(彩色图)、各种阈值、密度检测特征的值、密度模型、各单元格中的人群密度、各单元格中人群的运动速率和运动方向、各单元格中人群的朝向等等，该存储设备例如可以是随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤，某些步骤可以并行、彼此独立或按照其他适当的顺序执行。另外，诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的装置和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

对本领域的普通技术人员而言，能够理解本公开的方法和装置的全部或者任何部分，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现。所述硬件可以是利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。所述软件可以存在于任何形式的计算机可读的有形存储介质中。通过例子而不是限制，这样的计算机可读的有形存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他有形介质。如在此使用的，盘包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘。

本公开的智能控制技术还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。本公开的智能技术也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现，或者通过存储有这样的程序产品的任意存储介质来实现。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种人群密度的检测方法，包括：

将拍摄得到的包含人群的深度图投影到高度顶视图中；

将所述高度顶视图划分为预定大小的单元格；

对于每个单元格，提取密度检测特征，该密度检测特征用于表示该单元格内各像素之间的高度差分布；以及

根据所述密度检测特征，利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数；

其中所述密度检测特征是基于高度的局部二值模式(LBP)特征，

所述对于每个单元格提取密度检测特征包括对于该单元格中的每一个像素执行下述处理：

确定以该像素为中心，距离该像素预定距离的各个邻域像素；

对该像素的像素值和每个邻域像素的像素值进行比较；

如果某一邻域像素的像素值与该像素的像素值之差小于第一阈值，并且该邻域像素的像素值大于第二阈值，则为该邻域像素分配值1，否则为该邻域像素分配值0；

将由各个所述邻域像素的值组成的二进制编码作为所述像素的LBP编码。

2.如权利要求1所述的人群密度的检测方法，其中将由各个所述邻域像素的值组成的二进制编码作为所述像素的LBP编码包括：

对由各个所述邻域像素的值顺序排列组成的二进制编码进行旋转不变处理，并将经过该旋转不变处理的二进制编码作为所述像素的LBP编码。

3.如权利要求2所述的人群密度的检测方法，其中根据所述密度检测特征、利用通过统计学习方法预先建立的密度模型检测出每个单元格中的人数进一步包括针对每个单元格进行以下操作：

对该单元格中各个像素的LBP编码进行分类，以将相同的LBP编码分类到同一类中，并确定各类LBP编码中各自包含的LBP编码的数量；以及

针对分类得到的LBP编码的种类以及各类LBP编码中各自包含的LBP编码的数量，应用所述密度模型，计算出该单元格中的人数，

其中，所述密度模型是以所述LBP编码的种类和各类LBP编码中各自包含的LBP编码的数量作为自变量，以预先统计的与所述自变量的各种取值对应的单元格内的实际人数为因变量，利用统计学习方法训练得到的。

4.如权利要求1所述的人群密度的检测方法，其中按照人体比例设置所述第一阈值和第二阈值。

5.一种检测人群对目标位置的关注度的方法，包括：

将拍摄得到的包含人群和目标位置的深度图投影到高度顶视图中；

将所述高度顶视图划分为预定大小的单元格；

确定每个所述单元格中的人群密度；

确定每个所述单元格中人群的运动速率和运动方向；

确定每个所述单元格中人群的朝向；

基于所述人群密度、人群的运动速率和运动方向、人群的朝向，确定每个单元格中的人群对所述目标位置的关注度；

其中确定每个所述单元格中的人群密度进一步包括：

在该单元格中提取密度检测特征，该密度检测特征用于表示该单元格内各像素之间的高度差分布；

所述在该单元格中提取密度检测特征包括对于该单元格中的每一个像素执行下述处理：

对该像素的像素值和每个邻域像素的像素值进行比较；

将由各个所述邻域像素的值组成的二进制编码作为所述像素的LBP编码；

其中确定每个所述单元格中的人群密度进一步包括：

根据所述密度检测特征，利用通过统计学习方法预先建立的密度模型检测出该单元格中的人数。

6.如权利要求5所述的检测人群对目标位置的关注度的方法，其中将由各个所述邻域像素的值组成的二进制编码作为所述像素的LBP编码包括：

7.如权利要求5所述的检测人群对目标位置的关注度的方法，其中根据所述密度检测特征、利用通过统计学习方法预先建立的密度模型检测出该单元格中的人数进一步包括：

8.如权利要求5所述的检测人群对目标位置的关注度的方法，其中按照人体比例设置所述第一阈值和第二阈值。

9.如权利要求5所述的检测人群对目标位置的关注度的方法，其中确定每个所述单元格中人群的运动速率和运动方向进一步包括：

基于所述深度图以及与该深度图对应的灰度图或彩色图，计算该单元格中每个像素的运动速率和方向；

根据该单元格中每个像素的运动速率和方向，确定该单元格中人群的运动速率和方向。

10.如权利要求5所述的检测人群对目标位置的关注度的方法，其中确定每个所述单元格中人群的朝向进一步包括：

在该单元格中进行人的检测；

判断每个检测出的人的朝向；以及

根据每个检测出的人的朝向，确定该单元格中人群的朝向。

11.如权利要求5-10中任一项所述的检测人群对目标位置的关注度的方法，其中确定每个单元格中的人群对所述目标位置的关注度包括：

基于该单元格中人群的运动方向和朝向，确定该单元格中人群相对于目标位置的运动方向和朝向；

基于该单元格中人群的运动速率、所述相对于目标位置的运动方向和朝向，确定加权系数，以使得当所述运动速率大于预先设定的速率阈值时，该单元格中人群越朝着靠近目标位置的方向运动则加权系数越大，以及当所述运动速率不大于所述速率阈值时，该单元格中人群越面向所述目标位置则加权系数越大；以及

将该加权系数与该单元格中的人数的乘积作为该单元格中人群对所述目标位置的关注度。

12.一种检测人群对目标位置的关注度的设备，包括：

投影单元，配置用于将拍摄得到的包含人群和目标位置的深度图投影到高度顶视图中；

分割单元，配置用于将所述高度顶视图划分为预定大小的单元格；

密度确定单元，配置用于确定每个所述单元格中的人群密度；

运动确定单元，配置用于确定每个所述单元格中人群的运动速率和运动方向；

朝向确定单元，配置用于确定每个所述单元格中人群的朝向；

关注度检测单元，配置用于基于所述人群密度、人群的运动速率和运动方向、人群的朝向，确定每个单元格中的人群对所述目标位置的关注度；

其中所述密度确定单元在单元格中提取密度检测特征，该密度检测特征用于表示该单元格内各像素之间的高度差分布；

所述密度确定单元执行下述处理：

对该像素的像素值和每个邻域像素的像素值进行比较；

其中所述密度确定单元进一步执行下述处理：