CN109076198B

CN109076198B - 基于视频的对象跟踪遮挡检测系统、方法和设备

Info

Publication number: CN109076198B
Application number: CN201780028124.2A
Authority: CN
Inventors: 雷扎·普尔纳吉; 张瑞
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2016-07-08
Filing date: 2017-07-05
Publication date: 2021-01-29
Anticipated expiration: 2037-07-05
Also published as: CN109076198A; US20180012078A1; US10185877B2; WO2018006834A1

Abstract

本文描述了用于基于视频的对象跟踪(video‑based object tracking，VBOT)遮挡检测过程、系统和设备。实施例处理视频帧以计算所述对象的直方图数据和深度级数据，以针对遮挡事件检测视频帧子集，并且生成输出数据，其中所述输出数据标识所述遮挡事件的所述视频帧子集的每个视频帧。使用阈值测量值尝试减少或消除误报以提高处理效率。

Description

基于视频的对象跟踪遮挡检测系统、方法和设备

交叉申请

本发明要求2016年7月8日递交的发明名称为“基于视频的对象跟踪遮挡检测系统、过程和设备(Systems,Processes and Devices for Occlusion Detection forVideo-Based Object Tracking)”的第15/205,680号美国专利申请案的在先申请优先权，该在先申请的全部内容以引入的方式并入本文本中。

技术领域

本发明大体上涉及视频处理领域，尤其涉及基于视频的对象跟踪遮挡检测。

背景技术

视频监控是一种在公共安全领域具有社会影响的技术。传统的监控系统可能不支持实时决策制定，因为需要由操作人员手动检查的视频监控数据量非常庞大。因此，需要快速、高效的自动视频监控。

发明内容

根据一方面，提供了一种基于视频的对象跟踪(video-based object tracking，VBOT)遮挡检测过程。所述过程包括处理至少一个第一视频帧以计算所述至少一个第一视频帧中对象的第一直方图数据和第一深度级数据。所述过程包括处理第二视频帧以计算所述对象的第二直方图数据和第二深度级数据。所述过程包括通过对所述第一直方图数据与所述第二直方图数据以及所述第一深度级数据与所述第二深度级数据进行比较来确定所述第二视频帧中包含对所述对象产生的遮挡。所述过程还包括传输输出数据，所述输出数据指示包含对所述对象产生的所述遮挡的所述第二视频帧。

可选地，在前述实施例的任一者中，所述过程包括通过以下操作来处理所述至少一个第一视频帧以计算所述第一直方图数据：检测所述对象；定义所述对象的感兴趣区域(Region of Interest，ROI)；以及使用所述对象的所述ROI来计算所述第一直方图数据。

可选地，在前述实施例的任一者中，所述过程包括通过以下操作对所述第一直方图数据与所述第二直方图数据进行比较：计算直方图变化并对所述直方图变化与直方图阈值测量值进行比较。

可选地，在前述实施例的任一者中，所述过程包括通过确定所述第一直方图数据的直方图矢量与所述第二直方图数据的直方图矢量的相似性来计算所述直方图变化，所述直方图矢量表示所述视频帧中像素的颜色值分布或所述视频帧中所述对象的感兴趣区域(Region of Interest，ROI)。

可选地，在前述实施例的任一者中，通过以下操作来计算所述第一深度级数据：处理所述对象的感兴趣区域(Region of Interest，ROI)或扩展ROI，以计算所述ROI或所述扩展ROI中各像素的深度级值，所述深度级数据基于所述像素的所述深度级值。

可选地，在前述实施例的任一者中，所述过程包括通过以下操作对所述第一深度级数据与所述第二深度级数据进行比较：计算深度变化并对所述深度变化与深度阈值测量值进行比较。

可选地，在前述实施例的任一者中，所述过程包括：确定所述直方图变化大于所述直方图阈值测量值；对所述第一深度级数据与所述第二深度级数据进行比较以计算深度级变化；以及对所述深度级变化与深度阈值测量值进行比较以确定所述第二视频帧中包含对所述对象产生的所述遮挡。

可选地，在前述实施例的任一者中，所述过程包括基于所述第一直方图数据和第二直方图数据更新直方图平均值。所述直方图阈值测量值可以基于所述直方图平均值。

可选地，在前述实施例的任一者中，所述深度级数据是一个值，指示所述第二视频帧中所述对象与摄像机的接近度。在一些实施例中，所述深度级数据是一个值，指示基于所述对象或其它对象与所述摄像机的所述接近度的所述第二视频帧中所述对象和所述其它对象的深度顺序。

可选地，在前述实施例的任一者中，所述过程包括通过以下操作来跟踪所述对象：定义所述至少一个第一视频帧和所述第二视频帧中的每一个中的所述对象的感兴趣区域(Region of Interest，ROI)；以及使用所述对象的所述ROI来计算所述第一直方图数据和所述第二直方图数据。

可选地，在前述实施例的任一者中，所述过程包括：基于所述至少一个第一视频帧和所述第二视频帧中的每一个中的所述对象的所述ROI来处理扩展ROI；以及通过基于所述对象的所述扩展ROI估计出深度级值来计算所述对象的所述第一深度级数据和所述对象的所述第二深度级数据。

可选地，在前述实施例的任一者中，所述输出数据包括所述第二视频帧的索引或所述第二视频帧的副本。

根据另一方面，提供了一种基于视频的对象跟踪(video-based objecttracking，VBOT)遮挡检测设备。所述设备包括收发器，用于接收视频帧以跟踪对象。所述设备包括处理器，用于处理至少一个第一视频帧以计算所述至少一个第一视频帧中对象的第一直方图数据和第一深度级数据。所述处理器用于处理第二视频帧以计算所述对象的第二直方图数据和第二深度级数据。所述处理器用于通过对所述第一直方图数据与所述第二直方图数据以及所述第一深度级数据与所述第二深度级数据进行比较来确定所述第二视频帧中包含对所述对象产生的遮挡。所述处理器用于生成输出数据，所述输出数据指示包含对所述对象产生的所述遮挡的所述第二视频帧。所述设备包括数据存储设备，用于存储所述输出数据。

可选地，在前述实施例的任一者中，所述处理器用于通过以下操作来处理所述至少一个第一视频帧以计算所述第一直方图数据：检测所述对象；定义所述对象的感兴趣区域(Region of Interest，ROI)；以及使用所述对象的所述ROI来计算所述第一直方图数据。

可选地，在前述实施例的任一者中，所述处理器用于通过以下操作对所述第一直方图数据与所述第二直方图数据进行比较：计算直方图变化并对所述直方图变化与直方图阈值测量值进行比较。

可选地，在前述实施例的任一者中，所述处理器用于通过确定所述第一直方图数据的直方图矢量与所述第二直方图数据的直方图矢量的相似性来计算所述直方图变化，所述直方图矢量表示所述视频帧中所述像素的颜色值分布或所述视频帧中所述对象的感兴趣区域(Region of Interest，ROI)。

可选地，在前述实施例的任一者中，所述处理器用于通过以下操作来计算所述第一深度级数据：处理所述对象的感兴趣区域(Region of Interest，ROI)或扩展ROI，以计算所述ROI或所述扩展ROI中所述像素的深度级值，所述深度级数据基于所述像素的所述深度级值。

可选地，在前述实施例的任一者中，所述处理器用于通过以下操作对所述第一深度级数据与所述第二深度级数据进行比较：计算深度变化并对所述深度变化与深度阈值测量值进行比较。

可选地，在前述实施例的任一者中，所述处理器用于：确定所述直方图变化大于所述直方图阈值测量值；对所述第一深度级数据与所述第二深度级数据进行比较以计算深度级变化；以及对所述深度变化与深度阈值测量值进行比较以确定所述第二视频帧中包含对所述对象产生的所述遮挡。

可选地，在前述实施例的任一者中，所述处理器用于基于所述第一直方图数据和所述第二直方图数据更新直方图平均值，所述直方图阈值测量值基于所述直方图平均值。

可选地，在前述实施例的任一者中，所述处理器用于通过以下操作来跟踪所述对象：定义所述至少一个第一视频帧和所述第二视频帧中的每一个中所述对象的感兴趣区域(Region of Interest，ROI)；以及使用所述对象的所述ROI来计算所述第一直方图数据和所述第二直方图数据。

可选地，在前述实施例的任一者中，所述处理器用于：基于所述至少一个第一视频帧和所述第二视频帧中的每一个中的所述对象的所述ROI来处理扩展ROI；以及通过基于所述对象的所述扩展ROI估计出深度级值来计算所述对象的所述第一深度级数据和所述对象的所述第二深度级数据。

根据另一方面，提供了一种基于视频的对象跟踪(video-based objecttracking，VBOT)遮挡检测系统。所述一个或多个摄像机用于捕获视频帧以跟踪对象。处理器用于处理至少一个第一视频帧以计算所述至少一个第一视频帧中对象的第一直方图数据和第一深度级数据。所述处理器用于处理第二视频帧以计算所述对象的第二直方图数据和第二深度级数据。所述处理器用于通过对所述第一直方图数据与所述第二直方图数据以及所述第一深度级数据与所述第二深度级数据进行比较来确定所述第二视频帧中包含对所述对象产生的遮挡。所述处理器用于生成输出数据，所述输出数据指示包含对所述对象产生的所述遮挡的所述第二视频帧。所述系统包括显示设备，用于显示所述输出数据或所述第二视频帧的视觉表示。

在阅读完本发明之后，本领域技术人员将会看到关于本文所述的实施例的许多其它特征及其组合。

附图说明

在图中：

图1示出了在第一位置处包含两个被跟踪对象的视频帧的示例。

图2示出了在第二位置处包含两个被跟踪对象的视频帧的示例。

图3示出了一些实施例提供的一种基于视频的对象跟踪(video-based objecttracking，VBOT)遮挡检测系统的示例示意图。

图4A示出了一实施例提供的一种服务器的示意图。

图4B示出了一实施例提供的一种具有功能单元的服务器的示意图。

图5示出了一实施例提供的一种摄像机系统的示意图。

图6示出了作为视频帧的一部分的被跟踪对象的感兴趣区域(region ofinterest，ROI)和用于特征提取以在下一帧中跟踪该对象的扩展ROI的图。

图7示出了被跟踪对象的ROI的示例直方图的图。

图8示出了在视频帧中的ROI内显示的被跟踪对象部分被遮挡的示例深度级的图。

图9示出了接收作为输入数据的视频帧并生成作为检测到的遮挡事件的输出数据的示例过程以及与该事件的起始视频帧的图。

图10示出了一些实施例提供的检测视频帧中对感兴趣对象产生的一个或多个遮挡事件的示例过程的图。

图11示出了视频帧中感兴趣对象的ROI图像的直方图。

图12示出了视频帧中感兴趣对象的深度变化的图。

图13示出了一些实施例提供的集成基于直方图的遮挡检测和基于深度的遮挡检测来检测视频帧中对感兴趣对象产生的一个或多个遮挡事件的示例过程的图。

具体实施方式

本文所述的实施例提供了基于视频的对象跟踪(video-based object tracking，VBOT)遮挡检测系统、过程和设备。可以使用基于计算机视觉和机器学习的智能视频分析技术来实现本文所述的实施例的各方面。通过智能视频分析技术在VBOT过程中从包含感兴趣对象的视频帧中提取信息。所提取的信息用于制定关于应用或客户用例的最终决策。

在VBOT中，被跟踪对象可能全部或部分被视频帧、场景或视频帧的一部分中的另一个对象遮挡。当一个对象因另一个对象介于该对象与摄像机之间导致从摄像机视角不完全可视时，该对象被遮挡。例如，在人体跟踪环境中，一个人走在另一个对象的后面，那么从摄像机视角看到他/她的身体全部或部分被遮挡。VBOT对对象的视觉外观进行表示或建模。当被跟踪对象被遮挡时，该对象的视觉外观可能发生显著变化，这可能导致学习模型的表示不准确和与学习模型的匹配错误。在发生遮挡的情况下，VBOT可能会失去对一个或多个被遮挡对象的跟踪并开始跟踪另一个对象或定格在背景中。这称为标识切换。

图1所示为在第一位置处包含两个被跟踪对象10、12的视频帧的示例。图2所示为在第二位置处包含两个被跟踪对象10、12的视频帧的示例。如图2所示，对象10、12在第二位置处部分被遮挡。由于遮挡，可能无法从视频帧中提取准确的特征表示，并且不同视频帧中的对象匹配可能错误。

图3所示为一种VBOT遮挡检测系统的示例示意图。在一些实施例中，该系统是一种视频监控系统。该视频监控系统包括服务器104，用于执行VBOT遮挡检测。出于简化说明目的，仅示出一个服务器104，但是可以有多个连接或耦合到显示设备106、数据中心110和摄像机102的服务器104。

出于说明性目的，本文描述了关于视频监控的示例实施例。其它应用或用例包括人工智能、机器人学、卫星图像处理、医学图像处理应用、虚拟现实和增强现实。

服务器104接收包含被跟踪对象的视频帧的视频数据馈送。视频帧包括一个或多个遮挡事件。服务器104处理视频帧以确定包含检测到的遮挡事件的视频帧子集。服务器104生成输出数据，该输出数据指示包含一个或多个遮挡事件的视频帧子集中的视频帧。例如，输出数据包括一个或多个遮挡事件的起始视频帧的索引。再例如，输出数据包括一个或多个遮挡事件的每个视频帧的索引。在一些示例中，输出数据包括视频帧的副本。服务器104处理实时或近实时视频数据馈送，还处理预先记录的视频数据馈送。视频数据馈送可能来自摄像机102或数据中心110。输出数据包括视频帧的副本、遮挡事件的视频帧的索引或遮挡事件的视频帧的其它指示符。以服务器104为例描述如何处理视频帧来进行遮挡检测。在一些实施例中，处理视频帧来进行遮挡检测由显示设备106、摄像机102、数据中心110或其组合来实现。

在一些实施例中，服务器104耦合到一个或多个摄像机102以接收视频数据馈送。摄像机102可以是一组摄像机，这些摄像机102可以是相同类型的摄像机设备，也可以是不同类型的摄像机设备。摄像机102耦合到集线器、路由器或其它设备以收集和汇总视频数据馈送，从而将视频数据馈送提供给服务器104。摄像机102可位于一个或多个客户站点以在一个或多个位置跟踪对象。摄像机102捕获被跟踪对象的实时或近实时视频数据馈送。摄像机102生成具有足够质量的视频数据馈送以识别视频帧中的对象。此外，感兴趣对象能够最大限度地接近一个或多个摄像机102。在一些实施例中，服务器耦合到一个或多个摄像机102。

数据中心110耦合到摄像机102以接收和存储视频数据馈送。数据中心110包含数据存储设备，用于存储来自摄像机102的原始视频数据馈送。数据中心110为服务器104、客户或客户站点等提供中央数据存储库。在一些实施例中，服务器104从数据中心110接收视频数据馈送以供处理。在一些实施例中，服务器104向数据中心110传输输出数据以供存储。数据中心110包含数据存储设备，用于为一个或多个客户或客户站点存储来自服务器104的已处理输出数据。在一些实施例中，服务器104或数据中心110可以与一个或多个摄像机102本地共置。在一些实施例中，数据中心110和服务器104可以相对一个或多个摄像机102远程设置。数据中心110可以为视频数据馈送和输出数据提供云计算存储。服务器104可以为视频数据馈送提供云计算处理。

服务器104向显示设备106传输输出数据、视频数据馈送或两者以向用户显示。显示设备106包括I/O设备，用于接收控制命令以操控摄像机102和捕获视频数据馈送，等等。显示设备106还生成并传输控制命令以操控视频数据馈送的回放、验证对象检测和提供与视频帧中的感兴趣区域有关的输入，等等。

服务器104可通过网络108直接或间接连接到其它组件。网络108能够携带数据。网络108包括有线连接、无线连接或其组合。网络108可能涉及到不同的网络通信技术，包括全球移动通信系统(Global System for Mobile Communications，GSM)、码分多址接入(Codedivision multiple access，CDMA)、无线本地环路、WiMAX、Wi-Fi、蓝牙、长期演进(LongTerm Evolution，LTE)等。网络108可能包括不同的物理介质，例如同轴电缆、光纤或基站收发信台。示例网络类型包括因特网、以太网、传统电话业务(plain old telephoneservice，POTS)线路、公共交换电话网络(public switched telephone network，PSTN)、综合业务数字网(integrated services digital network，ISDN)、数字用户线路(digitalsubscriber line，DSL)等等，以及它们的任何组合。网络108可以是局域网或广域网。

图4A为一实施例提供的一种服务器104的示意图。如图所示，服务器104包括至少一个处理器202、存储器204、至少一个I/O接口206和至少一个网络接口208。为了简单起见，仅示出了一个服务器104。系统可以包括多个服务器104以接收视频数据馈送并与数据中心110和显示设备106交换数据。服务器104可以是相同类型的计算设备，也可以是不同类型的计算设备。服务器104可实现视频监控系统等示例应用。处理器202可以对存储器204执行指令以实现VBOT过程的各个方面。

每个处理器202可以是微处理器或微控制器、数字信号处理(digital signalprocessing，DSP)处理器、集成电路、现场可编程门阵列(field programmable gatearray，FPGA)、可重构处理器或其任何组合。

存储器204包括位于内部或外部的任何类型的计算机存储器的适当组合，例如随机存取存储器(random-access memory，RAM)、只读存储器(read-only memory，ROM)、光盘只读存储器(compact disc read-only memory，CDROM)、电光存储器、磁光存储器、可擦除可编程只读存储器(erasable programmable read-only memory，EPROM)、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，EEPROM)、铁电RAM(Ferroelectric RAM，FRAM)等。

I/O接口206使服务器104能够与键盘、鼠标、摄像机、传感器、触摸屏或麦克风等一个或多个输入设备或者与显示屏或扬声器等一个或多个输出设备互连。在一些实施例中，I/O接口206传输控制命令以控制摄像机102和捕获视频数据馈送，等等。I/O接口206向处理器202传输命令以验证对象检测和跟踪。I/O接口206向处理器202传输控制命令，以启用对象选择以进行跟踪和提供与视频帧中的ROI和扩展ROI有关的输入，等等。

网络接口208使服务器104能够与其它组件通信，与其它组件交换数据，访问并连接到网络资源，对应用提供服务，以及通过连接到能够携带数据的网络(或多个网络)来执行其它计算应用。

服务器104用于在提供对视频数据馈送、输出数据、各种应用、本地网络、网络资源、其它网络和网络安全设备的访问之前对用户进行注册和认证(例如使用登录、唯一标识符和密码等)。服务器104可以服务于一个用户、客户或客户站点，或者多个用户、客户或客户站点。

图4B为一实施例提供的一种服务器104的示意图。

视频输入单元212接收视频帧以跟踪对象。视频帧中包含对对象产生的遮挡。服务器104通过使用计算机视觉和机器学习技术等定位视频数据馈送中的每个视频帧中的对象的ROI并将对象随时间的ROI与视频帧关联，从而跟踪对象。

ROI是包括感兴趣对象的视频帧的一部分。ROI的边界围绕感兴趣对象，将感兴趣对象完全包括其中。ROI可以是各种形状，例如图1和图2中示出的示例矩形。ROI可以是包括视频帧中呈现的整个感兴趣对象的最小矩形(或其它形状)。扩展ROI在视频帧中所占的部分比ROI大。

直方图单元214处理视频帧以计算被跟踪对象的直方图数据，从而进行遮挡检测。直方图单元214计算每个视频帧中该对象的ROI直方图数据。

遮挡检测单元218通过对直方图单元214所计算的被跟踪对象的直方图数据进行比较来确定候选视频帧子集。候选视频帧中包括涉及被跟踪对象的潜在的遮挡事件。候选视频帧可以包括误报，这种候选视频帧被标记为包括潜在的遮挡事件但实际上并不包含对对象产生的遮挡。举例来说，当人在移动过程中转身时，人体的ROI可能出现明显变化。在这种情况下，虽然直方图数据可以标记潜在的遮挡事件，但是如果深度变化不超过阈值，则可以通过深度级分析来过滤误报，这将在下面详细解释。

遮挡检测单元218对对象随时间的ROI计算出的直方图数据进行比较，以确定不同视频帧中计算出的直方图数据的直方图变化。直方图变化是连续视频帧、相邻视频帧或另一组视频帧的直方图数据之间的阈值差。使用阈值测量值来减少或消除通过直方图变化和深度级变化检测到的误报。

深度级单元216处理包括潜在的遮挡事件的候选视频帧子集以计算被跟踪对象的深度级数据，从而进行遮挡检测。对于每个候选视频帧，深度级单元216计算对象的深度级数据以从基于直方图的分析结果中滤除误报。深度级单元216计算每个视频帧中的对象的ROI或扩展ROI的深度级数据。相对于直方图单元214进行的直方图处理，深度级单元216的深度级处理通常会消耗更多级别的处理资源。遮挡检测单元218使用被跟踪对象的直方图数据滤除视频帧以生成候选视频帧集合。深度级单元216优选地仅处理使用直方图数据标记的候选视频帧集合。该方法通过减少由深度级单元216处理的视频帧的数量来有效地使用处理资源。此外，使用阈值测量值来进一步减少或滤除作为误报的视频帧以进一步有效使用处理资源。阈值测量值可以作为用户配置接收或者使用机器学习技术来动态地确定。

遮挡检测单元218从直方图数据标记为包括潜在的遮挡事件的候选视频帧子集中确定一个或多个包含对对象产生的遮挡的视频帧。遮挡检测单元218比较深度级单元216计算出的被跟踪对象的ROI或扩展ROI的深度级数据，以确定深度级变化。深度级变化是不同视频帧的深度级数据之间的阈值差。使用阈值测量值来减少或消除通过直方图变化和深度级变化检测到的误报。

输出单元220生成输出数据，该输出数据指示对包含一个或多个对被跟踪对象产生的遮挡的视频帧的索引或其它参考。输出单元220传输输出数据以供进一步处理、检索或显示。该传输过程还包括将输出数据存储在服务器104的本地或远程数据存储设备中。

图5示出了一实施例提供的一种摄像机系统304的图。摄像机系统304包括一种或多种类型的摄像机310，用于生成视频数据馈送，以便跟踪对象。视频数据馈送可以是实时的或近实时的。摄像机系统304可以包括或集成传感器、触摸屏或麦克风等其它I/O设备312，或集成显示屏或扬声器等一个或多个输出设备。在一些实施例中，摄像机系统304是监控摄像机系统。在其它实施例中，摄像机系统304处理预先记录或实时的视频馈送以进行VBOT遮挡检测。

在一些实施例中，摄像机系统304实现图3中摄像机102和服务器104的各方面。摄像机系统304包括视频处理器302，视频处理器302是内嵌在摄像机系统304中用于实现本文关于服务器104所描述的VBOT过程的设备或电路。在一些示例实施例中，摄像机系统304(具有嵌入式视频处理器302)实现VBOT过程的一部分并与服务器104(图3)交互以便实现该过程的剩余部分，尤其便于实现处理器密集型操作，从而对复杂的处理作业进行分流。

在一些实施例中，视频处理器302实现图4B所示单元的各方面。视频处理器302从摄像机310或数据存储设备接收视频帧。视频帧包含对对象产生的遮挡。在一些示例实施例中，视频处理器302处理视频帧以计算直方图数据和深度级数据，从而确定一个或多个包含对对象产生的遮挡的视频帧。在一些示例实施例中，视频处理器302生成输出数据，输出数据标识包含对对象产生的遮挡的视频帧。视频处理器302处理实时或近实时视频数据馈送，或处理摄像机310或数据存储设备中预先记录的视频数据馈送。在一些示例实施例中，视频处理器302向数据存储设备传输输出数据以供存储。在一些示例实施例中，视频处理器302向服务器104(图3)传输视频输出数据以供进一步处理。视频处理器302向I/O设备312传输输出数据、视频数据馈送或两者以显示给用户。

I/O设备312生成控制命令，以操控摄像机310和捕捉视频数据馈送，等等。I/O设备312还生成控制命令，以供视频处理器302操控视频数据馈送的回放、验证对象检测、启用对象选择以进行跟踪以及提供与视频帧中ROI和扩展ROI有关的输入，等等。

如本文所述，服务器104(图3)、摄像机系统304或其组合可用于通过处理视频帧以计算出直方图数据和深度级数据来检测包含对被跟踪对象产生的遮挡的视频帧子集，从而实现VBOT遮挡检测过程。通过对被跟踪对象使用ROI来计算直方图数据。通过对被跟踪对象使用扩展ROI来计算深度级数据。

作为说明性示例，图6通过围绕对象的内部矩形示出了另一个示例ROI 14。图6中还通过围绕对象的外部矩形示出了示例扩展ROI 16。扩展ROI 16包括感兴趣对象以及该对象周围的一些背景区域的一部分。扩展ROI用于生成深度级数据，因为该ROI可以包括遮盖或遮挡感兴趣对象的其它对象。扩展ROI基于ROI获得，用作视频帧中较大的一部分。

在一些实施例中，直方图数据包括被跟踪对象的一个或多个直方图矢量。直方图矢量是图像或视频帧中颜色或灰度、强度或梯度分布的表示。图7示出了直方图的说明性示例。两个直方图之间的相似性或变化可以使用测量两个直方图x和y的相似性的直方图相似性测量||x-y||来计算。直方图相似性测量可以是直方图交集或Kullback-Leibuler散度测量等。直方图相似性测量可以用于通过对连续或相邻视频帧的直方图数据进行比较来检测视频帧之间的变化或差异从而确定直方图变化。

深度级(L)值指示对象到摄像机的接近度。例如，深度级值可以是正整数。图8示出了以五个人为示例对象的说明性示例。每个人具有对应的ROI(或扩展ROI)和深度级，他们的深度级分别是L1、L2、L3、L4、L5。如图所示，一个对象的深度级是相对于视频帧中其它对象的深度级的排名，以便定义深度顺序，其中L1<L2<L3<L4<L5。深度顺序定义了视频帧中一个对象相对于其它对象的深度级值的顺序。图8示出了深度级为L5的对象，该对象部分被视频帧中深度级为L3的另一对象遮挡。图8还示出深度级为L3的对象，该对象部分被视频帧中深度级为L2的另一个对象遮挡。深度级变化可以通过对各视频帧的深度级值进行比较来测得。深度级变化指示深度级的降低量或增加量，可以指示遮挡事件。

VBOT可以通过各种方式实现。例如，VBOT可以通过设计视觉外观表示和抗遮挡对象模型来实现。再例如，VBOT可以通过先进行遮挡检测，然后对针对对象明确设计的视觉外观表示使用被遮挡的视图来实现。

本文所述的实施例涉及用于在VBOT中进行遮挡检测的系统、设备和过程。具体而言，本文所述的实施例提供了用于查找或标识视频数据馈送中哪些视频帧中感兴趣对象的某些部分不可见或被遮挡的系统、设备和过程，这种不可见或被遮挡的情况称为遮挡事件。应该注意的是，视频中感兴趣对象的视图在单个视频帧或多个视频帧中可能多次被遮挡。本文所述的实施例用于查找对被跟踪对象产生的遮挡。

图9示出了视频帧的输入数据和包含检测到的对被跟踪对象产生的遮挡的视频帧子集的输出数据的示例。检测到的对被跟踪对象产生的遮挡可以称为遮挡事件。输入数据包括连续标记的多个视频帧的视频数据馈送。视频帧包括一个或多个遮挡事件。特定的感兴趣对象与多个视频帧中的一个或多个遮挡事件关联。本文所述的实施例处理视频数据馈送以标识一个或多个包含对感兴趣对象产生的遮挡的视频帧。如图所示，本文所述的实施例生成输出数据，用于标识包含与感兴趣对象有关的遮挡事件的视频帧，例如遮挡事件的起始视频帧的索引或遮挡事件的视频帧的副本。

图10示出了一种遮挡检测过程的示例流程图。该过程包括基于直方图变化和深度级估计的两阶遮挡检测过程。以图3作为说明性示例来描述示例过程。如上所述，在其它示例实施例中，摄像机系统304(图5)或其它硬件组件可以实现一个或多个操作。

在1002处，服务器104接收由摄像机102生成的视频数据馈送中的视频帧。服务器104开始跟踪一个或多个感兴趣对象。本文所述的操作可以针对一个或多个感兴趣对象实施。服务器104实施预处理以识别视频帧中的各个对象并选择一个或多个识别对象以进行VBOT。

在1004处，服务器104处理视频帧以标识对感兴趣对象产生的一个或多个遮挡事件。服务器104使用两个连续视频帧之间的直方图变化来处理视频帧以进行遮挡检测。服务器104执行的遮挡检测包括检查每个对象的ROI的直方图变化以对潜在遮挡进行检测。基于直方图的检查可能导致误报，因为直方图变化不是由遮挡事件导致的，而是由其它事件导致的。

在1006处，服务器104通过对阈值测量值与直方图变化进行比较来尝试减少遮挡事件的误报量。如果直方图变化低于阈值测量值，则服务器104确定视频帧中不存在与感兴趣对象有关的遮挡事件。服务器104通过不同的函数或过程来计算阈值测量值。可以使用用户配置的或预定义的值来计算阈值测量值。可以使用机器学习技术自动计算阈值测量值。例如，阈值最初通过硬编码值来设置，以针对应用和视频类型训练机器学习过程，从而减少误报(该过程需要使用处理资源来进行深度分析)。通过机器学习可调节或调整阈值测量值。还存在使用机器学习的训练预处理，用于设置阈值测量值，该阈值测量值可以手动输入到系统以执行遮挡检测过程。在各个示例实施例中，阈值测量值可以是静态的，也可以是动态的。

阈值测量值可能随VBOT过程的应用和可用处理资源而异。在计算直方图阈值测量值的示例中，服务器104接收监控摄像机所捕获的一组视频。使用以下二元分类过程来估计特定监控摄像机的直方图阈值。该过程从所有视频帧中提取感兴趣对象的ROI。该过程将这些ROI标记为“被遮挡”或“未被遮挡”。该过程使用一个或多个直方图相似性测量值计算这些ROI中的每一个与一个或多个先前ROI的直方图相似性。在一个示例中，将“未被遮挡”集合中的ROI的平均直方图相似性测量值与“被遮挡”集合中的ROI的平均相似性之间的差值设置为直方图阈值。

如果直方图变化高于阈值测量值，则在1008处，服务器104使用连续视频帧之间的深度级变化进一步过滤误报。这种基于深度的计算强度较大的检测步骤为在1006处基于第一次阈值测量值比较通过第一次检查的候选视频帧(及其部分或ROI)提供了进一步筛选。也就是说，为了有效使用资源，服务器104在1008处处理的视频帧数量比1004处少。

在1010处，服务器104对深度级变化与深度阈值测量值进行比较以尝试进一步减少对遮挡事件之外的其它事件的误报。如果深度变化高于深度阈值测量值，则在1012处，服务器104对视频帧中与感兴趣对象有关的遮挡事件进行检测。可使用各种方法来设定阈值。一种示例方法是基于领域知识手动设置固定值。另一示例方法是将阈值设置为使用机器学习方法自动估计出的某个值。通过使用机器学习的方法，服务器104可以收集标记有“遮挡”或“无遮挡”的一组示例。一个示例是视频数据馈送中两个连续视频帧的深度值之间的差值。可使用一组训练数据来学习二元分类器，得到的结果可以作为分类器的判定边界，该边界的一边对应遮挡，另一边对应无遮挡。

图11所示为视频帧中的ROI图像的示例直方图。如上所述，服务器104使用直方图变化来检测遮挡事件。服务器104使用计算出的被跟踪对象的ROI图像(来自视频帧)的直方图数据来检测对被跟踪对象产生的遮挡。例如，当不存在与被跟踪对象有关的遮挡事件时，被跟踪对象的ROI图像的直方图没有明显变化。然而，当一个对象被另一个对象遮蔽或遮挡时，该对象的直方图数据会发生变化。

服务器104实施不同过程来检测不同视频帧的直方图数据之间的直方图变化(例如，如图10的1004处所计算的)。例如，服务器104识别或定义视频数据馈送中的一个视频帧中的感兴趣对象。再例如，服务器104接收包含多个视频帧的视频数据馈送。服务器104通过将当前视频帧索引f设置为f＝1来初始化视频帧号，并按顺序处理接收到的视频帧，使得当前视频帧索引“f”随该过程的每次迭代递增。

如果索引为f的视频帧不可用，则服务器104停止，因为这表示视频数据馈送用尽。否则，服务器104检索索引为f的当前视频帧中的对象的ROI。服务器104计算索引为f(称为h_f)的视频帧中的ROI图像的直方图数据。

如果索引为f的当前视频帧是视频数据馈送中的第一视频帧(f＝＝1)，则服务器104更新视频数据馈送的直方图平均值H_f。在一些实施例中，假设不存在用于比较的先前视频帧，则服务器104不会计算第一视频帧的直方图相似性测量值。在一些示例中，即使当前视频帧是第一视频帧，服务器104仍然会使用另一相邻视频帧来计算直方图平均值H_f。否则(如果索引为f的当前视频帧不是第一视频帧)，服务器104计算出的直方图相似性测量值为d_f＝||H_f-1-h_f||。服务器104通过对直方图相似性测量值与阈值测量值进行比较来尝试消除或减少误报。如果服务器104确定d_f小于(直方图相似性的)阈值测量值，表示为d_f<阈值，则服务器104继续计算并更新直方图平均值。

如果服务器104确定d_f大于或等于直方图阈值测量值，则服务器104将视频帧标记为包括潜在的遮挡事件，从而使用本文所述的深度变化过程进行进一步处理。对于一些示例实施例，可以使用机器学习技术来确定和更新阈值测量值与直方图相似性测量值的比较结果。也可以使用从机器学习或使用I/O设备对误报进行标识、验证和确认等用户输入过程中获得的反馈来更新阈值测量值与直方图相似性测量值的比较结果。

服务器104更新直方图平均值H_f＝[(f-1)H_f-1+h_f]/f，然后继续设置或增加视频帧，使得f＝f+1。然后，服务器104使用直方图变化来重复遮挡检测过程。

图12示出了视频帧中感兴趣对象的深度变化的图。

服务器104可以使用单眼图像或视频帧来估计对象在场景、ROI或扩展ROI中的深度。服务器104生成视频帧的深度图和视频帧序列。服务器104针对图像或视频帧的不同比例或颜色定义度量。该示例示出了具有阴影比例的图例，使得较暗的阴影从深度级值为0时开始变化并且在深度级值为4的范围内变为较浅的阴影。对于该示例实施例，当发生遮挡事件时，对象在视频帧的场景、ROI或扩展ROI中的整体深度级值可能较小。基于具有比例的图例，在与较小深度级值对应的较暗阴影中，在被跟踪对象前面出现另一个对象。也就是说，视频帧中存在一个相比被跟踪对象更靠近摄像机的对象。可以使用所示具有比例的图例来评估对象的扩展ROI的每个像素，从而生成扩展ROI的所有像素的深度级值。深度级值用于检测正在处理的视频帧中的遮挡事件。。服务器104通过对连续或相邻图像的深度值进行比较来计算深度变化。一个视频帧的深度级值比先前视频帧的深度级值小表示存在潜在的遮挡事件。深度值可以是对象与摄像机之间的相对值。例如，深度值是对象与摄像机之间的距离值。对象距摄像机越远，深度值越大。

服务器104生成场景、ROI或扩展ROI的深度图。对于图12所示示例，由于存在一个相比对象22(其阴影较浅，相对应的深度级值较小)更靠近摄像机的对象20(其阴影较深，相对应的深度级值较大)，所以场景的整体深度可能变得更小。总体深度是视频帧中的场景(或ROI、扩展ROI)中的所有像素的深度值的平均值或最小值。每个像素具有相对应的阴影，阴影又具有相对应的深度级值。对于该示例，在发生遮挡事件的过程中，随着阻挡或遮挡感兴趣对象(相对应的深度级值较大)的对象的阴影越来越暗(相对应的深度级值较小)，场景的总体深度逐渐降低。

为了进行深度级分析，在一些示例实施例中，服务器104生成被跟踪对象的扩展ROI。扩展ROI由视频帧的像素定义。服务器104使用深度模型(例如图12所示的阴影比例和对应的深度级值)来计算扩展ROI的每个像素的深度级值。服务器104汇总像素的深度级值以生成视频帧的总体深度级值。服务器104查找扩展ROI中最靠近摄像机的对象。服务器104对相邻视频帧(例如，前一视频帧和当前视频帧)或其它视频帧进行深度级计算以进行比较。服务器104通过对相邻视频帧(先前视频帧和当前视频帧)的深度级值进行比较来确定深度级变化(深度级值减小)。服务器104使用确定的深度级变化来确定与感兴趣对象有关的遮挡事件。在一些示例实施例中，可以使用最小深度级值。在其它示例实施例中，存在各种函数来计算扩展ROI的深度级值。最小深度级是一种示例深度级技术，在其它示例实施例中还可以使用其它函数，例如扩展ROI内的预期深度级。在一个简单的示例中，该预期值可以是算术平均值。在一种先进的方法中，可以使用高斯函数对深度级值取平均值，在该方法中，支撑中心与检测到的ROI的中心对齐。其基本原理解释如下。对象检测通常会返回以感兴趣对象为中心的矩形区域。因此，可以合理假设更接近检测到的ROI的中心的像素的深度级值更重要。可以应用高斯函数为那些更重要的像素的深度级分配较高的权重。

图13所示为一些实施例提供的一种遮挡检测过程的示例图。对于该说明性示例，以服务器104角度来描述该过程。在一些示例实施例中，由摄像机系统304(图5)实现该过程的各方面。在其它示例实施例中，该过程实施为视频处理软件和硬件包，例如独立单元，作为基于云的系统的一部分，或在扩展库中实现。例如，包含用于该过程的指令的计算机可读介质可以打包为可以下载的扩展或视频分析库。开发人员可以将该库的应用程序编程界面用于视频处理应用。视频处理软件和硬件包可以包括一个或多个耦合到硬件单元或服务器的摄像机。

系统使用不同的跟踪技术来识别待跟踪对象。例如，显示视频帧的界面可以接收包含待跟踪对象的ROI的手动标记或绘图作为输入。在另一示例中，系统通过对视频帧进行预处理来识别一个或多个视频帧中的所有对象，接收对识别对象中的一个或多个的选择或者选择识别对象中的一个或多个以进行遮挡检测。在一些示例中，系统可对所有识别对象进行遮挡检测而无需选择。

在1302处，服务器104将视频帧索引f的视频帧设置为当前帧以进行处理(例如，f＝1表示视频数据馈送中的第一视频帧)。然后，服务器104通过在1312处递增视频帧索引f来按顺序处理视频数据馈送中的剩余视频帧。

在1304处，服务器104从视频数据馈送中检索视频帧索引为f的视频帧以进行处理，从而检测与感兴趣对象有关的遮挡事件。服务器104在视频帧f处检测感兴趣对象的ROI并提取ROI图像I_f。服务器104可以限于对ROI进行处理，而不用对整个视频帧进行处理，从而有效使用处理资源。

在1306处，服务器104计算所提取的感兴趣对象的ROI的直方图数据，h_f＝hist(l_f)。服务器104可以使用颜色直方图、灰度直方图或梯度直方图等来计算直方图数据。服务器104还可以使用图像中各个块的直方图数据来计算直方图数据。图像可以分解为或划分为多个小块，使得每个块覆盖图像的一小部分。服务器104确定一组块中的代表块并计算代表块的直方图数据。

在1308处，服务器104确定当前视频帧是否是视频数据馈送中的第一视频帧。如果是，则在1310处，服务器104将直方图平均值H_f设置为h_f，因为不存在与当前直方图数据进行比较的先前视频帧直方图数据。在1312处，服务器104前进到下一视频帧(视频帧索引f＝f+1)。在1314处，服务器104确定是否存在其它视频帧需要进行处理以检测遮挡事件，如果存在，则服务器返回到1304检索新视频帧中的ROI。如果不存在，则服务器104停止该遮挡检测过程，并且生成输出数据以标识一个或多个包含对对象产生的遮挡的帧。

在1316处，如果服务器104确定当前帧不是第一帧(f≠1)，则服务器104确定当前视频帧与先前视频帧的直方图相似性度量d_f＝||H_f-h_f||。服务器104计算直方图相似性度量。直方图相似性度量是直方图变化的一个示例。

在1318处，服务器104确定直方图相似性度量是否大于或等于阈值测量值。如上所述，服务器104可以通过机器学习或预定义的配置参数来确定阈值测量值。服务器104使用手动用户配置或自动机器学习技术等各种函数或过程来计算阈值测量值。例如，阈值最初通过用户配置来设置，然后使用特定于应用和视频类型的机器学习来调整。阈值的使用可减少误报，但是这需要使用处理资源来进行深度分析。通过机器学习可调节或调整阈值测量值。还存在使用机器学习的训练预处理，用于设置阈值测量值，该阈值测量值可以输入到服务器104以执行遮挡检测过程。在各个示例实施例中，阈值测量值可以是静态的，也可以是动态的。示例机器学习过程使用k最近临(k nearest neighbour，kNN)算法来自动设置阈值。该机器学习kNN过程也可适用于深度阈值。

如果服务器104在1320处确定直方图相似性度量大于或等于阈值测量值，则服务器104检测一个或多个可能或潜在的遮挡事件。在1322处，服务器104实施深度级变化过程。在特定实施例中，服务器104扩展ROI l_f-1以生成预学习模型的扩展ROI J_f-1，进而估计J_f-1中各像素的深度级。在1324处，服务器104将L_f-1设置为等于J_f-l中各像素的最小深度级。在1326处，服务器104使用预学习模型的扩展ROI J_f来估计J_f中各像素的深度级。在1328处，服务器104将L_f设置为J_f中各像素的最小深度级。在1350处，服务器104将L_f-1与L_f进行比较。如果服务器104确定L_f-1大于(或等于)L_f，则服务器检测到在1334处已发生与感兴趣对象有关的遮挡事件。在一些示例实施例中，深度分析主要针对被跟踪对象的ROI或扩展ROI的像素，与对整个视频帧的像素进行深度分析相比，可有效使用处理资源。

在1336处，服务器104向外部单元发送输出数据。输出数据指示包含对对象产生的遮挡的索引为f的视频帧。在一些示例实施例中，输出数据可以包括索引为f的视频帧。

如果在1330处，服务器104确定L_f-1小于L_f,，则在1332处，服务器104将直方图平均值设置为H_f＝((f-1)*H_f+h_f)/f并且前进至1312处理视频帧f+1。

如果在1318处，服务器104确定直方图相似性度量小于阈值度量，则在1332处，服务器104将直方图平均值设置为H_f＝((f-1)*H_f+h_f)/f并且前进至1312处理视频帧f+1。服务器104继续该过程，直至处理完所有视频帧。服务器104基于视频帧处理来生成输出数据。在一些示例中，通过有效使用处理资源来实时生成输出数据。例如，服务器104生成输出数据，该输出数据标识一系列或一组包含对对象产生的遮挡的视频帧中的第一视频帧。可能有包含对对象产生的遮挡的多个系列或多组视频帧。而且，与同一对象或不同对象有关的视频帧中可存在多个遮挡事件。此外，与同一对象或不同对象有关的多个视频帧中可能存在对对象产生的遮挡。

作为说明性示例，视频帧f1可以包括与对象A有关的遮挡事件，该事件持续到视频帧f3；视频帧f4可以包括与对象B有关的遮挡事件，该事件持续到视频帧f5；视频帧f6可以包括与对象A有关的另一遮挡事件；视频帧f9可以包括同时与对象A和对象B有关的其它遮挡事件。该过程可以将每个遮挡事件的第一视频帧标识为输出数据的一部分。输出数据可以包括视频帧的索引或指标或者视频帧的副本。可以对输出数据做进一步处理，例如对包括检测到的遮挡事件的视频帧执行复杂的跟踪过程。可以使用输出数据来改进跟踪过程的性能，从而基于遮挡来改变行为(例如，对包括检测到的遮挡事件的那些视频帧使用更复杂的跟踪技术)。因此，输出数据可以触发对包括检测到的遮挡事件的视频帧的不同处理。

对象模型可以记录感兴趣对象的跟踪数据。本文所述的实施例可以提供VBOT系统，可在检测到发生遮挡时停止更新感兴趣对象的对象模型，以保持对象模型的准确性。由于发生遮挡事件，可能使用不正确或错误信息更新对象模型。该过程可以在针对那些视频帧检测到发生遮挡时停止对对象模型的更新。该过程可以存储关于被跟踪对象的ROI的跟踪信息，这些信息中不包含对被跟踪对象产生的遮挡。系统着重保持对象模型的完整性以确保跟踪数据的高质量。

本文所述的实施例提供了一种VBOT系统，可滤除在发生遮挡期间检测到的错误ROI。系统使用ROI来提取其它信息以进行对象跟踪。当视频帧中检测到遮挡事件时，系统可根据特征提取从该视频帧中排除被遮挡对象的ROI(例如，包括对象的不正确或部分视图的ROI)。

本文所述的实施例提供了一种VBOT系统，可切换到(可能更复杂、更高级的)跟踪过程，在检测到发生遮挡时该跟踪过程可以更好地对遮挡进行处理以执行VBOT。复杂跟踪过程会使用更多的处理资源。不是使用复杂的跟踪过程处理所有视频帧，而是处理那些包括检测到的遮挡事件(基于遮挡事件检测进行过滤)的视频帧，从而节约处理资源。

本文所述的实施例提供了一种VBOT系统，可在检测到发生遮挡事件时停止跟踪视频帧中的被遮挡对象。在检测到被跟踪对象未再发生遮挡事件之后，VBOT系统继续检测并跟踪视频帧中的对象。VBOT系统将单个对象的多个跟踪路线合并作为一项后期处理任务。通常，系统尝试在多个视频帧中全程跟踪对象。系统在存在遮挡事件的情况下可能无法准确执行。系统不是使用可能增加处理资源的更复杂的过程，而是移除与包含遮挡事件的视频帧有关的数据，然后将发生遮挡之前和之后的视频帧缝合在一起。

本文所述的实施例可提供一种VBOT系统，通过将视频帧中的对象局部化为对象的ROI(例如围绕感兴趣对象的矩形边界框)。该示例形状是对ROI的举例，也可以使用其它形状。

所提出的遮挡检测过程可以与各种跟踪过程组合来增强跟踪能力并且能够使跟踪抗遮挡。这种改进型遮挡检测过程通过对包含检测到的遮挡事件的视频帧子集使用一种虽复杂但更精确的跟踪过程，可以提高跟踪的准确性。

本文所述的实施例提供了依赖高精度对象跟踪技术的用于视频内容分析的设备。跟踪应用可以用于对室内和室外监控视频中的人或其它对象进行跟踪。另一个示例跟踪应用用于对运动视频中的人物和对象进行跟踪。遮挡检测过程可以在各种应用领域中使用，以提高跟踪准确性。

本文所描述的实施例使用视频帧中各对象的深度顺序并对被跟踪对象的ROI中的像素子集的深度进行估计，而不是对视频帧中的所有像素进行估计。本文所述的实施例通过定义对象的ROI或扩展ROI中各像素的深度级值的模型或比例来确定视频帧中各对象的深度级。深度级值可以是已知的，也可以是使用比例或模型估计出的。每个对象通过像素集或一组像素确定。每个对象具有其自己的深度级值。系统使用该深度级信息来确定视频帧中各对象的深度顺序。实施例可以包括手动标记图像或视频帧中各对象的深度以便生成深度顺序，以及使用深度顺序数据来估计深度级值。本文所述的实施例可以使用绝对深度或深度顺序来进行深度分析。

本文所述的实施例中可对视频数据馈送中的某些视频帧进行标识，其中感兴趣对象(例如被跟踪对象)的某个部分不可见。应该注意的是，视频中感兴趣对象的视图在一个视频帧或多个视频帧中可能多次被遮挡。在本文所述的实施例中对所有遮挡事件或其中一部分进行标识。在本文所述的实施例中使用基于直方图变化和深度级估计的两阶遮挡检测。基于直方图的检测包括检查每个对象的ROI是否存在潜在遮挡，这可能导致误报(视频帧被标记为包含检测到的遮挡事件但实际上不包含遮挡事件)，因为直方图变化可能不是由遮挡事件导致的，而是由其它事件导致的。这种基于深度的计算强度较大的检测分析旨在对包含遮挡事件的候选视频帧进行进一步筛选，仅处理通过第一次检查(例如直方图变化)的ROI(或扩展ROI)。

现有的方法要么依赖于来自视频的精确对象分段，要么不能有效地处理移动对象被静态背景中的某个对象所遮挡的情况。在本文所述的实施例中将视频帧中的对象局部化为对象的ROI或扩展ROI(例如围绕感兴趣对象的矩形边界框)。在其它示例实施例中，可以使用其它形状来定义ROI或扩展ROI。另外，在本文所述的实施例中使用深度级信息来检测遮挡，提高了准确性。

本文所述的设备、系统和方法的实施例可以通过硬件和软件两者的组合来实现。这些实施例可以在可编程计算机上实现，每个计算机包括至少一个处理器、数据存储系统(包括易失性存储器或非易失性存储器或其它数据存储元件或其组合)和至少一个通信接口。

程序代码用于输入数据以执行本文所述的功能并生成输出信息。输出信息可用于一个或多个输出设备。在一些实施例中，通信接口可以是网络通信接口。在可将元件组合的实施例中，通信接口可以是软件通信接口，例如用于进程间通信的软件通信接口。在其它实施例中，可能存在实施为硬件、软件或其组合的通信接口的组合。

根据前面的讨论，将会提供关于根据计算设备形成的服务器、服务、接口、门户、平台或其它系统的大量参考。应理解，使用这类术语被视为代表包括至少一个处理器的一个或多个计算设备，该至少一个处理器用于执行存储在有形的非瞬时性计算机可读介质上的软件指令。例如，服务器可以包括以满足所描述的角色、责任或功能的方式作为网络服务器、数据库服务器或其它类型的计算机服务器运行的一个或多个计算机。

应理解，本文所述的系统和方法所提供的方案可提高视频处理能力，该方案可以限制对检测到发生遮挡的视频帧子集使用更复杂的跟踪方法。这些实施例通过标识遮挡事件并且在检测到发生遮挡时停止跟踪数据收集过程(因为由于发生遮挡可能导致跟踪数据出错)，提高了跟踪数据的准确性。这些实施例在检测到发生遮挡时停止更新对象模型，以保持数据完整性。这些实施例通过仅存储视频帧子集提高了存储器利用率，并且通过在检测到发生遮挡时仅传输视频帧子集进行进一步处理提高了带宽利用率。

以下讨论提供了许多示例实施例。尽管每个实施例代表本发明元件的单个组合，但是其它示例可以包括所公开元件的所有可能组合。因此，如果一个实施例包括元件A、B和C，并且另一个实施例包括元件B和D，那么也可以使用A、B、C或D的其它剩余组合。

术语“连接”或“耦合”可包括直接耦合(彼此耦合的两个元件彼此接触)和间接耦合(至少一个附加元件位于两个元件之间)。

实施例中的技术方案可以采用软件产品的形式。软件产品可以存储在非易失性或非瞬时性存储介质中，非易失性或非瞬时性存储介质可以是光盘只读存储器(compactdisk read-only memory，CD-ROM)、USB闪存盘或移动硬盘。软件产品包括使计算机设备(个人计算机、服务器或网络设备)能够执行实施例中提供的各方法的多个指令。

本文所述的实施例通过物理计算机硬件来实现，包括计算设备、服务器、接收器、发射器、处理器、存储器、显示器和网络。本文所述的实施例提供了有用的物理机器以及特别配置的计算机硬件布置。本文所述的实施例涉及由适于处理和转换表示各种类型的信息的电磁信号的电子机器实现的电子机器和方法。本文所述的实施例广泛且整体地涉及机器及其用途。本文所述的实施例在与计算机硬件、机器和各种硬件组件使用之外没有意义或实际应用性。将非物理硬件替代成特别配置用于实施各种动作的物理硬件，例如，使用思维步骤，实质上影响的是实施例的工作方式。显然，这种硬件仅限于本文所述的实施例的基本元件，在没有对本文所述的实施例中的操作和结构产生实质影响的情况下，它们不能被省略或替代思维装置。计算机硬件对于实现本文所述的实施例必不可少，也不仅仅用于以有效的方式快速地执行各步骤。

虽然已详细描述了实施例，但是应理解，可以在不脱离如所附权利要求书所界定的范围的情况下对本发明做出各种改变、替代和更改。

此外，本发明的范围并不局限于说明书中所述的过程、机器、制造、物质组分、构件、方法和步骤的特定实施例。所属领域的一般技术人员可从本发明的公开中轻易地了解，可根据本发明使用现有的或即将开发出的，具有与本文所描述的相应实施例实质相同的功能，或能够取得与所述实施例实质相同的结果的过程、机器、制造、物质组分、构件、方法或步骤。相应地，所附权利要求范围旨在包括这些流程、机器、制造、物质组分、构件、方法或步骤。

可以理解，上文描述和示出的示例仅为示例性的。

Claims

1.一种基于视频的对象跟踪(video-based object tracking，VBOT)遮挡检测方法，其特征在于，包括：

处理至少一个第一视频帧以计算所述至少一个第一视频帧中对象的第一直方图数据和第一深度级数据；

处理第二视频帧以计算所述对象的第二直方图数据和第二深度级数据；

通过对所述第一直方图数据与所述第二直方图数据以及所述第一深度级数据与所述第二深度级数据进行比较来确定所述第二视频帧中包含对所述对象产生的遮挡；以及

传输输出数据，所述输出数据指示包含对所述对象产生的所述遮挡的所述第二视频帧；

其中，通过以下操作对所述第一直方图数据与所述第二直方图数据进行比较：

计算直方图变化；

确定所述直方图变化大于直方图阈值测量值；

对所述第一深度级数据与所述第二深度级数据进行比较以计算深度级变化；以及

对所述深度变化与深度阈值测量值进行比较，在所述深度变化大于所述深度阈值测量值的情况下确定所述第二视频帧中包含对所述对象产生的所述遮挡。

2.根据权利要求1所述的方法，其特征在于，还包括通过以下操作来处理所述至少一个第一视频帧以计算所述第一直方图数据：检测所述对象；定义所述对象的感兴趣区域ROI；以及使用所述对象的所述ROI来计算所述第一直方图数据。

3.根据权利要求2所述的方法，其特征在于，计算所述直方图变化包括确定所述第一直方图数据的直方图矢量与所述第二直方图数据的直方图矢量的相似性，所述直方图矢量表示所述视频帧中各像素的颜色值分布或所述视频帧中所述对象的ROI。

4.根据权利要求3所述的方法，其特征在于，通过以下操作来计算所述第一深度级数据：处理所述对象的ROI或扩展ROI，以计算所述ROI或所述扩展ROI中各像素的深度级值，所述深度级数据基于所述像素的所述深度级值。

5.根据权利要求4所述的方法，其特征在于，还包括通过以下操作对所述第一深度级数据与所述第二深度级数据进行比较：计算深度变化并对所述深度变化与深度阈值测量值进行比较。

6.根据权利要求1至5中任一项所述的方法，其特征在于，还包括基于所述第一直方图数据和第二直方图数据更新直方图平均值，所述直方图阈值测量值基于所述直方图平均值。

7.根据权利要求6所述的方法，其特征在于，所述深度级数据是一个值，指示所述第二视频帧中所述对象与摄像机的接近度或者基于所述对象或其它对象与所述摄像机的所述接近度所述第二视频帧中所述对象和所述其它对象的深度顺序中的至少一个。

8.根据权利要求7所述的方法，其特征在于，还包括通过以下操作来跟踪所述对象：定义所述第一视频帧中所述对象的第一ROI和所述第二视频帧中所述对象的第二ROI；以及使用所述对象的所述第一ROI和所述第二ROI来计算所述第一直方图数据和所述第二直方图数据。

9.根据权利要求8所述的方法，其特征在于，包括：基于所述对象的所述第一ROI和所述第二ROI来处理扩展ROI；以及通过基于所述对象的所述扩展ROI估计出深度级值来计算所述对象的所述第一深度级数据和所述对象的所述第二深度级数据。

10.根据权利要求9所述的方法，其特征在于，所述输出数据包括所述第二视频帧的索引或所述第二视频帧的副本。

11.一种基于视频的对象跟踪(video-based object tracking，VBOT)遮挡检测设备，其特征在于，包括：

收发器，接收视频帧以跟踪对象；

处理器，用于：

通过对所述第一直方图数据与所述第二直方图数据以及所述第一深度级数据与所述第二深度级数据进行比较来确定所述第二视频帧中包含对所述对象产生的遮挡；

生成输出数据，所述输出数据指示包含对所述对象产生的所述遮挡的所述第二视频帧；以及

数据存储设备，用于存储所述输出数据；

其中，所述处理器用于通过以下操作对所述第一直方图数据与所述第二直方图数据进行比较：

计算直方图变化；

确定所述直方图变化大于直方图阈值测量值；

12.根据权利要求11所述的设备，其特征在于，所述处理器用于通过以下操作来处理所述至少一个第一视频帧以计算所述第一直方图数据：检测所述对象；定义所述对象的感兴趣区域ROI；以及使用所述对象的所述ROI来计算所述第一直方图数据。

13.根据权利要求12所述的设备，其特征在于，所述处理器用于通过确定所述第一直方图数据的直方图矢量与所述第二直方图数据的直方图矢量的相似性来计算所述直方图变化，所述直方图矢量表示所述视频帧中各像素的颜色值分布或所述视频帧中所述对象的ROI。

14.根据权利要求13所述的设备，其特征在于，所述处理器用于通过以下操作来计算所述第一深度级数据：处理所述对象的ROI或扩展ROI，以计算所述ROI或所述扩展ROI中各像素的深度级值，所述深度级数据基于所述像素的所述深度级值。

15.根据权利要求14所述的设备，其特征在于，所述处理器用于通过以下操作对所述第一深度级数据与所述第二深度级数据进行比较：计算深度变化并对所述深度变化与深度阈值测量值进行比较。

16.根据权利要求11至15中任一项所述的设备，其特征在于，所述处理器用于基于所述第一直方图数据和所述第二直方图数据更新直方图平均值，所述直方图阈值测量值基于所述直方图平均值。

17.根据权利要求16所述的设备，其特征在于，所述深度级数据是一个值，指示所述第二视频帧中所述对象与摄像机的接近度和基于所述对象或其它对象与所述摄像机的所述接近度的所述第二视频帧中所述对象和所述其它对象的深度顺序中的至少一个。

18.根据权利要求17所述的设备，其特征在于，所述处理器用于通过以下操作来跟踪所述对象：定义所述至少一个第一视频帧中所述对象的第一ROI和所述第二视频帧中所述对象的第二ROI；以及使用所述对象的所述第一ROI和所述第二ROI来计算所述第一直方图数据和所述第二直方图数据。

19.根据权利要求18所述的设备，其特征在于，所述处理器用于：基于所述至少一个第一视频帧和所述第二视频帧中的每一个中的所述对象的所述ROI来处理扩展ROI；以及通过基于所述对象的所述扩展ROI估计出深度级值来计算所述对象的所述第一深度级数据和所述对象的所述第二深度级数据。

20.一种基于视频的对象跟踪(video-based object tracking，VBOT)遮挡检测系统，其特征在于，包括：

一个或多个摄像机，用于捕获视频帧以跟踪对象；

处理器，用于：

显示设备，用于显示所述输出数据或所述第二视频帧的视觉表示；

计算直方图变化；

确定所述直方图变化大于直方图阈值测量值；