CN113454640A

CN113454640A - 用于利用在线学习进行对象跟踪的方法及系统

Info

Publication number: CN113454640A
Application number: CN202080014716.0A
Authority: CN
Inventors: 姜命求; 魏东润; 裵纯敏
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-02-28
Filing date: 2020-02-11
Publication date: 2021-09-28
Also published as: US11972578B2; KR102198920B1; US20210390347A1; JP7192143B2; WO2020175818A1; KR20200105157A; JP2022521540A

Abstract

本发明公开一种用于利用在线学习进行对象跟踪的方法及系统。对象跟踪方法包括以下步骤：利用全局模式匹配(global pattern matching)学习分类器(classifier)模型；以及通过包括所述分类器模型的在线学习对各目标进行分类和跟踪。

Description

用于利用在线学习进行对象跟踪的方法及系统

技术领域

以下说明涉及一种对象跟踪(object tracking)技术。

背景技术

对象姿态估计是计算机视觉、人机交互和其他相关领域的重要内容。例如，当将用户的头部视为待估计对象时，通过对用户的连续头部姿态的估计，可以知道用户想要表达的丰富的个性化信息。此外，对象(例如头部)姿态的估计结果可以用于进行人机交互，例如通过对头部姿态的估计，可以获得用户的视线焦点，并且可以进行更有效的人机交互。

作为对象姿态估计技术的一个示例，韩国公开专利公报第10-2008-0073933号(公开日2008年08月12日)公开了一种从输入视频图像中实时自动跟踪对象的运动并判断对象的姿态的技术。

目前使用的对象姿态估计方法一般分为基于跟踪(tracking)的方法和基于学习的方法。

基于跟踪的方法是通过在视频序列中的当前帧(Current Frame)和前一帧(Previous Frame)之间匹配成一对(paired)的方法来估计对象的姿态。

基于学习的方法一般是将对象姿态估计定义为分类(classify)方法或回归方法，通过包括标签的样本进行训练并利用获得的训练模型估计对象的姿态。

发明内容

(一)要解决的技术问题

可以通过添加有对各目标的ID(识别码)进行分类的分类器(classifier)的在线学习模型来学习各目标的全局模式(global pattern)。

可以创建按时间轴累积的各目标的学习数据，并使用该学习数据学习分类器模型。

根据局部模式(local pattern)的运动因子(motion factor)和根据全局模式的外观因子(appearance factor)可以一起用于跟踪。

(二)技术方案

本发明提供一种在计算机系统中执行的对象跟踪方法，所述计算机系统包括：至少一个处理器，被配置成执行包括在存储器中的计算机可读指令，本发明提供一种对象跟踪方法，所述对象跟踪方法包括以下步骤：由至少一个所述处理器利用全局模式匹配(global pattern matching)学习分类器模型；以及由至少一个所述处理器通过包括所述分类器模型的在线学习对各目标进行分类和跟踪。

根据一个方面，所述学习步骤可以包括以下步骤：通过添加有对各目标进行分类的分类器的学习模型学习各目标的全局模式。

根据另一方面，所述学习步骤可以包括以下步骤：通过样本挖掘(sample mining)创建按时间轴累积的各目标的学习数据，并利用累积的学习数据反复学习所述分类器模型。

根据又一方面，所述学习步骤可以包括以下步骤：区分输入视频的整个连续区间内目标存在的有效区间(valid period)；在标注所述有效区间中的任一个有效区间后，创建学习数据以学习所述分类器模型；以及在标注下一个有效区间后，创建学习数据并与先前创建的学习数据合并，以创建累积的学习数据并反复学习所述分类器模型。

根据又一方面，所述标注利用基于根据目标的全局模式的外观因子(appearancefactor)计算的所述分类器模型的相似度矩阵。

根据又一方面，所述学习步骤可以进一步包括以下步骤：通过使用所述有效区间学习的所述分类器模型对所述有效区间以外的无效区间(invalid period)进行标注。

根据又一方面，所述根据步骤可以包括以下步骤：为输入视频的所有帧找到目标的位置，并计算各目标的关键点(keypoint)的坐标；利用各目标的关键点的坐标计算相邻帧中的目标之间的匹配分数(matching score)；以及基于所述目标之间的匹配分数执行帧之间的姿态匹配。

根据又一方面，所述执行姿态匹配的步骤可以包括利用基于表示目标的位置的框的运动因子计算的相似度矩阵来执行所述姿态匹配。

根据又一方面，所述匹配分数可以表示上一帧中的目标与下一帧中的目标之间的接近程度。

根据又一方面，所述跟踪步骤可以进一步包括：执行通过基于表示目标的位置的边框的误差测量去除所述姿态匹配的误差的过程、利用插值法(interpolation)校正所述姿态匹配的误差的过程以及基于移动平均(moving average)执行对所述姿态匹配执行平滑(smoothing)的过程中的至少一个后处理过程。

本发明提供一种计算机可读记录介质，其特征在于，记录有用于在计算机中执行所述对象跟踪方法的程序。

本发明提供一种计算机系统，包括：存储器；以及至少一个处理器，被配置成与所述存储器连接并执行包括在所述存储器中的计算机可读指令，至少一个所述处理器处理以下过程：利用全局模式匹配学习分类器模型；以及通过包括所述分类器模型的在线学习对各目标进行分类和跟踪。

(三)有益效果

根据本发明的实施例，可以通过添加有对各目标的ID进行分类的分类器的在线学习模型来学习各目标的全局模式。

根据本发明的实施例，可以创建按时间轴累积的各目标的学习数据，并使用该学习数据学习分类器模型。

根据本发明的实施例，根据局部模式的运动因子和根据全局模式的外观因子可以一起用于跟踪。

附图说明

图1是用于说明根据本发明的一个实施例的计算机系统的内部配置的示例的框图。

图2是示出根据本发明的一个实施例的计算机系统的处理器可以包括的组件的示例的图。

图3是示出根据本发明的一个实施例的计算机系统可以执行的对象跟踪方法的示例的流程图。

图4示出了根据本发明的一个实施例的计算目标的关键点坐标的过程的示例。

图5示出了根据本发明的一个实施例的表示区域之间的重叠程度的交并比(Intersection over Union，IoU)的测量示例。

图6至图7示出了根据本发明的一个实施例的学习目标的全局模式的过程的示例。

最佳实施方式

以下，参照附图详细描述本发明的实施例。

本发明的实施例涉及通过在线学习模型跟踪对象位置的技术。

在包括本说明书中具体公开的内容的实施例中，可以通过添加有对各目标的ID进行分类的分类器的在线学习模型来学习各模式的全局模式，由此，可以在准确性、效率、降低成本等方面取得巨大优势。

图1是用于说明根据本发明的一个实施例的计算机系统的内部配置的示例的框图。例如，根据本发明的实施例的对象跟踪系统可以通过图1的计算机系统100来实现。

如图1所示，计算机系统100可以包括处理器110、存储器120、永久存储装置130、总线140、输入输出接口150以及网络接口160等用于执行对象追踪方法的组件。

处理器110是用于对象跟踪的组件，其可以包括能够处理指令序列的任意装置或者是该装置的一部分。处理器110可以包括例如计算机处理器、移动装置或其他电子装置内的处理器和/或数字处理器。处理器110可以被包括在例如服务器计算设备、服务器计算机、一系列服务器计算机、服务器场、云计算机、内容平台等中。处理器110可以通过总线140连接到存储器120。

存储器120可以包括用于存储由计算机系统100使用或输出的信息的易失性存储器、永久存储器、虚拟存储器或其他存储器。存储器120可以包括例如随机存取存储器(random access memory，RAM)和/或动态RAM(dynamic RAM，DRAM)。存储器120可以用于存储诸如计算机系统100的状态信息的任意信息。存储器120还可以用于存储包括例如用于跟踪对象的指令的计算机系统100的指令。根据需要或在适当的情况下，计算机系统100可以包括一个或多个处理器110。

总线140可以包括实现计算机系统100的各种组件之间的交互的通信基础设施。总线140可以在例如计算机系统100的组件之间，例如在处理器110和存储器120之间传送数据。总线140可以包括计算机系统100的组件之间的无线和/或有线通信介质，并且可以包括并行、串行或其他拓扑排列。

永久存储装置130可以包括诸如由计算机系统100使用的存储器或其他永久存储装置等组件，以(例如，与存储器120相比)在规定的延长区间内存储数据。永久存储装置130可以包括诸如由计算机系统100内的处理器110使用的非易失性主存储器。永久存储装置130可以包括例如闪存、硬盘、光盘或其他计算机可读介质。

输入输出接口150可以包括键盘、鼠标、语音指令输入、显示器或其他输入或输出装置的接口。可以通过输入输出接口150接收用于配置指令和/或对象跟踪的输入。

网络接口160可以包括诸如局域网或因特网的网络的一个或多个接口。网络接口160可以包括有线或无线连接的接口。可以通过网络接口160接收用于配置指令和/或对象跟踪的输入。

此外，在另一实施例中，计算机系统100还可以包括比图1的组件更多的组件。然而，无需清楚地示出大部分现有技术组件。例如，计算机系统100可以包括与上述输入输出接口150连接的至少一部分输入输出装置或者还可以包括诸如收发器(transceiver)、全球定位系统(Global Positioning System，GPS)模块、相机、各种传感器、数据库等的其他组件。

当在实际图像中执行对象跟踪时，由于对象被另一对象遮挡(occlusion)或对象快速移动而显得模糊等情况，可能会出现无法正确进行比较或即使是同一对象也被识别为不同对象的问题。

由于这些原因，用于现有对象跟踪的姿态估计(pose estimation)不是100％准确的，并且存在通过具有局部模式的相似位置进行估计的局限性。因此，可能会出现目标的ID发生偏移(shift)的问题，这些小误差的累积会导致远离目标对象的结果。

在本发明中，可以通过利用全局模式匹配的在线学习模型更准确地跟踪目标对象。

在本说明书中，尽管将人物跟踪作为代表性示例，但是并不限于此，除了人物之外，还可以应用各种事物或其他类型的对象。

图2是示出根据本发明的一个实施例的计算机系统的处理器可以包括的组件的示例的图，图3是示出根据本发明的一个实施例的计算机系统可以执行的对象跟踪方法的示例的流程图。

如图2所示，处理器110可以包括估计单元210、相似度计算单元220、匹配单元230、后处理单元240和位置提供单元250。这种处理器110的组件可以是处理器110根据由至少一个程序代码提供的控制指令执行的不同功能(different functions)的表现。例如，估计单元210可以用作操作以控制计算机系统100以使处理器110执行姿态估计的功能性表现。

处理器110和处理器110的组件可以执行图3的对象跟踪方法所包括的步骤S310至S350。例如，处理器110和处理器110的组件可以执行存储器120中包括的操作系统的代码和根据上述至少一个程序代码的指令(instruction)。在此，至少一个程序代码可以对应于用于处理对象跟踪方法的程序的代码。

对象跟踪方法可以不按所示的顺序进行，并且可以省略一些步骤或者可以进一步包括附加过程。

处理器110可以将存储在用于对象跟踪方法的程序文件中的程序代码加载到存储器120中。例如，用于对象跟踪方法的程序文件可以存储在通过图1描述的永久存储装置130中，并且处理器110可以控制计算机系统110以通过总线使程序代码从永久存储装置130中存储的程序文件加载到存储器120中。此时，处理器110和处理器110所包括的估计单元210、相似度计算单元220、匹配单元230、后处理单元240和位置提供单元250可以分别是用于执行加载到存储器120中的程序代码的相应部分的指令以执行后续步骤S310至S350的处理器110的不同的功能性表现。为了执行步骤S310至S350，处理器110和处理器110的组件可以直接处理根据控制指令的运算或控制计算机系统100。

在步骤S310中，当输入视频文件时，估计单元210可以以输入视频为对象执行姿态估计。此时，估计单元210可以针对输入视频的所有帧找到与目标对象对应的人的位置，并计算每个人的关键点(keypoint)的坐标。

例如，参照图4，在构成输入视频的所有帧中找到目标人物的位置后，可以将所找到的人的头部、左右肩、左右肘、左右手、左右膝和左右脚等17个位置的坐标作为关键点。例如，估计单元210可以通过基于你只需看一次(you only look once，YOLO)的人体检测(human detection)算法在帧中找到人，并以自上而下(top-down)的方式计算每个人的关键点的坐标。

再次参照图3，在步骤S320中，相似度计算单元220可以基于每一帧的每个人的关键点坐标来计算相邻帧之间的姿态相似度(pose similarity)。换句话说，相似度计算单元220可以计算表示相邻两帧的人物之间的姿态相似度的匹配分数(matching score)，此时匹配分数可以表示第n帧中的K个人分别与第n+1帧中的K‵个人的接近程度的指标。

特别地，在本发明中，表示姿态相似度的匹配分数可以包括根据局部模式的运动因子和根据全局模式的外观因子。用于计算匹配分数的模型可以实现为添加有对每个目标的ID进行分类的分类器的在线学习模型，并且可以通过该在线学习模型学习各目标的全局模式。

根据本发明的分类器模型可以按时间轴累积各目标的学习数据，并且作为学习数据的一个示例可以包括目标的所有关键点。换句话说，可以通过分类器模型学习各目标的全局模式。此时，用于学习全局模式的分类器可以应用所有可以分类(classification)的网络模型。

可以基于表示目标的位置区域的边框(bounding box)IoU(Intersection OverUnion)和姿态IoU计算运动因子，此时，如图5所示，IoU表示两个区域之间的重叠程度，由此，在检测具有真值(ground truth)(实际对象边界)的对象时，可以测量预测值的准确程度。此外，可以通过利用用于判断客观概率的样本挖掘(sample mining)和基于在线学习的全局模式匹配计算外观因子。

再次参照图3，在步骤S330中，匹配单元230可以利用步骤S320的结果在帧之间执行姿态匹配。换句话说，匹配单元230可以基于表示姿态相似度的匹配分数实际将第n帧的第i框(即，目标位置)与第n+1帧的第j框进行匹配。

匹配单元230可以利用匈牙利方法(Hungarian method)等的匹配算法来执行姿态匹配。匹配单元230可以通过首先计算相邻帧之间的相似度矩阵后使用匈牙利方法对其进行优化来匹配各框。此时，可以利用表示IoU的运动因子来计算用于姿态匹配的相似度矩阵。

在步骤S340中，后处理单元240可以对步骤S330的姿态匹配结果执行包括排除误检测等的后处理过程。例如，后处理单元240可以通过基于边框IoU的误差测量来去除匹配误差。另外，后处理单元240可以利用插值法(interpolation)校正匹配误差，并且可以进一步基于移动平均(moving average)等来执行对于姿态匹配的平滑(smoothing)。

在步骤S350中，位置提供单元250可以提供根据姿态匹配的各目标的位置作为跟踪结果。位置提供单元250可以提供各目标的坐标值作为输出。显示目标位置的区域称为边框，此时，目标的位置可以用边框框架内的位置坐标来提供。目标的位置坐标可以以[左线X坐标、上线Y坐标、右线X坐标、下线Y坐标]、[左线X坐标、上线Y坐标、矩形的宽度、矩形的高度]等的形式标记。

图6至图7示出样品挖掘过程。

参照图6，1、模型结果值是应用使用运动因子的现有跟踪技术的结果，在本发明中，可以在第一次应用现有跟踪后第二次计算外观因子进行物体跟踪。

2、可以通过定义整个视频内的有效区间(valid period)和无效区间(invalidperiod)来区分。其中，有效区间是指所有目标存在的区间，图6中的阴影部分表示有效区间。

参照图7，3、可以通过反复模型训练并使用该模型对下一有效区间指定标注来添加学习示例。

学习数据使用由多个帧组成的整个连续区间。此时，学习模型的输入单位可以是在整个连续区间中采样的小批量(mini-batch)，小批量的大小可以确定为预定的默认值或由用户确定。

学习数据包括包含目标位置的框图像和相应目标的ID。其中，框图像是指从整个图像中仅剪切表示各人物的位置的区域的图像。

当给出包括任意人物的框图像时，学习模型(网络)的输出为该框图像的各目标ID的概率值。

如图7所示，在学习的第一步骤(1st)中，利用最长有效区间710创建第一区间的学习数据，并利用第一区间的学习数据学习模型。此时的学习数据可以是对利用现有对象跟踪技术得到的结果直接进行标注的，也可以使用框图像和目标ID作为学习数据。

在第二步骤(2nd)中，在利用第一区间中学习的模型标注下一目标区间，即第二长的有效区间720之后，创建第二区间的学习数据。然后，合并第一区间和第二区间的学习数据以创建累积的学习数据，并利用其再次学习模型。

在通过重复该方法完成学习有效区间后，对于无效区间，将通过有效区间学习的模型进行预测(标注)。

在上述标注过程中，在计算用于分类器模型的相似度矩阵后，可以利用该相似度矩阵匹配各框，此时，分类器模型的相似度可以利用外观因子而不是运动因子来计算。

如上所述，根据本发明的实施例，可以通过添加有对各目标的ID进行分类的分类器的在线学习模型来学习各目标的全局模式，并且创建按时间轴累积的各目标的学习数据，并使用该学习数据学习分类器模型，由此可以将根据局部模式的运动因子和根据全局模式的外观因子一起用于对象跟踪。

以上描述的装置可以实现为硬件组件、软件组件和/或硬件组件和软件组件的组合。例如，实施例描述的装置和组件可以利用一台或多台通用计算机或专用计算机来实现，例如处理器、控制器、算术逻辑单元(arithmetic logic unit，ALU)、数字信号处理器(digitl signal processor)、微型计算机、现场可编程门阵列(field programmable gatearray，FPGA)、可编程逻辑单元(programmable logic unit，PLU)、微处理器或能够执行和响应指令(instruction)的任意装置。处理装置可以执行操作系统(OS)和在所述操作系统上运行的一个或多个软件应用程序。此外，处理装置还可以响应于软件的执行来访问、存储、操作、处理和生成数据。为了便于理解，尽管存在描述使用一个处理装置的情况，但本领域普通技术人员将认识到，处理装置可以包括多个处理元件(processing element)和/或多种类型的处理元件。例如，处理装置可以包括多个处理器或一个处理器和一个控制器。此外，还可以为诸如并行处理器(parallel processor)的其他处理配置(processingconfiguration)。

软件可以包括计算机程序(computer program)、代码(code)、指令或其中一个或多个的组合，并且可以配置处理装置或者独立或共同地(collectively)指示处理装置以根据需要操作软件。软件和/或数据可以在任意类型的机器、组件(component)、物理装置、计算机存储介质或装置中具体化(embody)，以通过处理装置解释或向处理装置提供指令或数据。软件可以分布在联网的计算机系统上并以分布的方式存储或执行。软件和数据可以存储在一个或多个计算机可读记录介质中。

根据实施例的方法可以以可以通过各种计算机装置执行的程序指令的形式来实现并记录在计算机可读介质中。此时，介质可以继续存储计算机可执行程序，或者可以临时存储以供执行或下载。此外，介质可以是由单个或多个硬件组合的形式的各种记录装置或存储装置，但不限于直接连接到计算机系统的介质，还可以分布存在于网络上。介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光记录介质、诸如光盘(floptical disk)的磁光介质(magneto-optical medium)以及ROM、RAM、闪存等，从而可以被构成为存储程序指令。此外，其他介质的示例可以包括由分发应用程序的应用商店或提供或分发其他各种软件的站点以及服务器管理的记录介质或存储介质。

具体实施方式

如上所述，尽管通过有限的实施例和附图描述了实施例，但是本发明所属技术领域的普通技术人员可以根据上述描述做出各种修改和变形。例如，即使描述的技术以不同于描述方法的顺序执行、和/或描述系统、结构、装置、电路等组件等以不同于描述方法的形式被结合或组合、或者被其他组件或等同物替换或替代，也可以实现适当的结果。

因此，其他实施方式、其他实施例和与权利要求书等同的内容也属于权利要求书的范围。

Claims

1.一种对象跟踪方法，其为在计算机系统中执行的对象跟踪方法，其中，

所述计算机系统包括：

至少一个处理器，被配置成执行包括在存储器中的计算机可读指令，

所述对象跟踪方法包括以下步骤：

由至少一个所述处理器利用全局模式匹配学习分类器模型；以及

由至少一个所述处理器通过包括所述分类器模型的在线学习对各目标进行分类和跟踪。

2.根据权利要求1所述的对象跟踪方法，其中，

所述学习步骤包括以下步骤：

通过添加有对各目标进行分类的分类器的学习模型学习各目标的全局模式。

3.根据权利要求1所述的对象跟踪方法，其中，

所述学习步骤包括以下步骤：

通过样本挖掘创建按时间轴累积的各目标的学习数据，并利用累积的学习数据反复学习所述分类器模型。

4.根据权利要求1所述的对象跟踪方法，其中，

所述学习步骤包括以下步骤：

区分输入视频的整个连续区间内所有目标存在的有效区间；

在标注所述有效区间中的任一个有效区间后，创建学习数据以学习所述分类器模型；以及

在标注下一有效区间后，创建学习数据并与先前创建的学习数据合并，以创建累积的学习数据并反复学习所述分类器模型。

5.根据权利要求4所述的对象跟踪方法，其特征在于，

所述标注利用基于根据目标的全局模式的外观因子计算的所述分类器模型的相似度矩阵。

6.根据权利要求4所述的对象跟踪方法，其中，

所述学习步骤进一步包括以下步骤：

通过使用所述有效区间学习的所述分类器模型对所述有效区间以外的区间进行标注。

7.根据权利要求1所述的对象跟踪方法，其中，

所述跟踪步骤包括以下步骤：

为输入视频的所有帧找到目标的位置，并计算各目标的关键点的坐标；

利用各目标的关键点的坐标计算相邻帧中的目标之间的匹配分数；以及

基于所述目标之间的匹配分数执行帧之间的姿态匹配。

8.一种计算机可读记录介质，其特征在于，记录有用于在计算机中执行根据权利要求1至7中的任一项所述的对象跟踪方法的程序。

9.一种计算机系统，包括：

存储器；以及

至少一个处理器，被配置成与所述存储器连接并执行包括在所述存储器中的计算机可读指令，

至少一个所述处理器处理以下过程：

利用全局模式匹配学习分类器模型；以及

通过包括所述分类器模型的在线学习对各目标进行分类和跟踪。

10.根据权利要求9所述的计算机系统，其特征在于，

所述学习过程通过添加有对各目标进行分类的分类器的学习模型学习各目标的全局模式。

11.根据权利要求9所述的计算机系统，其特征在于，

所述学习过程通过样本挖掘创建按时间轴累积的各目标的学习数据，并利用累积的学习数据反复学习所述分类器模型。

12.根据权利要求9所述的计算机系统，其中，

所述学习过程包括以下过程：

区分输入视频的整个连续区间内所有目标存在的有效区间；

在标注下一个有效区间后，创建学习数据并与先前创建的学习数据合并，以创建累积的学习数据并反复学习所述分类器模型。

13.根据权利要求12所述的计算机系统，其特征在于，

14.根据权利要求12所述的计算机系统，其中，

所述学习步骤进一步包括以下步骤：

15.根据权利要求9所述的计算机系统，其中，

所述跟踪过程包括以下过程：

基于所述目标之间的匹配分数执行帧之间的姿态匹配。