CN116597516A

CN116597516A - 训练方法、分类方法、检测方法、装置、系统及设备

Info

Publication number: CN116597516A
Application number: CN202310576951.2A
Authority: CN
Inventors: 张伟; 袁甲; 张�浩; 李溢翔
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-15

Abstract

本公开提供了一种训练方法、分类方法、检测方法、装置、系统及设备，可以应用于行为分类和金融领域。该训练方法包括获取训练集，训练集包括多个训练视频和分类标签；将训练视频输入至初始行为分类模型，输出与训练视频对应的多个多尺度特征矩阵，每个多尺度特征矩阵包括多个包括对象不同关键点的预测区域；基于训练视频的标记点，对训练视频对应的多个预测区域进行行为分类处理，得到训练视频的行为分类结果，标记点表征每个图像帧中的对象的不同关键点的位置；将与每个训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；根据损失结果迭代地调整初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

Description

训练方法、分类方法、检测方法、装置、系统及设备

技术领域

本公开涉及行为分类和金融领域，尤其涉及一种对象行为分类模型的训练方法、对象行为分类方法、运输车辆的行驶安全性检测方法、对象行为分类模型的训练装置、对象行为分类装置、车辆监控系统、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着技术的发展，金融业务管理对金融安全、金融服务质效等方面提出了更高标准。其中，作为金融业务中的重要组成部分，金融押运在维护财产运输安全、保障银行金融业务、提高金融服务质量、建设金融市场秩序等方面具有重要作用。

在金融押运业务中，传统的金融押运存在较多人为操作流程，这将对银行开展金融业务和系统管理产生诸多影响。其中，运输车辆和押运人员具有不确定性、随机性、流动性等特点，这些具有不可控性的因素是降低金融押运业务效率的主要原因之一。同时押运人员的一些不合规行为可能会降低运输任务的安全性，从而给押运任务带来不必要的安全风险和财产损失。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：相关技术中在对对象的行为进行分类时，其分类结果的准确性较差，不能准确识别对象的行为，从而对押运任务造成影响。

发明内容

鉴于上述问题，本公开提供了一种对象行为分类模型的训练方法、对象行为分类方法、运输车辆的行驶安全性检测方法、对象行为分类模型的训练装置、对象行为分类装置、车辆监控系统、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的第一个方面，提供了一种对象行为分类模型的训练方法，包括：

获取训练集，其中，上述训练集包括多个训练视频和分类标签，上述视频包括时序上关联的多个图像帧；

将上述训练视频输入至初始行为分类模型，输出与上述训练视频对应的多个多尺度特征矩阵，其中，每个上述多尺度特征矩阵包括多个包括对象不同关键点的预测区域；

基于上述训练视频的标记点，对上述训练视频对应的多个上述预测区域进行行为分类处理，得到上述训练视频的行为分类结果，其中，上述标记点表征每个图像帧中的上述对象的不同关键点的位置；

将与每个上述训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；

根据上述损失结果迭代地调整上述初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

根据本公开的实施例，在上述多尺度特征矩阵的数量为三个的情况下，上述将上述训练视频输入至初始行为分类模型，输出与上述训练视频对应的多个多尺度特征矩阵，包括：

基于第一预设步长，利用特征提取子模型对多个上述图像帧进行通道调整和特征提取处理，得到第一图像特征；

利用通道调整子模型处理上述第一图像特征，得到第二图像特征和第三图像特征；

利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型分别处理上述第一图像特征、上述第二图像特征和上述第三图像特征，得到三个上述多尺度特征矩阵。

根据本公开的实施例，上述基于第一预设步长，利用特征提取子模型对多个上述图像帧进行通道调整和特征提取处理，得到第一图像特征，包括：

利用多个第一卷积归一化层对多个上述图像帧进行通道调整和特征提取处理，得到第一中间特征，其中，一个上述卷积归一化层对应于一个第一预设步长；

利用第一特征处理层对上述第一中间特征进行通道调整和特征堆叠处理，得到第二中间特征；

利用第一下采样层对上述第二中间特征进行下采样处理，得到第三中间特征；

利用第二特征处理层对上述第三中间特征进行通道调整和特征堆叠处理，得到上述第一图像特征。

根据本公开的实施例，上述利用通道调整子模型处理上述第一图像特征，得到第二图像特征和第三图像特征，包括：

利用第二下采样层对上述第一图像特征进行下采样处理，得到第四中间特征；

利用第三特征处理层对上述第四中间特征进行通道调整和特征提取处理，得到上述第二图像特征；

利用第三下采样层对上述第二图像特征进行下采样处理，得到第五中间特征；

利用第四特征处理层对上述第五中间特征进行通道调整和特征提取处理，得到上述第三图像特征。

根据本公开的实施例，上述利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型分别处理上述第一图像特征、上述第二图像特征和上述第三图像特征，得到三个上述多尺度特征矩阵，包括：

利用上述第一多尺度子模型处理上述第一图像特征和第一过渡特征，输出一个上述多尺度特征矩阵和第二过渡特征；

利用上述第二多尺度子模型处理上述第二图像特征、上述第二过渡特征和第三过渡特征，输出一个上述多尺度特征矩阵、上述第一过渡特征和第四过渡特征；

利用上述第三多尺度子模型处理上述第三图像特征和上述第四过渡特征，输出一个上述多尺度特征矩阵和上述第三过渡特征。

根据本公开的实施例，上述利用上述第一多尺度子模型处理上述第一图像特征和第一过渡特征，输出一个上述多尺度特征矩阵和第二过渡特征，包括：

基于第二预设步长，利用两个第二卷积归一化层分别对上述第一图像特征和上述第一过渡特征进行通道调整和特征提取处理，得到第一通道特征和第二通道特征；

利用第一特征扩张层对上述第二通道特征进行特征层扩张处理，得到第三通道特征；

利用第一特征堆叠层对上述第一通道特征和上述第三通道特征进行特征堆叠处理，得到第四通道特征；

利用第五特征处理层对上述第四通道特征进行通道调整和特征提取处理，得到第五通道特征，其中，上述第五通道特征包括两个预设通道数的子通道特征；

利用第四下采样层对一个上述子通道特征进行下采样处理，得到上述第二过渡特征；

利用第一卷积叠加层对另一个上述子通道特征进行卷积、归一化和特征叠加处理，得到第六通道特征；

基于上述第二预设步长，利用第三卷积归一化层对上述第六通道特征进行通道调整和特征提取处理，得到第一个上述多尺度特征矩阵，其中，上述第一个多尺度特征矩阵包括第一预设数量的网格数和目标数量的通道数。

根据本公开的实施例，上述利用上述第二多尺度子模型处理上述第二图像特征、上述第二过渡特征和第三过渡特征，输出一个上述多尺度特征矩阵、上述第一过渡特征和第四过渡特征，包括：

基于第三预设步长，利用两个第四卷积归一化层分别对上述第二图像特征和上述第三过渡特征进行通道调整和特征提取处理，得到第七通道特征和第八通道特征；

利用第二特征扩张层对上述第八通道特征进行特征层扩张处理，得到第九通道特征；

利用第二特征堆叠层对上述第七通道特征和上述第九通道特征进行特征堆叠处理，得到第十通道特征；

利用第六特征处理层对上述第十通道特征进行通道调整和特征提取处理，得到第十一通道特征；

利用第三特征堆叠层对上述第十一通道特征和上述第二过渡特征进行特征堆叠处理，得到第十二通道特征；

利用第七特征处理层对上述第十二通道特征进行通道调整和特征提取处理，得到第十三通道特征；

利用第五下采样层对上述第十三通道特征进行下采样处理，得到上述第四过渡特征；

利用第二卷积叠加层对上述第十三通道特征进行卷积、归一化和特征叠加处理，得到第十四通道特征；

基于上述第三预设步长，利用第五卷积归一化层对上述第十四通道特征进行通道调整和特征提取处理，得到第二个上述多尺度特征矩阵，其中，上述第二个多尺度特征矩阵包括第二预设数量的网格数和目标数量的通道数。

根据本公开的实施例，上述利用上述第三多尺度子模型处理上述第三图像特征和上述第四过渡特征，输出一个上述多尺度特征矩阵和上述第三过渡特征，包括：

利用特征提取堆叠层对上述第三图像特征进行特征提取、池化和堆叠处理，得到上述第三过渡特征；

利用第四特征堆叠层对上述第三过渡特征和上述第四过渡特征进行特征堆叠处理，得到第十五通道特征；

利用第八特征处理层对上述第十五通道特征进行通道调整和特征提取处理，得到第十六通道特征；

利用第三卷积叠加层对上述第十六通道特征进行卷积、归一化和特征叠加处理，得到第十七通道特征；

基于第四预设步长，利用第六卷积归一化层对上述第十七通道特征进行通道调整和特征提取处理，得到第三个上述多尺度特征矩阵，其中，上述第三个多尺度特征矩阵包括第三预设数量的网格数和目标数量的通道数。

根据本公开的实施例，上述基于上述训练视频的标记点，对上述训练视频对应的多个上述预测区域进行行为分类处理，得到上述训练视频的行为分类结果，包括：

基于预设关键点模型对每个上述预测区域中的标记点的位置进行处理，得到每个上述关键点的状态参数；

基于多个上述状态参数，确定上述对象的行为状态和处于上述行为状态下的时间和/或次数；

在上述行为状态属于分类列表中的一种且在上述时间或上述次数满足预设条件的情况下，将上述训练视频归类为第一分类子结果；

在上述行为状态属于上述分类列表中的一种且在上述时间或上述次数不满足预设条件的情况下，将上述训练视频归类为第二分类子结果；

在上述行为状态不属于上述分类列表中任一种的情况下，将上述训练视频归类为第三分类子结果，其中，上述行为分类结果包括上述第一分类子结果、上述第二分类子结果和上述第三分类子结果。

根据本公开的第二个方面，提供了一种对象行为分类方法，包括：

获取待分类视频，其中，上述待分类视频包括时序上关联的多个待分类图像帧；

将上述待分类视频的多个待分类图像帧输入至对象行为分类模型，输出预测行为分类结果，其中，上述预测行为分类结果表征在上述待分类视频中存在对象的情况下上述对象的行为姿态。

根据本公开的实施例，对象行为分类方法还包括：

在上述预测行为分类结果表明上述对象的行为姿态属于预设行为姿态的情况下，从信息列表中确定与上述预设行为姿态对应的目标信息；

以可视化的形式向上述对象展示上述目标信息。

根据本公开的第三个方面，提供了一种运输车辆的行驶安全性检测方法，包括：

在上述运输车辆行驶的情况下，利用上述运输车辆的图像采集设备实时采集上述运输车辆的车内视频，其中，上述车内视频包括时序上关联的多个车内图像；

将上述车内视频的多个车内图像传输至服务器，以使得上述服务器基于对象行为分类模型对上述车内视频进行处理，得到车内行为分类结果，其中，上述车内行为分类结果表征在上述车内视频中至少一个对象的行为姿态；

在上述车内行为分类结果表明上述对象的行为姿态属于违规行为姿态的情况下，从报警信息列表中确定与上述违规行为姿态对应的第一报警信息并传输至上述运输车辆；

以可视化的形式向上述对象展示上述第一报警信息。

根据本公开的实施例，运输车辆的行驶安全性检测方法还包括：

利用传感器模块采集上述运输车辆的车辆状态参数，其中，上述车辆状态参数包括以下至少一种：胎压、车内温度、发动机状态、续航能力、车速、发动机转速和行驶轨迹；

向上述服务器传输上述车辆状态参数，以使得上述服务器在上述车辆状态参数中的任一种参数满足报警条件的情况下，将与上述参数对应的第二报警信息传输至上述运输车辆；

以可视化的形式向上述对象展示上述第二报警信息。

根据本公开的第四个方面，提供了一种对象行为分类模型的训练装置，包括：

第一获取模块，用于获取训练集，其中，上述训练集包括多个训练视频和分类标签，上述视频包括时序上关联的多个图像帧；

多尺度模块，用于将上述训练视频输入至初始行为分类模型，输出与上述训练视频对应的多个多尺度特征矩阵，其中，每个上述多尺度特征矩阵包括多个包括对象不同关键点的预测区域；

第一分类模块，用于基于上述训练视频的标记点，对上述训练视频对应的多个上述预测区域进行行为分类处理，得到上述训练视频的行为分类结果，其中，上述标记点表征每个图像帧中的上述对象的不同关键点的位置；

损失模块，用于将与每个上述训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；

迭代模块，用于根据上述损失结果迭代地调整上述初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

根据本公开的第五个方面，提供了一种对象行为分类装置，包括：

第二获取模块，用于获取待分类视频，其中，上述待分类视频包括时序上关联的多个待分类图像帧；

第二分类模块，用于将上述待分类视频的多个待分类图像帧输入至对象行为分类模型，输出预测行为分类结果，其中，上述预测行为分类结果表征在上述待分类视频中存在对象的情况下上述对象的行为姿态。

根据本公开的第六个方面，提供了一种车辆监控系统，包括：

服务器，上述服务器被配置成：

基于对象行为分类模型对车内视频进行处理，得到车内行为分类结果，其中，上述车内行为分类结果表征在上述车内视频中至少一个对象的行为姿态；

在上述车内行为分类结果表明上述对象的行为姿态属于违规行为姿态的情况下，从报警信息列表中确定与上述违规行为姿态对应的第一报警信息并传输至报警装置；

运输车辆，上述运输车辆包括：

车辆主体；

图像采集设备，被配置成在上述车辆主体行驶的情况下，实时采集上述运输车辆的上述车内视频并传输至上述服务器，其中，上述车内视频包括时序上关联的多个车内图像；

上述报警装置，被配置成以可视化的形式向上述对象展示上述第一报警信息。

根据本公开的实施例，车辆监控系统还包括：

传感器模块，被配置成：

采集上述运输车辆的车辆状态参数并向上述服务器传输上述车辆状态参数，其中，上述车辆状态参数包括以下至少一种：胎压、车内温度、发动机状态、续航能力、车速、发动机转速和行驶轨迹；

其中，上述服务器还被配置成在上述车辆状态参数中的任一种参数满足报警条件的情况下，将与上述参数对应的第二报警信息传输至上述报警装置；

上述报警装置还被配置成以可视化的形式向上述对象展示上述第二报警信息。

本公开的第七方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本公开的第八方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

本公开的第九方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

根据本公开的实施例，通过初始行为分类模型提取图像中的多尺度特征矩阵，以使得能够尽可能地确定对象所在的预测区域，利用关键点的标记点对预测区域内的对象行为进行分类，基于对象不同关键点的标记点和分类结果确定的损失结果迭代地调整网络参数，从而得到能够用于行为分类的对象行为分类模型，由于初始行为分类模型在生成多尺度特征矩阵的过程中可以不断压缩图像的尺寸，同时图像的通道数不断增加，并对不同的图像进行融合以得到多尺度特征矩阵，利用该多尺度特征矩阵进行对象行为的分类，能够得到较为准确的分类结果，避免了相关技术在对对象行为进行分类的分类准确性较低的问题造成的无法准确识别对象行为的问题。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的对象行为分类模型的训练方法或对象行为分类方法的应用场景图；

图2示意性示出了根据本公开实施例的对象行为分类模型的训练方法的流程图；

图3示意性示出了根据本公开实施例的对象行为分类模型的处理流程图；

图4示意性示出了根据本公开实施例的CBM模块的结构框图；

图5示意性示出了根据本公开实施例的ESCP1模块的结构框图；

图6示意性示出了根据本公开实施例的ESCPM模块的结构框图；

图7示意性示出了根据本公开实施例的ESCP2模块的结构框图；

图8示意性示出了根据本公开实施例的REPC模块的结构框图；

图9示意性示出了根据本公开实施例的SPPCM模块的结构框图；

图10示意性示出了根据本公开实施例的CBS模块的结构框图；

图11示意性示出了根据本公开实施例的人脸特征关键点坐标位置示意图；

图12示意性示出了根据本公开实施例的对象行为分类方法的流程图；

图13示意性示出了根据本公开实施例的运输车辆的行驶安全性检测方法的流程图；

图14示意性示出了根据本公开实施例的对象行为分类模型的训练装置的结构框图；

图15示意性示出了根据本公开实施例的对象行为分类装置的结构框图；

图16示意性示出了根据本公开实施例的车辆监控系统的结构框图；以及

图17示意性示出了根据本公开实施例的适于实现上述方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

本公开的实施例提供了一种训练方法、分类方法、检测方法、装置系统、设备及介质，该训练方法包括获取训练集，其中，训练集包括多个训练视频和分类标签，视频包括时序上关联的多个图像帧；将训练视频输入至初始行为分类模型，输出与训练视频对应的多个多尺度特征矩阵，其中，每个多尺度特征矩阵包括多个包括对象不同关键点的预测区域；基于训练视频的标记点，对训练视频对应的多个预测区域进行行为分类处理，得到训练视频的行为分类结果，其中，标记点表征每个图像帧中的对象的不同关键点的位置；将与每个训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；根据损失结果迭代地调整初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

图1示意性示出了根据本公开实施例的对象行为分类模型的训练方法或对象行为分类方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括银行的押运车辆执行押运任务时驾乘人员的行为分类。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的对象行为分类模型的训练方法或对象行为分类方法一般可以由服务器105执行。相应地，本公开实施例所提供的对象行为分类模型的训练装置或对象行为分类装置一般可以设置于服务器105中。本公开实施例所提供的对象行为分类模型的训练方法或对象行为分类方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的对象行为分类模型的训练装置或对象行为分类装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的对象行为分类模型的训练方法的流程图。

如图2所示，该实施例的对象行为分类模型的训练方法包括操作S210～操作S250。

在操作S210，获取训练集，其中，训练集包括多个训练视频和分类标签，视频包括时序上关联的多个图像帧；

在操作S220，将训练视频输入至初始行为分类模型，输出与训练视频对应的多个多尺度特征矩阵，其中，每个多尺度特征矩阵包括多个包括对象不同关键点的预测区域；

在操作S230，基于训练视频的标记点，对训练视频对应的多个预测区域进行行为分类处理，得到训练视频的行为分类结果，其中，标记点表征每个图像帧中的对象的不同关键点的位置；

在操作S240，将与每个训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；

在操作S250，根据损失结果迭代地调整初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

根据本公开的实施例，训练视频中包括多帧图像，其中2n(n≥1)帧图像中包括对象，分类标签表征该训练视频中对象的行为，例如吸烟、使用手机、未系安全带、双手脱离方向盘、喝水、打哈欠、闭眼、等多种行为。关键点可以是人体的眼睛、嘴巴、手以及腹部等。损失函数可以是交叉熵函数。

根据本公开的实施例，预测区域可以指在生成的多尺度特征矩阵中划分不同数量的网格，在网格中通过锚框的方式圈选对象的关键点，其中，对象可以指人体。需要说明的是，在本公开的技术方案中，所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

根据本公开的实施例，将每个训练视频输入至初始行为分类模型中，得到与每个训练视频的多个多尺度特征图，基于训练视频的标记点，对训练视频对应的多个预测区域进行行为分类处理，得到训练视频的行为分类结果，例如确定训练视频中的对象处于喝水状态。将该分类结果与该训练视频对应的分类标签输入到损失函数中以计算损失结果，进而根据损失结果迭代地调整初始欣慰分类模型的网络参数，以得到对象行为分类模型。

图3示意性示出了根据本公开实施例的对象行为分类模型的处理流程图。

如图3所示，在多尺度特征矩阵的数量为三个的情况下，将训练视频输入至初始行为分类模型，输出与训练视频对应的多个多尺度特征矩阵，包括：

基于第一预设步长，利用特征提取子模型对多个图像帧进行通道调整和特征提取处理，得到第一图像特征；

利用通道调整子模型处理第一图像特征，得到第二图像特征和第三图像特征；

利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型分别处理第一图像特征、第二图像特征和第三图像特征，得到三个多尺度特征矩阵。

根据本公开的实施例，第一预设步长可以根据实际需求具体设置，例如可以是1、2、3等中的至少一个或者多个的组合。

根据本公开的实施例，以图像帧为长和宽分别为640和640的3通道图像进行示例性说明，即该图像帧的尺寸为640×640×3。基于第一预设步长，利用特征提取子模型对多个图像帧进行通道调整和特征提取处理，例如在多个图像帧的通道数为3的情况下，例如特征提取子模型对该多个图像帧进行通道调整后可以得到通道数为512的第一图像特征，同时特征提取子模型可以将像素为640×640的图像帧处理为80×80的第一图像特征。

根据本公开的实施例，通道调整子模型进一步对80×80×512的第一图像特征进行特征提取和通道调整，从而可以得到40×40×1024的第二图像特征和20×20×1024的第三图像特征。

根据本公开的实施例，基于80×80×512的第一图像特征、40×40×1024的第二图像特征和20×20×1024的第三图像特征，利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型对上述图像特征进行处理，可以得到三个多尺度特征矩阵，其中，三个多尺度特征矩阵的尺寸可以分别为13×13×39、26×26×39、52×52×39。

根据本公开的实施例，上述多尺度特征矩阵的尺寸中，13×13、26×26、52×52分别表示图像帧被划分为13×13、26×26、52×52的网格，每个网格对应3个锚框(即预测区域)。当关键点的中心点位于某个锚框内时，由该锚框负责目标检测，初始行为分类模型通过学习图像特征来调整锚框的位置，使其最终趋近于关键点的真实位置，从而得到最终的预测锚框，实现关键点的精确定位与识别。39为3与13之积，3表示每个网格会预设三个锚框，13表示8、4和1之和。其中，8为本公开中行为分类类别的种类数，4为锚框四个位置参数，1为锚框内是目标的概率，即关键点的中心点位于锚框内时概率为1，否则为0。

需要说明的是，上述内容中任意一种图像特征的尺寸均为示例性说明，可以根据实际需求进行调整，上述尺寸并非是对本公开保护范围的限制。

根据本公开的实施例，参照图3，基于第一预设步长，利用特征提取子模型对多个图像帧进行通道调整和特征提取处理，得到第一图像特征，包括：

利用多个第一卷积归一化层(即图3中的CBM¹)对多个图像帧进行通道调整和特征提取处理，得到第一中间特征，其中，一个卷积归一化层对应于一个第一预设步长；

利用第一特征处理层(即图3中的ESCP1¹)对第一中间特征进行通道调整和特征堆叠处理，得到第二中间特征；

利用第一下采样层(即图3中的ESCPM¹)对第二中间特征进行下采样处理，得到第三中间特征；

利用第二特征处理层(即图3中的ESCP1²)对第三中间特征进行通道调整和特征堆叠处理，得到第一图像特征。

根据本公开的实施例，如图3所示，以四个第一卷积归一化层进行示例性说明，图3中特征提取子模型中的CBM即第一卷积归一化层，其中，四个第一卷积归一化层的第一预设步长分别为s＝1、s＝2、s＝1、s＝2，卷积核大小为3×3。

根据本公开的实施例，将640×640×3的图像帧输入到第一个第一卷积归一化层，输出640×640×32的特征，该特征输入到第二个第一卷积归一化层，输出320×320×64的特征，该特征输入到第三个第一卷积归一化层，输出320×320×64的特征，该特征输入到第四个第一卷积归一化层，输出160×160×128的第一中间特征。

根据本公开的实施例，160×160×128的第一中间特征输入至第一特征处理层，即图3中特征提取子模型中的ESCP1，以进行通道调整和特征堆叠处理，可以输出160×160×256第二中间特征。利用第一下采样层对第二中间特征进行下采样处理，得到80×80×256的第三中间特征。

根据本公开的实施例，利用第二特征处理层对80×80×256的第三中间特征进行通道调整和特征堆叠处理，得到80×80×512的第一图像特征。

图4示意性示出了根据本公开实施例的CBM模块的结构框图。

根据本公开的实施例，如图4所示，上文的第一卷积归一化层、下文的第二卷积归一化层、第三卷积归一化层、第四卷积归一化层、第五卷积归一化层中任一一个卷积归一化层CBM模块均包括普通卷积层Conv、批归一化层BN和Mish激活函数。

其中，普通卷积层的卷积核大小包括1×1和3×3，1×1卷积核用于调整特征图通道数，3×3卷积核用于特征提取。而训练集中各图像帧关键点分布存在不均衡问题，导致模型训练和推理代价加大。为此，采用批量归一化操作均衡数据分布，提高模型收敛速度，保证特征信息在传递过程中保持原有的特征表达能力。公式(1)为Mish激活函数。该激活函数具有无上界、有下界和非单调等特性，不仅能改善模型的泛化能力，而且能更好地提高模型的非线性特征表达能力。

Mish＝x·tanh(ln(1+e^x)) (1)

图5示意性示出了根据本公开实施例的ESCP1模块的结构框图。

根据本公开的实施例，上文的第一特征处理层、第二特征处理层、下文的第三特征处理层、第四特征处理层中任一一个卷积归一化层均可以是图5所示的ESCP1模块结构。

根据本公开的实施例，ESCP1是一种高效的特征提取模块，该组件可对最长和最短的梯度路径进行有效控制，使得模型学习到更多有效特征，从而提高模型的健壮性。ESCP1模块具有特征传递路径，第一条路径通过卷积核大小为1×1，步长为1的CBM模块进行通道调整。在第二条路径中，首先使用卷积核大小为1×1，步长为1的CBM模块进行通道调整(CBM模块结构参照图4)，然后采用四个卷积核大小为3×3，步长为1的CBM模块进行特征提取，并利用特征堆叠层CONC将各条路径传递而来的多尺度特征进行特征堆叠，即堆叠后的特征层通道数为各条路径通道数之和，从而丰富特征层中局部特征信息。最后，采用卷积核大小为3×3，步长为1的CBM模块对堆叠后的特征层进行通道调整，然后作为下一层的输入特征。

图6示意性示出了根据本公开实施例的ESCPM模块的结构框图。

根据本公开的实施例，上文的第一下采样层、下文的第二下采样层、第三下采样层、第四下采样层、第五下采样层中任一一个下采样层均可以是图6所示的ESCPM模块结构。

根据本公开的实施例，ECSPM模块实现下采样操作，即特征层长和宽变为原来的1/2倍。ECSPM模块主要由两条路径组成，第一条路径首先利用池化核大小为2×2的MaxPool池化模块对特征层进行下采样操作，然后再使用卷积核大小为1×1，步长为1的CBM模块对特征层进行通道调整。在第二条路径中，首先使用卷积核大小为1×1，步长为1的CBM模块对特征层进行通道调整，然后采用卷积核大小为3×3，步长为2的CBM模块对特征层进行下采样操作。最后，两条路径上的特征层经特征堆叠层CONC进行堆叠操作，最终得到的输出特征层长和宽变为输入特征层的1/2倍，并且通道数变为输入特征层的2倍，从而ECSPM模块实现下采样操作。

根据本公开的实施例，参照图3，利用通道调整子模型处理第一图像特征，得到第二图像特征和第三图像特征，包括：

利用第二下采样层(即图3中的ESCPM²)对第一图像特征进行下采样处理，得到第四中间特征；

利用第三特征处理层(即图3中的ESCP1³)对第四中间特征进行通道调整和特征提取处理，得到第二图像特征；

利用第三下采样层(即图3中的ESCPM³)对第二图像特征进行下采样处理，得到第五中间特征；

利用第四特征处理层(即图3中的ESCP1⁴)对第五中间特征进行通道调整和特征提取处理，得到第三图像特征。

根据本公开的实施例，80×80×512的第一图像特征输入到通道调整子模型中，第二下采样层对第一图像特征进行下采样处理后，输出40×40×512的第四中间特征，利用第三特征处理层对第四中间特征进行通道调整和特征提取处理，得到40×40×1024的第二图像特征，利用第三下采样层对第二图像特征进行下采样处理，得到20×20×1024的第五中间特征，利用第四特征处理层对第五中间特征进行通道调整和特征提取处理，得到20×20×1024的第三图像特征。

根据本公开的实施例，参照图3，利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型分别处理第一图像特征、第二图像特征和第三图像特征，得到三个多尺度特征矩阵，包括：

利用第一多尺度子模型处理第一图像特征和第一过渡特征，输出一个多尺度特征矩阵和第二过渡特征；

利用第二多尺度子模型处理第二图像特征、第二过渡特征和第三过渡特征，输出一个多尺度特征矩阵、第一过渡特征和第四过渡特征；

利用第三多尺度子模型处理第三图像特征和第四过渡特征，输出一个多尺度特征矩阵和第三过渡特征。

根据本公开的实施例，第一多尺度子模型、第二多尺度子模型和第三多尺度子模型并行处理，此时第一多尺度子模型根据特征提取子模型输出的第一图像特征和第二多尺度子模型输出的第一过渡特征，生成一个多尺度特征矩阵。第二多尺度子模型根据第一多尺度子模型输出的第二过渡特征和通道调整子模型输出的第二图像特征以及第三多尺度子模型输出的第三过渡特征，生成一个多尺度特征矩阵。第三多尺度子模型根据通道调整子模型输出的第三图像特征和第二多尺度子模型输出的第四过渡特征，生成一个多尺度特征矩阵。

根据本公开的实施例，参照图3，利用第一多尺度子模型处理第一图像特征和第一过渡特征，输出一个多尺度特征矩阵和第二过渡特征，包括：

基于第二预设步长，利用两个第二卷积归一化层(即图3中CBM²)分别对第一图像特征和第一过渡特征进行通道调整和特征提取处理，得到第一通道特征和第二通道特征；

利用第一特征扩张层(即图3中UPS¹)对第二通道特征进行特征层扩张处理，得到第三通道特征；

利用第一特征堆叠层(即图3中CONC¹)对第一通道特征和第三通道特征进行特征堆叠处理，得到第四通道特征；

利用第五特征处理层(即图3中ESCP2¹)对第四通道特征进行通道调整和特征提取处理，得到第五通道特征，其中，第五通道特征包括两个预设通道数的子通道特征；

利用第四下采样层(即图3中ESCPM⁴)对一个子通道特征进行下采样处理，得到第二过渡特征；

利用第一卷积叠加层(即图3中REPC¹)对另一个子通道特征进行卷积、归一化和特征叠加处理，得到第六通道特征；

基于第二预设步长，利用第三卷积归一化层(即图3中CBS¹)对第六通道特征进行通道调整和特征提取处理，得到第一个多尺度特征矩阵，其中，第一个多尺度特征矩阵包括第一预设数量的网格数和目标数量的通道数。

根据本公开的实施例，第二预设步长可以根据实际情况具体设置，例如第二预设步长s＝1。

根据本公开的实施例，一个第二卷积归一化层对80×80×512的第一图像特征进行处理，输出80×80×128的第一通道特征，另一个第二卷积归一化层对40×40×256的第一过渡特征征进行处理，输出40×40×128的第二通道特征。

根据本公开的实施例，利用第一特征扩张层对第二通道特征进行特征层扩张处理，得到80×80×128的第三通道特征，利用第一特征堆叠层对第一通道特征和第三通道特征进行特征堆叠处理，得到80×80×256的第四通道特征。利用第五特征处理层对第四通道特征进行通道调整和特征提取处理，得到80×80×256第五通道特征，其中，第五通道特征包括两个预设通道数的子通道特征，均为80×80×128。

根据本公开的实施例，利用第四下采样层对一个子通道特征进行下采样处理，得到40×40×256的第二过渡特征。利用第一卷积叠加层对另一个子通道特征进行卷积、归一化和特征叠加处理，得到第六通道特征，基于第二预设步长，利用第三卷积归一化层对第六通道特征进行通道调整和特征提取处理，得到第一个多尺度特征矩阵。

图7示意性示出了根据本公开实施例的ESCP2模块的结构框图。

根据本公开的实施例，上文的第五特征处理层、下文的第六特征处理层、第七特征处理层、第八特征处理层中任一一个特征处理层均包括如图7所示的ESCP2模块结构。与ESCP1模块类似的是，ESCP2模块主要采用卷积核大小为1×1和3×3，步长为1的CBM模块分别进行通道调整和特征提取。与ESCP1不同的是，ESCP2模块在每个卷积核大小为3×3的CBM模块后将特征分流引出后进行堆叠操作，这种操作不仅可提高特征在网络中的传递效率，同时对丰富深层局部特征具有较好作用。

图8示意性示出了根据本公开实施例的REPC模块的结构框图。

根据本公开的实施例，上文的第一卷积叠加层、下文的第二卷积叠加层、第三卷积叠加层均包括如图8所示的REPC模块，该模块主要由Conv普通卷积操作、BN批量归一化和Add加权操作组成。REPC模块将输入特征分为三条路径进行传递，首先在第一条路径中采用卷积核大小为3×3的普通卷积进行特征提取，然后在第二条路径中采用卷积核大小为1×1的普通卷积进行特征平滑，最后一条路径直接将输入特征进行批量归一化操作。三条路径上的特征经处理后使用Add加权操作进行特征融合，经Add加权操作处理后的特征在通道数上保持不变，因特征之间进行了叠加操作，为此经REPC模块处理后的输出特征具有更精确的目标定位信息。

根据本公开的实施例，参照图3，利用第二多尺度子模型处理第二图像特征、第二过渡特征和第三过渡特征，输出一个多尺度特征矩阵、第一过渡特征和第四过渡特征，包括：

基于第三预设步长，利用两个第四卷积归一化层(即图3中CBM⁴)分别对第二图像特征和第三过渡特征进行通道调整和特征提取处理，得到第七通道特征和第八通道特征；

利用第二特征扩张层(即图3中UPS²)对第八通道特征进行特征层扩张处理，得到第九通道特征；

利用第二特征堆叠层(即图3中CONC²)对第七通道特征和第九通道特征进行特征堆叠处理，得到第十通道特征；

利用第六特征处理层(即图3中ESCP2⁶)对第十通道特征进行通道调整和特征提取处理，得到第十一通道特征；

利用第三特征堆叠层(即图3中CONC³)对第十一通道特征和第二过渡特征进行特征堆叠处理，得到第十二通道特征；

利用第七特征处理层(即图3中ESCP2⁷)对第十二通道特征进行通道调整和特征提取处理，得到第十三通道特征；

利用第五下采样层(即图3中ESCPM⁵)对第十三通道特征进行下采样处理，得到第四过渡特征；

利用第二卷积叠加层(即图3中REPC²)对第十三通道特征进行卷积、归一化和特征叠加处理，得到第十四通道特征；

基于第三预设步长，利用第五卷积归一化层(即图3中CBS⁵)对第十四通道特征进行通道调整和特征提取处理，得到第二个多尺度特征矩阵，其中，第二个多尺度特征矩阵包括第二预设数量的网格数和目标数量的通道数。

根据本公开的实施例，第三预设步长也可以根据实际情况具体设置，本公开选用步长s＝1作为第三预设步长。

根据本公开的实施例，基于第三预设步长s＝1，一个第四卷积归一化层对通道调整子模型输出的40×40×1024的第二图像特征进行处理得到40×40×256的第七通道特征，另一个第四卷积归一化层对20×20×512的第三过渡特征进行通道调整和特征提取处理，得到20×20×256的第八通道特征；利用第二特征扩张层对第八通道特征进行特征层扩张处理，得到40×40×256的第九通道特征。

根据本公开的实施例，利用第二特征堆叠层对第七通道特征和第九通道特征进行特征堆叠处理，得到40×40×512的第十通道特征；利用第六特征处理层对第十通道特征进行通道调整和特征提取处理，得到40×40×256的第十一通道特征，即第一过渡特征；利用第三特征堆叠层对第十一通道特征和第二过渡特征进行特征堆叠处理，得到40×40×512的第十二通道特征。

根据本公开的实施例，利用第七特征处理层对第十二通道特征进行通道调整和特征提取处理，得到40×40×256的第十三通道特征；利用第五下采样层对第十三通道特征进行下采样处理，得到20×20×512的第四过渡特征；利用第二卷积叠加层对第十三通道特征进行卷积、归一化和特征叠加处理，得到第十四通道特征；基于第三预设步长，利用第五卷积归一化层对第十四通道特征进行通道调整和特征提取处理，得到第二个多尺度特征矩阵，其中，第二个多尺度特征矩阵包括第二预设数量的网格数和目标数量的通道数。

根据本公开的实施例，第一特征扩张层、第二特征扩张层的上采样方式为最近邻插值算法的UPS模块进行特征层扩张，即将特征层的长和宽变为原来的2倍，通道数保持不变。

根据本公开的实施例，参照图3，利用第三多尺度子模型处理第三图像特征和第四过渡特征，输出一个多尺度特征矩阵和第三过渡特征，包括：

利用特征提取堆叠层(即图3中SPPCM)对第三图像特征进行特征提取、池化和堆叠处理，得到第三过渡特征；

利用第四特征堆叠层(即图3中CONC⁴)对第三过渡特征和第四过渡特征进行特征堆叠处理，得到第十五通道特征；

利用第八特征处理层(即图3中ESCP2⁸)对第十五通道特征进行通道调整和特征提取处理，得到第十六通道特征；

利用第三卷积叠加层(即图3中REPC³)对第十六通道特征进行卷积、归一化和特征叠加处理，得到第十七通道特征；

基于第四预设步长，利用第六卷积归一化层(即图3中CBS⁶)对第十七通道特征进行通道调整和特征提取处理，得到第三个多尺度特征矩阵，其中，第三个多尺度特征矩阵包括第三预设数量的网格数和目标数量的通道数。

根据本公开的实施例，第四预设步长也可以根据实际情况具体设置，本公开选用步长s＝1作为第四预设步长。

根据本公开的实施例，利用特征提取堆叠层对第三图像特征进行特征提取、池化和堆叠处理，得到20×20×512的第三过渡特征；利用第四特征堆叠层对第三过渡特征和第四过渡特征进行特征堆叠处理，得到20×20×1024的第十五通道特征。

根据本公开的实施例，利用第八特征处理层对第十五通道特征进行通道调整和特征提取处理，得到第十六通道特征；利用第三卷积叠加层对第十六通道特征进行卷积、归一化和特征叠加处理，得到第十七通道特征；基于第四预设步长s＝1，利用第六卷积归一化层对第十七通道特征进行通道调整和特征提取处理，得到第三个多尺度特征矩阵，其中，第三个多尺度特征矩阵包括第三预设数量的网格数和目标数量的通道数。

图9示意性示出了根据本公开实施例的SPPCM模块的结构框图。

根据本公开的实施例，特征提取堆叠层包括如图9所示的SPPCM模块，该模块用于增大模型的感受野，使得对象行为分类模型适应于不同分辨率的图像。在SPPCM模块中共有两条路径组成，在第一条路径中使用卷积核大小为1×1和3×3，步长为1的CBM模块分别进行通道调整和特征提取。其中，采用池化核大小分别为5×5、9×9、13×13和1×1的池化操作增大模型对多尺度目标的感受野，使得模型对多尺度目标具有更强的鲁棒性。在第二条路径中，输入特征经卷积核大小为1×1，步长为1的CBM模块进行通道调整。然后，两条路径上的特征层经CONC模块进行堆叠，经堆叠后的特征层经CBM模块的处理作为下一层的输入特征。

图10示意性示出了根据本公开实施例的CBS模块的结构框图。

根据本公开的实施例，第六卷积归一化层包括如图10所示的CBS模块，该模块由Conv普通卷积操作、批量归一化操作和SiLU激活函数组成。

与CBM模块不同的是，CBS模块采用SiLU激活函数平滑三个多尺度特征层的输出特征。SiLU激活函数如公式(2)所示。

图11示意性示出了根据本公开实施例的人脸特征关键点坐标位置示意图。

根据本公开的实施例，基于训练视频的标记点，对训练视频对应的多个预测区域进行行为分类处理，得到训练视频的行为分类结果，包括：

基于预设关键点模型对每个预测区域中的标记点的位置进行处理，得到每个关键点的状态参数；

基于多个状态参数，确定对象的行为状态和处于行为状态下的时间和/或次数；

在行为状态属于分类列表中的一种且在时间或次数满足预设条件的情况下，将训练视频归类为第一分类子结果；

在行为状态属于分类列表中的一种且在时间或次数不满足预设条件的情况下，将训练视频归类为第二分类子结果；

在行为状态不属于分类列表中任一种的情况下，将训练视频归类为第三分类子结果，其中，行为分类结果包括第一分类子结果、第二分类子结果和第三分类子结果。

根据本公开的实施例，预设关键点模型可以包括眼部模型。利用眼部模型确定的眼部特征关键点的坐标位置计算眼睛的状态参数，例如实际纵横比，从而根据预设的纵横比阈值判断眼睛处于哪种行为状态，例如张开状态或闭合状态。最后，计算各个图像帧之间眼睛闭合时间比例或闭合次数，从而对该对象的行为进行分类。如图11所示，为人脸特征关键点坐标位置。

根据本公开的实施例，以左眼为例，对眼部进行数学建模可以得到如公式(3)所示的眼部模型。

其中，p₃₈、p₄₂、p₃₉、p₄₁、p₃₇和p₄₀分别为图11中左眼关键点坐标位置。当对象的眼睛睁开时，eye保持在某个值域内。当对象的眼睛闭合时，eye趋近于0。因此，当eye低于预设的纵横比阈值时，例如0.3，此时眼睛处于闭合状态。而当eye从某个值减少至预设的纵横比阈值，再迅速上升至大于预设的纵横比阈值时，则可定义为一次眨眼，即闭合次数。

根据本公开的实施例，设t₁为即将闭眼时眼睛处于80％开度状态的时间、t₂为即将闭眼时眼睛处于20％开度状态的时间、t₃为眼睛处于即将张开时眼睛处于20％开度状态的时间、t₄为眼睛处于即将张开时眼睛处于80％开度状态的时间。定义某时间段内眼睛处于闭合状态所占用的时间百分比为t，通过t判断对象处于行为状态下的时间，如公式(4)所示。

根据本公开的实施例，若t≥0.1时，则认定该对象的闭合时间超过预设条件。若t＜0.1时，则认定该对象的闭合时间没有超过预设条件。其中，左眼和右眼数学模型类似。

根据本公开的实施例，在对象的眼睛的行为状态属于分类列表中的闭合状态时，若闭合时间超过预设时间阈值(例如0.1秒)或者在单位时间内闭合次数超过次数阈值(例如1分钟10次)，则将该对象的训练视频归类为第一分类子结果，该子结果表明该对象处于瞌睡状态。若对象的眼睛的行为状态属于分类列表中的闭合状态时，但是闭合时间和闭合次数均没有超过预设的阈值，则可以将该对象的训练视频归类为第二分类子结果，该子结果表明该对象偶尔闭眼但不瞌睡。在行为状态不属于分类列表中任一种的情况下，将训练视频归类为第三分类子结果，该子结果表明该对象的行为状态良好。

根据本公开的实施例，预设关键点模型还可以包括嘴部模型，通过嘴部模型确定的嘴部特征关键点的坐标位置计算嘴部实际纵横比，从而根据预设的纵横比阈值判断嘴部处于张开状态或闭合状态。最后，计算各个图像帧之间嘴部闭合时间比例，并将其与打哈欠阈值进行比较，从而对对象的行为状态进行分类。其中，嘴部模型如公式(5)所示。

在公式(5)中，p₅₁、p₅₉、p₅₃、p₅₇、p₅₅和p₄₉分别为图11中嘴部关键点坐标位置。若mouth≥0.75时，认定该对象在打哈欠，则打哈欠次数累加1。在打哈欠检测中，如果预设时间段(例如30s)内检测到对象的打哈欠次数或者时间超过预设阈值(例如次数阈值为2次，时间阈值为15s)，则认定对象处于疲劳状态的分类结果。

图12示意性示出了根据本公开实施例的对象行为分类方法的流程图。

如图12所示，该实施例的对象行为分类方法包括操作S1210～操作S1220。

在操作S1210，获取待分类视频，其中，待分类视频包括时序上关联的多个待分类图像帧；

在操作S1220，将待分类视频的多个待分类图像帧输入至对象行为分类模型，输出预测行为分类结果，其中，预测行为分类结果表征在待分类视频中存在对象的情况下对象的行为姿态。

根据本公开的实施例，待分类视频可以由图像采集设备进行采集，例如摄像机、摄像头等。

根据本公开的实施例，将待分类视频输入至对象行为分类模型中即可实现对待分类视频中对象的行为姿态进行分类。

根据本公开的实施例，通过对象行为分类模型提取待分类图像帧中的多尺度特征矩阵，以使得能够尽可能地确定对象所在的预测区域，利用关键点的标记点对预测区域内的对象行为进行分类，从而得到对象的行为姿态的分类结果，由于对象行为分类模型在生成多尺度特征矩阵的过程中可以不断压缩图像的尺寸，同时图像的通道数不断增加，并对不同的图像进行融合以得到多尺度特征矩阵，利用该多尺度特征矩阵进行对象行为的分类，能够得到较为准确的分类结果，避免了相关技术在对对象行为进行分类的分类准确性较低的问题造成的无法准确识别对象行为的问题。

根据本公开的实施例，对象行为分类方法还包括：

在预测行为分类结果表明对象的行为姿态属于预设行为姿态的情况下，从信息列表中确定与预设行为姿态对应的目标信息；

以可视化的形式向对象展示目标信息。

根据本公开的实施例，预设行为姿态可以包括吸烟、使用手机、未系安全带、双手脱离方向盘、喝水、打哈欠、闭眼等。

根据本公开的实施例，信息列表中可以预先存储有对应于不同类别的信息，例如针对吸烟行为，可以对应存储有“请勿吸烟”，对于打哈欠和闭眼的行为，可以对应存储有“您处于疲劳状态，请勿疲劳驾驶”等。需要说明的是，信息列表中的信息可以根据实际需求具体设置，上述仅作为示例进行说明。

根据本公开的实施例，在对象存在上述行为的情况下，可以通过显示屏、喇叭等多种可视化形式向该对象进行展示对应的目标信息。

根据本公开的实施例，通过可视化展示的方式向对象发出提醒信息，能够避免在某些场景下对象的不合规行为给驾驶、工作带来不必要的安全隐患。

图13示意性示出了根据本公开实施例的运输车辆的行驶安全性检测方法的流程图。

如图13所示，该实施例的运输车辆的行驶安全性检测方法包括操作S1310～操作S1340。

在操作S1310，在运输车辆行驶的情况下，利用运输车辆的图像采集设备实时采集运输车辆的车内视频，其中，车内视频包括时序上关联的多个车内图像；

在操作S1320，将车内视频的多个车内图像传输至服务器，以使得服务器基于对象行为分类模型对车内视频进行处理，得到车内行为分类结果，其中，车内行为分类结果表征在车内视频中至少一个对象的行为姿态；

在操作S1330，在车内行为分类结果表明对象的行为姿态属于违规行为姿态的情况下，从报警信息列表中确定与违规行为姿态对应的第一报警信息并传输至运输车辆；

在操作S1340，以可视化的形式向对象展示第一报警信息。

根据本公开的实施例，运输车辆可以指押运车辆，在驾驶员(即对象)执行押运任务时，驾驶员的状态很大程度上决定了押运安全，如果驾驶员存在疲劳驾驶或者未系安全带的行为，则很可能发生车辆行驶安全事故，为此，可以预先在押运车辆内安装摄像头等图像采集设备，在执行押运任务期间，押运车辆实时将图像采集设备采集的车内视频传输至服务器中，服务器通过对象行为分类模型实时对车内视频中驾驶员的行为姿态进行分类，得到车内行为分类结果。

根据本公开的实施例，在车内行为分类结果表明对象的行为姿态属于违规行为姿态的情况下，例如驾驶员存在闭眼或者打哈欠的疲劳状态，从报警信息列表中确定与违规行为姿态对应的第一报警信息并传输至运输车辆，从而通过安装在押运车辆内的报警装置向驾驶员发出第一报警信息，从而尽可能地避免因驾驶员的违规行为姿态造成发生押运安全事故的发生。

需要说明的是，本公开的行驶安全性检测方法不仅可以对驾驶员的行为姿态进行检测，也可以对车内乘坐的人员的行为姿态进行检测。

根据本公开的实施例，通过对象行为分类模型提取车内视频的图像帧中的多尺度特征矩阵，以使得能够尽可能地确定对象所在的预测区域，利用关键点的标记点对预测区域内的对象行为进行分类，从而确定运输车辆内的对象是否存在违规行为姿态，从而通过报警装置向对象发出报警信息，由于在运输车辆行驶的过程中实时对运输车辆内的对象行为进行检测，提高了运输车辆在运输任务中的安全性和保密性，避免了在执行运输任务中因对象的违规行为给运输任务带来的安全性降低和保密性降低的问题。

需要说明的是，本公开的对象行为分类模型不仅可以对运输车辆内驾乘人员的行为进行分类，也可以对其他对象的行为进行分类，例如可以对动物园中动物的姿态进行分类，如确定动物处于静止、奔跑或飞行状态的分类。

利用传感器模块采集运输车辆的车辆状态参数，其中，车辆状态参数包括以下至少一种：胎压、车内温度、发动机状态、续航能力、车速、发动机转速和行驶轨迹；

向服务器传输车辆状态参数，以使得服务器在车辆状态参数中的任一种参数满足报警条件的情况下，将与参数对应的第二报警信息传输至运输车辆；

以可视化的形式向对象展示第二报警信息。

根据本公开的实施例，第二报警信息可以根据实际情况进行设置，例如在胎压较低时，第二报警信息可以为“胎压异常，请检查轮胎是否破损”等。

根据本公开的实施例，传感器模块包括车辆定位模块，该模块通过车载GPS定位导航系统实时收集运输车辆当前运行情况，实现押运人员与远程终端的数据共享。若运输车辆出现偏离预定行驶轨迹的行驶、反向驾驶、闯红灯、超速行驶、低速行驶等状况时，车载终端自动向应用监督单元发出报警信号，由数据中心通过大数据云进行信息共享，最后通过应用监督单元实现实时监控，并迅速对运输车辆运行状况做出有效监督、调度和警告。

根据本公开的实施例，传感器模块还可以采集车辆当前运行参数，如胎压、车内温度、发动机状态、油量、电量、车速、发动机转速等仪表盘参数。此外，传感器模块还可以包括碰撞传感器，通过采集车辆碰撞系数用于判断是否出现碰撞这类突发状况，从而在发生碰撞后及时向应用监督单元和驾驶员发出对应的第二报警信息。

根据本公开的实施例，行驶安全性检测方法还可以通过车内视频确定当前驾驶员(或乘坐人员)的身份信息，服务器判断该身份信息是否属于预定驾驶员(或预定乘坐人员)，若确定不属于预定驾驶员(或预定乘坐人员)的情况下，可以及时向应用监督单元和驾驶员发出对应的第二报警信息。

图14示意性示出了根据本公开实施例的对象行为分类模型的训练装置的结构框图。

如图14所示，该实施例的对象行为分类模型的训练装置1400包括第一获取模块1410、多尺度模块1420、第一分类模块1430、损失模块1440、迭代模块1450。

第一获取模块1410，用于获取训练集，其中，训练集包括多个训练视频和分类标签，视频包括时序上关联的多个图像帧；

多尺度模块1420，用于将训练视频输入至初始行为分类模型，输出与训练视频对应的多个多尺度特征矩阵，其中，每个多尺度特征矩阵包括多个包括对象不同关键点的预测区域；

第一分类模块1430，用于基于训练视频的标记点，对训练视频对应的多个预测区域进行行为分类处理，得到训练视频的行为分类结果，其中，标记点表征每个图像帧中的对象的不同关键点的位置；

损失模块1440，用于将与每个训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；

迭代模块1450，用于根据损失结果迭代地调整初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

根据本公开的实施例，在多尺度特征矩阵的数量为三个的情况下，多尺度模块1420包括特征提取子模块、第一得到子模块、第二得到子模块。

特征提取子模块，用于基于第一预设步长，利用特征提取子模型对多个图像帧进行通道调整和特征提取处理，得到第一图像特征；

第一得到子模块，用于利用通道调整子模型处理第一图像特征，得到第二图像特征和第三图像特征；

第二得到子模块，用于利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型分别处理第一图像特征、第二图像特征和第三图像特征，得到三个多尺度特征矩阵。

根据本公开的实施例，特征提取子模块包括第一得到单元、第二得到单元、第一下采样单元、第三得到单元。

第一得到单元，用于利用多个第一卷积归一化层对多个图像帧进行通道调整和特征提取处理，得到第一中间特征，其中，一个卷积归一化层对应于一个第一预设步长；

第二得到单元，用于利用第一特征处理层对第一中间特征进行通道调整和特征堆叠处理，得到第二中间特征；

第一下采样单元，用于利用第一下采样层对第二中间特征进行下采样处理，得到第三中间特征；

第三得到单元，用于利用第二特征处理层对第三中间特征进行通道调整和特征堆叠处理，得到第一图像特征。

根据本公开的实施例，第一得到子模块包括第二下采样单元、第四得到单元、第三下采样单元、第五得到单元。

第二下采样单元，用于利用第二下采样层对第一图像特征进行下采样处理，得到第四中间特征；

第四得到单元，用于利用第三特征处理层对第四中间特征进行通道调整和特征提取处理，得到第二图像特征；

第三下采样单元，用于利用第三下采样层对第二图像特征进行下采样处理，得到第五中间特征；

第五得到单元，用于利用第四特征处理层对第五中间特征进行通道调整和特征提取处理，得到第三图像特征。

根据本公开的实施例，第二得到子模块包括第一输出单元、第二输出单元、第三输出单元。

第一输出单元，用于利用第一多尺度子模型处理第一图像特征和第一过渡特征，输出一个多尺度特征矩阵和第二过渡特征；

第二输出单元，用于利用第二多尺度子模型处理第二图像特征、第二过渡特征和第三过渡特征，输出一个多尺度特征矩阵、第一过渡特征和第四过渡特征；

第三输出单元，用于利用第三多尺度子模型处理第三图像特征和第四过渡特征，输出一个多尺度特征矩阵和第三过渡特征。

根据本公开的实施例，第一输出单元包括第一得到子单元、第二得到子单元、第三得到子单元、第四得到子单元、第一下采样子单元、第五得到子单元、第六得到子单元。

第一得到子单元，用于基于第二预设步长，利用两个第二卷积归一化层分别对第一图像特征和第一过渡特征进行通道调整和特征提取处理，得到第一通道特征和第二通道特征；

第二得到子单元，用于利用第一特征扩张层对第二通道特征进行特征层扩张处理，得到第三通道特征；

第三得到子单元，用于利用第一特征堆叠层对第一通道特征和第三通道特征进行特征堆叠处理，得到第四通道特征；

第四得到子单元，用于利用第五特征处理层对第四通道特征进行通道调整和特征提取处理，得到第五通道特征，其中，第五通道特征包括两个预设通道数的子通道特征；

第一下采样子单元，用于利用第四下采样层对一个子通道特征进行下采样处理，得到第二过渡特征；

第五得到子单元，用于利用第一卷积叠加层对另一个子通道特征进行卷积、归一化和特征叠加处理，得到第六通道特征；

第六得到子单元，用于基于第二预设步长，利用第三卷积归一化层对第六通道特征进行通道调整和特征提取处理，得到第一个多尺度特征矩阵，其中，第一个多尺度特征矩阵包括第一预设数量的网格数和目标数量的通道数。

根据本公开的实施例，第二输出单元包括第七得到子单元、第八得到子单元、第九得到子单元、第十得到子单元、第十一得到子单元、第十二得到子单元、第二下采样子单元、第十三得到子单元、第十四得到子单元。

第七得到子单元，用于基于第三预设步长，利用两个第四卷积归一化层分别对第二图像特征和第三过渡特征进行通道调整和特征提取处理，得到第七通道特征和第八通道特征；

第八得到子单元，用于利用第二特征扩张层对第八通道特征进行特征层扩张处理，得到第九通道特征；

第九得到子单元，用于利用第二特征堆叠层对第七通道特征和第九通道特征进行特征堆叠处理，得到第十通道特征；

第十得到子单元，用于利用第六特征处理层对第十通道特征进行通道调整和特征提取处理，得到第十一通道特征；

第十一得到子单元，用于利用第三特征堆叠层对第十一通道特征和第二过渡特征进行特征堆叠处理，得到第十二通道特征；

第十二得到子单元，用于利用第七特征处理层对第十二通道特征进行通道调整和特征提取处理，得到第十三通道特征；

第二下采样子单元，用于利用第五下采样层对第十三通道特征进行下采样处理，得到第四过渡特征；

第十三得到子单元，用于利用第二卷积叠加层对第十三通道特征进行卷积、归一化和特征叠加处理，得到第十四通道特征；

第十四得到子单元，用于基于第三预设步长，利用第五卷积归一化层对第十四通道特征进行通道调整和特征提取处理，得到第二个多尺度特征矩阵，其中，第二个多尺度特征矩阵包括第二预设数量的网格数和目标数量的通道数。

根据本公开的实施例，第三输出单元包括第十五得到子单元、第十六得到子单元、第十七得到子单元、第十八得到子单元、第十九得到子单元。

第十五得到子单元，用于利用特征提取堆叠层对第三图像特征进行特征提取、池化和堆叠处理，得到第三过渡特征；

第十六得到子单元，用于利用第四特征堆叠层对第三过渡特征和第四过渡特征进行特征堆叠处理，得到第十五通道特征；

第十七得到子单元，用于利用第八特征处理层对第十五通道特征进行通道调整和特征提取处理，得到第十六通道特征；

第十八得到子单元，用于利用第三卷积叠加层对第十六通道特征进行卷积、归一化和特征叠加处理，得到第十七通道特征；

第十九得到子单元，用于基于第四预设步长，利用第六卷积归一化层对第十七通道特征进行通道调整和特征提取处理，得到第三个多尺度特征矩阵，其中，第三个多尺度特征矩阵包括第三预设数量的网格数和目标数量的通道数。

根据本公开的实施例，第一分类模块1430包括处理子模块、确定子模块、第一分类子模块、第二分类子模块、第三分类子模块。

处理子模块，用于基于预设关键点模型对每个预测区域中的标记点的位置进行处理，得到每个关键点的状态参数；

确定子模块，用于基于多个状态参数，确定对象的行为状态和处于行为状态下的时间和/或次数；

第一分类子模块，用于在行为状态属于分类列表中的一种且在时间或次数满足预设条件的情况下，将训练视频归类为第一分类子结果；

第二分类子模块，用于在行为状态属于分类列表中的一种且在时间或次数不满足预设条件的情况下，将训练视频归类为第二分类子结果；

第三分类子模块，用于在行为状态不属于分类列表中任一种的情况下，将训练视频归类为第三分类子结果，其中，行为分类结果包括第一分类子结果、第二分类子结果和第三分类子结果。

图15示意性示出了根据本公开实施例的对象行为分类装置的结构框图。

如图15所示，该实施例的对象行为分类装置1500包括第二获取模块1510、第二分类模块1520。

第二获取模块1510，用于获取待分类视频，其中，待分类视频包括时序上关联的多个待分类图像帧；

第二分类模块1520，用于将待分类视频的多个待分类图像帧输入至对象行为分类模型，输出预测行为分类结果，其中，预测行为分类结果表征在待分类视频中存在对象的情况下对象的行为姿态。

根据本公开的实施例，对象行为分类装置还包括确定模块、展示模块。

确定模块，用于在预测行为分类结果表明对象的行为姿态属于预设行为姿态的情况下，从信息列表中确定与预设行为姿态对应的目标信息；

展示模块，用于以可视化的形式向对象展示目标信息。

根据本公开的实施例，第一获取模块1410、多尺度模块1420、第一分类模块1430、损失模块1440、迭代模块1450，或第二获取模块1510、第二分类模块1520中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，第一获取模块1410、多尺度模块1420、第一分类模块1430、损失模块1440、迭代模块1450，或第二获取模块1510、第二分类模块1520中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块1410、多尺度模块1420、第一分类模块1430、损失模块1440、迭代模块1450，或第二获取模块1510、第二分类模块1520中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图16示意性示出了根据本公开实施例的车辆监控系统的结构框图。

如图16所示，该实施例的车辆监控系统1600，包括：

服务器1610，服务器1610被配置成：

基于对象行为分类模型对车内视频进行处理，得到车内行为分类结果，其中，车内行为分类结果表征在车内视频中至少一个对象的行为姿态；

在车内行为分类结果表明对象的行为姿态属于违规行为姿态的情况下，从报警信息列表中确定与违规行为姿态对应的第一报警信息并传输至报警装置；

运输车辆1620，运输车辆1620包括：

车辆主体；

图像采集设备，被配置成在车辆主体行驶的情况下，实时采集运输车辆1620的车内视频并传输至服务器1610，其中，车内视频包括时序上关联的多个车内图像；

报警装置，被配置成以可视化的形式向对象展示第一报警信息。

根据本公开的实施例，车内视频可以通过车载终端1630上传至服务器1610。服务器1610将分类结果通过平台共享单元1640中数据中心1641传输至大数据云1642中，进而使得应用监督单元1650实时通过多种显示设备显示车内视频以及在对象存在违规相位姿态时的分类结果。

根据本公开的实施例，通过对象行为分类模型提取车内视频的图像帧中的多尺度特征矩阵，以使得能够尽可能地确定对象所在的预测区域，利用关键点的标记点对预测区域内的对象行为进行分类，从而确定运输车辆1620内的对象是否存在违规行为姿态，从而通过报警装置向对象发出报警信息，由于在运输车辆1620行驶的过程中实时对运输车辆1620内的对象行为进行检测，提高了运输车辆1620在运输任务中的安全性和保密性，避免了在执行运输任务中因对象的违规行为给运输任务带来的安全性降低和保密性降低的问题。

根据本公开的实施例，车辆监控系统1600还包括：

传感器模块，被配置成：

采集运输车辆1620的车辆状态参数并向服务器1610传输车辆状态参数，其中，车辆状态参数包括以下至少一种：胎压、车内温度、发动机状态、续航能力、车速、发动机转速和行驶轨迹；

其中，服务器1610还被配置成在车辆状态参数中的任一种参数满足报警条件的情况下，将与参数对应的第二报警信息传输至报警装置；

报警装置还被配置成以可视化的形式向对象展示第二报警信息。

根据本公开的实施例，车辆监控系统1600还包括平台共享单元1640和应用监督单元1650，应用监督单元1650通过平台共享单元1640可以实时与服务器1610、运输车辆1620进行双向通信，从而可以实时将车内视频和车辆状态参数在应用监督单元1650进行展示，以便于监督员能够及时了解运输车辆1620的行驶安全，保证了在突发事件时实现对运输车辆1620的监控和调度，有效保障了运输安全性、规范性和私密性。

如图17所示，根据本公开实施例的电子设备1700包括处理器1701，其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。处理器1701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1701还可以包括用于缓存用途的板载存储器。处理器1701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1703中，存储有电子设备1700操作所需的各种程序和数据。处理器1701、ROM 1702以及RAM 1703通过总线1704彼此相连。处理器1701通过执行ROM 1702和/或RAM1703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1702和RAM 1703以外的一个或多个存储器中。处理器1701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1700还可以包括输入/输出(I/O)接口1705，输入/输出(I/O)接口1705也连接至总线1704。电子设备1700还可以包括连接至输入/输出(I/O)接口1705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707；包括硬盘等的存储部分1708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至输入/输出(I/O)接口1705。可拆卸介质1711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1710上，以便于从其上读出的计算机程序根据需要被安装入存储部分1708。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1702和/或RAM 1703和/或ROM 1702和RAM 1703以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器1701执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1709被下载和安装，和/或从可拆卸介质1711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1709从网络上被下载和安装，和/或从可拆卸介质1711被安装。在该计算机程序被处理器1701执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种对象行为分类模型的训练方法，包括：

获取训练集，其中，所述训练集包括多个训练视频和分类标签，所述视频包括时序上关联的多个图像帧；

将所述训练视频输入至初始行为分类模型，输出与所述训练视频对应的多个多尺度特征矩阵，其中，每个所述多尺度特征矩阵包括多个包括对象不同关键点的预测区域；

基于所述训练视频的标记点，对所述训练视频对应的多个所述预测区域进行行为分类处理，得到所述训练视频的行为分类结果，其中，所述标记点表征每个图像帧中的所述对象的不同关键点的位置；

将与每个所述训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；

根据所述损失结果迭代地调整所述初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

2.根据权利要求1所述的方法，其中，在所述多尺度特征矩阵的数量为三个的情况下，所述将所述训练视频输入至初始行为分类模型，输出与所述训练视频对应的多个多尺度特征矩阵，包括：

基于第一预设步长，利用特征提取子模型对多个所述图像帧进行通道调整和特征提取处理，得到第一图像特征；

利用通道调整子模型处理所述第一图像特征，得到第二图像特征和第三图像特征；

利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型分别处理所述第一图像特征、所述第二图像特征和所述第三图像特征，得到三个所述多尺度特征矩阵。

3.根据权利要求2所述的方法，其中，所述基于第一预设步长，利用特征提取子模型对多个所述图像帧进行通道调整和特征提取处理，得到第一图像特征，包括：

利用多个第一卷积归一化层对多个所述图像帧进行通道调整和特征提取处理，得到第一中间特征，其中，一个所述卷积归一化层对应于一个第一预设步长；

利用第一特征处理层对所述第一中间特征进行通道调整和特征堆叠处理，得到第二中间特征；

利用第一下采样层对所述第二中间特征进行下采样处理，得到第三中间特征；

利用第二特征处理层对所述第三中间特征进行通道调整和特征堆叠处理，得到所述第一图像特征。

4.根据权利要求2所述的方法，其中，所述利用通道调整子模型处理所述第一图像特征，得到第二图像特征和第三图像特征，包括：

利用第二下采样层对所述第一图像特征进行下采样处理，得到第四中间特征；

利用第三特征处理层对所述第四中间特征进行通道调整和特征提取处理，得到所述第二图像特征；

利用第三下采样层对所述第二图像特征进行下采样处理，得到第五中间特征；

利用第四特征处理层对所述第五中间特征进行通道调整和特征提取处理，得到所述第三图像特征。

5.根据权利要求2所述的方法，其中，所述利用第一多尺度子模型、第二多尺度子模型和第三多尺度子模型分别处理所述第一图像特征、所述第二图像特征和所述第三图像特征，得到三个所述多尺度特征矩阵，包括：

利用所述第一多尺度子模型处理所述第一图像特征和第一过渡特征，输出一个所述多尺度特征矩阵和第二过渡特征；

利用所述第二多尺度子模型处理所述第二图像特征、所述第二过渡特征和第三过渡特征，输出一个所述多尺度特征矩阵、所述第一过渡特征和第四过渡特征；

利用所述第三多尺度子模型处理所述第三图像特征和所述第四过渡特征，输出一个所述多尺度特征矩阵和所述第三过渡特征。

6.根据权利要求5所述的方法，其中，所述利用所述第一多尺度子模型处理所述第一图像特征和第一过渡特征，输出一个所述多尺度特征矩阵和第二过渡特征，包括：

基于第二预设步长，利用两个第二卷积归一化层分别对所述第一图像特征和所述第一过渡特征进行通道调整和特征提取处理，得到第一通道特征和第二通道特征；

利用第一特征扩张层对所述第二通道特征进行特征层扩张处理，得到第三通道特征；

利用第一特征堆叠层对所述第一通道特征和所述第三通道特征进行特征堆叠处理，得到第四通道特征；

利用第五特征处理层对所述第四通道特征进行通道调整和特征提取处理，得到第五通道特征，其中，所述第五通道特征包括两个预设通道数的子通道特征；

利用第四下采样层对一个所述子通道特征进行下采样处理，得到所述第二过渡特征；

利用第一卷积叠加层对另一个所述子通道特征进行卷积、归一化和特征叠加处理，得到第六通道特征；

基于所述第二预设步长，利用第三卷积归一化层对所述第六通道特征进行通道调整和特征提取处理，得到第一个所述多尺度特征矩阵，其中，所述第一个多尺度特征矩阵包括第一预设数量的网格数和目标数量的通道数。

7.根据权利要求5或6所述的方法，其中，所述利用所述第二多尺度子模型处理所述第二图像特征、所述第二过渡特征和第三过渡特征，输出一个所述多尺度特征矩阵、所述第一过渡特征和第四过渡特征，包括：

基于第三预设步长，利用两个第四卷积归一化层分别对所述第二图像特征和所述第三过渡特征进行通道调整和特征提取处理，得到第七通道特征和第八通道特征；

利用第二特征扩张层对所述第八通道特征进行特征层扩张处理，得到第九通道特征；

利用第二特征堆叠层对所述第七通道特征和所述第九通道特征进行特征堆叠处理，得到第十通道特征；

利用第六特征处理层对所述第十通道特征进行通道调整和特征提取处理，得到第十一通道特征；

利用第三特征堆叠层对所述第十一通道特征和所述第二过渡特征进行特征堆叠处理，得到第十二通道特征；

利用第七特征处理层对所述第十二通道特征进行通道调整和特征提取处理，得到第十三通道特征；

利用第五下采样层对所述第十三通道特征进行下采样处理，得到所述第四过渡特征；

利用第二卷积叠加层对所述第十三通道特征进行卷积、归一化和特征叠加处理，得到第十四通道特征；

基于所述第三预设步长，利用第五卷积归一化层对所述第十四通道特征进行通道调整和特征提取处理，得到第二个所述多尺度特征矩阵，其中，所述第二个多尺度特征矩阵包括第二预设数量的网格数和目标数量的通道数。

8.根据权利要求5所述的方法，其中，所述利用所述第三多尺度子模型处理所述第三图像特征和所述第四过渡特征，输出一个所述多尺度特征矩阵和所述第三过渡特征，包括：

利用特征提取堆叠层对所述第三图像特征进行特征提取、池化和堆叠处理，得到所述第三过渡特征；

利用第四特征堆叠层对所述第三过渡特征和所述第四过渡特征进行特征堆叠处理，得到第十五通道特征；

利用第八特征处理层对所述第十五通道特征进行通道调整和特征提取处理，得到第十六通道特征；

利用第三卷积叠加层对所述第十六通道特征进行卷积、归一化和特征叠加处理，得到第十七通道特征；

基于第四预设步长，利用第六卷积归一化层对所述第十七通道特征进行通道调整和特征提取处理，得到第三个所述多尺度特征矩阵，其中，所述第三个多尺度特征矩阵包括第三预设数量的网格数和目标数量的通道数。

9.根据权利要求1所述的方法，其中，所述基于所述训练视频的标记点，对所述训练视频对应的多个所述预测区域进行行为分类处理，得到所述训练视频的行为分类结果，包括：

基于预设关键点模型对每个所述预测区域中的标记点的位置进行处理，得到每个所述关键点的状态参数；

基于多个所述状态参数，确定所述对象的行为状态和处于所述行为状态下的时间和/或次数；

在所述行为状态属于分类列表中的一种且在所述时间或所述次数满足预设条件的情况下，将所述训练视频归类为第一分类子结果；

在所述行为状态属于所述分类列表中的一种且在所述时间或所述次数不满足预设条件的情况下，将所述训练视频归类为第二分类子结果；

在所述行为状态不属于所述分类列表中任一种的情况下，将所述训练视频归类为第三分类子结果，其中，所述行为分类结果包括所述第一分类子结果、所述第二分类子结果和所述第三分类子结果。

10.一种对象行为分类方法，包括：

获取待分类视频，其中，所述待分类视频包括时序上关联的多个待分类图像帧；

将所述待分类视频的多个待分类图像帧输入至对象行为分类模型，输出预测行为分类结果，其中，所述预测行为分类结果表征在所述待分类视频中存在对象的情况下所述对象的行为姿态；

其中，所述对象行为分类模型是利用如权利要求1至9中任一项所述的方法训练得到的。

11.根据权利要求10所述的方法，还包括：

在所述预测行为分类结果表明所述对象的行为姿态属于预设行为姿态的情况下，从信息列表中确定与所述预设行为姿态对应的目标信息；

以可视化的形式向所述对象展示所述目标信息。

12.一种运输车辆的行驶安全性检测方法，包括：

在所述运输车辆行驶的情况下，利用所述运输车辆的图像采集设备实时采集所述运输车辆的车内视频，其中，所述车内视频包括时序上关联的多个车内图像；

将所述车内视频的多个车内图像传输至服务器，以使得所述服务器基于对象行为分类模型对所述车内视频进行处理，得到车内行为分类结果，其中，所述车内行为分类结果表征在所述车内视频中至少一个对象的行为姿态，所述对象行为分类模型是利用如权利要求1至9中任一项所述的方法训练得到的；

在所述车内行为分类结果表明所述对象的行为姿态属于违规行为姿态的情况下，从报警信息列表中确定与所述违规行为姿态对应的第一报警信息并传输至所述运输车辆；

以可视化的形式向所述对象展示所述第一报警信息。

13.根据权利要求12所述的方法，还包括：

利用传感器模块采集所述运输车辆的车辆状态参数，其中，所述车辆状态参数包括以下至少一种：胎压、车内温度、发动机状态、续航能力、车速、发动机转速和行驶轨迹；

向所述服务器传输所述车辆状态参数，以使得所述服务器在所述车辆状态参数中的任一种参数满足报警条件的情况下，将与所述参数对应的第二报警信息传输至所述运输车辆；

以可视化的形式向所述对象展示所述第二报警信息。

14.一种对象行为分类模型的训练装置，包括：

第一获取模块，用于获取训练集，其中，所述训练集包括多个训练视频和分类标签，所述视频包括时序上关联的多个图像帧；

多尺度模块，用于将所述训练视频输入至初始行为分类模型，输出与所述训练视频对应的多个多尺度特征矩阵，其中，每个所述多尺度特征矩阵包括多个包括对象不同关键点的预测区域；

第一分类模块，用于基于所述训练视频的标记点，对所述训练视频对应的多个所述预测区域进行行为分类处理，得到所述训练视频的行为分类结果，其中，所述标记点表征每个图像帧中的所述对象的不同关键点的位置；

损失模块，用于将与每个所述训练视频对应的分类结果和分类标签输入损失函数，输出损失结果；

迭代模块，用于根据所述损失结果迭代地调整所述初始行为分类模型的网络参数，生成经训练的对象行为分类模型。

15.一种对象行为分类装置，包括：

第二获取模块，用于获取待分类视频，其中，所述待分类视频包括时序上关联的多个待分类图像帧；

第二分类模块，用于将所述待分类视频的多个待分类图像帧输入至对象行为分类模型，输出预测行为分类结果，其中，所述预测行为分类结果表征在所述待分类视频中存在对象的情况下所述对象的行为姿态；

16.一种车辆监控系统，包括：

服务器，所述服务器被配置成：

基于对象行为分类模型对车内视频进行处理，得到车内行为分类结果，其中，所述车内行为分类结果表征在所述车内视频中至少一个对象的行为姿态，所述对象行为分类模型是利用如权利要求1至9中任一项所述的方法训练得到的；

在所述车内行为分类结果表明所述对象的行为姿态属于违规行为姿态的情况下，从报警信息列表中确定与所述违规行为姿态对应的第一报警信息并传输至报警装置；

运输车辆，所述运输车辆包括：

车辆主体；

图像采集设备，被配置成在所述车辆主体行驶的情况下，实时采集所述运输车辆的所述车内视频并传输至所述服务器，其中，所述车内视频包括时序上关联的多个车内图像；

所述报警装置，被配置成以可视化的形式向所述对象展示所述第一报警信息。

17.根据权利要求16所述的系统，还包括：

传感器模块，被配置成：

采集所述运输车辆的车辆状态参数并向所述服务器传输所述车辆状态参数，其中，所述车辆状态参数包括以下至少一种：

胎压、车内温度、发动机状态、续航能力、车速、发动机转速和行驶轨迹；

其中，所述服务器还被配置成在所述车辆状态参数中的任一种参数满足报警条件的情况下，将与所述参数对应的第二报警信息传输至所述报警装置；

所述报警装置还被配置成以可视化的形式向所述对象展示所述第二报警信息。

18.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～11中任一项所述的方法。

19.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～11中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～11中任一项所述的方法。