CN118196764A

CN118196764A - 疲劳状态识别方法和装置

Info

Publication number: CN118196764A
Application number: CN202410087603.3A
Authority: CN
Inventors: 汪伟; 曹桂锋; 谭悦
Original assignee: Beijing Huitongtianxia Iot Technology Co ltd
Current assignee: Beijing Huitongtianxia Iot Technology Co ltd
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-06-14

Abstract

本发明提供一种疲劳状态识别方法和装置，所述方法包括：实时获取目标驾驶员的人脸图像，在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，即可得到所述疲劳状态识别模型输出的疲劳状态结果。该疲劳识别状态方法和装置，结合多种维度的概率值以及场景特征进行特征交叉，获得了较高的疲劳识别准确率，解决了现有技术中疲劳状态检测准确性较差的问题，提高了驾驶员疲劳状态识别的准确性，保证了驾驶安全。

Description

疲劳状态识别方法和装置

技术领域

本发明涉及智能交通技术领域，尤其涉及一种疲劳状态识别方法和装置。

背景技术

随着交通运输业的迅猛发展，驾驶员的疲劳驾驶是造成交通事故的重要因素，尤其是在货运行业，司机疲劳驾驶的情况普遍存在。

在已有技术中，利用车载设备实时采集司机的人脸图像，基于人脸图像对司机的疲劳状态进行识别。但是，车机端设备算力非常有限，基于单一的视频分类模型进行驾驶员疲劳状态识别的准确率不高，导致检测误判率较高，从而无法保证驾驶安全性。

鉴于此，本发明提供一种疲劳状态识别方法和装置，以解决现有技术中疲劳状态检测准确性较差的问题，以期提高驾驶员疲劳状态识别的准确性，保证驾驶安全。

发明内容

针对现有技术存在的问题，本发明提供一种疲劳状态识别方法和装置。

本发明提供了一种疲劳状态识别方法，所述方法包括：

实时获取目标驾驶员的人脸图像；

在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；

将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，以得到所述疲劳状态识别模型输出的疲劳状态结果；

其中，所述疲劳状态识别模型是基于预先构建的深度学习网络利用人脸图像样本的闭眼概率值、平均眼距值、行为分类概率值和疲劳概率值进行训练得到的。

在一些实施例中，根据截取到的多帧图像得到平均眼距值，具体包括：

分别提取多个图像帧的人眼关键点检测结果；

根据各图像帧中的人眼关键点检测结果，分别计算各图像帧中目标驾驶员的眼距，得到多个眼距值；

取多个所述眼距值的平均数，以得到所述平均眼距值。

在一些实施例中，根据截取到的多帧图像得到闭眼概率值，具体包括：

将所述人脸图像输入预先训练的闭眼分类模型中，以得到所述闭眼分类模型输出的当前帧的闭眼概率值；

分别计算多个图像帧的闭眼概率值；

取多个所述闭眼概率值的平均数，以得到平均闭眼概率值；

其中，所述闭眼分类模型是基于预先构建的深度学习网络利用人脸图像样本和闭眼状态标签进行训练得到的。

在一些实施例中，根据截取到的多帧图像得到至少一个行为分类的行为分类概率值，具体包括：

将所述人脸图像输入预先训练的行为分类模型中，以得到所述行为分类模型输出的所有行为分别的行为分类概率值；

其中，所述行为分类模型是基于预先构建的深度学习网络利用人脸图像样本和行为状态标签进行训练得到的。

在一些实施例中，所述行为状态标签包括正常状态、打电话状态、玩手机状态、打哈欠状态、抽烟状态和左顾右盼状态中的至少一者。

在一些实施例中，根据截取到的多帧图像得到疲劳概率值，具体包括：

将所述人脸图像输入预先训练的疲劳分类模型中，以得到所述疲劳分类模型输出的疲劳概率值；

其中，所述疲劳分类模型是基于预先构建的深度学习网络利用人脸图像样本和疲劳状态标签进行训练得到的。

本发明还提供一种疲劳状态识别装置，所述装置包括：

图像获取单元，用于实时获取目标驾驶员的人脸图像；

图像处理单元，用于在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；

结果生成单元，用于将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，以得到所述疲劳状态识别模型输出的疲劳状态结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的疲劳状态识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的疲劳状态识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的疲劳状态识别方法。

本发明提供的一种疲劳状态识别方法和装置，通过实时获取目标驾驶员的人脸图像，在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，即可得到所述疲劳状态识别模型输出的疲劳状态结果。该疲劳识别状态方法和装置，结合多种维度的概率值以及场景特征进行特征交叉，并使用深度学习分类模型，从而获得了较高的疲劳识别准确率，解决了现有技术中疲劳状态检测准确性较差的问题，提高了驾驶员疲劳状态识别的准确性，保证了驾驶安全。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的疲劳状态识别方法的流程示意图之一；

图2为本发明提供的人脸检测模型的网络结构图；

图3为本发明提供的关键点检测模型的网络结构图；

图4为本发明提供的样本图；

图5为本发明提供的疲劳状态识别模型的网络结构图；

图6为本发明提供的疲劳状态识别方法的流程示意图之二；

图7为本发明提供的疲劳状态识别方法的流程示意图之三；

图8为本发明提供的行为分类模型的网络结构图；

图9为本发明提供的疲劳状态识别方法的流程示意图之四；

图10为本发明提供的疲劳状态识别装置的结构示意图；

图11为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图11介绍本发明所提供的疲劳状态识别方法和装置。

在一种具体实施方式中，本发明提供了一种疲劳状态识别方法，如图1所示，所述方法包括以下步骤：

S110：实时获取目标驾驶员的人脸图像；对于货车中，通常会在车内安装有正对着司机人脸的摄像头，可以利用摄像头实时采集司机的人脸图像，例如每秒可以采集8帧图片，并将每一帧图片实时的传输给车机端设备识别系统。在实际使用场景中，可对获取的人脸图像全部或部分进行处理，例如，假设每秒钟拍摄有8帧图像，可选择其中的5帧或6帧进行处理，以降低图像处理量，提高处理效率。

获取人脸图像后对人脸图像进行处理，得到关键点检测结果，人脸图像对应的关键点检测结果可以包括多个人脸关键点，例如，人脸关键点可以包括两个眼睛、两个嘴角和鼻尖对应的关键点。实施中，可以将人脸图像输入至预先训练好的人脸关键点检测模型，得到人脸关键点检测结果；其中，人脸关键点检测模型可以为机器学习模型，例如，可以为卷积神经网络模型，可以通过样本人脸图像以及各样本人脸图像对应的人脸关键点的标注结果，进行训练得到。

人脸检测模型可以具体为anchor free的FCOS模型，网络结构如图2所示，训练过程中，采集约50万张带标签的图片样本为coco格式，标签为人脸的bbox，训练得到人脸检测模型。在进行关键点检测时，可以使用pfld模型作为关键点检测模型，网络结构如图3所示，训练过程中，采集约110万张司机人脸图片样本，使用人工标注每张图片的38个关键点，训练得到人脸关键点检测模型。

S120：在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；

S130：将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，以得到所述疲劳状态识别模型输出的疲劳状态结果；

疲劳状态识别模型是一种深度学习分类模型，在子模型训练完毕后，下发到车机端设备上进行样本采集，并经过人工标注(1表示真实疲劳，0表示正常驾驶)，得到如图4所示格式的样本约40万个。使用如图5所示的deepfm模型对采集的样本进行训练，得到一个是否真实疲劳的分类模型。deepfm的好处是可以使得特征进行能够交叉，并能够比较好的利用ID类离散性的特征。

在具体的使用场景中，可以结合多种模型的输出，例如眼距、闭眼概率分、疲劳视频分类模型、是否玩电话视频分类模型分、是否打电话视频分类模型分、是否吸烟视频分类模型分、是否左顾右盼概率分等，以及场景特征，例如当前时间、司机连续驾驶时长、司机ID、当前车辆速度等，进行特征交叉。

其中，根据截取到的多帧图像得到平均眼距值，如图6所示，具体包括以下步骤：

S610：分别提取多个图像帧的人眼关键点检测结果；

S620：根据各图像帧中的人眼关键点检测结果，分别计算各图像帧中目标驾驶员的眼距，得到多个眼距值；

S630：取多个所述眼距值的平均数，以得到所述平均眼距值。

在一些实施例中，根据截取到的多帧图像得到闭眼概率值，如图7所示，具体包括以下步骤：

S710：将所述人脸图像输入预先训练的闭眼分类模型中，以得到所述闭眼分类模型输出的当前帧的闭眼概率值；其中，所述闭眼分类模型是基于预先构建的深度学习网络利用人脸图像样本和闭眼状态标签进行训练得到的；

S720：分别计算多个图像帧的闭眼概率值；

S730：取多个所述闭眼概率值的平均数，以得到平均闭眼概率值。

例如，闭眼图片分类模型可以使用resnet50模型，采集约数万张司机人脸图片样本，使用人工标注每张图片是否闭眼，训练了一个是否闭眼的图片分类模型。

将所述人脸图像输入预先训练的行为分类模型中，以得到所述行为分类模型输出的所有行为分别的行为分类概率值；所述行为状态标签包括正常状态、打电话状态、玩手机状态、打哈欠状态、抽烟状态和左顾右盼状态中的至少一者；

例如，行为分类模型可以使用如图8所示的TSM模型，采集约万个司机驾驶时正对脸部视频样本，每个视频长度10s，人工标注视频类别为正常、打电话、玩手机、打哈欠、抽烟、左顾右盼其中一类，训练了一个司机行为分类模型，该实施例选用TSM模型的目的是计算量少，但是效果较好。

例如，疲劳视频分类模型也可以使用TSM模型，采集约万个司机驾驶时正对脸部视频样本，每个视频长度10s，人工标注视频类别为正常、疲劳两分类标签，训练一个司机是否疲劳的视频分类模型。

下面以一个货车驾驶的使用场景为例，简述本发明所提供的方法的实施过程。

如图9所示，车机端设备识别系统在接受到图片帧之后，首先进行人脸检测，然后进行人脸关键点检测，计算当前帧的眼距，再取多帧的眼距计算平均眼距；截取人脸图像，经过图片级别闭眼分类模型得到闭眼分，取多帧计算平均闭眼概率分；取多帧图片经过行为视频分类模型(在该实施例中行为分类为六类，包括正常、打电话、玩手机、打哈欠、抽烟、左顾右盼)推理，得到玩手机概率分、打电话概率分、抽烟概率分、打哈欠概率分、左顾右盼概率分；取多帧图片经过疲劳视频分类模型，得到疲劳概率分；再结合司机ID、当前时间、驾驶时长、车辆速度等场景特征输入至深度学习分类算法(例如DeepFM，保证特征可以交叉)，最终获得是否疲劳的概率。

在上述具体实施方式中，本发明提供的一种疲劳状态识别方法，通过实时获取目标驾驶员的人脸图像，在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，即可得到所述疲劳状态识别模型输出的疲劳状态结果。该疲劳识别状态方法，结合多种维度的概率值以及场景特征进行特征交叉，并使用深度学习分类模型，从而获得了较高的疲劳识别准确率，解决了现有技术中疲劳状态检测准确性较差的问题，提高了驾驶员疲劳状态识别的准确性，保证了驾驶安全。

除了上述方法，本发明还提供一种疲劳状态识别装置，如图10所示，所述装置包括：

图像获取单元1010，用于实时获取目标驾驶员的人脸图像；

图像处理单元1020，用于在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；

结果生成单元1030，用于将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，以得到所述疲劳状态识别模型输出的疲劳状态结果；

分别提取多个图像帧的人眼关键点检测结果；

取多个所述眼距值的平均数，以得到所述平均眼距值。

分别计算多个图像帧的闭眼概率值；

取多个所述闭眼概率值的平均数，以得到平均闭眼概率值；

在上述具体实施方式中，本发明提供的一种疲劳状态识别装置，通过实时获取目标驾驶员的人脸图像，在所述人脸图像中截取多帧图像，根据截取到的多帧图像分别得到平均眼距值、闭眼概率值、至少一个行为分类的行为分类概率值，以及疲劳概率值；将所述目标驾驶员当前的场景特征数据、所述闭眼概率值、所述平均眼距值、所述行为分类概率值和所述疲劳概率值输入预先训练的疲劳状态识别模型，即可得到所述疲劳状态识别模型输出的疲劳状态结果。该疲劳识别状态装置，结合多种维度的概率值以及场景特征进行特征交叉，并使用深度学习分类模型，从而获得了较高的疲劳识别准确率，解决了现有技术中疲劳状态检测准确性较差的问题，提高了驾驶员疲劳状态识别的准确性，保证了驾驶安全。

图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行上述方法。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种疲劳状态识别方法，其特征在于，所述方法包括：

实时获取目标驾驶员的人脸图像；

2.根据权利要求1所述的疲劳状态识别方法，其特征在于，根据截取到的多帧图像得到平均眼距值，具体包括：

分别提取多个图像帧的人眼关键点检测结果；

取多个所述眼距值的平均数，以得到所述平均眼距值。

3.根据权利要求1所述的疲劳状态识别方法，其特征在于，根据截取到的多帧图像得到闭眼概率值，具体包括：

分别计算多个图像帧的闭眼概率值；

取多个所述闭眼概率值的平均数，以得到平均闭眼概率值；

4.根据权利要求1所述的疲劳状态识别方法，其特征在于，根据截取到的多帧图像得到至少一个行为分类的行为分类概率值，具体包括：

5.根据权利要求4所述的疲劳状态识别方法，其特征在于，所述行为状态标签包括正常状态、打电话状态、玩手机状态、打哈欠状态、抽烟状态和左顾右盼状态中的至少一者。

6.根据权利要求1所述的疲劳状态识别方法，其特征在于，根据截取到的多帧图像得到疲劳概率值，具体包括：

7.一种疲劳状态识别装置，其特征在于，所述装置包括：

图像获取单元，用于实时获取目标驾驶员的人脸图像；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的疲劳状态识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的疲劳状态识别方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的疲劳状态识别方法。