CN114170585B

CN114170585B - 危险驾驶行为的识别方法、装置、电子设备及存储介质

Info

Publication number: CN114170585B
Application number: CN202111358472.0A
Authority: CN
Inventors: 郑鹏; 刘志徽; 周东
Original assignee: Guangxi Zhongke Shuguang Cloud Computing Co ltd
Current assignee: Guangxi Zhongke Shuguang Cloud Computing Co ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-03-24
Anticipated expiration: 2041-11-16
Also published as: CN114170585A

Abstract

本申请公开了一种危险驾驶行为的识别方法、装置、电子设备及存储介质，通过获取在驾驶室内用户的视频数据和音频数据，以实时监控用户；对视频数据和音频数据进行特征提取，得到多个单模态特征，以提取用户的微表情特征、动作特征和声音特征，从而能够在听觉和视觉上进行模态融合分析；并对多个单模态特征进行特征融合，得到融合特征，以及对融合特征进行二分类，得到用户的驾驶行为结果，相比于传统单模态处理方式，能够获取更加全面的用户信息，更能充分利用异构信息，使得驾驶行为的识别结果更具有可信度和准确度；最后若驾驶行为结果属于危险驾驶行为，则向用户发出警告信息，以达到提示用户安全驾驶的目的。

Description

危险驾驶行为的识别方法、装置、电子设备及存储介质

技术领域

本申请涉及安全驾驶领域，尤其涉及一种危险驾驶行为的识别方法、装置、电子设备及存储介质。

背景技术

醉酒驾驶行为属于抽象危险型驾驶行为，其对人民群众生命和健康造成严重危害，也给社会带来不安定因素。为此，交警通过观察驾驶员的脸部颜色和车辆行事路线，拦截车辆，并结合酒精检测仪检测驾驶员呼出的气体中的酒精含量，判断驾驶员是否酒驾。但是人工拦截检测的方式容易有落网之鱼，所以为了提高交通运输安全，需要更加智能的检测方式。

目前，有相关技术方案在驾驶室安装的酒精浓度检测仪，当酒精浓度检测仪检测到的酒精浓度大于预设值时，警告用户停止驾驶并控制车辆的点火系统。但是由于部分食品也可能存在酒精，或者散发在驾驶室中的酒精较少，无法被检测仪检测到，从而导致酒精浓度检测仪存在误判或漏判的情况。

发明内容

本申请提供了一种危险驾驶行为的识别方法、装置、电子设备及存储介质，以解决现有危险驾驶行为的检测方法存在检测准确率低的技术问题。

为了解决上述技术问题，第一方面，本申请实施例提供了一种危险驾驶行为的识别方法，包括：

获取在驾驶室内用户的视频数据和音频数据；

对视频数据和音频数据进行特征提取，得到多个单模态特征，单模态特征包括微表情特征、动作特征和声音特征；

对多个单模态特征进行特征融合，得到融合特征；

对融合特征进行二分类，得到用户的驾驶行为结果；

若驾驶行为结果属于危险驾驶行为，则向用户发出警告信息。

本实施例通过获取在驾驶室内用户的视频数据和音频数据，以实时监控用户；对视频数据和音频数据进行特征提取，得到多个单模态特征，以提取用户的微表情特征、动作特征和声音特征，从而能够在听觉和视觉上进行模态融合分析；并对多个单模态特征进行特征融合，得到融合特征，以及对融合特征进行二分类，得到用户的驾驶行为结果，相比于传统单模态处理方式，能够获取更加全面的用户信息，更能充分利用异构信息，使得驾驶行为的识别结果更具有可信度和准确度；最后若驾驶行为结果属于危险驾驶行为，则向用户发出警告信息，以达到提示用户安全驾驶的目的。

在一实施例中，对视频数据和音频数据进行特征提取，得到多个单模态特征，包括：

利用预设的第一多层感知机，对视频数据中的视频图像进行特征提取，得到微表情特征；

利用预设的3D卷积神经网络，对视频数据进行特征提取，得到动作特征；

利用预设的openSMILE工具，对音频数据进行特征提取，得到声音特征。

本实施例通过不同网络或工具，分别提取视频数据和音频数据的各个单模态特征，以便于获取全面的用户特征信息，从而提高后续识别过程的识别准确度。

在一优选实施例中，利用预设的第一多层感知机，对视频数据中的视频图像进行特征提取，得到微表情特征，包括：

提取视频数据的每帧视频图像中用户的脸部特征；

利用第一多层感知机，将脸部特征与预设的微表情特征进行对比，确定脸部特征对应的微表情特征。

本实施例通过脸部特征与预设的微表情特征进行对比，以融入特征细节，提高识别准确度和可信度。

在一优选实施例中，利用预设的3D卷积神经网络，对视频数据进行特征提取，得到动作特征，包括：

将视频数据的通道数、帧数、每帧视频图像的高度和宽度输入到3D卷积神经网络；

利用3D卷积神经网络中的3D滤波器，对视频数据进行卷积操作，得到卷积结果数据；

对卷积结果数据进行池化操作和全连接操作，得到动作特征。

本实施例通过3D卷积神经网络进行特征提取，能够得到有时间维度的帧间运动信息，从而能够更好的在时间维度和空间维度上捕获视频数据中的动作特征，使得提取到的动作特征更加全面，进而提高识别准确度和可信度。

在一优选实施例中，利用预设的openSMILE工具，对音频数据进行特征提取，得到声音特征，包括：

去除音频数据的背景噪声，并将去除背景噪声后的音频数据进行标准化，得到目标音频数据；

利用openSMILE工具，对目标音频数据进行特征提取，得到高维音频特征；

将高维音频特征输入到预设的第二多层感知机，输出声音特征。

本实施例通过去噪、标准化、特征提取和感知机降维，能够避免噪声干扰和使特征提取过程的表现更好，整体的处理过程更加高效。

在一实施例中，对多个单模态特征进行特征融合，得到融合特征，包括：

根据Concatenation融合方式，对微表情特征、动作特征和声音特征进行特征拼接，得到融合特征。

在一实施例中，若驾驶行为结果属于危险驾驶行为，则向用户发出警告信息之后，还包括：

将视频数据与音频数据进行时间帧对齐和组合，得到录像数据；

将录像数据和驾驶行为结果发送至预设的监管设备。

本实施例通过将视频数据和音频数据组合为完整录像数据，将录像数据和驾驶行为结果发送监管设备，以便相关监管人员对该驾驶行为结果及时处理，防止危险驾驶行为导致交通事故。

第二方面，本申请实施例提供一种危险驾驶行为的识别装置，包括：

获取模块，用于获取在驾驶室内用户的视频数据和音频数据；

提取模块，用于对视频数据和音频数据进行特征提取，得到多个单模态特征，单模态特征包括微表情特征、动作特征和声音特征；

融合模块，用于对多个单模态特征进行特征融合，得到融合特征；

分类模块，用于对融合特征进行二分类，得到用户的驾驶行为结果；

发出模块，用于若驾驶行为结果属于危险驾驶行为，则向用户发出警告信息。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的危险驾驶行为的识别方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的危险驾驶行为的识别方法。

需要说明的是，上述第二方面至第四方面的有益效果请参见第一方面的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的危险驾驶行为的识别方法的流程示意图；

图2为本申请实施例提供的危险驾驶行为的识别装置的结构示意图；

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如相关技术记载，在驾驶室安装的酒精浓度检测仪，当酒精浓度检测仪检测到的酒精浓度大于预设值时，警告用户停止驾驶并控制车辆的点火系统。但是由于部分食品也可能存在酒精，或者散发在驾驶室中的酒精较少，无法被检测仪检测到，从而导致酒精浓度检测仪存在误判或漏判的情况。

为此，本申请实施例提供一种危险驾驶行为的识别方法、装置、电子设备及存储介质，通过获取在驾驶室内用户的视频数据和音频数据，以实时监控用户；对视频数据和音频数据进行特征提取，得到多个单模态特征，以提取用户的微表情特征、动作特征和声音特征，从而能够在听觉和视觉上进行模态融合分析；并对多个单模态特征进行特征融合，得到融合特征，以及对融合特征进行二分类，得到用户的驾驶行为结果，相比于传统单模态处理方式，能够获取更加全面的用户信息，更能充分利用异构信息，使得驾驶行为的识别结果更具有可信度和准确度；最后若驾驶行为结果属于危险驾驶行为，则向用户发出警告信息，以达到提示用户安全驾驶的目的。

参照图1，图1为本申请实施例提供的一种危险驾驶行为的识别方法的流程示意图。本申请实施例的危险驾驶行为的识别方法可应用于电子设备，该电子设备包括但不限于安装于驾驶室内的智能手机、平板电脑、个人数字助理和车载终端等计算设备。如图1所示，危险驾驶行为的识别方法包括步骤S101至S105，详述如下：

步骤S101，获取在驾驶室内用户的视频数据和音频数据。

在本步骤中，通过电子设备的摄像头采集视频数据，以及通过电子设备的麦克风采集音频数据。可以理解的是，还可以通过酒精浓度检测仪采集酒精浓度数据。

步骤S102，对所述视频数据和所述音频数据进行特征提取，得到多个单模态特征，所述单模态特征包括微表情特征、动作特征和声音特征。

在本步骤中，微表情特征为用户的微表情特征，其包括但不限于疲劳、生气、大哭、困倦和醉酒时的微表情特征；动作特征为用户的肢体动作特征；声音特征为用户的说话时的声音特征。

通过构建最适合数据类型的模型，以用于从各个信息源中提取特征，可以理解，从一个来源提取的特征是独立于另一个来源。例如，在醉酒驾驶图像识别中，从图像中提取的特征是更精细的细节形式，如边缘和环境，而从图片中提取的相应特征是令牌的形式。在从至少两个数据源(比如视频、音频等)中提取出对预测很重要的所有特征之后，将不同的特征组合成一个共享表示。

步骤S103，对多个所述单模态特征进行特征融合，得到融合特征。

在本步骤中，将单模态特征进行融合，相比传统单模态处理，能够获取到更加全面的信息，更能充分利用异构信息，对酒驾行为等危险驾驶行为进行检测分析，并使检测分析结果更加具有可信性和准确性。

步骤S104，对所述融合特征进行二分类，得到所述用户的驾驶行为结果。

在本步骤中，二分类可以基于支持向量机等方式实现，驾驶行为结果包括非危险驾驶行为和危险驾驶行为。

步骤S105，若所述驾驶行为结果属于危险驾驶行为，则向所述用户发出警告信息。

在本步骤中，示例性地，可以通过车载设备向用户发出语音警告信息，也可以通过指示灯向用户发出闪灯警告信息。

在一实施例中，在图1实施例的基础上，上述步骤S102，包括：

利用预设的第一多层感知机，对所述视频数据中的视频图像进行特征提取，得到所述微表情特征；

利用预设的3D卷积神经网络，对所述视频数据进行特征提取，得到所述动作特征；

利用预设的openSMILE工具，对所述音频数据进行特征提取，得到所述声音特征。

在本实施例中，3D-CNN(3D卷积神经网络)是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，以此捕捉动作信息，能更好的捕获视频中的时间和空间的特征信息。

openSMILE工具是以命令行形式运行的工具，通过配置config文件，用于提取音频特征。

可选地，所述利用预设的第一多层感知机，对所述视频数据中的视频图像进行特征提取，得到所述微表情特征，包括：

提取所述视频数据的每帧视频图像中用户的脸部特征；

利用所述第一多层感知机，将所述脸部特征与预设的微表情特征进行对比，确定所述脸部特征对应的微表情特征。

在本实施例中，提前先把面部微表情包含疲劳、困倦、醉酒、生气、大哭等5种面部微表情转成5维的向量编码处理存入特征向量数据库，以用于后续输入驾驶员微表情比对。本实施例通过摄像头捕捉驾驶人微表情图像与特征向量库存入的醉酒、疲劳、困倦等表情数据比对，比中之后得到微表情特征wf。优势是将细节融入，使得驾驶行为检测更加具有说服力。

可选地，所述利用预设的3D卷积神经网络，对所述视频数据进行特征提取，得到所述动作特征，包括：

将所述视频数据的通道数、帧数、每帧视频图像的高度和宽度输入到所述3D卷积神经网络；

利用所述3D卷积神经网络中的3D滤波器，对所述视频数据进行卷积操作，得到卷积结果数据；

对所述卷积结果数据进行池化操作和全连接操作，得到所述动作特征。

在本实施例中，示例性地，视频为v，输入维度为(c，f，h，w)，c为通道数，f为帧数，h和w分别代表每帧的高度和宽度；3D滤波器fl为(fm，c，fd，fh，fw)，fm为feature maps数量，c为通道数，fd为帧数(卷积核的深度)，fh和fw分别代表滤波器的高度和宽度。

利用3D滤波器，对视频数据进行卷积操作，卷积之后的输出维度是(fm，c，f-fd+1，h-fh+1，w-fw+1)。之后使用最大池化(Max pooling)(mp，mp，mp)进行池化，并将池化结果输入到大小为df的全连接层和softmax层，输出动作特征vf。

其中视频数据是RGB三通道，因此c＝3。使用32个feature maps，3D卷积核为fd＝fh＝fw＝5，故fl维度是32×3×5×5×5，最大池化mp为3。最后得到的特征向量vf维度是300。本实施例通过3D-CNN将卷积核可控范围扩大到时域，相对于2D卷积灵活性更高，使用3D-CNN(3D卷积神经网络)提取视频特征，3D-CNN不仅能提取视频的每一帧图像的特征，还能在时间域和空间域上提取整个视频的特征。能学习到更多的运动信息。

可选地，所述利用预设的openSMILE工具，对所述音频数据进行特征提取，得到所述声音特征，包括：

去除所述音频数据的背景噪声，并将去除背景噪声后的音频数据进行标准化，得到目标音频数据；

利用所述openSMILE工具，对所述目标音频数据进行特征提取，得到高维音频特征；

将所述高维音频特征输入到预设的第二多层感知机，输出所述声音特征。

在本实例中，先使用音频工具SoX去除背景噪声，并将去除背景噪声后的音频数据利用Z-standardization进行标准化。标准化后送入openSMILE提取音频特征，得到6373维的音频特征。最后接一个多层感知器得到300维的特征向量af。优势是音频处理效率更高。

其中SoX工具可以读取和写入常见格式的音频文件，并在此过程中选择性的加入一些声音效果。它可以组合多个输入源及合成音效，在许多系统上也可以作为音频播放器或多轨录音机使用。SoX工具处理音频的基本流程包括Input(s)、Combiner、Effects和Output(s)。SoX工具的所有功能都可以通过一个简单的sox命令及相应的选项实现，但它同时提供了play命令用于播放音频文件，rec命令用于录制音频，以及soxi命令用于获取音频的文件头中包含的信息。

在一实施例中，所述对多个所述单模态特征进行特征融合，得到融合特征，包括：

根据Concatenation融合方式，对所述微表情特征、动作特征和声音特征进行特征拼接，得到所述融合特征。

在本实施例中，通过多模态融合处理，以结合来自两个或多个模态的信息预测驾驶行为。本实施例通过Concatenation融合方式，将前述的特征向量af、vf、mf直接进行拼接，得到605维的zf＝[vf；af；wf]向量。相比传统单模态处理，本实施例能够获取更加全面的信息，更能充分利用异构信息，对危险驾驶行为检测分析的结果更加具有可信性和准确性。

在一实施例中，所述若所述驾驶行为结果属于危险驾驶行为，则向所述用户发出警告信息之后，还包括：

将所述视频数据与音频数据进行时间帧对齐和组合，得到录像数据；

将所述录像数据和所述驾驶行为结果发送至预设的监管设备。

在本实施例中，监管设备可以为交通管理部门的监管设备。通过对视频数据和音频数据进行时间帧对齐后进行组合，得到录像数据，保证录像数据的连贯性。通过网络上报驾驶员驾驶情况给相关部门处理。能够做到人性化智能提醒驾驶员，并让相关部门早预知驾驶员的危险行为，以能够及时安排人员提前处理，防止醉酒驾驶等危险事故。

为了执行上述方法实施例对应的危险驾驶行为的识别方法，以实现相应的功能和技术效果。参见图2，图2示出了本申请实施例提供的一种危险驾驶行为的识别装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分，本申请实施例提供的危险驾驶行为的识别装置，包括：

获取模块201，用于获取在驾驶室内用户的视频数据和音频数据；

提取模块202，用于对所述视频数据和所述音频数据进行特征提取，得到多个单模态特征，所述单模态特征包括微表情特征、动作特征和声音特征；

融合模块203，用于对多个所述单模态特征进行特征融合，得到融合特征；

分类模块204，用于对所述融合特征进行二分类，得到所述用户的驾驶行为结果；

发出模块205，用于若所述驾驶行为结果属于危险驾驶行为，则向所述用户发出警告信息。

在一实施例中，所述提取模块202，包括：

第一提取单元，用于利用预设的第一多层感知机，对所述视频数据中的视频图像进行特征提取，得到所述微表情特征；

第二提取单元，用于利用预设的3D卷积神经网络，对所述视频数据进行特征提取，得到所述动作特征；

第三提取单元，用于利用预设的openSMILE工具，对所述音频数据进行特征提取，得到所述声音特征。

在一优选实施例中，所述第一提取单元，包括：

第一提取子单元，用于提取所述视频数据的每帧视频图像中用户的脸部特征；

对比子单元，用于利用所述第一多层感知机，将所述脸部特征与预设的微表情特征进行对比，确定所述脸部特征对应的微表情特征。

在一优选实施例中，所述第二提取单元，包括：

输入子单元，用于将所述视频数据的通道数、帧数、每帧视频图像的高度和宽度输入到所述3D卷积神经网络；

卷积子单元，用于利用所述3D卷积神经网络中的3D滤波器，对所述视频数据进行卷积操作，得到卷积结果数据；

第一输出子单元，用于对所述卷积结果数据进行池化操作和全连接操作，得到所述动作特征。

在一优选实施例中，所述第三提取单元，包括：

去除子单元，用于去除所述音频数据的背景噪声，并将去除背景噪声后的音频数据进行标准化，得到目标音频数据；

第二提取子单元，用于利用所述openSMILE工具，对所述目标音频数据进行特征提取，得到高维音频特征；

第二输出子单元，用于将所述高维音频特征输入到预设的第二多层感知机，输出所述声音特征。

在一实施例中，所述融合模块203，包括：

拼接单元，用于根据Concatenation融合方式，对所述微表情特征、动作特征和声音特征进行特征拼接，得到所述融合特征。

在一实施例中，所述识别装置，还包括：

组合模块，用于将所述视频数据与音频数据进行时间帧对齐和组合，得到录像数据；

发送单元，用于将所述录像数据和所述驾驶行为结果发送至预设的监管设备。

上述的危险驾驶行为的识别装置可实施上述方法实施例的危险驾驶行为的识别方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

图3为本申请一实施例提供的电子设备的结构示意图。如图3所示，该实施例的电子设备3包括：至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32，所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。

所述电子设备3可以是智能手机、平板电脑、车载终端等计算设备。该电子设备可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解，图3仅仅是电子设备3的举例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31在一些实施例中可以是所述电子设备3的内部存储单元，例如电子设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述电子设备3的外部存储设备，例如所述电子设备3上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括所述电子设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

另外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现上述各个方法实施例中的步骤。

在本申请所提供的几个实施例中，可以理解的是，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围。特别指出，对于本领域技术人员来说，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种危险驾驶行为的识别方法，其特征在于，包括：

获取在驾驶室内用户的视频数据和音频数据；

对所述视频数据和所述音频数据进行特征提取，得到多个单模态特征，所述单模态特征包括微表情特征、动作特征和声音特征；

对多个所述单模态特征进行特征融合，得到融合特征；

对所述融合特征进行二分类，得到所述用户的驾驶行为结果；

若所述驾驶行为结果属于危险驾驶行为，则向所述用户发出警告信息；

所述对所述视频数据和所述音频数据进行特征提取，得到多个单模态特征，包括：

所述利用预设的第一多层感知机，对所述视频数据中的视频图像进行特征提取，得到所述微表情特征，包括：

提取所述视频数据的每帧视频图像中用户的脸部特征；

利用所述第一多层感知机，将所述脸部特征与预设的微表情特征进行对比，确定所述脸部特征对应的微表情特征，所述预设的微表情特征以向量编码方式预先存储于特征向量数据库。

2.如权利要求1所述的危险驾驶行为的识别方法，其特征在于，所述对所述视频数据和所述音频数据进行特征提取，得到多个单模态特征，还包括：

3.如权利要求2所述的危险驾驶行为的识别方法，其特征在于，所述利用预设的3D卷积神经网络，对所述视频数据进行特征提取，得到所述动作特征，包括：

4.如权利要求2所述的危险驾驶行为的识别方法，其特征在于，所述利用预设的openSMILE工具，对所述音频数据进行特征提取，得到所述声音特征，包括：

5.如权利要求1所述的危险驾驶行为的识别方法，其特征在于，所述对多个所述单模态特征进行特征融合，得到融合特征，包括：

6.如权利要求1所述的危险驾驶行为的识别方法，其特征在于，所述若所述驾驶行为结果属于危险驾驶行为，则向所述用户发出警告信息之后，还包括：

7.一种危险驾驶行为的识别装置，其特征在于，包括：

提取模块，用于对所述视频数据和所述音频数据进行特征提取，得到多个单模态特征，所述单模态特征包括微表情特征、动作特征和声音特征；

融合模块，用于对多个所述单模态特征进行特征融合，得到融合特征；

分类模块，用于对所述融合特征进行二分类，得到所述用户的驾驶行为结果；

发出模块，用于若所述驾驶行为结果属于危险驾驶行为，则向所述用户发出警告信息；

所述提取模块，包括：

所述第一提取单元，包括：

对比子单元，用于利用所述第一多层感知机，将所述脸部特征与预设的微表情特征进行对比，确定所述脸部特征对应的微表情特征，所述预设的微表情特征以向量编码方式预先存储于特征向量数据库。

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6任一项所述的危险驾驶行为的识别方法。

9.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的危险驾驶行为的识别方法。