CN114663863A

CN114663863A - 图像处理方法、装置、电子设备和计算机存储介质

Info

Publication number: CN114663863A
Application number: CN202210173090.9A
Authority: CN
Inventors: 王珂尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-06-24

Abstract

本公开提供了图像处理方法、装置、电子设备和计算机存储介质，涉及计算机技术领域，尤其涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于智能交通、自动驾驶等场景。具体实现方案为：图像处理方法，包括：根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息；根据预定义的与脸部区域相关的行为信息，获得驾驶状态分析结果；根据预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，获得驾驶行为分析结果；根据驾驶状态分析结果和驾驶行为分析结果，获得驾驶监测结果。本公开实施例有助于提高道路交通的安全性。

Description

图像处理方法、装置、电子设备和计算机存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于智能交通、自动驾驶等场景。

背景技术

随着计算机技术的发展，在人们生活的多种场景，都有计算机技术的参与，这也使得人们衣食住行的方方面面都得到显著的改善。比如在交通场景下，由于电子监控的设置，能够对还原突发事件起到关键作用，保障道路交通参与者们的正当权益的同时，对不安全事件还能够起到广义的预防作用。

同时，在交通场景下，安全始终是首要原则和前提，如何利用计算机技术，进一步改善交通安全性，也是技术发展的大方向。

发明内容

本公开提供了一种图像处理方法、装置、电子设备和计算机存储介质。

根据本公开的一方面，提供了一种图像处理方法，包括：

根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息；

根据预定义的与脸部区域相关的行为信息，获得驾驶状态分析结果；

根据预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，获得驾驶行为分析结果；

根据驾驶状态分析结果和驾驶行为分析结果，获得驾驶监测结果。

根据本公开的另一方面，提供了一种图像处理装置，包括：

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，能够根据待处理图像中的脸部区域，进行驾驶员行为的分析，确定驾驶状态。从而在非正常驾驶的状态下，有利于根据驾驶状态分析结果进行及时必要的调整，也有利于在驾驶结束后对驾驶过程进行客观的评估，对交通场景下的不安全事件能够起到良好的预防或者还原作用。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的图像处理方法示意图；

图2A-2C是根据本公开一示例的人脸转动示意图；

图2D是根据本公开另一实施例的图像处理方法示意图；

图3是根据本公开一示例的图像处理方法示意图；

图4是根据本公开一示例的目标模型结构示意图；

图5是根据本公开又一实施例的图像处理方法示意图；

图6是根据本公开又一实施例的图像处理方法示意图；

图7是根据本公开又一实施例的图像处理方法示意图；

图8是根据本公开另一示例的图像处理方法示意图；

图9是根据本公开又一示例的图像处理方法示意图；

图10是根据本公开一实施例的图像处理装置示意图；

图11是根据本公开另一实施例的图像处理装置示意图；

图12是用来实现本公开实施例的图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

保证交通安全，驾驶员是关键。驾驶员的驾驶状态对交通事故的规避起着决定性的作用。因此，在驾驶、行车场景下，某些状态需要坚决避免，比如疲劳驾驶等危险驾驶行为。而通过本公开的技术，能够利用个人计算机、服务器、移动终端、车载电脑、可穿戴式智能设备等装置，对驾驶状态进行监测，从而在监测到需要注意或避免的危险状态时，能够及时针对监测结果采取规避措施。本公开实施例提供的图像处理方法，如图1所示，包括：

步骤S11：根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息；

步骤S12：根据预定义的与脸部区域相关的行为信息，获得驾驶状态分析结果；

步骤S13：根据预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，获得驾驶行为分析结果；

步骤S14：根据驾驶状态分析结果和驾驶行为分析结果，获得驾驶监测结果。

本实施例中，待处理图像可以是设置于车内、路侧等位置的监控装置拍摄的图像。

待处理图像还可以是设置于车内、路侧等位置的拍摄装置拍摄的视频中的图像帧。

根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，可以是检测预定义的与驾驶员的脸部区域相关、和与驾驶员脸部区域之外的人体部位相关的行为信息。

在一种可能的实现方式中，车辆可能处于自动驾驶的状态。这种情况下，可将处于驾驶位置的人员默认为驾驶员。

在另一种可能的实现方式中，车辆也可能处于远程驾驶的状态。这种情况下，可将远程控制端对应的远程驾驶员的脸部区域的信息，作为待处理图像中需要提取的脸部区域的信息。

在另一种可能的实现方式中，若驾驶员以将头部脱离驾驶空间的方式实行危险驾驶，则可能在待处理图像中难以检测到脸部特征，针对这种情况，若车辆未处于自动驾驶状态，则可根据拍摄装置设置的位置、驾驶位与拍摄装置的相对位置或者待处理图像中车辆角度等信息，确定待处理图像中的默认区域为脸部区域。

在一种可能的实现方式中，提取待处理图像中的脸部区域之前，可先确定目标车辆处于行驶状态。

本实施例中，预定义的与脸部区域相关的行为信息，可以是驾驶员脸部行为信息或从脸部区域能够体现的身体行为信息。比如，驾驶员若与周围人员聊天，可能脸部出现表情、说话等行为信息。再如，驾驶员若弯腰捡拾物品，则可能待处理图像中的脸部区域会存在脸部以及头部的大幅度移动。

本实施例中，预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，均可以为预定义行为信息。比如，驾驶员在车内发生吃东西、喝水、抽烟、捡拾物品、打电话、争夺方向盘等危险行为的情况下，仅凭借脸部动作、不借助身体其它部位的动作无法实现，可将此类行为预定义为与脸部区域之外的身体部位相关的行为。再如，驾驶员在车内发生打盹、走神、激烈的言语争吵的行为时，仅凭借脸部动作即可实现，无需借助脸部之外的身体其它部位的动作，可将此类行为预定义为与脸部区域相关的行为。

本实施例中，根据预定义的与脸部区域相关的行为信息，获得驾驶状态分析结果，可以是根据脸部区域所反应出的驾驶员驾驶状态信息，分析是否存在疲劳驾驶、情绪激动时驾驶等情况。

本实施例中，根据预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，获得驾驶行为分析结果，可以是根据脸部和脸部之外的人体部位反应出的驾驶员驾驶状态信息，分析是否存在与驾驶行为同时执行的吃东西、喝水、打架、抽烟、接电话、玩手机等危险行为等情况。

驾驶监测结果，可以是疲劳驾驶状态分析结果、情绪激动时驾驶、危险驾驶状态分析结果等中的一种，也可以包括是否处于正常驾驶状态的结论。

根据驾驶状态分析结果和驾驶行为分析结果，获得驾驶监测结果，具体可以包括，根据驾驾驶状态分析结果和驾驶行为分析结果是否符合预设的非正常驾驶状态判定条件，获得驾驶状态分析结果。

本实施例中，能够根据待处理图像，进行驾驶员行为和状态的分析，确定驾驶状态。从而在非正常驾驶的状态下，有利于根据驾驶状态分析结果进行及时必要的调整，也有利于在驾驶结束后对驾驶过程进行客观的评估，对交通场景下的不安全事件能够起到良好的事前预防或者事后还原作用。

在一种实施方式中，根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，包括：

根据待处理图像，获得脸部区域信息；

根据脸部区域信息，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息。

本实施例中，获得脸部区域，可以是获得待处理图像中的驾驶员的脸部区域的图像信息，或者提取驾驶员的脸部区域的所有信息。

在一种实施方式中，根据待处理图像，获得脸部区域信息，可以是对待处理图像进行脸部识别，并对识别出的脸部进行判断，获取驾驶员的脸部区域的信息。针对车辆内部的拍摄装置拍摄的待处理图像，可以根据拍摄装置设置的位置、拍摄装置是否归属于驾驶员等信息，在待处理图像中的多个脸部区域中，确定属于驾驶员的脸部区域信息。针对车辆外部的拍摄装置拍摄的待处理图像，可以根据图像中车辆玻璃的位置、拍摄角度等信息，在待处理图像中的多个脸部区域信息中，确定属于驾驶员的脸部区域信息。

本实施例中，预定义的与脸部区域之外的身体部位相关的行为信息即可以为预定义的与驾驶员的脸部区域之外的身体部位相关的行为信息，可以是以预定义方式确定的与驾驶员脸部区域之外的身体部位相关的行为信息。

比如，可以将吃东西、喝水、打电话、抽烟等常见的驾驶过程中的危险行为，预定义为与驾驶员脸部区域之外的身体部位相关的(预定义)行为信息。这些行为的实现虽然需要脸部区域之外的身体部位(比如手部) 的配合，但是仍能够通过脸部区域进行判断。比如，在吃东西、喝水、打电话、抽烟时，脸部区域会存在食物、手机、水、烟等其它物品，从而通过脸部区域即可识别这些行为，无需对驾驶员身体部分进行判断，简化判断过程。

再如，在驾驶员低头找东西或者玩手机的情况下，手臂等身体部分处于移动状态，可将低头预定义为与驾驶员的脸部区域之外的身体部位相关的预定义行为信息。

在一种实现方式中，在预定义的与脸部区域之外的身体部位相关的行为信息存在多种的情况下，第一行为信息可以是多种预定义行为信息之一。

本实施例中，根据第一行为信息，确定驾驶员行为信息，可以是将第一行为信息作为驾驶员行为信息的内容。或者可以是，对第一行为信息进行进一步处理，将处理后的信息作为驾驶员行为信息。

本实施例中，能够通过脸部区域信息，确定与驾驶员脸部之外的身体部位相关，同时又能在脸部区域中体现的预定义行为，从而能够对驾驶过程中可能存在的不安全行为进行更为全面的检测、预防和记录。

本实施例中，预定义的与驾驶员的脸部区域相关的行为，可以是预定义的与驾驶员的脸部区域相关的行为。比如，打哈欠、因为乏困而闭眼等无需驾驶员脸部之外的其它身体部位干预就可发生的行为。

在一种可能的实现方式中，由于驾驶员在疲劳状态下，很可能不会发生大幅度的身体行为，因此，预定义的与驾驶员的脸部区域相关的行为可以包括表示驾驶员处于疲劳状态的行为。而预定义的与驾驶员脸部区域之外的身体部位相关的行为，可以包括表示驾驶员处于危险状态的行为。

在一种实施方式中，根据脸部区域信息，检测预定义的与脸部区域相关的行为信息，包括：

根据脸部区域信息，确定驾驶员脸部在预设三维坐标系中所处的维度信息；

根据维度信息，确定预定义的与脸部区域相关的行为信息。

本实施例中，预设三维坐标系，可以包括预设的X、Y、Z轴对应的范围。预设的X、Y、Z轴可以与驾驶员脸部区域的上下转动方向(即抬头低头方向)、左右转动方向、以及在自然人脸大致平行的平面内的顺时针、逆时针转动方向。如图2A所示，上下转动方向对应于图2A中的P 方向(Pitch)。如图2B所示，左右转动方向对应于图2B中的R方向(Roll)、如图2C所示，在自然人脸大致平行的平面内的顺时针、逆时针转动方向对应于图2C中的Y方向(Yaw)。

在驾驶过程中，如果出现危险驾驶行为或者疲劳驾驶行为，驾驶员整个脸部会存在一定的移动。比如，打盹时可能出现歪头、仰头或者低头等动作，使得脸部随着头部移动。因此通过确定脸部在预设三维坐标系中所处的维度范围，能够有效确定一些危险驾驶行为或者疲劳驾驶行为，有助于为道路交通过程排除安全隐患，以及为已发生的事件进行还原提供客观记录。

在一些实施方式中，根据脸部区域信息，检测预定义的与脸部区域相关的行为信息，包括：

根据脸部区域信息，确定嘴部的开合信息；

根据嘴部的开合信息，确定预定义的与脸部区域相关的行为信息。

在一种可能的实施方式中，根据脸部区域信息，确定嘴部的开合信息，可以是根据脸部区域的图像，确定嘴部开合度，比如开合度为50％、100％等。还可以是根据脸部区域的图像，确定嘴部是否符合预设的开合程度，比如确定嘴部的开合信息为张开或闭合。

在一种可能的实施方式中，根据嘴部的开合信息，确定预定义的与脸部区域相关的行为的检测结果，即可以是确定是否存在预定义的与驾驶员的脸部区域相关的行为，进一步可以是确定嘴部的开合信息是否与预定义的与驾驶员的脸部区域相关的行为相符合。预定义的与驾驶员的脸部区域相关的行为信息，可以对应设置嘴部开合信息。

在另一种可能的实现方式中，根据嘴部的开合信息，确定预定义的与脸部区域相关的行为信息，即可以是确定是否存在预定义的与驾驶员的脸部区域相关的行为信息，进一步可以是结合嘴部开合状况和脸部区域的其它信息，确定与预定义的与驾驶员的脸部区域相关的行为相符合。预定义的与驾驶员的脸部区域相关的行为信息，可以对应设置嘴部开合信息和脸部区域的其它信息。

由于在疲劳、聊天等场景下，驾驶员很可能存在嘴部开合信息异常的现象，比如疲劳状态下打哈欠。通过本实施例提供的方法，能够有效排查这一状况，检测到存在安全隐患的驾驶状态。

根据脸部区域信息，确定眼部的开合信息；

根据眼部的开合信息，确定预定义的与脸部区域相关的行为信息。

在一种实施方式中，确定眼部的开合信息，可以是确定单眼开合信息或者确定双眼开合信息。

在一种可能的实施方式中，根据脸部区域信息，确定眼部的开合信息，可以是根据脸部区域的图像，确定眼部开合度，比如开合度为30％、90％等。还可以是根据脸部区域的图像，确定眼部是否符合预设的开合程度，比如确定眼部的开合信息为张开或闭合。另外，开合信息还可以包括闭合时间，是否属于正常眨眼等。

在一种可能的实施方式中，根据眼部的开合信息，确定预定义的与脸部区域相关的行为的检测结果，即可以是确定是否存在预定义的与驾驶员的脸部区域相关的行为信息，进一步可以是确定眼部的开合状况是否与预定义的与驾驶员的脸部区域相关的行为相符合。预定义的与驾驶员的脸部区域相关的行为信息，可以对应设置眼部开合信息，比如，开合度小于第一阈值、持续时长达到第二阈值即可以判定疲劳驾驶。

在另一种可能的实现方式中，根据眼部的开合信息，确定预定义的与脸部区域相关的行为信息，即可以是确定是否存在预定义的与驾驶员的脸部区域相关的行为信息，进一步可以是结合眼部开合状况和脸部区域的其它信息，确定与预定义的与驾驶员的脸部区域相关的行为信息相符合。预定义的与驾驶员的脸部区域相关的行为信息，可以包括根据眼部开合状况和脸部区域的其它信息确定的驾驶员的行为。

由于在疲劳、聊天等场景下，驾驶员很可能存在眼部开合信息异常的现象，比如疲劳状态下闭眼。通过本实施例提供的方法，能够有效排查这一状况，检测到存在安全隐患的驾驶状态。

在一种实施方式中，根据脸部区域信息，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，如图2D所示，包括：

步骤S21：采用目标模型的特征提取部分，提取脸部区域信息的图像特征；

步骤S22：采用目标模型的预定义行为分析部分，根据图像特征，确定预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息。

在本实施例中，可通过训练后的目标模型对驾驶员行为信息进行分析。

目标模型的结构可以包括特征提取部分和预定义行为分析部分。可将脸部区域的图像输入目标模型的特征提取部分，获得图像特征；图像特征被输入预定义分析部分之后，经过计算和分析，可得到驾驶员行为信息。

在一种实现方式中，可存在多种预定义行为。针对不同种类的预定义行为信息，可采用不同的模型分支进行处理。

比如，预定义行为信息可包括前述实施例中的预定义的与驾驶员脸部区域之外的身体部位相关的行为，以及预定义的与驾驶员的脸部区域相关的行为。则针对预定义的与驾驶员脸部区域之外的身体部位相关的行为，以及预定义的与驾驶员的脸部区域相关的行为，分别采用不同的目标模型的分支进行处理。

具体的，针对不同的预定义行为信息，可共用目标模型的特征提取部分处理脸部区域的图像得到图像特征。在目标模型的预定义行为分析部分，可针对预定义的与驾驶员脸部区域之外的身体部位相关的行为采用第一模型分支进行分析，以及预定义的与驾驶员的脸部区域相关的行为采用第二模型分支进行分析。

如果预定义的与驾驶员脸部区域之外的身体部位相关的行为设置有多种，则可以采用第一模型分支的对应子分支分别处理每个种类。如果预定义的与驾驶员的脸部区域相关的行为设置有多种，则可以采用第二模型分支对应的子分支分别处理每个种类。

本实施例中，利用模型对脸部区域的图像进行处理，确定多中不同的预设行为的判定结果，从而能够提高驾驶监测结果的准确性。

在一种实施方式中，采用目标模型的预定义行为分析部分，根据图像特征，确定预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，包括：

采用预定义行为分析部分的第一分支，根据图像特征，输出预定义的与脸部区域相关的行为信息；

采用预定义行为分析部分的多个第二分支，根据图像特征，输出预定义的与脸部区域之外的身体部位相关的行为信息；每个第二分支对应一种行为信息。

本实施例中，采用不同的模型分支分析不同类别的行为，从而能够对不同分支进行针对不同类别的行为特点的训练，提高目标模型分析图像的准确性。

在本公开一种示例中，基于卷积神经网络执行图像处理，对驾驶员危险驾驶行为检测分为DMS(Driver Monitor System，驾驶员监控系统)检测、睁闭眼检测、张闭嘴检测、人脸姿态检测等四个任务，整个方法流程示意图如图3所示，包括：

步骤S31：通过DMS检测，确定驾驶员是否存在狭义的危险驾驶行为。即通过DMS检测，确定是否存在前述实施例中的第一行为。可以将驾驶员的所有危险驾驶行为分为5类，分别为：无危险行为、打电话、抽烟、吃东西、喝水，分别用数字0-4(或者其它数字)作为各类危险驾驶行为标签。除了狭义的危险驾驶行为之外，本示例对其它广义的危险驾驶行为所包含的内容也可以进行检测。广义的驾驶员危险驾驶行为检测还可以包括疲劳驾驶以及视线检测。

步骤S32：检测是否存在第二行为。

在本示例中，可将睁闭眼行为、张闭嘴行为和人脸姿态行为作为前述实施例中的第二行为。

在睁闭眼检测中，可将眼部状态为睁眼和闭眼两个状态。在张闭嘴检测中，可将张闭嘴为闭嘴和张嘴两个状态；人脸姿态分别为左右或前后转动(Yaw)、脸部平行平面内的转动(Roll，比如歪头)、上下转动(Pitch) 三个维度的角度。准备训练集数据，其中每张用于训练的图像都标注有这四个任务的对应标签。

通过人脸检测模块通过深度学习方法在图像中进行人脸框检测，通过多层(比如六层等)卷积网络基于检测到的人脸框进行人脸基础特征提取，每层卷积网络实现对人脸检测框检测出的脸部区域执行一次图像下采样，基于最后的三层卷积神经网络分别预设置固定数目的不同尺寸人脸锚点框进行人脸检测框回归，最终获得人脸检测结果信息，即人脸框的四个坐标。

根据人脸检测得到的人脸检测框坐标，进行图像预处理。具体的，可以将人脸检测框对应的脸部区域的图像放大数倍(比如2倍)进行裁剪，将裁剪后的图像变换到尺寸为128×128的图像。然后将变换后的图像进行归一化处理，归一化处理的方法是：每个像素的像素值减128再除以256，使每个像素的像素值在[-0.5,0.5]之间。将归一化处理后的图像进行随机数据增强处理。随机增强处理的具体方式可以包括：翻转、平移和增加数据量等中的至少一种。

多任务危险驾驶检测的主网络(即前述实施例的预定义行为分析部分) 可以采用MobileNet(移动网络模型)结构，对图像预处理后的人脸区域图像进行特征提取，在MobileNet倒数第6个卷积层(或者其它数目)开始分出三个支路，这三个支路的卷积层与MobileNet倒数6个卷积层相同，连同MobileNet本身的倒数6个卷积层，共同形成四个支路。分别做睁闭眼检测、张闭嘴检测和人脸姿态检测，通过最后四个支路分别通过全连接层输出危险驾驶行为分类、睁闭眼、张闭嘴和姿态估计的结果，四个支路的处理过程可并行。

步骤S33：根据第一行为和第二行为检测结果，进行综合分析，得到驾驶状态分析结果。

本公开实施例提出一种基于多任务的驾驶员危险驾驶行为或疲劳驾驶行为检测方法，利用multi-task(多任务)的形式，用一个模型完成DMS、疲劳驾驶以及人脸姿态等多个任务，在部署时只用做一次预测即可得到所有行为检测及驾驶员相关属性的数据，大大提高了驾驶员危险驾驶识别的精确度和识别速度。

一般情况下，如果部署多个模型对危险驾驶行为或者疲劳驾驶行为进行检测，则模型的训练和部署过程比较复杂，不适合算力较低的车机系统，本公开实施例利用multi-task的形式，可通过一个目标模型完成DMS、疲劳驾驶以及人脸姿态等多个任务，在部署时只用做一次预测即可得到所有行为检测及驾驶员相关属性的数据，大大提高了驾驶员危险驾驶识别的精确度和识别速度。

考虑到如果将驾驶员危险驾驶或者疲劳驾驶识别作为检测任务，模型体积较大，速度较慢，同时对光照的鲁棒性较差，导致在真实车载场景中识别准确率较低，识别效果不理想。另外目前危险驾驶行为检测都拆分成 DMS、疲劳驾驶检测和视线检测等多个模型，模型训练、部署较为复杂。基于此，本公开示例中提供如图4所示的目标模型。本示例中，目标模型包括脸部检测网络41、图像预处理网络42、MobileNet43，还包括四个分支，每个分支分别包括卷积层44、全连接层45、结果输出层46。其中，卷积层44可以设置多层，比如，从MobileNet43的倒数第N(N≥1)层卷积层开始，复制后续的MobileNet43结构，生成另外三条支路，和 MobileNet43倒数第N(N≥1)层卷积层开始的支路一共构成四条支路。

在获得待处理图像之后，可以将待处理图像输入脸部检测网络41，通过脸部检测网络检测脸部区域，通过图像预处理网络42根据脸部区域生成图像特征，将图像特征输入MobileNet43，后续分别根据四个分支，输出对四中类型的行为的分析结果，分析结果比如可包括睁闭眼结果、张闭嘴结果、DMS结果和人脸姿态结果，根据四种结果，进一步获得驾驶状态分析结果。

在本示例中，能够对四种结果进行融合，从而最终的分析结果能够结合四种结果中可能存在的相关联的信息，比如，睁闭眼结果并不一定与危险的驾驶状态相关，可能是正常眨眼。可在闭眼状态下，结合其它三种结果进行综合判断，确定是否处于危险的驾驶状态。

根据待处理图像，确定脸部的目标部位区域，可以是在确定脸部区域之后，基于脸部区域确定目标部位区域。也可以是同时以脸部和目标部位作为识别对象，确定脸部区域和目标部位区域。

根据脸部区域信息，确定脸部的目标部位区域；

根据目标部位区域，确定预定义的与脸部区域相关的行为信息。

根据目标部位区域，确定预定义的与脸部区域相关的行为信息，可以是将脸部区域及目标部位区域进行合并，基于合并后的信息获得驾驶状态分析结果。也可以是在分析脸部区域时，加重目标部位区域的权重，获得驾驶状态分析结果。还可以是分别很对脸部区域和目标部位区域进行分析，获得驾驶状态分析结果。也可以是仅根据目标部位区域，确定预定义的与脸部区域相关的行为信息。

本实施例中，能够根据待处理图像中的脸部区域和脸部的目标部位的区域进行分析，从而能够提高驾驶状态分析的准确性。

在一种实施方式中，如图5所示，根据脸部区域信息，确定脸部的目标部位区域，包括：

步骤S51：根据脸部区域信息，确定第一目标部位特征点；

步骤S52：将第一目标部位特征点转移至第一向量空间，得到第二目标部位特征点；

步骤S53：根据第二目标部位特征点，获得目标部位区域。

本实施例中，第一目标部位特征点可以包括第二目标部位特征点。比如，第一目标部位特征点为一个较大范围的目标部位的特征点，通过对较大范围的目标部位的特征点进行确定，得到较小范围的目标部位的特征点。

比如，第一目标部位特征点可以是脸部的全部特征点。第二目标部位特征点可以是眉毛特征点。可通过脸部的全部特征点得到眉毛特征点，进而得到眉毛对应的区域。

再如，第一目标部位特征点可以是脸部的全部特征点。第二目标部位特征点可以是嘴部特征点。可通过脸部的全部特征点得到嘴部特征点，进而得到嘴部对应的区域。

本公开实施例中，通过大范围的目标部位特征点得到小范围的目标部位特征点，从而能够准确检测出目标部位区域。

在一种实施方式中，目标部位区域为目标部位所在的区域，目标部位包括嘴部、眼部和全脸中的至少一个。

本实施例中，通过对嘴部、眼部和全脸进行检测，能够提高驾驶状态分析的准确性。

在一种实施方式中，在目标部位为眼部的情况下，眼部包括左眼和右眼；根据目标部位区域，确定预定义的与脸部区域相关的行为信息，包括：

将左眼的目标部位区域和右眼的目标部位区域进行重叠，获得综合区域；

根据综合区域，确定预定义的与脸部区域相关的行为信息。

本实施例中，综合区域可以是图像中的区域重叠构成的图像，或者根据区域划分出的子图像重叠构成的图像。

将左眼的目标部位区域和右眼的目标部位区域进行重叠，获得综合区域，可以是将左眼对应的图像区域和右眼对应的图像区域进行重叠，获得综合区域。

本实施例中，可以根据目标模型的任意至少一个分支的输出结果，获得驾驶状态分析结果。

在另一种可能的实现方式中，在目标区域为眼部的情况下，眼部包括至少一只眼睛。根据目标部位区域，获得第二驾驶状态分析结果，可以包括根据至少一只眼睛对应的区域，获得第二驾驶状态分析结果。

本实施例中，能够将左右眼区域进行重叠后分析，从而能够充分获得左眼信息和右眼信息，提高驾驶状态分析的准确性。

在一种实施方式中，如图6所示，在目标部位包括全脸的情况下，根据目标部位区域，确定预定义的与脸部区域相关的行为信息，包括：

步骤S61：根据全脸的关键点信息，确定预定义的与脸部区域相关的第一行为信息；

步骤S62：根据全脸的图像特征信息，确定预定义的与脸部区域相关的第二行为信息；

步骤S63：根据第一行为信息和第二行为信息，确定预定义的与脸部区域相关的行为信息。

本实施例中，可以通过嘴部和全脸的关键点，获得第二驾驶状态分析结果，从而能够在分析过程中充分考虑反应驾驶状态的脸部信息，提高分析准确性。

在一种实施方式中，如图7所示，根据待处理图像，获得脸部区域信息，包括：

步骤S71：在待处理图像中，确定第一人脸框；

步骤S72：在第一人脸框对应的区域，确定人脸特征点；

步骤S73：根据人脸特征点，确定第二人脸框；

步骤S74：将第二人脸框对应的区域信息作为脸部区域信息。

本实施例中，在待处理图像中，确定第一人脸框，可以是在待处理图像中进行人脸检测，生成至少一个人脸框，从至少一个人脸框中确定驾驶员对应的人脸框，作为第一人脸框。

在另一种可能的实现方式中，在待处理图像中，确定第一人脸框，可以是在待处理图像中进行人脸检测，在检测不到人脸的情况下，根据待处理图像获取装置设置的位置与驾驶位的位置的相对关系，或者根据待处理图像中的车辆位姿与驾驶员脸部图像可能存在的位置的相对关系，确定一个预估区域作为脸部区域。

在第一人脸框对应的区域，确定人脸特征点，可以是在第一人脸框对应的待处理图像的区域中，进行人脸特征点检测，确定至少一个人脸特征点。

根据人脸特征点，确定第二人脸框，可以是根据人脸特征点重新生成人脸框，作为第二人脸框。

本实施例中，首先生成第一人脸框，再根据第一人脸框确定人脸特征点，根据人脸特征点生成第二人脸框，根据第二人脸框得到脸部区域，从而提高获取的脸部区域的准确性。

在本公开一种示例中，图像处理方法如图8所示。对每张待处理图像 81进行图像预处理，首先得到一张包含人脸的人脸图像，通过检测模型对人脸进行检测，得到人脸的大致位置区域；其中，检测模型为已有人脸检测模型，可以通过人脸检测检测到人脸位置。

其次根据检测到的脸部区域，通过人脸关键点检测模型执行人脸关键检测，得到人脸的关键点坐标值；其中，人脸关键点检测模型为已有模型，调用已有模型，输入已检测到人脸的待处理图像，得到72(或者其它数目) 个人脸关键点坐标，分别为(x₁,y₁)…(x₇₂,y₇₂)。根据然后根据人脸的关键点坐标值对目标人脸进行人脸对齐得到人脸图像。具体做法为，根据72个人脸关键点坐标得到x和y的最大最小值x_min、x_max、y_min、y_max，根据最大最小值可以确定一个人脸框，然后用此人脸框截取人脸图像，并调整尺寸为224×224。

将得到的包含人脸图像区域进行图像归一化处理。本实施例中，图像归一化处理，是图像中的每一个像素依次进行归一化处理，归一化处理的方法是：每个像素的像素值减128再除以256，使每个像素的像素值在[-0.5, 0.5]之间。将归一化处理后的图像进行随机数据增强处理。

根据人脸关键点找出左眼的眼角坐标(x₁₃,y₁₃)(x₁₇,y₁₇)求出左右眼角的距离L1和眼睛的中心点C1，求得仿射变换矩阵M1，根据仿射变换将原图仿射变换到尺寸为56×36的只有眼睛的图像；右眼的眼角坐标(x30,y30) (x34,y34)求出眼角的距离L2和眼睛的中心点C2，求得仿射变换矩阵M2，根据仿射变换将原图仿射变换到尺寸为56×36的只有眼睛的图像。从而实现在原图中提取出双眼区域82。

根据人脸关键点找出两个嘴角坐标(x₅₈,y₅₈)(x₆₂,y₆₂)求出两个嘴角的距离 L₃和嘴巴的中心点C₃，求得仿射变换矩阵M₃，根据仿射变换将原图仿射变换到尺寸为110×56的只有嘴巴区域83。

本公开示例中多任务卷积神经网络的主网络用的是VGG11结构，输入为整张脸部区域对应的图像；睁闭眼张闭嘴模型卷积神经网络用的是5(或者其它数量)层卷积层+3(或者其它数量)层池化层的朴素卷积神经网络结构 (mobilenet)。同时，对整个人脸区域，采用人脸关键点模型进行检测，和VGG11网络并行输出检测结果。

考虑到双眼区域和嘴部区域的图像本身小于脸部区域的图像，其中睁闭眼模型输入为双眼区域图像的叠加，张闭嘴模型输入为嘴部区域图像；关键点疲劳检测模型用的是多个全连接层的叠加。本示例中，在训练时分别对四个任务进行是否为疲劳驾驶2分类监督(闭眼和张嘴判定为疲劳驾驶)，同时将四个模型的全连接层进行融合，融合方式为concat(合并函数)，再对融合的向量进行2分类监督。在预测时只需要用融合输出二分类结果即可。

上述示例通过multi-task(多任务)卷积神经网络的方法，对图像中驾驶员全脸、眼睛区域、嘴巴区域和人脸关键点进行多任务训练，基于全脸的疲劳检测、睁闭眼检测、张闭嘴检测和基于人脸关键点的疲劳检测四个任务同时进行监督，用一个模型即可综合判断驾驶员是否有疲劳驾驶情况，大大提升模型的准确率和鲁棒性。

在一种实施方式中，根据待处理图像，检测预定义的与脸部区域之外的人体部位相关的行为信息，包括：

对待处理图像进行身体检测，获得待处理图像中的目标身体区域；

根据目标身体区域确定理论手部区域；

根据理论手部区域和实际手部区域，确定预定义的与脸部区域之外的人体部位相关的行为信息；实际手部区域为对待处理图像执行手部对应目标检测得到的。

在一种实施方式中，对待处理图像进行身体检测，可以是待处理图像进行身体识别，获得待处理图像中的所有的身体。本实施例中的身体，可以包括人体，也可以包含其它生物的身体，也可以包含人造智能人体。在待处理图像中存在多个身体区域的情况下，可从多个身体区域中，确定交通工具操作人员对应的身体区域，作为目标身体区域。

在另一种可能的实现方式中，若驾驶员以将头部脱离驾驶空间的方式实行危险驾驶，则可能在待处理图像中难以检测到完整的身体区域，针对这种情况，若车辆未处于自动驾驶状态，则可根据拍摄装置设置的位置、驾驶位与拍摄装置的相对位置或者待处理图像中车辆角度等信息，确定待处理图像中的默认区域为目标身体区域。

根据目标身体区域确定理论手部区域，可以是将属于目标身体区域在正确的驾驶操作下手部所应当处于的区域，作为理论手部区域。针对每一个人体、生物身体、人工智能身体，均存在对应的“手部”，比如，针对人体，在小臂末端对应的部位为手部；在人工智能身体的机械臂末端对应的部位为手部。

在一种可能的实现方式中，理论手部区域应当为，驾驶员手部应当存在的区域，或者在当前的目标身体区域的检测结果下，正确驾驶时交通工具操作人员的手部应当存在的区域。

比如，待处理图像为交通工具内部驾驶区域的图像，其中包含一个身体区域，该身体区域与预设的驾驶位置所对应的身体区域位置一致。则根据目标身体区域，确定正常驾驶的状态下手部应当所处的区域，作为手部区域。

本实施例中，理论手部区域可以包括左右手可能所在的区域。

在另一种可能的实现方式中，还可以根据车辆的行进状态，比如直线行驶、转弯等，根据目标身体区域确定不同范围的理论手部区域。

根据理论手部区域，生成驾驶状态判断结果，可以是判断理论手部区域中是否存在实际的手部，生成是否为正常驾驶或者异常驾驶的判断结果。

本实施例中，能够根据理论手部区域，确定驾驶状态，从而在道路交通过程中存在危险驾驶、疲劳驾驶等安全隐患的情况下，能够根据驾驶状态判断结果及时发送提醒信息，避免交通事故。

在一种实施方式中，根据理论手部区域，确定预定义的与脸部区域之外的人体部位相关的行为信息，包括：

对待处理图像进行手部检测，确定理论手部区域中的实际手部存在状况信息；

根据实际手部存在状况信息，确定预定义的与脸部区域之外的人体部位相关的行为信息。

在另一种可能的实现方式中，确定理论手部区域中的实际手部存在状况信息，可以是确定左右手对应的理论手部区域是否均存在实际手部。在左右手之一对应的理论手部区域中存在实际手部的情况下，可确定理论手部区域中不存在实际手部，或者也可以在左右手之一对应的理论手部区域中存在实际手部的情况下，即确定理论手部区域中存在实际手部。

如果理论手部区域中不存在真实手部，则可能驾驶员的手部区域未处于正确驾驶过程中所应当处于的区域。

根据实际手部存在状况信息，生成驾驶状态判断结果，可以是在理论手部区域中不存在真实手部的情况下，生成驾驶状态异常的判断结果；也可以是在理论手部区域中存在真实手部的情况下，生成驾驶状态正常的判断结果。

在一种实施方式中，确定理论手部区域中的实际手部存在状况信息，包括：

对待处理图像进行手部检测，获得待处理图像中的实际手部区域；

根据实际手部区域与理论手部区域的重叠情况，生成实际手部存在状况信息。

对待处理图像进行手部检测，可以是直接通过目标检测的方式，对待处理图像进行手部检测。比如，在待处理图像中检测手部框，确定手部框对应的手部为待处理图像中的实际手部区域。

实际手部区域与理论手部区域的重叠情况，可以是实际手部区域与理论手部区域面积重叠的情况，或者是实际手部的姿态与理论手部的姿态重叠的情况。

根据实际手部区域与理论手部区域的重叠情况，生成实际手部存在状况信息，可以包括根据实际手部区域与理论手部区域的重叠比例是否达到设定阈值，生成实际手部存在与否的信息。根据实际手部区域与理论手部区域的重叠情况，生成实际手部存在状况信息，还可以包括根据实际手部区域与理论手部区域的一致性情况，生成实际手部是否存在的信息。

本实施例中，根据理论手部区域和实际手部区域的重叠情况，生成实际手部存在状况信息，可以包括根据实际手部区域是否归属于交通工具操作人员，如果不归属，则生成实际手部存在但不一致的判断信息。

或者，在另一种可能的实现方式中，根据实际手部区域与理论手部区域的重叠情况，生成实际手部存在状况信息，还可以包括根据实际手部区域与理论手部区域的归属状况的一致性，生成实际手部存在状况信息，比如，若实际手部区域与理论手部区域面积重叠，但从位姿方面判断不属于同一个身体，则也可生成不存在实际手部的实际手部状况信息。

或者，在另一种可能的实现方式中，根据实际手部区域与理论手部区域的重叠情况，生成实际手部存在状况信息，还可以包括根据双手的实际手部区域与理论手部区域的归属状况的一致性，确定实际手部存在状况信息。即，在双手的实际手部区域与双手的理论手部区域重叠的情况下，生成指示存在实际手部的手部存在状况信息。

本实施例中，能够根据实际手部存在状况信息，生成驾驶状态判断结果，从而能提高驾驶状态判断的准确性，有利于及时对可能存在的安全隐患进行预警，提高道路交通的安全性。

在一种实施方式中，对待处理图像进行身体检测，获得待处理图像中的目标身体区域，包括：

确定待处理图像中的身体特征点；

根据身体特征点，确定待处理图像中的实际身体区域；

根据实际身体区域，确定目标身体区域。

本实施例中，可以根据人体识别方法，确定待处理图像中的身体特征点。通过身体特征点，可以确定至少一个实际身体区域，其中可以包括驾驶员的身体区域或者其他人员的身体区域。

根据实际身体区域，确定目标身体区域，可以是在实际身体区域存在多个的情况下，从多个实际身体区域中确定最为可能是交通工具操作者的身体区域作为目标身体区域。

本实施例中，能够确定实际身体区域，将其中一个实际身体区域作为目标身体区域，从而能够根据身体区域的实际存在状况，确定理论手部区域，使得理论手部区域的判定能够与身体区域、驾驶操作的规范相结合，提高理论手部区域划分的准确性，进而提高驾驶状态判断的准确性。

在一种实施方式中，根据理论手部区域，生成驾驶状态判断结果，包括：

在理论手部区域中存在实际手部的情况下，确定理论手部区域与待处理图像中的目标物体之间的关系；

根据理论手部区域与目标物体之间的关系，生成驾驶状态判断结果。

本实施例中，目标物体可以是待处理图像中检测得到的预设种类的物体，比如，香烟、水杯、实物、电话、手机、电脑、游戏机、音视频播放器等等在正常驾驶过程中不允许手持的常见物品。目标物体也可以是待处理图像中检测到的方向盘等正常驾驶过程中允许手持的常见物品。

理论手部区域与待处理图像中的目标物体之间的关系，可以是理论手部区域与目标物体仅是拍摄时的视线重叠导致的遮挡关系；还可以是手部区域持有目标物体的关系，比如手持电话进行通话、手拿水杯进行喝水；还可以是手部区域在未持有的状态下使用的关系，比如将平板电脑或手机放置在置物架等位置处进行触控。

本实施例这种，能够在理论手部区域中存在实际手部的情况下，确定理论手部区域与待处理图像中的目标物体之间的关系，并据此生成驾驶状态判断结果，从而对手持电话、水杯、食物、方向盘等目标物体的驾驶状态进行准确的判断。

在一种实施方式中，目标物体包括第一目标物体；根据理论手部区域与目标物体之间的关系，确定预定义的与脸部区域之外的人体部位相关的行为信息，包括：

在理论手部区域与目标物体之间的关系表示，理论手部区域中的实际手部持有第一目标物体的情况下，确定预定义的与脸部区域之外的人体部位相关的行为信息包括：存在预定义的与手部相关的危险驾驶行为信息。

本实施例中，第一目标物体可以是预设的可能导致危险驾驶的目标物体，比如，烟、饮料、水杯、食物、电话、电脑、游戏机等等。

本实施例中，能够针对第一目标物体进行检测和判断，从而对与第一目标物体相关的危险驾驶的驾驶状态进行及时的检测，避免危险驾驶导致的安全隐患。

在一种实施方式中，目标物体包括第二目标物体；根据理论手部区域与目标物体之间的关系，生成驾驶状态判断结果，包括：

在理论手部区域与目标物体之间的关系表示，理论手部区域中的实际手部持有第二目标物体的情况下，生成非危险驾驶的驾驶状态判断结果。

本实施例中，第二目标物体可以是方向盘等正常驾驶状态下可能手持的物体，也可以是正常驾驶状态下允许手持的物体。

本实施例中，针对可能不具有危险性的第二目标物体，能够生成相应的非危险驾驶的驾驶状态判断结果，从而实现对正常驾驶状态的确认和预防性监测。

本公开示例中，危险驾驶的驾驶状态判断结果中可以用于指示驾驶过程中存在危险驾驶行为。危险驾驶行为指的是驾驶员在驾驶过程中进行的，如抽烟、打电话、看手机、吃东西、喝水等危险驾驶的行为。

在一种可能的实现方式中，在理论手部区域中存在实际手部的情况下，理论手部区域若与任何目标物体都不存在关联关系，可确定手部未持有物体。可根据预先设置，得出正常驾驶的驾驶状态检测结果或者不确定驾驶状态的驾驶状态检测结果。

本公开实施例提出一种基于人体与手部检测的驾驶员危险驾驶行为检测方法，先对驾驶员人体进行检测，在对图像中手部进行检测，只有当驾驶员人体关键点中双手关键点与检测到的双手区域重合才认为检测到的手是驾驶员的手，以避免车上其他人的手对危险驾驶行为检测算法的干扰，然后对驾驶员双手手部检测框通过卷积神经网络进行分类，实时的识别出驾驶员是否有危险驾驶行为，大大提高了驾驶员危险驾驶识别的精确度和识别速度。

本公开可应用在辅助驾驶、驾驶员危险驾驶行为识别、DMS(Driver MonitorSystem，驾驶员监控系统)等领域。

本公开一种示例图像处理方法，基于卷积神经网络，由人体关键点检测、手部检测和基于手部检测的危险驾驶分类模块组成，整个方法流程示意图如图9所示。

定义驾驶员手持物品分为6类分别为，无物品、方向盘、电话、烟、食物、水杯，分别用数字0-5表示各类危险驾驶行为标签。

参照图9，首先得到一张车载摄像头拍摄到的车载图像91，首先可以用人体关键点模型得到图像中所有人的人体关键点92，图像中可能包含多个人，所以可以基于人体关键点可以确定一个人体框，由于车载摄像头一般正对驾驶员，基于此可以确定人体框最大的为驾驶员。

仍然参照图9，在本示例中，可以将驾驶员的人体框93从原图中截取下来，然后对截取下来的图进行手部检测94，在检测到手部之后，判断手部数量。若检测到手部的数量＜2，则判断为驾驶员危险驾驶；若检测到手部的数量≥2，则将手部与驾驶员匹配确认，具体做法为如果人体关键点中双手手部的关键点在检测框内，则匹配成功。此步骤是为了避免乘客的手部出现在驾驶员图像区域对算法造成干扰。

驾驶员手部匹配成功后，将双手的手部框截取下来，进行图像预处理。具体的，将检测框放大2倍进行裁剪，将裁剪后的图像变换到尺寸为 128x128的图像。然后将变换后的图像进行归一化处理，使每个像素的像素值在[-0.5,0.5]之间。

仍然参照图9，驾驶员危险驾驶行为分类模块通过8层卷积层和5层池化层组成的卷积神经网络95(可以是移动网络MobileNet等任意卷积神经网络)对图像预处理后的人脸区域图像进行特征提取，最后通过全连接层输出危险驾驶状态分析结果96，具体可以包括行为分类结果。将双手截取的图像分别输入到卷积神经网络中，当且仅当双手图像分类均为方向盘时，即双手均在方向盘上判断为安全驾驶，其他行为均为危险驾驶。

本公开实施例还提供一种图像处理装置，如图10所示，包括：

预定义行为检测模块101，用于根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息；

驾驶状态分析模块102，用于根据预定义的与脸部区域相关的行为信息，获得驾驶状态分析结果；

驾驶行为分析模块103，用于根据预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，获得驾驶行为分析结果；

结果模块104，用于根据驾驶状态分析结果和驾驶行为分析结果，获得驾驶监测结果。

在一种实施方式中，如图11所示，预定义行为检测模块包括：

脸部区域获得单元111，用于根据待处理图像，获得脸部区域信息；

脸部区域分析单元112，用于根据脸部区域信息，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息。

在一种实施方式中，脸部区域分析单元还用于：

根据维度信息，确定预定义的与脸部区域相关的行为信息。

在一种实施方式中，脸部区域分析单元还用于：

根据脸部区域信息，确定嘴部的开合信息；

在一种实施方式中，脸部区域分析单元还用于：

根据脸部区域信息，确定眼部的开合信息；

在一种实施方式中，脸部区域分析单元还用于：

采用目标模型的特征提取部分，获得脸部区域信息相关的图像特征；

采用目标模型的预定义行为分析部分，根据图像特征，确定预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息。

在一种实施方式中，脸部区域分析单元还用于：

采用预定义行为分析部分的第一分支，根据图像特征，输出与预定义的与脸部区域相关的行为信息；

在一种实施方式中，脸部区域分析单元还用于：

根据脸部区域信息，确定脸部的目标部位区域；

在一种实施方式中，脸部区域分析单元还用于：

根据脸部区域，确定第一目标部位特征点；

将第一目标部位特征点转移至第一向量空间，得到第二目标部位特征点；

根据第二目标部位特征点，获得目标部位区域。

在一种实施方式中，在目标部位为眼部的情况下，眼部包括左眼和右眼；脸部区域分析单元还用于：

根据综合区域，确定预定义的与脸部区域相关的行为信息。

在一种实施方式中，在目标部位包括全脸的情况下，脸部区域分析单元还用于：

根据全脸的关键点信息，确定预定义的与脸部区域相关的第一行为信息；

根据全脸的图像特征信息，确定预定义的与脸部区域相关的第二行为信息；

根据第一行为信息和第二行为信息，确定预定义的与脸部区域相关的行为信息。

在一种实施方式中，脸部区域获得单元还用于：

在待处理图像中，确定第一人脸框；

在第一人脸框对应的区域，确定人脸特征点；

根据人脸特征点，确定第二人脸框；

将第二人脸框对应的区域信息作为脸部区域信息。

本公开实施例可应用于计算机技术领域，尤其可应用于人工智能技术领域，具体为深度学习、计算机视觉技术领域，可实施于智能交通、自动驾驶等场景。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备120的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备120包括计算单元121，其可以根据存储在只读存储器(ROM)122中的计算机程序或者从存储单元128加载到随机访问存储器(RAM)123中的计算机程序，来执行各种适当的动作和处理。在 RAM 123中，还可存储设备120操作所需的各种程序和数据。计算单元 121、ROM 122以及RAM 123通过总线124彼此相连。输入/输出(I/O) 接口125也连接至总线124。

设备120中的多个部件连接至I/O接口125，包括：输入单元126，例如键盘、鼠标等；输出单元127，例如各种类型的显示器、扬声器等；存储单元128，例如磁盘、光盘等；以及通信单元129，例如网卡、调制解调器、无线通信收发机等。通信单元129允许设备120通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元121可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元121的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元121执行上文所描述的各个方法和处理，例如图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元 128。在一些实施例中，计算机程序的部分或者全部可以经由ROM 122和 /或通信单元129而被载入和/或安装到设备120上。当计算机程序加载到 RAM 123并由计算单元121执行时，可以执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元121可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

根据所述预定义的与脸部区域相关的行为信息，获得驾驶状态分析结果；

根据所述预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，获得驾驶行为分析结果；

根据所述驾驶状态分析结果和所述驾驶行为分析结果，获得驾驶监测结果。

2.根据权利要求1所述的方法，其中，所述根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，包括：

根据所述待处理图像，获得脸部区域信息；

根据所述脸部区域信息，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息。

3.根据权利要求2所述的方法，其中，所述根据所述脸部区域信息，检测预定义的与脸部区域相关的行为信息，包括：

根据所述脸部区域信息，确定驾驶员脸部在预设三维坐标系中所处的维度信息；

根据所述维度信息，确定所述预定义的与所述脸部区域相关的行为信息。

4.根据权利要求2或3所述的方法，其中，所述根据所述脸部区域信息，检测所述预定义的与所述脸部区域相关的行为信息，包括：

根据所述脸部区域信息，确定嘴部的开合信息；

根据所述嘴部的开合信息，确定所述预定义的与所述脸部区域相关的行为信息。

5.根据权利要求2-4中任意一项所述的方法，其中，所述根据所述脸部区域信息，检测所述预定义的与所述脸部区域相关的行为信息，包括：

根据所述脸部区域信息，确定眼部的开合信息；

根据所述眼部的开合信息，确定所述预定义的与所述脸部区域相关的行为信息。

6.根据权利要求2所述的方法，其中，所述根据所述脸部区域信息，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，包括：

采用目标模型的特征提取部分，获得所述脸部区域信息相关的图像特征；

采用所述目标模型的预定义行为分析部分，根据所述图像特征，确定预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息。

7.根据权利要求6所述的方法，其中，所述采用所述目标模型的预定义行为分析部分，根据所述图像特征，确定预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，包括：

采用所述预定义行为分析部分的第一分支，根据所述图像特征，输出与所述预定义的与所述脸部区域相关的行为信息；

采用所述预定义行为分析部分的多个第二分支，根据所述图像特征，输出所述预定义的与所述脸部区域之外的身体部位相关的行为信息；每个所述第二分支对应一种所述行为信息。

8.根据权利要求2所述的方法，其中，所述根据所述脸部区域信息，检测预定义的与脸部区域相关的行为信息，包括：

根据脸部区域信息，确定脸部的目标部位区域；

根据所述目标部位区域，确定预定义的与脸部区域相关的行为信息。

9.根据权利要求8所述的方法，其中，所述根据脸部区域信息，确定脸部的目标部位区域，包括：

根据所述脸部区域信息，确定第一目标部位特征点；

将所述第一目标部位特征点转移至第一向量空间，得到第二目标部位特征点；

根据所述第二目标部位特征点，获得所述目标部位区域。

10.根据权利要求8或9所述的方法，其中，所述目标部位区域为目标部位所在的区域，所述目标部位包括嘴部、眼部和全脸中的至少一个。

11.根据权利要求10所述的方法，其中，在所述目标部位为眼部的情况下，所述眼部包括左眼和右眼；所述根据所述目标部位区域，确定预定义的与脸部区域相关的行为信息，包括：

将所述左眼的目标部位区域和所述右眼的目标部位区域进行重叠，获得综合区域；

根据所述综合区域，确定预定义的与脸部区域相关的行为信息。

12.根据权利要求10或11所述的方法，其中，在所述目标部位包括全脸的情况下，所述根据所述目标部位区域，确定预定义的与脸部区域相关的行为信息，包括：

根据所述全脸的关键点信息，确定预定义的与脸部区域相关的第一行为信息；

根据所述全脸的图像特征信息，确定预定义的与脸部区域相关的第二行为信息；

根据所述第一行为信息和所述第二行为信息，确定预定义的与脸部区域相关的行为信息。

13.根据权利要求2-12中任意一项所述的方法，其中，所述根据所述待处理图像，获得脸部区域信息，包括：

在所述待处理图像中，确定第一人脸框；

在所述第一人脸框对应的区域，确定人脸特征点；

根据所述人脸特征点，确定第二人脸框；

将所述第二人脸框对应的区域信息作为所述脸部区域信息。

14.一种图像处理装置，包括：

预定义行为检测模块，用于根据待处理图像，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息；

驾驶状态分析模块，用于根据所述预定义的与脸部区域相关的行为信息，获得驾驶状态分析结果；

驾驶行为分析模块，用于根据所述预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息，获得驾驶行为分析结果；

结果模块，用于根据所述驾驶状态分析结果和所述驾驶行为分析结果，获得驾驶监测结果。

15.根据权利要求14所述的装置，其中，所述预定义行为检测模块包括：

脸部区域获得单元，用于根据所述待处理图像，获得脸部区域信息；

脸部区域分析单元，用于根据所述脸部区域信息，检测预定义的与脸部区域相关的行为信息，和预定义的与脸部区域之外的人体部位相关的行为信息。

16.根据权利要求15所述的装置，其中，所述脸部区域分析单元还用于：

17.根据权利要求15或16所述的装置，其中，所述脸部区域分析单元还用于：

根据所述脸部区域信息，确定嘴部的开合信息；

18.根据权利要求15-17中任意一项所述的装置，其中，所述脸部区域分析单元还用于：

根据所述脸部区域信息，确定眼部的开合信息；

19.根据权利要求15所述的装置，其中，所述脸部区域分析单元还用于：

20.根据权利要求19所述的装置，其中，所述脸部区域分析单元还用于：

21.根据权利要求15所述的装置，其中，所述脸部区域分析单元还用于：

根据脸部区域信息，确定脸部的目标部位区域；

22.根据权利要求21所述的装置，其中，所述脸部区域分析单元还用于：

根据所述脸部区域信息，确定第一目标部位特征点；

根据所述第二目标部位特征点，获得所述目标部位区域。

23.根据权利要求21或22所述的装置，其中，所述目标部位区域为目标部位所在的区域，所述目标部位包括嘴部、眼部和全脸中的至少一个。

24.根据权利要求23所述的装置，其中，在所述目标部位为眼部的情况下，所述眼部包括左眼和右眼；所述脸部区域分析单元还用于：

25.根据权利要求23或24所述的装置，其中，在所述目标部位包括全脸的情况下，所述脸部区域分析单元还用于：

26.根据权利要求15-25中任意一项所述的装置，其中，所述脸部区域获得单元还用于：

在所述待处理图像中，确定第一人脸框；

在所述第一人脸框对应的区域，确定人脸特征点；

根据所述人脸特征点，确定第二人脸框；

将所述第二人脸框对应的区域信息作为所述脸部区域信息。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。