CN113920555A

CN113920555A - 脸部器官的状态和眨眼的检测方法、网络训练方法及装置

Info

Publication number: CN113920555A
Application number: CN202110845221.9A
Authority: CN
Inventors: 高康康; 李永凯; 王宁波; 梁晓曦; 徐佳文; 郭思郁; 李亚鹏
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2022-01-11

Abstract

本申请公开了一种脸部器官的状态和眨眼的检测方法、网络训练方法及装置。其中，该脸部器官的状态检测方法包括：基于包含目标脸部的图像提取出目标的脸部器官图像和脸部器官的轮廓图；将脸部器官图像和脸部器官的轮廓图进行叠加，以得到叠加图像；对叠加图像进行检测，以确定脸部器官的张开闭合状态。本申请可以提高脸部器官状态的检测准确率。

Description

脸部器官的状态和眨眼的检测方法、网络训练方法及装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种脸部器官的状态和眨眼的检测方法、网络训练方法及装置。

背景技术

随着图像智能处理技术的发展，对眼睛、嘴巴等脸部器官及其动作的检测得到了广泛应用。但是目前的脸部器官的状态检测方法还存在一些问题，例如检测准确率不高。

发明内容

本申请提供一种脸部器官的状态和眨眼的检测方法、网络训练方法及装置，可以提高检测准确率。

为解决上述问题，本申请提供一种脸部器官的状态检测方法，该方法包括：

基于包含目标脸部的图像提取出目标的脸部器官图像和脸部器官的轮廓图；

将脸部器官图像和脸部器官的轮廓图进行叠加，以得到叠加图像；

对叠加图像进行检测，以确定脸部器官的张开闭合状态。

其中，基于包含目标脸部的图像提取出目标的脸部器官图像和脸部器官的轮廓图的步骤包括：

从包含目标脸部的图像提取出目标的脸部器官图像；

利用边缘感知网络对脸部器官图像进行处理，以得到轮廓图。

其中，利用边缘感知网络对脸部器官图像进行处理的步骤之前包括：

基于包含目标脸部的图像确定目标脸部的朝向信息和计算脸部器官的纵横比；

在基于朝向信息确定目标脸部大致正对采集包含目标脸部的图像的装置的情况下，且脸部器官的纵横比小于闭合阈值，确定脸部器官处于闭合状态；

否则，则执行利用边缘感知网络对脸部器官图像进行处理的步骤。

其中，脸部器官为目标的眼睛，

基于包含目标脸部的图像确定目标脸部的朝向信息和计算脸部器官的纵横比的步骤包括：

基于包含目标脸部的图像计算目标的左眼和右眼的纵横比的差值，并计算目标的鼻尖偏离目标脸部中心的程度，将差值和程度作为朝向信息；

在基于朝向信息确定目标脸部大致正对采集包含目标脸部的图像的装置的情况下，且脸部器官的纵横比小于闭合阈值，确定脸部器官处于闭合状态的步骤包括：

若目标的鼻尖偏离目标脸部中心的程度小于偏离阈值，差值小于误差阈值，且脸部器官的纵横比小于闭合阈值，则确定脸部器官处于闭合状态。

其中，基于包含目标脸部的图像提取出目标的脸部器官图像：

提取包含目标脸部的图像中脸部的特征点；

基于脸部的特征点确定脸部器官中心点；

以脸部器官中心点为中心，脸部器官宽度为边长，从包含目标脸部的图像中截取脸部器官图像。

其中，将脸部器官图像和脸部器官的轮廓图进行叠加，以得到叠加图像的步骤包括：

将脸部器官图像和脸部器官的轮廓图在通道上进行叠加，以得到叠加图像。

其中，该方法包括：

获取脸部器官图像集；

基于脸部器官图像集训练边缘感知网络和状态检测网络；

其中，边缘感知网络用于对脸部器官图像进行处理得到脸部器官的轮廓图，状态检测网络用于对脸部器官图像和脸部器官的轮廓图叠加而成的叠加图像进行检测，以确定脸部器官的张开闭合状态。

其中，基于脸部器官图像集训练边缘感知网络和状态检测网络的步骤包括：

基于脸部器官图像集对边缘感知网络进行训练；

将脸部器官图像输入到训练后的边缘感知网络，得到脸部器官的轮廓图；

将脸部器官图像和脸部器官的轮廓图进行叠加，得到叠加图像；

基于叠加图像对状态检测网络进行训练。

其中，基于脸部器官图像集对边缘感知网络进行训练的步骤包括：

将脸部器官图像输入至边缘感知网络，得到脸部器官的轮廓图；

利用轮廓图和脸部器官图像中特征点的连接图计算第一损失；

在第一损失减小的方向，更新边缘感知网络的参数。

其中，基于叠加图像对状态检测网络进行训练的步骤：

将脸部器官图像对应的叠加图像输入至状态检测网络，以得到脸部器官图像中脸部器官的张开闭合状态的检测值；

利用脸部器官图像中脸部器官的张开闭合状态的检测值和真实值计算第二损失；

在第二损失减小的方向，更新状态检测网络的参数。

其中，基于叠加图像对状态检测网络进行训练的步骤之后包括：

基于脸部器官图像集对边缘感知网络和状态检测网络进行联合训练。

其中，基于脸部器官图像集对边缘感知网络和状态检测网络进行联合训练的步骤包括：

在联合训练过程中，计算第一损失和第二损失，计算第一损失和第二损失的加权值，在加权值减小的方向，更新边缘感知网络和状态检测网络的参数。

为解决上述问题，本申请还提供一种眨眼检测方法，该方法包括：

基于上述脸部器官的状态检测方法检测当前帧图像中目标眼部的张开闭合状态；

基于当前帧图像的目标眼部的张开闭合状态确认目标是否眨眼。

为解决上述问题，本申请还提供一种电子设备，该电子设备包括处理器；处理器用于执行指令以实现上述方法。

为解决上述问题，本申请还提供一种计算机可读存储介质，其用于存储指令/程序数据，指令/程序数据能够被执行以实现上述方法。

本申请先基于包含目标脸部的图像提取出目标的脸部器官图像和脸部器官的轮廓图，然后对目标的脸部器官图像和脸部器官的轮廓图的叠加图像进行检测，以确定目标的脸部器官的张开闭合状态；这样可以通过脸部器官的轮廓图使得检测时注意力关注在脸部器官的轮廓上，能够在检测时更加准确地提取脸部器官边缘附近的优质特征，从而提高了脸部器官状态检测的准确度。并且相比于现有的对利用眼睛中心点生成的高斯模糊热图和眼睛图像相乘得到的图像进行检测以确定目标是否眨眼的方案，本申请不仅能更完整地保留脸部器官有效信息和全局信息，而且可以更好发挥网络对脸部器官区域特征的有效提取，从而使得本申请脸部器官状态检测方法具有较高的准确度。而且本申请方法的实现不依赖于辅助设备或传感器，降低使用成本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请脸部器官的状态检测方法一实施方式的流程示意图；

图2是本申请脸部器官的状态检测方法中提取的脸部特征点的示意图；

图3是本申请脸部器官的状态检测方法中提取的脸部器官图像的示意图；

图4是本申请脸部器官的状态检测方法中脸部器官的特征点连线示意图；

图5是本申请脸部器官的状态检测方法中脸部器官的轮廓示意图；

图6是本申请脸部器官的状态检测方法另一实施方式的流程示意图；

图7是本申请脸部器官的状态检测方法中边缘感知网络和状态检测网络的结构示意图；

图8是本申请眨眼检测方法一实施方式的流程示意图；

图9是本申请脸部器官的状态检测方法网络的训练方法一实施方式的流程示意图；

图10是本申请电子设备一实施方式的结构示意图；

图11是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。另外，除非另外指明(例如，“或另外”或“或在替代方案中”)，否则如本文所使用的术语“或”指代非排他性的“或”(即，“和/或”)。并且，本文所描述的各种实施例不一定相互排斥，因为一些实施例可以与一个或多个其它实施例组合以形成新的实施例。

具体如图1所示，本实施方式的脸部器官的状态检测方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S101：基于包含目标脸部的图像提取出目标的脸部器官图像和脸部器官的轮廓图。

可以先基于包含目标脸部的图像提取出目标的脸部器官图像和脸部器官的轮廓图，这样后续可对目标的脸部器官图像和脸部器官的轮廓图进行检测，以确定目标的脸部器官的张开闭合状态。

其中，本申请的目标可以是人、猫或狗等具有脸的动物。脸部器官可为眼睛或嘴巴等，在此不做限制。

在一实现方式中，如图2所示，可以先确定图像中目标脸部上的脸部轮廓、眉毛、眼睛、鼻子和嘴巴区域等特征点的坐标；然后基于图像中目标脸部的特征点的坐标确定所检测的脸部器官的位置；基于脸部器官的位置将图3所示的目标的脸部器官图像从包含目标脸部的图像抠下来；还可将所检测的脸部器官上的特征点连线(例如，脸部器官为眼睛，如图4所示，可将眼睛区域的6个特征点连线，形成封闭边缘)，以获得图5所示的脸部器官的轮廓图。

可选地，可利用脸部对齐算法确定所检测的脸部器官的位置以及脸部器官处的特征点。具体地，可通过旋转平移等刚性变换，将脸部图像变换至模板脸部上，以实现脸部对齐。

其中，基于脸部器官的位置将图3所示的目标的脸部器官图像从包含目标脸部的图像抠下来的步骤可以包括：计算出脸部器官的中心点的坐标；然后以脸部器官的中心点为中心，脸部器官宽度为边长，从包含目标脸部的图像中截取脸部器官的图像。例如，假设脸部器官为眼睛，可以将每个眼睛的两个眼角的特征点的坐标均值作为每个眼睛的中心点的坐标。又例如，假设脸部器官为嘴巴，可以将嘴巴的两个嘴角的特征点的坐标均值作为嘴巴的中心点坐标。

在另一实现方式中，为避免出现特征点提取出错导致提取出的脸部器官轮廓图不准确的情况，且为解决仅依赖脸部器官特征点的轮廓和统计指标分析易受特征点定位准确性的波动而导致状态检测性能降低的问题，可以通过训练好的边缘感知网络从目标的脸部器官图像中提取出脸部器官的轮廓图，并通过对轮廓图和脸部器官图像进行检测以确定脸部器官的张开闭合状态。

S102：将脸部器官图像和脸部器官的轮廓图进行叠加，以得到叠加图像。

基于步骤S101得到目标的脸部器官图像和脸部器官的轮廓图之后，可以将脸部器官图像和脸部器官的轮廓图进行叠加，以便对叠加图像进行检测，确定脸部器官的张开闭合状态。

可选地，可将脸部器官图像和脸部器官的轮廓图在通道上进行叠加，以得到叠加图像。例如，脸部器官图像和脸部器官的轮廓图均为64*64的单通道图像，脸部器官图像和脸部器官的轮廓图叠加后，可得到64*64的双通道图像。

S103：对叠加图像进行检测，以确定脸部器官的张开闭合状态。

可以对步骤S102得到的叠加图像进行检测，以确定脸部器官的张开闭合状态，这样可以通过脸部器官的轮廓图使得检测时注意力关注在脸部器官的轮廓上，能够在检测时更加准确地提取脸部器官边缘附近的优质特征，从而提高了脸部器官状态检测的准确度。并且相比于现有的对利用眼睛中心点生成的高斯模糊热图和眼睛图像相乘得到的图像进行检测以确定目标是否眨眼的方案，本申请不仅能更完整地保留脸部器官有效信息和全局信息，而且可以更好发挥网络对脸部器官区域特征的有效提取，从而取得更好的性能，并且避免因采集环境因素错误引导网络优化方向。

可选地，可以利用状态检测网络对叠加图像进行检测，以基于状态检测网络的输出结果确定脸部器官的张开闭合状态。

例如，假设状态检测网络输出的概率越大，脸部器官趋向于闭合状态，则在步骤S103中，若状态检测网络对叠加图像进行处理输出的概率大于第一阈值，则脸部器官为闭合状态，否则脸部器官为张开状态。其中，第一阈值可根据实际情况进行设定，在此不做限定，例如可为0.5。

又例如，假设状态检测网络输出的概率越小，脸部器官趋向于闭合状态，则在步骤S103中，若状态检测网络对叠加图像进行处理输出的概率小于第二阈值，则脸部器官为闭合状态，否则脸部器官为张开状态。其中，第二阈值可根据实际情况进行设定，在此不做限定，例如可为0.5或0.3。

在本实施方式中，先基于包含目标脸部的图像提取出目标的脸部器官图像和脸部器官的轮廓图，然后对目标的脸部器官图像和脸部器官的轮廓图的叠加图像进行检测，以确定目标的脸部器官的张开闭合状态；这样可以通过脸部器官的轮廓图使得检测时注意力关注在脸部器官的轮廓上，能够在检测时更加准确地提取脸部器官边缘附近的优质特征，从而提高了脸部器官状态检测的准确度。并且相比于现有的对利用眼睛中心点生成的高斯模糊热图和眼睛图像相乘得到的图像进行检测以确定目标是否眨眼的方案，本申请不仅能更完整地保留脸部器官有效信息和全局信息，而且可以更好发挥网络对脸部器官区域特征的有效提取，从而使得本申请脸部器官状态检测方法具有较高的准确度。而且本申请方法的实现不依赖于辅助设备或传感器，降低使用成本。

为避免利用边缘感知网络和状态检测网络判断所有视频帧序列而产生不必要的耗时，本申请可在利用边缘感知网络和状态检测网络对脸部器官图像处理之前，综合脸部器官纵横比筛选掉脸部器官明显处于闭合状态的图像，减少了边缘感知网络和状态检测网络检测的图像数量，避免了不必要的耗时，兼顾了配合式场景下的算法性能与耗时。具体可如6所示，图6是本申请脸部器官的状态检测方法的方法另一实施方式的流程示意图。本实施方式的脸部器官的状态检测方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S201：从包含目标脸部的图像提取出目标的脸部器官图像。

可如步骤S101所示，在此不做赘述。

S202：基于包含目标脸部的图像确定目标脸部的朝向信息和计算脸部器官的纵横比。

S203：基于朝向信息和纵横比确认脸部器官是否明显处于闭合状态。

可以基于包含目标脸部的图像确定目标脸部的朝向信息并计算脸部器官的纵横比，从而基于朝向信息和纵横比确认脸部器官是否明显处于闭合状态。

可选地，若基于包含目标脸部的图像，确定目标脸部是大致正对采集包含目标脸部的图像的装置，且脸部器官的纵横比小于闭合阈值，则确定脸部器官处于闭合状态，则进入步骤S203；否则，则进入步骤S204。其中，因为目标脸部处于左摆、右摆、上摆或下摆等未正对采集装置的情况下，脸部器官纵横比的计算值与真实值误差较大，本申请仅在目标脸部正对采集装置时通过脸部器官纵横比确认脸部器官的状态，可以避免出现在纵横比误差较大的情况下还利用脸部器官的纵横比判断脸部器官的状态导致脸部器官状态误判的情况，即约束因姿态致使纵横比无法反应真实脸部器官状态的场景对张开闭合状态检测的影响，可以避免误检，提高检测的准确性，兼顾了场景下的算法性能与耗时。

另外，以脸部器官为图4中的眼睛为例，眼睛的纵横比(Eye Aspect Rate，EAR)的计算公式可为：

而以脸部器官为嘴巴为例，利用图2中的特征点计算嘴巴的纵横比的公式可为：

其中，目标脸部的朝向信息的确定方法可如下所示。

在一实现方式中，可计算目标脸部的预设特征点到目标脸部框中心点之间的向量，若该向量在预设范围内，则目标脸部大致正对采集包含目标脸部的图像的装置；否则目标未正对采集包含目标脸部的图像的装置。

在另一实现方式中，可计算目标脸部的预设特征点到目标脸部框中心点之间的距离，且若脸部器官为眼睛，则可计算目标左眼和右眼纵横比之间的差值；若目标脸部的预设特征点到目标脸部框中心点之间的距离小于偏离阈值，且目标左眼和右眼纵横比之间的差值小于误差阈值，则目标脸部大致正对采集包含目标脸部的图像的装置；否则，即目标脸部的预设特征点到目标脸部框中心点之间的距离大于或等于偏离阈值，和/或，目标左眼和右眼纵横比之间的差值大于或等于误差阈值，则目标脸部未正对采集包含目标脸部的图像的装置。

上述的预设特征点可以为目标脸部的鼻尖特征点或眼角特征点等，在此不做限制，具体可根据实际情况进行设定。

且上述的偏离阈值、误差阈值和闭合阈值可根据实际情况进行设定，在此不做限制。

其中，根据纵横比的定义可知，脸部器官大的，纵横比相对也大，且纵横比的波动幅度相对也大；并且由于伪影等问题，导致特征点定位存在一定偏差，通常该偏差表现为纵横比的真实值较计算值小，此时纵横比无法体现脸部器官真实状态；综上，闭合阈值过大会导致大量误检；为此可将闭合阈值设置的小一点，例如设置为0.1或0.12，用以确保纵横比阈值被触发时脸部器官状态必定为闭合状态，以避免误检。

另外，根据纵横比的定义可知，随目标偏航角由小增大，且当脸部器官上下边缘的距离不变(即脸部器官张开幅度不变)时，由于脸部器官的横向距离缩短，脸部器官的纵横比均趋向于增大。除此之外，当脸部器官为眼睛时，内侧眼睛的纵横比值较外侧明显更大，因此二者存在误差。此时误差阈值则是通过约束因姿态致使纵横比无法反应真实脸部器官状态的场景对状态检测的影响。其中，误差阈值可为0.25或0.3，用以确保纵横比阈值被触发时目标脸部偏航角旋转不大。

此外，根据纵横比的定义可知，目标俯仰角变化将直接导致脸部器官上下边缘的观测距离改变，而脸部器官的横向距离不变，致使纵横比的计算值较真实值偏小。此时偏离阈值便是对目标脸部俯仰角变化进行约束，致使脸部器官的纵横比尽可能表达脸部器官的真实状态。其中，偏离阈值可为10或13，用以确保纵横比阈值被触发时目标脸部俯仰角旋转不大。

其中，本申请所说的“目标脸部大致正对采集图像的装置”可包括目标脸部完全正对采集图像的装置的情况，也可包含目标脸部倾斜的角度小于预设阈值(即目标脸部近似正对采集图像的状态)的情况。

S204：确定脸部器官处于闭合状态。

在基于朝向信息确定目标脸部大致正对采集包含目标脸部的图像的装置的情况下，且脸部器官的纵横比小于闭合阈值，可以确定脸部器官处于闭合状态。

S205：利用边缘感知网络对脸部器官图像进行处理。

在基于朝向信息确定目标脸部未正对采集包含目标脸部的图像的装置的情况下，和/或，脸部器官的纵横比大于或等于闭合阈值，可以利用边缘感知网络对脸部器官图像进行处理，以得到脸部器官的轮廓图。

可选地，可如图7所示，边缘感知网络可以包括至少一个卷积层以及连接于至少一个卷积层之后的沙漏网络。其中每个卷积层后还连接有BN层。在步骤S205中，上述的边缘感知网络以脸部器官图像作为输入，经过2层卷积层，每个卷积后接一层BN，并利用ReLU完成非线性映射，随后将低等级特征输入3层沙漏网络，经过卷积、平均池化等特征提取处理，捕捉边缘，并通过上采样至与脸部器官的图像相同的大小，以复原原图的脸部器官的轮廓，从而得到脸部器官的轮廓图。

S206：将脸部器官图像和脸部器官的轮廓图进行叠加，以得到叠加图像。

S207：对叠加图像进行检测，以确定脸部器官的张开闭合状态。

可选地，可利用状态检测网络对叠加图像进行检测，以确定脸部器官的张开闭合状态。

其中，状态检测网络的结构可如图7所示，包括至少一层卷积层和连接于至少一层卷积层之后的全连接层。其中，状态检测网络中的每层卷积层之后均可连接有一层BN层和平均池化层。

在步骤S207中，上述的状态检测网络以步骤S206得到的叠加图像为输入，经过4层卷积提取分类特征，每层卷积层后接一层BN层和平均池化层，使用ReLU作为激活函数，随后，将输出特征输入3层级联的全连接层，得到二分类结果，并利用SoftMax将特征值转化为概率。然后基于概率确定脸部器官的张开闭合状态。

若脸部器官为眼睛，基于上述脸部器官的状态检测方法确认当前帧图像中目标眼睛的张开闭合状态后，可以基于当前帧图像及其之前的多帧图像确认目标是否眨眼。具体可如图8所示，图8是本申请眨眼检测方法一实施方式的流程示意图。本实施方式的眨眼检测方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S301：基于上述脸部器官的状态检测方法检测当前帧图像中目标眼部的张开闭合状态。

S302：基于当前帧图像的目标眼部的张开闭合状态确认目标是否眨眼。

可选地，可以基于当前帧图像及其之前的N帧图像确认目标是否眨眼。

具体地，若基于当前帧图像及其之前的N帧图像确认目标持续睁眼后进入闭眼状态，且随后出现睁眼状态，则可确定目标眨眼。

本申请先基于单帧图像确定每一帧图像中目标眼睛的睁合状态，然后基于多帧图像中目标眼睛的睁合状态确定目标是否眨眼，避免利用连续多帧时序和纹理信息确定每帧图像中目标眼睛的睁合状态，对输入数据的时序或空间特征上不存在严格约束，且能取得较为准确的检测结果，结合事件逻辑，可以准确快速地分析出眨眼事件。

进一步地，为便于实施上述脸部器官的状态检测方法，本申请提供一种脸部器官的状态检测方法网络的训练方法，具体可如图9所示，图9是本申请脸部器官的状态检测方法网络的训练方法一实施方式的流程示意图。本实施方式的脸部器官的状态检测方法网络的训练方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S401：获取脸部器官图像集。

对于任意输入的视频帧，利用现有实时脸部对齐算法，定位脸部区域，确定脸部器官轮廓处特征点，并以此获取脸部器官区域，同时生成封闭的脸部器官中特征点的连线图，结合张开与闭合的脸部器官标签，共同构建脸部器官的图像集。

上述的脸部器官图像中特征点的连线图的生成方法可为：将脸部器官图像中的边缘特征点进行连线，形成封闭边缘；根据该封闭边缘，生成与脸部器官图像大小一致，且边缘像素置1，其余像素置0的边缘二值化图像；并对齐边缘二值化图像与脸部器官图像，以得到脸部器官图像中特征点的连线图。

其中，脸部器官的图像集中脸部器官图像和/或脸部器官图像中特征点的连线图的尺寸可以统一至相同大小，例如可统一为64*64。

S402：基于脸部器官图像集训练边缘感知网络和状态检测网络。

在一实现方式中，可基于脸部器官图像集对边缘感知网络和状态检测网络进行联合训练。

在另一实现方式中，可基于脸部器官图像集分别对边缘感知网络和状态检测网络进行训练。其中，可先对边缘感知网络进行训练，然后再对状态检测网络进行训练。

具体地，先基于脸部器官图像集对边缘感知网络进行训练；然后将脸部器官图像输入到训练后的边缘感知网络，得到脸部器官的轮廓图；将脸部器官图像和脸部器官的轮廓图进行叠加，得到叠加图像；基于叠加图像对状态检测网络进行训练。

在对边缘感知网络进行训练的过程中，可以以脸部器官图像中特征点的连线图监督训练边缘感知网络。具体地，可将脸部器官图像输入至边缘感知网络，得到脸部器官的轮廓图；利用轮廓图和脸部器官图像中特征点的连接图计算第一损失；在第一损失减小的方向，更新边缘感知网络的参数，利用像素级分类的第一损失训练边缘感知网络，可以通过训练后的边缘感知网络获得更准确的边缘轮廓信息，对后续张开闭合状态分类起到重要作用。

其中，第一损失的计算公式可为：

其中Y₊为非边缘像素点，Y_-为边缘像素点,Y₊∈[0,1]，Y_-∈[0,1]，β＝|Y_-|，M为像素索引，Pr为预测概率值，x为输入臉部器官图像，w为边缘感知网络参数，L_k为第一损失。

可选地，可以以脸部器官张开闭合状态监督训练状态检测网络，实现强监督，优化状态检测网络。在对状态检测网络进行训练的过程中，可将脸部器官图像对应的叠加图像输入至状态检测网络，以得到脸部器官图像中脸部器官的张开闭合状态的检测值；然后利用脸部器官图像中脸部器官的张开闭合状态的检测值和真实值计算第二损失；在第二损失减小的方向，更新状态检测网络的参数，以实现迭代优化。

其中，第二损失L_fl的计算公式可如下述公式所示：

其中γ可为2，α可为0.25，y为脸部器官的张开闭合状态的真实值，y＝1表示脸部器官闭合，y＝0表示脸部器官张开，Pr为模型预测结果，Pr∈[0,1]。

以脸部器官为眼睛为例，可基于focal损失训练状态检测网络，focal损失相较于交叉熵损失在张开闭合状态检测任务上更为适用；在视频流中，闭眼帧数大致占总帧数的4％～5％，因此，训练过程中会存在正负样本不均衡的问题，而focal损失提出的α和γ权重可以很好改善上述问题，促使网络取得更好的优化结果。

在又一实现方式中，可基于脸部器官图像集分别对边缘感知网络和状态检测网络进行训练；然后基于脸部器官图像集对分别训练后的边缘感知网络和状态检测网络进行联合训练，这样在多损失信号的联合监督下，迭代优化至预设条件，最终得到检测性能高的边缘感知网络和状态检测网络。

在联合训练过程中，可将脸部器官图像集输入至分别训练后的边缘感知网络；然后将边缘感知网络输出的轮廓图和脸部器官图像在通道上进行叠加；接着将叠加的图像输入至状态检测网络，以得到检测值。可基于联合训练过程中的轮廓图和检测值分别计算第一损失和第二损失；然后计算第一损失和第二损失的加权值；在加权值减小的方向，更新边缘感知网络和状态检测网络的参数。其中，在联合训练的过程中，第一损失和第二损失的加权系数是不变的，但是第一损失和第二损失的加权系数可根据实际情况进行设定，例如第一损失的加权系数可为0.3，第二损失的加权系数为0.7。

本申请利用多损失联合监督既有助于低等级边缘特征的表达，又可以充分提取高维语义信息，促使网络取得更好的优化结果。

请参阅图10，图10是本申请电子设备20一实施方式的结构示意图。本申请电子设备20包括处理器22，处理器22用于执行指令以实现上述本申请上述任一实施方式的方法及任意不冲突的组合所提供的方法。

电子设备20可为手机、笔记本电脑等终端，或者还可以为服务器。

处理器22还可以称为CPU(Central Processing Unit，中央处理单元)。处理器22可能是一种集成电路芯片，具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器，或者该处理器22也可以是任何常规的处理器等。

电子设备20还可进一步包括存储器21，用于存储处理器22运行所需的指令和数据。

请参阅图11，图11为本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质30存储有指令/程序数据31，该指令/程序数据31被执行时实现本申请上述方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据31可以形成程序文件以软件产品的形式存储在上述存储介质30中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质30包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种脸部器官的状态检测方法，其特征在于，所述方法包括：

基于包含目标脸部的图像提取出所述目标的脸部器官图像和所述脸部器官的轮廓图；

将所述脸部器官图像和所述脸部器官的轮廓图进行叠加，以得到叠加图像；

对所述叠加图像进行检测，以确定所述脸部器官的张开闭合状态。

2.根据权利要求1所述的脸部器官的状态检测方法，其特征在于，所述基于包含目标脸部的图像提取出所述目标的脸部器官图像和所述脸部器官的轮廓图的步骤包括：

从包含目标脸部的图像提取出所述目标的所述脸部器官图像；

利用边缘感知网络对所述脸部器官图像进行处理，以得到所述轮廓图。

3.根据权利要求2所述的脸部器官的状态检测方法，其特征在于，所述利用边缘感知网络对所述脸部器官图像进行处理的步骤之前包括：

基于所述包含目标脸部的图像确定所述目标脸部的朝向信息和计算所述脸部器官的纵横比；

在基于所述朝向信息确定所述目标脸部大致正对采集所述包含目标脸部的图像的装置的情况下，且所述脸部器官的纵横比小于闭合阈值，确定所述脸部器官处于闭合状态；

否则，则执行利用边缘感知网络对所述脸部器官图像进行处理的步骤。

4.根据权利要求3所述的脸部器官的状态检测方法，所述脸部器官为目标的眼睛，其特征在于，

所述基于所述包含目标脸部的图像确定所述目标脸部的朝向信息和计算所述脸部器官的纵横比的步骤包括：

基于所述包含目标脸部的图像计算所述目标的左眼和右眼的纵横比的差值，并计算目标的鼻尖偏离目标脸部中心的程度，将所述差值和所述程度作为所述朝向信息；

所述在基于所述朝向信息确定所述目标脸部大致正对采集所述包含目标脸部的图像的装置的情况下，且所述脸部器官的纵横比小于闭合阈值，确定所述脸部器官处于闭合状态的步骤包括：

若所述目标的鼻尖偏离目标脸部中心的程度小于偏离阈值，所述差值小于误差阈值，且所述脸部器官的纵横比小于闭合阈值，则确定所述脸部器官处于闭合状态。

5.根据权利要求2所述的脸部器官的状态检测方法，其特征在于，所述基于包含目标脸部的图像提取出所述目标的所述脸部器官图像：

提取所述包含目标脸部的图像中脸部的特征点；

基于所述脸部的特征点确定脸部器官中心点；

以所述脸部器官中心点为中心，脸部器官宽度为边长，从所述包含目标脸部的图像中截取所述脸部器官图像。

6.根据权利要求1所述的脸部器官的状态检测方法，其特征在于，所述将所述脸部器官图像和所述脸部器官的轮廓图进行叠加，以得到叠加图像的步骤包括：

将所述脸部器官图像和所述脸部器官的轮廓图在通道上进行叠加，以得到所述叠加图像。

7.一种脸部器官的状态检测网络的训练方法，其特征在于，所述方法包括：

获取脸部器官图像集；

基于脸部器官图像集训练边缘感知网络和状态检测网络；

其中，所述边缘感知网络用于对所述脸部器官图像进行处理得到所述脸部器官的轮廓图，所述状态检测网络用于对所述脸部器官图像和所述脸部器官的轮廓图叠加而成的叠加图像进行检测，以确定所述脸部器官的张开闭合状态。

8.根据权利要求7所述的训练方法，其特征在于，所述基于脸部器官图像集训练边缘感知网络和状态检测网络的步骤包括：

基于脸部器官图像集对边缘感知网络进行训练；

将脸部器官图像输入到训练后的边缘感知网络，得到所述脸部器官的轮廓图；

将所述脸部器官图像和所述脸部器官的轮廓图进行叠加，得到所述叠加图像；

基于所述叠加图像对所述状态检测网络进行训练。

9.根据权利要求8所述的训练方法，其特征在于，所述基于脸部器官图像集对边缘感知网络进行训练的步骤包括：

将所述脸部器官图像输入至边缘感知网络，得到脸部器官的轮廓图；

利用所述轮廓图和所述脸部器官图像中特征点的连接图计算第一损失；

在所述第一损失减小的方向，更新所述边缘感知网络的参数。

10.根据权利要求8所述的训练方法，其特征在于，所述基于所述叠加图像对所述状态检测网络进行训练的步骤：

将所述脸部器官图像对应的叠加图像输入至所述状态检测网络，以得到所述脸部器官图像中脸部器官的张开闭合状态的检测值；

利用所述脸部器官图像中脸部器官的张开闭合状态的检测值和真实值计算第二损失；

在所述第二损失减小的方向，更新所述状态检测网络的参数。

11.根据权利要求8所述的训练方法，其特征在于，所述基于所述叠加图像对所述状态检测网络进行训练的步骤之后包括：

基于所述脸部器官图像集对所述边缘感知网络和所述状态检测网络进行联合训练。

12.根据权利要求11所述的训练方法，其特征在于，所述基于所述脸部器官图像集对所述边缘感知网络和所述状态检测网络进行联合训练的步骤包括：

在联合训练过程中，计算第一损失和第二损失，计算所述第一损失和所述第二损失的加权值，在所述加权值减小的方向，更新所述边缘感知网络和所述状态检测网络的参数。

13.一种眨眼检测方法，其特征在于，所述方法包括：

基于权利要求1-6任一项所述脸部器官的状态检测方法检测当前帧图像中目标眼部的张开闭合状态；

基于所述当前帧图像的目标眼部的张开闭合状态确认所述目标是否眨眼。

14.一种电子设备，其特征在于，所述电子设备包括处理器；所述处理器用于执行指令以实现如权利要求1-13中任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有程序和/或指令，其特征在于，所述程序和/或指令被执行时实现权利要求1-13中任一项所述方法的步骤。