CN112241662B

CN112241662B - 一种检测可行驶区域的方法及装置

Info

Publication number: CN112241662B
Application number: CN201910648165.2A
Authority: CN
Inventors: 赵俊
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2024-03-19
Anticipated expiration: 2039-07-17
Also published as: CN112241662A

Abstract

本申请是关于一种检测可行驶区域的方法及装置，属于图像处理领域。所述方法包括：获取安装在设备上的单目摄像头采集的视频图像；将所述视频图像输入到深度检测模型，所述深度检测模型用于检测所述视频图像中的每个像素点的深度信息，获取所述深度检测模型输出的所述视频图像中的每个像素点的深度信息；根据所述每个像素点的深度信息和所述单目摄像头的标定安装参数，确定所述每个像素点对应的物理点的位置信息；根据每个物理点的位置信息确定可行驶区域。本申请能够提高检测可行驶区域的精度。

Description

一种检测可行驶区域的方法及装置

技术领域

本申请涉及图像处理领域，特别涉及一种检测可行驶区域的方法及装置。

背景技术

近年来随着自动驾驶技术进入大众视野，对自动驾驶中设备感知三维信息的研究成为热点技术，该设备可以是自动驾驶的车辆或机器人等。自动驾驶需要检测出道路中的可行驶区域，以便基于检测出的可行驶区域进行自动行驶。

目前存在一种可行驶区域的检测方法。该检测方法在无人驾驶的设备上安装单目摄像头采集路面图像，将路面图像输入到预设训练的深度学习模型，通过该深度学习模型检测出该路面图像中包括的可行驶区域图像和不可行驶区域图像，以及检测出该路面图像中的每个像素点的深度信息。根据可行驶区域图像中的每个像素点的深度信息确定可行驶区域。

发明人在实现本申请的过程中，发现上述方式至少存在如下缺陷：

上述深度学习模型能够检测出路面图像中包括的可行驶区域图像和不可行驶区域图像，这样在使用训练样本训练深度学习模型时，需要在训练样本中人工标注可行驶区域图像和不可行驶区域图像，标注工作非常耗时，标注的精度很难保证，这样使用训练出的深度学习模型检测路面图像中的可行驶区域图像和不可行驶区域图像的精度也很难保证，进而导致检测出的可行驶区域的精度可能较差。

发明内容

本申请实施例提供了一种检测可行驶区域的方法及装置，以提高检测可行驶区域的精度。所述技术方案如下：

一方面，本申请提供一种检测可行驶区域的方法，所述方法包括：

获取安装在设备上的单目摄像头采集的视频图像；

将所述视频图像输入到深度检测模型，所述深度检测模型用于检测所述视频图像中的每个像素点的深度信息，获取所述深度检测模型输出的所述视频图像中的每个像素点的深度信息；

根据所述每个像素点的深度信息和所述单目摄像头的标定安装参数，确定所述每个像素点对应的物理点的位置信息；

根据每个物理点的位置信息确定可行驶区域。

作为一种示例，所述根据每个物理点的位置信息确定可行驶区域，包括：

根据所述单目摄像头在所述设备上的安装位置在路面上的落地点的位置信息构建栅格地图，所述栅格地图包括多个栅格；

根据每个物理点的位置信息确定落入所述栅格地图中的每个栅格的物理点数目；

获取落入的物理点数目小于预设数目阈值的栅格，并根据获取的栅格确定可行驶区域。

作为一种示例，物理点的位置信息包括所述物理点的横坐标、纵坐标和高度；所述根据每个物理点的位置信息确定可行驶区域，包括：

从每个物理点中获取高度位于高度范围内的物理点，所述高度范围包括路面高度且所述高度范围的区间长度为预设长度阈值；

根据位于所述高度范围内的物理点确定可行驶区域。

作为一种示例，所述根据位于所述高度范围内的物理点确定可行驶区域，包括：

根据位于所述高度范围内的各物理点的位置信息，对位于所述高度范围内的各物理点进行聚类得到至少一个物理点集合，同一物理点集合中的任意相邻的两个物理点之间的距离不超过预设距离阈值；

确定包括所述物理点集合中的每个物理点的最小区域作为可行驶区域。

作为一种示例，所述将所述图像输入到深度检测模型之前，还包括

获取所述设备在移动时所述单目摄像头采集的M帧视频图像，M为大于或等于2的整数；

根据所述M帧视频图像训练第一深度学习网络得到所述深度检测模型。

作为一种示例，所述根据所述M帧视频图像训练第一深度学习网络得到所述深度检测模型，包括：

将第一视频图像输入到第一深度学习网络，所述第一深度学习网络用于确定所述第一视频图像中的每个像素点的深度信息，获取所述第一深度学习网络输出的所述第一视频图像中的每个像素点的深度信息，所述第一视频图像是所述M帧视频图像中的任一帧视频图像；

获取所述第一视频图像和第二视频图像之间的位姿关系，所述第二视频图像是所述M帧视频图像中除所述第一视频图像之间的一帧视频图像；

根据所述第一视频图像中的每个像素点的深度信息、所述单目摄像头的标定安装参数和所述位姿关系生成合成图像；

根据所述合成图像和所述第二视频图像调整所述第一深度学习网络的网络参数，以得到所述深度检测模型。

作为一种示例，所述获取所述第一视频图像和第二视频图像之间的位姿关系，包括：

获取多个像素点对，像素点对包括所述第一视频图像中的一个像素点和所述第二视频图像中的一个像素点，所述像素点对包括的每个像素点对应的物理点相同；

根据所述多个像素点对确定所述第一视频图像和所述第二视频图像之间的位姿关系。

将所述第一视频图像和所述第二视频图像输入到第二深度学习网络，所述第二深度学习网络用于确定所述第一视频图像和所述第二视频图像之间的位姿关系，获取所述第二深度学习网络输出的所述位姿关系；

所述根据所述第一视频图像中的每个像素点的深度信息、所述单目摄像头的标定安装参数和所述位姿关系生成合成图像之后，还包括：

根据所述合成图像和所述第二视频图像调整所述第二深度学习网络的网络参数。

作为一种示例，所述根据所述第一视频图像中的每个像素点的深度信息、所述单目摄像头的标定安装参数和所述位姿关系生成合成图像，包括：

根据所述第一视频图像中的每个像素点的深度信息和所述单目摄像头的标定安装参数，确定所述第一视频图像中的每个像素点对应的物理点的位置信息；

根据所述第一视频图像中的每个像素点、所述第一视频图像中的每个像素点对应的物理点的位置信息和所述位姿关系，获取合成图像中的每个像素点。

另一方面，本申请提供一种检测可行驶区域的装置，所述装置包括：

第一获取模块，用于获取安装在设备上的单目摄像头采集的视频图像；

第二获取模块，用于将所述视频图像输入到深度检测模型，所述深度检测模型用于检测所述视频图像中的每个像素点的深度信息，获取所述深度检测模型输出的所述视频图像中的每个像素点的深度信息；

第一确定模块，用于根据所述每个像素点的深度信息和所述单目摄像头的标定安装参数，确定所述每个像素点对应的物理点的位置信息；

第二确定模块，用于根据每个物理点的位置信息确定可行驶区域。

作为一种示例，所述第二确定模块包括：

构建单元，用于根据所述单目摄像头在所述设备上的安装位置在路面上的落地点的位置信息构建栅格地图，所述栅格地图包括多个栅格；

第一确定单元，用于根据每个物理点的位置信息确定落入所述栅格地图中的每个栅格的物理点数目；

第一获取单元，用于获取落入的物理点数目小于预设数目阈值的栅格，并根据获取的栅格确定可行驶区域。

作为一种示例，物理点的位置信息包括所述物理点的横坐标、纵坐标和高度；所述第二确定模块包括：

第二获取单元，用于从每个物理点中获取高度位于高度范围内的物理点，所述高度范围包括路面高度且所述高度范围的区间长度为预设长度阈值；

第二确定单元，用于根据位于所述高度范围内的物理点确定可行驶区域。

作为一种示例，所述第二确定单元，用于：

作为一种示例，所述装置还包括

第三获取模块，用于获取所述设备在移动时所述单目摄像头采集的M帧视频图像，M为大于或等于2的整数；

训练模块，用于根据所述M帧视频图像训练第一深度学习网络得到所述深度检测模型。

作为一种示例，所述训练模块，包括：

第三获取单元，用于将第一视频图像输入到第一深度学习网络，所述第一深度学习网络用于确定所述第一视频图像中的每个像素点的深度信息，获取所述第一深度学习网络输出的所述第一视频图像中的每个像素点的深度信息，所述第一视频图像是所述M帧视频图像中的任一帧视频图像；

第四获取单元，用于获取所述第一视频图像和第二视频图像之间的位姿关系，所述第二视频图像是所述M帧视频图像中除所述第一视频图像之间的一帧视频图像；

生成单元，用于根据所述第一视频图像中的每个像素点的深度信息、所述单目摄像头的标定安装参数和所述位姿关系生成合成图像；

第一调整单元，用于根据所述合成图像和所述第二视频图像调整所述第一深度学习网络的网络参数，以得到所述深度检测模型。

作为一种示例，所述第四获取单元，用于：

所述训练模块还包括：

第二调整单元，用于根据所述合成图像和所述第二视频图像调整所述第二深度学习网络的网络参数。

作为一种示例，所述生成单元，用于：

另一方面，本申请提供了一种电子设备，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器用于执行所述可执行指令，以实现上述检测可行驶区域的方法的指令。

另一方面，本申请提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序被处理器加载并执行，以实现上述检测可行驶区域的方法的指令。

本申请实施例提供的技术方案可以包括以下有益效果：

通过安装在设备上的单目摄像头采集的视频图像；将视频图像输入到深度检测模型，该深度检测模型用于检测视频图像中的每个像素点的深度信息，获取该深度检测模型输出的所述视频图像中的每个像素点的深度信息；根据每个像素点的深度信息和单目摄像头的标定安装参数，确定每个像素点对应的物理点的位置信息；根据每个物理点的位置信息确定可行驶区域。由于该深度检测模型用于检测视频图像中的每个像素点的深度信息，这样深度检测模型不需要检测可行驶区域图像和不可行驶区域图像，在训练样本中不需要标注可行驶区域图像和不可行驶区域图像，从而不会因为标注样本影响检测可行驶区域的精度，提高了检测可行驶区域的精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的在设备上安装单目摄像头的示意图；

图2是本申请实施例提供的一种检测装置结构示意图；

图3是本申请实施例提供的一种图像处理模块的结构示意图；

图4是本申请实施例提供的一种训练深度检测模型的方法流程图；

图5是本申请实施例提供的一种第一视频图像和第二视频图像之间的关系示意图；

图6是本申请实施例提供的一种检测可行驶区域的方法流程图；

图7是本申请实施例提供的在栅格地图中投影物理点的示意图；

图8是本申请实施例提供的一种检测可行驶区域的装置结构示意图；

图9是本申请实施例提供的一种终端结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

近年来随着自动驾驶技术进入大众视野，参见图1，自动驾驶可以在设备1上安装单目摄像头2，通过单目摄像头2拍摄的图像，根据图像检测出可行驶区域，设备1根据检测出的可行驶区域进行自动驾驶。

单目摄像头2安装在设备1上。设备1可以汽车或移动机器人等，当设备1为汽车时，单目摄像头2可以安装在汽车前保险杠位置、汽车的车顶或者汽车驾驶室内等部位。单目摄像头2的拍摄方向汽车的前方。

在单目摄像头2安装在汽车驾驶室内时，单目摄像头2可以安装在前挡风玻璃与汽车驾驶室内的后视镜之间，单目摄像头2可以贴在前挡风玻璃上。这样单目摄像头2隐藏在该后视镜后，不会对汽车驾驶室的美观产生影响。

可行驶区域主要是指设备在不发碰撞等危险的情况下，短时间内可抵达的安全路面区域，包括同向车道没有障碍物区域、路口或者匝道潜在可行驶方向路面等。

参见图2，设备1中可以包括检测装置，该检测装置包括单目摄像头2、图像处理模块3和控制模块4。

单目摄像头2拍摄视频图像，向图像处理模块3输入该视频图像。

图像处理模块3中包括深度检测模型，根据该视频图像，基于该深度检测模块获取该视频图像中的每个像素点的深度信息；根据每个像素点的深度信息，检测出可行驶区域。

其中图像处理模块3位于嵌入式平台处理器上，通过对视频图像进行处理获取视频图像中的每个像素点对应的深度信息。

控制模块4根据该可行驶区域控制设备1行驶。

参见图3，图像处理模块3可以包括单目深度估计单元31、三维点云处理单元32和可行驶区域检测单元33。

单目深度估计单元31包括深度检测模型，将单目摄像头2拍摄的视频图像输入到该深度检测模块，获取该深度检测模型输出的该视频图像中的每个像素点的深度信息。

三维点云处理单元32根据该视频图像中的每个像素点的深度信息，确定设备1周围的物理点的位置信息。

可行驶区域检测单元33根据每个物理点的位置信息检测出可行驶区域。

上述深度检测模型是通过训练得到的，参见图4，本申请实施例提供了一种训练深度检测模型的方法，包括：

步骤201：获取设备在移动时单目摄像头采集的M帧视频图像，M为大于或等于2的整数。

在本步骤中，设备可以在路面上正常行驶，使用安装在设备上的单目摄像头采集一帧一帧的视频图像，将连续采集的M个视频图像组成一个训练样本组，接下来使用该训练样本组训练第一深度学习网络。

第一深度学习网络可以为卷积神经网络等。第一深度学习网络用于检测视频图像中的每个像素点的深度信息，像素点的深度信息可以包括该像素点的深度值。

步骤202：将第一视频图像输入到第一深度学习网络，获取第一深度学习网络输出的第一视频图像中的每个像素点的深度信息，第一视频图像是该M帧视频图像中的任一帧视频图像。

将第一视频图像输入到第一深度学习网络，第一深度学习网络用于检测第一视频图像中的每个像素点的深度信息。此时第一深度学习网络检测的每个像素点的深度信息可能存在较大的误差，需要通过如下步骤来调整第一深度学习网络的网络参数，以逐渐提高第一深度学习网络检测像素点的深度信息的精度。

第一深度学习网络在检测出第一视频图像中的每个像素点的深度信息后，输出第一视频图像中的每个像素点的深度信息。相应的，获取第一深度学习网络输出的第一视频图像中的每个像素点的深度信息。

步骤203：获取第一视频图像和第二视频图像之间的位姿关系，第二视频图像是该M帧视频图像中除第一视频图像之外的一帧视频图像。

第一视频图像和第二视频图像之间的位姿关系包括拍摄第一视频图像的摄像机的位置参数和光心中心点的位置信息，以及拍摄第二视频图像的摄像机的位置参数和光心中心点的位置信息。摄像机的位置参数包括摄像机的俯仰角、偏航角和滚转角。摄像机的光心中心点的位置信息可以为该光心中心点在坐标系的坐标。该坐标系的坐标原点为该摄像机在设备上的安装位置在路面上的落地点。

在本步骤中，可以通过如下两种方式来实现。该两种方式包括：

第一种方式，获取多个像素点对，对于任一个像素点对，该像素点对包括第一视频图像中的一个像素点和第二视频图像中的一个像素点，该像素点对包括的每个像素点对应的物理点相同；根据该多个像素点对确定第一视频图像和第二视频图像之间的位姿关系。

第二种方式，将第一视频图像和第二视频图像输入到第二深度学习网络，第二深度学习网络用于确定第一视频图像和第二视频图像之间的位姿关系，获取第二深度学习网络输出的第一视频图像和第二视频图像之间的位姿关系。

第二深度学习网络可以为卷积神经网络等。第二深度学习网络用于确定两幅视频图像之间的位姿关系。将第一视频图像和第二视频图像输入到第二深度学习网络，第二深度学习网络用于确定第一视频图像和第二视频图像之间的位姿关系。此时第二深度学习网络确定的位姿关系可能存在较大的误差，需要通过如下步骤来调整第二深度学习网络的网络参数，以逐渐提高第二深度学习网络确定位姿关系的精度。

第二深度学习网络在确定出第一视频图像和第二视频图像之间的位姿关系后，输出第一视频图像和第二视频图像之间的位姿关系。相应的，获取第二深度学习网络输出的第一视频图像和第二视频图像之间的位姿关系。

步骤204：根据第一视频图像中的每个像素点的深度信息和该位姿关系生成合成图像。

单目摄像头的标定安装参数包括单目摄像头的位置信息或拍摄角度等信息中的至少一个。在本步骤中，先建立一个坐标系，该坐标系的坐标原点可以是单目摄像头在设备上的安装位置在路面上的落地点，单目摄像头的位置信息实际为单目摄像头在该坐标系中的位置，包括横坐标、纵坐标和高度。

第一视频图像中的每个像素点对应实际物理空间中的一个物理点，对于第一视频图像中的每个像素点，该像素点的深度信息为该像素点对应的物理点到单目摄像头的拍摄镜头之间的距离，或者，该像素点的深度信息是0至255的深度表，该像素点的深度信息用于表示该像素点对应的物理点到单目摄像头的拍摄镜头之间的距离。

本步骤可以通过如下2041至2043的操作来实现，该2041至2043的操作分别为：

2041：根据第一视频图像中的每个像素点的深度信息，计算第一视频图像中的每个像素点对应的物理点与单目摄像头之间的距离。

每个物理点与单目摄像头之间的距离是单目摄像头在拍摄第一视频图像时与每个物理点之间的距离。

2042：根据每个物理点与单目摄像头之间的距离以及第一视频图像和第二视频图像之间的位姿关系，计算出每个物理点在第二视频图像对应的像素点的位置。

参见图5，第一视频图像和第二视频图像之间的拍摄时间间隔较短，第一视频图像和第二视频图像是单目摄像机对相同的实际物理空间进行拍摄得到的两幅图像。所以对于实际物理空间中的物理点P，该物理点P在第一视频图像中对应一个像素点P1以及在第二视频图像中对应一个像素点P2。

通常情况下该物理点在第一视频图像中对应一个像素点P1的像素值等于该物理点在第二视频图像中对应一个像素点P2的像素值。

2043：创建尺寸与第一视频图像的尺寸相等的空白图像，对于每个物理点，根据该物理点在第二视频图像对应的像素点的位置，将该物理点在第二视频图像对应的像素点的像素值保存在该空白图像中，得到合成图像。

得到的合成图像可能与第二视频图像之间存在差异，该差异是由于第一深度学习网络检测出的第一视频图像中的每个像素点的深度信息中存在的误差导致的。如果采用上述第二种方式得到第一视频图像和第二视频图像之间的位姿关系，则该差异还可以是由于第二深度学习网络确定出的第一视频图像和第二视频图像之间的位姿关系中存在的误差导致的。

步骤205：获取该合成图像和第二视频图像之间的差异信息，在该差异信息超过预设的差异阈值，则执行步骤206，在该差异信息未超过预设的差异阈值，则将第一深度学习网络确定深度检测模型，结束。

可以从该合成图像和第二视频图像中获取位于同一位置的两个像素点的像素值，计算该两个像素点之间的像素差值。按上述方式可以获取其他位于同一位置的两个像素点的像素差值。该合成图像和第二视频图像之间的差异信息包括获取的各像素差值的平均值。

在本步骤获得该位姿信息后，物理点P点能够投影至第二视频图像中。所有第一视频图像中的像素点均能投影至第二视频图像平面，构成一张合成图像。该合成图像与实际拍摄的参考帧存在差异，使用该差异构建深度学习训练过程中的损失函数。当差异越小时，P点位置越准确，从而使得像素点的深度信息越准确。如此，能够不依赖额外的深度传感器训练深度检测模型。

步骤206：调整第一深度学习网络的网络参数，返回执行步骤202。

调整完第一深度学习网络的网络参数后，返回执行上述步骤202至206的操作，直至得到深度检测模型。

在本申请实施例中，单目图像深度估计方法，不需要依赖其他深度传感器，仅从运动状态中的M帧视频图像即可训练第一深度学习网络，减少了训练深度检测模型的复杂度，也避免了使用深度传感器构建监督信号时标定等引起的误差。

训练出深度检测模型后，就可以使用深度检测模型检测可行驶区域。参见图6，本申请实施例提供了一种检测可行驶区域的方法，包括：

步骤401：获取安装在设备上的单目摄像头采集的视频图像。

设备可以在路面上正常行驶，使用安装在设备上的单目摄像头采集一帧一帧的视频图像。

在单目摄像头每采集到一帧视频图像时，获取单目摄像头采集的视频图像。或者，获取单目摄像头采集的一帧视频图像，且获取的该帧视频图像与最近上一次获取的视频图像之间间隔至少一帧视频图像。

步骤402：将该视频图像输入到深度检测模型，该深度检测模型用于检测该视频图像中的每个像素点的深度信息，获取该深度检测模型输出的该视频图像中的每个像素点的深度信息。

可选的，该设备上还可以安装有深度传感器，该深度传感器可以采集到设备所在空间中的各物理点的深度信息。

可以将深度传感器采集的每个物理点的深度信息和该视频图像中的每个素点的深度信息进行融合。实现过程可以为：

对于深度传感器在采集任一个物理点的深度信息，根据预设的转换矩阵可以确定该物理点在该视频图像中对应的像素点，计算该像素点的深度信息和该物理点的深度信息之间的平均深度信息，将该像素点的深度信息替换为该平均深度信息。从而可以提高该像素点的深度信息的精度。

预设的转换矩阵是事先根据深度传感器的安装位置和采集方向，以及单目摄像头的安装位置和拍摄方向确定的，是单目摄像头的坐标系与深度传感器的坐标系之间的转换关系。单目摄像头的坐标系是以单目摄像头在设备上安装位置在路面上的落地点建立的坐标系，深度传感器的坐标系是深度传感器在设备上安装位置在路面上的落地点建立的坐标系。

在本步骤中，不需要额外双目镜头或者深度传感器，通过深度检测模型即能够获取单目摄像头采集到的视频图像的深度信息，从而对深度信息进行处理得到可行驶区域和不可行驶区域，减少了系统复杂性，适用于各种简单的单目镜头系统。

步骤403：根据每个像素点的深度信息和该单目摄像头的标定安装参数，确定每个像素点对应的物理点的位置信息。

每个像素点对应的物理点的位置信息是在单目摄像头的坐标系中的位置信息。

步骤404：根据每个物理点的位置信息确定可行驶区域。

在本步骤中，可以通过如下两种方式来实现，该两种方式分别为：

第一种方式，根据单目摄像头在设备上的安装位置在路面上的落地点的位置信息构建栅格地图，该栅格地图包括多个栅格；根据每个物理点的位置信息确定落入该栅格地图中的每个栅格的物理点数目；获取落入的物理点数目小于预设数目阈值的栅格，并根据获取的栅格确定可行驶区域。

参见图7，根据单目摄像头在设备上的安装位置在路面上的落地点的位置信息构建栅格地图，该栅格地图是与路面重合的平面。在某个栅格上有障碍物，则在栅格上方会有较多的物理点，这样落入该栅格的物理点的数目较多，大于没有障碍物的栅格。所以落入的物理点数目小于预设数目阈值的栅格，该栅格中可能没有障碍物，而落入的物理点数目大于或等于预设数目阈值的栅格，该栅格中可能有障碍物。因此可以落入的物理点数目小于预设数目阈值的栅格确定为可行驶区域。

第二种方式，从每个物理点中获取高度位于高度范围内的物理点，该高度范围包括路面高度且该高度范围的区间长度为预设长度阈值；根据位于该高度范围内的物理点确定可行驶区域。

该高度范围内的平均高度可以等于路面高度。路面高度可以是预设的高度，通常预设的路由高度为0。路面中的各点的高度会在高度0的上下波动，且通常位于该高度范围内上下波动，因此可以将位于该高度范围内的物理点确定为路面上的物理点，将包括位于该高度范围内的物理点的最小区域确定为可行驶区域。

作为一种示例，根据位于该高度范围内的各物理点的位置信息，对位于该高度范围内的各物理点进行聚类得到至少一个物理点集合，同一物理点集合中的任意相邻的两个物理点之间的距离不超过预设距离阈值；确定包括该物理点集合中的每个物理点的最小区域作为可行驶区域。

汽车行驶在立交桥或高架桥等情况，汽车前方出现两条分岔的路面，其中一条路面上的物理点组成一个物理点集合，另一条路由上的物理点组成一个物理点集合，从而基于该两个物理点集合可以确定两个可行驶区域，即确定该两条路面。

可选的，可以将上述两种方式确定的可行驶区域进行融合。融合后的处理方法也可以是栅格地图和高度信息融合处理方法，结合处理能够更加精确的判断可行驶区域。为了使检测出的可行驶区域的精度更高，可以对上述两种方式确定的可行驶区域取交集。或者，为了得到更大范围的可行驶区域，可以对上述两种方式确定的可行驶区域取并集，实现将上述两种方式融合。

在该方案中对采集的视频图像进行像素点深度估计，利用标定参数恢复三维点云数据，即得到的各物理点的位置信息，对点云数据进行三维障碍物检测(即上述第一种方式、第二种方式)，从而判定可行驶区域和不可行驶区域。

在该单目摄像头的方案，训练出深度检测模型，利用深度检测模型检测视频图像中的每个像素点的深度信息，基于每个像素点的深度信息得到物理点的位置信息，根据物理点的位置信息得到可行驶区域。这样深度检测模型不用检测视频图像中的可行驶区域图像和不可以行驶区图像。如此在训练深度信息检测模型时，不需要进行大量样本的费时标注可行驶区域图像和不可行驶区域图像，也避免标注过程中的标准精度误差，同时也避免了针对标注检测方法只能检测标注的特定特征物的情况。

在本申请实施例中，在训练深度检测模型时，通过第二深度学习网络来训练第一深度学习网络，或者，通过多个像素点对训练第一深度学习网络，像素点对包括两幅视频图像中同一物理点对应的两个像素点。这样在训练深度检测模型时不需要人工标注样本，提高了训练出的深度检测模型的精度。训练出深度检测模型后，通过安装在设备上的单目摄像头采集的视频图像；将视频图像输入到深度检测模型，该深度检测模型用于检测视频图像中的每个像素点的深度信息，获取该深度检测模型输出的所述视频图像中的每个像素点的深度信息；根据每个像素点的深度信息和单目摄像头的标定安装参数，确定每个像素点对应的物理点的位置信息；根据每个物理点的位置信息确定可行驶区域。由于该深度检测模型用于检测视频图像中的每个像素点的深度信息，这样深度检测模型不需要检测可行驶区域图像和不可行驶区域图像，在训练样本中不需要标注可行驶区域图像和不可行驶区域图像，从而不会因为标注样本影响检测可行驶区域的精度，提高了检测可行驶区域的精度。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

参见图8，本申请实施例提供了一种检测可行驶区域的装置700，所述装置700包括：

第一获取模块701，用于获取安装在设备上的单目摄像头采集的视频图像；

第二获取模块702，用于将所述视频图像输入到深度检测模型，所述深度检测模型用于检测所述视频图像中的每个像素点的深度信息，获取所述深度检测模型输出的所述视频图像中的每个像素点的深度信息；

第一确定模块703，用于根据所述每个像素点的深度信息和所述单目摄像头的标定安装参数，确定所述每个像素点对应的物理点的位置信息；

第二确定模块704，用于根据每个物理点的位置信息确定可行驶区域。

作为一种示例，所述第二确定模块704包括：

作为一种示例，物理点的位置信息包括所述物理点的横坐标、纵坐标和高度；所述第二确定模块704包括：

作为一种示例，所述第二确定单元，用于：

作为一种示例，所述装置700还包括

作为一种示例，所述训练模块，包括：

作为一种示例，所述第四获取单元，用于：

所述训练模块还包括：

作为一种示例，所述生成单元，用于：

在本申请实施例中，训练模块在训练深度检测模型时，训练模块通过第二深度学习网络来训练第一深度学习网络，或者，通过多个像素点对训练第一深度学习网络，像素点对包括两幅视频图像中同一物理点对应的两个像素点。这样在训练深度检测模型时不需要人工标注样本，提高了训练出的深度检测模型的精度。训练出深度检测模型后，第一获取模块通过安装在设备上的单目摄像头采集的视频图像；第二获取模块将视频图像输入到深度检测模型，该深度检测模型用于检测视频图像中的每个像素点的深度信息，获取该深度检测模型输出的所述视频图像中的每个像素点的深度信息；第一确定模块根据每个像素点的深度信息和单目摄像头的标定安装参数，确定每个像素点对应的物理点的位置信息；第二确定模块根据每个物理点的位置信息确定可行驶区域。由于该深度检测模型用于检测视频图像中的每个像素点的深度信息，这样深度检测模型不需要检测可行驶区域图像和不可行驶区域图像，在训练样本中不需要标注可行驶区域图像和不可行驶区域图像，从而不会因为标注样本影响检测可行驶区域的精度，提高了检测可行驶区域的精度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9示出了本发明一个示例性实施例提供的终端800的结构框图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、车载终端等。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的检测可行驶区域的方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯像或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯像或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯像组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种检测可行驶区域的方法，其特征在于，所述方法包括：

获取设备在移动时单目摄像头采集的M帧视频图像，M为大于或等于2的整数；

根据所述M帧视频图像训练第一深度学习网络得到深度检测模型；

获取安装在所述设备上的单目摄像头采集的视频图像；

根据每个物理点的位置信息确定可行驶区域；

其中，所述根据所述M帧视频图像训练第一深度学习网络得到所述深度检测模型，包括：

2.如权利要求1所述的方法，其特征在于，所述根据每个物理点的位置信息确定可行驶区域，包括：

3.如权利要求1所述的方法，其特征在于，物理点的位置信息包括所述物理点的横坐标、纵坐标和高度；所述根据每个物理点的位置信息确定可行驶区域，包括：

根据位于所述高度范围内的物理点确定可行驶区域。

4.如权利要求3所述的方法，其特征在于，所述根据位于所述高度范围内的物理点确定可行驶区域，包括：

5.如权利要求1所述的方法，其特征在于，所述获取所述第一视频图像和第二视频图像之间的位姿关系，包括：

6.如权利要求1所述的方法，其特征在于，所述获取所述第一视频图像和第二视频图像之间的位姿关系，包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述第一视频图像中的每个像素点的深度信息、所述单目摄像头的标定安装参数和所述位姿关系生成合成图像，包括：

8.一种检测可行驶区域的装置，其特征在于，所述装置包括：

第三获取模块，用于获取设备在移动时单目摄像头采集的M帧视频图像，M为大于或等于2的整数；

训练模块，用于根据所述M帧视频图像训练第一深度学习网络得到深度检测模型；

第一获取模块，用于获取安装在所述设备上的单目摄像头采集的视频图像；

第二确定模块，用于根据每个物理点的位置信息确定可行驶区域；

其中，所述训练模块，包括：

9.如权利要求8所述的装置，其特征在于，所述第二确定模块包括：

10.如权利要求8所述的装置，其特征在于，物理点的位置信息包括所述物理点的横坐标、纵坐标和高度；所述第二确定模块包括：

11.如权利要求10所述的装置，其特征在于，所述第二确定单元，用于：

12.如权利要求8所述的装置，其特征在于，所述第四获取单元，用于：

13.如权利要求8所述的装置，其特征在于，所述第四获取单元，用于：

所述训练模块还包括：

14.如权利要求8所述的装置，其特征在于，所述生成单元，用于：