CN113177976A

CN113177976A - 一种深度估计方法、装置、电子设备及存储介质

Info

Publication number: CN113177976A
Application number: CN202110488366.8A
Authority: CN
Inventors: 曾印权; 刘帅; 徐本睿
Original assignee: Shenzhen Anngic Technology Co ltd
Current assignee: Shenzhen Anngic Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-27
Anticipated expiration: 2041-04-29
Also published as: CN113177976B

Abstract

本申请提供一种深度估计方法、装置、电子设备及存储介质，用于改善获得的深度信息的精确度难以满足驾驶要求的问题。该方法包括：获取待推理图像，待推理图像是使用单目摄像头采集的；使用神经网络模型对待推理图像进行推理，获得待推理图像中的预测目标框和预测目标框对应的估计深度信息，神经网络模型是使用单目图像进行训练后获得的，单目图像是对双目摄像头采集的图像进行单目化处理获得的，预测目标框表征待推理图像中的目标对象所在位置区域，估计深度信息为目标对象与单目摄像头之间的距离。

Description

一种深度估计方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理和自动驾驶的技术领域，具体而言，涉及一种深度估计方法、装置、电子设备及存储介质。

背景技术

在辅助驾驶、自动驾驶或无人驾驶领域中，通常使用单目摄像头采集汽车的正前方图像，并对正前方图像进行目标检测，从而识别出目标对象在正前方图像中的区域位置，再使用激光雷达和毫米波雷达等测距传感器来测量目标对象与单目摄像头之间的距离。由于该目标对象是该正前方图像的深度方向(可以理解为与XY坐标垂直的Z坐标方向)上，因此，该目标对象与单目摄像头之间的距离通常也被称为目标对象的深度信息。

在具体的实践过程中发现，在单目摄像头相对于地面的高度、光轴与地面的夹角保持不变的情况下，使用上述的测距传感器确定出的深度信息较为准确。然而，如果汽车始终在山路或者颠簸路面等环境运动过程中，就会出现刹车、启动、加速、减速和上下坡等情况，这些情况导致使用上述的测距传感器确定出的深度信息出现的误差迅速变大，获得的深度信息的精确度难以满足驾驶要求。

发明内容

本申请实施例的目的在于提供一种深度估计方法、装置、电子设备及存储介质，用于改善获得的深度信息的精确度难以满足驾驶要求的问题。

本申请实施例提供了一种深度估计方法，包括：获取待推理图像，待推理图像是使用单目摄像头采集的；使用神经网络模型对待推理图像进行推理，获得待推理图像中的预测目标框和预测目标框对应的估计深度信息，神经网络模型是使用单目图像进行训练后获得的，单目图像是对双目摄像头采集的图像进行单目化处理获得的，预测目标框表征待推理图像中的目标对象所在位置区域，估计深度信息为目标对象与单目摄像头之间的距离。在上述的实现过程中，通过使用神经网络模型对单目摄像头采集的待推理图像进行推理，由于该神经网络模型是使用精度更高的双目图像单目化处理的图像训练的，且在单目化处理过程中筛选出表征真实距离的像素点，使得训练出的神经网络模型的正确率更高。该深度估计方法不依赖于外部的测距传感器等，减少了测距传感器和单目摄像头在时间上不同步或在空间上没对齐导致的误差，从而提高了估计深度信息的精确度。

可选地，在本申请实施例中，在使用神经网络模型对待推理图像进行推理之前，还包括：获取第一图像和第二图像，第一图像和第二图像是双目摄像头针对目标对象采集的不同图像，双目摄像头的光圈中心点之间的距离等于预先计算出的基线值；对第一图像和第二图像进行单目化处理，获得多个单目图像，以及单目图像对应的目标框和深度信息；以多个单目图像为训练数据，以多个单目图像对应的目标框和深度信息为训练标签，对神经网络进行训练，获得神经网络模型。在上述的实现过程中，由于采集时的训练数据是使用双目摄像头来采集的，因此，在同样的时间内，能够获得相对于获取单目数据两倍的数据量，并对第一图像和第二图像进行单目化处理，从而获得更多的训练数据，然后使用更多的训练数据对神经网络进行训练，使得获得的神经网络模型在推理时的准确率更高。

可选地，在本申请实施例中，对第一图像和第二图像进行单目化处理，包括：在第一图像上标注出目标对象的第一目标框，并在第二图像上标注出目标对象的第二目标框，目标框表征目标对象在图像中的位置区域；根据第一目标框和第二目标框计算目标对象的深度信息。在上述的实现过程中，通过使用基线值的双目摄像头来获取目标对象的第一图像和第二图像，该基线值是事先计算出的最佳基线值，在双目摄像头光圈中心点之间的距离设置为最佳基线值的情况下，该双目摄像头能够采集到更多表示真实距离的像素点，从而获得精度更高的图像。

可选地，在本申请实施例中，根据第一目标框和第二目标框计算目标对象的深度信息，包括：从第一目标框内和第二目标框内筛选出目标框内像素点个数较少的像素目标框；根据双目测距原理计算出像素目标框内所有像素点的深度信息，像素点的深度信息为像素点在目标对象的位置点与双目摄像头之间的距离；从像素目标框内所有像素点中剔除离群像素点和背景像素点，获得多个代表像素点；计算出多个代表像素点的深度信息平均值，并将深度信息平均值确定为目标对象的深度信息。在上述的实现过程中，通过双目测距原理计算出像素目标框内所有像素点的深度信息，并根据像素目标框内所有像素点的深度信息确定目标对象的深度信息，从而使得获取数据阶段中不需要使用额外获取深度信息的传感器(例如红外测距仪等等)，避免了使用多传感器数据在时间空间维度上需要同步或者对齐而导致误差增加的问题，有效地提高了估计深度信息的精确度。

可选地，在本申请实施例中，双目摄像头包括：第一摄像头和第二摄像头；根据双目测距原理计算出像素目标框内所有像素点的深度信息，包括：对第一目标框和第二目标框进行特征匹配，获得第一摄像头与第二摄像头之间的视差；根据基线值和视差计算出像素目标框内所有像素点的深度信息。在上述的实现过程中，通过对第一目标框和第二目标框进行特征匹配，获得第一摄像头与第二摄像头之间的视差，并根据基线值和视差计算出像素目标框内所有像素点的深度信息，从而使得获取数据阶段中不需要使用额外获取深度信息的传感器(例如红外测距仪等等)，避免了使用多传感器数据在时间空间维度上需要同步或者对齐而导致误差增加的问题，有效地提高了估计深度信息的精确度。

可选地，在本申请实施例中，在获得待推理图像中的预测目标框和预测目标框对应的估计深度信息之后，还包括：判断估计深度信息对应的距离是否小于预设距离；若是，则生成并输出辅助预警信号，或者，通过刹车系统进行减速。在上述的实现过程中，通过在估计深度信息对应的距离小于预设距离时，则生成并输出辅助预警信号，或者，通过刹车系统进行减速，从而避免了来不及作出反应或者来不及刹车加速导致交通事故的问题，有效地提高了辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品的安全性。

可选地，在本申请实施例中，在获得待推理图像中的预测目标框和预测目标框对应的估计深度信息之后，还包括：判断预测目标框与待推理图像的比例值是否大于预设比例；若是，则重新规划路径，以避开预测目标框中的目标对象。在上述的实现过程中，通过在预测目标框与待推理图像的比例值大于预设比例时，则重新规划路径，从而避开了预测目标框中的目标对象，有效地提高了辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品的安全性。

本申请实施例还提供了一种深度估计装置，包括：推理图像获取模块，用于获取待推理图像，待推理图像是使用单目摄像头采集的；图像深度估计模块，用于使用神经网络模型对待推理图像进行推理，获得待推理图像中的预测目标框和预测目标框对应的估计深度信息，神经网络模型是使用单目图像进行训练后获得的，单目图像是对双目摄像头采集的图像进行单目化处理获得的，预测目标框表征待推理图像中的目标对象所在位置区域，估计深度信息为目标对象与单目摄像头之间的距离。

可选地，在本申请实施例中，深度估计装置，还包括：双目图像获取模块，用于获取第一图像和第二图像，第一图像和第二图像是双目摄像头针对目标对象采集的不同图像，双目摄像头的光圈中心点之间的距离等于预先计算出的基线值；图像单目化处理模块，用于对第一图像和第二图像进行单目化处理，获得多个单目图像，以及单目图像对应的目标框和深度信息；网络模型训练模块，用于以多个单目图像为训练数据，以多个单目图像对应的目标框和深度信息为训练标签，对神经网络进行训练，获得神经网络模型。

可选地，在本申请实施例中，图像单目化处理模块，包括：目标图像标注模块，用于在第一图像上标注出目标对象的第一目标框，并在第二图像上标注出目标对象的第二目标框，目标框表征目标对象在图像中的位置区域；深度信息计算模块，用于根据第一目标框和第二目标框计算目标对象的深度信息。

可选地，在本申请实施例中，深度信息计算模块，包括：目标边框筛选模块，用于从第一目标框内和第二目标框内筛选出目标框内像素点个数较少的像素目标框；深度信息计算模块，用于根据双目测距原理计算出像素目标框内所有像素点的深度信息，像素点的深度信息为像素点在目标对象的位置点与双目摄像头之间的距离；深度信息筛选模块，用于从像素目标框内所有像素点中剔除离群像素点和背景像素点，获得多个代表像素点；深度信息确定模块，用于计算出多个代表像素点的深度信息平均值，并将深度信息平均值确定为目标对象的深度信息。

可选地，在本申请实施例中，双目摄像头包括：第一摄像头和第二摄像头；深度信息计算模块，包括：摄像视差获得模块，用于摄像头对第一目标框和第二目标框进行特征匹配，获得第一摄像头与第二摄像头之间的视差；像素深度计算模块，用于根据基线值和视差计算出像素目标框内所有像素点的深度信息。

可选地，在本申请实施例中，深度估计装置，还包括：深度距离判断模块，用于判断估计深度信息对应的距离是否小于预设距离；辅助预警减速模块，用于若估计深度信息对应的距离小于预设距离，则生成并输出辅助预警信号，或者，通过刹车系统进行减速。

可选地，在本申请实施例中，深度估计装置，还包括：边框比例判断模块，用于判断预测目标框与待推理图像的比例值是否大于预设比例；路径重新规划模块，用于若预测目标框与待推理图像的比例值大于预设比例，则重新规划路径，以避开预测目标框中的目标对象。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的获取数据阶段的流程示意图；

图2示出的本申请实施例提供的双目测距原理的示意图；

图3示出的本申请实施例提供的像素点深度信息的分布示意图；

图4示出的本申请实施例提供的训练神经网络模型的示意图；

图5示出的本申请实施例提供的单目化处理的过程示意图；

图6示出的本申请实施例提供的模型推理阶段的流程示意图；

图7示出的本申请实施例提供的深度估计装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的深度估计方法之前，先介绍本申请实施例中所涉及的一些概念：

目标检测网络，是指对图像中的目标对象进行检测的神经网络，即检测出图像中的目标对象，并给出目标对象在图像中的位置范围、分类和概率，位置范围具体可以为检测框的形式标注，分类是指目标对象的具体类别，概率是指检测框中的目标对象为具体类别的概率。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

需要说明的是，本申请实施例提供的深度估计方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)或者移动上网设备(mobile Internet device，MID)等。

在介绍本申请实施例提供的深度估计方法之前，先介绍该深度估计方法适用的应用场景，这里的应用场景包括但不限于辅助驾驶、自动驾驶或无人驾驶领域等，具体例如：辅助驾驶系统、无人机、无人车或者机器人等系统中使用该深度估计方法估计出单目摄像头采集图像中的深度信息，以提高对单目摄像头采集的图像进行深度估计的精确度。在具体的实践中，还可以使用该深度估计方法获得的图像目标框和图像深度信息训练神经网络，然后使用训练后的神经网络模型推理出图像中目标对象的目标框和深度信息，具体例如：辅助驾驶系统、无人机、无人车或者机器人等系统中使用训练后的神经网络模型推理出前方障碍物的深度信息，此处的深度信息可以理解为前方障碍物与采集摄像头之间距离，以便辅助驾驶系统、无人机、无人车或者机器人等进行避障处理，避障处理例如：输出辅助预警、刹车减速、变道转向或者重新规划路径等等处理。

下面分析使用上述的测距传感器确定深度信息的精确度较差的原因：第一个原因，在山路或者颠簸路面等环境中，由于测距传感器和单目摄像头的晃动程度不同，在单目摄像头上出现多个待检测目标时，多个测距传感器测量的深度信息难以与单目摄像头中的多个待检测目标匹配对齐，因此，需要额外的校正算法来避免测距传感器和单目摄像头的视角范围、对准角度和晃动程度等等带来的影响，在校正的基础上进行匹配对齐；第二个原因，测距传感器的测距动作和单目摄像头的拍摄动作难以在时间上同步进行，即测距传感器测量的深度信息和单目摄像头拍摄的图像难以在同一时刻获取；如果用高精度的控制芯片控制两者，也很难达到两者的误差小于毫秒。

为了克服上面的缺陷，本申请实施例提出深度估计方法，该深度估计方法主要思路是，通过使用神经网络模型对单目摄像头采集的待推理图像进行推理，由于该神经网络模型是使用精度更高的双目图像单目化处理的图像训练的，且在单目化处理过程中筛选出表征真实距离的像素点，使得训练出的神经网络模型的正确率更高。该深度估计方法不依赖于外部的测距传感器等，减少了测距传感器和单目摄像头在时间上不同步或在空间上没对齐导致的误差，从而提高了估计深度信息的精确度。

可以理解的是，上述的深度估计方法可以包括：获取数据、模型训练、模型推理和深度信息应用四个阶段；获取数据是指获取双目图像，并对双目图像进行单目化的单目图像、目标框和深度信息，此处的双目图像可以是由设置有最佳基线值的双目摄像头采集的；模型训练是指使用上述单目图像、目标框和深度信息对神经网络进行训练，获得神经网络模型；模型推理是指使用神经网络模型对待推理图像的目标框和深度信息进行推理；深度信息应用是指使用目标框和深度信息来进行预警、减速或者重新规划路径等等实际应用。

请参见图1示出的本申请实施例提供的获取数据阶段的流程示意图；该获取数据阶段具体可以包括：

步骤S110：获取第一图像和第二图像，第一图像和第二图像是双目摄像头针对目标对象采集的不同图像。

双目图像，是指双目摄像头针对目标对象采集的不同图像，例如双目图像可以包括第一图像和第二图像。

上述步骤S110的实施方式有很多种，包括但不限于如下几种：第一种实施方式，获取预先存储的双目图像，具体例如：从文件系统中获取双目图像，或者从数据库中获取双目图像，或者从移动存储设备中获取双目图像；第二种获得方式，使用浏览器等软件获取互联网上的双目图像，或者使用其它应用程序访问互联网获得双目图像；第三种获得方式，使用双目摄像头采集前方多个待检测目标的双目图像，并根据这些双目图像计算出最佳基线值；然后，将第一摄像头的光圈中心点与第二摄像头的光圈中心点之间的距离设置为最佳基线值；最后，再使用设置有最佳基线值的双目摄像头采集前方多个待检测目标的双目图像。

上述的第三种实施方式具体例如：在双目摄像头的最远检测距离内的轴线上等间距放置多个待检测目标，并获取每个待检测目标的真实距离；将双目摄像头的基线值设置为较小的初始值，然后使用双目摄像头采集前方的双目图像。最后，使用第一摄像头获取目标对象的第一图像，并使用第二摄像头获取目标对象的第二图像，第一摄像头与第二摄像头是双目摄像头，第一摄像头的光圈中心点与第二摄像头的光圈中心点之间的距离等于预先计算出的基线值。

需要说明的是，第一摄像头和第二摄像头可以是无人机、无人车、带有辅助驾驶系统的智能车或者机器人上仅仅安装的双目摄像头，也可以是无人机、无人车、带有辅助驾驶系统的智能车或者机器人上的多目摄像头中的两个摄像头，具体例如：从三目摄像头、四目摄像头或者四目以上摄像头中根据基线值筛选出的第一摄像头和第二摄像头，此处的多目摄像头是指多个摄像头是几乎同时获取目标对象的图片，例如控制器同时向多目摄像头发送采集图像的指令。

请参见图2示出的本申请实施例提供的双目测距原理的示意图；假设双目摄像头包括左侧的第一摄像头和右侧的第二摄像头，第一摄像头和第二摄像头均是由同一个单芯片控制同时曝光和采集图像。深度信息可以使用公式z＝f*b/d计算获得，其中，z表示每个目标对象O点到双目摄像头的测算距离，f表示第一摄像头或第二摄像头的焦距(两者的焦距可以相同)，b表示当前双目摄像头的基线值，即第一摄像头的光圈中心点C1与第二摄像头的光圈中心点C2之间的距离，d表示目标对象在第一摄像头上的成像中心点P1和在第一摄像头上的成像中心点P2之间的距离，即第一摄像头和第二摄像头之间的视差。

由上面的分析可知，假设双目摄像头的焦距不变且双目摄像头与目标对象的距离(即目标对象的深度信息)不变的情况下，增加双目摄像头的基线值(即当前第一摄像头和第二摄像头之间的距离)使得第一摄像头和第二摄像头的视差值增加，在成像平面上能够获得更多表示真实距离的像素点。但是，如果双目摄像头的基线值太大，则会导致较近两侧边缘的目标对象无法同时在双目摄像头中呈现出平面成像。因此，需要计算出最佳基线值来避免目标对象无法同时在双目摄像头中呈现出平面成像的情况。

上述计算出最佳基线值的方式可以采用给定误差范围的方式来计算，具体过程可以包括：

步骤S111：在双目摄像头的最远检测距离内的轴线上等间距放置多个待检测目标，将双目摄像头的基线值设置为较小的初始值，然后调整双目摄像头的基线值，并使用双目摄像头采集前方的多个目标对象的双目图像。

上述步骤S111的实施方式例如：调整双目摄像头的基线值，并利用双目摄像头采集前方多个目标对象的双目图像，获得双目图像，双目图像包括第一图像和第二图像，第一图像和第二图像是针对同一目标对象同时曝光和采集的。可以理解的是，上述的多个目标对象均是在双目摄像头的最远检测距离之内的，此处的最远检测距离在图2中可以使用Dm表示。

步骤S112：对双目图像上的每个目标分别进行标注，获得目标框对，该目标框对包括第一目标框和第二目标框。

上述步骤S112的实施方式例如：在双目图像中的第一图像上标注出每个目标对象的第一目标框，并在双目图像中的第二图像上标注出每个目标对象的第二目标框。可以理解的是，由于待检测目标和双目图像的数量均比较少，因此，此处的标注动作可以使用人工来进行标注，从而有效地提高标注精度和图像质量。

步骤S113：通过双目测距原理对第一目标框和第二目标框进行计算，获得每个目标对象到双目摄像头的测算距离。

上述的步骤S113的实施方式例如：从第一目标框内和第二目标框内筛选出目标框内像素点个数较少的像素目标框；根据双目测距原理计算出像素目标框内所有像素点的深度信息；从像素目标框内所有像素点中剔除离群像素点和背景像素点，获得多个代表像素点；计算出多个代表像素点的深度信息平均值，并将深度信息平均值确定为目标对象与双目摄像头之间的测算距离，此处的测算距离就是目标对象与双目摄像头之间的深度信息，上述根据双目测距原理计算出像素目标框内所有像素点的深度信息的具体计算过程将在下面的步骤S130进行详细地描述。

步骤S114：统计每个目标对象的测算距离与真实距离之间的误差，然后从测算距离与真实距离之间的误差筛选出最大误差值。

上述步骤S114的实施方式例如：获取每个目标对象到双目摄像头的真实距离，并使用公式

统计每个目标对象的测算距离与真实距离之间的误差，然后使用公式E_m＝max(E¹,E²,E³,…Eⁱ,…Eⁿ)从测算距离与真实距离之间的误差筛选出最大误差值；其中，Eⁱ表示第i个目标对象的测算距离与真实距离之间的误差，zⁱ表示第i个目标对象到双目摄像头的测算距离，

表示第i个目标对象到双目摄像头的真实距离，此处的真实距离就是指上面待检测目标的放置时，待检测目标与双目摄像头之间的距离，n表示目标对象的总数，该目标对象的总数可以根据具体情况进行设置，例如5至10等等，E_m表示从测算距离与真实距离之间的误差筛选出的最大误差值。

步骤S115：若最大误差值大于预设限定值，则逐渐增加双目摄像头的基线值，然后重复执行步骤S111至步骤S115，直到最大误差值小于或等于预设限定值；其中，此处逐渐增加双目摄像头的基线值可以根据具体情况进行设置，例如设置为0.1、0.2、0.4、1、3或者7等等，预设限定值也可以根据具体情况进行设置，例如设置2％或者5％等等。

步骤S116：若最大误差值小于或等于预设限定值，则将此时双目摄像头的基线值确定为最佳基线值。

在步骤S110之后，执行步骤S120：在第一图像上标注出目标对象的第一目标框，并在第二图像上标注出目标对象的第二目标框。

上述步骤S120的实施方式例如：采用目标检测网络检测出目标对象在第一图像上的第一目标框，并采用该目标检测网络检测出目标对象在第二图像上的第二目标框；其中，目标框表征目标对象在图像中的位置区域，本实施例中的目标检测网络可以采用区域卷积神经网络(Region Convolutional Neural Network，RCNN)、fast RCNN、faster RCNN和特征融合单点多盒检测器(Feature Fusion Single Shot Multibox Detector，FSSD)等网络。当然在具体实施过程中，也可以采用人工标注的方式来标注上述第一图像的目标框和第二图像的目标框。

在步骤S120之后，执行步骤S130：根据第一目标框和第二目标框计算目标对象的深度信息，目标对象的深度信息为目标对象与双目摄像头之间的距离。

上述步骤S130中的据第一目标框和第二目标框计算目标对象的深度信息的实施方式可以包括：

步骤S131：从第一目标框内和第二目标框内筛选出目标框内像素点个数较少的像素目标框。

步骤S132：根据双目测距原理计算出像素目标框内所有像素点的深度信息，像素点的深度信息为像素点在目标对象的位置点与双目摄像头之间的距离。

上述步骤S132的实施方式例如：对第一目标框和第二目标框进行特征匹配，获得第一摄像头与第二摄像头之间的视差；根据双目测距原理对第一摄像头或第二摄像头的焦距、基线值和视差进行计算，获得像素目标框内所有像素点的深度信息；其中，第一摄像头的焦距和第二摄像头的焦距可以是相等的。

步骤S133：从像素目标框内所有像素点中剔除离群像素点和背景像素点，获得多个代表像素点。

请参见图3示出的本申请实施例提供的像素点深度信息的分布示意图；上述步骤S133的实施方式例如：将像素目标框内所有像素点的深度信息从小到大重新排序，获得排序后的像素点集合，此处排序后的像素点集合可以使用Dw来表示，集合Dw的元素个数记作w。然后从像素目标框内所有像素点中剔除离群像素点和背景像素点，具体做法可以直接从排序后的像素点集合Dw中选取第T_l个到第T_h的多个像素点，此处的多个像素点可以表示为集合Ds，集合Ds的元素个数表示为a；其中，T_l＝w·p_l(截断取整)，T_h＝w·p_h(截断取整),P_l、p_h可以根据具体应用场景视情况进行设置，P_l、p_h可以用于剔除目标框中的离群像素点和背景像素点,例如将设置P_l为1％-3％，将p_h设置为40％-60％等。

在上述实现的过程中，通过对目标框内的所有像素点的深度信息进行筛选和平均计算的方式，避免了仅仅通过单个像素点的深度信息来确定目标对象的深度信息，从而有效地提高了目标对象的深度信息的精确度。

步骤S134：计算出多个代表像素点的深度信息平均值，并将深度信息平均值确定为目标对象的深度信息。

上述步骤S134的实施方式例如：使用公式

计算出多个像素点的深度信息平均值，并将深度信息平均值确定为目标对象的深度信息；其中，Z表示深度信息平均值，a表示多个像素点的个数，D_k表示多个像素点中的第k个像素点的深度信息。在上述的实现过程中，由于很多产品存在体积限制，所以双目摄像头通常难以在很多产品发挥良好作用，具体例如：无人机上无法安装基线值较大(例如基线值大于机身10倍)的双目摄像头，而基线值过小的摄像头采集的图像视差难以满足精度要求，因此，本申请实施例将双目摄像头的作用体现在获取数据阶段，从而使得双目摄像头的基线值在理论上可以设置为无穷大，有效地保证了双目摄像头采集的图像视差以满足精度要求。

请参见图4示出的本申请实施例提供的训练神经网络模型的示意图；上面提到深度估计方法可以包括：获取数据、模型训练、模型推理和深度信息应用四个阶段，上面介绍了获取数据阶段，下面详细介绍模型训练阶段。可选地，在本申请实施例中，在根据第一目标框和第二目标框估计目标对象的深度信息之后，还可以将该深度信息作为训练标签训练模型，训练神经网络模型的具体过程可以包括：

步骤S210：获取第一图像和第二图像，第一图像和第二图像是双目摄像头针对目标对象采集的不同图像。

其中，该步骤S210的实施原理和实施方式与步骤S110的实施原理和实施方式是类似的，因此，这里不再说明其实施原理和实施方式，如有不清楚的地方，可以参考对步骤S110的描述。

步骤S220：对第一图像和第二图像进行单目化处理，获得多个单目图像，以及单目图像对应的目标框和深度信息。

请参见图5示出的本申请实施例提供的单目化处理的过程示意图；单目化处理是指在双目图像中的每个图像中标注出目标框所在位置及其目标框对应的深度信息。上述步骤S220的实施方式例如：对第一图像进行单目化处理，获得第一单目图像，并对第二图像进行单目化处理，获得第二单目图像，此后上述第一单目图像和第二单目图像彼此独立，再无任何联系，下称单目图像。上述单目化处理的过程例如：采用目标检测网络标识出目标对象在第一图像上的目标框，此处的第一图像上的目标框可以表示为P1(xL，y，wL，h)；其中，xL表示目标对象在第一图像中目标框的中心点横坐标，y表示目标对象在第一图像中的纵坐标，wL表示目标对象在第一图像上的目标框宽度，h表示目标对象在第一图像上的目标框高度。同理标注第二图像上的目标框P2(xR，y，wR，h)；结合步骤S130的实施方式计算出目标对象的深度信息，即目标对象到双目摄像头的距离可以表示为图中的Z。可得到第一单目图像上的带有深度信息的目标框P1(xL，y，wL，h，Z),第二单目图像上的带有深度信息的目标框P2(xR，y，wR，h，Z)。

步骤S230：以多个单目图像为训练数据，以多个单目图像对应的深度信息和目标框作为训练标签，对神经网络进行训练，获得神经网络模型。

上述步骤S230的实施方式例如：以多个单目图像为训练数据，以多个单目图像对应的目标框和深度信息为训练标签，对神经网络进行训练，使用神经网络估计目标对象与摄像头之间的预测距离、目标对象在图像中的预测框。然后，分别计算目标对象的深度信息与预测距离之间的距离损失，目标框和预测框之间的回归损失。最后，根据距离损失、回归损失计算总损失值，再根据该总损失值更新神经网络的网络权重参数，直到损失值小于预设比例(例如5％或者10％等)或者训练批次(epoch)数量大于预设阈值(例如100或者1000等)时，即可获得神经网络模型。其中，此处的神经网络可以包括：VGG网络、ResNet网络、YOLO网络、MobileNet网络、Wide ResNet网络和Inception网络等。

在上述的实现过程中，使用单目图像训练的神经网络模型对单目摄像头采集的待推理图像进行推理，该单目图像是对双目摄像头采集的图像进行单目化处理获得的。也就是说，由于该神经网络模型是使用精度更高的双目图像单目化处理的图像训练的，且在单目化处理过程中筛选出表征真实距离的像素点，使得训练出的神经网络模型的正确率更高。该深度估计方法不依赖于外部的测距传感器等，减少了测距传感器和单目摄像头在时间上不同步或在空间上没对齐导致的误差，从而提高了估计深度信息的精确度。

请参见图6示出的本申请实施例提供的模型推理阶段的流程示意图；上面提到深度估计方法可以包括：获取数据、模型训练、模型推理和深度信息应用四个阶段，上面介绍了模型训练阶段，下面详细介绍模型推理阶段。可选地，在本申请实施例中，在获得神经网络模型之后，还可以使用训练后的神经网络模型对单目摄像头采集的图像(又被称为单目图像)进行推理，对单目图像进行推理的过程可以包括：

步骤S310：获取待推理图像，该待推理图像是使用单目摄像头采集的。

上述步骤S310中待推理图像的获取方式包括：第一种获得方式，使用单目摄像头、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待推理图像；然后该终端设备向电子设备发送待推理图像，然后电子设备接收终端设备发送的待推理图像，电子设备可以将待推理图像存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的待推理图像，具体例如：从文件系统中获取待推理图像，或者从数据库中获取待推理图像，或者从移动存储设备中获取待推理图像；第三种获得方式，使用浏览器等软件获取互联网上的待推理图像，或者使用其它应用程序访问互联网获得待推理图像。

步骤S320：使用神经网络模型对待推理图像进行推理，获得预测目标框和预测目标框对应的估计深度信息，神经网络模型是使用单目图像进行训练后获得的，单目图像是对双目摄像头采集的图像进行单目化处理获得的。

上述步骤S320的实施方式包括：使用神经网络模型对待推理图像进行推理，获得预测目标框和预测目标框对应的估计深度信息；其中，预测目标框表征待推理图像中的目标对象所在位置区域，估计深度信息为待推理图像中的目标对象与待推理图像的采集摄像头之间的距离，上述的深度估计方法还可以应用在辅助驾驶系统、无人机、无人车或者机器人等电子产品中。

上面提到深度估计方法可以包括：获取数据、模型训练、模型推理和深度信息应用四个阶段，上面介绍了模型推理阶段，下面详细介绍深度信息应用阶段。

可选地，在获得预测目标框和预测目标框对应的估计深度信息之后，还可以对无人机、无人车或者机器人等电子产品进行预警或者减速，预警或者减速的过程可以包括：判断估计深度信息对应的距离是否小于预设距离；若估计深度信息对应的距离小于预设距离，则生成并输出辅助预警信号，或者，通过刹车系统进行减速。该实施方式例如：辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品判断估计深度信息对应的距离是否小于预设距离；若估计深度信息对应的距离小于预设距离，则辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品生成并输出辅助预警信号，或者，辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品通过刹车系统进行减速；其中，上述的预设距离可以根据具体情况进行设置，例如将预设距离设置为100米或者150米等等。

在上述的实现过程中，通过在估计深度信息对应的距离小于预设距离时，则生成并输出辅助预警信号，或者，通过刹车系统进行减速，从而避免了来不及作出反应或者来不及刹车加速导致交通事故的问题，有效地提高了辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品的安全性。

可选地，若上述的深度估计方法应用在无人机、无人车或者机器人等电子产品中，那么在获得预测目标框和预测目标框对应的估计深度信息之后，还可以重新规划路径来主动避开预测目标框中的目标对象(目标对象可以是路障、行人或者对面来车等等)，该重新规划路径的过程可以包括：判断预测目标框与待推理图像的比例值是否大于预设比例；若预测目标框与待推理图像的比例值大于预设比例，则重新规划路径，以避开预测目标框中的目标对象。该实施方式例如：辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品判断预测目标框与待推理图像的比例值是否大于预设比例；若预测目标框与待推理图像的比例值大于预设比例，则辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品重新规划路径，以避开预测目标框中的目标对象，此处的目标对象可以是道路中的障碍物；其中，此处的预设比例可以根据具体情况进行设置，例如将预设比例设置为80％或者90％等等。

在上述的实现过程中，通过在预测目标框与待推理图像的比例值大于预设比例时，则重新规划路径，从而避开了预测目标框中的目标对象，有效地提高了辅助驾驶系统的智能车、无人机、无人车或者机器人等电子产品的安全性。

请参见图7示出的本申请实施例提供的深度估计装置的结构示意图。本申请实施例提供了一种深度估计装置400，包括：

推理图像获取模块410，用于获取待推理图像，待推理图像是使用单目摄像头采集的；

图像深度估计模块420，用于使用神经网络模型对待推理图像进行推理，获得待推理图像中的预测目标框和预测目标框对应的估计深度信息，神经网络模型是使用单目图像进行训练后获得的，单目图像是对双目摄像头采集的图像进行单目化处理获得的，预测目标框表征待推理图像中的目标对象所在位置区域，估计深度信息为目标对象与单目摄像头之间的距离。

可选地，在本申请实施例中，深度估计装置，还包括：

双目图像获取模块，用于获取第一图像和第二图像，第一图像和第二图像是双目摄像头针对目标对象采集的不同图像，双目摄像头的光圈中心点之间的距离等于预先计算出的基线值；

图像单目化处理模块，用于对第一图像和第二图像进行单目化处理，获得多个单目图像，以及单目图像对应的目标框和深度信息；

网络模型训练模块，用于以多个单目图像为训练数据，以多个单目图像对应的目标框和深度信息为训练标签，对神经网络进行训练，获得神经网络模型。

可选地，在本申请实施例中，图像单目化处理模块，包括：

目标图像标注模块，用于在第一图像上标注出目标对象的第一目标框，并在第二图像上标注出目标对象的第二目标框，目标框表征目标对象在图像中的位置区域。

深度信息计算模块，用于根据第一目标框和第二目标框计算目标对象的深度信息。

可选地，在本申请实施例中，深度信息计算模块，包括：

目标边框筛选模块，用于从第一目标框内和第二目标框内筛选出目标框内像素点个数较少的像素目标框。

深度信息计算模块，用于根据双目测距原理计算出像素目标框内所有像素点的深度信息，像素点的深度信息为像素点在目标对象的位置点与双目摄像头之间的距离。

深度信息筛选模块，用于从像素目标框内所有像素点中剔除离群像素点和背景像素点，获得多个代表像素点。

深度信息确定模块，用于计算出多个代表像素点的深度信息平均值，并将深度信息平均值确定为目标对象的深度信息。

可选地，在本申请实施例中，双目摄像头包括：第一摄像头和第二摄像头；深度信息计算模块，包括：

摄像视差获得模块，用于摄像头对第一目标框和第二目标框进行特征匹配，获得第一摄像头与第二摄像头之间的视差。

像素深度计算模块，用于根据基线值和视差计算出像素目标框内所有像素点的深度信息。

可选地，在本申请实施例中，深度估计装置，还可以包括：

深度距离判断模块，用于判断估计深度信息对应的距离是否小于预设距离。

辅助预警减速模块，用于若估计深度信息对应的距离小于预设距离，则生成并输出辅助预警信号，或者，通过刹车系统进行减速。

可选地，在本申请实施例中，该深度估计装置，还可以包括：

边框比例判断模块，用于判断预测目标框与待推理图像的比例值是否大于预设比例。

路径重新规划模块，用于若预测目标框与待推理图像的比例值大于预设比例，则重新规划路径，以避开预测目标框中的目标对象。

应理解的是，该装置与上述的深度估计方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

本申请实施例提供的一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-OnlyMemory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种深度估计方法，其特征在于，包括：

获取待推理图像，所述待推理图像是使用单目摄像头采集的；

使用神经网络模型对所述待推理图像进行推理，获得所述待推理图像中的预测目标框和所述预测目标框对应的估计深度信息，所述神经网络模型是使用单目图像进行训练后获得的，所述单目图像是对双目摄像头采集的图像进行单目化处理获得的，所述预测目标框表征所述待推理图像中的目标对象所在位置区域，所述估计深度信息为所述目标对象与所述单目摄像头之间的距离。

2.根据权利要求1所述的方法，其特征在于，在所述使用神经网络模型对所述待推理图像进行推理之前，还包括：

获取第一图像和第二图像，所述第一图像和所述第二图像是所述双目摄像头针对目标对象采集的不同图像，所述双目摄像头的光圈中心点之间的距离等于预先计算出的基线值；

对所述第一图像和所述第二图像进行单目化处理，获得多个所述单目图像，以及所述单目图像对应的目标框和深度信息；

以多个所述单目图像为训练数据，以多个所述单目图像对应的目标框和深度信息为训练标签，对神经网络进行训练，获得神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一图像和所述第二图像进行单目化处理，包括：

在所述第一图像上标注出所述目标对象的第一目标框，并在所述第二图像上标注出所述目标对象的第二目标框，所述目标框表征所述目标对象在图像中的位置区域；

根据所述第一目标框和所述第二目标框计算所述目标对象的深度信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一目标框和所述第二目标框计算所述目标对象的深度信息，包括：

从所述第一目标框内和所述第二目标框内筛选出目标框内像素点个数较少的像素目标框；

计算出所述像素目标框内所有像素点的深度信息，所述像素点的深度信息为所述像素点在所述目标对象的位置点与所述双目摄像头之间的距离；

从所述像素目标框内所有像素点中剔除离群像素点和背景像素点，获得多个代表像素点；

计算出所述多个代表像素点的深度信息平均值，并将所述深度信息平均值确定为所述目标对象的深度信息。

5.根据权利要求4所述的方法，其特征在于，所述双目摄像头包括：第一摄像头和第二摄像头；所述计算出所述像素目标框内所有像素点的深度信息，包括：

对所述第一目标框和所述第二目标框进行特征匹配，获得所述第一摄像头与所述第二摄像头之间的视差；

根据所述基线值和所述视差计算出所述像素目标框内所有像素点的深度信息。

6.根据权利要求1-5任一所述的方法，其特征在于，在所述获得所述待推理图像中的预测目标框和所述预测目标框对应的估计深度信息之后，还包括：

判断所述估计深度信息对应的距离是否小于预设距离；

若是，则生成并输出辅助预警信号，或者，通过刹车系统进行减速。

7.根据权利要求1-5任一所述的方法，其特征在于，在所述获得所述待推理图像中的预测目标框和所述预测目标框对应的估计深度信息之后，还包括：

判断所述预测目标框与所述待推理图像的比例值是否大于预设比例；

若是，则重新规划路径，以避开所述预测目标框中的目标对象。

8.一种深度估计装置，其特征在于，包括：

推理图像获取模块，用于获取待推理图像，所述待推理图像是使用单目摄像头采集的；

图像深度估计模块，用于使用神经网络模型对所述待推理图像进行推理，获得所述待推理图像中的预测目标框和所述预测目标框对应的估计深度信息，所述神经网络模型是使用单目图像进行训练后获得的，所述单目图像是对双目摄像头采集的图像进行单目化处理获得的，所述预测目标框表征所述待推理图像中的目标对象所在位置区域，所述估计深度信息为所述目标对象与所述单目摄像头之间的距离。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。