CN117542005A

CN117542005A - 深度识别模型训练方法、图像深度识别方法及相关设备

Info

Publication number: CN117542005A
Application number: CN202210881988.1A
Authority: CN
Inventors: 简士超; 郭锦斌
Original assignee: Hon Hai Precision Industry Co Ltd
Current assignee: Hon Hai Precision Industry Co Ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2024-02-09
Also published as: US20240046495A1

Abstract

本申请涉及图像处理，提供一种深度识别模型训练方法、图像深度识别方法及相关设备。在本申请中，根据测试对象在获取的测试图像中的像素点的坐标计算测试投影斜率，并根据多个测试投影斜率生成阈值区间，根据初始对象在获取的第一图像中的初始投影斜率及阈值区间识别地面类型，根据地面类型及初始对象的像素坐标对第一图像中的初始地平面区域进行调整，得到目标地平面区域，基于预设的深度识别网络、拍摄设备、第一图像对应的初始深度图像及目标地平面区域，生成目标高度损失，基于目标高度损失及深度损失，调整深度识别网络，得到深度识别模型，将待识别图像输入到深度识别模型中，得到深度信息，本申请能够提高图像的深度识别准确度。

Description

深度识别模型训练方法、图像深度识别方法及相关设备

技术领域

本发明涉及图像处理领域，尤其涉及一种深度识别模型训练方法、图像深度识别方法及相关设备。

背景技术

在目前对车载图像进行深度识别的方案中，由于训练图像中处于上下坡的地平面区域会影响深度识别网络的训练精度，从而造成训练完成的深度识别模型的识别准确性低。因此，如何提高图像的识别准确性成为亟需解决的技术问题。

发明内容

鉴于以上内容，有必要提供一种深度识别模型训练方法、图像深度识别方法及相关设备，解决了图像的深度识别准确性不高的技术问题。

本申请提供一种深度识别模型训练方法，所述深度识别模型训练方法包括：从获取的测试图像中确定测试对象，并获取所述拍摄设备对初始对象进行拍摄后得到的第一图像及第二图像，根据所述测试对象在所述测试图像中的像素点的坐标，计算所述测试对象的测试投影斜率，根据多个测试投影斜率生成阈值区间，根据所述初始对象在所述第一图像中的初始投影斜率及所述阈值区间，识别所述初始对象所处位置对应的地面类型，根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，得到所述第一图像中的目标地平面区域，基于预设的深度识别网络、所述拍摄设备、所述第一图像对应的初始深度图像及所述目标地平面区域，生成所述深度识别网络的目标高度损失，根据所述目标高度损失以及基于所述第一图像及所述第二图像生成的深度损失，调整所述深度识别网络，得到深度识别模型。

根据本申请可选实施例，所述根据所述测试对象在所述测试图像中的像素点的坐标，计算所述测试对象的测试投影斜率包括：获取所述测试对象中每个像素点的横坐标值与纵坐标值，计算多个横坐标值的横坐标平均值，并计算多个纵坐标值的纵坐标平均值，计算每个像素点的横坐标值与所述横坐标平均值的横坐标差值，并计算每个像素点的纵坐标值与所述纵坐标平均值的纵坐标差值，统计所述测试对象中所有像素点的像素数量，根据预设规则、所述像素数量、多个横坐标差值及多个纵坐标差值生成协方差矩阵，对所述协方差矩阵进行奇异值分解，得到特征向量，将所述特征向量的第一个向量元素与所述特征向量的第二个向量元素的比值确定为投影斜率，并从所述投影斜率中选取所述测试投影斜率。

根据本申请可选实施例，所述根据预设规则、所述像素数量、多个横坐标差值及多个纵坐标差值生成协方差矩阵包括：根据所述多个横坐标差值及所述像素数量计算横坐标方差值，并根据所述多个纵坐标差值及所述像素数量计算纵坐标方差值，根据所述像素数量、所述多个横坐标差值及所述多个纵坐标差值，计算协方差值，将所述协方差值、所述横坐标方差值及所述纵坐标方差值按照所述预设规则进行排列，得到所述协方差矩阵。

根据本申请可选实施例，所述根据多个测试投影斜率生成阈值区间包括：计算所述多个测试投影斜率的投影平均值及投影标准差，并根据所述投影标准差计算配置值，将所述投影平均值与所述配置值的差值确定为最小阈值，并将所述投影平均值与所述投影标准差的和确定为最大阈值，将所述最小阈值与所述最大阈值构成的区间确定为所述阈值区间。

根据本申请可选实施例，所述根据所述初始对象在所述第一图像中的初始投影斜率及所述阈值区间，识别所述初始对象所处位置对应的地面类型包括：若所述初始投影斜率处于所述阈值区间中，确定所述地面类型为平地，或者，若所述初始投影斜率处于所述阈值区间之外，确定所述地面类型为上下坡。

根据本申请可选实施例，所述根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，得到所述第一图像中的目标地平面区域包括：根据任一个初始对象的像素坐标识别出所述任一个初始对象在所述初始地平面区域中对应的特征地平面区域，若所述任一个初始对象对应的地面类型为平地，将所述特征地平面区域确定为所述目标地平面区域，或者，若所述任一个初始对象对应的地面类型为上下坡，在所述初始地平面区域中将所述特征地平面区域进行掩膜处理，得到所述目标地平面区域。

根据本申请可选实施例，所述基于预设的深度识别网络、所述拍摄设备、所述第一图像对应的初始深度图像及所述目标地平面区域，生成所述深度识别网络的目标高度损失包括：获取所述拍摄设备的光心到所述目标地平面区域的真实世界高度，基于所述第一图像及所述拍摄设备构建相机坐标系，根据所述第一图像中的目标地平面区域的每个地面像素点在所述相机坐标系中的坐标，计算投影高度，根据所述初始深度图像中像素点的像素坐标、所述投影高度及所述真实世界高度，计算所述目标高度损失。

根据本申请可选实施例，所述根据所述第一图像中的目标地平面区域的每个地面像素点在所述相机坐标系中的坐标计算投影高度包括：获取所述目标地平面区域的任一地面像素点在所述相机坐标系中的坐标，根据所述任一地面像素点的坐标计算出单位法向量，将以所述拍摄设备的光心为起点及以每个地面像素点为终点构成的向量确定为该地面像素点的目标向量，根据每个地面像素点的目标向量与所述单位法向量，计算每个地面像素点对应的投影距离，将所有地面像素点对应的投影距离进行加权平均运算，得到所述投影高度。

本申请提供一种图像深度识别方法，所述图像深度识别方法包括：获取待识别图像，将所述待识别图像输入到深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息，所述深度识别模型通过执行如所述的深度识别模型训练方法而获得。

本申请提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述至少一个指令以实现所述的深度识别模型训练方法或所述的图像深度识别方法。

本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述的深度识别模型训练方法及所述的图像深度识别方法。

综上所述，在本申请中，根据测试对象在测试图像中的像素点的坐标计算所述测试对象的测试投影斜率，并根据多个测试投影斜率生成阈值区间，由于所述测试对象所处位置对应的地面类型为平地，因此，所述阈值区间为初始对象的初始投影斜率提供了一个参考范围，通过生成所述阈值区间，避免了单个测试投影斜率极值的出现，因此，能够提高所述阈值区间的合理性，根据所述初始对象在第一图像中的初始投影斜率及所述阈值区间识别所述初始对象的所处位置对应的地面类型是否为上下坡，进而根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，能够将处于上下坡的初始对象所对应的区域滤除，使得所述目标地平面区域中均不包含上下坡区域，由于在利用所述目标地平面区域计算所述深度识别网络的目标高度损失时，能够避免上下坡地平面中的像素点的像素值的变化对所述目标高度损失的影响，因此，能够使得训练完成的深度识别模型的识别精度更高，从而能够提高图像的识别准确性。

附图说明

图1是本申请的实施例提供的应用环境图。

图2是本申请的实施例提供的深度识别模型训练方法的流程图。

图3是本申请实施例提供的像素坐标系和相机坐标系的示意图。

图4是本申请实施例提供的图像深度识别方法的流程图。

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本申请进行详细描述。

如图1所示，是本申请的实施例提供的应用环境图。本申请提供的深度识别模型训练方法以及图像深度识别方法可应用于一个或者多个电子设备1中，所述电子设备1与拍摄设备2相通信，所述拍摄设备2可以是单目相机，也可以是实现拍摄的其它装置。图1提供的电子设备1及拍摄设备2仅为示例。

所述电子设备1是一种能够按照事先设定或存储的指令，自动进行参数值计算和/或信息处理的设备，其硬件包括，但不限于：微处理器、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、可编程门阵列(Field－ProgrammableGateArray，FPGA)、数字信号处理器(DigitalSignalProcessor，DSP)、嵌入式设备等。

所述电子设备1可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(PersonalDigitalAssistant，PDA)、游戏机、交互式网络电视(InternetProtocolTelevision，IPTV)、智能式穿戴式设备等。

所述电子设备1还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备1所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(VirtualPrivateNetwork，VPN)等。

如图2所示，是本申请实施例提供的深度识别模型训练方法的流程图。根据不同的需求，所述流程图中各个步骤的顺序可以根据实际检测要求进行调整，某些步骤可以省略。所述方法的执行主体为电子设备，例如图1所示的电子设备1。

101，从获取的测试图像中确定测试对象，并获取所述拍摄设备对初始对象进行拍摄后得到的第一图像及第二图像。

在本申请的至少一个实施例中，所述拍摄设备可以是单目相机，所述第一图像及所述第二图像为相邻帧的三原色光(Red Green Blue，RGB)图像，所述第二图像的生成时间大于所述第一图像的生成时间。

在本申请的至少一个实施例中，所述电子设备从获取的测试图像中确定测试对象包括：

所述电子设备获取实例分割网络，并获取测试图像，进一步地，所述电子设备使用所述实例分割网络对所述测试图像进行实例分割，得到所述测试对象。

其中，所述实例分割网络可以为Mask R-CNN、YOLCAT及PolarMask等网络，基于所述实例分割网络为现有技术，故本申请在此不作赘述。所述测试图像包括水平的地平面及所述测试对象，所述测试对象是指所述测试图像中处于水平的地平面上的对象。例如，所述测试对象可以为处于水平的地平面上的车辆。

在本申请的至少一个实施例中，所述电子设备获取所述拍摄设备对初始对象进行拍摄后得到的第一图像及第二图像包括：

所述电子设备控制所述拍摄设备拍摄多个所述初始对象，得到所述第一图像，并在相隔预设时间后再次拍摄所述多个初始对象，得到所述第二图像。

其中，所述拍摄设备可以为单目相机，所述多个初始对象可以为车辆，地面、行人、地面、行人、天空、树木。可以理解的是，所述预设时间很小，例如，预设时间可以为10ms。

在本实施例中，在相隔预设时间后拍摄所述多个初始对象，得到所述第二图像，由于所述预设时间很小，在很小的预设时间内能够移动的初始对象移动的距离较小，因此，能够使得所述第二图像与所述第一图像存在更多的相同的初始对象。

102，根据所述测试对象在所述测试图像中的像素点的坐标，计算所述测试对象的测试投影斜率。

在本申请的至少一个实施例中，所述测试投影斜率是指所述测试对象的位置相对于水平的地平面的倾斜程度。

在本申请的至少一个实施例中，所述电子设备根据所述测试对象在所述测试图像中的像素点的坐标，计算所述测试对象的测试投影斜率包括：

所述电子设备获取所述测试对象中每个像素点的横坐标值与纵坐标值，进一步地，所述电子设备计算多个横坐标值的横坐标平均值，并计算多个纵坐标值的纵坐标平均值，更进一步地，所述电子设备计算每个像素点的横坐标值与所述横坐标平均值的横坐标差值，并计算每个像素点的纵坐标值与所述纵坐标平均值的纵坐标差值，所述电子设备统计所述测试对象中所有像素点的像素数量，进一步地，所述电子设备根据预设规则、所述像素数量、多个横坐标差值及多个纵坐标差值生成协方差矩阵，更进一步地，所述电子设备对所述协方差矩阵进行奇异值分解，得到特征向量，更进一步地，所述电子设备将所述特征向量的第一个向量元素与所述特征向量的第二个向量元素的比值确定为投影斜率，并从所述投影斜率中选取所述测试投影斜率。

其中，所述横坐标值及所述纵坐标值是指所述测试图像中的每个像素点在所述测试图像对应的像素坐标系中的坐标值，所述测试图像对应的像素坐标系的构建过程与下文中第一图像对应的像素坐标系的构建过程基本相同，故本申请在此不再赘述。

具体地，所述电子设备根据预设规则、所述像素数量、多个横坐标差值及多个纵坐标差值生成协方差矩阵包括：

所述电子设备根据所述多个横坐标差值及所述像素数量计算横坐标方差值，并根据所述多个纵坐标差值及所述像素数量计算纵坐标方差值，进一步地，所述电子设备根据所述像素数量、所述多个横坐标差值及所述多个纵坐标差值，计算协方差值，更进一步地，所述电子设备将所述协方差值、所述横坐标方差值及所述纵坐标方差值按照所述预设规则进行排列，得到所述协方差矩阵。

其中，所述预设规则包括将所述横坐标方差值及所述纵坐标方差值作为主对角线上的矩阵元素，并将所述协方差值作为副对角线上的矩阵元素。

在本实施例中，由于所述特征向量的数量为多个，因此所述投影斜率的数量也为多个，且存在大于零及小于零的投影斜率，由于在所述测试图像对应的像素坐标系中所述测试图像中的每个像素点的坐标值均大于零，因此，所述电子设备选取大于零的投影斜率作为所述测试投影斜率。

例如，所述测试对象中所有像素点的像素数量为5个，5个像素点的像素坐标值如表1所示：

表1像素点的坐标值

具体地，所述横坐标方差值的计算公式为：

其中，所述Var(x)表示所述横坐标方差值，n表示所述像素数量，x_i表示第i个横坐标方差值。所述纵坐标方差值的计算公式与所述横坐标方差值的计算公式相同，本申请在此不作赘述。根据上述公式，可得所述横坐标方差值为0.24，所述纵坐标方差值为0.56。

其中，所述协方差值的计算公式为：

其中，所述cov(x,y)表示所述协方差值，n表示所述像素数量，x_i表示第i个横坐标方差值，y_i表示第i个纵坐标方差值。根据上述公式，可得所述协方差值为0.12。将所述横坐标方差值0.24及所述纵坐标方差值0.56作为主对角线上的元素，并将所述协方差值0.12作为副对角线上的元素，可得所述协方差矩阵：将所述协方差矩阵Q进行奇异值分解后得到第一特征向量/>和第二特征向量/>计算出所述第一特征向量的第一个向量元素与所述第一特征向量的第二个向量元素的第一比值约为+0.33，计算出所述第二特征向量的第一个向量元素与所述第二特征向量的第二个向量元素的第二比值约为-3，由于5个像素点的坐标值均大于零，因此，选取第一比值+0.33作为所述测试对象的测试投影斜率。

在本实施例中，由于所述测试投影斜率是指所述测试对象的位置相对于水平的地平面的倾斜程度，因此，能够根据所述测试投影斜率初步判断出所述初始对象的地面类型。

103，根据多个测试投影斜率生成阈值区间。

在本申请的至少一个实施例中，所述阈值区间是指处于水平的地平面的测试对象的初始投影斜率的范围。

在本申请的至少一个实施例中，所述电子设备根据多个测试投影斜率生成阈值区间包括：

所述电子设备计算所述多个测试投影斜率的投影平均值及投影标准差，并根据所述投影标准差计算配置值，进一步地，所述电子设备将所述投影平均值与所述配置值的差值确定为最小阈值，并将所述投影平均值与所述配置值的和确定为最大阈值，更进一步地，所述电子设备将所述最小阈值与所述最大阈值构成的区间确定为所述阈值区间。

其中，所述配置值可以为所述投影标准差的倍数。例如，所述配置值可以为所述投影标准差的二倍。

通过上述实施方式，根据所述投影平均值及所述配置值生成所述最小阈值及所述最大阈值，并将所述最小阈值与所述最大阈值构成的区间确定为所述阈值区间，能够扩大所述阈值区间，从而能够提高所述阈值区间的容错性，由于所述投影平均值及所述配置值能够减少所述多个测试投影斜率的误差，因此，能够提高所述阈值区间的合理性。

104，根据所述初始对象在所述第一图像中的初始投影斜率及所述阈值区间，识别所述初始对象所处位置对应的地面类型。

在本申请的至少一个实施例中，所述地面类型至少包括平地与上下坡，所述平地是指水平的地平面，所述上下坡是指与水平的地平面存在倾斜角的地平面。

在本申请的至少一个实施例中，所述电子设备根据所述初始对象在所述第一图像中的初始投影斜率及所述阈值区间，识别所述初始对象所处位置对应的地面类型包括：

若所述初始投影斜率处于所述阈值区间中，所述电子设备确定所述地面类型为平地，或者，若所述初始投影斜率处于所述阈值区间之外，所述电子设备确定所述地面类型为上下坡。

通过上述实施方式，根据所述第一图像中的初始对象对应的初始投影斜率及所述阈值区间识别出所述初始图像的地面类型是否在上下坡，由于所述阈值区间具有更高的容错性及合理性，因此，能够准确判断出所述初始对象的地面类型。

105，根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，得到所述第一图像中的目标地平面区域。

如图3所示，是本申请实施例提供的像素坐标系和相机坐标系的示意图，所述电子设备以所述第一图像的第一行第一列的像素点O_uv为原点，以第一行像素点所在的平行线为u轴，以第一列像素点所在的垂直线为v轴构建所述第一图像的像素坐标系。例如，可以将左上角的第一个像素点作为原点。此外，所述电子设备以所述单目相机的光点O_XY为原点，以所述单目相机的光轴为X轴，以所述第一图像的像素坐标系u轴的平行线为Y轴，以所述第一图像的像素坐标系的v轴的平行线为Z轴构建所述相机坐标系。

在本申请的至少一个实施例中，所述初始地平面区域是指使用地平面分割网络对所述第一图像进行分割后生成的地平面区域，所述地平面分割网络可以从互联网数据库中获取。例如，所述地平面分割网络可以为高分辨率网络(High-Resolution Net v2，HRNetv2)。

在本申请的至少一个实施例中，所述电子设备根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，得到所述第一图像中的目标地平面区域包括：

所述电子设备根据任一个初始对象的像素坐标识别出所述任一个初始对象在所述初始地平面区域中对应的特征地平面区域，若所述任一个初始对象对应的地面类型为平地，所述电子设备将所述特征地平面区域确定为所述目标地平面区域，或者，若所述任一个初始对象对应的地面类型为上下坡，所述电子设备在所述初始地平面区域中将所述特征地平面区域进行掩膜处理，得到所述目标地平面区域。

具体地，所述电子设备根据任一个所述初始对象的像素坐标识别出所述任一个初始对象在所述初始地平面区域中对应的特征地平面区域包括：

所述电子设备获取所述初始地平面区域的每个地平面像素点在所述第一图像的像素坐标系中的地平面坐标，并获取所述任一个初始对象的每个初始像素点在所述第一图像的像素坐标系中的初始像素坐标，进一步地，所述电子设备计算每个初始像素坐标与所述第一图像的像素坐标系中原点的坐标之间的像素距离，并确定出最大的像素距离所对应的初始像素坐标，进一步地，所述电子设备将处于所述原点的坐标与所述最大的初始像素坐标之间的地平面坐标所对应的地面像素点构成的区域确定为所述特征地平面区域。

在本实施例中，将处于所述原点的坐标与所述最大的初始像素坐标之间的地平面坐标所对应的地面像素点构成的区域确定为所述特征地平面区域，能够准确地确定出所述第一图像中处于上下坡的地平面的位置。

106，基于预设的深度识别网络、所述拍摄设备、所述第一图像对应的初始深度图像及所述目标地平面区域，生成所述深度识别网络的目标高度损失。

在本申请的至少一个实施例中，所述深度识别网络是指能够识别出图像中的深度信息的网络。

在本申请的至少一个实施例中，所述初始深度图像是指包含所述第一图像的深度信息的图像，所述深度信息是指所述第一图像中每个像素点对应的初始对象与拍摄所述第一图像的拍摄设备之间的距离。

在本申请的至少一个实施例中，所述目标高度损失是指预测高度与真实世界高度之间的差异，所述预测高度是指所述深度识别网络预测的所述第一图像中每个像素点与所述拍摄设备之间的距离，所述真实世界高度是指在现实中所述第一图像中的像素点对应的初始对象与所述拍摄设备之间的距离。

在本申请的至少一个实施例中，所述电子设备基于预设的深度识别网络、所述拍摄设备、所述第一图像对应的初始深度图像及所述目标地平面区域，生成所述深度识别网络的目标高度损失包括：

所述电子设备获取所述拍摄设备的光心到所述目标地平面区域的真实世界高度，进一步地，所述电子设备基于所述第一图像及所述拍摄设备构建相机坐标系，更进一步地，所述电子设备根据所述第一图像中的目标地平面区域的每个地面像素点在所述相机坐标系中的坐标，计算投影高度，更进一步地，所述电子设备根据所述初始深度图像中像素点的像素坐标、所述投影高度及所述真实世界高度，计算所述目标高度损失。

其中，所述电子设备将所述第一图像输入到所述深度识别网络中，得到所述初始深度图像。

具体地，所述电子设备根据所述第一图像中的目标地平面区域的每个地面像素点在所述相机坐标系中的坐标计算投影高度包括：

所述电子设备获取所述目标地平面区域的任一地面像素点在所述相机坐标系中的坐标，所述电子设备根据所述任一地面像素点的坐标，计算出单位法向量，进一步地，所述电子设备将以所述拍摄设备的光心为起点及以每个地面像素点为终点构成的向量确定为该地面像素点的目标向量，并根据每个地面像素点的目标向量与所述单位法向量，计算每个地面像素点对应的投影距离，进一步地，所述电子设备将所有地面像素点对应的投影距离进行加权平均运算，得到所述投影高度。

其中，所述单位法向量的计算公式为：

N_t＝(P_tP_t ^T)^-1P_t；

其中，N_t是指所述单位法向量，P_t是指所述相机坐标系中所述目标地平面区域的任一地面像素点的坐标，P_t ^T是指所述目标向量。

在本实施例中，所述投影高度是指所述第一图像中每个像素点到所述拍摄设备之间的多个投影距离的加权平均值，由于将所述地平面区域中的所有像素点的坐标全部参与了运算，因此，能够使得所述投影高度更加准确。

具体地，所述电子设备根据所述初始深度图像中像素点的像素坐标、所述投影高度及所述真实世界高度，计算所述目标高度损失包括：

所述电子设备计算所述真实世界高度与所述投影高度的高度比值，进一步地，所述电子设备将所述高度比值与所述初始深度图像中每个像素点的像素坐标进行相乘运算，得到每个像素点对应的深度坐标，更进一步地，所述电子设备根据所述初始深度图像中每个像素点的像素坐标及对应的深度坐标生成第一高度损失，所述电子设备将所述平移矩阵与所述高度比值进行相乘运算，得到相乘矩阵，进一步地，所述电子设备根据所述相乘矩阵及所述平移矩阵生成第二高度损失，更进一步地，所述电子设备根据所述第一高度损失及所述第二高度损失生成所述目标高度损失。

具体地，所述第一高度损失的计算公式为：

其中，所述L_d是指所述第一高度损失，n是指所述初始深度图像中所有像素点的数量，i是指所述初始深度图像中的第i个像素点，所述Dⁱ _t(u,v)是指所述初始深度图像中第i个像素点对应的深度坐标，Dⁱ(u,v)是指所述初始深度图像中第i个像素点的像素坐标。

具体地，所述第二高度损失的计算公式为：

L_ts＝|t_s-t|；

其中，L_ts是指所述第二高度损失，t_s是指所述相乘矩阵，t是指所述平移矩阵。

其中，所述电子设备将所述第一高度损失及所述第二高度损失进行加权平均运算，得到所述目标高度损失。

通过上述实施方式，根据所述初始深度图像中像素点的像素坐标、所述投影高度及所述真实世界高度计算出目标高度损失，由于所述投影高度更加准确，能够使得所述目标高度损失下降的更快。

107，根据所述目标高度损失以及基于所述第一图像及所述第二图像生成的深度损失，调整所述深度识别网络，得到深度识别模型。

在本申请的至少一个实施例中，所述深度损失包括光度损失和梯度损失。

在本申请的至少一个实施例中，所述深度识别模型是指对所述深度识别网络进行调整后生成的模型。

在本申请的至少一个实施例中，所述电子设备根据所述目标高度损失以及基于所述第一图像及所述第二图像生成的深度损失，调整所述深度识别网络，得到深度识别模型包括：

所述电子设备基于所述深度损失及所述目标高度损失计算所述深度识别网络的总体损失，进一步地，所述电子设备基于所述总体损失调整所述深度识别网络，直至所述总体损失下降到最低，得到所述深度识别模型。

具体地，所述电子设备将所述深度损失与所述目标高度损失进行加权平均运算，得到所述总体损失。

在本实施例中，所述总体损失包括所述深度损失及所述目标高度损失，由于所述深度损失能够更加准确地反映所述第一图像与所述第二图像之间的差异，基于所述总体损失对所述深度网络进行调整，能够提高所述深度网络的学习能力，使得所述深度识别模型的识别精度更高。

具体地，所述电子设备计算所述初始深度图像与所述第一图像之间的梯度损失，并计算所述第一图像的投影图像与所述第一图像之间的光度损失，进一步地，所述电子设备将所述梯度损失及所述光度损失进行加权平均运算，得到所述深度损失。

其中，所述电子设备基于所述第一图像、所述第一图像对应的初始深度图像及同时与所述第一图像及所述第二图像对应的位姿矩阵生成所述第一图像的投影图像。所述位姿矩阵的生成过程均为现有技术，本申请在此不作赘述。

具体地，所述光度损失的计算公式为：

Lt＝αSSIM(x,y)+(1-α)‖x_i-y_i‖；

其中，Lt表示所述光度损失，α为预设的平衡参数，一般取值为0.85，SSIM(x,y)表示所述投影图像与所述第一图像之间的结构相似指数，‖x_i-y_i‖表示所述投影图像与所述第一图像之间的灰度差值，x_i表示所述投影图像中第i个像素点的像素值，y_i表示所述第一图像中与所述第i个像素点对应的像素点的像素值。所述结构相似指数的计算过程为现有技术，本申请在此不作赘述。

具体地，所述梯度损失的计算公式为：

其中，Ls表示所述梯度损失，x表示所述初始深度图像，y表示所述第一图像，D(u，v)表示所述初始深度图像中第i个像素点的像素坐标，I(u，v)表示所述第一图像中第i个像素点的像素坐标。

在本实施例中，由于所述深度损失包括了所述第一图像中的每个像素点到所述第二图像中对应的像素点的光度、梯度的变化，所以所述深度损失能够更加准确地反映所述第一图像与所述第二图像之间的差异。

如图4所示，是本申请实施例提供的图像深度识别方法的流程图。

根据不同的需求，所述流程图中各个步骤的顺序可以根据实际检测要求进行调整，某些步骤可以省略。所述方法的执行主体为电子设备，例如图1所示的电子设备1。

108，获取待识别图像。

在本申请的至少一个实施例中，所述待识别图像是指需要识别深度信息的图像。

在本申请的至少一个实施例中，所述电子设备获取待识别图像包括：

所述电子设备从预设的数据库中获取所述待识别图像。

其中，所述预设的数据库可以为KITTI数据库、Cityscapes数据库及vKITTI数据库等等。所述深度识别网络可以为深度神经网络，所述深度识别网络可以从互联网的数据库中获取。

109，将所述待识别图像输入到所述深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息，所述深度识别模型通过执行如所述的深度识别模型训练方法而获得。

在本申请的至少一个实施例中，所述目标深度图像是指包含所述待识别图像中每个像素点的深度信息的图像，所述待识别图像中每个像素点的深度信息是指所述待识别图像中每个像素点对应的待识别对象与拍摄所述待识别图像的拍摄设备之间的距离。

在本申请的至少一个实施例中，所述目标深度图像的生成方式与所述初始深度图像的生成方式基本一致，故本申请在此不做赘述。

在本申请的至少一个实施例中，所述电子设备获取所述目标深度图像中每个像素点的像素值作为所述待识别图像中对应的像素点的深度信息。

通过上述实施方式，由于提升了所述深度识别模型的精度，因此能够提高所述待识别图像的深度识别的精确度。

如图5所示，是本申请实施例提供的电子设备的结构示意图。

在本申请的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如图像深度识别程序及深度识别模型训练程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所述处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及获取所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。例如，所述处理器13可以通过接口获取所述拍摄设备2拍摄到的所述第一图像。

所述处理器13获取所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13获取所述应用程序以实现上述各个深度识别模型训练方法以及各个图像深度识别方法实施例中的步骤，例如图2及图4所示的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13获取，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的获取过程。

所述存储器12可用于存储所述计算机程序和/或模块，所述处理器13通过运行或获取存储在所述存储器12内的计算机程序和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器12可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器获取时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可获取文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

结合图2，所述电子设备1中的所述存储器12存储多个指令以实现一种深度识别模型训练方法，所述处理器13可获取所述多个指令从而实现：从获取的测试图像中确定测试对象，并获取所述拍摄设备对初始对象进行拍摄后得到的第一图像及第二图像；根据所述测试对象在所述测试图像中的像素点的坐标，计算所述测试对象的测试投影斜率；根据多个测试投影斜率生成阈值区间；根据所述初始对象在所述第一图像中的初始投影斜率及所述阈值区间，识别所述初始对象所处位置对应的地面类型；根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，得到所述第一图像中的目标地平面区域；基于预设的深度识别网络、所述拍摄设备、所述第一图像对应的初始深度图像及所述目标地平面区域，生成所述深度识别网络的目标高度损失；根据所述目标高度损失以及基于所述第一图像及所述第二图像生成的深度损失，调整所述深度识别网络，得到深度识别模型。

结合图4，所述电子设备1中的所述存储器12存储多个指令以实现一种图像深度识别方法，所述处理器13可获取所述多个指令从而实现：获取待识别图像，将所述待识别图像输入到深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息。

具体地，所述处理器13对上述指令的具体实现方法可参考图2及图4对应实施例中相关步骤的描述，在此不赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。本申请中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种深度识别模型训练方法，应用于电子设备，所述电子设备与拍摄设备相通信，其特征在于，所述深度识别模型训练方法包括：

从获取的测试图像中确定测试对象，并获取所述拍摄设备对初始对象进行拍摄后得到的第一图像及第二图像；

根据所述测试对象在所述测试图像中的像素点的坐标，计算所述测试对象的测试投影斜率；

根据多个测试投影斜率生成阈值区间；

根据所述初始对象在所述第一图像中的初始投影斜率及所述阈值区间，识别所述初始对象所处位置对应的地面类型；

根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，得到所述第一图像中的目标地平面区域；

基于预设的深度识别网络、所述拍摄设备、所述第一图像对应的初始深度图像及所述目标地平面区域，生成所述深度识别网络的目标高度损失；

根据所述目标高度损失以及基于所述第一图像及所述第二图像生成的深度损失，调整所述深度识别网络，得到深度识别模型。

2.如权利要求1所述的深度识别模型训练方法，其特征在于，所述根据所述测试对象在所述测试图像中的像素点的坐标，计算所述测试对象的测试投影斜率包括：

获取所述测试对象中每个像素点的横坐标值与纵坐标值；

计算多个横坐标值的横坐标平均值，并计算多个纵坐标值的纵坐标平均值；

计算每个像素点的横坐标值与所述横坐标平均值的横坐标差值，并计算每个像素点的纵坐标值与所述纵坐标平均值的纵坐标差值；

统计所述测试对象中所有像素点的像素数量；

根据预设规则、所述像素数量、多个横坐标差值及多个纵坐标差值生成协方差矩阵；

对所述协方差矩阵进行奇异值分解，得到特征向量；

将所述特征向量的第一个向量元素与所述特征向量的第二个向量元素的比值确定为投影斜率，并从所述投影斜率中选取所述测试投影斜率。

3.如权利要求2所述的深度识别模型训练方法，其特征在于，所述根据预设规则、所述像素数量、多个横坐标差值及多个纵坐标差值生成协方差矩阵包括：

根据所述多个横坐标差值及所述像素数量计算横坐标方差值，并根据所述多个纵坐标差值及所述像素数量计算纵坐标方差值；

根据所述像素数量、所述多个横坐标差值及所述多个纵坐标差值，计算协方差值；

将所述协方差值、所述横坐标方差值及所述纵坐标方差值按照所述预设规则进行排列，得到所述协方差矩阵。

4.如权利要求1所述的深度识别模型训练方法，其特征在于，所述根据多个测试投影斜率生成阈值区间包括：

计算所述多个测试投影斜率的投影平均值及投影标准差，并根据所述投影标准差计算配置值；

将所述投影平均值与所述配置值的差值确定为最小阈值，并将所述投影平均值与所述投影标准差的和确定为最大阈值；

将所述最小阈值与所述最大阈值构成的区间确定为所述阈值区间。

5.如权利要求1所述的深度识别模型训练方法，其特征在于，所述根据所述初始对象在所述第一图像中的初始投影斜率及所述阈值区间，识别所述初始对象所处位置对应的地面类型包括：

若所述初始投影斜率处于所述阈值区间中，确定所述地面类型为平地；或者

若所述初始投影斜率处于所述阈值区间之外，确定所述地面类型为上下坡。

6.如权利要求1至5中任一项所述的深度识别模型训练方法，其特征在于，所述根据所述地面类型及所述初始对象的像素坐标对所述第一图像中的初始地平面区域进行调整，得到所述第一图像中的目标地平面区域包括：

根据任一个初始对象的像素坐标识别出所述任一个初始对象在所述初始地平面区域中对应的特征地平面区域；

若所述任一个初始对象对应的地面类型为平地，将所述特征地平面区域确定为所述目标地平面区域；或者

若所述任一个初始对象对应的地面类型为上下坡，在所述初始地平面区域中将所述特征地平面区域进行掩膜处理，得到所述目标地平面区域。

7.如权利要求1所述的深度识别模型训练方法，其特征在于，所述基于预设的深度识别网络、所述拍摄设备、所述第一图像对应的初始深度图像及所述目标地平面区域，生成所述深度识别网络的目标高度损失包括：

获取所述拍摄设备的光心到所述目标地平面区域的真实世界高度；

基于所述第一图像及所述拍摄设备构建相机坐标系；

根据所述第一图像中的目标地平面区域的每个地面像素点在所述相机坐标系中的坐标，计算投影高度；

根据所述初始深度图像中像素点的像素坐标、所述投影高度及所述真实世界高度，计算所述目标高度损失。

8.如权利要求7所述的深度识别模型训练方法，其特征在于，所述根据所述第一图像中的目标地平面区域的每个地面像素点在所述相机坐标系中的坐标计算投影高度包括：

获取所述目标地平面区域的任一地面像素点在所述相机坐标系中的坐标；

根据所述任一地面像素点的坐标计算出单位法向量；

将以所述拍摄设备的光心为起点及以每个地面像素点为终点构成的向量确定为该地面像素点的目标向量；

根据每个地面像素点的目标向量与所述单位法向量，计算每个地面像素点对应的投影距离；

将所有地面像素点对应的投影距离进行加权平均运算，得到所述投影高度。

9.一种图像深度识别方法，其特征在于，所述图像深度识别方法包括：

获取待识别图像；

将所述待识别图像输入到深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息，所述深度识别模型通过执行如权利要求1至8中任一项所述的深度识别模型训练方法而获得。

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述至少一个指令以实现如权利要求1至8中任意一项所述的深度识别模型训练方法，或者如权利要求9所述的图像深度识别方法。