[go: up one dir, main page]

CN114863201B - 三维检测模型的训练方法、装置、计算机设备和存储介质 - Google Patents

三维检测模型的训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114863201B
CN114863201B CN202210292605.7A CN202210292605A CN114863201B CN 114863201 B CN114863201 B CN 114863201B CN 202210292605 A CN202210292605 A CN 202210292605A CN 114863201 B CN114863201 B CN 114863201B
Authority
CN
China
Prior art keywords
sample
point cloud
image
pixel
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210292605.7A
Other languages
English (en)
Other versions
CN114863201A (zh
Inventor
万锐
邹晓艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeepRoute AI Ltd
Original Assignee
DeepRoute AI Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeepRoute AI Ltd filed Critical DeepRoute AI Ltd
Priority to CN202210292605.7A priority Critical patent/CN114863201B/zh
Publication of CN114863201A publication Critical patent/CN114863201A/zh
Application granted granted Critical
Publication of CN114863201B publication Critical patent/CN114863201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本申请涉及一种三维检测模型的训练方法、装置、计算机设备和存储介质。包括:获取样本行车区域图像和样本深度点云图像;确定样本深度点云图像中的样本点云所对应的样本点云特征;对样本深度点云图像进行随机扰动处理,并确定随机扰动后的样本深度点云图像中的每个样本点云各自对应的位于样本行车区域图像中的样本图像像素;对于样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;根据样本目标点云特征与点云特征标签间的差异,得到训练好的三维检测模型。采用本方法能够提高三维检测模型的训练准确性。

Description

三维检测模型的训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种三维检测模型的训练方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,传感器信息融合技术在自动驾驶等领域扮演着重要角色,其中激光雷达和相机就是常用的传感器,相机对颜色等内容信息具有高分辨率的获取能力,而激光雷达对环境空间具有精确的三维测量能力,二者相互融合便能更准确的对移动目标进行识别。
目前,现有的图像数据与激光点云数据融合训练算法,需要建立二维平面图像到三维点云之间的映射模型,并在计算映射模型时需要在三维点云中寻找与二维平面图像上各标定点所对应的点云。
然而,激光雷达和相机易受外界环境影响使得位姿发生抖动和偏移,或者在发生拍摄延时,激光雷达和相机时间戳很难匹配准,因此,激光雷达和相机的时间及空间的不同步造成了映射模型训练准确性差。由此可以得出,如何准确地对图像数据与激光点云数据进行融合训练是本公开需要解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高融合训练准确性的三维检测模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种三维检测模型的训练方法。所述方法包括:
获取样本行车区域图像、样本深度点云图像和所述样本深度点云图像中的样本点云所对应的点云特征标签;
确定所述样本深度点云图像中的样本点云所对应的样本点云特征;
对所述样本深度点云图像进行随机扰动处理,并确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素;
对于所述样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;
根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型;所述三维检测模型用于对行车区域中的目标对象进行识别。
在其中一个实施例中,所述对所述样本深度点云图像进行随机扰动处理,包括:获取所述样本深度点云图像对应的标定矩阵;确定所述标定矩阵对应的扰动旋转角和扰动偏移量,并根据所述扰动旋转角和所述扰动偏移量,确定所述标定矩阵对应的目标标定矩阵;通过所述目标标定矩阵对所述样本深度点云图像进行随机扰动处理。
在其中一个实施例中,所述通过所述目标标定矩阵对所述样本深度点云图像进行随机扰动处理,包括:获取所述样本深度点云图像对应的随机扰动概率;基于所述随机扰动概率,确定所述样本深度点云图像中目标样本点云;通过所述目标标定矩阵对所述目标样本点云进行随机扰动处理。
在其中一个实施例中,所述通过所述目标标定矩阵对所述目标样本点云进行随机扰动处理,包括:确定所述目标样本点云的点云坐标;通过所述目标标定矩阵对所述点云坐标进行转换,得到目标坐标;所述确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素,包括:将所述样本行车区域图像中的具有所述目标坐标的样本图像像素作为与所述目标样本点云相对应的像素。
在其中一个实施例中,所述三维检测模型包括卷积层、多层感知机层和归一化层,所述将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征,包括:通过所述三维检测模型中的卷积层,对当前样本点云对应的样本图像像素的样本像素特征进行卷积处理,得到候选样本像素特征;通过所述三维检测模型中的多层感知机层,对当前样本点云对应的样本点云特征进行线性处理,得到候选样本点云特征;通过所述三维检测模型中的归一化层,对所述候选样本像素特征和所述候选样本点云特征进行归一化处理;将归一化处理后的所述候选样本像素特征和归一化处理后的所述候选样本点云特征进行线性组合处理,得到样本目标点云特征。
在其中一个实施例中,所述三维检测模型的训练方法还包括对二维监督结构进行训练,所述二维监督结构的训练步骤,包括:获取样本行车区域图像中的样本像素和样本像素对应的像素特征标签;确定样本行车区域图像中的初始样本像素、以及每个所述初始样本像素各自对应的初始样本像素特征,并根据所述初始样本像素特征与所述初始样本像素对应的所述像素特征标签,得到首轮的二维监督子结构;从所述首轮之后的第二轮次起的当前轮次中,确定所述样本行车区域图像中的轮次样本像素,并通过历史轮次的所述二维监督子结构,确定每个所述轮次样本像素各自对应的轮次样本像素特征;所述历史轮次为在所述当前轮次之前的至少一个轮次;根据历史轮次的所述二维监督子结构、所述轮次样本像素特征、以及所述轮次样本像素对应的所述像素特征标签,得到当前轮次的二维监督子结构;将下一轮次作为当前轮次,并返回至所述从所述首轮之后的第二轮次起的当前轮次中,确定所述样本行车区域图像中的轮次样本像素,并通过历史轮次的所述二维监督子结构,确定每个所述轮次样本像素各自对应的轮次样本像素特征的步骤并继续执行,直至得到当前轮次的二维监督子结构;综合每个轮次各自对应的二维监督子结构,得到所述样本行车区域图像对应的二维监督结构。
在其中一个实施例中,所述三维检测模型包括三维监督结构和二维监督结构;所述三维监督结构用于对点云特征提取结构所提取的样本目标点云特征的准确性进行监督;所述二维监督结构用于对图像特征提取结构所提取的样本像素特征的准确性进行监督;点云特征提取结构用于提取所述样本点云的样本点云特征;图像特征提取结构用于提取所述样本图像像素的样本像素特征。
在其中一个实施例中,所述根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型,包括:根据所述样本目标点云特征与所述点云特征标签间的差异,确定所述三维监督结构对应的第一损失函数;根据所述样本像素特征和像素特征标签间的差异,确定所述二维监督结构对应的第二损失函数;将所述第一损失函数和所述第二损失函数进行联合,得到联合损失函数;通过所述联合损失函数,并基于反向传播算法对所述三维检测模型中的模型参数进行更新,直到达到训练停止条件时停止,得到训练好的三维检测模型。
第二方面,本申请还提供了一种三维检测模型的训练装置。所述装置包括:
图像获取模块,用于获取样本行车区域图像、样本深度点云图像和所述样本深度点云图像中的样本点云所对应的点云特征标签;
特征识别模块,用于确定所述样本深度点云图像中的样本点云所对应的样本点云特征;对所述样本深度点云图像进行随机扰动处理,并确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素;
模型训练模块,用于对于所述样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型;所述三维检测模型用于对行车区域中的目标对象进行识别。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取样本行车区域图像、样本深度点云图像和所述样本深度点云图像中的样本点云所对应的点云特征标签;
确定所述样本深度点云图像中的样本点云所对应的样本点云特征;
对所述样本深度点云图像进行随机扰动处理,并确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素;
对于所述样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;
根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型;所述三维检测模型用于对行车区域中的目标对象进行识别。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取样本行车区域图像、样本深度点云图像和所述样本深度点云图像中的样本点云所对应的点云特征标签;
确定所述样本深度点云图像中的样本点云所对应的样本点云特征;
对所述样本深度点云图像进行随机扰动处理,并确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素;
对于所述样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;
根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型;所述三维检测模型用于对行车区域中的目标对象进行识别。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取样本行车区域图像、样本深度点云图像和所述样本深度点云图像中的样本点云所对应的点云特征标签;
确定所述样本深度点云图像中的样本点云所对应的样本点云特征;
对所述样本深度点云图像进行随机扰动处理,并确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素;
对于所述样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;
根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型;所述三维检测模型用于对行车区域中的目标对象进行识别。
上述三维检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品,通过获取样本行车区域图像和样本深度点云图像,并对样本深度点云图像进行随机扰动处理,如此,便可确定随机扰动后的样本深度点云图像中的每个样本点云各自对应的位于样本行车区域图像中的样本图像像素;进而将每个样本点云对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征,使得通过样本目标点云特征对三维检测模型进行训练,得到训练好的三维检测模型。由于本申请是在对样本深度点云图像进行随机扰动处理后,再将样本点云特征与相对应的样本像素特征进行融合,相较于传统直接通过映射模型进行融合训练的算法,本申请直接将融合后的样本目标点云特征作为训练对象,大大提高了三维检测模型的训练效率。同时,由于是将随机扰动处理后的样本深度点云图像与样本行车区域图像作为融合对象,因此克服了外界环境干扰对融合过程的影响,提高了三维检测模型抗扰动能力。
附图说明
图1为一个实施例中三维检测模型的训练方法的应用环境图;
图2为一个实施例中三维检测模型的训练方法的流程示意图;
图3为一个实施例中训练二维监督结构的流程示意图;
图4为一个实施例中三维检测模型的训练方法的原理示意图;
图5为一个实施例中三维检测模型的训练装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的三维检测模型的训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102用于将获取到的样本行车区域图像和样本深度点云图像发送至服务器104。服务器104用于对接收到的样本行车区域图像和样本深度点云图像进行融合与训练,并将训练好的三维检测模型返回给终端102,终端102可用于接收训练好的三维检测模型,以使得后续通过三维检测模型对行车区域内的目标对象进行识别。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种三维检测模型的训练方法,以该方法应用于图1中的计算机设备为例进行说明,该计算机设备可为图1中的终端或服务器,三维检测模型的训练方法包括以下步骤:
步骤202,获取样本行车区域图像、样本深度点云图像和样本深度点云图像中的样本点云所对应的点云特征标签。
其中,样本行车区域图像为一种二维图像,可通过相机、摄像头等设备进行采集;样本深度点云图像为一种三维图像,可通过激光雷达等设备进行采集;点云特征标签为样本深度点云图像中的样本点云所对应的样本点云特征,例如3D检测框。
具体地,用户可通过相机对车辆所在区域进行多次拍照,得到车辆的多种样本行车区域图像、以及通过激光雷达对车辆所在区域进行多次扫描,得到车辆的多种样本深度点云图像,并将采集到的深度点云图像和行车区域图像输入至计算机设备中。
在其中一个实施例中,样本行车区域图像和样本深度点云图像可通过数据增广方式进行获取,通过数据增广可使数据样本更加多样化,进而使训练的三维检测模型具有更强的泛化能力。
在其中一个实施例中,计算机设备中展示有目标识别界面,目标识别界面中展示有激光雷达的控制按键、以及相机的控制按键。计算机设备响应于用户对相机的控制按键的触发操作,也即通过对控制按键对相机的拍摄角度进行调节,确定需要识别的行车区域,并对行车区域的样本行车区域图像进行采集;在确定需要采集的行车区域后,计算机设备响应于用户对激光雷达的控制按键的触发操作,对行车区域的样本深度点云图像进行采集。
步骤204,确定样本深度点云图像中的样本点云所对应的样本点云特征。
其中,点云是指通过测量仪器得到的物体外观表面的点数据集合,样本点云特征按照几何特征进行分类可包括逐点特征、体素特征、前视投影图特征等。
具体地,计算机设备通过图像特征提取网络对样本行车区域图像进行第一特征提取,得到相应的样本像素特征;计算机设备通过点云特征提取网络对样本深度点云图像进行第二特征提取,得到每个样本点云各自对应的样本点云特征。其中,图像特征提取网络可为ResNet50(Residual Network,残差网络),点云特征提取网络可为SECOND(SparselyEmbedded Convolutional Detection,稀疏嵌入卷积检测)。
在其中一个实施例中,计算机设备通过图像特征提取网络可确定不同粒度信息的样本像素特征,并对不同粒度信息的样本像素特征进行组合,得到多尺度的样本像素特征。其中,样本像素特征中的像素值可为灰度值或颜色值,能够提供样本行车区域图像的颜色信息。
步骤206,对样本深度点云图像进行随机扰动处理,并确定随机扰动后的样本深度点云图像中的每个样本点云各自对应的位于样本行车区域图像中的样本图像像素。
具体地,计算机设备获取样本深度点云图像对应的标定矩阵,其中,标定矩阵是将三维图像的点云坐标投影到二维图像的像素坐标上时所对应的映射矩阵。计算机设备对标定矩阵进行随机扰动处理,如增加包括扰动旋转角和扰动偏移量的扰动矩阵,通过将标定矩阵与扰动矩阵的齐次矩阵进行相乘,便可得到对标定矩阵进行随机扰动处理后,与标定矩阵对应的目标标定矩阵。
进一步的,计算机设备确定样本深度点云图像中的每个样本点云的点云坐标,并通过目标标定矩阵,将每个样本点云的点云坐标投影到样本行车区域图像上、以及确定样本行车区域图像中与每个样本点云的点云坐标各自对应的样本图像像素,也即将三维的点云坐标投影成二维的像素坐标。
在其中一个实施例中,通过目标标定矩阵对深度点云图像进行随机扰动处理,包括:获取样本深度点云图像对应的随机扰动概率;基于随机扰动概率,确定样本深度点云图像中目标样本点云;通过目标标定矩阵对目标样本点云进行随机扰动处理。
其中,随机扰动概率的值需要通过三维检测领域的实践专业经验确定。
计算机设备获取样本深度点云图像对应的随机扰动概率,并根据随机扰动概率,从样本深度点云图像中的所有样本点云中区分出目标样本点云与非目标样本点云,接着通过目标标定矩阵,将对目标样本点云的点云坐标投影到样本行车区域图像上。例如,若获取的随机扰动概率为50%,样本深度点云图像中的总样本点云数量为100个,因此,随机从100个样本点云中筛选出50个作为目标样本点云,剩下的50个作为非目标样本点云,进而将50个目标样本点云的点云坐标投影到样本行车区域图像上。由于只是将目标样本点云通过目标标定矩阵进行坐标投影,减小了对样本点云进行处理的数据量。
步骤208,对于样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征。
具体地,计算机设备确定每个样本点云的点云坐标和样本点云特征、每个样本点云坐标各自对应的样本图像像素,并根据每个样本点云坐标各自对应的样本图像像素,确定与每个样本点云的样本点云特征各自对应的样本图像像素的样本像素特征。其中,样本像素特征通过二维监督结构对样本图像像素进行特征提取得到。计算机设备将每个样本点云对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到每个样本点云各自对应的目标样本点云特征。
在其中一个实施例中,计算机设备通过可通过以下公式对样本点云对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合:
其中,表示特征融合后得到的目标样本点云特征,n表示样本点云的个数,fn表示第n个样本点云对应的样本点云特征,表示第n个样本点云对应的样本图像像素的样本像素特征,Conv1×1表示对样本像素特征进行一维卷积处理,MLP表示对样本点云特征进行线性化处理,LN表示分别对一维卷积处理后的样本像素特征和线性化处理后的样本点云特征进行归一化处理,可表示一种将归一化处理后的特征进行线性组合的方式。
在其中一个实施例中,计算机设备通过样本图像像素的样本像素特征,可对二维监督结构进行训练,训练后的二维监督结构用来进行二维语义分割、二维目标跟踪等。
步骤210,根据样本目标点云特征与点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型。
例如,三维检测模型可以是一种3D检测头,当训练样本为样本目标点云特征时,训练标签则为3D检测框,当3D检测头的损失函数收敛时,则认为达到了训练停止条件,可得到训练好的3D检测头。其中,得到训练好的三维检测模型可用于对行车区域内的目标对象进行目标对象识别、三维语义分割、三维目标跟踪等。
在其中一个实施例中,三维检测模型包括三维监督结构和二维监督结构;三维监督结构用于对点云特征提取结构所提取的样本目标点云特征的准确性进行监督;二维监督结构用于对图像特征提取结构所提取的样本像素特征的准确性进行监督;点云特征提取结构用于提取样本点云的样本点云特征;图像特征提取结构用于提取样本图像像素的样本像素特征。
在其中一个实施例中,计算机设备通过三维检测模型可实现二维语义分割、二维目标跟踪等。
在其中一个实施例中,计算机设备通过三维检测模型可确定行车区域内的目标对象的对象特征,其中,对象特征包括目标对象的中心点坐标、三维检测框的边长、以及三维检测框的旋转角。计算机设备根据解析到的对象特征,完成行车区域内的目标对象的识别。
在其中一个实施例中,计算机设备中展示有目标识别界面,通过目标识别界面对目标对象进行展示、以及对目标对象的对象特征进行展示,并通过三维检测框对识别出的目标对象进行框选。
上述三维检测模型的训练方法中,通过获取样本行车区域图像和样本深度点云图像,并对样本深度点云图像进行随机扰动处理,如此,便可确定随机扰动后的样本深度点云图像中的每个样本点云各自对应的位于样本行车区域图像中的样本图像像素;进而将每个样本点云对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征,使得通过样本目标点云特征对三维检测模型进行训练,得到训练好的三维检测模型。由于本申请是在对样本深度点云图像进行随机扰动处理后,再将样本点云特征与相对应的样本像素特征进行融合,相较于传统直接通过映射模型进行融合训练的算法,本申请直接将融合后的样本目标点云特征作为训练对象,大大提高了三维检测模型的训练效率。同时,由于是将随机扰动处理后的样本深度点云图像与样本行车区域图像作为融合对象,因此克服了外界环境干扰对融合过程的影响,提高了三维检测模型抗扰动能力。
在其中一个实施例中,对样本深度点云图像进行随机扰动处理,包括:获取样本深度点云图像对应的标定矩阵;确定标定矩阵对应的扰动旋转角和扰动偏移量,并根据扰动旋转角和扰动偏移量,确定标定矩阵对应的目标标定矩阵;通过目标标定矩阵对样本深度点云图像进行随机扰动处理。
其中,扰动旋转角为一种三维旋转角,为一种可分别沿着X轴、Y轴和Z轴进行扰动旋转形成的偏转角,扰动偏移量则为一种分别沿着X轴、Y轴和Z轴进行扰动偏移形成的距离。
具体地,计算机设备获取样本深度点云图像对应的标定矩阵,其中,标定矩阵为一种由标定旋转角与标定偏移量构成的4阶矩阵,通过对标定矩阵进行一定程度的随机扰动,确定相应的扰动旋转角和扰动偏移量,进而通过扰动旋转角和扰动偏移量的构建一个4阶扰动矩阵,并对扰动矩阵进行齐次变换,形成扰动齐次矩阵。计算机设备通过将标定矩阵与扰动齐次矩阵进行相乘,可得到与标定矩阵相对应的目标标定矩阵,进而通过目标标定矩阵,便可对样本深度点云图像进行随机扰动处理。
例如,当样本深度点云图像的标定矩阵为时,其中,R和t分别为标定矩阵中的旋转矩阵和偏移向量。
通过对标定矩阵进行一定程度的随机扰动,得到扰动偏移量为向量t1、扰动旋转角为ω=(ω1,ω2,ω3)T时,其中,ω1,ω2,ω3分别为沿着X轴、Y轴和Z轴进行扰动旋转形成的偏转角。
由此得到扰动旋转角对应的旋转矩阵为:其中,I为单位矩阵。
根据扰动偏移量和扰动旋转角,得到的扰动矩阵为:
根据标定矩阵与扰动矩阵,便可得到目标标定矩阵为:其中,T1′为对扰动矩阵进行齐次变换,形成扰动齐次矩阵。
本实施例中,通过对标定矩阵进行随机扰动处理,使得后续的融合过程能适应不同质量的目标标定矩阵,增强了通过目标标定矩阵对点云坐标进行转换的准确性。
在其中一个实施例中,通过目标标定矩阵对目标样本点云进行随机扰动处理,包括:确定目标样本点云的点云坐标;通过目标标定矩阵对点云坐标进行转换,得到目标坐标;确定随机扰动后的样本深度点云图像中的每个样本点云各自对应的位于样本行车区域图像中的样本图像像素,包括:将样本行车区域图像中的具有目标坐标的样本图像像素作为与目标样本点云相对应的像素。
其中,目标样本点云为根据随机扰动概率,从样本深度点云图像中筛选出的点云。
具体地,计算机设备确定目标样本点云的点云坐标,并通过目标标定矩阵对样本点云坐标进行转换,得到与样本点云坐标对应的目标坐标,也即将目标样本点云的点云坐标投影到样本行车区域图像上。其中,目标坐标为样本行车区域图像中的样本图像像素所对应的坐标。计算机设备通过目标坐标,确定与目标样本点云相对应的样本行车区域图像中的样本图像像素。
例如,通过坐标转换公式:
其中,π为样本深度点云图像的内参矩阵,R2和t2分别为目标标定矩阵中的旋转矩阵和偏移向量,当目标点云的点云坐标为(X,Y,Z)时,通过目标标定矩阵便可得到投影到样本行车区域图像上的目标坐标(x,y)。
本实施例中,由于仅对随机扰动后的样本深度点云图像中的目标样本点云进行坐标转换,提高了后续特征融合过程的效率。
在其中一个实施例中,计算机设备通过标定矩阵对非目标样本点云的点云坐标进行转换,也即将非目标样本点云的点云坐标投影到样本行车区域图像上。
在其中一个实施例中,三维检测模型包括卷积层、多层感知机层和归一化层,将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征,包括:通过三维检测模型中的卷积层,对当前样本点云对应的样本图像像素的样本像素特征进行卷积处理,得到候选样本像素特征;通过三维检测模型中的多层感知机层,对当前样本点云对应的样本点云特征进行线性处理,得到候选样本点云特征;通过三维检测模型中的归一化层,对候选样本像素特征和候选样本点云特征进行归一化处理;将归一化处理后的候选样本像素特征和归一化处理后的候选样本点云特征进行线性组合处理,得到样本目标点云特征。
具体地,计算机设备对于样本深度点云图像中的每个目标样本点云,均确定当前样本点云对应的样本点云特征,并将当前样本点云对应的样本点云特征输入至三维检测模型中的多层感知机层,通过多层感知机层对当前样本点云的点云特征进行线性处理,得到处理好的候选样本点云特征。同时,计算机设备通过每个目标样本点云各自对应的样本图像像素,确定每个样本图像像素各自对应的样本像素特征,并当前样本点云对应的样本像素特征输入至三维检测模型中的卷积层,通过卷积层对当前样本点云的样本像素特征进行一维卷积处理,得到处理好的候选样本像素特征,其中,候选样本像素特征可为一种包括不同粒度信息的像素特征。
进一步的,计算机设备将每个样本点云各自对应的候选样本像素特征和候选样本点云特征输入至三维检测模型中的归一化层中,通过归一化层对每个样本点云各自对应的候选样本像素特征和候选样本点云特征分别进行归一化处理,并将归一化处理后的候选样本像素特征和归一化处理后的候选样本点云特征进行线性组合处理,得到目标样本点云特征。其中,可通过concat特征融合算法对归一化处理后的候选样本像素特征和归一化处理后的候选样本点云特征进行线性组合处理。
本实施例中,通过直接将样本像素特征和样本点云特征进行特征融合,得到融合后的目标样本点云特征,进而通过融合后的目标样本点云特征,可快速对三维检测模型进行训练。
在其中一个实施例中,计算机设备将融合后的目标样本点云特征输入至三维检测头,通过预先获取的三维检测框,对目标样本点云特征进行三维监督。
本实施例中,通过采用将样本点云对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合训练的方法,提高了三维检测模型的训练效率。
在其中一个实施例中,根据样本目标点云特征与点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型,包括:根据样本目标点云特征与点云特征标签间的差异,确定三维监督结构所对应的第一损失函数;根据样本像素特征和像素特征标签,确定与二维监督结构所对应的第二损失函数;将第一损失函数和第二损失函数进行联合,得到联合损失函数;通过联合损失函数,并基于反向传播算法对三维检测模型中的模型参数进行更新,直到达到训练停止条件时停止,得到训练好的三维检测模型。
其中,三维监督结构为上述对点云特征提取结构所提取的样本目标点云特征进行监督的结构;二维监督结构为上述对图像特征提取结构所提取的样本像素特征进行监督的结构;第一损失函数和第二损失函数均可为一种合页损失函数、指数损失函数等;反向传播算法为一种根据真实值与估计值的误差对网络模型的权值参数进行调整的算法。例如,反向传播算法可为一种梯度下降算法,梯度下降算法中可将误差的平方和作为目标函数,通过逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值参数的梯度,从而根据梯度下降方向对模型参数进行修改,网络模型的训练则在模型参数修改的过程中完成。
具体地,计算机设备根据样本目标点云特征与点云特征标签间的差异,确定三维监督结构所对应的第一损失函数,并根据样本像素特征和像素特征标签,确定与二维监督结构所对应的第二损失函数。计算机设备将第一损失函数和第二损失函数进行联合,得到联合损失函数,此时的联合损失函数用于对三维检测模型进行更新。计算机设备通过上一轮训练好的三维检测模型可得到样本点云对应的估计样本目标点云特征和估计样本像素特征,基于点云特征标签和估计样本目标点云特征、像素特征标签和估计样本像素特征,并根据联合损失函数可得到点云特征损失值。
进一步的,计算机设备通过反向传播算法确定联合损失函数的点云特征损失值的梯度,并沿着点云特征损失值的梯度方向更新对三维检测模型中的模型参数进行更新,也即利用模型参数衰减的方式使点云特征损失值尽可能最小化,进而使得联合损失函数达到收敛,得到训练好的三维检测模型。
本实施例中,通过将第一损失函数和第二损失函数进行联合来确定联合权重参数的更新方式,进而对三维检测模型进行更新训练,从而整体地提升了三维检测模型的性能,也即实现了二维监督结构和三维监督结构联合训练。
在其中一个实施例中,三维检测模型的训练方法还包括对二维监督结构进行训练,如图3所示,训练二维监督结构的步骤包括:
步骤301,获取样本行车区域图像中的样本像素和样本像素对应的像素特征标签。
其中,对样本行车区域图像中的样本像素进行训练,主要为了训练出对能准确对三维检测模型中的样本图像像素进行特征提取的模型,像素特征标签可以为一种二维标签。如二维检测框、二维语义标签等。
步骤302,确定样本行车区域图像中的初始样本像素、以及每个初始样本像素各自对应的初始样本像素特征,并根据初始样本像素特征与初始样本像素对应的像素特征标签,得到首轮的二维监督子结构。
其中,初始样本像素可为目标样本点云在进行坐标投影之前,用户在样本像素中随机挑选的至少一个样本像素,也可为根据随机扰动概率所确定的非目标样本点云在样本行车区域图像中的投影像素。
计算机设备根据初始样本像素特征与像素特征标签间的差异,对二维监督结构进行训练,直到达到训练停止条件时停止,得到训练好的首轮的二维监督子结构。例如,若1号样本像素和2号样本像素为初始样本像素,通过训练便可得到首轮的二维监督子结构。
步骤303,从首轮之后的第二轮次起的当前轮次中,确定样本行车区域图像中的轮次样本像素,并通过历史轮次的二维监督子结构,确定每个轮次样本像素各自对应的轮次样本像素特征;历史轮次为在当前轮次之前的至少一个轮次。
其中,轮次样本像素可为目标样本点云在进行坐标投影之后,用户在样本像素中随机挑选的至少一个样本像素,也可为根据随机扰动概率所确定的目标样本点云在样本行车区域图像中的投影像素。轮次样本像素的数量可由用户进行指定,也可通过三维检测模型中样本目标点云的数量进行确定。当前轮次的执行可由用户进行指定,也可通过三维检测模型中的样本点云特征与样本像素特征进行融合的过程确定。
例如,参考上述举例,当确定出3号样本目标样本点云对应的样本图像像素为3号样本像素,也即3号样本像素为轮次样本像素时,便可启动首轮之后的第二轮次的执行过程,基于首轮的二维监督子结构,可确定出3号样本像素的轮次样本像素特征,接着将轮次样本像素特征、轮次样本像素对应的像素特征标签添加至首轮二维监督子结构中进行训练,得到训练好的当前轮次的二维监督子结构。同时,在三维检测模型中,可确定将3号样本点云的样本点云特征与相对应的3号样本像素的轮次样本像素特征进行融合,得到3号样本目标点云特征的过程。其中,3号样本目标点云可为至少一个样本目标点云,也即3号样本像素可为至少一个样本像素。
步骤304,根据历史轮次的二维监督子结构、轮次样本像素特征、以及轮次样本像素对应的像素特征标签,得到训练好的当前轮次的二维监督子结构。
计算机设备基于历史轮次的二维监督子结构,并结合轮次样本像素特征以及轮次样本像素对应的像素特征标签之间的差异,对二维监督结构进行训练,直到达到训练停止条件时停止,得到训练好的当前轮次的二维监督子结构。
步骤305,将下一轮次作为当前轮次,并返回至从首轮之后的第二轮次起的当前轮次中,确定样本行车区域图像中的轮次样本像素,并通过历史轮次的二维监督子结构,确定每个轮次样本像素各自对应的轮次样本像素特征的步骤并继续执行,直至得到训练好的当前轮次的二维监督子结构。
步骤306,综合每个轮次各自对应的二维监督子结构,得到样本行车区域图像对应的二维监督结构。
本实施例中,通过二维监督结构对行车区域图像的直接监督能够获取到更好的样本像素特征,有助于提升三维检测模型中的样本点云特征与样本像素特征进行融合过程的效果。同时,由于二维监督结构仅作辅助监督模型,仅仅在训练过程中对样本像素特征进行计算,在通过三维检测模型对在目标对象进行识别的过程不参与计算,提高了对三维检测模型使用的便捷性。
在一个实施例中,如图4所示,图4为另一个实施例中三维检测模型的训练方法的原理示意图。计算机设备获取样本行车区域图像、样本深度点云图像、以及样本深度点云图像对应的标定矩阵,并将样本行车区域图像输入到多层级的图像特征提取网络,提取到样本行车区域图像的多尺度的样本像素特征,同时将样本深度点云图像输入到多阶段的特征提取网络,提取到样本深度点云图像的样本点云特征。计算机设备对标定矩阵增加一个包括随机扰动概率、扰动旋转角和扰动偏移量的随机扰动,得到扰动后的目标标定矩阵,例如,增加一个随机扰动概率为50%、沿着X轴的扰动旋转角为0.2度、扰动偏移量符合20cm高斯分布的随机扰动。基于扰动后的目标标定矩阵,计算机设备将样本深度点云图像的样本点云特征所对应的坐标投影到样本行车区域图像上,并确定样本行车区域图像上的投影点、投影点所对应的多尺度样本像素特征。
进一步的,计算机设备将样本点云特征与样本像素特征进行融合,形成融合后的目标样本点云特征,并将目标样本点云特征输入至3D检测头,通过预设的3D检测框,对目标样本点云特征进行3D监督。同时,计算机设备将多层级的样本像素特征输入至2D检测头,通过预设的2D检测框,对样本像素特征进行2D监督。其中,2D监督用于对3D监督进行辅助监督。
本实施例中,通过对融合后的目标点云特征进行3D监督,可准确得到训练好的三维检测模型,同时增加2D监督作为辅助监督,使得样本点云特征与样本像素特征有更好的融合效果。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的三维检测模型的训练方法的三维检测模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个三维检测模型的训练装置实施例中的具体限定可以参见上文中对于三维检测模型的训练方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种三维检测模型的训练装置500,包括:图像获取模块502、特征识别模块504和模型训练模块506,其中:
图像获取模块502,用于获取样本行车区域图像、样本深度点云图像和样本深度点云图像中的样本点云所对应的点云特征标签
特征识别模块504,用于确定样本深度点云图像中的样本点云所对应的样本点云特征;对样本深度点云图像进行随机扰动处理,并确定随机扰动后的样本深度点云图像中的每个样本点云各自对应的位于样本行车区域图像中的样本图像像素;
模型训练模块506,用于对于样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;根据样本目标点云特征与点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型。
在其中一个实施例中,特征识别模块504还包括扰动处理模块5041,用于获取样本深度点云图像对应的标定矩阵;确定标定矩阵对应的扰动旋转角和扰动偏移量,并根据扰动旋转角和扰动偏移量,确定标定矩阵对应的目标标定矩阵;通过目标标定矩阵对样本深度点云图像进行随机扰动处理。
在其中一个实施例中,扰动处理模块5041,还用于获取样本深度点云图像对应的随机扰动概率;基于随机扰动概率,确定样本深度点云图像中目标样本点云;通过目标标定矩阵对目标样本点云进行随机扰动处理。
在其中一个实施例中,特征识别模块504还包括坐标转换模块5042,用于确定目标样本点云的点云坐标;通过目标标定矩阵对点云坐标进行转换,得到目标坐标;确定随机扰动后的样本深度点云图像中的每个样本点云各自对应的位于样本行车区域图像中的样本图像像素,包括:将样本行车区域图像中的具有目标坐标的样本图像像素作为与目标样本点云相对应的像素。
在其中一个实施例中,模型训练模块506包括三维模型训练模块5061,用于三维检测模型包括卷积层、多层感知机层和归一化层,将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征,包括:通过三维检测模型中的卷积层,对当前样本点云对应的样本图像像素的样本像素特征进行卷积处理,得到候选样本像素特征;通过三维检测模型中的多层感知机层,对当前样本点云对应的样本点云特征进行线性处理,得到候选样本点云特征;通过三维检测模型中的归一化层,对候选样本像素特征和候选样本点云特征进行归一化处理;将归一化处理后的候选样本像素特征和归一化处理后的候选样本点云特征进行线性组合处理,得到样本目标点云特征。
在其中一个实施例中,模型训练模块506包括监督结构训练模块5062,用于获取样本行车区域图像中的样本像素和样本像素对应的像素特征标签;确定样本行车区域图像中的初始样本像素、以及每个初始样本像素各自对应的初始样本像素特征,并根据初始样本像素特征与初始样本像素对应的像素特征标签,得到首轮的二维监督子结构;从首轮之后的第二轮次起的当前轮次中,确定样本行车区域图像中的轮次样本像素,并通过历史轮次的二维监督子结构,确定每个轮次样本像素各自对应的轮次样本像素特征;历史轮次为在当前轮次之前的至少一个轮次根据历史轮次的二维监督子结构、轮次样本像素特征、以及轮次样本像素对应的像素特征标签,得到当前轮次的二维监督子结构;将下一轮次作为当前轮次,并返回至从首轮之后的第二轮次起的当前轮次中,确定样本行车区域图像中的轮次样本像素,并通过历史轮次的二维监督子结构,确定每个轮次样本像素各自对应的轮次样本像素特征的步骤并继续执行,直至得到当前轮次的二维监督子结构;综合每个轮次各自对应的二维监督子结构,得到样本行车区域图像对应的二维监督结构。
在其中一个实施例中,三维检测模型的训练装置500包括三维监督结构和二维监督结构;三维监督结构用于对点云特征提取结构所提取的样本目标点云特征的准确性进行监督;二维监督结构用于对图像特征提取结构所提取的样本像素特征的准确性进行监督;点云特征提取结构用于提取样本点云的样本点云特征;图像特征提取结构用于提取样本图像像素的样本像素特征。
在其中一个实施例中,模型训练模块506包括模型联合更新模块5063,用于根据样本目标点云特征与点云特征标签间的差异,确定三维监督结构所对应的第一损失函数;根据样本像素特征和像素特征标签,确定与二维监督结构所对应的第二损失函数;将第一损失函数和第二损失函数进行联合,得到联合损失函数;通过联合损失函数,并基于反向传播算法对三维检测模型中的模型参数进行更新,直到达到训练停止条件时停止,得到训练好的三维检测模型。
上述三维检测模型的训练中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本点云数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种三维检测模型的训练方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(FerroelectricRandom Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandom Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种三维检测模型的训练方法,其特征在于,所述方法包括:
获取样本行车区域图像、样本深度点云图像和所述样本深度点云图像中的样本点云所对应的点云特征标签;
确定所述样本深度点云图像中的样本点云所对应的样本点云特征;
对所述样本深度点云图像进行随机扰动处理,并确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素;
对于所述样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;
根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型;所述三维检测模型用于对行车区域中的目标对象进行识别;
其中,所述将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征,包括:
通过所述三维检测模型中的卷积层,对当前样本点云对应的样本图像像素的样本像素特征进行卷积处理,得到候选样本像素特征;通过所述三维检测模型中的多层感知机层,对当前样本点云对应的样本点云特征进行线性处理,得到候选样本点云特征;通过所述三维检测模型中的归一化层,对所述候选样本像素特征和所述候选样本点云特征进行归一化处理;将归一化处理后的所述候选样本像素特征和归一化处理后的所述候选样本点云特征进行线性组合处理,得到样本目标点云特征。
2.根据权利要求1所述的方法,其特征在于,所述对所述样本深度点云图像进行随机扰动处理,包括:
获取所述样本深度点云图像对应的标定矩阵;
确定所述标定矩阵对应的扰动旋转角和扰动偏移量,并根据所述扰动旋转角和所述扰动偏移量,确定所述标定矩阵对应的目标标定矩阵;
通过所述目标标定矩阵对所述样本深度点云图像进行随机扰动处理。
3.根据权利要求2所述的方法,其特征在于,所述通过所述目标标定矩阵对所述样本深度点云图像进行随机扰动处理,包括:
获取所述样本深度点云图像对应的随机扰动概率;
基于所述随机扰动概率,确定所述样本深度点云图像中目标样本点云;
通过所述目标标定矩阵对所述目标样本点云进行随机扰动处理。
4.根据权利要求3所述的方法,其特征在于,所述通过所述目标标定矩阵对所述目标样本点云进行随机扰动处理,包括:
确定所述目标样本点云的点云坐标;
通过所述目标标定矩阵对所述点云坐标进行转换,得到目标坐标;
所述确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素,包括:
将所述样本行车区域图像中的具有所述目标坐标的样本图像像素作为与所述目标样本点云相对应的像素。
5.根据权利要求1所述的方法,其特征在于,所述三维检测模型的训练方法还包括对二维监督结构进行训练;所述二维监督结构用于确定所述样本点云对应的样本图像像素的样本像素特征;所述二维监督结构的训练步骤,包括:
获取样本行车区域图像中的样本像素和样本像素对应的像素特征标签;
确定样本行车区域图像中的初始样本像素、以及每个所述初始样本像素各自对应的初始样本像素特征,并根据所述初始样本像素特征与所述初始样本像素对应的所述像素特征标签,得到首轮的二维监督子结构;
从所述首轮之后的第二轮次起的当前轮次中,确定所述样本行车区域图像中的轮次样本像素,并通过历史轮次的所述二维监督子结构,确定每个所述轮次样本像素各自对应的轮次样本像素特征;所述历史轮次为在所述当前轮次之前的至少一个轮次;
根据历史轮次的所述二维监督子结构、所述轮次样本像素特征、以及所述轮次样本像素对应的所述像素特征标签,得到当前轮次的二维监督子结构;
将下一轮次作为当前轮次,并返回至所述从所述首轮之后的第二轮次起的当前轮次中,确定所述样本行车区域图像中的轮次样本像素,并通过历史轮次的所述二维监督子结构,确定每个所述轮次样本像素各自对应的轮次样本像素特征的步骤并继续执行,直至得到当前轮次的二维监督子结构;
综合每个轮次各自对应的二维监督子结构,得到所述样本行车区域图像对应的二维监督结构。
6.根据权利要求1所述的方法,其特征在于,所述三维检测模型包括三维监督结构和二维监督结构;所述三维监督结构用于对点云特征提取结构所提取的样本目标点云特征的准确性进行监督;所述二维监督结构用于对图像特征提取结构所提取的样本像素特征的准确性进行监督;所述点云特征提取结构用于提取所述样本点云的样本点云特征;所述图像特征提取结构用于提取所述样本图像像素的样本像素特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型,包括:
根据所述样本目标点云特征与所述点云特征标签间的差异,确定所述三维监督结构对应的第一损失函数;
根据所述样本像素特征和像素特征标签间的差异,确定所述二维监督结构对应的第二损失函数;
将所述第一损失函数和所述第二损失函数进行联合,得到联合损失函数;
通过所述联合损失函数,并基于反向传播算法对所述三维检测模型中的模型参数进行更新,直到达到训练停止条件时停止,得到训练好的三维检测模型。
8.一种三维检测模型的训练装置,其特征在于,所述装置包括:
图像获取模块,用于获取样本行车区域图像、样本深度点云图像和所述样本深度点云图像中的样本点云所对应的点云特征标签;
特征识别模块,用于确定所述样本深度点云图像中的样本点云所对应的样本点云特征;对所述样本深度点云图像进行随机扰动处理,并确定随机扰动后的所述样本深度点云图像中的每个样本点云各自对应的位于所述样本行车区域图像中的样本图像像素;
模型训练模块,用于对于所述样本深度点云图像中的每个样本点云,均将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征;根据所述样本目标点云特征与所述点云特征标签间的差异,对三维检测模型进行训练,直到达到训练停止条件时停止,得到训练好的三维检测模型;所述三维检测模型用于对行车区域中的目标对象进行识别;
其中,所述将当前样本点云所对应的样本点云特征与相对应的样本图像像素的样本像素特征进行融合,得到样本目标点云特征,包括:
通过所述三维检测模型中的卷积层,对当前样本点云对应的样本图像像素的样本像素特征进行卷积处理,得到候选样本像素特征;通过所述三维检测模型中的多层感知机层,对当前样本点云对应的样本点云特征进行线性处理,得到候选样本点云特征;通过所述三维检测模型中的归一化层,对所述候选样本像素特征和所述候选样本点云特征进行归一化处理;将归一化处理后的所述候选样本像素特征和归一化处理后的所述候选样本点云特征进行线性组合处理,得到样本目标点云特征。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210292605.7A 2022-03-24 2022-03-24 三维检测模型的训练方法、装置、计算机设备和存储介质 Active CN114863201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210292605.7A CN114863201B (zh) 2022-03-24 2022-03-24 三维检测模型的训练方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210292605.7A CN114863201B (zh) 2022-03-24 2022-03-24 三维检测模型的训练方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN114863201A CN114863201A (zh) 2022-08-05
CN114863201B true CN114863201B (zh) 2025-02-21

Family

ID=82627099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210292605.7A Active CN114863201B (zh) 2022-03-24 2022-03-24 三维检测模型的训练方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114863201B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471805B (zh) * 2022-09-30 2023-09-05 阿波罗智能技术(北京)有限公司 点云处理和深度学习模型训练方法、装置及自动驾驶车辆
CN118230072B (zh) * 2024-05-22 2024-08-06 深圳大学 基于二维分类模型的三维点云分类模型训练方法和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018128531A1 (de) * 2018-11-14 2020-05-14 Valeo Schalter Und Sensoren Gmbh System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
CN112036267A (zh) * 2020-08-14 2020-12-04 珠海格力电器股份有限公司 一种目标检测方法、装置、设备和计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161252B (zh) * 2019-12-31 2022-03-25 山东大学 岩体结构探测及危石探测系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018128531A1 (de) * 2018-11-14 2020-05-14 Valeo Schalter Und Sensoren Gmbh System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
CN112036267A (zh) * 2020-08-14 2020-12-04 珠海格力电器股份有限公司 一种目标检测方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN114863201A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
Wang et al. A novel GCN-based point cloud classification model robust to pose variances
CN110956131B (zh) 单目标追踪方法、装置及系统
CN114863201B (zh) 三维检测模型的训练方法、装置、计算机设备和存储介质
US12198381B2 (en) Hand pose estimation method, device and storage medium
CN115457492A (zh) 目标检测方法、装置、计算机设备及存储介质
CN111239684A (zh) 一种基于YoloV3深度学习的双目快速距离测量方法
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN115690051A (zh) Pcb缺陷检测方法、装置、计算机设备及存储介质
Gao et al. HDRNet: High‐Dimensional Regression Network for Point Cloud Registration
CN115100294B (zh) 基于直线特征的事件相机标定方法、装置及设备
CN116977265A (zh) 缺陷检测模型的训练方法、装置、计算机设备和存储介质
Yang et al. Non-rigid point set registration via global and local constraints
CN115115825A (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN118608781A (zh) 语义分割方法、装置、电子设备及存储介质
CN117037102A (zh) 对象跟随方法、装置、计算机设备和存储介质
US20230401670A1 (en) Multi-scale autoencoder generation method, electronic device and readable storage medium
Dubenova et al. D-inloc++: Indoor localization in dynamic environments
Huang et al. Methods on visual positioning based on basketball shooting direction standardisation
CN113096104A (zh) 目标分割模型的训练方法及装置和目标分割方法及装置
Hu et al. Visual localization of robotic end effector via fusion of 3D Gaussian Splatting and heuristic optimization algorithm
CN119439186B (zh) 多传感器融合探测方法、装置、设备、介质和程序产品
CN118450327B (zh) 一种基于店铺招牌识别辅助的无人车快速定位方法及装置
CN116665177B (zh) 数据处理方法、装置、电子装置和存储介质
CN114359377B (zh) 一种实时6d位姿估计方法及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant