CN109325972B - 激光雷达稀疏深度图的处理方法、装置、设备及介质 - Google Patents
激光雷达稀疏深度图的处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN109325972B CN109325972B CN201810829623.8A CN201810829623A CN109325972B CN 109325972 B CN109325972 B CN 109325972B CN 201810829623 A CN201810829623 A CN 201810829623A CN 109325972 B CN109325972 B CN 109325972B
- Authority
- CN
- China
- Prior art keywords
- processing
- sparse
- feature
- mask
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000007499 fusion processing Methods 0.000 claims abstract description 216
- 238000013528 artificial neural network Methods 0.000 claims abstract description 203
- 238000000034 method Methods 0.000 claims abstract description 160
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 574
- 230000004927 fusion Effects 0.000 claims description 303
- 238000010586 diagram Methods 0.000 claims description 144
- 230000009466 transformation Effects 0.000 claims description 91
- 239000011159 matrix material Substances 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 60
- 238000005070 sampling Methods 0.000 claims description 57
- 238000003384 imaging method Methods 0.000 claims description 5
- 238000011282 treatment Methods 0.000 claims description 5
- 238000011276 addition treatment Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 11
- 229910003460 diamond Inorganic materials 0.000 description 8
- 239000010432 diamond Substances 0.000 description 8
- 238000011176 pooling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
- G01S17/894—3D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/93—Lidar systems specially adapted for specific applications for anti-collision purposes
- G01S17/931—Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/521—Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/12—Acquisition of 3D measurements of objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Radar, Positioning & Navigation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Remote Sensing (AREA)
- Electromagnetism (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Optics & Photonics (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
- Navigation (AREA)
Abstract
本申请的实施方式公开了一种激光雷达稀疏深度图的处理方法、神经网络的训练方法、车辆智能控制方法、避障导航方法、装置、电子设备、计算机可读存储介质及计算机程序,其中的激光雷达稀疏深度图的处理方法包括:向神经网络输入激光雷达稀疏深度图;由所述神经网络获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
Description
技术领域
本申请涉及计算机视觉技术,尤其是涉及一种激光雷达稀疏深度图的处理方法、激光雷达稀疏深度图的处理装置、车辆智能控制方法、车辆智能控制装置、避障导航方法、避障导航装置、神经网络的训练方法、神经网络的训练装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
激光雷达通过扫描可以获取到周围场景中的物体的深度信息,这些深度信息可以形成激光雷达投射图。该激光雷达投射图中的点的取值通常表示该点的深度值。激光雷达投射图也可以称为激光雷达深度图。
激光雷达投射图可以用于辅助完成语义分割以及目标检测等任务,也可以用于智能驾驶中对车辆周围的场景分析以及辅助完成车辆控制决策等任务。
然而,由于激光雷达的硬件条件限制等因素,激光雷达投射图通常包含有部分无效点,即深度值无效的点。如何填补激光雷达投射图中的无效点的深度值,获得较为精确的激光雷达深度图,是一个值得关注的技术问题。
发明内容
本申请实施方式提供一种激光雷达稀疏深度图的处理、车辆智能控制、避障导航以及训练神经网络的技术方案。
根据本申请实施方式其中一方面,提供一种激光雷达稀疏深度图的处理方法,所述方法包括:向神经网络输入激光雷达稀疏深度图;由所述神经网络获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
在本申请一实施方式中,所述向神经网络输入激光雷达稀疏深度图包括:向神经网络输入激光雷达稀疏深度图及所述激光雷达稀疏深度图的蒙板;其中,所述激光雷达稀疏深度图的蒙板用于指示所述激光雷达稀疏深度图中的有效点,所述方法还包括:根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板;所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理包括:根据所述至少两个不同尺度的特征图的蒙板,针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理。
在本申请又一实施方式中,由所述神经网络获取所述深度图的至少两个不同尺度的特征图,包括:由所述神经网络对所述激光雷达稀疏深度图进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图;对所述深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图;所述至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
在本申请再一实施方式中,所述根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板包括:由所述神经网络对所述激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图的蒙板,对所述蒙板进行尺度变换处理,以获得各特征图的蒙板。
在本申请再一实施方式中,所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理,包括:所述神经网络执行至少一级有效点特征融合处理;在至少一级有效点融合处理中,所述神经网络对多路不同尺度的特征图分别进行有效点特征融合处理;在所述神经网络执行多级有效点特征融合处理的情况下,前一级融合处理的输出用于为后一级融合处理提供输入。
在本申请再一实施方式中,所述神经网络对前一级融合处理后输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合处理。
在本申请再一实施方式中,在前一级融合处理的输出路数小于后一级融合处理的输入路数的情况下,前一级融合处理的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合处理的输入。
在本申请再一实施方式中,所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理,还包括:对融合处理后的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,所述形成的一路特征图作为后一级的融合处理的输入;或者,所述神经网络对所述形成的一路特征图进行输出处理。
在本申请再一实施方式中,所述方法还包括:将与所述激光雷达稀疏深度图具有相同视角和大小的图像提供给所述神经网络,所述图像包括:摄像装置摄取到的图像;所述神经网络获取所述图像的至少一个尺度的特征图,所述图像的相应尺度的特征图被作为相应的融合处理的输入;其中,所述图像的特征图用于与所述激光雷达稀疏深度图的特征图进行融合处理。
在本申请再一实施方式中,在所述融合处理具有N路输入和N路输出的情况下,神经网络针对第M路输入所执行的有效点特征融合处理包括:对第N路输入的特征图和特征图的蒙板分别进行下采样处理;根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板;其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,且N为大于M的整数。
在本申请再一实施方式中,所述神经网络针对第N路输入所执行的有效点特征融合处理包括:对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理;对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
在本申请再一实施方式中,所述神经网络的输出处理包括:对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
在本申请再一实施方式中,在所述融合处理具有N路输入和N路输出的情况下,所述神经网络针对第N路输入所执行的有效点特征融合处理包括:对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理;对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板;其中,N为大于M的整数。
在本申请再一实施方式中,所述神经网络的输出处理包括:对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行进一步卷积处理,形成处理后的深度图。
在本申请再一实施方式中,所述稀疏合并卷积处理包括:将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
在本申请再一实施方式中,所述稀疏相加处理包括:将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;将第一特征图的蒙板与第二特征图的蒙板进行或运算,形成所述稀疏相加处理后的特征图的蒙板。
在本申请再一实施方式中,所述稀疏上采样处理包括:将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;
将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;对权值矩阵进行二值化处理,形成所述稀疏相加处理后的特征图的蒙板。
在本申请再一实施方式中,所述神经网络是利用激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。
根据本申请实施方式再一方面,提供一种车辆智能控制方法,所述方法包括:采用如上述任一实施方式所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
根据本申请实施方式再一方面,提供一种避障导航方法,所述方法包括:采用如上述任一实施方式所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
根据本申请实施方式再一方面,提供一种神经网络的训练方法,所述训练方法包括:向待训练的神经网络输入激光雷达稀疏深度图样本;由所述待训练的神经网络获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果,形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;以所述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
根据本申请实施方式再一方面,提供一种激光雷达稀疏深度图的处理装置,包括:深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
在本申请一实施方式中,所述深度图输入模块进一步用于:向神经网络输入激光雷达稀疏深度图及所述激光雷达稀疏深度图的蒙板;其中,所述激光雷达稀疏深度图的蒙板用于指示所述激光雷达稀疏深度图中的有效点,所述神经网络还用于:根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板;所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理包括:根据所述至少两个不同尺度的特征图的蒙板,针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理。
在本申请又一实施方式中,所述神经网络包括:输入处理单元,用于对所述激光雷达稀疏深度图进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图,对所述深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图;所述至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
在本申请再一实施方式中,所述输入处理单元还用于:对所述激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图的蒙板,对所述蒙板进行尺度变换处理,以获得各特征图的蒙板。
在本申请再一实施方式中,所述神经网络包括:至少一个融合模块,所述融合模块具有多路输入和多路输出,所述融合模块用于对多路输入的不同尺度的特征图分别进行有效点特征融合处理;在所述神经网络包括多个融合模块的情况下,前一级融合模块的输出用于为后一级融合模块提供输入。
在本申请再一实施方式中,所述神经网络还包括:至少一个第一变换模块,设置于融合模块之后;所述第一变换模块用于,对前一级融合模块的至少一路输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合模块。
在本申请再一实施方式中,在前一级融合模块的输出路数小于后一级融合模块的输入路数的情况下,前一级融合模块的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合模块的输入。
在本申请再一实施方式中,所述神经网络还包括:至少一个第二变换模块,设置于融合模块之后;所述第二变换模块用于,对融合模块的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,所述形成的一路特征图作为后一级的融合模块的输入,或者作为神经网络的输出处理单元的输入。
在本申请再一实施方式中,所述深度图输入模块还用于:将与所述激光雷达稀疏深度图具有相同视角和大小的图像提供给所述神经网络,所述图像包括:摄像装置摄取到的图像;所述输入处理单元还用于,获取所述图像的至少一个尺度的特征图,所述图像的相应尺度的特征图被作为相应的融合处理的输入;其中,所述图像的特征图用于与所述激光雷达稀疏深度图的特征图进行融合处理。
在本申请再一实施方式中,在所述融合模块具有N路输入和N路输出的情况下,所述融合模块针对第M路输入所执行的有效点特征融合处理包括:对第N路输入的特征图和特征图的蒙板分别进行下采样处理;根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板;其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,且N为大于M的整数。
在本申请再一实施方式中,所述融合模块针对第N路输入所执行的有效点特征融合处理包括:对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理;对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
在本申请再一实施方式中,所述输出处理单元包括:第一输出处理单元,用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
在本申请再一实施方式中,在所述融合模块具有N路输入和N路输出的情况下,所述融合模块针对第N路输入所执行的有效点特征融合处理包括:对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理;对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板;其中,N为大于M的整数。
在本申请再一实施方式中,所述输出处理单元包括:第二输出处理单元,用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行进一步卷积处理,形成处理后的深度图。
在本申请再一实施方式中,所述稀疏合并卷积处理包括:将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
在本申请再一实施方式中,所述稀疏相加处理包括:将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;将第一特征图的蒙板与第二特征图的蒙板进行或运算,形成所述稀疏相加处理后的特征图的蒙板。
在本申请再一实施方式中,所述稀疏上采样处理包括:将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;对权值矩阵进行二值化处理,形成所述稀疏相加处理后的特征图的蒙板。
在本申请再一实施方式中,所述神经网络是利用激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。
根据本申请实施方式再一方面,提供一种车辆智能控制装置,所述装置包括:深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;控制模块,用于根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
根据本申请实施方式再一方面,提供一种避障导航装置,所述装置包括:深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;避障导航模块,用于根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
根据本申请实施方式再一方面,提供一种神经网络的训练装置,所述训练装置包括:深度图样本输入模块,用于向待训练的神经网络输入激光雷达稀疏深度图样本;待训练的神经网络,用于获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果,形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;监督模块,用于以所述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
根据本申请实施方式再一方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本申请任一方法实施方式。
根据本申请实施方式再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本申请任一方法实施方式。
根据本申请实施方式的再一个方面,提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本申请任一方法实施方式。
基于本申请提供的激光雷达稀疏深度图的处理方法、激光雷达稀疏深度图的处理装置、神经网络训练方法、神经网络训练装置、车辆智能控制方法、车辆智能控制装置、避障导航方法、避障导航装置、电子设备、计算机可读存储介质及计算机程序,本申请通过利用神经网络来对激光雷达稀疏深度图的至少两个不同尺度的特征图,分别进行有效点特征融合处理,使神经网络可以实现多分支的特征融合处理,且不同分支可以在考虑多种感受野的特征图的基础上,形成处理稀疏深度图过程中的特征图,由于多种感受野的特征图更易于获得全局特征信息,因此,本申请中的融合模块可以获得更为准确的物体边缘信息,从而有利于提高融合处理后的特征图的准确性,有利于避免出现图像中的物体内部的深度断裂现象;另外,通过进行有效点特征融合处理,有利于避免特征图中的无效点对特征融合的影响,从而有利于进一步提高融合处理后的特征图的准确性。本申请通过利用较为准确的特征图来形成处理后的深度图,因此,有利于使处理后的激光雷达深度图更为精准。由上述描述可知,本申请提供的技术方案有利于使处理后的激光雷达深度图更为精准,进而在使本申请的激光雷达稀疏深度图的处理技术应用于自动驾驶、辅助驾驶等智能驾驶以及机器人避障导航的实时环境中的情况下,有利于提高智能驾驶以及机器人避障导航的决策准确性或预警准确性。
下面通过附图和实施方式,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施方式,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请的激光雷达稀疏深度图的处理方法一个实施方式的流程图;
图2为本申请的稀疏上采样处理的实现过程的示意图;
图3为本申请的稀疏相加处理的实现过程的示意图;
图4为本申请的稀疏合并卷积处理的实现过程的示意图;
图5为本申请的两尺度融合模块的一个实施方式的示意图;
图6为本申请的两尺度融合模块的另一个实施方式的示意图;
图7为本申请的三尺度融合模块的一个实施方式的示意图;
图8为本申请的三尺度融合模块的另一个实施方式的示意图;
图9为本申请的神经网络的一个实施方式的示意图;
图10为本申请的神经网络的另一个实施方式的示意图;
图11为本申请的神经网络的训练方法的一个实施方式的流程图;
图12为本申请的车辆智能控制方法的一个实施方式的流程图;
图13为本申请的避障导航方法的一个实施方式的流程图;
图14为本申请的激光雷达稀疏深度图的处理装置一个实施方式的结构示意图;
图15为本申请的神经网络的训练装置一个实施方式的结构示意图;
图16为本申请的车辆智能控制装置的一个实施方式的结构示意图;
图17为本申请的避障导航装置的一个实施方式的结构示意图;
图18为实现本申请实施方式的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应当注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性实施例
图1为本申请激光雷达稀疏深度图的处理方法一个实施例的流程图。如图1所示,该实施例方法包括:步骤S100以及步骤S110。图1中的各步骤如下:
S100、向神经网络输入激光雷达稀疏深度图。
本申请中,基于激光雷达的硬件设备而获得的深度图,是一种激光雷达深度图。由于基于激光雷达的硬件设备而获得的深度图中的部分点通常需要进行深度值填补处理,因此,基于激光雷达硬件设备而获得的深度图可以称为激光雷达稀疏深度图。本申请中的神经网络为预先成功训练的神经网络。
S110、由神经网络获取深度图的至少两个不同尺度的特征图,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果,获得处理后的深度图。
本申请中,基于激光雷达硬件设备而获得的深度图在其部分点进行了深度值填补处理后,所得到的深度图,同样是一种激光雷达深度图,且可以称为激光雷达稠密深度图或者补全的激光雷达深度图或者填补后的激光雷达深度图等。本申请处理后的激光雷达深度图中的具有深度值的点的数量,超过激光雷达稀疏深度图中的具有深度值的点的数量。也就是说,本申请中的“稠密”是相对于上述“稀疏”而言的。
本申请通过利用神经网络来对激光雷达稀疏深度图的至少两个不同尺度的特征图,分别进行有效点特征融合处理,使神经网络可以实现多分支的特征融合处理,且不同分支可以在考虑多种感受野的特征图的基础上,形成处理稀疏深度图过程中的特征图,由于多种感受野的特征图更易于获得全局特征信息(例如,用于表征物体与物体之间的关系的特征信息),因此,本申请中的有效点特征融合处理可以获得更为准确的物体边缘信息,从而有利于提高融合处理后的特征图的准确性,有利于避免出现图像中的物体内部的深度断裂现象;另外,通过进行有效点特征融合处理,有利于避免特征图中的无效点对特征融合的影响,从而有利于进一步提高融合处理后的特征图的准确性。由于本申请利用较为准确的特征图来形成处理后的深度图,因此,有利于使处理后的激光雷达深度图更为精准。
本申请中的不同尺度的特征图通常是指不同大小的特征图。一个分支对应一种尺度。本申请中的不同尺度的特征图可以体现出不同的感受野。
在一个可选示例中,本申请中的激光雷达深度图可以是车辆或者监控装置等设备中安装的激光雷达通过扫描及投影,而形成的深度图,例如,激光雷达通过扫描生成深度点云数据,深度点云数据在被投射到摄像装置所摄取的图像(如RGB(Red Green Blue,红绿蓝)图像、IR(Infrared Radiation,红外线)图像等)的二维平面时,形成激光雷达投射图(也可以称为二维激光雷达投射图)。激光雷达投射可以为摄像装置所摄取的图像中的点提供深度值。激光雷达投射图与摄像装置所摄取的图像可具有相同或基本相同(相近)的视角和大小。在下述描述中,有时是以RGB图像为摄像装置所摄取的图像为例,对本申请进行说明,然而,应当知道,使用IR等其他类型的图像替换下述描述中的RGB图像也是可行的。
在一个可选示例中,由于激光雷达硬件条件等因素的限制,激光雷达投射通常只能够为摄像装置所摄取的图像中的一部分点提供深度值,因此,激光雷达投射图也被称为激光雷达稀疏深度图。激光雷达稀疏深度图中的具有深度值的点可以称为有效点,而不具有深度值的点可以称为无效点。
在一个可选示例中,由于本申请中的神经网络所执行的特征融合处理操作,是针对有效点的特征融合处理操作,因此,神经网络需要在特征融合处理过程中,需要区分特征图中的各点是否为有效点。本申请中的神经网络可以利用特征图的Mask(蒙板)来实现有效点和无效点的区分。神经网络也可以采用其他方式来区分特征图中的有效点和无效点。本申请不限制区分特征图中的有效点和无效点的具体实现方式。
在一个可选示例中,本申请在将激光雷达稀疏深度图,提供给神经网络的同时,可以将激光雷达稀疏深度图的蒙板提供给神经网络,激光雷达稀疏深度图的蒙板可以指示出激光雷达稀疏深度图中的有效点,例如,如果蒙板中的一点的取值为0,则表示激光雷达稀疏深度图中的该点为无效点,而如果蒙板中的一点的取值为1,则表示激光雷达稀疏深度图中的该点为有效点。本申请通过利用激光雷达稀疏深度图的蒙板,可以便捷的区分出激光雷达稀疏深度图中的有效点和无效点。
在一个可选示例中,本申请的神经网络会执行输入处理操作、融合处理操作以及输出处理操作。在下述描述中,为了便于描述,将神经网络中执行输入处理操作的部分称为输入处理单元,将神经网络中执行融合处理操作的部分称为融合模块,将神经网络中执行输出处理的部分称为输出处理单元。本申请的神经网络可以包括:输入处理单元、至少一个具有多路输入和多路输出的融合模块、以及输出处理单元。在神经网络包括多个融合模块的情况下,各融合模块顺序串接在输入处理单元和输出处理单元之间,即前一级融合模块的输出用于为后一级融合模块提供输入。
在一个可选示例中,输入处理单元主要用于对激光雷达稀疏深度图进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图,并对该深度图的特征图进行尺度变换处理,从而获得包含该深度图的特征图在内的,多个(包括两个)不同尺度的特征图,例如,输入处理单元通过对深度图的特征图进行处理(如下采样处理等),使输入处理单元可以为与输入处理单元邻接的第一级融合模块,提供两个或者三个或者更多数据的不同尺度的特征图。在将激光雷达稀疏深度图的蒙板也输入至神经网络中的情况下,本申请中的输入处理单元还可以用于对激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图的蒙板。输入处理单元还可以对稀疏卷积处理后的蒙板进行相应的尺度变换处理,从而获得提供给第一级融合模块的各特征图的蒙板,例如,输入处理单元通过对稀疏卷积处理后的深度图的特征图的蒙板进行相应的下采样处理,使输入处理单元可以为第一级融合模块提供两个或者三个或者更多数量的不同尺度的特征图的蒙板。特征图的蒙板用于指示其所对应的特征图中的有效点。例如,蒙板中的一点的取值为0,则表示相应特征图中的该点为无效点,而蒙板中的一点的取值为1,则表示相应特征图中的该点为有效点。
本申请中的稀疏卷积处理通常是指:针对包含有效点和无效点的图(如激光雷达稀疏深度图或者激光雷达稀疏深度图的蒙板),根据图(如激光雷达稀疏深度图或者激光雷达稀疏深度图的蒙板)中的有效点的位置和无效点的位置进行加权的卷积运算。本申请通过利用稀疏卷积处理,可以便捷的获得激光雷达稀疏深度图的特征图以及特征图的蒙板。
在一个可选示例中,本申请的神经网络所包含的各融合模块均具有多路(至少两路)输入和多路(至少两路)输出,一个融合模块所具有的输入路数和输出路数通常相同。融合模块主要用于针对多路输入的不同尺度的特征图分别进行有效点特征融合处理。在进行特征融合处理过程中,融合模块可以在考虑特征图的蒙板的基础上,便捷的区分出特征图中的有效点和无效点,从而方便的实现有效点特征融合处理。
在一个可选示例中,在本申请的神经网络包括多个融合模块的情况下,神经网络可以对前一级融合模块的至少一路输出,进行特征图尺度变换处理,以便于为后一级融合模块的各路输入分别提供相应尺度的特征图。
例如,前一级融合模块的一路输出,在进行了特征图尺度变换处理后,所形成的特征图,被作为后一级融合模块的输入特征图。
再例如,在前一级融合模块的输出路数小于后一级融合模块的输入路数的情况下,前一级融合模块的一路输出,在被作为后一级融合模块的一路输入的同时,该路输出在进行了特征图尺度变换处理后,所形成的特征图,被作为后一级融合模块的另一路输入的特征图。
需要特别说明的是,本申请在对特征图进行尺度变换处理的同时,还可以对特征图的蒙板进行相应的尺度变换处理,从而使尺度变换处理后的特征图对应有相应的蒙板。
在一个可选示例中,为了便于描述,本申请可以将神经网络中执行对融合模块所输出的特征图进行尺度变换处理操作的部分,可以称为第一变换模块。本申请也可以利用第一变换模块对融合模块所输出的特征图的蒙板进行尺度变换处理。本申请的神经网络可以包括至少一个第一变换模块,第一变换模块可以通过执行下采样或者稀疏上采样操作,来实现对特征图以及特征图的蒙板的尺度变换处理。本申请中的稀疏上采样通常是指:针对包含有效点和无效点的图(如特征图或者特征图的蒙板),根据图(如特征图或者特征图的蒙板)中的有效点的位置和无效点的位置进行加权的上采样操作。本申请通过利用稀疏上采样,可以便捷实现特征图以及特征图的蒙板的尺度变换处理。
本申请中的下采样操作可以通过最大池化层(Max Pooling)来实现。当然,本申请也可以采用其他方式实现下采样操作,本申请不限制下采样操作的具体实现过程。本申请在针对特征图执行稀疏上采样操作的过程中,可以参考特征图的蒙板,从而可以使稀疏上采样处理后的特征图中的有效点的位置,由稀疏上采样处理前的特征图中的有效点位置决定。稀疏上采样处理的实现过程可以参见下述针对图2的描述。
在一个可选示例中,在本申请的神经网络包括多个融合模块的情况下,神经网络可以对前一级融合模块的至少两路输出的特征图进行有效点特征融合处理,从而形成一路特征图,该路特征图可以作为后一级融合模块的输入。例如,在前一级融合模块的输出路数大于后一级融合模块的输入路数的情况下,前一级融合模块的两路输出在进行有效点特征融合处理后,所形成的特征图,被作为后一级融合模块的一路输入的特征图。
需要特别说明的是,本申请在对前一级融合模块输出的特征图进行有效点特征融合处理的同时,还可以对特征图的蒙板进行相应的融合处理,从而使融合处理后的特征图对应有相应的蒙板。
在一个可选示例中,为了便于描述,本申请可以将神经网络中执行对前一级融合模块的至少两路输出的特征图进行有效点特征融合处理操作的部分,称为第二变换模块。本申请也可以利用第二变换模块,对前一级融合模块的至少两路输出的特征图的蒙板进行融合处理。申请的神经网络可以包括至少一个第二变换模块,第二变换模块可以通过稀疏上采样以及稀疏相加等操作,来实现上述特征图的有效点特征融合处理以及蒙板的融合处理。本申请中的稀疏相加通常是指:针对包含有效点和无效点的图(如特征图或者特征图的蒙板),根据图(如特征图或者特征图的蒙板)中的有效点的位置和无效点的位置进行加权的相加操作。本申请通过利用稀疏上采样以及稀疏相加,可以便捷的实现特征图的有效点特征融合处理以及特征图的蒙板的融合处理。
本申请在针对特征图进行稀疏上采样处理以及稀疏相加处理的过程中,可以参考特征图的蒙板,以实现基于有效点的稀疏上采样处理以及稀疏相加处理,从而可以使稀疏上采样处理以及稀疏相加处理后的特征图中的有效点的位置,由稀疏上采样处理前的特征图中的有效点位置决定。稀疏相加处理的实现过程的一个示例可以参见下述针对图3的描述。
需要特别说明的是,在一应用场景中,前后相邻的两个融合模块之间可以设置一个第一变换模块;在另一应用场景中,前后相邻的两个融合模块之间可以设置一个第二变换模块;在再一应用场景中,前后相邻的两个融合模块之间可以设置一个第一变换模块和一个第二变换模块。
在一个可选示例中,神经网络中的融合模块针对其各路输入,所执行的有效点特征融合处理操作,并不完全相同。例如,在融合模块具有两路输入的情况下,融合模块针对两路输入执行不同的有效点特征融合处理操作。再例如,在融合模块具有三路输入的情况下,融合模块可以针对其中两路输入执行相同的有效点特征融合处理操作,而针对剩余的一路输入所执行的有效点特征融合处理操作,与其针对另两路输入所执行的有效点特征融合处理操作不相同。当然,本申请也不排除融合模块针对三路输入执行三种不同的有效点特征融合处理操作的可能性。
在一个可选示例中,在融合模块具有N(N>1,且N为整数)路输入和N路输出的情况下,融合模块针对第M(M>0,且M为小于N的整数)路输入所执行的有效点特征融合处理的过程可以为:
首先,融合模块对其第N路输入的特征图和特征图的蒙板分别进行处理(如下采样处理),例如,利用最大池化层实现对第N路输入的特征图的下采样处理。且融合模块可以利用该最大池化层实现对第N路输入的特征图的蒙板的下采样处理。该示例中的第N路输入的特征图的尺度大于第M路输入的特征图的尺度。
其次,融合模块根据上述下采样处理后的特征图和蒙板,以及第M路输入的特征图以及蒙板,进行稀疏合并卷积处理,从而获得稀疏合并卷积处理后的特征图以及特征图的蒙板。本申请中的稀疏合并卷积通常是指:针对包含有效点和无效点的两路图(如特征图或者蒙板),进行合并操作,并根据合并后的图(如合并后的特征图或者合并后的蒙板)中的有效点的位置和无效点的位置进行加权的卷积运算操作。本申请通过利用稀疏合并卷积,有利于便捷的形成第M路的有效点特征融合处理后的特征图及其蒙板。稀疏合并卷积处理的实现过程的一个示例可以参见下述针对图4的描述。
最后,融合模块对稀疏合并卷积处理后获得的特征图及特征图的蒙板,分别进行稀疏卷积处理,从而形成其第M路输出的有效点特征融合处理后的特征图及其蒙板。本申请可以采用现有的稀疏卷积处理方式,本申请不限制稀疏卷积处理的具体实现过程。
在一个可选示例中,在融合模块具有N(N>1,且N为整数)路输入和N路输出的情况下,融合模块针对第N路输入所执行的有效点特征融合处理的过程可以为:
首先,融合模块对其第N路输入的特征图及其蒙板,分别进行稀疏卷积处理。同样的,本申请可以采用现有的稀疏卷积处理方式,本申请不限制稀疏卷积处理的具体实现过程。
其次,融合模块对至少一第M(M>0,且M为小于N的整数)路所输出的有效点特征融合处理后的特征图及其蒙板分别进行卷积处理,并将卷积处理后的特征图及其蒙板分别进行稀疏上采样处理。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理,并针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。
最后,对第N路稀疏卷积处理后的特征图及其蒙板与至少一第M路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,从而形成第N路输出的有效点特征融合处理后的特征图及其蒙板。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏卷积处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,并将稀疏相加处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,本次稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。
在一个可选示例中,本申请在将激光雷达稀疏深度图及其蒙板提供给神经网络的同时,还可以将该稀疏深度图所对应的RGB(红绿蓝)图像提供给该神经网络。该RGB图像通常与激光雷达稀疏深度图具有相同或者基本相同视角和大小。例如,激光雷达通过扫描生成深度点云数据,该深度点云数据会被投射到摄像装置所摄取的RGB图像中,从而形成激光雷达稀疏投射图。
在一个可选示例中,神经网络的输入处理单元还可以用于获取RGB图像的至少一个尺度的特征图。输入处理单元所获取的RGB图像的特征图的数量,通常小于神经网络所包含的融合模块的数量。本申请通过将RGB图像的相应尺度的特征图,提供给神经网络中相应的融合模块,使融合模块可以在参考其接收到的RGB图像的特征图的基础上,执行有效点特征融合处理操作。
由于RGB图像的特征图可以为融合模块提供全局特征信息(例如,用于表征物体与物体之间的关系的特征信息),因此,本申请可以使融合模块获得更为准确的物体边缘信息,从而有利于避免出现图像中的物体内部的深度断裂现象,进而有利于使处理后的激光雷达深度图更为精准。
在一个可选示例中,在融合模块具有N(N>0,且N为整数)路输入和N路输出,且将RGB图像的特征图提供给融合模块的情况下,融合模块针对第M(M>0,且M为小于N的整数)路输入所执行的有效点特征融合处理的过程可以参见上述实施方式中的描述。在此不再重复说明。
在一个可选示例中,在融合模块具有N(N>0,且N为整数)路输入和N路输出,且将RGB图像的特征图提供给融合模块的情况下,融合模块针对第N路输入所执行的有效点特征融合处理的过程可以为:
首先,融合模块对其第N路输入的特征图及其蒙板,分别进行稀疏合并卷积处理。
其次,融合模块对至少一第M路所输出的有效点特征融合处理后的特征图及其蒙板分别进行卷积处理,并将卷积处理后的特征图及其蒙板分别进行稀疏上采样处理。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理,并针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。
最后,对第N路稀疏合并卷积处理后的特征图及其蒙板与至少一第M路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,从而形成第N路输出的有效点特征融合处理后的特征图及其蒙板。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏合并卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏合并卷积处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏合并卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,并将本次稀疏相加处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,本次稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。
在一个可选示例中,本申请中的输出处理单元主要用于根据最后一级融合模块的输出,形成处理后(即填补处理后)的深度图。
在未将RGB图像作为输入,提供给神经网络的情况下,输出处理单元可以具体为第一输出处理单元,第一输出处理单元主要用于对最后一级融合模块所输出的多路有效点特征融合处理后的特征图及其蒙板,进行稀疏相加处理,并对稀疏相加结果进行卷积处理,从而形成处理后的深度图。
在将RGB图像作为输入,提供给神经网络的情况下,输出处理单元可以具体为第二输出处理单元,第二输出处理单元主要用于对最后一级融合模块所输出的多路有效点特征融合处理后的特征图及其蒙板进行稀疏相加处理,对稀疏相加结果与RGB图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行进一步的卷积处理,从而形成处理后的深度图。
本申请一可选示例中,稀疏上采样处理的实现过程如图2所示。
图2中,位于左上角的2×2的矩阵表示特征图x,位于左下角的2×2的矩阵表示特征图x的蒙板mx,⊙表示元素相乘(即element wise multiplication),⊕表示元素相加(即element wise addition),/表示元素相除(即element wise division),F表示上采样处理。
首先,将特征图x与蒙板mx进行元素相乘,相乘的结果如图2中左上第2个2×2的矩阵,即位于mx⊙x上面的2×2的矩阵。将相乘的结果mx⊙x进行上采样处理,从而形成左上第一个4×4的矩阵,即位于F(mx,x)上面的4×4的矩阵。
其次,将特征图x的蒙板mx进行上采样处理,从而形成左下第一个4×4的矩阵,即位于F(mx)上面的4×4的矩阵。对上采样处理后的蒙板F(mx)形成权值矩阵。权值矩阵的倒数的一个例子可以为:1/(F(mx)+ε),其中的ε为远小于1的常数,例如,ε的取值范围可以为0.00005-0.0001。ε主要用于避免分母为0。
再次,将上采样处理后的特征图F(mx,x),与权值矩阵的倒数1/(F(mx)+ε)进行元素相乘,形成稀疏相加处理后的特征图z(如图2右上角所示)。
与此同时,可以对权值矩阵F(mx)进行二值化处理,从而形成稀疏相加处理后的特征图的蒙板mz(如图2右下角所示)。本申请的针对权值矩阵的二值化处理的一个例子可以表示为:F(mx)/(F(mx)+ε)。
本申请可以采用下述公式(1)来表示针对特征图的稀疏上采样处理,并采用下述公式(2)来表示针对特征图的蒙板的稀疏上采样处理:
z=F(mx⊙x)/(F(mx)+ε) 公式(1)
mz=F(mx)/(F(mx)+ε) 公式(2)
本申请一可选示例中,稀疏相加处理的实现过程如图3所示。
图3中,位于左上角的3×3的矩阵表示特征图x,位于特征图x下方的3×3的矩阵表示特征图y,位于特征图y下方的3×3的矩阵表示特征图x的蒙板mx,位于特征图x的蒙板mx下方的3×3的矩阵表示特征图y的蒙板my,⊙表示元素相乘,⊕表示元素相加,/表示元素相除,∪表示或运算。
首先,将特征图x(即第一特征图)与其蒙板mx进行元素相乘,相乘的结果如图3中左上第2个3×3的矩阵,即位于mx⊙x上面的3×3的矩阵。
与此同时,将特征图y(即第二特征图)与其蒙板my进行元素相乘,相乘的结果如图3中第2行左侧第2个3×3的矩阵,即位于my⊙y上面的3×3的矩阵。
其次,将这两个相乘结果进行相加,相加的结果如图3中左上第3个3×3的矩阵,即位于mx⊙x+my⊙y上面的3×3的矩阵。
再次,将相加结果mx⊙x+my⊙y与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图z,即位于右上角的3×3的矩阵。其中的权值矩阵的倒数的一个例子可以为:1/(mx+my+ε),其中的ε为远小于1的常数,例如,ε的取值范围可以为0.00005-0.0001。ε主要用于避免分母为0。其中的mx+my的结果如图3中第3行右侧的3×3的矩阵。
在针对特征图x和特征图y进行稀疏相加处理的同时,还可以对特征图x的蒙板mx和特征图y的蒙板my进行稀疏相加处理,例如,将特征图x的蒙板mx与特征图y的蒙板my进行或运算,从而形成稀疏相加处理后的特征图z的蒙板mz,即位于右下角的3×3的矩阵。
本申请可以采用下述公式(3)来表示针对特征图的稀疏相加处理,并采用下述公式(4)来表示针对特征图的蒙板的稀疏相加处理:
z=(mx⊙x+my⊙y)/(mx+my+ε) 公式(3)
mz=mx∪my 公式(4)
本申请一可选示例中,稀疏合并卷积处理的实现过程如图4所示。
图4中,位于左上角的长方体表示特征图x,位于特征图x下方的长方体表示特征图y,位于特征图y下方的3×3的矩阵表示特征图x的蒙板mx,位于特征图x的蒙板mx下方的3×3的矩阵表示特征图y的蒙板my,⊙表示元素相乘,⊕表示元素相加,表示相乘,/表示元素相除,cx表示特征图x的通道数,cy表示特征图y的通道数,*表示卷积处理。
首先,将特征图x(即第一特征图)和特征图y(即第二特征图)在通道数维度上合并,合并的结果如图4中的位于[xy]上方的长方体,合并后的结果可以表示为[xy],[xy]的通道数为cx+cy。
其次,将合并后的结果[xy]进行卷积运算,kx表示本次卷积运算的卷积核的大小。
再次,将卷积运算后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图z。
在针对特征图x和特征图y进行稀疏合并卷积处理的同时,还可以对特征图x的蒙板mx和特征图y的蒙板my进行稀疏合并卷积处理,例如,将特征图x的蒙板mx与特征图x的通道数cx相乘,将特征图y的蒙板my与特征图y的通道数cy相乘,并对两个相乘结果进行相加处理,相加处理后的结果如图4下侧最右边的3×3的矩阵,即位于图4中的u=cxmx+cymy上方的3×3的矩阵。将相加处理后的结果u=cxmx+cymy进行卷积运算,km表示本次卷积运算的卷积核的大小;根据卷积运算结果形成权值矩阵,权值矩阵的倒数的一个例子可以为:1/(u*km+ε),其中的ε为远小于1的常数,例如,ε的取值范围可以为0.00005-0.0001。ε主要用于避免分母为0。对权值矩阵进行二值化处理,形成稀疏合并卷积处理后的特征图z的蒙板mz。本申请的针对权值矩阵u*km的二值化处理的一个例子可以表示为:(u*km)/(u*km+ε)。
本申请可以采用下述公式(5)来表示针对特征图的稀疏合并卷积处理,并采用下述公式(6)来表示针对特征图的蒙板的稀疏合并卷积处理:
z=([xy]*kx)/((cxmx+cymy)*km+ε) 公式(5)
mz=((cxmx+cymy)*km)/((cxmx+cymy)*km+ε) 公式(6)
本申请一可选示例中,具有两输入和两输出的融合模块(即两尺度融合模块)的一个例子如图5所示。
图5最左侧为两路输入,这两路输入可以称为上路输入和下路输入。两种具有不同尺度的特征图通过这两路输入被提供给融合模块,相应的,两种具有不同尺度的特征图的蒙板也通过两路输入被提供给融合模块。图5最右侧为两路输出,可以称为上路输出和下路输出。融合模块针对两路输入分别进行有效点特征融合处理后,所形成的两种具有不同尺度的特征图及其蒙板成为上路输出和下路输出。
融合模块针对上路输入进行下采样处理(图5中间区域最左侧的填充有竖直线的方框,本申请中的中间区域是指,图的最上面和最下面之间的区域,下同,不再一一说明),使下采样处理后的结果与下路输入具有相同的尺度(即下采样处理后的结果与下路输入具有相同的大小,说明:图5中的方框的大小并不代表尺度大小)。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图5左下角位置处的填充有圆点的方框);融合模块对稀疏合并卷积处理后的结果进行稀疏卷积处理(图5右下角位置处的填充有左斜线的方框,左斜线是指由方框的右上向左下倾斜的线);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入进行稀疏卷积处理(图5上侧中间区域的填充有左斜线的方框)。融合模块还会针对下路输出进行卷积处理(图5右侧中间区域的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图5右侧中间区域的填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏卷积处理后的结果与稀疏上采样处理后的结果进行稀疏相加处理(图5右上角位置处的填充有菱形块的方框),本次稀疏相加处理后的结果为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本申请一可选示例中,具有两输入和两输出的融合模块(即两尺度融合模块)的另一个例子如图6所示。
图6最左侧为两路输入,这两路输入可以称为上路输入和下路输入。两种具有不同尺度的特征图通过这两路输入被提供给融合模块,相应的,两种具有不同尺度的特征图的蒙板也通过两路输入被提供给融合模块。图6最上侧为输入的RGB图像的特征图。图6最右侧为两路输出,可以称为上路输出和下路输出。融合模块在考虑RGB图像的特征图的基础上,针对两路输入分别进行有效点特征融合处理后,所形成的两种具有不同尺度的特征图及其蒙板成为上路输出和下路输出。
融合模块针对上路输入进行下采样处理(图6中间区域最左侧的填充有竖直线的方框),使下采样处理后的结果与下路输入具有相同的尺度。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图6左下角位置处的填充有圆点的方框);融合模块对稀疏合并卷积处理后的结果进行稀疏卷积处理(图6右下角位置处的填充有左斜线的方框,左斜线是指由方框的右上向左下倾斜的线);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入和RGB图像的特征图进行稀疏合并卷积处理(图6最上侧位置处的填充有圆点的方框)。融合模块还会针对下路输出进行卷积处理(图6右侧中间区域的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图6右侧中间区域的填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏合并卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏合并卷积处理后的结果与稀疏上采样处理后的结果进行稀疏相加处理(图6右上角位置处的填充有菱形块的方框),本次稀疏相加处理后的结果为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本申请一可选示例中,具有三输入和三输出的融合模块(即三尺度融合模块)的一个例子如图7所示。
图7最左侧为三路输入,这三路输入可以称为上路输入、中路输入和下路输入。三种具有不同尺度的特征图通过这三路输入被提供给融合模块,相应的,三种具有不同尺度的特征图的蒙板也通过三路输入被提供给融合模块。图7最右侧为三路输出,可以称为上路输出、中路输出和下路输出。融合模块针对三路输入分别进行有效点特征融合处理后,所形成的三种具有不同尺度的特征图及其蒙板成为上路输出、中路输出和下路输出。
融合模块针对上路输入进行下采样处理(图7中间区域最左侧上层的填充有竖直线的方框),使下采样处理后的结果与中路输入具有相同的尺度。融合模块将下采样处理后的结果与中路输入一起进行稀疏合并卷积处理(图7中间区域最左侧的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图7中间区域最右侧的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的中路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为中路输出。
融合模块针对上路输入进行下采样处理(图7中间区域最左侧下层的填充有竖直线的方框),使下采样处理后的结果与下路输入具有相同的尺度。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图7左下角位置处的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图7右下角位置处的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入进行稀疏卷积处理(图7上侧最左边位置处的填充有左斜线的方框)。融合模块还会针对中路输出进行卷积处理(图7右侧中间区域的最上面的一个填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图7右侧中间区域的最上面的一个填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏卷积处理后的结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图7最上侧左边位置处的填充有菱形块的方框),获得第一稀疏相加处理结果。
融合模块针对下路输出进行卷积处理(图7右侧中间区域的最下面的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图7右侧中间区域的最下面的填充有水平线的方框),使稀疏上采样处理处理后的结果与第一稀疏相加处理结果具有相同的尺度。融合模块对第一稀疏相加处理结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图7右上角位置处的填充有菱形块的方框),获得第二稀疏相加处理结果。第二稀疏相加处理结果被作为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本申请一可选示例中,具有三输入和三输出的融合模块(即三尺度融合模块)的另一个例子如图8所示。
图8最左侧为三路输入,这三路输入可以称为上路输入、中路输入和下路输入。三种具有不同尺度的特征图通过这三路输入被提供给融合模块,相应的,三种具有不同尺度的特征图的蒙板也通过三路输入被提供给融合模块。图8最右侧为三路输出,可以称为上路输出、中路输出和下路输出。融合模块针对三路输入分别进行有效点特征融合处理后,所形成的三种具有不同尺度的特征图及其蒙板成为上路输出、中路输出和下路输出。
融合模块针对上路输入进行下采样处理(图8中间区域最左侧上层的填充有竖直线的方框),使下采样处理后的结果与中路输入具有相同的尺度。融合模块将下采样处理后的结果与中路输入一起进行稀疏合并卷积处理(图8中间区域最左侧的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图8中间区域最右侧的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的中路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为中路输出。
融合模块针对上路输入进行下采样处理(图8中间区域最左侧下层的填充有竖直线的方框),使下采样处理后的结果与下路输入具有相同的尺度。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图8左下角位置处的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图8右下角位置处的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入进行稀疏合并卷积处理(图8上侧最左边位置处的填充有圆点的方框)。融合模块还会针对中路输出进行卷积处理(图8右侧中间区域的最上面的一个填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图8右侧中间区域的最上面的一个填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏合并卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏合并卷积处理后的结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图8最上侧左边位置处的填充有菱形块的方框),获得第一稀疏相加处理结果。
融合模块针对下路输出进行卷积处理(图8右侧中间区域的最下面的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图8右侧中间区域的最下面的填充有水平线的方框),使稀疏上采样处理处理后的结果与第一稀疏相加处理结果具有相同的尺度。融合模块对第一稀疏相加处理结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图8右上角位置处的填充有菱形块的方框),获得第二稀疏相加处理结果。第二稀疏相加处理结果被作为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本申请一可选示例中,包含有多个融合模块的神经网络的一个例子如图9所示。
图9中,神经网络包括:第一输入处理单元、两个两尺度融合模块(即图9中两尺度融合模块900和940)、三个三尺度融合模块(即图9中三尺度的融合模块910、920和930)、五个第一变换模块、两个第二变换模块以及第一输出处理单元。
第一输入处理单元包括位于图9最左侧的填充有左斜线的方框以及最左侧的填充有竖直线的方框。
第一个第一变换模块设置于图9中两尺度融合模块900和三尺度融合模块910之间,且该第一个第一变换模块包括:两个填充有竖直线的方框。第一个第一变换模块主要用于对两尺度融合模块900的上路和下路输出的特征图分别进行尺度变换处理(如下采样处理),尺度变换处理后的特征图分别被作为三尺度融合模块910的中路输入和下路输入。两尺度融合模块900的上路输出被直接提供给三尺度融合模块910的上路输入。第一个第一变换模块还可以对两尺度融合模块900的上路输出的蒙板分别进行尺度变换处理(如下采样处理),尺度变换处理后的蒙板同样被作为三尺度融合模块910的中路输入和下路输入。
第二个第一变换模块设置于图9中三尺度融合模块910和三尺度融合模块920之间,且第二个第一变换模块包括:两个填充有竖直线的方框。第二个第一变换模块主要用于对三尺度融合模块910的中路和下路输出的特征图分别进行尺度变换处理(如下采样处理),尺度变换处理后的特征图分别被作为三尺度融合模块920的中路输入和下路输入。三尺度融合模块910的上路输出被直接提供给三尺度融合模块920的上路输入。第二个第一变换模块还可以对三尺度融合模块910的中路和下路输出的蒙板分别进行尺度变换处理(如下采样处理),尺度变换处理后的蒙板同样被作为三尺度融合模块920的中路输入和下路输入。
第三个第一变换模块设置于图9中三尺度融合模块920和三尺度融合模块930之间,且第三个第一变换模块包括:两个填充有水平线的方框。第三个第一变换模块主要用于对三尺度融合模块920的中路和下路输出的特征图分别进行尺度变换处理(如稀疏上采样处理),尺度变换处理后的特征图分别被作为三尺度融合模块930的中路输入和下路输入。三尺度融合模块920的上路输出被直接提供给三尺度融合模块930的上路输入。第三个第一变换模块还可以对三尺度融合模块920的中路和下路输出的蒙板分别进行尺度变换处理(如稀疏上采样处理),尺度变换处理后的蒙板同样被作为三尺度融合模块930的中路输入和下路输入。
第四个第一变换模块设置于图9中三尺度融合模块930和两尺度融合模块940之间,且第四个第一变换模块包括:两个填充有水平线的方框。第四个第一变换模块主要用于对两尺度融合模块930的中路和下路输出的特征图分别进行尺度变换处理(如稀疏上采样处理),下路的尺度变换处理后的特征图被作为两尺度融合模块940的下路输入。第四个第一变换模块还可以对三尺度融合模块930的中路和下路输出的蒙板分别进行尺度变换处理(如稀疏上采样处理),尺度变换处理后的下路蒙板同样被作为两尺度融合模块940的下路输入。
第五个第一变换模块设置于图9中两尺度融合模块940之后,且第五个第一变换模块包括:一个填充有水平线的方框。第五个第一变换模块主要用于对两尺度融合模块940的下路输出的特征图进行尺度变换处理(如稀疏上采样处理)。
第一个第二变换模块设置于图9中三尺度融合模块930和两尺度融合模块940之间,且第一个第二变换模块包括:一个填充有菱形格的方框。第一个第二变换模块主要用于对三尺度融合模块930的上路输出和第四个第一变换模块针对中路输出进行尺度变换处理后的结果进行稀疏相加处理,稀疏相加处理后的结果被作为两尺度融合模块940的上路输入。
第二个第二变换模块设置于图9中两尺度融合模块94之后,且第二个第二变换模块包括:一个填充有菱形格的方框。第二个第二变换模块主要用于对两尺度融合模块940的上路输出和第五个第一变换模块的输出,进行稀疏相加处理,稀疏相加处理后的结果被提供给第一输出处理单元。
第一输出处理单元设置于图9的最右侧,包括:两个填充有右斜线的方框。第一输出处理单元主要用于对输入的特征图和蒙板进行两次卷积处理,第一次卷积处理所采用的卷积核的大小可以为3×3,第二次卷积处理所采用的卷积核的大小可以为1×1,最终输出处理后的深度图。
本申请一可选示例中,包含有多个融合模块的神经网络的另一个例子如图10所示。
图10中,神经网络包括:第二输入处理单元、两个两尺度融合模块(即图10中两尺度融合模块900和940)、三个三尺度融合模块(即图10中三尺度的融合模块910、920和930)、五个第一变换模块、两个第二变换模块以及第二输出处理单元。
第二输入处理单元除了包括位于图10最左侧的填充有左斜线的方框以及最左侧的填充有竖直线的方框之外,还包括图10最上侧的五个填充有右斜线的方框,用于对RGB图像进行卷积处理,从而形成相应尺度的特征图。两个两尺度融合模块、三个三尺度融合模块、五个第一变换模块和两个第二变换模块分别参见上述针对图9的描述。在此不再详细说明。
第二输出处理单元设置于图10的最右侧,包括:一个填充有原点的方框以及一个填充有右斜线的方框。第二输出处理单元主要用于先对两路输入的特征图和蒙板分别执行稀疏合并卷积处理,然后,再执行卷积处理,最终输出处理后的深度图。
本申请的神经网络是利用激光雷达稀疏深度图样本以及该激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。本申请一可选示例中,神经网络的训练方法的一个实施例的流程图如图11所示。
如图11所示,该实施例方法包括:步骤S1100、步骤S1110以及步骤S1120。下面对图11中的各步骤分别进行详细说明。
S1100、向待训练的神经网络输入激光雷达稀疏深度图样本。
在一个可选示例中,本申请可以从训练数据集中获取激光雷达稀疏深度图样本。本申请中的训练数据集中包括多条用于训练神经网络激光雷达稀疏深度图样本,通常情况下,每一个激光雷达稀疏深度图样本均设置有多个点的深度标注值。本申请可以按照随机读取方式或者按照图像样本排列次序顺序读取方式,一次从训练数据集中读取一个或者多个激光雷达稀疏深度图样本。
S1110、由待训练的神经网络获取激光雷达稀疏深度图样本的至少两个不同尺度的特征图,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果,形成处理后的深度图。该处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。本步骤的具体实现过程可以参见上述实施方式中的相关描述,在此不再重复说明。
S1120、以上述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对待训练的神经网络进行监督学习。
在一个可选示例中,本申请的指导信息通常包括:待训练的神经网络输出的深度图中的各点的深度值,与激光雷达稀疏深度图样本的填补深度图样本的深度标注值之间的差异。本申请可以以减小两者之间的差异为目的,利用相应的损失函数,对待训练的神经网络进行监督学习。
本申请一可选示例中,可以采用如下述公式(7)所示的损失函数:
在上述公式(7)中,V表示处理后的有效点深度标注值在深度图中的坐标集合,也可以认为V为真实值深度图(ground truth depth map)中的有效点坐标集合,真实值深度图可以认为是激光雷达稠密深度图样本,即激光雷达稀疏深度图样本的填补深度图样本;|V|表示激光雷达稠密深度图样本中的有效点的数量,xij表示待训练的神经网络输出的处理后的深度图中的(i,j)位置处的预测深度值,yij表示激光雷达稠密深度图样本中的(i,j)位置处的深度标注值。
在一个可选示例中,在针对待训练的神经网络的训练达到预定迭代条件时,本次训练过程结束。本申请中的预定迭代条件可以包括:待训练的神经网络输出的深度图中的深度值与激光雷达稀疏深度图样本的填补深度图样本的深度标注值之间的差异,满足预定差异要求。在差异满足该预定差异要求的情况下,本次对神经网络成功训练完成。本申请中的预定迭代条件也可以包括:对待训练的神经网络进行训练,所使用的样本的数量达到预定数量要求等。在使用的样本数量达到预定数量要求,然而,差异未满足预定差异要求的情况下,本次对神经网络并未训练成功。成功训练完成的神经网络可以用于形成深度图处理。
图12为本申请的车辆智能控制方法的一个实施例的流程图。
如图12所示,该实施例方法包括:步骤S1200、步骤S1210以及步骤S1220。下面对图12中的各步骤分别进行详细说明。
S1200、向神经网络输入激光雷达稀疏深度图。可选的,还可以将摄像装置拍摄的具有相同或者基本相同视角和大小的RGB图像也提供给神经网络。
S1210、由神经网络获取激光雷达稀疏深度图的至少两个不同尺度的特征图,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果,获得处理后的深度图。
上述S1200和S1210的具体实现过程可以参见上述实施方式中的相关描述,在此不再重复说明。
S1220、根据处理后的深度图,生成对激光雷达所在车辆进行控制的指令或者预警提示信息。生成的指令如提高时速的指令、降低时速的指令或者急刹车指令等。生成的预警提示信息如注意某个方位的行人的提示信息等。本申请不限制根据处理后的深度图产生指令或者预警提示信息的具体实现方式。
图13为本申请的避障导航方法的一个实施例的流程图。
如图13所示,该实施例方法包括:步骤S1300、步骤S1310以及步骤S1320。下面对图13中的各步骤分别进行详细说明。
S1300、向神经网络输入激光雷达稀疏深度图。可选的,还可以将摄像装置拍摄的具有相同或者基本相同视角和大小的RGB图像也提供给神经网络。
S1310、由上述神经网络获取激光雷达稀疏深度图的至少两个不同尺度的特征图、针对至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据有效点特征融合处理的结果获得处理后的深度图。处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。
上述S1300和S1310的具体实现过程可以参见上述实施方式中的相关描述,在此不再重复说明。
S1320、根据上述处理后的深度图,生成对激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。生成的指令如降低行动速度的指令或者暂停行动的指令或者转弯指令等。生成的预警提示信息如注意某个方位的障碍物的提示信息等。本申请不限制根据处理后的深度图产生指令或者预警提示信息的具体实现方式。
图14为本申请的激光雷达稀疏深度图的装置一个实施例的结构示意图。如图14所示,该实施例的装置主要包括:深度图输入模块1400以及神经网络1410。
深度图输入模块1400用于向神经网络1410输入激光雷达稀疏深度图。
在一个可选示例中,深度图输入模块1400进一步用于:向神经网络1410输入激光雷达稀疏深度图及激光雷达稀疏深度图的蒙板。其中,激光雷达稀疏深度图的蒙板用于指示激光雷达稀疏深度图中的有效点。
神经网络1410用于获取深度图的至少两个不同尺度的特征图、针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果获得处理后的深度图。其中,处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。
在一个可选示例中,神经网络1410还用于根据激光雷达稀疏深度图的蒙板确定至少两个不同尺度的特征图的蒙板。在该情况下,神经网络1410所执行的针对至少两个不同尺度的特征图分别进行有效点特征融合处理的操作可以包括:根据至少两个不同尺度的特征图的蒙板,针对至少两个不同尺度的特征图分别进行有效点特征融合处理。
在一个可选示例中,神经网络1410可以包括:输入处理单元。输入处理单元用于对激光雷达稀疏深度图进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图,对深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图。其中的至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
在一个可选示例中,输入处理单元还用于对激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图的蒙板,对蒙板进行尺度变换处理,以获得各特征图的蒙板。
在一个可选示例中,神经网络1410可以包括:至少一个融合模块。每一个融合模块分别具有多路输入和多路输出。融合模块用于对多路输入的不同尺度的特征图分别进行有效点特征融合处理。在神经网络1410包括多个融合模块的情况下,前一级融合模块的输出用于为后一级融合模块提供输入。
在一个可选示例中,神经网络还包括:至少一个第一变换模块。设置于融合模块之后,即融合模块的一输出被提供给一第一变换模块。第一变换模块用于对前一级融合模块的至少一路输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合模块,即第一变换模块的输出被提供给后一级的融合模块。
在一个可选示例中,在前一级融合模块的输出路数小于后一级融合模块的输入路数的情况下,前一级融合模块的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合模块的输入。
在一个可选示例中,神经网络1410还包括:至少一个第二变换模块。第二变换模块设置于融合模块之后。第二变换模块用于对融合模块的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,第二变换模块形成的一路特征图可以作为后一级的融合模块的输入,第二变换模块形成的一路特征图也可以作为神经网络的输出处理单元的输入。
在一个可选示例中,深度图输入模块1400还可以用于将与激光雷达稀疏深度图具有相同视角和大小的图像提供给神经网络1410。该图像包括:摄像装置摄取到的图像。在该应用场景下,输入处理单元还可以用于获取该图像的至少一个尺度的特征图,图像的相应尺度的特征图被作为相应的融合处理的输入。该图像的特征图用于与激光雷达稀疏深度图的特征图进行融合处理。
在一个可选示例中,在融合模块具有N路输入和N路输出的情况下,融合模块针对第M路输入所执行的有效点特征融合处理可以包括:对第N路输入的特征图和特征图的蒙板分别进行下采样处理,并根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;然后,对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,以形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板。其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,且N为大于M的整数。
在一个可选示例中,在融合模块具有N路输入和N路输出的情况下,融合模块针对第N路输入所执行的有效点特征融合处理可以包括:对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理,并对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,之后,将卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;然后,对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
在一个可选示例中,输出处理单元可以包括:第一输出处理单元。第一输出处理单元用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
在一个可选示例中,在融合模块具有N路输入和N路输出的情况下,融合模块针对第N路输入所执行的有效点特征融合处理可以包括:对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理,并对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,之后,将卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;然后,对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,以形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。其中,N为大于M的整数。
在一个可选示例中,输出处理单元可以包括:第二输出处理单元。第二输出处理单元用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行进一步卷积处理,以形成处理后的深度图。
在一个可选示例中,本申请中的稀疏合并卷积处理可以包括:将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;然后,将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
在一个可选示例中,本申请中的稀疏相加处理可以包括:将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;然后,将第一特征图的蒙板与第二特征图的蒙板进行或运算,以形成稀疏相加处理后的特征图的蒙板。
在一个可选示例中,本申请中的稀疏上采样处理可以包括:将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;之后,将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;然后,将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;另外,对权值矩阵进行二值化处理,以形成稀疏相加处理后的特征图的蒙板。
在一个可选示例中,本申请中的神经网络是利用激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。
本申请中的深度图输入模块1400以及神经网络1410所执行的具体操作,可以参见上述方法实施方式中相关描述。在此不再重复说明。
图15为本申请的车辆智能控制装置一个实施例的结构示意图。如图15所示,该实施例的装置主要包括:深度图输入模块1400、神经网络1410以及控制模块1420。
深度图输入模块1400用于向神经网络输入激光雷达稀疏深度图。
神经网络1410用于获取深度图的至少两个不同尺度的特征图、针对至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据有效点特征融合处理的结果获得处理后的深度图,本申请中的处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
控制模块1420用于根据神经网络1410输出的处理后的深度图,生成对激光雷达所在车辆进行控制的指令或者预警提示信息。
本申请中的深度图输入模块1400、神经网络1410以及控制模块1420所执行的具体操作,可以参见上述方法实施方式中相关描述。在此不再重复说明。
图16为本申请的避障导航装置一个实施例的结构示意图。如图16所示,该实施例的装置主要包括:深度图输入模块1400、神经网络1410以及避障导航模块1430。
深度图输入模块1400用于向神经网络输入激光雷达稀疏深度图。
神经网络1410用于获取深度图的至少两个不同尺度的特征图,并针对至少两个不同尺度的特征图分别进行有效点特征融合处理,然后,根据有效点特征融合处理的结果获得处理后的深度图。本申请中的处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。
避障导航模块1430用于根据神经网络1410输出的处理后的深度图,生成对激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
本申请中的深度图输入模块1400、神经网络1410以及避障导航模块1430所执行的具体操作,可以参见上述方法实施方式中相关描述。在此不再重复说明。
图17为本申请的神经网络的训练装置一个实施例的结构示意图。如图17所示,该实施例的装置主要包括:深度图样本输入模块1700、待训练的神经网络1710以及监督模块1720。
深度图样本输入模块1700用于向待训练的神经网络1710输入激光雷达稀疏深度图样本。
待训练的神经网络1710用于获取激光雷达稀疏深度图样本的至少两个不同尺度的特征图,并针对至少两个不同尺度的特征图分别进行有效点特征融合处理,之后,根据有效点特征融合处理的结果,形成处理后的深度图。本申请中的处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。
监督模块1720用于以处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对待训练的神经网络进行监督学习。
本申请中的深度图样本输入模块1700、待训练的神经网络1710以及监督模块1720所执行的具体操作,可以参见上述方法实施方式中相关描述。在此不再重复说明。
示例性设备
图18示出了适于实现本申请的示例性设备1800,设备1800可以是汽车中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。
图18中,设备1800包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)1801,和/或,一个或者多个利用神经网络进行激光雷达稀疏深度图处理的图形处理器(GPU)1813等,处理器可以根据存储在只读存储器(ROM)1802中的可执行指令或者从存储部分1808加载到随机访问存储器(RAM)1803中的可执行指令而执行各种适当的动作和处理。通信部1812可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器1802和/或随机访问存储器1803中通信以执行可执行指令,通过总线1804与通信部1812相连、并经通信部1812与其他目标设备通信,从而完成本申请中的相应步骤。
上述各指令所执行的操作可以参见上述方法实施例中的相关描述,在此不再详细说明。此外,在RAM1803中,还可以存储有装置操作所需的各种程序以及数据。CPU1801、ROM1802以及RAM1803通过总线1804彼此相连。
在有RAM1803的情况下,ROM1802为可选模块。RAM1803存储可执行指令,或在运行时向ROM1802中写入可执行指令,可执行指令使中央处理单元1801执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口1805也连接至总线1804。通信部1812可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口1805:包括键盘、鼠标等的输入部分1806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1807;包括硬盘等的存储部分1808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至I/O接口1805。可拆卸介质1811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1810上,以便于从其上读出的计算机程序根据需要被安装在存储部分1808中。
需要特别说明的是,如图18所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图18的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,GPU和CPU可分离设置,再如理,可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。
特别地,根据本申请的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本申请实施方式包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。
在这样的实施方式中,该计算机程序可以通过通信部分1809从网络上被下载及安装,和/或从可拆卸介质1811被安装。在该计算机程序被中央处理单元(CPU)1801执行时,执行本申请中记载的实现上述相应步骤的指令。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任意实施例中所述的激光雷达稀疏深度图的处理或者神经网络的训练方法或者车辆智能控制方法、避障导航方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本公开实施例还提供了另一种激光雷达稀疏深度图的处理方法、神经网络的训练方法、车辆智能控制方法、避障导航方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中的方法包括:第一装置向第二装置发送激光雷达稀疏深度图的处理指示或者训练神经网络指示或者车辆智能控制指示、避障导航指示,该指示使得第二装置执行上述任一可能的实施例中的激光雷达稀疏深度图的处理方法或者训练神经网络方法或者车辆智能控制方法或者避障导航方法;第一装置接收第二装置发送的激光雷达稀疏深度图的处理结果或者神经网络训练结果或者车辆智能控制结果、避障导航结果。
在一些实施例中,该激光雷达稀疏深度图的处理指示或者训练神经网络指示或者车辆智能控制指示或者避障导航指示可以具体为调用指令,第一装置可以通过调用的方式指示第二装置执行激光雷达稀疏深度图的处理操作或者训练神经网络操作或者车辆智能控制操作或者避障导航操作,相应地,响应于接收到调用指令,第二装置可以执行上述激光雷达稀疏深度图的处理方法或者训练神经网络的方法或者车辆智能控制方法或者避障导航方法中的任意实施例中的步骤和/或流程。
应理解,本公开实施例中的“第一”、“第二”等术语仅仅是为了区分,而不应理解成对本公开实施例的限定。还应理解,在本公开中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。本申请的描述,是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言,是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用,并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。
Claims (44)
1.一种激光雷达稀疏深度图的处理方法,其特征在于,包括:
向神经网络输入激光雷达稀疏深度图;
由所述神经网络获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
2.根据权利要求1所述的方法,其特征在于,所述向神经网络输入激光雷达稀疏深度图包括:
向神经网络输入激光雷达稀疏深度图及所述激光雷达稀疏深度图的蒙板;
其中,所述激光雷达稀疏深度图的蒙板用于指示所述激光雷达稀疏深度图中的有效点;
所述方法还包括:
根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板;
所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理包括:
根据所述至少两个不同尺度的特征图的蒙板,针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理。
3.根据权利要求2所述的方法,其特征在于,所述由所述神经网络获取所述深度图的至少两个不同尺度的特征图,包括:
由所述神经网络对所述激光雷达稀疏深度图进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图;
对所述深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图;
所述至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
4.根据权利要求2所述的方法,其特征在于,所述根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板包括:
由所述神经网络对所述激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图的蒙板,对所述蒙板进行尺度变换处理,以获得各特征图的蒙板。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理,包括:
所述神经网络执行至少一级有效点特征融合处理;
在至少一级有效点融合处理中,所述神经网络对多路不同尺度的特征图分别进行有效点特征融合处理;
在所述神经网络执行多级有效点特征融合处理的情况下,前一级融合处理的输出为后一级融合处理提供输入。
6.根据权利要求5所述的方法,其特征在于,所述神经网络对前一级融合处理后输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合处理。
7.根据权利要求5所述的方法,其特征在于,在前一级融合处理的输出路数小于后一级融合处理的输入路数的情况下,前一级融合处理的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合处理的输入。
8.根据权利要求5所述的方法,其特征在于,所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理,还包括:
对融合处理后的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,所述形成的一路特征图作为后一级的融合处理的输入;或者
所述神经网络对所述形成的一路特征图进行输出处理。
9.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将与所述激光雷达稀疏深度图具有相同视角和大小的图像提供给所述神经网络,所述图像包括:摄像装置摄取到的图像;
所述神经网络获取所述图像的至少一个尺度的特征图,所述图像的相应尺度的特征图被作为相应的融合处理的输入;
其中,所述图像的特征图用于与所述激光雷达稀疏深度图的特征图进行融合处理。
10.根据权利要求5所述的方法,其特征在于,在所述融合处理具有N路输入和N路输出的情况下,所述神经网络针对第M路输入所执行的有效点特征融合处理包括:
对第N路输入的特征图和特征图的蒙板分别进行下采样处理;
根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;
对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板;
其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,且N为大于M的整数。
11.根据权利要求10所述的方法,其特征在于,所述神经网络针对第N路输入所执行的有效点特征融合处理包括:
对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理;
对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
12.根据权利要求8所述的方法,其特征在于,所述神经网络的输出处理包括:
对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
13.根据权利要求9所述的方法,其特征在于,在所述融合处理具有N路输入和N路输出的情况下,所述神经网络针对第N路输入所执行的有效点特征融合处理包括:
对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理;
对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板;
其中,N为大于M的整数。
14.根据权利要求13所述的方法,其特征在于,所述神经网络的输出处理包括:
对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行进一步卷积处理,形成处理后的深度图。
15.根据权利要求9所述的方法,其特征在于,所述稀疏合并卷积处理包括:
将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;
将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
16.根据权利要求10所述的方法,其特征在于,所述稀疏相加处理包括:
将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
将第一特征图的蒙板与第二特征图的蒙板进行或运算,形成所述稀疏相加处理后的特征图的蒙板。
17.根据权利要求11所述的方法,其特征在于,所述稀疏上采样处理包括:
将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;
将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;
将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
对权值矩阵进行二值化处理,形成所述稀疏相加处理后的特征图的蒙板。
18.根据权利要求1至4中任一项所述的方法,其特征在于,所述神经网络是利用激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。
19.一种车辆智能控制方法,其特征在于,所述方法包括:
采用如权利要求1至18中任一项所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;
根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
20.一种避障导航方法,其特征在于,所述方法包括:
采用如权利要求1至18中任一项所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;
根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
21.一种神经网络的训练方法,其特征在于,所述训练方法包括:
向待训练的神经网络输入激光雷达稀疏深度图样本;
由所述待训练的神经网络获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;
以所述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
22.一种激光雷达稀疏深度图的处理装置,其特征在于,包括:
深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;
神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
23.根据权利要求22所述的装置,其特征在于,所述深度图输入模块进一步用于:
向神经网络输入激光雷达稀疏深度图及所述激光雷达稀疏深度图的蒙板;
其中,所述激光雷达稀疏深度图的蒙板用于指示所述激光雷达稀疏深度图中的有效点,所述神经网络还用于:
根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板;
所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理包括:
根据所述至少两个不同尺度的特征图的蒙板,针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理。
24.根据权利要求23所述的装置,其特征在于,所述神经网络包括:
输入处理单元,用于对所述激光雷达稀疏深度图进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图,对所述深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图;
所述至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
25.根据权利要求24所述的装置,其特征在于,所述输入处理单元还用于:对所述激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图的蒙板,对所述蒙板进行尺度变换处理,以获得各特征图的蒙板。
26.根据权利要求22至25中任一项所述的装置,其特征在于,所述神经网络包括:
至少一个融合模块,所述融合模块具有多路输入和多路输出,所述融合模块用于对多路输入的不同尺度的特征图分别进行有效点特征融合处理;
在所述神经网络包括多个融合模块的情况下,前一级融合模块的输出用于为后一级融合模块提供输入。
27.根据权利要求26所述的装置,其特征在于,所述神经网络还包括:
至少一个第一变换模块,设置于融合模块之后;
所述第一变换模块用于,对前一级融合模块的至少一路输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合模块。
28.根据权利要求26所述的装置,其特征在于,在前一级融合模块的输出路数小于后一级融合模块的输入路数的情况下,前一级融合模块的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合模块的输入。
29.根据权利要求26所述的装置,其特征在于,所述神经网络还包括:
至少一个第二变换模块,设置于融合模块之后;
所述第二变换模块用于,对融合模块的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,所述形成的一路特征图作为后一级的融合模块的输入,或者作为神经网络的输出处理单元的输入。
30.根据权利要求26所述的装置,其特征在于,所述深度图输入模块还用于:将与所述激光雷达稀疏深度图具有相同视角和大小的图像提供给所述神经网络,所述图像包括:摄像装置摄取到的图像;
所述输入处理单元还用于,获取所述图像的至少一个尺度的特征图,所述图像的相应尺度的特征图被作为相应的融合处理的输入;
其中,所述图像的特征图用于与所述激光雷达稀疏深度图的特征图进行融合处理。
31.根据权利要求26所述的装置,其特征在于,在所述融合模块具有N路输入和N路输出的情况下,所述融合模块针对第M路输入所执行的有效点特征融合处理包括:
对第N路输入的特征图和特征图的蒙板分别进行下采样处理;
根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;
对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板;
其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,且N为大于M的整数。
32.根据权利要求31所述的装置,其特征在于,所述融合模块针对第N路输入所执行的有效点特征融合处理包括:
对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理;
对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
33.根据权利要求29所述的装置,其特征在于,所述输出处理单元包括:
第一输出处理单元,用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
34.根据权利要求30所述的装置,其特征在于,在所述融合模块具有N路输入和N路输出的情况下,所述融合模块针对第N路输入所执行的有效点特征融合处理包括:
对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理;
对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板;
其中,N为大于M的整数。
35.根据权利要求34所述的装置,其特征在于,所述输出处理单元包括:
第二输出处理单元,用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行进一步卷积处理,形成处理后的深度图。
36.根据权利要求30所述的装置,其特征在于,所述稀疏合并卷积处理包括:
将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;
将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
37.根据权利要求31所述的装置,其特征在于,所述稀疏相加处理包括:
将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
将第一特征图的蒙板与第二特征图的蒙板进行或运算,形成所述稀疏相加处理后的特征图的蒙板。
38.根据权利要求32所述的装置,其特征在于,所述稀疏上采样处理包括:
将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;
将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;
将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
对权值矩阵进行二值化处理,形成所述稀疏相加处理后的特征图的蒙板。
39.根据权利要求22至25中任一项所述的装置,其特征在于,所述神经网络是利用激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。
40.一种车辆智能控制装置,其特征在于,所述装置包括:
深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;
神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;
控制模块,用于根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
41.一种避障导航装置,其特征在于,所述装置包括:
深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;
神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;
避障导航模块,用于根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
42.一种神经网络的训练装置,其特征在于,所述训练装置包括:
深度图样本输入模块,用于向待训练的神经网络输入激光雷达稀疏深度图样本;
待训练的神经网络,用于获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果,形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;
监督模块,用于以所述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
43.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-21中任一项所述的方法。
44.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-21中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810829623.8A CN109325972B (zh) | 2018-07-25 | 2018-07-25 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
SG11202012998WA SG11202012998WA (en) | 2018-07-25 | 2019-07-23 | Method and apparatus for processing laser radar based sparse depth map, device and medium |
PCT/CN2019/097270 WO2020020146A1 (zh) | 2018-07-25 | 2019-07-23 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
JP2020573306A JP7016434B2 (ja) | 2018-07-25 | 2019-07-23 | レーザレーダスパース深度マップの処理方法、装置、機器および媒体 |
US17/126,837 US20210103763A1 (en) | 2018-07-25 | 2020-12-18 | Method and apparatus for processing laser radar based sparse depth map, device and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810829623.8A CN109325972B (zh) | 2018-07-25 | 2018-07-25 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325972A CN109325972A (zh) | 2019-02-12 |
CN109325972B true CN109325972B (zh) | 2020-10-27 |
Family
ID=65263998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810829623.8A Active CN109325972B (zh) | 2018-07-25 | 2018-07-25 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210103763A1 (zh) |
JP (1) | JP7016434B2 (zh) |
CN (1) | CN109325972B (zh) |
SG (1) | SG11202012998WA (zh) |
WO (1) | WO2020020146A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325972B (zh) * | 2018-07-25 | 2020-10-27 | 深圳市商汤科技有限公司 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
US20200137380A1 (en) * | 2018-10-31 | 2020-04-30 | Intel Corporation | Multi-plane display image synthesis mechanism |
CN112446909B (zh) * | 2019-08-30 | 2022-02-01 | 上海商汤临港智能科技有限公司 | 一种深度图像补全方法及装置、计算机可读存储介质 |
CN112749594B (zh) * | 2019-10-31 | 2022-04-22 | 浙江商汤科技开发有限公司 | 信息补全方法、车道线识别方法、智能行驶方法及相关产品 |
CN111062981B (zh) * | 2019-12-13 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及存储介质 |
CN110992271B (zh) * | 2020-03-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、路径规划方法、装置、设备及存储介质 |
US20210279841A1 (en) * | 2020-03-09 | 2021-09-09 | Nvidia Corporation | Techniques to use a neural network to expand an image |
CN113496491B (zh) * | 2020-03-19 | 2023-12-15 | 广州汽车集团股份有限公司 | 一种基于多线激光雷达的路面分割方法及装置 |
US11698437B2 (en) | 2020-09-01 | 2023-07-11 | Ford Global Technologies, Llc | Segmentation and classification of point cloud data |
CN112305554B (zh) | 2020-11-23 | 2021-05-28 | 中国科学院自动化研究所 | 基于有向几何点和稀疏帧的激光里程计方法、系统、装置 |
CN112580585A (zh) * | 2020-12-28 | 2021-03-30 | 深圳职业技术学院 | 一种基于堆叠稠密网络的挖掘机目标检测方法及装置 |
CN112861729B (zh) * | 2021-02-08 | 2022-07-08 | 浙江大学 | 一种基于伪深度图引导的实时深度补全方法 |
US11741671B2 (en) * | 2021-06-16 | 2023-08-29 | Samsung Electronics Co., Ltd. | Three-dimensional scene recreation using depth fusion |
CN113436258B (zh) * | 2021-06-17 | 2023-09-12 | 中国船舶重工集团公司第七0七研究所九江分部 | 基于视觉与激光雷达融合的海上浮码头检测方法及系统 |
CN113780349B (zh) * | 2021-08-09 | 2023-07-11 | 深圳奥锐达科技有限公司 | 训练样本集的获取方法、模型训练方法及相关装置 |
CN114743079A (zh) * | 2022-04-18 | 2022-07-12 | 烟台大学 | 稀疏雷达和双目立体图像融合的3d目标检测方法及装置 |
EP4369045A1 (en) * | 2022-11-14 | 2024-05-15 | Hexagon Technology Center GmbH | Filtering reflected points in a 3d lidar scan by joint evaluation of lidar data and image data with a reflection point classifier |
CN116109645B (zh) * | 2023-04-14 | 2023-07-07 | 锋睿领创(珠海)科技有限公司 | 基于先验知识的智能处理方法、装置、设备和介质 |
CN116665003B (zh) * | 2023-07-31 | 2023-10-20 | 安徽大学 | 一种基于特征交互与融合的点云三维目标检测方法和装置 |
CN117237506B (zh) * | 2023-11-15 | 2024-02-02 | 中国科学院长春光学精密机械与物理研究所 | 航拍图像生成模拟激光点云图像的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN106780588A (zh) * | 2016-12-09 | 2017-05-31 | 浙江大学 | 一种基于稀疏激光观测的图像深度估计方法 |
CN107274437A (zh) * | 2017-06-23 | 2017-10-20 | 燕山大学 | 一种基于卷积神经网络的视觉跟踪方法 |
CN104112263B (zh) * | 2014-06-28 | 2018-05-01 | 南京理工大学 | 基于深度神经网络的全色图像与多光谱图像融合的方法 |
CN108229470A (zh) * | 2017-12-22 | 2018-06-29 | 北京市商汤科技开发有限公司 | 文字图像处理方法、装置、设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050015201A1 (en) * | 2003-07-16 | 2005-01-20 | Sarnoff Corporation | Method and apparatus for detecting obstacles |
RU2013134325A (ru) * | 2013-07-22 | 2015-01-27 | ЭлЭсАй Корпорейшн | Устройство и способ распознавания жестов на основе анализа множества возможных границ раздела |
CN105096354A (zh) * | 2014-05-05 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 一种图像处理的方法和装置 |
JP6360802B2 (ja) | 2015-02-20 | 2018-07-18 | 株式会社デンソーアイティーラボラトリ | ニューラルネットワーク処理装置、ニューラルネットワーク処理方法、検出装置、検出方法、および、車両 |
CN107025642B (zh) | 2016-01-27 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 基于点云数据的车辆轮廓检测方法和装置 |
CN106251355B (zh) * | 2016-08-03 | 2018-12-14 | 江苏大学 | 一种融合可见光图像与对应夜视红外图像的检测方法 |
JP7057959B2 (ja) | 2016-08-09 | 2022-04-21 | 住友ゴム工業株式会社 | 動作解析装置 |
EP3293705B1 (en) | 2016-09-12 | 2022-11-16 | Dassault Systèmes | 3d reconstruction of a real object from a depth map |
CN106547356B (zh) * | 2016-11-17 | 2020-09-11 | 科大讯飞股份有限公司 | 智能交互方法和装置 |
CN108229497B (zh) * | 2017-07-28 | 2021-01-05 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN107576960B (zh) * | 2017-09-04 | 2021-03-16 | 赵建辉 | 视觉雷达时空信息融合的目标检测方法及系统 |
CN107800966B (zh) * | 2017-10-31 | 2019-10-18 | Oppo广东移动通信有限公司 | 图像处理的方法、装置、计算机可读存储介质和电子设备 |
CN109325972B (zh) * | 2018-07-25 | 2020-10-27 | 深圳市商汤科技有限公司 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
-
2018
- 2018-07-25 CN CN201810829623.8A patent/CN109325972B/zh active Active
-
2019
- 2019-07-23 JP JP2020573306A patent/JP7016434B2/ja active Active
- 2019-07-23 WO PCT/CN2019/097270 patent/WO2020020146A1/zh active Application Filing
- 2019-07-23 SG SG11202012998WA patent/SG11202012998WA/en unknown
-
2020
- 2020-12-18 US US17/126,837 patent/US20210103763A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112263B (zh) * | 2014-06-28 | 2018-05-01 | 南京理工大学 | 基于深度神经网络的全色图像与多光谱图像融合的方法 |
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN106780588A (zh) * | 2016-12-09 | 2017-05-31 | 浙江大学 | 一种基于稀疏激光观测的图像深度估计方法 |
CN107274437A (zh) * | 2017-06-23 | 2017-10-20 | 燕山大学 | 一种基于卷积神经网络的视觉跟踪方法 |
CN108229470A (zh) * | 2017-12-22 | 2018-06-29 | 北京市商汤科技开发有限公司 | 文字图像处理方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于图像稀疏性与多尺度神经网络的图像修复算法研究;曾嘉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180615(第06期);正文第1-5章 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020020146A1 (zh) | 2020-01-30 |
US20210103763A1 (en) | 2021-04-08 |
SG11202012998WA (en) | 2021-02-25 |
CN109325972A (zh) | 2019-02-12 |
JP7016434B2 (ja) | 2022-02-04 |
JP2021530771A (ja) | 2021-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325972B (zh) | 激光雷达稀疏深度图的处理方法、装置、设备及介质 | |
CN109035319B (zh) | 单目图像深度估计方法及装置、设备、程序及存储介质 | |
US11823443B2 (en) | Segmenting objects by refining shape priors | |
CN108229479B (zh) | 语义分割模型的训练方法和装置、电子设备、存储介质 | |
US11270158B2 (en) | Instance segmentation methods and apparatuses, electronic devices, programs, and media | |
US11380017B2 (en) | Dual-view angle image calibration method and apparatus, storage medium and electronic device | |
CN108304775B (zh) | 遥感图像识别方法、装置、存储介质以及电子设备 | |
CN108229303B (zh) | 检测识别和检测识别网络的训练方法及装置、设备、介质 | |
US20230230275A1 (en) | Inverting Neural Radiance Fields for Pose Estimation | |
CN108154222B (zh) | 深度神经网络训练方法和系统、电子设备 | |
CN109165562B (zh) | 神经网络的训练方法、横向控制方法、装置、设备及介质 | |
CN109118456B (zh) | 图像处理方法和装置 | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
CN109300151B (zh) | 图像处理方法和装置、电子设备 | |
CN112927234A (zh) | 点云语义分割方法、装置、电子设备和可读存储介质 | |
CN108154153B (zh) | 场景分析方法和系统、电子设备 | |
CN108230332B (zh) | 文字图像的处理方法和装置、电子设备、计算机存储介质 | |
US12229892B2 (en) | Visualizing vector graphics in three-dimensional scenes | |
US20230281979A1 (en) | Systems and Methods for Training Machine-Learned Visual Attention Models | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN113869323A (zh) | 车辆关键点检测方法、电子设备和存储介质 | |
CN103605966B (zh) | 一种识别行人的方法和装置 | |
CN112749779A (zh) | 神经网络的处理方法及装置、电子设备和计算机存储介质 | |
CN119417888A (zh) | 一种计算机视觉物体定位系统 | |
CN114399730A (zh) | 交通目标检测模型训练和目标检测方法及边缘计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |