CN117576660A - 一种基于状态估计的低延迟多车鸟瞰图感知方法及装置 - Google Patents
一种基于状态估计的低延迟多车鸟瞰图感知方法及装置 Download PDFInfo
- Publication number
- CN117576660A CN117576660A CN202311547620.2A CN202311547620A CN117576660A CN 117576660 A CN117576660 A CN 117576660A CN 202311547620 A CN202311547620 A CN 202311547620A CN 117576660 A CN117576660 A CN 117576660A
- Authority
- CN
- China
- Prior art keywords
- target
- data
- target detection
- detection frame
- state estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S19/00—Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
- G01S19/38—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
- G01S19/39—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
- G01S19/42—Determining position
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Navigation (AREA)
Abstract
本发明公开了一种基于状态估计的低延迟多车鸟瞰图感知方法及装置,方法包括:获取目标对象的摄像头数据以及GPS定位数据;对摄像头数据进行目标检测,得到第一目标检测框;根据第一目标检测框以及GPS定位数据,得到目标位置;根据GPS定位数据以及目标位置,得到第一观测数据;将第一观测数据作为新数据输入缓冲区,对第一观测数据进行聚类,获得目标对象的数量;对目标对象进行状态估计,得到中间结果,将中间结果返回;所述中间结果用于提供实时全局地图信息。本发明扩大了联网自动驾驶汽车的感知范围,能及时检测到障碍物,有助于事故预防,通过状态估计,提高感知系统的可解释性,可广泛应用于自动驾驶技术领域。
Description
技术领域
本发明涉及自动驾驶技术领域,尤其是一种基于状态估计的低延迟多车鸟瞰图感知方法及装置。
背景技术
联网自动驾驶车辆(CAVs)具有改善道路安全和交通效率等多方面好处,有望从根本上改变陆地交通。但是CAVs主要依赖的传感器如摄像头和激光雷达存在直线视野有限、检测范围有限等问题,很难检测到被遮挡的物体和远处的障碍物。目前,现有联网自动驾驶汽车依靠自身传感器的单车感知方式,还依赖于通信技术来获取额外的信息和实现协同感知,其中,自身传感器可以检测车辆周围的物体和障碍物,但通常会有一定的感知范围和盲点,并且现有的协同感知应用领域中,多采用端到端的深度学习模型,可解释性差。
发明内容
有鉴于此,本发明实施例提供一种基于状态估计的低延迟多车鸟瞰图感知方法及装置,以扩大联网自动驾驶汽车的感知范围,及时检测到障碍物,提高感知系统的可解释性。
本发明实施例的一方面提供了一种基于状态估计的低延迟多车鸟瞰图感知方法,该方法包括:
获取目标对象的摄像头数据以及GPS定位数据;
对所述摄像头数据进行目标检测,得到第一目标检测框;
根据所述第一目标检测框以及所述GPS定位数据,得到目标位置;
根据所述第一目标检测框以及所述目标位置,得到第一观测数据;
将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量;
结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回;所述中间结果用于提供实时全局地图信息。
可选地,所述对所述摄像头数据进行目标检测,得到第一目标检测框,包括:
通过目标检测算法对所述摄像头数据进行目标检测,得到第一目标检测框的水平位置、第一目标检测框的垂直位置、第一目标检测框的宽度以及第一目标检测框的高度;
根据所述第一目标检测框的水平位置、所述第一目标检测框的垂直位置、所述第一目标检测框的宽度以及所述第一目标检测框的高度,得到第一目标检测框。
可选地,所述根据所述第一目标检测框以及所述GPS定位数据,得到目标位置,包括:
获取所述GPS定位数据中的绝对坐标,根据所述绝对坐标得到目标对象的绝对位置;
将所述第一目标检测框输入3D目标检测模型,得到3D目标检测框以及朝向信息;
根据所述绝对位置、所述3D目标检测框以及所述朝向信息,得到目标位置。
可选地,所述根据所述第一目标检测框以及所述目标位置,得到第一观测数据,包括:
对所述第一目标检测框进行编码和解码,得到视觉特征向量;
将所述视觉特征向量与所述目标位置结合,得到第一观测数据。
可选地,所述将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量,包括:
通过聚类算法,对所述第一观测数据进行分类,得到第二观测数据;
对所述第一观测数据进行聚类结构的识别,获得所述目标对象的数量。
可选地,所述结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回,包括:
构建第一误差损失函数;
根据所述目标对象的数量设置若干个估计数据点;
根据所述估计数据点,获取初始状态估计、各个所述目标对象的初始空间位置以及初始姿态估计数据;
根据所述第一误差损失函数、所述初始姿态估计数据以及所述第二观测数据,对所述初始状态估计进行校正,得到更新的状态估计;
通过所述更新的状态估计,对各个所述目标对象的初始空间位置以及初始姿态估计数据进行更新,得到新的空间位置以及新的姿态估计数据作为中间结果;
返回所述中间结果,提供实时全局地图信息。
本发明实施例还提供了一种基于状态估计的低延迟多车鸟瞰图感知装置,包括:
第一模块,用于获取目标对象的摄像头数据以及GPS定位数据;
第二模块,用于对所述摄像头数据进行目标检测,得到第一目标检测框;
第三模块,用于根据所述第一目标检测框以及所述GPS定位数据,得到目标位置;
第四模块,用于根据所述第一目标检测框以及所述目标位置,得到第一观测数据;
第五模块,用于将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量;
第六模块,用于结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回;所述中间结果用于提供实时全局地图信息。
本发明实施例还提供了一种电子设备,该电子设备包括处理器以及存储器;存储器存储有程序;处理器执行程序以执行前述的基于状态估计的低延迟多车鸟瞰图感知方法。
本发明实施例还提供了一种计算机可读存储介质,存储介质存储有程序,所述程序被处理器执行实现前述的基于状态估计的低延迟多车鸟瞰图感知方法。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的基于状态估计的低延迟多车鸟瞰图感知方法。
本发明的实施例获取目标对象的摄像头数据以及GPS定位数据;对所述摄像头数据进行目标检测,得到第一目标检测框;根据所述第一目标检测框以及所述GPS定位数据,得到目标位置;根据所述第一目标检测框以及所述目标位置,得到第一观测数据;将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量;结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回;所述中间结果用于提供实时全局地图信息。本发明扩大了联网自动驾驶汽车的感知范围,可以及时检测到障碍物,有助于事故预防;本发明还通过状态估计,提高感知系统的可解释性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于状态估计的低延迟多车鸟瞰图感知方法的步骤流程图;
图2为本发明实施例在自动驾驶汽车及服务器中的整体流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在对本发明实施例进行详细说明之前,对本发明实施例中可能涉及的名词进行必要的解释说明:
联网自动驾驶汽车(Connected and Autonomous Vehicles,CAVs):联网自动驾驶汽车是指配备了先进的通信技术和自动驾驶功能的车辆,它们能够与其他车辆、道路基础设施以及云端服务器进行实时通信,以改善道路安全、交通流畅性和乘客舒适性。
全球定位系统(Global Positioning System,GPS)是一种以人造地球卫星为基础的高精度无线电导航的定位系统,它在全球任何地方以及近地空间都能够提供准确的地理位置、车行速度及精确的时间信息。
自动编码器(Auto-Encoder)是一种深度学习神经网络模型,通常用于数据压缩、降维、特征学习以及生成数据。它的核心思想是将输入数据编码成潜在表示,然后再解码回原始数据,使得重构数据尽可能接近输入数据。自动编码器由编码器(Encoder)和解码器(Decoder)两部分组成。
鸟瞰视图(Bird's Eye View)是一种视觉表示方式,通常指的是将场景、地图或对象从俯视的角度来观察和呈现。这种视图角度类似于我们从鸟类的视角看到地面,因此得名"鸟瞰视图"。鸟瞰视图常用于各种应用领域,包括自动驾驶、机器人导航、地图制作、物体检测和监控系统等。通过鸟瞰视图,用户可以获得更全面的场景信息,能够清晰地看到道路、建筑物、交通、障碍物和其他对象,从而有助于更好地理解和分析特定环境或场景。在自动驾驶领域,鸟瞰视图常用于识别道路、车辆、行人和其他车辆周围的交通情况。这种视图可以提供更高的语义信息,有助于自动驾驶系统做出更准确的决策和规划路径。
路边计算单元(Roadside Unit,RSU)是一种用于车联网和智能交通系统的关键设备。RSU通常被部署在道路边缘、交通信号灯、路灯杆、高架桥或其他道路基础设施上,以提供各种服务和功能。
同步定位与建图(Simultaneous Localization and Mapping,SLAM)是一种主要用于移动机器人或自主驾驶车辆等系统中的算法和技术。它的主要目标是在未知环境中同时实现定位和地图构建。
状态估计(State Estimation)是指通过观测数据和系统模型来估计一个系统的内部状态或特性。状态估计通常应用于不确定性或噪声存在的系统,例如控制系统、机器学习、信号处理和机器视觉中。
目前,现有联网自动驾驶汽车依靠自身传感器的单车感知方式,还依赖于通信技术来获取额外的信息和实现协同感知,其中,自身传感器可以检测车辆周围的物体和障碍物,但通常会有一定的感知范围和盲点,并且现有的协同感知应用领域中,多采用端到端的深度学习模型,可解释性差。
针对现有技术存在的问题,参考图1,本发明提供了一种基于状态估计的低延迟多车鸟瞰图感知方法,该方法可以包括:S100、S200、S300、S400、S500以及S600。
S100、获取目标对象的摄像头数据以及GPS定位数据。
S200、对所述摄像头数据进行目标检测,得到第一目标检测框。
可选地,在一些实施例中,所述步骤S200具体包括S210-S220:
S210、通过目标检测算法对所述摄像头数据进行目标检测,得到第一目标检测框的水平位置、第一目标检测框的垂直位置、第一目标检测框的宽度以及第一目标检测框的高度;
S220、根据所述第一目标检测框的水平位置、所述第一目标检测框的垂直位置、所述第一目标检测框的宽度以及所述第一目标检测框的高度,得到第一目标检测框;
具体地,可以通过YoloV5目标检测算法进行目标检测,得到多个目标对象的第一目标检测框,所述第一目标检测框表示为[x,y,w,h],其中,x代表第一目标检测框的水平位置,y代表第一目标检测框的垂直位置,w代表第一目标检测框的宽度,h代表第一目标检测框的高度。
S300、根据所述第一目标检测框以及所述GPS定位数据,得到目标位置。
可选地,在一些实施例中,所述步骤S300具体包括S310-S330:
S310、获取所述GPS定位数据中的绝对坐标,根据所述绝对坐标得到目标对象的绝对位置;
S320、将所述第一目标检测框输入3D目标检测模型,得到3D目标检测框以及朝向信息;
S330、根据所述绝对位置、所述3D目标检测框以及所述朝向信息,得到目标位置;
具体地,在世界坐标系中,所述目标位置包括目标对象的绝对位置、目标对象的尺度信息、目标对象的朝向信息;其中,所述目标对象的绝对位置的表达式为:
oC=[x,y,z]T
所述目标对象的尺度信息的表达式为:
oD=[dx,dy,dz]
所述目标对象的朝向信息的表达式为:
oR=[θ,φ,α]
式中,oC代表绝对位置;x代表水平位置;y代表垂直位置;z代表高度位置;oD代表尺度信息;dx代表水平方向上的距离;dy代表垂直方向上的距离;dz代表前后方向上的距离;oR代表朝向信息;θ代表横倾角;φ代表俯仰角;α代表滚动角;[·]T代表转置操作。
在一些可以选择的实施例中,根据GPS定位数据估计目标位置中的绝对位置,在世界坐标系中,获得前方车辆相对本车坐标为[1,0,0],本车GPS定位数据绝对坐标为[2,0,0],则可以得到目标车辆的绝对位置oC=[3,0,0]T,通过相对位置以及GPS定位数据得到绝对位置。
S400、根据所述第一目标检测框以及所述目标位置,得到第一观测数据。
可选地,在一些实施例中,所述步骤S400具体包括S410-S420:
S410、对所述第一目标检测框进行编码和解码,得到视觉特征向量;
S420、将所述视觉特征向量与所述目标位置结合,得到第一观测数据;
具体地,采用Auto-Encoder技术,对所述第一目标检测框进行编码和解码,得到具有4096维度的视觉特征向量;其中,所述第一观测数据的表达式为:
o=[oV,oC,oD,oR]
式中,o代表第一观测数据;oV代表视觉特征向量;oC代表绝对位置;oD代表尺度信息;oR代表朝向信息;
另外,视觉特征向量捕捉了输入数据的重要视觉特征,有助于对物体或场景进行更深入的理解和表征。
S500、将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量。
可选地,在一些实施例中,所述步骤S500具体包括S510-S520:
S510、通过聚类算法,对所述第一观测数据进行分类,得到第二观测数据;
S520、对所述第一观测数据进行聚类结构的识别,获得所述目标对象的数量;
具体地,采用基于密度的带噪声应用空间聚类(DBSCAN)算法,设置第二误差损失函数,能够有效地对观测数据进行分类,根据数据点之间的密度关系来识别聚类结构,并推断出目标对象的个数;所述第二误差损失函数的表达式为:
J2(c,o)=λVJV(cV,oV)+λCJC(cC,oC)+λDJD(cD,oD)+λRJR(cR,oR)
式中,J2(c,o)代表第二误差损失函数;λV,λC,λD,λR代表各个权重;JV(cV,oV)代表两个目标对象的视觉特征向量的余弦相似度;JC(cC,oC)代表两个目标对象之间欧氏距离的差值;JD(cD,oD)代表两个目标对象的较小体积与较大体积的比率;JR(cR,oR)代表两个目标对象的角度矢量之间的余弦相似性;
其中,两个目标对象视觉特征向量的余弦相似度衡量的是两个视觉特征向量之间的夹角余弦值,而不是向量的绝对大小;示例性地,余弦相似度的取值范围在-1到1之间,余弦相似度的表达式为:
式中,A以及B代表两个视觉特征向量;A·B是两个视觉特征向量的点积;||A||以及||B||代表两个视觉特征向量的范数。
S600、结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回;所述中间结果用于提供实时全局地图信息。
可选地,在一些实施例中,所述步骤S600具体包括S610-S660:
S610、构建第一误差损失函数;
S620、根据所述目标对象的数量设置若干个估计数据点;
S630、根据所述估计数据点,获取初始状态估计、各个所述目标对象的初始空间位置以及初始姿态估计数据;
S640、根据所述第一误差损失函数、所述初始姿态估计数据以及所述第二观测数据,对所述初始状态估计进行校正,得到更新的状态估计;
S650、通过所述更新的状态估计,对各个所述目标对象的初始空间位置以及初始姿态估计数据进行更新,得到新的空间位置以及新的姿态估计数据作为中间结果;
S660、返回所述中间结果,提供实时全局地图信息。
示例性地,如图2所示,服务器维护有专门用于存储上一次计算的信息的缓冲区,在缓冲区中对信息进行缓冲并更新,缓冲区是一种关键组件,旨在有效地管理数据,并确保服务器端的信息一直保持最新和准确。随着最新帧的信息到达服务器端,系统通过唯一标识符(UUID)的方式,智能地识别和更新缓冲区中对应的陈旧数据,通过此方法允许服务器快速识别需要更新的数据,而无需对整个缓冲区进行全面替换,从而提高了系统的效率和性能。
当服务器上一轮的状态估计计算结束并释放信号后,服务器端立即对缓冲区中的最新消息进行基于聚类算法的聚类计算,通过这一过程旨在确定场景内存在的目标对象的数量。
另外,在服务器端完成上一轮的状态估计计算的第一时刻,根据服务器的信息缓冲区中各个数据的到达时间,设置第一参数,通过卡尔曼滤波器的方法对陈旧的缓冲区数据进行运动补偿;所述第一参数的表达式为:Δt=tf-t;其中,tf代表第一时刻,t代表到达时间,Δt代表第一参数。
在一些可以选择的实施例中,缓冲区有四个自动驾驶汽车传来的数据[data1,data2,data3,data4],他们分别到达时间为:[t1,t2,t3,t4],此时,第一辆自动驾驶汽车再次更新数据data1,此时时刻为T。通过运动补偿把缓冲区中[data2,data3,data4]的数据以Δt=T-ti作为参数进行补偿,使得数据更加贴近真实时刻,然后再进行新一轮的状态估计计算。
具体地,状态估计计算的首要目标是通过动态调整每个目标对象的状态来最小化由自动驾驶汽车的传感器测量所引起的累积误差。在执行聚类算法后,获得了一组经过分类的观测数据,并确定了目标对象的数量,该数量设为k。每个对象都具备详细的观测数据,初始阶段,通过初始化提供k个估计数据点,这些估计数据点代表了各个目标对象的状态信息。这些状态信息包括目标对象的初始空间位置(x和y坐标)以及初始姿态估计数据。为了最小化误差,需要针对每个目标对象的状态信息使用梯度下降算法进行微调。在本发明实施例中,通过连续地微调对象的位置和姿态,以便将其状态优化至最佳状态,所述连续地微调对象的位置和姿态这一步骤可以基于构建第一误差损失函数,进行渐进式状态估计来实现。
其中,渐进式状态估计的步骤如下:
(1)构建第一误差损失函数:
构建第一误差损失函数,确定通过聚类算法得到的第二观测数据;
其中,所述第一误差损失函数的表达式为:
所述第二观测数据的表达式为:
o2=[oC,oD]
式中,J1(c,o)代表第一误差损失函数;λC,λD代表各个权重;JC(cC,oC)代表两个目标对象之间欧氏距离的差值;代表3d尺度信息投影到地面平面的尺度信息;o2代表第二观测数据;oC代表绝对位置;oD代表尺度信息。
(2)初始化:
初始化状态估计,通过初始化提供k个估计数据点,这些估计数据点代表了各个目标对象的状态。这些状态信息包括目标对象的初始空间位置(x和y坐标)以及初始姿态估计数据。所述初始姿态估计数据的表达式为:
c=[cC,cD]
其中,c代表初始姿态估计数据;cC代表初始姿态估计数据的绝对位置;cD代表初始姿态估计数据的尺度信息。
(3)更新:
基于第二观测数据以及第一误差损失函数,对所述初始状态估计进行校正。
(4)状态更新:
为了最小化误差,针对每个目标对象的状态信息使用梯度下降算法进行微调。通过连续地微调对象的位置和姿态,将每个目标对象的状态优化至最佳。
(5)重复:
重复步骤(4),以连续估计目标对象的状态。
(6)结束条件:
当梯度下降单步步长小于设定阈值时,停止状态估计的条件。
本发明实施例还提供了一种基于状态估计的低延迟多车鸟瞰图感知装置,包括:
第一模块,用于获取目标对象的摄像头数据以及GPS定位数据;
第二模块,用于对所述摄像头数据进行目标检测,得到第一目标检测框;
第三模块,用于根据所述第一目标检测框以及所述GPS定位数据,得到目标位置;
第四模块,用于根据所述第一目标检测框以及所述目标位置,得到第一观测数据;
第五模块,用于将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量;
第六模块,用于结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回;所述中间结果用于提供实时全局地图信息。
本发明实施例还提供了一种电子设备,该电子设备包括处理器以及存储器;存储器存储有程序;处理器执行程序以执行前述的基于状态估计的低延迟多车鸟瞰图感知方法;该电子设备具有搭载并运行本发明实施例提供的业务数据处理的软件系统的功能,例如,个人计算机(Personal Computer,PC)、手机、智能手机、个人数字助手(PersonalDigital Assistant,PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、车载终端等。
本发明实施例还提供了一种计算机可读存储介质,存储介质存储有程序,所述程序被处理器执行实现前述的基于状态估计的低延迟多车鸟瞰图感知方法。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的基于状态估计的低延迟多车鸟瞰图感知方法。
综上所述,本发明实施例的一种基于状态估计的低延迟多车鸟瞰图感知方法及装置具有以下优点:
1、本发明通过状态估计,提高了感知数据的质量,还有助于减轻由于过于黑盒式的深度学习算法引入的潜在风险,并且使车辆能够透彻理解感知数据的来源和准确性,从而提高了感知系统的可信度。
2、本发明通过状态估计,实现明确的感知可解释性,减少对深度学习技术的过度依赖,提高道路交通的安全性和效率,以及显著减小了感知系统的处理延迟。
3、本发明扩大了联网自动驾驶汽车的感知范围,可以及时检测到障碍物,有助于事故预防。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于状态估计的低延迟多车鸟瞰图感知方法,其特征在于,包括:
获取目标对象的摄像头数据以及GPS定位数据;
对所述摄像头数据进行目标检测,得到第一目标检测框;
根据所述第一目标检测框以及所述GPS定位数据,得到目标位置;
根据所述第一目标检测框以及所述目标位置,得到第一观测数据;
将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量;
结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回;所述中间结果用于提供实时全局地图信息。
2.根据权利要求1所述的一种基于状态估计的低延迟多车鸟瞰图感知方法,其特征在于,所述对所述摄像头数据进行目标检测,得到第一目标检测框,包括:
通过目标检测算法对所述摄像头数据进行目标检测,得到第一目标检测框的水平位置、第一目标检测框的垂直位置、第一目标检测框的宽度以及第一目标检测框的高度;
根据所述第一目标检测框的水平位置、所述第一目标检测框的垂直位置、所述第一目标检测框的宽度以及所述第一目标检测框的高度,得到第一目标检测框。
3.根据权利要求1所述的一种基于状态估计的低延迟多车鸟瞰图感知方法,其特征在于,
所述根据所述第一目标检测框以及所述GPS定位数据,得到目标位置,包括:
获取所述GPS定位数据中的绝对坐标,根据所述绝对坐标得到目标对象的绝对位置;
将所述第一目标检测框输入3D目标检测模型,得到3D目标检测框以及朝向信息;
根据所述绝对位置、所述3D目标检测框以及所述朝向信息,得到目标位置。
4.根据权利要求1所述的一种基于状态估计的低延迟多车鸟瞰图感知方法,其特征在于,
所述根据所述第一目标检测框以及所述目标位置,得到第一观测数据,包括:
对所述第一目标检测框进行编码和解码,得到视觉特征向量;
将所述视觉特征向量与所述目标位置结合,得到第一观测数据。
5.根据权利要求4所述的一种基于状态估计的低延迟多车鸟瞰图感知方法,其特征在于,所述将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量,包括:
通过聚类算法,对所述第一观测数据进行分类,得到第二观测数据;
对所述第一观测数据进行聚类结构的识别,获得所述目标对象的数量。
6.根据权利要求5所述的一种基于状态估计的低延迟多车鸟瞰图感知方法,其特征在于,所述结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回,包括:
构建第一误差损失函数;
根据所述目标对象的数量设置若干个估计数据点;
根据所述估计数据点,获取初始状态估计、各个所述目标对象的初始空间位置以及初始姿态估计数据;
根据所述第一误差损失函数、所述初始姿态估计数据以及所述第二观测数据,对所述初始状态估计进行校正,得到更新的状态估计;
通过所述更新的状态估计,对各个所述目标对象的初始空间位置以及初始姿态估计数据进行更新,得到新的空间位置以及新的姿态估计数据作为中间结果;
返回所述中间结果,提供实时全局地图信息。
7.一种基于状态估计的低延迟多车鸟瞰图感知装置,其特征在于,包括:
第一模块,用于获取目标对象的摄像头数据以及GPS定位数据;
第二模块,用于对所述摄像头数据进行目标检测,得到第一目标检测框;
第三模块,用于根据所述第一目标检测框以及所述GPS定位数据,得到目标位置;
第四模块,用于根据所述第一目标检测框以及所述目标位置,得到第一观测数据;
第五模块,用于将所述第一观测数据作为新数据输入缓冲区,对所述第一观测数据进行聚类,获得所述目标对象的数量;
第六模块,用于结合所述目标对象的数量,对所述目标对象进行状态估计,得到中间结果,将所述中间结果返回;所述中间结果用于提供实时全局地图信息。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311547620.2A CN117576660A (zh) | 2023-11-15 | 2023-11-15 | 一种基于状态估计的低延迟多车鸟瞰图感知方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311547620.2A CN117576660A (zh) | 2023-11-15 | 2023-11-15 | 一种基于状态估计的低延迟多车鸟瞰图感知方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117576660A true CN117576660A (zh) | 2024-02-20 |
Family
ID=89885742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311547620.2A Pending CN117576660A (zh) | 2023-11-15 | 2023-11-15 | 一种基于状态估计的低延迟多车鸟瞰图感知方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576660A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119359533A (zh) * | 2024-12-25 | 2025-01-24 | 科大讯飞股份有限公司 | 视角转换方法、装置、电子设备和存储介质 |
-
2023
- 2023-11-15 CN CN202311547620.2A patent/CN117576660A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119359533A (zh) * | 2024-12-25 | 2025-01-24 | 科大讯飞股份有限公司 | 视角转换方法、装置、电子设备和存储介质 |
CN119359533B (zh) * | 2024-12-25 | 2025-06-03 | 科大讯飞股份有限公司 | 视角转换方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676296B2 (en) | Augmenting reality using semantic segmentation | |
US10991156B2 (en) | Multi-modal data fusion for enhanced 3D perception for platforms | |
US12248075B2 (en) | System and method for identifying travel way features for autonomous vehicle motion control | |
US12154352B2 (en) | Lane line detection method and related device | |
CN110869936B (zh) | 用于自动驾驶车辆中的分布式学习与适应的方法和系统 | |
US10437252B1 (en) | High-precision multi-layer visual and semantic map for autonomous driving | |
US10794710B1 (en) | High-precision multi-layer visual and semantic map by autonomous units | |
CN111079619A (zh) | 用于检测图像中的目标对象的方法和装置 | |
CN110945498A (zh) | 地图不确定性和观测模型 | |
CN111381585B (zh) | 一种构建占据栅格地图的方法及其装置、相关设备 | |
US20130083959A1 (en) | Multi-Modal Sensor Fusion | |
EP3904831B1 (en) | Visual localization using a three-dimensional model and image segmentation | |
US11961304B2 (en) | Systems and methods for deriving an agent trajectory based on multiple image sources | |
CN108428254A (zh) | 三维地图的构建方法及装置 | |
US10152635B2 (en) | Unsupervised online learning of overhanging structure detector for map generation | |
US11961241B2 (en) | Systems and methods for deriving an agent trajectory based on tracking points within images | |
US12106511B2 (en) | Learnable localization using images | |
US11976939B2 (en) | High-definition maps and localization for road vehicles | |
WO2025020985A1 (zh) | 一种道路拓扑检测方法及相关装置 | |
US20210407114A1 (en) | Systems and methods for transferring map data between different maps | |
CN117576660A (zh) | 一种基于状态估计的低延迟多车鸟瞰图感知方法及装置 | |
CN114127810A (zh) | 车辆自主级功能 | |
CN119380309B (zh) | 路网生成方法、智能设备及计算可读存储介质 | |
US20240265707A1 (en) | Systems and methods for deriving an agent trajectory based on multiple image sources | |
Chipka et al. | Estimation and navigation methods with limited information for autonomous urban driving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |