CN118770279A - 基于sac和预处理网络的自动驾驶决策规划协同方法及系统 - Google Patents
基于sac和预处理网络的自动驾驶决策规划协同方法及系统 Download PDFInfo
- Publication number
- CN118770279A CN118770279A CN202410741118.3A CN202410741118A CN118770279A CN 118770279 A CN118770279 A CN 118770279A CN 202410741118 A CN202410741118 A CN 202410741118A CN 118770279 A CN118770279 A CN 118770279A
- Authority
- CN
- China
- Prior art keywords
- planning
- decision
- vehicle
- sac
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007781 pre-processing Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000006870 function Effects 0.000 claims abstract description 31
- 238000011156 evaluation Methods 0.000 claims description 33
- 230000001133 acceleration Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 abstract description 52
- 230000002787 reinforcement Effects 0.000 abstract description 12
- 238000012549 training Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 16
- 238000005070 sampling Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 3
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 2
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于SAC和预处理网络的自动驾驶决策规划协同方法及系统,所述方法包括:对车辆的状态空间采用预处理网络进行预处理,得到车辆的状态特征向量;基于SAC算法,根据状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果;根据决策结果和行驶约束条件生成规划结果;根据规划结果和车辆约束条件确定控制结果,并基于控制结果对车辆进行控制。本发明的方法能够增强智能体对交通场景的理解能力,提高智能体学习速度并能够避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
Description
技术领域
本发明涉及车辆技术领域,尤其涉及一种基于SAC(Soft Actor-Critic,柔性动作-评价)和预处理网络的自动驾驶决策规划协同方法、一种基于SAC和预处理网络的自动驾驶决策规划协同系统、一种计算机可读存储介质和一种车辆。
背景技术
对于实现自动驾驶来讲,一个高效、智能的决策模块至关重要,它不仅要综合考虑所有感知数据,对道路场景进行理解和分析,还要考虑到后续行驶轨迹的规划以及运动控制模块的执行,最终指定最智能、最合适的驾驶策略。目前的自动驾驶决策模块主要是采用基于规则的方法,通常需要手动设计驾驶策略,需要依靠人类过往的驾驶策略经验来制定车辆当前需要执行的驾驶策略,这样的方法存在如下缺点:一、准确性不够高,这种预先定义好的驾驶策略在充满不确定性的交通环境中难以保证;二、普适性不够强,车辆行驶过程中可能会出现五花八门的驾驶场景,针对这种情况需要重新手动设计驾驶策略。
现如今随着机器学习的发展,使得基于数据驱动的方法逐渐成为可能,此类方法主要包括模仿学习和深度强化学习;模仿学习存在的缺点是:首先需要收集大量的专家驾驶数据,耗时长、耗费高;其次它只能学习数据集中演示的驾驶技能,遇到数据集未覆盖的情况时,很可能无法处理,容易出现安全问题。但是基于深度强化学习的自动驾驶决策方法在实际应用中仍然存在不足,首先在状态空间、动作空间和奖励函数的设计上存在困难;其次,智能体早期的驾驶策略较为拙劣,学习速度慢,需要耗费大量时间训练;另外,这种方法在自动驾驶系统中常常仅单一替代决策模块,未将规划模块输出的规划路径信息反馈给决策模块,使得决策模块输出的驾驶策略难以充分考虑规划模块的轨迹信息以及车辆的行驶条件约束,因此可能会输出规划、控制模块难以执行的驾驶策略。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种基于SAC和预处理网络的自动驾驶决策规划协同方法,通过预处理网络对车辆的状态空间进行预处理,能够增强智能体对交通场景的理解能力,提高智能体学习速度;在常规奖励的基础上增加反馈奖励,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划控制的信息协同,使得智能体在做决策时可以充分考虑后续规划过程中的轨迹信息以及规划控制过程中的车辆行驶条件约束,避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
本发明的第二个目的在于提出一种基于SAC和预处理网络的自动驾驶决策规划协同系统。
本发明的第三个目的在于提出一种计算机可读存储介质。
本发明的第四个目的在于提出一种车辆。
为达到上述目的,本发明第一方面实施例提出了一种基于SAC和预处理网络的自动驾驶决策规划协同方法,所述方法包括:对车辆的状态空间采用预处理网络进行预处理,得到所述车辆的状态特征向量;基于SAC算法,根据所述状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果;根据所述决策结果和行驶约束条件生成规划结果;根据所述规划结果和车辆约束条件确定控制结果,并基于所述控制结果对所述车辆进行控制。
根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法,首先对车辆的状态空间采用预处理网络进行预处理,得到车辆的状态特征向量,然后基于SAC算法,根据状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果,并根据决策结果和行驶约束条件生成规划结果,最后根据规划结果和车辆约束条件确定控制结果,并基于控制结果对车辆进行控制。由此,该方法通过预处理网络对车辆的状态空间进行预处理,能够增强智能体对交通场景的理解能力,提高智能体学习速度;给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划控制的信息协同,使得智能体在做决策时可以充分考虑后续规划过程中的轨迹信息以及规划控制过程中的车辆行驶条件约束,避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
另外,根据本发明上述实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法,还可以具有如下的附加技术特征:
根据本发明的一个实施例,获取上一时刻奖励函数输出的总奖励值,包括:基于上一时刻所述规划结果确定规划反馈奖励,其中,所述规划反馈奖励包括s-l曲线评价值、s-t曲线评价值和风险评价值;基于上一时刻所述控制结果确定控制反馈奖励和基础奖励,其中,所述控制反馈奖励包括控制效果评价值;根据所述基础奖励及其对应的权重系数、所述规划反馈奖励对应的权重系数和所述控制反馈奖励及其对应的权重系数,确定所述上一时刻奖励函数输出的总奖励值。
根据本发明的一个实施例,所述SAC算法的状态空间用下述表达式表达:
S=[R,G,P,V]
其中,R表示道路结构信息,包括道路宽度、车道边界、道路中心线、速度限制以及路口信息,G表示全局路径信息,P表示预测轨迹信息,包括自车和周围车辆的预测轨迹信息,V表示车辆状态,包括自车和周围车辆的速度、加速度、航向角以及位置信息;根据所述状态空间中的信息,从动作空间中输出所述决策结果。
根据本发明的一个实施例,所述行驶约束条件包括:
bd1≤l≤bd2
vmin≤vp≤vmax
at≤μg
其中,bd1表示道路的上边界,l表示所述规划结果中的横向位置,bd2表示道路的下边界,vmin表示车辆的最低车速,vp表示所述规划结果中的车速,vmax表示车辆的最高车速,ρ表示路径曲率,Rmin表示车辆的最小转弯半径,at表示所述规划结果中的总加速度,μ表示路面附着系数,g表示重力加速度。
根据本发明的一个实施例,所述车辆约束条件包括:
δmin≤δ≤δmax
其中,δmin表示最小转向轮转角,δ表示所述车辆的转向轮转角δmax表示最大转向轮转角,表示最小转向轮转角角速度,所述车辆的转向轮转角角速度,表示最大转向轮转角角速度。
根据本发明的一个实施例,所述方法还包括:将所述状态特征向量、所述总奖励值、所述决策结果和下一时刻所述状态特征向量作为决策样本存入所述SAC算法的经验池,以便对所述SAC算法中的网络参数进行更新。
根据本发明的一个实施例,对车辆的状态空间采用预处理网络进行预处理,包括:分别通过批标准化层和线性层对所述状态空间的各状态量进行批归一化处理;分别通过自注意力机制模块获取每个状态量自身元素之间的权重关系;分别通过循环门控单元获取各输入时间依赖关系;将处理后的各状态量叠加后通过所述自注意力机制模块输出所述车辆的状态特征向量。
为达到上述目的,本发明第二方面实施例提出了一种基于SAC和预处理网络的自动驾驶决策规划协同系统,包括:预处理模块,用于对车辆的状态空间采用预处理网络进行预处理,得到所述车辆的状态特征向量;决策模块,用于基于SAC算法,根据所述状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果;规划模块,用于根据所述决策结果和行驶约束条件生成规划结果;控制模块,用于根据所述规划结果和车辆约束条件确定控制结果,并基于所述控制结果对所述车辆进行控制。
根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同系统,预处理模块对车辆的状态空间采用预处理网络进行预处理,得到车辆的状态特征向量;决策模块基于SAC算法,根据状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果;规划模块根据决策结果和行驶约束条件生成规划结果;控制模块根据规划结果和车辆约束条件确定控制结果,并基于控制结果对车辆进行控制。由此,该装置通过预处理网络对车辆的状态空间进行预处理,能够增强智能体对交通场景的理解能力,提高智能体学习速度;给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划控制的信息协同,使得智能体在做决策时可以充分考虑后续规划过程中的轨迹信息以及规划控制过程中的车辆行驶条件约束,避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
为达到上述目的,本发明第三方面实施例提出了一种计算机可读存储介质,其上存储有基于SAC和预处理网络的自动驾驶决策规划协同程序,该基于SAC和预处理网络的自动驾驶决策规划协同程序被处理器执行时实现上述的基于SAC和预处理网络的自动驾驶决策规划协同方法。
根据本发明实施例的计算机可读存储介质,通过执行上述的基于SAC和预处理网络的自动驾驶决策规划协同方法,能够增强智能体对交通场景的理解能力,提高智能体学习速度并能够避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
为达到上述目的,本发明第四方面实施例提出了一种车辆,包括存储器、处理器及存储在存储器上并可在处理器上运行的基于SAC和预处理网络的自动驾驶决策规划协同程序,所述处理器执行所述基于SAC和预处理网络的自动驾驶决策规划协同程序时,实现上述的基于SAC和预处理网络的自动驾驶决策规划协同方法。
根据本发明实施例的车辆,通过执行上述的基于SAC和预处理网络的自动驾驶决策规划协同方法,能够增强智能体对交通场景的理解能力,提高智能体学习速度并能够避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法的流程图;
图2为根据本发明一个实施例的决策规划控制协同智能体的方框示意图;
图3为根据本发明一个实施例的个预处理网络的结构示意图;
图4为根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同系统的方框示意图;
图5为根据本发明实施例的车辆的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例提出的基于SAC和预处理网络的自动驾驶决策规划协同方法、基于SAC和预处理网络的自动驾驶决策规划协同系统、计算机可读存储介质和车辆。
图1为根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法的流程图。
如图1所示,本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法,可包括以下步骤:
S1,对车辆的状态空间采用预处理网络进行预处理,得到车辆的状态特征向量。
S2,基于SAC算法,根据状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果。
S3,根据决策结果和行驶约束条件生成规划结果。
S4,根据规划结果和车辆约束条件确定控制结果,并基于控制结果对车辆进行控制。
具体而言,决策规划控制协同智能体框架如图2所示,其中,决策模块根据状态量获取交通场景信息,从而进行决策,为车辆提供整体的行为策略和目标;规划模块根据决策结果进行路径规划和速度规划,从而生成可执行的行车轨迹;控制模块根据规划结果进行横纵向控制,实现轨迹跟踪控制和速度跟踪控制。为增强智能体对交通场景的理解能力,提高智能体学习速度,添加了预处理网络。
具体地,预处理网络可以对车辆的状态空间进行预处理,得到车辆的状态特征向量并输送至决策模块。决策模块采用SAC算法,根据状态特征向量获取交通场景信息,并结合上一时刻奖励函数输出的总奖励值进行决策,输出决策结果至规划模块,为车辆提供整体的行为策略和目标。规划模块根据决策结果和行驶约束条件进行路径规划和速度规划,从而生成可执行的行车轨迹,即规划结果,输出至控制模块。控制模块根据规划结果和车辆约束条件确定车辆的行驶轨迹和行驶速度等控制结果,并根据控制结果对车辆横纵向控制,实现轨迹跟踪控制和速度跟踪控制。
由此,本发明的方法,通过预处理网络,能够增强智能体对交通场景的理解能力,提高智能体学习速度;在常规奖励的基础上增加反馈奖励,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划控制的信息协同,使得智能体在做决策时可以充分考虑后续规划过程中的轨迹信息以及规划控制过程中的车辆行驶条件约束,避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性。
根据本发明的一个实施例,获取上一时刻奖励函数输出的总奖励值,包括:基于上一时刻规划结果确定规划反馈奖励,其中,规划反馈奖励包括s-l曲线评价值、s-t曲线评价值和风险评价值;基于上一时刻控制结果确定控制反馈奖励和基础奖励,其中,控制反馈奖励包括控制效果评价值;根据基础奖励及其对应的权重系数、规划反馈奖励对应的权重系数和控制反馈奖励及其对应的权重系数,确定上一时刻奖励函数输出的总奖励值。
具体而言,上一时刻奖励函数输出的总奖励值可以用下述表达式表达:
c=ω1c1+ω2c2+ω3c3+ω4c4+ω5c5
其中,c代表上一时刻奖励函数总奖励值,c1代表s-l曲线评价值,主要目的是评价轨迹是否具有足够的平滑性、高效性和利他性;c2代表s-t曲线评价值,其主要作用是评价轨迹是否具有较好的舒适性和行车效率;c3代表风险评价值,评价车辆在轨迹上行驶的安全性;c4代表控制效果评价值,评价车辆对于期望轨迹的路径跟踪预期效果;c5代表基础奖励;ω1、ω2、ω3、ω4、ω5分别代表各个评价值的权重系数,可根据具体的决策要求选取合适的系数值。
具体地,决策模块对上一时刻规划结果进行评价,可以得到s-l曲线评价值c1、s-t曲线评价值c2和风险评价值c3,并对上一时刻控制结果进行评价,可以得到控制效果评价值c4和基础奖励c5,决策模块根据具体的决策要求选取各个评价值的权重系数ω1、ω2、ω3、ω4、ω5,并将s-l曲线评价值c1、s-t曲线评价值c2、风险评价值c3、控制效果评价值c4和基础奖励c5以及各个评价值的权重系数代入上述表达式,可以得到上一时刻奖励函数输出的总奖励值c。
由此,本实施例的方法,在常规的基础奖励之外设计了反馈奖励,给智能体添加车辆行驶条件约束,并将轨迹信息、控制信息传递给决策模块,实现决策规划控制的信息协同,提高决策的安全性与合理性。奖励函数应包含基础奖励和反馈奖励,其中反馈奖励包含不满足车辆稳定行驶条件的情况,和满足行驶条件后,考虑轨迹评价值和控制效果评价值的情况。
根据本发明的一个实施例,SAC算法的状态空间用下述表达式表达:
S=[R,G,P,V]
其中,R表示道路结构信息,包括道路宽度、车道边界、道路中心线、速度限制以及路口信息,G表示全局路径信息,P表示预测轨迹信息,包括自车和周围车辆的预测轨迹信息,V表示车辆状态,包括自车和周围车辆的速度、加速度、航向角以及位置信息;根据状态空间中的信息,从动作空间中输出决策结果。
具体而言,状态空间是决策规划智能体所需输入的集合。考虑到车辆做出决策规划实际所需的输入,状态空间中应包含道路结构信息,全局路径信息,自车和他车的预测轨迹信息以及自车和他车的状态信息,因此本发明所设置的状态空间为S=[R,G,P,V]。决策规划控制协同智能体的动作空间是指决策模块可以做出所有决策动作的集合。为了使决策模块和规划模块紧密联系在一起,使决策的结果便于规划模块执行,依据规划所需的信息设计决策模块的动作空间。由于轨迹规划模块需要从智能体的动作空间中获得生成轨迹时所需的采样点位置,因此将动作空间设置为A=[ssampling,lsampling,tsampling],其中,ssampling代表在s-l坐标系下的纵向采样值,lsampling代表在s-l坐标系下的横向采样值,tsampling代表在s-t坐标系下的时间采样值。决策模块可以根据状态空间中的各种信息,从动作空间中输出决策结果。
根据本发明的一个实施例,行驶约束条件包括:
bd1≤l≤bd2
vmin≤vp≤vmax
at≤μg
其中,bd1表示道路的上边界,l表示规划结果中的横向位置,bd2表示道路的下边界,vmin表示车辆的最低车速,vp表示规划结果中的车速,vmax表示车辆的最高车速,ρ表示路径曲率,Rmin表示车辆的最小转弯半径,at表示规划结果中的总加速度,μ表示路面附着系数,g表示重力加速度。
具体而言,行驶约束条件可以对决策结果进行约束以得到规划结构,如规划结果中的横向位置应当在道路的上边界与下边界之间,规划结果中的车速应当在车辆的最低车速与最高车速之间,规划结果中的路径曲率、总加速度应当在一定范围内。例如,如果决策结果中的横向位置超出了道路的下边界,行驶约束条件可以将横向位置约束在道路的上边界与下边界之间。规划模块根据决策结果和行驶约束条件进行路径规划和速度规划,从而生成可执行的行车轨迹,即规划结果,输出至控制模块。
根据本发明的一个实施例,车辆约束条件包括:
δmin≤δ≤δmax
其中,δmin表示最小转向轮转角,δ表示车辆的转向轮转角,δmax表示最大转向轮转角,表示最小转向轮转角角速度,车辆的转向轮转角角速度,表示最大转向轮转角角速度。
具体而言,车辆约束条件可以对规划结果进行约束以得到控制结果,如控制结果中的车辆的转向轮转角应当在车辆的最小转向轮转角与最大转向轮转角之间,控制结果中的车辆的转向轮转角角速度应当在车辆的最小转向轮转角角速度与最大转向轮转角角速度之间。例如,如果规划结果中的车辆的转向轮转角大于最大转向轮转角,车辆约束条件可以将车辆的转向轮转角约束在最小转向轮转角与最大转向轮转角之间。控制模块根据规划结果和车辆约束条件确定车辆的行驶轨迹和行驶速度等控制结果,并根据控制结果对车辆横纵向控制,实现轨迹跟踪控制和速度跟踪控制。
根据本发明的一个实施例,上述的方法还包括:将状态特征向量、总奖励值、决策结果和下一时刻状态特征向量作为决策样本存入SAC算法的经验池,以便对SAC算法中的网络参数进行更新。
具体而言,该智能体框架的更新流程如下:
第一步,初始化策略网络、两个目标网络、两个目标价值网络以及经验池;
第二步,通过预处理网络对状态空间里的状态量st进行预处理,得到车辆的状态特征向量;
第三步,策略网络根据处理后的状态特征向量从动作空间中选出决策结果输出给规划模块,规划模块根据该决策结果进行轨迹的生成,最终将规划的轨迹传递给控制模块,对被控车辆进行控制,从而获得总奖励值和下一时刻状态特征向量;
第四步,将状态特征向量、总奖励值、决策结果和下一时刻状态特征向量作为决策样本存入SAC算法的经验池;
第五步,判断经验池是否已满,不满将重复第二步、第三步至经验池满;
第六步,从经验池中采样数据进行SAC算法中的网络参数更新;
第七步,重复上述步骤至智能体学会正确的驾驶策略。
根据本发明的一个实施例,对车辆的状态空间采用预处理网络进行预处理,包括:分别通过批标准化层和线性层对状态空间的各状态量进行批归一化处理;分别通过自注意力机制模块获取每个状态量自身元素之间的权重关系;分别通过循环门控单元获取各输入时间依赖关系;将处理后的各状态量叠加后通过自注意力机制模块输出车辆的状态特征向量。
具体而言,针对自动驾驶任务,尤其是交通参与者众多,交通行为不明显的场景,当前某个时刻的单帧状态空间信息可能无法充分表达环境语义,需要结合历史状态空间信息表达周围交通参与者的意图和运动状态,除此之外,状态空间中的各交通参与者信息的重要程度也不尽相同。可见状态空间中的信息不仅在时间上存在一定的依赖关系,而且其彼此之间存在一定的相关性。如果直接简单地将他们拼接在一起作为智能体的输入,那么智能体很难从这些输入中获取所需的特征信息,因此设计了预处理网络。
具体地,整个预处理网络结构如图2所示,图中S代表状态空间,BN代表标准化层,L代表线性层,SAM代表自注意力机制模块,GRU代表循环门控单元。首先通过BN层和线性层对状态空间里的各状态量进行批归一化处理,来缓解输入信息分布不稳定以及训练中的梯度消失和梯度爆炸问题,帮助网络快速收敛;然后通过SAM,来获取每个状态量自身元素之间的权重关系,缓解不同场景下交通参与者重要程度不同的问题;接着通过GRU模块,获取各输入上下文之间的时间依赖关系,缓解单帧状态空间信息可能无法充分表达环境语义的问题;最后将处理后的各状态量堆叠在一起再次通过SAM模块将各状态量彼此之间的相互作用考虑在内,从而得到更加综合的全局表示,便于后续的决策规划智能体学习。这种特征预处理做法可以提高模型的表达能力,更好地捕捉状态量之间的关系,帮助决策规划智能体更好地理解复杂动态的自动驾驶场景,提高决策规划智能体对交通场景的理解能力,并加快学习速度,从而提高智能体的性能。
综上,本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法,可以达到如下有益效果:
(1)本发明将决策、规划、控制三大模块协同考虑,对轨迹规划和运动控制效果设置了评价函数,并设置了反馈奖励函数,使得在决策过程中能够更好地融合规划和控制模块的信息,方便后续模块顺利执行决策结果。
(2)本发明将自动驾驶车辆决策过程视为马尔可夫决策过程(MDP),结合SAC算法,设计一种决策规划控制协同智能体,并添加了预处理网络,大大增加了决策方法的学习速度,降低了训练时长。
(3)本发明充分考虑了轨迹规划和横纵向联合控制对于车辆行驶条件的约束,使得决策结果在物理意义上符合车辆能达到的客观条件,增加了决策结果的合理性。
综上所述,根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法,首先对车辆的状态空间采用预处理网络进行预处理,得到车辆的状态特征向量,然后基于SAC算法,根据状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果,并根据决策结果和行驶约束条件生成规划结果,最后根据规划结果和车辆约束条件确定控制结果,并基于控制结果对车辆进行控制。由此,该方法通过预处理网络对车辆的状态空间进行预处理,能够增强智能体对交通场景的理解能力,提高智能体学习速度;给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划控制的信息协同,使得智能体在做决策时可以充分考虑后续规划过程中的轨迹信息以及规划控制过程中的车辆行驶条件约束,避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
对应上述实施例,本发明还提出了一种基于SAC和预处理网络的自动驾驶决策规划协同系统。
图4为根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同系统的方框示意图。
如图4所示,本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同系统100,可包括:预处理模块110、决策模块120、规划模块130和控制模块140。
预处理模块110用于对车辆的状态空间采用预处理网络进行预处理,得到车辆的状态特征向量。决策模块120用于基于SAC算法,根据状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果。规划模块130用于根据决策结果和行驶约束条件生成规划结果。控制模块140用于根据规划结果和车辆约束条件确定控制结果,并基于控制结果对车辆进行控制。
根据本发明的一个实施例,决策模块120获取上一时刻奖励函数输出的总奖励值,具体用于,基于上一时刻规划结果确定规划反馈奖励,其中,规划反馈奖励包括s-l曲线评价值、s-t曲线评价值和风险评价值;基于上一时刻控制结果确定控制反馈奖励和基础奖励,其中,控制反馈奖励包括控制效果评价值;根据基础奖励及其对应的权重系数、规划反馈奖励对应的权重系数和控制反馈奖励及其对应的权重系数,确定上一时刻奖励函数输出的总奖励值。
根据本发明的一个实施例,SAC算法的状态空间用下述表达式表达:
S=[R,G,P,V]
其中,R表示道路结构信息,包括道路宽度、车道边界、道路中心线、速度限制以及路口信息,G表示全局路径信息,P表示预测轨迹信息,包括自车和周围车辆的预测轨迹信息,V表示车辆状态,包括自车和周围车辆的速度、加速度、航向角以及位置信息;根据状态空间中的信息,从动作空间中输出决策结果。
根据本发明的一个实施例,行驶约束条件包括:
bd1≤l≤bd2
vmin≤vp≤vmax
at≤μg
其中,bd1表示道路的上边界,l表示规划结果中的横向位置,bd2表示道路的下边界,vmin表示车辆的最低车速,vp表示规划结果中的车速,vmax表示车辆的最高车速,ρ表示路径曲率,Rmin表示车辆的最小转弯半径,at表示规划结果中的总加速度,μ表示路面附着系数,g表示重力加速度。
根据本发明的一个实施例,车辆约束条件包括:
δmin≤δ≤δmax
其中,δmin表示最小转向轮转角,δ表示车辆的转向轮转角δmax表示最大转向轮转角,表示最小转向轮转角角速度,车辆的转向轮转角角速度,表示最大转向轮转角角速度。
根据本发明的一个实施例,决策模块120还用于,将状态特征向量、总奖励值、决策结果和下一时刻状态特征向量作为决策样本存入SAC算法的经验池,以便对SAC算法中的网络参数进行更新。
根据本发明的一个实施例,预处理模块110对车辆的状态空间采用预处理网络进行预处理,具体用于,分别通过批标准化层和线性层对状态空间的各状态量进行批归一化处理;分别通过自注意力机制模块获取每个状态量自身元素之间的权重关系;分别通过循环门控单元获取各输入时间依赖关系;将处理后的各状态量叠加后通过自注意力机制模块输出车辆的状态特征向量。
需要说明的是,本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同系统中未披露的细节,请参照本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同方法中所披露的细节,具体这里不再赘述。
根据本发明实施例的基于SAC和预处理网络的自动驾驶决策规划协同系统,预处理模块对车辆的状态空间采用预处理网络进行预处理,得到车辆的状态特征向量;决策模块基于SAC算法,根据状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果;规划模块根据决策结果和行驶约束条件生成规划结果;控制模块根据规划结果和车辆约束条件确定控制结果,并基于控制结果对车辆进行控制。由此,该装置通过预处理网络对车辆的状态空间进行预处理,能够增强智能体对交通场景的理解能力,提高智能体学习速度;给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划控制的信息协同,使得智能体在做决策时可以充分考虑后续规划过程中的轨迹信息以及规划控制过程中的车辆行驶条件约束,避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
对应上述实施例,本发明还提出了一种计算机可读存储介质。
本发明实施例的计算机可读存储介质,其上存储有基于SAC和预处理网络的自动驾驶决策规划协同程序,该基于SAC和预处理网络的自动驾驶决策规划协同程序被处理器执行时实现上述的基于SAC和预处理网络的自动驾驶决策规划协同方法。
根据本发明实施例的计算机可读存储介质,通过执行上述的基于SAC和预处理网络的自动驾驶决策规划协同方法,能够增强智能体对交通场景的理解能力,提高智能体学习速度并能够避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
对应上述实施例,本发明还提出了一种车辆。
图5为根据本发明实施例的车辆的方框示意图。
如图5所示,本发明实施例的车辆200,包括存储器210、处理器220及存储在存储器210上并可在处理器220上运行的基于SAC和预处理网络的自动驾驶决策规划协同程序,处理器220执行基于SAC和预处理网络的自动驾驶决策规划协同程序时,实现上述的基于SAC和预处理网络的自动驾驶决策规划协同方法。
根据本发明实施例的车辆,通过执行上述的基于SAC和预处理网络的自动驾驶决策规划协同方法,能够增强智能体对交通场景的理解能力,提高智能体学习速度并能够避免决策模块做出规划、控制模块难以执行的决策结果,提高决策的安全性与合理性,从而解决了基于深度强化学习的决策方法学习速度慢、训练时间长以及决策不合理的问题。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于SAC和预处理网络的自动驾驶决策规划协同方法,其特征在于,所述方法包括:
对车辆的状态空间采用预处理网络进行预处理,得到所述车辆的状态特征向量;
基于SAC算法,根据所述状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果;
根据所述决策结果和行驶约束条件生成规划结果;
根据所述规划结果和车辆约束条件确定控制结果,并基于所述控制结果对所述车辆进行控制。
2.根据权利要求1所述的基于SAC和预处理网络的自动驾驶决策规划协同方法,其特征在于,获取上一时刻奖励函数输出的总奖励值,包括:
基于上一时刻所述规划结果确定规划反馈奖励,其中,所述规划反馈奖励包括s-l曲线评价值、s-t曲线评价值和风险评价值;
基于上一时刻所述控制结果确定控制反馈奖励和基础奖励,其中,所述控制反馈奖励包括控制效果评价值;
根据所述基础奖励及其对应的权重系数、所述规划反馈奖励对应的权重系数和所述控制反馈奖励及其对应的权重系数,确定所述上一时刻奖励函数输出的总奖励值。
3.根据权利要求1所述的基于SAC和预处理网络的自动驾驶决策规划协同方法,其特征在于,所述SAC算法的状态空间用下述表达式表达:
S=[R,G,P,V]
其中,R表示道路结构信息,包括道路宽度、车道边界、道路中心线、速度限制以及路口信息,G表示全局路径信息,P表示预测轨迹信息,包括自车和周围车辆的预测轨迹信息,V表示车辆状态,包括自车和周围车辆的速度、加速度、航向角以及位置信息;
根据所述状态空间中的信息,从动作空间中输出所述决策结果。
4.根据权利要求1所述的基于SAC和预处理网络的自动驾驶决策规划协同方法,其特征在于,所述行驶约束条件包括:
bd1≤l≤bd2
vmin≤vp≤vmax
at≤μg
其中,bd1表示道路的上边界,l表示所述规划结果中的横向位置,bd2表示道路的下边界,vmin表示车辆的最低车速,vp表示所述规划结果中的车速,vmax表示车辆的最高车速,ρ表示路径曲率,Rmin表示车辆的最小转弯半径,at表示所述规划结果中的总加速度,μ表示路面附着系数,g表示重力加速度。
5.根据权利要求1所述的基于SAC和预处理网络的自动驾驶决策规划协同方法,其特征在于,所述车辆约束条件包括:
δ≤0≤
其中,δmin表示最小转向轮转角,δ表示所述车辆的转向轮转角δmax表示最大转向轮转角,表示最小转向轮转角角速度,所述车辆的转向轮转角角速度,表示最大转向轮转角角速度。
6.根据权利要求1所述的基于SAC和预处理网络的自动驾驶决策规划协同方法,其特征在于,所述方法还包括:
将所述状态特征向量、所述总奖励值、所述决策结果和下一时刻所述状态特征向量作为决策样本存入所述SAC算法的经验池,以便对所述SAC算法中的网络参数进行更新。
7.根据权利要求1所述的基于SAC和预处理网络的自动驾驶决策规划协同方法,其特征在于,对车辆的状态空间采用预处理网络进行预处理,包括:
分别通过批标准化层和线性层对所述状态空间的各状态量进行批归一化处理;
分别通过自注意力机制模块获取每个状态量自身元素之间的权重关系;
分别通过循环门控单元获取各输入时间依赖关系;
将处理后的各状态量叠加后通过所述自注意力机制模块输出所述车辆的状态特征向量。
8.一种基于SAC和预处理网络的自动驾驶决策规划协同系统,其特征在于,包括:
预处理模块,用于对车辆的状态空间采用预处理网络进行预处理,得到所述车辆的状态特征向量;
决策模块,用于基于SAC算法,根据所述状态特征向量和上一时刻奖励函数输出的总奖励值,输出决策结果;
规划模块,用于根据所述决策结果和行驶约束条件生成规划结果;
控制模块,用于根据所述规划结果和车辆约束条件确定控制结果,并基于所述控制结果对所述车辆进行控制。
9.一种计算机可读存储介质,其特征在于,其上存储有基于SAC和预处理网络的自动驾驶决策规划协同程序,该基于SAC和预处理网络的自动驾驶决策规划协同程序被处理器执行时实现根据权利要求1-7中任一项所述的基于SAC和预处理网络的自动驾驶决策规划协同方法。
10.一种车辆,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的基于SAC和预处理网络的自动驾驶决策规划协同程序,所述处理器执行所述基于SAC和预处理网络的自动驾驶决策规划协同程序时,实现根据权利要求1-7中任一项所述的基于SAC和预处理网络的自动驾驶决策规划协同方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410741118.3A CN118770279A (zh) | 2024-06-07 | 2024-06-07 | 基于sac和预处理网络的自动驾驶决策规划协同方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410741118.3A CN118770279A (zh) | 2024-06-07 | 2024-06-07 | 基于sac和预处理网络的自动驾驶决策规划协同方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118770279A true CN118770279A (zh) | 2024-10-15 |
Family
ID=92994492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410741118.3A Pending CN118770279A (zh) | 2024-06-07 | 2024-06-07 | 基于sac和预处理网络的自动驾驶决策规划协同方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118770279A (zh) |
-
2024
- 2024-06-07 CN CN202410741118.3A patent/CN118770279A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021238303A1 (zh) | 运动规划的方法与装置 | |
CN110297494B (zh) | 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统 | |
Wang et al. | Continuous control for automated lane change behavior based on deep deterministic policy gradient algorithm | |
CN111507501B (zh) | 通过强化学习来执行个性化路径规划的方法及装置 | |
CN110406530B (zh) | 一种自动驾驶方法、装置、设备和车辆 | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
CN112668235A (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Li et al. | Reinforcement learning and deep learning based lateral control for autonomous driving | |
CN111483468A (zh) | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 | |
JP4269214B2 (ja) | 信号処理装置 | |
CN112232490A (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
CN113665593B (zh) | 一种车辆智能驾驶纵向控制方法、系统及存储介质 | |
US20210213977A1 (en) | Nearby Driver Intent Determining Autonomous Driving System | |
US20210341886A1 (en) | System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
Liessner et al. | Safe deep reinforcement learning hybrid electric vehicle energy management | |
CN117270527A (zh) | 一种面向自动驾驶赛车的极限驾驶规划控制方法 | |
CN116639124A (zh) | 一种基于双层深度强化学习的自动驾驶车辆换道方法 | |
CN113928321B (zh) | 一种基于端到端的深度强化学习换道决策方法和装置 | |
CN113625753B (zh) | 一种由专家规则引导神经网络学习无人机机动飞行的方法 | |
CN118770279A (zh) | 基于sac和预处理网络的自动驾驶决策规划协同方法及系统 | |
Wang et al. | An end-to-end deep reinforcement learning model based on proximal policy optimization algorithm for autonomous driving of off-road vehicle | |
CN114355897A (zh) | 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 | |
CN118657190A (zh) | 基于强化学习的自动驾驶车辆交互控制方法 | |
CN116534055A (zh) | 一种基于驾驶员个性化的拟人变道轨迹优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |