CN110857104A

CN110857104A - 车辆动作控制

Info

Publication number: CN110857104A
Application number: CN201910784586.8A
Authority: CN
Inventors: 阿尔潘·库萨利; 弘泰·埃里克·曾
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-08-24
Filing date: 2019-08-23
Publication date: 2020-03-03
Also published as: US10703370B2; DE102019122829A1; US20200062262A1

Abstract

本公开提供了“车辆动作控制”。识别接近移动车辆的一个或多个目标区域。可将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

Description

车辆动作控制

技术领域

本发明涉及被识别为接近移动车辆的一个或多个目标区域。车辆可被操纵至根据强化学习奖励函数选择的目标区域。

背景技术

自主车辆或自动驾驶车辆可将车辆从起点导航至目的地而无需来自人类驾驶员的输入。然而，如果自主车辆仅被编程为从起点移动至目的地，则所述车辆可能将不会尽可能高效地行进。例如，相较于车辆在除了仅从起点导航至目的地之外还能够操纵来优化速度的情况下会出现的状况，与缓慢移动的车辆一起在行车道中行进的车辆可能会更晚到达目的地。

发明内容

一种计算机包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：识别接近移动车辆的一个或多个目标区域；并且将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

所述奖励函数可被开发用于优化车辆速度。

所述奖励函数可包括针对安全风险的处罚。

所述奖励函数可评估第二车辆的相对速度以指定奖励。

所述奖励函数可评估所述目标区域的长度。

所述一个或多个目标区域可以是根据道路上的最大纵向距离指定的。

所述一个或多个目标区域可以是根据至少一个第二车辆的边界指定的。

所述一个或多个目标区域可包括在道路上的多条车道中的目标区域。

所述指令可包括用于在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动的指令。

一种方法包括：识别接近移动车辆的一个或多个目标区域；以及将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

所述奖励函数可被开发用于优化车辆速度。

所述奖励函数可包括针对安全风险的处罚。

所述奖励函数可评估第二车辆的相对速度以指定奖励。

所述奖励函数可评估所述目标区域的长度。

所述方法可包括：在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动。

一种车辆包括：传感器，所述传感器提供关于所述车辆周围的区域的数据；以及计算机，所述计算机包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：基于来自所述传感器的数据，识别接近移动车辆的一个或多个目标区域；并且将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

附图说明

图1示出用于控制车辆的动作的示例性系统。

图2示出在其中可实践图1的系统的示例性交通场景。

图3示出用于开发强化学习训练的奖励函数的示例性过程。

图4示出用于根据奖励函数操作车辆的示例性过程。

具体实施方式

一种计算机包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：识别接近移动车辆的一个或多个目标区域；并且将所述车辆操纵至根据强化学习奖励函数选择的目标区域。所述奖励函数可被开发用于优化车辆速度。所述奖励函数可包括针对安全风险的处罚。所述奖励函数可评估第二车辆的相对速度以指定奖励。所述奖励函数可评估目标区域的长度。所述一个或多个目标区域可以是根据道路上的最大纵向距离指定的。所述一个或多个目标区域可以是根据至少一个第二车辆的边界指定的。所述一个或多个目标区域包括在道路上的多条车道中的目标区域。所述指令可还包括用于在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动的指令。

一种方法包括：识别接近移动车辆的一个或多个目标区域；以及将所述车辆操纵至根据强化学习奖励函数选择的目标区域。所述奖励函数可被开发用于优化车辆速度。所述奖励函数可包括针对安全风险的处罚。所述奖励函数可评估第二车辆的相对速度以指定奖励。所述奖励函数可评估目标区域的长度。所述一个或多个目标区域可以是根据道路上的最大纵向距离指定的。所述一个或多个目标区域可以是根据至少一个第二车辆的边界指定的。所述一个或多个目标区域包括在道路上的多条车道中的目标区域。所述方法可还包括：在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动。

一种车辆包括：传感器，所述传感器提供关于所述车辆周围的区域的数据；以及

计算机，所述计算机包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：识别接近移动车辆的一个或多个目标区域；并且将所述车辆操纵至根据强化学习奖励函数选择的目标区域。所述一个或多个目标区域包括在道路上的多条车道中的目标区域。

图1示出用于控制车辆101的动作的示例性系统100。参考图1和图2，自我车辆或主车辆101中的计算机105可被编程用于选择车辆101周围的多个目标区域205中的一个区域作为车辆101的导航的目标或目的地。目标区域205是车辆101周围的离散空间，所述离散空间由道路210上的主车辆101与非自我车辆102之间(当非自我车辆102与自我车辆101处于道路210的同一车道中时)的或第一非自我车辆102与第二非自我车辆102之间(即，处于当前未被自我车辆101占据的车道中)的纵向间隙或空间限定。针对自我车辆101的导航对目标区域205的选择可通过利用奖励函数训练以优化对目标区域205的选择的深度强化学习程序来确定。训练深度强化学习程序以优化对离散目标区域205的选择是有利的，因为将对车辆101路径多项式的可能更新缩小到指定目标区域205可减少车辆计算机105中的计算开销，并且因为强化学习在针对离散动作空间(诸如离散目标区域205)进行训练时通常更为稳健且可靠。

车辆101是具有两个或更多个车轮的动力陆地车辆。当计算机105操作车辆101时，车辆101是“自主”车辆101。出于本公开的目的，术语“自主车辆”用来指代以完全自主模式操作的车辆101。完全自主模式被限定为以下模式：其中车辆101的推进(通常经由包括电动马达和/或内燃发动机的动力传动系统)、制动和转向中的每一者都由计算机105控制。半自主模式是以下模式：其中车辆101的推进(通常经由包括电动马达和/或内燃发动机的动力传动系统)、制动和转向中的至少一者至少部分地由计算机105而不是由人类驾驶员控制。在非自主模式(即，手动模式)下，车辆101的推进、制动和转向由人类驾驶员控制。

计算机105通常被编程用于在车辆101的网络上进行通信，所述网络例如包括常规的车辆101的通信总线。经由网络、总线和/或其他有线或无线机构(例如，车辆101中的有线或无线局域网)，计算机105可向车辆101中的各种装置发送消息和/或从所述各种装置接收消息，所述各种装置例如控制器、致动器、传感器等，包括传感器110。可替代地或另外地，在计算机105实际上包括多个装置的情况下，车辆网络可用于在本公开中表示为计算机105的装置之间的通信。另外，计算机105可被编程用于与网络125通信，如下所述，网络125可包括各种有线和/或无线联网技术，例如蜂窝、

低功耗(BLE)、有线和/或无线分组网络等。

数据存储区106可以是任何类型的，例如硬盘驱动器、固态驱动器、服务器或任何易失性或非易失性介质。数据存储区106可存储从传感器110发送的所收集数据115。

传感器110可包括多种装置。例如，车辆101中的各种控制器可充当传感器110以经由车辆101的网络或总线提供数据115，例如与车辆速度、加速度、位置、子系统和/或部件状态等有关的数据115。此外，其他传感器110可包括相机、运动检测器等，即，用于提供数据115以用于评估部件的位置、评估道路的坡度等的传感器110。传感器110还可包括(但不限于)短程雷达、远程雷达、激光雷达(LIDAR)和/或超声换能器。

所收集数据115可包括在车辆101中收集的多种数据。以上提供了所收集数据115的示例，并且此外，数据115通常使用一个或多个传感器110来收集，并且另外可包括在计算机105中和/或在服务器130处根据数据115计算出的数据。总体上，所收集数据115可包括可由传感器110采集的任何数据和/或根据此类数据计算出的任何数据。诸如以下表1中所示出的所收集数据115通常描述车辆101的操作。即，所收集数据115通常描述了车辆101和/或其部件120在车辆101在道路上移动、具有导通(ON)的点火状态等时的特性或属性。

车辆101可包括多个车辆部件120。在这种背景下，每个车辆部件120包括适于执行机械功能或操作(诸如移动车辆101、使车辆101减速或停止、使车辆101转向等)的一个或多个硬件部件。部件120的非限制性示例包括(包括例如内燃发动机和/或电动马达等的)推进部件、变速器部件、(例如可包括方向盘、转向齿条等中的一者或多者的)转向部件、制动部件(如下所述)、停车辅助部件、自适应巡航控制部件、自适应转向部件、可移动座椅等。

系统100还可包括连接到服务器130和数据存储区135的网络125。计算机105还可被编程为经由网络125与诸如服务器130的一个或多个远程站点进行通信，此类远程站点可能地包括数据存储区135。网络125表示车辆计算机105可借助来与远程服务器130通信的一个或多个机构。因此，网络125可以是各种有线或无线通信机构中的一种或多种，包括有线(例如，电缆和光纤)和/或无线(例如，蜂窝、无线、卫星、微波和射频)通信机构与任何期望的网络拓扑结构(或当使用多个通信机构时，多个网络拓扑结构)的任何期望的组合。示例性通信网络包括提供数据通信服务的无线通信网络(例如，使用

低功耗(BLE)、IEEE 802.11、车辆对车辆(V2V)(诸如专用短程通信(DSRC))等、局域网(LAN)和/或广域网(WAN)(包括互联网)。

图2示出包括在道路210上的自我车辆101和非自我车辆102的交通场景200。各种目标区域或间隙205被限定在车辆101与车辆102之间，如上所解释的。目标区域205中的每一者接近车辆101。“接近”在这种背景下意指目标区域205的至少一部分在与车辆101的行进车道相同的车道或相邻的车道中、并且在车辆101的最大指定纵向距离(即沿着道路210的行进方向的距离)内。最大指定纵向距离可以是下文所讨论的纵向距离D的最大指定值的倍数(例如2、2.5、3等)。目标区域被单独编号为205-1至205-9，并且在本文中统称为目标区域205。目标区域205-2被表示为205-2a和205-2b，因为相同的物理区域205-2可在逻辑上(并且出于本文所述的增强学习的目的)作为两个不同区域205-2a、205-2b，这取决于自我车辆101是通过向右绕过前方车辆102到达区域205-2还是通过向左绕过前方车辆102到达区域205-2的。所示交通场景200包括在同一方向上具有三条行车道的道路210，其中自我车辆101在中间车道中，即在其当前行车道的正左侧和正右侧具有行车道。

每个目标区域205可通过长度(即距离D，即沿道路210上的行进方向在区域205的前(front/leading)边缘或侧面与后(rear/trailing)边缘或侧面之间的距离)限定。在图2中，为了说明的方便和清楚，距离D相对于区域205-8而不是针对其他区域205示出。可根据从例如第一车辆101、102的前保险杠至例如第二车辆101、102的后保险杠的距离(例如，根据由车辆101、102的相应前保险杠和后保险杠上的点得出的线长)来确定距离D。因此，区域205的侧面或边缘可由与车辆101、102上的最前点或最后点相切的线(或通过车辆101、102上的多条最前或最后的线)限定。车辆传感器110可根据常规技术提供数据115(例如激光雷达、雷达、超声波、图像等)，以确定车辆102的相对位置，并且因此确定相对距离D。

通过在自我车辆101的指定纵向距离(即，沿着道路210的行进距离)内的每条相应车道中识别非自我车辆102，可通常针对三条或更多条可能的感兴趣车道中的每一者限定目标区域205。然而，如果在车道中存在零辆车辆102或仅一辆车辆102，则相应地，将限定仅一个或两个目标区域205。换言之，距离D可具有最大指定值，即，如果车辆102之间(或车辆101、102之间)的距离大于D的最大指定值，则不能在车辆102之间(或车辆101、102之间)指定目标区域205。那么每条车道中的两辆纵向最近的车辆被选择来限定相应的目标区域205。例如，如果图2中的自主车辆101的左侧的车道中不存在车辆102(即，没有车辆102位于指定纵向距离(即,D的最大指定值)内)，则将针对该车道限定仅一个目标区域205。D的最大指定值可根据车辆速度变化(例如，增加)和/或可根据车辆105的传感器的最大扫描或探测范围确定，例如，D可以是由车辆105和/或传感器110的制造商确定的最大距离，举例来说。在最简单的示例中，自我车辆101可正在具有一条车道的路210上沿一个方向行进，其中另一车辆102处于指定距离内，在所述情况下，车辆101可从两个可能的目标区域205进行选择。

应注意，图2因此表示了最复杂的交通场景200，并且可能存在更简单的布置。例如，道路210可在自我车辆101的行进方向上提供一条或两条车道。此外，即使道路210在同一方向上包括三条或更多条行车道，自我车辆101也可在边缘车道(即在右侧或左侧具有路肩或路边的车道)中。如果自我车辆101在道路210的边缘车道中，则目标区域205可仅存在于自我车辆101的当前车道中以及自我车辆101的当前车道的左侧或右侧的车道中。因此，可能存在比图2所示更少的非自我车辆102。同样，已经示出了最复杂的可能场景(包括八个可能的目标区域205)。

深度学习确定

强化学习是代理利用状态S_t和动作A_t以及针对每一步t的标量奖励R进行的序贯决策过程。对于状态-动作对(S_t,A_t)，强化学习对所得状态S_t+1(即，由根据状态S_t(或当在所述状态下时)采取的动作A_t导致的状态)应用奖励R。策略π确定动作A_t以从状态S_t变动至状态S_t+1。深度强化学习将强化学习应用在深度神经网络(DNN)中，即DNN提供代理以确定针对状态-动作对的奖励。

再次参见图2，每个状态S_t可在本示例中通过集合来描述，所述集合针对目标区域205指定前车辆102与后车辆102之间的距离D(或者，在图2中的区域205-1的情况下，车辆101与前车辆102之间的距离)，并且针对目标区域205指定前车辆102与后车辆102(或车辆101、102)的相对速度。在本公开中，采用了约定，由此如果车辆101、102正在一起移动得更靠近(即，相应区域205的距离D正在变小)，则相对速度是负的，并且如果车辆101、102正在彼此进一步移动远离(即，相应区域205的距离D正在变大)，则相对速度是正的。

继续参看此示例，自我车辆101的初始状态S₀可包括目标区域205-1的距离D、车辆101相对于其自身的相对速度(即，零速度或无相对速度)以及紧接在前的车辆102(即，限定目标区域205-1的前(front/leading)边缘的车辆102)的相对速度。

每个动作A_t指定将自我车辆101移动到目标区域205或目标区域205中，即，移动到多个目标区域205-1、205-2、……、205-n(例如，在图2中，n＝9)中的相应的一者，即，车辆101在时间t+1处可移动至的区域205。在状态S_t+1中，车辆位置将为目标区域205-1、205-2、……、205-n中的一者，并且所述状态将包括针对相对于车辆101限定的新的目标区域205-1、205-2、……、205-n的集合的相对速度和距离D。因此，对于上述初始状态S₀，可能的动作A₀为车辆101至相应目标区域205-1、205-2、……、205-9的相应移动。

可根据一个或多个标准确定奖励R。在示例中，奖励R可以是用于优化(例如最大化)自我车辆101的速度的函数。另外的标准可包括最大化车辆101的乘员舒适度。例如，乘员舒适度可通过阻止车道变换来优化，因为一些乘员可能觉得车道变换不舒适。因此，奖励函数可包括针对不包括车道变换的动作的强化和/或针对包括车道变换的动作的处罚。可能的示例性奖励函数可以是：

R＝w₁Δv+w₂T_区域–w₃*P，

其中w₁、w₂、w₃是权重，例如分别是0.01、0.01和.1；是当前速度与由采取动作A会导致的速度(可能受制于法定速度限制)之间的差；T_区域是车辆105在未在模拟事件(如下文所限定的)中发生碰撞的情况下操作并且阻止车道变换的时间量(有时称为“活跃时间”)，P是在由动作A导致车道变换的情况下评估的处罚。

可替代地或另外地，在另外的示例中，用于优化速度的奖励函数还可包括用于优化安全性的因子，例如在状态S_t导致安全风险(例如，车辆101遭遇碰撞、超过标示的速度限制和/或小于距车辆102的安全距离)的情况下的处罚(例如，表等类似物可指定车辆101距车辆102的安全纵向分隔距离，并且如果状态S_t导致比表中指定的分隔距离小的分隔距离，则可包括所述处罚。

图3示出用于开发用于为车辆101选择目标区域205的奖励函数的强化学习训练的示例性过程300。过程300可由通用计算机来执行，所述通用计算机被编程为模拟车辆101的操作并且执行如本文所述的强化学习。例如，可使用北卡罗来纳州卡里的英佩游戏有限公司(Epic Games Inc.)的虚幻引擎(Unreal Engine)、来自德国柏林的交通系统研究所(Institute of Transportation Systems)的城市交通模拟(Simulation of UrbanMObility(SUMO))程序包或任何其他合适的模拟软件。

过程300在框305中开始，在框305中初始化模拟。模拟可包括交通场景，诸如图2中示出的交通场景200。模拟将车辆101放置在具有一个或多个其他车辆102的交通场景中。如上所解释的，交通场景可在车辆101的行进方向上包括一条或多条车道；模拟可同样有所变化以包括各种数量的行车道和/或各种数量的其他车辆102。另外，模拟可指定车辆101的各种初始行进速度。通常，用来选择目标区域205的奖励函数的强化学习训练不在低于最小车辆101速度(例如，每小时20公里)时执行。

初始化模拟包括初始化指定用于选择下一状态S_t+1的规则的策略π。初始化模拟还包括初始化事件。事件是针对其运行模拟的指定数量的时间步，在所述指定数量的时间步之后更新策略π。此外，初始化模拟可包括指定在模拟中运行的多个事件、以及将事件计数器设定为零。

在本示例中，根据ε贪心算法，随机初始化(并且随后如以下所讨论地更新)策略π，所述ε贪心算法是一种探索开发技术形式，其作用来在已访问的状态中最大化奖励，同时继续搜索未知状态。因此，如果选择的随机值小于ε，则根据ε贪心算法的策略π选择随机动作，以及否则，选择在由动作导致的状态下给予最大奖励的动作。ε的值从接近1的值开始并且在事件期间减小以接近或达到最小值。

接下来，在框310中，诸如上述的计算机中的强化学习编程确定事件计数器是否达到指定最大数量的事件。如果达到，则过程300结束。否则，过程300前进至框315。

在框315中，初始化当前事件的时间步计数器，例如将其设定为零。

然后，在框320中，强化学习编程确定时间步计数器是否达到指定的最大时间步值。如果达到，则过程300前进至框340；否则，过程300前进至框325。

在框325中，强化学习编程应用在框305中初始化的策略π以选择动作A_t来从当前状态S_t转变至下一状态S_t+1。如以上所解释的，可能的动作A_t可包括用来根据相应的可用目标区域205的距离D和车辆101、102的相对速度(即，根据相应的可能的下一状态S_t+1)来移动车辆101。

接下来，在框330中，确定由在框325中应用策略导致的奖励。为了确定所述奖励，确定针对下一时间步的车辆105的轨迹Traj_t+1。例如，模拟器可模拟车辆控制器(例如，车辆105的虚拟驾驶员或用来操作车辆105的编程)的操作，所述车辆控制器在为车辆105选择目标区域205之后确定轨迹Traj_t+1，所述轨迹包括车辆105在下一状态S_t+1下(即，当车辆105正占据在框310中选择的目标区域205时)的航向和速度(velocity/speed)。

由状态S_t+1导致的奖励函数R可随后(即，与在状态S_t下的轨迹Traj_t相比，根据在选择的目标区域205中的Traj_t+1)进行计算。例如，如上所解释的，奖励函数可被设计来优化车辆101的速度。因此，奖励函数可与车辆101的速度的增加成比例地指定更高奖励，或者如果车辆101的速度在状态S_t+1下降低，可指定负奖励。此外，奖励函数可针对在状态S_t+1下的各种值施行处罚。例如，在当前车辆101的速度下，如果状态S_t+1包括低于预定阈值的距离D，从而导致车辆101的碰撞或不可接受的风险，则奖励可为零或负的。此外，针对未来进一步的时间步，即随着时间步t增加，奖励可打折扣。即，强化学习编程可被设计来更大程度地强调针对特定动作的奖励，与收益有可能更为长期的动作相反，所述动作实现短期收益或快速收益，即，更快地优化车辆101的速度。

接下来，在框335中，使当前时间步递增，并且过程300返回至框320。

在框340中，执行编程以更新策略π。例如，可根据称为REINFORCE算法的算法执行本文的编程。作为示例，REINFORCE算法可如下更新策略参数(这里是，指定区域205的状态S_t(包括距离D和相对速度)以及用来选择区域205的动作A_t)。首先，针对在以上循环(框320至325)中执行的n个时间步，计算奖励总和RS：

随后针对在连续时间步t中由策略π获得的奖励R确定梯度G。随后根据下式更新策略参数矢量θ(即，包括状态-动作对)：

log G*RS。

更新的策略π因此被设计来允许奖励R在后续模拟运行(例如框310至330的执行)中更有效地优化。

图4示出用于根据奖励函数操作车辆的示例性过程400。过程400可由在车辆101的计算机105中的编程来执行，所述计算机105已被编程为使用诸如过程300中开发的奖励函数来选择目标区域205并将车辆101移动至目标区域205。

过程400在框405中开始，其中计算机105初始化过程400。例如，计算机105可被编程为在确定车辆101正在以预定速度(例如每小时20公里)或高于预定速度的速度行进时初始化或发起过程400。这样的原因在于，在较低速度下，车辆101、102不可能以特定速度移动，所述特定速度一致得足以保持区域205以供选择。

接下来，在框410中，计算机105识别并选择目标区域205。例如，可基于传感器110的数据115识别目标区域205，如上所解释的。车辆101将被移动到的目标区域205可随后根据诸如根据过程300开发的奖励函数进行选择。

接下来，在框415中，计算机105致动车辆101的部件120(例如，进行推进、制动、转向等)以将车辆101移动至选择的目标区域205。

接下来，在框420中，计算装置105确定过程400是否继续。例如，车辆101速度可下降低于如上所述的预定阈值，车辆101可停下或熄火。如果过程400不继续，则过程400结束。否则，过程400返回框410。

总结

如本文所用，修饰形容词的副词“基本上”意味着形状、结构、测量结果、值、计算结果等可能因为材料、机加工、制造、数据收集器测量、计算、处理时间、通信时间等方面的缺陷而偏离精确描述的几何形状、距离、测量结果、值、计算结果等。

计算机105通常各自包括可由一个或多个计算装置(诸如上面识别的那些)执行并且用于实行上文所述的过程的框或步骤的指令。计算机可执行指令可从使用多种编程语言和/或技术创建的计算机程序编译或解释，所述编程语言和/或技术单独地或组合地包括但不限于Java^TM、C、C++、Visual Basic、Java Script、Perl、HTML等。总体上，处理器(例如，微处理器)从例如存储器、计算机可读介质等接收指令，并且执行这些指令，从而执行一个或多个过程，包括本文所述的一个或多个过程。可使用多种计算机可读介质来存储和传输此类指令和其他数据。计算机105中的文件总体上是存储在计算机可读介质(诸如存储介质、随机存取存储器等)上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，指令)的任何介质。这种介质可采用许多形式，包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘和其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁性介质、只读光盘驱动器(CD-ROM)、数字化视频光盘(DVD)、任何其他光学介质、穿孔卡片、纸带、任何其他具有孔图案的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、电可编程只读存储器(EPROM)、快闪-电可擦除可编程只读存储器(FLASH-EEPROM)、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。

关于本文描述的介质、过程、系统、方法等，应当理解，尽管已经将此类过程等的步骤描述为根据某一有序顺序发生，但是此类过程可以用以与本文所述次序不同的次序执行的所描述步骤来实践。应当进一步理解，可同时执行某些步骤，可添加其他步骤，或可省略本文所描述的某些步骤。例如，在过程400中，可省略一个或多个步骤，或者可以与所示的不同的次序执行步骤。换句话说，本文对系统和/或过程的描述是出于说明某些实施例的目的而提供的，并且决不应当被解释为限制所公开的主题。

因此，应当理解，包括以上描述和附图以及以下权利要求的本公开意图是说明性的而非限制性的。在阅读以上描述时，除所提供的示例之外的许多实施例和应用对于本领域技术人员将是显而易见的。不应参考以上描述来确定本发明的范围，而应参考随附于此的权利要求连同这些权利要求赋予的等效物的全部范围来确定。预期并且意图本文所讨论的领域中未来将有所发展，并且所公开的系统和方法将并入此类未来的实施例中。总而言之，应当理解，所公开的主题能够进行修改和变化。

除非另外说明或者上下文另有要求，否则修饰名词的冠词“一个”应当理解为意指一个或多个。短语“基于”涵盖部分地或完全地基于。

根据本发明，提供了一种计算机，所述计算机具有处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：识别接近移动车辆的一个或多个目标区域；并且将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

根据一个实施例，所述奖励函数被开发用于优化车辆速度。

根据一个实施例，所述奖励函数包括针对安全风险的处罚。

根据一个实施例，所述奖励函数评估第二车辆的相对速度以指定奖励。

根据一个实施例，所述奖励函数评估所述目标区域的长度。

根据一个实施例，所述一个或多个目标区域是根据道路上的最大纵向距离指定的。

根据一个实施例，所述一个或多个目标区域是根据至少一个第二车辆的边界指定的。

根据一个实施例，所述一个或多个目标区域包括在道路上的多条车道中的目标区域。

根据一个实施例，所述指令还包括用于在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动的指令。

根据本发明，一种方法包括：识别接近移动车辆的一个或多个目标区域；以及将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

根据一个实施例，所述奖励函数被开发用于优化车辆速度。

根据一个实施例，所述奖励函数包括针对安全风险的处罚。

根据一个实施例，所述奖励函数评估所述目标区域的长度。

根据一个实施例，上述发明的进一步特征在于：在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动。

根据本发明，提供了一种车辆，所述车辆具有：传感器，所述传感器提供关于所述车辆周围的区域的数据；以及计算机，所述计算机包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：基于来自所述传感器的数据，识别接近移动车辆的一个或多个目标区域；并且将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

Claims

1.一种计算机，其包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：

识别接近移动车辆的一个或多个目标区域；并且

将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

2.如权利要求1所述的计算机，其中所述奖励函数被开发用于优化车辆速度。

3.如权利要求1所述的计算机，其中所述奖励函数包括针对安全风险的处罚。

4.如权利要求1所述的计算机，其中所述奖励函数评估第二车辆的相对速度以指定奖励。

5.如权利要求1所述的计算机，其中所述奖励函数评估所述目标区域的长度。

6.如权利要求1所述的计算机，其中所述一个或多个目标区域是根据道路上的最大纵向距离指定的。

7.如权利要求1所述的计算机，其中所述一个或多个目标区域是根据至少一个第二车辆的边界指定的。

8.如权利要求1所述的计算机，其中所述一个或多个目标区域包括在道路上的多条车道中的目标区域。

9.如权利要求1所述的计算机，其中所述指令还包括用于在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动的指令。

10.一种方法，其包括：

识别接近移动车辆的一个或多个目标区域；以及

将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

11.如权利要求10所述的方法，其中所述奖励函数被开发用于优化车辆速度。

12.如权利要求10所述的方法，其中所述奖励函数包括针对安全风险的处罚。

13.如权利要求10所述的方法，其还包括：在选择所述目标区域之前确定所述移动车辆正在以高于预定速度阈值的速度移动。

14.一种车辆，其包括：

传感器，所述传感器提供关于所述车辆周围的区域的数据；以及

计算机，所述计算机包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以：

基于来自所述传感器的数据，识别接近移动车辆的一个或多个目标区域；并且

将所述车辆操纵至根据强化学习奖励函数选择的目标区域。

15.如权利要求14所述的车辆，其中所述一个或多个目标区域包括在道路上的多条车道中的目标区域。