CN111338333A

CN111338333A - 用于自动驾驶的系统和方法

Info

Publication number: CN111338333A
Application number: CN201811547279.XA
Authority: CN
Inventors: 罗威
Original assignee: Beijing Voyager Technology Co Ltd
Current assignee: Beijing Voyager Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-06-26
Anticipated expiration: 2038-12-18
Also published as: EP3688540B1; WO2020124437A1; CA3028692C; CN111338333B; SG11201811625UA; TW202024829A; TWI706238B; EP3688540A4; JP2021514882A; EP3688540A1; CA3028692A1; AU2018286585B2; AU2018286585A1

Abstract

本申请涉及一种用于自动驾驶的系统和方法。所述系统可以获取与车辆相关的驾驶信息；确定所述车辆的状态；基于所述驾驶信息和所述车辆的所述状态，通过使用训练的控制模型，确定一个或以上候选控制信号和对应于所述一个或以上候选控制信号的一个或以上评估值；基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择目标控制信号；以及将所述目标控制信号发送至所述车辆的控制组件。

Description

用于自动驾驶的系统和方法

技术领域

本申请一般涉及用于自动驾驶的系统和方法，尤其涉及用于确定自动驾驶中的控制信号的系统和方法。

背景技术

随着微电子技术和机器人技术的发展，自动驾驶的探索现已发展迅速。对于自动驾驶系统来说，基于与自动驾驶系统的车辆相关的驾驶信息(例如，起始位置、定义的目的地、道路状况)确定合适的控制信号(例如，加速器控制信号)是很重要的。通常，自动驾驶系统通过执行一系列操作来确定控制信号，例如，获取驾驶信息，基于驾驶信息确定驾驶动作，基于驾驶动作规划驾驶路径，基于驾驶路径确定控制信号等。然而，如果可以更直接地确定控制信号，则可以显著提高自动驾驶系统的效率。因此，希望提供用于基于与车辆相关的驾驶信息确定控制信号的系统和方法，从而提高自动驾驶系统的性能。

发明内容

本申请的一方面涉及一种用于确定自动驾驶中控制信号的系统。该系统包括获取模块、状态确定模块、候选控制信号确定模块、目标控制信号确定模块及传输模块。所述获取模块用于获取与车辆相关的驾驶信息；所述状态确定模块用于确定所述车辆的状态；所述候选控制信号确定模块用于基于所述驾驶信息和所述车辆的所述状态，通过使用训练的控制模型，确定一个或以上候选控制信号和对应于所述一个或以上候选控制信号的一个或以上评估值；所述目标控制信号确定模块用于基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择目标控制信号；以及所述传输模块用于将所述目标控制信号发送至所述车辆的控制组件。

本申请的另一方面涉及用于自动驾驶的系统。该系统包括至少一个包括一组指令的存储介质；以及至少一个处理器与所述至少一个存储介质通信。当执行该组指令时，所述至少一个所述处理器用于使所述系统：获取与车辆相关的驾驶信息；确定所述车辆的状态；基于所述驾驶信息和所述车辆的所述状态，通过使用训练的控制模型，确定一个或以上候选控制信号和对应于所述一个或以上候选控制信号的一个或以上评估值；基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择目标控制信号；以及将所述目标控制信号发送至所述车辆的控制组件。

在一些实施例中，所述车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和/或地图信息。

在一些实施例中，所述感知信息包括道路信息和/或障碍物信息。

在一些实施例中，所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和/或所述车辆的方向盘角度。

在一些实施例中，所述训练的控制模型由训练过程确定。所述训练过程包括：获取初始控制模型；获取初始样本驾驶信息，所述初始样本驾驶信息包括样本车辆第二预定范围内的初始样本感知信息和所述样本车辆所述第二预定范围内的初始样本地图信息；获取所述样本车辆的初始样本状态；基于所述初始样本驾驶信息、所述样本车辆的所述初始样本状态以及所述初始控制模型，确定初始样本控制信号；基于对应于所述初始样本控制信号的初始奖励值，确定与所述初始控制模型相关的初始样本评估值。其特征在于，所述初始奖励值与与所述初始样本控制信号相关的碰撞条件、与所述初始样本控制信号相关的车道状况或与所述初始样本控制信号有关的停止条件中的至少一个相关；确定所述初始样本评估值是否满足预设条件；以及响应于确定所述初始样本评估值满足所述预设条件，指定所述初始控制模型为所述训练的控制模型。

在一些实施例中，所述训练过程还包括：响应于确定所述初始样本评估值不满足所述预设条件，执行一个或以上迭代以更新所述初始控制模型，直到更新的样本评估值满足所述预设条件，其特征在于，所述一个或以上迭代中的每一个包括：基于先前迭代中的奖励值确定更新的控制模型；获取更新的样本驾驶信息；基于所述先前迭代中的样本控制信号和所述先前迭代中的所述样本车辆的样本状态，估计所述样本车辆的更新的样本状态；基于所述更新的样本驾驶信息、所述样本车辆的所述更新的样本状态以及所述更新的控制模型，确定更新的样本控制信号；基于对应于所述更新的样本控制信号的更新的奖励值和所述先前迭代中的样本评估值，确定与所述更新的控制模型相关的更新的样本评估值；以及确定所述更新的样本评估值是否满足所述预设条件。

在一些实施例中，所述训练的控制模型包括深度确定性策略梯度DDPG网络模型。

在一些实施例中，所述系统进一步根据预定规则，基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择所述目标控制信号。

本申请的又一方面涉及一种用于确定自动驾驶中控制信号的方法。所述方法包括：获取与车辆相关的驾驶信息；确定所述车辆的状态；基于所述驾驶信息和所述车辆的所述状态，通过使用训练的控制模型，确定一个或以上候选控制信号和对应于所述一个或以上候选控制信号的一个或以上评估值；基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择目标控制信号；以及将所述目标控制信号发送至所述车辆的控制组件。

在一些实施例中，所述训练的控制模型由训练过程确定，所述训练过程包括：获取初始控制模型；获取初始样本驾驶信息，所述初始样本驾驶信息包括样本车辆第二预定范围内的初始样本感知信息和所述样本车辆所述第二预定范围内的初始样本地图信息；获取所述样本车辆的初始样本状态；基于所述初始样本驾驶信息、所述样本车辆的所述初始样本状态以及所述初始控制模型，确定初始样本控制信号；基于对应于所述初始样本控制信号的初始奖励值，确定与所述初始控制模型相关的初始样本评估值。其特征在于，所述初始奖励值与与所述初始样本控制信号相关的碰撞条件、与所述初始样本控制信号相关的车道状况或与所述初始样本控制信号有关的停止条件中的至少一个相关；确定所述初始样本评估值是否满足预设条件；以及响应于确定所述初始样本评估值满足所述预设条件，指定所述初始控制模型为所述训练的控制模型。

在一些实施例中，所述训练过程进一步包括：响应于确定所述初始样本评估值不满足所述预设条件，执行一个或以上迭代以更新所述初始控制模型，直到更新的样本评估值满足所述预设条件，其特征在于，所述一个或以上迭代中的每一个包括：基于先前迭代中的奖励值确定更新的控制模型；获取更新的样本驾驶信息；基于所述先前迭代中的样本控制信号和所述先前迭代中的所述样本车辆的样本状态，估计所述样本车辆的更新的样本状态；基于所述更新的样本驾驶信息、所述样本车辆的所述更新的样本状态以及所述更新的控制模型，确定更新的样本控制信号；基于对应于所述更新的样本控制信号的更新的奖励值和所述先前迭代中的样本评估值，确定与所述更新的控制模型相关的更新的样本评估值；以及确定所述更新的样本评估值是否满足所述预设条件。

在一些实施例中，基于所述一个或以上评估值从所述一个或以上候选控制信号中选择所述目标控制信号，进一步包括：根据预定规则，基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择所述目标控制信号。

本申请的又一方面涉及一种被配置为自动驾驶的车辆。所述车辆包括探测组件、规划组件和控制组件。其中所述规划组件被配置为：获取与所述车辆相关的驾驶信息；确定所述车辆的状态；基于所述驾驶信息和所述车辆的所述状态，通过使用训练的控制模型，确定一个或以上候选控制信号和对应于所述一个或以上候选控制信号的一个或以上评估值；基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择目标控制信号；以及将所述目标控制信号发送至所述车辆的控制组件。

在一些实施例中，所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和所述车辆的方向盘角度。

本申请的又一方面涉及一种用于确定自动驾驶中控制信号的装置。所述装置包括至少一个处理器以及至少一个存储介质。所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现上述操作。

本申请的又一方面涉及一个种非暂时计算机可读存储介质。所述存储介质存储有计算机指令，当所述计算机指令被至少一个处理器执行时，实现上述操作。

本申请的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解，本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。

附图说明

本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。这些实施例是非限制性的示例性实施例，在这些实施例中，各图中相同的编号表示相似的结构，其中：

图1是根据本申请的一些实施例所示的示例性自动驾驶系统的示意图；

图2是根据本申请的一些实施例所示的示例性计算设备的示例性硬件和/或软件组件的示意图；

图3是根据本申请的一些实施例所示的示例性处理引擎的框图；

图4是根据本申请的一些实施例所示的用于确定目标控制信号的示例性过程的流程图。

图5是根据本申请的一些实施例所示的用于确定训练的控制模型的示例性过程的流程图。

图6是根据本申请的一些实施例所示的用于确定训练的控制模型的示例性过程的流程图；以及

图7是根据本申请的一些实施例所示的用于训练深度确定性策略梯度(DDPG)网络模型的示例性过程的示意图。

具体实施方式

以下描述是为了使本领域的普通技术人员能够实施和利用本申请，并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员来讲，显然可以对所公开的实施例作出各种改变，并且在不偏离本申请的原则和范围的情况下，本申请中所定义的普遍原则可以适用于其他实施例和应用场景。因此，本申请并不限于所描述的实施例，而应该被给予与权利要求一致的最广泛的范围。

本申请中所使用的术语仅用于描述特定的示例性实施例，并不限制本申请的范围。如本申请使用的单数形式“一”、“一个”及“该”可以同样包括复数形式，除非上下文明确提示例外情形。还应当理解，如在本申请中，术语“包括”、“包含”仅提示存在所述特征、整体、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其他特征、整体、步骤、操作、组件、部件和/或其组合的情况。

根据以下对附图的描述，本申请的这些和其他的特征、特点以及相关结构元件的功能和操作方法，以及部件组合和制造经济性，可以变得更加显而易见，这些附图都构成本申请说明书的一部分。然而，应当理解的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例绘制的。

本申请中使用了流程图用来说明根据本申请的一些实施例的系统所执行的操作。应当理解的是，流程图中的操作可以不按顺序执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。

此外，尽管本申请中公开的系统和方法主要涉及陆地中的运输系统，但应该理解，这仅是一个示例性实施例。本申请的系统和方法可以应用于任何其他类型的运输系统。例如，本申请的系统和方法可以应用于不同环境的运输系统，包括海洋、航空航天等或其任意组合。运输系统的车辆可包括汽车、公共汽车、火车、地铁、船只、飞机、宇宙飞船、热气球等或其任意组合。

本申请中使用的定位技术可以包括全球定位系统(GPS)、全球卫星导航系统(GLONASS)、北斗导航系统(COMPASS)、伽利略定位系统、准天顶卫星系统(QZSS)、无线保真(Wi-Fi)定位技术等或其任意组合。上述定位技术中的一种或以上可以在本申请中互换使用。

本申请的一个方面涉及用于确定自动驾驶中的控制信号的系统和方法。根据本申请的一些系统和方法，处理器可以获取与车辆相关的驾驶信息(例如，道路信息、障碍物信息、地图信息)，确定车辆状态(例如，速度、加速度、方向盘角度)，基于驾驶信息和车辆状态，通过使用训练的控制模型(例如，深度确定性策略梯度(DDPG)网络模型)，确定一个或以上候选控制信号和对应于一个或以上候选控制信号的一个或以上评估值，并基于一个或以上评估值，从一个或以上候选控制信号中选择目标控制信号。进一步地，处理器可以将目标控制信号发送至车辆的控制组件。根据本申请的系统和方法，控制信号直接基于训练的模型确定，可以提高自动驾驶系统的效率。

图1是根据本申请的一些实施例所示的示例性自动驾驶系统的示意图。在一些实施例中，自动驾驶系统100可包括服务器110、网络120、车辆130和存储器140。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。服务器组可以是集中式的或分布式的(例如，服务器110可以是一分布式系统)。在一些实施例中，服务器110可以是本地的，也可以是远程的。例如，服务器110可以经由网络120访问存储在车辆130和/或存储器140中的信息和/或数据。又例如，服务器110可以直接连接到车辆130和/或存储器140以访问存储信息和/或数据。在一些实施例中，服务器110可以在云平台或车载计算机上实现。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中，服务器110可以在计算设备200上实现，该计算设备200包括本申请中的图2中所示的一个或以上组件。

在一些实施例中，服务器110可以包括处理引擎112。处理引擎112可以处理与驾驶信息和/或车辆130的状态相关的信息和/或数据，以执行本申请中描述的一个或以上功能。例如，处理引擎112可以获取与车辆130相关的驾驶信息(例如，道路信息、障碍物信息)和/或车辆130的状态(例如，当前位置、当前速度)。处理引擎112可以基于驾驶信息和/或车辆130的状态确定控制信号。也就是说，处理引擎112可以被配置为车辆130的规划组件。在一些实施例中，处理引擎112可包括一个或以上处理引擎(例如，单芯片处理引擎或多芯片处理引擎)。仅作为示例，处理引擎112可以包括中央处理单元(CPU)、特定应用集成电路(ASIC)、特定应用指令集处理器(ASIP)、图形处理单元(GPU)、物理处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或其任意组合。

在一些实施例中，服务器110可以连接到网络120以与自动驾驶系统100的一个或以上组件(例如，车辆130、存储器140)通信。在一些实施例中，服务器110可以直接连接到自动驾驶系统100的一个或以上组件(例如，车辆130、存储器140)或与之通信。在一些实施例中，服务器110可以集成在车辆130中。例如，服务器110可以是安装在车辆130中的计算设备(例如，车载计算机)。

网络120可以促进信息和/或数据的交换。在一些实施例中，自动驾驶系统100的一个或以上组件(例如，服务器110、车辆130或存储器140)可以经由网络120将信息和/或数据发送至自主驾驶系统100的其他组件。例如，服务器110可以经由网络120获取与车辆130相关的驾驶信息和/或车辆130的状态。在一些实施例中，网络120可以是有线网络或无线网络等或其任意组合。仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络等或其任意组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可以包括有线或无线网络接入点，通过该接入点，自动驾驶系统100的一个或以上组件可以连接到网络120以交换数据和/或信息。

车辆130可以是任何类型的自动车辆。自动车辆能够在没有人类操纵的情况下感测环境信息和导航。车辆130可包括传统车辆的结构。例如，车辆130可包括至少两个控制组件，其被配置为控制车辆130的操作。至少两个控制组件可以包括转向设备(例如，方向盘)、制动设备(例如，制动踏板)、加速器等。转向设备可以被配置为调节车辆130的朝向和/或方向。制动设备可以被配置为执行制动操作以停止车辆130。加速器可以被配置为控制车辆130的速度和/或加速度。

车辆130还可以包括至少两个探测单元，其被配置为探测与车辆130相关的驾驶信息。至少两个探测单元可以包括相机、全球定位系统(GPS)模块、加速度传感器(例如，压电传感器)、速度传感器(例如，霍尔传感器)、距离传感器(例如，雷达、LIDAR、红外传感器)、转向角传感器(例如倾斜传感器)、牵引相关传感器(例如，力传感器)等。在一些实施例中，与车辆130相关的驾驶信息可包括车辆130一定范围内的感知信息(例如，道路信息、障碍物信息)、车辆130一定范围内的地图信息等。

存储器140可以储存数据和/或指令。在一些实施例中，存储器140可以存储从车辆130获取的数据，例如由至少两个探测单元获取的驾驶信息和/或车辆130的状态。在一些实施例中，存储器140可以储存服务器110用来执行或使用以完成本申请中描述的示例性方法的数据和/或指令。在一些实施例中，存储器140可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(RAM)。示例性RAM可包括动态随机存取存储器(DRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、静态随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器可以包括模型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。在一些实施例中，存储器140可在云平台上实现。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储器140可以连接到网络120以与自动驾驶系统100的一个或以上组件(例如，服务器110、车辆130)通信。自动驾驶系统100的一个或以上组件可以经由网络120访问存储在存储器140中的数据或指令。在一些实施例中，存储器140可以直接连接到自动驾驶系统100的一个或以上组件(例如，服务器110、车辆130)或与之通信。在一些实施例中，存储器140可以是服务器110的一部分。在一些实施例中，存储器140可以集成在车辆130中。

应当注意自动驾驶系统100仅仅是为了说明的目的而提供的，并不意图限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出多种修改或变化。例如，自动驾驶系统100还可以包括数据库、信息源等。又例如，自动驾驶系统100可以在其他设备上实现类似或不同的功能。然而，这些变化和修改不会背离本申请的范围。

图2是根据本申请的一些实施例所示的示例性计算设备的示例性硬件和/或软件组件的示意图。在一些实施例中，服务器110可以在计算设备200上实现。例如，处理引擎112可以在计算设备200上实施并执行本申请所披露的处理引擎112的功能。

计算设备200可用于实现本申请的自动驾驶系统100的任何组件。例如，自动驾驶系统100的处理引擎112可以通过其硬件、软件程序、固件或其组合在计算设备200上实现。尽管为了方便仅示出了一个这样的计算机，但是与这里描述的自动驾驶系统100相关的计算机功能可以以分布式方式在多个类似平台上实现以分散处理负荷。

例如，计算设备200可以包括通信端口250，连接到与其连接的网络(例如，网络120)，以促进数据通信。计算设备200还可以包括处理器(例如，处理器220)，其形式为一个或以上处理器(例如，逻辑电路)，用于执行程序指令。例如，处理器包括其中的接口电路和处理电路。接口电路可以被配置为从总线210接收电信号，其中电信号编码结构化数据和/或指令，用于处理电路的处理。处理电路可以进行逻辑计算，然后将结论、结果和/或指令编码确定为电信号。然后，接口电路可以经由总线210从处理电路发出电信号。

计算设备200还可以包括不同形式的程序存储和数据存储，例如磁盘270、只读存储器(ROM)230或随机存取存储器(RAM)240，用于存储由计算设备200处理和/或传输的各种数据文件。该计算设备200还可以包括由处理器220执行的存储在ROM 230、RAM 240和/或其他类型的非暂时性存储介质中的程序指令。本申请的方法和/或流程可以以程序指令的方式实现。计算设备200还包括I/O组件260，其支持计算设备200与其中的其他组件之间的输入/输出。计算设备200也可以通过网络通信接收编程和数据。

仅仅为了说明，在计算设备200中仅描述了一个处理器。然而，应该注意的是，本申请中的计算设备200还可以包括多个处理器，因此由本申请中描述的一个处理器执行的操作也可以由多个处理器联合或单独执行。例如，计算设备200的处理器执行操作A和操作B。如在另一示例中，操作A和操作B也可以由计算设备200中的两个不同的处理器联合或单独地执行(例如，第一处理器执行操作A并且第二处理器执行操作B，或者第一和第二处理器共同执行操作A和B)。

图3是根据本申请的一些实施例所示的示例性处理引擎的框图。处理引擎112可包括获取模块310、状态确定模块320、候选控制信号确定模块330、目标控制信号确定模块340、传输模块350和训练模块360。

获取模块310可以被配置为获取与车辆(例如，车辆130)相关的驾驶信息。获取模块310可以从车辆的探测单元(例如，摄像机、雷达)、本申请中其他地方公开的存储设备(例如，存储器140)或外部资源(例如，交通指导平台、新闻平台)获取驾驶信息。获取模块310可以根据某个时间间隔(例如，0.01秒、0.02秒、0.05秒)、实时地或基本上实时地获取驾驶信息。关于驾驶信息的更多描述可以在本申请的其他地方找到(例如，图4及其描述)。

状态确定模块320可以被配置为确定车辆的状态。状态确定模块320可以根据某个时间间隔(例如，0.01秒、0.02秒、0.05秒)、实时地或基本上实时地确定车辆的状态。关于车辆状态的更多描述可以在本申请的其他地方找到(例如，图4及其描述)。

候选控制信号确定模块330可以被配置为基于驾驶信息和车辆状态，使用训练的控制模型，确定一个或以上候选控制信号以及对应于一个或以上候选控制信号的一个或以上评估值。

目标控制信号确定模块340可以被配置为基于对应于一个或以上候选控制信号的一个或以上评估值，从一个或以上候选控制信号中选择目标控制信号。在一些实施例中，目标控制信号确定模块340可以从对应于一个或以上候选控制信号的一个或以上评估值中识别最高评估值，并选择对应于最高评估值的候选控制信号作为目标控制信号。在一些实施例中，目标控制信号确定模块340可以根据预定规则从一个或以上候选控制信号中选择目标控制信号。

传输模块350可以被配置为将目标控制信号传输至车辆的一个或以上控制组件。例如，传输模块350可以将目标控制信号发送至转向设备以指示转向设备调节车辆的行驶方向。又例如，传输模块350可以将目标控制信号发送至制动设备和/或加速器，以指示制动设备和/或加速器调节车辆的行驶速度。

该训练模块360可以被配置为基于与样本车辆相关的样本驾驶信息和样本车辆的样本状态确定训练的控制模型(例如，训练的DDPG网络模型)。关于训练的控制模型的更多描述可以在本申请的其他地方找到(例如，图5-7及其描述)。

处理引擎112中的模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合电缆等或其任意组合。无线连接可以包括局域网络(LAN)、广域网络(WAN)、蓝牙、紫蜂网络、近场通讯(NFC)等或其任意组合。两个或以上模块可以被组合为单个模块，以及模块中的任一个可以被分成两个或以上单元。例如，获取模块310和状态确定模块320可以组合为单个模块，其可以获取与车辆相关的驾驶信息和车辆的状态。又例如，候选控制信号确定模块330和目标控制信号确定模块340可以组合为单个模块，其可以确定一个或以上候选控制信号和目标控制信号。作为另一示例，处理引擎112可包括存储模块(未示出)，其用于存储与车辆相关的信息和/或数据(例如，与车辆相关的驾驶信息、车辆的状态)。作为又一示例，训练模块360可以是不必要的，训练的控制模型可以从存储设备(例如，存储器140)获取，例如本申请中其他地方公开的存储设备。

图4是根据本申请的一些实施例所示的用于确定目标控制信号的示例性过程的流程图。过程400可以由自动驾驶系统100执行。例如，过程400可以实现为存储在存储器ROM230或RAM 240中的一组指令。处理器220和/或图3中的模块可以执行该组指令，并且当执行指令时，处理器220和/或模块可以被配置为执行过程400。以下所示过程的操作仅出于说明的目的。在一些实施例中，在完成过程400时，可以添加一个或以上未描述的附加操作，和/或删减一个或以上此处所讨论的操作。另外，图4中示出并在下面描述的过程400的操作的顺序并非限制性的。

在410中，处理引擎112(例如，获取模块310)(例如，处理器220的接口电路)可以获取与车辆(例如，车辆130)相关的驾驶信息。处理引擎112可以从车辆的探测单元(例如，摄像机、雷达)、本申请中其他地方公开的存储设备(例如，存储器140)或外部资源(例如，交通指南平台、新闻平台)获取驾驶信息。处理引擎112可以根据某个时间间隔(例如，0.01秒、0.02秒、0.05秒)、实时地或基本上实时地获取驾驶信息。

在一些实施例中，与车辆相关的驾驶信息可包括车辆第一预定范围内的感知信息、车辆第一预定范围内的地图信息等或其任意组合。第一预定范围可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。例如，第一预定范围可以是以车辆的当前位置为中心的区域(例如，圆形、矩形、正方形、三角形、多边形)。

在一些实施例中，处理引擎112可以从车辆的探测单元(例如，摄像机、雷达)获取感知信息。感知信息可包括道路信息、障碍物信息等或其任意组合。道路信息可包括道路宽度、道路长度、道路类型(例如，高速公路、环形道路、辅路、立交桥、单向道路、双向道路)、车道信息、交通标志(例如，路标)、交通信号灯信息、人行横道信息等或其任意组合。障碍物信息可包括障碍物的类型(例如，车辆、行人、动物、建筑物、树木、路障)、障碍物的位置、障碍物的大小、障碍物的速度、车辆的当前位置与障碍物的位置之间的距离等或其任意组合。

在一些实施例中，处理引擎112可以从存储设备(例如，存储器140)获取地图信息，例如本申请中其他地方公开的那些。如这里所使用的，在一些实施例中，地图信息可以是包括在高精度地图(例如，HD地图)中的信息，其指示道路信息的高精度表达。

在420中，处理引擎112(例如，状态确定模块320)(例如，处理器220的处理电路)可以确定车辆的状态。处理引擎112可以根据某个时间间隔(例如，0.01秒、0.02秒、0.05秒等)、实时地或基本上实时地确定车辆的状态。

在一些实施例中，车辆的状态可以包括车辆的当前位置、车辆的速度(例如，瞬时速度、预定时间段内的平均速度)、车辆的加速度(例如，瞬时加速度、预定时间段内的平均加速度)、车辆的方向盘的角度等或其任意组合。如本文所使用的，“速度”包括“幅度”信息和/或“方向”信息。例如，车辆的速度可以表示为“70km/h，30°”，其表示速度的大小是70km/h，速度的方向是与水平方向成30°角的方向。类似地，“加速度”也包括“幅度”信息和/或“方向”信息。在一些实施例中，车辆的状态还可包括剩余功率、剩余汽油量、油温、气压、轮胎压力等。

在一些实施例中，处理引擎112可以从车辆的探测单元获取车辆的状态。例如，处理引擎112可以从加速度传感器获取车辆的加速度。又例如，处理引擎112可以从转向角传感器获取方向盘的角度，该角度反映车辆的瞬时转向角。

在430中，处理引擎112(例如，候选控制信号确定模块330)(例如，处理器220的处理电路)可以基于驾驶信息及车辆状态，通过使用训练的模型，确定一个或以上候选控制信号及对应于一个或以上候选控制信号的一个或以上评估值。如本文所使用的，对应于特定控制信号的评估值指的是体现对车辆行驶过程的综合奖励(也称为“预期奖励”)的值，该综合奖励与特定控制信号相关。

在一些实施例中，控制信号可以指被配置为控制车辆操作的指令。在一些实施例中，控制信号可包括至少两个控制参数(例如，与加速器或制动设备相关的控制参数、转向控制参数)。例如，控制信号可以表示为S(X，Y)，其中X表示与加速器或制动设备相关的控制参数(例如，开度)，Y表示转向控制参数(例如，方向盘角度)。如本文所使用的，对于“开度”，正值表示加速器操作，负值表示制动操作；对于“方向盘角度”，正值表示“向右转”，负值表示“向左转”。

在一些实施例中，处理引擎112可以从训练模块360或本申请中其他地方公开的存储设备(例如，存储器140)中获取训练的控制模型。在一些实施例中，训练的控制模型可以包括深度确定性策略梯度(DDPG)网络模型。DDPG网络模型可以是强化学习模型，其可用于与连续信号问题相关的机器学习中。通过训练的控制模型，可以绕过多因素分析过程中决策确定的某些方面，允许直接确定信号以控制车辆的操作。关于训练的控制模型的更多描述可以在本申请的其他地方找到(例如，图5-7及其描述)。

处理引擎112(例如，候选控制信号确定模块330)(例如，处理器220中的处理电路)可以用不同的方法确定一个或以上候选控制信号和一个或以上评估值，所有这些都涉及训练的控制模型。在一些实施例中，对于何种控制信号可以成为候选控制信号没有限制。在一些实施例中，处理引擎112可以使用预过滤方法确定候选控制信号，即可以在不经过训练的控制模型之前绕过某些控制信号，并且不会成为候选控制信号。例如，本申请的系统和方法可以包括对应于所讨论的车辆的基本规格的过滤器。这种规格可包括参数，例如但不限于最大速度、最大加速度、最大制动功率、最大转弯角度(在某一速度下)等。可以使用过滤器，使得超过某个参数阈值(例如，最大速度的75％、最大加速度的75％、最大制动功率的75％或最大转弯角度的75％)的控制信号不能成为候选控制信号。还可以基于车辆的特定年份和模型、车辆的里程数和/或车辆状况的预定综合评估来调整这些参数。通过对控制信号使用预过滤方法，可以避免危险和/或极限破坏类型的控制信号，并且训练的控制模型需要处理更少的数据，允许对车辆进行快速和更实时的控制。在该方法的基础上，在一些实施例中，如果满足条件，则可以抑制或绕过预过滤，尤其是当安全受到威胁并且所有候选控制信号都不能提供令人满意的评估值时。

在440中，处理引擎112(例如，目标控制信号确定模块340)(例如，处理器220的处理电路)根据一个或以上评估值，从一个或以上候选控制信号中选择目标控制信号。

在一些实施例中，处理引擎112可以从对应于一个或以上候选控制信号的一个或以上评估值中识别最高评估值，并选择对应于最高评估值的候选控制信号作为目标控制信号。

在一些实施例中，处理引擎112可以根据一个或以上预定规则从一个或以上候选控制信号中选择目标控制信号。预定规则可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。例如，可以假设处理引擎112确定了两个候选控制信号S₁(X₁，Y₁)和S₂(X₂，Y₂)，其中X₁的绝对值小于X₂的绝对值，Y₁的绝对值小于Y₂的绝对值。在这种情况下，处理引擎112可以选择候选控制信号S₁(X₁，Y₁)作为目标控制信号。

处理引擎112(例如，目标控制信号确定模块340)(例如，处理器220的处理电路)可以通过多步骤过程选择目标控制信号。例如，在一些实施例中，处理引擎112可以在第一步骤使用评估值以减少候选控制信号，然后使用某些预定规则完成选择。又例如，在一些实施例中，处理引擎112可以使用某些预定规则来移除一些候选控制信号，然后基于评估值选择候选控制信号作为目标控制信号。在某些情况下，后一种方法可能会阻止选择某种候选控制信号，这种候选控制信号呈现“通常”令人满意的结果但也会导致某些损害或后果，从某种角度来看，涉及长期和/或无法弥补的损失。

在450中，处理引擎112(例如，传输模块350)(例如，处理器220的接口电路)可以将目标控制信号发送至一个或以上控制组件。例如，处理引擎112可以将目标控制信号发送至转向设备以指示转向设备调整车辆的行驶方向。又例如，处理引擎112可将目标控制信号发送至制动设备和/或加速器，以指示制动设备和/或加速器调节车辆的行驶速度。

需要注意的是，以上描述仅为描述方便，并不能把本申请限制在所举实施例范围之内。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不会背离本申请的范围。例如，可以在过程400中的其他地方添加其他可选操作(例如，存储操作)。在存储操作中，处理引擎112可以在本申请中其他地方公开的存储器(例如，存储器140)中存储与车辆相关的信息和/或数据(例如，与车辆相关的驾驶信息、车辆状态、候选控制信号)。又例如，可以同时执行操作410和420。

图5是根据本申请的一些实施例所示的用于确定训练的控制模型的示例性过程的流程图。过程500可以由自动驾驶系统100执行。例如，过程500可以实现为存储在存储器ROM230或RAM 240中的一组指令。处理器220和/或训练模块360可以执行该组指令，并且当执行指令时，处理器220和/或训练模块360可以被配置为执行过程500。以下所示过程的操作仅出于说明的目的。在一些实施例中，在完成过程500时，可以添加一个或以上未描述的附加操作和/或删减一个或以上此处所讨论的操作。另外，图5中示出并在下面描述的过程500的操作的顺序并非限制性的。

在510中，处理引擎112(例如，训练模块360)(例如，处理器220的接口电路)可以获取初始模型(例如，初始深度确定性策略梯度(DDPG)网络模型)。处理引擎112可以经由网络120从本申请中其他地方公开的存储设备(例如，存储器140)和/或外部数据源(未示出)中获取初始控制模型。初始控制模型可以包括一个或以上初始参数，其可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。

在520中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以获取与样本车辆相关的初始样本驾驶信息。在一些实施例中，样本车辆具有与车辆130类似的特征(例如，车辆类型、车辆模型、车辆年份、车辆重量、发动机功率)。

如结合操作410所述，与样本车辆相关的初始样本驾驶信息可以包括样本车辆第二预定范围内的初始样本感知信息、样本车辆第二预定范围内的初始样本地图信息等或其任意组合。在一些实施例中，结合操作410所描述，第二预定范围可以与第一预定范围相同或不同。初始样本感知信息可包括初始样本道路信息、初始样本障碍物信息等或其任意组合。在一些实施例中，与样本车辆相关的初始样本驾驶信息可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。

在530中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以确定样本车辆的初始样本状态。

如结合操作420所述，样本车辆的初始样本状态可包括样本车辆的初始样本速度(例如，初始样本瞬时速度、预定时间段内的初始样本平均速度)、样本车辆的初始样本加速度(例如，初始样本瞬时加速度、预定时间段内的初始样本平均加速度)、样本车辆的方向盘的初始样本角等或其任意组合。在一些实施例中，样本车辆的初始样本状态还可包括初始样本剩余功率、初始样本剩余汽油量、初始样本油温、初始样本气压、初始样本轮胎压力等。在一些实施例中，样本车辆的初始状态可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。

在540中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以基于初始样本驾驶信息、样本车辆的初始样本状态和初始控制模型确定初始样本控制信号。在一些实施例中，处理引擎112可以基于初始控制模型中的初始动作神经网络确定控制信号。如结合操作430所述，初始样本控制信号包括至少两个控制参数(例如，与加速器或制动设备相关的控制参数、转向控制参数)。例如，假设初始样本驾驶信息指示在样本车辆前方存在障碍物，处理引擎112可以根据初始控制模型确定用于减慢样本车辆的初始样本控制信号。

在550中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以根据对应于该初始样本控制信号的初始奖励值，确定与初始控制模型相关的初始样本评估值。在一些实施例中，处理引擎112可以基于初始控制模型中的初始评价神经网络确定对应于初始样本控制信号的初始样本评估值。如本文所使用的，以特定样本控制信号为例，对应于该特定样本控制信号的奖励值可以是用于评估该特定样本控制信号对样本车辆的驾驶过程贡献的参数。同时以特定迭代中的特定样本控制信号为例，对应于该特定样本控制信号的评估值可以是截止到该特定迭代为止，体现对样本车辆的驾驶过程的综合奖励(也称为“预期奖励”)的值，该综合奖励与该特定样本控制信号相关。

在一些实施例中，初始奖励值可以与与初始样本控制信号相关的碰撞条件、车道条件、停止条件等或其任意组合相关。

例如，处理引擎112可以确定在初始样本控制信号作用下，样本车辆与障碍物(其指的是最接近样本车辆的障碍物)之间的距离(也称为“障碍物距离”)，并且基于距离确定对应于初始样本控制信号的初始奖励值。在一些实施例中，处理引擎112可以定义特定范围(例如，0～1)，将样本车辆和障碍物之间的距离映射到特定范围，并指定对应的映射值作为对应于初始样本控制信号的初始奖励值。例如，假设样本车辆与障碍物之间的距离长于第一距离阈值(例如，0.5m)，处理引擎112可以确定对应于初始样本控制信号的初始奖励值为1；然而，假设样本车辆与障碍物之间的距离小于第二距离阈值(例如，0.01m)(或样本车辆与障碍物碰撞)，处理引擎112可以确定对应于初始样本控制信号的初始奖励值为0。相应地，样本车辆与障碍物之间的距离越长，对应于初始样本控制信号的初始奖励值可能越高。第一距离阈值和/或第二距离阈值可以是自动驾驶系统100的默认设置，或者可以在不同情况可调节。

又例如，处理引擎112可以确定在初始样本控制信号作用下，样本车辆与其所在车道中心线之间的距离(也称为“车道距离”)，并基于距离确定对应于初始样本控制信号的初始奖励值。类似地，处理引擎112也可以定义特定范围(例如，0～1)，将样本车辆与车道中心线之间的距离映射到特定范围，并指定对应的映射值作为对应于初始样本控制信号的初始奖励值。例如，假设样本车辆与车道中心线之间的距离长于第三距离阈值(例如，0.5m)，处理引擎112可以确定对应于初始样本控制信号的初始奖励值为1；然而，假设样本车辆与车道中心线之间的距离小于第四距离阈值(例如，0.01m)，处理引擎112可以确定对应于初始样本控制信号的初始奖励值为0。相应地，样本车辆与车道中心线之间的距离越长，对应于初始样本控制信号的初始奖励值可能越高。第三距离阈值和/或所述第四距离阈值可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。

作为另一示例，处理引擎112可以确定在初始样本控制信号作用下，样本车辆是否满足停止条件(例如，红灯、人行道)。响应于确定在初始样本控制信号作用下，样本车辆满足停止条件，处理引擎112可以确定对应于初始样本控制信号的初始奖励值为1。响应于确定在初始样本控制信号作用下，样本车辆不满足停止条件，处理引擎112可以确定对应于初始样本控制信号的初始奖励值为0。

在一些实施例中，处理引擎112可以基于上述初始奖励值(也可以称为“候选初始奖励值”)，确定综合奖励值。例如，处理引擎112可以将候选初始奖励值的总和确定为综合奖励值。又例如，处理引擎112可以将候选初始奖励值的平均值(或加权平均值)确定为综合奖励值。

在一些实施例中，处理引擎112可以根据以下公式(1)，基于动作效用函数(也称为Q函数)确定与初始控制模型相关的初始样本评估值：

Q′(s,a)＝Q(s,a)+α(r_i,t+λQ*(s,a)) (1)

其中a指的是第i次迭代中的样本控制信号；s指的是第i次迭代中样本车辆的样本状态；Q′(s,a)指的是与第i次迭代中的控制模型相关的样本评估值；Q(s,a)指的是与先前迭代总的控制模型相关的样本评估值(在第一次迭代中，样本评估值可以是默认值)；Q*(s,a)指的是对应于第i次迭代的与控制模型相关的最优样本评估值；α指的是学习率；r_i,t指的是在第i次迭代中对应于样本控制信号的奖励值；λ指的是折扣因子(例如，0～1内的值)。在一些实施例中，学习率和/或折扣因子可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。在一些实施例中，可以基于在至少两个先前迭代中确定的至少两个样本评估值确定对应于第i次迭代的最优样本评估值。例如，最优评估值可以是在至少两个先前迭代中确定的至少两个样本评估值的平均值。又例如，最优评估值可以是在至少两个先前迭代确定的至少两个样本评估值中的最高样本评估值。

在560中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以判断初始样本评估值是否满足预设条件。

在一些实施例中，处理引擎112可以确定初始样本评估值是否高于第一阈值。响应于确定初始样本评估值高于第一阈值，处理引擎112可以确定初始样本评估值满足预设条件。响应于确定初始样本评估值小于或等于第一阈值，处理引擎112可以确定初始样本评估值不满足预设条件。

在一些实施例中，处理引擎112可以确定迭代次数是否高于第二阈值。响应于确定迭代次数高于第二阈值，处理引擎112可以确定初始样本评估值满足预设条件。响应于确定迭代次数小于或等于第二阈值，处理引擎112可以确定初始样本评估值不满足预设条件。第一阈值和/或第二阈值可以是自动驾驶系统100的默认设置，或者可以在不同情况下可调节。

在一些实施例中，处理引擎112可以确定初始驾驶动作模型的损失函数，并基于初始样本评估值确定损失函数的值。进一步地，处理引擎112可以确定损失函数的值是否小于损失阈值。响应于确定损失函数的值小于损失阈值，处理引擎112可以确定初始样本评估值满足预设条件。响应于确定损失函数的值大于或等于损失阈值，处理引擎112可以确定初始样本评估值不满足预设条件。

响应于确定初始样本评估值满足预设条件，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以在570中将初始控制模型指定为训练的控制模型。

响应于确定初始样本评估值不满足预设条件，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以执行过程500到操作580以执行一个或以上迭代以更新初始控制模型，直到更新的样本评估值满足预设条件。下面在图6中描述一个示例性迭代过程。

在610中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以基于先前迭代中的奖励值确定更新的控制模型。

在一些实施例中，处理引擎112可以通过更新先前迭代中的控制模型的一个或以上参数(例如，初始控制模型的一个或以上初始参数)确定更新的控制模型其中，在更新的一个或以上参数下，奖励值和/或样本评估值可以是提升的。

在620中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以获取与样本车辆相关的更新的样本驾驶信息。

在630中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以基于先前迭代中的样本控制信号和先前迭代中的样本车辆的样本状态估计样本车辆的更新的样本状态。

在一些实施例中，处理引擎112可以根据仿真模型，基于先前迭代中的样本控制信号和先前迭代中的样本车辆的样本状态，估计样本车辆的更新的样本状态。在一些实施例中，仿真模型可以配置样本车辆的一个或以上特征(例如，车辆类型、车辆重量、车辆模型、车辆年份、发动机功率、制动效率)、道路信息、障碍物信息、地图信息等或其任意组合。处理引擎112可以基于仿真模型模拟样本车辆的操作，并且基于仿真结果确定样本车辆的更新的样本状态。

在640中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以基于更新的样本驾驶信息、样本车辆的更新的样本状态和更新的控制模型确定更新的样本控制信号。例如，处理引擎112可以将更新的样本驾驶信息和样本车辆的更新的样本状态输入到更新的控制模型中。处理引擎112可以基于更新的控制模型的输出确定更新的样本控制信号。

在650中，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以基于先前迭代中对应于更新的样本控制信号的更新的奖励值以及样本评估值，确定与更新的控制模型相关的更新的样本评估值。例如，处理引擎112可以根据公式(1)确定更新的样本评估值。

在660中，如操作560所述，处理引擎112(例如，训练模块360)(例如，处理器220的处理电路)可以确定更新的样本评估值是否满足预设条件。

在一些实施例中，处理引擎112还可以确定更新的控制模型是否是收敛的。例如，处理引擎112可以确定更新的样本评估值和先前迭代中的样本评估值之间的差值是否小于差值阈值。响应于确定差值小于差值阈值，处理引擎112可以确定更新的控制模型是收敛的，进而，处理引擎112可以确定更新的样本评估值满足预设条件。响应于确定差值大于或等于差值阈值，处理引擎112可以确定更新的样本评估值不满足预设条件。

响应于确定更新的样本评估值满足预设条件，处理引擎112可以在670中将更新的控制模型指定为训练的控制模型。

响应于确定更新的样本评估值不满足预设条件，处理引擎112可执行过程600以返回操作610以更新更新的控制模型(即，开始下一次迭代)，直到更新的样本评估值满足预设条件。

在一些实施例中，对应于样本控制信号的奖励值可以与在样本控制信号作用下的样本车辆的其他特征(例如，速度、加速度)相关。在一些实施例中，处理引擎112可以定义各种类型的奖励值，并且基于各种类型的奖励值确定各种类型的控制模型。在实际应用中，用户可以根据具体要求选择特定的控制模型。

需要注意的是，以上描述仅为描述方便，并不能把本申请限制在所举实施例范围之内。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不会背离本申请的范围。例如，可以在过程500和/或过程600中的其他地方添加一个或以上其他可选操作(例如，存储操作)。在存储操作中，处理引擎112可以在本申请的其他地方公开的存储器(例如，存储器140)中存储与样本车辆相关的信息和/或数据(例如，样本驾驶信息、样本车辆的样本状态)。又例如，可以同时执行操作520和530。作为另一示例，可以同时执行操作620和630。

图7是根据本申请的一些实施例所示的用于训练深度确定性策略梯度(DDPG)网络模型的模型训练示意图。。

如图7所示，DDPG网络模型包括动作神经网络和评价神经网络，“环境”是指样本车辆所处的场景，我们可以假设“环境”是陆地交通场景。根据本申请，已知训练过程包括一个或以上的迭代，这里描述第i次迭代作为示例。具体地，处理引擎112可以在时间点t确定样本车辆的样本状态s_t(例如，位置、速度)。处理引擎112可以根据第i次迭代中的动作神经网络，基于样本车辆的样本状态s_t(为方便起见，此处省略了样本驾驶信息)，为样本车辆确定对应于时间点t的样本控制信号a_t。进一步地，处理引擎112可以确定对应于样本控制信号a_t的奖励值r_t，并且同时或相继地，处理引擎112可以根据评价神经网络，确定与对应于样本控制信号a_t的DDPG网络模型相关的样本评估值Q_t′(s_t,a_t)。结合操作560所描述的，处理引擎112可以确定样本评估值Q_t′(s_t,a_t)是否满足预设条件。响应于确定样本评估值Q_t′(s_t,a_t)满足预设条件，处理引擎112可以将第i次迭代中的DDPG网络模型指定为最终训练的DDPG模型。响应于确定样本评估值Q_t′(s_t,a_t)不满足预设条件，处理引擎112可以开始下一次迭代，直到更新的样本评估值满足预设条件。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改，改进和修正。该类修改，改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征，结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行，可以完全由软件(包括韧体、常驻软件、微代码等)执行，也可以由硬件和软件组合执行。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或以上计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

计算机可读信号介质可能包含一个内含有计算机程序代码的传播数据信号，例如在基带上或作为载波的一部分。此类传播信号可以有多种形式，包括电磁形式，光形式等或任何合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统，装置或设备以实现通信，传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF等，或任何上述介质的组合。

本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写，包括面向对象程序设计语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化程序设计语言如C程序设计语言、Visual Basic、Fortran2103、Perl、COBOL 2102、PHP、ABAP，动态程序设计语言如Python、Ruby和Groovy，或其他程序设计语言等。该程序代码可以完全在用户计算机上运行，或作为独立的软件包在用户计算机上运行，或部分在用户计算机上运行部分在远程计算机运行，或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序，数字字母的使用，或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但是它也可以实现为仅软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例，附图或对其的描述中。然而，本申请的该方法不应被解释为反映所声称的待扫描对象物质需要比每个权利要求中明确记载的更多特征的意图。相反，发明的主体应具备比上述单一实施例更少的特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

本文中提及的所有专利、专利申请、专利申请公布和其他材料(如论文、书籍、说明书、出版物、记录、事物和/或类似的东西)均在此通过引用的方式全部并入本文以达到所有目的，与上述文件相关的任何起诉文档记录、与本文件不一致或冲突的任何上述文件或对迟早与本文件相关的权利要求书的广泛范畴有限定作用的任何上述文件除外。举例来说，如果任何并入材料相关的与本文件相关的描述、定义和/或术语使用之间有任何不一致或冲突，那么本文件中的描述、定义和/或术语使用应当优先。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种用于确定自动驾驶中控制信号的系统，包括：

获取模块，用于获取与车辆相关的驾驶信息；

状态确定模块，用于确定所述车辆的状态；

候选控制信号确定模块，用于基于所述驾驶信息和所述车辆的所述状态，通过使用训练的控制模型，确定一个或以上候选控制信号和对应于所述一个或以上候选控制信号的一个或以上评估值；

目标控制信号确定模块，用于基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择目标控制信号；以及

传输模块，用于将所述目标控制信号发送至所述车辆的控制组件。

2.根据权利要求1所述的系统，其特征在于，所述车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和地图信息。

3.根据权利要求2所述的系统，其特征在于，所述感知信息包括道路信息和障碍物信息。

4.根据权利要求1所述的系统，其特征在于，所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和所述车辆的方向盘角度。

5.根据权利要求1-4中任一项的系统，其特征在于，还包括训练模块，所述训练模块用于：

获取初始控制模型；

获取初始样本驾驶信息，所述初始样本驾驶信息包括样本车辆第二预定范围内的初始样本感知信息和所述样本车辆所述第二预定范围内的初始样本地图信息；

获取所述样本车辆的初始样本状态；

基于所述初始样本驾驶信息、所述样本车辆的所述初始样本状态以及所述初始控制模型，确定初始样本控制信号；

基于对应于所述初始样本控制信号的初始奖励值，确定与所述初始控制模型相关的初始样本评估值。其特征在于，所述初始奖励值与与所述初始样本控制信号相关的碰撞条件、与所述初始样本控制信号相关的车道状况或与所述初始样本控制信号有关的停止条件中的至少一个相关；

确定所述初始样本评估值是否满足预设条件；以及

响应于确定所述初始样本评估值满足所述预设条件，指定所述初始控制模型为所述训练的控制模型。

6.根据权利要求5所述的系统，其特征在于，所述训练模块还用于：

响应于确定所述初始样本评估值不满足所述预设条件，执行一个或以上迭代以更新所述初始控制模型，直到更新的样本评估值满足所述预设条件，其特征在于，所述一个或以上迭代中的每一个包括：

基于先前迭代中的奖励值确定更新的控制模型；

获取更新的样本驾驶信息；

基于所述先前迭代中的样本控制信号和所述先前迭代中的所述样

本车辆的样本状态，估计所述样本车辆的更新的样本状态；

基于所述更新的样本驾驶信息、所述样本车辆的所述更新的样本状态以及所述更新的控制模型，确定更新的样本控制信号；

基于对应于所述更新的样本控制信号的更新的奖励值和所述先前

迭代中的样本评估值，确定与所述更新的控制模型相关的更新的样本评估值；以及

确定所述更新的样本评估值是否满足所述预设条件。

7.根据权利要求1所述的系统，其特征在于，所述训练的控制模型包括深度确定性策略梯度DDPG网络模型。

8.根据权利要求1所述的系统，其特征在于，为了基于所述一个或以上评估值从所述一个或以上候选控制信号中选择所述目标控制信号，所述目标控制信号确定模块还用于：

根据预定规则，基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择所述目标控制信号。

9.一种用于确定自动驾驶中控制信号的方法，所述方法包括：

获取与车辆相关的驾驶信息；

确定所述车辆的状态；

基于所述驾驶信息和所述车辆的所述状态，通过使用训练的控制模型，确定一个或以上候选控制信号和对应于所述一个或以上候选控制信号的一个或以上评估值；

基于所述一个或以上评估值，从所述一个或以上候选控制信号中选择目标控制信号；以及

将所述目标控制信号发送至所述车辆的控制组件。

10.根据权利要求9所述的方法，其特征在于，所述车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和地图信息。

11.根据权利要求10所述的方法，其特征在于，所述感知信息包括道路信息和障碍物信息。

12.根据权利要求9-所述的方法，其特征在于，所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和所述车辆的方向盘角度。

13.根据权利要求9-12中任一项所述的方法，其特征在于，所述训练的控制模型由训练过程确定，所述训练过程包括：

获取初始控制模型；

获取所述样本车辆的初始样本状态；

确定所述初始样本评估值是否满足预设条件；以及

14.根据权利要求13所述的方法，其特征在于，所述训练过程进一步包括：

基于先前迭代中的奖励值确定更新的控制模型；

获取更新的样本驾驶信息；

本车辆的样本状态，估计所述样本车辆的更新的样本状态；

确定所述更新的样本评估值是否满足所述预设条件。

15.根据权利要求9所述的方法，其特征在于，所述训练的控制模型包括深度确定性策略梯度DDPG网络模型。

16.根据权利要求9所述的方法，其特征在于，基于所述一个或以上评估值从所述一个或以上候选控制信号中选择所述目标控制信号，进一步包括：

17.一种被配置为自动驾驶的车辆，包括：

探测组件、规划组件和控制组件，其中所述规划组件被配置为：

获取与所述车辆相关的驾驶信息；

确定所述车辆的状态；

将所述目标控制信号发送至所述车辆的控制组件。

18.根据权利要求17所述的车辆，其特征在于，所述车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和地图信息。

19.根据权利要求18所述的车辆，其特征在于，所述感知信息包括道路信息和障碍物信息。

20.根据权利要求17所述的车辆，其特征在于，所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和所述车辆的方向盘角度。

21.根据权利要求17-20中任一项所述的车辆，其特征在于，所述训练的控制模型由训练过程确定，所述训练过程包括：

获取初始控制模型；

获取所述样本车辆的初始样本状态；

确定所述初始样本评估值是否满足预设条件；以及

22.根据权利要求21所述的车辆，其特征在于，所述训练过程进一步包括：

基于先前迭代中的奖励值确定更新的控制模型；

获取更新的样本驾驶信息；

本车辆的样本状态，估计所述样本车辆的更新的样本状态；

确定所述更新的样本评估值是否满足所述预设条件。

23.根据权利要求17所述的车辆，其特征在于，所述训练的控制模型包括深度确定性策略梯度DDPG网络模型。

24.根据权利要求17所述的车辆，其特征在于，基于所述一个或以上评估值从所述一个或以上候选控制信号中选择所述目标控制信号，进一步包括：

25.一种用于自动驾驶的系统，包括：

至少一个包括一组指令的存储介质；以及

至少一个处理器与所述至少一个存储介质通信，其中当执行该组指令时，所述至少一个所述处理器用于使所述系统：

获取与车辆相关的驾驶信息；

确定所述车辆的状态；

将所述目标控制信号发送至所述车辆的控制组件。

26.一种用于确定自动驾驶中控制信号的装置，包括至少一个处理器以及至少一个存储介质；

所述至少一个存储介质用于存储计算机指令；

所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求9～16中任意一项所述的操作。

27.一个种非暂时计算机可读存储介质，所述存储介质存储有计算机指令，当所述计算机指令被至少一个处理器执行时实现如权利要求9～16中任意一项所述的操作。