CN114896869A

CN114896869A - 基于个性化驾驶员模型的自动驾驶测试场景生成方法

Info

Publication number: CN114896869A
Application number: CN202210432328.5A
Authority: CN
Inventors: 陈君毅; 钟艿廷; 马依宁; 姜为; 熊璐
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-08-12

Abstract

本发明涉及一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，包括：若未知被测试交互对象为自动驾驶系统，则基于现有自然驾驶数据集获取中国的高速公路及其匝道的自然驾驶数据；若已知被测试交互对象为自动驾驶系统，则结合调查问卷与驾驶模拟器的方式，采集得到驾驶员与自动驾驶交互的驾驶数据；基于获取的驾驶数据，使用最大熵逆强化学习方法以及深度强化学习方法，训练出不同风格的驾驶员智能体模型；根据测试需求，将不同风格的驾驶员模型按照对应的需求比例，组合生成相应的目标测试场景。与现有技术相比，本发明以人类驾驶数据作为数据来源，通过构建个性化具有不同风格的驾驶员模型，能够有效提升测试场景的真实性和复杂性。

Description

基于个性化驾驶员模型的自动驾驶测试场景生成方法

技术领域

本发明涉及自动驾驶技术领域，尤其是涉及一种基于个性化驾驶员模型的自动驾驶测试场景生成方法。

背景技术

随着深度学习和计算机视觉技术的兴起，自动驾驶为提升交通安全与效率提供了新的解决方案。未来的自动驾驶汽车拥有全面的驾驶感知系统，可以识别道路交通标志、汽车、行人、路况等外部人和物，智能的决策系统对感知的信息快速处理和分析，执行系统精确的执行加速、制动、停车、转向等命令。

自动驾驶汽车测试是自动驾驶研发中的重要环节，也是自动驾驶技术发展的重要支撑，场景则是自动驾驶测试系统中相当重要的一环，测试场景的多样性、覆盖性、典型性等能够影响到测试结果的准确性，从而保证自动驾驶的安全与质量。

基于场景的仿真测试在效率、成本、安全等方面具有巨大的技术优势，是自动驾驶汽车测试验证的重要手段，已成为当前的研究热点。然而，现有的仿真测试方法仍存在一些缺陷，例如场景中环境车辆的行为通常是由人类依靠经验定义的，并不能准确模拟实际人类驾驶员的决策风格和水平；并且基于自然驾驶数据所生成的测试场景不能覆盖到人类驾驶员对自动驾驶汽车带有好奇与竞争的心态在道路上行驶的情况，导致测试结果可信度不高、测试准确性较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，能够提高测试场景的真实性和复杂性，从而实现更好的测试效果。

本发明的目的可以通过以下技术方案来实现：一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，包括以下步骤：

S1、根据被测试交互对象是否已知为自动驾驶系统，获取对应的驾驶数据，若未知被测试交互对象为自动驾驶系统，则基于现有自然驾驶数据集获取中国的高速公路及其匝道的自然驾驶数据；

若已知被测试交互对象为自动驾驶系统，则结合调查问卷与驾驶模拟器的方式，采集得到驾驶员与自动驾驶交互的驾驶数据；

S2、基于获取的驾驶数据，使用最大熵逆强化学习方法以及深度强化学习方法，训练出不同风格的驾驶员智能体模型；

S3、根据测试需求，将不同风格的驾驶员模型按照对应的需求比例，组合生成相应的目标测试场景。

进一步地，所述步骤S1中，若未知被测试交互对象为自动驾驶系统，则获取自然驾驶数据后将驾驶员风格分类为保守、普通和激进共三种风格。

进一步地，所述步骤S1中，若已知被测试交互对象为自动驾驶系统，获取对应的驾驶数据的具体过程为：

基于自然驾驶数据集的道路结构与环境，构建驾驶模拟器的道路场景；

通过调查问卷筛选，将与自动驾驶汽车交互的人类驾驶员风格分类为近距离竞争者、近距离好奇者、远距离好奇者、非好奇者共四种风格，其中，竞争是指每个参与者不惜牺牲他人利益，最大限度地获得个人利益的行为。在驾驶过程中，近距离竞争型驾驶员在相同的时空域下会主动与自动驾驶汽车(Autonomous vehicles，AV)竞争可行驶的空间，在保证安全的前提下使自己的利益目标最大化。例如，当近距离竞争型驾驶员在行驶中遇到AV时，为了使自己获得最大化的可行驶空间，包括提高安全、速度、行驶效率等利益目标，主动采取压缩AV行驶空间，迫使其减速、避让以及将其超越等牺牲AV利益的行为动作；

好奇是指对自己不了解的事物觉得新奇而感兴趣。在驾驶过程中，好奇型驾驶员对周围的AV不了解而觉得新奇，并对其驾驶行为感到好奇，因此做出对其进行跟随观察，或主动与之发生交互的驾驶行为。例如，当AV与其他车辆(不包括当前好奇型驾驶员)发生交互时，好奇型驾驶员会保持在AV后方或旁边进行观察；当AV没有与其他车辆发生交互时，好奇型驾驶员会做出主动与其并道行驶并尝试超越等交互行为；近距离好奇者与远距离好奇者的区别体现在与AV汽车的距离上，远距离好奇者相比于近距离好奇者更加担心AV汽车的可靠性和安全性，所以与AV汽车始终保持安全车距，而近距离好奇者愿意与AV汽车拉近车距以便更好地观察其交互行为；

让近距离竞争者、近距离好奇者、远距离好奇者三种风格的驾驶员使用驾驶模拟器在生成的道路场景中行驶，并收集相应的驾驶轨迹数据；

非好奇者风格的驾驶员对应的驾驶数据则直接从自然驾驶数据集获取。

进一步地，所述构建驾驶模拟器的道路场景的具体过程为：

1)、将主车，即人类驾驶员在驾驶模拟器上驾驶的虚拟仿真汽车置于自动驾驶汽车正后方和侧后方的固定距离位置，并在周围随机放置一些跟车模型车；

2)、根据自然驾驶数据集的环境设置，生成道路场景的环境设置，包括但不限于跟车模型的车辆密度、车辆分布、车辆速度。

进一步地，所述步骤S2具体包括以下步骤：

S21、根据环境模型及功能要求设定奖励函数的特征值函数；

S22、计算人类驾驶员在驾驶场景下的特征期望；

S23、通过深度逆强化学习得到不同风格的最优奖励函数；

S24、基于最优奖励函数，使用深度强化学习训练出风格化驾驶员智能体模型。

进一步地，所述步骤S21中特征值函数具体为：

R＝θ_sf_s+θ_ef_e+θ_cf_c+θ_colf_collision+θ_if_i+θ_{u_d}f_{unique_d}+θ_{u_v}f_{unique_v}

其中，f_s为安全性特征值，等于主车到前车的ttc(time to collision，碰撞时间)；

f_e为效率特征值，等于主车速度；

f_c为碰撞特征值，发生碰撞时等于固定值，未发生碰撞时等于0；

f_i为交互特征值，等于让后车减速时的减速度的绝对值；

f_{unique_d}等于主车与自动驾驶汽车的距离；

f_{unique_v}等于主车与自动驾驶汽车的速度差；

θ_s、θ_e、θ_c、θ_col、θ_i、θ_{u_d}、θ_{u_v}分别为f_s、f_e、f_c、f_i、f_{unique_d}、f_{unique_v}对应的权重。

进一步地，所述步骤S23具体包括以下步骤：

S231、随机初始生成奖励函数的权重θ；

S232、利用深度强化学习训练一个智能体，在对应的驾驶场景运行，将训练时与训练完成时生成的共n条轨迹放入轨迹库；

S233、选择轨迹库中奖励函数最大的前m组轨迹，运用最大熵逆强化算法，得到m组轨迹中每一条轨迹的概率，将得到的概率与每条轨迹的特征值进行加权平均计算，得到生成轨迹的期望特征统计量

S234、利用最大似然函数法对θ求梯度，并使用梯度上升法更新θ；

S235、重复步骤S232至步骤S234，直到θ收敛至最优，基于最优权重θ得到最优奖励函数。

进一步地，所述步骤S24中深度强化学习的具体过程为：

S241、初始化两个智能体的网络参数，分别为Main Net与Target Net；

S242、初始化仿真环境和环境车辆状态；

S243、Main Net与仿真环境互动，将每一步的信息记录储存到经验区，其中，每一步的信息包括奖励、状态空间、动作信息；

S244、当经验区存满时，随机取出一定数量的记录，对loss function关于MainNet的网格参数执行梯度下降算法；

S245、每隔N次存储，将Main Net的网络参数复制到Target Net，以更新TargetNet；

S246、重复步骤S243至S245，直到Target Net网格参数收敛。

进一步地，所述步骤S24中，首先将环境车辆初始化采用IDM(intelligent drivermodel，智能驾驶员模型)，训练并得到各个风格的初级智能体；之后让各个风格训练完成的初级智能体作为背景车，训练并得到高级智能体。

进一步地，所述Main Net与仿真环境交互时的动作信息的集合是离散的，包含以下几种动作：纵向匀速、纵向加速、纵向急加速、纵向减速、纵向急减速，横向匀速、横向减速、横向加速，车辆每次执行的动作由两个方向上动作组合而成。

与现有技术相比，本发明提出一种基于最大熵逆强化学习思想、结合深度强化学习，以训练得到不同风格化驾驶员模型的方案。通过收集到的自然驾驶轨迹数据，以及基于调查问卷、并使用驾驶模拟器收集到的驾驶轨迹数据，利用最大熵逆强化学习算法以及深度强化学习算法，训练并得到不同风格的驾驶智能体模型，从而生成相应的测试场景，使得测试场景中环境车辆的行为能够准确模拟实际人类驾驶员的决策风格和水平。

本发明充分考虑了现实中不同驾驶员的驾驶风格具有差异性的特点，训练出了多种风格的智能体模型，使得生成的测试场景具有较强的真实性和复杂性。在面对交互对象是否为自动驾驶汽车时，人类驾驶员会存在不同的交互反应。为了表现出这一差异，本发明设计了虚实两种采集数据的方式。在未知交互对象是自动驾驶系统下采集三种交互风格的(保守、普通、激进)自然驾驶数据；在已知交互系统为自动驾驶系统下，首先通过调查问卷归纳并分类出不同特征的人类驾驶员(近距离竞争、近距离好奇、远距离好奇、远距离非好奇者)，然后从仿真模拟器采集人类的真实交互数据。以上两种方法是互补的，体现了数据的完备性和充分性，这使得生成的测试场景能够覆盖到人类驾驶员对自动驾驶汽车带有好奇与竞争的心态在道路上行驶的情况，从而提升测试结果可信度以及测试准确性。

本发明生成的测试场景中，背景车的驾驶风格与对待自动驾驶汽车时的反应不相同，从而使得最终生成的测试场景具有较高的复杂性；并且本发明生成的测试场景中背景车所用的驾驶员模型可以根据需要从已经训练完成的个性化驾驶员模型中进行选择，使得测试场景具有较强的泛化性。

本发明不仅使用了最大熵逆强化学习方法来学习专家驾驶轨迹，使得训练出来的奖励函数具有较好的可解释性，解决了定量设置风格化奖励函数的问题，还使用了深度强化学习方法训练驾驶员模型，使得训练出的驾驶员模型具有较高的自主性、交互性和演化性，从而使生成的测试场景中背景车的行为具有较高的不确定性，能较好地反映被测自动驾驶系统的性能，提高测试效果。

附图说明

图1为本发明的方法流程示意图；

图2为实施例的应用过程中驾驶员风格分类图；

图3为实施例中深度逆强化学习流程示意图；

图4为实施例中测试场景生成时风格化智能体所占比例示意图；

图5为实施例中具有一定挑战性的测试场景生成示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，包括以下步骤：

S1、从被测试的交互对象是否为自动驾驶系统的角度出发，通过两种方式获取驾驶数据(如图2所示)，分别为：

S11、未知被测试的交互对象是自动驾驶系统：基于现有自然驾驶数据集获取中国的高速公路及其匝道的自然驾驶数据；

其中，基于自然驾驶数据将驾驶员风格分为保守、普通、激进类型；使用平均车速、变道次数、在行驶过程中距离前车最小的ttc等数据作为划分一名驾驶员风格的依据；

S12、已知被测试的交互对象为自动驾驶系统：基于调查问卷将被测试者分类为近距离竞争者、近距离好奇者、远距离好奇者、非好奇者四种风格的驾驶员类型，其中，基于驾驶模拟器在仿真环境中获取面对自动驾驶汽车时表现出上述前三种风格的驾驶数据，而非好奇者的数据与自然驾驶数据是相似的，故无需在驾驶模拟器上采集该类型数据。

本实施例中，执行步骤S12的过程包括：

1)、基于S11获取的自然驾驶数据集里的道路结构与环境，生成驾驶模拟器的道路场景。

具体的，模拟器采集硬件设备使用罗技G29方向盘系列，软件是基于仿真软件VTD；自然驾驶数据集里的道路结构具体指道路宽度、车道数以及数据集中汽车行驶的平均速度及速度方差。

构建驾驶场景的要求：将主车(人类驾驶员在模拟器上驾驶虚拟仿真汽车)置于自动驾驶汽车后面(正后方和侧后方)250m处，并在周围随机放置0～3辆跟车模型；生成场景的环境设置根据自然驾驶数据集的环境设置，具体包括跟车模型的车辆密度、车辆分布、车辆速度等。

2)、将与自动驾驶汽车交互的人类驾驶员风格分为近距离竞争者、近距离好奇者、远距离好奇者、非好奇者，这四种不同风格化驾驶员通过调查问卷筛选；其中，竞争是指每个参与者不惜牺牲他人利益，最大限度地获得个人利益的行为。在驾驶过程中，近距离竞争型驾驶员在相同的时空域下会主动与自动驾驶汽车(AV)竞争可行驶的空间，在保证安全的前提下使自己的利益目标最大化。例如，当近距离竞争型驾驶员在行驶中遇到AV时，为了使自己获得最大化的可行驶空间，包括提高安全、速度、行驶效率等利益目标，主动采取压缩AV行驶空间，迫使其减速、避让以及将其超越等牺牲AV利益的行为动作；

3)、让各个风格的驾驶员使用驾驶模拟器在步骤1)生成的场景中行驶，并收集其驾驶轨迹数据。

S2、基于最大熵逆强化学习方法以及深度强化学习方法，训练出不同风格的驾驶员智能体模型，包括基于模拟器采集驾驶数据的近距离竞争者模型、近距离好奇者模型、远距离好奇者模型，以及基于自然驾驶数据的保守驾驶员模型、普通驾驶员模型、激进驾驶员模型；

如图3所示，具体包括以下过程：

S21、根据环境模型及功能要求设定奖励函数的特征值函数，特征值函数设置为：

其中，θ_x，x＝s,e,c,col,i,u_d,u_v,表示对应于不同特征值的权重；

f_s是安全性特征值，等于主车距离前车的ttc；

f_e是效率特征值，等于主车速度；

f_c是碰撞特征值，发生碰撞时等于固定值，未发生碰撞时等于0；

f_i是交互特征值，等于主车让后车减速时的减速度的绝对值；

f_{unique_d}等于主车与自动驾驶汽车的距离；

f_{unique_v}等于主车与自动驾驶汽车的速度差。

S22、计算人类驾驶员在驾驶场景下的特征期望；

本实施例中，计算特征期望的方法是：先基于驾驶轨迹数据累加每隔0.02秒时汽车的各个特征函数的值直到轨迹结束，再对累加的结果求平均值。

S23、通过深度逆强化学习得到不同风格的最优奖励函数；

其中，深度逆强化学习的步骤如下：

1)、随机初始生成奖励函数的权重θ；

2)、利用深度强化学习训练一个智能体，在对应的驾驶场景运行，将训练时的与训练完成时生成的共n条轨迹放入轨迹库；

3)、选择轨迹库中奖励函数最大的前m组轨迹，然后将这些轨迹运用最大熵逆强化算法的原理得到每一条轨迹的概率，将得到的概率与每条轨迹的特征值通过加权平均的方式得到生成轨迹的期望特征统计量

4)、利用最大似然函数法对θ求梯度，并使用梯度上升法更新θ；

5)、重复步骤2)至步骤4)，直到θ收敛至最优

S24、利用逆强化学习得到的奖励函数使用深度强化算法得到智能体；

其中，深度强化学习方法的步骤如下：

1)、基于所给权重得到奖励函数；

2)、初始化两个智能体网络参数，分别为Main Net与Target Net；

3)、初始化仿真环境与环境车辆状态；

4)、Main Net与仿真环境互动，将每一步的信息(奖励、状态空间、实施动作信息)记录储存到经验区；

5)、当经验区存满时，随机取出一定数量的记录对loss function关于Main Net的网格参数做梯度下降算法；

6)、每隔N次存储，将Main Net的网络参数复制到Target Net，更新Target Net；

7)、重复步骤4)至6)，直到Target Net网格参数收敛。

本实施例中，步骤3)中仿真环境采用基于VTD(Virtual Test Drive，虚拟驾驶测试)生成的环境，在深度强化学习的进程中，环境车首先采用IDM模型，训练并得到各个风格的初级智能体；其次让各个风格训练完成的初级智能体作为背景车，训练并得到高级智能体；

其中，深度强化学习的环境模型为了适配DQN算法，所以采用的动作空间(即MainNet与仿真环境互动时的动作信息的集合)是离散的，包含以下几种动作：纵向匀速、纵向加速、纵向急加速、纵向减速、纵向急减速；横向匀速、横向减速、横向加速；一辆汽车每次执行的动作由两个方向上动作组合而成。

本实施例中，按照如图4所示的比例将不同风格的智能体分配给背景环境车；需说明的是，为了增加测试场景的挑战性，近距离好奇者与近距离竞争者相比其余风格智能体的占比更大。

此外，各风格智能体在生成场景时不是完全随机放置的，如图5所示，具有“近距离”标签的智能体在生成时有具体位置要求：在距离主车(被测试自动驾驶汽车)前后100m内生成；具有“远距离”标签或者保守、普通、激进型的智能体在生成时有具体位置要求：在距离主车(被测试自动驾驶汽车)前后250m内生成；且在距离主车前后100m内车生成非“近距离”风格的背景环境车概率会更低，在距离主车前后100m外250米内生成非“近距离”风格的背景环境车概率会更高。

综上所述，本技术方案中，用于测试的智能体来源于人类驾驶数据，其决策行为更符合人类驾驶员，并且具有风格化，能够有效提升自动驾驶测试场景的真实性和复杂性，本技术方案首先基于逆强化学习算法从专家轨迹中学习奖励函数，然后通过深度强化学习训练得到风格化智能体，最后组合不同风格化智能体以生成测试场景。该方法在保证测试的连续性、真实性、以及准确性的基础上，可达到较好的测试效果。

Claims

1.一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述步骤S1中，若未知被测试交互对象为自动驾驶系统，则获取自然驾驶数据后将驾驶员风格分类为保守、普通和激进共三种风格。

3.根据权利要求1所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述步骤S1中，若已知被测试交互对象为自动驾驶系统，获取对应的驾驶数据的具体过程为：

通过调查问卷筛选，将与自动驾驶汽车交互的人类驾驶员风格分类为近距离竞争者、近距离好奇者、远距离好奇者、非好奇者共四种风格，在驾驶过程中，近距离竞争型驾驶员在相同的时空域下会主动与自动驾驶汽车竞争可行驶的空间，在保证安全的前提下使自己的利益目标最大化；

好奇型驾驶员对周围的AV不了解而觉得新奇，并对其驾驶行为感到好奇，因此做出对其进行跟随观察，或主动与之发生交互的驾驶行为，近距离好奇者与远距离好奇者的区别体现在与AV汽车的距离上，远距离好奇者相比于近距离好奇者更加担心AV汽车的可靠性和安全性，所以与AV汽车始终保持安全车距，而近距离好奇者愿意与AV汽车拉近车距以便更好地观察其交互行为；

4.根据权利要求3所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述构建驾驶模拟器的道路场景的具体过程为：

5.根据权利要求1所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述步骤S2具体包括以下步骤：

S21、根据环境模型及功能要求设定奖励函数的特征值函数；

S22、计算人类驾驶员在驾驶场景下的特征期望；

S23、通过深度逆强化学习得到不同风格的最优奖励函数；

6.根据权利要求5所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述步骤S21中特征值函数具体为：

其中，f_s为安全性特征值，等于主车到前车的ttc；

f_e为效率特征值，等于主车速度；

f_i为交互特征值，等于让后车减速时的减速度的绝对值；

f_{unique_d}等于主车与自动驾驶汽车的距离；

f_{unique_v}等于主车与自动驾驶汽车的速度差；

7.根据权利要求6所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述步骤S23具体包括以下步骤：

S231、随机初始生成奖励函数的权重θ；

8.根据权利要求7所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述步骤S24中深度强化学习的具体过程为：

S242、初始化仿真环境和环境车辆状态；

S244、当经验区存满时，随机取出一定数量的记录，对loss function关于Main Net的网格参数执行梯度下降算法；

S245、每隔N次存储，将Main Net的网络参数复制到Target Net，以更新Target Net；

S246、重复步骤S243至S245，直到Target Net网格参数收敛。

9.根据权利要求8所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述步骤S24中，首先将环境车辆初始化采用IDM，训练并得到各个风格的初级智能体；之后让各个风格训练完成的初级智能体作为背景车，训练并得到高级智能体。

10.根据权利要求8所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法，其特征在于，所述Main Net与仿真环境交互时的动作信息的集合是离散的，包含以下几种动作：纵向匀速、纵向加速、纵向急加速、纵向减速、纵向急减速，横向匀速、横向减速、横向加速，车辆每次执行的动作由两个方向上动作组合而成。