CN118228612B

CN118228612B - 一种基于强化学习的自然性自动驾驶场景生成方法及装置

Info

Publication number: CN118228612B
Application number: CN202410650181.6A
Authority: CN
Inventors: 张晓东; 曹泽江; 王凯正; 沈玉龙
Original assignee: Xidian University
Current assignee: Shanghai Daoreach Industry Development Co ltd
Priority date: 2024-05-24
Filing date: 2024-05-24
Publication date: 2024-08-30
Anticipated expiration: 2044-05-24
Also published as: CN118228612A

Abstract

本发明属于自动驾驶技术领域，公开了一种基于强化学习的自然性自动驾驶场景生成方法及装置，通过生成多个多智能体模型，每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆，然后利用至少一个多智能体模型生成自然性自动驾驶场景，从而实现了对不同驾驶风格的真实人类驾驶员的驾驶情况的模拟。其中，虚拟车辆的驾驶风格由一组自然性量化指标指定，且每个虚拟车辆在行驶过程中根据自身的驾驶风格和外界信息进行驾驶策略的调整，外界信息包括周边交通设备信息以及周围虚拟车辆信息，由此利用虚拟车辆准确地还原了真实驾驶场景，为自动驾驶系统的类人行为测试场景提供了可靠的支持。

Description

一种基于强化学习的自然性自动驾驶场景生成方法及装置

技术领域

本发明属于自动驾驶技术领域，具体涉及一种基于强化学习的自然性自动驾驶场景生成方法及装置。

背景技术

在当前自动驾驶领域，安全性被普遍认为是技术落地的首要前提。为了实现这一目标，创建准确、全面的测试场景至关重要。目前，自动驾驶系统的测试主要集中在两个方面：物理测试和模拟测试。物理测试通常在封闭场地或公共道路进行，但由于成本、安全和效率的限制，它们无法涵盖所有潜在的驾驶情况。因此，模拟测试成为了一个重要补充，可以在虚拟环境中复现各种复杂的、高风险的驾驶情景。然而，现有的自动驾驶测试方案中，如何有效地模拟真实世界中的类人驾驶风格是一个显著的挑战。传统的测试场景往往过于理想化或简化，未能充分模拟人类驾驶员的不可预测性和多样性。这种情况可能导致自动驾驶系统在真实道路环境中遇到未经测试的情况，从而引发安全问题。

发明内容

为了解决现有技术中所存在的上述问题，本发明提供了一种基于强化学习的自然性自动驾驶场景生成方法及装置。

本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供了一种基于强化学习的自然性自动驾驶场景生成方法，包括：

生成多个多智能体模型；每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆；每个虚拟车辆的驾驶风格由一组自然性量化指标指定；其中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整；所述外界信息包括周边交通设备信息以及周围虚拟车辆信息；

利用至少一个多智能体模型生成自然性自动驾驶场景。

可选的，利用至少一个多智能体模型生成自然性自动驾驶场景，包括：

将至少一个多智能体模型应用于CARLA仿真平台，以使所述CARLA仿真平台基于所述至少一个多智能体模型生成自然性自动驾驶场景，并通过所述自然性自动驾驶场景进行自动驾驶系统的安全性验证。

可选的，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整，包括：

每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用自注意力机制进行信息聚合，获得聚合信息：

针对虚拟车辆，计算该虚拟车辆在时间的、、：

；

其中，表示虚拟车辆在时间的；代表虚拟车辆的驾驶风格和当前的动态状态；是用于将虚拟车辆在时间的状态表示转换为的权重；表示虚拟车辆在时间的状态表示；表示虚拟车辆在时间的；表示虚拟车辆的周边交通设备信息和所述其他虚拟车辆的信息；是用于将虚拟车辆在时间的状态表示转换为的权重；表示虚拟车辆在时间的；表示所述其他虚拟车辆的具体行动所需的详细信息或对周边交通设备信息的详细描述；是用于将虚拟车辆在时间的状态表示转换为的权重；

利用和计算注意力权重：

；

其中，表示虚拟车辆在时间对虚拟车辆的的注意力权重；表示虚拟车辆在时间的；表示一个连续时间序列的的累计变量；表示时间步的偏移量；

根据和计算得到所述聚合信息：

；

其中，表示虚拟车辆在时间聚合信息；表示虚拟车辆在时间的；表示虚拟车辆的总数量；

基于所述聚合信息，利用强化学习的方式对自身驾驶策略进行调整。

可选的，基于所述聚合信息，利用强化学习的方式对自身驾驶策略进行调整包括：

每个虚拟车辆在行驶过程中，根据所述聚合信息，利用强化学习的方式预估自身采取不同驾驶策略所对应获得的累计奖励；其中，任一驾驶策略为一速度调整策略、车道保持与变换策略、交通规则遵守策略、紧急避障策略或导航与路径规划策略；每个驾驶策略均包括多个动作；所述累计奖励为预估采取一驾驶策略后，虚拟车辆执行该驾驶策略所包括的每个动作得到的反馈奖励之和；

每个虚拟车辆根据累计奖励达到预期奖励的策略进行自身驾驶策略的调整。

可选的，所述一组自然性量化指标包括：轨迹平滑度指标、动力学决策连续性指标、交通规则遵守指标、安全边界遵循度指标、协作一致性指标和冲突解决效率指标。

可选的，任一种所述驾驶风格为防御性驾驶、侵略性驾驶、犹豫不决的驾驶、自信的驾驶、经验丰富的驾驶、规则遵循的驾驶或情境适应的驾驶。

可选的，任一虚拟车辆的一组自然性量化指标是通过下述方式得到的：

为该虚拟车辆设定其各项驾驶参数对应的权重；所述各项驾驶参数对应的权重是通过对真实世界车辆驾驶数据进行评估得到的；

将所述各项驾驶参数和所述各项驾驶参数对应的权重设置在强化学习的奖励函数部分，利用强化学习的方式对所述各项驾驶参数对应的权重进行调整，得到调整后的各项驾驶参数对应的权重，以基于所述调整后的各项驾驶参数对应的权重模拟真实世界车辆的驾驶风格；

根据所述调整后的各项驾驶参数对应的权重以及该虚拟车辆的各项驾驶参数，得到该虚拟车辆的一组自然性量化指标；

其中，所述奖励函数的表达式为：

；

表示累计的奖励；表示当前时间点；表示时间步的偏移量；表示预设的折扣因子；表示第项驾驶参数；表示第项驾驶参数对应的权重；表示正无穷大。

第二方面，本发明提供了一种基于强化学习的自然性自动驾驶场景生成装置，所述装置包括：

多智能体模型生成模块，用于生成多个多智能体模型；每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆；每个虚拟车辆的驾驶风格由一组自然性量化指标指定；其中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整；所述外界信息包括周边交通设备信息以及周围虚拟车辆信息；

自然性自动驾驶场景生成模块，用于利用至少一个多智能体模型生成自然性自动驾驶场景。

可选的，所述自然性自动驾驶场景生成模块，具体用于将至少一个多智能体模型应用于CARLA仿真平台，以使所述CARLA仿真平台基于所述至少一个多智能体模型生成自然性自动驾驶场景，并通过所述自然性自动驾驶场景进行自动驾驶系统的安全性验证。

可选的，所述多智能体模型生成模块中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整，包括：

针对虚拟车辆，计算该虚拟车辆在时间的、、：

；

利用和计算注意力权重：

；

根据和计算得到所述聚合信息：

；

可选的，所述多智能体模型生成模块中，基于所述聚合信息，利用强化学习的方式对自身驾驶策略进行调整，包括：

可选的，所述一组自然性量化指标包括轨迹平滑度指标、动力学决策连续性指标、交通规则遵守指标、安全边界遵循度指标、协作一致性指标和冲突解决效率指标。

其中，所述奖励函数的表达式为：

；

本发明提供的一种基于强化学习的自然性自动驾驶场景生成方法，通过生成多个多智能体模型；每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆；每个虚拟车辆的驾驶风格由一组自然性量化指标指定；其中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整；外界信息包括周边交通设备信息以及周围虚拟车辆信息；利用至少一个多智能体模型生成自然性自动驾驶场景。

相较于现有的自动驾驶测试场景模拟方法存在过于理想化或简化，未能充分模拟人类驾驶员的不可预测性和多样性的问题，本发明通过生成多个多智能体模型，其中每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆，然后利用至少一个多智能体模型生成自然性自动驾驶场景，从而实现了对多种不同驾驶风格的真实人类驾驶员的驾驶情况的模拟。在本发明中可以通过一组自然性量化指标指定虚拟车辆的驾驶风格，每个虚拟车辆还可以在行驶过程中根据自身的驾驶风格和外界信息进行驾驶策略的调整，从而准确地还原了真实驾驶场景，为自动驾驶系统的类人行为测试场景提供了可靠的支持。

以下将结合附图及对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于强化学习的自然性自动驾驶场景生成方法的流程示意图；

图2是本发明实施例提供的将多智能体模型应用于CARLA仿真平台过程的流程示意图；

图3是示例性的应用自注意力机制的场景示意图；

图4是本发明实施例提供的一种基于强化学习的自然性自动驾驶场景生成装置的结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

真实世界的驾驶环境极其多变和复杂，包含各种不可预测的人类行为。这些行为可能是由独特的文化背景、驾驶风格或者情绪状态驱动的。例如，某些驾驶员可能倾向于在并线时做出冒险的操作，或者在黄灯时加速通过交叉口。通过在测试场景中模拟这些多样化和非线性的行为，可以大幅提高自动驾驶系统处理真实世界复杂性的能力。类人行为的测试场景使自动驾驶系统能够更好地预测和理解人类驾驶员的行为。例如，通过分析人类在特定道路条件下的反应模式(如紧急刹车、避障等)，自动驾驶系统可以学会预测这些行为并据此调整自己的行驶策略，比如保持安全距离、减速或改变路线。真实世界中的驾驶环境不仅受到物理环境的影响，还涉及到社会和心理因素。类人行为的测试场景能够模拟如道路愤怒、驾驶习惯、甚至是文化差异等因素，帮助自动驾驶系统在更广泛、更真实的条件下进行训练和验证。

目前的自动驾驶技术发展迅速，但仍需在复杂的真实世界交通环境中进行充分测试。其中，包含类人行为的测试场景是实现这一目标的关键环节，它们帮助确保技术的可靠性和成熟度。统计真实性是指测试结果能够准确反映真实世界情况的程度。为了使自动驾驶系统的测试结果具有统计真实性，测试场景必须反映真实世界中的驾驶风格，这直接影响到系统在真实道路环境中的表现和安全性。

有鉴于此，本发明实施例提供了一种基于强化学习的自然性自动驾驶场景生成方法及装置，能够更好地反映真实世界中的驾驶风格，解决传统的测试场景往往过于理想化或简化、未能充分模拟人类驾驶员的不可预测性和多样性的问题。

首先，对本发明实施例提供的一种基于强化学习的自然性自动驾驶场景生成方法进行详细说明，参见图1，图1是本发明实施例提供的一种基于强化学习的自然性自动驾驶场景生成方法的流程示意图，步骤如下：

步骤S101，生成多个多智能体模型；每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆；每个虚拟车辆的驾驶风格由一组自然性量化指标指定；其中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整；外界信息包括周边交通设备信息以及周围虚拟车辆信息。

在本发明实施例中，每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆。因此，基于具有一种驾驶风格的多个虚拟车辆生成的多智能体模型可以模拟出现实场景中的一种人类车辆驾驶行为。在此基础上，通过多个具有不同驾驶风格的智能体模型中的虚拟车辆可以模拟出现实场景中多种人类车辆驾驶行为。

在本发明实施例中，每个虚拟车辆的驾驶风格由一组自然性量化指标指定，该组自然性量化指标包括轨迹平滑度指标、动力学决策连续性指标、交通规则遵守指标、安全边界遵循度指标、协作一致性指标和冲突解决效率指标。

轨迹平滑度指标用于衡量驾驶者的行驶轨迹是否平滑，其受到车辆动力学、道路条件和天气条件的影响。其中，车辆动力学包括瞬时加速度、瞬时速度和转向灵敏度等，其中转向灵敏度是指驾驶员转动方向盘后，车辆实际转向动作发生的速度，高灵敏度的转向系统会更快地响应驾驶员的输入；道路条件包括路面质量(如坑洼、湿滑)、道路类型(如直道、弯道)和道路坡度等因素；天气条件包括雨、雪、雾等天气条件，当天气条件恶劣时，会导致驾驶者在行驶过程中较为频繁地进行调整，从而影响到轨迹平滑度指标。

动力学决策连续性指标用于衡量驾驶者对于不同动力学决策之间的连续性；具体而言，动力学决策包括车辆的加减速、转向控制、车道变换、速度控制和刹车决策等。

交通规则遵守指标可以用于衡量驾驶者是否遵循交通信号、交通标志和速度限制等规定。具体的，交通规则遵守包括但不限于红绿灯遵守、速度限制遵守和交通标志遵守等。

安全边界遵循度指标具体用于衡量驾驶者是否倾向于与其他车辆、行人和骑行者等保持安全距离。具体的，安全边界遵循度可以包括保持安全的车距、在变道或并线时保持安全距离以及对行人和非机动车保持安全距离等。

协作一致性指标用于描述驾驶者在与其他道路使用者协作(比如进行并线或交替通行的互动)时的一致性和协调性。例如，高协作一致性表示驾驶者能够有效地与其他人合作，以确保交通的流畅和安全。其他道路使用者可以是指行人和其他车辆驾驶员等。

冲突解决效率指标用于衡量驾驶者在遇到潜在冲突(如紧急避让、交通拥堵)时的应对和解决速度。例如，高效的冲突解决能力意味着驾驶者能够迅速识别和解决问题，从而减少交通干扰和潜在的安全风险。

在本发明实施例中，通过一组自然性量化指标可以指定虚拟车辆的驾驶风格，每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆，通过多个智能体模型可以实现对于现实世界中多种不同驾驶风格的驾驶者的模拟，其中，任一种驾驶风格可以为防御性驾驶、侵略性驾驶、犹豫不决的驾驶、自信的驾驶、经验丰富的驾驶、规则遵循的驾驶或情境适应的驾驶。

例如，将一辆虚拟车辆的每项自然性量化指标都设定处于较高或高的水平，则该虚拟车辆的驾驶风格为经验丰富的驾驶，又或者可以将一辆虚拟车辆的每项自然性量化指标都设定处于较低或低的水平，则该虚拟车辆的驾驶风格为侵略性驾驶。

下面将通过一组示例对如何根据一组自然性量化指标指定车辆的驾驶风格进行说明。首先，设定出不同驾驶风格所对应的自然性量化指标的范围。

1)防御性驾驶：

轨迹平滑度指标：0.8-1.0(较高)；防御性驾驶往往倾向于避免突然的动作，因此轨迹平滑度指标处于较高水平；

决策连续性指标：0.8-1.0(较高)；防御性驾驶的驾驶行为通常是可预测的且在相似的情况下做出驾驶行为往往是一致的；较高的决策连续性表明虚拟车辆的自动驾驶系统能够基于当前的驾驶环境和预测的未来环境变化，做出连续和一致的决策，且较高的决策连续性还意味着自动驾驶系统所做出的驾驶行为在相似的情况下是一致的。例如，在相似的交通情况和环境条件下，虚拟车辆会重复采取相似的驾驶决策。这种一致性对于提高其他道路使用者对自动驾驶车辆行为的预测性很重要，可以减少道路上的混乱和潜在的安全风险。

遵守交通规则指标：0.9-1.0(非常高)；防御性驾驶的驾驶风格强调驾驶的安全和对交通规则的遵循；

安全边界遵循度指标：0.8-1.0(较高)；与其他道路使用者保持安全距离是防御性驾驶的核心；

协作一致性指标：0.7-1.0(较高)；防御性驾驶往往包括与其他驾驶者的有效协作，如对其他虚拟车辆进行合理让行；

冲突解决效率指标：0.7-1.0(较高)；防御性驾驶的驾驶者通常能迅速识别潜在冲突并采取避免发生冲突的行为对其进行规避。

2)侵略性驾驶：

轨迹平滑度指标：0.2-0.5(较低)；侵略性驾驶可能包括快速的加速和急转弯等驾驶决策；

决策连续性指标：0.3-0.6(中等至低)；侵略性驾驶会出现频繁且突然的决策变化；

遵守交通规则指标：0.0-0.4(较低)；侵略性驾驶的虚拟车辆可能涉及超速或其他违规行为；

安全边界遵循度指标：0.2-0.5(较低)；驾驶者可能较少关注安全距离的保持；

协作一致性指标：0.0-0.3(较低)；侵略性驾驶可能会导致与其他车辆的发生竞争，而不是协作。

冲突解决效率指标：0.4-0.6(中等)；侵略性驾驶遇到情况后可能会迅速作出反应，但其行为可能会增加冲突的风险。

3)犹豫不决的驾驶：

轨迹平滑度指标：0.4-0.6(中等)；驾驶者的犹豫不决可能会导致不连贯的驾驶动作；

决策连续性指标：0.2-0.5(较低)；驾驶者可能在决策时反复变化，导致决策连续性较低；

遵守交通规则指标：0.5-0.7(中等)；尽管驾驶者可能遵守交通规则，但其对于决策的犹豫可能会导致问题出现；

安全边界遵循度指标：0.5-0.7(中等)；安全边界遵循度的指标处于中等水平表示犹豫不决的驾驶在一般情况下能够适应环境并保持适当的安全边界，但在某些情况下驾驶者可能会因为犹豫不决而表现出过度谨慎或过度激进的驾驶行为。

协作一致性指标：0.4-0.6(中等)；驾驶者的犹豫不决可能会导致在与其他道路使用者协作时的不一致性。

冲突解决效率指标：0.2-0.4(较低)；犹豫不决的驾驶可能在冲突发生时反应较为迟缓。

4)自信的驾驶：

轨迹平滑度指标：0.7-0.9(较高)；自信的驾驶者倾向于执行平滑的驾驶动作，包括稳定的加速、减速和转向，会减少因急剧驾驶动作导致的潜在安全风险；

决策连续性指标：0.7-0.9(较高)；自信的驾驶者在遇到不同驾驶情境时，能够做出一致且连续的决策，其在分析道路状况和预测交通流动方面具有较高的能力，能够制定出合理且连贯的驾驶策略；

遵守交通规则指标：0.6-0.8(中等至高)；自信的驾驶者通常会遵守交通规则，但也可能在特定情况下适当地利用规则的灵活性来优化行驶路径或提高效率，这反映了自信的驾驶者对交通规则深刻理解的自信；

安全边界遵循度指标：0.6-0.8(中等至高)；自信的驾驶者能够在维持流畅行驶的同时，保持适当的安全距离。他们能够根据周围的交通状况调整自己的行驶方式，确保在各种情况下的安全。

协作一致性指标：0.7-0.9(较高)；自信的驾驶者通常能够有效地与其他道路使用者进行协作。

冲突解决效率指标：0.7-0.9(较高)；自信的驾驶者通常能够迅速识别并有效解决冲突。

5)经验丰富的驾驶：

轨迹平滑度指标：0.8-1.0(较高)；经验丰富的驾驶者往往伴随着流畅的操作；

决策连续性指标：0.8-1.0(较高)；经验丰富的驾驶者其决策行为会相对连贯，通常能够做出快速且一致的决策；

遵守交通规则指标：0.7-0.9(较高)；经验丰富的驾驶者能在保证安全遵守交通规则的基础上再进行某些主动操作；

安全边界遵循度指标：0.8-1.0(较高)；经验丰富的驾驶者通常能有效评估并保持与其他道路使用者的安全距离；

协作一致性指标：0.8-1.0(非常高)；经验丰富的驾驶者通常能够在各种情况下与其他虚拟车辆保持良好的协作；

冲突解决效率指标：0.8-1.0(非常高)；经验丰富的驾驶者能够准确预测并迅速应对潜在冲突。

6)规则遵循的驾驶：

轨迹平滑度指标：0.7-0.9(较高)；严格遵守规则的驾驶通常有预测性和平稳的操作；

决策连续性指标：0.7-0.9(较高)；规则遵循的驾驶者倾向于作出一致的决策，因此其决策连续性指标处于较高水平；

遵守交通规则指标：0.9-1.0(非常高)；遵守交通规则指标非常高是这种驾驶风格的核心特征；

安全边界遵循度指标：0.9-1.0(非常高)；遵守交通规则通常包括维护安全距离；

协作一致性指标：0.7-1.0(较高)；遵守交通规则有助于与其他道路使用者保持一致的交互；

冲突解决效率指标：0.7-0.9(较高)；遵守交通规则有助于预防和迅速解决冲突。

7)情境适应的驾驶：

轨迹平滑度指标：0.6-0.8(中等至高)；驾驶者会根据不同情况灵活调整；

决策连续性指标：0.6-0.8(中等至高)；虽然驾驶者操作和反应灵活，但其对环境变化的反应通常是连贯的，因此决策连续性指标会处于中等至高的水平；

遵守交通规则指标：0.6-0.8(中等至高)；驾驶者根据不同情境适时调整行为；

安全边界遵循度指标：0.6-0.8(中等至高)；驾驶者可以根据当前条件调整安全距离；

协作一致性指标：0.6-0.8(较高)；驾驶者能够根据不同的情况调整自己的行为，以更好地与他人协作；

冲突解决效率指标：0.6-0.8(较高)；驾驶者能够灵活适应各种情况，有效解决冲突。

在本发明实施例中，可以根据虚拟车辆的一组自然性量化指标中每项指标的具体值位于上述哪个驾驶风格的自然性量化指标范围，来确定该虚拟车辆的驾驶风格。

例如，虚拟车辆A的轨迹平滑度指标为0.92、动力学决策连续性指标为0.95、交通规则遵守指标为0.99、安全边界遵循度指标为0.83、协作一致性指标为0.75和冲突解决效率指标为0.82时，该虚拟车辆A的各项指标均落入防御性驾驶的各项指标范围内，因此该虚拟车辆A的驾驶风格为防御性驾驶。

又如，虚拟车辆B的轨迹平滑度指标为0.31、动力学决策连续性指标为0.52、交通规则遵守指标为0.21、安全边界遵循度指标为0.35、协作一致性指标为0.21和冲突解决效率指标为0.53时，该虚拟车辆B的各项指标均落入侵略性驾驶的各项指标范围内，因此该虚拟车辆B的驾驶风格为侵略性驾驶。

上述所示的具体数值范围仅做示例，具体可根据使用场景进行调整，在此不做限定。

在本发明实施例中，驾驶策略指虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息对自身的驾驶行为所做出的适应性调整。例如，虚拟车辆的加速、减速、变道或是紧急避障等策略。

步骤S102，利用至少一个多智能体模型生成自然性自动驾驶场景。

由于一个多智能体模型包括具有一种驾驶风格的多个虚拟车辆，且每个虚拟车辆在行驶过程中，可以根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整，因此基于该多智能体模型能够生成反映复杂的真实世界情况的一种自然性自动驾驶场景。

可以理解的是，由于生成了多个多智能体模型，那么根据每一个多智能体模型都可以生成一种自然性自动驾驶场景，因此利用多个多智能体模型，可以生成多种自然性自动驾驶场景，从而实现对现实世界复杂情况的模拟，为自动驾驶系统的安全测试提供基础。

具体的，利用一个还是多个多智能体模型进行自动驾驶系统的安全测试可以由技术人员根据需求进行选择，在此不作限制。

在本发明实施例中，相较于现有的自动驾驶测试场景模拟方法存在过于理想化或简化，未能充分模拟人类驾驶员的不可预测性和多样性的问题，本发明实施例通过生成多个多智能体模型，其中每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆，然后利用至少一个多智能体模型生成自然性自动驾驶场景，从而实现了对多种不同驾驶风格的真实人类驾驶员的驾驶情况的模拟。在本发明实施例中可以通过一组自然性量化指标指定虚拟车辆的驾驶风格，每个虚拟车辆还可以在行驶过程中根据自身的驾驶风格和外界信息进行驾驶策略的调整，从而准确地还原了真实驾驶场景，为自动驾驶系统的类人行为测试场景提供了可靠的支持。

在本发明实施例中，利用至少一个多智能体模型生成自然性自动驾驶场景，包括：

将至少一个多智能体模型应用于CARLA仿真平台(Car Learning to Act，一个开源的自动驾驶仿真平台)，以使CARLA仿真平台基于至少一个多智能体模型生成自然性自动驾驶场景，并通过自然性自动驾驶场景进行自动驾驶系统的安全性验证。

在本发明实施例中，通过将至少一个多智能体模型应用于CARLA仿真平台主要目的是为了测试自动驾驶系统的安全性。通过一个多智能体模型可以模拟一类现实世界中其他车辆(NPC，非玩家角色)的行为。由于生成了多个多智能体模型，因此通过将多个多智能体模型都应用于CARLA仿真平台，可以生成一个全面、动态且逼真的交通环境。

在本发明实施例中，在多个多智能体模型生成后，可以将至少一个多智能体模型集成进CARLA仿真平台。集成过程需要确保该多智能体模型中的每个虚拟车辆能够接收来自仿真环境的输入(如路况、附近车辆的状态等)并据此作出相应的行为决策。在CARLA仿真平台中，可以利用生成的虚拟车辆，模拟现实交通环境中可能遇到的各种驾驶风格与行为。通过在CARLA仿真环境中运行这些虚拟车辆，可以对主车的自动驾驶系统进行全面的安全性测试。安全性测试可以包括评估自动驾驶系统在各种交通情况下的反应能力，如：如何应对紧急刹车的车辆、突然插入的行人或其他复杂的交通场景等。此外，这些安全性测试也可以包括模拟不同的天气条件、不同时间的交通密度下的交通场景，以及模拟道路封闭、交通事故等特殊情况下的交通场景等。

图2是将多智能体模型应用于CARLA仿真平台过程的流程示意图，包括如下步骤：

步骤S201，将多智能体模型与仿真平台接口对接。

在本发明实施例中，将多智能体模型与仿真平台接口对接的步骤具体包括接口集成和数据转换两个方面。

1a)接口集成：将多智能体模型与CARLA仿真平台的API(ApplicationProgramming Interface，应用程序编程接口)集成，确保多智能体模型中的虚拟车辆能够接收来自仿真环境的输入并做出相应的驾驶策略。

1b)数据转换：转换多智能体模型的输入/输出格式，以匹配CARLA仿真平台提供的数据和仿真环境的需求。

步骤S202，在仿真平台中测试。

在本发明实施例中，在仿真平台中测试的步骤包括初步测试、性能调整和场景覆盖三个方面。

2a)初步测试：将多智能体模型应用于CARLA仿真平台中进行初步测试，观察多智能体模型行为是否符合预期。

2b)性能调整：根据安全性测试结果对多智能体模型进行微调，以使其更适应复杂的真实世界驾驶场景。

2c)场景覆盖：在各种不同的驾驶场景下测试多智能体模型，不同的驾驶场景包括城市道路场景、高速公路场景和不同天气条件下的场景等。

步骤S203，进阶验证。

在本发明实施例中，进阶验证的步骤包括虚拟车辆交互以及虚拟车辆的性能评估两个方面，其中虚拟车辆的性能包括其安全性和鲁棒性。

3a)多智能体交互：测试虚拟车辆在相同环境下的交互，确保虚拟车辆能够处理复杂的交通场景。

3b) 安全性和鲁棒性的评估：评估虚拟车辆在面对各种突发事件时的安全性和鲁棒性。

步骤S204，迭代改进。

在本发明实施例中，迭代改进的步骤包括持续迭代和长期评估两个方面。

4a)持续迭代：根据仿真测试的反馈不断优化多智能体模型。

4b)长期评估：长期监控多智能体模型性能，以确保其适应性和可靠性。

在仿真测试过程中，对于测试数据的收集和分析是至关重要的。这些数据涵盖了多个方面，包括交通事故率、交通违规事件、主车的行驶效率和决策时间以及与其他虚拟车辆的交互方式等等。通过深入分析这些数据，将其与真实驾驶场景中的数据作对比，可以更好地理解自动驾驶系统在实际驾驶环境中的表现，以及进一步对多智能体模型中的虚拟车辆的自然性量化指标进行优化和改进，使其表现更加贴近于真实驾驶场景中的行驶车辆。

此外，仿真测试的一个关键方面是评估自动驾驶系统的鲁棒性，即自动驾驶系统对于不同驾驶行为和意外情况的适应能力。通过观察自动驾驶系统在面对复杂和动态交通场景时的表现，可以对其在现实世界中的安全性和可靠性进行有效评估。

在本发明实施例中，将至少一个多智能体模型部署到CARLA仿真平台可以创建一个高度逼真的测试环境，这对于评估和验证自动驾驶系统的安全性至关重要。通过仿真测试，研究人员和工程师能够收集关键的性能数据，并据此对自动驾驶系统进行优化和调整，以提高其在现实世界中的安全性和可靠性。

可以理解的是，在本发明实施例中可以根据多个多智能体模型中的一个多智能体模型进行自动驾驶系统的测试，也可以根据多个多智能体模型进行自动驾驶系统的测试。具体的，可以由本领域技术人员根据实际使用情况进行选择，在此不做限制。

在本发明实施例中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整包括：

每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用自注意力机制进行信息聚合，获得聚合信息；

基于聚合信息，利用强化学习的方式对自身驾驶策略进行调整。

由于自注意力机制具有高效的并行处理能力和对长距离依赖关系的有效捕获能力，因此在本发明实施例中将其应用于多智能体模型，以利用强大的自注意力机制来增强虚拟车辆间的信息处理和交流效率。

通过自注意力机制获得聚合信息后，基于聚合信息，每个虚拟车辆可考虑自身的观测和经验，这里观测和经验具体是指虚拟车辆自身的驾驶风格以及收集到的诸如速度、加速度等物理参数或其他道路信息以及面对不同路况时的经验决策等。此外，基于聚合信息，每个虚拟车辆还可以考虑来自其他虚拟车辆的信息。利用自注意力机制使得即使在复杂和动态的环境中，每个虚拟车辆也能够有效地理解和预测其他虚拟车辆的行为，提高整体的决策质量。

具体的，在自动驾驶的场景中，一个虚拟车辆可以根据周边交通设备信息以及周围虚拟车辆信息来调整自己的行驶策略。利用自注意力机制，每个虚拟车辆能够更加精准地预测交通流中的动态变化，从而做出更安全和高效的驾驶策略。

在本发明实施例中，由于每个虚拟车辆都需要根据自身的驾驶风格和外界信息做出驾驶策略，因此为了高效地处理复杂驾驶环境中的大量信息和长距离的时序依赖，在本发明实施例中利用自注意力机制对此进行处理。

下面将对每个虚拟车辆在行驶过程中，如何根据自身的驾驶风格和外界信息，利用自注意力机制进行信息聚合，从而获得聚合信息的过程进行说明：

定义个智能体，即个虚拟车辆，在自注意力机制中称为个头。自注意力机制的输入为虚拟车辆在时间的状态表示为，可以是虚拟车辆周围环境的综合输入信息，如虚拟车辆在自身驾驶风格下的车辆位置、速度、方向和加速度，还有外界信息等。具体的，这些综合输入信息可以通过虚拟车辆自身的传感器获得。自注意力机制可以用来计算虚拟车辆在时间的上下文感知，即聚合信息，下面将对的计算方式进行说明。

首先，需要计算出自注意力机制的过程中虚拟车辆在时间的(查询)、(键)、(键对应的值)：

；

其中，表示虚拟车辆在时间的；代表虚拟车辆的驾驶风格和当前的动态状态，如动态状态可以是虚拟车辆当前的速度、位置和行驶方向等；是用于将输入的虚拟车辆在时间的状态表示转换为的权重。

；

其中，表示虚拟车辆在时间的；代表周边交通设备信息和其他虚拟车辆的信息，如可以是其他虚拟车辆的位置、速度和加速度等信息；是用于将输入的虚拟车辆在时间的状态表示转换为的权重。

；

其中，表示虚拟车辆在时间的，可以用于提供具体信息以使得虚拟车辆做出下一动作；可以理解为在自动驾驶的情境中，其他虚拟车辆的具体行动所需的详细信息或是对周边交通设备信息的详细描述等。其他虚拟车辆的具体行动可以是指转向、加速或减速等，其所需的详细信息可以是指具体的转向角度和速度、加减速的距离和时间以及何时何地变道等；是用于将输入的虚拟车辆在时间的状态表示转换为的权重。

其次，为了确定外界信息中各个信息对虚拟车辆行为的重要性，需要对注意力权重进行计算：

；

其中，表示表示虚拟车辆在时间对虚拟车辆的的注意力权重，用于衡量时刻的外界信息对虚拟车辆的行为的影响力；例如，如果某个外界信息是前方虚拟车辆的突然减速，而对于该外界信息权重很高，那么虚拟车辆就会认为这个信息非常重要，对虚拟车辆的影响力很高，可能需要准备减速或采取其他避险措施。表示虚拟车辆在时间的。就是对一个连续时间序列的的累计变量。

最后，计算：

；

其中，表示虚拟车辆在时间的聚合信息，表示虚拟车辆在时间的。

在本发明实施例中，参见图3，图3是示例性的应用自注意力机制的场景示意图，虚拟车辆可以根据当前给定的状态确定。然后，使用与进行匹配，并利用注意力评分函数计算一个注意力得分。通过计算注意力得分，每个虚拟车辆可以确定哪些信息是当前行为决策中最相关的，从而有效地筛选出重要的信息。然后基于注意力得分应用softmax(归一化指数)函数来获取最终的注意力权重。注意力得分决定了外界信息对虚拟车辆当前决策的重要性，从而形成一个权重分布。利用权重分布与进行点乘可以生成一个加权的的组合，对这个组合求和最终输出从周边交通设备和其他虚拟车辆中提取的聚合信息。

在本发明实施例中，基于聚合信息，利用强化学习的方式对自身驾驶策略进行调整包括：

每个虚拟车辆在行驶过程中，根据聚合信息，利用强化学习的方式预估自身采取不同驾驶策略所对应获得的累计奖励；其中，任一驾驶策略为一速度调整策略、交通规则遵守策略、紧急避障策略或导航与路径规划策略；每个驾驶策略均包括多个动作；累计奖励为预估采取一驾驶策略后，虚拟车辆执行该驾驶策略所包括的每个动作得到的反馈奖励之和；

在本发明实施例中，任一驾驶策略为一速度调整策略、车道保持与变换策略、交通规则遵守策略、紧急避障策略或导航与路径规划策略。

具体的，速度调整策略可以是虚拟车辆根据前方的其他虚拟车辆的速度和与前方虚拟车辆之间的距离来调整自身的车速，以保持安全距离的策略。车道保持与变换策略可以是虚拟车辆保持自身在车道中心行驶或在需要时进行安全的车道变换的策略，例如为了超车或避让障碍物进行车道变换。交通规则遵守策略可以是虚拟车辆识别并遵守交通标志和信号的策略，如识别并遵守停止标志和红绿灯。紧急避障策略可以是虚拟车辆在检测到即将发生的碰撞时，自身自动执行紧急制动或避障动作的策略。导航与路径规划策略可以是虚拟车辆根据目的地和当前交通情况计算最优驾驶路线的策略。

在本发明实施例中，每个虚拟车辆在行驶过程中，基于聚合信息可以通过某种策略，如Q学习、深度强化学习算法或其他决策制定过程，来选择一个动作，虚拟车辆会根据预期奖励来选择驾驶策略。具体的，虚拟车辆预估采取一驾驶策略后，会执行该驾驶策略所包括的每个动作，执行每个动作都会得到的反馈奖励，将执行该驾驶策略所包括的每个动作得到的反馈奖励求和即得到累计奖励。每个虚拟车辆根据累计奖励达到预期奖励的策略进行自身驾驶策略的调整。

例如，驾驶策略为速度调整策略，那么速度调整策略包括的动作就可以是刹车、换档等等一系列的动作。通过这一系列的动作可以完成速度调整策略。而采取每个动作都可以得到反馈奖励，通过对这些动作得到的反馈奖励求和，可以得到预估采取速度调整策略后得到的累计奖励。同样的，对于预估采取紧急避障策略也可以获得相应的累计奖励，最终每个虚拟车辆可以根据累计奖励达到预期奖励的策略进行自身驾驶策略的调整。

在本发明实施例中，任一虚拟车辆的一组自然性量化指标是通过下述方式得到的：

为该虚拟车辆设定其各项驾驶参数对应的权重；各项驾驶参数对应的权重是通过对真实世界车辆驾驶数据进行评估得到的。

首先，收集大量真实世界车辆驾驶数据，这些车辆驾驶数据往往包括不同驾驶情况下的车辆行为数据、交通环境数据以及驾驶员的反应和决策过程。然后可以使用数据驱动的方式初步估计各项驾驶参数的重要性。

数据驱动具体就是利用现有的自动驾驶开源数据集，如KITTI，CityScapes，Synthia，BDD100K等，尽可能多维度收集数据。收集的数据可以包括公路交通监控、车载传感器，如GPS(全球定位系统)、加速度计和摄像头等以及不同天气条件、不同时间段，如日间或夜间、不同交通密度的环境下的数据、还有车辆的运动数据，如速度、加速度等、驾驶员的操作数据，如转向、加速和刹车等以及环境数据，如交通信号、道路类型和交通规则等。然后对收集到的数据进行清洗，即去除数据中的噪声和异常值以确保数据质量。对重要事件进行标注，例如对驾驶员何时进行紧急刹车、变道或其他关键动作进行标注。同时从数据中提取对驾驶行为分析有意义的特征，如速度变化、加速度和转向角度等特征。在这个过程中可以使用聚类算法来识别典型的驾驶行为模式，分析特定驾驶行为与其结果之间的因果关系，如急加速与交通事故的关系。然后根据数据分析的结果，对不同驾驶参数的重要性进行评估，进行各项驾驶参数的权重的初步设定。

此外，还可以综合领域内技术人员的经验对初步得到的权重进行调整。

将各项驾驶参数和各项驾驶参数对应的权重设置在强化学习的奖励函数部分，利用强化学习的方式对各项驾驶参数对应的权重进行调整，得到调整后的各项驾驶参数对应的权重，以基于调整后的各项驾驶参数对应的权重模拟真实世界车辆的驾驶风格。根据调整后的各项驾驶参数对应的权重以及该虚拟车辆的各项驾驶参数，得到该虚拟车辆的一组自然性量化指标。

在本发明实施例中，奖励函数中的奖励是由多项驾驶参数和其对应的权重加权构成的。对于即时奖励，其表达式为：

；

相应地，奖励函数的表达式为：

；

其中，表示累计的奖励；表示当前时间；表示时间步的偏移量；表示预设的折扣因子；表示第项驾驶参数；表示第项驾驶参数对应的权重；表示正无穷大。具体的，预设的折扣因子的取值可以在0-1之间。

在利用强化学习的方式对各项驾驶参数对应的权重进行调整，以根据调整后的各项驾驶参数对应的权重以及该虚拟车辆的各项驾驶参数，得到该虚拟车辆的一组自然性量化指标的过程中，考虑到部分自然性量化指标之间存在关联性，因此可以将自然性量化指标整合为虚拟车辆维度内指标和虚拟车辆维度外指标进行调整，以能够对某一维度内的指标进行整体考虑更全面地评估自动驾驶测试系统的行为自然性。其中，虚拟车辆维度外指标还可以进一步划分为安全维度指标和交互维度指标。

虚拟车辆维度内指标的计算方法如下：

；

其中，表示虚拟车辆维度内指标，表示虚拟车辆的轨迹平滑度，表示虚拟车辆在时刻的动力学决策；表示的权重；表示的权重；表示虚拟车辆的轨迹平滑度指标；表示虚拟车辆的决策连续性指标。

虚拟车辆在时刻的动力学决策的计算方法如下：

；

其中，表示虚拟车辆的轨迹平滑度，表示时间点，用于索引整个轨迹分析过程中的特定时间节点；表示时间点的轨迹数据点，例如可以是虚拟车辆在的位置、加速度或速度等等；表示时间点的轨迹数据点，其中表示时间步的偏移量；表示所有的平均值，用于表示整个轨迹数据点的平均位置或状态。该动力学决策的计算公式为自相关函数的变式，用于通过评估时间序列数据中相邻轨迹数据点之间的关联度，来获得虚拟车辆在时刻的动力学决策。

安全维度指标的计算方法如下：

；

其中，表示安全维度指标；表示虚拟车辆的交通规则遵守度；表示虚拟车辆的安全边界遵循度；表示的权重；表示的权重；表示虚拟车辆的遵守交通规则指标；表示虚拟车辆的安全边界遵循度指标。

交互维度指标的计算方法如下：

；

其中，表示交互维度指标；用于表示虚拟车辆的协作一致性；用于表示虚拟车辆的冲突解决效率；表示的权重；表示的权重；表示虚拟车辆的协作一致性指标；表示虚拟车辆的冲突解决效率指标。

在自动驾驶系统的评估中，交互维度指标可以用来衡量虚拟车辆是否能够像人类驾驶员一样有效地与其他道路使用者互动。这一维度可以用来识别驾驶技能的提升区域，尤其是在城市和复杂的交通环境中。

在本发明实施例中，虚拟车辆的各项驾驶参数包括上述的、、、、和。

具体的，利用强化学习的方式对各项驾驶参数对应的权重进行调整，得到调整后的各项驾驶参数对应的权重的过程可以包括：将各项驾驶参数对应的权重设置在强化学习的奖励函数部分，通过虚拟车辆与外界环境进行交互来实现对各项驾驶参数对应的权重的不断优化。例如，对于设定为防御性驾驶风格的虚拟车辆，其和周围虚拟车辆保持安全距离、不频繁变道或速度稳定等动作都会带来正反馈，相反如果在该驾驶风格中的一些行为违背了设定，也就是说如果其某项指标超出了前面定义的驾驶风格下的指标的数值范围，就会带来负反馈。虚拟车辆会基于自身驾驶风格选择一个动作来与外界环境交互，该动作可以是加速、减速、转向或变道等，根据虚拟车辆交互后的新状态会产生相应的奖励，如果这个状态是遵循该驾驶风格下的虚拟车辆的设定的就会得到正奖励，反之则得到负奖励。对虚拟车辆采取每个动作后获得的奖励进行求和，可以得到累计的奖励。根据累计的奖励，可以对虚拟车辆的各项驾驶参数对应的权重进行更新，强化学习算法会根据奖励函数的反馈奖励调整各项驾驶参数的权重，使得训练过程中能够更加精确地反映出真实世界的驾驶行为。通过不断重复这一过程，在进行大量迭代之后奖励函数最终会趋于收敛，那么此时的权重也相对稳定，再通过对各项驾驶参数对应的权重进行归一化和重要性评估，从而可以确定各项驾驶参数的最终权重，虚拟车辆从而逐渐学会如何依照不同驾驶风格行驶。其中，归一化目的是确保各项驾驶参数都能在训练中发挥其应有的作用，避免某些驾驶参数因对应的权重设置不当而对模型训练结果产生过大或过小的影响。

基于同一发明构思，本发明实施例还提供了一种基于强化学习的自然性自动驾驶场景生成装置，参见图4，图4是本发明实施例提供的一种基于强化学习的自然性自动驾驶场景生成装置的结构示意图，包括：

多智能体模型生成模块401，用于生成多个多智能体模型；每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆；每个虚拟车辆的驾驶风格由一组自然性量化指标指定；其中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整；外界信息包括周边交通设备信息以及周围虚拟车辆信息；

自然性自动驾驶场景生成模块402，用于利用至少一个多智能体模型生成自然性自动驾驶场景。

在本发明实施例中，相较于现有的自动驾驶测试场景模拟方法存在过于理想化或简化，未能充分模拟人类驾驶员的不可预测性和多样性的问题，本发明通过多智能体模型生成模块401生成多个多智能体模型，其中每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆，然后自然性自动驾驶场景生成模块402可以利用至少一个模型生成自然性自动驾驶场景，从而实现了对多种不同驾驶风格的真实人类驾驶员的驾驶情况的模拟。在本发明中可以通过一组自然性量化指标指定虚拟车辆的驾驶风格，每个虚拟车辆还可以在行驶过程中根据自身的驾驶风格和外界信息进行驾驶策略的调整，从而准确地还原了真实驾驶场景，为自动驾驶系统的类人行为测试场景提供了可靠的支持。

针对虚拟车辆，计算该虚拟车辆在时间的、、：

；

利用和计算注意力权重：

；

根据和计算得到所述聚合信息：

；

可选的，所述多智能体模型生成模块中，基于所述聚合信息，利用强化学习的方式对自身驾驶策略进行调整包括：

其中，所述奖励函数的表达式为：

；

需要说明的是，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图以及公开内容，可理解并实现所述公开实施例的其他变化。在本发明的描述中，“包括”一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况，“多个”的含义是两个或两个以上，除非另有明确具体的限定。此外,相互不同的实施例中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于强化学习的自然性自动驾驶场景生成方法，其特征在于，所述方法包括：

生成多个多智能体模型；每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆；每个虚拟车辆的驾驶风格由一组自然性量化指标指定；其中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整；所述外界信息包括周边交通设备信息以及周围虚拟车辆信息；所述一组自然性量化指标包括：轨迹平滑度指标、动力学决策连续性指标、交通规则遵守指标、安全边界遵循度指标、协作一致性指标和冲突解决效率指标；所述动力学决策连续性指标用于衡量虚拟车辆的驾驶者对于不同动力学决策之间的连续性；所述安全边界遵循度指标用于衡量虚拟车辆的驾驶者是否倾向于与其他车辆、行人和骑行者等保持安全距离；所述协作一致性指标用于描述虚拟车辆的驾驶者在与其他道路使用者协作时的一致性和协调性；所述冲突解决效率指标用于衡量虚拟车辆的驾驶者在遇到潜在冲突时的应对和解决速度；

所述每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整，包括：

针对虚拟车辆，计算出自注意力机制的过程中该虚拟车辆在时间的查询、键、键对应的值：

；

其中，表示虚拟车辆在时间的；代表虚拟车辆的驾驶风格和当前的动态状态；是用于将虚拟车辆在时间的状态表示转换为的权重；表示虚拟车辆在时间的状态表示；表示虚拟车辆在时间的；表示虚拟车辆的周边交通设备信息和所述周围虚拟车辆的信息；是用于将虚拟车辆在时间的状态表示转换为的权重；表示虚拟车辆在时间的；表示所述周围虚拟车辆的具体行动所需的详细信息或对周边交通设备信息的详细描述；是用于将虚拟车辆在时间的状态表示转换为的权重；

利用和计算注意力权重：

；

根据和计算得到所述聚合信息：

；

基于所述聚合信息，利用强化学习的方式对自身驾驶策略进行调整；

所述基于所述聚合信息，利用强化学习的方式对自身驾驶策略进行调整，包括：

每个虚拟车辆根据累计奖励达到预期奖励的策略进行自身驾驶策略的调整；

利用至少一个多智能体模型生成自然性自动驾驶场景。

2.根据权利要求1所述的方法，其特征在于，利用至少一个多智能体模型生成自然性自动驾驶场景，包括：

3.根据权利要求1所述的方法，其特征在于，任一种所述驾驶风格为防御性驾驶、侵略性驾驶、犹豫不决的驾驶、自信的驾驶、经验丰富的驾驶、规则遵循的驾驶或情境适应的驾驶。

4.根据权利要求1所述的方法，其特征在于，任一虚拟车辆的一组自然性量化指标是通过下述方式得到的：

其中，所述奖励函数的表达式为：

；

5.一种基于强化学习的自然性自动驾驶场景生成装置，其特征在于，所述装置包括：

多智能体模型生成模块，用于生成多个多智能体模型；每个多智能体模型包括具有一种驾驶风格的多个虚拟车辆，每个虚拟车辆的驾驶风格由一组自然性量化指标指定；其中，每个虚拟车辆在行驶过程中，根据自身的驾驶风格和外界信息，利用强化学习的方式对自身驾驶策略进行调整；所述外界信息包括周边交通设备信息以及周围虚拟车辆信息；所述一组自然性量化指标包括：轨迹平滑度指标、动力学决策连续性指标、交通规则遵守指标、安全边界遵循度指标、协作一致性指标和冲突解决效率指标；所述动力学决策连续性指标用于衡量虚拟车辆的驾驶者对于不同动力学决策之间的连续性；所述安全边界遵循度指标用于衡量虚拟车辆的驾驶者是否倾向于与其他车辆、行人和骑行者等保持安全距离；所述协作一致性指标用于描述虚拟车辆的驾驶者在与其他道路使用者协作时的一致性和协调性；所述冲突解决效率指标用于衡量虚拟车辆的驾驶者在遇到潜在冲突时的应对和解决速度；

；

利用和计算注意力权重：

；

根据和计算得到所述聚合信息：

；

6.根据权利要求5所述的装置，其特征在于，

所述自然性自动驾驶场景生成模块，具体用于将至少一个多智能体模型应用于CARLA仿真平台，以使所述CARLA仿真平台基于所述至少一个多智能体模型生成自然性自动驾驶场景，并通过所述自然性自动驾驶场景进行自动驾驶系统的安全性验证。