一种可重构的双电机复合行星式电力驱动轴，用于拓展扭矩矢量控制范围刘建元（Jianyuan Liu）、田梦健（Mengjian Tian）、刘浩阳（Haoyang Lyu）、徐德林（Delin Xu）、甄周义（Zhouyi Zhen）、李德海（Dehai Li）、洪金龙（Jinlong Hong）以及高炳照（Bingzhao Gao）

《Actuators》：A Reconfigurable Dual-Motor Compound-Planetary Electric Drive Axle for an Expanded Torque-Vectoring Envelope Jianyuan Liu, Mengjian Tian, Haoyang Lyu, Delin Xu, Zhouyi Zhen, Dehai Li, Jinlong Hong and Bingzhao Gao

【字体：大中小】 时间：2026年05月10日 来源：Actuators 2.3

编辑推荐：

　　摘要：现有关于联网和自动驾驶车辆（CAVs）协同控制的研究主要集中在结构化的高速公路环境中。大多数现有方法采用基于车道的建模和离散的车道变换动作。这些假设不适用于没有车道标线的收费站分流区，在这些区域车辆会朝多个收费亭方向移动。缺乏预定义的车道导致轨迹连续演变、交互频繁以及安全风

　　摘要：现有关于联网和自动驾驶车辆（CAVs）协同控制的研究主要集中在结构化的高速公路环境中。大多数现有方法采用基于车道的建模和离散的车道变换动作。这些假设不适用于没有车道标线的收费站分流区，在这些区域车辆会朝多个收费亭方向移动。缺乏预定义的车道导致轨迹连续演变、交互频繁以及安全风险增加。为了解决这一局限性，本研究提出了一种基于多智能体近端策略优化（MAPPO）的多智能体协同控制框架，该框架采用集中训练与分散执行（CTDE）架构。多智能体建模能够捕捉收费站分流区的多车辆交互，而集中训练则提高了学习稳定性。引入了以目标路径为导向的动作空间，替代了离散的车道变换动作，从而实现了灵活的收费亭选择和连续轨迹生成。所提出的协同策略在基于感知-决策-行动（Perception-Decision-Action）框架构建的仿真平台上进行了训练和评估，该平台为约束较弱的交通交互提供了高保真度环境。基于现实世界交通数据的仿真结果显示，所提出的方法提高了交通效率并增强了碰撞避免能力。此外，还进行了对比分析以评估模型在不同交通环境下的性能。

1. 引言
作为典型的无人地面车辆（UGVs）类别，联网和自动驾驶车辆（CAVs）在各种交通场景中的应用日益广泛。随着它们的快速部署，协同控制已成为下一代智能交通系统的基本组成部分[1,2]。尽管在高速公路段取得了显著进展，但收费站分流区的研究仍然不足[3]。与结构化的高速公路环境不同，收费站分流区由于车道约束较弱、横向机动自由度高以及多车辆交织交互频繁，更容易发生交通事故[4,6]。车辆在没有严格车道引导的情况下逐渐从上游接近车道分散到多个收费亭，产生连续的横向移动和复杂的冲突模式。这一特性使收费站分流区与基于车道的交通系统有根本区别。已有大量研究探讨了协同控制策略[7]。然而，大多数现有的协同控制策略，无论是基于规则的[8]、优化驱动的[9,10]还是基于学习的[11,12]，都是在明确的基于车道的交通区域假设下开发的。车辆控制策略通常表现为离散的车道变换决策与纵向加速度控制的结合[13]。这些策略隐含地限制了相邻车道内的冲突建模，并假设横向变换是瞬时的。在基于规则和优化的方法中，保持计算可行性通常需要对车道或轨迹进行人工离散化，这限制了动作空间的选择[14]。在收费站分流区，车辆轨迹在连续的二维空间中演变，横向位移是渐进的而非瞬时的，冲突区域在空间上是重叠的而非车道相邻的[15,16]。在这种条件下，基于车道的方法无法反映收费站分流区的实际情况。因此，尽管这些方法在结构化网络中表现良好，但在约束较弱的分流区效果会减弱。

近年来，多智能体强化学习（MARL）作为一种强大的协同车辆控制方法出现，使智能体能够通过与环境交互直接学习策略[17,18]。MARL在高速公路合流、可变速度限制控制[19,20]和车道变换协调[21,22]方面取得了有希望的结果，其中状态和动作空间仍然保持结构化和车道索引化。尽管如此，大多数现有的MARL实现仍然继承了离散的操纵抽象和结构化的几何假设。尽管在车辆控制策略方面取得了显著进展，但在建模和协调收费站分流区的车辆行为方面仍存在明显差距。现有方法大多在结构化的车道假设下开发，并依赖于离散的车道变换或加速度动作，无法捕捉约束较弱环境中的连续横向移动和灵活的路径选择。此外，大多数主流交通仿真平台在建模分流区时仍然采用一维的、基于车道的车辆跟随规则。这样的建模假设进一步限制了车辆交互的表示，并限制了收费站场景中安全评估的保真度。为了解决这一差距，我们提出了一种基于多智能体近端策略优化（MAPPO）的多智能体协同控制框架，该框架采用集中训练与分散执行（CTDE）架构。该架构专为约束较弱的车站分流区设计，并在开发的高保真度仿真环境中进行了评估。与其对离散的车道变换动作进行建模不同，引入了以目标路径为导向的动作空间来表示在车道约束较弱条件下的可行收费亭路径。本研究的主要贡献总结如下：
（1）为收费站分流区混合交通流中的CAVs开发了一种基于MAPPO的协同控制框架。与现有的针对结构化道路环境的层次化或基于车道的决策公式不同，所提出的方法适用于在车道约束较弱条件下的协同目标车道选择和机动操作。
（2）通过采用高保真度仿真环境，状态和奖励函数专门针对约束较弱的分流场景进行了定制。设计考虑了路径可达性、排队情况、周围车辆分布和转向相关运动特性。这使得学习到的策略能够在复杂的多车辆交互中更好地平衡交通效率与安全性。

本文的其余部分组织如下。第2节介绍方法论。第3节描述仿真平台的开发。第4节介绍多智能体协同决策模型。第5节概述数据预处理和模型配置。第6节报告仿真结果并提供分析讨论。第7节总结研究并指出未来研究方向。

2. 方法论
图1展示了本研究的整体方法论框架。该框架由两个相互连接的部分组成：一个是针对车道约束较弱的车站分流区的二维微观仿真平台（图1左侧），另一个是基于MAPPO的多智能体协同控制模型（图1右侧）。仿真平台为策略学习和性能评估提供了交互式环境，而协同控制模型则决定了该环境中的CAVs的动作。

3. 仿真平台建立
仿真平台基于PDA框架构建，用于模拟收费站分流区的驾驶员认知过程。它将复杂的驾驶行为分解为三个方面：可达路径感知、动态车道选择和考虑横向偏移的车辆跟随模型。下面介绍该平台的主要组件。

3.1. 可达路径感知
如前所述，尽管分流区的车辆有纵向目标车道，但它们缺乏横向运动约束，通常会直接朝向目标车道的队伍末端行驶。在此过程中，车辆不再依赖车道标线，而是依靠通往各个可达收费亭的路径来指导感知和决策[25,26]。为了体现这一特性，本研究提出了一种路径导向的感知方法，其两个组成部分如下所示。

3.1.1. 可达分流路径生成
多项式曲线常用于描述车道变换轨迹[27]，因为它们的连续曲率确保了速度和加速的平滑过渡。因此，使用三次多项式函数来模拟车辆的分流路径，这在当前仿真场景中提供了计算效率和轨迹拟合性能之间的良好平衡：

图2展示了在混合ETC-MTC收费模式下，收费站分流区车辆的多条可达路径的生成机制。由于中国的电子收费（ETC）系统尚未实现全面覆盖，收费站通常采用ETC和人工收费（MTC）相结合的混合收费模式，从而导致分流区内有多条通向不同收费亭的可行路径。图2中显示的可达路径是使用上述多项式曲线函数生成的。路径参数由车辆分流过程中的四个关键点的坐标定义，包括车辆当前和之前的位置，以及可达收费车道中心线上的两个固定点。当车辆进入分流区时（例如ETC车辆SV1），仿真平台将根据车辆进入分流区前的两个轨迹点（P1和P2）以及每个可达ETC车道中心线上的两个固定点（P3和P4）生成多条可达路径（路径1至路径5）。如果车辆在分流过程中检测到前方有车辆（例如SV2），它会动态生成新的候选路径（路径1’和路径2’）。这些路径是根据车辆当前和之前的位置（P1’和P2’）以及其他可达车道中心线上的固定点（例如P3’和P4’）创建的，有效地模拟了车辆的动态调整行为。

3.1.2. 基于路径的感知
分流区中的车辆感知信息分为两类：与车辆相关的信息和与路径相关的信息。所有变量的详细定义见表1，图3提供了分流区这些变量的示意图。表1. 变量定义。图3. 车辆状态和路径信息示意图。不同类型的车辆用颜色区分：红色表示CAVs，黄色表示人工驾驶的MTC车辆（MTC HV），绿色表示人工驾驶的ETC车辆（ETC HV）。SV表示主体车辆。A和B表示不同路径上的前方车辆。蓝色虚线表示为SV生成的可达路径。

车辆相关的信息包括三类：（i）动态运动状态，包括车辆的纵向和横向位置（,）、纵向和横向速度（,）以及纵向加速度（）；（ii）静态属性，包括车辆的收费类型（）和初始车道（）；以及（iii）周围车辆指示器（），用于表示预定义周围区域内是否有其他车辆的存在。

与路径相关的信息包括：（i）横向可用移动距离（），（ii）横向移动幅度（），以及时间步长t时路径的排队长度（），其中是收费车道编号。

如图3所示，分流区由五条ETC车道和三条MTC车道组成。因此，当前车辆的可达路径取决于其收费类型：对于ETC车辆，其可达路径为；如果是MTC车辆，则为。对于给定的可达路径，的值取决于该路径上是否有前方车辆。如果有前方车辆，等于当前车辆与前车之间的纵向距离。例如，在图3中，前方车辆A和B分别位于路径1和路径3上；因此，和分别表示当前车辆与A和B之间的纵向距离。相比之下，如果路径上没有前方车辆，则等于，其中表示当前车辆与收费车道入口线之间的纵向距离。因此，在图3中，由于路径2、4和5没有前方车辆，和都等于。此外，表示在时间t选择路径所需的方向盘转动幅度，定义为，其中表示从代理当前位置到路径t的合流点的横向距离。最后，表示在时间t时路径上排队的车辆数量。

3.2. 动态收费车道决策
基于感知层提供的环境信息，决策层动态选择一个目标收费车道来模拟人类驾驶过程中的决策调整。车辆进入该区域后，首先选择一个初始目标车道，然后根据前方的交通状况进行实时调整。这种动态路径选择可以被视为一个多类分类问题[28,29]。为了对这种行为进行建模，我们使用了一个多层感知器（MLP）神经网络[30]，该网络以与车辆和路径相关的信息（如表1中详细说明的）作为输入，并在每个时间步骤输出车辆的最佳目标收费车道。该神经网络使用从研究[6]中提取的基于轨迹的目标车道选择样本进行离线训练，实现了超过90%的预测准确性。

3.3. 考虑横向偏移的车辆跟随模型
在具有清晰车道标记的结构化道路段上，车辆跟随模型通常假设前车和后车的中心位于同一条直线上。然而，在没有车道标记的分流区域等非结构化场景中，前车和后车之间存在显著的横向偏移[31]。在这些情况下，常见的车辆跟随模型无法准确捕捉它们的行驶行为。因此，需要修改原始模型以包含分流区域的弱约束运动特征。全速度差（FVD）模型是最广泛使用的车辆跟随模型之一。它通过综合考虑间距、速度差和驾驶员对速度差的响应敏感性等因素来模拟后车对其前车的反应。该模型可以表示为：
(2)
其中是基于与前车间距的驾驶员最佳速度函数；是时间t时后车的速度；是当前车辆与前车之间的速度差；和分别表示驾驶员对最佳速度与当前速度之间差异的敏感度系数。为了考虑分流区域中车辆之间的显著横向偏移，采用了一个改进的FVD模型来描述车辆跟随行为[32]。图4展示了带有横向偏移的车辆跟随几何结构，包括前车和后车之间的相对位置关系以及相关的视觉角度和偏移角度。修改后的FVD模型表示为：
(3)
其中和是对视觉角度变化率和横向偏移角度的敏感度系数。是前车的视觉角度，而は横向偏移角度。图4. 考虑横向偏移的车辆跟随模型示意图。这些角度的具体计算方法如下：
(4)
(5)
其中车辆长度和宽度在本研究中分别设为5米和1.6米。最佳速度的计算如下：
(6)
其中，，，和是最佳速度函数的参数。本研究采用了基于德国斯图加特实证交通数据确定的经典参数集[33]，并已在后续的车辆跟随研究中使用。注意，方程(6)中的在几何上等同于方程(5)中的有效纵向间距，因此当接近零时仍然有效。为了确保即使在所选路径上没有前车时也能持续进行车辆跟随行为，模拟平台在目标收费车道的末端放置了一个虚拟车辆。这使得当前车辆在整个分流过程中都能遵守车辆跟随规则。

4. 多智能体协作决策模型
为了应对收费广场分流区域这种弱约束环境中的多车辆协作控制挑战，每个CAV都被定义为一个能够独立决策的智能体。通过采用CTDE架构，该模型使这些智能体能够利用全局信息进行训练，同时仅基于局部观测执行高效且安全的实时协调。以下部分描述了智能体的动作空间、状态空间、奖励函数以及MAPPO算法的原理。

4.1. 动作空间
在具有明确车道标记的结构化道路环境中，智能体的动作空间通常由诸如变道或保持车道等离散动作定义[34]。然而，在缺乏清晰车道标记的收费广场分流区域的弱约束环境中，这种定义并不适用。该区域中车辆的实际运动特征是朝向目标收费车道的连续平滑合并运动，不受固定车道的约束。为了准确表示这种弱约束驾驶行为，本文重新设计了每个智能体的动作空间。智能体在每个模拟时间步骤执行的动作包括两个组成部分：纵向加速度控制和目标车道选择，表示如下：
(7)
其中智能体的纵向加速度被限制在m/s2的范围内。表示智能体的目标收费车道编号。因此，的值取自可访问的收费车道集合，对应于智能体的特定收费类型：
(8)
因此，每个智能体的完整动作空间，定义为所有可能动作的集合，可以正式表示为：
(9)

4.2. 状态空间
在本文采用的CTDE架构下，状态信息的定义明确区分了每个智能体的局部观测和集中控制器在训练期间用于评估的全局状态。
局部观测空间：在分散执行阶段，每个智能体仅通过自己的传感器感知环境信息，然后形成局部观测。这使得它们之间的交通性能差异可以完全归因于各自的控制策略或人类行为模型。具体来说，包括车辆的自我状态（，，，，），周围车辆信息（–）和与路径相关的信息（，，）。因此，局部观测可以表示为：
(10)
全局状态空间：在集中训练阶段，评论家网络将全局状态信息作为输入，以准确估计智能体的预期联合回报，从而实现协作策略的学习。因此，全局状态定义为：
(11)
其中是当前时间步长分流区域中的智能体总数。

4.3. 奖励函数
传统的横向决策模型通常仅基于变道完成时的状态来计算奖励，从而忽略了车辆在整个运动过程中的行为。为了解决这一局限性，我们提出的奖励函数在每个时间步骤为智能体提供即时反馈。它同时优化交通效率和安全性，如下所述。

4.3.1. 交通效率奖励
为了促进分流区域内智能体之间的协作并提高整体交通效率，我们引入了每个时间步长区域内所有智能体的平均速度作为共享奖励，然后将其分配给每个智能体：
(12)
其中表示时间t时分流区域中的智能体总数，表示的时间t的速度。如果，奖励被设置为0。这个奖励通过反映每个时间步长的整体交通效率来鼓励协作行为。此外，为了平衡各车道上的交通负荷，我们引入了一个排队平衡奖励，鼓励智能体选择排队较少的收费车道，表示如下：
(13)
其中和分别表示上一步时间和当前时间步骤选定的目标收费车道上的排队长度。如果当前选定的车道比上一步更短，智能体会收到正面奖励；否则，它会收到惩罚。

4.3.2. 交通事故安全奖励
为了保证分流过程中的车辆安全，我们引入了两种惩罚机制。首先，设计了一个碰撞惩罚来训练智能体避免与周围车辆的冲突。当智能体的横向操作导致碰撞时，触发惩罚：
(14)
此外，设计了一个转向惩罚来惩罚激进的转向行为：
(15)
这里，表示智能体在时间步骤选定的目标收费车道对应的转向幅度。较大的值表示更激进的转向，因此会导致更重的惩罚。
智能体在时间t收到的最终加权奖励表示为：
(16)
其中权重系数分别设置为，，，。这些权重是通过广泛的测试确定的，以优化协作控制策略的性能。

4.4. MAPPO训练框架
本研究采用了MAPPO，因为它在动态且高度交互式的收费广场分流环境中提供了更好的稳定性和收敛性，优于MADDPG或QMIX等离策略替代方案。MAPPO是从单智能体Proximal Policy Optimization（PPO）算法扩展而来的。当适应多智能体场景时，MAPPO为每个智能体分配了一个独立的演员和一个独立的评论家网络。每个智能体的演员根据局部观测选择动作，其裁剪的目标函数表示如下：
(17)
其中表示智能体新旧策略之间的概率比。是评论家网络估计的优势函数，是裁剪参数（通常设置在0.1到0.3之间）。函数将限制在区间[]内，防止策略更新过度。
为了准确估计优势函数，评论家网络在集中训练期间首先接收全局状态，然后输出，从而使用广义优势估计（GAE）：
(18)
(19)
其中是时间差（TD）误差。是折扣因子，是GAE参数。
为了确保准确的值估计，评论家网络被训练来最小化预测值与 discounted cumulative return 之间的均方误差：
(20)
其中表示智能体从时间到剧集结束实际获得的回报。
此外，为了防止过早收敛到次优策略，引入了一个混合熵项。因此，演员网络的整体目标函数表示为：
(21)
其中是对离散车道的求和，是对的积分，是熵系数。
最后，网络参数使用Adam优化器迭代更新，学习率为和：
(22)

5. 仿真实验
5.1. 数据收集和处理
本研究的数据是在长沙西收费站收集的，该收费站位于G55长沙-张家界高速公路（东西方向）上，是长沙西部的一个主要交通节点。研究区域的航拍图如图5所示。研究区域的上游部分由三条主线车道组成，每条车道宽3.75米。其后是一个长约145米的分流区域，该区域通向一个有八条车道的分流广场。其中五条是ETC车道在左侧，三条是MTC车道在右侧。每条收费车道宽5米。车辆轨迹数据是通过无人机（UAV）的垂直航拍拍摄的。录像记录于2021年5月，共计55分钟的4K分辨率视频，帧率为30 fps。在排除没有交通或严重拥堵的片段以确保数据质量后，保留了大约25分钟的连续视频片段进行分析。基于10分钟的统计间隔，观察期间的交通流量范围为每小时1578至2004辆车。图5. 长沙西收费站的分流区域航拍图。车辆轨迹是通过美国佛罗里达州奥兰多市中佛罗里达大学开发的Automated Roadway Conflicts Identify System（ARCIS）[35]从视频数据中提取的。通过这种方法获得了692条完整的车辆轨迹，包括628辆轿车（439辆ETC，189辆MTC）和64辆大型车辆（卡车和公交车）。由于大型车辆在加速性能、转弯半径和变道行为方面与轿车有显著差异，因此没有直接对它们进行建模和分析。然而，为了确保真实的交通环境，保留了大型车辆的轨迹并将其作为模拟环境中的背景交通流。
表2列出了从每条主线车道进入分流区域的车辆数量以及每条收费车道的通行量。数据揭示了两个主要趋势。首先，在入口车道选择方面，ETC车辆倾向于从中间主车道进入，而MTC车辆则主要选择外侧车道。其次，在收费车道选择方面，驾驶员明显偏好横向距离最短的车道。这些行为倾向导致ETC车道1-3和MTC车道1-2的交通流量高于同一类型的其他车道。表2显示了按入口车道和收费车道划分的车辆数量。

5.2. 模型设置
5.2.1. 仿真平台设置
根据长沙西收费站分流区的实际布局，在仿真平台上构建了一个场景，如图6所示。该图展示了模拟场景的实际几何布局，包括上游主车道、扩宽的分流区域以及下游收费车道。模拟的高速公路主线由一段10米的路段组成，该路段有三条宽度为3.75米的车道（编号为1-3）。这段路段逐渐过渡到一个扩宽的分流区域，并最终连接到一个有八条宽度为5米的收费车道的高速收费站。交通流量设定为每小时1500辆车。在这个环境中，ETC和MTC车辆都在主线路段的起始处生成，初始条件与表2中显示的测量数据一致：ETC车辆的车道进入比例为1:2:1，速度遵循正态分布；而MTC车辆的车道进入比例为1:2:4，速度也遵循相应的分布。车辆的最终结策规则如下：ETC车辆必须以不超过20公里/小时的速度通过收费车道，而MTC车辆在进入收费车道15米后停止20秒以模拟手动付费过程。为了评估系统效率，定义了一个称为“分流时间”的指标，即车辆在分流区域内的总行驶时间，不包括在收费车道内的任何停留时间。仿真过程在一个自开发的Python平台上执行，该平台包含三个模块：可视化界面、仿真引擎和数据记录模块。该平台的准确性已在之前的工作中得到了验证[6,23]。

5.2.2. MAPPO算法配置
为了训练分流区域内CAVs（自动驾驶车辆）的协作驾驶策略，我们的研究将MAPPO算法集成到了仿真平台中。演员网络和评论家网络都是MLP（多层感知器），每个网络都包含一个输入层、两个隐藏层和一个输出层。关键超参数在表3中指定。在策略训练期间，CAVs的渗透率设定为50%。在每个剧集的开始，模拟的人类驾驶车辆中随机指定了一定比例的CAVs。仿真步长设定为0.1秒，每个剧集包含10,000个时间步，模型经过500个剧集的训练。假设没有通信延迟。整个训练过程在一台配备2.30 GHz Intel Core i7-12700H CPU、32.0 GB RAM和NVIDIA GeForce RTX 3070 Ti GPU的计算机上进行。程序使用Python 3.8实现，神经网络使用TensorFlow 2.6.0开发。

5.3. 结果分析与评估
6.1. 基准实施
为了检验MARL（强化学习）在分流区域进行协作优化的优越性能，我们的研究比较了三种方法下的交通表现：MAPPO、PPO和无控制基线。每种情景都在相同条件下独立模拟了一小时。为了确保公平比较，PPO模型使用了与MAPPO控制相同的神经网络框架和核心训练设置。在无控制基线中，HV（人类驾驶的车辆）仍然遵循仿真平台中嵌入的基于MLP的收费车道决策模型，没有引入任何基于MARL的协作控制策略。效率通过平均车辆速度来衡量，而安全性则通过交通冲突的分布来评估。

6.2. 性能评估
图8显示了在三种不同情景下（MAPPO控制、PPO控制和基线（无控制）下，CAVs、人类驾驶的ETC车辆（ETC HVs）和MTC车辆（MTC HVs）的平均分流速度及其相应的变异性。结果显示，在MAPPO和PPO算法的控制下，整体分流速度均优于无控制基线。值得注意的是，MAPPO控制下的CAVs平均分流速度最高，显著优于HVs，这证明了这种多智能体策略在提高效率方面的有效性。此外，与PPO算法相比，MAPPO的速度标准差更低，表明交通运行更加稳定。这种稳定性归因于CTDE（混合交通驱动）架构中的协作机制，该机制使智能体能够利用全局状态信息，从而减轻局部竞争。相比之下，PPO算法仅依赖局部观察进行独立决策，导致速度提升有限，且智能体间的速度波动较大。另外，观察到在有CAVs的情况下，人类驾驶车辆的平均速度也略有提高，这表明所提出的策略在不影响HVs性能的情况下提升了CAVs的效率。

6.3. 对比分析
为了验证所提出的协作控制策略在不同交通需求和几何条件下的适用性和鲁棒性，设计了两组对比实验：
- 交通流量敏感性测试：分流区的长度固定为140米，而交通流量分别设定为1500辆/小时、1750辆/小时和2000辆/小时。
- 几何敏感性测试：在交通流量固定为1500辆/小时的情况下，分流区的长度分别设定为120米、140米和180米。
在所有实验中，其他参数如ETC和MTC车辆的比例、CAVs的渗透率以及初始速度分布保持不变。每次模拟独立执行1小时。评估指标包括平均分流速度和水流区域内的总冲突数量。
图10比较了在不同交通流量下MAPPO控制和无控制情景下的平均分流速度及其分布。结果表明，在MAPPO和PPO算法的控制下，整体分流速度都有所提高。特别是在1500辆/小时的流量下，平均分流速度的提升最为显著。随着交通流量的增加，在1750辆/小时和2000辆/小时时，由于车辆互动加剧且协调空间受限，平均速度略有下降。然而，在MAPPO控制下，低速车辆的比例仍然减少，速度分布相对紧凑。这表明所提出的协作控制策略有效地减缓了高流量条件下的车辆速度差异。
图11展示了分流区长度对平均速度的影响。随着长度的增加，平均速度略有上升趋势，MAPPO策略的表现更为明显。特别是在120米长度时，两种情景下的平均速度差异最小；而在140米和160米长度时，MAPPO在平均分流速度上实现了显著的改进。当长度延长到180米时，尽管平均速度的绝对差异减小，但MAPPO下的速度分布更加集中。这证实了所提出策略在平滑交通流量波动方面的优势。
图12比较了MAPPO策略和基线方法在不同情景下的交通冲突数量和ETTC（扩展碰撞时间）值。如图12a所示，随着交通流量的增加，冲突数量增加。然而，MAPPO始终比基线产生更少的冲突。值得注意的是，在(0,1]秒范围内的严重冲突中，MAPPO分别减少了16.3%、15.9%和6.0%。这表明尽管在高流量条件下MAPPO的安全改进效果减弱，但其效果仍然明显。
图12b研究了分流区长度对冲突的影响。随着长度的增加，冲突总数略有增加。相比之下，MAPPO下的相对安全改进更为显著。对于120米、140米和180米的分流区长度，(0,1]秒范围内的严重冲突分别减少了8.9%、14.7%和15.0%。这些结果表明，额外的空间容量增强了CAVs之间的协作控制效果，并加强了所提出控制策略的安全效益。

7. 结论
本研究旨在为收费站分流区域中的CAVs开发一种协作控制策略，以提高交通效率和运行安全性。采用基于PDA（概率驱动自从适应）框架的二维微观仿真平台作为底层环境，以再现分流区域中的弱约束驾驶行为，为策略训练和评估提供高保真度环境。在此基础上，提出了一种基于MAPPO的协作控制方法，以实现多车辆协调。结果表明，所提出的框架在效率和安全性方面都具有明显优势。在MAPPO控制下，CAVs实现了最高平均分流速度，并且波动最小，表明操作更加平稳。协作机制还改善了整体交通环境，从而提高了人类驾驶车辆的效率。此外，基于ETTC（扩展碰撞时间）的冲突分析表明，所提出的策略有效减少了严重冲突，凸显了多智能体协作在弱约束分流区域中的安全效益。在不同交通流量和分流长度下的对比实验进一步证实了该策略在不同交通需求和几何条件下的适用性。较高的交通流量往往会削弱合作策略的优化效果，而更大的分流区域则能进一步提升车辆之间的协调效果。本研究主要关注在交通约束较弱的收费广场分流区域内，自动驾驶车辆（CAVs）的合作决策机制。未来的工作将进一步纳入车辆动态因素，以提高所提出策略的控制性能。为了增强模型的泛化能力，我们将研究不同CAVs渗透率对合作控制效果的影响，涵盖更广泛的情景。此外，我们还将考虑更现实的交通约束条件，如通信限制、障碍物以及部分车道封闭等情况，以进一步拓展该框架的适用范围，并评估其在实际应用中的潜力。

热点排行