通过神经逼近实现对联网车辆的实时分布式预测控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES》：Real-time distributed predictive control of connected vehicles by neural approximation

【字体：大中小】 时间：2026年05月10日 来源：TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES 7.9

编辑推荐：

　　吴思超|葛强|段晶良|纪尧梁|李升博|刘尧|詹国建|张向腾|郑思菲北京科技大学机械工程学院，中国北京100083 摘要多车辆系统的协同控制是一个复杂的非线性优化问题，存在众多约束条件，这使得实时实施变得极具挑战性。在本文中，我们提出了一种多车辆神经分布式预测控制

　　吴思超|葛强|段晶良|纪尧梁|李升博|刘尧|詹国建|张向腾|郑思菲
北京科技大学机械工程学院，中国北京100083

摘要
多车辆系统的协同控制是一个复杂的非线性优化问题，存在众多约束条件，这使得实时实施变得极具挑战性。在本文中，我们提出了一种多车辆神经分布式预测控制（NDMPC）方法，该方法能够处理多种场景，并且车辆无需依赖道路拓扑结构来确定相对优先级。为了保证计算效率，我们将在线最优跟踪问题转化为离线策略优化，通过单个神经网络为每辆车生成最优的纵向和横向控制序列。我们通过引入可微分罚函数来解决避免碰撞的约束，并推导出基于模型的策略梯度算法。仿真结果表明，与近乎最优的在线求解器Ipopt相比，我们的方法在计算效率上提高了5.7倍，同时在单车辆正弦轨迹跟踪任务中，实现了超过99.4%的横向位置跟踪精度，同时能够避开多个动态障碍物。随后，我们在不同的真实世界交通场景中实施了该方法。在实验中，两辆连接的自动驾驶车辆成功同时通过了冲突区域，平均计算时间为4.1毫秒。相关视频可见于：https://youtube.com/playlist?list=PLEO1KAxpzETZgAvnTfb3wE_9Yfw3wKxDj

引言
connected多车辆系统（MVS）通过共享相邻智能车辆的状态信息，有望同时提升交通安全和效率（Rios-Torres和Malikopoulos，2016）。然而，MVS之间的协同控制是一个复杂的优化问题，其复杂性呈指数级增长。分布式控制在可扩展性和鲁棒性方面具有显著优势。最近，Xu等人（2018）利用分布式线性共识控制在无信号交叉口实现了多车辆协同，通过寻找冲突有向图的深度优先生成树来解决冲突问题。Hu等人（2021）通过分布式鲁棒控制解决了交叉口交通流量变化的问题，利用车道拓扑结构构建了无冲突的通行序列。Katriniok等人（2017）采用反应时间指数来局部分配优先级，但假设所有车辆都行驶在固定路径上。这些方法仅考虑了纵向控制，可能导致频繁的加速度波动。此外，这些工作假设道路拓扑信息是已知的，因此在新的场景中需要手动调整冲突图模型。分布式模型预测控制（DMPC）为消除这种场景依赖性提供了一种有前景的方法，它使得车辆能够在不依赖预先定义的道路拓扑的情况下实现无碰撞协调。最近的研究将DMPC应用于各种连接车辆场景。Ge等人（2022）提出了一个不受拓扑限制的DMPC框架，适用于无信号交叉口且无需优先级分配的情况。Li等人（2023b）将DMPC扩展到具有耦合纵向-横向动态的车辆编队中，张等人（2023）开发了基于云的异构连接车辆架构。此外，Co-DMPC方案在车辆底盘控制中也展示了有效的协同效果（Wang等人，2024）。Levy和Haddad（2022）证明，基于NMPC的协同路径和轨迹规划使数十辆自动驾驶车辆能够在没有车道标记的情况下高效利用整个道路宽度，改善了交通流量并降低了能耗。在此基础上，Dabestani等人（2025a, 2025b）提出了事件触发型分布式MPC方案，能够在包括单独车辆、一维编队和二维柔性群体在内的多样化自动化车辆实体中实现实时碰撞避免和节能导航，即使存在人工驾驶车辆的情况。

为了加速受限非线性MPC的实时处理，出现了两个主要的研究方向：在线加速和离线近似。在线加速技术，如移动阻塞、提前终止、热启动策略和延续方法，旨在减少每次优化步骤的计算负担。移动阻塞方法假设预测范围内的某些控制输入保持不变以提高效率（Cagienard等人，2007）。Wang和Boyd提出了一种提前终止方法来缩短计算时间（Wang和Boyd，2009），而Yildirim和Wright（2002）分析了也适用于非线性MPC的内点法热启动策略。延续广义最小残差（CGMRES）方法通过结合延续技术和GMRES算法，提供了一种有效的在线加速方法，用于快速解决序列二次规划子问题（Ohtsuka，2004；Seguchi和Ohtsuka，2003）。与MPC并行的是，迭代线性二次调节器（ILQR）及其受限变体为无约束非线性控制提供了高效解决方案（Li等人，2023a；Pfeiffer等人，2020）。然而，ILQR无法直接处理碰撞避免或状态/输入界限等一般约束（Chen等人，2019）。ILQR的扩展引入了障碍或罚函数（Cai等人，2022；Fang等人，2024），但仍然依赖于可行的初始化和仔细的调整，在非凸或动态条件下往往会导致次优或不可行的解决方案。因此，无论是标准的MPC求解器（由于实时限制）还是基于ILQR的方法（由于约束和最优性之间的权衡），都无法完全满足复杂交通环境中车辆协同控制的要求。

相比之下，离线近似传统上依赖于显式的MPC。在这种方法中，通常会构建一个多参数二次规划问题（mpQP），并提前计算分段仿射状态反馈控制律，从而减少在线计算时间（Bemporad，2019；T?ndel等人，2003）。虽然显式MPC处理线性动态的最优调节，但近似动态规划（ADP）可以处理非线性系统（Li等人，2023；Wang等人，2009）。ADP可以通过将参考跟踪转化为误差调节来近似最优跟踪策略，前提是系统是线性的（Li等人，2015；Tan等人，2015）或仿射非线性的（Dong等人，2018；Wang等人，2012；Wei等人，2018）。Liu等人（2022）提出了一种基于循环神经网络（RNN）的循环MPC，用于近似非线性最优跟踪任务的解。然而，这项工作没有考虑碰撞避免约束，且整个动作序列的计算成本过高，无法实时应用。最近，提出了基于神经网络的显式MPC方法，以实现受限最优控制的实时近似，包括物理信息驱动的神经网络优化器（Shi等人，2025）和基于Transformer的方法（Wu等人，2026）。

在本文中，我们提出了一种独立于道路拓扑的NDMPC方法，每辆车使用预训练的神经策略实现实时控制。我们的贡献总结如下：
(1) 我们为一般场景中的MVS设计了一个分布式问题表述框架，其中每个车辆节点解决一个局部有限视界的最优跟踪控制问题，将其他车辆的预测轨迹作为碰撞约束。我们的NDMPC方法不依赖于任何先验的道路拓扑知识，因此自然适用于多种场景。
(2) 我们提出了一种基于模型的策略梯度算法，用于训练神经网络以近似每辆车的N步最优控制序列。在这里，我们的策略改进利用了外部点罚函数来处理障碍物约束，并利用可微分的车辆模型来获取分析梯度。
(3) 我们通过仿真和现场实验验证了所学策略的效果。与近乎最优的求解器Ipopt相比，我们的神经策略在计算效率上提高了5.7倍，同时在横向位置跟踪精度上保持了99.4%的准确性，展示了在考虑的交叉口、环岛和多车道场景中的智能协同行为。我们测量到，在真实车辆实验中，输出一个20步控制序列的平均计算时间为4.1毫秒，表明我们的方法可以实时应用。

**部分摘录**
**分布式最优跟踪问题**
我们定义了一般场景下连接MVS的局部最优控制问题，考虑了具有移动障碍物约束的离散时间有限视界最优跟踪任务：
\[ \min_{i = 0}^{N-p-1} \left\{ \begin{array}{r}
v_x^{(i)} = f(x_i, u_i), & x_i + 1 = f(x_i, u_i), \\
h_n(x_i, x_n^{(i)} \leq 0, & u_i \in [u_{\text{min}}, u_i \leq u_{\text{max}}, \\
x_0 = x_t, & i = 0, \quad n = 0, \quad N = N - p - 1
\end{array} \} \]
其中 \( u_i \) 和 \( x_i \) 分别是预测范围内时间戳 \( i \) 时的系统控制和状态向量，从当前绝对时间 \( t \) 开始。\( x_{ref}^i \) 表示第 \( i \) 个参考状态。

**策略表示**
问题（1）结合约束条件（2）–（5）是一个典型的受限非线性规划（NLP）任务，我们设计了一种基于模型的学习方法来近似最优控制策略。我们使用多层感知器（MLP）网络来近似对应于预测视界长度 \( N_p \) 的最优动作序列。转换后的优化问题如下：
\[ \min_{\theta} \left\{ \begin{array}{r}
v_x^{(i)} = f(x_i, \pi_{\theta}(s)[i]), & x_i + 1 = f(x_i, \pi_{\theta}(s)[i]), \\
h_n(x_i, x_n^{(i)} \leq 0, & u_i \in [u_{\theta}(s)[i], u_i \leq u_{\text{max}}, \\
\end{array} \} \]

**设置**
状态向量、控制向量和3自由度可微分车辆动力学（Ge等人，2021）定义如下：
\[ x_i := [p_x^{(i)}, p_y^{(i)}, p_z^{(i)}, \phi^{(i)}, v_{lx}^{(i)}, v_{lt}^{(i)}, \omega^{(i)} \为空心向量] \]，
\[ u_i := [a_i, \delta_i] \为空心向量 \]，
\[ f(x_i, u_i) := \left[ p_x^{(i) + T_s(v_{lx}^{(i)}, \cos(\phi^{(i)} - v_{lt}^{(i)} \right] + p_y^{(i)} + T_s(v_{lx}^{(i)}, \sin(\phi^{(i)} + v_{lt}^{(i)} \right] + \phi^{(i)} + T_s\omega^{(i)} \]
\[ v_{lx}^{(i)} = \left[ p_x^{(i)}, v_{lt}^{(i)} + \sin(\phi^{(i)} \right] + T_s\omega^{(i)} \]

**实验布局**
实验布局如图11所示，使用了我们之前工作（Ge等人，2022）中描述的四组件框架。信息拓扑由低延迟的分布式V2V网络形成。在我们的实现中，假设车辆可以在局部通信范围内共享它们的预测状态信息。具体来说，每辆车只与可能影响其轨迹规划的附近车辆交换信息，从而减少了通信负担。

**结论**
我们提出了一种适用于一般交通场景中连接MVS的分布式控制方法，其实时解决方案由近似神经策略保证。对于每个分布式受限最优跟踪控制问题，我们的方法使用单个神经网络生成最优控制序列。我们通过可微分罚函数来解决碰撞避免约束，并推导出基于模型的策略梯度算法。仿真结果表明，我们的方法有效提高了计算效率。

**作者贡献声明**
吴思超：撰写——原始草稿、方法论、调查、数据整理。
葛强：撰写——原始草稿、验证、方法论、调查、数据整理。
段晶良：撰写——审稿与编辑、验证、监督。
纪尧梁：数据整理。
李升博：验证、监督、方法论。
刘尧：方法论、调查、数据整理。
詹国建：方法论、数据整理。
张向腾：方法论、调查。
郑思菲：验证。

联系信箱：

粤ICP备09063491号

热点排行