《Energy and AI》:Predictive Road-Aware Deep Reinforcement Learning for Energy Management of Fuel Cell Hybrid Electric Vehicles: A Real-World Tunisian Case Study
本研究针对燃料电池混合动力汽车在突尼斯境内一段562 km真实道路行程中的能量管理问题展开研究,该行程涵盖城市中心、高速公路及休息区等异构驾驶工况。所提出框架通过连续荷电状态(SOC,state of charge)跟踪保持电池动力学的真实性,其中每一分段结束时的最终SOC将作为下一分段的初始值,并在休息阶段实现自然的部分恢复。研究采用一种将深度强化学习(DRL,deep reinforcement learning)与带外生输入的非线性自回归神经网络(NARX,nonlinear autoregressive neural network with exogenous inputs)相耦合的架构,用于预测关键系统变量,并优化燃料电池、电池与超级电容器之间的实时功率分配。研究设计并比较了三种奖励函数形式:基线策略、电池保护策略以及自适应道路感知策略。结果表明,自适应道路感知策略在氢经济性与电荷可持续性之间实现了最佳总体平衡。在长距离行驶工况下,自适应道路感知策略获得了最低氢耗,相较于道路感知深度确定性策略梯度策略降低氢耗8%,相较于等效燃料消耗最小化策略降低27.3%,尽管其最终SOC略低于上述两种方法。在组合泛化驾驶工况下,自适应道路感知策略相较于深度确定性策略梯度基线方法降低氢耗6.64%,同时在最终SOC方面较等效燃料消耗最小化策略提高3.4%,在氢耗方面降低26.5%,从而证实该方法对未见驾驶条件具有较强泛化能力。这表明,所提出的预测信息增强强化学习框架在长距离运行及更广泛真实世界部署中均具有良好有效性。
该文发表于《Energy and AI》,围绕燃料电池混合动力汽车(FCHEV,fuel cell hybrid electric vehicle)在复杂真实道路条件下的能量管理展开研究。随着可持续交通加速发展,FCHEV因高效率和近零排放而受到广泛关注,但其动力系统由燃料电池、电池和超级电容器等多源储能单元构成,如何在动态工况下实现高效、平滑且安全的功率分配,仍是制约其工程应用的关键问题。现有能量管理策略(EMS,energy management system)主要包括规则型、模型型与数据驱动型三类。规则型方法实现简单但对预设规则依赖强,难以适应多变工况;模型型方法具有较强可解释性与优化能力,但依赖精确模型且实时计算负担较大;深度强化学习(DRL,deep reinforcement learning)虽然具备较好的自适应能力,但仍面临奖励函数敏感、训练不稳定、样本效率有限以及在单一工况验证下泛化不足等问题。与此同时,实际车载传感还会受到噪声、延迟和瞬态误差影响,导致纯响应式控制难以稳定发挥性能。因此,开展融合状态预测与强化学习决策的能量管理研究,对于提升FCHEV在真实道路中的长期运行效率与控制鲁棒性具有重要意义。
针对上述问题,研究人员提出了一种耦合NARX-DRL的预测—控制一体化能量管理框架。在该框架中,带外生输入的非线性自回归网络首先对燃料电池、电池和超级电容器等关键子系统电压状态进行短时预测,以补偿测量不完美并增强状态估计可靠性;随后,预测结果与车辆速度、道路坡度、需求功率、SOC和氢耗等状态一同输入深度强化学习控制器,以生成燃料电池电流和电池电流参考值,进而实现三源功率协同分配。研究在方法层面进一步设计了三类奖励机制,即基线强化学习策略、电池保护型强化学习策略和自适应道路感知强化学习策略,并在深度确定性策略梯度(DDPG,Deep Deterministic Policy Gradient)和近端策略优化(PPO,Proximal Policy Optimization)框架下进行系统比较。研究结果表明,整体式NARX预测模型较模块化独立预测器具有更高精度,而采用速度相关SOC权重的自适应道路感知奖励设计,在长距离真实路线和组合泛化工况中均表现出最优综合性能,尤其是PPO道路感知策略在氢耗控制方面优势最为突出。该研究的重要意义在于验证了“预测前端+强化学习控制”的协同思路可显著提升FCHEV在复杂道路环境中的能量分配效率、氢经济性与工况泛化能力,为真实车辆部署提供了更具工程可行性的智能能量管理方案。
研究人员为开展该研究主要采用了以下关键技术方法:首先,构建包含燃料电池、锂离子电池和超级电容器的FCHEV三源混合动力系统模型,并在MATLAB/Simulink中进行多速率仿真;其次,建立两类NARX预测架构,即独立子系统预测模型与整体式多输入多输出预测模型,并基于12组不同驾驶循环数据离线训练,在NEDC、NYCC与US06组合循环上验证泛化性能;再次,将预测电压状态嵌入DRL控制状态向量,分别训练DDPG与PPO能量管理策略;最后,在突尼斯Bizerte至Gabès全长562 km、总时长8小时5分钟的真实分段路线以及标准组合驾驶循环上,对ECMS、DDPG和PPO不同奖励设计进行对比评估。
3. NARX-Based Prediction Architectures for Multi-Source Energy Estimation
在预测层设计方面,研究人员首先提出NARX作为FCHEV关键状态预测前端,用于建模具有时间依赖性的非线性动态系统。文章比较了两类预测结构:一类是面向燃料电池、电池、超级电容器和车辆动力学的多个独立NARX网络,每个网络仅处理对应子系统的输入信息,具有训练简单、解释性较强和便于独立调参的特点;另一类是单一整体式NARX网络,联合处理所有输入并同时预测多个输出,以捕捉跨子系统动态耦合关系。研究通过这两种结构的对比,不仅比较预测精度差异,也意在识别FCHEV实时预测中“模块化建模”与“系统级整体建模”之间的最优平衡。
3.1. Prediction methodology
在具体方法上,整体式NARX将燃料电池、电池和超级电容器动态统一表述为一个多输入多输出非线性系统,联合利用历史输出与外部输入学习子系统之间的耦合行为;独立式NARX则将燃料电池电压、电池电压和超级电容器电压分别建模,降低了训练复杂度。研究还将需求功率、道路坡角和车速作为补充输入纳入整体式预测模型,以提高对多源储能电压变化的表征能力。为保证比较公平,两类模型采用相同隐藏层规模、延迟阶次、归一化方式、正则化系数及训练/验证/测试划分比例。
4. Comparative Energy Management Strategies
在能量管理策略层面,研究首先选取等效燃料消耗最小化策略(ECMS,Equivalent Consumption Minimization Strategy)作为经典基准方法。ECMS通过等效因子将电能消耗转换为等效燃料消耗,并在每一时刻求解瞬时最优功率分配,具有计算量低、近似最优的优势,因此适合作为参照对象。与此同时,研究进一步引入两类深度强化学习算法:DDPG适用于连续动作控制,可直接输出燃料电池与电池电流参考值;PPO则通过裁剪代理目标函数提高训练稳定性和鲁棒性。在该文建立的马尔可夫决策过程(MDP,Markov Decision Process)中,状态向量包含需求功率、车速、道路坡度、燃料电池电流、预测燃料电池电压、累计氢耗、电池电流、预测电池电压、电池SOC、超级电容器电流、预测超级电容器电压及超级电容器SOC等信息,动作向量则由燃料电池参考电流和电池参考电流构成。
4.2.1. Baseline RL Method
基线强化学习方法以最小化氢耗并维持电池SOC在允许范围内为核心目标。奖励函数由氢耗项、SOC偏差项和低SOC惩罚项组成,其中当SOC低于10%阈值时引入额外惩罚,旨在抑制深度放电。这一设计使智能体在保持氢经济性的同时避免过度消耗电池。
4.2.2. Battery-Conservative RL Method
电池保护型强化学习方法在基线奖励函数基础上提高SOC偏差项的权重,以强化电池电量保持目标。该设计促使控制器更多依赖燃料电池供能,从而降低电池放电深度并保护电池健康,但也可能因对电池使用约束更强而推高氢耗。
4.2.3. Adaptive Road-Aware RL
自适应道路感知强化学习方法是全文的核心创新之一。研究人员依据道路场景动态调整SOC保持项权重:在城市工况下,由于功率波动大且再生制动机会较多,仅施加较温和的SOC偏差惩罚,以允许电池灵活应对瞬态负荷;在高速工况下,由于负载较平稳,则提高SOC保持权重以抑制不必要的电池循环。文中以70 km/h作为城市与高速工况的分界速度,分别定义b
1与b
2两类SOC权重,且b
2 > b
1。该自适应奖励机制使控制器能够根据道路上下文进行前瞻式能源分配。
5. Results and discussion
在结果分析中,研究首先验证预测模型性能。NARX模型在离线训练后作为前端与DRL串联部署,并在NEDC、NYCC、US06组合驾驶循环中比较独立式与整体式预测器。结果显示,二者均可较好跟踪燃料电池电压,但整体式预测器在快速切换和瞬态工况下误差更低、响应更平滑;在电池电压预测中,整体式模型相较独立式模型显著降低误差,并在负载剧烈变化下表现出更高鲁棒性;在超级电容器电压预测中,整体式模型优势最为明显,误差显著低于独立式结构,说明跨子系统耦合信息对快速动态子系统的建模尤为重要。表5进一步量化了这种改进:燃料电池电压预测RMSE由0.754 V降至0.707 V,R
2由0.946提高至0.952;电池电压MAE由2.140 V降至1.455 V,RMSE由2.570 V降至1.820 V,R
2由0.657提高至0.758;超级电容器电压MAE由8.166 V显著降至2.038 V,RMSE由8.522 V降至2.324 V,R
2由0.851提高至0.953。研究据此认定整体式NARX是更适合作为FCHEV预测前端的架构。
在系统结构方面,文章还通过超级电容器电压结果验证了被动直连式超级电容器拓扑的可行性。由于超级电容器直接连接DC母线,其端电压即为母线电压;在完整2400 s组合循环中,电压波动范围维持在220–260 V,相对于240 V标称值的变化约为±8%,处于标准牵引逆变器±15%至20%的运行容差之内,表明容量设定为500 F的超级电容器能够保证母线电压稳定,不会造成不可接受的电压偏移。
在控制性能验证中,研究采用突尼斯Bizerte至Gabès实际路线,总长约562 km,包含城市、高速与休息分段。路线分段包括A→B、C→D和F→G城市工况,B→C、D→E、E→F高速工况,以及D和F两个休息时段。该路线速度曲线同时包含频繁启停和较长稳态巡航,适合检验控制策略在异构工况下的适应性。
从长距离工况对比结果看,ECMS的最终电池SOC为15.41%,总氢耗为1973;DDPG基线方法和PPO基线方法虽然将氢耗分别降低至1780和1601,但对应最终SOC分别降至11.71%和11.36%,说明其更多依赖电池放电实现节氢。电池保护型策略则通过提高SOC惩罚权重,将DDPG和PPO最终SOC提升至21.30%和19.79%,但相应氢耗增至1840和1694,体现出氢耗与SOC保持之间的典型权衡。相比之下,道路感知策略在两者之间取得更优平衡,其中DDPG道路感知方法的最终SOC为15.52%,氢耗为1574;PPO道路感知方法最终SOC为14.34%,总氢耗仅1435,为所有方法中最低。文章指出,相对于DDPG道路感知方法,PPO道路感知方法氢耗进一步下降约8%;相对于ECMS则下降约27.3%至27.5%,表明PPO结合自适应道路感知奖励在长距离真实工况中具有最优综合性能。
SOC演化结果表明,在初始阶段DDPG道路感知策略放电最快,而PPO和ECMS相对平缓;两个休息时段均出现电池部分恢复。随着行程推进,ECMS后期SOC下降明显,并在接近终点时跌破10%,显示其对长期变化缺乏足够适应性;而两类自适应DRL方法整体SOC轨迹更平滑,其中DDPG保留更高剩余SOC,PPO则以略低SOC换取更优氢经济性。累计氢耗曲线则进一步证实,ECMS在约1.0×10
4 s后增长明显快于DRL方法,至行程结束时累积氢耗最高;PPO曲线始终最低,表现出最优燃料利用效率。
燃料电池功率分布结果显示,PPO道路感知策略能够将燃料电池输出维持在较窄功率带内,初始瞬态后多集中于约2.8–3.2 kW范围,呈现更平滑、更稳定的功率调度;DDPG波动较大,存在较多高低功率切换;ECMS则长期维持在较高功率水平附近,并出现频繁急剧波动。该结果说明PPO不仅节氢,还能减轻燃料电池动态负荷应力。电池功率曲线表明,ECMS表面上波动较小,但存在更深的负功率峰值;PPO与DDPG则在不同时段呈现不同程度的功率调节,其中PPO在后段再次展现出较平滑的控制行为。超级电容器功率结果显示,PPO主要在瞬态峰值阶段使用超级电容器,且在中段长时间保持接近零的低活动水平,体现出更有选择性的快速功率支撑策略;DDPG和ECMS则表现出更强烈或更持续的超级电容器循环。
为评估训练随机性影响,研究对PPO自适应道路感知策略采用不同随机种子进行了5次独立训练。结果显示,总氢耗变化范围为1435–1470 mH
2,最终SOC为13.96%–15.02%,对应均值±标准差分别为1450.2 ± 13.6 mH
2和14.44% ± 0.45%,说明该策略具有较稳定的收敛特性和较好的复现性。
在泛化性能验证中,研究将已训练策略直接应用于由NEDC、NYCC和US06拼接得到的组合驾驶循环,而不进行再训练或参数调整。结果表明,ECMS在该工况下氢耗最高,为130.1 mH
2;DDPG基线方法氢耗为114.5 mH
2,最终SOC为81.42%;DDPG电池保护型方法最终SOC提高至89.29%,但氢耗升至127;DDPG自适应道路感知方法将氢耗降至108.2 mH
2。PPO方法整体优于DDPG,其中PPO基线方法氢耗为102.4 mH
2,PPO电池保护型方法最终SOC达90.05%,但氢耗升至108;PPO自适应道路感知方法最终SOC为84.31%,氢耗最低,仅95.6 mH
2。研究据此指出,自适应道路感知设计在异构驾驶片段中能够更灵活地进行能量分配,从而在未见工况中仍保持稳定优势。
讨论部分表明,该研究的核心贡献不在于单纯引入DRL,而在于通过预测前端改善状态感知质量,并利用道路上下文驱动奖励函数自适应调整,进而提升长期行程中的功率分配质量。整体式NARX通过学习燃料电池、电池、超级电容器与车辆运行状态之间的系统级耦合关系,显著增强了关键电压状态预测的准确性,尤其对超级电容器这类瞬态响应强烈的子系统优势明显。强化学习层面,奖励函数设计对控制器行为具有决定性影响:基线策略偏向节氢但更易透支电池,电池保护策略有利于维持SOC却会提高氢耗,而道路感知自适应权重则可在城市和高速场景间动态切换优化重点,因此在氢经济性与电荷可持续性之间形成更优折中。PPO优于DDPG的结果也说明,训练稳定性更强的策略梯度更新方式更适合处理此类长时域、连续动作和多目标耦合的能量管理问题。总体而言,研究证明了预测增强型道路感知强化学习框架在真实长距离行程和标准循环工况下均具备良好的鲁棒性和泛化能力。
结论部分可译为:
本研究通过将预测建模与强化学习控制相结合,提出了一种面向燃料电池混合动力汽车的自适应能量管理策略。研究构建了一个混合预测框架,其中关键系统变量由带外生输入的非线性自回归神经网络(NARX)进行预测,而深度强化学习策略则优化燃料电池、电池和超级电容器之间的实时功率分配。该方法在突尼斯一条562 km真实驾驶路线以及标准驾驶循环组合上进行了评估,路线包含城市交通、高速公路和休息阶段。研究考察了三种奖励函数形式,以评估目标设计对整体性能的影响:基线策略、电池保护策略和自适应道路感知策略。结果表明,自适应道路感知策略在氢经济性与电池电荷可持续性之间实现了最佳平衡。在长距离驾驶工况下,该策略相较于道路感知DDPG策略降低氢耗8%,相较于ECMS降低氢耗27.3%,尽管其最终SOC略低于这两种方法。在组合泛化驾驶工况下,该策略相较于DDPG基线方法将最终SOC提高1.98%,并将氢耗降低6.64%;相较于ECMS,则在最终SOC上提高3.4%,在氢耗上降低26.5%。这些结果证实,在预测信息增强的强化学习框架中引入道路感知奖励设计,能够提升能量分配效率、改善氢经济性,并在长距离真实运行和标准驾驶循环中表现出良好的泛化能力。