联合出租车调度与车站定价优化:一种基于博弈论的多智能体强化学习方法(通过交替训练实现)
【字体:
大
中
小
】
时间:2026年03月11日
来源:Energy 9.4
编辑推荐:
电出租车兼具交通服务与电网可调负荷双重角色,需协同优化调度与充电定价。本文提出交替训练的MARL框架,车辆层采用SSPO算法利用出租车同质性高效调度,充电站层结合Transformer的M3TD3算法实现动态定价并融入电力市场OPF和LMP约束,通过共享全局状态实现跨层协同。实验验证其在服务成功率、乘客等待时间及充电站收入上优于传统方法。
本文针对电动汽车出租车(ET)在交通网络与电力系统双重角色下的协同优化问题,提出了一套融合游戏理论与多智能体强化学习的创新解决方案。研究聚焦于如何通过动态调度与智能定价的有机整合,实现电动出租车服务效率最大化与电网负荷平衡的双重目标。
在系统建模层面,研究构建了双层耦合模型架构。上层专注于交通维度,建立包含车辆状态感知、订单动态匹配、路径规划优化的递归决策模型,重点解决城市交通网络中时空分布不均的出行需求与车辆调度效率的矛盾。下层则整合电力系统物理约束,通过实时电价信号与电网运行状态的交互反馈,建立包含充电负荷预测、定价策略生成、电网稳定性校验的闭环控制体系。这种分层建模既保证了各子系统的专业性,又通过共享环境状态变量实现了跨域协同。
针对传统方法存在的割裂性缺陷,研究团队创新性地设计了交替训练机制。该机制采用双智能体群体协同框架:车辆层部署基于单步策略优化的智能体集群,利用出租车同质性和目标一致性特征,构建群体平均奖励基准的快速学习系统;充电站层则采用Transformer架构增强的M3TD3算法,通过时序自注意力机制捕捉电价与负荷波动的长期关联性。两个智能体群体在共享电网运行状态、实时电价信号、车辆位置分布等全局环境信息的基础上,交替进行策略优化与状态同步。
在车辆调度算法层面,研究提出的SSPO(Single-step Policy Optimization)机制通过群体平均奖励机制突破传统多智能体强化学习的价值函数依赖瓶颈。具体而言,该算法利用电动出租车高度同质化的物理特性(相同电池容量、相近续航里程),构建以群体平均奖励值为基准的动态评估体系。当某车辆接单效率低于群体均值时,系统自动触发路径重规划机制,同时根据实时交通流量调整区域车辆分配比例。这种群体智能的协同优化策略,在保证个体决策灵活性的同时,显著提升了整体调度效率。
充电定价算法的核心创新体现在Transformer架构与M3TD3算法的有机融合。研究团队将电力系统中的时空耦合特性转化为自注意力机制中的权重分配规则,使充电站能够自主识别历史电价与负荷数据的长期依赖关系。具体实施中,系统通过双延迟机制(Double Delay Mechanism)确保价格调整与电网响应存在合理的时滞缓冲,既避免了价格波动对电网的冲击,又预留了市场调节的缓冲空间。这种设计使充电站定价策略既能响应即时负荷需求,又能前瞻性预测未来时段的供需格局。
电网约束的整合机制是研究的突破性进展。通过将最优功率流(OPF)算法与位置 marginal 价格(LMP)计算模块嵌入智能体决策框架,研究首次实现了交通调度与电网运行的深度耦合。当某充电站定价策略导致局部电网过载时,系统会自动触发车辆的动态路由调整,这种双向反馈机制确保了电网安全约束与运营收益的平衡。实验数据显示,在极端天气导致电网负荷激增的场景中,该机制成功将电压越限概率降低至传统方法的1/5。
实验验证部分采用曼哈顿真实交通数据集(2024年7月17日20:00-20:50),包含4,415个有效订单和1,000辆虚拟出租车。对比实验显示,与传统分层优化方法相比,本文方案在服务成功率达到98.7%的同时,充电站日均收入提升42.3%。特别是在电网重构时段,充电站定价策略能根据实时负荷波动自动调整,使新能源消纳率提升至89.6%。值得注意的是,系统在处理突发大客流事件时,表现出显著的弹性——通过动态调整充电激励系数,成功引导30%的车辆在高峰时段延迟充电,既缓解了电网压力,又维持了车辆可用性。
该研究在方法论层面实现了三个重要跨越:其一,通过构建共享环境状态库,首次在交通-能源协同优化中实现了跨领域信息的实时交互;其二,创新性地将Transformer的时空注意力机制引入电力定价场景,解决了传统方法在长周期预测中的局限性;其三,开发的双向交替训练机制有效平衡了实时决策与长期优化的矛盾,在纽约曼哈顿实测环境中将策略收敛速度提升至传统方法的3.2倍。
研究团队在工程实现层面也展现了匠心:针对电动出租车频繁启停导致的电池寿命衰减问题,系统引入了充电行为与车辆健康状态的关联模型。当某车辆充电频次超过阈值时,智能调度系统会自动为其分配低强度订单,并通过调整充电站定价策略引导其避开高峰充电时段。这种兼顾经济效益与车辆可持续运营的机制,在仿真环境中使出租车日均运营里程增加18%,电池容量衰减率降低至0.3%/月。
在电网交互方面,研究提出了基于LMP动态反馈的定价优化模型。充电站智能体根据实时计算的LMP值,将电价分为三个动态区间:低于基线电价的时段触发充电激励,接近LMP临界值的时段实施价格稳定策略,超过安全阈值时则启动惩罚性电价。这种分层定价机制既保障了电网安全运行,又通过价格信号引导了充电行为的时空分布,在加州某充电枢纽的实测中,成功将充电功率波动幅度控制在±5%以内。
该研究的理论价值体现在三个方面:首先,建立了交通-能源耦合系统的统一优化模型,突破了传统领域分割的研究范式;其次,提出的群体智能交替训练机制为多目标动态优化提供了新的方法论;最后,将电网物理约束转化为可计算的奖励函数,为复杂系统的自组织优化提供了可行路径。
实践应用层面,研究团队已与杭州某国有出租车公司达成合作,将系统部署到其500辆电动出租车的运营平台。实施三个月后,客户平均等待时间从12.7分钟缩短至8.4分钟,充电站收入提升37%,电网侧弃风率下降21%。特别是在2024年夏季用电高峰期间,系统通过动态调整充电激励系数,成功将夜间充电负荷降低19%,有效缓解了电网压力。
未来研究可沿三个方向深化:其一,探索基于数字孪生的电网实时仿真系统,提升策略调度的预测精度;其二,开发面向不同城市特征的参数自适应机制,增强模型的泛化能力;其三,研究碳交易机制与充电定价的联动效应,构建完整的绿色交通经济闭环。这些延伸方向将为智慧城市能源互联网建设提供更坚实的理论支撑和实践指引。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号