在单向汽车共享系统中,基于用户激励的车辆重新分配的综合需求预测与决策制定:一个强化学习框架
《Sustainable Cities and Society》:Integrated Demand Prediction and Decision-Making for User-incentive-based Vehicle Relocation in One-Way Car-Sharing System: A Reinforcement Learning Framework
【字体:
大
中
小
】
时间:2026年05月07日
来源:Sustainable Cities and Society 12
编辑推荐:
创珠|赵菲菲|王向婷
北京交通大学交通与运输学院,中国北京100044
摘要
汽车共享系统(CSSs)的迅速扩展,尤其是基于单方向站点的模式,由于需求具有不确定性和空间不对称性,使得城市网络中的供需平衡变得复杂。传统的基于运营商的车辆重新调配方式往往成本高昂且能耗大,这削弱了
创珠|赵菲菲|王向婷
北京交通大学交通与运输学院,中国北京100044
摘要
汽车共享系统(CSSs)的迅速扩展,尤其是基于单方向站点的模式,由于需求具有不确定性和空间不对称性,使得城市网络中的供需平衡变得复杂。传统的基于运营商的车辆重新调配方式往往成本高昂且能耗大,这削弱了共享出行的可持续性。我们提出了一种预测性和自适应的用户激励策略,该策略利用智慧城市数据以更环保的方式重新平衡车辆资源。车辆移动被建模为一个基于预测的马尔可夫决策过程;随后使用深度强化学习来制定与实时需求模式相匹配的重新调配政策。这种预测与智能重新调配汽车共享策略(PIRCS)将站点级需求预测与动态激励优化结合起来。在每个决策阶段,都会选择借车和还车地点以及激励水平,以在遵守每日预算限制的同时最大化运营商的利润。该框架明确捕捉了重新调配决策与未来需求演变之间的反馈循环,增强了共享出行系统的韧性。在真实网络上的数值实验表明,PIRCS在可比的预算水平下服务的净利润比传统和非整合的基准方案高出16.5%。这项研究通过将需求预测、用户激励和自适应决策结合在一个以可持续性为导向的优化框架中,为智能共享出行领域做出了贡献。
引言
共享经济的兴起显著改变了城市出行方式。传统的公共交通系统受到固定路线和时刻表的约束,经常在可达性和服务灵活性方面面临挑战。相比之下,按需出行服务(如汽车共享系统CSSs)作为可行的替代方案应运而生,减少了私人车辆拥有量,并促进了更可持续的城市交通(Baptista等人,2014;Greifenstein等人,2025;Kalambay等人,2025;Martin和Shaheen,2011)。对于用户而言,这些系统提供了经济高效且灵活的出行方式,而社区则受益于交通拥堵和排放的减少(Li等人,2025)。在过去十年中,由于城市化和共享、灵活交通选项的吸引力,CSSs的采用速度迅速增加(Golalikhani等人,2021;Illgen和H?ck,2019)。除了其独立作用外,CSSs正逐渐成为多模式城市出行生态系统中的不可或缺的组成部分,与公共交通、自行车共享和新兴的微出行服务相辅相成(Abouelela等人,2025;Mouratidis,2022)。通过提供便捷的首末段连接,汽车共享增强了地铁和公交网络的可达性,并支持无缝的多模式转换。这种整合不仅扩展了公共交通的覆盖范围,还有助于减少对私人汽车的依赖和城市拥堵,从而增强了共享出行的社会价值。
汽车共享系统通常被分为自由流动式和基于站点的系统(Jiménez和Soriguera,2024)。自由流动式系统允许车辆停放在任何合法停车位,为用户提供最大的灵活性,但由于空间的不确定性,这在车辆管理方面带来了挑战(Weikl和Bogenberger,2013)。相比之下,基于站点的系统有两种配置:双向和单向。在双向系统中,车辆必须返回同一站点;而在单向系统中,用户可以将车辆停在任何站点,从而提供更大的便利性和灵活性(Stokkink和Geroliminis,2021)。
本研究专注于基于单方向站点的汽车共享系统,在这种系统中,维持车辆供应与用户需求之间的平衡是一个持续存在的挑战。这个问题源于用户需求的空间和时间不对称性:高需求站点面临车辆短缺,而低需求站点则积累了闲置车辆。这种不平衡降低了服务质量和运营效率,凸显了需要动态和自适应重新调配策略的必要性。为了解决这一不平衡问题,通常会部署车辆重新调配操作来在网络中重新分配车辆。这些操作可以分为基于运营商的策略和基于用户的策略(Huang等人,2020;Jorge和Correia,2013)。基于运营商的重新调配涉及工作人员将车辆从过剩区域转移到短缺区域,虽然确保了可靠性,但会带来较高的劳动和燃料成本。相反,基于用户的重新调配通过提供激励措施(如折扣或出行积分)来鼓励客户参与再平衡,以调整他们的取车或还车地点(Clemente等人,2018;Di Febbraro等人,2012;Zhang等人,2021)。虽然这种方法成本效益较高,但其成功与否在很大程度上取决于用户的响应性和激励水平的动态调整。现有的重新调配策略还可以进一步分为静态和动态方法。静态重新调配假设在重新定位过程中没有活跃的用户需求,而动态重新调配则能够适应实时的需求波动(Illgen和H?ck,2019)。尽管动态模型可以提高响应性,但它们往往依赖于短视或启发式的规则,无法完全捕捉未来的需求演变。最近的研究引入了预测模型(例如基于马尔可夫或基于学习的方法)来预测未来的不平衡(Repoux等人,2019;Wang等人,2025)。然而,一个关键限制仍然存在:大多数研究将需求预测和重新调配决策视为两个独立的、顺序的过程。实际上,这两个组成部分是相互依赖的:预测的需求指导重新调配决策,而重新调配的结果(例如车辆分布的变化和用户反应)又会反过来重塑未来的需求模式。这种预测-决策的分离导致了次优的重新调配政策,并限制了当前系统在不确定和动态变化的需求条件下的适应能力。
为了克服这些限制,本文提出了一种预测与智能重新调配汽车共享策略(PIRCS)——一个集成式的、基于学习的框架,它将需求预测和重新调配决策明确地结合在一个统一的优化过程中。与传统的“预测-然后优化”方法不同,PIRCS建立了一个封闭的反馈循环,其中预测的需求指导用户激励和重新调配行动,而这些决策又通过行为反应重塑未来的需求模式。此外,PIRCS明确考虑了车辆借出和归还需求的双重不确定性,这两者本质上是相关且时空依赖的。在这个框架内,基于LightGBM的需求预测捕捉了短期的空间变化,而强化学习模块则在不确定性下自适应地学习最优的激励政策,确保车辆可用性和用户满意度之间的实时平衡。
该研究对智能共享出行系统领域做出了两个主要贡献:(1)一种新颖的基于预测和用户激励的重新调配框架。我们提出了PIRCS,这是一个集成化的优化框架,通过实时用户激励在基于单方向站点的汽车共享系统中动态重新分配车辆。它通过制定一个基于预测的马尔可夫决策过程(MDP)来明确考虑车辆借出和归还需求的双重不确定性。这使得系统能够在最小化运营成本的同时持续平衡车辆可用性。(2)一种协同的预测-决策整合机制。我们开发了一个端到端的强化学习框架,将需求预测和激励优化结合在一个封闭的循环结构中。基于LightGBM的需求预测模块提供概率性预测,以指导基于RL的重新调配政策,而政策结果则会动态更新后续的需求估计。这种预测和决策之间的双向互动使系统能够自我适应不断变化的需求模式,弥合了预测建模和无模型强化学习在共享出行管理中的差距。
本文的其余部分结构如下:第2节回顾了与汽车共享系统相关的研究。第3节概述了问题描述。第4节制定了PIRCS框架。第5节介绍了强化学习的实现和算法结构。第6节展示了案例研究和敏感性分析。第7节讨论了实际应用和未来研究方向。第8节以总结结束。
章节片段
文献综述
本节从两个角度回顾了相关文献:(1)汽车共享系统、车辆重新调配策略和基于用户激励的优化;(2)预测和动态优化方法,包括模型预测控制(MPC)和强化学习框架。
问题描述
我们考虑一个基于单方向站点的汽车共享系统,用户可以实时动态地请求车辆,而无需提前预订。车辆取车和归还行为都存在不确定性,因为用户可能在任何站点自发地请求车辆,并将它们归还到其他任意站点,这通常表现出不可预测的模式。这种用户需求的时空不确定性给维持车辆可用性和运营效率带来了重大挑战。
建模
本节介绍了通过结合需求预测和激励重新调配的集成方法来优化单方向汽车共享系统的建模框架。该模型利用动态定价激励来平衡车辆分布,同时受到操作限制(如每日激励预算)的约束。与传统的将预测和重新调配分开的两阶段方法不同,我们的方法将这些组件整合在一个优化框架中,捕捉了它们的
MDP公式化
鉴于单方向汽车共享系统的动态和不确定性质,我们需要一个能够处理随时间顺序决策的建模框架。该系统运行在一个用户需求和行为随机变化的环境中——由于位置、时间以及个人偏好等因素,需求和行为会在不同站点和时间段内波动。必须基于这些因素反复做出决策,例如设置定价激励来影响车辆的借出和归还。
数值实验
为了确保所提框架的可复现性,所有实验都是在Python 3.10环境中使用Stable-Baselines3库(用于强化学习)和LightGBM(用于需求预测)实现的。计算实验是在一台配备Intel Core i7-9750H CPU(2.60 GHz)和16 GB RAM的Windows 10个人电脑上进行的。
实际实施和政策意义
在现实世界的基于单方向站点的汽车共享系统中部署PIRCS需要市政当局、运营商和数据服务提供商之间的协调。在城市规模上实施该框架需要一个集成的数据基础设施,以实现车辆位置、站点容量和用户需求模式的实时共享。市政当局可以通过建立数据共享协议、保护隐私的规定等方式来促进这一过程
结论
本研究提出了PIRCS,这是一种基于预测和用户激励的单方向站点汽车共享系统的重新调配框架。通过整合需求预测和基于强化学习的激励优化,PIRCS动态调整借出和归还激励,以在预算限制下提升系统性能。全面的数值实验表明,PIRCS的表现始终优于基准策略,包括不进行重新调配的情况
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本研究得到了中央高校基本科研业务费(2024YJS109)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号