编辑推荐:
共享单车需求预测研究提出两种集成模型,结合知识图谱与加权融合及神经网络堆叠策略,有效捕捉高阶时空非线性依赖。实验显示RideGraph-ANN Stack在Seoul数据集上R2达0.958,MAE为70.81,较基线模型误差降低14.6%。
作者:Debojyoti Ghosh、Rony Mitra、Adrijit Goswami
印度西孟加拉邦卡拉格普尔印度理工学院数学系
摘要
准确预测自行车共享需求对于提高服务可靠性、降低运营成本和支持可持续的城市交通至关重要。现有模型往往无法捕捉现实世界数据中的非线性和时空依赖性,导致泛化能力有限且性能不稳定。本研究提出了两种互补的预测模型,将知识图谱特征与集成学习和深度学习技术相结合,以应对这些挑战。第一个模型
RideFusionWeights结合了五种机器学习算法:随机森林(Random Forest)、Extra Trees、XGBoost、LightGBM和梯度提升(Gradient Boosting),采用优化的加权集成策略来最小化预测误差。第二个模型
RideGraph-ANN Stack通过引入人工神经网络作为元学习器来堆叠和优化集成输出,使模型能够捕捉更高阶的非线性关系。这两个模型都利用了基于
首尔自行车共享需求预测数据集构建的知识图谱特征。实验结果表明,
RideGraph-ANN Stack的表现最佳,平均绝对误差为70.81,平均平方误差为17,571.75,均方根误差为132.56,决定系数为0.958,比所有基线回归模型的性能高出约10%。这些结果表明,将知识图谱特征与集成学习和神经网络堆叠方法相结合,可以为自行车共享需求的准确预测提供一个可扩展且有效的框架。
引言
自行车共享系统已成为现代城市交通的重要组成部分,带来了显著的环境、社会和经济效益。从环境角度来看,这些系统有助于减少碳排放和噪音污染。从社会角度来看,它们通过鼓励身体活动改善了人们的生活方式并提升了心理健康。从经济角度来看,自行车共享系统提供了经济的出行选择并创造了就业机会。此外,它们通过减少交通拥堵来增强城市流动性,并补充了公共交通网络。预计全球自行车共享市场将从2024年的90.6亿美元增长到2029年的126.6亿美元,复合年增长率(CAGR)为6.92% [1]。用户数量预计到2029年将达到11.3亿,表明其在全球范围内得到了迅速普及。因此,自行车共享系统在可持续城市规划中变得不可或缺。然而,由于需求在时空上的不均衡,导致高需求区域自行车短缺而低需求区域自行车过剩,这阻碍了它们的高效运行,增加了运营成本并降低了用户满意度 [2]。因此,准确和动态的需求预测对于支持有效的自行车重新分配、减少等待时间以及提高服务质量至关重要。
尽管进行了大量研究,但现有的自行车共享需求预测研究仍存在一些局限性。首先,许多传统模型依赖于统计或基于回归的方法,如普通最小二乘法(OLS)[3]、逻辑回归[4]和基于模拟的预测[5][6]。虽然这些方法在计算上高效,但往往难以捕捉现实世界自行车共享需求的非线性和动态特性。其次,尽管随机森林、梯度提升和神经网络等机器学习和深度学习模型[7][8][9][10]提高了预测准确性,但它们往往无法完全表示城市交通数据中固有的复杂空间和时间依赖性。此外,现有研究很少结合站点之间的语义关系或可能影响用户行为的上下文知识。因此,当前方法在不同城市或时间段应用时通常具有有限的泛化能力和较低的鲁棒性。
为了解决这些挑战,本研究提出了两种新颖的基于集成的预测框架,以提高自行车共享需求预测的准确性、鲁棒性和可解释性。第一个模型RideFusionWeights采用加权集成学习方法,整合了多个基础模型:Extra Trees、随机森林、XGBoost和梯度提升。通过为每个基础学习器分配优化权重,该方法最小化了总体预测误差并提高了稳定性。第二个模型RideGraph-ANN Stack通过将知识图谱特征直接嵌入基础模型训练过程中,进一步改进了传统堆叠方法。这些图谱嵌入捕捉了自行车站点之间的时空语义关系,提高了特征表示和模型性能。然后使用人工神经网络(ANN)元模型组合基础学习器的输出,有效学习非线性依赖性并优化预测结果。这种知识图谱特征与堆叠策略的创新融合,代表了将结构化领域知识整合到集成学习中的新方向。
本研究的主要贡献总结如下:
创新融合方法:首次将知识图谱特征嵌入基础模型训练中。所提出的方法通过图谱嵌入捕捉自行车站点之间的时空语义关系,从而增强了模型特征的表现力。
基于集成的框架:所提出的RideFusionWeights模型通过优化的加权融合结合了多种机器学习算法,提高了准确性和稳定性。
堆叠集成策略:RideGraph-ANN Stack采用ANN元模型整合集成学习器的输出,有效捕捉非线性交互并减少预测误差。
卓越的预测性能:RideGraph-ANN Stack的R2分数为0.958,平均绝对误差(MAE)为70.81,比表现最好的基础模型(梯度提升)低14.6%。这些结果证明了图谱增强特征和所提出的堆叠策略的有效性。
全面验证:该框架使用MSE、RMSE、MAE和R2等标准指标在真实世界数据集上进行了严格评估,并通过时间复杂性分析确保了可扩展性。
表1总结了后续分析中使用的所有主要数学符号和符号表示。
本文的后续部分安排如下:第2节对相关文献和背景进行了全面回顾。第3节描述了本研究使用的数据集。第4节详细介绍了知识图谱的构建过程。第5节概述了我们提出的建模方法。第6节讨论了实验结果和性能分析。最后,第7节总结了本文并提出了未来研究的潜在方向。
文献综述
文献综述
本节回顾了自行车共享需求预测技术的发展历程,从经典统计模型到最近的深度学习和混合方法。
数据来源
本研究使用了
首尔自行车共享需求 1数据集。该数据集涵盖了2017年12月1日至2018年11月30日的12个月期间,来自Kaggle网站。数据集包含8760个实体和14个特征,其中包括8个天气变量:温度、湿度、风速、能见度、露点、太阳辐射等。
知识图谱构建
为了通过领域感知的关系增强特征表示,从输入数据集中构建了一个知识图谱(KG)。KG捕捉了特征之间的显式依赖性和隐式语义关系,使下游模型能够利用结构和上下文信息。KG的正式定义见方程3,节点和边的定义见(4)、(5)、(6)、(7)、(8)、(9)。
方法论
在本节中,我们描述了用于预测自行车租赁需求的集成堆叠学习流程。该方法结合了多种基础学习器、最优化的加权集成以及作为元学习器的堆叠深度神经网络。
结果与分析
在对数据进行处理和提取知识图谱特征后,最终数据集被转换为包含丰富信息的综合格式。该数据集包括清洗和规范化的共享数据以及从知识图谱中派生的额外特征。这些特征捕捉了复杂的关系和上下文信息,如时间模式、地理关联和外部因素(如天气或事件)。结果是一个多维数据集。
结论
在自行车共享系统中准确预测需求对于创建高效、可持续且以用户为中心的城市交通网络至关重要。然而,用户行为的动态性质以及时间和地点的变化使得这项任务变得复杂。传统模型常常难以捕捉天气、时间和运营条件等上下文因素之间的微妙交互。
为了解决这些挑战,本研究提出了RideGraph。
CRediT作者贡献声明
Debojyoti Ghosh:撰写 – 审稿与编辑、原始草稿撰写、可视化、验证、软件开发、资源收集、方法论设计、调查、数据整理、概念化。
Rony Mitra:撰写 – 审稿与编辑、验证、监督。
Adrijit Goswami:撰写 – 审稿与编辑、验证、监督、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。