基于大规模数据和多维度因素的道路交通事故严重程度预测：一种可解释的集成学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Accident Analysis & Prevention》：Road traffic accident severity prediction based on large-scale data and multi-dimensional factors: an explainable ensemble learning approach

【字体：大中小】 时间：2026年05月10日 来源：Accident Analysis & Prevention 6.2

编辑推荐：

　　高志翔|赛义德·M·埃萨|刘月|陈子宇|葛汉章|王永刚中国陕西省西安市长安大学交通运输工程学院，邮编710018 摘要道路交通事故造成了大量的人员伤亡和经济损失，然而大规模的严重性分析往往受到高分辨率道路和几何数据获取有限的限制。本研究构建了一个包含详细道路对齐特征的大规模

　　高志翔|赛义德·M·埃萨|刘月|陈子宇|葛汉章|王永刚
中国陕西省西安市长安大学交通运输工程学院，邮编710018

摘要
道路交通事故造成了大量的人员伤亡和经济损失，然而大规模的严重性分析往往受到高分辨率道路和几何数据获取有限的限制。本研究构建了一个包含详细道路对齐特征的大规模多源数据集，以支持基于数据的事故严重性模式分析。与之前使用粗糙道路描述符的研究不同，我们自动从广泛的网络中提取了精细的水平 and 垂直几何信息，这些信息在大规模数据中很少能获得。总共整合了26个特征，涵盖了环境、道路和几何对齐维度。采用了一个结合了XGBoost、随机森林（RF）、CatBoost和LightGBM（LGBM）的软投票集成方法来进行严重性预测，同时使用SHAP（Shapley Additive Explanations）来推导严重性级别的重要性排名和样本级别的解释。本研究不仅关注预测准确性，还在严格的评估设置下揭示了机制相关的洞察，以减少时空依赖性。结果表明，环境条件与低严重性事故关联性更强，而道路类型和几何对齐特征对于高严重性事故则变得越来越重要。此外，累积局部效应（ALE）分析揭示了关键连续变量的非线性模式和阈值区域，为风险在不同操作条件下的变化提供了补充证据。这些发现为制定针对性的道路安全策略提供了机制相关的见解。

引言
道路交通事故在全球范围内造成了巨大的健康、社会和经济损失（世界卫生组织，2024年）。随着全球人口的增长、道路网络的扩展以及机动车数量的增加，这个问题可能会更加严重（Sun等人，2019年）。值得注意的是，事故的后果因严重程度的不同而大相径庭。此外，道路交通事故通常不是由单一特征或特性引起的，而是多种因素相互作用的结果。因此，识别影响各种事故严重性的关键特征对于提高道路安全管理及优化交通基础设施设计至关重要。

以往关于道路交通事故严重性的研究主要采用了统计建模技术，包括多项式逻辑回归、有序逻辑回归和Probit模型（Kockelman和Kweon，2002年；Abdel-Aty，2003年；Islam等人，2023年；Fu和Tu，2024年）。这些方法主要用于识别影响事故严重性的关键因素，如道路特性、交通控制措施和天气条件（Theofilatos，2017年；Lee等人，2018年；Khan等人，2023年；Qiu等人，2024年）。这些研究的成果有助于推进和改善道路交通安全系统。

随着数据可访问性和计算能力的提高，研究人员越来越多地采用更复杂的数据驱动方法，如支持向量机（SVM）、随机森林（RF）和梯度提升决策树（GBDT）来提高事故严重性分类的准确性（Harb等人，2009年；Ku?kapan等人，2021年；Mohamad等人，2025年）。与其他传统的统计模型相比，这些方法在处理非线性关系和高维数据时表现出更优的性能。

尽管建模方法不断进步，但数据本身仍然是研究道路交通事故严重性的一个重要瓶颈。一方面，事故数据收集往往具有挑战性，通常需要与相关机构的合作或由个别研究团队进行手动收集。由于时间、人力和资源的限制，手动收集的数据往往覆盖范围有限且样本量小。另一方面，数据收集的难度限制了数据特征的灵活性，从而限制了探索更细致或复杂影响因素的能力。此外，尽管机器学习（ML）技术显著提高了预测准确性，但其固有的“黑箱”特性使得研究人员和政策制定者难以清楚地理解预测背后的决策过程。这种不可解释性无疑限制了这些模型在政策制定、事故预防和其他实际应用中的实用性。因此，提高模型透明度与准确性一起成为未来研究的关键方向。

一项涵盖2014年至2024年期间的系统文献综述揭示了数据可访问性的显著差距（这些差距在表1中进行了定量总结）。此外，表2还展示了本研究与其他几项近期工作的比较。基于这项综述，我们确定了以下关键差距：
（a）缺乏大规模的跨区域数据集：大多数研究受到小规模或地理范围有限的数据集的限制，这影响了分析结果的普遍性和一致性。
（b）缺乏全面的道路对齐数据：由于难以获得详细的对齐数据，大多数研究依赖于简化或离散的特征（例如，曲线与非曲线），这限制了分析的粒度。此外，更精细的对齐参数（如垂直曲线高度和平顺系数）在现有文献中尚未得到分析。
（c）连续环境条件的表示不完整：尽管许多连续的天气/大气变量（如气压和湿度）对驾驶安全很重要，但它们并未在许多数据集中得到一致地包含（Daanen等人，2003年）。

为应对这些研究挑战，本文从开源数据集中提取了与事故相关的特征，并通过时间-位置匹配将其与实际事故地点链接起来，从而构建了一个包含大量事故样本的全面数据集。在严格的评估设置下，采用了一个结合了XGBoost、RF、CatBoost和LGBM的软投票集成学习框架作为预测组件。同时，使用SHAP和ALE提供了模型输出的重要性排名和局部解释。基于这些洞察，提出了实用和有效的改进和管理建议。

本研究的主要贡献如下：
（a）大规模精细几何测量：我们开发了一个可重用的提取流程，从大规模开源道路网络和数字高程模型（DEM）数据中提取精细的水平 and 垂直对齐属性。这使得后续研究能够使用精细的几何信息进行严重性建模，超越了常用的粗糙道路描述符。消融分析进一步证明了这些精细变量相比粗糙描述符具有可测量的改进。
（b）以泛化为导向的评估和鲁棒性证据：为了减少事故数据中的时空依赖性可能导致的偏差，我们采用了严格的评估方案，包括时间滚动和空间分割设置。此外，还对不同的不平衡处理策略进行了敏感性分析，所有这些操作都限制在训练阶段，以提供更可信的样本外泛化证据。其中，时间和空间验证结果尤为重要，因为它们提供了模型在现实部署场景下泛化能力的主要证据。
（c）可操作的安全知识转化：本研究不仅关注预测性能，还利用可解释的机器学习（SHAP和ALE）揭示了环境、道路和几何因素在不同严重性水平下的依赖模式。结果揭示了关键变量的相对重要性和非线性效应的变化，为事故严重性的形成提供了机制相关的见解。

本文的其余部分安排如下：第2节介绍了本研究的框架。第3节介绍了收集和处理开源数据集的细节。第4节介绍了预测模型的技术细节。第5节展示了本研究开发模型的结果。第6节强调了结果的可解释性，重点将模型输出转化为关于事故严重性的机制相关见解，并讨论了其对安全管理的影响。最后，第7节总结了研究结果、局限性以及未来工作的建议。

研究框架
如图1所示，本研究最初从关于环境、道路和事故的开源数据集中提取了26个与事故相关的特征。根据其特征，这些特征被分为四个主要类别：环境特征、道路特征、水平曲线（H-curve）特征和垂直曲线（V-curve）特征。然后使用结合了XGBoost、随机森林、CatBoost和LGBM的软投票集成方法来预测事故严重性。

本研究使用了四种类型的公开可访问的开源数据集：道路中心线矢量数据、数字高程模型（DEM）数据、法定边界矢量数据和道路交通事故数据。获取数据后，所有数据集均使用ArcGIS Pro和Python 3.13进行处理。为了确保数据类型之间的准确对齐，所有数据集均在WGS 1984坐标系统中统一处理。数据集构建过程如图2所示。

预测模型
本研究采用了集成建模方法作为预测组件，以支持在提出的评估框架下的事故严重性分析。使用这种方法，多个基础学习器分别进行训练，然后组合起来以提高模型输出的稳定性和鲁棒性（Wu & Levinson，2021年）。基于投票策略的整个框架如图3所示。

在训练完成后，基础模型生成概率预测，这些预测通过软投票策略进行聚合。

模型性能评估
在构建处理过的事故数据集后，我们在多种数据分割设置和不平衡处理策略下评估了模型性能。由于事故严重性高度不平衡，仅在训练子集上检验了重采样方法，如合成少数派过采样技术（SMOTENC）（Chawla等人，2002年），而验证和测试子集保持不变。这种设计避免了合成数据泄露对模型评估的影响。

可解释性分析
在验证预测性能后，进行了可解释性分析，以阐明训练好的集成模型是如何达到其预测结果的，以及关键变量是如何与事故严重性相关联的。本研究中的解释集中在三个方面：（1）从SHAP值中得出的严重性级别特征重要性；（2）代表性事故案例的样本级别解释；（3）使用ALE对关键连续变量进行非线性和阈值分析。这些分析共同提供了关于事故严重性形成机制的见解。

结论
本研究提出了一个可复制的、基于开源数据的道路交通事故严重性分析框架，该方法整合了环境、道路以及精细的水平 and 垂直对齐变量。其主要贡献在于大规模构建了详细的几何测量，并在严格的评估设置下提供了可信的证据。结果表明，加权软投票集成方法在随机、时间和空间方面的性能表现出色且稳定。

作者贡献声明
高志翔：撰写——原始草案、可视化、验证、软件、方法论、概念化。
赛义德·M·埃萨：正式分析、数据管理。
刘月：数据审核。
陈子宇：验证、数据管理。
葛汉章：方法论、调查研究。
王永刚：撰写——审阅与编辑、监督、概念化。

利益冲突声明
作者声明没有已知的竞争性财务利益或个人关系可能影响本文所报告的工作。

致谢
作者感谢编辑和两位匿名审稿人提供的全面而有帮助的评论。

联系信箱：

粤ICP备09063491号

热点排行