利用集成统计机器学习方法进行交通事故伤害严重程度建模

《Reliability Engineering & System Safety》:Harnessing the Integrated Statistical Machine Learning for Traffic Crash Injury-Severity Modeling

【字体: 时间:2026年01月30日 来源:Reliability Engineering & System Safety 11

编辑推荐:

  基于传统统计模型与机器学习方法的不足,本研究提出融合树增强模型与高斯过程混合效应模型的LGPBoost框架,通过模拟实验和佛罗里达州2014-2023年摩托车事故数据分析,验证其有效捕捉非线性特征、高基数分类变量及时空异质性的优势,揭示农村低城市化区域事故风险显著更高及时空动态变化规律。

  
崔鹏飞|王晨珠|穆罕默德·阿卜杜勒-阿蒂|杨晓宝|张行辰|孙立山
北京工业大学城市交通学院,北京,100124,中国

摘要

由于交通事故数据集固有的复杂性、不确定性和异质性,对交通事故严重程度的建模仍然具有挑战性。传统的统计模型往往忽略了变量之间的相互作用和结构依赖性,而机器学习方法虽然在处理大规模数据集时效果显著,但在捕捉空间和时间动态方面存在困难。为了解决这些问题,我们提出了基于树提升的潜在高斯过程模型(LGPBoost),该模型将基于树的机器学习方法与高斯过程混合效应模型相结合。这一框架能够考虑空间、时间和分组依赖性,同时捕捉非线性的特征-结果关系。为了证明LGPBoost的优越性,我们进行了一项精心设计的模拟实验,该实验针对的特征关系复杂、存在潜在分组随机效应以及空间和时间变异性的数据集。将这种方法应用于佛罗里达州的摩托车事故数据(2014-2023年)后发现,农村和城市化程度较低的地区面临更高的严重事故和致命事故风险,这突显了加强针对性执法和基础设施改进的必要性。时间稳定性分析进一步显示,不同地区的事故风险在不断变化,尤其是在非城市地区。通过统一空间异质性和时间变异性,LGPBoost为以可靠性为导向的事故严重程度建模提供了一个严格的基准,提供了一个全面的框架,用于识别风险因素、量化非线性效应,并捕捉内在的空间-时间动态。

引言

由于交通事故的复杂性、不确定性和异质性,对交通事故伤害严重程度的统计建模具有显著挑战性[36,40,59]。交通事故数据集包括各种预测因素,通常分为常规变量和高基数分类变量。常规变量通常包括驾驶员特征、天气条件、道路属性等。大量研究致力于自适应地捕捉和分析这些常规变量,以了解它们对伤害严重程度的单独影响、交互作用和非线性影响[5,70]。此外,交通事故具有特定的时间和地点特征,因此依赖于它们发生的时间和空间背景[31]。这些变量的高基数特性使得建模过程变得更加复杂。理解空间-时间动态及其对交通事故伤害严重程度的影响是交通安全建模中的一个挑战[8,35,55]。表1总结了最近关于交通事故伤害严重程度建模的文献,概述了所审查的研究、考虑的常规和高基数变量以及采用的方法。
协变量对交通事故伤害严重程度的影响一直是交通安全建模的重点,通常采用基于统计的高级方法和基于机器学习的技术[40]。传统的统计研究通常假设观测值是独立的,并且协变量产生固定效应,这可能导致忽视交通事故数据集中的复杂交互作用、异质性和结构依赖性[15,46,64]。为此,研究人员越来越多地采用随机参数模型,将随机性和异质性与均值和方差纳入传统的统计方法中。这些模型在识别异质性和观测值之间的未观察到的变化方面发挥了重要作用,从而提供了对协变量与交通事故伤害严重程度之间关联的更深入理解[5,12]。然而,随着交通事故数据集规模的扩大,基于统计的方法往往受到限制,特别是在处理潜在的交互作用和非线性效应时。
近年来,机器学习技术在处理大规模和复杂数据集方面被证明是有效的[74]。Wen等人[59]和Santos等人[49]对最近用于道路交通事故伤害严重程度建模的机器学习方法进行了详细回顾,并讨论了未来的研究方向。先进的机器学习应用,如决策树[27,43,71,72]、支持向量机[65]、随机森林[61]和梯度提升[50,54],在交通事故严重程度建模方面被证明是有效的。这些方法,特别是基于树的学习器,在处理复杂的非线性关系、不连续性和高阶交互作用(包括预测变量中的异常值)方面表现出色[5,33,71,72]。它们还具有对多重共线性的强大抵抗力,从而改进了变量选择,提高了分析的准确性。
此外,空间-时间变异性(指事故随时间和地理位置的变化)对交通事故严重程度有显著影响。研究表明,在不同空间尺度(如县级[6]、邮政编码级[28]、人口普查区级[32]和交通分析区级[10])分析交通事故对于全面理解空间变化效应非常重要。例如,Azimian等人[6]利用多变量时空模型揭示了事故严重程度在区域内的显著相关性[[71], [72], [73]],提出了一个时空多粒度框架来预测城市稀疏交通事故,强调了选择适当尺度在解决数据稀疏性方面的必要性。同样,Li等人[31]对宾夕法尼亚州二十年的摩托车事故进行了时空分析,强调了局部空间和时间相关性在事故分析中的关键作用。此外,在道路段级别对空间变异性进行建模面临高维偏度的挑战,因为事故分布在区域内的多个道路段上[18]。在建模中引入此类高基数分类变量会显著增加复杂性和拟合难度[21]。为此,高斯过程(GP)建模被用作一种强大的统计工具,能够有效捕捉复杂的空间依赖性,显著提高了空间过程建模的效果[17,52]。高斯过程(GP)的非参数灵活性允许精确建模数据样本中的空间关系,克服了传统参数模型的局限性,使得在不同地理景观中进行详细的空间过程分析成为可能[44]。在最近的交通安全研究中,高斯过程建模已被用于解决事故地点之间的空间变异性和依赖性,提高了不同地区的分析和预测性能[20]。
时间不稳定性也因其对交通事故严重程度的影响而受到关注。Alnawmasi和Mannering[4]以及Chang等人[11]观察到影响摩托车手伤害严重程度的因素存在显著的时间变化,包括骑行经验、摩托车性能和宏观经济条件。正如Mannering[39]所强调的,忽视时间不稳定性可能导致误导性的结论和潜在的安全措施失效。因此,在所提出的建模中整合空间变化效应和时间不稳定性对于准确评估影响交通事故严重程度的因素至关重要。
鉴于影响事故发生的因素及其空间-时间分布的复杂性,在确定事故严重程度的决定因素时面临两个主要挑战。首先,常规变量的影响通常是非线性的和交互的,涉及传统统计模型无法捕捉的高阶依赖性,同时还需要对变量重要性进行排序。其次,必须纳入高基数分类特征(如空间和时间分组),以揭示空间-时间变异性的影响。虽然现有的混合方法试图弥合统计和机器学习领域的差距,但它们通常依赖于松散的耦合策略——例如将机器学习预测作为统计模型中的协变量或直接将空间坐标添加到机器学习算法中——这未能充分利用两种范式的结构优势。因此,一个能够在一个统一的概率结构中联合优化常规变量、非线性效应和高基数分类特征的集成框架仍然很大程度上未被探索。
为了解决这些挑战,我们提出了基于树提升的潜在高斯过程模型(LGPBoost),该模型将基于树的学习器(机器学习)与高斯过程混合效应模型(统计)结合在一个统一的框架中。本研究的贡献有三个方面:(i)LGPBoost通过结合梯度提升的自适应学习能力,放宽了高斯过程混合效应模型中固有的线性和零均值假设,从而捕捉复杂的特征-结果关系以及结构化的空间、时间和分组依赖性;(ii)通过模拟实验,我们证明了LGPBoost在处理具有非线性、潜在分组效应和空间-时间异质性的数据集时优于统计基线(广义线性混合模型GLMN)和机器学习基线(极端梯度提升XGBoost);(iii)利用佛罗里达州2014-2023年的摩托车事故数据,我们进行了广泛的实证分析,以识别影响事故严重程度的关键因素,揭示了道路段级别的显著空间差异和十年间的显著时间不稳定性。
本文的其余部分结构如下。第4节介绍了验证所提出模型的模拟实验。第5节报告了2014年至2023年佛罗里达州摩托车事故的实证分析,并讨论了结果。第6节总结了主要发现和未来研究的方向。

部分摘录

设置和符号说明

本工作的目标是深入探讨潜在高斯过程与树提升模型的集成,重点关注与交通风险分析相关的二元分类任务。首先,我们列出了一些符号来正式化问题,如表2所述。我们定义响应变量y=(y1,,yn)TY,其中yi表示结果发生时为1,否则为0。在本工作中,我们区分了标准特征xX(即数值特征或分类特征)和

模拟

在本节中,我们评估了基于树提升的潜在高斯过程模型(STAT-ML)在从有限样本中恢复空间变化效应和分组随机效应方面的性能。我们将这些结果与使用广义线性混合模型(GLMN)[STAT]和极端梯度提升(XGBoost)[ML]获得的结果进行比较。评估涉及生成一个具有已知模型参数的模拟数据集,以评估所提出的模型是否能够准确估计空间变化

实证应用

摩托车手是最脆弱的道路使用者之一,而摩托车事故造成的伤害和死亡在佛罗里达州是一个重要的问题[12]。本研究利用佛罗里达州交通部(FDOT)提供的摩托车事故记录,对2014年至2023年这十年的数据进行了实证分析。每条记录包括时间、位置(纬度和经度)、事故严重程度以及关于驾驶员、车辆、道路和环境的详细信息

结论

本研究全面评估了佛罗里达州的摩托车事故伤害严重程度,采用了高斯过程与梯度提升决策树(LGPBoost)的创新集成方法。通过结合统计模型的可解释性和机器学习的预测能力,该框架有效地捕捉了协变量和潜在事故风险之间的复杂相互作用,同时解决了未观察到的空间异质性和时间不稳定性问题。主要发现是

CRediT作者贡献声明

崔鹏飞:撰写——审稿与编辑、原始草稿撰写、方法论、正式分析、数据整理、概念化。王晨珠:原始草稿撰写、正式分析、数据整理、概念化。穆罕默德·阿卜杜勒-阿蒂:审稿与编辑、调查、正式分析。杨晓宝:原始草稿撰写、监督、资金获取、正式分析、概念化。张行辰:原始草稿撰写、监督、资金获取、正式分析、概念化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号