DRPVLM：一种用于实时驾驶风险预测的生成式多模态大型语言模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Accident Analysis & Prevention 6.2

编辑推荐：

　　驾驶风险预测视觉语言模型通过多模态大语言模型（LLMs）与传感器数据融合提升风险预测精度，在真实驾驶场景中验证了LoRA微调的有效性，并发现LLMs可提取环境、车辆及驾驶员行为等多维度风险特征。

王俊华|张文豪|傅婷|尚关强

教育部道路与交通工程重点实验室，同济大学，上海201804，中国

摘要

大型语言模型（LLMs）以其通识理解能力而闻名，最近已被集成到某些车载系统中。然而，它们在增强驾驶员对交通环境的理解和支持驾驶风险识别方面的潜力尚未得到充分探索。本研究提出了一种驾驶风险预测视觉-语言模型（DRPVLM），用于识别实时驾驶风险。该框架使用LoRA对几种不同参数规模的开源多模态LLMs进行了微调，包括三个Qwen-2.5-VL模型（32B、7B和3B）、Gemma-3-12B-it以及Llama-3.2-11B-Vision。DRPVLM处理来自上海自然驾驶研究的视频和图像数据，提取多维特征，包括道路环境、交通状况和驾驶员状态，这些特征补充了来自车载传感器的结构化轨迹数据。随后，这些特征被输入到长短期记忆（LSTM）神经网络中进行风险预测。此外，我们将配备了这些多模态LLMs的DRPVLM与仅使用来自车载传感器的结构化轨迹数据的模型进行了比较，以评估它们的预测性能。结果表明，多模态LLMs显著提升了驾驶风险预测能力，其中微调后的Qwen2.5-VL-32B在各个观察窗口内的准确率达到了0.89至0.92，F1分数达到了0.88至0.91。不同参数规模的LLMs也表现良好，明显优于仅依赖车载传感器收集的结构化轨迹数据的基线模型，后者的性能在较长的预测范围内低于0.7。特征重要性分析显示，所有五个LLM提取的变量都做出了有意义的贡献，有效补充了结构化轨迹特征。这些发现证明了多模态LLMs在增强风险特征提取和提升驾驶风险预测性能方面的有效性，突显了LLMs在实时驾驶风险预测中的巨大潜力。

引言

先前的研究表明，驾驶员的误解、危险判断失误和主观操作错误是导致交通事故的关键因素（Bucsuházy等人，2020年；Lee和Yeo，2016年）。因此，开发实时交通风险预测模型以提供及时警告对于确保交通安全至关重要。研究表明，提前1秒的警告可以将碰撞事故减少50%至90%（Zhao等人，2019a）。为车辆配备前向碰撞预警或自动紧急制动系统可以将追尾碰撞的受伤率降低40%（Cicchino，2017年）。包括自动驾驶在内的智能连接交通系统成为解决交通安全问题的突破性进展。开发驾驶辅助系统，整合多源数据（如车辆、环境和驾驶员状态数据），以及使用先进的风险预测算法，是交通安全研究中的重要趋势。

在此背景下，许多研究广泛使用先进设备收集各种类型的驾驶数据，如自然驾驶数据和无人机航拍数据。在此基础上，许多研究利用机器学习和深度学习技术来识别和预测驾驶风险（Ananthajothi等人，2024年；Bortey等人，2024年；Rifat等人，2024年）。然而，这些方法有两个主要缺点。首先，在数据利用方面，现有的风险预测模型主要关注与驾驶员相关的因素，而常常忽视环境因素。这些维度之间的缺乏整合降低了风险识别和预测结果的普遍性和稳健性。其次，由于大多数方法依赖于来自车载传感器（如速度、加速度、跟车距离和交通密度）的结构化轨迹数据，因此存在可解释性有限的问题（Li等人，2019年）。尽管这些指标可以通过机器测量，但驾驶员并不能直接感知到它们，这可能导致仅基于此类数据的风险预测模型忽略现实世界的驾驶经验和行为模式。如今，大型语言模型为交通风险预测提供了一种新方法。先进的LLMs可以分析视频和图像数据，捕捉多模态信息，如交通流状况、车内和外部环境以及驾驶员状态（Zhou等人，2024年）。与之前的模型相比，大型语言模型的应用能够更全面地捕捉影响交通安全的多个因素，从而提高预测的准确性和可靠性。此外，大型语言模型可以生成自然语言输出，为预测结果提供可识别的解释和依据，从而增强模型的透明度和可信度。

本研究旨在提出一种驾驶风险预测视觉-语言模型（DRPVLM）。它专注于典型的跟车场景，将LLMs提取的视频和图像数据与来自车载传感器的结构化轨迹数据结合起来。这种整合提高了风险识别和预测的全面性和准确性，具有重要的理论价值和实际应用潜力。

我们的贡献如下：

•
本研究通过使用高质量的SH-NDS数据对不同参数规模的多模态LLMs进行微调，开发了DRPVLM，并提出了一种结合视频识别和图像识别的特征提取方法。该模型可以从驾驶视频图像中提取相关的风险特征，以补充来自车载传感器的结构化轨迹数据用于风险预测。DRPVLM可以将复杂驾驶场景中的多模态风险信息整合到预测模型中，具有实时风险预测的潜力，使其成为主动安全领域实时驾驶风险评估的一种有前景的新方法。
•
对不同参数规模的多模态大型语言模型（包括经过指令微调和基础模型）以及现有的视觉特征提取器进行了全面评估，评估了它们在驾驶相关特征提取方面的能力。结果一致表明，所有基于多模态LLMs的模型都实现了更高的准确率和召回率，突显了LLM衍生的视觉和语义信息在提升时间风险预测中的关键作用。
•
构建并训练了一个双层Seq2Seq-LSTM时间序列预测模型，采用滑动时间窗口方法。输入包括车载传感器特征和多模态LLMs提取的额外特征。结果表明，基于LLM的特征显著提高了预测准确率和F1分数。DRPVLM取得了最佳的整体性能，证实了多模态LLMs可以大大增强事故风险预测能力。

数据收集方法概述

驾驶风险分析的数据收集方法概述

为了提高预测的准确性和可靠性，交通风险预测需要使用各种数据源。近年来，实时交通风险预测领域使用的主要数据收集方法包括以下三种：

一种广泛采用的方法是自然驾驶研究（NDS），它连续且非侵入性地记录真实世界条件下的驾驶行为，以揭示驾驶员行为模式及其背后的原因

上海自然驾驶研究（SH-NDS）简介

上海自然驾驶研究（SH-NDS）是同济大学、通用汽车公司和弗吉尼亚理工大学交通研究所共同开展的首个自然驾驶项目（Shangguan等人，2021年；Zhang等人，2019年）。该项目收集了60名年龄在35至50岁之间、具有超过5年驾驶经验的驾驶员的驾驶行为数据，持续时间为两到三个月。到2019年，已收集了超过75万公里的驾驶数据。

方法论

DRVLM的架构如图2所示。除了论文前文中提到的数据准备外，它主要包含四个部分：1）训练数据集准备：这部分描述了用于模型微调和后续测试的训练数据集的注释工作，以及其数据类别的分布；2）参数调整：这部分介绍了DRPVLM的初始训练工作，包括微调方法等

评分者间一致性

为了评估手动注释的驾驶图像的可靠性，本研究进一步进行了评分者间一致性实验。对于表3中显示的三个驾驶视图图像，每个特征类别随机选择了200个样本。这些样本由参与本研究的五位交通安全专家根据统一的注释协议独立注释。采用Fleiss’ Kappa系数来定量评估多位注释者之间的一致性

结论

总之，本研究提出了DRPVLM，这是一种具有实时驾驶风险预测潜力的模型。该模型使用了几种不同参数规模（32B、12B、11B和7B）的多模态LLMs，并使用LoRA在真实驾驶数据集上进行了微调。它提取特征以补充来自车载传感器的结构化轨迹数据，并将其与深度学习框架结合进行驾驶风险预测。可以得出几个关键结论：

•

本研究

CRediT作者贡献声明

王俊华：撰写——原始草稿，监督，调查，资金获取，概念化。张文豪：撰写——原始草稿，可视化，软件，项目管理，调查，形式分析。傅婷：撰写——审阅与编辑，验证，项目管理，资金获取。尚关强：撰写——原始草稿，验证，监督，软件，项目管理，资金获取，概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了国家重点研发计划（2022YFB2602103）、中国国家自然科学基金（编号52472364、52372338）、上海之星计划（24YF2748100）、2023年上海科技创新行动计划下的“一带一路”合作计划（编号23210750500）以及中央高校基本科研业务费的共同支持。

联系信箱：

粤ICP备09063491号

摘要

引言