《Safety Science》:SafeDriveEdge: multimodal vision-language reasoning for real-time decision support in intelligent vehicles
Mohammad Tami|Ahmad Hasasneh|Huthaifa I. Ashqar|Mohammed Elhenawy
阿拉伯美国大学自然科学、工程与技术科学系,杰宁,邮政信箱240,巴勒斯坦
摘要
本研究介绍了SafeDriveEdge,这是一个轻量级的框架,用于智能车辆中的设备端安全关键推理。该框架基于HazardNet构建,HazardNet是一个紧凑且可解释的多模态大型语言模型,专为自动驾驶中的实时安全关键推理而设计。通过在新开发的HazardQA数据集上使用参数高效的微调(LoRA)和量化LoRA(QLoRA),HazardNet在风险识别方面的F1分数达到了84.1%,并且仅使用GPT4o-mini的一小部分参数和硬件资源,其性能就超过了GPT4o-mini。SafeDriveEdge仅需4GB的内存和亚秒级的推理延迟,即可在边缘设备上实时部署HazardNet,而无需依赖云连接。与传统模型不同,HazardNet能够生成思维链(CoT)推理,从而在复杂的交通场景中实现透明且可审计的决策过程。通过引入包含7000多组视觉-语言问题-答案(QA)对及其对应的CoT解释的HazardQA数据集,本研究不仅训练了HazardNet以提供准确的输出,还使其能够对动态和复杂的道路场景进行因果推理。这些结果表明,经过领域适应和具备推理能力的模型在高风险环境中可以超越大型通用系统,同时保持轻量化和可解释性。这些发现支持了一种参数高效的专业化范式,以提高交通安全,并为人工智能在安全关键领域的更广泛应用开辟了道路。HazardNet模型和HazardQA数据集分别可在https://huggingface.co/Tami3/HazardNet和https://huggingface.co/datasets/Tami3/HazardQA获取。
引言
包括配备先进驾驶辅助系统(ADAS)在内的智能车辆越来越依赖于强大的感知系统来解释周围环境,并在动态交通环境中支持实时决策(Rosique等人,2019年)。传统的计算机视觉方法,如对象检测、分割和跟踪,在识别车辆、行人和交通标志等道路元素方面取得了显著进展(Dilek和Dener,2023年)。然而,这些系统通常独立运行,缺乏安全关键任务(包括危险检测、风险评估和复杂驾驶场景中的决策支持)所需的上下文推理能力(Ding等人,2023年)。
这一限制与先前的自动驾驶研究结果一致,这些研究表明,在共享环境中安全运行需要协调和具有上下文意识的行为(Zhang等人,2024年;Peixoto和Joelma,2023年)。例如,模拟环形交叉路口车辆间通信的研究(MACIOSZEK、El?bieta和Maria Luisa TUMMINELLO,2024年)表明,多智能体互动和预测性推理对于将自动驾驶车辆整合到有人驾驶的混合交通中至关重要。
尽管深度学习取得了进展,但传统的视觉模型仍面临显著挑战:它们需要大量的标注数据,在不同驾驶条件下的泛化能力较弱,并且在对抗性或未见过的场景中性能下降(Khan,2023年12月;Komasi等人,2024年)。此外,由于现代视觉模型的高计算需求,实时部署在边缘设备(如车载处理器)上仍然是一个重大挑战。最近的一篇综述指出,数据驱动的安全方法在处理现实世界驾驶环境的不可预测性方面仍然不足,这突显了需要更具适应性和推理能力的人工智能系统(Sohail等人,2023年2月)。
多模态大型语言模型(MLLMs)通过结合视觉感知和基于语言的推理,提供了一个有前景的方向。这些模型利用视觉系统和大型语言模型(LLMs),使它们能够感知和解释复杂的交通场景,并生成基于视觉内容的自然语言解释。最近的研究表明,MLLMs可以有效理解复杂的多模态交通场景,并生成基于视觉内容的自然语言响应,这对于视觉问答(VQA)、情境感知和危险推理等任务至关重要(Tami等人,2024年9月)。
然而,主流的多模态大型语言模型(MLLMs),如GPT-4 V(Driessen等人,2024年)或Gemini(Masri等人,2025年),计算成本较高,需要大量的内存和处理能力,因此不适合直接部署在资源有限的车辆边缘设备上。虽然可以通过云服务远程访问这些模型,但这会增加额外的延迟,并且严重依赖于可靠的高速5G网络的可用性,而这些网络尚未在全球范围内普及,尤其是在农村或带宽有限的地区。这就产生了一个关键缺口:缺乏能够在汽车平台的严格限制下执行安全关键推理的紧凑且高效的MLLMs。
除了感知和计算挑战之外,现实世界中的车辆安全还受到车辆动力学的影响,包括制动稳定性、翻滚倾向、转向响应以及在避让操作中的载荷转移行为(Hamersma和Els,2014年;Poussot-Vassal等人,2011年)。这些机械安全因素决定了任何自动化推理或危险识别系统必须操作的物理限制(Knopf,2019年;H?gele和Sarkheyli-H?gele,2020年)。先前的动力学建模研究(Afshari和Garcia-Pozuelo,2024年;Rakha等人,2001年)强调了加速度、减速度和车辆质量分布如何直接影响安全操作。随着像MLLMs这样的系统越来越多地集成到智能车辆中(Chen和Sidi,2024年;Tian等人,2024年;Abraham等人,2025年),将场景级别的危险推理与车辆动力学和安全工程的既定原则对齐变得至关重要,以确保推荐的动作不仅在感知上合理,而且在实际驾驶条件下也是物理上可行的。
为了弥合这一缺口,SafeDriveEdge整合了HazardNet,这是一个专为自动驾驶场景中的安全关键视觉问答而设计的轻量级边缘部署MLLM。HazardNet基于2B参数的Qwen2-VL模型(P. Wang等人,2024年)构建,并使用参数高效的技术(如低秩适应(LoRA,Hu,2022年)和量化LoRA(QLoRA,Dettmers等人,2023年)进行微调,从而在最低的计算成本下实现高性能。为了促进这种适应,我们还构建了HazardQA,这是一个包含来自真实驾驶场景的7000多组问题-答案对的领域特定VQA数据集。每对问题-答案都附有思维链解释和安全相关类别,从而实现了丰富的语义理解和可解释性。
HazardNet与其基础模型和更大的通用模型(如GPT4o-mini)进行了广泛的评估。结果显示,它在识别安全关键事件、建议预防措施以及在不确定性下进行推理方面表现更优,同时保持了适合边缘部署的实时推理速度。这些结果表明,通过特定任务的数据和高效的微调策略,紧凑型MLLMs可以在安全关键应用中与大型模型相媲美甚至超越它们。
本文的其余部分安排如下:第二节回顾了与交通安全相关的视觉-语言模型和精选数据集的相关工作。第三节介绍了所提出的方法论,包括数据集构建和模型适应策略。第四节展示了实验结果及性能比较。最后,第五节总结了论文的主要发现、潜在应用和未来研究方向。
相关研究
相关工作
传统的自动驾驶系统主要依赖于模块化架构,这些架构集成了对象检测、跟踪和基于规则的逻辑。这些框架通常基于卷积神经网络(CNNs)和传感器融合技术,在受控环境中表现出色。然而,在现实世界的变异性下,如遮挡、恶劣天气或对抗性场景中,它们的有效性会降低(Thakur和Mishra,2024年;Cheshfar等人,2024年)。
自动驾驶技术和智能车辆的快速发展加剧了对强大、可解释和实时安全系统的需求。虽然当前的ADAS和感知流程基于对象检测、分割和传感器融合,在受控条件下取得了成功,但在现实世界的安全关键场景中,它们仍然存在不足,这些场景需要上下文推理、适应性和快速决策能力(Ding等人,2023年)。
结果与讨论
HazardQA数据集旨在满足智能交通系统中安全关键推理的独特需求。如图2所示,该数据集在七个核心类别上保持了良好的平衡分布,包括对象检测、空间定位、交通规则、道路基础设施、天气条件和动态元素。这种分布确保了对视觉和上下文驾驶线索的广泛覆盖,这对于多模态理解至关重要。
讨论与实际意义
本研究介绍了SafeDriveEdge框架,其中HazardNet作为主要推理模块,生成可解释的思维链解释。结果证实,参数高效微调、领域特定数据集设计和结构化提示工程的结合,产生了一个既满足性能要求又具备实际可用性的可部署模型,适用于自动驾驶和半自动驾驶系统。
模型可解释性和决策支持
结论与未来工作
本研究提出了SafeDriveEdge,这是一个以边缘为中心的实时安全推理框架,基于HazardNet构建;HazardNet是一个轻量级但功能强大的MLLM,专为自动驾驶和智能车辆系统中的实时安全关键推理而设计。它基于Qwen2-VL-2B基础,并使用LoRA和QLoRA等参数高效技术进行了微调,解决了当前AI系统的一个关键问题:缺乏可解释且资源高效的模型。
作者贡献声明
Mohammad Tami:撰写——原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据策划、概念化。
Ahmad Hasasneh:撰写——审阅与编辑、验证、调查。
Huthaifa I. Ashqar:撰写——审阅与编辑、可视化、监督、方法论、调查、形式分析、概念化。
Mohammed Elhenawy:撰写——审阅与编辑、验证、监督、资源、方法论、调查、形式分析
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。