《Knowledge-Based Systems》:Multi-faceted Contrastive Learning with Inter-frame Difference for Traffic Video Question Answering
编辑推荐:
突发运动捕捉与多模态对比学习在交通视频问答中的应用。提出MCL-ID框架,通过帧间差异模块提取动态信息,交叉注意力融合门动态平衡全局与局部特征,结合多方对比学习增强跨模态对齐。实验表明优于现有方法,有效提升交通场景视频问答性能。
郭侃|左琪|胡永利|钱兰萍|田大欣|王家普|曲桂仙|贾廷政|高俊斌|尹宝才|吴健
北京工业大学多媒体与智能软件技术重点实验室,北京,100124,中国
摘要
大多数现有的视频问答(VQA)模型依赖于视觉-语言预训练来弥合模态之间的差距。然而,由于交通视频问答(TrafficVQA)具有独特的时空特性,这些模型的表现往往不佳。监控视频通常具有静态背景和移动物体,而车内视频则涉及动态的相机运动,并强调交通参与者之间的互动。更重要的是,交通事故通常以突然且短暂的运动模式为特征——例如突然刹车或碰撞——这些模式使用主要为长期依赖关系设计的模型难以捕捉。为了解决这些挑战,我们提出了MCL-ID,一种具有帧间差异分析的多方面对比学习框架。具体来说,我们在一个经过图像预训练的骨干网络上设计了一个帧间差异模块,通过计算逐像素的帧差异来突出突然运动。我们进一步引入了一个交叉注意力融合门,在问题引导下将空间定位的运动线索与视觉特征对齐。最后,我们采用了一种多方面对比学习策略来增强运动差异、视觉内容和文本查询之间的跨模态对齐。在SUTD-TrafficQA和NExT-QA上的实验表明,我们的方法取得了优越的性能,验证了其在以交通为中心的VQA任务中的有效性。代码可在
https://github.com/nmjhg/MCL-ID获取。
引言
随着智能交通系统的进步,视频问答(VQA)方法[1]、[2]、[3]、[4]越来越多地应用于交通事件分析[5]、[6],从而产生了TrafficVQA任务。这项任务要求模型分析由监控或车内摄像头捕捉到的交通参与者的细粒度运动模式,从而支持高级推理以进行事件归因和风险评估。最近的研究[7]、[8]证明了TrafficVQA在识别碰撞和交通违规等场景中的潜在因果关系方面的有效性。此外,通过利用反事实分析,这些方法可以生成“假设-干预”预防策略,从而显著提高交通决策系统的可解释性和实用性。
然而,现有方法往往无法完全捕捉交通领域中以事件为中心的问答的独特时空特性。首先,来自固定监控视角的视频通常具有高度静态的背景,重要的动态信息集中在道路使用者的局部运动中。其次,尽管车内视频由于视角移动而呈现变化的背景,但主要关注点仍然是周围车辆和行人的相对运动。最重要的是,交通事故通常以突然和剧烈的运动变化为特征,例如突然停车、急转弯或碰撞,这些变化表现为连续帧之间的明显瞬时差异。然而,现有的视频模型[1]、[2]、[3]、[6]通常强调长期的时间依赖性,因此可能忽略了这些突然的短期转变。因此,在TrafficVQA的背景下,捕捉这种突然的运动变化比建模长期时间动态更为重要。
基于上述分析,光流和帧间差异都是可行的运动建模选择。然而,光流引入了大量的计算开销,并且主要捕捉像素级的位移,往往以牺牲对高级推理任务[9]、[10]重要的外观和纹理线索为代价。相比之下,帧间差异提供了一种轻量级但有效的运动感知方法,同时保留了物体的外观和纹理。由于TrafficVQA需要识别突然的事件触发因素和处理目标物体的视觉特征,因此帧间差异比光流更适合这一应用。
为了解决上述挑战,并认识到突然的交通事件通常伴随着显著的帧间变化,我们提出了一种名为具有帧间差异的多方面对比学习(MCL-ID)的新框架,用于交通视频问答。我们的方法能够快速定位监控视频中与事故相关的区域,并且在车内场景中对背景变化保持鲁棒性。
首先,在静态监控环境中——其中摄像头保持静止且背景基本一致——帧间差异有效地移除了冗余信息,并强调了与事件相关的显著区域。相反,在动态的车内环境中,由于车辆运动,背景发生变化,突然事件的视觉影响仍然明显,允许帧间差异继续突出关键运动区域。如图1所示,帧差异输出更好地捕捉了关键事件发生或直接涉及感兴趣车辆的区域。
接下来,为了将基于差异的特征与视觉表示集成在一起,同时减轻静态背景信息的掩盖效应,我们引入了一个交叉注意力融合门模块。我们首先应用交叉注意力来增强基于差异的特征和视觉特征之间的交互,使运动特定信号引导模型的注意力朝向动态变化的区域。为了进一步完善这种融合,我们引入了一个门控机制来适应性地平衡每种特征类型的贡献。具体来说,问题嵌入与视觉和基于差异的特征连接在一起,然后输入到Sigmoid激活的门控单元中以产生可学习的权重。这种设计允许模型动态地在全局上下文线索和局部运动信号之间进行权衡——在保留重要背景上下文的同时,增强对准确问答至关重要的瞬态变化的敏感性。
最后,为了增强跨模态理解和加深基于差异的特征、视频内容和问题语义之间的互动,我们提出了一种多方面对比学习策略。该策略包括:(i)基于差异的特征和原始视频特征之间的互补学习,以加强时空表示;以及(ii)问题和视觉及基于差异的特征之间的跨模态对齐,从而将文本语义与动态视觉内容联系起来。我们进一步使用监督对比损失来将融合的多模态表示与答案空间对齐,提供有助于有效推理的特定于任务的监督。
总之,本工作的主要贡献如下:
•帧间差异:我们提出了一种帧间差异机制,能够有效捕捉由突然事件在不同交通场景中引发的显著运动变化,包括监控和车内视频。
•交叉注意力融合门:我们引入了一个门控交叉注意力模块,动态地平衡全局上下文信息和运动特定线索,增强了基于差异的特征和视觉特征的集成。
•多方面对比学习:我们设计了一种对比学习策略,促进了(i)基于差异的特征和原始特征之间的时空互补性,(ii)问题和两种视觉模态之间的跨模态对齐,以及(iii)与答案空间的监督对齐。
本文的其余部分组织如下:第2节回顾了视觉语言模型(VLMs)和TrafficVQA的相关工作。第3节详细介绍了所提出的MCL-ID框架。第4节展示了在基准数据集上的实验评估。最后,第4.9节总结了本文并讨论了未来的研究方向。
相关工作
相关工作
视觉语言模型。视觉语言模型(VLMs)[11]、[12]、[13]结合了自然语言处理和计算机视觉的进展,实现了文本和视觉模态之间的丰富交互[14]、[15]、[16]。它们的核心优势在于从大规模的图像-文本对[17]、[18]、[19]中学习跨模态关联,从而能够捕捉视觉内容和自然语言之间的语义对应关系。VLMs通常使用视觉-语言对齐进行预训练
方法论
在本节中,我们介绍了TrafficVQA的定义,并详细阐述了我们提出的MCL-ID的设计。详细框架如图3所示,它以视频、问题和候选答案为输入。
实验
在本节中,我们通过广泛的实验评估了所提出的MCL-ID框架的有效性。我们首先在公开可用的SUTD-TrafficQA数据集上将MCL-ID与最先进的TrafficVQA和通用视频QA方法进行了比较。为了进一步评估其泛化能力,我们在NExT-QA数据集上进行了跨领域验证,该数据集在跨模态推理方面提出了重大挑战。为了明确MCL-ID相对于最近的方法的位置
结论
本文通过提出一种基于帧间差异的新颖多方面对比学习框架,解决了交通视频问答(TrafficVQA)中捕捉突然运动的挑战。所提出的方法通过帧间差异模块有效地突出了瞬态运动模式,并通过门控融合机制将这些线索与全局视觉特征动态对齐。为了进一步增强跨模态理解,我们引入了多方面对比
CRediT作者贡献声明
郭侃:撰写——原始草稿,方法论。左琪:可视化,方法论。胡永利:方法论。钱兰萍:验证。田大欣:资源。王家普:方法论,形式分析。曲桂仙:软件。贾廷政:软件。高俊斌:撰写——审阅与编辑。尹宝才:监督。吴健:数据策划,概念化。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
该研究项目得到了国家自然科学基金(项目编号52302397,52441202)、北京自然科学基金(项目编号4262034)、中国博士后科学基金(项目编号2025M781560)和北京市博士后科学基金(项目编号2025-ZZ-44)的支持