一种基于音频增强技术的融合模型，用于弱监督视频关键帧检索

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Neurocomputing 6.5

编辑推荐：

　　本研究提出音频增强融合模型（AFM），首次在弱监督视频时刻检索中整合音频信息，通过音频中介特征交互器、多源提案生成器和扩散模型重构器提升跨模态对齐与检索精度，实验表明优于现有方法，验证了音频的重要性。

何书仪|孔庆超|曾志雄|毛文吉

中国科学院自动化研究所多模态人工智能系统国家重点实验室，北京，100190，中国

摘要

视频片段检索（VMR）旨在定位与文本查询相对应的视频片段，这是多模态信息检索中的一个重要任务。最近，为了更好地应对现实世界场景中的实际问题，这项任务已被扩展到弱监督设置中，该设置使用简单的视频-文本对而不是特定的时间边界注释。这项任务的主要挑战在于不同模态之间的时间和语义差异。现有的模型通常基于视频和文本内容构建，经常忽略音频作为增强跨模态对齐的重要中间模态。为了解决这些限制，我们首次在弱监督VMR中结合了音频信息，并提出了一种新的音频增强融合模型，旨在提高时间一致性和语义关联。为此，我们设计了一个音频中介特征交互器来促进三模态特征之间的交互，并设计了一个多源提案生成器来选择高度相关的视频片段。此外，我们采用基于扩散模型的重建器来改进视频-文本对齐。我们在Charades-STA和ActivityNet Captions基准数据集上评估了我们的模型。实验结果表明，我们的模型达到了最先进的性能，表明了音频模态在弱监督VMR任务中的重要性。

引言

视频片段检索（VMR）[1]、[2]、[3]、[4]、[5]、[6]是一项重要的任务，它根据给定的文本查询识别未剪辑视频中的具体开始和结束时间戳。传统上，VMR依赖于时间边界注释进行监督学习。然而，为每个文本查询手动注释精确的时间边界既费力又耗时，从而限制了其在现实世界场景中的实用性[7]。最近，弱监督VMR[8]受到了越来越多的关注，它仅在训练过程中需要视频-文本成对注释，因此在成本效益方面具有优势。

弱监督VMR方法大致可以分为两类：多实例学习方法[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]和基于重建的方法[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]。多实例学习方法将未剪辑的视频视为带有视频级文本注释的实例袋，并使用学习技术来预测时间边界。这些方法开发了复杂的模块来增强跨模态表示[9]、[10]、[11]、[12]、[13]，设计了新的提案选择策略来强调目标视频片段[14]、[15]、[16]，或在更细的粒度上建立视频和文本查询之间的关系[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]。基于重建的方法旨在识别最能重建文本查询的片段。典型方法[29]、[30]、[31]、[32]、[33]、[34]、[35]引入了可学习的高斯函数来减少候选提案的数量。

现有的弱监督VMR方法严重依赖于视频内容（例如光流、RGB帧和深度）和文本中的语义线索。由于缺乏帧级时间边界，简单的视频-文本成对注释导致了文本和视频之间的语义和时间差异。因此，弱监督VMR任务的主要挑战在于VMR中固有的跨模态异质性差距。音频信息在文本和视频内容之间起到中介作用，并减轻了视频-文本对齐的差距，在现有研究中基本上被忽视了。音频作为弱监督VMR任务的中间模态提供了显著的好处，它既提供了与视频的时间对应关系，也提供了与文本相关的丰富语义：

(1)

音频增强了与视频事件的时间一致性。如图1(a)所示，脚步声与“一步一步跑上楼梯”的视觉序列相匹配，提供了减少视觉模糊性的同步线索。这在低质量场景中特别有利，因为现有方法仅使用视频帧很难定位片段。音频的固有同步性引导模型将声音事件与相应的视频片段关联起来，而无需显式的时间注释。

(2)

音频通过提供语义关联来提高对文本的理解。在图1(b)中，虽然视频中“开心地说话”的微妙行为可能难以定位，但对话的音频信息提供了清晰的线索。VMR中的文本查询可能表现出模糊的时间参考，这使得在视频中定位特定时刻变得复杂。在这种情况下，音频模态可以通过将声音内容与查询对齐来帮助消除文本查询的歧义，当仅靠文本线索不足时，音频作为语义线索来中介文本和视频内容。

受到上述观察的启发，我们利用音频模态来减轻弱监督VMR中文本和视频之间的语义和时间差异。当视频模态无法提供足够的视觉信息来定位目标片段时，音频模态提供了补充的时间和语义信息，有助于在弱监督VMR中弥合文本和视频之间的差距。为此，我们首次探索了在弱监督VMR中整合音频模态，并提出了一种音频增强融合模型（AFM）来提升弱监督VMR的性能。

我们提出的AFM通过整合三个关键创新来解决弱监督VMR任务。首先，我们利用音频作为中间模态，在音频中介特征交互器（AMFI）中促进跨模态语义交互，帮助弥合视频和文本之间的语义差距。其次，我们开发了多源提案生成器（MSPG）从视频和音频时间源创建提案候选者，从而实现更准确的片段定位。第三，考虑到扩散模型的生成能力和可扩展性，我们在基于扩散模型的重建器（DMBR）中使用扩散模型进行查询重建。这些设计共同通过统一语义、时间和生成建模策略来推进VMR。

我们的主要贡献总结如下：

•

为了减轻文本和视频之间的语义和时间差异，我们是首批在弱监督VMR中整合音频、视频和文本三模态的团队之一，并使用音频作为中间语义和时间信息来改进视频-文本对齐。

•

我们提出了一种新的音频增强融合模型（AFM），并开发了一个集成框架来支持弱监督VMR的多源提案生成和查询重建。

•

我们在Charades-STA和ActivityNet Captions基准数据集上验证了AFM，并进行了广泛的实验，证明了其优于现有方法，表明了音频模态在增强弱监督VMR中的重要性。

问题表述

在弱监督VMR中，给定一个未剪辑的视频

，其中包含

个片段，以及一个文本查询

，其中包含

个标记，目标是在

中定位一个时间片段

，其中

和

分别表示片段

的开始和结束时间戳。视频

及其伴随的音频

与文本查询

高度相关。

提出的方法

我们提出了一种新的音频增强融合模型AFM，用于弱监督VMR。我们提出的模型概述如图2所示。首先，我们从视频、音频和文本模态中提取特征。其次，我们引入了音频中介特征交互器（AMFI）来利用音频作为中间模态，促进三种模态之间的交互。然后，我们设计了多源提案生成器（MSPG）从视频和音频时间源生成提案候选者。

实验

在本节中，我们进行实验来评估我们提出的AFM的有效性。我们首先介绍基准数据集和实现细节，然后描述基线方法和评估指标。我们进一步展示了主要实验结果、消融研究以及关于鲁棒性和公平性的额外实验。此外，我们还提供了详细的参数分析和案例分析。

结论

我们提出了一种音频增强融合模型AFM，用于解决弱监督VMR问题。我们的模型首次强调了音频在弱监督VMR中的重要性。具体来说，我们提出了一个音频中介特征交互器来促进跨模态交互，并设计了一个多源提案生成器从视频和音频时间源生成提案候选者。最后，我们设计了一个基于扩散模型的重建器来使用扩散来改进视频-文本对齐。

CRediT作者贡献声明

何书仪：撰写——原始草案、可视化、方法论。孔庆超：撰写——审阅与编辑。曾志雄：撰写——审阅与编辑。毛文吉：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作部分得到了国家自然科学基金（项目编号#72293575）和中国科学院与湖南省文化科技融合联合研究项目（项目编号#2024JK4003）的支持。

何书仪于2016年在中国北京交通大学获得计算机科学与技术学士学位，2020年在中国北京交通大学获得计算机科学与技术硕士学位。她目前在中国科学院自动化研究所攻读模式识别和智能系统博士学位。她的当前研究兴趣包括跨模态检索和弱监督

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

问题表述

提出的方法

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行