一种新颖的多模态注意力协同学习框架，结合语义增强技术用于音视频问答任务

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A novel multi-modal attentional collaborative learning framework with semantic enhancement for audio–visual question answering

【字体：大中小】 时间：2026年02月27日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　多模态注意力协作学习框架结合语义增强策略，通过MLLM生成视频描述指导多模态信息融合，实现高效准确的AVQA任务，参数和计算量减少超60%，准确率提升2.61%。

陕西师范大学计算机科学学院，中国西安710119

摘要

音频-视觉问答（AVQA）任务旨在从视频中提取音频和视觉线索来回答问题。流行的两阶段方法，如渐进式时空感知网络（PSTP-Net），首先根据问题定位音频-视觉场景中的关键片段，然后识别最相关的音频-视觉区域。虽然这减少了线索的冗余，但它忽略了丰富线索的互补作用，而后者对于全面理解音频-视觉内容至关重要。在本文中，我们提出了一个新颖的框架，从问题本身开始，指导整个多模态协作学习过程，并进行音频-视觉问答。该方法包括使用多模态大型语言模型（MLLMs）作为工程解决方案的语义增强策略，以及多模态注意力协作学习过程，这是核心的算法创新。在音乐音频-视觉问答数据集（MUSIC-AVQA）和音乐音频-视觉问答数据集版本2（MUSIC-AVQA v2）上的广泛实验证明了我们方法的有效性。与PSTP-Net相比，我们的方法将训练参数数量减少了61.23%，浮点运算次数（FLOPs）减少了60.83%，同时准确率提高了2.61个百分点。这表明我们的方法有效地捕获和了对齐了丰富的音频-视觉线索，显著提高了推理效率。我们的代码将很快公开。

引言

随着短视频应用的兴起，对自动视频分析和理解的研究需求也在增加（K. Li等人，2024年；Li等人，2025年；Song等人，2024年）。作为典型的视频理解任务，问答包括对视频场景的细粒度理解，包括音频问答（AQA）（Fayek和Johnson，2020年）、视觉问答（VQA）（Kafle和Kanan，2017年）以及音频-视觉问答（AVQA）（Lao等人，2023年；Z. Li等人，2024年；Duan等人，2024年；Le等人，2020年；Yun等人，2021年）。AVQA作为一种新兴任务，旨在结合视频中的音频和视觉信息来进行推理并生成准确的答案。随着人工智能技术，特别是深度学习、自然语言处理和计算机视觉的快速发展，AVQA研究取得了显著进展，为各种应用场景提供了支持。然而，随着模型复杂性的增加，特别是在多模态信息融合过程中，对计算资源的需求也急剧上升。因此，在保持模型准确性的同时优化计算资源的使用已成为AVQA领域的一个重要挑战。

大多数以往的工作都是基于日常生活中的阅读理解经验来处理AVQA任务的（G. Li等人，2022年；G. Li等人，2023年）。在这些范式中，它们首先阅读问题，提取关键词，然后在文章中搜索相应的信息，这可以大大提高效率和准确性。如图1所示，给定问题“哪种acoustic_guitar先发出声音？”，模型根据关键词‘first’确定音频-视觉片段，然后识别与‘acoustic_guitar’相关的视觉区域。这种方法减少了冗余数据，促进了高效的时空推理。然而，它经常忽略了冗余线索的互补价值，这些线索可能为更全面的推理提供必要的上下文信息。

为了在充分利用多模态数据的上下文丰富性的同时保持问题驱动推理的效率，我们从问题开始启动学习过程，并在整个多模态流程中整合推理。实现这一点需要AVQA模型获得足够的背景知识，这是准确理解问题和进行更深层次推理的基础。为此，我们引入了使用多模态大型语言模型（MLLMs）的语义增强策略（Huang等人，2023年；Fei等人，2024年；Alayrac等人，2022年；J. Li等人，2023年）。这种策略生成描述性的视频字幕，提供补充的语义线索，从而丰富模型对视频内容的理解。具体来说，我们采用任务导向的提示学习来设计针对AVQA环境的提示，使MLLMs能够生成与上下文对齐且语义丰富的音频-视觉场景的文本表示。

在这些增强语义的指导下，模型继续在音频和视觉模态中搜索与问题相关的信息线索。为了有效地对齐和整合这些多模态信息，我们设计了一个多模态注意力协作学习（共学习）框架。具体来说，该模块包括两个基本操作：信息聚合和信息广播。这些操作帮助根据文本查询在音频-视觉模态中搜索线索，并将它们广播回音频和视觉特征，以突出与问题相关的音频-视觉线索。此外，为了保留多模态特征中的细粒度信息，我们引入了一个多头全局自注意力机制。

我们将完整的方法称为带语义增强的多模态注意力共学习框架，用于音频-视觉问答，并在广泛使用的MUSIC-AVQA（G. Li等人，2022年）和MUSIC-AVQA v2（Lin等人，2023年）数据集上对其进行了评估。实验结果表明，我们的方法不仅有效地捕获和对齐了丰富的音频-视觉线索，从而更准确地回答问题，还显著提高了推理效率，并优化了计算资源的使用。总结如下：

(1) 我们设计了一个新颖的多模态注意力共学习框架，通过双向信息聚合和广播操作来捕获和对齐音频和视觉特征中的语义信息，从而实现更准确的问题回答。

(2) 我们提出了一种使用MLLMs的语义增强策略，该策略生成视频描述，并将其作为串联指导传递给共学习模块，提供额外的语义信息以增强AVQA模型的视频理解能力。

(3) 我们在MUSIC-AVQA和MUSIC-AVQA v2基准上进行了广泛的实验和消融研究，证明我们的方法不仅提高了准确性，还显著降低了资源需求。

方法论

在本节中，我们将介绍所提出的带语义增强的多模态注意力共学习框架，用于音频-视觉问答，该框架能够捕获和對齐来自音频和视频的不同语义信息，从而提高视频内容的理解。所提出框架的概述如图2所示。我们首先介绍不同模态的表示方法，然后详细解释所提出的语义

实验

在本节中，我们将评估我们的方法。首先，我们将介绍这里使用的数据集和评估指标。然后，我们将详细描述我们的实现过程。接下来，我们将介绍各种基线，并将我们的模型与当前的最先进方法进行比较。最后，我们将进行消融实验，以验证所提出方法的各个组件的相对性能。

结论

在本文中，我们提出了一个带语义增强的新颖框架，用于音频-视觉问答，该框架利用基于文本的指导来捕获丰富的音频-视觉线索信息，从而更有效地回答问题。所提出的方法包括两个主要组成部分：使用MLLMs的语义增强策略和多模态注意力共学习框架。首先，我们设计了提示指令，充分利用了

CRediT作者贡献声明

Jie Yang：撰写——原始草稿、软件、方法论。Miao Ma：撰写——审阅与编辑、监督、资金获取。Peng Wang：撰写——审阅与编辑、监督。Yutong Li：撰写——审阅与编辑、验证。Zhao Pei：撰写——审阅与编辑、验证、资金获取。Chao Yao：撰写——审阅与编辑、验证。Longjiang Guo：撰写——审阅与编辑、验证。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作部分得到了国家自然科学基金（项目编号：62377031、62471281）的支持，以及陕西省重点研发计划（项目编号：2024GX-YBXM-086）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法论

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行