基于全局-局部蒸馏网络的视听说话者跟踪技术，在模态信息不完整的情况下仍能有效工作

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Global-local distillation network-based audio-visual speaker tracking with incomplete modalities

【字体：大中小】 时间：2026年05月10日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　李一迪 | 李一涵 | 徐振环 | 万伟伟 | 刘宏太原理工大学计算机科学与技术学院，中国太原 030024 摘要在说话者跟踪中，集成多模态数据是提高准确性和鲁棒性的关键策略。然而，由于遮挡、声学噪声和传感器故障，使用不完整模态数据进行跟踪仍然是一个具有挑战性的

　　李一迪 | 李一涵 | 徐振环 | 万伟伟 | 刘宏
太原理工大学计算机科学与技术学院，中国太原 030024

摘要
在说话者跟踪中，集成多模态数据是提高准确性和鲁棒性的关键策略。然而，由于遮挡、声学噪声和传感器故障，使用不完整模态数据进行跟踪仍然是一个具有挑战性的问题。现有融合方法的性能会显著下降，尤其是在多种模态同时缺失时。为此，我们提出了一种基于全局-局部蒸馏的跟踪器（GLDTracker），用于实现鲁棒的音视说话者跟踪。该框架基于教师-学生架构，其中教师网络处理来自完整观测的全局信号，以指导处理局部不完整信息的学生网络。在此架构中，我们整合了一个生成对抗蒸馏机制，使学生能够通过将其重建与教师的分布对齐来幻觉出缺失的全局特征。为了有效地将这些恢复的线索与局部观测信息融合，我们进一步设计了一个基于可靠性的全局-局部融合注意力模块，该模块充当动态门，用于过滤生成噪声。在AV16.3和CAV3D数据集上的实验结果表明，GLDTracker的性能优于现有的音视跟踪器，在标准和不完整模态基准测试中都取得了领先的成绩。代码可在https://github.com/liyihan1105/GLDTracker.git获取。

引言
音视说话者跟踪在智能系统（如智能会议室、人机交互和智能监控）中发挥着重要作用。为了实现准确的跟踪，研究人员越来越多地利用多模态传感器来捕获更丰富的信息[1]。在这些模态中，听觉和视觉模态作为人类理解和与环境交互的主要手段，受到了广泛关注[2]。音频和视觉信息的互补性提供了必要的补充线索[3]。特别是在模态不完整的情况下，听觉线索可以补充被遮挡或失效的视觉数据，反之亦然。研究人员引入了多模态注意力机制，例如跨模态注意力（CMA）[4]、音视多任务学习[5]和跨模态蒸馏（CMD）[6]，以利用一种模态来补偿另一种模态。然而，这些方法通常依赖于高置信度的模态来补充不完整的模态，当两种模态都部分缺失数据时会导致性能显著下降。为了解决模态不完整的音视说话者跟踪问题，我们提出了基于全局-局部蒸馏的跟踪器（GLDTracker）。与用于模型压缩的标准框架不同，我们的方法将蒸馏重新用于不对称信息恢复。如图1所示，教师模型处理全局信号，包括来自摄像机的完整视野（FoV）图像和来自麦克风阵列的多通道音频。相比之下，学生模型处理受到视觉遮挡和音频通道缺失的不完整局部观测数据。作为全局语义锚点，教师引导学生从部分观测数据中恢复整体线索。来自教师模型的全局监督信号使学生模型能够发展全局感知和缺失信息重建能力，从而增强了其在模态不完整情况下的鲁棒性。这种蒸馏学习方法有效捕捉了多模态数据之间的复杂关系，并利用了全局和局部信息之间的相关性和互补性，为复杂动态场景下的音视跟踪应用提供了新的训练范式。

关于缺失模态的多模态学习研究已经受到了关注，例如OGP-Net[7]、可逆提示学习[8]和ShaSpec[?]，这些研究不仅探索了模态间的互信息，还尝试从缺失的模态中恢复信息。为了弥合由缺失模态造成的信息差距，我们在学生网络中引入了生成对抗蒸馏（GAD）机制。与仅依赖于像素级损失的标准重建方法不同，GAD利用对抗学习来强制学生幻觉出与教师完整视图一致的真实全局特征。对抗训练优化了生成器，使其产生更真实和全面的特征，从而使学生在严重的模态退化情况下仍具备教师的全球感知能力。

在特征提取和重建之后，现有的音视框架中提出了各种多模态特征融合策略。EchoTrack[9]引入了双向频域交叉注意力融合模块，UniAV提出了统一的音视感知网络[10]，CCLN采用了跨模态对比学习进行音视融合[11]。然而，这些方法主要关注融合观测到的传感器数据，并未解决来自生成重建的幻觉特征的独特融合问题。由于我们框架中重建的全局特征不可避免地包含生成伪影和不确定性，简单地融合它们可能会引入噪声，从而降低跟踪性能。为了解决这个问题，我们提出了一个基于可靠性的全局-局部融合注意力模块（RGL-FAM）。与通用融合策略不同，该模块作为一个可靠性门，通过为不可靠的重建区域分配较低的权重来动态过滤生成噪声，确保全局上下文增强而不是削弱局部特征。

总结
本文的贡献如下：
• 我们提出了一种用于模态不完整情况下的音视跟踪的新颖全局-局部蒸馏跟踪器（GLDTracker）。该框架利用教师-学生架构将全局重建能力传递给学生，使其能够从部分观测数据中恢复整体语义线索。
• 我们引入了一种生成对抗蒸馏机制，将对抗学习与知识蒸馏相结合。这使得学生能够幻觉出与教师完整视图一致的真实全局特征，即使在严重的模态退化情况下也能保证鲁棒性。
• 我们设计了一个基于可靠性的全局-局部融合注意力模块。该模块通过根据信号可靠性自适应平衡融合权重，解决了生成特征与真实传感器数据融合的问题，有效减少了生成过程中的噪声。
• 在标准和不完整模态数据集上的广泛实验结果表明，GLDTracker的性能优于现有的音视跟踪模型。

部分内容摘录
音视定位和跟踪
音视跟踪利用跨模态互补性来增强定位的鲁棒性[4]，[12]。传统的模型驱动方法，特别是贝叶斯状态空间和粒子滤波方法，能够有效处理非线性和非高斯场景[13]。最近的深度学习进展通过Transformer[14]、[15]、[16]、自适应模态依赖的联合注意力[17]、[18]和自我监督对应关系进一步改进了特征提取和序列建模[18]。

提出的方法
GLDTracker的总体框架如图2所示，基于教师-学生范式，其中教师网络处理完整信号，为处理不完整观测数据的学生网络提供全局指导。在这一架构中，知识传递通过生成对抗蒸馏（GAD）机制来实现，该机制由特征重建模块（FRM）实现，使学生能够幻觉出与教师完整视图一致的全局特征。

数据集
所提出的GLDTracker在广泛使用的AV16.3[38]和CAV3D[39]数据集上与现有的音视跟踪器进行了评估。AV16.3数据集[38]包括来自两个圆形麦克风阵列的16kHz音频和来自三个角相机的288 × 360分辨率视频。实验是在seq08、11、12的九个序列上进行的，从三个视角进行测试，平均持续时间为33.33秒，包括参与者走动等具有挑战性的场景。

结论
在本文中，我们提出了一种基于全局-局部蒸馏的跟踪器（GLDTracker），以解决模态不完整的音视说话者跟踪问题。通过采用教师-学生蒸馏框架，我们使学生网络能够从部分观测数据中恢复整体语义线索。具体来说，生成对抗蒸馏机制使学生能够通过与教师分布对齐来幻觉出缺失的全局特征。

作者贡献声明
李一迪：方法论、概念化。
李一涵：软件、调查、数据管理。
徐振环：软件、资源、项目管理。
万伟伟：写作-审稿与编辑、验证、资源。
刘宏：监督、项目管理。

未引用参考文献
[41]
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争财务利益或个人关系。

致谢
本工作得到了中国国家自然科学基金（62403345）、山西省科技厅基础研究项目（202403021212174）和广东省超高清沉浸式媒体技术重点实验室（2024B1212010006）的支持。

联系信箱：

粤ICP备09063491号

热点排行