分层互蒸馏多视图融合方法：从所有可能的视图组合中学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月11日 来源：Pattern Recognition 7.6

编辑推荐：

　　多视角学习融合中，本文提出分层互传蒸馏（HMDMV）方法，通过不确定性加权机制融合单视角、部分多视角及全多视角预测，并设计随机子集采样策略降低训练成本。实验表明其在结构化（如X光胸片）和非结构化（如3D物体识别）场景均优于基线，支持灵活变数量推断。

杨智雄|郑海俊|张益范

韩国首尔城东区王西姆尼路222号汉阳大学人工智能与半导体工程系，邮编04763

摘要

多视图学习在有效利用从不同角度和位置捕获的图像方面常常面临挑战。针对非结构化多视图图像的学习方法仍然很大程度上未被探索。我们提出了一种新颖的层次化互蒸馏多视图融合（HMDMV）方法，该方法能够处理结构化和非结构化的多视图场景。它利用所有可能的视图组合进行预测：单视图、部分多视图和完整多视图。该方法为每种视图组合生成预测结果，然后应用层次化互蒸馏来增强视图间的一致性。基于不确定性的加权机制根据每个预测的置信度调整各视图组合的影响，从而减少低置信度视图的影响。在大型结构化和非结构化数据集上的广泛实验表明，HMDMV能够持续达到最先进的分类准确率。HMDMV的另一个独特优势是它在推理方面提供了更高的灵活性，允许在推理中使用比训练时更多的或更少的视图数量，而无需额外处理。我们还通过设计一种高效策略，在每次训练迭代中随机采样视图组合的子集，从而实现了训练成本的降低。这些结果突显了HMDMV在视图可用性变化或不完整的实际场景中的鲁棒性。所有代码将公开发布，以促进进一步的研究。

引言

多视图学习整合了从物体或场景的多个视角捕获的互补信息，从而实现更准确和鲁棒的视觉理解。图像数据通常表示为2D投影，仅捕获了来自特定视角的有限平面信息。这种表示方式可能导致关于物体3D结构和上下文的信息丢失。利用多个视图可以通过捕获跨视角的多样化和互补的视觉线索来缓解这一限制。因此，多视图融合应用于各种计算机视觉领域。例如，在医学成像分析中，使用预定义角度的结构化多视图数据可以实现精确诊断。具体来说，胸部诊断的数据集通常包括正面和侧面X光视图[1]、[2]，而乳腺癌筛查的乳腺X光检查则使用头尾（CC）和内外侧倾斜（MLO）视图[3]、[4]。相比之下，在非医学领域，通常使用从不同角度捕获的一些不太结构化的跨视图任务，例如3D物体识别[5]、[6]和动作识别[7]。最近的研究还将单视图问题扩展到了由不同角度和环境组成的非结构化数据集[8]。图1展示了多视图图像数据集的代表性示例。

以往的多视图融合方法主要集中在结合每个视图提取的特征以生成最终预测上。早期方法例如对特征进行平均或汇总每个视图的独立预测。虽然这些方法相比单视图基线有所改进，但它们往往无法完全捕捉到跨视图的一致性和交互作用，从而降低了预测的一致性。最近，提出了使用混合CNN-Transformer网络[13]的方法来进行视图间的特征融合，或者应用互蒸馏[8]、[14]来加强单视图和多视图预测之间的关系。尽管互蒸馏策略可以通过促进单视图和融合多视图预测之间的双向知识传递来提高跨视图的一致性，但大多数现有设计主要依赖于二元蒸馏机制。这隐含地假设直接将单视图输出与完全融合的表示对齐就足够了。然而，在非结构化环境中，融合的表示可能会汇集异构的观测结果，包括噪声或遮挡的视图，这在互学习过程中可能会引入歧义。此外，通过绕过中间子集的交互作用，先前方法未能充分利用部分视图集中的互补信息，限制了在不同视图可用性下的鲁棒性。因此，当视图可用性不完整或在样本间变化时，这些方法通常提供的推理灵活性有限。此外，这些方法没有充分考虑到每个视图的不确定性，从而限制了它们确保预测一致性的能力。与结构化多视图融合相比，如图2所示，由于图像数量和视角的任意性，在非结构化多视图融合中这些挑战更加突出。

在这项工作中，我们提出了层次化互蒸馏多视图融合（HMDMV）方法。我们证明了它在非结构化和结构化多视图环境中的性能优于现有方法。它明确考虑了所有视图之间的跨视图关系，并提高了预测性能。我们定义了三种视图组合级别，将在本文中用于解释组合或融合：单视图（单个视图）、部分多视图（部分视图组合）和完整多视图（所有视图组合）。首先，我们扩展了混合CNN-Transformer架构，以生成所有可能视图组合的预测结果，使模型能够利用不同子集之间的互补信息。然后我们使用基于不确定性的加权将这些预测结果融合，并对单视图和部分多视图预测进行层次化互知识蒸馏，以得到完整多视图预测。为了进一步解决考虑所有可能视图组合的计算开销问题，我们引入了一种高效的重复随机子集采样策略，大幅降低了训练成本，同时保持了性能。我们的贡献总结如下：

•
我们提出了一种层次化互蒸馏方法，该方法利用所有可能的视图组合进行多视图融合，从而实现更稳定和一致的预测。
•
我们的方法通过基于置信度的动态加权来提高视图组合的预测性能。
•
该方法支持在不同视图数量和配置下的灵活推理，使其能够在实际的多视图场景中实际应用。
•
它在结构化和非结构化数据集上都实现了具有竞争力或最先进的性能。

方法

我们提出了一种方法，与依赖单视图独立学习或简单连接的常规方法不同，该方法利用所有可能的视图组合来生成全面的多视图表示。对于每一组生成的组合，我们执行基于不确定性的加权评分融合，然后进行层次化互蒸馏，最终细化完整多视图预测。图3概述了我们提出的方法。

实验

为了在非结构化和结构化多视图场景中评估我们的方法，我们在四个数据集上进行了实验。通过比较结果，我们展示了该方法在处理现实和通用案例以及标准多视图场景方面的有效性。

结论

在这项研究中，我们提出了HMDMV框架，它在结构化和非结构化多视图环境中都有效。该方法在训练期间利用所有可能的视图组合来捕捉视图间关系，并结合基于不确定性的权重和层次化互蒸馏来实现鲁棒的表示学习。在多样化的广泛多视图数据集上的实验表明，HMDMV始终优于最先进的方法。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者仅使用ChatGPT来提高语法精度和句子层面的清晰度。使用该工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容承担全部责任。

CRediT作者贡献声明

杨智雄：写作——审阅与编辑、撰写原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据管理。郑海俊：写作——审阅与编辑、资源获取。张益范：写作——审阅与编辑、监督、资源获取、方法论、资金获取、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

作者感谢Moon Junho和Kim Daehwan在手册准备过程中提供的宝贵反馈。这项工作得到了韩国国家研究基金会（NRF）的资助（由科学和ICT部（MSIT）提供，项目编号RS-2024-00455720、RS-2024-00338048），以及国家健康研究所（NIH）的研究项目（2025ER040300）的支持，还包括国家超级计算中心的超级计算资源和技术支持（KSC-2024-CRE-0021 & KSC-2025-CRE-0065）的资助

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验

结论

写作过程中生成式AI和AI辅助技术的声明

CRediT作者贡献声明

利益冲突声明

致谢

热点排行