InfoCAM:一种基于信息权重的类别激活映射方法,用于解释视觉神经网络的运行机制

【字体: 时间:2026年02月24日 来源:Neural Networks 6.3

编辑推荐:

  基于信息论的可视化解释框架InfoCAM提出,通过双流信息瓶颈分解特征激活,利用变分推断和互信息最大化实现可靠决策解释,解决了梯度不稳定、局部性不足等问题,适用于多种视觉网络架构。

  
作者:石玉龙、孙明伟、陈增强
南开大学人工智能学院,中国天津 300350

摘要

随着深度学习技术的快速发展,视觉神经网络在各种基准测试中取得了显著进展。然而,这些网络严重依赖于非线性函数和超参数调整技术,这导致在前向推理过程中表现出“黑箱”行为。为了提高决策的透明度,本文重新审视了视觉神经网络中的信息流动,并提出了一种称为“信息加权类激活映射”(InfoCAM)的显著性视觉解释框架。InfoCAM将深度视觉神经网络视为复杂的信息处理系统,并构建了一个双流信息瓶颈(DSIB)模块。DSIB采用分而治之的策略,引入两个潜在变量,并利用变分推断将中间特征激活明确分解为判别特征流和与任务无关的噪声流。通过最大化判别流与输出预测之间的互信息,将权重系数准确地分配给特征激活图,从而生成可靠的视觉解释。InfoCAM不受梯度破碎问题的影响,可以无缝集成到各种视觉网络架构和计算机视觉任务中。此外,用于评估忠实度的平均下降和平均增加指标得到了改进,通过明确其理论界限并减轻了对网络输出分数波动的敏感性。

引言

近年来,得益于先进的神经网络架构和图形处理单元的发展,视觉神经网络在图像分类(Liu等人,2025年)、目标检测(Hao等人,2025年)、语义分割(Fang等人,2025b年;Li等人,2024a年)等几个计算机视觉任务中取得了显著进展。在某些具有挑战性的场景中,视觉神经网络的性能甚至超过了人类(Awais等人,2025年;Zhang等人,2025b年;Zhao等人,2024年)。然而,这些网络严重依赖于非线性函数和超参数调整技术,这使得它们的内部表示和决策过程难以明确描述,从而在前向推理过程中表现出“黑箱”行为(Bello等人,2025年;Choi等人,2025年;Zhang等人,2025a年)。特别是在自动驾驶和医疗诊断等安全敏感领域,这种不透明性阻碍了用户理解这些网络的内部知识表示,从而增加了安全风险(Cai等人,2024年;Chen等人,2024年)。另一方面,相关法律法规明确赋予用户要求对对个人有重大影响的算法决策进行解释的权利(Kuznietsov等人,2024年;Wang等人,2024年)。因此,理解和解释视觉神经网络的决策至关重要,因为它有助于建立对这些系统的信任(Belharbi等人,2025年;Carles-Bou和Carmona,2025年;Li等人,2025b年)。
为了提高视觉神经网络的透明度,计算机视觉社区致力于解决一个关键问题:视觉神经网络学习了哪些知识,这些知识如何影响网络的决策?为此,提出了各种视觉解释算法(Kazmierczak等人,2025年;Xu和Yang,2025年)。其中,一类流行的方法是类激活映射(CAM)(Feng等人,2024年;Li等人,2023年;Selvaraju等人,2020年),它们通过为指定层的特征激活图分配重要性权重来生成与目标类别相关的显著性热图,从而突出显示与模型决策相关的区域。然而,大多数这些算法依赖于梯度,虽然计算效率高,但使得其权重难以解释(Wang等人,2025b年)。此外,梯度作为解释视觉神经网络决策的工具的可靠性和准确性也受到质疑。这些问题总结如下:(1)不稳定性。视觉神经网络中的梯度受到噪声的影响,且是不连续的(Bassi等人,2024年;Fu等人,2025年)。当通过ReLU或Sigmoid等激活函数时,梯度可能会饱和、消失或爆炸(Feng等人,2024年)。这个问题在具有更深层次架构和更大参数规模的视觉神经网络中尤为明显(Papa等人,2024年;Wang等人,2025a年)。(2)局部性。梯度集中在决策边界附近的输入样本的贡献上(Zhuo和Ge,2024年)。由于视觉神经网络的高度非线性,局部梯度信息无法全面反映整个输入空间中的复杂交互模式。(3)敏感性。梯度表示目标函数相对于输入特征的变化率,从而表征了网络对其输入的敏感性。然而,敏感性并不等同于重要性,因为梯度表明哪些特征使图像更像猫,而不是哪些特征导致图像被分类为猫。这是两个相似但根本不同的问题。
为了解决上述问题,提出了几种无梯度的CAM算法,如Cluster-CAM(Feng等人,2024年)和CR-CAM(Li等人,2024b年)。无梯度CAM算法生成的显著性热图被认为比基于梯度的方法生成的更忠实和可靠。尽管如此,无梯度算法仍面临以下挑战:(1)理论基础不足。大多数现有的CAM算法都是基于经验的,缺乏系统的理论框架来阐明为什么它们的方法可以有效解释视觉神经网络的行为(Wang等人,2024年)。简单的线性组合系数难以捕捉特征之间的复杂交互(Lei等人,2024年;Muschalik等人,2024年)。(2)应用场景和网络架构有限。CAM算法最初是为图像分类网络设计的。相比之下,目标检测和语义分割网络需要预测目标类别以及空间信息,如边界框或像素级掩码。因此,CAM算法在这些场景中的适用性和有效性受到显著限制(Ding等人,2024年)。即使在图像分类网络中,CAM算法在视觉变换器等新兴架构上的表现也不令人满意(Niu等人,2025年;Wu等人,2024年)。
与依赖于梯度或启发式激活统计的先前CAM方法不同,本文从信息论的角度重新审视了视觉解释,并认为应该从明确量化的判别信息流而不是敏感性度量中得出忠实解释。为此,提出了一种称为“信息加权类激活映射”(InfoCAM)的显著性视觉解释框架。InfoCAM将深度视觉神经网络视为复杂的信息处理系统,并构建了一个双流信息瓶颈(DSIB)。通过采用分而治之的策略,DSIB引入两个潜在变量,并利用变分推断将中间特征激活明确分解为判别特征流和与任务无关的噪声流。随后,DSIB最大化判别流与输出预测之间的互信息,将权重系数准确地分配给特征激活图,从而生成可靠的视觉解释。此外,InfoCAM不受梯度破碎问题的影响,并表现出广泛的适用性,可以无缝集成到各种网络架构和计算机视觉任务中。图1展示了InfoCAM在VggNet(Simonyan和Zisserman,2014年)、ResNet(He等人,2016年)、ViT(Dosovitskiy等人,2020年)和Swin(Liu等人,2021年)上生成的显著性热图示例。此外,用于评估忠实度的平均下降和平均增加指标得到了改进,其理论界限得到了明确,并减轻了对网络输出分数波动的敏感性。
本工作的主要贡献总结如下:
  • (1)
    提出了一种统一且高效的视觉解释框架,称为“信息加权类激活映射”(InfoCAM)。它具有广泛的适用性,可以无缝集成到各种视觉神经网络架构和计算机视觉任务中,以解释模型的决策行为。
  • (2)
    设计了一个双流信息瓶颈(DSIB),通过引入两个潜在变量来采用分而治之的策略。它利用变分推断将中间特征激活明确分解为判别特征流和与任务无关的噪声流,并最大化判别流与模型预测之间的互信息。
  • (3)
    改进了用于评估忠实度的平均下降和平均增加指标,以提高不同网络架构下视觉解释评估的公平性和可靠性。实验结果表明,InfoCAM在各种定性和定量评估中表现出优越的性能。
本文的其余部分组织如下:第2节总结了类激活映射和信息瓶颈的相关工作。第3节描述了InfoCAM的设计过程。第4节介绍了InfoCAM在各种视觉网络和任务上的实验程序和结果。第5节和第6节分别是讨论和结论。

类激活映射

类激活映射(CAM)是一种用于视觉神经网络的事后可解释性技术,它可以通过为目标层的特征激活图分配权重系数来生成特定类别的显著性热图(Feng等人,2024年;Selvaraju等人,2020年)。根据每个特征激活图的权重获取方式,现有方法可以分为两类:基于梯度的(Du等人,2025年;Zhang等人,2025d)和无梯度的CAM方法

InfoCAM:提出的方法

在本节中,提出了一种称为InfoCAM的显著性视觉解释框架,并在图2中展示了其整体流程。具体来说,给定一个输入图像X,首先将其输入到视觉神经网络中以获得指定目标层的特征激活图A。对于VggNet和ResNet等卷积主干网络以及Swin等分层变换器模型,ARC×H×W保留了视觉特征的空间结构,其中C表示特征的数量

实验程序

本节描述了用于评估InfoCAM的实验设置、数据集、基线方法和实现细节。为了确保公平和全面的评估,InfoCAM在多个代表性的视觉神经网络架构上进行了测试,包括VggNet(Simonyan和Zisserman,2014年)、ResNet(He等人,2016年)、ViT(Dosovitskiy等人,2020年)和Swin(Liu等人,2021年)。所有这些网络都是公开可用的,并已在ImageNet上预训练。对于每个主干网络,都设置了一个目标

视觉一致性可视化

在本节中,首先从视觉一致性方面评估了InfoCAM,并将其与其他代表性先进方法(如Grad-CAM和Score-CAM)进行了比较。这些方法在VggNet(Simonyan和Zisserman,2014年)、ResNet(He等人,2016年)、ViT(Dosovitskiy等人,2020年)和Swin(Liu等人,2021年)上生成的显著性热图如图3所示。如图所示,InfoCAM展示了更平滑、更一致的视觉结果。此外,InfoCAM揭示了特征之间的差异

讨论

提出的信息加权类激活映射(InfoCAM)框架为生成视觉神经网络的忠实解释提供了一种原理性方法。通过将网络建模为复杂的信息处理系统,InfoCAM利用双流信息瓶颈(DSIB)将决策相关特征与无关噪声分离。这种分而治之的策略通过两个潜在变量实现,使InfoCAM能够为特征激活图分配权重系数

结论

在这项工作中,提出了InfoCAM作为一种将双流信息瓶颈(DSIB)集成到深度视觉神经网络中的显著性视觉解释框架。通过将决策相关信息与噪声分离并通过互信息为特征激活图分配权重,生成了忠实和可靠的视觉解释。所提出的方法对梯度破碎具有鲁棒性,并可以无缝应用于多种架构和任务。
CRediT作者贡献声明
石玉龙:撰写——原始草案、软件、方法论。孙明伟:撰写——审阅与编辑、监督、方法论、资金获取。陈增强:撰写——审阅与编辑、验证、调查、形式分析。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国家自然科学基金(项目编号62473209和62073177)的资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号