Hi-CBM：通过分层概念瓶颈建模来减轻信息泄露

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Hi-CBM: Mitigating information leakage via hierarchical concept bottleneck modeling

【字体：大中小】 时间：2026年02月07日 来源：Neurocomputing 6.5

编辑推荐：

　　概念瓶颈模型通过将输入特征映射到人类可理解的抽象概念来提升可解释性和可干预性，但存在信息泄漏问题导致模型失效。本文提出Hi-CBM框架，采用分层概念池化机制过滤无关信号，并设计二进制干预矩阵约束概念与标签的关联，有效消除信息泄漏。实验表明该模型在保持高预测精度的同时显著提升可解释性和可干预性。

作者：孙敖 | 王青月 | 元圆圆 | 马平川 | 王帅

中国香港特别行政区香港科技大学

摘要

概念瓶颈模型（CBMs）通过将输入特征明确映射到人类可理解的概念上来提高可解释性并促进有效干预。然而，现有的CBM框架常常存在信息泄露问题，即潜在的无关信息会绕过概念层，从而削弱可解释性并污染下游预测结果。为了解决这一挑战，我们提出了Hi-CBM，这是一种改进的CBM框架，它明确保护了CBMs中的两个关键映射——

和

——以防止信息泄露。具体来说，概念瓶颈池化机制通过选择性地聚合潜在特征到语义概念中来调节特征到概念的映射，以过滤掉无关信号；而二进制的干预矩阵则通过限制概念-类别关联来控制概念到类别的映射，防止编码在概念概率中的无关信息影响最终预测。在多个数据集上的广泛实验表明，Hi-CBM显著减少了信息泄露，并产生了既可解释又可干预的概念表示，同时保持了强大的预测性能。

引言

深度神经网络（DNNs）在许多实际任务中取得了显著的成功[1]、[2]、[3]。然而，它们的黑箱性质使得提取的特征难以理解，阻碍了用户对DNN预测结果的解读[4]、[5]、[6]、[7]、[8]。为了解决这个问题，可解释AI（XAI）应运而生，旨在为DNN预测提供高质量的解释[9]、[10]、[11]、[12]、[13]。概念瓶颈模型[9]、[14]、[15]、[16]、[17]、[18]是一种基于人类可理解概念进行预测的XAI模型。CBMs通常在最后一个全连接（FC）层之前有一个概念瓶颈（CB）层。CB层将输入层提取的特征映射到一组概念上。这有效地将DNN的中间层与一些预定义的专家概念对齐，最后一个FC层根据这些概念确定最终标签。通常，CBMs需要首先训练CB层，使每个神经元与人类可理解的概念相对应。

基于CB层的输出概念，CBMs提供了两个关键优势：可解释性和可干预性。首先，用户可以通过检查涉及的概念来解释预测标签。其次，用户可以通过确定哪些概念参与了预测来干预预测结果。从技术上讲，CBMs通常被分为软CBMs和硬CBMs。软CBMs的CB层为每个概念输出一个概率（即0到1之间的数字），而硬CB层输出一个二进制状态（即0或1），表示输入中是否存在某个概念。然后，标签预测器（通常是最后一个FC层）根据概念概率或状态预测最终标签。

尽管CBMs在提供人类可理解的解释方面具有令人鼓舞的潜力，但由于信息泄露，它们的可解释性和可干预性在实际技术解决方案中很大程度上受到了削弱[19]、[20]、[21]，因为标签预测器利用了概念之外的信息。这个问题并非个例；实证研究表明，信息泄露在合成数据和真实世界数据集中都很普遍[19]。在概念层面检查预测结果时，用户无法确定某个概念是被真正激活的，还是因为其表示携带了其他与类别相关的信号。这种行为直接削弱了CBMs旨在提供的可解释性和可靠性。

目前减轻CBMs中信息泄露的方法仍然有限，未能完全解决问题。软CBMs中的概念概率可能编码了类别分布信息，使得标签预测器可以根据难以区分的概念对不同的类别标签进行分类[19]。例如，标签预测器可能会利用“头部”和“尾部”的概率差异来区分狗和猫，并实现高准确率，尽管这两个概念不足以区分狗和猫。另一方面，硬CBMs用二进制指示符替换概率，试图防止泄露，并且之前被认为对此问题具有抵抗力[19]。然而，最近的研究表明（Mahinpei等人[20]），硬CBMs可以利用无关的硬概念向标签预测器传递类别分布。例如，Mahinpei等人[20]证明，通过添加无意义的硬概念可以提高硬CBM的性能。

为了忠实实现CBMs的设计目标，迫切需要减轻CBMs中的信息泄露。为此，本文提出了一种新的CBM范式，称为Hi-CBM，旨在明确减轻信息泄露并忠实实现CBMs的设计目标。为此，我们首先构建了一个精心设计的概念两级层次结构——感知和描述性——主张概念集应包含人类无需额外推理即可直接观察到的感知概念。基于这一层次概念集，Hi-CBM通过两个互补模块来减轻信息泄露：（1）概念瓶颈层的层次池化机制，选择性地聚合潜在特征到语义概念中，有效过滤掉无关概念；（2）二进制的干预矩阵，控制概念-类别关联，明确防止编码在概念概率中的无关信息泄露到预测结果中。这些设计改进共同确保了信息泄露的有效减轻。

我们在多个多样化数据集上的全面实证评估表明，Hi-CBM不仅有效减轻了信息泄露（第4.4节），还始终产生了更准确的预测（第4.3节）、更可解释的预测（第4.5节）以及更易于人类干预的预测（第4.6节），超越了当前的先进CBMs。这些实验结果表明，我们提出的方法Hi-CBM带来了显著且可测量的改进，为忠实且符合人类需求的概念瓶颈模型树立了新的标杆。Hi-CBM的贡献包括：

•

我们开发了一套两级的概念——感知和描述性。这样的设计可以确保感知层面的概念保持直接可观察性，从而使模型解释与人类直觉紧密对齐。

•

我们的设计结合了层次池化机制和稀疏的二进制干预矩阵，确保概念预测的相关性，并防止任何无关的预测信息影响最终标签预测。

•

在多样化数据集上的广泛实证评估表明，所提出的方法有效减少了信息泄露，并在准确性、可解释性和人类可干预性方面超越了现有的CBM方法，为忠实且符合人类需求的CBMs建立了新的基准。

Hi-CBM的设计

在本节中，我们介绍了Hi-CBM的整体工作流程，如图1所示。工作流程包括三个主要阶段：（i）概念集构建（第3.1节），（ii）使用双层机制防止信息泄露（第3.2节），包括两个核心组成部分——概念瓶颈池化（第3.2.1节）和通过干预矩阵进行标签预测（第3.2.2节）——以及Hi-CBM如何减轻标签泄露的分析说明（第3.3节）

评估

我们首先在第4.1节介绍实验设置，然后在第4.2节进行消融研究。接下来，在第4.3节评估Hi-CBM的标签预测性能。然后我们从三个角度评估信息泄露：（1）移除、（2）局部性和（3）扰动，详细内容见第4.4节。最后，我们通过4.5节的可解释性评估和4.6节的可干预性评估来评估Hi-CBM的可解释性和可干预性

结论

在本文中，我们解决了CBMs中的关键信息泄露问题，这个问题通过允许无关信息影响预测结果而阻碍了模型的可解释性和可干预性。为了克服这一限制，我们提出了Hi-CBM，这是一种新的CBM范式，它利用结构化的层次概念集和概念预测过程中的显式标签监督。通过使用精心设计的干预矩阵，Hi-CBM显著提高了标签预测的准确性

影响

Hi-CBM是一种提高CBMs可解释性和可干预性的新方法。因此，它可以应用于任何现有的骨干模型，因此可以被从业者轻松采用。鉴于Hi-CBM的高可解释性、可干预性和性能，它可以用来提高各种领域（如医疗保健、金融和自动驾驶）中AI系统的透明度和可信度。例如，在自动驾驶中，决策过程需要

局限性和未来工作

概念注释仍然是开发CBMs的主要挑战。与之前的后置概念提取方法类似，Hi-CBM利用LLMs和CLIP自动注释概念。然而，所有后置方法都存在两个共同的限制：（a）LLMs无法可靠地生成相关概念；（b）CLIP产生的相似性评分不准确。我们在多样化数据集上的实证结果表明，限制（a）通常不会造成问题

CRediT作者贡献声明

孙敖：撰写——原始草稿、项目管理、方法论、调查、形式分析、数据整理、概念化。元圆圆：撰写——审稿与编辑、撰写——原始草稿、可视化、验证、监督、软件、资源管理、方法论、调查、资金获取、形式分析、数据整理、概念化。马平川：撰写——审稿与编辑、撰写——原始草稿、可视化、验证、监督

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

王青月是香港科技大学的计算机科学工程博士后研究员。她于2024年在中国科学院信息工程研究所（IIE）获得博士学位。在此之前，她于2018年在河南大学（HENU）获得学士学位。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作