编辑推荐:
研究数据投毒对反事实解释的影响,提出模型无关的投毒方法使解释成本增加,实验表明现有反事实生成工具和防御机制存在漏洞。
安德烈·阿特尔特(André Artelt)|舒巴姆·夏尔马(Shubham Sharma)|弗雷迪·莱库埃(Freddy Lecué)|芭芭拉·哈默(Barbara Hammer)
德国比勒费尔德大学(Bielefeld University, Bielefeld, Germany)
摘要
反事实解释是一种广泛用于检验黑盒系统预测的方法。它们可以通过提出可操作的修改建议来提供计算上的补救措施,从而改变输入以获得不同的(即更理想的)系统输出。然而,最近的研究指出,这些解释容易受到各种形式的操纵。
本研究探讨了反事实解释对数据投毒(data poisoning)的脆弱性。我们正式引入并研究了在反事实解释背景下数据投毒的现象,并从三个不同层面分析了其影响:对单个实例、特定子组实例或所有实例的局部影响。在此基础上,我们定义并描述了一种通用的数据投毒机制,并通过实际案例(水分配网络中的事件检测解释)展示了这种数据投毒的后果。此外,我们还进行了广泛的实证评估,结果表明现有的反事实生成方法和工具箱都容易受到此类攻击的影响。同时,我们发现现有的防御机制无法检测到这些被篡改的样本。
引言
基于人工智能(AI)和机器学习(ML)的现代系统在许多应用中表现出色,但仍然存在不足——例如,系统可能会出现故障、存在公平性问题,或者容易受到操纵。这些系统可以在不同阶段被攻击,从而降低预测准确性、引入故障或植入后门。在这些攻击方式中,对抗性攻击(adversarial attacks)、后门攻击(backdoor attacks)和数据投毒(data poisoning)是最常见的手段。
对抗性攻击旨在在运行时对输入进行微妙修改,导致系统错误输出;而后门攻击则是在训练阶段对系统进行修改,只有当输入中存在特定模式(即后门)时,这些修改才会生效。数据投毒可以通过修改训练数据或添加新样本来实现,这可能会导致最终模型的预测性能下降或引发公平性问题。需要注意的是,与在推理阶段发生的攻击不同,数据投毒会直接修改模型的内部逻辑,因此具有更大的威胁性。如今,许多大型模型都是在庞大的数据集上训练的,这些数据集难以被逐一检查,因此有毒数据可能会影响到大量模型。
鉴于系统故障的潜在风险(无论是故意造成的还是其他原因),这些系统的透明度变得至关重要。透明度不仅有助于防止故障,还能增强人们对系统的信任,并明确其安全使用范围。政策制定者也意识到了这一点,因此相关法规(如欧盟的GDPR和AI法案)中对此进行了规定。解释机制是实现透明度和推动可解释AI(eXplainable AI, XAI)发展的关键手段。目前已有多种解释方法,其中反事实解释是一种流行的方法,它基于人类的解释方式,可以为个人提供可行的改进建议(例如,如何将被拒绝的贷款申请转化为被接受的申请)。
然而,最近的研究表明,许多可解释AI方法容易受到对抗性操纵的影响,这削弱了用户对这类方法的信任。在反事实解释的背景下,发现它们既不抵抗模型本身的变化,也不抵抗输入扰动或用于植入后门的对抗性训练。数据投毒可能会增加用户的补救成本,无论是对所有用户还是部分用户。由于反事实解释提供了实际可行的改进建议,因此被篡改的解释会直接影响用户的操作决策。
我们的贡献:本研究的新颖之处在于首次系统地分析了反事实解释对数据投毒的脆弱性。我们定义了一组数据投毒机制,这些机制会在训练数据中插入少量具有欺骗性的样本,从而使新训练出的分类器的反事实解释变得更加复杂和成本更高。我们的方法不依赖于模型细节,只需访问预测接口和生成反事实的机制即可。实证结果表明,现有的反事实生成方法容易受到数据投毒的影响,现有的防御机制也无法检测到这些被篡改的样本。
本文的其余部分结构如下:首先讨论相关工作(第2节),然后介绍反事实解释和计算补救措施的基础知识(第3节)。接下来(第4节),我们详细阐述了数据投毒攻击的模型,并展示了其在实际应用中的影响(水分配网络中的事件检测)。第6节我们对提出的数据投毒攻击进行了全面的定量评估。最后,第7节总结了研究成果,并讨论了未来的研究方向。所有证明和实验的详细评估结果详见附录。
数据投毒的基本原理
现有的数据投毒策略主要在训练阶段影响机器学习模型的性能或公平性。然而,适用于所有黑盒模型的通用方法较为罕见。大多数数据投毒方法都是针对特定模型或模型类别(如神经网络)或特定领域(如计算机视觉)设计的,或者依赖于某些假设(如特征提取器)。标签翻转攻击(Label-Flipping attack)会随机翻转样本标签。
反事实解释与计算补救措施的基础
反事实解释提供了关于如何修改输入特征的建议,从而改变系统输出。通常,在遇到意外或不理想的结果时,人们会请求解释;在这种情况下,反事实解释也被视为一种补救措施,即提供将不利结果转化为有利结果的建议。由于反事实解释模仿了人类的解释方式,因此它们在实践中具有实用价值。反事实解释的数据投毒
由于反事实解释是针对特定实例的,数据投毒可能在不同层面上产生影响:
•全局影响:所有用户的解释结果都会受到影响。
•子组影响:仅影响部分用户的解释结果
•局部影响:仅影响单个用户的解释结果
同时,数据投毒还可以通过隐藏某些信息来影响反事实解释的效果。
定性评估案例研究:水分配网络中的事件检测解释
通过这个案例研究,我们展示了被篡改的反事实解释在事件诊断系统(用于检测异常并确定其原因的系统)中的影响。事件诊断对于确保关键基础设施系统(如水网、电网和交通网络)的正常运行至关重要。在机器学习基准测试上的定量评估
我们通过应用提出的数据投毒算法,评估了反事实解释对数据投毒的抵抗力。测试涵盖了多种不同的基准数据集、分类器以及先进的反事实生成方法和工具箱。我们分别考虑了以下三种攻击场景:1. 第6.3.2节:提高所有用户的补救成本。2. 第6.3.3节:提高特定用户的补救成本。结论与总结
本文研究了反事实解释对数据投毒的抵抗力。为此,我们识别了通过向训练数据中插入有毒样本来提高补救成本的各种策略。我们通过实证评估了数据投毒对不同分类器、基准数据集以及各种反事实生成方法的影响。CRediT作者贡献声明
安德烈·阿特尔特(André Artelt):负责撰写、审稿与编辑、原始草稿的撰写、方法论的制定和概念化。
舒巴姆·夏尔马(Shubham Sharma):负责撰写、审稿与编辑、原始草稿的撰写、方法论的制定和概念化。
弗雷迪·莱库埃(Freddy Lecué):负责撰写、审稿与编辑、监督工作。
芭芭拉·哈默(Barbara Hammer):负责撰写、审稿与编辑、监督工作以及资金筹集。
利益冲突声明
作者声明没有已知的可能影响本文研究的财务利益或个人关系。