一种隐蔽的后门攻击方法,旨在破坏自监督学习中的群体公平性

《Pattern Recognition》:Stealthy Backdoor Attack Method Targeting Group Fairness in Self-Supervised Learning

【字体: 时间:2026年03月18日 来源:Pattern Recognition 7.6

编辑推荐:

  自监督学习易受后门攻击影响群体公平性,本文提出基于特征选择与后门生成优化的隐蔽攻击方法SFBA,实验验证其有效性及对现有防御的鲁棒性。

  
Fengrui Hao|Tianlong Gu|Jionghui Jiang|Liang Chang|Fan Zhang|Chenzhong Bin
可信AI工程研究中心(教育部),济南大学,中国广东省广州市510632

摘要

自监督学习(SSL)已成为计算机视觉领域的一个基本范式,用于从无标签图像中学习视觉表示。不幸的是,SSL容易受到后门攻击的影响,攻击者可以通过污染训练数据来恶意操纵模型的预测行为。特别是在以人为中心的应用中,攻击者可能通过触发某些因素来强化刻板印象,从而影响不同群体的准确性,加剧社会不平等,导致对弱势群体的歧视性对待,违反群体公平性。此外,现有的SSL后门攻击主要针对SSL的鲁棒性,而忽略了其群体公平性。在本文中,我们分析了现有后门攻击的局限性,并提出了一种针对SSL群体公平性的隐蔽式公平性后门攻击(SFBA)方法。为了实现SFBA,我们设计了一种特征选择机制,用于在图像中选择与类别相关的特征作为目标污染区域,通过将这些触发因素与类别相关特征关联起来来强化模型的刻板印象,从而破坏模型的群体公平性。同时,我们开发了一种后门生成策略,在类别相关特征区域填充恶意信息来生成触发因素,并根据约束条件进一步优化触发因素,以实现隐蔽性和有效性。大量实验证明了我们方法的有效性和隐蔽性。此外,SFBA对最先进的后门防御方法具有很强的抵抗力。

引言

自监督学习(SSL)已成为计算机视觉领域的一个关键范式,为解决标记图像稀缺的问题提供了突破性的方法[1]。SSL的重要性在于它能够利用大量无标签图像来学习有意义的图像表示,这些表示对于各种下游视觉任务非常有用[2]。SSL流程包括两个关键组成部分[3]:预训练编码器和构建下游分类器,其中第一个组成部分是使用大量无标签图像对编码器进行预训练,第二个组成部分是使用预训练的编码器为各种视觉任务构建下游分类器。
然而,现有研究[4]已经证明,SSL容易受到嵌入在无标签数据中的刻板印象或社会偏见的影响,这些偏见在预训练编码器中被继承和放大,导致下游分类器对具有特定特征的群体进行不公平对待。例如,在面部识别任务中,可以从数据中轻易学习到与性别高度相关的偏见特征(例如长发),这会导致模型更倾向于选择男性候选人而非具有相似工作经验的女性候选人[4]。这种偏见不仅降低了模型的可靠性,还会在下游任务中表现为不同群体或类别之间的预测性能不均衡。在这些任务中缺乏公平性会加剧实际应用中的不平等现象。因此,有必要确保SSL平等对待不同的群体,包括标记类别、功能群体和人口统计群体[6](即群体公平性)。
此外,SSL容易受到后门攻击的影响,攻击者将触发因素注入无标签数据中,编码器在预训练过程中学习到这些特定行为或结果,从而在下游任务中出现特定触发因素时改变下游分类器的预测[7]、[8]。这种攻击对AI发展构成了高风险,也可能通过嵌入触发因素来影响公平性,导致对特定SSL群体的偏见预测[9]。不幸的是,现有的关于SSL后门攻击的研究[7]、[10]主要关注的是鲁棒性,而针对群体公平性的研究则很少。
在这方面,我们旨在回答以下问题:SSL是否容易受到旨在破坏群体公平性的后门攻击?我们如何设计攻击方法以最大化对群体公平性的影响,并抵抗防御方法?
总结来说,我们通过以下贡献来回答这些问题:
  • 我们分析了现有后门攻击的有效性,并发现这些方法对SSL的群体公平性没有明显的威胁。
  • 我们研究了后门攻击对SSL群体公平性的威胁,并提出了一种新的隐蔽式公平性后门攻击(SFBA)方法,专门针对SSL的群体公平性。
  • 我们开发了一种特征选择机制,用于在图像中寻找与类别相关的特征,并利用这些特征作为触发因素的载体来实现攻击群体公平性的效果。此外,我们设计了一种后门生成策略,以进一步优化被污染的图像,确保群体公平性攻击的隐蔽性和有效性。
  • 在六个SSL方法(BYOL、MAE、MoCo v3、Mugs、SERE和CIM)上进行的广泛实验表明,SFBA在攻击SSL方法的群体公平性方面是有效的。此外,防御实验表明我们的方法能够有效抵抗各种防御方法。
  • 章节片段

    自监督学习中的公平性

    SSL中的公平性通常可以分为两类[4]:群体公平性和个体公平性。(1)群体公平性指的是不同群体(例如年龄)的成员被分配到预测类别的概率应该相等。(2)个体公平性是一个更细致的标准,要求尽可能相似的个体得到相似的对待。
    Ruoss等人[11]引入了一个端到端框架,用于学习具有可证明证书的个体表示

    问题定义

    在本节中,我们首先正式定义了自监督学习、后门攻击和隐蔽式公平性后门攻击,然后简要分析了现有方法的局限性。

    威胁模型和我们的目标

    在本文中,我们根据攻击者的能力和攻击场景介绍了威胁模型,如下所述。
    攻击者的能力:我们假设攻击者可以污染部分训练数据,但无法修改其他训练组件,如训练损失或模型架构。在推理过程中,攻击者只能用任意图像查询训练好的模型,无法访问模型参数或操纵推理过程。

    实验

    在本节中,我们评估了SFBA在各种数据集和模型上的可行性。还进行了hype参数的消融实验,以测试SFBA在不同设置下的性能。

    结论

    在本文中,我们指出了现有后门攻击在隐蔽性和有效性方面的局限性。为了解决这些局限性,我们提出了SFBA,这是一种针对SSL群体公平性的新型隐蔽式后门攻击,它包括一个特征选择机制和一个后门生成策略,以确保攻击的隐蔽性和有效性。大量实验表明,SFBA对群体公平性构成了重大威胁

    CRediT作者贡献声明

    Fengrui Hao:撰写——原始草稿,验证,方法论。Tianlong Gu:撰写——审阅与编辑,监督。Jionghui Jiang:验证。Liang Chang:监督。Fan Zhang:撰写——审阅与编辑。Chenzhong Bin:撰写——审阅与编辑。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

    致谢

    本工作部分得到了中国国家自然科学基金(项目编号U22A2099、62336003和62566015)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号