学习公平表示方法以微调预训练的语言模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

学习公平表示方法以微调预训练的语言模型

《Neural Networks》：Learning Fair Representation for Fine-tuning Pre-trained Language Models

【字体：大中小】 时间：2026年02月13日 来源：Neural Networks 6.3

编辑推荐：

　　针对预训练语言模型（PLM）中存在的性别、种族等社会偏见问题，本文提出基于因果推断的CFPLM框架。通过复合损失函数整合公平性惩罚、对抗损失和熵正则化，在构建公平表征空间的同时保持模型性能。实验表明CFPLM在BERT、RoBERTa等模型中显著降低偏见，且在GLUE基准测试中公平性提升不损害语言理解能力。

王凯|张英豪|张红宇|刘琳|李久勇|冯在文|程德波

华中农业大学信息学院，武汉，湖北，430070，中国

摘要

预训练的语言模型（PLMs）通过在大量未标记数据的学习中获取丰富的语言表示，已在包括文本分类、机器翻译和问答系统在内的各种自然语言处理任务中取得了显著的成功。然而，现有的模型往往反映出类似人类的偏见和社会刻板印象，这给它们的应用带来了重大挑战。为了解决这个问题，本文提出了一种名为CFPLM的新颖去偏见框架。与传统去偏见方法不同，CFPLM基于因果推断，旨在识别并干预导致偏见的因素，从而消除PLMs中的偏见。该框架采用了一种复合损失函数，其中引入了公平性惩罚项来调节模型的学习过程。此外，它还整合了对抗性损失和熵正则化，以进一步优化模型性能。实验结果表明，基于标准数据集和评估指标，所提出的CFPLM方法显著减少了BERT、RoBERTa和ALBERT中的偏见，而在GLUE基准测试上的结果表明，提高模型公平性并不会损害模型的语言理解能力。

引言

预训练的语言模型（PLMs）在自然语言处理（NLP）领域取得了显著的成功（Devlin, 2019, Devlin, Chang等人, 2019, Lan, Chen等人, 2019, Liu, Lin等人, 2021），并且它们在文本生成（Li等人, 2024b）、机器翻译（Wang等人, 2023）和问答系统（Yoon等人, 2019）等各种任务中的性能得到了显著提升。像BERT（Devlin等人, 2019）、ALBERT（Lan等人, 2019）和RoBERTa（Liu等人, 2021）这样的著名模型在各种基准测试中表现出色，成为学术界和工业界研究和应用的焦点。通过在大规模语料库上进行自监督学习，这些模型能够捕捉丰富的语言知识和上下文信息，显著提高了它们在各种NLP任务中的准确性和效率。

尽管性能优异，但PLMs在实际应用中仍面临一些潜在问题。其中一个问题是，在学习语言知识的过程中，这些模型可能会无意中习得人类偏见和社会刻板印象（Blodgett, Baracas等人, 2020, Caliskan, Bryson, Narayanan, 2017, Zhang, Yuan等人, 2025b）。这种偏见不仅削弱了模型在现实世界任务中的有效性，还可能加剧社会不平等和歧视（Li等人, 2024a）。例如，在BERT模型中，如图1所示，当输入为“The nurse said that [MASK] is very kind”时，模型主要预测“she”，得分为0.4071；而当输入为“The nurse said that he is very kind”时，预测得分降至0.3525，表明该模型在预测任务中存在对女性的偏好。同样，对于输入“The doctor said that [MASK] is very confident”，模型更倾向于预测“he”，得分为0.5270，而替换为“she”后得分降至0.3157。这些现象揭示了PLMs在性别角色预测中的刻板印象问题，进一步说明了PLMs中的性别偏见。这种偏见并非BERT（Devlin等人, 2019）所独有；其他PLMs，如ALBERT（Lan等人, 2019）和RoBERTa（Liu等人, 2021）也存在类似问题。因此，减轻PLMs中的偏见已成为一个重要的研究焦点。

为了解决PLMs中的偏见问题，学术界提出了各种去偏见方法。这些方法通常在微调阶段应用（Guo等人, 2022），通过修改训练数据（Zmigrod等人, 2019）或对输出进行后处理（Cheng, Hao等人, 2021, Liang, Li等人, 2020）来实现。例如，数据平衡技术可以优化训练数据的分布以减少偏见，而去偏见技术则旨在消除模型表示或输出阶段的不公平关联。尽管这些方法可以在一定程度上减轻偏见，但它们主要解决表面问题，未能针对产生偏见的根本机制。在这种情况下，因果推断作为一种先进的分析工具（Lu等人, 2023），越来越受到研究人员的关注。

因果推断提供了对复杂现象背后因果关系的深入洞察（Cheng, Li等人, 2024a, Li, Li, 2022, Pearl, 2009）。通过利用结构因果模型（SCMs）（Pearl, 2009），它可以识别变量之间的因果联系，揭示数据中嵌入的潜在偏见。与依赖统计相关性的传统方法不同，因果推断技术通过干预模型的学习过程来消除虚假相关性（Vigen, 2015）所带来的偏见。这些技术不仅结构上分析了偏见的原因，还更有效地减少了不公平的相关性，提高了公平性和模型的泛化能力。然而，现有的工作要么局限于特定任务，要么缺乏泛化能力，并未充分探索因果推断在去偏见PLMs方面的潜力。例如，Causal-Debias（Zhou等人, 2023）通过从因果不变的角度识别与偏见和标签相关的因素来减轻偏见，但其任务依赖性限制了其范围和有效性。这突显了进一步探索PLMs中因果推断以更有效地减轻偏见的紧迫性（Xu等人, 2023）。

为了减轻偏见，我们提出了一种基于因果关系的新表示学习方法，用于微调PLMs，称为CFPLM。首先，我们使用SCM进行深入分析，以识别潜在的混杂因素并选择适当的观测代理变量进行调整。这有助于解开表示学习中的偏见关联，其灵感来自后门原理（Pearl, 2009），如（Rottman和Hastie, 2014）所讨论的。接下来，CFPLM采用了一种复合损失函数，其中包含公平性惩罚项，并结合了对抗性损失和熵正则化，引导模型在学习过程中朝向公平的表示空间发展。

总结来说，我们工作的主要贡献如下：

•
我们提出了一种基于因果关系的公平表示学习方法CFPLM，用于在微调PLMs时减轻偏见，为NLP任务提供了新的视角。
•
我们通过适当的观测代理变量有效识别并减轻了PLMs中的偏见，这一方法受到了后门原理的启发。
•
实验结果表明，CFPLM方法在评估中有效减少了PLMs中的偏见，证实了其有效性。此外，它在减轻偏见的同时保持了模型在下游任务中的强大性能。

部分摘录

PLMs中的偏见减轻

近年来，PLMs在自然语言处理（NLP）领域取得了显著进展（Devlin, Chang等人, 2019, Lan, Chen等人, 2019, Liu, Lin等人, 2021）。然而，这些模型也被发现存在各种社会偏见，包括性别和种族偏见，这通常反映了训练数据中根深蒂固的刻板印象（Caliskan等人, 2017）。研究人员积极进行了偏见分析，重点关注模型输出中的偏见模式。

方法论

我们的目标是通过构建公平感知的表示空间来指导PLMs的微调过程，从而提高PLMs的公平性，有效减少偏见的同时保持整体性能。为此，我们提出了CFPLM，这是一种基于因果关系的PLM框架，旨在减轻偏见。我们首先介绍了CFPLM的基本结构，然后对其关键组成部分和方法进行了深入探讨。

提出的CFPLM方法

本节详细介绍了CFPLM框架的双核创新模块，这些模块通过构建因果分离的公平表示系统地减轻了语言模型的偏见。CFPLM的架构如图3所示，包括以下两个主要模块：

•
学习表示 构建：
我们利用Jensen-Shannon散度（JSD）设计了一种高效的偏见提示机制，并生成了偏见提示数据集来揭示和量化偏见。

实验

在本节中，为了验证CFPLM的有效性，我们设计了一系列实验来回答以下研究问题：

•
（RQ1）：CFPLM是否能有效消除PLMs中的性别偏见？
•
（RQ2）：与现有的去偏见方法相比，CFPLM是否更有效？
•
（RQ3）：CFPLM在有效消除性别偏见的同时，是否会影响PLMs在下游NLP任务中的性能？
•
（RQ4）：复合损失函数的超参数是如何确定的？α和其他项的变化如何影响性能？

结论

本文介绍了CFPLM，这是一种旨在减轻PLMs中性别偏见和种族偏见的新颖去偏见框架。通过整合因果推断，该框架有效识别并干预导致偏见的因素，从而显著减少了模型内的偏见。实验结果表明，CFPLM在各种评估方法（如SEAT和CrowS-Pairs）中表现良好，显示出在减轻偏见方面的显著效果。此外，在

伦理考虑和局限性

学习公平的表示可以通过减少对敏感属性的依赖来减轻预训练语言模型中的偏见。从因果关系的角度来看，我们的方法使用后门准则构建了一个代理表示变量，并对其进行干预以部分解开混杂效应。然而，代理变量实际上无法完全捕捉所有潜在的混杂因素；因此，目标是在减少偏见，而不是消除所有偏见路径。

CRediT作者贡献声明

王凯：撰写——原始草稿、软件、方法论、调查、数据整理、概念化。张英豪：撰写——原始草稿、可视化、调查、形式分析、概念化。张红宇：撰写——审阅与编辑。刘琳：撰写——审阅与编辑。李久勇：撰写——审阅与编辑。冯在文：撰写——审阅与编辑、监督、概念化。程德波：撰写——审阅与编辑、概念化。

利益冲突声明

作者声明以下可能的财务利益/个人关系：冯在文报告获得了中国国家重点研发计划的支持。冯在文还获得了湖北省重点研发计划的支持。程德波获得了澳大利亚研究委员会的支持。如果有其他作者，他们声明没有已知的

致谢

本项目部分得到了中国国家重点研发计划（项目编号2023YFF1000100）和湖北省重点研发计划（项目编号2024BBB055、2024BAA008）以及澳大利亚研究委员会（项目编号DP230101122）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号