预训练的语言模型(PLMs)在自然语言处理(NLP)领域取得了显著的成功(Devlin, 2019, Devlin, Chang等人, 2019, Lan, Chen等人, 2019, Liu, Lin等人, 2021),并且它们在文本生成(Li等人, 2024b)、机器翻译(Wang等人, 2023)和问答系统(Yoon等人, 2019)等各种任务中的性能得到了显著提升。像BERT(Devlin等人, 2019)、ALBERT(Lan等人, 2019)和RoBERTa(Liu等人, 2021)这样的著名模型在各种基准测试中表现出色,成为学术界和工业界研究和应用的焦点。通过在大规模语料库上进行自监督学习,这些模型能够捕捉丰富的语言知识和上下文信息,显著提高了它们在各种NLP任务中的准确性和效率。
尽管性能优异,但PLMs在实际应用中仍面临一些潜在问题。其中一个问题是,在学习语言知识的过程中,这些模型可能会无意中习得人类偏见和社会刻板印象(Blodgett, Baracas等人, 2020, Caliskan, Bryson, Narayanan, 2017, Zhang, Yuan等人, 2025b)。这种偏见不仅削弱了模型在现实世界任务中的有效性,还可能加剧社会不平等和歧视(Li等人, 2024a)。例如,在BERT模型中,如图1所示,当输入为“The nurse said that [MASK] is very kind”时,模型主要预测“she”,得分为0.4071;而当输入为“The nurse said that he is very kind”时,预测得分降至0.3525,表明该模型在预测任务中存在对女性的偏好。同样,对于输入“The doctor said that [MASK] is very confident”,模型更倾向于预测“he”,得分为0.5270,而替换为“she”后得分降至0.3157。这些现象揭示了PLMs在性别角色预测中的刻板印象问题,进一步说明了PLMs中的性别偏见。这种偏见并非BERT(Devlin等人, 2019)所独有;其他PLMs,如ALBERT(Lan等人, 2019)和RoBERTa(Liu等人, 2021)也存在类似问题。因此,减轻PLMs中的偏见已成为一个重要的研究焦点。
为了解决PLMs中的偏见问题,学术界提出了各种去偏见方法。这些方法通常在微调阶段应用(Guo等人, 2022),通过修改训练数据(Zmigrod等人, 2019)或对输出进行后处理(Cheng, Hao等人, 2021, Liang, Li等人, 2020)来实现。例如,数据平衡技术可以优化训练数据的分布以减少偏见,而去偏见技术则旨在消除模型表示或输出阶段的不公平关联。尽管这些方法可以在一定程度上减轻偏见,但它们主要解决表面问题,未能针对产生偏见的根本机制。在这种情况下,因果推断作为一种先进的分析工具(Lu等人, 2023),越来越受到研究人员的关注。
因果推断提供了对复杂现象背后因果关系的深入洞察(Cheng, Li等人, 2024a, Li, Li, 2022, Pearl, 2009)。通过利用结构因果模型(SCMs)(Pearl, 2009),它可以识别变量之间的因果联系,揭示数据中嵌入的潜在偏见。与依赖统计相关性的传统方法不同,因果推断技术通过干预模型的学习过程来消除虚假相关性(Vigen, 2015)所带来的偏见。这些技术不仅结构上分析了偏见的原因,还更有效地减少了不公平的相关性,提高了公平性和模型的泛化能力。然而,现有的工作要么局限于特定任务,要么缺乏泛化能力,并未充分探索因果推断在去偏见PLMs方面的潜力。例如,Causal-Debias(Zhou等人, 2023)通过从因果不变的角度识别与偏见和标签相关的因素来减轻偏见,但其任务依赖性限制了其范围和有效性。这突显了进一步探索PLMs中因果推断以更有效地减轻偏见的紧迫性(Xu等人, 2023)。
为了减轻偏见,我们提出了一种基于因果关系的新表示学习方法,用于微调PLMs,称为CFPLM。首先,我们使用SCM进行深入分析,以识别潜在的混杂因素并选择适当的观测代理变量进行调整。这有助于解开表示学习中的偏见关联,其灵感来自后门原理(Pearl, 2009),如(Rottman和Hastie, 2014)所讨论的。接下来,CFPLM采用了一种复合损失函数,其中包含公平性惩罚项,并结合了对抗性损失和熵正则化,引导模型在学习过程中朝向公平的表示空间发展。
总结来说,我们工作的主要贡献如下:
- •
我们提出了一种基于因果关系的公平表示学习方法CFPLM,用于在微调PLMs时减轻偏见,为NLP任务提供了新的视角。
- •
我们通过适当的观测代理变量有效识别并减轻了PLMs中的偏见,这一方法受到了后门原理的启发。
- •
实验结果表明,CFPLM方法在评估中有效减少了PLMs中的偏见,证实了其有效性。此外,它在减轻偏见的同时保持了模型在下游任务中的强大性能。