带有偏见的文本内容可能对不同群体的读者造成伤害。例如,在线平台上的偏见内容可能会固化刻板印象或边缘化某些社群。尽管像维基百科这样的组织实施了中立观点(NPOV)政策以减轻偏见(Pryzant等人,2020年),但这些努力仍然依赖于人工干预,而非自动化解决方案,如文本风格转换(TST)(Pryzant等人,2020年)。
文本内容可以有多种风格。TST的目标是以最小的改动将句子的源风格转换为目标风格,同时保持原始含义不变。正如金等人(Jin等人,2022年)所指出的,由于存在大量需要以特定风格呈现的文本内容,TST具有重要意义。
尽管受到了越来越多的关注,但目前关于TST的大多数研究仍然集中在情感转换或其他风格转换(如正式程度或情感)上。然而,利用TST来减轻偏见的研究仍然不够充分。
偏见可以被视作一种风格(Tokpo和Calders,2022年)。带有偏见的文本可能会对阅读者产生负面影响。例如,“只有技术娴熟的男性才能做这份工作”这样的文本就带有性别偏见。使用以中立风格为目标的TST可以有效减轻这种偏见。将文本改写为“只有技术娴熟的人才能做这份工作”,这样就能实现性别中立且无偏见的输出,这是TST减轻偏见系统的期望结果。
TST主要通过识别和替换风格属性(词汇)或编辑句子的潜在表示(词嵌入)来实现。不包含风格信息的句子的潜在表示被称为解耦表示(disentangled representation)。可以通过首先去除潜在的风格信息得到解耦表示,然后利用深度学习以不同的方式添加目标风格信息,从而编辑源风格嵌入,使其符合目标风格嵌入。
现有的方法提出了多种操纵潜在表示和识别替换风格属性(词汇)的技术。风格分类器在识别风格属性以及特定风格的句子方面起着关键作用。大多数研究在风格分类器针对特定数据集进行训练后都会接收反馈(Luo等人,2023年;Subhani Khan等人,2024年;Yang等人,2023年)。
最近,一个TST偏见减轻框架(Tokpo和Calders,2022年)在系统的不同阶段使用了三种不同的风格分类器。为了使系统更加健壮,我们引入了一种基于增强型双对比学习(enhanced Dual Contrastive learning)的技术来训练分类器。我们认为这些分类器能够更好地区分带有偏见和中立的风格。具体来说,双对比学习有助于在潜在空间中更清晰地分离带有偏见和中立的句子,从而有效地操纵潜在表示并进行风格分类。
在本文中,我们提出了一个基于双对比学习的掩码语言建模(Masked Language Modeling, MLM)TST框架用于偏见减轻。我们使用MLM是因为它们被训练用来预测给定掩码句子中的正确词汇,其中一些词汇被随机替换为‘[MASK]’标记。而我们的MLM经过强化训练,能够预测仅限于目标风格属性的词汇,从而产生流畅的输出。虽然许多TST研究都采用了MLM,但据我们所知,我们是第一个在这个领域结合双对比学习的。我们明确地对源风格属性进行掩码处理,并用目标风格属性替换它们,以保留原始含义。我们的MLM经过双对比学习信号的微调,并配备了单独的双对比学习分类器,确保了有效的风格转换和流畅的输出。
所提出的框架在性能上优于现有的最先进基线系统。我们的主要贡献如下:
•采用了结合双对比损失和编码器损失(encoder loss)的三元组损失(triplet loss)来区分风格和内容。这涉及到对带有偏见的属性进行掩码处理。
•为了预测掩码词汇的无偏见替代词,我们使用另一个目标——即在one-hot输入上训练的双对比偏见检测器(dual contrastive bias detector)来训练和优化掩码语言模型。
•为了最大限度地保留内容,我们通过联合训练编码器和预训练的双对比偏见检测器来操纵潜在表示。
•我们在两个真实的非并行数据集上进行了实验,与最先进的基线系统相比,在风格转换准确性方面显示出显著提升,同时保持了语义和流畅性。
本文的其余部分分为不同的章节。第2节详细讨论了相关文献。第3节提供了所提出技术的全面概述和结构,包括数学说明。第4节讨论了实验细节和基线评估技术。第5节讨论了所提出技术的实验结果及其与不同基线的比较。第6节讨论了不同的输出和可视化结果,第7节则总结了研究结果并展望了未来的工作。