利用基于双重对比学习的文本风格转换技术实现强大的偏差缓解

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Human-Computer Studies》：Robust bias mitigation using dual contrastive learning based text style transfer

【字体：大中小】 时间：2026年01月25日 来源：International Journal of Human-Computer Studies 5.1

编辑推荐：

　　文本风格转换与双对比学习在偏见缓解中的应用研究，提出融合对比学习与掩码语言模型的框架，通过增强风格分类器实现有效偏见识别与中性风格转换，实验验证了语义保留和流畅性提升效果。

奥萨马·苏巴尼·汗（Osama Subhani Khan）|奈玛·伊尔塔夫（Naima Iltaf）|乌斯曼·齐亚（Usman Zia）

巴基斯坦伊斯兰堡的国家科学技术大学（NUST）

摘要

文本风格转换（Text Style Transfer, TST）是一项自然语言处理（NLP）任务，旨在修改文本风格的同时保持语义内容的完整性。目前的方法主要依赖于情感转换任务，例如将负面的客户评价修改为正面评价，反之亦然。虽然这对于评估TST系统的风格修改和语义一致性非常重要，但这种任务的应用仍存在争议。TST有潜力实时减轻评论中的偏见。然而，利用TST来减轻偏见的相关研究在文献中较为匮乏。现有框架面临的挑战包括在数据有限且含有噪声的情况下保持一致性和连贯性，尤其是在偏见减轻方面。此外，由于数据驱动的AI框架所需的数据量不足，其性能也受到影响。本研究提出了一种基于对比学习的框架，将分散的输入点转换为嵌入空间。我们采用了一种三元组损失（triplet loss），并结合了增强的双对比损失（dual contrastive loss）来区分不同的风格。我们提出了一个联合训练方案，包括掩码语言模型（masked language model）、两个双对比风格检测器（dual contrastive style detectors）和一个序列编辑器（sequence editor），以实现内容和风格的同步修改。我们的模型相比现有的基线系统有显著提升，这归功于将双对比学习与掩码语言建模相结合。实验结果通过一系列测试在两个基准数据集上验证了该系统的优越性能。

引言

带有偏见的文本内容可能对不同群体的读者造成伤害。例如，在线平台上的偏见内容可能会固化刻板印象或边缘化某些社群。尽管像维基百科这样的组织实施了中立观点（NPOV）政策以减轻偏见（Pryzant等人，2020年），但这些努力仍然依赖于人工干预，而非自动化解决方案，如文本风格转换（TST）（Pryzant等人，2020年）。

文本内容可以有多种风格。TST的目标是以最小的改动将句子的源风格转换为目标风格，同时保持原始含义不变。正如金等人（Jin等人，2022年）所指出的，由于存在大量需要以特定风格呈现的文本内容，TST具有重要意义。

尽管受到了越来越多的关注，但目前关于TST的大多数研究仍然集中在情感转换或其他风格转换（如正式程度或情感）上。然而，利用TST来减轻偏见的研究仍然不够充分。

偏见可以被视作一种风格（Tokpo和Calders，2022年）。带有偏见的文本可能会对阅读者产生负面影响。例如，“只有技术娴熟的男性才能做这份工作”这样的文本就带有性别偏见。使用以中立风格为目标的TST可以有效减轻这种偏见。将文本改写为“只有技术娴熟的人才能做这份工作”，这样就能实现性别中立且无偏见的输出，这是TST减轻偏见系统的期望结果。

TST主要通过识别和替换风格属性（词汇）或编辑句子的潜在表示（词嵌入）来实现。不包含风格信息的句子的潜在表示被称为解耦表示（disentangled representation）。可以通过首先去除潜在的风格信息得到解耦表示，然后利用深度学习以不同的方式添加目标风格信息，从而编辑源风格嵌入，使其符合目标风格嵌入。

现有的方法提出了多种操纵潜在表示和识别替换风格属性（词汇）的技术。风格分类器在识别风格属性以及特定风格的句子方面起着关键作用。大多数研究在风格分类器针对特定数据集进行训练后都会接收反馈（Luo等人，2023年；Subhani Khan等人，2024年；Yang等人，2023年）。

最近，一个TST偏见减轻框架（Tokpo和Calders，2022年）在系统的不同阶段使用了三种不同的风格分类器。为了使系统更加健壮，我们引入了一种基于增强型双对比学习（enhanced Dual Contrastive learning）的技术来训练分类器。我们认为这些分类器能够更好地区分带有偏见和中立的风格。具体来说，双对比学习有助于在潜在空间中更清晰地分离带有偏见和中立的句子，从而有效地操纵潜在表示并进行风格分类。

在本文中，我们提出了一个基于双对比学习的掩码语言建模（Masked Language Modeling, MLM）TST框架用于偏见减轻。我们使用MLM是因为它们被训练用来预测给定掩码句子中的正确词汇，其中一些词汇被随机替换为‘[MASK]’标记。而我们的MLM经过强化训练，能够预测仅限于目标风格属性的词汇，从而产生流畅的输出。虽然许多TST研究都采用了MLM，但据我们所知，我们是第一个在这个领域结合双对比学习的。我们明确地对源风格属性进行掩码处理，并用目标风格属性替换它们，以保留原始含义。我们的MLM经过双对比学习信号的微调，并配备了单独的双对比学习分类器，确保了有效的风格转换和流畅的输出。

所提出的框架在性能上优于现有的最先进基线系统。我们的主要贡献如下：•

采用了结合双对比损失和编码器损失（encoder loss）的三元组损失（triplet loss）来区分风格和内容。这涉及到对带有偏见的属性进行掩码处理。

•

为了预测掩码词汇的无偏见替代词，我们使用另一个目标——即在one-hot输入上训练的双对比偏见检测器（dual contrastive bias detector）来训练和优化掩码语言模型。

•

为了最大限度地保留内容，我们通过联合训练编码器和预训练的双对比偏见检测器来操纵潜在表示。

•

我们在两个真实的非并行数据集上进行了实验，与最先进的基线系统相比，在风格转换准确性方面显示出显著提升，同时保持了语义和流畅性。

本文的其余部分分为不同的章节。第2节详细讨论了相关文献。第3节提供了所提出技术的全面概述和结构，包括数学说明。第4节讨论了实验细节和基线评估技术。第5节讨论了所提出技术的实验结果及其与不同基线的比较。第6节讨论了不同的输出和可视化结果，第7节则总结了研究结果并展望了未来的工作。

参考文献

文献综述

我们详细讨论了与我们的研究最密切相关的TST应用和现有策略，以及对比学习（contrastive learning）的相关内容。

提出的方法

所提出系统的端到端架构图如图1所示。首先，通过风格分类器模块（Style Classifier）对输入句子的风格进行分类，该模块利用双对比学习来区分带有偏见和中立的风格。然后通过分类器的解释对每个特征词对偏见风格的重要性进行评分，从而用[MASK]标记替换带有偏见的词得到掩码句子。

输入句子也被送入序列编辑器（sequence editor）进行进一步处理

实验设置

我们进行了两项实验。第一项任务是减轻文本内容中的性别偏见，确保适合所有性别。第二项任务是作者性别混淆，旨在将女性作者的文本转换为看起来像是男性作者写的文本，反之亦然。

结果

表2显示，我们的模型在准确性、内容保留和流畅性方面表现优异，在两个数据集上都获得了最佳的GM和HM分数。

在Jigsaw数据集上，我们的模型在风格转换准确性方面有显著提升，成功转换的句子数量在所有模型中最多。这一提升归因于使用双对比目标训练的偏见检测器的有效性，从而提高了句子的分类效果

讨论

我们通过将我们的模型输出与Jigsaw和Yelp数据集上的MLM输出进行比较，讨论了模型的改进情况（见表8和表9）。提供的示例展示了源风格属性的准确识别。随后，通过掩码掉识别出的标记并用预测的词汇替换它们，将这些属性替换为目标风格属性。

从表8中我们可以观察到，MLM要么替换了掩码位置的词汇

结论与未来工作

我们提出了基于双对比学习的掩码语言建模（Dual Contrastive Masked Language Modeling）框架，作为解决文本风格转换中偏见问题的稳健解决方案。通过结合双对比学习和掩码语言建模，该模型能够有效识别和替换风格属性，同时保留语义内容。在初始阶段加入三元组损失（triplet loss）和增强的双对比损失（enhanced dual contrastive loss）有助于清晰地区分对立的风格

CRediT作者贡献声明

奥萨马·苏巴尼·汗（Osama Subhani Khan）：撰写——审阅与编辑、原始草稿、软件开发、方法论设计、研究实施。奈玛·伊尔塔夫（Naima Iltaf）：撰写——审阅与编辑、监督、资源管理、项目协调、概念构思。乌斯曼·齐亚（Usman Zia）：验证、监督、概念构思。

资金来源

本研究未获得公共部门、商业部门或非营利组织的任何特定资助。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

联系信箱：

粤ICP备09063491号

摘要

引言