跨领域的公平性：一个统一的、注重公平性的框架，用于领域泛化和无监督适应

《Frontiers in Big Data》：Fairness across domains: a unified fairness-aware framework for domain generalization and unsupervised adaptation

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Big Data 2.3

编辑推荐：

　　摘要：在机器学习中，公平性仍然是一个关键挑战，特别是在领域转换存在的情况下。我们提出了一个统一的公平感知框架，用于领域泛化（Domain Generalization, DG）和无监督领域适应（Unsupervised Domain Adaptation, UDA），该框架通过解

　　摘要：在机器学习中，公平性仍然是一个关键挑战，特别是在领域转换存在的情况下。我们提出了一个统一的公平感知框架，用于领域泛化（Domain Generalization, DG）和无监督领域适应（Unsupervised Domain Adaptation, UDA），该框架通过解耦表示学习联合解决领域转换和敏感属性偏见问题。该框架将内容、风格和敏感因素分离开来，并利用它们生成增强样本，以减少偏见同时保持预测的可靠性。在对四个数据集进行的广泛实验中，证明了所提出方法在DG和UDA设置中都取得了最先进的性能。此外，它在不同领域和敏感子群体之间实现了更强的分类准确性和公平性平衡。通过结合未标记的目标领域数据，我们的框架扩展了之前仅限于DG的公平感知方法，并为无监督适应下的公平感知学习提供了新的见解。总体而言，这项工作为多领域环境中可扩展和鲁棒的公平感知学习提供了实际步骤。

1 引言：确保机器学习中的公平性已成为伦理AI部署的基石，特别是在领域转换与敏感属性相互作用影响预测结果的实际应用中。随着机器学习系统越来越多地渗透到不同的社会领域，公平性考虑变得至关重要，需要能够解决偏见的同时保持预测性能的强大方法。图1展示了由于图像风格（照片和漫画）不同以及标签（未清洁和清洁）和敏感属性（男性和女性）之间的相关性不同而导致的源领域和目标领域之间的变化。在源领域中，大多数厨房里的女性与清洁相关联，而在目标领域中，这种模式发生了变化，大多数女性与不清洁相关联。这种变化创造了一种混合转换，其中特定于领域的风格和标签敏感的相关性都在变化，使得学习一个既准确又公平的分类器变得困难。

图1：源领域和目标领域的图像展现出不同的风格（照片和漫画）。每个领域的类别标签（NC和C）和敏感属性（男性和女性）之间存在独特的相关性。源图像来自FairFace数据集（Karkkainen和Joo，2021年）。

在分布转换下的学习有两种主要范式：领域泛化（DG）和无监督领域适应（UDA）。DG旨在从多个源领域的标记数据中学习，并在训练期间无需接触目标领域数据即可泛化到未见过的目标领域，如图2的上半部分所示。相比之下，UDA假设可以访问未标记的目标领域样本以及来自多个源领域的标记数据，如图2的下半部分所示。尽管DG因为不依赖于目标领域数据而更加灵活，但在实践中UDA也非常相关，因为在部署之前通常可以获得未标记的目标领域样本，并且可以提供有关目标分布的有用信息。然而，在这两种情况下，实现公平性仍然具有挑战性，因为敏感属性可能与特定于领域的模式纠缠在一起，并且可能会在不同领域之间发生变化。

图2：我们考虑一个简单的例子，其中x=[x1,x2]T是一个二维特征向量。在领域泛化中，只有来自源领域的标记样本可用。在无监督领域适应中，有来自源领域的标记样本以及一些来自目标领域的未标记样本可用。在可用样本上训练的公平分类器f被应用于来自不同类型转换目标领域的数据，导致误分类和公平性违规。最优分类器表示为f*。

最近关于公平感知学习的研究开始通过学习确保跨敏感子群体的公平结果的表示来解决这个问题，同时保持预测准确性。在DG设置中，现有方法主要集中在学习在源领域和未见过的目标领域中保持准确的不变表示，同时减轻子群体偏见。在UDA设置中，先前的工作探索了使用目标领域信息来对齐分布并减少由领域转换引起的不公平性。例如，Quadrianto等人（2019年）提出了一种公平感知的表示学习方法，该方法在保持源领域和目标领域分布对齐的同时减少了预测对敏感属性的依赖。尽管有这些进展，大多数现有方法将DG和UDA视为单独的问题（Zhang等人，2022年；Wang等人，2020年），这限制了它们的适用性并模糊了这两种设置之间的联系。这激发了需要一个能够在一个公式中处理DG和UDA的统一公平感知框架的需求。

为了弥合这一差距，我们大幅扩展了我们之前的工作（Zhao等人，2024年），该工作提出了一个用于领域泛化的公平感知框架。将DG扩展到UDA引入了两个关键挑战：首先，如何在不访问目标类别标签的情况下提取和利用目标领域特定的风格因素；其次，如何将未标记的目标领域数据纳入公平感知学习中，而不损害公平性目标或需要在目标领域中使用敏感属性。为了应对这些挑战，我们提出了公平框架用于领域泛化和无监督适应（FFDGUA），这是一个用于DG和UDA的统一公平感知框架。与Zhao等人（2024年）相比，FFDGUA利用未标记的目标领域样本来提取目标相关的风格因素，并将这些样本纳入公平感知正则化中，从而实现更有针对性的适应，同时保留了原始的DG机制作为一个特例。更具体地说，FFDGUA学习内容、风格和敏感因素的解耦表示。这种设计通过将偏见相关信息与任务相关内容分离来促进公平感知的不变学习，同时支持DG的合成领域生成和UDA的目标感知适应。

FFDGUA的有效性通过在多个数据集上的全面实验得到证明，包括ccMNIST、FairFace、YFCC100M-FDG和NYSF。这些数据集涵盖了多个领域和敏感属性，为评估框架的泛化能力提供了严格的测试。结果表明，FFDGUA在公平性和准确性方面都取得了强劲且通常是先进的性能，在广泛的DG和UDA设置中优于现有方法。我们提出了一个统一的框架，用于解决领域转换下的公平性问题，适用于领域泛化和无监督领域适应。与仅关注DG的先前工作不同，我们的公式在一个框架中涵盖了这两种设置，原始的DG机制作为一个特例得到了恢复。

针对未标记的目标领域的目标感知扩展。为了将公平感知学习从DG扩展到UDA，我们引入了两个关键技术组成部分：（i）一种直接从未标记的目标领域样本中提取风格因素并使用它们生成目标相关增强内容的机制；（ii）一种公平感知正则化策略，该策略将未标记的目标领域样本纳入其中，以更好地对齐领域不变表示，而不需要目标标签或敏感的目标注释。

在DG和UDA设置中都表现出强大的实证性能。在对四个基准数据集进行的广泛实验中，证明所提出的框架在预测准确性和公平性之间始终实现了比现有方法更强的平衡。在有和没有访问未标记目标领域样本的设置中（分别为UDA和DG），其准确率分别提高了0.68%和1.02%，同时公平性分别提高了6.5%和1.75%，相对于最强的基线而言。这些结果突显了将这两种设置统一在一个公平感知框架中的好处。

代码存储库位于https://anonymous.4open.science/r/FairUDG。在手稿发表后，它将向公众开放，以便其他人能够复制我们的实证结果。

2 相关工作：
2.1 公平感知的领域泛化：领域泛化（DG）旨在从多个标记的源领域学习，以实现有效泛化到未见过的目标领域。这些挑战通常通过各种领先技术来解决（Vapnik，1999年；Arjovsky等人，2019年；Sagawa等人，2020年；Yan等人，2020年；Zhang等人，2022年；Robey等人，2021年），这些技术旨在提高机器学习模型在具有不同但可能重叠分布的源领域之间的泛化能力（Volpi等人，2021年）。一种流行的范式是使用跨源分布对齐来学习领域不变特征（Li H.等人，2018年；Zhou等人，2020年），从而在没有目标领域监督的情况下实现跨领域的鲁棒性。其他方法使用领域感知的数据增强技术来扩展模型对潜在变化的暴露（Zhou等人，2020年）。虽然取得了显著进展，但领域泛化中的公平性考虑仍然不足。大多数领域泛化研究（Zhang等人，2022年；Robey等人，2021年；Blanchard等人，2011年）主要集中在利用多样化的数据来识别不变模式。正如Blanchard等人（2011年）所强调的，核心目标是派生出对边际特征分布的变化具有鲁棒性的表示，从而消除了对目标领域数据的需求。然而，这种关注很大程度上忽略了确保领域间公平性的挑战。弥合这一差距可以提高实际应用中部署的模型的鲁棒性和伦理完整性。最近，Zhao等人（2024年）提出了一个算法公平框架，用于同时处理DG中的协变量和依赖性转换。然而，这种方法严重依赖于标记的源数据，无法泛化到未标记的目标领域。相比之下，我们提出的FFDGUA框架通过有效统一DG和UDA，利用解耦策略确保了即使目标标签完全不可用时也能实现鲁棒的公平性和预测可靠性。

2.2 公平感知的无监督领域适应：无监督领域适应（UDA）旨在从多个标记的源领域和未标记的目标领域学习，目标是有效泛化到目标领域。传统的UDA方法（Ganin等人，2016年；Hoffman等人，2018年；Peng等人，2019年）侧重于通过调整源领域和目标领域之间的分布来减轻领域转换，通常通过对抗性学习或领域不变表示学习来实现。这些方法假设结合来自多个源领域的信息可以导致更鲁棒的特征提取，从而提高目标领域的性能（Sun和Saenko，2016年；Zhao等人，2018年）。最近的进展将公平性纳入UDA，以解决由领域特定偏见引起的伦理问题。一些研究旨在将敏感属性与领域不变特征分开，以确保不同群体之间的公平模型行为（Wang等人，2020年；Quadrianto等人，2019年）。然而，这些方法通常依赖于源领域和目标领域中的显式敏感属性标签，这限制了它们在实际应用中的适用性。

2.3 DG和UDA中的分布转换：实际的DG部署可能会遇到各种各样的分布转换，这些转换可能会大幅降低模型性能。如图3（Shao等人，2024年）所示，这些转换包括协变量转换、标签转换、概念转换、人口统计转换和混合转换。现有方法主要关注协变量转换，其中输入分布发生变化，而标记机制保持稳定，通常通过数据增强或不变性诱导策略来实现（Zhang等人，2022年；Robey等人，2021年）。相反，标签转换指的是类别先验概率的变化，通常通过重要性加权对抗学习（Tachet des Combes等人，2020年）或标签消歧技术（Xiao等人，2026年）等方法来解决。概念转换，其中底层的特征到标签的关系发生变化，仍然特别具有挑战性，并已通过基于岭回归（Nguyen等人，2024年）或内部分布整合（Rostami和Galstyan，2023年）的方法进行了研究。在公平感知学习中，人口统计转换，即子群体比例的变化，已使用密度匹配框架（Pham等人，2023年；Giguere等人，2022年）来解决。依赖性转换，即敏感属性和目标标签之间的相关性变化，越来越多地通过内容-风格解耦和基于转换的合成领域生成（Zhao等人，2024年）来研究。最后，混合转换，涉及多种类型的转换同时发生，通常需要更灵活的概率推理机制（An等人，2022年）。

图3：实际领域泛化中分布转换的分类法，其中X、Y、Z表示特征、类别标签和敏感属性。虽然实际部署可能会遇到复杂的多种转换，如标签转换、概念转换和人口统计转换，但我们的FFDGUA框架明确将其范围限制在协变量转换（输入特征的样式变化）和依赖性转换（敏感属性和目标标签之间的相关性变化）。

2.4 DG和UDA中的风格变化：现有的DG文献也可以通过它如何建模跨领域的风格变化来理解。一个常见的假设是，源领域和目标领域共享一些基本的风格变化，这意味着不同领域的根本结构在某种程度上是对齐的（例如，在不同的照明条件、相机传感器、背景或天气条件下收集的图像，同时保持相同的语义对象和标记规则）。在这种设置中，方法通常旨在抑制领域特定的噪声，并恢复在不同相关任务中共享的稳定因素（Arjovsky等人，2019年；Zhang等人，2022年；Robey等人，2021年；Zhao等人，2024年）。第二种更具挑战性的设置考虑了极端分布变化，其中目标领域展示的风格或特征空间在训练期间大部分是不可见的（例如，在自然照片上进行训练，但在草图、漫画或严重损坏的图像上进行测试，这些图像的外观与源领域有很大差异）。针对这种情况的方法通常采用扩展策略，通过使模型暴露于合成或对抗性生成的变体来寻求鲁棒性（Volpi等人，2018年；Zhou等人，2021年；Li等人，2019年）。

2.5 我们工作的范围
(a) 分布变化。尽管实际应用可能涉及标签、概念、人口统计和其他复杂的变化，但在单一框架内对所有这些变化进行建模需要更强的假设和更广泛的问题表述。因此，我们有意将重点限制在风格引起的协变量变化和依赖性变化上，这是我们框架明确建模的两种变化类型。这一选择与我们的转换模型设计一致，该模型假设跨领域变化源于输入风格的变化以及敏感属性与标签之间的关系变化。在这个有限的范围内，模型将领域不变的内容与领域特定的风格因素和与公平性相关的敏感相关性分开，然后通过扰动这些因素来合成增强后的领域。在依赖于共享结构假设的先前domain generalization（DG）方法的基础上，它允许我们的框架通过从共享的基本变化连续先验中采样来模拟未见过的环境，而不是试图模拟同时发生的各种变化的全部复杂性。
(b) 风格变化。我们的方法设计用于源领域和目标领域具有一些基本风格变化的场景。遵循之前做出类似共享结构假设的DG工作（Zhang等人，2022年；Robey等人，2021年），我们的转换模型从这些共享的潜在变化连续先验中采样扰动。因此，预期的泛化情况不是最强意义上的任意领域变化，而是与从源领域推断出的共享潜在结构兼容的未见领域。

2.6 我们的统一框架
我们的框架通过减少对显式敏感属性标签的依赖性，增强了公平性感知的解耦技术，从而提高了在无监督适应设置中的适用性。它确保模型学习到保持公平性的表示，这些表示是领域不变的，并且可以泛化到目标领域。通过学习公平性感知的参数，我们的方法解决了先前在目标领域进行公平性感知泛化时遇到的局限性。

3 前提
3.1 符号说明
让X?Rd表示特征空间，Z={?1,1}表示敏感属性空间，Y={0,1}表示分类的二元标签空间。考虑三个潜在空间：C?Rc表示内容，A?Ra表示敏感因素，S?Rs表示风格。让X, Z, Y, C, A, S分别表示取值于X, Z, Y, C, A, S的随机变量，对应的实现为x, z, y, c, a, s。让E?表示所有可能的领域，Es?E?表示源领域。一个领域e∈Ee∈?由其联合分布PeXZY=P(Xe,Ze,Ye):X×Z×Y→[0,1]来表征。来自假设类F?的分类器f定义为f∈F:X→Y。上标表示领域成员资格（例如，xs表示来自领域s的样本），而下标指定编码器索引（例如，Ec(xs)表示处理领域s样本的内容编码器Ec）。重要的符号在表1中列出。

表1 符号说明
| 符号 | 描述 |
|-----------------|------------------------------|
| X, Z, Y, Θ | 输入特征空间、敏感空间、输出空间和参数空间 |
| C, S | 内容因素、风格因素和敏感因素的潜在空间 |
| c, s, a | 内容因素、风格因素和敏感因素 |
| [·] | 输出上的距离度量 |
| D | 数据集 |
|Ds, Dt | 源领域和目标领域中的可用样本 |
| x, z, y | 数据特征、敏感属性和类别标签 |
| f, F | 分类器、分类器空间及其ξ参数化 |
| ? | 预测的类别标签 |
| g(, ) | 公平性函数 |
| p1 | 组z = 1的样本比例的经验估计 |
| e, Ee, ? | 领域和领域集合 |
| B? | 抽样的数据批次 |
| T | 领域转换模型 |
| L? | 损失函数 |
| δ | 经验放宽的约束 |
| ? | 由h ηp预测的敏感属性 |

3.2 组别公平性
在学习旨在实现不同敏感子群体之间统计均等的公平分类器f∈F时，公平性标准要求敏感随机变量Z与模型预测的结果f(X)独立（Dwork等人，2011年）。防止群体不公平的问题可以表述为一个约束。这个约束通过确保f(X)与真实值Y对齐来减少偏见，从而促进结果的公平性。定义1（群体公平性概念（Wu等人，2019年；Lohaus等人，2020年））。给定一个数据集D={(xi,zi,yi)}|D|i=1，其中数据是从?XZY中独立同分布采样的，当预测? = f(X)与敏感随机变量Z无关时，分类器f∈F:X→Y被认为是公平的。为了消除指示函数并放宽确切值，定义了敏感子群体之间差异的线性近似形式ρ(?Y,Z)=∣∣EPXZYg(?Y,Z)∣∣，其中g(?Y,Z)=1-p1(1-p1)(Z+1/2?p1)?Yρ(Y^,Z)=|E?XZYg(Y^,Z)|，这里p1 = ?(Z = 1)和1-p1 = ?(Z = ?1)分别表示子群体Z = 1和Z = ?1中的样本比例。因此，方程1对应于人口统计均等的差异，其期望值是在XZ上进行的。直观地说，定义1表明，如果改变敏感属性（例如种族或性别）不会改变模型在考虑不同领域如何转换数据后的预测，那么模型在各个领域中是公平的。换句话说，即使每个领域可能以自己的方式扭曲或移动输入，模型对于除了敏感属性之外在其他方面完全相同的个体应该表现出相同的行为。这捕捉了公平性不仅必须在每个领域内成立，而且必须在领域之间也成立的概念，确保即使环境或数据分布发生变化，模型的决策仍然稳定和无偏。这个定义也可以扩展到当p1 = P(Z = 1, Y = 1)时的机会平等差异（Lohaus等人，2020年）。在本文中，我们在人口统计平等的条件下展示了结果，而该框架可以扩展到多类、多敏感属性和其他公平性概念。严格来说，如果分类器f满足ρ(?, Z) = 0，则它在子群体中是公平的。

3.3 问题设定
给定一个数据集D={De}|E|e=1，其中每个De={(xei,zei,yei)}|De|i=1是从PeXZY中独立同分布采样的，我们考虑多个源领域{PsXZY}|Es|s=1和不同的目标领域PtXZY?XZYt，对于所有s∈Es?Es??和t∈E\Est∈?\?s，t≠s。给定来自有限领域的样本{De}|Es|e=1，公平感知的领域泛化的目标是学习一个能够很好地泛化到目标领域的分类器f∈F。一个关键挑战是确定目标领域中的数据分布与观察到的源领域中的数据分布有多接近。虽然存在各种类型的分布变化，但在本研究中，我们仅将它们归因于协变量变化和依赖性变化，因为它们是源领域和目标领域之间发生的两种主要类型的分布变化（Roh等人，2023年）。
定义2（协变量变化（Robey等人，2021年）和依赖性变化（Roh等人，2023年）。当领域分布的差异是由于输入特征的边际分布变化引起时，发生协变量变化，表示为PsX≠PtX，?s；相反，当领域的变化是由于Y和Z的联合分布的变化引起时，发生依赖性变化，表示为PsYZ≠PtYZ，?s。这发生在PsY|Z≠PtY|Z或PsZ=PtZ?Zs=?Zt时，或者当PsZ|Y≠PtZ|Y?Z|Ys≠?Z|Yt时，同时PsY=PtY?Ys=?Yt。定义2提供了一种直观的方式，用于理解模型如何将领域特定信息与与预测和公平性相关的特征分开。简单来说，它表明转换函数应该分离跨领域变化的因素，同时保持潜在的语义内容不变。这意味着当来自不同领域的数据通过转换时，它们的领域依赖变化被移除，使模型能够基于真实的内在信号而不是虚假的领域特征进行预测。因此，当遇到新的或变化的领域时，模型变得更加健壮和公平。

4 方法论
4.1 FFDGUA框架概述
在详细介绍各个组成部分之前，我们首先提供FFDGUA工作流程的整体概述。该框架在两个相互连接的阶段中运行，以统一领域泛化（DG）和无监督领域适应（UDA）。
阶段1：解耦和转换：框架首先训练一个双层自动编码器（图4的顶部），将输入数据分解为三个不同的潜在空间：领域不变的内容、领域特定的风格和敏感因素。
图4 我们的FFDGUA框架概述。来自阶段1的学习到的转换模型生成增强样本以训练一个健壮的分类器。对于DG，它通过从高斯分布中采样风格因素来合成任意的未见领域。对于UDA，它从未标记的目标领域样本中显式提取确切的风格因素。最后，框架使用联合损失目标来优化分类器。
阶段2：公平感知的生成和分类（图4的底部）：使用来自阶段1的转换模型，FFDGUA动态生成增强样本。对于DG，它通过随机采样风格和敏感因素来合成任意的未见领域。对于UDA，它直接从未标记的目标领域样本编码风格因素。最后，分类器在原始数据和增强数据上进行了训练，指导原则包括分类、领域不变性和公平性损失，以确保预测的健壮性和公平性。

4.2 基础转换模型
最近在领域泛化方面的进展利用转换模型通过潜在空间操作来处理领域变化。Robey等人（2021年）提出了一个模型，该模型模拟环境因素并通过使用图像到图像的转换来强制预测不变性。Zhang等人（2022年）设计了一个结合编码器和解码器的框架，通过潜在因素交换和对抗性训练来模拟未见的变化。Zhao等人（2023年）分离了语义、风格和敏感因素，实现了公平感知的增强，提高了对协变量和依赖性变化的鲁棒性。受到现有领域泛化工作的启发（Robey等人，2021年；Zhang等人，2022年；Huang等人，2018年），分布变化可以通过一个底层转换模型T来表示，该模型表征了跨领域的泛化任务。使用T的动机是增强分类器f在目标领域的鲁棒性和适应性。通过学习转换模型，目标有两个：（1）通过解耦领域特定因素来从输入数据中提取领域不变的数据表示（因素）；（2）通过用不同的变化扰动现有样本来在新的领域或目标领域生成增强数据。这种增强过程使源数据多样化，从而提高了模型有效泛化到目标领域的能力。我们考虑使用图5所示的双层自动编码器作为我们的转换模型。转换模型T = {E, G}的一个目标是通过学习一组编码器E = {Em, Ec, Ea, Es}和一组解码器G = {Gi, Go}，将来自源领域的输入样本分离为潜在空间中的三个因素。Em:X→M，Ec:M→C，Ea:M→A，Es:X→S分别表示语义（m）、内容（c）、敏感（a）和风格（s）编码器。Gi:C×A→M，Go:M×S→X，Go:?×S→X分别表示内部和外部级别的解码器。
图5 我们转换框架的双层自动编码器。为了将每个数据点分离为潜在内容、风格和敏感因素，所提出的框架的第一阶段旨在训练一组具有两级架构的编码器、解码器和鉴别器。为简单起见，这里省略了鉴别器。

假设1（潜在空间）。给定一个数据集De={(xei,zei,yei)}|De|i=1，其中De是从领域e∈E中独立同分布采样的，分布为PeXZY，我们假设每个实例xei来源于三个潜在组成部分：（a）一个内容因素c∈C；（b）一个敏感因素a∈A；（c）一个特定于领域e的风格因素se。CC和AA中的内容和敏感因素在各个领域中保持不变，而风格因素se在不同领域之间变化。每个领域PeXZY参数化为e: = (se, ρe)，其中ρe = ρ(Ye, Ze)1是e中敏感子群体之间的差异。对（se, ρe）的唯一标识定义了每个领域PeXZY。假设1非正式地表明，每个领域中观察到的数据可以由共享的底层结构以及领域特定的变化来解释。这意味着，尽管不同领域可能会引入自己的变化或扭曲，但它们都源自相同的潜在语义因素。通过假设这种共享结构，模型可以有意义地分离领域不变的信息和领域依赖的噪声，从而实现更稳定的预测和跨领域的更好公平性。在实践中，这一假设确保了从多个领域进行学习的可行性，因为这些领域通过一个共同的生成过程相互关联。请注意，假设1与张等人（2022年）、罗贝等人（2021年）、黄等人（2018年）以及刘等人（2017年）所做的假设密切相关。在我们的论文中，我们专注于群体公平性，并通过引入三个潜在因素来扩展现有工作的假设。在假设1下，如果两个实例（xei,zei,y）和（xej,zej,y），其中ei,ej∈E且i≠j，具有相同的类别标签，那么后者可以从前者重构出来，即（xej,zej）=T（xei,zei,ej）。具体来说，cei=Ec(Em(xei))，xej=Go(Gi(cei,aej),sej)，以及zej=h(aej)，其中aej和sej分别是来自领域ej的敏感因素和风格因素。具体而言，在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(?m,Es(xe))?xe∥1] + Em ~ PM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe）。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe）。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe）。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe）。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外部层，一个实例首先通过相应的编码器Em和Es被编码为语义因素m∈M和风格因素s∈S。在内部层，语义因素m进一步被编码为内容因素c∈C和敏感因素a∈A。为了提高转换模型T的有效性，我们对编码器和解码器的整体学习损失包括三个关键组成部分：双向重构损失、敏感性损失和对抗损失。数据重构损失促进了从数据到潜在表示再到数据的学习过程。具体来说，对于所有e∈E，需要使用其编码因素重构PeX中的数据样本xe（方程2）。数据重构损失 = Exe ~ PeX[∥Go(m^,Es(xe))?xe∥1] + Em ~ PeM[∥Gi(Ec(m),Ea(m))?m∥1]（2）。其中?m=Gi(c,a)=Gi(EC(Em(xe))，m=Em(xe)。在外敏感属性z′的计算公式为z′ = h(a′)，内容因子c则从源样本或目标样本中编码得到。解码器Gi和Go随后生成增强样本(x′, z′, y)。当c来自目标域时，标签y是未知的，但并不需要，因为这些样本仅对不变性损失有贡献，而不变性损失不需要显式的类别标签。如算法2所示，数据批次通过第2-10行的领域转换操作进行采样和处理，以创建增强批次。这些合成样本随后用于计算三个关键目标项：分类损失Lcls?cls、领域不变性损失Linv?inv和公平性约束损失Lfair?fair（第11-13行）。模型参数θ使用Adam优化器进行优化，学习率为ηp和ηd，其中超参数λ1和λ2分别控制不变性和公平性目标的相对重要性（第14行）。这些超参数通过基于约束的双变量更新进行自适应调整（第15行）。这里，转换模型T（第18-27行）通过解耦和重组潜在因子来生成增强批次，这与图7.4.4相符。

## 时间复杂度分析
为了分析时间复杂度，设m为批次大小，n为训练迭代次数，|Es||?s|为源域的数量。

在算法1中，对于每个批次（第2行），算法遍历m个样本以生成增强数据（第4-6行），这包括编码（Em, Ec, Ea, Es）、解码（Gi, Go）和预测敏感属性（h）。每次这样的转换在固定大小的网络中需要O(1)的时间，假设所有处理批次的输入数据维度是恒定的，因此每个批次的成本为O(m)。损失计算（第7行）也与m成线性关系。参数更新（第8-10行）涉及标准的优化步骤，同样需要O(m)的时间。因此，每次迭代的时间复杂度为O(m)，n次迭代的总时间复杂度为O(mn)。复杂性不依赖于源域的数量|Es||?s|，因为每个批次从所有源域中均匀采样。

在算法2中，每次迭代（第2-16行），算法从源域中采样m个标记数据点，从目标域中采样m个未标记样本。对于每一对样本(xi, xj)（第4-6行），使用转换模型生成增强数据，这包括编码（Em, Ec, Ea, Es）、解码（Gi, Go）和敏感属性预测（h），由于网络大小固定且输入数据维度恒定，每次操作也需要O(1)的时间。此外，还使用目标域中的样本进行额外的增强操作（第8-10行），引入了额外的O(m)操作。损失计算（分类损失、不变性损失、公平性损失）是在O(m)个样本上进行的（第11-12行），优化步骤也是O(m)。因此，每次迭代的时间复杂度为O(m)，总时间复杂度为O(mn)。

## 实验
为了全面评估FFDGUA的有效性，我们在涵盖多种领域的多个基准测试中进行了实验。这些基准测试经过精心选择，以涵盖各种领域特征和敏感属性，确保对框架性能的全面评估。

### 5.1 实证设置
#### 5.1.1 数据集
为了评估FFDGUA的性能，我们在四个不同的数据集上进行了实验：ccMNIST、FairFace、YFCC100M-FDG和New York Stop-and-Frisk（NYSF）。其中，NYSF是一个表格数据集，而ccMNIST、FairFace和YFCC100M-FDG是图像数据集。
- **（a）ccMNIST**：ccMNIST数据集基于原始的MNIST数据集（LeCun等人，1998年）构建，通过将颜色属性纳入数字及其背景中。它包含手写数字（0–9）的灰度图像，这些数字被分为两个二进制类别：数字0–4被归类为类别0，而数字5–9被归类为类别1，如ColoredMNIST方法（Arjovsky等人，2019年）所描述。为了实现领域泛化研究，该数据集根据数字颜色（红色、绿色和蓝色）分为三个不同的领域。每个领域显示了类别标签与敏感属性（背景颜色）之间的独特相关性，相关性系数分别为0.9、0.7和0.0。选择这些具体值是为了模拟不同程度的依赖性偏移。因为我们的实验设置使用了留一个领域出来的协议，即每个领域轮流作为目标域，而其他两个领域作为源域，这种组合可以在多样且具有挑战性的偏移场景下评估模型。例如，在0.0相关性的领域上进行测试，可以评估模型在经过高度偏激的源数据（0.9和0.7）训练后是否成功分离了敏感属性和类别标签；而在0.9或0.7的领域上进行测试，则可以评估框架在不同偏差或无偏的源数据到高度偏激的目标域进行泛化时保持公平性和准确性的能力。该数据集总共包含70,000张图像。
- **（b）FairFace**：FairFace数据集（Karkkainen和Joo，2021年）包含108,501张面部图像，旨在确保七个种族群体之间的平衡表示：黑人（B）、东亚人（E）、印度人（I）、拉丁美洲人（L）、中东人（M）、东南亚人（S）和白人（W）。在我们的实验中，每个种族群体被视为一个独立的领域。二进制分类标签基于年龄（是否≥50岁或<50岁），性别作为敏感属性。
- **（c）YFCC100M-FDG**：YFCC100M-FDG数据集是Yahoo Labs开发的YFCC100M数据集（Thomee等人，2016年）的一个精选子集。它包含90,000张图像，根据拍摄年份随机分为三个领域：1999年之前（d0）、2000年至2009年之间（d1）和2010年至2014年（d2）。每个领域包含30,000张图像。二进制类别标签指示图像是室内还是室外拍摄的。敏感属性通过纬度和经度来确定，以此区分在北美拍摄的图像和其他地方拍摄的图像。
- **（d）NYSF**：NYSF数据集（Koh等人，2021年）是2011年纽约市警察拦截记录的真实世界数据集。目标是预测涉嫌携带武器的行人在实际是否真的携带了武器。该数据集突显了社会偏见，特别是针对非裔美国人的偏见。数据被划分为五个地理领域，对应于曼哈顿（M）、布鲁克林（B）、皇后区（Q）、布朗克斯（R）和斯塔滕岛（S）。种族（分为黑色或非黑色）被视为敏感属性。

#### 5.1.2 评估指标
我们使用三个指标来评估框架的性能：准确性（Acc）以及两个旨在量化公平性的指标：人口统计平衡（DP）（Dwork等人，2011年）和敏感子组的ROC曲线下面积（AUCfair）（Ling等人，2003年）。值得注意的是，AUCfair不同于传统的分类中使用的AUC，后者依赖于TPR和FPR。相反，AUCfair基于非参数Mann-Whitney U检验，其中公平性定义为分类器将随机选中的来自一个敏感子组的样本x?1分配的分数高于来自另一个子组的样本x1的概率（Zhao和Chen，2019年；Calders等人，2013年）。接近1的DP值表示更高的公平性，而AUCfair值为0.5则表示预测无偏见。

#### 5.1.3 架构
我们有两组网络架构。一组是为ccMNIST、FairFace和YFCC100M-FDG设计的，另一组是为NYSF数据集量身定制的。
- 对于ccMNIST、FairFace和YFCC100M-FDG数据集，所有图像的大小都被调整为224 × 224。Em和Ec具有相同的结构，每个结构包含四个卷积层。第一层有64个滤波器，其余三层各有128个滤波器。前四层的核大小分别为（7, 7）、（4, 4）、（3, 3）、（3, 3）。第二层的步长为（2, 2），其他所有层的步长为（1, 1）。前三层使用ReLU作为激活函数，最后一个卷积层没有激活函数。Es和Ea也具有相同的结构，包含六个卷积层和一个位于最后两个卷积层之间的自适应平均池化层，输出大小为1。滤波器数量分别为64、128、256、256、256、2，核大小分别为（7, 7）、（4, 4）、（4, 4）、（4, 4）、（4, 4）、（1, 1），步长分别为（1, 1）、（2, 2）、（2, 2）、（2, 2）、（2, 2）、（1, 1）。前五层使用ReLU作为激活函数，而最后一层没有激活函数。Go和Gi的结构几乎相同，唯一的区别在于它们的输出大小，Go的输出大小为3，Gi的输出大小为128。两者都包含两个部分。第一部分包含四个卷积层，在第二层和第三层之间有一个上采样层（缩放因子2.0）。滤波器数量分别为128、128、64、256、256，核大小分别为（3, 3）、（3, 3）、（5, 5）、（7, 7），步长均为（1, 1）。前五层使用ReLU作为激活函数，而最后一层没有激活函数。Go和Gi的结构几乎相同，唯一的区别在于它们的输出大小，分别为3和128。两部分的第一部分都包含四个卷积层，第二部分之间有一个上采样层（缩放因子2.0）。滤波器数量分别为128、128、64、3，核大小分别为（3, 3）、（3, 3）、（5, 5）、（7, 7），步长均为（1, 1）。前两层使用ReLU作为激活函数，最后一层没有激活函数。Go和Gi的第二部分各包含三个全连接层，分别有256、256和512个神经元。ReLU是前两层的激活函数，最后一层没有激活函数。
- Do包含四个卷积层，后面跟着一个平均池化层，核大小为3，步长为2，填充为[1, 1]。卷积层的滤波器数量分别为64、128、256、256，核大小分别为（4, 4）、（1, 1），前三个层的步长分别为（2, 2）、（1, 1），最后一层的步长为（2, 2）。前三层使用ReLU作为激活函数，最后一层没有激活函数。Di包含一个全连接层，输入大小为112，输出大小为64，使用ReLU作为激活函数。h是一个全连接层，输入大小为2，输出大小为1，使用Sigmoid激活函数。f包含两部分。第一部分是ResNet-50模型（He等人，2016年），第二部分是一个全连接层，输入大小为2048，输出大小为2。
- 对于NYSF数据集，Em包含两个全连接层，各有32个神经元，输出大小为16。第一层使用ReLU，第二层没有激活函数。Es也包含两个全连接层，各有32个神经元，输出大小为2。第一层使用ReLU，第二层没有激活函数。Go包含两个全连接层，各有32个神经元，输出大小为51。第一层使用ReLU，第二层没有激活函数。Do包含两个全连接层，各有32个神经元，输出大小为16。第一层使用ReLU，第二层没有激活函数。Ec包含两个全连接层，各有16个神经元，输出大小为8。第一层使用ReLU，第二层没有激活函数。Ea包含两个全连接层，各有16个神经元，输出大小为8。第一层使用ReLU，第二层没有激活函数。Gi包含两个全连接层，各有16个神经元，输出大小为16。第一层使用ReLU，第二层没有激活函数。Di包含两个全连接层，各有8个神经元，输出大小为8。第一层使用ReLU，第二层没有激活函数。h是一个全连接层，输入大小为2，输出大小为1，使用Sigmoid激活函数。f包含两部分。第一部分是ResNet-50模型（He等人，2016年），第二部分是一个全连接层，输入大小为2048，输出大小为2。

### 5.2 实验结果
为了全面评估FFDGUA的有效性，我们在涵盖多种领域的多个基准测试中进行了实验。这些基准测试经过精心选择，以涵盖广泛的领域特征和敏感属性，确保对框架性能的全面评估。第二个组件是一个全连接层，输入尺寸为32，输出尺寸也为32，且不使用激活函数。5.1.4 模型选择为了评估我们方法的性能，我们采用了“留一域外”验证协议，该协议适用于领域泛化和无监督领域适应。这种方法得到了Robey等人（2021年）的支持，并被Gulrajani和Lopez-Paz（2020年）确定为三种选择方法之一，它系统地从训练过程中排除了一个领域。报告的性能是在所有被排除的领域上平均得出的，从而提供了对框架领域泛化和无监督领域适应能力的全面评估。5.1.5 T的有效性为了进一步评估T的有效性，我们借鉴了Huang等人（2018年）的研究，为每个领域训练一个独立的转换模型。然后通过结合不同领域的不同潜在因子来生成输出图像。以ccMNIST为例，我们独立训练了三个转换模型{Ti}i=1{Ti}i=13，每个模型专门针对一个不同的领域。每个转换模型Ti包括独特的编码器：Eic用于内容，Eia用于敏感性，Eis用于风格。如图8所示，生成器G使用来自不同领域的特征（数字类别，提取为E1c(x1)）、E2a（背景颜色，提取为E2a(x2)）和E3s（数字颜色，提取为E3s(x3)）来合成输出图像。因此，生成的图像保留了x1的数字结构、x2的背景颜色以及x3的数字颜色，并且具有可控的变化。图8 使用从三个不同图像编码的潜在因子生成的结果示例。5.1.6 超参数搜索我们遵循MUNIT（Huang等人，2018年）的超参数设置。具体来说，学习率设置为0.0001，迭代次数为600,000，批量大小为1。训练T的损失权重从{1, 5, 10}中选择。通过监控验证集的损失并选择损失最低的β配置来确定最优值。对于分类器f的训练，超参数选择如下：学习率从{0.000005, 0.00001, 0.00005, 0.0001, 0.0005}中选择。参数η从{0.01, 0.05, 0.1}中选择，而γ从{0.01, 0.025, 0.05}中选择。参数λ从{0.1, 1, 10, 20}中选择，批量大小从{22, 64, 80, 128, 512, 1024, 2048}中选择。迭代次数对于ccMNIST和NYSF数据集分别从{500, 1000, …, 8000}中选择，对于FairFace和YFCC100M-FDG数据集则从{300, 600, …, 7, 800, 8, 000}中选择。最优超参数如下：学习率为0.00005，η1 = η2 = 0.05，β1 = 1，β2 = 1，β3 = 1。这些值是通过监控验证集损失来选择的。此外，在合成领域生成具有随机公平性依赖模式的数据被证明是实现跨领域公平性不变性的有效策略。图10展示了FairFace的领域泛化消融研究，平均结果涵盖了所有领域。表6列出了各种方法的效果。

方法
DP ↑/AUC
fair ↓/Acc ↑
(R, 0.11)
(G, 0.43)
(B, 0.87)
Avg
FFDGUA w/o Ea
0.23/0.98/94.89
0.11/0.92/98.19
0.42/0.72/95.28
0.25/0.87/96.12
FFDGUA w/o T
0.21/0.92/96.74
0.15/0.86/96.95
0.48/0.57/96.05
0.28/0.79/96.58
FFDGUA w/o Lfair?fair
0.22/0.91/96.63
0.44/0.75/97.90
0.97/0.61/96.01
0.54/0.76/96.85

表7展示了ccMNIST上的领域泛化消融研究结果。

方法
DP ↑/AUC
fair ↓/Acc ↑
(B, 0.91)
(E, 0.87)
(I, 0.58)
(W, 0.49)
FFDGUA w/o Ea
0.68/0.57/93.07
0.43/0.60/95.55
0.37/0.59/92.26
0.49/0.62/92.61
FFDGUA w/o T
0.83/0.56/92.81
0.50/0.56/95.12
0.42/0.59/92.34
0.39/0.53/92.32
TD-BLS
Zhao et al., 2025

方法
DP ↑/AUC
fair ↓/Acc ↑
(L, 0.48)
(M, 0.87)
Avg
FFDGUA w/o Es(B′)Es(?′)
0.51/0.52/92.38
0.33/0.52/90.68
0.47/0.51/89.88
0.49/0.51/88.89
FFDGUA w/o T
0.92/0.56/87.87
0.52/0.59/90.78
0.53/0.59/91.19
0.58/0.59/96.58

方法
DP ↑/AUC
fair ↓/Acc ↑
(Q, 0.59)
(S, 0.62)
Avg
FFDGUA w/o Es(B′)Es(?′)
0.92/0.54/57.61
0.90/0.59/52.82
FFDGUA w/o T
0.97/0.52/59.33
0.87/0.57/55.40
FFDGUA w/o Lfair?fair
0.83/0.57/64.17
0.89/0.58/56.51

表8展示了FairFace上的领域泛化消融研究结果。

方法
DP ↑/AUC
fair ↓/Acc ↑
(d0, 0.73)
(d1, 0.84)
(d2, 0.72)
Avg
FFDGUA w/o Es(B′)Es(?′)
0.69/0.57/43.09
0.83/0.63/89.68
0.89/0.54/87.70
0.80/0.58/73.49
FFDGUA w/o T
0.82/0.56/47.21
0.83/0.63/73.10
0.82/0.53/72.95
0.82/0.57/64.42
FFDGUA w/o Lfair?fair
0.72/0.69/54.24
0.92/0.64/94.35
0.92/0.64/93.20
0.86/0.66/80.59

表9展示了YFCC100M-FDG上的领域泛化消融研究结果。

方法
DP ↑/AUC
fair ↓/Acc ↑
(R, 0.93)
(B, 0.85)
(M, 0.81)
FFDGUA w/o Es(B′)Es(?′)
0.95/0.52/55.78
0.97/0.51/55.30
0.95/0.53/58.29
FFDGUA w/o T
0.95/0.52/61.36
0.91/0.54/57.67
0.89/0.55/60.68
FFDGUA w/o Lfair?fair
0.95/0.52/63.72
0.87/0.55/58.86
0.89/0.54/60.61

方法
DP ↑/AUC
fair ↓/Acc ↑
(Q, 0.59)
(S, 0.62)
Avg
FFDGUA w/o Es(B′)Es(?′)
0.92/0.54/57.61
0.90/0.59/52.82
FFDGUA w/o T
0.97/0.52/59.33
0.87/0.57/55.40
FFDGUA w/o Lfair?fair
0.83/0.57/64.17
0.89/0.58/56.51

表10展示了FairFace上的领域泛化消融研究结果。

方法
DP ↑/AUC
fair ↓/Acc ↑
(d0, 0.73)
(d1, 0.84)
(d2, 0.72)
Avg
FFDGUA w/o Es(B′)Es(?′)
0.69/0.57/43.09
0.83/0.63/89.68
0.89/0.54/87.70
0.80/0.58/73.49
FFDGUA w/o T
0.82/0.56/47.21
0.83/0.63/73.10
0.82/0.53/72.95
0.82/0.57/64.42
FFDGUA w/o Lfair?fair
0.72/0.69/54.24

表9展示了YFCC100M-FDG上的领域泛化消融研究结果。

方法
DP ↑/AUC
fair ↓/Acc ↑
(R, 0.93)
(B, 0.85)
(M, 0.81)
FFDGUA w/o Es(B′)Es(?′)
0.95/0.52/55.78
0.97/0.51/55.30
0.95/0.53/58.29

方法
DP ↑/AUC
fair ↓/Acc ↑
(Q, 0.59)
(S, 0.62)
Avg
FFDGUA w/o Es(B′)Es(?′)
0.92/0.54/57.61
0.90/0.59/52.82
表11展示了FairFace和YFCC100M-FDG上的实验结果，以及它们在准确性和公平性之间的权衡。

算法1中的参数λ2（第8行和第10行）用作公平性损失的正则化系数。为了分析其影响，我们进行了额外的实验，将λ2的值变化在λ2∈{0.01, 0.05, 0.1, 1, 10}范围内，并检查了准确性和公平性之间的权衡。我们的发现表明，增加λ2可以提高模型在各个领域内的公平性以及整体的公平性，但会以降低准确性为代价。相反，较小的λ2值可以提高准确性，但会损害公平性。FairFace和YFCC100M-FDG上的评估结果如图11所示。图中右上角的结果代表了准确性和公平性之间的最佳权衡。绘制的结果反映了所有目标领域的平均性能。

图11展示了FairFace（左）和YFCC100M-FDG（右）在一系列λ2值上的准确性和公平性权衡结果。

5.3 无监督领域适应实验

5.3.1 基线
在我们的评估中，FFDGUA与8种无监督领域适应基线方法进行了比较，这些方法根据它们的主要关注点和方法论方法分为两类：(a) 六种先进的领域泛化方法，由于可以利用目标领域的未标记样本，因此可以轻松适应无监督领域适应：CORAL（Sun和Saenko, 2016）、MMD（Li H.等, 2018）、DANN（Ganin等, 2016）、CDANN（Li Y.等, 2018）、DDG（Zhang等, 2022）和MBDG（Robey等, 2021）；(b) 三种无监督领域适应方法：DAD（Peng等, 2024）、TD-BLS（Zhang等, 2025）和DLRE（Zhao等, 2025）；(c) 两种考虑公平性的领域泛化方法：DDG-FC和MBDG-FC，它们是对DDG（Zhang等, 2022）和MBDG（Robey等, 2021）的修改，在它们的分类框架中加入了额外的公平性约束。

5.3.2 领域样本可用性
在无监督领域适应中，与领域泛化类似，我们选取一个领域作为目标领域，其他所有领域作为源领域。在训练期间，有80%的源领域样本是标记的。目标领域也有50%的未标记样本可用。换句话说，目标领域50%样本的特征可用，但它们的真实标签和敏感属性在训练期间是不可用的。为了训练转换模型，我们使用了源领域和目标领域中所有可用的样本。为了训练分类器，由于我们使用了留一个领域的外判策略，参数是在|Es|?1|?s|-1个源领域和目标领域上训练的，总共有|Es||?s|个领域。

5.3.3 数据增强
我们在图12中提供了带有随机变化的增强样本的可视化。前两列（原始）显示了直接从数据集中采样的图像。第三列显示了通过结合第一列编码的内容因素、第二列编码的风格因素和从高斯分布中随机抽取的敏感因素生成的图像。虽然这些生成的图像保留了原始样本的核心内容因素，但它们的风格和敏感因素经历了显著的修改。这些生成的样本增强了分类器在其风格因素编码的领域内的泛化能力。即使训练期间只有有限数量的未标记样本，这种方法也能提高目标领域的泛化性能。该可视化展示了转换模型T在提取潜在因素和产生跨领域的多样化、真实的转换方面的有效性。

图12展示了转换模型T生成的图像的可视化，其中内容因素和风格因素来自不同的图像，敏感因素是随机抽取的。来源图像来自FairFace数据集（Karkkainen和Joo, 2021）。

5.3.4 定量结果
全面的实验结果表明，FFDGUA在所有方面都显著优于基线方法。与领域泛化表格类似，结果表中的每一列对应于特定目标领域的性能，其余领域作为源领域。每个领域的人口统计平等差异在领域名称后标明，最后一列提供了所有领域的平均性能。如表10所示，对于YFCC100M-FDG，FFDGUA在所有评估指标上都取得了最佳性能。具体来说，它将DP提高了1%，准确性提高了0.62%，并在AUCfair上达到了最佳基线方法的水平。在NYSF数据集上，如图11所示，FFDGUA在所有领域都获得了最高的平均准确性和公平性指标。值得注意的是，它将DP提高了1%，AUCfair提高了1%，准确性提高了2.42%。对于ccMNIST数据集，如表12所示，FFDGUA取得了最佳的平均准确性，比最佳基线方法提高了0.36%。此外，它在DP上与最佳基线方法相当，在AUCfair上排名第二，仅比最佳基线方法低1%。在FairFace数据集上，如表13所示，FFDGUA实现了最佳准确性，比最佳基线方法提高了0.26%，并在AUCfair上达到了最佳基线方法的水平。

5.2.6 公平性与准确性权衡
在算法1中，参数λ2（第8行和第10行）作为公平性损失的正则化系数。为了分析其影响，我们进行了额外的实验，将λ2的值变化在λ2∈{0.01, 0.05, 0.1, 1, 10}范围内，并检查了准确性和公平性之间的权衡。我们的发现表明，增加λ2可以提高模型在各个领域内的公平性以及整体的公平性，但会以降低准确性为代价。相反，较小的λ2值会导致更高的准确性，但会损害公平性。FairFace和YFCC100M-FDG上的评估结果如图11所示。结果位于图的右上角，代表了准确性和公平性之间的最佳权衡。绘制的结果反映了所有目标领域的平均性能。

5.3 无监督领域适应实验
5.3.1 基线
在我们的评估中，FFDGUA与8种无监督领域适应基线方法进行了比较，这些方法根据它们的主要关注点和方法论方法分为两类：(a) 六种先进的领域泛化方法，由于可以利用目标领域的未标记样本，因此可以轻松适应无监督领域适应：CORAL（Sun和Saenko, 2016）、MMD（Li H.等, 2018）、DANN（Ganin等, 2016）、CDANN（Li Y.等, 2018）、DDG（Zhang等, 2022）和MBDG（Robey等, 2021）；(b) 三种无监督领域适应方法：DAD（Peng等, 2024）、TD-BLS（Zhang等, 2025）和DLRE（Zhao等, 2025）；(c) 两种考虑公平性的领域泛化方法：DDG-FC和MBDG-FC，它们是对DDG（Zhang等, 2022）和MBDG（Robey等, 2021）的修改，在它们的分类框架中加入了额外的公平性约束。此外，将该框架扩展到支持多标签分类和处理连续型敏感属性的功能，可以提升其在更广泛场景下的适用性。

热点排行