如今,随着人工智能的发展,机器学习经常需要处理来自多个参与者的数据,其中同一个对象具有不同的属性。例如,在进行信用风险评估时,银行和电子商务公司拥有大量的历史数据可供评估。然而,它们对同一实体的数据具有不同的属性。通过结合这两个来源的不同属性来评估共同实体的信用风险,无疑可以获得更有价值的结果。然而,由于安全和隐私保护的约束,参与者很难与他人共享他们的数据以训练机器学习模型。因此,出现了垂直联邦学习(VFL)(Liu等人,2024年)。在VFL过程中,具有相同ID但由不同参与者持有的样本实体需要进行加密样本对齐。对齐后,我们将具有相同ID的多方样本称为垂直联邦学习下的联合样本。联合样本集利用了多方提供的额外属性来增强VFL模型的训练。在许多实际应用中,当多个参与者参与VFL时,并非所有参与者可用的样本实体总是完全相同的。例如,一个参与者的样本量可能比另一个参与者少。或者,两个参与者可能都有一定数量的缺失样本。在多个参与者之间进行加密样本对齐后,联合样本的数量将显著小于每个参与者独立数据集中的完整样本量。众所周知,样本量是影响机器学习模型训练性能的关键因素。因此,在垂直联邦学习中,为具有缺失样本的参与者生成样本是一个有价值的研究方向。探索科学方法以获得更大、更高质量的联邦训练数据集是至关重要的。
有两种方法可以解决多方样本对齐后联合样本不足的问题:① 生成新的联合样本。未对齐的样本将被丢弃,并根据对齐后的联合样本生成新的联合样本以扩展联合样本集。② 为具有缺失样本的参与者生成样本。保留未对齐的样本,并为这些参与者生成样本以参与多方样本对齐。使用未对齐的样本和生成的样本形成完整的联合样本集。这样就可以获得更大的联合样本集。
第一种方法涉及生成新的联合样本。可以使用垂直联邦生成方法从多个参与者生成联合样本。例如,基于生成对抗网络(GANs)的生成方法:FedDA(Zhang & Jiang,2022年)、VertiGAN(Jiang, Zhang, Zhou, & Grossklags,2023年)、VFLGAN(Yuan, Yang, Gope, Pasikhani, & Sikdar,2024年)和基于马尔可夫随机场(MRFs)的表格数据生成方法:VertiMRF(Zhao等人,2024a年)。它们都是VFL框架内的方法。然而,在机器学习模型训练中,样本量和数据质量都非常重要。垂直联邦生成方法生成的联合样本是完全新的,而且所有参与者的数据是合成且非真实的。此外,当某些参与者的缺失样本比例较高时,其他参与者的额外未对齐样本无法纳入联合样本集。结果,只有少量的联合样本可用于训练垂直联邦生成模型,使得开发高质量模型变得困难。因此,用于生成联合样本的技术不能保证获得高质量的联合样本。‘生成新的联合样本’的第一种方法并非最佳解决方案。
第二种方法是为具有缺失样本的参与者生成样本。目前有多种方法可以生成这些缺失样本,例如生成对抗网络(Goodfellow等人,2014年)、自动编码器(Bank, Koenigstein, & Giryes,2023年)和去噪扩散概率模型(Ho, Jain, & Abbeel,2020年)。这些方法能够通过学习底层数据分布来生成高质量的数据。在为具有缺失样本的参与者生成样本时,这些方法仅从该参与者的数据中局部学习,而不考虑其他参与者的影响。然而,在垂直联邦学习应用中,联合样本中所有参与者的数据之间存在内在关联。尽管一些基于深度学习的生成方法(如上述示例)表现良好,但这些方法在每个参与者内部局部应用时忽略了多方数据关联对生成结果的影响。为了为具有缺失样本的参与者生成高质量样本,我们需要协作整合来自其他参与者的数据。同时,‘为参与者生成样本’的问题也可以被视为垂直联邦学习背景下‘在联合样本中插补缺失数据’的问题。因此,我们需要一种高效的方法来生成或插补这些缺失样本数据,以获得完整的联合样本。
为了解决这些挑战,本文提出了一种基于关联规则和数据插补的参与者样本生成方法,称为FedPSG-AR。本文的贡献如下:
(1) 为了为参与者生成缺失样本,本文提出了一种基于垂直联邦关联规则(VF-AR)的属性生成方法。该方法在参与者的缺失样本中生成部分属性值,这些属性与其他参与者的属性高度相关。计算和生成过程在安全的隐私保护下执行。
(2) 基于VF-AR生成的属性,我们使用基于GAN的垂直联邦插补模型来生成剩余属性。在垂直联邦学习框架内重新设计了模型结构、损失函数和训练过程。这放大了其他参与者数据在插补过程中的影响,从而最大化了多方协同学习的潜力。
(3) 本文不仅评估了生成数据与真实数据的偏差,还评估了由生成的缺失样本和其他多方样本构建的联合样本集的训练效果。实验进一步证明了训练样本的数量和质量在联邦机器学习任务中的重要性,并表明FedPSG-AR在多方垂直联邦设置下的有效性。
本文的结构如下:第2节讨论了数据生成和数据插补的相关工作。第3节介绍了初步内容,包括问题设置和符号定义。第4节介绍了我们的参与者样本生成方法。第5节展示了实验结果,第6节进行了讨论,第7节给出了结论。