在垂直联邦学习中，参与者基于关联规则和数据插补进行样本生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Participants sample generation based on association rules and data imputation in vertical federated learning

【字体：大中小】 时间：2026年03月24日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　在垂直联邦学习中，为解决多参与方对齐数据后样本缺失导致联合样本不足的问题，提出FedPSG-AR方法。该方法分两阶段：首先基于多参与方属性相关性计算，利用关联规则生成部分缺失属性，确保隐私保护；其次改进GAN模型结构、损失函数及训练流程，生成剩余缺失属性。实验表明，该方法在多个公开数据集上优于现有基线模型，有效提升联邦学习样本质量与数量。

重庆邮电大学计算机科学与技术学院，中国重庆，400065

摘要

在垂直联邦学习中，当多个参与者对齐他们的数据时，某些参与者可能拥有其他参与者所没有的缺失样本。这导致联合样本的数量不足，从而可能对整体模型性能产生负面影响。为了解决这个问题，我们提出了一种基于关联规则和数据插补的新的参与者样本生成方法，简称为FedPSG-AR。FedPSG-AR分为两个阶段完成缺失样本的生成。首先，它使用垂直联邦关联规则（VF-AR）通过计算多方属性之间的相关性、识别高度相关的属性并建立它们之间的关系来生成部分属性。如果某些高度相关的属性在某些参与者中缺失，那么就会从其他参与者的相关属性中推断出这些属性的值，同时确保数据隐私。接下来，FedPSG-AR利用基于GAN的垂直联邦插补模型来生成这些缺失样本的剩余属性。为了提高其有效性，我们重新设计了模型结构、损失函数和GAN框架内的训练过程。在各种公共数据集上的实验充分验证了FedPSG-AR的性能优于目前用于垂直联邦学习中参与者样本生成的现有技术。

引言

如今，随着人工智能的发展，机器学习经常需要处理来自多个参与者的数据，其中同一个对象具有不同的属性。例如，在进行信用风险评估时，银行和电子商务公司拥有大量的历史数据可供评估。然而，它们对同一实体的数据具有不同的属性。通过结合这两个来源的不同属性来评估共同实体的信用风险，无疑可以获得更有价值的结果。然而，由于安全和隐私保护的约束，参与者很难与他人共享他们的数据以训练机器学习模型。因此，出现了垂直联邦学习（VFL）（Liu等人，2024年）。在VFL过程中，具有相同ID但由不同参与者持有的样本实体需要进行加密样本对齐。对齐后，我们将具有相同ID的多方样本称为垂直联邦学习下的联合样本。联合样本集利用了多方提供的额外属性来增强VFL模型的训练。在许多实际应用中，当多个参与者参与VFL时，并非所有参与者可用的样本实体总是完全相同的。例如，一个参与者的样本量可能比另一个参与者少。或者，两个参与者可能都有一定数量的缺失样本。在多个参与者之间进行加密样本对齐后，联合样本的数量将显著小于每个参与者独立数据集中的完整样本量。众所周知，样本量是影响机器学习模型训练性能的关键因素。因此，在垂直联邦学习中，为具有缺失样本的参与者生成样本是一个有价值的研究方向。探索科学方法以获得更大、更高质量的联邦训练数据集是至关重要的。

有两种方法可以解决多方样本对齐后联合样本不足的问题：① 生成新的联合样本。未对齐的样本将被丢弃，并根据对齐后的联合样本生成新的联合样本以扩展联合样本集。② 为具有缺失样本的参与者生成样本。保留未对齐的样本，并为这些参与者生成样本以参与多方样本对齐。使用未对齐的样本和生成的样本形成完整的联合样本集。这样就可以获得更大的联合样本集。

第一种方法涉及生成新的联合样本。可以使用垂直联邦生成方法从多个参与者生成联合样本。例如，基于生成对抗网络（GANs）的生成方法：FedDA（Zhang & Jiang，2022年）、VertiGAN（Jiang, Zhang, Zhou, & Grossklags，2023年）、VFLGAN（Yuan, Yang, Gope, Pasikhani, & Sikdar，2024年）和基于马尔可夫随机场（MRFs）的表格数据生成方法：VertiMRF（Zhao等人，2024a年）。它们都是VFL框架内的方法。然而，在机器学习模型训练中，样本量和数据质量都非常重要。垂直联邦生成方法生成的联合样本是完全新的，而且所有参与者的数据是合成且非真实的。此外，当某些参与者的缺失样本比例较高时，其他参与者的额外未对齐样本无法纳入联合样本集。结果，只有少量的联合样本可用于训练垂直联邦生成模型，使得开发高质量模型变得困难。因此，用于生成联合样本的技术不能保证获得高质量的联合样本。‘生成新的联合样本’的第一种方法并非最佳解决方案。

第二种方法是为具有缺失样本的参与者生成样本。目前有多种方法可以生成这些缺失样本，例如生成对抗网络（Goodfellow等人，2014年）、自动编码器（Bank, Koenigstein, & Giryes，2023年）和去噪扩散概率模型（Ho, Jain, & Abbeel，2020年）。这些方法能够通过学习底层数据分布来生成高质量的数据。在为具有缺失样本的参与者生成样本时，这些方法仅从该参与者的数据中局部学习，而不考虑其他参与者的影响。然而，在垂直联邦学习应用中，联合样本中所有参与者的数据之间存在内在关联。尽管一些基于深度学习的生成方法（如上述示例）表现良好，但这些方法在每个参与者内部局部应用时忽略了多方数据关联对生成结果的影响。为了为具有缺失样本的参与者生成高质量样本，我们需要协作整合来自其他参与者的数据。同时，‘为参与者生成样本’的问题也可以被视为垂直联邦学习背景下‘在联合样本中插补缺失数据’的问题。因此，我们需要一种高效的方法来生成或插补这些缺失样本数据，以获得完整的联合样本。

为了解决这些挑战，本文提出了一种基于关联规则和数据插补的参与者样本生成方法，称为FedPSG-AR。本文的贡献如下：

(1) 为了为参与者生成缺失样本，本文提出了一种基于垂直联邦关联规则（VF-AR）的属性生成方法。该方法在参与者的缺失样本中生成部分属性值，这些属性与其他参与者的属性高度相关。计算和生成过程在安全的隐私保护下执行。

(2) 基于VF-AR生成的属性，我们使用基于GAN的垂直联邦插补模型来生成剩余属性。在垂直联邦学习框架内重新设计了模型结构、损失函数和训练过程。这放大了其他参与者数据在插补过程中的影响，从而最大化了多方协同学习的潜力。

(3) 本文不仅评估了生成数据与真实数据的偏差，还评估了由生成的缺失样本和其他多方样本构建的联合样本集的训练效果。实验进一步证明了训练样本的数量和质量在联邦机器学习任务中的重要性，并表明FedPSG-AR在多方垂直联邦设置下的有效性。

本文的结构如下：第2节讨论了数据生成和数据插补的相关工作。第3节介绍了初步内容，包括问题设置和符号定义。第4节介绍了我们的参与者样本生成方法。第5节展示了实验结果，第6节进行了讨论，第7节给出了结论。

章节片段

问题定义

假设在给定的垂直联邦学习场景中有N个数据所有者（N个参与者）和一个中央服务器。为了清楚地说明本文的方法论，我们以两个参与者A和B为例，他们的可信合作者C作为中央服务器。A和B拥有敏感数据，并需要在协同模型训练过程中保护数据隐私。假设联合样本的标签列由

提出的方法

本文提出了一种基于关联规则和数据插补的参与者样本生成方法，简称为FedPSG-AR。该方法结合了VFL框架中的属性相关性、关联规则和插补技术。FedPSG-AR主要包含两个阶段，如图2所示。第一阶段涉及基于垂直联邦关联规则（VF-AR）的属性生成方法。它包括以下三个

数据集和数据准备

在我们的实验中，我们使用了四个数据集（Asuncion & Newman，2007年）来评估所提出的方法，包括银行营销数据集、德国信用数据集、字母识别数据集和在线新闻流行度数据集。

① 银行营销数据集涉及一家葡萄牙银行的直接营销活动，包含45,211个示例和16个属性特征，以及一个ID列和一个标签列。其目的是分类客户是否会

假设和适用性

所提出的方法是在垂直联邦学习场景中通常采用的几个合理假设下开发的。首先，它假设参与方共享一组可以通过安全实体匹配技术可靠对齐的公共实体，而每个方持有不同的特征子集。这种设置反映了许多实际应用，如金融风险评估和跨平台用户画像，其中特征空间是垂直的

结论

在多方协作场景中，本文提出了一种基于关联规则和数据插补的新的参与者样本生成方法，称为FedPSG-AR，以解决具有缺失样本的参与者的数据生成问题。当一个或一些参与者可能缺少其他参与者拥有的某些样本时，加密样本对齐后的联合样本数量会受到限制，这对训练不利

CRediT作者贡献声明

Xin Liu：概念化、方法论、形式分析、调查、撰写——原始草稿、撰写——审阅与编辑、监督、项目管理。Hangxuan He：软件、验证、形式分析、调查、数据整理、可视化。Weihao Tan：软件、验证、可视化。Feng Chen：形式分析、撰写——审阅与编辑、资金获取。Ying Qian：概念化、方法论、撰写——审阅与编辑、监督、项目管理，

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言