通过训练时神经元对齐以及固定的神经元锚点来提升模型融合效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Pattern Analysis and Machine Intelligence》：Improving Model Fusion by Training-Time Neuron Alignment With Fixed Neuron Anchors

【字体：大中小】 时间：2026年02月10日 来源：IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐：

　　模型融合通过整合多个深度神经网络的参数提升模型性能，但不同训练设置导致神经元排列差异大，影响融合效果。本文提出训练时神经元对齐算法TNA-PFN，利用部分固定权重作为锚点减少排列变化，在联邦学习场景下验证其有效性，提出FedPFN和FedPNU方法，显著提升异构环境下的融合效果。

摘要：

模型融合旨在通过融合多个深度神经网络（DNN）模型的参数，将它们的知识整合到一个模型中。这种方法在许多领域具有广泛应用前景，例如提高基础模型的泛化能力以及在联邦学习中实现参数平均化。然而，不同环境（数据、超参数等）下的模型具有不同的神经元排列方式；换句话说，从损失函数的角度来看，这些模型位于不同的损失函数“流域”中，从而影响了模型融合的效果。为了解决这一问题，以往的研究强调了排列不变性的重要性，并开发了训练后调整神经元排列的方法。与以往的方法不同，本文研究了训练过程中的神经元对齐问题，实现了无需后续匹配即可提高模型融合效果的方法。训练过程中的对齐比训练后的对齐更高效，且适用于各种模型融合场景。本文基于一些基本假设和定理，提出了一种简单且无损的算法——TNA-PFN。TNA-PFN利用部分固定的神经元权重作为锚点，以减少训练过程中神经元排列的可能性，并通过实验验证了其在降低线性模型连接性和多模型融合障碍方面的有效性。此外，还证明了TNA-PFN能够提升预训练模型（如视觉变换器）和ColD融合（预训练语言模型）的融合效果。在TNA-PFN的基础上，本文提出了两种联邦学习方法FedPFN和FedPNU，展示了训练过程中神经元对齐技术的潜力。这两种方法在异构环境下实现了联邦学习的最佳性能，并且可以与服务器端算法兼容。

引言

深度神经网络（DNN）在各种机器学习任务中展现了强大的能力。例如，大型语言模型（如GPT-4）在问答任务中表现出与人类水平相当的智能；扩散模型则能够生成与现实难以区分的图像或视频。为了构建更强大的模型，模型融合技术旨在通过融合多个DNN的参数来整合它们的知识和能力，这一技术在许多领域具有广泛的应用前景。研究表明，在预训练模型上进行模型融合可以提高模型的泛化能力，例如“模型混合”（model soup）[12]和ColD融合[11]。模型混合通过融合多个微调模型的权重，有效提升了泛化性能，从而在各种任务中显著提高了预测准确性，同时不会增加推理时的计算负担。ColD融合发现，微调语言模型的融合可以持续改进这些模型的性能。此外，联邦学习技术通过在服务器端进行加权模型融合，以保护隐私和高效通信的方式整合局部数据，从而生成全局模型。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号