
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通过训练时神经元对齐以及固定的神经元锚点来提升模型融合效果
《IEEE Transactions on Pattern Analysis and Machine Intelligence》:Improving Model Fusion by Training-Time Neuron Alignment With Fixed Neuron Anchors
【字体: 大 中 小 】 时间:2026年02月10日 来源:IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6
编辑推荐:
模型融合通过整合多个深度神经网络的参数提升模型性能,但不同训练设置导致神经元排列差异大,影响融合效果。本文提出训练时神经元对齐算法TNA-PFN,利用部分固定权重作为锚点减少排列变化,在联邦学习场景下验证其有效性,提出FedPFN和FedPNU方法,显著提升异构环境下的融合效果。
深度神经网络(DNN)在各种机器学习任务中展现了强大的能力。例如,大型语言模型(如GPT-4)在问答任务中表现出与人类水平相当的智能;扩散模型则能够生成与现实难以区分的图像或视频。为了构建更强大的模型,模型融合技术旨在通过融合多个DNN的参数来整合它们的知识和能力,这一技术在许多领域具有广泛的应用前景。研究表明,在预训练模型上进行模型融合可以提高模型的泛化能力,例如“模型混合”(model soup)[12]和ColD融合[11]。模型混合通过融合多个微调模型的权重,有效提升了泛化性能,从而在各种任务中显著提高了预测准确性,同时不会增加推理时的计算负担。ColD融合发现,微调语言模型的融合可以持续改进这些模型的性能。此外,联邦学习技术通过在服务器端进行加权模型融合,以保护隐私和高效通信的方式整合局部数据,从而生成全局模型。