DP-HM2F：一种基于数据驱动的LoRA算法，采用双投影表示技术实现异构多模态联邦微调

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：DP-HM2F: Data-Driven LoRA with Dual-Projection Representation for Heterogeneous Multimodal Federated Fine-Tuning

【字体：大中小】 时间：2026年01月28日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　联邦学习框架下多模态大语言模型微调面临异构数据和资源限制挑战，本文提出DP-HM2F方法通过双投影机制实现全局共享与本地动态优化，结合数据驱动LoRA减少83.95%参数量，并引入正向量协作优化策略缓解语义冲突，实验验证在参数量减少0.3%情况下性能提升4.1点。

余阳|朱素霞|孙光路|何展|刘新宇|周凯|崔晓娟

哈尔滨工业大学计算机科学与技术学院，哈尔滨，150080，中国

摘要

联邦学习（FL）能够在边缘设备上实现对多模态大型语言模型（MLLM）的隐私保护微调；然而，边缘客户端的计算资源有限，加上客户端之间的模态和数据异质性，给联邦多模态微调带来了重大挑战，并导致性能下降。为了解决这些问题，我们提出了DP-HM2F，这是一种基于数据的LoRA框架，采用双投影表示机制进行异构多模态联邦微调。具体而言，DP-HM2F建立了一个双投影架构，该架构利用全局特征池和客户端特定的局部特征池，其中全局池编码了与隐私无关的共享表示，每个边缘客户端动态维护一个局部池来细化异构多模态表示。该架构通过基于投影的检索在全局池和局部池之间进行交互，以提高表示对齐性，同时在资源受限的设备上引入了额外的计算开销。为了缓解这一限制，DP-HM2F集成了一个基于数据的LoRA模块，该模块根据本地数据自适应地调整可训练参数的数量，从而减轻了异构客户端之间的计算负担。此外，为了解决联邦聚合过程中高维表示空间引起的语义冲突，我们引入了一种正向量协同优化策略来缓解冲突的客户端更新。广泛的实验结果表明，DP-HM2F仅使用了7.05%的可训练参数（比传统的基于LoRA的方法减少了0.3%），在异构多模态设置下实现了4.1点的性能提升。

引言

随着多模态大型语言模型（MLLM）的广泛应用，参数高效的微调对于各种下游应用变得越来越不可或缺（Ding等人，2023年）。然而，由于大多数高价值的多模态数据存储在边缘设备上，由于隐私问题和通信成本（Zheng等人，2025a年），这些数据大多未被充分利用，限制了MLLM的实际部署（Liu、Wang和Yuan，2025年），而这种数据稀缺性极大地限制了MLLM在现实世界场景中的实际应用（Feng等人，2023年）。MLLM的参数高效微调需要大量的完整数据和计算资源（Xu、Shu、Mei、Xie、Fernando、Tang、Ye、Wang、Chai、Li、Li、Xu、Du、Wang、Chen，2024年）。因此，联邦学习（FL）作为一种保护隐私的边缘微调范式，受到了越来越多的关注（Kairouz、McMahan、Avent、Bellet、Bennis、Bhagoji、Bonawitz、Charles、Cormode等人，2021年；McMahan、Moore、Ramage、Hampson和Arcas，2017年）。它已被广泛应用于区块链、医疗保健和金融等数据敏感领域，在这些领域保护用户隐私至关重要（Fan、Ji、Zhang、Yu、Sun，2023年；Poudel、Shrestha、Amgain、Shrestha、Gyawali、Bhattarai，2024年）。

然而，在联邦学习中，边缘客户端上的多模态数据通常是不完整或异构的，这会导致微调性能显著下降（Xu等人，2024年）。由于感知能力有限、采集条件不同或隐私限制，客户端可能缺少某些模态，导致表示空间不对齐以及网络中局部更新不一致（Yu等人，2026年）。此外，随着FL在现实世界系统中的广泛应用，资源受限的边缘设备在训练过程中经常面临不稳定的计算和通信条件（Ye、Wang、Chai、Li、Li、Xu、Du、Wang、Chen，2024年；Zhao、Barnaghi、Haddadi，2022年），例如网络带宽波动、内存有限或处理速度变化。这些因素进一步挑战了联邦优化的鲁棒性、可靠性和收敛性（Bao等人，2023年）。尽管已经提出了包括特征重建和跨模态权重调整在内的方法（Wang、Qu、Liu、Kan、Liang、Wang，2024年；Xiong、Yang、Song、Wang、Xu，2023年）来减轻模态异质性，但在数据严重不完整、客户端分布极度不平衡和资源限制严格的情况下，这些方法通常不够有效（Huang等人，2024年）。

此外，基础模型参数规模的不断扩大给边缘设备带来了巨大的通信和计算开销（Gao、Zhang、Guo、Gong，2025年；Yu、Zhu、Liang、Wang、Kant、Yin，2026年）。大的梯度或适配器更新可能会使网络带宽饱和并延长同步延迟，而在有限硬件上的局部优化往往会导致效率低下或收敛不稳定（Farooq、Milano、Borghesi，2026年；Yao、Wu、Zhu、Li、Hou，2025年）。因此，在确保训练的稳定性、效率和通信可扩展性的同时，有效整合不完整的多模态数据仍然是联邦多模态学习中的一个关键且未解决的挑战（Zheng等人，2025b年）。

为了解决多模态联邦学习中的模态异质性问题，我们提出了DP-HM2F，这是一种基于数据的LoRA框架，采用双投影表示进行联邦微调。在MLLM中，跨模态语义隐含在共享的高维表示空间中。然而，在FL设置中，客户端之间模态的不一致性会导致表示的对齐问题。这种不对齐从根本上限制了传统的以类别为中心的对齐方法，因为MLLM主要通过潜在的语义结构而不是显式的标签监督来编码知识。受到这一观察的启发，DP-HM2F通过引入双投影机制将表示对齐与标签空间分离。具体来说，全局投影特征池实现了客户端之间的隐私无关的语义共享，而动态构建的局部投影池支持个性化的语义检索，允许每个客户端在模态信息不完整的情况下细化其表示，同时严格保持数据的局部性。此外，为了减轻双投影检索范式下大模型训练的计算负担，DP-HM2F集成了一个基于数据的LoRA模块，根据本地数据自适应地调整可训练参数。在联邦聚合过程中，跨高维抽象语义空间的模态耦合检索可能会在客户端之间引入冲突的更新方向。为了缓解这个问题，DP-HM2F引入了一种正向量协同优化策略，选择性地保留与主导方向一致的更新方向，从而将参数更新限制在稳定的语义子空间内，减轻了模态异质性造成的破坏性干扰。本工作的主要贡献总结如下：

•

我们提出了一个在异构场景下的双投影表示框架，该框架结合了全局投影池和动态构建的局部投影池来细化表示。

•

我们引入了一种基于数据的LoRA机制，根据每个客户端的情况自适应地调整可训练参数，降低了资源受限边缘设备的计算成本。

•

我们提出了一种正向量协同聚合策略，选择性地对齐更新方向以减轻冲突的更新。

•

广泛的实验表明，DP-HM2F仅使用了7.05%的可训练参数，就实现了4.1点的性能提升——相当于减少了0.3%。

本文的其余部分组织如下。第2节介绍了异构多模态联邦学习领域的现有研究。第3节详细解释了所提出的方法。第4节展示了所提方法的性能。最后，第5节总结了本文。

多模态大型语言模型的参数高效微调。

多模态大型语言模型（MLLM）的参数高效微调（PEFT）最近受到了广泛关注，因为它能够在不进行完整模型微调的昂贵成本的情况下有效地适应各种下游任务（Ding、Qin、Yang、Wei、Yang、Su、Hu、Chen、Chan等人，2023年；Zheng、Shen、Tang、Luo、Hu、Du、Wen、Tao，2025a年）。常见的方法包括基于适配器的架构、低秩

方法

我们为异构FL场景提出了DP-HM2F（图1），该框架集成了双投影表示机制、客户端侧检索和参数高效适应。为了处理纠缠的多模态表示，DP-HM2F采用双投影机制，利用全局特征池将共同的语义模式编码为低维的、与隐私无关的向量，并在每个客户端维护局部动态池进行优化。客户端进行基于投影的检索

实验

为了全面验证所提方法的有效性，我们从两个角度评估了DP-HM2F在各种模态异构场景下的表现：模态缺失和跨模态（不完整的模态）。具体来说，我们证明了DP-HM2F：1）评估了基于双投影表示的检索机制对性能提升的影响；2）评估了基于数据的LoRA在减少可训练模型参数和优化方面的有效性

结论

本文提出了DP-HM2F，这是一种基于数据的LoRA框架，采用双投影表示进行异构多模态联邦微调。为了解决模态和数据的异质性问题，DP-HM2F使用全局投影特征池和局部检索机制，允许客户端重建不完整的表示。基于数据的LoRA模块根据每个客户端的数据可用性动态调整可训练参数的数量，实现了显著的参数减少

ORCID信息

余阳：0009-0008-5146-2981 朱素霞：0000-0003-0950-3897 孙光路：0000-0003-2589-1164 何展：0000-0002-0495-1773 刘新宇：0009-0001-8624-5097 周凯：0000-0002-7128-5571 崔晓娟：0009-0005-5936-2529

CRediT作者贡献声明

余阳：概念化、数据整理、形式分析、调查、方法论、软件、可视化、撰写——原始草稿。朱素霞：资源获取、监督、项目管理、资金筹集、撰写——审阅与编辑。孙光路：验证、形式分析、撰写——审阅与编辑。何展：软件、调查、形式分析、验证。刘新宇：数据整理、可视化、形式分析。周凯：调查、资源获取、形式分析。崔晓娟

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关文献

多模态大型语言模型的参数高效微调。

方法

实验

结论

ORCID信息

CRediT作者贡献声明

利益冲突声明

热点排行