BitLoRA:适用于1.58位大型语言模型(LLM)的量化兼容适配器调优技术,应用于联邦式设备端AI代理架构

《Expert Systems with Applications》:BitLoRA: Quantization-Compatible Adapter Tuning for 1.58-bit LLM in Federated On-Device AI-Agent

【字体: 时间:2026年02月02日 来源:Expert Systems with Applications 7.5

编辑推荐:

  BitLoRA结合1.58位量化BitNet与参数高效微调LoRA,在联邦学习设备端部署中实现隐私保护与资源优化,显著降低内存使用并提升模型适应性。

  
作者:Inseo Song | Kangyoon Lee
韩国成南市加尊大学计算机工程系

摘要

人们对定制化人工智能方法的好奇心日益增加,这揭示了在资源有限且隐私至关重要的环境中,大型语言模型(LLM)所面临的前景和障碍。尽管LLM展现了令人印象深刻的适应性和泛化能力,但其巨大的内存需求以及对集中式框架的依赖性,为在联邦式设备端部署带来了挑战,在这种环境中,数据安全和运营效率同样重要。本研究提出了BitLoRA,这是一种与量化兼容的适配器调优框架,它将1.58位BitNet量化技术与参数高效微调方法相结合。BitLoRA在保证模型有效适应的同时,通过仅在联邦学习环境中传输轻量级适配器更新来维护严格的数据保密性。全面的实证评估表明,BitLoRA在准确性方面始终优于基准模型,并且可以将GPU内存使用量减少85%或更多。这些发现表明,BitLoRA不仅能够在有限的计算预算内对LLM进行有效的微调,还为建立隐私保护、资源高效和个性化AI代理提供了可扩展的基础。这一提出的结构为LLM与联邦式和设备端框架的持久融合创造了机会,弥合了先进模型能力与关键部署需求之间的差距。

引言

对个性化人工智能服务的需求正在迅速增长。在对话式代理、数字助手、推荐系统和医疗监控等不同领域,人们现在期望AI能够根据他们的具体情况、偏好和数据做出响应(参见Suryanarayana & Aluvala (2024), Rathod et al. (2024))。
然而,使用目前流行的集中式AI架构很难满足这些期望。基于中央服务器的AI采用了一种从多个用户那里收集数据并在单一地点进行学习和推理的模式,在此过程中存在个人信息泄露的固有风险(参见Kakarala & Rongali (2025), Garg (2025), Okolo, Arowogbadamu, Adeniji, & Tasie (2025))。此外,由于网络延迟,实时响应性不佳,在无法保证稳定连接的情况下,服务质量会急剧下降。另外,由于LLM需要大量的计算资源和内存,因此要使其对所有用户都可用,基础设施成本很高(参见Barros (2025), Pamadi & Singh (2025), Aderinto (2025))。
为了缓解这些限制,本文强调了一种设备端方法,该方法直接从客户端数据中分析和获取信息,以及一种基于联邦学习的AI代理,它可以安全地整合来自多个设备的学习成果。通过本地存储和使用数据,可以确保用户隐私,并且可以在没有中央服务器的情况下持续培养个性化模型(参见Pal, Tan, & Foo (2023), Hosain, Zaman, Sajid, Khan, & Akter (2023))。此外,即使在网络不稳定或完全没有连接的情况下,AI代理也能快速响应(参见Suryanarayana & Aluvala (2024), Nezami, Hafeez, Djemame, & Zaidi (2024))。特别是在处理医疗、金融和教育等敏感信息的领域,将数据传输到云端在法律和伦理上都是受限的,因此需要一种能够在客户端安全执行推理和学习的AI代理(参见Okolo et al. (2025), Kosaraju (2023), Said (2025), Chauhan, Jot, Kaur, & Mohana (2024))。
然而,设备端人工智能代理必须在计算资源有限的环境中运行。与服务器级环境相比,客户端的内存容量、计算能力和功率分配都受到严重限制,当考虑到不仅仅是基本推理,还包括本地重新学习或微调时,这些限制更加明显(参见Ouyang et al. (2024))。例如,将具有超过十亿参数的现代大型语言模型上传到客户端进行推理和学习是非常困难的(参见Nguyen, Wang, Li, & Wu (2023), Qiang, Liu, Zhang, Chang, & Liang (2025))。因此,全面的全参数微调(Full Parameter Fine-Tuning)实际上是不可行的,而选择性修改仅有限数量参数的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法在学术界和工业界受到了广泛关注(参见Gu et al. (2024b), Balne, Bhaduri, Roy, Jain, & Chadha (2024), Wang et al. (2024))。其中,LoRA(Low-Rank Adaptation)在内存效率和通信效率方面表现突出,因为它能够在保留原始模型表达能力的同时显著减少额外学习参数的数量,方法是通过将低秩适配器集成到线性层中(参见Tang, Fu, Zhu, & Wu (2024), Alnaasan, Huang, Shafi, Subramoni, & Panda (2024), Gu, Wang, Zhang, Zhang, & Gong (2024a))。
然而,当前的LoRA架构是将低秩适配器并行集成到基于高精度实数计算的线性层中(参见Zhang, Bai, Yang, & Liang (2025b))。然而,像BitNet 1.58这样的高度量化的LLM执行所有线性变换。由于用具有三进制权重的BitLinear替代它来优化推理效率,这与LoRA架构存在根本冲突(参见Ma et al. (2024), Lalitha Shree & Nethravathi (2024))。此外,尽管BitNet 1.58在减少内存使用和提高推理速度方面非常有效,但在训练阶段需要全精度参数,无法实现PEFT方法(如LoRA)所期望的计算路径(参见Zhou, Zhang, Kumbong, & Olukotun (2025), Jeon, Kim, & Kim (2025))。因此,迄今为止还没有提出任何架构能够同时保证BitNet的超轻量推理效率和LoRA的学习及通信效率(参见Balne et al. (2024))。
因此,在这项研究中,我们提出了一种创新的PEFT方法BitLoRA,它在结构上与基于BitNet的LLM兼容,并适合学习。BitLoRA保留了LoRA现有的低秩参数修改方法;然而,该架构进行了根本性的修改,使得所有线性层也在量化为1.58位的BitLinear框架内运行。由于该架构在学习过程中仅修改有限数量的参数,计算和内存资源需求最小,并且在推理过程中保持了BitNet提供的内存效率和处理速度。这些特性特别适合需要在资源受限环境中长时间运行的基于联邦学习的设备端AI代理。
在这项研究中,BitLoRA被整合到Hugging Face的PEFT框架中,并在实际的LLM(Falcon-E-3B)上进行了实现。通过这种集成,系统地评估了BitLoRA微调的性能、内存使用情况和推理效率。此外,通过基于BitNet.cpp执行模型,证实了其在移动设备上实际部署的可行性。
本文的主要贡献如下:
  • 1. 提出了一种与1.58位BitLinear层结构兼容且易于实现的LoRA转换方法(BitLoRA)。
  • 通过评估一系列基准测试中的内存使用情况、处理速度和精度,证明了BitLoRA的优势。
  • 通过在BitNet.cpp环境中仔细调整模型,阐明了一种即使在实际移动设备上也能使用的简化LLM学习/推理流程。
  • 基于BitLoRA,我们提出了一种特定的架构和实现方法,可以构建基于联邦学习的设备端AI代理系统,该系统结合了BitNet的超轻量推理效率和LoRA的学习及通信效率。

节选内容

BitNet和1.58位量化LLM架构

当前LLM的权重缩减研究正朝着同时降低计算成本和内存使用的方向发展。其中,BitNet 1.58代表了一项研究努力,它在内存、推理延迟和能源效率方面取得了显著改进,同时保持了与现有16位精度(FP16/BF16)模型相当的语言性能(参见

基于设备端联邦学习的AI代理的总体架构

图1展示了本文提倡的基于设备端联邦学习的AI代理系统的整体框架。该配置依赖于两个核心方面:(1)客户端层面的特定技能提升和推理;(2)服务器层面的模型整合。整个配置旨在满足设备端AI的基本要求:保密性保障、通信效率和最小的延迟响应。

实验

本节阐述了用于系统验证所提出的BitLoRA方法有效性的数据集、模型设置、联邦学习环境、训练参数和评估指标。这项研究的主要关注点是在超低比特(1.58位)方向的BitNet框架内实现设备端部署的适当性,因此,本研究强调了性能-资源效率的定量分析

结果与分析

本节评估了BitLoFA在联邦学习中的性能和效率,参考了先前的实验结果。分析包括:(i)在独立同分布(IID)和非独立同分布(Non-IID)数据环境中的性能;(ii)设备端设置中的推理效率;(iii)联邦学习中关于通信成本和隐私的结构优势。

讨论

基于BitLoRA的实证发现,本节从效率、资源优化和协作学习的角度总结了影响和潜在挑战。

结论

BitLoRA提出了一种同时满足基于联邦学习的设备端AI代理所需的三个维度的路径:效率、资源优化和隐私/通信成本。它是通过固定(冻结)1.58位三进制BitLinear来实现这一目标的{?1,0,+1}
在医学问答基准测试中测得的平均准确率(45.42%)表明,适当的适应路径可以显著提高领域效率

ORCID

CRediT作者声明

InSeo Song:概念化、方法论、软件、数据整理、形式分析、研究、验证、可视化、写作——初稿。KangYoon Lee:概念化、监督、项目管理、资源获取、写作——审稿。

未引用的参考文献

表2。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系。KangYoon Lee报告称其来自加尊大学,并在该大学工作。如果还有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号