对个性化人工智能服务的需求正在迅速增长。在对话式代理、数字助手、推荐系统和医疗监控等不同领域,人们现在期望AI能够根据他们的具体情况、偏好和数据做出响应(参见Suryanarayana & Aluvala (2024), Rathod et al. (2024))。
然而,使用目前流行的集中式AI架构很难满足这些期望。基于中央服务器的AI采用了一种从多个用户那里收集数据并在单一地点进行学习和推理的模式,在此过程中存在个人信息泄露的固有风险(参见Kakarala & Rongali (2025), Garg (2025), Okolo, Arowogbadamu, Adeniji, & Tasie (2025))。此外,由于网络延迟,实时响应性不佳,在无法保证稳定连接的情况下,服务质量会急剧下降。另外,由于LLM需要大量的计算资源和内存,因此要使其对所有用户都可用,基础设施成本很高(参见Barros (2025), Pamadi & Singh (2025), Aderinto (2025))。
为了缓解这些限制,本文强调了一种设备端方法,该方法直接从客户端数据中分析和获取信息,以及一种基于联邦学习的AI代理,它可以安全地整合来自多个设备的学习成果。通过本地存储和使用数据,可以确保用户隐私,并且可以在没有中央服务器的情况下持续培养个性化模型(参见Pal, Tan, & Foo (2023), Hosain, Zaman, Sajid, Khan, & Akter (2023))。此外,即使在网络不稳定或完全没有连接的情况下,AI代理也能快速响应(参见Suryanarayana & Aluvala (2024), Nezami, Hafeez, Djemame, & Zaidi (2024))。特别是在处理医疗、金融和教育等敏感信息的领域,将数据传输到云端在法律和伦理上都是受限的,因此需要一种能够在客户端安全执行推理和学习的AI代理(参见Okolo et al. (2025), Kosaraju (2023), Said (2025), Chauhan, Jot, Kaur, & Mohana (2024))。
然而,设备端人工智能代理必须在计算资源有限的环境中运行。与服务器级环境相比,客户端的内存容量、计算能力和功率分配都受到严重限制,当考虑到不仅仅是基本推理,还包括本地重新学习或微调时,这些限制更加明显(参见Ouyang et al. (2024))。例如,将具有超过十亿参数的现代大型语言模型上传到客户端进行推理和学习是非常困难的(参见Nguyen, Wang, Li, & Wu (2023), Qiang, Liu, Zhang, Chang, & Liang (2025))。因此,全面的全参数微调(Full Parameter Fine-Tuning)实际上是不可行的,而选择性修改仅有限数量参数的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法在学术界和工业界受到了广泛关注(参见Gu et al. (2024b), Balne, Bhaduri, Roy, Jain, & Chadha (2024), Wang et al. (2024))。其中,LoRA(Low-Rank Adaptation)在内存效率和通信效率方面表现突出,因为它能够在保留原始模型表达能力的同时显著减少额外学习参数的数量,方法是通过将低秩适配器集成到线性层中(参见Tang, Fu, Zhu, & Wu (2024), Alnaasan, Huang, Shafi, Subramoni, & Panda (2024), Gu, Wang, Zhang, Zhang, & Gong (2024a))。
然而,当前的LoRA架构是将低秩适配器并行集成到基于高精度实数计算的线性层中(参见Zhang, Bai, Yang, & Liang (2025b))。然而,像BitNet 1.58这样的高度量化的LLM执行所有线性变换。由于用具有三进制权重的BitLinear替代它来优化推理效率,这与LoRA架构存在根本冲突(参见Ma et al. (2024), Lalitha Shree & Nethravathi (2024))。此外,尽管BitNet 1.58在减少内存使用和提高推理速度方面非常有效,但在训练阶段需要全精度参数,无法实现PEFT方法(如LoRA)所期望的计算路径(参见Zhou, Zhang, Kumbong, & Olukotun (2025), Jeon, Kim, & Kim (2025))。因此,迄今为止还没有提出任何架构能够同时保证BitNet的超轻量推理效率和LoRA的学习及通信效率(参见Balne et al. (2024))。
因此,在这项研究中,我们提出了一种创新的PEFT方法BitLoRA,它在结构上与基于BitNet的LLM兼容,并适合学习。BitLoRA保留了LoRA现有的低秩参数修改方法;然而,该架构进行了根本性的修改,使得所有线性层也在量化为1.58位的BitLinear框架内运行。由于该架构在学习过程中仅修改有限数量的参数,计算和内存资源需求最小,并且在推理过程中保持了BitNet提供的内存效率和处理速度。这些特性特别适合需要在资源受限环境中长时间运行的基于联邦学习的设备端AI代理。
在这项研究中,BitLoRA被整合到Hugging Face的PEFT框架中,并在实际的LLM(Falcon-E-3B)上进行了实现。通过这种集成,系统地评估了BitLoRA微调的性能、内存使用情况和推理效率。此外,通过基于BitNet.cpp执行模型,证实了其在移动设备上实际部署的可行性。
本文的主要贡献如下:
- 1. 提出了一种与1.58位BitLinear层结构兼容且易于实现的LoRA转换方法(BitLoRA)。
- 通过评估一系列基准测试中的内存使用情况、处理速度和精度,证明了BitLoRA的优势。
- 通过在BitNet.cpp环境中仔细调整模型,阐明了一种即使在实际移动设备上也能使用的简化LLM学习/推理流程。
- 基于BitLoRA,我们提出了一种特定的架构和实现方法,可以构建基于联邦学习的设备端AI代理系统,该系统结合了BitNet的超轻量推理效率和LoRA的学习及通信效率。