在交互式多模态通信中,利用结构化任务关系提升组合式大型语言模型(LLM)的推理能力

《IEEE Journal on Selected Areas in Communications》:Advancing Compositional LLM Reasoning With Structured Task Relations in Interactive Multimodal Communications

【字体: 时间:2026年01月30日 来源:IEEE Journal on Selected Areas in Communications 17.2

编辑推荐:

  交互式多模态应用(IMAs)通过整合无线网络中的多种数据形式提升用户体验,传统方法依赖多个独立LLMs处理不同业务流程。本文提出单复合LLM框架,通过ContextLoRA构建任务依赖图指导参数矩阵分区,并设计ContextGear调度策略优化训练流程,有效解决多目标适应和移动端资源约束问题,实验和原型验证均显示优越性。

  

摘要:

交互式多模态应用程序(IMAs),例如在车联网中的路线规划,通过无线网络整合各种形式的数据来丰富用户的个性化体验。大型语言模型(LLMs)的最新进展利用专家混合(MoE)机制来支持多个IMAs,每个LLM针对不同的业务工作流程进行单独训练。与现有的依赖多个LLMs来实现IMAs的方法相比,本文提出了一种新范式,即通过单个组合型LLM在无线网络上完成各种IMAs。主要挑战包括:1)指导单个LLM适应多样化的IMA目标;2)确保LLM在资源受限的移动环境中的灵活性和效率。为了解决第一个挑战,我们提出了ContextLoRA方法,该方法通过构建任务依赖图来指导LLM学习IMAs之间的丰富结构化上下文。我们将每个IMA的神经层可学习参数矩阵进行划分,以促进LLM的组合。然后,我们开发了一种基于任务关系的逐步微调流程,包括训练、冻结和掩码阶段。这使得LLM能够学习如何在任务之间进行推理,从而更好地适应并捕捉任务之间的潜在依赖关系。为了解决第二个挑战,我们引入了ContextGear调度策略,通过策略性分组机制来优化ContextLoRA的训练过程,旨在最小化计算和通信成本。在三个基准测试上的实验表明,所提出的ContextLoRA和ContextGear具有优越性。此外,我们在真实的无线测试平台上对所提出的范式进行了原型验证,证明了其在各种IMAs中的实际应用潜力。我们将会将代码发布给社区。

引言

多模态应用程序(IMAs)[1],例如在车联网[2]、[3]、[4]、[5]中的路线规划,以及在智慧城市中的异常检测,通过利用无线网络上的跨模态数据扩展了智能通信的领域。IMAs在第六代通信(6G)[6]、[7]、[8]中也具有巨大潜力,促进了6G应用场景的发展,如沉浸式通信以及国际电信联盟(ITU)所强调的人工智能与通信[9]、[10]、[11]、[12]。图1展示了三种IMAs的场景,包括车联网(IoV)[5]、[13]、[14]、智能工厂(IF)[15]、[16]和智慧城市(SC)[17]。例如,在智能工厂中,用户可以远程与机器人交互以执行操作,如移动箱子和管理装配线,而机器人也可以通过无线网络进行协作。这些模型使用多种多模态输入(如语音、文本和视觉线索)在交互过程中为用户和设备做出智能决策。早期的研究[18]、[19]、[20]、[21]、[22]主要依赖强化学习来辅助自动化这一过程。这些方法的关键问题在于特定模型在各种任务中的泛化能力。

通过无线网络实现的交互式多模态应用程序(IMAs),如车联网、智能工厂和智慧城市。用户使用多种多模态输入(如语音、文本和图像)与IMAs交互,而IMAs根据请求生成智能决策。

相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号