在交互式多模态通信中，利用结构化任务关系提升组合式大型语言模型（LLM）的推理能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal on Selected Areas in Communications》：Advancing Compositional LLM Reasoning With Structured Task Relations in Interactive Multimodal Communications

【字体：大中小】 时间：2026年01月30日 来源：IEEE Journal on Selected Areas in Communications 17.2

编辑推荐：

　　交互式多模态应用（IMAs）通过整合无线网络中的多种数据形式提升用户体验，传统方法依赖多个独立LLMs处理不同业务流程。本文提出单复合LLM框架，通过ContextLoRA构建任务依赖图指导参数矩阵分区，并设计ContextGear调度策略优化训练流程，有效解决多目标适应和移动端资源约束问题，实验和原型验证均显示优越性。

摘要：

交互式多模态应用程序（IMAs），例如在车联网中的路线规划，通过无线网络整合各种形式的数据来丰富用户的个性化体验。大型语言模型（LLMs）的最新进展利用专家混合（MoE）机制来支持多个IMAs，每个LLM针对不同的业务工作流程进行单独训练。与现有的依赖多个LLMs来实现IMAs的方法相比，本文提出了一种新范式，即通过单个组合型LLM在无线网络上完成各种IMAs。主要挑战包括：1）指导单个LLM适应多样化的IMA目标；2）确保LLM在资源受限的移动环境中的灵活性和效率。为了解决第一个挑战，我们提出了ContextLoRA方法，该方法通过构建任务依赖图来指导LLM学习IMAs之间的丰富结构化上下文。我们将每个IMA的神经层可学习参数矩阵进行划分，以促进LLM的组合。然后，我们开发了一种基于任务关系的逐步微调流程，包括训练、冻结和掩码阶段。这使得LLM能够学习如何在任务之间进行推理，从而更好地适应并捕捉任务之间的潜在依赖关系。为了解决第二个挑战，我们引入了ContextGear调度策略，通过策略性分组机制来优化ContextLoRA的训练过程，旨在最小化计算和通信成本。在三个基准测试上的实验表明，所提出的ContextLoRA和ContextGear具有优越性。此外，我们在真实的无线测试平台上对所提出的范式进行了原型验证，证明了其在各种IMAs中的实际应用潜力。我们将会将代码发布给社区。

引言

多模态应用程序（IMAs）[1]，例如在车联网[2]、[3]、[4]、[5]中的路线规划，以及在智慧城市中的异常检测，通过利用无线网络上的跨模态数据扩展了智能通信的领域。IMAs在第六代通信（6G）[6]、[7]、[8]中也具有巨大潜力，促进了6G应用场景的发展，如沉浸式通信以及国际电信联盟（ITU）所强调的人工智能与通信[9]、[10]、[11]、[12]。图1展示了三种IMAs的场景，包括车联网（IoV）[5]、[13]、[14]、智能工厂（IF）[15]、[16]和智慧城市（SC）[17]。例如，在智能工厂中，用户可以远程与机器人交互以执行操作，如移动箱子和管理装配线，而机器人也可以通过无线网络进行协作。这些模型使用多种多模态输入（如语音、文本和视觉线索）在交互过程中为用户和设备做出智能决策。早期的研究[18]、[19]、[20]、[21]、[22]主要依赖强化学习来辅助自动化这一过程。这些方法的关键问题在于特定模型在各种任务中的泛化能力。

通过无线网络实现的交互式多模态应用程序（IMAs），如车联网、智能工厂和智慧城市。用户使用多种多模态输入（如语音、文本和图像）与IMAs交互，而IMAs根据请求生成智能决策。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号