《Neurocomputing》:MoIRA: Modular instruction routing architecture for multi-task robotics
编辑推荐:
机器人领域混合专家模型MoIRA采用模块化架构,通过外部零样本文本路由器动态协调预训练的LoRA适配器专家。在GR1和LIBERO基准测试中,其跨任务泛化能力优于通用模型和传统MoE系统,验证了分体式架构在机器人控制中的有效性。
Dmytro Kuzmenko | Nadiya Shvai
多媒体系统系,基辅-莫希拉国立大学,Hryhoriya Skovorody街2号,基辅,04655,乌克兰
摘要
专家混合(MoE)方法在机器人技术中受到关注,因为它们能够动态分配资源并使子网络专业化。然而,这类系统通常依赖于具有刚性内部路由机制的单一架构,这限制了专家功能的定制,并需要昂贵的联合训练。我们提出了MoIRA,这是一个与架构无关的模块化框架,它通过外部零样本文本路由器来协调各个专家组件。MoIRA采用了两种路由策略:基于嵌入的相似性和提示驱动的语言模型推理。利用Gr00t-N1和视觉-语言-动作模型(Vision-Language-Action models)以及低阶适配器,我们在GR1人形机器人任务和LIBERO基准测试中评估了MoIRA的性能。我们的方法始终优于通用模型,并能与完全训练好的MoE系统相媲美。此外,我们还证明了该系统对指令扰动的鲁棒性。通过依赖文本描述进行零样本编排,MoIRA展示了模块化部署的可行性,并为多专家机器人系统提供了可扩展且灵活的基础。
引言
机器人操纵和导航任务传统上使用强化学习(RL)和模仿学习(IL)方法来解决。这些方法在各种环境中表现出色,但往往依赖于密集的奖励信号、精心设计的专家演示或大量的任务特定调整[1]、[2]、[3]。基于Transformer的模型(如ACT [4])通过实现细粒度的、序列感知的控制进一步推进了机器人策略学习。
最近,基础模型作为传统RL/IL方法的替代方案出现,它们提供了无需任务特定训练或奖励工程即可使用的通用能力。视觉-语言模型(VLMs),如PaLI-Gemma [5]、LLaVA [6]和Qwen-VL [7],在图像-文本对齐和指令理解方面表现出色。尽管这些模型并非专为机器人设计,但它们可以解释自然语言命令和场景上下文,适用于高级规划和零样本推理。
基于这一趋势,视觉-语言-动作(VLA)模型结合了视觉-语言编码器和视觉运动控制单元,以支持端到端的机器人控制。最近的例子包括RT-2 [8]、RT-X系列 [9]、OpenVLA [10]、MiniVLA [11]、Physical Intelligence的以及NVIDIA的Gr00t-N1 [13]。这些模型通常在大型多样化数据集(例如Open-X Embodiment [9])上进行预训练,并整合了异构数据源,包括网页规模的多模态内容、子任务注释和来自不同机器人实体的演示。它们的目标是在最小的微调下实现跨实体、任务语义和模态的泛化。然而,这种通用性可能导致精度降低、内存使用效率低下以及难以扩展到大型任务库[14]。
同时,专家混合(MoE)架构作为一种模块化方法重新引起了人们的兴趣。最初由Jacobs等人[15]提出用于自适应任务分解,现在MoE被广泛用于提高大型语言模型的效率[16]和机器人学习。在灵巧操作方面,残差MoE结构[17]允许在没有语言输入或Transformer的情况下组合专家策略。MoLe-VLA [18]引入了一个时空感知的路由器,根据令牌相关性动态激活VLA模型中的子层。在运动领域,MoRE [19]和GERM [20]将稀疏专家激活应用于四足动物控制,平衡了样本效率和泛化能力。类似的,最近的推理优化工作如MoDE [21]和Tra-MoE [22]利用稀疏门控Transformer来改进多领域策略预测。
尽管这些系统显示出潜力,但它们都存在与架构刚性相关的关键限制。在广泛数据上训练的通用模型往往会导致任务性能下降和运行时内存使用量增加。相反,现有的基于专家的MoE通常需要协调训练和与特定单一模型结构相关的内部分布机制。这在专业化、模块化和部署灵活性之间引入了一个关键权衡,这个问题尚未得到完全解决。
为了解决这些限制,我们采用了一种模块化架构视角,其中每个专家都可以独立开发、定制和优化。这将训练与部署分离,允许在任务和实体之间灵活重用。因此,我们提出了模块化指令路由架构(MoIRA)(图1),该框架旨在通过自然语言任务和专家描述进行零样本情节模型路由。除了路由功能外,MoIRA还设计了通过基于适配器的专家实现实用的专业服务,支持基于磁盘的交换和多适配器[23]、[24]热切换,以实现低延迟部署。MoIRA通过利用一组预训练的专业专家来规避单一MoE的可扩展性限制,每个专家都在特定领域进行了微调。一个轻量级的元控制器根据文本任务描述,通过基于嵌入的相似性或提示驱动的推理动态选择最相关的专家。
我们在两个机器人基准测试中评估了MoIRA:GR1 [13](涵盖全身、仅手臂和手臂与腰部三种实体变化)和LIBERO [25](将任务分为目标和空间语义类别)。在这些实验中,我们使用GR00t-N1和视觉-语言-动作(VLA)框架,并结合LoRA适配器[26]来实现高效的专业家训练。路由模块是预训练并固定的,无需额外调整即可将任务映射到专家。
我们的贡献如下:
- 1. 我们提出了一种新的模块化路由架构MoIRA,它根据任务的文本描述将任务映射到预训练的专家。
- 2. 我们评估了两种路由策略——基于MiniLM [27]的余弦相似性和基于SmolLM2-1.7B [28]的提示驱动推理,并证明了其在输入扰动下的鲁棒性。
- 3. 我们在GR1和LIBERO基准测试中验证了MoIRA的性能,表明它在目标任务和以前未见过的任务上始终优于或与通用模型和其他MoE方法相当。
- 4. 我们提供了推理时专家服务的实证分析,量化了(i)完全实例化的适配器、(ii)基于磁盘的交换和(iii)多LoRA热切换在可扩展的多专家部署之间的权衡。
通过将任务语义与执行分离,MoIRA实现了可扩展的模块化控制。它使用与架构无关的外部路由机制来协调一组动态的专业专家,每个专家都实现为轻量级的LoRA适配器。基于文本的零样本路由允许独立添加、更新或替换专家,而无需昂贵的联合训练或重新训练路由器。它验证了一种灵活的设计范式,使机器人代理能够在任务之间泛化,同时受益于专业化,为单一训练管道提供了替代方案。
相关工作
相关研究
机器人操纵的策略学习。 传统的机器人方法依赖于RL和IL,这两种方法在仿真和真实世界环境中都表现出色。RL方法在密集且结构化的奖励函数下表现良好,使用的技术包括离策略回放或基于策略的演员-评论家优化[1]、[2]。然而,在奖励稀疏的情况下,它们经常由于反馈延迟和探索瓶颈而失败。IL方法,特别是行为克隆[3],绕过了奖励问题
方法
MoIRA是一个模块化的元控制器,根据任务描述选择最适合的专业策略。它是与架构无关的,意味着任何专家架构都可以作为框架使用,包括但不限于基于Transformer的或基于模型的代理。在我们的工作中,我们专注于使用基础VLM作为专家框架。专家组件的路由基于它们的文本描述。与联合或单一模型不同,MoIRA作为一个外部路由模块,实现了灵活性
结果
对于GR1,我们分析了专家微调性能、跨任务泛化、指令鲁棒性、对未见过任务的泛化能力以及路由准确性的影响。对于LIBERO,我们比较了专家与通用模型的性能,评估了推理效率,并指出了未来的发展方向。
讨论
这项工作提出了MoIRA,这是一个模块化的MoE路由框架,它根据机器人实体或任务语义动态分配预训练的VLA专家。据我们所知,它是第一个在这些方面展示出基准验证的VLA模型动态专业化的框架。MoIRA使用LoRA适配器和自然语言路由来实现强大的端到端控制,而无需重新训练MoE。我们的结果表明,这种模块化架构实现了性能上的平等
作者贡献声明
Dmytro Kuzmenko:撰写 – 审阅与编辑、撰写原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、数据整理、概念化。Nadiya Shvai:撰写 – 审阅与编辑、监督、项目管理。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
Dmytro Kuzmenko获得了应用数学硕士学位,目前正在基辅-莫希拉国立大学攻读计算机科学博士学位。他的研究兴趣包括强化学习、人机交互和世界基础模型。