InstrucRobo：一种以对象为中心的多指令解耦模型，用于实现可解释的机器人操控

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：InstrucRobo: Object-centric multi-instruction decoupling model for explainable robotic manipulation

【字体：大中小】 时间：2026年02月27日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　机器人多指令操作需要精准且灵活的日常物品操作能力。现有单指令数据集导致模型只能针对固定操作策略，缺乏多样性。为此我们构建了RobotOB-20k首个多指令机器人操作数据集，包含2万张图像覆盖30类物品1756个铰链部件，并融入物理属性（力方向、质心等）实现更真实的物理仿真。同时提出InstrucRobo框架，通过精细粒度视觉语言表示（FGP）实现视觉与语义的精准对齐，再通过解耦姿态生成器（DPG）分离视觉特征与操作语义，生成具有视觉解释的抓取点和操作姿态。实验表明该框架在仿真和现实场景中均达到SOTA性能，为智能制造、物流等领域的可解释机器人操作提供新方案。

潘祺杨|景浩东|郑南宁|马永强

中国陕西省西安市西安交通大学人工智能与机器人研究所人机混合增强智能国家重点实验室，西安西宁西路28号，邮编710049

摘要

以物体为中心的机器人操控要求对日常物体进行精确且灵活的操作。当前端到端方法受限于单一指令数据集的限制，只能预测对单一物体的固定操控方式，缺乏对多种指令的适应性。为了解决这个问题，我们提出了首个以物体为中心的多指令操控数据集——Robot Object Benchmark 20k（RobotOB-20k），突破了固定操控策略的局限。同时，我们引入了一个基于指令的机器人操控框架（InstrucRobo），该框架将细粒度的视觉-语言表示解耦，以获得可解释的操控点和精确的操控姿势，利用多模态大型语言模型在视觉推理方面的优势，并为操控提供合理的解释。具体来说，我们将任务分为以视觉为中心的阶段和以动作为中心的阶段。首先，我们引入了细粒度感知器（FGP）来获取细粒度的视觉-语言表示。随后，通过解耦姿态生成器（DPG），我们将表示分解为用于抓取点定位的视觉热图和用于姿态生成的操控语义特征。大量实验表明，我们的模型在仿真和真实世界场景中均实现了先进的操控性能。总体而言，我们的结果证明了InstrucRobo是一种灵活且可解释的具身人工智能解决方案，在制造业、物流和协作机器人领域具有巨大的应用潜力。

引言

以物体为中心的操控（Huang等人，2023年；Brohan等人，2023年）涉及与真实世界物体的交互，需要像人类一样理解物体的可操控性。这包括视觉感知和推理，以识别可交互的部分（Huang等人，2024a年；Fang等人，2023年；Mo等人，2018年），以及基本操作（例如推动、拉动和旋转），以适应不同的交互模式。

现有的基于大型语言模型（LLM）的方法（Li等人，2024年；Liu等人，2024年；Xiong等人，2024年）可以处理一系列基本任务（例如开门、拾取指定物体），而最近的研究如视觉-语言-动作（VLA）（M. Kim等人，2024年；Brohan等人，2023年；Wen等人，2024年）将下一个词元的预测技术扩展到了机器人领域。然而，这些方法在以物体为中心的操控任务中仍存在一些局限性。首先，由于传统数据集的固有限制（Mo等人，2018年；Li等人，2024年），当前的以物体为中心的方法通常只能响应每个物体的固定指令集。这些数据集通常只为每个物体标注了一组或非常有限的指令，限制了模型对多样化真实世界任务的泛化能力。例如，数据集中的一个锅可能只标注了“拿起盖子”的动作，而在现实中，用户可能还想要“拿起锅”或“转动锅上的旋钮”。这种僵化的标注模式强制物体和动作之间的映射过于狭窄，常常排除了许多有效的操作方式，导致模型过度拟合于一小部分策略。因此，物体-动作对缺乏多样性，阻碍了在真实世界场景中发展出通用的具身智能。此外，大多数现有数据集缺乏对物理概念（如力的方向、质心或扭矩）的明确标注，而这些概念对于稳健且可解释的操控策略至关重要。如果没有接触这些多方面的指令和基于物理的推理，模型就无法在新场景中推理或解释操控行为。其次，主流方法（Liu等人，2024年；Xiong等人，2024年；T. Kim等人，2024年）主要以端到端的方式输出操控姿势。然而，这种方法忽略了可解释的推理过程，从而导致选择了次优的操控点和策略，如图6所示。

为了解决以物体为中心的操控中缺乏多指令数据的问题，我们构建了RobotOB-20k，这是首个为多种物体提供多种操控指令的数据集，包含20,000张图像，涵盖30个类别和1756个带铰链的物体。RobotOB-20k显著丰富了操控任务的多样性，并更好地符合真实世界的物理现实。具体来说，我们在仿真环境中加入了力和质心等物理属性，使得机器人轨迹更准确地反映了真实世界的物理规律（如图4所示）。此外，我们还提供了语义描述和操控概念，以指导模型学习物体操控背后的推理。

RobotOB-20k还为机器人操控引入了一个新的挑战：“机器人如何准确理解用户指令并为每个物体选择最合适的操控策略？” 然而，现有方法缺乏对视觉特征和操控语义之间耦合现象的考虑，这阻碍了复杂多指令操控场景所需的可解释性和适应性。

为系统地解决这一限制，我们提出了InstrucRobo，这是一个旨在更好地适应多指令数据集并提高机器人操控可解释性的框架。InstrucRobo利用细粒度的视觉-语言表示为操控提供概念性解释。通过解耦这些表示，我们的方法生成了用于精确定位和旋转矩阵的热图，实现了视觉解释和强大的多指令响应能力，如图1所示。具体而言，InstrucRobo分为两个阶段：以视觉为中心和以动作为中心。在以视觉为中心的阶段，我们使用细粒度感知器（FGP）来实现视觉输入和操控概念之间的详细对齐，为不同指令提供合理的操控先验。在以动作为中心的阶段，引入了解耦姿态生成器（DPG），以避免视觉特征和语义特征的纠缠，从而生成精确的操控姿势和相应的视觉解释，例如抓取位置和角度。

我们在仿真和真实世界环境中进行了广泛的实验来系统评估我们的方法。首先，我们在公共机器人基准测试中评估了InstrucRobo的推理能力，在RoboVQA（Sermanet等人，2023年）和RobotOB-20k任务上取得了极具竞争力的表现。其次，我们在仿真中对单指令和多指令操控任务进行了评估，在这两种情况下都取得了先进的结果。最后，真实世界实验表明，InstrucRobo的表现令人印象深刻，每个物体只需要30次示范实例即可。总体而言，我们的发现强调了InstrucRobo在制造业、物流和协作组装等工业领域中的灵活和可解释的指令遵循能力。

总结如下：

•
我们引入了RobotOB-20k，这是首个覆盖30个类别和1756个带铰链物体的大规模多指令数据集。通过包含物理属性和操控概念，该数据集更好地符合真实世界的物理规律，有效弥合了仿真与现实之间的差距。
•
我们提出了InstrucRobo，这是一个具有细粒度视觉-语言对齐和分离动作与感知的多指令机器人操控框架，实现了跨多种指令的可解释推理和精确的、可视化解释的操控。
•
我们设计了包括机器人推理、仿真环境和真实世界任务在内的全面实验。实验结果表明，我们的方法在所有评估场景中都取得了令人鼓舞的性能。

部分摘录

多模态大型语言模型

大型语言模型（LLM）（例如LLaMA（Dubey等人，2024年）；GPT（Zhu等人，2023年）；Phi（Abdin等人，2023年）在推理任务中表现出色，在各种语言任务中取得了令人印象深刻的性能。在此基础上，LLM已被扩展到多模态任务（Alayrac等人，2022年；Li等人，2022年；Huang等人，2024b年；Liu等人，2023年；Qian等人，2024年；Wang等人，2023b年；Zhang等人，2024年），涉及图像、文本和音频等模态。

机器人数据收集

在以物体为中心的机器人操控任务中，物体的多样性和操控策略的复杂性使得在真实世界实验中收集数据效率低下且具有挑战性。因此，广泛使用仿真环境进行快速和大量的数据收集（Savva等人，2019年；Kolve等人，2017年；Brockman等人，2016年；James等人，2020年；Xiang等人，2020年）。然而，现有的基于PartNet-Mobility的方法（Li等人，2024年；Liu等人，2024年；T. Kim等人，2024年）

方法

第4.1节概述了InstrucRobo的问题陈述。第4.2节（以视觉为中心的阶段）和第4.3节（以动作为中心的阶段）详细介绍了从学习视觉感知到获得精细操作技能的进展。最后，第4.4节总结了InstrucRobo使用的训练方法和优化策略。

实验

在第5.1节中，我们介绍了实验设置，包括数据集、评估基准和实现细节。第5.2节展示了广泛的实验，证明了InstrucRobo的推理能力、细粒度感知和精确操控能力。为了验证每个组件的有效性，在第5.3节进行了消融研究。

结论与未来工作

在本文中，我们解决了固定单物体操控策略的局限性以及机器人技术中缺乏操控可解释性的问题。我们引入了RobotOB-20k，这是首个以物体为中心的多指令操控数据集，克服了这些限制。我们提出的InstrucRobo框架利用FGP获取详细的视觉-语言表示，增强了操控推理能力。通过DPG，语言和视觉特征被解耦，以生成

CRediT作者贡献声明

潘祺杨：撰写——原始草稿、可视化、验证、形式分析、数据整理、概念化。景浩东：撰写——审阅与编辑、监督。郑南宁：资源提供。马永强：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文所报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了脑网络与脑启发智能科学突破性试点项目（项目编号：JYB202 5XDXM504）、脑科学与类脑智能技术-国家科学技术重大项目（项目编号：2022ZD 0208800）以及广东省基础与应用基础研究重大项目（项目编号：2023B0303000009）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号