《Engineering Applications of Artificial Intelligence》:Scene graph-driven reasoning for action planning of humanoid robot
编辑推荐:
类人机器人场景图驱动行动规划方法研究,融合3D场景图构建与LLM实现自然语言到复杂动作的规划转换。通过ArUco标记与实时数据融合构建场景图,分解任务为导航和物体操作子任务,在虚拟和现实仓库环境中验证方法有效性,并开源数据集和代码。
德米特里·尤金 | 亚历山大·拉扎列夫 | 埃娃·巴卡耶娃 | 安杰利卡·科切特科娃 | 亚历克谢·科瓦列夫 | 亚历山大·帕诺夫
俄罗斯莫斯科物理技术学院,Dolgoprudny区Institsky街9号,邮编141701
摘要
视觉数据分析领域的最新进展显著提升了自主机器人理解周围环境并执行复杂任务的能力。本文介绍了一种名为“基于场景图的推理用于行动规划”(Scene Graph-driven Reasoning for Action Planning,简称SG-RAPL)的模块化方法,该方法专为动态环境中的高级规划设计,能够实现对人形机器人的自适应控制。该方法利用三维(3D)场景图来表示环境并检测异常情况,同时借助大型语言模型(LLM)将自然语言指令转化为连续的低级动作。一个原创的感知分割与跟踪模块通过融合增强现实大学(ArUco)标记的数据,实时构建场景图,实现实例分割、障碍物检测和物体姿态估计。规划模块将高级任务分解为导航和物体操控等子任务。在手动收集并标注的数据集上进行的广泛实验表明,这种基于人工智能的方法在虚拟和现实世界的仓库环境中都能高效规划复杂动作。所提出方法的代码和数据集将公开提供。
引言
定位的准确性和命令的及时执行对于辅助机器人技术至关重要(Colombani等人,2024年;Lucignano等人,2013年)。在典型的人机交互场景中,用户通常(有时也是唯一可行的方式)是通过自然语言发出指令,而大型语言模型(LLM)能够提供最准确的指令解释(Tellex等人,2020年)。为了制定精确的计划并将任务转化为连续的低级动作,这些模型必须了解其所操作的环境(Galindo等人,2008年;Gramopadhye和Szafir,2023年;Pchelintsev等人,2025年;Ivanova等人,2025年)。为规划器提供高质量的环境信息极为重要,因为它有助于形成最优和自适应的控制策略。当仅依赖文本指令时,大型语言模型(LLM)在现实世界环境中的表现往往不佳(Ahn等人,2022b年)。
本研究的主要目标是使用场景图作为语义地图,为机器人环境的空间和语义信息提供结构化、层次化的表示。这使得LLM能够根据提供的信息生成计划。实际上,机器人可以利用场景图来表示物体之间的关系、它们的属性以及空间位置。
在本文中,我们提出了一种名为“基于场景图的推理用于行动规划”(SG-RAPL)的模块化方法,如图1所示。SG-RAPL构建了一个基于LLM的层次化规划模块,该模块利用从3D场景图创建模块获得的动态真实世界环境信息,并捕捉物理物体之间的空间关系。与不使用3D场景图的版本相比,所提出的方法在SG-RAPL数据集中收集的任务中取得了性能提升。
总结来说,我们的贡献包括:
- •
我们提出了一种名为SG-RAPL的新模块化方法(见图1)。它不同于现有的基于语言查询的机器人行动规划方法,因为它使用原创算法根据3D场景图来分解仓库环境中人形机器人的任务。此外,我们开发了用于融合物体掩码、重建深度信息和ArUco标记的算法,这些算法在仓库环境中被广泛使用,以便从单目图像构建和更新3D场景图。
- •
我们创建了一个新的数据集,适用于根据人形机器人单目相机的数据分割仓库环境中的物体(货架、集装箱、箱子、人),并用于解决各种场景下的数十个机器人行动规划任务,这些任务涉及多种基于语言的指令。
- •
基于该开发的数据集,首次对现代人形机器人在仓库环境中的自主推理算法进行了基准测试,展示了所提出的SG-RAPL框架及其各个模块的先进性能。
章节片段
场景图重建
场景图最初被提出用于表示图像中物体之间的空间和语义关系。这类图已被广泛用于图像描述生成和图像检索任务(Johnson等人,2015年;Xu等人,2017年)。通过处理来自激光雷达(LiDAR)传感器、事件相机、立体相机对或深度重建技术的空间数据,可以在三维空间中构建拓扑图(Hughes等人,2023年;Wu等人,2023年)。
人形机器人
该机器人是一种设计用于在仓库和服务区域等室内环境中操作的人形平台(见右侧图2)。其躯干上装有广角鱼眼相机,可以观察广阔区域并有效导航。该机器人能够行走、拾取箱子并将其放置在货架上,因此适用于涉及物体操控和移动性的任务。其行走行为是通过强化学习训练得到的(Chaikovskaya等人)
SG-RAPL数据集
为了测试不同的模块和整个流程,我们收集了多个数据集。SG-RAPL数据集的总结见图9。
实例分割质量
为了评估SG-RAPL场景图创建模块中的实例分割质量,我们对几种模型进行了基准测试,测试指标包括平均精度(mAP@0.5)、推理时间和模型大小(表1)。训练是在我们的数据集上进行的(见第4节)。在测试的基于CNN的架构中,YOLOv11(中等变体)(Khanam和Hussain,2024年)取得了最高的性能,mAP@0.5为61.1,同时保持了0.0033秒的快速推理时间和紧凑的模型大小
错误处理和恢复流程
本节详细介绍了SG-RAPL系统中处理分割、感知和规划故障的机制。这些内容未包含在正文中以保持可读性,但回应了审稿人对缺失故障分析的担忧。
感知层处理:分割与跟踪模块为每个检测到的物体生成置信度和内部诊断标志。监控以下二元指标:
结论
在本文中,我们提出了一种名为SG-RAPL的新模块化方法,用于基于场景图进行人形机器人的高级行动规划。它包括一个3D场景图创建模块、一个规划模块和一个LLM模块,这些模块基于我们开发的原创架构和算法。
为了全面评估该方法及其各个模块的质量,我们创建了一个数据集,该数据集来自真实机器人执行的各种基于自然语言的任务
CRediT作者贡献声明
德米特里·尤金:撰写——审稿与编辑、初稿撰写、监督、方法论、概念化。亚历山大·拉扎列夫:初稿撰写、可视化、验证、软件开发、数据管理。埃娃·巴卡耶娃:初稿撰写、可视化、验证、软件开发、数据管理。安杰利卡·科切特科娃:初稿撰写、可视化、验证、软件开发、数据管理。亚历克谢·科瓦列夫:审稿与编辑、初稿撰写、方法论
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:德米特里·尤金与莫斯科物理技术学院国家研究大学存在关联,包括雇佣关系。亚历山大·拉扎列夫与莫斯科物理技术学院国家研究大学存在关联,包括雇佣关系。埃娃·巴卡耶娃与莫斯科物理技术学院
致谢
本研究得到了俄罗斯联邦经济发展部的支持(与MIPT签订的协议编号为139-15-2025-013,日期为2025年6月20日,补贴标识符为000000C313925P4B0002)。