场景孪生：为移动机器人任务执行自动生成环境替代模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Scene Twin: Automatic Generation of Environment Surrogates for Mobile Robot Task Execution

【字体：大中小】 时间：2026年03月18日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　自动生成环境代理框架Scene Twin（ST）通过机器人自建的RGB-D传感器数据，结合语义分割与大型语言模型（LLM）推断缺失物体的几何形状，并利用对象级SLAM保持虚实一致性，验证其在物体搜索和抓取任务中分别减少22.98%和20.86%的轨迹长度及执行时间。

文富碧|应张|毛良寅|崔华张|西蒙·X·杨|长春华

燕山大学电气工程学院，秦皇岛，066004，中国

摘要

仿真在提高移动机器人任务执行效率方面具有巨大潜力，然而构建特定任务的仿真在成本与真实性之间存在关键权衡。现有的方法，包括通用仿真器和基于重建的方法，通常交互性有限或对特定操作场景的泛化能力较差。为了解决这个问题，我们提出了Scene Twin（ST），这是一种用于生成适用于移动机器人任务执行的交互式环境替代品的自动流程。ST仅利用以自我为中心的RGB-D观测数据来建立语义和几何约束，以匹配和对齐资产库中的对象。对于资产库中不存在的对象，ST结合了一个大型语言模型来推断基本几何形状。一个对象级的SLAM系统通过跟踪对象姿态来保持现实世界与仿真之间的一致性，同时构建因子图以适应环境动态并支持长期任务。广泛的实验验证了ST在多种对象配置和场景规模下的可行性。生成的替代品具有高几何真实性，并能够实现有效的任务感知物理交互。在机器人对象搜索和操纵任务中，与无辅助的基线相比，ST辅助的执行平均轨迹长度减少了22.98%，平均拾取-放置时间减少了20.86%。这些结果展示了ST作为一种成本效益高、任务感知强的解决方案，在弥合移动机器人仿真与现实差距方面的潜力。

引言

机器人技术的进步（Hong, Wang, Duan, Huang, Li, Wen, Wu, Xiang, Zheng, 2025, Hu, Wu, Zhao, Yang, Zhang, Ji, 2025, Zhang, Tian, Zhang, Hua, Ding, Ahn, 2025a）使机器人能够从工业场景扩展到更复杂的人类生活空间，如家庭环境（Zhang, Tian, Shao, Zhang, Liu, 2023a, Zhu, Wen, Li, Shi, Wu, Dong, Chen, 2025b）。与预编程的工业机器人不同，家庭环境中的机器人必须自主高效地执行任务，如对象搜索和抓取（Zeng, R?fer, Jenkins, 2020, Zhang, Yin, Bi, Yan, Bian, Zhang, Hua, 2025b）。因此，机器人既是数据收集者也是任务执行者，需要它能够感知环境并与对象交互。然而，在现实世界中部署机器人以验证其能力存在安全和成本挑战（Zhu et al., 2025a）。由于安全性、可扩展性和并行性等优点，建立仿真环境已被广泛认为是验证机器人功能并辅助任务执行的手段。例如，iGibson（Li et al., 2022）和SAPIEN（Xiang et al., 2020）涵盖了广泛的家务任务场景。iGibson（Li et al., 2022）支持多种对象状态，如温度和湿度，而SAPIEN（Xiang et al., 2020）涵盖了足够的可活动对象。RoboGen（Wang et al., 2024b）结合了生成模型的进步，可以自动生成任务和场景。

尽管有这些优势，构建特定任务的仿真环境仍然需要大量资源或知识，这使得难以获得能够有意义地挑战机器人能力或反映人类偏好的仿真（例如，人机交互）。最近的研究指出，非特定任务的仿真往往存在较大的现实差距，无法弥合仿真与现实世界场景之间的几何和视觉差异（Han, Liu, Chen, Yu, Lyu, Tian, Wang, Zhang, & Pang, Suomela, Arachchige, Torres, Edelman, K?m?r?inen, 2025, Zook, Sun, Spjut, Blukis, Birchfield, Tremblay, 2025）。也就是说，非特定任务的仿真环境难以满足在特定环境中工作或与特定对象交互的要求，而特定任务的仿真则依赖于大量的人工工作。更具体地说，iGibson（Li et al., 2022）和SAPIEN（Xiang et al., 2020）仍然是专家手工编程的，而RoboGen（Wang et al., 2024b）未能复制定制的机器人任务环境。尽管最近的一些努力通过视图规划优化（Wang, Xiao, Wang, & Zhang, 2025）或人工辅助的交互式生成合成（Li et al., 2023）来降低成本，但这可能无法捕捉与任务相关的属性或仍然依赖于手动调整（Lu et al., 2023）。

最近，诸如神经辐射场（NeRF）（Ran et al., 2025）和3D高斯散射（3DGS）（Liu et al., 2024）等重建渲染技术已成为从现实世界创建真实到仿真的替代品的有希望的解决方案。然而，一方面，它们的输出通常类似于2D（Li et al., 2024）或3D图像（Liu, Liang, Chen, Wang, Na, 2026, Xiong, Huang, Zhang, Jiang, 2024），而不是可用于机器人任务执行的交互性和结构。较弱的交互性也限制了它们反映现实世界动态的能力，例如由人类活动引起的环境变化。另一方面，它们专注于局部场景的重建，而不是整个任务环境（Han et al., 2025），这在处理大规模场景（如对象搜索）的任务能力方面较弱。

为此，我们引入了Scene Twin（ST），这是一种用于生成交互式真实世界任务环境替代品的新型自动化流程，以提高移动机器人任务执行的效率。在曼哈顿世界假设下，ST专注于与任务相关的对象特征，而不是提取所有物理元素和场景过程以降低成本。机器人仅依赖以自我为中心的RGB-D传感器来感知环境，并整合了识别和分割模型来获取环境对象的语义和掩码输出，以便与资产库中的孪生对象进行匹配和缩放。集成在线大型语言模型来推断未匹配对象（例如球体、盒子和圆柱体）的基本几何形状，以补偿资产库中有限的对象模型（自收集的资产和Gazebo Fuel¹）。随后，适应对象级的SLAM方法来跟踪传感器数据流中的对象，以计算它们的姿态，这些姿态用于近似真实对象的放置。此外，为了与现实保持一致，SLAM系统中的因子图被调整以表示对象之间的空间关系，并帮助机器人实现粗略到精细的任务执行，并应对环境动态和长期任务。例如，在全局环境中的对象搜索和导航任务（粗略），以及在局部环境中的对象定位和抓取任务（精细）（Zhang et al., 2026）。我们在不同的对象设置和场景中验证了ST的有效性，并基于构建的环境替代品帮助机器人执行对象搜索和操纵任务，以展示提高任务效率的潜力。

本文的主要贡献包括：

1.

一个自动的真实到仿真框架ST，它仅依赖于机器人的以自我为中心的RGB-D传感器。

2.

一种特定任务的、交互式的环境替代品生成方案，以帮助机器人长时间执行粗略到精细的任务。

3.

针对多尺度和多对象配置的环境替代品生成的广泛可行性实验，以及基于替代品的机器人对象搜索和操纵任务效率改进的验证。

本文的其余部分组织如下。第2节总结了机器人仿真领域的最新进展。第3节介绍了详细的流程。第4节和第5节分别描述了实验验证和结论。

提高机器人任务性能一直是机器人社区和学术界的共同目标，这通常与优化算法（Aribowo, 2026, Hamadneh, Batiha, Gharib, Montazeri, Dehghani, Aribowo, Dhiman, Monadhel, Jawad, Ibraheem, et al., 2025）、数据集或机器人仿真环境（Cui, Zhang, Zhang, & Yang, 2025）的使用相关联。基于仿真的方法被认为是最有效的解决方案，H?fer等人（2021）的研究表明

方法

在本文中，我们提出了Scene Twin（ST）来生成特定任务的交互式任务环境替代品，以提高移动机器人任务的性能。如图1所示，所提出的ST流程以RGB-D图像作为输入，并输出真实场景的副本。整个过程分为三个主要部分：特征提取、灵活映射和环境替代品生成。特征提取部分包括识别、分割等

实验

为了验证ST在解决核心挑战及其对任务效率的影响方面的有效性，分别进行了替代品生成测试、对象搜索和对象抓取实验。

结论

本文提出了一种用于移动机器人任务执行的自动环境替代品生成流程，旨在通过构建真实世界任务环境的替代品来提高机器人任务执行的效率。来自小规模和三个不同大规模场景的孪生结果和定量指标证明了ST构建具有高几何真实性的真实世界场景替代品的可行性。使用ST提高的任务效率

CRediT作者贡献声明

文富碧：方法论、调查、实验数据分析与方法验证、撰写-原始草案验证、撰写-审阅与编辑、修改。应张：方法论、调查、概念化、监督、验证、撰写-审阅与编辑、修改。毛良寅：方法论、方法验证、修改。崔华张：撰写-审阅与编辑、修改。西蒙·X·杨：监督、撰写-审阅与编辑、修改。长春华：撰写-审阅与