机器人技术的进步(Hong, Wang, Duan, Huang, Li, Wen, Wu, Xiang, Zheng, 2025, Hu, Wu, Zhao, Yang, Zhang, Ji, 2025, Zhang, Tian, Zhang, Hua, Ding, Ahn, 2025a)使机器人能够从工业场景扩展到更复杂的人类生活空间,如家庭环境(Zhang, Tian, Shao, Zhang, Liu, 2023a, Zhu, Wen, Li, Shi, Wu, Dong, Chen, 2025b)。与预编程的工业机器人不同,家庭环境中的机器人必须自主高效地执行任务,如对象搜索和抓取(Zeng, R?fer, Jenkins, 2020, Zhang, Yin, Bi, Yan, Bian, Zhang, Hua, 2025b)。因此,机器人既是数据收集者也是任务执行者,需要它能够感知环境并与对象交互。然而,在现实世界中部署机器人以验证其能力存在安全和成本挑战(Zhu et al., 2025a)。由于安全性、可扩展性和并行性等优点,建立仿真环境已被广泛认为是验证机器人功能并辅助任务执行的手段。例如,iGibson(Li et al., 2022)和SAPIEN(Xiang et al., 2020)涵盖了广泛的家务任务场景。iGibson(Li et al., 2022)支持多种对象状态,如温度和湿度,而SAPIEN(Xiang et al., 2020)涵盖了足够的可活动对象。RoboGen(Wang et al., 2024b)结合了生成模型的进步,可以自动生成任务和场景。
尽管有这些优势,构建特定任务的仿真环境仍然需要大量资源或知识,这使得难以获得能够有意义地挑战机器人能力或反映人类偏好的仿真(例如,人机交互)。最近的研究指出,非特定任务的仿真往往存在较大的现实差距,无法弥合仿真与现实世界场景之间的几何和视觉差异(Han, Liu, Chen, Yu, Lyu, Tian, Wang, Zhang, & Pang, Suomela, Arachchige, Torres, Edelman, K?m?r?inen, 2025, Zook, Sun, Spjut, Blukis, Birchfield, Tremblay, 2025)。也就是说,非特定任务的仿真环境难以满足在特定环境中工作或与特定对象交互的要求,而特定任务的仿真则依赖于大量的人工工作。更具体地说,iGibson(Li et al., 2022)和SAPIEN(Xiang et al., 2020)仍然是专家手工编程的,而RoboGen(Wang et al., 2024b)未能复制定制的机器人任务环境。尽管最近的一些努力通过视图规划优化(Wang, Xiao, Wang, & Zhang, 2025)或人工辅助的交互式生成合成(Li et al., 2023)来降低成本,但这可能无法捕捉与任务相关的属性或仍然依赖于手动调整(Lu et al., 2023)。
最近,诸如神经辐射场(NeRF)(Ran et al., 2025)和3D高斯散射(3DGS)(Liu et al., 2024)等重建渲染技术已成为从现实世界创建真实到仿真的替代品的有希望的解决方案。然而,一方面,它们的输出通常类似于2D(Li et al., 2024)或3D图像(Liu, Liang, Chen, Wang, Na, 2026, Xiong, Huang, Zhang, Jiang, 2024),而不是可用于机器人任务执行的交互性和结构。较弱的交互性也限制了它们反映现实世界动态的能力,例如由人类活动引起的环境变化。另一方面,它们专注于局部场景的重建,而不是整个任务环境(Han et al., 2025),这在处理大规模场景(如对象搜索)的任务能力方面较弱。
为此,我们引入了Scene Twin(ST),这是一种用于生成交互式真实世界任务环境替代品的新型自动化流程,以提高移动机器人任务执行的效率。在曼哈顿世界假设下,ST专注于与任务相关的对象特征,而不是提取所有物理元素和场景过程以降低成本。机器人仅依赖以自我为中心的RGB-D传感器来感知环境,并整合了识别和分割模型来获取环境对象的语义和掩码输出,以便与资产库中的孪生对象进行匹配和缩放。集成在线大型语言模型来推断未匹配对象(例如球体、盒子和圆柱体)的基本几何形状,以补偿资产库中有限的对象模型(自收集的资产和Gazebo Fuel1)。随后,适应对象级的SLAM方法来跟踪传感器数据流中的对象,以计算它们的姿态,这些姿态用于近似真实对象的放置。此外,为了与现实保持一致,SLAM系统中的因子图被调整以表示对象之间的空间关系,并帮助机器人实现粗略到精细的任务执行,并应对环境动态和长期任务。例如,在全局环境中的对象搜索和导航任务(粗略),以及在局部环境中的对象定位和抓取任务(精细)(Zhang et al., 2026)。我们在不同的对象设置和场景中验证了ST的有效性,并基于构建的环境替代品帮助机器人执行对象搜索和操纵任务,以展示提高任务效率的潜力。
本文的主要贡献包括:
1.一个自动的真实到仿真框架ST,它仅依赖于机器人的以自我为中心的RGB-D传感器。
2.一种特定任务的、交互式的环境替代品生成方案,以帮助机器人长时间执行粗略到精细的任务。
3.针对多尺度和多对象配置的环境替代品生成的广泛可行性实验,以及基于替代品的机器人对象搜索和操纵任务效率改进的验证。
本文的其余部分组织如下。第2节总结了机器人仿真领域的最新进展。第3节介绍了详细的流程。第4节和第5节分别描述了实验验证和结论。