建筑业是美国经济的支柱,2024年的年支出约为2.2万亿美元[1],占全国GDP的4.5%[2]。它也是主要的就业来源,支持着超过800万个工作岗位[3]。尽管具有经济重要性,该行业仍面临持续性的挑战,包括劳动力短缺[4]、[5]、成本和进度超支[6]以及生产力停滞[6]。这些问题威胁到其长期可持续性及其满足日益增长的基础设施需求的能力。
为应对这些挑战,行业利益相关者和研究人员越来越多地转向技术创新,特别是智能机器人技术,以自动化危险、重复性和体力要求高的任务[7]、[8]、[9]。尽管在建筑领域使用机器人的想法已经存在了几十年[10]、[11],但由于建筑工地的动态和复杂性,其发展和采用仍落后于其他行业,如制造业[12]、[13]。
智能建筑机器人领域最近取得了显著进展[14]、[15]、[16],这得益于基于学习的控制方法(如模仿学习(IL)和强化学习(RL)的进步[17]、[18]。这些方法旨在学习控制策略,通常由神经网络建模,将观察结果(例如图像、本体感知)映射到机器人动作,如机器人末端执行器的SE(3)姿态或低级关节位置[19]、[20]。RL通常在仿真环境中进行训练,其中机器人和环境的数字孪生体允许大规模交互以进行学习[21]、[22]。机器人通过重复的剧集进行探索,采取行动并接收标量奖励,从而指导其实现奖励函数定义的累积回报最大化。RL已应用于许多建筑任务[23],包括自主起重机控制[24]、室内数据收集[25]、木材接头组装[26]、[27]、暖通空调检查[28]、混凝土3D打印[29]、轮式装载机铲斗填充[30]和电缆管道安装[31]。
尽管取得了这些成功,RL仍面临一些挑战,例如奖励欺骗,即机器人利用奖励结构中的漏洞而不执行预期的任务[32],以及在高维观察和动作空间中进行优化的难度。IL通过利用专家演示来解决其中的一些问题。例如,研究人员在真实环境中[33]或虚拟现实[34]收集演示来训练机器人进行天花板和窗面板安装。其他工作使用人类视频预训练了一个通用物体抓取策略,用于多指仿人手,然后对其进行微调以抓取和重新定位建筑工具[35]。
尽管基于学习的控制方法在自动化建筑机器人方面表现出了强大的性能,但它们往往缺乏与人类工人的有效互动,限制了人类干预的机会。此外,大多数先前的方法训练的是特定于任务的策略,而没有考虑人类的意图。
最近的研究通过集成语言模型、建筑信息数据库和基于检索的目标姿态的机器人路径规划,引入了建筑任务中的人机交互[36]。虽然这些方法表现出高度自主性,但它们通常需要使用特定于任务的数据库对语言模型进行微调,并且依赖于详细的建筑组件数据库,而这些资源在小型或现场场景中可能不可用。
鉴于存在强大的基础模型,如大型语言模型(LLMs) [37]、[38]和视觉-语言模型(VLMs) [39]、[40],这些模型在互联网规模的数据集上进行了训练,并编码了大量人类知识,因此对于它们在建筑领域的下游应用提出了一个关键问题:我们如何直接有效地利用现成的基础模型进行交互式机器人控制,而无需构建显式的建筑材料数据库。
考虑这样一个场景:建筑工人用自然语言指示机器人臂组装石膏板立柱。一个有效的交互式控制系统应该能够解释指令,处理来自摄像机的视觉场景,并生成相应的低级机器人动作。它还必须足够灵活,能够处理描述各种组装配置的多样化指令,例如在框架内垂直、水平或对角放置木材,而无需对系统中的任何模块进行微调或重新训练。此外,一个可信的控制系统应该能够自我评估其自主决策,并在必要时让人类操作员参与决策过程。
为此,我们提出了一种适用于多种建筑任务的交互式机器人控制系统。该系统以RGB-D图像和自然语言指令作为输入,生成可执行的机器人动作以及置信度估计。当置信度较高时,机器人自主执行;当置信度较低时,决策权委托给人类操作员。我们的方法首先使用Segment Anything Model (SAM) [41]和点采样从目标对象提取关键点表示,然后应用基于标记的视觉提示的VLM来选择与自然语言条件相匹配的关键点。最后,系统评估其置信度,以确定是自动继续还是将控制权交给人类。图1展示了该系统的能力。
我们的主要贡献如下:
- (1)
我们系统地回顾了多模态基础模型(特别是VLMs)在建筑领域的应用。
- (2)
视觉-语言驱动的动作生成:我们引入了一种机器人控制系统,结合了VLM、基于标记的视觉提示和关键点表示,用于生成建筑任务(如桁架组装和面板安装)的动作。
- (3)
基于置信度的人机共享自主性:我们集成了一种决策延迟机制,在系统置信度较低时将控制权委托给人类工人。
- (4)
实际应用验证:我们在Franka Research 3机器人臂上对建筑任务进行了实验室规模的系统验证,包括墙壁桁架和屋顶桁架的组装,以及在墙壁桁架上的面板安装。
本文的其余部分如下:第2节讨论了基于学习的建筑机器人的最新发展以及建筑如何在各种任务中应用基础模型。第3节详细介绍了我们的控制框架,用于桁架组装和面板安装等建筑任务。第4节介绍了我们在真实机器人上的实验,包括硬件设置、木材材料设置以及结果和分析。最后,我们在第5节提供讨论和局限性,并在第6节总结下一步计划。