行为或请求：通过视觉-语言模型实现的交互式建造机器人，具备基于置信度的决策延迟功能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Act or ask: Interactive construction robots via vision–language models with confidence-guided decision deferral

【字体：大中小】 时间：2026年02月17日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　基于自然语言和视觉语言的智能建造机器人控制系统，通过SAM模型分割目标关键点并利用VLM进行视觉提示，生成机器人动作指令，结合置信度评估实现人机协作决策。实验表明在木材装配、隔墙龙骨安装和屋面龙骨安装场景中成功率分别为60%、78.5%和90%。

黄磊|邹正波

哥伦比亚大学土木工程与工程力学系，纽约州纽约市10027，美国

摘要

基于学习的方法的最新进展显著推动了建筑机器人技术的自动化发展。然而，在解读多样化的人类指令并执行相应任务方面仍存在重大挑战。本文提出了一种控制系统，该系统能够将自然语言指令转换为机器人动作序列，用于建筑组装和安装。该系统利用了在互联网规模数据上预训练的强大基础模型，包括分割模型和视觉-语言模型。我们引入了关键点作为中间表示，以桥接高级语言和低级机器人动作。我们设计了具有信心感知的决策延迟机制，该机制能够识别不确定的决策，并将决策权委托给人类监督者，从而提高安全性和可靠性。我们使用Franka Research 3机器人臂在三种建筑场景中验证了该系统的有效性：放置木材以组装屋顶桁架和墙壁桁架，以及放置面板以进行安装。在实验室环境中，系统的成功率分别为60%、78.5%和90%，展示了其在实际应用中的潜力。

引言

建筑业是美国经济的支柱，2024年的年支出约为2.2万亿美元[1]，占全国GDP的4.5%[2]。它也是主要的就业来源，支持着超过800万个工作岗位[3]。尽管具有经济重要性，该行业仍面临持续性的挑战，包括劳动力短缺[4]、[5]、成本和进度超支[6]以及生产力停滞[6]。这些问题威胁到其长期可持续性及其满足日益增长的基础设施需求的能力。

为应对这些挑战，行业利益相关者和研究人员越来越多地转向技术创新，特别是智能机器人技术，以自动化危险、重复性和体力要求高的任务[7]、[8]、[9]。尽管在建筑领域使用机器人的想法已经存在了几十年[10]、[11]，但由于建筑工地的动态和复杂性，其发展和采用仍落后于其他行业，如制造业[12]、[13]。

智能建筑机器人领域最近取得了显著进展[14]、[15]、[16]，这得益于基于学习的控制方法（如模仿学习(IL)和强化学习(RL)的进步[17]、[18]。这些方法旨在学习控制策略，通常由神经网络建模，将观察结果（例如图像、本体感知）映射到机器人动作，如机器人末端执行器的SE(3)姿态或低级关节位置[19]、[20]。RL通常在仿真环境中进行训练，其中机器人和环境的数字孪生体允许大规模交互以进行学习[21]、[22]。机器人通过重复的剧集进行探索，采取行动并接收标量奖励，从而指导其实现奖励函数定义的累积回报最大化。RL已应用于许多建筑任务[23]，包括自主起重机控制[24]、室内数据收集[25]、木材接头组装[26]、[27]、暖通空调检查[28]、混凝土3D打印[29]、轮式装载机铲斗填充[30]和电缆管道安装[31]。

尽管取得了这些成功，RL仍面临一些挑战，例如奖励欺骗，即机器人利用奖励结构中的漏洞而不执行预期的任务[32]，以及在高维观察和动作空间中进行优化的难度。IL通过利用专家演示来解决其中的一些问题。例如，研究人员在真实环境中[33]或虚拟现实[34]收集演示来训练机器人进行天花板和窗面板安装。其他工作使用人类视频预训练了一个通用物体抓取策略，用于多指仿人手，然后对其进行微调以抓取和重新定位建筑工具[35]。

尽管基于学习的控制方法在自动化建筑机器人方面表现出了强大的性能，但它们往往缺乏与人类工人的有效互动，限制了人类干预的机会。此外，大多数先前的方法训练的是特定于任务的策略，而没有考虑人类的意图。

最近的研究通过集成语言模型、建筑信息数据库和基于检索的目标姿态的机器人路径规划，引入了建筑任务中的人机交互[36]。虽然这些方法表现出高度自主性，但它们通常需要使用特定于任务的数据库对语言模型进行微调，并且依赖于详细的建筑组件数据库，而这些资源在小型或现场场景中可能不可用。

鉴于存在强大的基础模型，如大型语言模型(LLMs) [37]、[38]和视觉-语言模型(VLMs) [39]、[40]，这些模型在互联网规模的数据集上进行了训练，并编码了大量人类知识，因此对于它们在建筑领域的下游应用提出了一个关键问题：我们如何直接有效地利用现成的基础模型进行交互式机器人控制，而无需构建显式的建筑材料数据库。

考虑这样一个场景：建筑工人用自然语言指示机器人臂组装石膏板立柱。一个有效的交互式控制系统应该能够解释指令，处理来自摄像机的视觉场景，并生成相应的低级机器人动作。它还必须足够灵活，能够处理描述各种组装配置的多样化指令，例如在框架内垂直、水平或对角放置木材，而无需对系统中的任何模块进行微调或重新训练。此外，一个可信的控制系统应该能够自我评估其自主决策，并在必要时让人类操作员参与决策过程。

为此，我们提出了一种适用于多种建筑任务的交互式机器人控制系统。该系统以RGB-D图像和自然语言指令作为输入，生成可执行的机器人动作以及置信度估计。当置信度较高时，机器人自主执行；当置信度较低时，决策权委托给人类操作员。我们的方法首先使用Segment Anything Model (SAM) [41]和点采样从目标对象提取关键点表示，然后应用基于标记的视觉提示的VLM来选择与自然语言条件相匹配的关键点。最后，系统评估其置信度，以确定是自动继续还是将控制权交给人类。图1展示了该系统的能力。

我们的主要贡献如下：

(1)
我们系统地回顾了多模态基础模型（特别是VLMs）在建筑领域的应用。
(2)
视觉-语言驱动的动作生成：我们引入了一种机器人控制系统，结合了VLM、基于标记的视觉提示和关键点表示，用于生成建筑任务（如桁架组装和面板安装）的动作。
(3)
基于置信度的人机共享自主性：我们集成了一种决策延迟机制，在系统置信度较低时将控制权委托给人类工人。
(4)
实际应用验证：我们在Franka Research 3机器人臂上对建筑任务进行了实验室规模的系统验证，包括墙壁桁架和屋顶桁架的组装，以及在墙壁桁架上的面板安装。

本文的其余部分如下：第2节讨论了基于学习的建筑机器人的最新发展以及建筑如何在各种任务中应用基础模型。第3节详细介绍了我们的控制框架，用于桁架组装和面板安装等建筑任务。第4节介绍了我们在真实机器人上的实验，包括硬件设置、木材材料设置以及结果和分析。最后，我们在第5节提供讨论和局限性，并在第6节总结下一步计划。

方法论

如图2所示，我们的建筑机器人控制系统包括四个步骤：对象分割和关键点标记（第3.1节）、VLM中的基于标记的视觉提示（第3.2节）、基于置信度的决策延迟（第3.3节）以及从交互点进行的运动规划（第3.4节）。

实验与结果

我们在实验室规模的真实Franka Research 3机器人臂上进行了广泛的实验，以测试所提出的控制系统在不同任务上的表现，包括墙壁桁架木材放置（第4.2节）、墙壁桁架面板安装（第4.3节）和屋顶桁架木材放置（第4.4节）。在每个任务中，使用自然语言描述了人类预期的任务。我们描述了每个任务，然后报告相应的结果并进行了讨论。我们提供了提示

讨论与局限性

我们使用Franka Emika Research 3机器人臂在实验室桌面上设置中，根据人类指令评估了我们的建筑机器人控制系统在组装和安装任务上的表现。我们在下面总结了结果和发现。

在墙壁桁架组装任务中，系统的总体成功率为60%，在不同指令条件下的表现范围为50%到70%。在成功的试验中，木材旨在连接

结论与未来工作

我们提出了Act或Ask，这是一种适用于实际建筑任务的交互式控制系统，包括组装和面板安装。我们基于在互联网规模数据上训练的强大基础模型构建了该控制系统，这些模型包含了无数人类知识，包括视觉-语言模型和Segment Anything Model。与以往的自主建筑机器人不同，我们的系统接受自然语言指令并执行

CRediT作者贡献声明

黄磊：撰写——原始草稿、可视化、验证、方法论、调查、形式分析、数据管理、概念化。邹正波：撰写——审阅与编辑、撰写——原始草稿、监督、资源管理、项目协调、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢哥伦比亚大学Carleton实验室的Wilson Phu、Lisa Ngayungi、Freddie Eugene Wheeler Jr.和William Hunnicutt博士为实验提供制造支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

方法论