利用视觉驱动的自适应控制技术，推动木结构建筑中的机器人自动化进程

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《AUTOMATION IN CONSTRUCTION》：Advancing robotic automation in wood-framed construction using vision-driven adaptive control

【字体：大中小】 时间：2026年03月07日 来源：AUTOMATION IN CONSTRUCTION 11.5

编辑推荐：

　　基于几何先验的木结构施工自适应机器人控制方法研究，提出无需CAD模型的6-DOF实时姿态估计与几何重建技术，在定制化建筑场景中实现毫米级精度和秒级处理效率，显著优于传统CAD依赖方法。

作者：赵谢（Chao Xie）| 阿拉丁·阿尔维西（Aladdin Alwisy）

智能IDC实验室，M.E. Rinker，佛罗里达大学建筑管理学院，美国佛罗里达州盖恩斯维尔市Newell Dr 573号，邮编32603

摘要

木结构建筑（WFC）依赖于高精度的六自由度（6-DOF）姿态估计，以实现定制建筑条件下的自适应机器人自动化。现有方法在准确性、速度和鲁棒性之间存在权衡：基于CAD的方法难以处理木材的几何偏差，而无需CAD的预重建方法计算成本高昂且精度有限。本文提出了一种基于几何先验的、无需CAD模型的姿态估计方法，专为WFC设计，能够实现毫米级的精度和实时几何重建，从而支持视觉驱动的自适应机器人控制，适用于高度定制的小批量生产。该方法利用用户指定的立柱截面尺寸作为最小的物理先验，而不是依赖完整的CAD模型或对象级配准。为了评估，我们开发了一个代表典型WFC场景的基准数据集。与现有技术相比，所提出的方法精度提高了1.8至6.1倍。在64次实验室规模的机器人抓取实验中，该方法的成功率为96.9%，平均执行时间为8.51秒，重建误差为0.18%。这些结果证明了其卓越的准确性、效率和鲁棒性，显示出其在WFC中支持自主机器人制造的潜力。

引言

木结构建筑（WFC）是北美最常用的建筑方法之一，占单户住宅的90%，这得益于其成本效益、可持续性和对不同建筑设计的适应性[1]。传统的WFC预制工艺严重依赖人工劳动，工人需要操作多种工具进行切割和安装材料。这一过程需要大量的体力劳动和高水平的技能[2]。此外，与制造业相比，建筑行业长期以来一直面临着生产率低的问题[3]。

将机器人技术引入制造业显著提高了生产率和效率，这一转变被视为建筑行业值得效仿的典范[4]。然而，机器人在建筑领域的应用仍然有限。其中一个关键原因是两个行业之间的根本差异。制造业受益于大规模标准化，而建筑行业则以高度定制和小批量项目为特点[5]。这一独特特性使得难以应用那些在制造业中成功实现自动化的策略[6]。

此外，定制设计的高几何变异性以及天然WFC组件的固有几何偏差（见第2.3节和图1）进一步增加了在建筑中集成机器人的复杂性[1]。制造业中的机器人自动化通常依赖于离线编程，其中工业机器人手臂通过基于点的指令手动学习精确的重复动作[7]。这些机器人在受控环境中操作，以固定且可重复的6-DOF姿态（X、Y、Z、Rx、Ry、Rz）拾取物体并将其放置到预定义的组装位置[8]。然而，这种方法在WFC中并不实用，因为设计异质性和材料引起的偏差需要频繁重新编程和校准，使得传统的离线编程不再适用。

除了设计层面的变异性外，WFC还受到天然木立柱固有尺寸变异性的限制。定量公差分析表明，木结构组件只能承受有限的几何偏差才能保持结构上的可接受性。例如，WFC中的立柱定位和墙体几何公差通常限制在0.32–0.63厘米（1/8–1/4英寸）范围内，包括横向和纵向立柱的位置、3.04米（10英尺）跨度内的墙体垂直度偏差，以及墙体弯曲和方正度的限制，这些都在标准的木结构公差分析中有规定[9]。这些公差限代表了功能性木结构建筑可接受偏差的上限。然而，当高度定制设计和天然木材材料引起的几何变异性未被明确感知和补偿时，离线编程的机器人执行很容易使实际组装超出这些公差限制。最近关于机器人木材墙预制的研究表明，天然材料的缺陷（如弯曲和扭曲）引入了几何不确定性，这些不确定性无法通过静态离线编程可靠处理，通常需要额外的排序或自适应策略来实现可行的组装[10]。

来自近期工业案例研究的定量证据进一步凸显了这一限制的严重性。例如，从BIM模型中手动提取几何信息并进行离线机器人编程来完成墙体框架任务，据报道每0.3米（1英尺）的墙体需要6.07分钟，对于涉及268英尺（75.6米）墙体的中等规模案例研究，总共需要1626.76分钟（约27小时），即使报告的工作仅限于软件层面的规划，不包括机器人的现场教学或执行[11]。重要的是，这些研究还表明，即使有准确的数字模型，微小的施工偏差和放置不确定性仍然需要在实际执行过程中进行手动审查和调整，以避免碰撞或错位。关于机器人操作的实证研究进一步表明，仅依赖CAD/合成训练数据时，抓取成功率会降至46.7%，而当结合真实视觉反馈时，成功率可提升至86.7%[12]。

为了解决这些挑战，自适应控制方法变得至关重要，因为它们提供了感知性的实时反馈，使机器人手臂能够动态调整其行为。实现这种自主性需要两个关键组件：（1）基于视觉的感知能力，能够提供每个独特组件和环境几何的精确6-DOF对象姿态作为反馈信号；（2）自适应控制能力，能够自动规划无碰撞的运动，减少对人工编程的依赖。然而，这两个组件都面临重大挑战。现有的姿态估计方法通常依赖于CAD模型，主要在非工业数据集上进行训练，并且经常忽略传感器噪声（见2.2节对象姿态估计挑战、2.3节RGB-D输入精度限制和基准标准差距）。同时，自适应控制系统在WFC研究中的探索仍然有限（见第2.1节），而从制造业继承而来的工业机器人手臂（例如ABB、KUKA、FANUC）缺乏对自主运动规划的本地支持，而是依赖于手动编程的轨迹[11]。因此，实现真正的自主自动化需要准确的无模型姿态估计和实时自适应运动规划的进步，这两者对于自主机器人建筑来说是不可或缺的。

因此，本文结合了一种基于几何先验的实时6-DOF姿态估计技术和在线机器人控制平台，以支持基于视觉的、环境感知的自适应运动规划，适用于WFC。该方法利用所提出的姿态估计算法，无需完整的CAD模型或预生成的对象级3D重建，直接从RGB-D输入中提取姿态和几何信息。几何先验仅限于用户指定的（实际测量的）立柱截面尺寸，并作为物理约束使用，而不是显式的CAD模型或完整形状表示。6-DOF姿态估计实现了毫米级的精度，同时适应WFC的变化几何形状和定制设计，证明了在没有完整模型配准的情况下对天然木材变异性的鲁棒性。通过结合这种实时反馈，系统能够实现自适应机器人控制，以应对高度定制和小批量WFC项目以及几何变异性的挑战，减少对劳动密集型离线编程和手动目标扫描的依赖。

为了评估所提出的6-DOF算法的性能，本文进一步开发了一个高分辨率、精确标注的基准数据集，专门针对典型的WFC场景，解决了该领域数据不足的问题（见第2.3节）。使用该数据集，所提出的算法与多种现有技术进行了全面对比，一致显示出更高的准确性和鲁棒性。最后，通过在实际WFC条件下的木立柱抓取实验验证了完整的视觉驱动自适应控制框架的实用性。

文献综述

本节首先回顾了WFC中的机器人自动化和6-DOF对象姿态估计方法的现有工作，然后探讨了推动视觉驱动、自适应机器人解决方案的局限性。

研究目标

为了解决WFC中实现自适应机器人控制的挑战，本文提出了四个关键研究目标，直接针对当前知识和实践中的空白：

1.
设计一种基于几何先验的、无需模型的鲁棒算法，用于6-DOF姿态估计和几何重建，该算法可以直接在嘈杂的RGB-D输入上运行。这一目标解决了当前依赖CAD或预重建方法的局限性，提供了工业级的精度

方法论

本文基于开发了一个适用于WFC的双机器人手臂的计算机视觉引导多功能机器人工作站。通过利用所提出的计算机视觉技术进行自动6-DOF姿态估计，所提出的机器人工作站实现了视觉驱动的自适应控制，从而克服了传统离线编程的局限性，特别是在WFC中，那里高度定制和小批量生产以及天然材料的固有变异性非常突出

案例研究：抓取实验

在之前涉及双机器人工作站的研究[11]的基础上，该研究进一步将其扩展为实时在线系统。该系统可以直接控制机器人工作站，并通过为ABB IRB 6620机器人手臂定制开发的实时驱动程序整合环境感知，每个手臂的负载能力为150公斤，臂展为2.2米。这两个手臂都配备了多功能末端执行器

姿态估计方法的比较基准测试

如第2.3节所讨论的，当前主流的姿态估计数据集不适合评估WFC场景中的姿态估计算法。为了解决这一问题，本文创建了一个专注于2×4英寸木立柱的专用RGB-D数据集。该数据集还配备了高精度的手动真实标签，并用于将所提出的方法与几种最先进的姿态估计方法进行基准测试。

总体讨论

本研究揭示了使用高精度计算机视觉算法自主指导WFC结构机器人制造的潜力，摆脱了传统离线编程的束缚。研究结果表明，机器人感知是实现这种自主性的关键。本文认识到这是一个跨学科的挑战，涉及建筑科学、3D成像和机器人技术等多个领域

结论

本文提出了一个适用于实验室规模WFC结构自主机器人组装的视觉驱动自适应控制框架。所提出的系统实现了一个完全端到端的、无需人工的自动化流程，从任务定义到机器人执行，无需依赖预先编程的运动序列。作为面向真实WFC组装的完整堆栈、视觉驱动的框架，该系统考虑了其中涉及的关键因素

CRediT作者贡献声明

赵谢（Chao Xie）：撰写 – 审稿与编辑、撰写 – 原稿撰写、可视化、验证、软件开发、方法论研究、数据分析、概念化。阿拉丁·阿尔维西（Aladdin Alwisy）：撰写 – 审稿与编辑、监督、资源协调、项目管理、方法论研究、概念化。

写作过程中生成式AI和AI辅助技术的声明

在准备本文时，作者使用了ChatGPT来提高句子的清晰度。使用该工具后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

利益冲突声明

作者确认与本出版物无关的已知利益冲突，且本工作未获得可能影响其结果的任何重大财务支持。

联系信箱：

粤ICP备09063491号

摘要

引言

文献综述

文献综述

研究目标

方法论

案例研究：抓取实验

姿态估计方法的比较基准测试

总体讨论

结论

CRediT作者贡献声明

写作过程中生成式AI和AI辅助技术的声明

利益冲突声明

热点排行