基于视觉的结构感知在安全至关重要的工业环境中变得越来越重要,因为可靠的几何理解支持自动化和基于风险的决策。在建筑和采矿作业中,数字孪生技术支持的安全管理进一步提高了对精确且持续更新的场景和设备表示的需求(Han, Chen, Li, Ji, & Wang, 2025)。
理论动机:视觉-控制接口。为了弥合孤立视觉检测与闭环控制动态之间的差距,这种情境下的感知最终目标必须超越美学识别,成为一个可靠的状态观测函数。重型车辆自动化领域的最新进展表明,感知意识策略不仅对安全至关重要,也对运营效率至关重要(Jia et al., 2026)。然而,现有视觉检测器的一个关键理论局限性是,在严重遮挡的情况下,它们经常产生拓扑无效的预测(例如,自相交的边缘)。从控制理论的角度来看,这些几何无效的输出充当了“奇点”,在观测通道中引入了无限方差,从而不可避免地破坏了闭环系统的稳定性。因此,CARE-YOLOPose被明确设计为一个结构受限的观测层。借鉴Hsu等人(Hsu, 2025)建立的基于数学的迭代预测框架,我们旨在通过严格的几何约束来最小化最坏情况下的观测协方差。此外,采用“约束-性能”指标框架(Hsu, 2024),我们建立了严格的拓扑有效性标准,以确保感知输出符合工业专家系统所需的可靠性标准。这一视觉-控制接口的正式数学公式在第4.1节中得到了严格建立。
工业感知中的挑战。从检测到结构感知的转变在工业领域面临两个独特挑战:“物理视觉退化”和“几何各向异性”。首先,实际操作在严重的光学干扰下进行。如图1所示,大气散射(雾)会降低对比度,传感器过曝(眩光)会掩盖边缘,颗粒物遮挡(雪/灰尘)会破坏纹理连续性(Gupta et al., 2024, Sakaridis et al., 2018)。
与标准数据集中的噪声通常是加性的不同,工业环境中的退化遵循特定的物理光学模型。依赖纹理线索的现有检测器在这些条件下往往无法提取连贯的结构。其次,目标的结构约束往往没有得到充分利用。自卸卡车货箱具有长而细的刚性四边形拓扑。标准的姿态估计器将点视为独立实体,当局部证据被遮挡时,可能会产生物理上不合理的预测(例如,自相交)。
提出的解决方案。为了解决这些限制,我们提出了CARE-YOLOPose(基于上下文的回归增强YOLOPose),这是一个专为鲁棒工业监控设计的结构感知框架。如图2所示,我们的模型不仅实现了适合安全边界的实时推理(39.1 FPS),而且在性能上也显著优于“公平基线”(YOLO11(Jocher, Chaurasia, & Qiu, 2024)以及ViTPose(Xu, Zhang, Zhang, & Tao, 2022)和HRNet(Sun, Xiao, Liu, & Wang, 2019)等重型估计器。
这证实了我们的性能提升来自于专门设计的架构创新,这些创新旨在将高频天气噪声与低频结构语义分开,而不仅仅是度量调整。尽管该框架是在自卸卡车上验证的,但它也可以适应其他具有刚性多边形结构的重型机械。我们的主要贡献总结如下:
- (1)
物理基础基准数据集(DTB-CornerSet):我们建立了一个包含5000张图片的详细基准数据集。关键的是,我们采用了一种物理近似方法来生成恶劣条件,确保评估反映了实际的光学挑战,而不仅仅是简单的像素噪声。
- (2)
CARE-YOLOPose框架:我们提出了一个统一的框架,整合了多层次残差增强注意力(MH-REAM)和坐标通道注意力细化(MH-CCAR)。这些模块可以明确过滤环境伪影,同时增强细长且对坐标敏感的边缘的表示。
- (3)
理论对齐与逻辑与度量:我们建立了一个正式的视觉-控制接口模型(第4.1节),并引入了线相似性(LS)度量。LS采用了一种乘法“逻辑与”机制,作为严格的 veto(硬约束),为动态专家系统提供了所需的“几何安全性”(Hsu, 2024)。
本文的其余部分组织如下。第2节回顾了相关工作。第3节描述了物理基础的DTB-CornerSet。第4节详细介绍了CARE-YOLOPose的方法。第5节报告了实验评估。第6节总结了本文。