处于互补市场中的非对称3C电子企业的战略市场进入与创新

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月08日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　自主工业作业中结构感知面临物理视觉退化与几何各向异性挑战，CARE-YOLOPose框架通过MH-REAM抑制高频噪声、MH-CCAR优化细长边缘，并引入基于乘法逻辑与的Line Similarity（LS）指标，确保几何约束的严格性。实验表明其保持结构完整性的最大遮挡率60%，实时性能达39.1 FPS，嵌入式设备13.4 FPS。

作者：Delin Qu、Jing Jin、Yi Liu、Fujiang Yu、Jieru Zhang、Ying Guo

哈尔滨工业大学控制科学与工程学院，中国哈尔滨

摘要

自卸卡车货箱的结构感知对于自主工业操作至关重要，但仍然容易受到物理视觉退化和几何各向异性的影响。为了解决这些挑战，我们提出了CARE-YOLOPose（基于上下文的回归增强YOLOPose），这是一个专为鲁棒的关键点和边缘检测设计的结构感知框架。该架构整合了MH-REAM来抑制高频环境噪声，以及MH-CCAR来细化细长且对坐标敏感的结构边界。我们还引入了DTB-CornerSet，这是一个包含5000张图片的物理基础基准数据集，涵盖了七种恶劣条件。关键的是，我们提出了线相似性（LS）度量方法。与传统的加性度量不同，LS采用了一种乘法“逻辑与”机制，作为系统级几何有效性的严格 veto，迫使模型同时满足端点、中点和角度约束。大量实验表明，CARE-YOLOPose的平均LS得分达到了0.955（后缘LS为0.974），在结构保真度方面显著优于最近的轻量级Transformer模型，同时最小化了计算延迟。定量应力测试显示，该系统在遮挡比例为60%的情况下仍能保持结构完整性，这为工业安全定义了一个关键的感知阈值。该框架在标准GPU上的实时推理速度为39.1 FPS，在符合安全标准的Jetson Orin NX边缘设备上为13.4 FPS（延迟74.6 ms），为闭环工业自动化提供了一个可行且高精度的观测层。

引言

基于视觉的结构感知在安全至关重要的工业环境中变得越来越重要，因为可靠的几何理解支持自动化和基于风险的决策。在建筑和采矿作业中，数字孪生技术支持的安全管理进一步提高了对精确且持续更新的场景和设备表示的需求（Han, Chen, Li, Ji, & Wang, 2025）。

理论动机：视觉-控制接口。为了弥合孤立视觉检测与闭环控制动态之间的差距，这种情境下的感知最终目标必须超越美学识别，成为一个可靠的状态观测函数。重型车辆自动化领域的最新进展表明，感知意识策略不仅对安全至关重要，也对运营效率至关重要（Jia et al., 2026）。然而，现有视觉检测器的一个关键理论局限性是，在严重遮挡的情况下，它们经常产生拓扑无效的预测（例如，自相交的边缘）。从控制理论的角度来看，这些几何无效的输出充当了“奇点”，在观测通道中引入了无限方差，从而不可避免地破坏了闭环系统的稳定性。因此，CARE-YOLOPose被明确设计为一个结构受限的观测层。借鉴Hsu等人（Hsu, 2025）建立的基于数学的迭代预测框架，我们旨在通过严格的几何约束来最小化最坏情况下的观测协方差。此外，采用“约束-性能”指标框架（Hsu, 2024），我们建立了严格的拓扑有效性标准，以确保感知输出符合工业专家系统所需的可靠性标准。这一视觉-控制接口的正式数学公式在第4.1节中得到了严格建立。

工业感知中的挑战。从检测到结构感知的转变在工业领域面临两个独特挑战：“物理视觉退化”和“几何各向异性”。首先，实际操作在严重的光学干扰下进行。如图1所示，大气散射（雾）会降低对比度，传感器过曝（眩光）会掩盖边缘，颗粒物遮挡（雪/灰尘）会破坏纹理连续性（Gupta et al., 2024, Sakaridis et al., 2018）。

与标准数据集中的噪声通常是加性的不同，工业环境中的退化遵循特定的物理光学模型。依赖纹理线索的现有检测器在这些条件下往往无法提取连贯的结构。其次，目标的结构约束往往没有得到充分利用。自卸卡车货箱具有长而细的刚性四边形拓扑。标准的姿态估计器将点视为独立实体，当局部证据被遮挡时，可能会产生物理上不合理的预测（例如，自相交）。

提出的解决方案。为了解决这些限制，我们提出了CARE-YOLOPose（基于上下文的回归增强YOLOPose），这是一个专为鲁棒工业监控设计的结构感知框架。如图2所示，我们的模型不仅实现了适合安全边界的实时推理（39.1 FPS），而且在性能上也显著优于“公平基线”（YOLO11（Jocher, Chaurasia, & Qiu, 2024）以及ViTPose（Xu, Zhang, Zhang, & Tao, 2022）和HRNet（Sun, Xiao, Liu, & Wang, 2019）等重型估计器。

这证实了我们的性能提升来自于专门设计的架构创新，这些创新旨在将高频天气噪声与低频结构语义分开，而不仅仅是度量调整。尽管该框架是在自卸卡车上验证的，但它也可以适应其他具有刚性多边形结构的重型机械。我们的主要贡献总结如下：

（1）
物理基础基准数据集（DTB-CornerSet）：我们建立了一个包含5000张图片的详细基准数据集。关键的是，我们采用了一种物理近似方法来生成恶劣条件，确保评估反映了实际的光学挑战，而不仅仅是简单的像素噪声。
（2）
CARE-YOLOPose框架：我们提出了一个统一的框架，整合了多层次残差增强注意力（MH-REAM）和坐标通道注意力细化（MH-CCAR）。这些模块可以明确过滤环境伪影，同时增强细长且对坐标敏感的边缘的表示。
（3）
理论对齐与逻辑与度量：我们建立了一个正式的视觉-控制接口模型（第4.1节），并引入了线相似性（LS）度量。LS采用了一种乘法“逻辑与”机制，作为严格的 veto（硬约束），为动态专家系统提供了所需的“几何安全性”（Hsu, 2024）。

本文的其余部分组织如下。第2节回顾了相关工作。第3节描述了物理基础的DTB-CornerSet。第4节详细介绍了CARE-YOLOPose的方法。第5节报告了实验评估。第6节总结了本文。

数据集（DTB-CornerSet：自卸卡车货箱角数据集）

为了解决现有数据集的局限性——特别是有限的视角、稀疏的操作环境和缺乏以结构为导向的角注释——我们构建了DTB-CornerSet（自卸卡车货箱角数据集），这是一个包含5000张图片的基准数据集，专为自卸卡车货箱角关键点检测和结构边缘评估而设计。DTB-CornerSet基于600个真实的操作关键帧，并结合了一个物理基础的恶劣条件生成流程。

提出的方法

提出的CARE-YOLOPose框架旨在解决工业感知中的“几何-速度-鲁棒性”三重困境。与将关键点视为独立标量实体的通用姿态估计器不同，我们的方法施加了明确的结构先验来重建重型目标的刚性四边形拓扑。本节建立了理论上的视觉-控制接口，以证明系统级设计目标的有效性，随后对架构进行了严格的阐述

实验评估

在本节中，我们对提出的CARE-YOLOPose框架进行了全面评估。遵循严格的基于证据的叙述，我们不仅评估了孤立的视觉检测，还验证了该模型作为工业控制系统连续状态观测器的可行性。我们首先建立了实验协议，与最先进的（SOTA）估计器进行了基准测试，并进行了深入的消融研究。最后，我们严格审核了模型的操作安全性

结论

在本文中，我们提出了CARE-YOLOPose，这是一个旨在解决工业感知中“几何-速度-鲁棒性”三重困境的统一框架。通过整合层次化噪声抑制（MH-REAM）和坐标细化（MH-CCAR），该架构有效地克服了物理视觉退化和几何各向异性。提出的线相似性（LS）度量在数学上充当了“逻辑与”门，强制执行了对安全至关重要的专家系统所需的严格 veto 机制

CRediT作者贡献声明

Delin Qu：概念化、方法论、软件、调查、正式分析、数据管理、验证、可视化、初稿撰写、审稿与编辑。 Jing Jin：概念化、方法论、监督、项目管理、资源获取、资金筹措、验证、审稿与编辑。 Yi Liu：调查、数据管理、资源、软件、验证、可视化、审稿与编辑。 Fujiang Yu：调查、数据管理、验证、

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了2023国家创新基地奖励项目（项目编号：JD2023GJ01）和中国自然科学基金（项目编号：12373107）的支持。作者还感谢所有参与数据收集、注释和实验管理的同事。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

数据集（DTB-CornerSet：自卸卡车货箱角数据集）

提出的方法

实验评估

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行