BeltCrack：首个基于序列图像的工业输送带裂纹检测数据集及其基于三域特征学习的基线模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：BeltCrack: the First Sequential-image Industrial Conveyor Belt Crack Detection Dataset and Its Baseline with Triple-domain Feature Learning

【字体：大中小】 时间：2026年03月25日 来源：Pattern Recognition 7.6

编辑推荐：

　　基于真实工业场景构建了皮带裂纹检测的第一个双序列图像数据集BeltCrack14ks和BeltCrack9kd，并提出了融合空间、时序和频域特征的基准检测框架BeltCrackDet。实验验证了数据集的有效性和方法的优越性。

Jianghong Huang|Luping Ji|Xin Ma|Mao Ye

中国电子科技大学计算机科学与工程学院，成都，611731，中国

摘要

输送带作为现代工业中最广泛使用的设备之一，对于确保生产安全和效率至关重要。在工业环境中，由于长时间运行，输送带经常会出现撕裂，从而形成裂缝。因此，如何及时准确地检测到现有的皮带裂缝具有重要的应用潜力。为了推进智能皮带裂缝检测技术，充足的样本通常是关键。然而，现有的数据集主要针对的是路面场景或合成裂缝数据。目前还几乎没有可用于训练和测试检测模型的真实世界大规模工业输送带裂缝数据集。为了推动这一研究领域的发展，我们构建了第一对基于连续图像的皮带裂缝检测数据集（BeltCrack14ks，包含来自29个序列的14,087张图像；BeltCrack9kd，包含来自42个序列的9,645张图像）。此外，为了验证这些数据集的可用性和有效性，我们专门为这两个数据集提出了一种基于学习的基线方法。在我们的基线方法中，首次将频域特征学习融入到时空特征融合中。同时，我们还设计了一种改进的残差机制，以实现层次化特征聚合。实验表明，我们的两个新数据集是可用且有效的。同时，这些数据集也显示出我们的基线方法显著优于其他通用物体检测方法。我们的数据集和源代码可以在以下链接获取：https://github.com/UESTC-nnLab/BeltCrack。

引言

工业输送带是现代生产系统中连续运输原材料的基础[1]。它们的稳定运行对生产效率和工人安全至关重要。虽然稳定的输送可以确保工作流程的顺畅和生产效率，但设备故障可能导致停机、物料堆积或严重的工业事故[2]。在各种健康风险中，由外来物体侵入或老化引起的皮带裂缝仍然是一个主要的安全隐患，需要准确检测[3]。

为了降低这些风险，早期可靠的裂缝检测已成为一个关键问题[4]。现有的方法主要集中在早期检测上，以防止裂缝扩散和灾难性的皮带断裂，从而提高操作安全性并减少因计划外停机和维修造成的经济损失[5]。因此，实现可靠的检测变得越来越紧迫。在这种背景下，基于视觉的机器学习方法因其快速、非侵入性的特点而成为有前景的解决方案，能够以最小的操作干扰进行高效检测[6]。

然而，基于学习的皮带裂缝检测方法由于缺乏真实世界的数据集而尚未得到充分探索。许多现有的数据集要么是合成的（例如MBTID [7]和CBCD [8]），要么与领域无关（例如CrackSeg5k [9]）。这种稀缺性主要源于两个限制：工业保密要求和恶劣的操作条件（例如高温或辐射）。

为了解决工业输送带裂缝检测的真实世界数据集不足的问题，并进一步推进这一领域的研究，我们构建了两个连续图像数据集BeltCrack14ks和BeltCrack9kd，专门用于皮带裂缝检测。与合成数据集不同，这两个数据集是在真实工厂环境中使用摄像机收集的。每张图像都经过耗时的标注过程进行手动标注，以确保准确性和一致性，并通过交叉检查和现场验证等额外措施来保持标注质量。据我们所知，这些是首批专门用于皮带裂缝检测的真实世界工业数据集。

目前，几乎还没有专门针对真实世界皮带裂缝检测的基于学习的方法。现有的方法，如PyramidFlow [10]、RIND [11]和AOST [12]，主要关注通用物体检测或裂缝分割。这些方法大致可以分为两类：一类是仅依赖空间特征的单一图像方法[13]，如图1(a)所示；另一类是结合时空融合的连续图像方法[14]、[15]，但仍然忽略了更多特征域，如频率[16]，如图1(b)所示。

为了验证我们新数据集的实用性和有效性，我们提出了一种基于三域特征层次学习的基线框架，并结合了小波频率处理。如图1(c)所示，我们的方法能够捕捉时空频率表示，并层次化地生成它们的融合结果，从而提高裂缝检测性能，超越了传统的时空框架。

总结来说，本工作的主要贡献如下：

(I) 我们构建并手动标注了两个连续图像皮带裂缝检测数据集（即BeltCrack14ks和BeltCrack9kd）。据我们所知，它们是首批从实际工业生产工厂收集的移动输送带连续图像数据集。

(II) 我们为这对数据集提出了一个初始的基线检测框架（BeltCrackDet）。该框架不仅采用了传统的空间或时空特征建模方法，还利用了三域特征（空间、时间和频率）来增强皮带裂缝特征表示。

(III) 我们设计了广泛的比较和消融研究来验证我们新数据集的可用性和有效性。同时，也验证了所提出基线方法的有效性和优势。

数据集片段

裂缝检测数据集

尽管工业输送带在现代制造业中得到广泛应用，但仍然缺乏用于皮带裂缝检测的真实世界数据集。这种稀缺性严重阻碍了基于学习方法的发展和应用。现有的裂缝数据集通常分为两类：通用裂缝数据集和皮带裂缝数据集。

(1) 通用裂缝数据集

通用裂缝数据集主要来源于基础设施领域，如道路、墙壁等，有些数据集甚至包括人工制造的裂缝

数据集构建

(1) 视频采集设备

考虑到工业环境中的空间限制，数据采集使用了相同的智能手机，以便于携带和部署。视频以16:9的宽高比录制，分辨率为3840×2160和1920×1080，帧率为30 FPS。为了确保稳定的录制效果，智能手机被安装在可调节的三脚架上，以减少运动模糊。这种设置提供了一种经济高效且可靠的解决方案，可以详细捕捉皮带裂缝的细节

动机

目前，大多数基于数据的裂缝检测方法都是为单帧分析设计的[8]，只有少数方法扩展到多帧输入以捕捉有限的时间线索[39]。然而，这些方法主要是为静态基础设施场景设计的，不适用于工业皮带环境，因为在工业皮带环境中，连续运动、光照变化和纹理变化很常见。

为了解决这些限制，我们提出了专门的基线方法BeltCrackDet

数据集和评估指标

为了严格验证我们数据集的有效性并评估BeltCrackDet的优越性，我们对BeltCrack14ks和BeltCrack9kd进行了全面的实验，使用了四个经典指标：精确度（Precision）、召回率（Recall）、F1分数和平均精确度（mAP₅₀）。

实施细节

具体来说，序列的滑动窗口大小设置为5，所有方法都采用固定的512×512输入分辨率，以便公平比较。BeltCrackDet经过100个训练周期的训练，批量大小为4，使用随机

结论

为了推进基于学习的皮带裂缝检测技术的智能发展，本文构建了第一对专门用于工业皮带裂缝检测的连续数据集。此外，除了传统的空间和时空建模方法外，它还提出了一个基于三域特征学习的基线模型，即BeltCrackDet。广泛的实验表明：(i) 这对数据集非常适用于基于学习的皮带裂缝检测；(ii)

CRediT作者贡献声明

Jianghong Huang：撰写 – 审稿与编辑，撰写 – 原稿，可视化，方法论。Luping Ji：监督，资金获取。Xin Ma：验证。Mao Ye：资源获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

资助

本工作得到了中国国家自然科学基金（NSFC）的支持，项目编号为62476049和62276048。

联系信箱：

粤ICP备09063491号

摘要

引言