编辑推荐:
多尺度道路 distress 检测算法研究:提出MS-RDDNet框架,通过MSGC模块融合大核分离卷积与门控注意力,MSDHA机制结合多率膨胀卷积与双流注意力,以及LMSADet检测头优化多尺度特征融合,在UAV-PDD2023数据集上mAP@0.5达65.9%,验证其在复杂背景下的检测鲁棒性。
彭 Wang | 刘佳梅 | 陈浩峰 | 隆家旭 | 马刚 | 马万晶
重庆邮电大学自动化学院,中国重庆 400065
摘要
在无人机(UAV)图像中进行道路损伤检测是一项复杂的任务,受到显著尺度变化、异质背景以及多尺度特征融合挑战的影响,这通常会导致检测精度低、误报和漏检。为了解决这些问题,我们提出了MS-RDDNet,这是一种专门为UAV图像设计的新型检测算法。该算法引入了三个关键创新点:(1)多尺度门控卷积(MSGC)模块,它将大核深度可分离卷积与门控注意力结合在一起,以增强多尺度特征感知,同时最小化计算成本;(2)多尺度膨胀卷积混合注意力(MSDHA)机制,它结合了多速率膨胀卷积和双流注意力,以提高在复杂环境中的特征区分度和鲁棒性;(3)轻量级多尺度感知检测头(LMSADet),它利用异构卷积和空间注意力提取层次化特征,同时减少语义不一致性和冗余。在UAV-PDD2023数据集上的实验表明,所提出的方法优于现有的轻量级检测器,达到了65.9%的mAP@0.5和38.1%的mAP@0.5:0.95。此外,在公共数据集上的更多比较实验也证实了其强大的泛化能力和在实际基于UAV的道路损伤检测应用中的潜力。代码可在以下链接获取:
https://github.com/wstchh/MS-RDDNet
引言
道路损伤是指由于长期交通负荷和复杂环境条件导致的路面结构恶化。常见的道路损伤形式包括裂缝、坑洞、车辙和修补区域。准确识别和分类这些损伤及其空间分布对于制定有效和高效的维护策略至关重要。随着交通基础设施的不断扩展和道路网络的老化,路面损伤的普遍性增加,这突显了先进检测技术的需求。及时识别损伤的能力对于确保交通安全、延长路面使用寿命和优化维护资源至关重要[1]。
传统的道路检测方法,如人工调查或车载系统,劳动密集、耗时且常常受到人为偏见的影响。这些方法可能导致评估不一致和数据不可靠。此外,它们的覆盖范围有限且可能干扰交通,阻碍了大规模、高频的监测。相比之下,将相机、GPS、激光测高仪和雷达集成到专用车辆上的自动化检测系统已成为更高效的解决方案,能够实时收集表面和地下数据[2],[3]。然而,多传感器系统的高成本和复杂集成限制了其广泛应用。
基于深度学习的最新进展通过从经验驱动的方法转向数据驱动的方法,彻底改变了道路损伤检测[4],[5],[6],[7],[8]。值得注意的进展包括Fang等人提出的用于道路裂缝检测的分布平衡学习框架[9],Luo等人基于Mamba-YOLO的EPDD-YOLO模型,用于高效实时损伤检测[10],以及Li等人提出的YOLOX-RDD,它在前视图像中平衡了检测道路损坏的准确性和速度[11]。尽管这些方法取得了有希望的结果,但基于UAV的检测方法的采用进一步增强了道路损伤检测能力。UAV提供了高视角、非接触式操作以及部署多种传感器(如高分辨率可见光、红外和多光谱相机)的能力,使其非常适合大面积路面检测。这种能力使UAV能够捕捉高分辨率图像,克服地理和交通限制,并为深度学习模型提供高质量输入数据,从而提高其可扩展性和实时智能道路损伤识别的实用性[12]。最近利用UAV平台的研究进一步推动了该领域的发展。例如,Zhu等人提出了UM-YOLO用于辅助道路检测[13],Zhang等人引入了多层注意力块(MLAB)以增强基于YOLOv3的航空图像损伤检测[14]。此外,Xie等人开发了双焦点检测器(DFDet),用于航空图像中的定向对象检测,该检测器结合了上下文知识,并通过上下文依赖性挖掘网络(CDMN)和惩罚激励分配策略(PIAS)减轻了角度回归敏感性[15]。
尽管取得了这些进展,基于UAV的道路损伤检测仍面临几个挑战。道路缺陷表现出显著的尺度变化,从几毫米宽的裂缝到大规模的坑洞,这使得在高空图像中同时保留细节和整体结构变得困难。小缺陷可能显得模糊或分辨率低,而大缺陷可能由于传感器限制而失去细微的纹理细节。此外,背景干扰(如路面纹理、油渍、水斑和修复痕迹)通常与道路损伤特征相似,导致误报。进一步复杂化这一问题的是光照变化以及来自车辆、碎片和道路标记的干扰,这些因素增加了背景混淆并使特征区分变得更加困难。大多数深度学习模型在多尺度特征融合方面存在困难,特别是当小尺度特征在网络层中丢失时,导致细小裂缝的检测不足。此外,将包含空间细节的早期层特征与更高层次的语义特征融合通常会导致冗余和空间错位,从而削弱了整体检测性能。
为了克服这些挑战,本文提出了MS-RDDNet,这是一个为UAV图像设计的多尺度检测框架。所提出框架的示意图如图1所示。主要贡献如下:
1) 我们提出了MSGC模块,它将大核深度可分离卷积与门控注意力结合在一起,同时建模细粒度的局部特征和更广泛的上下文信息,显著增强了多尺度特征提取,同时保持了轻量级架构。
2) 我们引入了MSDHA机制,该机制采用多速率膨胀卷积和双流注意力来提取丰富的上下文信息,并提高特征区分度,特别是在复杂、杂乱的场景中。这种机制帮助模型专注于相关特征,同时抑制噪声和干扰。
3) 我们设计了LMSADet,这是一个轻量级的多尺度感知检测头,它结合了异构卷积和空间注意力,以解决跨层特征不一致性问题并减少计算冗余,从而实现更高效和准确的检测。
相关工作
相关研究
多尺度特征提取对于处理UAV图像中观察到的道路缺陷的显著尺寸变化至关重要。早期的方法依赖于手工制作的描述符,如SIFT [16]和HOG [17],并结合滑动窗口,但它们对尺度变化的鲁棒性有限。随着深度卷积神经网络(CNNs)的兴起,基于区域的检测器(例如Faster R-CNN[18],[19])和单阶段检测器(例如SSD[20],YOLO[21],[22],[23])已成为主流
MS-RDDNet
YOLOv8提供了一个强大的对象检测基础,其架构由输入层、主干网络、颈部和检测头组成[30]。它的设计结合了先进的增强策略和高效的特征融合机制,使其适用于实时应用。在其变体中,YOLOv8在准确性、效率和轻量级设计之间取得了平衡,这使其适用于基于UAV的道路缺陷检测。因此,在这项工作中,我们选择了YOLOv8作为
数据集
UAV-PDD2023数据集[32]由河北工业大学土木与交通工程学院收集并公开发布,旨在推进基于UAV视觉的自动化道路状况评估技术的研究。该数据集在中国天津采集,使用无人机在垂直向下视角(也称为天底视角)下拍摄图像,涵盖了各种典型的天气和光照条件,从而真实反映了路面状况
结论与未来工作
本文介绍了MS-RDDNet,这是一种专为无人机(UAV)应用设计的道路缺陷检测算法。所提出的方法有效解决了目标尺度变化、复杂非结构化背景干扰以及特征金字塔融合限制等挑战。为了增强多尺度缺陷感知,我们引入了MSGC模块并开发了C2f-MSGC架构,实现了高效的多尺度特征提取。此外,MSDHA
CRediT作者贡献声明
隆家旭:撰写 – 审稿与编辑、软件、方法论、形式分析、数据整理。马刚:撰写 – 审稿与编辑、原始草稿、监督、项目管理、资金获取、概念化。彭 Wang:撰写 – 原始草稿、可视化、验证、软件、资源、方法论、调查、形式分析、概念化。刘佳梅:撰写 – 原始草稿、资源、方法论、调查。陈浩峰:验证、资源
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(项目编号62303436)和中央高校基本科研业务费(项目编号WK2090000080)的支持
彭 Wang于2018年在中国哈尔滨的黑龙江大学获得电气工程与自动化学士学位,2021年在中国重庆的重庆邮电大学获得仪器科学与技术硕士学位。2019年至2021年,他是中国科学院先进制造技术研究所生物启发机器人与智能材料实验室的访问学生。他目前