《Advanced Engineering Informatics》:Multi-label sewer defect classification based on CLIP with fine-to-coarse contextual representations
编辑推荐:
提出基于CLIP的多标签下水道缺陷分类方法,通过Prompt-based contextual representation construction(PCRC)模块构建缺陷类别细粒度到全局的上下文表示,结合feature-level matching(FLM)模块对齐局部图像特征与上下文表示,有效提升复杂场景下缺陷识别精度,在Sewer-ML数据集上mAP达75.02%和F1-score 80.08%。
作者:葛一粟、郭家洛、杨志豪、陈兆民、陈丽燕、张国道
温州大学计算机科学与人工智能学院,中国温州,325035
摘要
污水管道缺陷识别是城市排水系统的关键基础,通过分析污水管道中的视频来发现存在的问题。对比语言-图像预训练模型(CLIP)在通用视觉任务上表现良好,但无法捕捉到细粒度的结构变化和局部缺陷特征,因此在实际污水管道缺陷分类中的性能有限。因此,提出了一种基于CLIP的多标签污水管道缺陷分类方法,该方法利用大型语言模型的迁移能力并整合了细粒度的视觉-语言特征。为了解决细粒度缺陷特征提取不足的问题,设计了基于提示的上下文表示构建(PCRC)模块,该模块利用可学习的提示和两阶段建模策略为每个类别捕获从细到粗的上下文表示。此外,引入了特征级匹配(FLM)模块来对齐细粒度的图像-文本特征,以提高缺陷识别准确性。最后,在公共数据集Sewer-ML上进行了消融研究,并与先进方法进行了广泛的比较。实验结果表明,所提出的方法达到了最先进的性能水平,mAP和F1分数分别为75.02%和80.08%。
引言
城市污水管道网络对于维持城市运行和保持生态平衡至关重要[1]。其大规模、复杂的布局以及地下和隐蔽的结构使得缺陷难以识别,增加了结构损坏、环境污染和道路塌陷的风险[2]。因此,定期检查和维护对于防止严重后果至关重要。由于计算机视觉技术的进步,基于闭路电视(CCTV)的方法因其成本效益和操作简便性而被广泛采用[3]。机器人会在管道内录制视频,以便后续进行人工检查,但这既费时又容易出错[4]。为了实现准确高效的检查,利用计算机视觉自动分类缺陷图像至关重要。
在过去的十年中,深度学习技术因能够从大规模数据中自动学习判别特征而受到工业界的广泛关注,超越了传统方法中劳动密集型的手动特征工程[5]。早期研究主要集中在基于卷积神经网络(CNN)的视觉方法上进行多标签分类。例如,专门设计了一个具有五个卷积层的CNN框架来分类CCTV视频中的污水管道缺陷[6]。同样,引入了可信的多焦点融合框架,用于快速查看污水管道,结合多标签分类和不确定性估计来捕获多尺度缺陷信息并处理未知类别[7]。尽管取得了这些进展,但污水管道缺陷特征的固有模糊性和高视觉相似性仍然构成了重大挑战。为了解决这个问题,引入了特征分解和相关性约束策略来净化无关特征[8]。同时,为了满足实时需求,采用了神经架构搜索(NAS)来设计高效的网络结构,平衡准确性和复杂性[9]。这些发展推动了污水管道缺陷分类从传统特征学习向更自动化和高效的解决方案的转变。然而,准确识别缺陷仍然是一个未解决的挑战。
近年来,视觉-语言模型(VLM)因在多模态理解任务中的出色表现而受到广泛关注[10][11]。特别是在图像分类方面,VLM通过联合建模图像和文本信息,克服了传统视觉模型仅依赖图像特征的局限性,构建了图像分类的新范式[12][13]。代表性的工作如对比语言-图像预训练(CLIP)通过大规模的图像-文本对进行对比学习,使图像与语义描述对齐,从而获得了强大的开放词汇识别能力[14]。如图1(灰色框)所示,传统的基于CLIP的多标签分类框架采用全局对齐策略,在单标签分类任务中表现良好,但不适合多标签缺陷分类,原因有二[15]:(1)CLIP通过对比损失对齐图像-文本对,引入Softmax会导致类别之间的竞争,这对多标签任务不利;(2)CLIP仅使用类别令牌生成全局图像表示,缺乏显式的局部特征建模,而多标签场景更依赖于判别性局部特征。特别是CLIP VisualEncoder的注意力池化层将大小为的图像压缩成大小为(其中
为了解决传统CLIP模型在多标签污水管道缺陷分类中的局限性,设计了两个关键模块:基于提示的上下文表示构建(PCRC)使用CrossAttention从图像中提取局部细粒度信息,然后使用MLP将图像的全局语义信息与缺陷特征的描述融合,从而获得缺陷类别的多粒度上下文表示。这种从粗到细的建模策略已在不同的视觉任务中得到广泛探索,如图像恢复[16]、头部姿态估计[17]、视频去雨[18]、从单张RGB-D图像重建3D手部对象[19]、视频去模糊[20]、多尺度语音编码和生成[21]以及恶劣天气去除[22]。特征级匹配模块(FLM)将图像局部特征与建模的缺陷上下文表示匹配,以产生更具判别性的结果。这些模块协同工作,增强了CLIP在复杂场景中捕捉细粒度特征的能力。
主要贡献可以总结如下:
- •
设计了基于提示的上下文表示构建模块,利用可学习的提示从细到粗地对每个缺陷类别的层次化上下文语义进行建模,有效增强了每个类别的上下文表示。
- •
提出了特征级匹配模块,通过将图像局部特征与建模的缺陷上下文表示匹配,实现了细粒度的视觉-语言对齐,显著提高了对复杂和细粒度缺陷的识别能力。
- •
在公共数据集Sewer-ML[23]上进行了系统实验,展示了mAP和F1分数指标的改进,所提出的方法达到了最先进的性能。
本文的其余部分组织如下:首先介绍了基于视觉的污水管道缺陷分类和视觉-语言模型。接下来详细介绍了视觉语言框架内的多标签污水管道缺陷分类方法,重点介绍了提出的PCRC和FLM。然后,展示了实验结果,并讨论了所提出方法的局限性。最后,本文以总结和未来展望结束。
章节片段
污水管道缺陷识别
最初,污水管道缺陷分类方法依赖于统计机器学习方法[24],这些方法无法处理缺陷的复杂性和多样性。随着计算机视觉中深度学习的发展,基于深度学习的方法已成为污水管道缺陷识别的主要方法[25][26][27]。例如,开发了一种两阶段层次化深度CNN来自动化特征提取和缺陷分类[28],同时还有诸如
概述
为了解决CLIP中固定文本编码器导致的多标签分类中类别语义表示不足的问题,提出了PCRC模块,该模块从细到粗地对每个缺陷类别的层次化语义进行建模。同时,为了克服CLIP在复杂多标签场景中捕获局部细粒度信息的局限性,设计了FLM模块来对齐局部视觉特征与类别语义。该框架如图2所示。
作为
实验设置
数据集:Sewer-ML是一个针对污水管道缺陷多标签分类的大规模基准数据集[23]。它包含了九年来收集的130万张污水管道图像,涵盖了17个缺陷类别。数据集被分为训练集、验证集和测试集,分别包含1,040,129张、130,046张和130,026张图像。根据之前的工作[8][9],由于数据集的测试集标签没有公开,所有评估都在验证集上进行。
实验
局限性
模型在Sewer-ML数据集上每个类别的准确率和召回率如图7所示。结果显示,模型在RB、IS和FO类别上的表现较差。特别是RB类别的权重得分最高,这解释了为什么所提出的模型在该类别上没有取得最佳性能。
此外,使用Grad-CAM[49]可视化了主干网络最后一层的注意力位置。示例可视化如图所示
结论
在本文中,我们提出了一种基于CLIP的多标签污水管道缺陷分类方法,该方法包括两个核心创新模块。PCRC模块引入了可学习的提示,并通过整合CrossAttention和MLP来增强上下文意识,主动构建特定于缺陷的上下文表示。FLM模块将局部图像特征与上下文表示对齐,并使用Softmax作为权重机制来抑制局部对齐引入的噪声。
CRediT作者贡献声明
葛一粟:撰写——原始草稿。郭家洛:撰写——原始草稿。杨志豪:项目管理。陈兆民:撰写——审阅与编辑。陈丽燕:资源提供。张国道:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了国家自然科学基金(资助编号:62401398)、浙江省自然科学基金(资助编号:LQ24F020016)和浙江省自然科学基金(资助编号:LMS26F020041)的支持,以及福建武夷大学大数据应用与智能化茶叶产业重点实验室开放项目(资助编号:FKLBDAITI202404)和温州重点的支持