基于马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)方法的探索与优化,用于基于条件生成对抗网络(Conditional Generative Adversarial Networks, CGAN)的合成图像生成,以实现对铁路表面缺陷的分割
《Expert Systems with Applications》:Markov chain Monte Carlo-driven exploration and refinement for CGAN-based synthetic image generation for rail surface defect segmentation
【字体:
大
中
小
】
时间:2026年03月14日
来源:Expert Systems with Applications 7.5
编辑推荐:
针对铁路表面缺陷像素级标注数据稀缺问题,本研究提出结合条件生成对抗网络(CGAN)与自适应马尔可夫链蒙特卡洛(MCMC)采样的框架,通过动态调整接受函数和扰动强度,提升合成图像质量与多样性,有效增强CNN和Vision Transformer(ViT)的缺陷分割精度。
周尚联|伊戈尔·拉什科夫|阿曼达·尼塔|杨汉毅|陈聪|张长健|孙双|王一伟|徐一凡|李志霞|徐浩|杨胤|张国辉
夏威夷大学马诺阿分校土木与环境工程系,美国夏威夷州檀香山96822
摘要 最近,在铁路基础设施状况监测方面,人工智能(AI),尤其是深度学习模型,在场景理解和模式识别方面得到了越来越多的应用。然而,将其应用于铁路表面缺陷分割时面临一个关键限制:缺乏用于有效模型训练的像素级标注分割掩膜。生成式AI提供了一个潜在的解决方案,但现有方法在生成高质量和结构多样的合成数据方面往往不足,且有效的细化策略尚未得到充分探索。本研究提出了一种新颖的框架,将条件生成对抗网络(CGAN)与自适应马尔可夫链蒙特卡洛(MCMC)采样相结合,以指导图像-标签空间中的合成图像细化。该框架分为两个阶段:首先,在真实世界的铁路表面缺陷数据上训练一个经过贝叶斯优化的pix2pixHD CGAN架构,用于高分辨率图像合成;其次,使用改进的Metropolis-Hastings算法通过自适应MCMC采样方案对生成的图像进行细化。接受函数基于判别器得分,并通过偏度校正因子进行调整,同时结合基于IoU的惩罚机制来平衡语义一致性和多样性。此外,根据最近的接受率动态调整扰动强度以调节采样过程。将所提出的方法与一系列流行的条件生成模型及其简化版本进行性能验证。所获得的合成数据集用于训练和评估代表性的基于CNN和ViT的分割模型。结果表明,该框架显著提高了合成图像的质量和多样性,并提高了分割精度,有效解决了铁路表面缺陷分割中的数据稀缺问题。
引言 计算机视觉和人工智能(AI)的最新进展极大地促进了基于深度学习的模式识别方法在交通研究中的应用(Awan等人,2025年;Meurie和Lézoray,2025年;Preeti和Rana,2024年;Song等人,2025年;H. Wang等人,2025年;Zhou等人,2023年;Zhou等人,2025年),包括铁路基础设施监测(Amin等人,2024年;Di Summa等人,2023年;Liu等人,2024年;R. Liu等人,2023年;Nan等人,2025年)。研究人员和专业人士越来越关注利用深度学习技术检测铁路表面的异常情况,以提高铁路运输系统的安全性和结构完整性(Di Summa等人,2023年)。与传统的视觉检测和无损检测方法相比,基于计算机视觉的深度学习模型,特别是卷积神经网络(CNN)和视觉变换器(ViT),在场景理解和模式识别方面表现出更高的鲁棒性和效率,推动了铁路状况监测的自动化。
从深度学习模型中用于铁路表面缺陷检测的特征表示角度来看,现有方法可以分为三种主要类型:分类、基于边界框的对象检测和分割(Di Summa等人,2023年)。尽管这三种类型的深度学习模型在缺陷检测的精确度上有所不同,但基于深度学习的分类器和对象检测器在铁路轨道状况监测中得到了更广泛的应用,尤其是在早期研究中。这主要是由于它们在实现、计算成本和数据准备方面的复杂性较低。然而,最近的研究趋势逐渐转向铁路表面缺陷分割。像素级特征表示提供了更丰富的纹理,增强了后续的决策和状况评估过程。因此,人们越来越有兴趣开发基于深度学习的分割模型来检测铁路表面的缺陷,如裂纹、凹陷和剥落。
然而,与自动驾驶汽车(AV)行业不同,后者有现成的商业级公共数据集可用于训练深度学习模型的分割任务,而用于铁路表面缺陷分割的大规模图像数据集仍然有限。虽然一些开创性的研究引入了一些数据集,如Type-I和Type-II铁路表面离散缺陷(RSDDs)(Gan等人,2017年)、Rail-5k(Zhang等人,2021年)和RSDDs-113(Niu等人,2020年),但这些数据集的规模相对较小,不足以完全解决数据稀缺的问题。
生成式AI在图像合成方面的最新发展,如生成对抗网络(GANs)(Goodfellow等人,2014年;Mirza,2014年)、条件GANs(CGANs)(Mirza & Osindero,2014年)和稳定扩散模型(Rombach等人,2022年),在各种计算机视觉任务中显示出解决数据稀缺问题的巨大潜力(Alimisis等人,2025年;Liu等人,2024年;Ren等人,2024年;Saeed等人,2026年;Shorten和Khoshgoftaar,2019年)。然而,这些生成模型在铁路状况监测领域尚未得到广泛探索。另一方面,尽管一些近期研究(如MH-GAN(Turner等人,2019年)和MCMC-GAN(Nishika & Sharma,2024年)研究了使用马尔可夫链蒙特卡洛(MCMC)采样进行GAN基图像合成,但这些方法侧重于通用图像合成,并不支持铁路表面缺陷分割中的条件图像生成和细化。
另一个挑战在于开发和实施深度学习分割模型,以提高铁路表面缺陷分割的准确性和效率。正如(Di Summa等人,2023年)所指出的,与分类和对象检测任务相比,探索铁路表面缺陷分割的深度学习技术的研究相对较少。此外,尽管最先进的ViT(Dosovitskiy,2020年;Thisanke等人,2023年)已在各个领域得到广泛应用,但只有少数近期研究(Guo等人,2024年;Min等人,2023年;Si等人,2024年)探讨了它们在铁路表面缺陷分割中的应用。因此,需要进一步的研究来验证ViT与流行CNN在该领域的性能。
本研究旨在解决基于深度学习的铁路表面缺陷分割中的挑战,特别关注缓解数据稀缺问题。为此,我们提出了一种新颖的框架,该框架采用MCMC驱动(Brooks,1998年;Geyer,1992年)的图像-标签空间探索,指导生成模型生成高质量和多样化的合成图像。该框架分为两个阶段:首先,在真实图像数据上训练一个经过贝叶斯优化的pix2pixHD(Wang等人,2018年)CGAN架构,用于生成铁路表面缺陷图像;其次,利用训练有素的生成器和判别器在提出的自适应MCMC采样方案中进行合成图像生成和细化。这是首次尝试将合成图像生成和细化集成到基于深度学习的铁路表面缺陷分割任务中。这项工作通过利用生成式AI增强了铁路基础设施状况监测,填补了重要的研究空白。我们研究的关键技术贡献总结如下:
• 使用自适应MCMC采样的合成图像细化 。本研究介绍了一种自适应MCMC采样框架,该框架探索图像-标签空间以细化CGAN生成的合成铁路表面缺陷图像。我们通过提出一种新的接受函数来修改Metropolis-Hastings(MH)算法,该函数结合了判别器得分、偏度校正因子和基于IoU的惩罚项,通过自适应扰动机制指导样本接受。所提出的策略在保持语义一致性的同时,提高了生成图像的多样性和保真度,证明了其在铁路表面缺陷图像合成和细化方面的强大鲁棒性和有效性。
• 公开可用的合成铁路表面缺陷图像数据集 。作为另一个主要贡献,我们公开发布了通过所提出框架生成和细化的合成数据集以及源代码,以支持可重复性并促进未来的研究。该数据集包含6,400张高保真度的铁路表面缺陷图像,具有不同的缺陷大小和形状,可在
我们的GitHub仓库 获取。
6 • 深度学习性能验证的基准研究 。为了评估模型性能,我们使用真实和合成图像数据组合进行基准研究,以训练和评估一系列流行的CNN和ViT进行铁路表面缺陷分割。实验结果表明,结合由所提出框架细化的合成图像显著提高了分割性能。此外,基于ViT的模型表现出色,展示了它们在铁路表面缺陷分割任务中的强大潜力。
本文的其余部分结构如下。第二节(“相关工作”)讨论了基于深度学习的铁路表面缺陷分割的最新发展,以及生成式AI技术及其与MCMC采样的集成。第三节(“方法论”)详细介绍了所提出的框架。第四节(“实验研究”)概述了训练和测试深度学习模型的数据集准备过程,展示了合成图像生成和细化的实验结果,并对基于CNN和ViT的分割模型进行了比较分析。第五节(“结论”)总结了关键的研究发现和观察结果。
相关工作 相关工作 本节回顾了基于深度学习的铁路表面缺陷分割的最新发展和挑战,特别关注基于CNN和ViT的模型。然后探讨了生成模型在图像合成方面的进展及其与MCMC采样的集成,以改进图像质量。
方法论 本节首先通过流程图概述了所提出的方法论。然后介绍了流程图中描绘的关键组成部分,包括CGAN架构和用于合成图像细化的自适应MCMC采样框架。
实验研究 本节首先概述了数据集准备过程。然后详细介绍了实验设置,并深入讨论了实验结果,重点讨论了所提出的自适应MCMC采样框架在合成图像探索和细化方面的有效性。
结论 本研究提出了一种新颖的框架,该框架将CGAN与自适应MCMC采样策略相结合,以指导图像-标签空间的探索并提高铁路表面缺陷分割的合成图像生成效果。所提出的方法利用贝叶斯优化的Pix2PixHD CGAN架构,在自定义标签掩膜条件下生成缺陷图像。提出了一种自适应MCMC采样过程,使用判别器信息指导MH接受
写作过程中生成式AI和AI辅助技术的声明 在准备这项工作时,作者使用了ChatGPT 4o来润色语言和检查语法。使用该工具/服务后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。
CRediT作者贡献声明 周尚联: 概念化、数据管理、形式分析、方法论、验证、写作——原始草稿。伊戈尔·拉什科夫: 概念化、数据管理、形式分析、方法论、验证、写作——原始草稿。阿曼达·尼塔: 数据管理、验证、调查。杨汉毅: 数据管理、形式分析、方法论、验证。陈聪: 方法论、验证、调查。张长健: 方法论、验证、调查。孙双: 方法论,
利益冲突声明 作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号