火灾灾害仍然是现代社会中的主要公共安全和环境威胁。全球范围内,世界卫生组织估计每年约有18万人死于烧伤,这突显了与火灾相关的危害对人类的持续影响[40]。大规模火灾事件进一步说明了火灾灾害的严重性:2018年加州的Camp Fire成为该州历史上最具破坏性的野火之一,摧毁了超过18,000栋建筑物,导致数万名居民大规模疏散。除了人员和财产损失外,火灾事件还会造成严重的生态破坏;例如,2019-2020年的澳大利亚丛林大火估计导致近30亿只动物死亡或流离失所8。
快速准确的检测对于保护生命和财产免受火灾侵害至关重要。随着计算机视觉技术的进步,使用深度学习模型进行火灾检测已成为研究重点。特别是基于图像的火灾检测方法,因其能够提供快速准确的早期预警而受到广泛关注[45]。然而,在实际应用中,火灾检测模型经常面临一个重大挑战:火灾图像数据集中的类别不平衡[36]。在大多数现有数据集中,火灾图像的数量远少于非火灾图像的数量,这限制了模型在训练期间识别火灾场景的能力。此外,数据集中不同类型火灾场景(如室内火灾和森林火灾)的分布不均不仅降低了模型的精度,还增加了误报和漏报的风险[26]。
为了解决数据不平衡问题,常见的策略可以分为数据级方法、算法级方法和涉及合成数据生成的方法[12]。数据级解决方案包括过采样、欠采样和数据增强[32]。过采样增加了少数类的样本数量,而欠采样减少了多数类的样本数量[38]。数据增强通过旋转、翻转、缩放、裁剪等方式转换现有数据,以增加数据的多样性[14]。尽管这些方法在早期研究中对于处理不平衡数据集有效,但它们也有明显的缺点。过采样可能导致模型过度学习重复样本的特征而发生过拟合。当原始数据集较小时,欠采样可能会导致重要信息的丢失。数据增强生成的数据可能与现实世界场景不符,同时还会增加模型训练的计算负担。虽然数据级方法在解决类别不平衡问题方面取得了一定的成功,但它们的局限性促使研究人员探索更精细和高效的算法级解决方案。
在算法层面解决类别不平衡问题时,常用的方法包括集成学习和成本敏感学习[46]。集成学习方法(如随机森林和提升算法)通过组合多个模型来提高对少数类的识别能力。这些方法在处理不平衡数据时通常表现更好,但可能会增加模型的复杂性和计算成本。成本敏感学习通过对不同类别的错误分类施加不同的成本来处理不平衡问题,使模型对少数类的错误分类更加敏感[24]。这可以提高模型识别少数类的能力,但需要仔细调整错误分类成本以避免对某一类别的过度偏见。
在传统方法的基础上,最近在人工合成图像数据方面的重大进展为这一领域引入了更先进和灵活的解决方案。这些技术主要包括生成对抗网络(GANs)和文本到图像转换模型。例如,GANs通过同时训练生成器和判别器来生成高度真实的图像。然而,它们的有效使用通常依赖于精心设计的训练数据集和网络参数的详细调整。此外,它们的生成能力通常局限于训练数据中的内容和风格,这可能会限制图像的多样性。同时,文本到图像的Transformer技术在最近的研究中显示出前所未有的流行程度。当前的工作如OpenAI的DALL-E [19]、Google的Imagen [23]和LDM [21]展示了出色的图像生成能力,能够根据给定的文本描述生成多样且丰富的图像,为解决数据不平衡问题提供了新的视角和可能性。这些技术不仅提供了创造性的解决方案,还为图像数据的合成和增强开辟了新的途径,显著扩展了图像数据处理和生成的能力。
受此启发,我们提出了一种新颖的文本到图像火灾图像生成框架(TFIGF),通过生成具有少数类多样化特征的火灾图像样本来解决数据集中的类别不平衡问题。该框架包括一个设计的图像生成器和一个图像过滤器。TFIGF的图像生成网络结构包括特征融合、基于视觉Transformer(ViT)[3]的CLIP图像编码器以及特征生成部分。具体来说,文本和随机噪声向量分别通过相应的编码器进行转换,特征通过卷积层和图像-文本融合模块进行匹配和生成。还集成了一种预训练的CLIP-ViT,以增强生成器对复杂场景的理解。最后,图像通过上采样和融合模块进行精确引导。生成器可以生成具有不同特征的火灾图像,包括多样的背景和火焰强度,展现出独特的视觉细节。图像过滤器包括一个基于Transformer的视觉-编码器-解码器模型,结合了ViT和GPT-3 [5],负责为合成图像生成文本描述,并评估这些文本描述与原始文本描述之间的匹配度,从而选择最合适的图像作为最终输出。
为了评估生成图像在缓解类别不平衡问题方面的实际贡献,本文设计了一系列实验。我们构建了八个具有不同数据增强规模的数据集,并选择了多种先进的检测模型,包括VGG16、ResNet18、GoogleNet、SqueezeNet、MobileNet、EfficientNetB0和ViT。这些模型使用这些不同的数据集进行了训练。在测试阶段,使用真实的火灾图像来评估这些模型的性能。通过比较不同数据集的关键性能指标(如准确性、召回率和F1分数),对合成图像的质量及其对火灾检测模型训练的具体影响进行了全面分析和评估。
我们的贡献如下:
1.我们开发了一种创新的文本到图像生成框架TFIGF,专注于生成真实且多样的火焰图像。
2.TFIGF旨在解决由于正面样本不足导致的模型训练不足问题,从而有效提高火灾检测的性能和准确性。
3.TFIGF可以有效地生成具有多种背景的高质量火灾图像,在图像质量和细节生成方面显示出显著的优势,优于现有的先进方法。
4.我们构建了多个具有不同数据增强规模的不平衡数据集。使用这些数据集训练了多种流行的火灾检测模型,并使用真实数据进行了测试。测试结果表明,生成的图像显著提高了网络在火灾检测方面的性能。
本文的结构如下。第2节介绍了相关方法。第3节介绍了所提出的方法,包括生成网络和图像过滤器。第4节描述了实验中使用的数据集和训练细节。第5节提供了对TFIGF生成的图像的定性评估、使用生成图像进行实际网络训练的结果以及使用真实图像的测试结果和讨论。第6节总结了本文。