TFIGF:基于文本到图像合成的火灾数据增强模型

《Neurocomputing》:TFIGF: Fire data augmentation model based on text-to-image synthesis

【字体: 时间:2026年02月07日 来源:Neurocomputing 6.5

编辑推荐:

  文本生成与图像过滤框架缓解火灾检测数据不平衡问题,通过CLIP-ViT融合文本与视觉特征生成多样化火图像,经多规模数据集验证显著提升检测模型精度与可靠性。

  
赵宏阳|郭亚楠|李兴东|刘毅|金静
中国哈尔滨150042,东北林业大学机械与电气工程学院

摘要

数据不平衡是深度学习领域最具挑战性的问题之一,尤其是在火灾检测领域。在该领域,非火灾图像的数量远远超过火灾图像的数量,图像中背景信息的多样性给火灾检测带来了巨大挑战。最近,利用大型语言模型从文本描述生成图像方面取得了显著进展。受此启发,本文提出了一种创新的文本到图像火灾图像生成框架(TFIGF)。该框架旨在通过生成具有多样化背景的火灾图像来解决由于正面样本不足导致的模型训练问题,从而提高火灾检测的效率和准确性。所提出的TFIGF框架包括一个前端图像生成器和一个后端图像过滤器。图像生成器包含一个特征融合组件、基于视觉Transformer(ViT)的CLIP图像编码器以及一个特征生成部分,能够将文本信息与预训练的CLIP-ViT模型中的先验知识结合起来生成图像,增强生成图像的相关性和多样性。图像生成器生成的图像经过图像过滤器的评估和筛选,以获得与文本描述最匹配的火灾图像。所提出的图像过滤器使用ViT和GPT-3将生成的视觉信息转换为文本描述,并使用余弦相似度衡量生成图像与输入文本之间的对齐程度。与现有的生成图像方法相比,所提出的方法可以生成更高质量的图像。此外,为了验证TFIGF生成的图像在火灾检测准确性和可靠性方面的改进,我们构建了不同规模的数据集,在这些数据集上训练了几种流行的检测模型,并使用真实世界数据进行了测试。实验结果表明,TFIGF生成的图像显著提升了火灾检测的网络性能,证实了该框架在解决数据不平衡问题方面的潜力和实用性。

引言

火灾灾害仍然是现代社会中的主要公共安全和环境威胁。全球范围内,世界卫生组织估计每年约有18万人死于烧伤,这突显了与火灾相关的危害对人类的持续影响[40]。大规模火灾事件进一步说明了火灾灾害的严重性:2018年加州的Camp Fire成为该州历史上最具破坏性的野火之一,摧毁了超过18,000栋建筑物,导致数万名居民大规模疏散。除了人员和财产损失外,火灾事件还会造成严重的生态破坏;例如,2019-2020年的澳大利亚丛林大火估计导致近30亿只动物死亡或流离失所8
快速准确的检测对于保护生命和财产免受火灾侵害至关重要。随着计算机视觉技术的进步,使用深度学习模型进行火灾检测已成为研究重点。特别是基于图像的火灾检测方法,因其能够提供快速准确的早期预警而受到广泛关注[45]。然而,在实际应用中,火灾检测模型经常面临一个重大挑战:火灾图像数据集中的类别不平衡[36]。在大多数现有数据集中,火灾图像的数量远少于非火灾图像的数量,这限制了模型在训练期间识别火灾场景的能力。此外,数据集中不同类型火灾场景(如室内火灾和森林火灾)的分布不均不仅降低了模型的精度,还增加了误报和漏报的风险[26]。
为了解决数据不平衡问题,常见的策略可以分为数据级方法、算法级方法和涉及合成数据生成的方法[12]。数据级解决方案包括过采样、欠采样和数据增强[32]。过采样增加了少数类的样本数量,而欠采样减少了多数类的样本数量[38]。数据增强通过旋转、翻转、缩放、裁剪等方式转换现有数据,以增加数据的多样性[14]。尽管这些方法在早期研究中对于处理不平衡数据集有效,但它们也有明显的缺点。过采样可能导致模型过度学习重复样本的特征而发生过拟合。当原始数据集较小时,欠采样可能会导致重要信息的丢失。数据增强生成的数据可能与现实世界场景不符,同时还会增加模型训练的计算负担。虽然数据级方法在解决类别不平衡问题方面取得了一定的成功,但它们的局限性促使研究人员探索更精细和高效的算法级解决方案。
在算法层面解决类别不平衡问题时,常用的方法包括集成学习和成本敏感学习[46]。集成学习方法(如随机森林和提升算法)通过组合多个模型来提高对少数类的识别能力。这些方法在处理不平衡数据时通常表现更好,但可能会增加模型的复杂性和计算成本。成本敏感学习通过对不同类别的错误分类施加不同的成本来处理不平衡问题,使模型对少数类的错误分类更加敏感[24]。这可以提高模型识别少数类的能力,但需要仔细调整错误分类成本以避免对某一类别的过度偏见。
在传统方法的基础上,最近在人工合成图像数据方面的重大进展为这一领域引入了更先进和灵活的解决方案。这些技术主要包括生成对抗网络(GANs)和文本到图像转换模型。例如,GANs通过同时训练生成器和判别器来生成高度真实的图像。然而,它们的有效使用通常依赖于精心设计的训练数据集和网络参数的详细调整。此外,它们的生成能力通常局限于训练数据中的内容和风格,这可能会限制图像的多样性。同时,文本到图像的Transformer技术在最近的研究中显示出前所未有的流行程度。当前的工作如OpenAI的DALL-E [19]、Google的Imagen [23]和LDM [21]展示了出色的图像生成能力,能够根据给定的文本描述生成多样且丰富的图像,为解决数据不平衡问题提供了新的视角和可能性。这些技术不仅提供了创造性的解决方案,还为图像数据的合成和增强开辟了新的途径,显著扩展了图像数据处理和生成的能力。
受此启发,我们提出了一种新颖的文本到图像火灾图像生成框架(TFIGF),通过生成具有少数类多样化特征的火灾图像样本来解决数据集中的类别不平衡问题。该框架包括一个设计的图像生成器和一个图像过滤器。TFIGF的图像生成网络结构包括特征融合、基于视觉Transformer(ViT)[3]的CLIP图像编码器以及特征生成部分。具体来说,文本和随机噪声向量分别通过相应的编码器进行转换,特征通过卷积层和图像-文本融合模块进行匹配和生成。还集成了一种预训练的CLIP-ViT,以增强生成器对复杂场景的理解。最后,图像通过上采样和融合模块进行精确引导。生成器可以生成具有不同特征的火灾图像,包括多样的背景和火焰强度,展现出独特的视觉细节。图像过滤器包括一个基于Transformer的视觉-编码器-解码器模型,结合了ViT和GPT-3 [5],负责为合成图像生成文本描述,并评估这些文本描述与原始文本描述之间的匹配度,从而选择最合适的图像作为最终输出。
为了评估生成图像在缓解类别不平衡问题方面的实际贡献,本文设计了一系列实验。我们构建了八个具有不同数据增强规模的数据集,并选择了多种先进的检测模型,包括VGG16、ResNet18、GoogleNet、SqueezeNet、MobileNet、EfficientNetB0和ViT。这些模型使用这些不同的数据集进行了训练。在测试阶段,使用真实的火灾图像来评估这些模型的性能。通过比较不同数据集的关键性能指标(如准确性、召回率和F1分数),对合成图像的质量及其对火灾检测模型训练的具体影响进行了全面分析和评估。
我们的贡献如下:
  • 1.
    我们开发了一种创新的文本到图像生成框架TFIGF,专注于生成真实且多样的火焰图像。
  • 2.
    TFIGF旨在解决由于正面样本不足导致的模型训练不足问题,从而有效提高火灾检测的性能和准确性。
  • 3.
    TFIGF可以有效地生成具有多种背景的高质量火灾图像,在图像质量和细节生成方面显示出显著的优势,优于现有的先进方法。
  • 4.
    我们构建了多个具有不同数据增强规模的不平衡数据集。使用这些数据集训练了多种流行的火灾检测模型,并使用真实数据进行了测试。测试结果表明,生成的图像显著提高了网络在火灾检测方面的性能。
  • 本文的结构如下。第2节介绍了相关方法。第3节介绍了所提出的方法,包括生成网络和图像过滤器。第4节描述了实验中使用的数据集和训练细节。第5节提供了对TFIGF生成的图像的定性评估、使用生成图像进行实际网络训练的结果以及使用真实图像的测试结果和讨论。第6节总结了本文。

    相关工作

    相关工作

    近年来,结合深度学习和自然语言处理的图像生成技术在人工智能领域取得了显著进展。本文介绍了一种新的方法,该方法将文本到图像生成模型与先进的文本处理模型相结合,实现了基于文本描述自动生成高质量图像的能力

    方法

    在这项研究中,我们提出了TFIGF,其框架如图1所示。TFIGF包括一个负责直接从文本描述生成图像的生成网络和一个评估生成图像与文本描述一致性的后端图像过滤器。具体来说,在Generate Net的操作过程中,从高斯分布中采样一个噪声向量,然后Generate Net根据创建一系列候选图像。随后,文本

    数据集和实现细节

    在本节中,我们介绍了实验中数据集的生成过程、TFIGF的训练细节和评估指标。

    实验结果

    本节展示了TFIGF生成的图像示例,以及与其他先进方法进行定性评估的结果。接下来,报告了使用不平衡数据集、增强数据集和生成图像数据集训练网络的测试结果。

    结论

    在利用机器学习进行火灾检测时,数据不平衡是一个常见的挑战。传统解决方案存在局限性,但得益于计算能力的进步和深度学习的发展,近年来从文本描述生成图像的技术取得了显著进展。在机器学习领域,这种技术可以用来生成训练数据,特别是在样本稀缺的情况下。受此启发,我们提出了一种创新的方法

    CRediT作者贡献声明

    赵宏阳:撰写——原始草稿、方法论、调查、概念化。郭亚楠:撰写——审阅与编辑、验证、概念化。李兴东:调查。刘毅:验证、形式分析、概念化。
    金静:监督、项目管理、调查、资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

    致谢

    我们感谢共享数据平台roboflow。2本工作得到了中国博士后科学基金会(资助编号2025M771925)、青年科学家基金(C类,资助编号32501636)和中央政府高等学校基本科研业务费专项基金(资助编号2572025JT04)的支持。
    赵宏阳于2023年从哈尔滨工业大学获得博士学位。他目前是东北林业大学机械与电气工程学院的副教授。他的研究兴趣包括机器人路径规划和深度学习。他领导了多个国家级研究项目,并发表了30多篇SCI索引论文。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号