《Neurocomputing》:Advancing efficiency and accuracy in aerial image classification for disaster incidents with SqueezeViT and UAVDisaster36K benchmark
编辑推荐:
无人机灾害识别的轻量级模型与评估指标研究。针对大型 inaccessible 区域实时灾害识别的需求,本研究构建了覆盖地震、火灾、洪水等灾害类型的 UAVDisaster36K 大规模数据集,并评估了轻量级CNN和Vision Transformer在Jetson设备上的性能。提出PMF综合评分指标,平衡准确率、推理速度和内存占用,设计SqueezeViT混合模型,在5折交叉验证中达到88.08%准确率,参数量仅0.68M,优于现有基线模型。
Demetris Shianios | Christos Kyrkou
KIOS 研究与创新中心,塞浦路斯大学,1 Panepistimiou 大道,尼科西亚,2109,尼科西亚,塞浦路斯
摘要
在大型且难以进入的区域及时识别灾害对于有效的应急响应至关重要。将无人驾驶飞行器(UAV)与轻量级深度学习模型相结合为提高态势感知提供了一种有前景的方法。然而,缺乏大规模的航空数据集以及无人机硬件的计算限制构成了主要挑战。在这项工作中,我们推出了 UAVDisaster36K,这是一个涵盖多种灾害类型(地震、火灾、洪水)和非灾害类别的大规模航空图像数据集,这些数据是从无人机视角捕获的,以支持实际应用。我们系统地在 NVIDIA Jetson 设备上对轻量级卷积神经网络(ConvNets)和视觉变换器(ViTs)进行了基准测试,评估了它们在准确性、推理速度和内存使用方面的表现。为了更好地反映部署限制,我们提出了一种综合评估指标——PMF 分数,该指标同时考虑了分类准确性、推理时间和内存占用。此外,我们介绍了 SqueezeViT,这是一种基于部署的混合紧凑型 ConvNet–Transformer 模型,旨在研究如何在无人机边缘限制下最小化自注意力对准确性和效率的权衡。SqueezeViT 在 5 折交叉验证中的平均准确率为 88.08%,同时保持了仅 0.68 万个参数的紧凑架构,优于现有的轻量级基线模型。我们的结果突显了混合轻量级模型在资源受限的无人机环境中进行实时灾害识别的潜力。
引言
应急管理人员在快速评估不断变化的自然灾害场景和协调及时响应方面面临巨大挑战,这推动了对创新感知和决策支持技术的需求 [22]。无人机(UAV)的最新进展为灾害监测开辟了新的机会,使得能够快速对大范围区域(包括难以到达或危险区域)进行空中观测,并捕获高分辨率图像,从而提高态势感知 [31]。与此同时,基于深度学习的计算机视觉(CV)方法可以通过自动分析获取的视觉数据并提取可操作的线索来支持实时灾害识别 [15]。
基于 UAV 的计算机视觉已成为灾害监测的实用工具,因为无人机可以快速调查大面积区域并捕获高分辨率视图,从而为应急响应提供关键的时间敏感的态势感知 [22],[31]。以往的研究已经使用航空图像来完成诸如灾害场景识别和损害评估等任务,以及在灾后场景中进行更细粒度的分析,如洪水制图和分割 [15],[18],[26]。同时,实际部署通常需要机载推理,模型必须在严格的内存、功率和延迟限制下运行,这促使人们开发出用于自动灾害识别的轻量级架构 [32]。
尽管取得了这些进展,但基于 UAV 的灾害监测本质上是一个部署问题,因为它引入了直接影响此类 CV 流程可行性和可靠性的限制和成像条件。机载推理受到严格的内存和能源预算、计算能力和热限制的制约,这些限制对模型大小、输入分辨率和延迟提出了严格的要求,而捕获的图像会因高度、相机角度、运动和场景杂乱程度而大幅变化。无人机可以快速调查大面积危险区域并提供高分辨率视图,从而提高应急响应的态势感知 [22],[31]。然而,将这些数据流转化为及时的决策需要既准确又在边缘端足够高效的计算机视觉系统,而不是依赖重型模型或离线处理 [15]。此外,飞行中收集的航空数据通常具有强烈的高度变化、倾斜的视角、运动模糊和杂乱的场景,这会导致大规模的变化和模糊的视觉模式,从而降低识别性能。解决这些特定于 UAV 的挑战对于将深度学习进展转化为可靠的、可部署的灾害监测和响应系统至关重要 [22]。
最近,人们为灾害分类开发了多种创新方法,从而建立了多个数据集。然而,大多数数据集在特定灾害类型的表示不足、规模不够或与无人机捕获的视角不一致方面存在局限性。此外,真实的无人机灾害数据难以捕获和共享(事件罕见、飞行受限且存在隐私/安全问题),并且收集具有统一标签的地理多样性视频片段成本高昂。因此,现有的数据集在规模和结构上仍然有限。这些局限性强调了需要一个包含多种灾害航空图像的广泛多样化数据集的必要性。此外,这些差距之所以存在,是因为以往的工作通常受到小型或非无人机数据集的限制,并且只报告了准确性结果,往往依赖于大型预训练的骨干网络,这限制了从零开始的公平训练和以部署为中心的分析。
鉴于上述限制,我们建立了一个全面的大规模数据集 UAVDisaster36K,可作为研究人员训练专门用于灾害分类任务的机器学习算法的基础资源。该数据集可用于提高态势感知并实现高效的灾害制图,特别关注灾后评估和灾害后果分析。现有的航空灾害数据集存在持续的结构缺陷,这些问题超出了简单的数据稀缺问题。AIDERSv2[37] 和 PyImage[21] 的规模太小,无法从头开始训练轻量级模型,而 LADI[26] 虽然规模较大,但来自低空飞机而非无人机,导致视角和场景规模与机载无人机图像不同。更重要的是,一些先前的数据集没有同时提供特定于 UAV 的数据、多灾害覆盖、广泛的地理多样性以及防止时间泄漏的视频分割。这些限制在文献中仍未得到解决,因此推动了 UAVDisaster36K 的开发。
此外,当前的研究领域缺乏对视觉变换器(ViTs)在灾害识别任务中性能的全面调查。为此,本文为轻量级模型在 ConvNets 和 ViT 架构内提供了全面的基准测试。因此,我们评估了它们在处理航空图像方面的有效性,平衡了复杂性、准确性和在时间敏感和资源受限环境中的操作可行性之间的权衡。在现有架构之外,我们提出了一种带有最小化变换器块的轻量级 ConvNet 骨干模型,称为 SqueezeViT,它允许快速处理和准确的上下文化处理。
具体来说,本文的贡献总结如下:
•
UAVDisaster36K
数据集提供了一个大规模、多样化且特定于 UAV 的基准,包含 36,000 张图像,用于航空灾害分类,填补了当前资源的明显空白。
•一种基于部署的混合设计,使用紧凑型 ConvNet(部分 SqueezeNet)和轻量级变换器块,称为 SqueezeViT,实现了最佳的准确率–FPS–内存权衡,并优于现有的轻量级基线模型。
•我们引入了一种新的评估指标,即 PMF 分数,该指标基于一个综合评分函数,结合了准确性、内存使用和每秒帧数(FPS),比仅考虑准确性更能反映实际部署限制。
详细的评估结果显示,所提出的 SqueezeViT 模型在使用 5 折测试集时达到了 88.08% 的准确率。此外,SqueezeViT 模型在推理速度方面也表现出了一致的优越性,使其成为需要快速图像分析的应用的理想选择。此外,我们使用提出的 PMF 分数在 NVIDIA Jetson 设备上评估了模型,从而为特定目标平台和示例场景提供了明智的模型选择。作为一个有前景的研究方向,我们的发现强调了在紧凑型、快速模型和大型高性能模型之间建立桥梁的必要性。我们的结果表明,在轻量级 ConvNet 特征提取器中加入变换器编码器块可能是实现效率和准确性最佳平衡的关键,这是一个值得进一步研究的领域。总体而言,我们预计 UAVDisaster36K 数据集和基准测试结果将促进灾害监测和应急援助支持的进一步研究。为了促进可重复性并鼓励未来的研究,该数据集将公开提供。
部分片段
基于 UAV 的计算机视觉应用
无人驾驶飞行器(UAV)已成为应急响应的实用感知平台,因为它们可以快速部署并捕获受影响区域的详细视图。最近的研究表明,基于深度学习的计算机视觉可以支持多种 UAV 灾害应用,包括实时搜索和救援操作、对象检测 [4]、灾后损害识别和从无人机图像中进行损害等级分类 [1]。然而,这些流程通常需要在严格的
数据收集
这项研究的主要贡献是创建了一个大规模、多样化的灾害图像数据集,这些图像是从空中视角捕获的。该数据集旨在支持轻量级深度学习模型的训练,用于航空灾害分类,涵盖了包括城市和农村地区在内的广泛来源,以及广泛的地理分布。
提出的 SqueezeViT 模型
在本节中,我们详细介绍了提出的 SqueezeViT 模型,该模型不同于主要依赖 ConvNet 或 ViT 模型的现有方法。我们研究了一种结合了 ConvNet 和 ViT 架构优势的混合方法。随后,我们讨论了训练方案以及基于 k 折验证方法的视频评估方法。此外,我们还详细阐述了用于模型选择的综合评分方法。
实验评估和结果
在本节中,我们展示了全面的实验和评估结果。我们的评估揭示了各种模型在各种 NVIDIA Jetson 设备上的性能,以及 5 折验证集上的准确性指标。此外,我们还扩展了分析,包括两个不同的案例研究。这些案例研究展示了我们建议的模型选择公式的实际效果,证明了其在真实世界场景中的有效性。
结论
本文通过提供基础资源和实用解决方案,解决了使用无人机搭载的 AI 系统进行实时灾害识别的关键挑战。首先,我们介绍了 UAVDisaster36K,这是一个针对 UAV 部署定制的大规模航空图像数据集,涵盖了多种灾害类型,并为航空场景分类提供了可靠的基准。其次,我们对轻量级 ConvNets 和视觉变换器进行了全面评估,所有模型都从
CRediT 作者贡献声明
Demetris Shianios:撰写——原始草稿、可视化、验证、方法论、数据整理。Christos Kyrkou:撰写——审阅与编辑、监督、方法论、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
Christos Kyrkou 博士目前是塞浦路斯大学 KIOS 研究与创新中心的研究讲师。他于 2014 年在塞浦路斯大学电气与计算机工程系获得计算机工程博士学位。他的研究专注于机器学习与计算机视觉的交叉领域,特别是在设计和计算效率高且数据效率高的深度模型、视觉系统感知(识别、检测)方面具有专长。