《Scientific Reports》:A hybrid ResNet50-vision transformer model with an attention mechanism for aerial image classification
编辑推荐:
本文针对航空影像因目标尺寸小、分布密集等特性导致的分类难题,提出了一种结合ResNet-50与视觉Transformer(ViT)的混合模型。研究通过多头注意力(MHA)和交叉注意力机制筛选关键特征,在SAIOD数据集上分别达到95.80%和95.52%的准确率,显著优于现有方法,为环境监测、灾害应急等应用提供了新方案。
随着无人机和卫星技术的飞速发展,我们能够获取到越来越多的高分辨率航空影像。这些影像在环境监测、城市规划、灾害管理等领域发挥着至关重要的作用。然而,航空影像与自然场景图像存在显著差异:待检测目标往往尺寸微小、分布密集、方向不定,且常被遮挡,这些特性使得航空影像分类成为计算机视觉领域一项极具挑战性的任务。
传统的深度学习方法在处理这类复杂图像时常常力不从心。尽管卷积神经网络(CNN)在图像特征提取方面表现出色,但在捕捉全局依赖关系上存在局限;而视觉Transformer(ViT)虽能有效建模长距离依赖,但对数据量的需求较大,且局部特征提取能力相对较弱。面对这些挑战,研究人员开始探索将CNN与Transformer相结合的混合模型,以期取长补短。
近期发表在《Scientific Reports》上的一项研究,提出了一种创新的混合模型架构,巧妙地将经典的ResNet-50与视觉Transformer相结合,并引入注意力机制,为航空影像分类提供了新的解决方案。该研究团队意识到,单一模型难以充分应对航空影像的复杂性,因此设计了两套混合方案:第一种模型融合ResNet-50和ViT的特征后采用多头注意力机制;第二种模型则使用交叉注意力机制。这两种方案都在SAIOD(锡金航空影像目标检测)数据集上进行了全面评估。
研究团队采用的主要技术方法包括:基于ResNet-50的深度特征提取、视觉Transformer的全局特征建模、多头注意力和交叉注意力机制的特征筛选,以及基于全连接层的分类器设计。实验使用SAIOD数据集,包含房屋、车辆、杂物等10个类别,每个类别训练样本1000张,测试样本250张。
研究结果显示,两种混合模型均取得了显著优于传统方法的性能。具体而言:
在模型训练稳定性方面,多头注意力模型在15个训练周期后表现出更好的稳定性,训练损失降至0.0025,验证准确率达到99.91%;而交叉注意力模型虽然略有波动,但同样保持了较高的性能水平,验证准确率为99.88%。
在分类性能指标上,多头注意力模型以95.80%的总体准确率略胜一筹,交叉注意力模型也达到了95.52%的优异表现。这一结果显著超过了此前在该数据集上表现最好的YOLO11模型(95.33%)和SwinSight模型(93.16%)。
通过混淆矩阵分析可以发现,两个模型在不同类别上各有优势。多头注意力模型在"车辆"类别上表现最佳,正确分类246个样本;而交叉注意力模型在"树木"类别上识别效果最好,达到247个正确分类。这种差异反映了不同注意力机制在特征选择上的偏好特性。
ROC曲线分析进一步证实了模型的可靠性,大多数类别的AUC(曲线下面积)值达到1.00或接近1.00,表明模型具有极高的分类判别能力。
与现有技术的对比实验表明,传统CNN模型如AlexNet、GoogleNet等在该数据集上的准确率均低于90%,而基于Transformer的模型普遍达到90%以上。本研究提出的混合模型首次将准确率提升至95%以上,实现了突破性进展。
该研究的成功不仅体现在技术指标的提升,更在于其实际应用价值。混合模型有效结合了CNN的局部特征提取能力和Transformer的全局建模优势,通过注意力机制精准筛选出最具判别性的特征,为复杂场景下的航空影像理解提供了可靠的技术支撑。这种架构设计思路对遥感图像分析、智能交通监控、环境变化检测等领域都具有重要的借鉴意义。
未来研究方向可能包括将模型扩展到更多类型的航空数据集,优化模型计算效率以适应实时应用场景,以及探索更多元化的特征融合策略。随着航空影像数据的持续增长,这种基于深度学习的混合模型框架有望在智慧城市、灾害应急、资源调查等关键领域发挥越来越重要的作用。