《Chinese Journal of Mechanical Engineering》:SCAFFNet: A Novel Object Classification Algorithm in Low-Altitude Scenarios for eVTOL
编辑推荐:
为解决深度学习模型在遥感影像场景分类中对大规模标注样本依赖性强、训练成本高昂的问题,研究人员开展了面向低样本(eVTOL低空场景)的遥感影像分类算法研究。他们提出了名为SCAFFNet的空间-通道注意力与傅里叶变换融合网络。实验结果表明,该方法在UC Merced和WHU-RS19数据集上取得了优于传统few-shot学习方法的分类精度,为解决样本稀缺条件下的遥感影像智能解译提供了有效方案,具有重要的实际应用潜力。
想象一下未来的城市空中交通(eVTOL),飞行器需要在复杂的城市环境中自主导航,精准识别下方的建筑、道路、机场等地物,这离不开对遥感图像的“火眼金睛”。然而,训练一双这样的“眼睛”并非易事。传统的深度学习方法虽然精准,却是个“大胃王”,需要“喂食”海量的标注图片才能学会,获取和标注这些数据的成本极高,极大地限制了其广泛应用。面对标注数据稀缺的困境,如何让AI模型学会“举一反三”,仅凭少数几张样例就能准确识别新的地物场景,成为遥感图像分析领域一个亟待突破的难题。
针对这一挑战,北京理工大学的张迪、潘峰、刁琦、王家成和李卫星在《Chinese Journal of Mechanical Engineering》上发表研究,提出了一种名为SCAFFNet(Spatial-Channel Attention and Fourier Transform Fusion Network,空间-通道注意力与傅里叶变换融合网络)的新型算法,专门用于解决小样本(Few-shot)遥感影像场景分类问题。
为开展研究,作者采用了几个关键技术方法。首先,研究遵循元学习(Meta-learning)范式,在5-way N-shot的任务设置下进行模型训练与测试。网络主体参考了Deep Nearest Neighbor Neural Network (DN4)的架构,包含特征提取模块和基于Image-to-Class度量的分类模块。特征提取模块采用了一个四层的Conv-64卷积网络。在此基础上,SCAFFNet的核心创新在于其多特征融合机制:它设计了一个由空间注意力(Spatial Attention)模块、通道注意力(Channel Attention)模块(采用高效的ECA-Net机制)以及频域滤波(Frequency Domain Filtering)模块组成的特征融合路径。这三个模块并行处理从骨干网络提取的初始特征图,分别捕捉空间关键区域、重要通道特征以及图像的频域结构信息。最后,通过拼接(Concatenation)方式将这些特征融合,并输入到一个非参数的度量模块中,该模块通过计算查询图像与支持集图像局部描述符之间的余弦相似度来完成分类。实验在两个公开的遥感数据集UC Merced和WHU-RS19上进行,并按照小样本学习的惯例对数据集进行了划分,确保训练集、验证集和测试集的类别互不重叠。
研究结果
1. 在UC Merced和WHU-RS19数据集上的性能表现
SCAFFNet在两个数据集上的5-way 1-shot和5-way 5-shot分类任务中均取得了优异的结果。在UC Merced数据集上,其1-shot和5-shot准确率分别达到59.61%和79.85%。在WHU-RS19数据集上,表现更为突出,1-shot和5-shot准确率分别达到74.65%和89.64%。与DLA-MatchNet、MatchingNet、Relation Network、MAML、Meta-SGD等经典小样本学习方法相比,SCAFFNet在绝大多数任务设置下都取得了最高的分类准确率,证明了其有效性。
2. 特征图可视化
通过对网络模型输出的特征图进行可视化,可以直观地观察到模型在特征提取过程中的表现。可视化结果显示,SCAFFNet能够有效地从支持集图像和查询图像中提取出具有判别性的特征,这些特征在一定程度上反映了模型如何区分不同类别,从而解释了其仅用少量样本便能取得良好效果的原因。
3. 消融研究:Shot值对模型性能的影响
研究人员通过系统性的消融实验,探讨了支持集中每个类别样本数量(Shot值)对模型性能的影响。实验设置了Shot值为1、5、10、15四种情况。结果表明,在两个数据集上,模型的分类准确率都随着Shot值的增加而显著提升。这符合直觉,因为更多的样本为模型提供了更丰富的学习信息。同时,实验还发现,在相同的Shot值下,模型在WHU-RS19数据集上的性能始终优于在UC Merced数据集上的性能。分析认为,这可能是因为UC Merced数据集中存在更高的类间相似性和类内差异性,给模型分类带来了更大挑战,而WHU-RS19数据集的图像通常具有更高的分辨率和更丰富的纹理细节,有利于特征学习。
结论与讨论
本研究所提出的SCAFFNet网络,通过创新性地融合空间注意力、通道注意力以及傅里叶变换技术,为小样本遥感影像场景分类问题提供了一种高效的解决方案。空间注意力机制使模型能够聚焦于图像中与语义类别相关的关键空间区域,抑制无关物体干扰;通道注意力机制通过建模通道间的依赖关系,自适应地校准特征响应,平衡了局部与全局特征的重要性;而引入的频域滤波模块则使网络能够从频率维度分析图像,捕获隐藏在空间像素背后的结构信息和纹理模式,这些信息在样本有限时对于区分不同地物和场景尤为关键。
实验结果表明,这种多特征融合的策略显著提升了模型在有限数据条件下的特征提取能力和分类性能。SCAFFNet在多个标准数据集和任务设置下均超越了现有主流方法,展现了其强大的竞争力。这项研究成果不仅为遥感影像分类,特别是低空场景下eVTOL的环境感知提供了有力的技术工具,也为更广泛的、受限于标注数据稀缺的计算机视觉任务提供了新的思路。未来,可以进一步优化网络结构,探索更多样的特征融合与交互方式,以持续提升小样本学习模型的泛化能力和实际应用价值。