ConFAS-Net:通过混淆感知注意力(Confusion-Aware Attention)和自适应决策缩放(Adaptive Decision Scaling)实现少样本SAR目标识别
赵欣(Xin Zhao)、
薛晓荣(Xiaorong Xue)、
田一硕(Yishuo Tian)、
杨泾通(Jingtong Yang)、
陆冰雁(Bingyan Lu)、
张文(Wen Zhang)
王万成(Wancheng Wang)
《Remote Sensing》:ConFAS-Net: Few-Shot SAR Target Recognition via Confusion-Aware Attention and Adaptive Decision Scaling
Xin Zhao,
Xiaorong Xue,
Yishuo Tian,
Jingtong Yang,
Bingyan Lu,
Wen Zhang and
Wancheng Wang
【字体:
大
中
小
】
时间:2026年05月11日
来源:Remote Sensing 4.1
编辑推荐:
亮点
主要发现是什么?
我们提出了ConFAS-Net模型,该模型整合了三个创新模块——MS-CA多尺度通道注意力、CACL类别混淆感知损失和CADA类别自适应决策调整——以系统地解决小样本SAR目标识别中特征利用不足和严重类别混淆的核心问题。在MSTAR数据集上,该模型在5/1
亮点
主要发现是什么?
我们提出了ConFAS-Net模型,该模型整合了三个创新模块——MS-CA多尺度通道注意力、CACL类别混淆感知损失和CADA类别自适应决策调整——以系统地解决小样本SAR目标识别中特征利用不足和严重类别混淆的核心问题。在MSTAR数据集上,该模型在5/10/15/30次射击设置下的识别准确率分别为73.25%、87.43%、94.97%和96.87%,相比基线方法最大提高了2.93个百分点,同时保持了出色的参数效率和准确性与计算效率的平衡。
主要发现的含义是什么?
建立了一个包括“特征增强—损失优化—决策调整”的全链路优化范式,为小样本目标识别任务提供了一种创新且实用的技术解决方案。该模型的轻量级设计适用于资源受限场景的应用需求,为在样本量有限的条件下实现SAR目标识别提供了可行的方法。
摘要
在少数次射击场景下的合成孔径雷达(SAR)目标识别面临特征提取不足和严重类间混淆的挑战。为了解决这些问题,提出了一种具备混淆感知能力的少数次射击注意力和缩放网络(ConFAS-Net)。该方法引入了一个多尺度通道注意力模块(MS-CA)来增强多尺度特征的自适应提取,设计了一个混淆感知损失优化模块(CACL)来利用类间混淆信息指导判别性特征学习,并采用了一个类别自适应决策调整模块(CADA)来动态调整分类边界以适应少数次射击的分布特性。在标准MSTAR数据集上的广泛实验表明,ConFAS-Net在5次、10次、15次和30次射击设置下的识别准确率分别为73.25%、87.43%、94.97%和96.87%。为了严格验证所提模型在不同数据领域的泛化能力和鲁棒性,还在公共SAMPLE数据集上进行了额外的验证,ConFAS-Net在所有K次射击设置下始终表现出业界领先的性能。消融研究和可视化分析进一步验证了每个提出模块的有效性。与现有技术方法的比较显示,所提方法在保持仅2.32 M参数的轻量级架构的同时,保持了高识别准确率,为资源受限环境中的SAR目标识别提供了有效的解决方案。
1. 引言
雷达目标识别技术在过去几十年取得了显著进步[1]。合成孔径雷达(SAR)凭借其全天候、实时成像的能力[2],已被广泛应用于民用和军事领域,如地形测绘和地质勘探[3]、海洋监测和船舶识别[4]、灾害应急响应和损害评估[5]、军事目标侦察和战场态势感知[6]以及自动目标识别[7,8,9,10]。然而,随着SAR图像数据量的快速增长和应用场景复杂性的增加,传统的SAR目标识别方法在特征提取能力和泛化性能方面面临严峻挑战。传统方法主要依赖于手动设计的特征,如散射中心匹配[11]和几何特征提取[12];然而,这些方法在复杂背景条件和变化的目标特性下识别准确率有限,难以满足实际应用的需求。
近年来,基于深度学习的SAR目标识别方法受到了广泛关注[13]。卷积神经网络(CNN)由于其强大的特征学习能力,在SAR目标识别领域取得了显著进展。参考文献[14]提出了一种改进的深度卷积神经网络算法,通过优化网络架构和训练策略提高了SAR图像目标识别的性能。参考文献[15]设计了EFTL网络,利用电磁特征迁移学习技术来解决SAR目标识别任务,从而有效提高了模型在不同场景下的泛化能力。参考文献[16]提出了EMI-Net,这是一种端到端机制驱动的可解释网络,通过加入可解释性设计提高了模型在扩展操作条件下的识别能力。然而,这些方法大多数需要大量标记样本来进行训练,在实际应用中经常面临样本稀缺的问题。
作为解决数据稀缺问题的有效方法,少数次射击学习在SAR目标识别领域引起了研究人员的广泛关注。为了提高特征区分能力,注意力机制——一种提高深度神经网络表示能力的关键技术——在SAR目标识别中展现了巨大潜力[17,18]。挤压-兴奋(SE)注意力机制[19]通过自适应重新校准通道特征响应来增强网络对重要特征通道的关注。参考文献[20]提出了一种多尺度时频表示融合网络,通过坐标注意力机制和自适应特征拼接策略,有效融合了不同尺度上的频域特征,从而提高了SAR目标识别的性能。参考文献[21]提出了一种双分支空间-频域融合方法,通过交叉注意力机制实现了空间域和频域特征的互补融合,增强了网络区分SAR目标多尺度特征的能力。ECA-Net[22]通过高效的通道注意力机制避免了降维造成的信息丢失。然而,现有的注意力机制主要集中在特征增强上,缺乏针对低数据样本场景中类别混淆的针对性设计。此外,损失函数的设计对于低数据样本学习的成功至关重要。传统的交叉熵损失在样本不平衡和类别相似条件下容易过拟合;焦点损失[23]通过动态调整难样本和易样本的权重来改善类别不平衡;中心损失[24]通过最小化类内距离来增强特征紧凑性。然而,现有的损失函数设计很少考虑利用类间混淆信息来指导网络学习。近年来,研究人员对SAR小样本对象识别进行了深入探索。Geng等人[25]利用因果推理来消除背景干扰,Zhou等人[26]采用基于证据的学习来估计不确定性,Wang等人[27]采用特征生成来进行数据增强。这些工作为SAR少数次射击识别提供了宝贵的见解。
更广泛地说,现有的少数次射击学习方法可以分为五类:基于度量学习的方法,通过比较学习嵌入空间中的样本相似性进行分类,如孪生网络[28]、原型网络[29]和关系网络[30];基于优化的元学习方法,学习可转移的初始化参数以实现快速适应,如MAML[31];数据增强和生成方法,通过样本合成来扩展有限的训练集[32];预训练的基础模型,利用大规模数据集学习可转移的视觉表示,最近在SAR目标识别任务中表现出良好的性能[33];以及基于对比学习的方法,通过自我监督的成对实例比较来学习判别性和泛化表示[34]。尽管它们各有优点,但大多数现有方法主要集中在跨领域泛化、不确定性量化或特征生成上,并未共同解决少数次射击SAR识别中的三个核心挑战:多尺度特征提取不足、类间混淆信息利用不足以及缺乏自适应分类边界调整。
为了解决这些问题,本文提出了ConFAS-Net,这是一种用于SAR图像中小样本目标识别的方法,它将多尺度注意力与混淆感知学习相结合。主要贡献如下:
(1) 多尺度通道注意力模块(MS-CA)通过结合全局和局部上下文的双重路径,自适应地学习通道权重,从而增强了网络选择关键特征通道的能力;
(2) 我们设计了混淆感知余弦损失模块(CACL),它通过动态构建类混淆矩阵来识别容易混淆的类别对,并在特征空间中施加额外的分离约束,以增强类间的可分离性和特征内的紧凑性;
(3) 类别自适应决策调整模块(CADA)基于混淆信息为每个类别动态生成缩放因子,调整分类边界和置信度分布,以缓解低样本量场景中的类别不平衡问题。
2. 材料与方法
2.1 ConFAS-Net的整体结构概述
现有的小样本SAR目标识别深度学习方法存在多尺度特征提取不足、难以区分相似类别以及分类边界刚性等问题;在数据稀缺的场景中,它们特别容易过拟合和误分类。为了解决现有深度学习方法在小样本SAR目标识别中面临的问题,如多尺度特征提取不足、严重类别混淆和刚性分类边界,本文首先采用多尺度密集连接(TMDC)网络作为其基础架构。通过对其进行定制和优化以适应小样本场景的特点,我们得到了适用于小样本SAR目标识别的多尺度密集连接(MSDC)主干网络;在此基础上,引入了三个创新模块,提出了ConFAS-Net方法,其网络架构如图1所示。
图1. 提出的ConFAS-Net网络架构,用于少数次射击SAR目标识别。MS-CA、CACL和CADA模块分别用于增强多尺度特征的可区分性、减轻类间混淆和自适应调整分类边界。首先,在特征提取阶段,引入了多尺度通道注意力模块(MS-CA)。该模块嵌入在每个密集块之后,通过融合来自全局平均池化和局部自适应池化的双重路径特征统计量,自适应地增强不同尺度特征的判别能力。其次,在损失优化阶段,设计了混淆感知损失优化模块(CACL)。通过动态构建类混淆矩阵来识别容易混淆的类别对,并对这些样本应用额外的余弦相似性约束,引导网络在特征空间中扩大容易混淆类别之间的距离。第三,在分类决策阶段引入了类别自适应决策调整模块(CADA)。该模块根据每个类别的混淆程度动态生成自适应缩放因子,通过调整分类边界和置信度分布来缓解低数据样本量场景中的类别不平衡问题。最后,采用了两阶段训练策略:第一阶段采用标准交叉熵损失进行基础训练,第二阶段结合CACL和CADA进行微调,从而在低样本量条件下提高模型的识别准确性和泛化能力。
网络内的数据流如下:输入一个84 × 84的单通道SAR图像;经过初始卷积层和最大池化后,依次通过三个多尺度密集块(MSDC块1、块2、块3),每个块都附加了一个MS-CA模块以增强特征,分别输出低级(128维)、中级(256维)和高级(1024维)特征。这三个级别的特征通过全局平均池化(GAP)和特征拼接(Concat)结合起来,生成一个1408维的融合特征向量,然后通过全连接层映射到10维的分类logits。在第二训练阶段,CADA模块对logits进行自适应缩放,而CACL模块计算混淆感知余弦损失并通过反向传播更新网络参数。
2.2 MS-CA模块
在SAR目标识别中,判别性线索通常分布在全球结构和局部散射细节中。然而,传统的通道注意力模块主要依赖全局统计信息,可能会忽略局部空间结构,限制了它们突出关键目标特征的能力。为了解决这个问题,我们引入了多尺度通道注意力(MS-CA)模块,如图2所示。
图2. 提出的用于SAR目标识别的多尺度通道注意力(MS-CA)模块。双分支结构捕获了全局和局部通道的重要性,并自适应地加权输入特征图以增强判别性特征选择。MS-CA采用双路径设计来提取全局和局部通道描述符,并将它们融合以生成自适应的通道注意力权重。具体来说,给定一个输入特征图(F),全局和局部描述符的计算如下:
(1) (2) (3)
特别是,是一个通过全局平均池化(GAP)获取全局统计信息的全局通道描述符。 是局部通道描述符,通过2 × 2自适应池化和卷积操作捕获局部结构信息,保留了空间敏感的散射细节。当与全局描述符融合时,形成了一个结合了全局统计信息和局部空间特征的多尺度注意力机制。 是Sigmoid激活函数,用于将融合的特征转换为范围[0, 1]内的注意力权重。双路径特征融合得到的权重考虑了全局上下文和局部细节,从而实现了多尺度通道重要性的建模。
为了增强选择特征通道的能力,MS-CA模块采用了一种基于双分支架构的像素级权重应用机制。全球分支提供了对通道重要性的整体评估,而本地分支则通过空间敏感的通道信息来补充这一评估;通过融合这两种信息生成的注意力权重通过广播机制应用于原始特征的每个空间位置。最终加权特征的计算方法如下:(4)(5)这里,表示注意力加权的特征图,表示逐元素乘法。表示最终的输出特征;残差连接保留了原始信息,确保了训练的稳定性。这种设计不仅增强了重要通道的作用,还防止了信息丢失,从而有效提高了区分SAR目标的能力。
与现有注意力机制的比较。值得澄清的是MS-CA与两种代表性注意力方法之间的区别。CBAM [35]采用了一种顺序的两阶段设计,首先通过全局平均池化和全局最大池化生成通道注意力,然后使用沿通道轴的池化应用独立的空间注意力分支。这两个阶段分别服务于不同的目的——通道选择和空间定位——并且不进行互信息交换。SCNet [36]采用了一种自校准机制,将特征通道分为两组,分别用不同核大小的卷积进行处理,从而在卷积层面实现跨尺度交互。相比之下,MS-CA通过多分辨率池化将空间结构信息直接整合到通道注意力权重中,实现了无需单独空间分支或通道分割的统一机制。此外,全球和本地分支之间的共享MLP强制使用一个共同的转换空间,使网络能够学习互补的全球-局部关系,而不是处理独立的通道子集。
适用于SAR图像。这种设计特别考虑了SAR图像中的两种不同类型的判別信息:(1)局部强散射中心(例如,炮塔和发动机舱上的角反射器),它们在小空间区域内产生高强度返回;(2)分布式上下文特征(例如,形状轮廓和阴影图案),它们提供全局结构线索。传统的仅依赖全局平均池化的通道注意力方法倾向于在整个空间范围内稀释局部散射特征。MS-CA的本地分支以2 × 2的分辨率运行,保留了这些强散射体的空间分布,使得通道权重不仅能够反映每个通道包含的平均能量,还能反映关键散射发生的位置。这种双重敏感性对于区分具有相似全局轮廓但在细粒度散射细节上不同的目标(例如,T-72与T-62,BMP-2与BTR-60)至关重要。
2.3. CACL模块
在少样本SAR目标识别中,由于训练样本有限和散射特征相似,视觉上相似的类别很容易混淆。传统的交叉熵损失和基于余弦的损失没有明确考虑类别间的混淆,这限制了它们在容易混淆的类别之间实现有针对性的区分的能力。为了解决这个问题,我们提出了基于混淆统计的余弦损失(CACL),它引入了基于类别的适应性边距。通过明确建模类别间混淆的程度,CACL对容易混淆的类别施加了更强的约束,因此在特征空间中提供了更针对性的监督。具体来说,每个类别的混淆程度是从混淆矩阵中估计出来的,然后用于生成后续基于余弦判别的适应性边距。相应的公式如下:(6)(7)(8)其中,表示类别i的混淆程度,定义为根据混淆矩阵被错误分类到其他类别的类别i的样本比例。基于,生成适应性边距,其中是基础边距,控制边距调整的强度。表示L2规范化的特征向量,它将特征投影到单位超球面上,以便进行后续基于余弦的判别。
如图3所示,混淆矩阵用于估计类别特定的混淆程度并生成相应的适应性边距。这些边距对容易混淆的类别施加了更强的判别约束。基于边距调整后的规范化特征,CACL损失的表达式如下:(9)(10)(11)图3. 提出的用于少样本SAR目标识别的基于混淆的余弦损失(CACL)模块。双路径结构根据混淆矩阵动态生成适应性缩放因子,对容易混淆的类别施加不同的余弦相似度约束。特别是,表示第n个样本的边距调整后的L2规范化预测向量,表示软化后的目标向量,B是由类别数量和标签偏移因子确定的规范化边界。在这种表述下,通过增强预测与类别目标之间的对齐来实施基于混淆的判别,同时结合了适应性类别特定的边距。
总体损失是分阶段定义的。在第一阶段,仅使用来学习判别性特征空间。在第二阶段,引入了一个带有CADA调整后的logits的额外加权交叉熵项,以进一步完善最终决策边界,其中控制交叉熵项的贡献。
2.4. CADA模块
在少样本SAR目标识别中,不同类别的识别难度各不相同,在复杂的成像条件下有些类别更容易混淆。传统的交叉熵损失对所有类别一视同仁,无法明确增强难类别的决策信心。为了解决这个问题,我们提出了类别适应性动态调整(CADA)模块。如图4所示,CADA使用混淆矩阵估计类别间的混淆分数,并将其转换为适应性缩放因子。在训练过程中,选择与真实类别对应的缩放因子并应用于调整真实类别的logit,从而增强难类别的决策信心。图4. 提出的用于少样本SAR目标识别的类别适应性动态调整(CADA)模块。双数据流结构根据混淆矩阵动态生成适应性缩放因子,以调整logit输出并增强难分类类别的判别能力。CADA的关键思想是为混淆分数较高的类别分配更大的缩放因子,而保持识别良好的类别的logits基本不变。CADA集成到训练的第二阶段中,通过细化logit空间中的决策边界来补充CACL,而CACL则在特征空间中增强类别间的判别能力。这两个模块共同提高了在数据量较少条件下的难类别识别能力。
3. 结果
3.1. 实验数据集
本文使用MSTAR(移动和静止目标获取与识别)数据集进行实验验证[37]。MSTAR数据集是SAR目标识别领域中最广泛使用的公共基准数据集,由美国国防高级研究计划局(DARPA)和空军研究实验室(AFRL)共同发布。该数据集包括在不同俯仰角度获取的各种类型的军用车辆的SAR图像,具有真实的成像条件和丰富的目标变化。本文在标准操作条件(SOC)[38]下进行了10类目标识别任务,包括10种类型的军用车辆:BMP-2、BTR-70、T-72、BTR-60、2S-1、BRDM-2、D-7、T-62、ZIL-131和ZSU-23/4。训练集包含在17°俯仰角度下捕获的2747张图像,而测试集包含在15°俯仰角度下捕获的2723张图像,如表1所示。这种跨不同俯仰角度的训练-测试划分更好地反映了真实世界的应用场景,并有效评估了模型的泛化能力。所有图像都进行了居中和裁剪,并统一大小调整为84 × 84像素,用作网络输入。
为了进一步验证ConFAS-Net在不同数据域中的泛化能力,我们还在合成和测量的配对标记实验(SAMPLE)数据集[39]上进行了实验。SAMPLE数据集由空军研究实验室(AFRL)共同开发,包括10种军用地面车辆的合成和测量SAR图像,与MSTAR中的目标类别相同:2S1、BMP-2、BRDM-2、BTR-60、BTR-70、D-7、T-62、T-72、ZIL-131和ZSU-23/4。与MSTAR不同,SAMPLE数据集提供了成对的合成-测量SAR图像样本,特别适合评估模型的鲁棒性和跨域泛化能力。在我们的少样本实验中,仅使用测量的SAR图像,以保持与真实世界识别场景的一致性。对于每个K样本设置(K = 5、10、15、30),每种类别随机抽取K张图像构建训练集,剩余的测量图像用于测试。所有图像统一大小调整为84 × 84像素,与应用于MSTAR数据集的预处理流程一致。
3.2. 实验设置
本文的实验使用PyTorch 2.4.1深度学习框架在NVIDIA GeForce RTX 4090 GPU上进行,该GPU配备了24 GB的视频内存。模型使用SGD优化器进行训练,初始学习率为0.1,动量系数为0.9,权重衰减系数为0.0001。学习率采用逐步降低策略,每150次迭代将学习率降低到原始值的0.3倍。总训练迭代次数为300次,批量大小为32,随机种子固定为168,以确保实验的可重复性。采用分类准确性作为评估指标,定义为正确分类样本的数量占测试样本总数的比例。鉴于MSTAR数据集中样本在类别间的分布相对平衡,这一指标有效反映了模型的整体识别性能。对于SAMPLE数据集中的实验,应用了三种不同的随机种子(42、168、233),以考虑随机训练集采样引入的方差,结果以平均准确率报告。ConFAS-Net采用了两阶段的训练策略,总预算为300个周期。在第一阶段(周期1-180),网络仅使用基于混淆的余弦损失(CACL)进行训练,以建立具有增强类别间分离的成熟特征空间,特别是对于容易混淆的类别对。在第二阶段(周期181-300),激活CADA模块,训练目标转变为结合CACL损失和带有CADA缩放的logits的加权交叉熵损失的联合损失,其中权重系数β设置为0.05。CADA模块根据混淆统计动态缩放logit输出,增强难类别的决策信心。所有网络参数在两个阶段都是完全可训练的,没有任何参数冻结。学习率从第150周期开始以阶梯式下降到0.03,从而确保两个阶段之间的平滑过渡。这种分阶段设计确保CACL首先建立成熟的特征空间,然后CADA在决策层面操作,避免在训练数据有限的情况下同时优化所有目标的不稳定性。
表2列出了ConFAS-Net的关键超参数。标签偏移因子τ控制CACL中的软标签平滑程度。边距参数m0和λm分别确定基础边距和基于混淆的适应性边距的缩放强度。CADA缩放强度λs控制类别间混淆分数对logit缩放的影响程度。这些超参数是通过在15样本验证设置上的网格搜索确定的。
3.3. 对比实验
3.3.1. 在不同K样本设置下的MSTAR数据集上的识别性能
如表3所示,提出的ConFAS-Net方法在不同K样本设置下的测试准确性得到了全面展示。实验结果表明,随着训练样本数量的增加,模型的识别性能显示出显著的提升趋势,这完全验证了我们方法的强大学习能力和适应性。表3. ConFAS-Net在MSTAR数据集不同K样本设置下的测试准确性。特别是在样本非常少的5样本设置下,模型的准确率为73.25%,表明本文提出的基于混淆的注意力和注意力机制即使在样本极度稀缺的情况下也能有效提取关键特征。当样本量增加到10样本时,准确率急剧上升到87.43%,增加了14.18%,表明模型能够从额外的样本中学习到更强大的特征表示。在15样本和30样本设置下,模型的准确率分别达到了94.97%和96.87%。这表明ConFAS-Net能够在样本量适中时充分利用数据的潜力,接近完全监督学习的性能水平。
3.3.2. 在MSTAR数据集上的对比实验
为了全面评估我们提出方法的优越性,并确保评估结果的客观性、全面性和说服力,我们在表4中提供了与三种现有代表性方法的详细对比分析。这三类方法被选中是为了覆盖不同的研究方向和技术路线,以便充分反映我们的方法在不同比较维度上的优势。具体来说,这三种比较方法如下:(1)经典的深度卷积神经网络,这是广泛用于图像识别任务的基本架构模型,包括ResNet-18、Inception和DenseNet;(2)经典的少样本学习方法,这些方法是解决少样本学习问题的主流方法,包括Prototypical Networks和DeepEMD;(3)专门为SAR目标识别任务优化的最新方法,这些方法是当前SAR目标识别领域中最先进和最具代表性的方法,包括Dens-CapsNet、FTL-dis、Prior-EDL和PD Network。表4显示了不同方法在MSTAR数据集上的识别准确率(%)的比较结果。实验结果表明,ConFAS-Net在所有K-shot设置中都取得了最佳性能。与经典CNN模型相比,ResNet-18、Inception和DenseNet在少样本条件下的识别性能通常有限,在5-shot设置中的准确率大约在60%左右。我们的方法在5-shot和10-shot设置中分别比DenseNet提高了13.73%和12.27%,这表明为少样本SAR任务量身定制的设计是必要的。与经典的少样本方法相比,Prototypical Networks通过度量学习策略取得了显著改进;然而,我们的方法在所有设置中仍然优于Prototypical Networks,例如在10-shot和15-shot设置中分别提高了4.97%和3.41%。DeepEMD使用地球移动距离进行特征匹配,但在SAR图像上的表现较差,在5-shot设置中的准确率仅为52.24%。这表明为自然图像设计的少样本方法难以直接转移到SAR领域;需要针对特定领域的特征进行增强和混淆处理。与SAR领域的最新方法相比,我们的方法在所有设置中都取得了改进。在极其稀缺的5-shot设置下,ConFAS-Net相对于MSDC基线仅提高了0.08%,表明所提出的模块即使在数据极度稀缺的情况下也不会降低性能。随着可用样本数量的增加,改进幅度变得更加明显,在10-shot、15-shot和30-shot设置中分别提高了2.43%、2.93%和1.28%,验证了这三个提出模块在不同数据条件下的持续有效性。总之,ConFAS-Net不仅在数据极其有限的情况下表现出更好的鲁棒性,而且随着数据集大小的增加,准确率的上限也更高,从而证明了其在小样本SAR目标识别任务中的优越性和有效性。
3.3.3. 在SAMPLE数据集上的对比实验
为了进一步评估ConFAS-Net在不同SAR数据集上的泛化能力,我们在SAMPLE数据集上进行了额外的对比实验。由于表4中大多数对比的SAR特定方法尚未在SAMPLE数据集上进行评估,且它们的源代码无法公开复制,因此选择了涵盖经典CNN架构、基于度量的少样本学习和直接前体方法的代表性基线进行比较。如表5所示,ConFAS-Net在所有K-shot设置中始终实现了最高的识别准确率,证明所提出的方法在MSTAR基准测试之外也保持了其优势。在经典CNN架构中,ResNet-18和DenseNet在SAMPLE数据集上的表现相对具有竞争力,但在5-shot设置中的准确率分别仅为60.45%,显示出它们在数据稀缺情况下容易过拟合的倾向。与少样本学习基线Prototypical Networks相比,ConFAS-Net通过度量学习策略分别提高了15.12%和11.82%。与SAR领域的最新方法相比,ConFAS-Net在所有设置中均表现更好。这表明MS-CA、CACL和CADA模块的有效性得到了验证。即使在数据极度稀缺的5-shot设置下,ConFAS-Net也实现了相对较小的提升。随着可用样本数量的增加,改进幅度变得更加明显,在10-shot、15-shot和30-shot设置中分别提高了2.43%、2.93%和1.28%,进一步验证了这三个提出模块在不同数据条件下的有效一致性。
3.4. 模块消融实验
3.4.1. 更新CACL混淆矩阵策略的比较
为了解决与离线矩阵更新相关的潜在响应延迟问题,我们设计了一种在线EMA更新策略。如表6所示,在所有K-shot设置中,在线更新策略的表现优于离线策略,特别是在5-shot和10-shot场景中(分别提高了0.33%和0.29%)。这表明在少样本条件下,混淆模式变化迅速,在线更新可以更快地调整损失权重。在实际应用中,如果数据分布发生变化(例如新场景或新的噪声水平),可以采用在线EMA策略实现混淆率的动态适应;而在训练阶段,离线策略足以满足需求,同时在计算开销和性能之间取得平衡。
3.4.2. 完整模块消融实验
为了验证本文提出的模块的有效性,在15-shot设置下进行了消融实验,并在表7中显示了结果。以MSDC为基线,依次添加了三个模块——MS-CA、CACL和CADA——以分析每个模块的独立贡献及其综合效果。如图5所示,当MS-CA和CACL组合使用时,取得了第二高的性能(94.72%,提高了2.68%),这明显高于每个单独模块贡献的总和(0.53% + 1.16% = 1.69%),表明注意力增强特征表示和混淆感知损失之间存在强烈的协同作用。MS-CA + CADA的组合(93.61%,提高了1.57%)也超过了单独贡献的总和(0.53% + 0.91% = 1.44%),进一步验证了特征增强和决策调整的互补性。然而,当三个模块都启用时,ConFAS-Net实现了最高的准确率94.97%,比基线提高了2.93%,这表明尽管CACL和CADA之间存在部分重叠,这三个模块在整体上是互补的。图5显示了ConFAS-Net的消融研究结果。(a)不同模块配置与基线的测试准确率比较。(b)相对于基线的性能提升百分比。
4. 讨论
4.1. 模块互操作性分析
为了深入分析模块之间的耦合和协同作用,我们进一步比较了逐步引入每个模块后的训练收敛行为和类别混淆变化。ConFAS-Net的三个核心模块在网络中处于不同的层次,并具有明确的功能角色。MS-CA在特征提取阶段(特征层)通过多尺度通道注意力增强判别性特征表示;CACL在度量学习阶段(度量层)通过混淆感知损失优化类间距离和类内紧凑性;CADA在决策阶段(决策层)通过类自适应缩放调整分类边界。这三个模块分别对应于完整的“特征-度量-决策”识别链,理论上它们之间没有直接冲突。为了验证这一假设,我们从三个维度进行了分析:训练稳定性、特征质量和梯度流。关于训练稳定性:引入CADA略微加速了训练收敛(大约提前12-15个周期达到稳定),且没有出现振荡或发散。在15-shot设置下,基线(MSDC)在第180个周期收敛,MS-CA + CACL在第165个周期收敛,完整的ConFAS-Net在第150个周期收敛,这证实了CADA和CACL在梯度方向上是一致的,并共同加速了收敛。关于特征质量和混淆的变化:为了进一步验证模块之间的协同作用,我们分析了不同模块组合下混淆矩阵对角线条的变化。以15-shot设置为例,基线模型的混淆矩阵对角线平均值是0.82,引入MS-CA后增加到0.87,表明特征可分性得到增强。进一步整合CACL后,对角线平均值增加到0.91,而对角线最大值从0.31下降到0.18,表明容易混淆的类别之间的分离得到了显著改善。最后,在引入CADA后,尽管对角线平均值保持不变(表明特征质量没有下降),最终分类准确率从94.72%提高到94.97%,提高了0.25个百分点。这表明CADA并没有改变CACL构建的特征空间结构,而是通过在决策层进行自适应调整进一步优化了分类边界。关于梯度流:CACL主要通过混淆感知损失权重影响特征提取器,而CADA通过对分类器logit输出的影响主要是反馈到分类器层,导致两者之间存在一定程度的解耦。实验验证了这一点——CADA整合后特征提取器层之间的梯度范数变化小于5%。
上述分析表明,ConFAS-Net的三个模块在角色、优化目标和梯度流方面有明确的分工,没有互相抵消或冲突的情况。MS-CA提高了特征表示的质量,CACL优化了度量学习过程,而CADA在保持特征质量的同时进一步改善了决策边界。这三个组件共同构成了一个完整的优化链,涵盖了特征、度量和决策,共同提高了模型在小样本SAR目标识别任务中的性能。此外,通过SAMPLE数据集上的实验进一步验证了这种模块化设计的泛化能力,在所有K-shot设置中,ConFAS-Net实现了所有比较方法中最高的识别准确率,表明MS-CA、CACL和CADA的协同作用不是特定于数据集的,可以跨具有不同成像特性的SAR数据集进行转移。
4.2. 性能分析
为了深入分析ConFAS-Net框架的训练特性和泛化能力,图6显示了四种设置下的训练曲线:5-shot、10-shot、15-shot和30-shot。图6显示了不同少样本设置下提出的ConFAS-Net的训练曲线。(a)5-shot,(b)10-shot,(c)15-shot,(d)30-shot,展示了各个时代的训练和验证准确率。从训练准确率曲线可以看出,ConFAS-Net在所有K-shot设置下都稳定收敛,这主要是由于MS-CA模块的多尺度特征提取能力,该功能能够有效地从有限的样本中捕捉关键判别特征。在5-shot设置下,训练准确率在大约80个周期后稳定下来,并且随着样本数量的增加,收敛速度加快,在30-shot时达到稳定。训练曲线和验证曲线之间的差距反映了模型的泛化能力;在5-shot设置中,由于过拟合,准确率差距约为30%,这是少样本学习中的一个常见问题,但CACL通过混淆感知边界调整缓解了类间混淆,使验证准确率保持在约70%;随着样本数量增加到15-shot和30-shot,两条曲线逐渐收敛,显示出很强的泛化能力。验证曲线的波动表明了模型预测的稳定性,在样本数量较少时,验证准确率波动较大,而CADA模块采用类自适应决策策略根据类别混淆动态调整分类边界,增强了模型的鲁棒性。从曲线可以看出,在30-shot设置下,验证曲线的波动显著减少,使得曲线更加平滑和稳定。
4.3. 可视化分析
为了深入分析ConFAS-Net框架与基线TMDC方法相比在性能提升方面的机制,本节在三个维度上进行了可视化对比分析——混淆矩阵、特征分布和类别激活热图——以直观验证每个模块的协同优化效果。
4.3.1. 混淆矩阵的对比分析
图7显示了TMDC基线模型和ConFAS-Net在15-shot测试集上的混淆矩阵对比。图8a和b的比较显示,ConFAS-Net在几个容易混淆的类别中显著提升了分类性能:2S1和D7之间的误分类样本数量从33个减少到5个,减少了84.8%;T72和T62之间的误分类样本数量从10个减少到3个,减少了70.0%;ZIL131和D7之间的误分类样本数量从14个减少到10个,减少了28.6%。这些改进主要归功于两个模块的协同作用:CACL模块通过动态构建类别混淆矩阵来识别上述容易混淆的类别对,并在特征空间中应用有针对性的分离约束,有效地增加了混淆类别之间的特征距离;CADA模块在决策阶段为混淆度较高的类别动态生成较大的缩放因子,从而增强了分类器对这些类别的判别信心。这两个模块通过度量学习和决策调整共同减轻了小样本量场景中的类别混淆问题。图7. 基线TMDC模型与提出的ConFAS-Net在15次射击测试集上的混淆矩阵比较。(a) 基线TMDC;(b) ConFAS-Net。图8. 提出的ConFAS-Net在训练过程中t-SNE特征分布的演变。(a) 第1个周期(准确率=11.29%);(b) 第50个周期(准确率=36.31%);(c) 第150个周期(准确率=83.22%);(d) 第261个周期(准确率=94.97%)。4.3.2 t-SNE特征分布演变分析如图8所示,ConFAS-Net在四个关键训练阶段的t-SNE特征分布展示了特征可分离性的演变。在第一个周期(11.29%)时,10个目标类别随机分布,没有形成任何簇,反映了网络初期缺乏判别能力。到第50个周期(36.31%),MS-CA模块开始发挥作用,初步出现聚类趋势。到第150个周期(83.22%),随着CACL的混淆感知边界优化的实施,形成了明显的聚类结构,类别间的分离显著改善。到第261个周期(94.97%),模型达到收敛,所有10个类别形成了紧凑且边界清晰的簇。这种演变反映了三个模块的协同机制:MS-CA在早期阶段提供丰富的多尺度特征表示;CACL在中期阶段拓宽了类别间的边界;CADA在后期阶段进一步增强了判决的鲁棒性。t-SNE可视化在表示层面上验证了所提出方法在低样本量条件下提高特征可分离性的有效性。4.3.3 基于类别的激活热图可视化分析为了直观解释模型的决策过程,使用了Grad-CAM技术为10个SAR目标类别生成了类别激活热图,如图9所示。红色突出显示的区域表示模型最感兴趣的特征区域,而蓝色区域表示兴趣较低的背景区域。热图显示ConFAS-Net准确地定位了每个目标类别的核心散射区域:对于2S1,激活区域集中在炮塔和船体结构上;对于T-72,激活区域覆盖了枪管和上船体。得益于MS-CA模块的多尺度通道注意力,所有热图中的背景噪声都被大大抑制。对于容易混淆的类别如T-72和T-62,ConFAS-Net产生了不同的激活模式——T-72的高激活集中在前枪管,而T-62的激活集中在中船体——表明CACL和CADA共同引导模型学习相似类别之间的细粒度判别特征。总之,从模型的决策过程角度出发,类别特定激活热图的可视化直观地确认了ConFAS-Net在三个关键方面的优势:特征注意力的精确性、对背景噪声的鲁棒性以及区分容易混淆类别的能力,从而为模型的可解释性提供了有力的视觉证据。图9. 输入SAR图像及其对应的Grad-CAM类别激活图。(a) 2S1。(b) BMP2。(c) BRDM2。(d) BTR60。(e) BTR70。(f) D7。(g) T62。(h) T72。(i) ZIL131。(j) ZSU23/4。5. 结论为了解决小样本条件下SAR目标识别的挑战,本文提出了ConFAS-Net,一种基于多尺度判别特征和混淆感知学习的SAR目标识别方法。MS-CA模块整合了多尺度通道注意力机制,利用多分支并行结构提取不同感受野的特征表示,为后续分类提供丰富的判别特征。混淆感知余弦损失(CACL)根据混淆矩阵统计动态调整容易混淆的类别对的损失边界,有效地增加了特征空间中的类别间分离。类别自适应决策调整模块(CADA)根据每个类别的混淆水平计算自适应缩放因子,并对logits进行有针对性的调整,从而增强了决策的鲁棒性。实验结果显示,ConFAS-Net在MSTAR数据集上的识别准确率达到94.97%,比基线提高了2.93个百分点。在SAMPLE数据集上的进一步实验进一步验证了所提出方法的跨数据集泛化能力,ConFAS-Net在K次射击设置中始终优于所有比较方法。消融实验确认了每个模块的独立和互补贡献。未来,我们计划研究将ConFAS-Net与预训练的基础模型集成,以进一步增强在多种SAR场景下的小样本泛化能力。此外,我们还将探索将所提出的混淆感知学习框架扩展到跨领域SAR目标识别任务,这些任务中由于传感器参数、成像几何和环境条件的变化而产生显著的分布差异,目标是开发一个更强大且适用范围更广的识别系统。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号