结合空间-光谱多尺度分词技术和解混变换器的超主成分分析方法，用于高光谱图像分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Super principal component analysis with spatial-spectral multiscale tokenization and unmixing transformer for hyperspectral image classification

【字体：大中小】 时间：2026年03月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　高光谱图像分类中，传统Transformer架构存在局部空间语义特征捕捉不足及忽略光谱混合现象的问题。本文提出S3PCA-MTUFormer框架，通过SuperPCA增强特征表示，设计具有光谱注意力模块的多尺度空间特征提取器SSMTT，并开发基于密集网络的对称双分支解混模块DBSU生成子像素信息。采用决策融合机制整合SSMTT与DBSU的输出及SuperPCA分类结果，有效提升少样本条件下的分类精度。实验表明在四类数据集上较最优方法平均提升0.08%-0.64%。

　　
本文提出了一种面向超光谱图像分类的多任务Transformer框架S3PCA-MTUFormer，通过创新性地融合了主成分分析（PCA）、多尺度空间特征提取、混合像素注意力机制等模块，有效解决了现有Transformer架构在超光谱分类中的局限性。该研究主要围绕三个核心问题展开突破：首先是如何在Transformer中增强局部空间-光谱特征的捕捉能力；其次是如何将混合像素的亚像素级信息有效融入分类过程；最后是如何在有限样本条件下实现高精度分类。

在特征表示优化方面，研究引入了SuperPCA预处理模块。通过改进传统主成分分析方法，该模块能够自动提取具有强区分性和抗噪性的基础特征，特别适用于样本量不足的场景。实验表明，SuperPCA对原始数据降维后，不仅减少了计算复杂度，还使特征空间的维度分布更接近实际地物光谱特性，这为后续的深度学习处理奠定了更高效的基础。

针对Transformer架构的固有缺陷，研究团队开发了双重改进策略。在空间特征提取层，采用三组不同尺度（5×5、9×9、13×13）的卷积核并行处理，通过多尺度特征融合机制捕捉从局部到全局的连续空间特征。这种设计使得模型既能关注细小的地物边界，又能把握大范围的区域分布规律。在光谱特征处理方面，创新性地引入了双注意力机制：一方面通过光谱维度注意力计算各波段间的权重分配，另一方面通过空间维度注意力强化相邻像素的关联性，这种双重注意力机制有效提升了模型对复杂光谱混合模式的理解能力。

混合像素处理模块是研究的另一大突破点。传统方法往往将混合像素视为分类噪声，而本研究提出的DBSU（DenseNet-based Dual-Branch Symmetric Unmixing）模块，通过构建两个对称的DenseNet分支，分别处理空间特征和光谱特征。这种对称架构不仅平衡了两种特征的贡献度，更通过密集连接的层间信息传递，实现了对混合像素的精准解混。特别值得关注的是，该模块生成的丰度图不仅包含像素级解混结果，还通过1×1卷积保留光谱特征，这种设计使得解混结果既符合物理机理，又保留了分类所需的精细光谱信息。

多任务联合训练机制是该框架的核心竞争力。研究团队将分类任务与混合像素解混任务进行联合优化，通过共享特征提取层和分叉训练策略，实现了两类任务的协同提升。在训练过程中，系统会自动调整分类权重和解混权重，确保两种任务的梯度更新方向一致。这种多任务学习框架有效解决了单一任务训练中容易出现的特征退化问题，实验数据显示联合训练后的模型在分类精度和解混精度上均优于传统单任务模型。

在模型架构设计上，研究团队采用了分层递进的处理方式。首先通过SSMTT（Spatial-Spectral Multiscale Tokenization Transformer）模块提取多尺度空间-光谱特征，形成语义令牌化的特征表示。接着通过DBSU模块进行混合像素的亚像素级解混，生成包含细粒度空间信息的丰度图。最后通过决策融合模块将SuperPCA分类结果与SSMTT-DBSU联合特征进行加权融合，这种级联结构既保证了处理流程的稳定性，又实现了不同层次信息的有效整合。

实验验证部分展示了该框架在四个真实数据集上的卓越表现：在Indian Pines数据集上，整体分类精度比当前最优方法提升了0.08%，在Salinas数据集上更实现了0.64%的突破性提升。特别值得关注的是，在样本量极少的few-shot场景下，S3PCA-MTUFormer展现出更强的适应性，其分类精度相对于传统方法提升幅度超过基准模型15%。这种性能优势主要得益于三个创新点：SuperPCA预处理模块带来的特征优化、双分支对称解混机制对混合像素的精准处理，以及多尺度特征融合策略对复杂地物类型的全覆盖。

在实际应用中，该框架展现出显著的优势。在农业遥感分类场景中，其能够有效识别出细小的作物区域，例如实验数据中显示，在茶园与林地接壤区域，传统方法的分类混淆率超过40%，而新框架将该数值降低至12%以下。这种细粒度分类能力得益于DBSU模块生成的亚像素级丰度图，该图不仅标注了每个像素的组成比例，还通过空间连续性约束保留了地物的拓扑结构特征。

从工程实现角度，研究团队特别优化了计算效率。虽然引入了多任务联合训练和复杂特征融合机制，但通过合理设计的网络结构（如共享卷积层、参数复用策略），最终在Indian Pines数据集上的推理时间仅为8.09秒，较现有最优模型快约18%。这种高效性得益于DenseNet的密集连接结构带来的信息高效流动，以及Transformer的并行计算特性。

在方法论层面，研究团队提出了系统化的改进路径。首先通过SuperPCA解决数据预处理中的噪声干扰问题，接着通过SSMTT构建空间-光谱协同特征提取体系，然后利用DBSU实现混合像素的精准解混，最后通过多级决策融合机制整合不同来源的信息。这种四阶段处理流程既符合遥感图像处理的客观规律，又通过深度学习实现了各环节的智能优化。

未来研究方向方面，研究团队特别提到在动态场景适应性上的不足。例如，在作物生长周期变化较快的数据集中，现有模型由于特征提取过于依赖静态光谱特征，导致分类性能下降。建议后续研究可以结合时序分析模块，通过引入时间维度注意力机制，增强模型对动态变化的适应能力。

本文的创新价值主要体现在三个方面：其一，首次将SuperPCA与Transformer架构深度融合，构建了具有物理意义的空间-光谱联合特征空间；其二，开发了双分支对称解混模块，通过密集网络结构实现了解混精度与计算效率的平衡；其三，提出多级决策融合框架，有效整合了预处理、特征提取、解混等不同阶段的信息优势。这些创新点共同构成了该框架区别于现有方法的核心竞争力。

从技术发展趋势来看，该研究验证了多模态联合建模在遥感领域的可行性。随着传感器技术的进步，多源遥感数据（如高分辨率光学影像、雷达遥感、激光雷达等）的融合处理需求日益迫切。S3PCA-MTUFormer的成功应用，为后续多源数据融合提供了可借鉴的技术路线，特别是其多任务联合训练机制，为构建通用型遥感分析框架奠定了理论基础。

在农业应用方面，研究团队特别设计了针对农作物分类的优化策略。通过引入作物光谱特征库和生长周期约束，模型在识别单一作物类型时展现出更高的鲁棒性。实验数据显示，在包含水稻、小麦、玉米三种作物的场景中，新框架的分类准确率达到98.7%，较传统方法提升12个百分点。这种性能提升源于DBSU模块对混合像素的精准解混，以及SSMTT模块对作物冠层结构的细粒度捕捉。

综上所述，本文提出的S3PCA-MTUFormer框架通过系统性的技术创新，有效解决了超光谱图像分类中的三大核心问题：局部空间特征捕捉不足、混合像素处理不彻底、有限样本下的泛化能力弱。其技术方案不仅具有理论创新价值，更在农业遥感等实际应用场景中展现出显著优势。后续研究可着重在动态场景适应性和多源数据融合方面进行拓展，这将为智慧农业和精准遥感提供更强大的技术支撑。

联系信箱：

粤ICP备09063491号

热点排行