《Neural Networks》:MMFormer: Multi-Modality Semi-Supervised Vision Transformer in Remote Sensing Imagery Classification
编辑推荐:
多模态半监督学习在高维遥感数据融合中,通过引入拓扑同调特征和一致性正则化项,解决标注稀疏问题并提升模态互补性表达,实验验证优于现有方法。
李代勋|谢伟英|方乐远|王云科|李子瑞|曹明翔|马吉涛|李云松|徐昌
西安电子科技大学综合服务网络国家重点实验室,中国陕西西安710071
摘要
在将变压器架构应用于多模态任务方面已经取得了显著进展。然而,当前的方法(如自注意力机制)很少考虑不同模态之间的特征互补性和一致性对融合带来的好处,这导致了诸如冗余融合或表示不完整等障碍。受到拓扑同调群的启发,我们提出了MMFormer,这是一种用于高维多模态融合的新型半监督算法。该方法通过增强模态映射之间的交互性来捕获全面的表示。具体来说,我们通过在编码器中实现完整的字典查找和同调空间来促进这些异构表示之间的表示一致性,并建立了一种具有排他性意识的映射,以强调它们互补的信息,从而为多模态特征解释提供了强大的补充。此外,该模型通过引入一致性联合正则化项来尝试缓解高维多模态数据中注释稀疏的挑战。我们将这些重点整合到一个统一的端到端优化框架中,并首次探索和推导了半监督视觉变压器在高维多模态数据融合中的应用。在三个基准测试中的广泛实验表明了MMFormer的优越性。具体而言,与最强大的现有方法相比,该模型在Houston2013数据集上的准确率提高了3.12%,在Augsburg数据集上提高了1.86%,在MUUFL数据集上提高了1.66%,证实了其在注释稀疏条件下的鲁棒性和有效性。代码可在以下链接获取:
https://github.com/LDXDU/MMFormer。
引言
近年来,由于在大量数据上训练的自注意力层,新型变压器架构在多模态任务的融合能力方面取得了显著进展(Choudhury等人,2024年;Han等人,2022年;Khan等人,2022年;Mao等人,2022年;Pande和Banerjee,2023年)。
然而,与自然图像领域相比,高维多模态遥感数据在获取完整注释方面受到严重限制,其标签分布高度稀疏(Chadebec等人,2022年;Zhu等人,2024年)。由于高光谱和LiDAR图像的像素级注释成本高昂、需要专业知识和复杂性,大多数基准数据集只对一小部分数据进行了标注。例如,在Houston2013数据集中,标注样本与未标注样本的比例约为1:87.48(如表1所示)。在MUUFL和Augsburg数据集中也观察到了类似的模式,其中超过60%的数据仍未标注,这对完全监督模型构成了重大挑战。为了解决这个问题,视觉变压器的最新研究方向之一是将半监督学习(SSL)与自注意力机制相结合(Liu等人,2024年;Rizve等人,2022b;Yang等人,2022年)。通过利用少量标注数据和大量未标注数据进行嵌入表示学习,SSL可以有效地减少模型对昂贵注释的依赖,同时保持竞争性能。尽管如此,现有的多模态融合框架在这方面仍然存在不足。许多框架只是单模态监督方法的直接扩展,主要旨在提高模态内的聚类性能(Bachmann等人,2022年;Chen和Ho,2022年),而不是利用跨模态互补性或未标注数据分布。此外,如TransUNet、MAFormer和SSViT等架构要么不支持未标注数据,要么采用伪标记策略,在高度异构的多模态环境中容易出错。
多模态学习在利用来自不同数据源的关键见解方面发挥着关键作用,特别是在遥感领域(Zhang等人,2023c)。然而,如图1所示,当前的多模态融合方法主要依赖于(a)全注意力和(b)自注意力机制。这些方法将两种模态的令牌片段直接线性组合到同一个编码器网络中(Cong等人,2022年),往往导致融合空间内的对齐不完整。跨注意力机制通过促进动态特征交互进一步增强了多模态数据融合的性能。它使模型在处理序列数据时能够关注不同的信息位置。例如,Cai等人(2022年)和Weng等人(2022年)通过与未标注样本及其伪标签交互,改进了半监督ViT的正则化,从而提高了准确性。尽管上述方法在该领域取得了显著进展,但从CNN到变压器架构的转变在高维多模态学习中并未产生有希望的结果(Rizve等人,2022a)。这主要是因为这些方法主要关注单源聚类方法的直接转移,导致两个主要缺点:1)强调对双模态令牌的直接线性组合或排列会导致融合冗余,忽视了多模态特征交互的关键作用;2)在一致性损失中使用伪标签限制了模型的可扩展性。所有这些因素使得当前的ViT架构难以全面融合两种模态的特征,并且与CNN相比具有较弱的归纳偏差(Cai等人,2022年;Liu等人,2022年)。
为了解决这些挑战,我们引入了受拓扑同调群启发的同调特征。这些特征衡量了模态之间的结构相似性,以创建一个全面的融合键值映射。具体来说,我们提出了一个
多模态半监督视觉Transformer(
MMFormer),用于处理高维多模态数据。在MMFormer的变压器模块中,我们提出了一个同调注意力融合机制来衡量多模态拓扑结构的同调特征。这有助于在编码器中建立全面的字典查询和映射空间,准确捕捉不同模态之间的一致性和互补性。此外,我们引入了一个半监督一致性损失函数来优化互补的流形结构。广泛的实验表明,当考虑每种模态的全面表示时,半监督ViT的性能优于CNN和现有的Transformer算法,表明了多模态全面表示在半监督高维数据应用中的巨大潜力。具体贡献如下:
•我们创新性地提出了一种名为MMFormer的多模态半监督视觉Transformer算法,适用于高维多模态遥感数据,通过衡量模态之间的结构相似性来提取多模态融合的全面特征。我们是第一个研究和推导半监督视觉变压器在高维多模态数据融合中应用的方法,其性能全面超越了现有的Transformer和CNN算法。
•我们提出了一种多模态一致性正则化函数,用于量化标注样本和未标注样本对模型的贡献,以便更好地利用模态之间的区域上下文信息,并显著提高模型的泛化能力。
•我们在广泛的高维多模态遥感数据集上证明了所提出方法的优越性。此外,消融实验验证了MMFormer和非线性全面表示模型在高维多模态数据融合中的有效性。
章节片段
多模态融合的Transformer
面对场景表示应用日益复杂和多样化的需求(Li等人,2024年;Prakash等人,2021年;Shvetsova等人,2022年;Zhang等人,2021年),深度学习在处理多模态高维数据融合的技术瓶颈方面做出了巨大贡献(Chen和Zhang,2020年;Tian等人,2022年;Xie等人,2023年;Zhou和Shen,2020年)。近年来,研究人员一直在探索使用深度学习模型来推进
问题阐述
在本文中,我们研究了高维数据(例如遥感图像)的多模态分类问题。它可以定义为将两种模态图像中的每个注册像素准确分配到相应的类别。
给定一个由
像素
组成的高维图像
,我们旨在利用不同模态的数据来执行像素级分类任务。
这两种模态捕获了具有相同标签信息的同一场景,p
数据集
为了验证所提出方法在分析高维数据方面的有效性,我们使用了三个包含高光谱的多模态数据集,即Houston2013数据集、Augsburg数据集和MUUFL数据集。
为了评估所提出方法在分类测试图像方面的性能,使用了三个指标:总体准确率(OA)、平均准确率(AA)和kappa(κ)系数。OA衡量正确分类的测试样本与测试样本总数的比例。AA表示平均
结论
在本文中,我们提出了一种名为MMFormer的半监督多模态融合方法,用于高维图像特征。MMFormer建立了一个统一的模型,用于全面融合特征,解决了高维多模态融合的挑战。HA融合的使用准确捕获了不同模态之间的完整和谐特征,而半监督多模态一致性正则化函数缓解了样本不足的问题。
CRediT作者贡献声明
李代勋:写作——审阅与编辑,撰写——原始草案,验证,方法论,形式分析,数据管理,概念化。谢伟英:写作——审阅与编辑,撰写——原始草案,验证,形式分析,概念化。方乐远:方法论。王云科:写作——审阅与编辑,形式分析,数据管理。李子瑞:数据管理,方法论。曹明翔:可视化,验证,资源管理,项目行政。马吉涛:撰写——原始
利益冲突声明
谢伟英报告称她得到了西安电子大学的财务支持。如果有其他作者,他们声明没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本工作部分得到了中国国家自然科学基金(项目编号62121001、U22B2014)和中国科学技术协会青年人才促进项目(项目编号2020QNRC001)的支持,以及中央高校基本科研业务费(项目编号QTZX23048)的部分支持。
李代勋于2022年在中国西安电子大学获得了电信工程学士学位,目前正在综合服务网络国家重点实验室的图像编码与处理中心攻读硕士学位。他的研究兴趣包括多模态图像处理、遥感分类和联邦学习。