FluidFormer：一种结合连续卷积的Transformer模型，用于基于粒子的流体模拟

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：FluidFormer: Transformer with Continuous Convolution for Particle-based Fluid Simulation

【字体：大中小】 时间：2026年01月24日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出基于半监督学习的多模态融合方法MMFormer，利用拓扑同调群思想增强模态间交互，解决高维多模态数据融合中的冗余和不完整问题，在三个基准数据集上验证其有效性并优于现有方法。

李代勋|谢伟颖|方乐媛|王云珂|李子瑞|曹明祥|马继涛|李云松|徐昌

西安电子科技大学综合服务网络国家重点实验室，中国陕西省西安市710071

摘要

在将变压器架构应用于多模态任务方面已经取得了显著进展。然而，目前的方法（如自注意力机制）很少考虑不同模态之间的特征互补性和一致性对融合带来的好处，这导致了诸如冗余融合或表示不完整等问题。受到拓扑同调群的启发，我们引入了MMFormer，这是一种用于高维多模态融合的新型半监督算法。该方法通过增强模态映射之间的交互性来捕获全面的表示。具体来说，我们通过在编码器中实现完整的字典查找和同调空间来倡导这些异构表示之间的表示一致性，并建立了一种考虑排他性的模态映射方式，以强调它们的互补信息，从而为多模态特征解释提供了强大的补充。此外，该模型通过引入一致性联合正则化项来尝试缓解高维多模态数据中注释稀疏的挑战。我们将这些重点纳入了一个统一的端到端优化框架，并首次探索和推导了半监督视觉变换器在高维多模态数据融合中的应用。在三个基准测试中的广泛实验表明了MMFormer的优越性。具体而言，与现有的最强方法相比，该模型在Houston2013数据集上的准确率提高了3.12%，在Augsburg数据集上提高了1.86%，在MUUFL数据集上提高了1.66%，证实了其在注释稀疏条件下的鲁棒性和有效性。代码可在以下链接获取：https://github.com/LDXDU/MMFormer

引言

近年来，由于在大量数据上训练的自注意力层，新型变压器架构在多模态任务的融合能力方面取得了显著进展（Choudhury等人，2024年；Han等人，2022年；Khan等人，2022年；Mao等人，2022年；Pande和Banerjee，2023年）。

然而，与自然图像领域相比，高维多模态遥感数据在获取完整注释方面受到严重限制，并且标签分布高度稀疏（Chadebec等人，2022年；Zhu等人，2024年）。由于高光谱和LiDAR图像的像素级注释成本高、需要专业知识且复杂，大多数基准数据集只对少量数据进行了标注。例如，在Houston2013数据集中，标注样本与未标注样本的比例约为1:87.48（如表1所示）。MUUFL和Augsburg数据集也观察到了类似的情况，超过60%的数据仍未被标注，这对完全监督模型构成了重大挑战。为了解决这个问题，视觉变换器的一个最新研究方向是将半监督学习（SSL）与自注意力机制相结合（Liu等人，2024年；Rizve等人，2022b；Yang等人，2022年）。通过利用少量标注数据和大量未标注数据进行嵌入表示学习，SSL可以有效减少模型对昂贵注释的依赖，同时保持竞争性能。尽管如此，现有的多模态融合框架在这方面仍存在不足。许多框架只是单模态监督方法的直接扩展，主要旨在提高模内聚类性能（Bachmann等人，2022年；Chen和Ho，2022年），而不是利用跨模态互补性或未标注数据分布。此外，像TransUNet、MAFormer和SSViT这样的架构要么不支持未标注数据，要么采用伪标记策略，这在高度异构的多模态环境中容易出错。

多模态学习在利用来自不同数据源的关键见解方面发挥着关键作用，特别是在遥感领域（Zhang等人，2023c）。然而，如图1所示，当前的多模态融合方法主要依赖于（a）全注意力机制和（b）自注意力机制。这些方法将两种模态的标记片段直接线性组合到同一个编码器网络中（Cong等人，2022年），往往导致融合空间内的对齐不完整。交叉注意力机制通过促进动态特征交互进一步增强了多模态数据融合的性能。它使模型在处理序列数据时能够关注不同的信息位置。例如，Cai等人（2022年）和Weng等人（2022年）通过与未标注样本及其伪标签交互来改进半监督ViT的正则化，从而提高了准确率。尽管上述方法在该领域取得了显著进展，但从CNN到变压器架构的转变在高维多模态学习中并未产生有希望的结果（Rizve等人，2022a）。这主要是因为这些方法主要关注单源聚类方法的直接转移，导致了两个主要缺点：1）强调双模态标记的直接线性组合或排列会导致融合冗余，忽略了多模态特征交互的关键作用；2）在一致性损失中使用伪标签限制了模型的可扩展性。所有这些因素使得当前的ViT架构难以全面融合两种模态的特征，并且与CNN相比具有较弱的归纳偏差（Cai等人，2022年；Liu等人，2022年）。

为了解决这些挑战，我们引入了受拓扑同调群启发的同调特征。这些特征测量模态之间的结构相似性，以创建一个全面的融合键值映射。具体来说，我们提出了一种名为MMFormer的多模态半监督视觉变换器，用于处理高维多模态数据。在MMFormer的变压器模块中，我们提出了一种同调注意力融合方法来评估多模态拓扑结构的同调特征。这有助于在编码器中建立全面的字典查询和映射空间，准确捕捉不同模态之间的一致性和互补性。此外，我们引入了一个半监督一致性损失函数来优化互补的流形结构。广泛的实验表明，当考虑每种模态的全面表示时，半监督ViT的性能优于CNN和现有的Transformer方法，表明多模态全面表示在半监督高维数据应用中具有巨大潜力。具体贡献如下：

•
我们创新性地提出了一种名为MMFormer的多模态半监督视觉变换器算法，适用于高维多模态遥感数据，通过测量模态之间的结构相似性来提取多模态融合的全面特征。我们是第一个研究和推导半监督视觉变换器在高维多模态数据融合中应用的方法，其性能全面超越了现有的Transformer和CNN算法。
•
我们提出了一种多模态一致性正则化函数，用于量化标注样本和未标注样本对模型的贡献，以便更好地利用模态之间的区域上下文信息，并显著提高模型的泛化能力。
•
我们在广泛的高维多模态遥感数据集上证明了所提出方法的优越性。此外，消融实验验证了MMFormer和非线性全面表示模型在高维多模态数据融合中的有效性。

部分片段

多模态融合的Transformer

面对场景表示应用日益复杂和多样化的需求（Li等人，2024年；Prakash等人，2021年；Shvetsova等人，2022年；Zhang等人，2021年），深度学习在处理多模态高维数据融合的技术瓶颈方面做出了巨大贡献（Chen和Zhang，2020年；Tian等人，2022年；Xie等人，2023年；Zhou和Shen，2020年）。近年来，研究人员一直在探索使用深度学习模型来推进

问题表述

在本文中，我们研究了高维数据（例如遥感图像）的多模态分类问题。它可以定义为将两种模态图像中的每个注册像素准确分配到相应的类别。

给定一个由

像素

组成的高维图像，我们旨在利用不同模态的数据 $I_{1},I_{2}\inR^{h \times w \times c} 来执行像素级分类任务。$

这两种模态捕获了带有标签信息的相同场景

L \in R^{h \times w \times m}

为了评估所提出方法在分析高维数据方面的有效性，我们使用了三个包含高光谱的多模态数据集，即Houston2013数据集、Augsburg数据集和MUUFL数据集。

为了评估所提出方法在分类测试图像方面的性能，使用了三个指标：总体准确率（OA）、平均准确率（AA）和kappa（κ）系数。OA衡量正确分类的测试样本数量与总测试样本数量的比例。AA表示平均

结论

在本文中，我们提出了一种名为MMFormer的半监督多模态融合方法，用于高维图像特征。MMFormer建立了一个统一的模型，用于全面融合特征，解决了高维多模态融合的挑战。使用HA融合可以准确捕获不同模态之间的完整和谐特征，而半监督多模态一致性正则化函数则缓解了样本不足的问题。

未引用的参考文献

表2、表3、表4和表10。

CRediT作者贡献声明

李代勋：撰写——审阅与编辑，撰写——初稿，验证，方法论，形式分析，数据整理，概念化。谢伟颖：撰写——审阅与编辑，撰写——初稿，验证，形式分析，概念化。方乐媛：方法论。王云珂：撰写——审阅与编辑，形式分析，数据整理。李子瑞：数据整理，方法论。曹明祥：可视化，验证，资源，项目管理。马继涛：撰写——初稿

利益冲突声明

谢伟颖报告称获得了西安电子大学的财务支持。如果还有其他作者，他们声明没有已知的利益冲突或个人关系可能影响本文所述的工作。

致谢

这项工作部分得到了中国国家自然科学基金（项目编号62121001、U22B2014）和中国科学技术协会青年人才促进项目（项目编号2020QNRC001）的支持，以及中央高校基本科研业务费（项目编号QTZX23048）的支持。

李代勋于2022年在中国西安电子大学获得了电信工程学士学位，目前正在综合服务网络国家重点实验室的图像编码与处理中心攻读硕士学位。他的研究兴趣包括多模态图像处理、遥感分类和联邦学习。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号