TabNSA:一种用于高效处理表格数据的原生稀疏注意力机制

《Neurocomputing》:TabNSA: Native sparse attention for efficient tabular data learning

【字体: 时间:2026年02月07日 来源:Neurocomputing 6.5

编辑推荐:

  TabNSA通过融合分层稀疏注意力机制与TabMixer架构,有效建模异构特征并降低计算复杂度,实验表明其优于现有模型且结合LLM可提升少样本学习效果。

  
阿里·埃斯拉米安|强成
肯塔基大学计算机科学系,美国肯塔基州列克星敦罗斯街329号,邮编40506

摘要

由于表格数据的特征类型多样、缺乏空间结构且样本量通常有限,它给深度学习带来了独特的挑战。我们提出了TabNSA这一新颖的深度学习框架,该框架将Native Sparse Attention(NSA)与TabMixer主干网络相结合,以高效地对表格数据进行建模。TabNSA通过动态关注每个实例的相关特征子集来应对计算和表示方面的挑战。NSA模块采用了分层稀疏注意力机制,包括令牌压缩、选择性保留和局部滑动窗口,从而显著降低了标准注意力操作的二次复杂度,同时解决了特征异质性问题。作为补充,TabMixer主干网络通过具有独立参数的并行多层感知器(MLP)分支来捕捉复杂的非线性依赖关系。这些模块通过逐元素求和与均值池化协同工作,使TabNSA能够同时建模全局上下文和细粒度交互。在监督学习和迁移学习场景中的广泛实验表明,TabNSA始终优于现有的深度学习模型。此外,通过将TabNSA与经过微调的大型语言模型(LLM)相结合,我们使其能够在多样化的表格基准测试中有效应对少样本学习挑战。代码链接:https://github.com/aseslamian/TabNSA

引言

表格数据在医疗保健、金融、交通和工程等领域被广泛使用,但由于其特征类型多样、样本量有限以及缺乏空间或时间结构,它带来了独特的挑战[1]。传统的统计和基于树的模型(包括梯度提升决策树)在这些数据上通常表现良好,但它们难以捕捉现代真实世界数据集中出现的复杂、非线性和高维交互[2]、[3]。最近的进展进一步强调了更丰富表示方法的好处,例如将结构化属性与叙述性文本相结合,以提高安全应用中的预测准确性[4]。这些发展突显了需要更具表现力的建模方法,以充分利用表格数据的全部复杂性。
最近,受Transformer启发的模型被用于捕捉成对和更高阶的特征交互[5]。尽管这些方法推动了该领域的发展,但许多模型在计算上仍然代价高昂,缺乏动态稀疏性,或者无法在不同数据环境下进行泛化,例如数据量低或特征逐步增加的情况。此外,大多数机器学习模型假设数据是独立同分布的,但在现实世界中这一假设经常被违反,导致机器学习模型性能下降[6]。
为应对这些挑战,研究人员提出了多种针对表格数据的深度学习模型。一些方法通过增强正则化或嵌入机制来改进多层感知器(MLP),而其他方法则引入了注意力特征选择、门控机制或诱导稀疏性的模块等架构创新。值得注意的例子包括TabNet[7],它利用注意力特征掩码来建模稀疏特征依赖关系;以及DSelect-k[8],它提供了特征子集选择的可微分松弛方法。
另一个此类模型TabMixer[9]通过采用通道级和令牌级混合来扩展MLP-Mixer架构,以捕捉全局特征和实例依赖关系。它在监督学习、迁移学习和增量学习任务中表现出色,同时保持了较低的计算复杂性和对缺失值的鲁棒性。然而,TabMixer的一个关键局限性是它统一处理所有特征,没有区分实例特定的特征重要性,这可能导致冗余并降低可解释性。
与此同时,研究表明注意力机制通过过滤噪声和揭示数据的内在结构来增强模型的鲁棒性[7]。具有优化稀疏注意力和泛化Hopfield层的Transformer变体在特征稀疏或数据旋转的情况下也能保持准确性[10]。Native Sparse Attention(NSA)[11]进一步展示了如何将稀疏性融入注意力机制中,从而在序列建模任务中降低计算开销的同时保持性能。NSA的主要优势在于它能够选择性地关注相关特征而忽略无关特征,从而在遇到Out-of-Distribution(OOD)数据时提高泛化能力。
受这些进展的启发,我们提出了TabNSA,这是一个将NSA与TabMixer主干网络相结合的新颖深度学习框架,以解决表格数据的独特计算和表示挑战。我们的设计基于这样一个观察:表格特征通常表现出稀疏的、实例特定的依赖关系,其中某个维度的相关性在不同样本之间差异显著。通过将特征视为令牌,TabNSA采用分层稀疏注意力机制,结合令牌压缩、选择性保留和局部滑动窗口,动态关注信息丰富的特征子集,同时过滤掉冗余或噪声特征。这种从粗到细的选择过程与TabMixer的并行MLP分支协同工作,提供了捕捉令牌和通道间密集非线性交互的表现能力。这种集成实现了一个轻量级但强大的架构,保留了Transformer风格模型的全局上下文,同时显著降低了二次复杂度,最终提高了在高维和OOD场景下的泛化能力。
总之,本文做出了以下贡献:
  • TabNSA架构。我们提出了TabNSA,这是一种将Native Sparse Attention(NSA)适应于特征-令牌设置的表格模型,并将其与并行TabMixer风格路径相结合。这种组合通过平衡选择性稀疏注意力和密集的、轻量级的令牌/通道混合,同时捕捉全局上下文和细粒度交互。
  • 适用于宽表格的可扩展分层注意力。我们引入了一种分层稀疏注意力设计,它学习实例特定的连接模式,而不是依赖于固定的稀疏性。与标准自注意力相比,这减少了内存和计算开销,使模型能够高效地扩展到高维表格数据集,其中许多特征可能是冗余或噪声的。
  • 通过分布感知的稀疏性和LLM先验实现鲁棒性。我们证明了NSA和TabMixer的结合在特征级和样本级分布变化下增强了泛化能力。此外,通过结合预训练的LLM(例如Gemma)的辅助表示,TabNSA利用语义先验来稳定学习并在极端低数据和少样本情况下提高性能。
  • 全面的实证验证和消融分析。我们在一系列监督学习和迁移学习任务中验证了TabNSA的性能,其表现始终优于现有的最佳基线模型。详细的消融研究进一步证实了我们的分层稀疏注意力在准确性和效率方面的优势,验证了我们的架构选择的影响。
  • 为了将TabNSA置于更广泛的文献背景下,接下来我们回顾了表格学习、基于注意力的表格模型和稀疏注意力机制的相关工作。

    相关工作

    相关工作

    概述。鉴于近期深度表格模型的成功[12],我们回顾了经典方法、深度架构和注重效率的稀疏注意力,以便将TabNSA置于当前的研究背景中。
    经典技术。参数化和非参数化模型由于其鲁棒性和数据效率仍然是强大的基线。常见的选择包括逻辑回归、-最近邻、决策树和梯度提升[13]。在实践中,像XGBoost这样的工具包被广泛采用

    背景

    为了解决标准注意力机制在表格数据处理的长时间上下文建模中的计算效率问题,我们采用了Native Sparse Attention(NSA),这是一种可原生训练的稀疏注意力架构[11]、[29]。此外,我们结合了TabMixer[9],它能够捕捉表格数据中固有的复杂模式和全局依赖关系,其中特征关系往往是非线性和相互依赖的。

    将NSA适应于表格数据

    首先,我们将原始的NSA适应于表格数据。适应细节见表1,该表说明了NSA在序列建模中的原始用途及其在表格数据中的特征级建模中的适应。

    TabNSA模型描述

    接下来,为了有效捕捉表格数据中的长距离依赖关系和特征级交互,我们引入了TabNSA,这是一种将NSA与TabMixer相结合的混合神经架构。该模型旨在通过

    数据集

    在这项工作中,我们在一系列多样化的数据集上评估了TabNSA模型和几个基线模型的性能。评估包括了8个广泛使用的二分类数据集以及来自UCI、OpenML和Kaggle的2个多类数据集。这些数据集涵盖了金融、商业、化学、地理、图像识别和体育等多个领域,确保了对模型的全面评估。

    可解释性分析

    对于表格学习来说,可解释性至关重要,因为决策必须是可审核的,特征属性必须与领域知识一致。因此,我们分析了TabNSA的内部行为,而不仅仅是总体指标。分析分为三个部分:每个实例的特征重要性、全局特征重要性以及说明模型如何分配注意力的可视化图。我们还量化了稀疏性,并将TabNSA的重要性与经典解释方法进行了比较。

    消融研究

    级联TabNSA块。在这项研究中,我们研究了改变TabNSA块的数量对整体性能的影响,如图8所示。我们的发现表明,增加块的数量并不会显著影响最终结果。在大多数情况下,使用单个TabNSA块()就足以在基准数据集中达到第5.4节报告的性能水平。这表明我们的模型可以用相对简单的设计获得强大的结果。

    结论

    在本文中,我们介绍了TabNSA,这是一种将Native Sparse Attention(NSA)适应于表格数据学习的新型深度学习框架。TabNSA通过结合令牌压缩、选择和滑动窗口的分层稀疏策略,动态关注相关特征,解决了传统注意力机制的计算效率问题。与TabNet中的基于掩码的选择和FT Transformer及TabTransformer中的密集特征级自注意力不同,TabNSA

    CRediT作者贡献声明

    阿里·埃斯拉米安:撰写 – 审稿与编辑、撰写 – 原始草稿、软件、方法论、概念化。强成:撰写 – 审稿与编辑、撰写 – 原始草稿、监督、方法论。

    利益冲突声明

    作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
    强成报告获得了国家科学基金会的财务支持。强成报告获得了美国国立卫生研究院的财务支持。阿里·埃斯拉米安报告获得了肯塔基大学的行政支持。如果有其他作者,他们声明没有已知的财务利益或个人

    致谢

    我们感谢公共数据集的创建者和基线模型的作者提供这些资源用于研究。我们衷心感谢肯塔基大学的Brian Gold博士及其团队提供的支持以及必要的研究设施。我们还要感谢肯塔基大学计算科学与信息技术服务研究中心的计算资源。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号