基于自适应路由的多时间尺度表示方法在时间偏移下的深度表格学习中的应用
《Neural Networks》:Multi-Timescale Representation with Adaptive Routing for Deep Tabular Learning under Temporal Shift
【字体:
大
中
小
】
时间:2026年02月02日
来源:Neural Networks 6.3
编辑推荐:
TARS方法通过显式时间编码与隐式漂移编码结合自适应路由机制,有效解决表型学习中多时间尺度动态漂移问题,提升MLP、DCNv2等模型在真实时序数据上的鲁棒性,实验显示平均性能提升2.17%。
王天宇|张迈特|卢明轩|李冕
上海交通大学全球未来技术研究院,中国上海
摘要
在现实世界的应用中,表格数据集通常会随时间演变,这种时间变化会降低长距离神经网络的性能。大多数现有的时间编码或适应解决方案将时间线索视为单一尺度上的固定辅助变量。本文受到时间变化具有异质时间动态的多层次特性的启发,提出了一种名为TARS(基于路由尺度的时间抽象)的新方法,该方法适用于各种深度学习模型框架,能够在时间变化的情况下实现鲁棒的表格学习。首先,一个显式的时间编码器将时间戳分解为短期相关性、中期周期性和长期上下文嵌入,并利用结构化记忆进行编码。接下来,一个隐式的漂移编码器在同一对齐的时间尺度上跟踪高阶分布统计信息,生成反映持续时间动态的漂移信号。这些信号驱动一个感知漂移的路由机制,动态调整显式时间路径的权重,以强调当前条件下最相关的时间尺度。最后,特征-时间融合层将路由后的时间表示与原始特征结合,注入具有上下文感知的偏差。在TabReD基准测试的八个真实世界数据集上的广泛实验表明,TARS在各种模型框架上的表现始终优于竞争方法,平均相对提升达到了+2.38%(针对MLP)和+4.08%(针对DCNv2等)。消融研究验证了这四个模块的互补作用。这些结果突显了TARS在提高现有深度表格模型时间鲁棒性方面的有效性。
引言
在许多现实世界的应用中,表格数据集并不是静态的,而是会随时间演变,这违反了独立同分布(i.i.d.)样本的常见假设。相反,数据生成过程通常是逐渐或突然变化的,导致时间变化,包括输入特征的边际分布、输入与输出之间的条件关系,甚至标签分布随时间的变化(参见Bayram等人(2022a);Guo等人(2021);Read和Indr?(2025);Soares和Minku(2025)的研究)。这种变化在金融、制造、电子商务、交通和医疗保健等领域非常普遍,因为这些领域的数据收集周期较长。实证研究表明,即使对于在静态基准测试下具有强泛化能力的方法,时间变化也会导致模型性能严重下降(参见Gardner等人(2023);Rubachev等人(2024)),这对在实际系统中可靠地长期部署表格模型构成了重大障碍。
与此同时,表格学习领域近年来取得了快速进展,出现了新的架构和评估框架,重新审视了深度学习与梯度提升决策树的优点,并探索了预训练或基础模型范式。代表性发展包括最近邻增强的深度模型(如TabR,Gorishniy等人(2024b))、参数高效的集成MLP(如TabM,Gorishniy等人(2024a))、高维低样本量方法(如PLATO,Ruiz等人(2023))、基于Transformer的特征加权方法(如Zhang等人(2024))、TabularBench鲁棒性基准(Simonetto等人(2024)以及TabPFN表格基础模型(Hollmann等人(2025)),还有关于表格数据深度和表示学习的最新研究(Jiang等人(2025))。这些发展突显了表格深度学习日益重要的地位,以及在这一演变趋势中明确处理时间变化的必要性。
在现有的缓解时间变化的方法中,将时间信息编码到模型框架中的方法与本文最为相关。这些技术通过傅里叶风格的时间戳扩展、季节性趋势分解、位置或频域编码,或时间感知的多视图融合(Cai和Ye(2025b);Li等人(2025);Liu等人(2024);Pelicani和Ceci(2025);Zhang等人(2023);Zhu等人(2024))来整合时间信息。这些技术揭示了表格流中的周期性或趋势模式,并成为实证研究的主要基准。其他相关努力包括通过将不同的时间段视为不同的领域来扩展领域泛化(Cai等人(2024);Jin等人(2024);Xu等人(2024),以及在模型推理期间使用未标记的目标数据进行测试时适应(Du等人(2025);Wang等人(2025);Yang等人(2024);Zhou等人(2025)),以及采用轻量级的最后一层更新作为实际选项(Kirichenko等人(2023);Le等人(2023))。在这些研究方向中,时间线索通常被作为固定辅助变量使用,或者仅用于事后适应,而跨多个时间分辨率的模式组织和协调仍然很大程度上未被探索。
对多样化表格基准测试中时间变化的仔细研究表明,核心挑战在于处理在多个相互作用的时间范围内展开的变化(Cai和Ye(2025b);Gardner等人(2023);Rubachev等人(2024)),这些变化从突然的峰值到逐渐的漂移、季节性振荡和长期趋势都有(见图1)。从概念层面来看,神经科学关于时间整合的见解为在演变环境中对多个时间粒度进行建模和自适应信息路由提供了补充动机(Miller和Constantinidis(2024))。这些观察指出了该研究领域的两个明显缺口:(1)缺乏一种原理性的多时间尺度时间抽象方法,能够分离和参数化相关性、季节性和长期结构;(2)缺乏一种能够跨时间分辨率路由重点并整合隐式上下文以抑制瞬态波动的控制机制。
为了解决这些缺口,本文提出了TARS(基于路由尺度的时间抽象),这是一种用于表格学习的新型即插即用方法,能够根据时间变化自适应地组织和整合时间表示。TARS包括四个相互作用的模块:(1)一个显式的时间编码器,将时间戳分解为短期相关性、中期周期性和长期上下文嵌入;(2)一个隐式的漂移编码器,跟踪对齐分辨率下的分布统计信息和高阶矩;(3)一个感知漂移的适应路由模块,根据检测到的漂移信号动态调整时间路径的权重;(4)一个特征-时间融合层,将具有上下文感知的时间偏差注入特征空间。在TabReD的八个真实世界数据集上的广泛实验表明,TARS在各种模型框架上的表现始终优于现有技术,平均相对提升达到了2.17%。消融研究进一步证实了每个模块在处理时间变化方面的积极作用,特别是在混合或长期漂移的情景中。
本文的其余部分安排如下:第2节回顾了关于时间变化下表格数据学习的相关文献。第3节详细介绍了提出的TARS方法及其四个主要模块。第4节介绍了实验设置、数据集、基线和比较结果,随后是深入分析和消融研究。最后,第5节总结了本文并讨论了未来的研究方向。
节选内容
表格学习中的时间变化
早期的表格学习研究主要依赖于UCI和OpenML等独立同分布(i.i.d.)基准测试来验证基于GBDT或深度学习模型的算法性能(Grinsztajn等人(2022);Villaizán-Vallelado等人(2024))。与此同时,关于漂移和数据流的文献为非平稳性建立了一个通用框架:区分输入分布和输入-输出关系(有时还包括标签分布)的变化,如图2所示;
方法论
本节介绍了TARS时间学习方法,该方法旨在根据分布变化自适应地组织时间表示,如图3所示。该方法受到神经认知发现的启发,将时间抽象建模为一个基于内部漂移信号选择性地强调不同时间尺度的条件过程。虽然经典理论强调快速和慢速记忆系统,但最新证据支持更广泛的层次结构。因此,TARS方法
TabReD基准数据集
为了研究现实世界表格场景中的时间变化,本文使用了TabReD基准中的真实世界数据集(Rubachev等人(2024)。TabReD包括八个行业级数据集,涵盖金融、电子商务、保险、交通和配送服务等领域。与传统表格基准相比,TabReD解决了缺少时间戳元数据和缺乏真实时间演变等关键问题。具体来说,这三个数据集是
结论
本研究探讨了时间变化下的表格学习问题,并介绍了TARS,这是一种即插即用的方法,它将显式的多尺度时间编码与隐式的漂移信号和自适应路由相结合。在TabReD基准的八个具有挑战性的真实世界数据集上的实证结果表明,TARS在时间集成方面的表现始终优于竞争方法。所提出的方法还在不同类型的模型框架中展示了互补效果
未引用的参考文献
缺失的参考文献:表B1、表B2、表B3、表B4、表B5、表B6、表B7、表B8
数据和代码的可用性
本研究中使用的代码将在后续发布在公共GitHub仓库中。数据作为公共的TabReD基准数据集即可获取。
CRediT作者贡献声明
王天宇:撰写 – 审稿与编辑,撰写 – 原稿,监督,项目管理,方法论,概念化。张迈特:撰写 – 原稿,可视化,验证,方法论,概念化。卢明轩:可视化,数据整理。李冕:撰写 – 审稿与编辑,监督。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了中国国家自然科学基金(项目编号52275263)的支持,部分还得到了上海交通大学全球未来技术研究院未来学者计划的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号