《Neural Networks》:Handling Distribution Shifts on Dynamic Graphs via Causal Invariance Principles
编辑推荐:
动态图神经网络(DyGNNs)面临训练与测试数据分布独立同分布假设的挑战,实际动态图结构随时间演变导致传统模型失效。本文提出基于因果不变性原理的DCIP框架,通过多特征提取模块挖掘节点交互模式,结合傅里叶变换与Transformer分离因果与非因果模式,并引入虚拟干预正则化生成干预分布以增强环境稳定性。实验表明DCIP在六类动态图数据集和四类分布偏移场景中均优于基线方法。
赵超|张亚飞|刘润硕|宋倩瑜|赵忠英|曾庆天
山东科技大学电子与信息工程学院,青岛,266590,中国
摘要
动态图神经网络(DyGNNs)通常假设训练数据和测试数据遵循独立同分布(i.i.d.)的假设。然而,在现实世界中,动态图结构的演变特性违反了这一假设,导致传统的深度学习模型无法泛化到测试数据上。在本文中,我们提出了DCIP方法,通过因果不变性(Causal Invariance, CPI)原理来处理动态图上的分布偏移(Distribution Shifts),该方法旨在揭示在各种环境中保持稳定的因果模式,从而解决分布偏移问题。具体来说,我们首先开发了一个多特征提取模块,通过交互频率编码来探索隐式的节点交互模式。此外,我们设计了一个频域因果解耦架构,结合了傅里叶变换(Fourier Transform)和变换器(Transformer),以区分因果模式和非因果模式。最后,我们引入了一种虚拟干预正则化策略,主动扰动非因果组件以生成一组干预分布,从而确保在变化的环境中学习到的因果模式的稳定性。在六个动态图数据集和四个分布偏移数据集上的广泛实验表明,DCIP在多个任务中均显著优于现有方法。代码可在以下链接公开获取:
https://github.com/zhabng/DCIP。
引言
作为建模复杂系统的重要工具,动态图通过时间顺序的交互边展示了实体之间的演化关系。它们在社交网络分析(Alvarez-Rodriguez等人,2021年)、交通网络预测(Pfaff等人,2020年)、生物信息学(Ahmedt-Aristizabal等人,2021年)以及推荐系统(Yu等人,2023a年;Zhang等人,2022a年)等领域有着广泛的应用。与静态图建模相比,DyGNN的核心挑战在于捕捉时变拓扑结构和节点特征的共演化。现有方法分为两种范式:离散时间动态图(DTDG)方法,将演化过程离散化为快照,并在每个快照上应用静态图学习。然而,这种框架忽略了快照内部和之间的细粒度时间顺序,并且对所选时间粒度敏感,容易产生模式截断(Yang等人,2024年;Zhang等人,2023a年);连续时间动态图(CTDG)方法,使用时间点过程来建模事件流,将实体视为节点,将带时间戳的交互视为边。通过保留精确的时间戳,CTDG方法更好地保持了时间连续性,并在预测任务中表现出更高的灵活性和鲁棒性(Gravina和Bacciu,2024年;Longa等人,2023年)。
尽管现有的图学习方法在多个领域取得了显著成功,但现实世界图数据中的分布偏移现象对这些方法的性能构成了重大挑战(Zhang等人,2022b年)。这种限制源于图数据的动态和演变特性,阻碍了在不同时间和环境之间保持一致的分布。因此,图学习模型需要具备更强的泛化和鲁棒性。如图1(a)所示,随着收入的增加,女性更倾向于购买奢侈品;怀孕后,消费行为倾向于转向母婴相关产品。图1(b)显示,在早期阶段,合作主要发生在计算机科学专业的同学之间;在高等教育阶段,合作重点转向了人工智能领域,并通过与教师的紧密合作;晋升后,研究方向扩展到了人工智能驱动的药物研究,涉及与生命科学研究人员的跨学科合作。这种强烈的环境特定相关性可能导致模型在其他网络或场景中的预测失败(Piao等人,2024年;Wang等人,2022年),因为传统方法过度依赖环境敏感特征而忽略了分布稳定的模式。在本文中,我们研究了处理连续时间动态图中分布偏移的问题。这些网络中的不同关系可以通过构建动态图结构来表示。这些结构不仅包含时变的节点和边,还涉及复杂的图结构和与不同频率分量交织的特征演化(Skarding等人,2021年)。这些隐含的多尺度频率分量不仅揭示了图数据的动态特性,还为理解分布偏移的机制提供了新的视角。这一见解促使我们在频域中构建了一种新的范式,以实现分布外(OOD)泛化(Tian等人,2024年)。在本文中,我们关注以下两个关键挑战:
1) 动态图面临区分稳定模式和变化模式的困境:在动态图场景中,节点属性的演化与时变拓扑结构紧密相关,这使得区分稳定模式和动态变化变得困难。为了探索数据传输模式,研究人员需要从这些动态中识别和提取不变的核心模式。DIDA(Zhang等人,2022c)采用时空注意力网络构建结构掩码矩阵,并通过解耦的注意力机制分解节点特征中的不变模式。然而,现有研究主要关注时间动态,忽略了由频域交织引起的复杂干扰模式,这限制了它们表征跨尺度潜在模式的能力。
2) 动态图面临节点变化的隐式环境识别挑战:传统的OOD泛化方法通常假设欧几里得数据具有明确的环境标签(Chen等人,2022a),这些方法旨在通过挖掘跨环境不变量来提高模型对未知环境的适应性。例如,IRM(Arjovsky等人,2019)从训练数据中推断环境,这些环境可能代表不同的测量条件、位置或时间段。然而,图分布偏移可能源于深层因素,如拓扑演化(Yehudai等人,2021年)、社区形成机制(Li等人,2023年),这使得明确定义环境边界变得困难,环境标签也难以获得。现有方法如EERM(Wu等人,2022a)在模型实例化过程中生成环境以多样化输入数据。然而,即使有环境标签,噪声水平仍然存在,导致模型在OOD场景中的性能显著下降。
为了解决上述挑战,我们将因果不变性原理整合到DyGNNs中,并提出了一种基于因果不变性原理的动态图神经网络。在不同的数据环境中,虚假模式和标签之间的关系可能会发生变化,但标签的因果模式保持稳定。利用因果判断中的不变性原理来解决动态图中的OOD问题,我们的方法偏离了传统的不变学习范式。我们不是在观测分布上优化模型,而是直接针对干预分布进行操作。具体来说,我们在频域中使用do操作符执行因果干预,生成模拟多样化环境的扰动分布。通过聚合多次干预的因果信号,我们提取出稳健的因果模式,并在分布偏移下确保预测的一致性。为了增强表示学习,我们结合标签监督共同训练模型以获得动态节点嵌入。本工作的主要贡献总结如下:
- •
一种新框架:
我们提出了一种用于动态图的因果不变学习框架,该框架将因果推理理论与频域分析相结合,以区分因果和非因果模式。
•一种新视角:
我们使用结构因果模型来形式化因果模式和非因果模式之间的关系,并利用do演算进行虚拟干预,以确保稳定性。•卓越的性能:
我们在真实世界和合成数据集上进行了广泛实验。结果表明,DCIP在分布偏移情况下优于现有基线。本文的其余部分组织如下:第2节回顾相关工作。第3节介绍动态图概念。第4节详细阐述DCIP框架。第5节通过实验评估性能。最后,第6节提供总结。
相关研究
相关工作
在本节中,我们回顾了与本文相关的文献,特别是动态图神经网络、动态图上的分布外学习以及图上的傅里叶变换。
初步知识
定义1. 连续时间动态图(Yu等人,2023b)。我们将连续时间动态图表示为时间顺序非递减的交互事件序列