《Artificial Intelligence》:Environment Promoted Invariant Information Learning for Graph Out-of-Distribution Generalization
编辑推荐:
针对图异分布泛化中子图估计偏差导致模型性能下降的问题,本文提出CEPG框架,通过动态纠正子图估计偏差和整合环境促进约束与反射机制指导约束,提升目标不变分布学习效果,实验表明CEPG在多种分布偏移下显著优于SOTA方法。
作者:王硕、孙明晨、黄强、王颖
吉林大学计算机科学与技术学院,长春,130012,吉林,中国
摘要
图数据挖掘中的一个重要任务是图分布外泛化(Graph Out-of-Distribution Generalization,OOD),它在许多实际应用中受到了广泛关注。近年来,越来越多的研究致力于应用不变学习(Invariant Learning)和因果学习(Causal Learning)来提高模型的跨环境泛化能力。然而,现有方法在提取不变信息时常常忽略子图估计偏差(subgraph estimation bias),这影响了泛化性能。为了解决这个问题,我们构建了基于因果关系的环境促进图泛化框架(Causality Inspired Environment Promoted Graph Generalization Framework,CEPG),该框架通过整合多种约束来动态纠正子图估计偏差并学习目标不变分布。具体来说,我们首先利用子图生成模块通过评估链接可靠性来明确获取不变子图和环境子图。然后,我们设计了特定的环境信息提取模块以防止环境子图的偏差传播并捕获领域特定知识。最后,我们构建了环境促进的不变信息学习模块,该模块可以通过环境促进和反射机制引导约束将估计的不变分布与目标分布对齐。大量实验表明,我们的方法有效提高了模型在各种分布变化下的泛化能力,并且在合成数据和真实世界图数据分布外泛化基准测试中优于现有方法。
引言
图神经网络(Graph Neural Networks,GNN)由于其强大的非欧几里得数据建模能力,已成为处理复杂图数据的重要工具[1]、[2]、[3]。它们已广泛应用于电子商务[4]、[5]、知识图谱[6]、[7]、药物发现[8]、[9]和社会网络[10]等领域。传统的GNN方法通常假设源域和目标域遵循独立同分布(Independent and Identically Distributed,IID)假设[11]。然而,在现实世界场景中,这一假设往往不成立,模型会遇到分布外(Out-of-Distribution,OOD)数据,从而导致其泛化性能显著下降[12]、[13]。
当前的方法主要通过两种技术途径来提高模型泛化能力。第一类方法利用环境标签构建不变损失函数[14]、[15](例如IRM[16]),引导模型从多环境数据中提取与标签因果相关的不变特征。由于获取图数据的环境标签成本较高[17],现有方法需要从原始数据中学习环境标签。大多数现有学习策略会提取不变子图以保持跨环境的稳定语义信息。剩余的子图可以被视为可能引入虚假相关性的环境信息,然后利用这些环境子图推断环境标签来构建不变损失函数[18]、[19]。另一类方法采用子图混合数据生成范式来生成新样本以提升模型泛化能力[20]、[21]、[22]。这些方法通常利用子图生成器将原始图分解为不变的子图和环境子图[23]、[24],然后随机重组不变子图和环境子图的信息[25]、[26],促使模型学习更具泛化性的知识。
尽管这些方法取得了一些成功,但它们在准确学习不变子图和环境子图方面存在不足[27],从而严重影响了它们的分布外泛化能力。如图1所示,对代表性方法GIL[18](第一类)和IGM[28](第二类)的实证研究表明,它们估计的不变子图对目标不变子图的覆盖率极低。现有方法的核心问题在于它们在模型优化过程中无法有效控制子图估计偏差。如果没有有效的约束,这些偏差可能会在整个优化过程中被进一步放大,严重损害子图识别的准确性。对于第一类方法,环境子图估计偏差会在不变损失优化过程中引入环境混淆偏差,导致模型错误地丢弃因果结构,从而加剧OOD性能的下降。在第二类方法中,环境子图和不变子图中的估计偏差使得重构的样本在语义上不可行且在逻辑上不一致。这些不现实的样本反而通过所含的噪声加强了虚假相关性。
为了解决上述问题,我们提出了基于因果关系的环境促进图泛化框架(CEPG)。我们的方法利用环境信息在模型迭代过程中通过多种约束来纠正偏差,从而使模型能够更好地从原始图中学习不变信息,即不变子图与标签之间的因果关系。具体来说,我们使用子图生成器通过计算边权重来生成不变子图和环境子图。然后,我们设计了特定的环境信息提取模块来纠正环境子图估计偏差。该模块采用环境促进约束来选择性地优化仅与因果相关的环境信息。此外,我们设计了反射机制引导约束,利用环境信息作为参考来实时评估和调整不变分布。为了提高不变信息的质量,我们引入了基于不变子图与标签之间内在因果关系的对比损失。最后,我们将对比损失与上述约束结合起来,形成协同优化机制,使环境信息系统地促进不变特征的学习,最终实现稳定的跨域泛化性能。
本研究的主要贡献如下:
- •
我们发现许多现有的图数据分布外泛化方法在构建不变损失或生成样本时存在估计偏差,这些偏差(例如,因果子图的错误识别)降低了模型在不同环境下的泛化能力。
- •
我们提出了一个新颖的框架CEPG,它避免依赖直接的环境标签估计或人工数据生成,而是通过高质量的环境信息和因果引导约束来促进不变学习。
- •
我们引入了两种基于因果关系的不变信息学习约束:环境促进约束确保只有可靠的环境子图指导优化过程;反射机制引导约束根据因果反馈动态调整不变信息学习。
- •
在合成数据和真实世界数据集上的广泛实验表明,CEPG在各种分布变化(包括结构、大小和属性变化)方面显著优于现有最佳方法。
部分内容片段
图因果学习
因果学习通过深入探索和学习变量之间的因果关系,显著提高了图神经网络(GNN)的可靠性和鲁棒性[29]、[30]。在学习不变子图方面,大多数现有方法专注于挖掘图中具有稳定因果关系的子结构,从而提高模型在变化环境中的预测能力。Dir[31]提出了提取不变因果关系的理论基础
符号说明
设一个图表示为
其中V表示节点集,E?V×V表示边集,表示节点特征矩阵。n=|V|表示节点数量,F表示特征的维度。每行对应于节点vi的特征向量。E表示边的集合,其中(vi, vj)∈E表示节点vi和vj之间存在边。本研究关注图级别的分布外泛化
基于因果关系的环境促进图泛化框架
在本节中,我们介绍了CEPG方法,如图2所示。首先,子图生成模块将图划分为不变子图和环境子图。随后,处理环境子图以提取领域特定的环境信息。最后,联合优化损失结合了估计的环境信息和不变子图的因果机制,应用多种约束来指导模型纠正估计偏差
实验与分析
为了验证CEPG的有效性,我们设计了实验来回答以下研究问题:
- •
CEPG在图分类任务的分布外(OOD)泛化中表现如何?
- •
环境信息在训练过程中如何帮助模型学习不变信息?
- •
CEPG架构中的各个组成部分是否对其整体有效性都有贡献?
- •
主要超参数如何影响CEPG的性能?
- •
度
结论
本文解决了图学习中的分布外泛化问题,即GNN在处理数据分布变化时表现不佳,因为训练过程中忽略了子图识别中的估计偏差。为此,我们提出了基于因果关系的环境促进图泛化框架(CEPG),该框架结合了环境促进学习和反射机制约束。CEPG由三个关键模块组成:用于提取
CRediT作者贡献声明
王硕:撰写——审稿与编辑、撰写——初稿、可视化、验证、方法论、调查、数据整理、概念化。孙明晨:撰写——初稿、监督、形式分析。黄强:撰写——审稿与编辑、监督、概念化。王颖:撰写——审稿与编辑、监督、资源获取。
利益冲突声明
———————————————————————– 王颖报告称获得了国家自然科学基金的支持。王颖还报告获得了吉林省国际科技合作项目的支持。如果还有其他作者,他们声明没有已知的利益冲突或个人关系可能影响本文所述的工作。
———————————————————————–