ASHAS:一种自适应的、基于结构同配性的采样方法,适用于通用的图神经网络

《Neurocomputing》:ASHAS: Adaptive structural-homophilic aware sampling for universal Graph Neural Networks

【字体: 时间:2026年01月18日 来源:Neurocomputing 6.5

编辑推荐:

  基于结构中心性和同质性指标的软采样方法,通过MLP融合多维度信息实现自适应邻居权重分配,在保持同质图性能的同时显著提升异质图场景的节点分类效果,标准差降低超50%。

  
蔡文康|赵慧秀
南京科技大学数学与统计学院,中国南京

摘要

GraphSAGE的均匀采样方法对所有邻居一视同仁,不考虑它们的结构或同质性相关性。我们提出了ASHAS,这是一种基于MLP融合的软采样策略,能够从结构中心性和同质性指标中学习节点级别的传播系数。与硬采样不同,ASHAS使用连续的softmax权重来实现平滑的消息传递。通过宏观F1分数衡量,我们的即插即用设计在保持性能的同时,改进了GraphSAGE在同质图上的表现(Cora数据集:80.5% vs GraphSAGE:79.0%,提升0.2%),并且在异质图基准测试中也有显著提升(Texas:+11.2%,Chameleon:+6.6%,Actor:+3.2%)。在所有基准测试中,ASHAS的表现都优于经典和最新的方法,并且平均降低了超过50%的标准差,这凸显了其鲁棒性和学习到的传播系数的实用价值。

引言

传统的图神经网络(GNN)如GCN[1]对所有邻居进行同等处理。GraphSAGE[2]引入了均匀采样以扩大规模,但两者都难以处理异质性问题——即不同类型的节点之间存在连接[3];而GAT[4]虽然使用了注意力机制,但也存在同样的限制。
为了解决异质性问题,人们提出了多种专门的GNN方法,包括高阶聚合[3]、频率感知过滤[5]、基于多项式的自适应传播[6]、特征-邻接解耦[7]和图重连[8]。尽管这些方法在特定数据集上表现优异,但它们通常依赖于刚性机制,如预定义的过滤器、硬采样或架构级别的修改,这些可能会引入信息损失或限制消息传递过程中的平滑适应。此外,仅依赖一种信息信号(无论是基于相似性还是结构)在异质图上可能不够充分,因此需要综合考虑这两种因素(见表1)。
在本文中,我们提出了自适应结构-同质性感知采样(ASHAS),这是一种为每个节点分配可学习传播系数的软采样框架。这里的“软采样”指的是通过归一化系数对所有邻居进行连续、可学习的重新加权,与传统的硬采样或剪枝方法不同,后者会减少聚合节点的数量。传播系数是通过一个轻量级的MLP计算得出的,该MLP融合了多种互补的指标,包括标签和特征的相似性以及节点和邻居的中心性。这确保了同时捕获了基于相似性和结构的信号。在消息传递过程中,ASHAS利用这些系数作为连续的、归一化的权重,从而灵活地调整邻居的贡献,而不会丢弃信息。此外,这些系数比纯粹的隐式加权方案更具解释性,因为它们基于明确的结构和同质性指标。
ASHAS的设计目的不是在特定数据集上实现极端性能,而是提供一种简单而有效的机制,以提高GNN在同质和异质图上的实际应用能力。在这里,我们使用“通用”一词来表示其在代表性同质和异质图环境中的鲁棒性,而不是指覆盖所有可能的图类型或规模。
我们的贡献有三个方面:
  • 1.
    我们提出了ASHAS,这是第一个通过多指标融合同时建模结构重要性和同质性的软采样方法,弥合了同质图和异质图之间的差距。
  • 2.
    我们提出了一个基于MLP的AlphaPredictor,用于计算节点级别的传播系数,以便进行自适应软采样。该模型与GNN主干网络端到端训练,实现无缝集成。
  • 3.
    在四个经典基准测试中的实验展示了ASHAS的通用性:在同质图Cora数据集上性能没有下降(80.5% vs GraphSAGE:79.0%,提升0.2%),在异质图基准测试中表现优于GraphSAGE(Texas:+11.2%,Chameleon:+6.6%,Actor:+3.2%),并且平均标准差降低了超过50%——这突显了其在多种图类型上的鲁棒性。
  • 总结来说,ASHAS通过提供一个原则性强、稳定且始终具有竞争力的框架,推动了GNN在多样化图环境中的应用。

    相关工作

    图神经网络(GNN)已成为图表示学习的基石,在节点分类、链接预测和图级推理等下游任务中取得了显著成功。早期方法在同质环境中表现良好,而最近的进展越来越多地关注异质性问题。下面,我们回顾了基础的GNN和针对异质图学习的最新方法,将我们提出的ASHAS置于这一背景下进行定位。

    方法

    我们提出了ASHAS,该框架通过一个轻量级的AlphaPredictor模块增强了GraphSAGE的功能,该模块用于计算节点级别的传播系数,从而实现在不同图结构下的鲁棒节点分类,并兼容各种GNN架构。在本节中,我们定义了问题,概述了数据预处理流程,描述了AlphaPredictor的设计,详细介绍了加权聚合过程,并展示了训练过程。

    任务和评估协议

    我们在基准图上研究了半监督节点分类问题,其中训练期间只有一小部分节点被标记[25],[26]。性能使用宏观F1分数[27]进行衡量,该分数特别适用于不平衡的异质数据集。
    为了评估性能提升的统计显著性,我们对每个数据集进行了多次独立运行的配对双侧检验,将ASHAS与其GraphSAGE主干网络进行了比较。
    所有实验都遵循标准

    进一步分析

    在本节中,我们从三个互补的角度提供了进一步分析,以更好地理解ASHAS的行为和实际特性。
    首先,我们研究了学习到的传播系数在不同图环境中的适应性,揭示了该方法对数据集的依赖性。
    其次,我们评估了计算效率并讨论了可扩展性考虑因素,明确了所提出框架的实际开销和限制。
    最后,我们进行了

    结论

    在这项工作中,我们提出了ASHAS,这是一个轻量级的、即插即用的软采样框架,通过节点级别的传播系数自适应地调整邻居的贡献,从而增强了消息传递GNN的性能。这些系数是通过一个简单的MLP从明确的结构和同质性指标中得出的,实现了连续的、基于梯度的加权,而不会改变原始图的拓扑结构。
    在基准数据集上的实验证明了ASHAS的实用性:它始终

    写作过程中生成式AI和AI辅助技术的声明

    在准备这项工作时,作者使用了Grok和ChatGPT来改进语言表达、可读性和LaTeX格式。使用这些工具后,作者根据需要对内容进行了审查和编辑,并对出版物的内容负全责。

    CRediT作者贡献声明

    蔡文康:撰写——审阅与编辑、初稿撰写、可视化、验证、软件实现、方法论设计、调查分析、概念化。赵慧秀:监督指导。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
    蔡文康目前是中国南京科技大学数学与统计学院的第二年硕士研究生。他的研究兴趣包括图神经网络、图表示学习和异质图学习。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号