一种结合梯度映射与融合技术的图神经网络新型知识蒸馏方法

《Information Fusion》:A Novel Knowledge Distillation Method for Graph Neural Networks with Gradient Mapping and Fusion

【字体: 时间:2026年01月21日 来源:Information Fusion 15.5

编辑推荐:

  知识蒸馏、图神经网络、动态梯度映射、注意力融合、生成对抗模仿学习

  
Kang Liu|Shunzhi Yang|Chang-Dong Wang|Yunwen Chen|Zhenhua Huang
机构:华南师范大学计算机科学学院,城市:广州,邮编:510000,国家:中国

摘要

图知识蒸馏(GKD)的主要目标是将知识从复杂的图神经网络(GNN)“教师”转移到一个更小但更高效的GNN或多层感知器“学生”中。尽管现有方法解决了网络可扩展性问题,但它们依赖于一个固定的“教师”模型,该模型无法解释如何得出结果,从而限制了性能并阻碍了“学生”模型的改进。因此,我们提出了一种新的GKD方法,称为动态梯度蒸馏(DGD),该方法包括基于生成对抗模仿学习(GAIL)的梯度映射和两阶段梯度融合模块。前者利用GAIL的原理来构建“教师”的学习过程以理解知识。后者则包含注意力融合和加权偏置操作。通过注意力融合操作,它捕获并融合“教师”的响应,从而改变“学生”每层的梯度。然后通过加权偏置操作将融合后的梯度与“学生”模型的反向传播梯度结合起来进行更新。DGD使“学生”能够高效地继承和扩展“教师”的学习过程。使用七个公开可用的数据集进行的广泛实验表明,DGD在节点分类任务中的表现显著优于一些现有方法。我们的代码和数据发布在 https://github.com/KangL-G/Dynamic-Gradient-Distillation

引言

图神经网络(GNN)[1] 通过建模图结构关系,能够高效地处理和分析复杂结构的数据。GNN广泛应用于各个领域,包括社交网络[2]、生物系统[3]和交通基础设施[4]。然而,随着图结构变得越来越复杂(例如节点和边的数量过多、图的拓扑结构以及高维嵌入特征),研究人员需要设计更复杂的网络架构。这种复杂性导致模型在处理大规模图数据时的可扩展性和计算效率面临挑战。为了解决这些挑战,知识蒸馏(KD)[5]、[6]、[7] 作为一种模型压缩技术,在提高GNN的可扩展性方面显示出巨大潜力。KD将“隐性知识”从更大、更复杂的模型(“教师”)转移到更小、更紧凑的模型(“学生”)中,使“学生”能够在减少资源使用和复杂性的同时达到或超过“教师”的性能。因此,多项研究将KD引入GNN,从而产生了图知识蒸馏(GKD)[8]、[9]这一领域,专门用于图结构数据。
与传统的KD不同,GKD在“教师”和“学生”之间传递图表示学习的能力,并解决了图结构及其节点之间关系的复杂性问题。这使得GKD能够更有效地捕获图数据中的结构信息和复杂关系。然而,现有的GKD研究主要集中在利用“教师”模型的输出(logits/特征)来指导“学生”的学习,而忽视了对“教师”学习过程的深入理解。例如,He等人[10]引入了一个基于生成对抗网络(GANs)的图对抗知识蒸馏框架,其中“学生”被训练为一个生成器,以“欺骗”区分“教师”和“学生”输出的判别器。Tian等人[11]将传统的图知识蒸馏损失函数重新定义为目标类(TCGD)和非目标类(NCGD)损失函数,通过利用GNN预测置信度与NCGD损失之间的负相关性来消除固定权重。
上述方法可以在很大程度上显著提高“学生”模型的性能。首先,它们忽略了“教师”学习过程对指导“学生”的重要性。“教师”模型通常在“学生”训练期间是预先训练好的且固定的,无法提供任何动态的学习过程。“学生”仅从“教师”的输出中学习,而不理解这些结果背后的过程。这一限制阻碍了性能的提升,使得获得最佳结果变得困难。因此,迫切需要一种新的GKD范式,使“学生”能够在模仿“教师”学习过程的同时吸收其知识。
其次,它们缺乏对学习过程的动态建模和模仿。在GNN中,学习过程不仅仅体现在最终预测或中间表示上,而是由训练过程中的梯度驱动的优化动态所决定的。具体来说,梯度编码了模型如何根据图结构数据调整其参数,隐含地捕获了学习方向、特征敏感性以及拓扑和语义信息如何逐层和训练迭代中逐步提取和传播的方式。因此,梯度提供了关于“教师”模型如何学习的细致和动态的描述,而不仅仅是它学到了什么。这一观察自然引出了一个关键问题:是否可以利用梯度来明确地建模和传递“教师”的学习过程?然而,据我们所知,现有的GKD方法尚未找到相关的解决方案。鉴于这一差距,我们从生成对抗模仿学习(GAIL)[12]中获得了灵感。GAIL的核心思想是训练一个代理(即“学生”)使用对抗训练来模仿专家(即“教师”的行为策略。类似地,在GKD中,我们可以将“教师”梯度的变化视为“学生”模仿和提升性能的学习策略。然而,传统的GAIL主要是为顺序决策问题设计的。将其直接应用于图数据可能会遇到内在的限制,例如复杂的节点连接性,这可能使训练过程更加具有挑战性。因此,我们采用GAIL的核心思想来设计一种基于图数据特征和网络梯度之间关系的学习模仿方法。
为了克服传统GKD中缺乏动态指导的问题,并将GAIL适应于图数据,我们提出了一种新的知识蒸馏方法,称为动态梯度蒸馏(DGD)。它包括两个主要模块:基于GAIL的梯度映射(GAIL-GM)和两阶段梯度融合(TSGF)。GAIL-GM模块将训练过程中“教师”的时间和空间梯度变化建模为梯度模仿生成器,并通过相应的判别器进行优化,从而为“学生”提供额外的监督。值得注意的是,GAIL-GM模块与“教师”模型同步训练,确保只有“学生”在训练过程中得到更新。这使得“学生”能够在训练过程中持续捕获和更新复杂的数据关系,从而有效克服传统GKD的局限性。
TSGF模块用于“学生”的梯度学习。它首先通过注意力融合操作融合生成的梯度,然后使用简单而有效的加权偏置操作对“学生”的梯度进行二次更新。这增强了“学生”学习和处理复杂数据的能力。结合GAIL-GM和TSGF模块,我们的方法可以动态适应复杂的数据关系,同时最大化“教师”的指导作用,从而显著提高“学生”的理解能力。同时,DGD不仅有效解决了传统GKD方法的局限性,还为GKD提供了一个新的范式。
主要贡献总结如下:
  • 我们提出了一种动态梯度蒸馏(DGD)方法,为“学生”提供了一个类似于“教师”的可模仿学习过程。它完全探索了“教师”的学习信息,并提高了“学生”的学习效率和性能。
  • 受GAIL的启发,我们构建了GAIL-GM模块,用于在时间和空间维度上建模“教师”的梯度动态,从而为“学生”提供了一个动态且可学习的学习过程。据我们所知,我们是第一个将GAIL引入GKD以建模动态学习过程的。
  • 我们设计了TSGF模块,用于对“学生”的梯度进行二次更新。它利用注意力融合和加权偏置操作来处理来自生成器的梯度,增强了“学生”对图数据的理解和分析能力。
  • 我们使用三种不同的架构和七个公开可用的数据集进行了广泛的实验,以评估DGD方法的有效性。实验结果证实,DGD在节点分类任务中的表现优于23种基线方法。
  • 与本工作相关的前期研究在第2节中进行了综述。第3节回顾了符号和问题陈述、GKD、GNN和GAIL的背景。第4节提供了所提出方法的详细信息。第5节验证了我们的方法在不同数据集和架构上的性能。最后,第6节对本文进行了总结。

    相关工作

    相关工作

    在本节中,我们首先回顾了两种类型的图知识蒸馏:GNN到GNN(G2G)和GNN到MLP(G2M)知识蒸馏,然后介绍了生成对抗模仿学习(GAIL)。

    符号和问题陈述

    符号说明。我们将图表示为 G=(V,E),其中 VE 分别表示节点集和边集。此外,节点特征表示为 XRN×d,其中 N 是节点的总数,d 是每个节点的特征向量的维度。邻接矩阵 ARN×N 表示节点之间是否存在邻居连接,其中 Aij=1 表示存在边 (i,j)E,否则为0。
    问题陈述。在图数据集 D(G,X,Y) 中,YRN×C 表示标签矩阵

    方法论

    在本节中,我们首先在IV.A部分介绍了动态梯度蒸馏(DGD)的概述。接下来,在IV.B和IV.C部分详细描述了GDG涉及的两个模块。然后,在IV.D部分提供了DGD的优化目标和伪代码。最后,在IV.E部分对DGD的动机进行了理论分析。

    实验

    在本节中,我们首先介绍了实验中使用的七个公共图数据集和十七个基线方法。然后,我们描述了实现细节。最后,通过一系列广泛的实验展示了我们方法的有效性。实验旨在回答以下问题:
    RQ1:与最先进的基线方法相比,DGD在节点分类任务中能否实现更好的性能?
    RQ2:不同架构的“教师”模型如何影响...

    结论

    在本文中,我们研究了图数据挖掘中的节点分类问题,并提出了一种称为动态梯度蒸馏(DGD)的方法。DGD包括一个基于GAIL的梯度映射(GAIL-GM)模块和一个两阶段梯度融合(TSGF)模块,旨在提高“学生”的学习和理解能力。具体来说,GAIL-GM模块使用模仿生成器建模“教师”梯度的变化,并通过相应的判别器进行优化。

    CRediT作者贡献声明

    Kang Liu:撰写——原始草案、可视化、验证、方法论、概念化。Shunzhi Yang:软件、资源。Chang-Dong Wang:撰写——审阅与编辑。Yunwen Chen:软件、资源。Zhenhua Huang:撰写——审阅与编辑、监督、概念化。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号