G2CL:基于梯度的图对比学习方法,用于消除信息对比冲突
《Neural Networks》:G2CL: Gradient-Guided Graph Contrastive Learning for Eliminating the Message Contrastive Conflict
【字体:
大
中
小
】
时间:2026年01月18日
来源:Neural Networks 6.3
编辑推荐:
消息对比冲突(MCC)导致图对比学习效果下降,本文提出梯度引导动态捕获器、假阴性策略和信息素传递机制以消除MCC,并在11个数据集上验证G2CL优于基线方法。
张帅|杨珊|张文宇|聂家豪|季珊
浙江财经大学,杭州,310018,中国
摘要
基于信息噪声对比估计(InfoNCE)损失的图对比学习方法在图表示学习方面取得了显著进展。然而,现有方法主要关注优化图增强策略或对比目标。它们无法有效消除由InfoNCE损失与图神经网络的消息传递机制之间的协作所产生的消息对比冲突(MCC)。MCC阻碍了负样本之间相似性的有效最小化,从而削弱了图对比学习的效果。此外,在MCC下,假阴性样本和长尾冲突效应(LCE)的问题仍未得到解决。为此,提出了一种称为梯度引导的图对比学习(G2CL)的新方法来消除消息对比冲突。首先,本研究从理论上证明了MCC的存在,并详细分析了假阴性样本和LCE对MCC的影响。接下来,提出了一种新的梯度引导动态捕获器来消除MCC。然后,基于图的语义和拓扑信息,提出了一种新的假阴性策略来解决假阴性样本问题。此外,提出了一种基于信息素的消息传递机制来解决LCE问题。最后,在11个数据集上的广泛实验表明,G2CL的性能优于现有的最佳基线方法。
引言
自监督学习是一种重要的机器学习范式,它通过从数据中提取监督信号来减少对人工标注数据的依赖(Rani等人,2023年;Schiappa等人,2023年)。对比学习(CL)是一种新兴的自监督学习范式,在学术研究中受到了越来越多的关注(Prince等人,2024年;Moradi等人,2025年)。CL通过构建正负样本对,使语义相似的样本在表示空间中更接近,同时将不相似的样本分开。这使得模型能够通过对比机制捕捉数据的内在区分特征。
传统的图神经网络(GNN)对监督标签的依赖导致了在注释稀疏的场景中的泛化瓶颈(Borisov等人,2024年;He等人,2024年;Brussee等人,2025年)。图对比学习(GCL)作为一种跨学科研究方向,结合了CL和GNN(Shao等人,2024年;Ji等人,2024年;Li等人,2025年)。通过利用图数据的多视图比较,GCL有效提高了自监督表示的质量。基于信息噪声对比估计(InfoNCE)损失的方法是GCL中的主流方法之一(Veli?kovi?等人,2019年;Yuan等人,2024年;An等人,2025年)。然而,基于InfoNCE损失的现有方法通常忽略了由InfoNCE损失与GNN的消息传递机制之间的协作所产生的潜在消息对比冲突(MCC)。具体来说,InfoNCE损失最小化了负样本对(即节点对)之间的相似性,从而增加了它们在表示空间中的距离。相反,当负样本对由相邻节点组成时,GNN的消息传递机制执行邻域聚合,使得相邻节点在表示空间中的距离更接近。在图对比学习中,MCC降低了负样本对之间的区分度,使得有效最小化它们的相似性变得困难。由此产生的梯度冲突误导了编码器的优化方向,从而降低了节点表示的质量,并损害了模型在下游任务中的泛化性能。
此外,通过对MCC的详细理论分析,本研究确定了两个需要立即关注的关键问题。第一个问题是假阴性样本的存在。GCL的核心在于正负样本的确定。给定一个视图中的锚节点,另一个视图中的相应节点被视为该锚节点的正样本,而其他视图内和视图间的节点被视为负样本(Peng等人,2024年;Wang等人,2025年)。然而,这种方法忽略了MCC过程中锚节点与其他负节点之间的潜在关系,从而无法准确捕获触发MCC的负节点(样本)。第二个问题是长尾冲突效应(LCE)的存在。在实际场景中,节点的度遵循长尾分布,其中高度节点稀少,低度节点众多(Borisov等人,2024年)。GNN优先学习高度节点,导致低度节点的学习不足。因此,在GCL中,由高度和低度节点组成的负样本对的相似性难以有效降低,进一步加剧了MCC。
为了解决上述问题,本研究提出了一种新的梯度引导的图对比学习方法(G2CL)来消除消息对比冲突。本文的贡献如下:
1)从InfoNCE损失和GNN的消息传递机制的原则出发,理论上分析了MCC的存在。此外,探讨了假阴性样本和LCE对MCC的影响。
2)为了消除MCC,提出了一种基于正负样本对梯度变化的新梯度引导动态捕获器。此外,该动态捕获器结合了滑动窗口机制,以准确捕获触发MCC的负样本。
3)提出了一种新的假阴性策略和基于信息素的消息传递机制,分别解决假阴性样本和LCE问题。
4)在11个数据集上进行了广泛实验。结果表明,G2CL在下游任务中的性能优于现有的最佳基线方法,包括节点分类、节点聚类和重叠社区检测。
本研究的其余部分组织如下:第2节总结了相关工作。第3节对MCC进行了详细的理论分析。第4节探讨了G2CL。第5节展示了实验结果。最后,第6节总结了研究并讨论了未来的研究方向。
相关工作
相关工作
本节详细讨论了从图增强和基于InfoNCE的方法角度出发的GCL相关工作。
消息对比冲突的理论分析
本研究从理论上证明了MCC的存在,并分析了假阴性样本和LCE对MCC的影响。为了简化证明,采用了广泛使用的图卷积网络(GCN)编码器作为与GCL协作的编码器。
步骤1:前提条件。在以下条件下选择了三个节点:va、vb和vc:1)vb和vc是va的相邻节点;2)vb和vc不是相邻节点;3)vb和vc是va的负样本;4)
初步介绍
定义1(属性图):属性图定义为,其中表示节点集,表示边集(其中edge(va, vb)表示由va和vb形成的边),X表示二进制属性矩阵。
定义2(超图):让表示一个超图,其中V和分别表示节点集和超边。超图中的每个超边e至少包含两个节点。
实验环境
本研究使用Python 3.7构建了G2CL的实验环境。G2CL模型在配备NVIDIA A800 GPU、512 GB内存、基于X86_64架构的处理器和Ubuntu 20.04.06 LTS操作系统的服务器上进行了训练。滑动窗口的长度leng为3。方程(15)中的收敛阈值为dc通常设置为0.85(Zhang等人,2019年;Pan等人,2022年;Yang等人,2025年)。
结论
本研究提出了一种新的G2CL方法,用于消除由InfoNCE损失与GNN的消息传递机制之间的协作所产生的MCC。提供了MCC存在的理论证明,并分析了MCC的两个子问题,即假阴性样本和LCE。基于所提出的梯度引导动态捕获器,G2CL不仅解决了梯度混淆问题,还准确捕获了触发MCC的负样本。
CRediT作者贡献声明
张帅:概念化、方法论、资源、撰写-审稿和编辑、监督、资金获取。杨珊:方法论、形式分析、撰写-初稿、数据管理、软件、验证。张文宇:概念化、撰写-审稿和编辑、监督。聂家豪:方法论、撰写-审稿和编辑。季珊:方法论、资源、撰写-审稿和编辑、监督。
CRediT作者贡献声明
张帅:撰写 – 审稿与编辑、监督、资源、方法论、资金获取、概念化。杨珊:撰写 – 初稿、验证、软件、方法论、形式分析、数据管理。张文宇:撰写 – 审稿与编辑、监督、概念化。聂家豪:撰写 – 审稿与编辑、方法论。季珊:撰写 – 审稿与编辑、监督、资源、方法论。利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了浙江省“灵岩”重点研发项目(编号2026C02A2002)、浙江省重点科技领军人才计划项目(编号2023R5213)和浙江省“建冰”重点研发项目(编号2025C01010、编号2024C01034)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号