编辑推荐:
针对图神经网络在类别不平衡节点分类中的过拟合和模型方差问题,本文提出相似性引导双图学习框架SG-DGLF,通过动态阈值伪标签筛选和图扩散增强的双图机制缓解少数类过拟合及提升模型鲁棒性,实验表明其在多个数据集上显著优于基线方法。
余梦琳|卢淑霞|丛家成
河北大学数学与信息科学学院,中国保定市五西路180号,071002
摘要
图神经网络(GNNs)在节点分类任务中表现优异,但在处理节点分类不平衡问题时面临严峻挑战。一方面,由于少数类样本数量较少,模型容易过拟合。GNN的信息传递机制加剧了这一问题,导致模型过度关注少数类节点的特定特征和局部邻域结构,而未能学习到一般性模式,从而影响泛化能力。另一方面,样本稀缺导致模型训练方差增大。模型性能高度依赖于特定训练样本和局部图结构,对数据划分非常敏感,最终导致性能波动严重和结果不稳定。为了解决GNN在不平衡数据场景下的过拟合和模型方差问题,我们提出了双图框架——基于相似性的双图学习框架(SG-DGLF)。为了解决少数类的过拟合问题,该框架引入了基于相似性的动态阈值随机捕获机制,通过生成伪标签来补充少数类样本。其次,我们利用基于图扩散的传播和随机边删除策略创建新图,从而增加节点多样性,以减轻模型方差过大的问题。实证结果表明,SG-DGLF在多个不平衡数据集上的表现显著优于现有方法,验证了其有效性和有效性。
引言
图神经网络在许多基于图的应用中取得了显著成就,如社交网络分析[1]、生物网络建模[2]和动态交互预测[3]等。半监督节点分类作为图机器学习的基本任务,旨在利用图结构中的丰富节点关联信息,在仅有少量标记信息的情况下对节点进行分类。近年来,图神经网络[4][5][6]通过有效的信息传递机制在大规模图数据处理方面取得了显著进展。然而,现实世界中的图数据往往存在类别不平衡问题。尽管少数类节点在欺诈账户[7]和致病基因[8]等场景中携带关键信息,但由于标签稀缺,模型训练主要受多数类主导,难以捕捉少数类的区分特征。因此,直接将GNN应用于这些不平衡图数据面临重大挑战。
在欧几里得空间处理不平衡数据时,传统方法(如重新加权和重采样)通常能取得良好效果。但由于图数据的非独立同分布特性,这些方法在图数据中的效果有限。近年来,出现了多种针对图特征的不平衡学习方法。例如,ReNode[9]提出基于节点与类别边界距离的动态权重调整策略;GraphENS[10]通过合成少数类自网络来增强数据平衡性;GraphSHA[11]通过生成难样本帮助模型学习更清晰的分类边界;TAM[12]关注节点间偏差程度和连接模式,智能调整类别边界;BAT[13]通过减少节点感受野中非同类邻居的比例和优化长距离信息传递来缓解拓扑不平衡。IceBerg[14]通过提出无偏自训练和传播转换解耦框架,解决了传统自训练中伪标签的“马太效应”和传统GNN中监督信号传播的困境。尽管上述方法有效缓解了节点分类中的类别不平衡问题,但少数类样本稀缺导致的过拟合问题仍难以解决,这直接限制了模型的泛化能力,尤其是在测试数据图结构与训练数据不同时。
为了解决这些问题,本文提出了一种基于相似性的双图学习框架SG-DGLF。具体而言,SG-DGLF从三个方面解决该领域问题:(1)通过计算未标记节点与类别中心之间的相似性来筛选可信度高的伪标签,并引入动态阈值调整和随机选择机制形成补充训练集;根据相似性为这些伪标签分配不同的损失权重,提供细粒度监督信号以避免过拟合风险。(2)通过双图机制增加节点特征多样性,利用基于图扩散的传播和随机边删除策略构建多图,从而减少模型方差。与传统随机属性掩蔽方法相比,基于图扩散的传播生成的节点特征噪声更少,这得益于图的结构性同质性。此外,传统图神经网络通常将层数限制在两到三层,以避免深度堆叠导致的“过度平滑”问题,这种结构限制使得模型难以捕获和利用远距离邻居的特征信息。(3)通过相似性模块从原始图中选择可信度高的伪标签构建平衡训练集,并将平衡训练集的掩码、权重和标签应用于增强图,从而减轻过拟合和模型方差。
在本文中,我们提出了一种新的方法,通过缓解少数类节点过拟合和减少模型方差来解决类别不平衡问题。该方法旨在补充少数类节点的同时增强少数类的多样性,并通过真实基准数据验证了其有效性。实验结果表明,SG-DGLF有效提高了节点多样性并减轻了少数类节点的过拟合问题。
- •
新视角:首次将少数类过拟合和模型方差问题纳入统一框架进行分析,揭示了在类别不平衡场景下,少数类稀缺导致过拟合,进而加剧模型方差的现象。
- •
新方法:
本文提出了一种基于相似性的双图学习框架SG-DGLF,动态生成伪标签,构建结构感知的多图,并施加跨图一致性约束,共同解决少数类过拟合和模型方差问题。
•实证研究:
系统而广泛的实验表明,SG-DGLF在多种类别不平衡图数据集和实验设置中表现出色。相关工作
相关研究
本节探讨了与我们的工作相关的两个关键领域:图上的类别不平衡学习和图增强。
符号说明
考虑一个图结构 ,其中集合V中的节点数为 ,集合E中的边数为 。为了更全面地描述节点间的连接关系,我们引入邻接矩阵 。归一化邻接矩阵表示为:,其中 是对角矩阵,满足 。每个节点vi?∈?V 都关联一个特征向量 ,这些特征向量共同构成节点特征矩阵
框架
我们首先通过结合基于图扩散的传播和随机边删除策略的图增强方法,将原始图G(A, X)转换为增强图G′(A′, X′)。随后,我们将G和G′并行输入图神经网络进行特征提取。在原始图G上,我们使用基于类别中心的动态伪标签过滤机制筛选出一组高置信度候选节点VC。
实验
为了评估SG-DGLF的有效性,我们的实验将其应用于六个不同的真实世界图数据集。主要目标是评估该算法在各种场景下的性能。
问题1:与其他方法相比,SG-DGLF能否实现更好的分类性能?
问题2:SG-DGLF与图对比学习方法相比表现如何?
问题3:SG-DGLF的各个组成部分如何影响其性能?
结论
为了解决图中的节点分类不平衡问题,本文提出了一种基于相似性的双图学习框架,该框架同时解决了少数类过拟合和样本稀缺导致的模型方差问题。SG-DGLF通过基于节点相似性选择高质量未标记节点构建补充集,然后从该补充集中随机采样以增强训练集,从而提高模型性能。
CRediT作者贡献声明
余梦琳:撰写——原始草案、软件实现、方法论、概念构思。卢淑霞:撰写——审稿与编辑、监督、概念构思。丛家成:验证、调查、形式分析。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。