: 面向图类不平衡与拓扑失衡的全局-局部拓扑融合自训练框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Connection Science》：Self-training for graph class imbalance via global and local topology fusion

【字体：大中小】 时间：2026年02月26日 来源：Connection Science 3.4

编辑推荐：

　　这篇研究论文深入探讨了图学习中“类不平衡”之外的更深层挑战——拓扑失衡。作者创新性地提出了一种“传播鲁棒性差异”的视角来解释拓扑失衡现象，并据此设计了一个名为GLoFT的全局-局部拓扑融合重加权框架。该框架通过整合全局扩散影响力与局部拓扑鲁棒性，有效地重构节点影响力权重，以缓解拓扑失衡导致的表征漂移。为了应对弱监督下伪标签质量对GLoFT框架效果的制约，研究还提出了一个名为FPMist的自训练模块，通过基于融合的渐进式匹配策略动态优化伪标签质量，提升整个系统在部分标注数据场景下的鲁棒性。实验表明，所提方法在多种图神经网络(GNN)主干和严重类失衡场景下均超越了现有基线，显示出优异的泛化能力和稳定性。

在现实世界的图数据中，除了常见的类不平衡问题，还存在一个更为复杂且隐晦的挑战——拓扑失衡。传统的图学习方法主要关注于标签分布的倾斜，通常将图结构视为固定输入，并假设其影响可以被聚合机制所吸收。然而，在结构化的图数据中，不同类别节点之间在邻域构成、连接模式、有效邻域大小或跨类暴露强度上存在着系统性的差异，这便是拓扑失衡的本质。这种失衡并非仅仅是“邻居数量不足”的静态现象，而应被更统一地理解为传播过程中的鲁棒性差异。当某一类节点的表示在轻微拓扑扰动或长程扩散下更容易发生剧烈变化时，其类别一致性信息在跨类干扰下就更容易变得不稳定，从而导致表征漂移和决策不稳定。特别是对于少数类节点，当其聚合邻域被异质邻居主导时，类别一致信息可能在传播过程中被稀释甚至淹没，从而削弱其可分离性并提高决策边界风险。针对此问题，本文提出了一种名为GLoFT的全局-局部拓扑融合重加权框架，旨在从支持-干扰传播可靠性的角度，系统性缓解拓扑失衡。

GLoFT框架的核心在于从全局和局部两个尺度，联合量化每个节点的传播鲁棒性，并将其归一化融合为一个统一的拓扑权重，从而在训练中增强稳定节点的有效贡献，抑制来自高冲突节点的干扰，最终缓解由拓扑失衡引发的表征漂移。在全局尺度，GLoFT采用个人化PageRank(PPR)等扩散核来刻画长程传播质量在支持集(S)与干扰集(D)之间的分配偏差。具体来说，对于节点_v，计算其扩散向量_{p_v(u)}，并分别汇总其在支持集和干扰集上的扩散质量，得到全局支持质量P_s^g(v)和干扰质量P_d^g(v)。全局拓扑权重w_g(v)则定义为两者之比，比值越大，表明长程传播越倾向于支持集，节点的全局传播可靠性越高。在局部尺度，GLoFT聚焦于节点_v的K跳自我子图。首先基于（伪）标签一致性，将子图中的节点划分为支持集S(v)和干扰集D(v)。局部权重的构建综合考虑了容量差异和结构因素。容量差异用支持集大小Q_s(v)和干扰集大小Q_d(v)来表征。结构因素则通过图效率这一鲁棒性代理指标来刻画，其中支持性子图内的图效率E_s(v)反映了支持性路径的紧凑性和冗余性，而干扰性子图的图效率E_d(v)则刻画了跨类路径的暴露强度。最终，局部拓扑权重w_l(v)被定义为Q_s(v)E_s(v)与Q_d(v)E_d(v)的比值。全局和局部权重在经过归一化处理后，通过线性融合得到最终的统一拓扑权重w_t(v)，其中参数α控制着两个尺度证据的相对重要性。

值得注意的是，GLoFT对支持集/干扰集的划分依赖于已知的（伪）类别分区。在实际的弱监督场景下，为了获得必要的结构分区，研究者采用了多语义聚类(MSC) 来生成伪标签。MSC通过多头机制学习节点在多个语义空间中的表征，并利用多层感知机(MLP)融合多头输出来构建每个类的语义中心，从而根据节点嵌入与语义中心的相似度来分配伪标签，增强了聚类的语义表达性和稳定性。然而，鲁棒性导向的拓扑建模对类内/类间分区高度敏感，在弱监督下，该分区只能通过伪标签来近似。伪标签中的噪声会沿着“伪标签→结构分区→拓扑权重”的链条被放大，从而削弱GLoFT的效果，甚至加剧类不平衡问题。

为了应对这一挑战，本文专门为GLoFT设计了一个名为FPMist的基于融合的渐进式匹配自训练模块，旨在提升伪标签的可靠性，并抑制噪声在上述链条中的传播。FPMist从课程学习的角度出发，将伪标签的接受过程重新表述为一个渐进式调整的过程。首先，它建立一个渐进式基阈值。在训练早期，采用更保守的、感知类分布的策略来减少噪声的注入；随着训练的进行，则逐渐过渡到更平衡的接受率，以增加少数类的可见性和监督密度。具体地，为每个类别_c在迭代_t时，基于其预测置信度分布和当前设定的接受百分比p_c(t)，通过分位数操作计算出基础阈值θ_c(t)。在基阈值之上，FPMist进一步提出了一个动态阈值匹配(DTM) 机制，对基阈值进行有界的向上/向下校准。该校准强度由类级学习状态证据驱动，并受到由类频率诱导的类自适应严格性调节——对多数类施加更严格的阈值以抑制确认偏误，同时对少数类放宽阈值以促进覆盖和校正。最终，经过校准的动态阈值被用于从MSC生成的伪标签中选择高置信度的样本，注入到训练集中，从而稳定结构分区，并减少噪声对拓扑权重估计的影响。

综合来看，GLoFT + FPMist构成了一个完整的解决方案。首先，通过MSC生成伪标签以近似结构分区。然后，利用这些（伪）标签在GLoFT框架中计算全局和局部拓扑权重，并融合为最终的重加权系数。在模型训练过程中，一个结合了拓扑权重的损失函数被用于同时优化图神经网络(GNN)的嵌入表征和聚类结果。FPMist模块则贯穿整个训练过程，动态地提升伪标签质量，为GLoFT提供更可靠的结构分区依据。大量在多个基准数据集和不同失衡设定下的实验结果表明，该方法在严重的类不平衡场景下，超越了构建在多种GNN主干上的现有方法，展现了其优越的泛化能力和稳定性，为解决图数据中的类与拓扑双重不平衡问题提供了新的思路和有效的工具。

联系信箱：

粤ICP备09063491号

热点排行