基于置信度的双重超图学习方法在稀疏标签图分类中的应用

《Pattern Recognition》:Confidence-guided dual hypergraph learning for sparse-label graph classification

【字体: 时间:2026年05月02日 来源:Pattern Recognition 7.6

编辑推荐:

  沈慧|马慧芳| Bing瑞|孙继元|李志新 中国甘肃省兰州市西北师范大学计算机科学与工程学院,730070 摘要 图分类对于分析各种复杂的关系模式至关重要,但现有方法严重依赖于大量标记数据,而这些数据的获取往往成本高昂或不可行。尽管半监督学习(SSL)在一定程度上缓

  沈慧|马慧芳| Bing瑞|孙继元|李志新
中国甘肃省兰州市西北师范大学计算机科学与工程学院,730070

摘要
图分类对于分析各种复杂的关系模式至关重要,但现有方法严重依赖于大量标记数据,而这些数据的获取往往成本高昂或不可行。尽管半监督学习(SSL)在一定程度上缓解了数据稀缺的问题,但目前的方法仍面临两个主要限制:(1)图神经网络(GNNs)难以有效建模高阶语义关系;(2)对未标记数据的统一处理导致了信任危机,从而降低了性能。为了解决这些挑战,我们提出了一种新颖的半监督图分类框架——CGD-Hyper,该框架整合了双重超图融合机制和基于信任度的标签编码策略。该框架的核心创新在于:首先,设计了一种双重超图融合机制,能够同时编码图的结构拓扑和节点特征,以明确有效地建模高阶语义交互;其次,引入了一种基于信任度的方法,动态过滤高置信度的未标记样本,并通过混合标签编码生成稳健的监督信号进行训练。在四个基准数据集上的实验表明,CGD-Hyper的性能优于现有方法,平均准确率提高了3.5%。

引言
作为结构化数据表示的范式,图为建模复杂系统提供了强大的框架[1],[2],通过将实体映射到节点并将关系映射到边来实现。图的本质优势[3]在于它们能够同时捕捉系统的拓扑结构和实体之间的语义关联。为了充分利用图结构数据中嵌入的潜在关系模式和系统级洞察,图分类已成为一个关键的研究方向。这项任务旨在通过学习图的层次化语义表示来为整个图实例分配类别标签,从而支持实际应用,例如检测社交网络中的异常社区或预测分子功能属性。

近年来,GNNs[4],[5]在图分类任务中取得了显著进展并受到了广泛关注,这主要归功于它们通过迭代邻居聚合进行端到端图嵌入学习的独特能力。然而,传统的GNN方法主要局限于建模局部的低阶关系[6](例如,直接邻居),并且经常忽略具有全局意义的高阶语义模式(例如,多个节点之间的复杂交互)。为了克服这一限制,引入了超图神经网络(HGNNs)[7],利用超边来明确连接多个节点。尽管取得了这些进展,但一个根本性的挑战仍然存在:这些方法通常严重依赖于大规模、高质量的标记数据集。然而,在许多实际应用场景中,获取这样的标签不仅成本高昂,而且可能不可行,这成为图分类模型广泛部署的主要障碍。

为了解决标记数据稀缺的问题,已经探索了诸如预训练[8]、主动学习[9]和半监督学习[10]等策略。然而,将这些范式应用于超图结构仍面临持续的挑战:首先,现有的超图方法[11]对单一超图类型的依赖限制了它们表示现实世界中遇到的多样化高阶关系的能力;其次,现有框架[12]通常缺乏有效的区分未标记数据的机制,而是倾向于不加区分地使用所有可用数据。这种方法容易引入来自低质量伪标签的噪声,从而影响模型的训练稳定性和泛化性能。

为了阐明单一超图建模的局限性和低质量伪标签引起的噪声问题,我们进行了实验分析。首先,在两个标准的半监督图分类数据集上(统计细节见第5节),我们使用10%、40%、70%和100%的标记比例进行了比较实验。如图1(a)所示,我们比较了使用双重超图、特征超图、结构超图和原始图作为输入的模型的性能(所有模型均使用标准交叉熵损失进行训练)。实验结果表明,随着标记比例的降低(即监督强度的减弱),单一超图模型的性能通常低于原始图模型。例如,在PROTEINS数据集上,当标记比例低至10%时,结构超图模型的准确率仅为57.4%,而原始图模型的准确率为58.1%。这突显了单一超图模型在有效捕捉图中的多样化高阶关系方面的困难,导致学习到的表示不够理想。相比之下,双重超图模型在所有数据集和标记比例上均显著优于所有单一超图模型和原始图模型,验证了双重超图融合机制能够更全面有效地捕捉高阶语义结构,并补偿单一超图建模的局限性。

随后,我们进一步评估了在引入基于信任度的模块之前和之后三个数据集上伪标签的准确性。如图1(b)所示,基本的伪标签生成方法(未经信任度过滤)的准确率通常较低(约为55%),甚至在DD数据集上低于50%,表明其可靠性显著不足。对信任度分布的分析显示,传统方法在高置信区间(0.9–1.0)内仍然存在较高的错误率,导致信任危机。直接使用这些伪标签会引入大量噪声,影响模型训练的稳定性和泛化能力。相比之下,基于信任度的模块显著提高了伪标签的可靠性,特别是通过动态过滤高置信度样本,从而大大减少了噪声干扰。

基于我们之前的分析和发现,我们提出了一个新颖的半监督框架CGD-Hyper(基于信任度的双重超图学习用于稀疏标签图分类),包括两个协同模块:(1)双重超图表示模块构建结构和特征超图来建模拓扑高阶关系和基于特征的语义交互,采用参数共享的自适应编码器来学习相关的节点-超边嵌入,并通过可学习的注意力权重进行协作门控,这些权重由超边同质性损失监督;(2)基于信任度的优化模块实施双重信任度评估,结合聚类和分类来识别可靠的未标记图进行混合标签编码,然后通过端到端训练共同优化来自标记图的监督损失和来自高置信度未标记图的伪标签编码损失。这种集成设计在标签较少的情况下减轻了伪标签噪声,同时增强了高阶关系建模。具体来说,本文的贡献如下:
•双重超图融合机制:我们设计了一种双重超图融合框架,通过构建结构和特征超图并共同学习这两种类型的信息,同时捕捉图数据中的结构依赖性和基于特征的语义关联,从而有效揭示了传统单一超图模型通常无法访问的多样化高阶交互。
•基于信任度的标签编码:为了解决半监督学习中的信任危机,我们提出了一种基于信任度的标签编码策略,结合分类预测和聚类分析来评估未标记图实例的预测置信度,从而过滤掉高置信度样本。
•实验验证:我们在涵盖三个领域的四个数据集上对CGD-Hyper进行了全面评估。实验结果表明,该方法在图分类准确率上平均提高了3.5%,超过了最新的基线模型。值得注意的是,它在标记比例较低的情况下表现出显著的性能优势。

**超图学习**
近年来,超图因其能够建模复杂的高阶关系而受到了广泛关注[13]。与普通图不同,超图中的超边[14]可以同时连接多个节点,从而更灵活地捕捉节点之间的高阶依赖关系。利用这一特性,研究人员[15]提出了使用超图神经网络构建超图和提取语义信息的方法,这些方法可以分为两类。

**初步知识**
超图是简单图的泛化,其中超边可以连接两个以上的节点。形式上,超图表示为GH=(V,EH),其中V是n个节点的集合,EH是超边的集合。每个超边是V的子集,在简单图中退化为仅连接两个节点的简单边。设X∈Rn×d表示n个节点的d维属性,H∈Rn×m表示超图的关联矩阵,其中Hij=1表示节点i与节点j相连。

**方法论**
在本节中,我们介绍了CGD-Hyper框架,该框架旨在解决图分类任务中的标签稀缺问题。如图2所示,首先,为了有效捕捉图数据中的多样化高阶语义关系,我们使用双重超图构建模块从特征和结构两个角度构建超图。其次,考虑到超图中节点之间的潜在相关性,我们采用了两种自适应超图编码器。

**实验**
在本节中,我们进行了一系列广泛的实验,系统评估了所提出的CGD-Hyper框架的有效性,重点关注以下研究问题:
•RQ1:与现有基线方法相比,CGD-Hyper在标签稀缺的数据场景下的分类准确性如何?
•RQ2:CGD-Hyper框架中的关键组件如何协作以提高整体性能?
•RQ3:通过添加特征超边来增强结构超图的效果如何?

**结论**
在这项工作中,我们通过引入CGD-Hyper模型解决了半监督图分类中的关键挑战——标签稀缺问题。我们的框架通过双重超图机制同时整合节点属性和结构拓扑,有效地捕捉了高阶语义关系,并通过自适应共门控方法进行了融合。此外,所提出的基于信任度的标签编码策略成功减轻了伪标记固有的噪声问题。

**作者贡献声明**
沈慧:可视化、验证、方法论。
马慧芳:写作——审稿与编辑、监督、资金获取、形式分析。
Bing瑞:写作——审稿与编辑、监督。
孙继元:可视化、数据整理。
李志新:监督、形式分析。

**利益冲突声明**
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

**致谢**
本研究得到了国家自然科学基金(编号62441701和61762078)、甘肃省重点基金项目(编号24JRRA123)以及甘肃学院产业支持项目(编号2022CYZC11)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号