双重生成对抗图网络:基于球形图嵌入的无监督和半监督学习方法

【字体: 时间:2026年03月04日 来源:Neural Networks 6.3

编辑推荐:

  球面图嵌入双生成对抗网络框架提升图聚类与半监督分类性能,实验验证优于基线方法。

  
张文川|范文涛|陈宇旺
中国广东省/珠海市IRADS重点实验室及北京师范大学-香港浸会大学计算机科学系,珠海市,519807

摘要

图结构数据已成为表示各个领域复杂系统的关键工具。分析此类数据需要解决两个基本问题:属性图聚类和半监督节点分类。本文提出了一种基于球形图嵌入的双生成对抗框架,用于属性图聚类。该框架将生成对抗网络(GAN)与概率编码器相结合,编码器采用冯·米塞斯-费舍尔混合模型(vMFMM)作为潜在变量的先验分布,从而生成球形图嵌入。vMFMM先验能够明确控制生成器的能力和图嵌入的表示性之间的平衡,使得优化过程更加稳定且性能更优。此外,所提出的框架利用双GAN结构通过对抗训练有效去除潜在空间中的未知噪声,增强了图嵌入的鲁棒性。同时,该聚类框架通过与混合密度网络的集成,扩展为半监督节点分类方法,利用标记数据提高节点分类的准确性。为了评估所提出的双生成对抗属性图聚类方法及其半监督扩展的有效性,我们将其与现有的基线方法进行了比较分析。实验结果证明了这些方法的优势。

引言

图是表示各种领域复杂关系的强大工具,包括社交网络、知识图谱、引用网络和化学反应性。近年来,图卷积网络(GCNs)在图结构数据的各种任务中表现出色(Kipf和Welling,2017年;Ju等人,2024年),例如属性图聚类(也称为社区检测)(Ding等人,2023年);链接预测(Huang等人,2024年);以及半监督节点分类(Liu和Yu,2024年)。
在属性图聚类中,GCNs已被证明能够将属性节点映射到低维且紧凑的潜在空间中,生成图嵌入(Chen等人,2024d;Zhang等人,2025a)。在无监督属性图聚类领域,GCNs与深度生成模型(如变分自编码器(VAE)或生成对抗网络(GAN)的结合已成为非常成功的方法(Hui等人,2020年;Lu等人,2024年;Sun等人,2022年)。这些方法通常假设潜在空间中的图嵌入遵循高斯分布或高斯混合模型(GMM),因为它们的数学公式较为简单。然而,这种高斯假设可能会限制图嵌入在实际应用中的表示性。值得注意的是,先前的研究表明,在训练过程中加入L2归一化可以显著提高无监督聚类的性能(Fan、Bouguila、Du、Liu,2019年;Fan、Yang、Bouguila,2022年),特别是在深度自编码器架构中(Shen和Chung,2018年)。这种技术将数据集重新配置为单位超球面上的向量,这种格式通常被称为“球形数据”(Mardia等人,2000年)。与超平面相比,这种方法在单位超球面上的嵌入表示更为优越,适用于低维和高维空间。在低维图特征领域,这种优势尤为明显,因为在超平面上的正态分布假设会无意中将簇中心偏向原点,从而妨碍有效的数据分割。相反,在单位超球面上可以获得有助于每个类别清晰划分的最佳先验。此外,将L2归一化应用于表示空间本身就具有正则化特性,从而增强了数据建模的鲁棒性(Davidson等人,2018年)。
与高斯分布不同,冯·米塞斯-费舍尔(vMF)分布是专门为在单位超球面上建模数据而设计的(Mardia等人,2000年)。因此,它更适合表示球形数据(Yang等人,2021年)。最近的研究表明,VAE中使用的高斯先验可能不符合无信息先验的假设。另一方面,对潜在嵌入应用vMF先验可以明确控制解码器的能力和潜在嵌入的利用之间的平衡。这种控制有助于更稳定的优化和更好的性能(Davidson等人,2018年;Xu和Durrett,2018年)。此外,除了引入更合适的潜在空间先验外,对抗训练技术(Ding等人,2018年;Wang等人,2018年)还证明了它们在生成更鲁棒的图嵌入方面的有效性。
我们提出了一种基于球形图嵌入的双生成对抗框架,用于属性图聚类。我们的框架将GAN与概率编码器相结合,编码器采用vMFMM作为潜在变量的先验密度。通过利用单位超球面,我们的框架生成球形图嵌入。vMFMM先验能够明确控制生成器的能力和潜在嵌入的表示性之间的平衡,从而实现更稳定和更优的优化。在Jaiswal等人(2018年)提出的思想基础上,我们引入了一种双GAN架构,旨在增强图嵌入的鲁棒性。该架构通过采用对抗训练技术来减轻潜在空间中的未知噪声。在对抗学习中,同时训练两个模型:生成器和判别器。生成器的目标是产生与真实数据无法区分的数据(在这种情况下是嵌入),而判别器的目标是区分生成器的输出和真实数据。对抗设置迫使生成器产生与真实图嵌入分布紧密匹配的嵌入。这一过程促使生成器关注图的主要结构特征,同时减少输入数据中的噪声或无关变化的影响。因此,以这种方式生成的嵌入更加鲁棒且能准确反映图的真实结构。此外,潜在空间中的未知噪声可能导致嵌入无法准确反映图的真实关系和属性。对抗训练过程通过惩罚生成器产生容易被判别器识别为虚假的嵌入来对抗这一点。这种压力促使生成器学习出既现实又无误导性噪声的表示。
此外,我们将提出的聚类框架扩展为半监督节点分类方法。为了解决在缺乏足够监督信息的情况下学习基于GCN的模型的挑战,我们采用了受Hui等人(2020年)启发的合作训练机制。该机制结合了变分自编码器和分类器,以克服GCN模型在探索全局图结构方面的局限性。通过提高属性图聚类模块的聚类性能和分类器在稀疏和模糊标签下的分类性能,我们提升了最终的半监督节点分类性能。虽然合作训练机制通过伪标签扩展了训练数据集,但这些标签往往包含噪声和不确定性。此外,随着伪标签的迭代扩展,错误可能会累积,影响预测准确性。此外,依赖单一预测处理稀疏和模糊标签的问题可能导致过拟合和较差的泛化性能(Zhang等人,2021年)。为了解决这些挑战,我们基于混合密度网络和图卷积网络开发了一种多假设方法。这种方法通过利用混合分布(Bishop,1994年)捕获图的结构和复杂的多模态关系。通过采用模式选择,我们可以根据获得的多模态关系选择最佳模式,从而提高分类准确性。
本文的主要贡献如下:
  • 我们提出了一种新的属性图聚类框架,将GAN与概率编码器相结合。编码器使用vMFMM作为潜在变量的先验密度,这些变量定义在单位超球面上。这种集成产生了球形图嵌入,从而实现了更稳定和更优的优化。
  • 为了增强图嵌入的鲁棒性,我们在框架中采用了双GAN结构。该结构通过利用对抗训练有效解决了潜在空间中的未知噪声问题。
  • 我们引入了一种合作训练方法,将提出的聚类框架与分类器一起训练,以实现半监督节点分类。在设计分类器时,我们将混合密度网络与GCNs相结合,并引入了新的损失函数以更好地捕获多模态性。
  • 我们通过将提出的双生成对抗框架及其半监督扩展与广泛认可的基准数据集进行比较,评估了它们的有效性。
  • 相关工作

    相关工作

    本节回顾了图聚类领域的代表性方法,包括传统技术、基于深度嵌入的方法以及利用混合密度网络的不确定性感知模型。
    近年来,依赖图数据的实际应用的增加促进了图聚类方法的发展。传统的图聚类方法,如谱聚类(Von Luxburg,2007年)及其变体(例如,Zhao等人,2023年),已经取得了进展

    双生成对抗图网络

    本节介绍了我们的双对抗属性图聚类方法,该方法采用球形图嵌入。学习过程由随机梯度变分贝叶斯(SGVB)估计器辅助。此外,我们将框架扩展为包括半监督图节点分类方法,通过将其与混合GCN分类器结合实现。

    实验

    在本节中,我们通过在三个广泛使用的基准数据集上进行实验,评估了我们提出的方法(双生成对抗图网络DGAGN)的有效性。我们将DGAGN与现有的属性图聚类和半监督节点分类方法进行了比较,以证明其在性能和有效性方面的优越性。

    结论

    在这项工作中,我们提出了一种基于球形图嵌入的双生成对抗框架,用于属性图聚类。我们的框架将GAN与概率编码器相结合,该编码器不仅将表示限制在超平面上,而且将其定义在超球面上,具有明显优势,即使用vMFMM作为潜在空间的先验密度来生成球形图嵌入,从而实现更稳定的优化和更好的性能

    CRediT作者贡献声明

    张文川:撰写——原始草稿,验证,方法论。范文涛:撰写——审阅与编辑,监督,资金获取,概念化。陈宇旺:验证,调查,概念化。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

    致谢

    本工作的完成得到了中国国家自然科学基金(62276106)、广东省基础与应用基础研究基金(2024A1515011767)、广东省IRADS重点实验室(2022B1212010006)以及广东省高等教育提升计划(2021-2025年,编号2024GXJK695、2024KTSCX222)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号