图级聚类的目的是量化图之间的相似性,并将具有相似拓扑和属性特征的图分类到同一个簇中,而无需标签(Liang, Liu, Zhou, Tu, Wen, Yang, Dong, Liu, 2023a; Liang, Meng, Li, Liu, Wang, Zhou, Liu, He, 2024)。它广泛应用于包含复杂群体结构信息的领域,如语义网络分析(Wang, Dong, Jin, Li, Wang, Dang, 2023; Wang, Wang, He, Yu, Li, Wang, Dang, Jin, 2025b)、金融风险预测(Li, 2023)和社交网络(Souza et al., 2013)。
为了实现有效的无监督划分,人们进行了大量研究以提高表示的鲁棒性和计算效率。(Gai and Liu, 2025)通过将可微分的ONMF与稀疏自编码器结合实现了可解释的聚类。为了减轻噪声,(Yang et al., 2022b)在正交概念分解中使用了基于相关度的度量来增强优化鲁棒性。在涉及高维或复杂多源数据的场景中,谱方法和多视图方法已成为主流。(Yang et al., 2025)提出了一个可扩展的min-max框架来解决多视图谱聚类问题,有效处理大规模数据集。(Yang et al., 2022c)利用谱嵌入加速多视图聚类过程,同时平衡速度和准确性(Li et al., 2026)。此外,(Wang and Liu, 2025)探索了双空间拓扑同构来最大化预测多样性,为跨领域的无监督适应和特征对齐提供了新的见解。
在图分析的具体背景下,深度学习(Gao, Zhou, Gu, Wu, Liu, Zhou, Wang, 2025; Lv, Lv, Wang, Zhao, Tian, Zhou, Zeng, Wan, Liu, 2025; Wen, Gao, Li, Zhang, Zhang, Chen, 2025; Zhang, Luo, Zhong, Ma, Liu, Li, 2019)已经发展出有效编码拓扑结构的方法,为图级任务提供了新的解决方案。(Cai et al., 2024a)通过优化图级表示来提高聚类性能;(Liu, Liang, Hu, Yu, Liu, Meng, Tu, Zhou, Liu, 2023; Liu, Liang, Yu, Meng, Wang, Zhou, Liu, 2025; Liu, Yang, Wang, Su, 2024d)通过优化时间图级表示来提高性能;(Han, Yao, Zhang, Li, Xin, Lei, Li, Zhang, Du, & Tian, Li, Han, Hu, Li, Li, 2025)通过不同的感受野探索了节点和图之间的各种连接。此外,对比学习(Hu, Chen, Liu, Zhang, Liao, & Zheng, Ju, Gu, Chen, Sun, Qin, Liu, Luo, Zhang, 2023)也是研究的重点。
然而,上述方法通常遵循一个前提,即处理后的图数据结构是完整的。(Braun, Tyagi, Biernacki, 2021; Dong, Jin, Xiao, Xiao, Wang, Liu, Zhu, 2024)发现了这一问题并提出了处理节点缺失的解决方案,但他们忽略了图中可能存在的潜在连接(未观察到的边)。图级聚类任务需要在无标签数据中挖掘结构特征,因此缺失的边将导致无法表示真实网络,从而降低聚类性能。
为了解决上述问题,我们提出了一种名为结构缺失图级聚类网络(SMGCN)的新解决方案,该方案包括结构增强模块LR-SEA、锚点定位机制和联合对比优化。具体来说,首先通过最小化矩阵核范数和观测误差的加权和来恢复未观察到的潜在连接,从而构建包含潜在边的增强图结构。随后,基于原始图和增强图的图级特征进行K-means聚类。对于聚类结果,我们首先使用匈牙利算法(Kuhn, 1955)来解决最优关系。匈牙利算法是一种用于解决分配问题的匹配算法,可以找到最低成本或最高收益的分配方案。然后,我们根据簇匹配和质心距离选择锚点。为了优化聚类,我们提出了一个联合目标函数来构建原始图和增强图。我们的贡献总结如下:
1.根据我们对现有工作的研究,这是第一个针对缺失关系的图级聚类任务,我们阐明了其作为缺失结构分支的重要性,并在这一领域提出了新的挑战。
2.对于这个任务,我们提出了一个名为SMGCN的新聚类框架,它依赖于结构增强模块(LR-SEA)、锚点定位机制和联合对比优化的协调,旨在为这一领域提供一个参考范例。
3.通过在五个基准数据集上的大量实验,证明了我们方法相对于现有最先进方法的优越性。