编辑推荐:
拓扑感知对比学习通过连接增强与剪枝构建互补视图,并引入特征重加权机制解决视图语义不等价问题,在六大数据集上显著提升图聚类准确率,有效抑制结构噪声影响。
赵伟志|刘恒|侯树东|陈峰
安徽工业大学计算机科学与技术学院,马鞍山,243032,安徽,中国
摘要
属性图聚类旨在通过无监督的方式利用图拓扑结构和节点属性对节点进行划分。尽管最近的方法通过数据增强和对比学习改进了这一任务,但仍存在两个关键限制:1)现有的增强策略侧重于生成多个视图,但往往忽略了结构噪声对表示学习的负面影响;2)增强的视图被假设与原始图在语义上是等价的,这在实践中可能不成立。为了解决这些问题,我们提出了一种基于拓扑结构的对比学习方法。我们的方法通过链接预测构建了两个互补的拓扑视图:一个增加了潜在类内边的连接增强图,另一个去除了可能的类间边的连接修剪图。此外,我们引入了一种特征重加权机制来平衡主要视图和辅助视图的影响。广泛的实验表明,我们的方法在六个基准数据集上的聚类准确性几乎优于现有方法,验证了其在处理结构噪声和视图语义差异方面的有效性。我们的代码可以在
https://github.com/hengliusky/TACL_Clustering获得。
引言
属性图聚类是网络分析中的一个基本任务,其目标是将样本分组到不同的簇中,使得同一簇内的样本彼此之间比不同簇内的样本更相似。得益于深度图聚类的快速发展以及大数据技术的普及,该技术有许多潜在的应用场景。如今,它在社交网络分析[12]、异常检测[23]、推荐系统[15]和医学科学[1]中得到了广泛应用。
早期的图聚类方法通常通过Deep Walk [24]、Node2Vec [9]和SDNE [30]等经典方法获取节点表示,然后在得到的嵌入上进行K-means [10]聚类。然而,这些方法存在两个关键限制:1)完全依赖于拓扑结构而忽略了节点属性信息,导致聚类性能不佳;2)表示提取和聚类优化是分离的独立过程。属性图聚类的出现通过强调将节点属性作为先验知识来解决这些问题。图卷积网络(GCNs)[39]作为一种流行的解决方案出现,它们同时利用节点属性和图拓扑结构通过分层消息传递来传播邻域信息。注意力机制的日益重要推动了对它们在属性图聚类框架中整合的研究。Wang等人[29]提出了一种图注意力自编码器,该编码器整合了结构和属性信息以学习潜在表示。Gong等人[8]模仿Transformer设计来捕捉节点的高阶关系信息。我们的方法通过优化结构增强(OSA)模块来优化图结构,然后对结构和节点属性进行编码,并对特征进行不同聚类效果的重新加权。连接组件如图1所示。
近年来,多视图聚类方法[11]、[33]、[37]因其能够利用多视图信息来提高聚类性能和鲁棒性而受到关注。多模态任务可以被视为另一种多视图任务,需要提取共同特征和特定模态特征,并测量不同特定特征在融合特征中的重要性。Liu等人[19]提出了一种路由方法来获得路由系数,这些系数衡量了每种模式与融合模式之间的相关性,从而将共同语义与特定语义区分开来。许多方法探索通过数据增强[41]和对比学习[17]、[31]、[42]生成互补视图。与图像数据增强不同,图数据增强主要在节点级别和边级别操作。传统的图数据增强策略包括随机扰动节点属性、随机删除和添加节点之间的连接,以及通过不同编码器直接编码以获得多个视图。Yang等人[34]通过设计不共享参数的双编码器来实现增强视图。Zhao等人[18]、[40]采用随机屏蔽节点特征或删除边的方法。Xia等人[32]通过随机添加或删除边来更新图拓扑。在此基础上,Zhu等人[42]根据节点和边的重要性使用自适应删除概率,从而在根本上保留了拓扑结构和语义图模式。然而,这些方法在丰富图信息或噪声处理方面存在局限性。首先,大多数方法的数据增强或信息丰富并不针对节点聚类;它们只能在后续框架中逐步接近聚类目标。此外,以往的研究很少在增强模块中进行去噪操作。最后,少数方法区分了生成的视图和原始视图。
为了解决这些问题,我们提出了一个基于拓扑结构的对比学习框架。我们使用GAE [13]进行链接预测任务以构建亲和矩阵,并设置阈值分别删除节点之间的边和添加边。在概率较高的节点之间添加边可以丰富结构信息,而在概率较低的节点之间删除边有助于减少结构噪声。此外,我们注意到由于数据集的影响,通过添加边和删除边构建的两个视图提取的特征可能对聚类性能产生不对称的影响。因此,我们将增强操作得到的两个视图作为辅助视图,将聚合邻域信息的特征作为主要视图,并通过引入权重系数来进行加权求和来解决这个问题。在六个基准数据集上的实验证明了我们方法的有效性。总体而言,本文的贡献总结如下:
•我们提出了一种名为TACL的方法,该方法将数据增强范式与链接预测相结合,分别生成保留丰富信息和低结构噪声的视图,从而解决了图数据增强难以同时实现信息丰富视图和去噪视图的问题。
•我们引入了权重系数,将辅助视图和主要视图提取的特征融合起来,间接解决了不同视图之间的不对称效应问题。
章节片段
属性图聚类
由于其无监督性质和广泛的应用范围,属性图聚类已成为数据挖掘中的一个标准任务。图神经架构(包括图自动编码器(GAE)[13]、图卷积网络(GCNs)和图注意力网络(GATs)在图神经网络中取得了巨大进展,这些架构成为这一任务的主要方法框架。
提出的方法
在本节中,我们介绍了我们新颖的端到端属性图聚类框架的详细信息,包括用于生成辅助视图的增强模块、特征重加权模块以及旨在最大化类间可分性的聚类导向优化约束。我们提出方法的完整框架如图2所示。
数据集与指标
基准数据集实验在六个基准数据集上进行,包括CORA [5]、CORA_v2 [16]、AMAP [36]、ACM [8]、UAT [21]、EAT [21]、BAT [21]。详细信息见表2。
评估指标聚类性能的评估包括四个广泛使用的指标:准确率(ACC)、标准化互信息(NMI)、平均Rand指数(ARI)和宏观F1分数(F1)。
结论
在本文中,我们提出了一种名为TACL的新框架。具体来说,我们使用链接预测作为专家网络来优化结构信息。然后,考虑到不同的嵌入表示对聚类有不同的贡献,我们设计了一种特征重加权机制来调整权重。为了确保伪标签的可靠性,我们选择了两阶段训练策略和筛选具有高置信度伪标签的节点。广泛的实验
CRediT作者贡献声明
赵伟志:撰写——原始草稿、验证、软件、方法论、调查、形式分析。刘恒:撰写——审阅与编辑、项目管理、方法论、形式分析、概念化。侯树东:撰写——审阅与编辑、验证、形式分析。陈峰:撰写——审阅与编辑、验证、形式分析。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
陈峰报告称获得了中国国家自然科学基金的支持。如果有其他作者,他们声明没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本研究部分得到了中国国家自然科学基金(项目编号61971004和62206006)的支持。
赵伟志于2023年获得中国安徽工业大学的学士学位。他目前在中国安徽工业大学攻读硕士学位。他的研究兴趣包括数据挖掘、图聚类和图学习。