《Computer Communications》:Community detection in attributed networks based on deep attention autoencoder with block diagonal subspace constraint
编辑推荐:
社区检测在复杂网络中融合拓扑与属性特征具有广泛应用价值,但现有方法在捕捉空间结构特征和属性非线性关系方面存在局限。本文提出DAEAS算法,通过子空间约束策略引导嵌入空间聚类分布,设计属性拓扑融合矩阵与图注意力自编码器策略,有效整合网络结构与节点属性,实验证明其优于Sscf、Lrscd等算法。
吴凌|郭帅|蔡子琦|陈建国|杨英杰|郭坤
福州大学计算机与数据科学学院,中国福州
摘要
在具有属性的网络中进行社区检测已成为当代复杂网络研究的热点。该方法结合了拓扑结构和属性特征,以揭示潜在的社区结构,在推荐系统、社交网络分析和生物信息学等实际应用中具有相当大的价值。尽管基于神经网络的社区检测方法已经取得了不错的性能,但这些方法在处理空间结构特征方面表现较弱,并且忽略了嵌入空间中的聚类分布。为了解决这个问题,本文提出了一种子空间插件策略,该策略利用子空间约束来指导表示向量学习嵌入空间中的聚类分布,使其更适合于聚类任务。此外,为了克服子空间聚类在捕获网络空间特征和提取属性信息方面的不足,本文还设计了属性-拓扑融合策略和子空间自动编码器策略。这些策略使表示向量能够更好地捕获网络特征,并解决了提取属性信息的难题。在真实网络和合成网络上的实验结果表明,DAEAS的准确性高于几种先进的社区检测算法。
引言
复杂网络由众多节点及其复杂的关系组成。现实世界中的许多复杂系统都可以被视为复杂网络,例如个体之间的社交网络、节点之间的交通网络以及蛋白质之间的相互作用网络[1]。复杂网络可以被划分为多个社区,同一社区内的节点之间的连接比不同社区之间的节点连接更紧密。社区检测[2]是复杂网络分析中的一个重要工具,其主要目标是识别复杂网络中的社区结构。社区检测有助于人们更好地理解复杂网络背后的隐藏信息,并解决现实生活中的问题,例如在社交网络上推荐潜在的朋友、利用交通网络分析交通路线对城市的影响,以及通过生物蛋白质网络促进药物研究和开发。
近年来,深度学习受到了广泛关注,并被证明在包括社区检测[3]在内的多种问题上具有强大的能力。本文主要考虑基于自动编码器的社区检测。基于自动编码器的社区检测[4],[5],[6]通常包括两部分:编码器和解码器。编码器用于将网络中的节点投影到潜在空间以获得低维特征向量,然后解码器将这些特征向量重构回原始结构。然而,这种方法存在局限性。传统的图自动编码器大多只在编码器和解码器之间构建了一层拓扑重构损失,无法利用属性特征进行重构。此外,这些方法通常使用聚类方法(如k-means)作为独立阶段来获取社区划分,而没有考虑两个阶段之间的联系。也就是说,当自动编码器学习特征向量时,它无法学习数据的空间结构信息。
子空间聚类可以通过在数据中找到低维子空间并将数据投影到低维空间中来更有效地处理高维特征,从而捕获隐藏的社区结构[7]。已经开发了基于子空间聚类的社区检测算法,这些算法将每个社区视为一个独立的子空间。例如,SSCF[8]应用稀疏子空间聚类进行社区检测,而LRSCD[9]利用了低秩子空间聚类的思想。这些算法使用测地距离来描述网络的拓扑结构,并学习具有块对角线特性的表示系数矩阵来划分社区。虽然这些方法可以在非属性网络上检测到高质量的社区结构,但它们没有考虑节点属性信息的处理[10]。
为了解决上述问题,提出了一种名为DAEAS(Deep Attentional Embedded in Attribute Networks with Subspace Constraint)的算法。首先,设计了子空间插件(SP)策略,通过应用子空间约束来学习网络的空间结构特征,它可以作为可扩展的插件应用于各种自动编码器。其次,制定了属性-拓扑融合(ATF)策略和子空间自动编码器(SA)策略。它们不仅实现了属性-拓扑信息的融合,还结合了注意力自动编码器和子空间聚类来从网络中提取非线性属性数据。因此,本文的主要贡献如下:
(1) 设计的SP策略将子空间约束纳入自动编码器中。与传统的表示学习方法相比,该策略考虑了嵌入空间的聚类分布,使得表示向量更适合后续的聚类任务。
(2) 提出的ATF策略将网络属性和拓扑信息整合到一个属性-拓扑融合矩阵中,使表示向量比邻接矩阵更好地捕获特征,而SA策略利用图注意力自动编码器提取属性信息,有效解决了传统子空间聚类算法在处理非线性属性数据方面的局限性。
在真实世界和合成网络上的实验表明,DAEAS在性能上优于其他先进的算法。
基于深度神经网络的社区检测
基于深度神经网络表示学习的属性网络社区检测算法主要利用网络的拓扑信息和属性信息的潜在特征,通过神经网络学习来获得网络的表示向量。2016年,Kipf等人[4]提出了GAE和VGAE模型,这些模型使用图卷积神经网络作为网络的编码器,并利用表示向量的内积作为
初步知识
在本节中,我们将介绍具有属性的网络中社区检测的定义。本文中使用的符号和定义如表1所示。
定义1
具有属性的网络