通过多样性共识图注入实现的多视图聚类

【字体: 时间:2026年03月13日 来源:Neurocomputing 6.5

编辑推荐:

  多视图聚类通过多样性共识图融合(DCGI)方法,整合锚图构建与优化,学习跨视图共识锚和视图特定图,捕捉共同结构并避免性能损失。通过融合多尺度共识图,DCGI保持线性时间复杂度,有效处理大规模多视图数据,实验表明其优于现有方法。

  
邵明亮|王健|刘婵娟|张佩颖|尼基尔·R·帕尔
中国石油大学(华东)理学院,青岛266580,中国

摘要

多视图聚类(MVC)旨在探索不同视图之间的互补和一致信息,以实现更优的聚类性能。近年来,处理大规模多视图数据受到了广泛关注,从而推动了各种相关算法的发展。这些方法大多在每个视图中选择一小部分锚点,构建单视图锚图,然后将它们合并成一个统一的图。尽管这些方法效率很高,但我们发现了两个关键限制:(i)锚图的融合通常是通过线性加权来实现的,这种策略未能充分捕捉数据的底层结构。(ii)现有方法主要关注单维共识图,这限制了模型的表达能力。为了解决这些问题,我们提出了一种新的方法,称为通过多样性共识图注入(DCGI)进行多视图聚类。DCGI将锚图的构建和优化整合到一个连贯的学习框架中,以提高聚类性能。通过学习共识锚点和捕捉视图间共性的视图特定图,它避免了多视图融合导致的性能损失。此外,它融合了多尺度共识图以获得最终的聚类结构。此外,DCGI在样本数量方面的计算复杂度是线性的,表明其能够处理大规模多视图数据。在基准测试上进行的实验证明了我们提出方法的有希望的聚类性能。

引言

聚类旨在根据特定标准(例如距离/相似性)对数据集进行划分,将具有相似特征的数据点分组,已成为无监督学习中的基本技术[1],[2]。然而,随着多源数据采集技术的快速发展和广泛应用,数据表现出越来越多样的特征表示[3],[4]。特别是在文本挖掘任务中,各种文档存在多种语言版本。有效捕捉多视图数据之间的互补信息对于提高聚类性能至关重要[5],[6]。
MVC作为一种处理多视图数据的突出方法而出现,因为它能够利用多个视图之间的互补信息[7],[8],[9]。据我们所知,现有的MVC算法大致分为两类:基于神经网络的方法[10],[11],[12]和基于启发式的方法[13],[14],[15]。例如,张等人[16]设计了一种基于互信息的多视图聚类方法,以解决互补性探索和信息保留问题。为了进一步提高潜在表示的区分能力,李等人[17]提出了一种双重对比多视图聚类(DCMVC)方法,将实例级别的对比学习提升到簇级别,并使用伪标签来细化嵌入特征。此外,为了防止预定义的锚点偏离真实的簇分布,王等人[18]引入了一种基于扰动的可学习锚点机制和锚图卷积,以动态捕捉跨视图聚类的一致性。然而,尽管这些方法在性能上有优势,但大多数方法缺乏严格的数学表述,并且可解释性有限。相比之下,基于启发式的方法由于其计算效率而被广泛采用。具体来说,黄等人[19]通过应用图过滤来保留底层图的几何结构,以获得平滑的表示,基于同一簇内的样本倾向于紧密连接的假设。辛等人[20]结合了高阶图和范数来缓解一阶图的稀疏限制。为了从多个图中挖掘更丰富的结构信息,卢等人[21]同时使用了多个模块来探索谱嵌入和亲和矩阵。
虽然现有的多视图聚类算法通过多种策略提高了性能,但在处理大规模多视图数据集时,它们的计算复杂度变得过高。为了解决这一挑战,基于锚点的策略作为计算效率高的解决方案应运而生。这些策略通常采用-均值、随机采样或直接锚点选择(DAS)[22]来为每个视图识别代表性锚点。使用锚点构建相似性图,可以将维度从降低到[23],[24],[25],从而降低计算复杂度。在为所有视图构建二分图之后,通过优化视图特定图的加权融合来生成共识图。例如,康等人[26]使用-均值提取视图特定锚点,然后通过均匀加权融合得到的锚图以获得最终的共识图。赵等人[27]引入了高阶二分图来缓解初始视图特定图中的稀疏结构。杨等人[28]将锚点选择与相关性结合,有效抑制了大规模多视图数据集中的复杂噪声。欧等人[29]通过层次特征下降方法构建了一个公共子空间,以减少视图之间的差异。
尽管基于锚点的多视图聚类(MVC)算法在处理大规模多视图数据方面表现出有效性,但仍有一些关键限制需要进一步研究。首先,独立构建锚图需要为每个视图学习单独的二分图,然后进行融合步骤。这些方法需要更高的计算成本,往往导致聚类精度下降。此外,锚图的维度是决定模型表达能力的关键因素。低维嵌入通常强制使用紧凑的表示,保留了全局拓扑骨架,但可能会过度平滑复杂的局部细节。相反,高维表示提供了足够的容量来编码复杂的流形结构。大多数现有的基于锚点的方法依赖于单一的共识图,这造成了不可避免的信息瓶颈。因此,这些限制限制了基于锚点策略在大规模MVC场景中的更广泛使用。我们使用多尺度共识图来解决这些问题。
鉴于上述限制,我们提出了一种新的多尺度视图共享锚图多视图聚类框架,称为通过多样性共识图注入(DCGI)进行多视图聚类,专为大规模多视图聚类设计。我们的框架将锚点矩阵构建整合到优化过程中,确保锚点和谱嵌入的联合学习。在DCGI中,跨视图和维度学习谱嵌入,以有效捕捉互补信息。接下来我们总结我们的贡献。
  • 1)
    我们提出了一种称为通过多样性共识表示注入(DCGI)的新框架。它学习共识图和视图特定图,从而识别跨视图的共享结构模式。此外,DCGI直接从多尺度共识图中提取更丰富的谱嵌入,增强了模型的表达能力。
  • 2)
    我们设计了一种高效的交替优化算法来解决提出的非凸目标函数,该函数涉及多尺度空间上的复杂约束。理论分析确认,该算法在样本数量方面的计算复杂度是线性的,保证了大规模数据集的可扩展性。
  • 3)
    通过在真实世界数据集上进行的广泛实验评估了DCGI的有效性。我们将DCGI与最先进的MVC算法进行比较,并证明了其在聚类精度和大规模数据集的可扩展性方面的优越性。
本文的其余部分组织如下。第2节回顾了关于自表达子空间聚类和多视图聚类算法的先前工作。第3节介绍了DCGI的动机及其数学表述。接下来,我们开发了一个六步交替优化程序并分析了其计算复杂度。第4节通过全面分析展示了在八个基准问题上的实验结果。最后,第5节总结了本文并讨论了未来的研究方向。

相关工作

相关工作

本节回顾了与我们的研究相关的先前工作,重点关注子空间聚类和多视图子空间聚类。

方法论

本节介绍了所提出方法论的概述。第3.1节定义了本文中使用的关键符号和主要术语。第3.2节详细阐述了动机并制定了提出的框架。第3.3节开发了一个六步交替迭代优化算法。最后,第3.4节分析了所提出方法论的计算复杂度。

实验

在本节中,进行了广泛的实验来验证所提算法的有效性。具体来说,我们将我们的方法与十个最先进的MVC方法在八个广泛使用的多视图数据集上进行了比较。此外,我们进行了消融研究、收敛性分析和敏感性分析,以证明我们方法的有效性和鲁棒性。

结论

我们提出了一种新的自适应基于锚点的MVC框架(DCGI),通过从多尺度共识锚图中导出谱嵌入来增强表示能力。在八个基准数据集上的广泛实验证明了DCGI在四个评估指标上的优越性。消融研究进一步证实了我们方法提高聚类性能的能力。未来的工作将专注于开发针对视图特定信息融合的自适应选择机制。

CRediT作者贡献声明

邵明亮:撰写——原始草稿,验证,方法论 王健:撰写——审阅与编辑,资金获取,概念化 刘婵娟:监督,调查 张佩颖:监督,调查 尼基尔·R·帕尔:撰写——审阅与编辑,验证,概念化

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国国家自然科学基金(项目编号62173345)的支持;部分得到了中央高校基本科研业务费(项目编号22CX03002A)的支持;部分得到了中国-CEEC高等教育机构联盟计划(项目编号2022151)的支持;部分得到了高层次人才引进计划(项目编号DL2023152001L)的支持;以及“一带一路”创新人才交流外籍专家项目(项目编号未提供)的支持
邵明亮目前在中国石油大学(华东)理学院攻读博士学位。他的当前研究兴趣包括多视图聚类和优化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号