基于锚图学习的高阶相关性与一致性感知多视图聚类

【字体: 时间:2026年03月04日 来源:Neural Networks 6.3

编辑推荐:

  多视图聚类框架HCAGL通过锚图学习降低维度并提升计算效率,利用张量Schatten p-范数捕捉跨视图高阶关联,结合自适应邻域图学习策略增强跨视图一致性,实验表明其在六个基准数据集上聚类效果优于现有方法。

  
程亮|臧文超|王道远|郭飞
山东师范大学计算机科学与人工智能学院,济南,250358,山东,中国

摘要

多视图聚类已成为整合来自多个数据源的互补信息的一种有效工具。然而,传统的聚类方法在计算效率以及捕捉视图间的高阶相关性及保持跨视图一致性方面常常遇到困难,尤其是在处理大规模和异构数据时。为了解决这些问题,我们提出了一种新的框架——基于锚图学习的高阶相关性与一致性感知多视图聚类(HCAGL)。HCAGL利用一组紧凑的锚点进行锚图学习,有效降低了维度并显著提高了计算效率。为了捕捉视图间的高阶相关性,我们在低维锚点嵌入上引入了张量Schatten p-范数,促进了全局一致性的传播。此外,我们还结合了一种自适应邻域图学习策略来构建共识图,根据各视图的相对重要性动态调整权重,从而增强了跨视图的一致性。在六个基准数据集上的广泛实验表明,HCAGL在捕捉跨视图一致性和高阶相关性方面表现优异,其准确性和聚类质量均优于现有的多视图方法。对模型组件和参数敏感性的分析表明,每个设计选择都对性能有积极贡献,确保了在不同数据集上的稳定和可靠结果。这些发现表明,HCAGL是解决复杂多视图聚类问题的有效且计算效率高的方案。

引言

在现实世界中,问题通常具有多个属性,从多个角度解决问题会得到不同的结果。日常生活的许多方面都涉及多个属性,例如多媒体数据(Zhang等人,2019年),它包含文本、图像和声音信息。这些元素各自具有独特的特征:例如,图像的边缘纹理和颜色(Yang等人,2019年),文本的语言类型,以及声音的特性。这些具有多个属性的组件可以被视为问题的多个视角,通常被称为多视图数据。多视图数据允许从各种视角描述问题,从而更全面地理解底层信息(Li, Yang, Zhang, 2019; Zhao, Xie, Xu, Sun, 2017)。多视图数据的概念催生了专门用于处理此类信息的各种聚类方法,即多视图聚类(Bickel和Scheffer,2004年)。
多视图聚类方法旨在利用来自不同视图的互补信息来提高聚类效率。传统的多视图聚类方法主要可以分为三类:基于子空间的方法、基于图的方法和基于张量的方法。基于子空间的方法试图学习一个共享的潜在子空间,将所有视图的信息整合在一起,从而实现考虑所有可用视角的稳健聚类(Gao, Nie, Li, Huang, 2015; Zhang, Huang, Wang, 2024)。基于图的方法构建图来表示每个视图中的样本之间的关系,然后结合这些图来获取多视图数据的结构特征(Dornaika, El Hajjar, 2024; Gao, Wan, Liang, Wang, Liu, Shao, 2020)。基于张量的方法利用张量表示来建模不同视图之间的多向关系,从而探索所有视图的高阶相关性(Wu, Lin, Zha, 2019; Zhong, Lyu, Yang, 2025; Zhu, Zhang, Luo, Jiang, Wang, 2025)。前述方法旨在利用不同视图的互补方面,确保聚类结果比单视图方法更加稳健和全面。
尽管多视图聚类取得了进展,但仍存在一些挑战。传统方法,如自表达子空间聚类,在处理大型数据集时由于需要构建大型亲和矩阵而面临高计算成本的问题。此外,大多数现有方法主要关注单个视图内的样本对相关性,忽略了可能揭示更深层次全局模式的不同视图间的高阶关系。此外,忽视跨视图一致性往往会导致错位,削弱了聚类效果的稳健性和连贯性。
为了解决这些挑战,我们提出了一种新的多视图聚类框架——基于锚图学习的高阶相关性与一致性感知多视图聚类(HCAGL)。HCAGL利用锚图学习通过一组较小的锚点高效降低每个视图的维度。这种方法不仅显著降低了计算复杂性,还保留了关键的结构信息。为了探索视图间的高阶相关性和空间结构,在低维锚点嵌入上应用了张量Schatten p-范数。这种范数不仅捕捉了视图间的复杂依赖关系,还传播了全局一致性,确保了有价值的结构模式在视图间得到保留。此外,还结合了一种自适应邻域图学习策略来生成共识图,根据每个视图对聚类的相关性动态调整权重,从而进一步增强聚类的稳健性。HCAGL的流程图如图1所示,其主要贡献如下:
  • 我们的方法结合了基于锚点的表示学习、高阶相关性建模和自适应邻域图学习,提高了聚类的稳健性,并从多视图数据中捕获了复杂的结构特征。
  • 应用锚图学习通过用一组紧凑的锚点表示每个视图来降低数据维度和计算复杂性。这种方法保留了每个视图的独特结构特征,确保了在多样化应用中高效处理多视图数据。
  • 我们的模型将所有低维锚点嵌入堆叠成一个三阶张量,并对其应用张量Schatten p-范数,有效地促进了跨视图的高阶相关性和空间结构的探索。这种方法在捕捉复杂视图间依赖关系的同时传播了全局一致性信息,显著提高了聚类的一致性,并减轻了冗余和噪声的影响。
  • 我们开发了一种高效的迭代算法来优化统一的目标函数。在六个多视图基准数据集上的广泛实验表明,我们的方法在聚类准确性、稳健性和计算效率方面均优于现有的最先进方法。
本文的后续部分结构如下:第2节主要总结了多视图领域的研究,第3节给出了本文的符号表示和相关理论。第4节详细描述了我们的方法。第5节提供了六个数据集上的比较实验。第6节对本文进行了总结。

相关研究

相关工作

在最近的研究中,出现了许多多视图聚类(MVC)方法,显著推进了聚类研究的发展。总体而言,MVC可以根据聚类方法分为三个主要研究方向:基于子空间的聚类方法(SC)、基于图的多视图聚类方法(GMVC)和基于张量的多视图方法(TMVC)。
SC,特别是自表达子空间聚类,旨在通过表达每个视图来将数据分割成低维的多个子空间

符号说明

在本文中,我们使用特定的符号以提高清晰度。小写字母(例如,z)、大写字母(例如,Z)和书法体大写字母(例如,Z)分别表示向量、矩阵和张量。张量的第个 frontal slice 表示为 Zi。张量 Z 沿第三维的快速傅里叶变换(FFT)和逆FFT 表示为 Z=fft(Z,[],3),对于多视图数据,让 Z=ifft(Z,[],3) 表示数据集,其中 X=X1,X2,?,Xv} 表示数据集,其中 XvRd×n

HCAGL框架概述

所提出的HCAGL(高阶一致性锚图学习)框架将三个关键组件——基于锚点的表示学习、张量Schatten p-范数正则化和自适应共识图学习——整合到一个统一的多视图聚类流程中,如图2所示。首先,对于每个视图,构建一个锚图以高效获得低维嵌入 Rv,在降低计算复杂性的同时保留了原始数据的局部结构。

实验

在本节中,我们进行了全面评估,以比较我们的方法与其他方法的有效性。所有实验都在配备了AMD Ryzen 7 4800H CPU和16 GB RAM的Windows 10系统上使用MATLAB R2018b执行。

结论

在这项工作中,我们提出了一种新的多视图聚类框架,该框架结合了锚图学习、高阶相关性建模和自适应邻域图学习。通过利用保留关系信息的数据点集进行锚图学习,我们的方法在捕获每个视图的关键结构信息的同时显著提高了计算效率。为了探索视图间的高阶相关性,我们通过堆叠

未引用的参考文献

缺失的参考文献:表4、表5、表6、表9

CRediT作者贡献声明

程亮:项目管理、方法论、概念化。臧文超:写作——初稿、软件。王道远:写作——审阅与编辑、验证。郭飞:形式分析。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(62372279, 62322215, 62532017)、山东省自然科学基金(ZR2025QB62, ZR2023MF119)和湖南省自然科学基金(2026JJ30018)的支持。本研究还得到了中南大学高性能计算中心的部分支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号