具有自适应邻居的非负谱嵌入学习方法在多视图聚类中的应用

《Neural Networks》:Nonnegative Spectral Embedding Learning with Adaptive Neighbors for Multi-view Clustering

【字体: 时间:2026年01月04日 来源:Neural Networks 6.3

编辑推荐:

  多视图聚类框架NSEAN通过融合自适应图学习与非负谱嵌入实现单阶段聚类,消除后处理需求并仅需单一超参数k。采用ALM优化解决约束优化难题,实验验证其在8个数据集上优于现有方法,具有强鲁棒性和低参数敏感性。

  
赵明宇|聂飞平|王聪|李学龙|谭泽涵|胡华强
西北工业大学计算机科学与学院、人工智能、光学与电子学院(iOPEN),中国陕西省西安市710072

摘要

基于图的多视图聚类(MVC)方法通常依赖于固定或手动构建的相似性图,并涉及多个敏感的超参数,这限制了它们的鲁棒性和实际应用性。为了解决这些问题,我们提出了非负谱嵌入与自适应邻居(NSEAN)方法,这是一个统一的一阶段MVC框架,它将每个视图的适应性图学习与非负谱嵌入相结合。NSEAN同时学习适应性相似性图和共识谱嵌入,后者直接作为聚类指示矩阵,从而消除了后处理的需要。通过强制非负性和正交性,学习到的嵌入具有清晰且可解释的聚类分配结构。为了有效优化耦合约束,采用了增强拉格朗日乘数(ALM)策略来确保稳定和有效的优化。在真实世界的多视图数据集上的广泛实验表明,NSEAN在只需要一个超参数邻居数量k的情况下,始终能够实现具有竞争力或更优的聚类性能,而且模型对k的值不敏感,从而避免了繁琐的参数调整。代码可在https://github.com/haha1206/NSEAN获取。

引言

聚类是机器学习和模式识别中的一个基本任务,在过去几十年中得到了广泛研究(Ren等人,2024年)。经典的聚类算法,如K-means(Hu等人,2023年)、DBSCAN(Schubert等人,2017年)和谱聚类(SC)(Wen等人,2021年),已在各种应用中成功使用。然而,在许多现实世界场景中,数据自然地来自多个来源或视角,导致多视图数据的普遍性(Zhao等人,2017年)。在这种情况下,单视图聚类方法往往不足以捕获跨视图之间的互补和一致信息,这可能导致聚类性能下降(Liang等人,2019年)。这促使了多视图聚类(MVC)技术的发展,这些技术旨在整合异构视图以获得更可靠的聚类结果(Chao等人,2021年;Fang等人,2023年)。
从方法论的角度来看,现有的MVC方法可以大致分为几类,包括基于图的方法(Xu等人,2025年;Zhang等人,2024年)、子空间学习方法(Lu等人,2025年);基于非负矩阵分解(NMF)的模型(Dou等人,2025年;Yang等人,2024年);以及基于核或表示学习的技术(Che和Yang,2025年;Zhao等人,2023b)。在这些范式中,基于图的MVC由于其在建模复杂数据关系方面的灵活性及其与谱聚类的强理论联系而受到了持续关注。
许多基于图的MVC方法采用两阶段范式:首先学习统一的相似性图或谱嵌入,然后应用后处理算法来获得聚类分配。例如,CGL(Li等人,2021年)在谱嵌入空间中学习共识图,随后应用K-means来获得聚类结果。同样,Wang等人(2024年)将图对齐与自适应锚图学习相结合,通过在学习到的共同嵌入上进行后处理来执行聚类。尽管在实践中有效,但这种两阶段策略可能会因为后处理方法(如K-means)对初始化敏感并且可能破坏嵌入阶段学习到的结构而遭受性能不稳定。
为了解决这些问题,越来越多的研究旨在通过直接学习离散指示矩阵来一步完成MVC。代表性的例子包括UOMvSC(Tang等人,2022年),它将K-means和谱聚类统一到一个框架中;E2OMVC(Wang等人,2023年),它从锚图公式中的共享嵌入中派生出二进制指示矩阵;OMVCDR(Wan等人,2025年)同时优化多视图表示和聚类标签;MDC(Qiang等人,2023年)通过学习完全离散的指示矩阵直接解决原始的多视图图聚类问题。最近,BDMC-AGL(Zhao等人,2025年)进一步结合了大小约束以实现平衡的一步MVC。这些方法避免了后处理,但通常依赖于难以扩展或稳定的离散优化方案。
另一条研究路线是将学习到的共识嵌入限制为软指示矩阵,通过选择每行的最大条目来获得聚类分配。MCNOGR(Shi等人,2021年)受到ONGR(Han等人,2017年)的启发,结合了统一的图学习和图分解来获得聚类结果。NESE(Hu等人,2020年)进一步整合了非负和谱嵌入,直接产生无需后处理的一致聚类输出。后续的扩展引入了额外的约束或自动加权融合机制来增强鲁棒性(El Hajjar等人,2022年;Zhao等人,2023a)。尽管这些方法是一阶段的,但它们通常依赖于预先构建的相似性图,使其性能对图的质量敏感。
为了解决固定图构建的局限性,一些方法将自适应图学习纳入MVC。MLAN(Nie等人,2017年)根据成对距离为每个样本分配最优邻居,实现图学习和聚类的同时进行。GMC(Wang等人,2019a)学习特定于视图的图,并在排名约束下将它们融合成共识图。其他方法,如DwMPC和SwMPC(Wang等人,2019b)、CGAMPC(Sang等人,2022年)和RONGL(Du等人,2023年),进一步将自适应图学习与降维、共识建模或低秩正则化相结合。尽管有效,但这些方法通常对学习到的图施加排名或连通性约束,这可能不总是与真实的聚类结构对齐,并可能影响聚类准确性。
尽管取得了实质性进展,但仍有两个挑战尚未得到充分解决。首先,许多现有的MVC方法仍然依赖于手动构建或固定的相似性图,这可能无法反映多视图数据的内在结构,并引入噪声或偏差。其次,即使在一阶段框架中,也经常需要复杂的正则化项和多个敏感的超参数,这限制了在无监督环境中的鲁棒性和实际应用性。
受到这些观察的启发,我们开发了一个统一且可解释的MVC框架,称为非负谱嵌入与自适应邻居(NSEAN),如图1所示。NSEAN同时进行每个视图的适应性图学习,并在非负和正交图重建下学习共识谱嵌入,使其可以直接作为聚类指示矩阵。由于在耦合的非负性和正交性约束下优化谱嵌入具有挑战性,因此采用了高效的增强拉格朗日乘数(ALM)优化策略来确保稳定和有效的学习。在八个真实世界数据集上的广泛实验证明了所提出框架的有效性和鲁棒性。本工作的主要贡献总结如下:
  • 1.
    我们提出了一个统一的基于图的MVC框架,它将预视图自适应图学习与非负和正交谱嵌入相结合,能够从多个视图重建结构化的共识图。
  • 2.
    通过对学习到的谱嵌入施加非负性和正交性,所提出的方法直接产生一个有效的指示矩阵,而无需后处理。开发了一种高效的基于ALM的优化算法来解决由此产生的具有挑战性的约束优化问题。
  • 3.
    所提出的框架仅涉及一个用户定义的参数,即邻居数量k。经验敏感性分析表明,聚类性能在广泛的k范围内是稳定的,使得该方法几乎不需要参数,适用于无监督应用。
  • 在本文中,bij是矩阵B中的(i, j)元素,bi表示B的第i行,BTB的转置,Tr(B)表示B的迹。‖?·?‖F和‖?·?‖2分别表示Frobenius范数和l2-范数。对于多视图数据,Xv表示第v视图的特征表示,Sv表示相应的相似性图。图拉普拉斯矩阵表示为LD表示度矩阵。我们使用n表示样本总数,V表示视图数量,dv表示第v视图的特征维度。聚类数量表示为ck表示在相似性图构建中考虑的最近邻居数量。最后,t用于表示优化过程中的迭代次数。详细符号在表1中总结。
    本文的结构如下:第2节讨论了与NSEAN相关的先前研究。第3节深入解释了NSEAN模型。第4节介绍了一种有效的优化技术,用于更新NSEAN中的变量。第5节通过一系列在真实世界数据集上的实验来评估NSEAN的MVC性能。最后,第6节总结了本文。

    部分摘录

    相似性图重建

    谱聚类或谱嵌入是基于图聚类的基本范式。给定一个由矩阵S编码的相似性图,经典的谱嵌入问题通常表述为:minFTF=ITr(FTLsF)其中Ls表示从S构建的标准化图拉普拉斯矩阵。在F的正交性约束下,这个表述在数学上等同于以下基于Frobenius范数的图重建问题:minFTFTW?FF2

    方法论

    尽管现有的多视图聚类方法取得了进展,但两个关键挑战尚未得到充分解决。首先,许多方法依赖于预定义或固定的相似性图,这可能无法正确反映底层数据结构,并容易引入噪声或偏差。其次,即使是一阶段模型也经常涉及复杂的正则化项和多个敏感的超参数,这限制了在无监督环境中的鲁棒性和实际应用性。这些问题激发了

    优化算法

    本节提出了一种有效的优化算法。我们采用了一种替代的更新策略来解决方程(14)中的三个变量。

    实验

    在本节中,我们在八个真实世界数据集上评估了我们的NSEAN模型的MVC性能,并与SOTA竞争者进行了比较。所有实验都是使用Python 3.8在配备2.3 GHz CPU、32 GB RAM和NVIDIA RTX 2080 GPU的机器上进行的(用于深度基线)。为了公平比较,当官方Python版本不可用时,所有基线方法都是用Python实现或重新实现的。这确保了所有方法在评估指标和运行时条件上的一致性。

    结论

    在本文中,我们提出了NSEAN,这是一个基于图重建的自适应加权图学习框架,用于多视图聚类。NSEAN的核心目标是学习一个共识非负谱嵌入,该嵌入可以直接以统一的一步方式产生聚类结果。通过从学习到的嵌入重建相似性图,得到的图结构既清晰又稳定,有效地提高了聚类质量和鲁棒性。为了解决由此产生的

    CRediT作者贡献声明

    赵明宇:写作——审阅与编辑,写作——原始草稿,软件,方法论,概念化。聂飞平:写作——审阅与编辑,监督,方法论。王聪:验证,资金获取,形式分析。李学龙:监督。谭泽涵:调查,数据管理。胡华强:验证,监督,软件。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号