用于多视图聚类的非对称深度自编码器类非负矩阵分解

《Engineering Applications of Artificial Intelligence》:Asymmetric deep autoencoder-like non-negative matrix factorization for multi-view clustering

【字体: 时间:2026年02月20日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  多视图聚类中的非负矩阵分解方法,提出基于L1范数正则化的不对称深度自编码器模型,通过分离编码器和解码器实现噪声抑制与特征优化,结合低秩张量表示捕获多视图数据的一致性和互补性。

  
赵桑琪|曾青鹏|吴建生
南昌大学数学与计算机科学学院,中国南昌,330031

摘要

近年来,类似深度自动编码器的非负矩阵分解方法在多视图聚类中取得了令人印象深刻的性能。这些方法将输入数据编码为潜在特征,然后解码这些潜在特征以恢复输入数据,从而获得有意义的特征。它们主要关注探索多视图数据的互补信息,但忽略了重建输入数据的特征可能不具有区分性,因为输入数据的质量通常不够好。例如,输入数据通常包含噪声。为了解决这个问题,我们提出了一种对称深度自动编码器类非负矩阵分解方法(ADA-NMF)用于多视图聚类。该框架使用类似深度自动编码器的非负矩阵分解模型从输入数据中恢复原始数据,同时利用l1-范数正则化来显式建模和减轻噪声。为此,我们设计了一种非对称的深度自动编码器架构,将编码器和解码器组件分离,从而能够独立优化编码和解码过程。这种非对称设计增强了模型提取语义特征的能力,有助于精确重建原始数据。在提取语义特征之后,ADA-NMF进一步自适应地学习特定于视图的局部相似性图,并为多视图数据生成低秩张量表示,以捕捉跨视图的一致性和互补信息。最后,设计了一种高效的优化算法来解决优化问题。我们对人工智能领域的主要贡献是提出了一种新的深度非负矩阵分解框架,用于多视图聚类,并证明了其在处理含噪声的多模态数据中的适用性。

引言

多视图数据是指由来自不同来源或观察视角的多种类型特征表示的数据,在各种实际应用中出现了,包括但不限于推荐系统(W. Liu等人,2024年)、面部识别(Serraoui等人,2022年)等。由于多视图数据中的数据视图通常是互补的,多视图数据处理旨在探索跨视图之间的互补信息,以获取关于多视图数据的完整和有代表性的信息,从而有助于理解数据。多视图聚类(MVC)是一种无监督的多视图数据处理方法,它通过将相似的数据样本分配到同一簇中,将不同的数据样本分配到不同的簇中,来尝试将多视图数据分组。
当前MVC方法成功的关键前提是从多视图数据中学习高质量的特征,基于这些特征,同一簇中的数据点具有很大的相似性,而不同簇中的数据点则不相似。最近,基于不同技术提出了许多MVC方法,如子空间学习(Feng等人,2024年,Tang等人,2023b年)、谱学习(Tang等人,2023a年)、核化(Hou等人,2024年)、非负矩阵分解(NMF)(Luong和Nayak,2020年,Huang等人,2023a年,Gunawardena等人,2024年),以提取多视图数据的高质量特征,其中基于NMF的聚类方法由于降维和可解释性而受到了广泛关注(Lee和Seung,1999年)。此后,许多研究人员详细研究了各种高级变体的发展,包括浅层NMF方法(Luong和Nayak,2020年,Liang等人,2020年)和深层NMF方法(Huang等人,2023a年,Gunawardena等人,2024年,Trigeorgis等人,2014年)。尽管它们的性能令人印象深刻,但浅层NMF方法有几个局限性:(1)由于其浅层架构,它们无法揭示多视图数据中隐藏的复杂层次结构和结构信息,(2)它们难以提取能够捕捉现实世界数据非线性可分性的区分性表示
受到深度学习的启发,深度学习以从数据中提取语义特征而闻名,一系列基于深度NMF的聚类方法被提出,通过多层分解逐层探索数据中的复杂模式和关系(Li等人,2020年,Zhao等人,2017年,Luong等人,2022年)。然而,这些深度NMF方法具有解码器组件,但缺乏编码器组件,生成的深度特征可解释性差、代表性弱且容易受到随机噪声的影响(Zhao等人,2023年,Li等人,2024年)。因此,类似深度自动编码器的NMF(Ye等人,2018年,Huang等人,2022年,Huang等人,2023b年)利用深度自动编码器的架构,提供了潜在特征学习和非线性建模能力,用于下游聚类,同时保持了NMF的可解释性。它包括两个组件:编码器和解码器,其中编码器将输入数据映射到潜在空间,通过潜在表示全局捕获数据特征,解码器使用这种潜在表示重建输入数据。然而,当前的多视图深度自动编码器类NMF方法关注探索多视图数据的一致性和多样性信息,同时忽略了数据质量和深度架构,即(1)输入数据用于监督解码过程,(2)编码器和解码器共享相同的基矩阵。 对于输入数据质量较高的场景,对称架构可能效果良好,但在实际应用中输入数据通常是低质量的。当输入数据质量较低时,这是一个矛盾。也就是说,能够很好地重建输入数据的潜在特征将无法揭示数据模式,因为观察到的输入数据中的噪声会阻止模型揭示底层数据分布。
基于这一前提,本文提出了一种新的类似深度自动编码器的NMF模型,用于多视图数据聚类,即对称深度自动编码器类非负矩阵分解(ADA-NMF)用于多视图聚类。首先,鉴于观察到的数据经常包含噪声,所提出的ADA-NMF将观察到的多视图数据编码为潜在特征,并使用l1-范数对这些特征进行建模,以推断底层多视图数据。作为建模稀疏和非高斯噪声的广泛采用的度量标准,l1-范数在减轻局部损坏(如遮挡和异常值)方面表现出特别的有效性(Candès等人,2011年),这些在现实世界的多视图数据集中非常普遍。为了弥合这一关键差距,ADA-NMF开发了一种非对称的自动编码器架构,将编码器和解码器组件分离,使每个组件的基矩阵能够独立优化。这种分离的设计有助于提取具有区分性的语义特征,从而支持原始数据的准确重建,并在特征学习过程中明确减轻噪声。相比之下,受对称架构限制的传统自动编码器类模型优先考虑直接重建原始输入数据,往往产生非区分性的特征表示。在处理低质量、含噪声的数据时,这种限制尤为明显,因为这些模型无法有效捕捉与簇相关的模式。在提取语义特征之后,它自适应地为每个数据视图学习局部相似性图,并基于特定于视图的图为多视图数据构建低秩和区分性的张量表示。在这里,张量表示捕获并包含了多视图数据的高阶一致性和互补信息。总之,本文的贡献如下:
  • 我们提出了一种用于多视图数据聚类的非对称深度自动编码器类NMF。它使用l1-范数对观察到的多视图数据建模噪声,从而推断出底层多视图数据,并为多视图数据生成低秩和区分性的张量表示。
  • 我们设计了一种非对称的深度自动编码器架构,将编码器和解码器组件分离,以帮助提取语义特征。
  • 我们设计了一种有效的优化算法来解决所提出模型的优化问题。在各种多视图基准数据集上的广泛实验表明,所提出模型的优越性优于现有方法。
  • 本文的其余部分组织如下。第2节提供了基于矩阵分解的多视图聚类方法概述。第3节介绍了所提出的模型,第4节介绍了优化过程。然后在第5节对七个公开可用的数据集进行了广泛实验。最后,第6节总结了本文并讨论了工作的进展。

    相关工作

    近年来,多视图数据处理方法已在多个领域得到广泛应用,如图像处理(Zhang等人,2024年)、文本挖掘(Yassir等人,2020年)和生物信息学(Li等人,2016年)。在本节中,我们将回顾与非负矩阵分解相关的多视图聚类方法的最新进展。

    方法论

    在本节中,我们将详细介绍所提出的ADA-NMF。我们的模型包括两个组件:非对称深度自动编码器类NMF和低秩张量表示学习,如图1所示。

    优化

    在本节中,我们将详细介绍基于交替方向乘子法(ADMM)的交替算法,用于解决所提出模型的优化问题。

    实验

    在本节中,首先通过将其聚类性能与13种现有方法进行比较来评估所提出的ADA-NMF。在聚类结果比较之后,进一步进行了包括参数分析、可视化分析、消融实验和收敛性分析在内的ADA-NMF分析,以评估其有效性。所提出的ADA-NMF的源代码可在https://github.com/jshncu/MultiviewClustering/tree/main/ADA-NMF公开获取。

    结论

    在本文中,我们提出了对称深度自动编码器类非负矩阵分解(ADA-NMF)用于多视图聚类。ADA-NMF采用非对称自动编码器架构来分离编码和解码过程,允许独立优化编码器和解码器,因为ADA-NMF将输入的多视图数据编码为潜在表示,然后使用l1-范数正则化来解码潜在表示,从而

    CRediT作者贡献声明

    赵桑琪:撰写——原始草稿,方法论。曾青鹏:撰写——审阅与编辑。吴建生:撰写——审阅与编辑,资金获取,概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本研究得到了国家自然科学基金(编号:62466035, 62066027)和江西省自然科学基金(编号:20242BAB25106, 20212BAB212011)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号