编辑推荐:
多视图数据中存在部分视图缺失的问题,现有方法在跨视图语义一致性、计算复杂度和后处理依赖方面存在局限。本文提出DOIMC-AGR框架,通过条件扩散模型实现多视图协同补全,结合锚图正则化在潜在空间构建正交约束的聚类锚点,消除传统两阶段流程的计算开销。实验表明该方法在九个基准数据集上聚类精度显著提升,且计算效率优于基线方法。
作者:Ao Li, Sanlin Mei, Dehua Miao, Fengwei Gu, Tianyu Gao, Jiahui Pan
哈尔滨科技大学计算机科学与技术学院,中国黑龙江省哈尔滨市南岗区学府路52号,150080
摘要
不完全多视图聚类(IMC)因其能够处理部分视图缺失的多视图数据而受到了广泛关注。尽管取得了进展,现有方法仍面临三个根本性挑战:(1)在数据插补过程中未能充分捕捉跨视图语义一致性,限制了恢复视图的质量;(2)基于图的技术由于时间复杂度为立方级,可扩展性较差,难以应用于大规模数据;(3)依赖后处理进行聚类分配,导致学习阶段的性能不佳。为了解决这些问题,我们提出了结合扩散插补和锚图正则化的端到端不完全多视图聚类方法(DOIMC-AGR)。该框架将条件扩散插补和锚图正则化集成在一起。具体而言,首先使用视图特定的图卷积网络学习紧凑的特征嵌入。然后,条件扩散模型(CDM)通过全面利用所有可用视图的信息来插补缺失视图,超越了传统的双视图恢复方法。此外,轻量级的锚图正则化(AGR)模块在潜在空间中构建锚图嵌入,而不是在原始特征空间中构建,显著降低了计算成本并提高了嵌入质量。我们还引入了张量Schatten范数约束,以增强跨视图互补性并确保聚类一致性。在多个多视图基准测试上的广泛实验表明,DOIMC-AGR在聚类准确性和效率方面始终优于现有方法。
引言
异构数据采集技术的普及促进了多视图数据的收集[1],[2](例如,视觉、文本和听觉描述符),这些数据从不同角度表征了复杂实体。视图特定的特征空间定义了这些表示,但共享潜在的语义关系。作为聚类的一个分支,多视图聚类(MVC)[3],[4]近年来受到了大量研究关注,因为它系统地利用了一致性和互补性信息来获得更好的聚类性能。然而,在实际应用中,一些样本的部分视图可能从收集到的多视图数据中缺失,这给设计多视图学习模型和探索互补和一致的信息带来了严重挑战。这一实际问题促使了不完全多视图聚类(IMC)方法[5]的发展,该方法专门用于从部分观察到的视图中发现潜在的聚类结构。
根据对缺失视图的处理方式,现有的IMC方法大致可以分为基于插补的[6],[7]和无需插补的[8],[9]两种范式。无需插补的方法旨在利用可用视图学习共同表示,同时利用高置信度的聚类信息,从而避免低质量的插补结果。然而,在高缺失率的情况下,这些方法往往会导致视图间信息的不平衡和偏差,从而严重影响性能。相比之下,基于插补的方法首先使用观察到的数据推断缺失视图,然后对完整数据应用MVC方法进行聚类。尽管这些方法在实证上取得了成功,但仍然面临两个主要限制:(1)训练插补模块时严重依赖成对样本,在实际的高缺失率情况下往往不可行;(2)插补特征与原始特征之间的分布变化可能会影响模型的泛化能力。因此,一个关键挑战是如何在保持语义一致性的同时准确插补缺失视图,并提高完整数据的效用。
为了缓解视图的不完整性,基于图的IMC方法[10],[11]因能够捕捉视图间的复杂关系结构而受到了广泛关注。这些方法通常构建相似性图或谱嵌入来利用实例间关系,从而实现有竞争力的性能。然而,由于构建完整样本图和对拉普拉斯矩阵进行特征分解的计算成本较高,这些方法在处理大规模数据集时往往计算效率低下。
为了降低计算成本,引入了基于锚图的聚类方法[12]。通过构建大小为的锚图,这些方法与完整图的替代方案相比大大降低了计算开销。尽管如此,现有的基于锚图的IMC方法仍存在一些缺点:锚点通常使用启发式策略(例如,均值或随机采样)选择,这些策略与聚类目标脱节,可能导致性能不佳。此外,大多数方法还需要在学到的图嵌入上执行额外的聚类步骤(例如,均值)以生成最终标签,这引入了额外的计算成本和潜在的性能下降。因此,我们的另一个重点是如何在端到端学习框架中联合优化锚点选择和聚类,避免低效的两阶段流程。
为了解决这些挑战,我们提出了DOIMC-AGR,这是一种新的基于锚图的IMC方法,它将锚图正则化与基于条件扩散的插补集成在一个统一的端到端框架中,如图1所示。具体而言,与在原始特征空间中操作的传统基于锚点的方法不同,我们的模型引入了分数迭代跨簇采样(SICS)策略,直接从嵌入空间选择代表性锚点,显著减少了噪声和异常值的影响。我们进一步提出了一个带有正交化层的锚图正则化模块,该模块将锚图投影到标签空间中以生成近似聚类分配,消除了后处理的需要,实现了更快的聚类运行时间。本工作的主要贡献如下:
- 我们提出了一个端到端的扩散插补不完全多视图聚类框架,将视图插补和锚图正则化结合起来。这种方法有效降低了基于图的方法的高计算成本,同时提高了完成视图的质量。
- 我们引入了条件扩散模型(CDM)用于缺失视图插补。与仅限于双视图间相互生成的方法不同,我们的CDM利用跨视图异构信息作为条件输入来指导缺失视图的生成,确保插补数据在语义上是一致的,并且在跨视图上也是连贯的。
- 我们开发了一个轻量级但强大的锚图正则化(AGR)模块。通过在嵌入空间中对锚图施加正交性约束,我们的方法实现了线性时间复杂度,并生成了可以直接解释的聚类分配,无需额外后处理。
- 为了有效利用跨视图间的互补聚类信息,我们在三阶张量上引入了张量Schatten范数约束,以利用嵌入在视图间锚图中的低秩结构。在多种数据集上的广泛实验验证了我们提出方法的优越性能。
相关工作
本节系统回顾了基于插补的IMC方法,重点关注两个主要研究方向:(1)采用图嵌入策略的基于锚图的方法;(2)利用神经架构进行表示学习的深度学习框架。我们还讨论了条件扩散模型的最新进展,这一方向与我们的框架高度相关。
方法论
在本节中,我们介绍了我们提出的用于有效不完全多视图聚类的锚图正则化方法。如引言所述,并在图1中进行了说明,我们的方法包括三个关键组成部分:特征嵌入、扩散插补和锚图正则化。这三个组成部分在统一的框架中共同执行。
实验
本节通过一系列实验评估了DOIMC-AGR的聚类性能和计算效率。我们将DOIMC-AGR与其他9种IMC算法在九个多视图数据集上进行了比较。
结论
本文提出了DOIMC-AGR,这是一个端到端的不完全多视图聚类框架,它将基于条件扩散的插补和锚图正则化结合起来。所提出的条件扩散模型(CDM)利用多视图异构信息作为条件输入来指导缺失视图的生成,确保插补数据在语义上的一致性和跨视图上的连贯性。锚图正则化(AGR)模块直接在
CRediT作者贡献声明
Ao Li:撰写 – 审稿与编辑、资金获取、形式分析、概念化。Sanlin Mei:撰写 – 原始草稿、方法论、形式分析、数据整理、概念化。Dehua Miao:软件、资源、调查。Fengwei Gu:撰写 – 审稿与编辑、验证、资金获取、形式分析。Tianyu Gao:可视化、软件、调查。Jiahui Pan:软件、调查、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
Ao Li分别于2009年和2014年在哈尔滨工程大学获得了电子信息工程学士学位和通信与信息系统博士学位。2017年至2018年,他在美国代顿的赖特州立大学担任研究助理。目前他是哈尔滨科技大学计算机科学与技术学院的正教授。他的当前研究兴趣包括稀疏