基于豪斯多夫(Hausdorff)权重的对比融合方法在多视图聚类中的应用

《Knowledge-Based Systems》:Hausdorff-weighted contrastive fusion for multi-view clustering

【字体: 时间:2026年03月03日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  多视图聚类、对比学习、自适应加权、Hausdorff距离、特征融合|

  
李子琦|廖俊杰|张永红|孙军|徐天阳
中国江苏省无锡市无锡大学自动化学院,214105

摘要

近年来,多视图聚类(MVC)已成为一个重要的研究方向,因为它能够整合来自不同视图的信息,并捕捉到共享和互补的特征。尽管取得了显著进展,但仍存在两个关键挑战尚未解决:如何在特征学习过程中减轻某些视图的判别信息损失,以及如何在统一的聚类框架内有效平衡异构视图的贡献。为了解决这些问题,我们提出了一种名为Hausdorff加权对比融合的多视图聚类方法(HCFMVC)。具体来说,我们构建了一个多层次融合框架来捕获多个语义层面的特征,从而减轻单个视图中信息损失的不利影响。然后,我们通过最大化每个视图与全局融合表示之间的一致性来提高表示质量,使学习到的特征既具有视图特异性又具有全局一致性。此外,与通常依赖固定或平均权重的传统方法不同,我们引入了Hausdorff权重来衡量单个视图特定特征和全局语义分布之间的结构距离。这种策略在对比学习过程中动态调整视图贡献,有效处理视图不可靠性问题,确保聚类过程的稳健性。来自十一个广泛使用的数据集的结果验证了所提出方法的有效性,其性能可与当前领先的MVC技术相媲美甚至更好。源代码可以在我的个人页面上公开获取:https://github.com/li-zi-qi/HCFMVC

引言

随着数据收集技术的进步,对多视图数据的需求显著增加。因此,多视图数据的分析和应用受到了越来越多的关注。与单视图数据相比,多视图设置中的每个单独视图提供的信息通常有限,不足以学习出具有判别力的特征。为了解决这一限制,多视图特征学习专注于联合利用不同视图中的共同特征和视图特定特征,从而生成比任何单个视图都更具代表性和判别力的数据嵌入[1]。为此,设计了各种方法论框架来处理和利用多视图的信息。特别是在无监督设置中,多视图聚类(MVC)作为一种关键挑战出现,它旨在将具有相似模式的样本分组到多个视图中,这在机器学习和数据挖掘领域都非常重要。
当前关于MVC的研究主要遵循两条不同的路线:传统MVC方法和深度MVC方法。具体来说,传统MVC方法包括基于核的方法[2]、[3]、[4]、基于图的方法[5]、[6]、[7]以及基于子空间的方法[8]、[9]、[10]。基于核的MVC方法利用核融合将异构视图特征映射到一个统一的空间中,增强了它们的线性判别能力。基于图的MVC方法利用视图间的相似性线索来推断共识图结构,然后使用图划分技术得出聚类结果。另一方面,基于子空间的方法将数据嵌入到低维潜在空间中,并利用矩阵分解或表示学习等技术来捕捉不同视图之间的共享子空间结构。尽管传统MVC方法展示了有希望的性能,并提供了相对清晰的学习模型,但它们的浅层架构和有限的特征提取能力限制了它们有效建模复杂数据分布的能力。
基于深度神经网络捕捉复杂非线性模式的能力,基于深度学习的MVC(DMVC)方法[11]、[12]最近受到了越来越多的关注,其他类似方法[13]、[14]通常使用编码器网络从每个单独视图中提取判别特征。此外,通过整合跨视图的学习表示,可以获得更具信息量和判别力的全局特征。一般来说,DMVC方法可以分为两种主要范式:非融合方法和基于融合的方法[15]、[16]。
非融合方法学习输入数据多个视图之间语义上共享的信息,从而有助于发现视图不变的模式。相比之下,基于融合的方法明确地整合了跨视图的信息,旨在学习捕捉互补特征的全局表示。由于它们在建模跨视图交互方面的强大能力,基于融合的方法已成为近期研究的重点。
基于融合的深度MVC模型通常采用深度神经架构来学习多视图数据的嵌入表示。这些嵌入通常通过加权求和或直接连接进行融合。得到的全局表示本质上包含了每个视图的共同信息和私有信息。为了减轻每个视图特有的私有信息对聚类性能的不利影响,提出了几种方法来通过各种策略对齐视图表示。例如,一些工作[18]、[19]使用对抗学习来对齐跨视图的潜在特征分布;然而,这种方法可能导致过度对齐,从而失去视图特定的优先级并模糊了潜在的聚类结构。另一方面,引入了对比学习(CL)来增强跨视图的对齐。尽管在实证上取得了成功,但仍存在一些限制:(1)大多数现有的基于融合的方法依赖于加权融合或线性连接,这通常无法捕捉多个视图之间的共同和独特一致性信息。在训练过程中,一个或多个视图的信息可能会丢失,导致全局表示不完整或有偏。 (2)在大多数MVC的CL框架中,所有视图都被平等对待,而没有考虑不同视图的可信度和信息量的差异。传统的权重策略通常使用固定权重或均匀平均,这无法捕捉不同视图之间的复杂结构差异。因此,当存在噪声或冗余信息时,它们无法准确反映不同视图的重要性,从而导致次优的对齐。
为了解决上述挑战,我们提出了一种名为Hausdorff加权对比融合的多视图聚类新框架(HCFMVC),如图1所示。具体来说,为了解决问题(1),我们设计了一个多层次融合框架,利用多层感知器(MLP)来捕捉低级特征和高级特征。此外,我们引入了一个专门的视图融合网络KANet,它由两个KANLinear层[20]组成,旨在提取更丰富和更具信息量的全局特征。为了解决问题(2),我们提出了一种用于多视图对比聚类的自适应融合机制。与现有的权重策略相比,我们的Hausdorff权重捕捉了单个视图特定特征和全局语义分布之间的结构距离。具体来说,使用每个视图的软聚类分配来衡量这些视图间的差异,使模型能够在对比学习过程中动态调节每个视图的贡献。这确保了更可靠的视图得到强调,同时抑制了噪声或冗余视图的影响,从而表现出比传统固定或平均权重更好的区分性和稳健性。总结来说,本工作的主要贡献如下:1.
我们提出了一种新的多层次融合框架,可以捕捉跨视图的多层次特征结构。通过采用这种设计,模型可以捕捉跨视图的一致信息,并促进全局判别特征的获取。
  • 2.
    我们引入了一种自适应加权多视图对比聚类策略,该策略在使用组合表示的对比学习中平衡了高级特征的贡献,从而获得了更好的聚类结果。
  • 3.
    在十个广泛使用的数据集上的实验结果证实,所提出的方法比几种现有的先进技术具有更好的聚类准确性。
  • 本文的结构如下。第2节回顾了相关文献。第3节介绍了HCFMVC方法,第4节涵盖了在公共数据集上的实验设置和性能评估。第5节总结了主要结果和贡献。

    部分摘录

    基于融合的多视图聚类

    通过利用多个视图之间的一致性和互补性,基于融合的MVC方法将多视图聚类任务转化为单视图表示问题,提供了一种有效且直接的方法。这种策略在浅层和深度学习模型中得到了广泛探索[21]、[22]。早期的工作主要采用了线性连接和加权融合技术。例如,G. Ke[23]直接应用线性连接来合并多视图数据

    方法论

    给定一个数据集{X1,X2,,…,XV},其中V表示视图的总数,N表示样本的数量,每个视图特定的数据矩阵定义为XvRN×dx。第v个视图中的第i个样本表示为xiv,它对应于Xv的第i行。MVC的最终目标是根据所有V视图的互补和共享信息将每个样本分配到K个簇中的一个。为了清晰起见,主要符号列在表1中。

    数据集

    我们使用几个公开可用的多视图数据集来评估所提出的方法,它们的详细信息总结在表2中。
    • BDGP [45]:BDGP包含2,500个来自黑腹果蝇的基因表达样本。每个样本都提供了视觉和文本模态的特征,使其成为一个具有代表性的多模态数据集。
    • Handwritten [46]:该数据集包含10个类别,代表数字0–9,每个类别有200个样本。在我们的实验中,

    结论

    本研究提出了一种加权对比融合方法,该方法提取多层次特征以利用不同视图之间的互补和一致信息。为了获得更具判别力的全局特征,我们设计了一个专门的融合网络。此外,我们引入了一种HW策略来指导CL,以减轻直接对齐造成的不利影响。我们在多个广泛使用的基准数据集上验证了所提出的方法,结果表明其效果显著

    CRediT作者贡献声明

    李子琦:写作——审稿与编辑、监督、资源管理、项目管理、方法论、资金获取、概念化。廖俊杰:写作——原始草稿、可视化、验证、软件开发、调查、形式分析、数据管理。张永红:资源管理、项目管理、资金获取。孙军:监督。徐天阳:监督。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

    致谢

    本研究部分得到了中国国家重点研发计划(2021YFE0116900)、国家自然科学基金(42175157, 42475151)、江苏省高等教育机构自然科学研究一般项目(22KJB520037)、无锡市“太湖之光”科技项目(K20231003)以及无锡大学引进人才研究启动基金(2021r032)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号