《Patient Education and Counseling》:Anchor-to-Graph Structural Co-regularization for Scalable Multi-view Clustering
编辑推荐:
针对大规模多视图聚类中锚点与锚图结构未协同优化的问题,提出AGSCR-MVC方法,通过双向结构正则化提升锚点代表性及锚图结构合理性,实验验证其计算效率与聚类性能优势。
Jipeng Guo|Xiang Xu|Yu Cao|Man Cao|Mengyuan Xin|Tianxiang Zhao|Ye Su|Junbin Gao|Mingliang Cui|Youqing Wang
北京化工大学信息科学与技术学院,北京,100029,中国
摘要
基于锚点的多视图聚类方法因其能够在统一框架内联合学习紧凑的锚点和结构化的锚图来处理大规模数据而受到了广泛关注。现有方法主要侧重于通过预先对锚图的结构约束来改进聚类效果,但忽略了对于锚点本身的显式结构语义探索,这可能不足以确保锚点的真实代表性,并限制了它们在判别性锚图学习中的表现能力。为此,本研究提出了“锚点到图的结构协同正则化”(AGSCR-MVC)方法,该方法在统一框架内协同促进锚点和锚图的结构语义探索。具体而言,AGSCR-MVC引入了二分图拉普拉斯正则化器来改善锚图的结构。然后,它从锚图中自适应地构建锚点邻接关系,并强化潜在锚点的显式结构。锚点到锚图的结构正则化可以相互协商,共同提升锚点的区分度和聚类质量。此外,还对锚图施加了对数和稀疏性约束以增强局部结构信息。针对所提出的模型,开发了一种高效的优化算法。大量实验证明了AGSCR-MVC在计算复杂性和聚类性能方面取得了显著的优越性。AGSCR-MVC的源代码可在以下链接获取:
https://github.com/XX106222/AGSCR-MVC引言
随着多源传感器和数据收集技术的快速发展和持续进步,多视图数据的规模日益增大,其内在结构也变得更加复杂[1]、[2]、[3]、[4]。作为数据挖掘中的重要技术,多视图聚类(MVC)方法因能够探索此类复杂数据的潜在结构而受到广泛关注[5]、[6]。MVC旨在通过整合各视图之间的互补和一致信息,将多视图样本划分为不相交的簇[7]、[8]、[9]。由于多视图数据具有高维性和噪声特性[10]、[11]、[12]、[13],因此提出了许多表示学习方法,以在低维空间中捕捉数据的内在语义。
作为一种广泛使用的MVC框架,多视图子空间聚类通常假设所有样本都位于多个低维子空间中,并且可以用其他样本在一致子空间中表示[14]、[15]。具体来说,这些方法学习子空间表示以构建用于谱聚类的强大图相似性。然而,构建这样的n×n图需要的空间复杂度用于存储,并且在优化和谱分解过程中需要的计算复杂度,这使得它们在大规模应用中不切实际或无效。
为了解决上述问题,基于锚图的MVC方法被广泛提出,这些方法仅选择少数具有代表性的样本或表示基础(即锚点)来代表目标样本。因此,小规模的锚图可以近似描述完整的语义关系,从而降低计算和存储成本[16]、[17]。根据锚点构建策略,这些方法可以分为启发式方法和基于学习的方法。启发式方法[18]、[19]利用先验知识或手动设计的策略(如k-means或随机采样)选择锚点,然后构建锚图进行聚类。然而,锚点构建与锚图学习是分离的,这阻碍了两者之间的相互促进,从而无法产生真正具有代表性的锚点和具有区分性的图。
与启发式方法不同,基于学习的方法[20]、[21]通过联合和交替的优化方式将锚点构建与锚图学习结合起来,使得这两个过程能够共同优化,以获得具有代表性的锚点和图。尽管取得了显著成功,但大多数现有的基于学习的方法[22]、[23]主要通过施加结构先验来增强锚图,而忽略了锚点本身的结构保持。实际上,锚点作为表示的基础,直接反映了数据特征,在锚图学习中起着关键作用。当前的方法[24]、[25]通常对锚点施加简单的正交约束,并忽略了锚点之间的局部结构信息,这不足以确保锚点完全捕捉数据的内在特征分布,可能会破坏它们的聚类结构。此外,现有方法容易出现锚点与图之间的结构不匹配和不一致,从而降低聚类性能。
为此,本研究在大规模场景下提出了“锚点到图的结构协同正则化”(AGSCR-MVC),对锚点和图同时施加双重协同结构探索,整体框架如图1所示。具体来说,AGSCR-MVC利用结构传播从锚图中构建隐式的锚点邻接关系,并引入局部平滑项来指导锚点学习。为了获得具有区分性的锚点-样本连接性,AGSCR-MVC对锚图施加对数和稀疏性约束,鼓励每个样本仅与少数锚点连接,从而减少冗余连接。此外,为了避免平凡的锚图(即所有样本聚集在单个锚点上),AGSCR-MVC对锚图施加拉普拉斯秩约束,以改善其聚类结构。这种由锚图桥接的协同正则化有助于将锚点与基于样本的聚类结构对齐,并加强它们之间的结构一致性。本研究的关键贡献如下:
•提出了一种新的基于锚点的MVC方法,该方法通过双重语义结构正则化来适应性地学习具有代表性的锚点和具有区分性的锚图,增强了锚点和样本之间的聚类结构一致性。
•通过从锚图中构建隐式的锚点邻接关系引入了锚点结构假设。结构化的锚图通过连接稀疏性和二分图拉普拉斯秩约束得到强化。
•为所提出的模型开发了一种可扩展且计算效率高的优化算法,该算法需要线性复杂度。大量实验证明了AGSCR-MVC相对于先进基准方法的显著优越性。
相关研究
相关工作
本节概述了相关研究,重点介绍了多视图子空间聚类和基于锚点的MVC方法。本工作中使用的关键符号及其定义见表1。
提出的方法
本节全面阐述了所提出的AGSCR-MVC方法,包括模型构建、优化和复杂性分析。
实验
在本节中,通过选择几种最先进的方法作为竞争对手,描述了一系列广泛的实验来验证我们提出的AGSCR-MVC方法的有效性和效率。实验在Windows 11操作系统上使用MATLAB R2024b(64位)进行,配置了Intel i7-12800HX CPU和32 GB RAM。
结论
本研究提出了AGSCR-MVC,这是一种新颖的基于锚点的大规模多视图聚类方法,它在统一的优化框架中同时执行锚点构建和图学习。AGSCR-MVC试图学习用于区分性子空间表示的结构化锚点。具体来说,锚图作为桥梁表示,同时指导锚点的局部结构学习并经历结构正则化,实现了双层次协同建模
CRediT作者贡献声明
Jipeng Guo:撰写 – 审稿与编辑,撰写 – 原稿,验证,方法论,资金获取,概念化。Xiang Xu:撰写 – 原稿,可视化,验证,方法论,调查。Yu Cao:验证,方法论。Man Cao:方法论,调查,形式分析,概念化。Mengyuan Xin:可视化,方法论。Tianxiang Zhao:撰写 – 原稿,可视化。Ye Su:可视化,验证。Junbin Gao:撰写 – 审稿与
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本研究得到了国家自然科学基金(项目编号62403043、62225303和62433004)的支持;部分得到了中国博士后科学基金会(项目编号GZC20230203)的支持;部分得到了北京化工大学跨学科研究中心(项目编号XK2025-06)的支持。