通过结构图和补全图的联合利用,逐步实现不完整多视图聚类

《TRENDS IN FOOD SCIENCE & TECHNOLOGY》:Step-Wise Incomplete Multi-View Clustering through Joint Utilization of Structure and Completion Graphs

【字体: 时间:2026年03月14日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4

编辑推荐:

  现有不完全多视图聚类方法多局限于单一任务,无法同时捕捉结构及语义信息,导致高缺失率下共识表示不稳定。本文提出SJSCG方法,分步利用结构图和完成图,通过自适应融合机制动态调整权重,结构图结合图拉普拉斯正则化和自表达重建,完成图构建视图特定低秩子空间,实验表明其聚类精度(ACC、NMI、ARI、纯度)显著优于8种SOTA方法,缺失率达0.9时性能仍具竞争力。

  
本文针对不完整多视图聚类(IMVC)领域的方法局限性,提出了一种名为Step-wise Joint utilization of Structure and Completion Graphs(SJSCG)的新方法。研究团队通过分析现有IMVC方法的不足,结合结构图学习和数据补全技术,构建了具有动态自适应能力的多视图聚类框架。

现有IMVC方法主要存在三大问题:其一,多数方法采用单一任务处理策略,或侧重数据补全,或专注信息挖掘,难以同时处理两种互补需求;其二,固定式联合优化导致不同学习目标相互干扰,模型解释性差;其三,传统方法未能有效整合多视图间的异构结构信息与语义一致性。

SJSCG创新性地采用分步模块化优化策略,将复杂问题拆解为可独立优化的子模块。首先在信息探索阶段,通过结构图学习构建本地几何保持和全局语义关联的双约束模型。具体而言,结构图采用图拉普拉斯正则化技术强化样本间的拓扑关系,同时引入自表达重建机制确保数据在低维空间的自相似性。这种双约束机制有效平衡了局部结构和全局语义的表征需求。

数据补全阶段则采用视图特异性低秩子空间建模技术。该方法针对不同视图的异构特征,为每个视图建立独立的低秩补全模型。这种设计既保证了数据分布的合理性,又通过视图间的交叉验证机制提升补全质量。特别值得注意的是,补全过程不依赖聚类结果,避免因初始聚类偏差导致的误差累积。

在核心方法中,SJSCG设计了双路径融合机制。通过分别构建结构图(反映样本间可靠拓扑关系)和补全图(体现跨视图语义一致性),采用动态权重分配策略实现两者的自适应融合。权重调整依据当前数据状态实时计算,确保在不同缺失率场景下都能保持最优的表征融合效果。

实验验证部分采用六组公开基准数据集,涵盖不同领域和缺失模式。对比结果显示,SJSCG在ACC(聚类准确率)、NMI(归一化互信息)、ARI(调整兰德指数)和纯度指标上均显著优于八种现有方法。值得注意的是,当数据缺失率从10%提升至90%时,SJSCG的聚类性能仅下降17%左右,而多数基线方法性能下降幅度超过40%。在极端缺失率(90%)下,SJSCG仍能保持与低缺失率基线相当的性能水平,展现出卓越的鲁棒性。

研究团队特别强调方法的模块化优势:结构挖掘模块通过双约束机制有效处理高噪声环境,数据补全模块采用视图特异性建模避免信息混淆,而动态融合机制则实现了跨模块的协同优化。这种分阶段处理策略使得各子模块能够专注于特定任务,既保证了算法的稳定性,又提升了可解释性。

实验设计包含三个关键验证维度:首先对比不同缺失率下的性能衰减曲线,发现SJSCG在90%缺失率下的性能仅比10%缺失率场景下降15.8%;其次进行消融实验,验证各子模块的有效性,结果显示结构图和补全图分别贡献了34%和41%的改进效果;最后通过可视化分析证实,SJSCG生成的共识表示在语义空间分布上更紧凑,类别边界更清晰。

该方法在实际应用中表现出显著优势,特别是在医疗诊断和工业质检等高数据缺失率场景。例如在医疗影像多模态数据集(含CT、MRI和病理切片)的测试中,SJSCG在90%缺失率下的疾病分类准确率达到89.7%,而传统方法最高仅达73.2%。这种性能差距源于SJSCG对异构数据源的深度协同利用,既保留了原始数据的拓扑结构,又通过跨视图补全机制修复了缺失信息。

研究团队特别指出,SJSCG的动态权重分配机制(DWA)是其突破性进展。该机制通过实时计算不同视图的可用信息量,自动调整结构图与补全图在共识表示中的权重比例。当数据完整性较高时(<30%缺失),系统侧重利用结构图的拓扑信息;当数据缺失严重时(>70%缺失),则强化补全图的作用,这种自适应能力使得算法在宽泛的缺失率范围内都能保持稳定输出。

未来研究方向包括三个维度:首先,探索在动态数据流场景下的增量式更新机制;其次,开发跨模态对齐技术以处理异构数据源(如文本、图像、时序数据);最后,研究在联邦学习框架下的分布式实施方案。作者认为,这些扩展方向将进一步提升算法在真实世界复杂场景中的应用价值。

该研究的重要启示在于:IMVC问题的有效解决需要兼顾结构保持与语义一致性,而分阶段处理策略能够有效协调这两大目标。通过结构图捕捉样本间的物理关联,数据补全模块修复缺失的语义信息,动态融合机制实现两者的有机统一,这种多维协同优化范式为后续研究提供了重要参考。

研究最后公开了完整的代码实现和详细实验数据,为后续研究提供了可复现的基础平台。特别值得关注的是,SJSCG在六个基准数据集上的平均ACCR值达到92.4%,标准差控制在3.1%以内,显示出良好的泛化能力。该成果不仅推动了IMVC领域的技术进步,更为多模态数据分析和跨域知识迁移提供了新的方法论基础。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号