用于部分多视图不完整多标签分类的概率不确定性感知表示网络

【字体: 时间:2026年03月09日 来源:Neurocomputing 6.5

编辑推荐:

  多视图多标签分类中,PURN模型通过变分自编码器(VAE)建模视图级不确定性,结合置信度调整的专家乘积模块(CA-PoE)优化多视图融合,以及基于困难负样选择(HNACL)的对比学习增强区分度,有效缓解缺失视图和标签带来的数据 incompleteness问题。

  
徐世琪|丁申润|邵波|卢晓欢
贵州大学大数据与信息工程学院,中国贵阳

摘要

多视图多标签分类(MvMLC)因其能够从多个角度为样本分配多个标签而受到广泛关注。然而,在现实世界场景中,由于数据收集不足和注释不可靠,它经常面临视图和标签缺失的问题。在这种情况下,确定性模型难以可靠地评估预测置信度,而现有的有向概率模型虽然能够进行样本级别的不确定性估计,但难以区分不同视图的贡献,因此缺乏进行视图级别不确定性归因的能力。为了解决这些挑战,我们提出了概率不确定性感知表示网络(PURN)。该网络使用变分自编码器(VAE)通过概率表示在视图级别显式建模不确定性。为了更好地处理多视图融合中的视图级别不确定性,我们引入了基于专家产品(CA-PoE)模块,该模块基于专家产品的结果进行置信度感知的融合,并使用主要保持机制(PPM)和次要增强机制(SEM)来调节每个视图的贡献。此外,与依赖随机或均匀负样本选择的传统对比学习方法不同,我们引入了硬负样本感知对比学习(HNACL)模块,该模块结合PPM/SEM机制以及top-k硬负样本选择,将训练信号引导到最容易混淆的负样本上,从而增强视图级别概率表示之间的区分度。在五个基准数据集上的实验结果表明,PURN在不完整数据上的性能优于多种竞争方法。

引言

在当今数据无处不在的时代,信息的多样性和复杂性正在迅速增加,为机器学习领域带来了新的机遇和挑战。特别是,多视图多标签分类(MvMLC)作为一个有前景的研究方向,旨在从异构数据源或特征空间中发现潜在模式,从而预测样本的多个类别归属[1]、[2]、[3]。这种学习范式在现实世界场景中很常见,因为一个对象或现象通常可以从多个角度描述并关联多个标签。例如,一张在道路交叉口拍摄的照片可能同时具有“行人”、“自行车”和“交通标志”等标签,而医学图像可以在单个病例中标记多种共病条件[4]。在生物信息学中,可以从蛋白质的氨基酸序列、三维结构和进化保守性等多个特征推断其功能,同时它也可能参与多个生物途径[5]。总体而言,作为处理多源异构数据的有效范式,多视图多标签分类具有重要的理论和实践意义。
在现实世界场景中,由于数据采集不完整、传感器故障以及手动标注的高成本和时间要求,多视图多标签分类经常面临视图和标签缺失的挑战。为了解决这些挑战,研究人员对部分多视图不完整多标签分类(pMViMLC)进行了广泛研究并取得了显著进展。例如,谭等人提出了不完整多视图弱标签学习(iMvWL),该方法通过矩阵分解学习一个共享子空间,并在该子空间内训练弱标签分类器,从而即使在视图和标签缺失的情况下也能获得满意的预测性能[6]。为了更好地捕捉复杂的非线性关系,文等人引入了深度双不完整多视图多标签分类网络(DD-IMvMLC-Net),该网络在双重不完整场景中使用深度网络对齐和融合特征,并引入结构约束,从而更有效地建模复杂的非线性依赖关系[7]。在这个方向上,刘等人开发了深度实例级对比网络(DICnet),通过在不同视图的样本之间构建对比目标来加强跨视图一致性,以减轻缺失数据的影响[8]。此外,刘等人提出了掩码双通道解耦框架(MTD),该框架通过双通道解耦分离共享特征和私有特征,并引入跨通道对比损失和标签图正则化来增强对缺失干扰的鲁棒性[9]。这些方法从多个角度推进了pMViMLC的发展,并为复杂场景中的这一问题提供了多样且有效的解决方案。
尽管取得了这些进展,现有的pMViMLC方法仍然主要依赖于确定性特征表示,而显式表征不确定性的概率方法相对较少被探索。相比之下,有向概率模型明确描述了变量之间的条件依赖性,并用概率分布表示这些依赖性,从而能够在推理过程中量化预测结果的不确定性,并已在各种多视图学习场景中展现出强大的潜力。例如,在多视图分类的背景下,韩等人提出了可信多视图分类(TMC),该方法通过动态证据融合估计每个样本的置信度分布,从而显式量化多视图预测中的不确定性[10]。在多视图聚类的领域,范等人提出了鲁棒局部化多视图子空间聚类(RL-LMVSC),该方法通过样本级别的不确定性加权实现鲁棒的聚类表示,有效抑制了异常值的干扰,并提高了模型的聚类性能[11]。为了解决不完整多视图学习中的视图缺失问题,梁等人提出了带有样本级别自动加权图融合的不完整多视图聚类(SAGF_IMC),该方法在视图缺失场景下结合了样本级别置信度建模和基于图的一致性约束,适应性地调整每个视图的可靠性权重,从而有效缓解了由视图缺失引起的信息偏差[12]。随着不确定性建模的深入,研究人员进一步将这一范式扩展到多视图表示学习和特征融合任务。例如,齐等人提出了多模态证据融合网络(MEFN),该网络使用证据融合机制在样本级别建模跨视图一致性,增强了多视图信息整合的可靠性[13]。这些方法共同促进了多视图学习中不确定性建模的显著进展,并为复杂多视图场景中的置信度估计奠定了重要基础。
然而,从不确定性建模的角度来看,pMViMLC对学习模型提出了更高的要求,因为它不仅需要捕捉预测结果的不确定性,还需要在表示层面区分和建模与不同视图相关的不确定性。在视图缺失和视图信息不完整的情况下,基于确定性表示的建模方法或仅依赖单一形式的置信度表征的方法往往难以同时确保表示的稳定性和不确定性的可解释性。相比之下,变分自编码器以概率方式显式建模潜在表示,使每个视图表示自然地采取分布形式。这使得表示能够同时捕捉视图信息的中心趋势及其相关不确定性。这样的概率表示不仅在视图信息部分缺失的情况下提供了更健壮的视图表示,还为跨不同视图的不确定性建模提供了统一和一致的概率公式。因此,变分自编码器可以更自然地支持pMViMLC中的视图级别不确定性建模和表示,从而为后续的多视图融合和判别学习提供可靠的概率基础。
尽管现有的不确定性建模方法及其理论动机在预测置信度建模方面取得了显著进展,但大多数先前的工作主要关注样本级别的不确定性估计,难以区分不同视图的贡献,因此缺乏对视图特定置信度差异的细粒度表征和视图级别不确定性归因的能力。鉴于这些挑战,我们提出了概率不确定性感知表示网络(PURN),该网络旨在可靠地评估预测置信度,显著增强视图级别不确定性归因能力,并有效缓解数据不完整性的不利影响。PURN由三个主要组件组成:变分自编码器(VAE)网络、基于专家产品的置信度调整模块和硬负样本感知对比学习(HNACL)模块。首先,VAE网络从输入视图提取概率分布,显式在视图级别建模不确定性。基于此,CA-PoE模块基于专家产品的结果进行置信度感知的融合,其中使用主要保持机制(PPM)和次要增强机制(SEM)得出的视图级别置信度与融合过程中的基础权重相结合,以便更好地处理多视图融合中的视图级别不确定性。此外,HNACL模块在概率表示空间中使用PPM/SEM机制构建多样的视图子集组合,而top-k硬负样本选择将训练信号引导到最容易混淆的负样本上,从而增强视图级别概率表示之间的区分度。总之,我们的贡献如下:
  • 我们设计了一个基于专家产品的置信度调整模块,该模块结合了专家产品融合和主要保持机制及次要增强机制,进行置信度感知的融合,并调节每个视图的贡献,从而显式量化视图间的可靠性差异并增强多视图融合的鲁棒性。
  • 我们引入了硬负样本感知对比学习模块,该模块结合PPM/SEM机制和top-k硬负样本选择策略,在概率表示空间构建多样的负样本组合,引导模型关注最容易混淆的样本,增强视图级别概率表示之间的区分度。
  • 所提出的PURN将CA-PoE、HNACL和变分自编码器集成到一个统一的架构中,可靠地评估预测置信度,同时提高视图级别不确定性归因能力。特别是,VAE组件学习概率视图特定表示,使得在视图级别进行显式不确定性建模成为可能。在五个基准数据集上的实验结果表明,PURN在不完整数据上的性能优于多种竞争方法。
  • 部分内容片段

    部分多视图不完整多标签分类

    部分多视图不完整多标签分类(pMViMLC)在现实世界数据集中经常遇到,其中视图和标签的缺失同时存在。为了解决这个问题,已经研究了许多模型来提高学习性能。例如,李和陈提出了非对齐不完整多视图学习(NAIML)及其扩展版本非对齐不完整多视图多标签学习(NAIM3L),这些模型结合了全局标签结构和局部标签

    所提出的方法

    本节提供了PURN主要组件的全面概述,包括变分编码器网络、基于专家产品的置信度调整模块和硬负样本感知对比学习模块,如图1所示。

    数据集

    在我们的实验中,所提出的PURN在五个广泛使用的公共基准数据集上进行了评估,即Corel5k、Pascal07、ESPGame、IAPRTC12和MIRFLICKR。每个数据集由六个不同的视图描述,分别是HUE、RGB、SIFT、HSV、LAB和GIST,这使得模型能够在多种特征表示上进行全面评估。这些数据集的总体统计信息,包括样本数量和相应的标签分布,在表2中进行了总结

    结论

    对于pMViMLC场景,我们提出了PURN,该框架同时关注预测置信度和视图级别不确定性归因。通过集成CA-PoE、HNACL和VAE,PURN在视图和标签部分缺失的情况下实现了鲁棒的多视图多标签学习。在该框架中,VAE将每个视图的特征表示编码为概率分布,显式在概率空间中建模视图级别不确定性。CA-PoE模块与

    CRediT作者贡献声明

    徐世琪:撰写——原始草稿、方法论、数据整理、概念化。丁申润:可视化、验证。邵波:监督、资源。卢晓欢:撰写——审阅与编辑、项目管理。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
    徐世琪目前在中国贵阳的贵州大学大数据与信息工程学院攻读学士学位。他当前的研究兴趣集中在多视图学习、对象检测和机器学习上。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号