基于双空间引导的全局-局部消歧方法在部分多标签特征选择中的应用

《Neurocomputing》:Dual-space guided global-local disambiguation for partial multi-label feature selection

【字体: 时间:2026年02月21日 来源:Neurocomputing 6.5

编辑推荐:

  部分多标签学习框架存在三个关键问题:特征空间冗余与混淆、特征与标签优化分离、全局/局部信息利用不充分。本文提出双空间引导全局-局部歧义消解特征选择方法(DGLFS),通过聚类实现局部歧义消解,结合光滑性约束构建全局视角,利用特征子空间与标签子空间的交互权重进行特征筛选,并设计交替优化策略实现协同提升。实验表明该方法在八组数据集上优于五篇SOTA方法。

  
程鹏|高万福|郝平婷|韩青琪
吉林大学软件学院,长春,130012,吉林,中国

摘要

部分多标签学习(PML)是半监督学习中的一个新兴框架。每个实例都与一组候选标签相关联,这些标签包括真实标签和假阳性标签。当前的PML方法面临三个关键限制:(1)它们主要关注标签消歧,而忽略了特征空间中的问题,如冗余、不相关和易混淆的特征;(2)它们将特征空间和标签空间的优化分开,未能利用它们之间的潜在关系;(3)大多数方法在消歧过程中依赖于全局或局部信息,导致信息利用不充分和泛化能力较弱。为了解决这些问题,我们提出了一种新的方法,即双重空间引导的全局-局部消歧用于部分多标签特征选择(DGLFS)。我们的方法创新地将聚类和平滑性约束整合到全局-局部消歧策略中。提出了一种双重空间学习结构来捕捉特征和标签之间的潜在关系。然后通过基于优化后的特征子空间与消歧后的标签子空间之间相互作用的线性加权方法来选择重要特征。采用交替优化策略来迭代消歧假阳性标签和不相关特征,并消除易混淆的特征。在八个数据集上与五种最先进方法的比较实验证明了DGLFS的有效性。

引言

多标签学习(MLL)训练模型为每个实例预测多个离散标签。MLL方法广泛应用于与模式识别相关的领域,如医学图像分析[1]、生物信息学[2]和智能诊断[3]、[4],但它们严重依赖于精确的标注,这带来了高昂的成本和相当大的挑战。如图1所示,在图像注释场景中,由于黑色口鼻部和棕色毛发等易混淆的特征,图像被错误地标注为“秋田犬”和“中国本土犬”。类似的模型偏差也存在于其他任务中,例如文本分类中的模糊词汇和音乐情感识别中的不清晰旋律。为了解决这个问题,谢和黄提出了一种名为部分多标签学习(PML)[5]的新兴框架。PML是一种半监督学习框架,它使用候选标签集来训练能够推断出真实的多个离散标签的分类器,这些标签集中可以包含假阳性标签[6]。
最初,一些方法直接应用现有的MLL方法来处理PML[5]、[7]。然而,大量的假阳性标签显著降低了这些PML方法的性能。后续的PML方法大致分为迭代方法和两阶段方法。迭代方法[8]、[9]将标签消歧和模型训练统一在一个框架内,交替优化模型参数和标签置信度[10],或者在稀疏性假设下[11]、[12],逐步消歧候选标签集中的假阳性标签。两阶段方法[13]首先通过评估标签置信度[14]、[15]、[16]独立消歧假阳性标签,然后使用清理后的数据训练模型。此外,还采用了标签增强技术来有效计算标签置信度[17]、[18]。一些其他方法利用负标签从候选标签集中推断出假阳性标签[19]、[20]。然而,现有方法在消歧过程中仅依赖于全局或局部信息[14]、[15],这本质上导致通过信息利用不充分而泛化能力较弱。尽管一些方法尝试了全局-局部策略[11],但它们的泛化能力仍然受到高质量特征空间的限制。实际上,特征集通常包含许多冗余、不相关和易混淆的特征,这是一个亟待解决的问题。不幸的是,现有方法总是忽略这些问题,并且缺乏关键的筛选程序。
更新的方法[21]、[22]尝试结合特征选择和标签消歧。一些方法[23]使用嵌入技术将高维空间投影到低维语义空间中,构建语义相关性以增强特征和标签的可区分性。一些方法如[24]使用矩阵分解技术将多标签分类器分解为低秩矩阵,通过正则化实现特征选择和标签消歧。然而,现有方法往往忽略了特征和标签之间的潜在关系,并且缺乏标签消歧和特征选择之间的整合,导致模型性能有限[25]、[26]。
为了缓解上述挑战,我们提出了一种新的PML方法,称为双重空间引导的全局-局部消歧用于部分多标签特征选择(DGLFS)。图2提供了DGLFS的概述。DGLFS的框架通过两个组件运行:全局-局部消歧和特征选择。全局-局部消歧模块通过双重空间引导的过程消除不相关特征和假阳性标签:局部消歧通过模糊C均值聚类(FCM)进行,其中样本逐渐收敛到各自的簇中心;而全局消歧则是通过计算从双重空间的平滑性约束重建中得出的实例相关性来实现的。同时,特征选择模块通过优化后的特征簇与消歧后的标签中心之间的线性加权来移除易混淆的特征。采用交替优化策略来确保消歧和特征选择之间的相互增强。DGLFS在八个数据集上展示了出色的模式识别性能。DGLFS的核心创新贡献总结如下:
引入了全局-局部消歧特征选择,其中基于聚类的局部消歧与由平滑性结构驱动的全局消歧相结合。通过优化后的特征子空间与消歧后的标签空间之间的相互作用进行线性加权来评估特征的重要性。
  • 通过启用一个共享空间来同时从特征空间和标签空间学习,引入了一个动态的双重空间引导学习框架。这促进了特征空间和标签空间之间的相互指导,从而有助于捕捉潜在关系。
  • 提出了一种有效的DGLFS交替优化问题解决方案,使用梯度下降方案。在八个部分多标签数据集上的实验评估表明,所提出的方法有效且性能优于其他五种方法。
  • 本文的结构如下:第2节回顾了以往研究的相关工作。第3节详细解释了DGLFS。第4.1节讨论了所采用的优化策略。第5节分析了实验结果。最后,第6节对本文进行了全面总结。

    相关工作

    相关工作

    在本节中,回顾和总结了部分多标签学习和多标签特征选择的一些相关工作。

    提出的方法

    首先定义了DGLFS使用的数学符号。设表示具有个特征的个实例的特征矩阵,表示具有个标签的个实例的候选标签矩阵,其中包含假阳性标签。

    优化

    在本节中,提出了目标函数Eq. (9)的迭代解决方案,并分析了其收敛性。

    实验

    在八个代表性数据集上评估了DGLFS的性能,并与五种最先进的方法进行了比较。在后续章节中,我们将介绍实验的详细信息,并全面分析和展示实验结果。

    结论

    本研究提出了一种新的部分多标签学习方法,称为DGLFS,该方法同时进行标签空间消歧和特征选择。本研究做出了三个关键贡献:(1)引入了全局-局部特征选择,以提高模型在不同噪声条件下的泛化能力;(2)提出了一个双重空间学习框架,实现了特征空间和标签空间之间的相互指导,捕捉了潜在关系;(3)开发了一个联合训练框架

    CRediT作者贡献声明

    程鹏:撰写——原始草稿。高万福:撰写——审阅与编辑。郝平婷:撰写——审阅与编辑。韩青琪:撰写——审阅与编辑,监督,软件。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
    程鹏目前正在中国长春的吉林大学攻读软件工程学士学位。他的研究兴趣包括特征选择、多标签学习和多视图学习。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号