基于GMM的判别特征嵌入框架，用于无监督的细粒度图像检索

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：GMM-based discriminative feature embedding framework for unsupervised fine-grained image retrieval

【字体：大中小】 时间：2026年03月09日 来源：Pattern Recognition 7.6

编辑推荐：

　　多视图多标签分类中同时处理视图缺失和标签缺失的问题，提出CD-LGLNet框架，通过自动编码器最大化跨视图互信息并平衡一致性、异质性，结合标签重叠驱动的对比学习缓解类别冲突，实验表明在多个基准数据集上达到最优性能。

连武|郑开华|谢亚子|程正婷|崔金荣

贵州教育大学数学与大数据学院，贵阳，550018，中国

摘要

双不完整多视图多标签分类任务是机器学习领域一个活跃且不断发展的研究方向。尽管当前方法采用对比学习来处理不完整的视图和标签，但它们仍然面临两个未解决的挑战：1）它们未能有效平衡多视图样本之间的一致性和异质性信息；2）特征学习通常与标签语义分离，导致对比目标中的类别冲突。为了解决这些限制，我们提出了一种新的方法，称为

CD ? LGLNet

。为了平衡跨视图一致性和视图内部异质性，我们采用基于自动编码器的互信息最大化方案，并结合交叉重建来对齐视图，而无需进行硬性的正面或负面采样。此外，通过标签重叠驱动的样本到样本目标将标签语义纳入对比学习中，该目标通过共享标签对成对相似性进行加权，从而缓解了类别冲突。在五个基准数据集（Corel5k、Pascal07、ESPGame、IAPRTC12、MIRFLICKR）上进行的广泛实验表明，CD-LGLNet在完整和不完整数据集下均能持续取得最佳性能。

引言

随着多媒体技术的快速发展，单个实体经常可以使用从各种媒体来源捕获的多样化信息来表示[1]。这些多样化的表示通常被称为多视图数据。例如，在成像系统中，多个摄像头可以从不同角度捕捉同一场景；在生物研究中，空间转录组学可以整合基因表达谱、空间坐标和组织学图像等异构数据类型，每种数据类型都提供独特且互补的语义信息[2]、[3]、[4]、[5]。这些样本表示 collectively 称为多视图数据集，与单视图数据相比提供了更全面的特征描述。同时，一个对象或图像通常与多个语义类别相关联，而不仅仅是一个唯一的标签。因此，许多现实世界任务可以自然地被构建为多视图多标签分类问题。近年来，人们投入了大量努力研究多视图多标签学习，提出了多种方法[6]、[7]、[8]。其中，Lyu等人[7]提出了一种视图特定的多视图多标签学习方法，其中每个视图分别建模并通过基于图的交互进行融合，而无需学习共享的子空间。

然而，在实际场景中，由于数据采集和人工注释过程中的不确定性，某些实例可能会出现视图不完整的情况。针对视图不完整的问题，现有研究从不同角度探索了各种解决方案。Yuan等人[9]提出了一个多源特征学习框架，通过根据可用数据源划分样本并学习跨任务的共享稀疏特征来解决视图不完整问题。Liu等人提出了名为IMRL-AGI[10]的方法，该方法通过利用跨视图共享的锚点实例构建锚点图，从而通过图卷积网络连接和编码不完整的样本。同样，多标签数据也受到缺失注释的影响，因为手动注释的标签不可避免地包含遗漏或错误。在这种情况下，多视图多标签数据通常同时具有视图不完整和标签不完整的特点，使得学习任务变得更加具有挑战性。尽管一些研究已经认识到标签缺失的问题，但由于同时处理视图缺失和标签缺失的难度，大多数现有的多视图多标签分类方法通常只假设视图不完整，并主要关注解决视图缺失问题，而对标签不完整的建模仍然有限。

在这种更具挑战性的设置下，同时处理视图不完整和标签不完整的多视图多标签场景的学习尚未形成统一的解决方案范式。目前，只有少数研究尝试对这个问题进行建模。iMVWL[11]是较早的方法之一，它将双不完整多视图多标签学习构建为一个监督非负矩阵分解问题，从不完整的视图中学习共享的潜在子空间，并同时受到弱标签监督和低秩标签相关性建模的约束。在此基础上，NAIM3L[12]从标签空间建模的角度来解决问题。它使用视图指示矩阵来控制多视图回归项的参与，并在公共标签空间中引入全局-局部秩约束以捕获标签相关性，从而在不完整监督下实现对缺失视图和标签的统一建模。SIP[13]进一步提出了一种替代的建模策略，它从可用视图学习语义不变的表示，并通过标签原型建模利用部分观察到的标签监督。此外，为了确保不同视图对应的嵌入表示的一致性，Liu等人[14]提出了一个基于不完整实例级对比学习（DICNet）的深度多视图多标签分类框架，通过实例级对比约束实现跨视图表示的对齐。

上述方法在不完整多视图弱标签分类任务中取得了一定的成功。然而，系统分析显示，这些方法在多视图学习过程中往往过分强调视图间的一致性，从而将具有区分性的互补信息误认为是冗余噪声并加以抑制[15]。在处理数据不完整性时，这些方法通常依赖先验指示矩阵来掩盖缺失的样本或标签，而没有充分利用缺失数据背后的潜在语义结构。同时，大多数现有算法主要关注学习样本级特征语义，削弱了标签相关性在多标签分类中的指导作用，从而限制了模型捕捉高级语义信息的能力。

为了克服现有方法的缺点，我们提出了一种新的框架，称为

C

D

L

G

一致性-

L

多样性权衡和

L

标签引导

G

学习。首先，我们最大化每个视图编码表示与其他视图原始特征之间的互信息，从而约束编码器学习具有改进的跨视图一致性的特征，同时减少与传统InfoNCE相关的类别冲突风险。同时，为了平衡提取的潜在特征中的跨视图一致性和视图内部异质性信息，我们进一步添加了一个最大化视图内部互信息的项。然后，我们也认识到标签在分类任务中的相关性重要性，因此我们提出了一个由标签重叠驱动的对比学习模块，以进一步减少类别冲突。具体来说，我们使用样本之间每个标签的重叠程度作为样本间对比学习的权重，即使样本特征不同，也引导具有相似标签组合的样本在特征空间中接近，从而增强样本的高级语义特征的学习能力。总之，与之前处理双不完整性的多视图和多标签分类的方法相比，

CD ? LGLNet

的主要贡献如下：

•

所提出的双不完整多视图多标签分类（DI-MvMLC）框架为同时存在视图和标签不完整性的多视图多标签分类提供了一个统一的深度学习解决方案，明确解决了这种设置下的表示层和语义层挑战。

•

为了同时平衡跨视图一致性和互补性，并缓解由于强制类别分离引起的类别冲突，我们开发了一个基于自动编码器的互信息最大化框架。该框架明确约束潜在表示以编码跨视图一致的特征和视图特定的异质特征。

•

我们还引入了一个由标签重叠驱动的样本间对比损失模块。该组件全面利用多视图样本信息，同时结合标签语义来增强高级语义特征的区分能力，从而进一步缓解多标签学习中的类别冲突问题。

方法论

在这里，我们介绍了CD-LGLNet，这是一个将一致性-多样性权衡与标签引导学习相结合的框架，用于解决双不完整多视图多标签分类问题。现有方法通常面临两个关键挑战：它们往往过分强调跨视图一致性，而忽视了视图特定的多样性，并且将特征学习与标签语义分离，导致对比目标中的类别冲突。为了解决这些挑战，我们设计了

实验

本节介绍了数据集配置、比较方法以及实验结果的详细讨论。

结论

受到现有方法在处理双不完整多视图多标签分类时遇到的挑战的启发，本文提出了一种新的方法，称为一致性-多样性权衡和标签引导学习网络（CD-LGLNet），该方法不仅有效平衡了多视图学习中跨视图一致性和视图特定异质性的重要性，还缓解了传统对比学习中由于强制分类导致的类别冲突问题

CRediT作者贡献声明

连武：撰写 – 审稿与编辑，撰写 – 原稿，资源获取，方法论，资金获取。郑开华：撰写 – 原稿，验证，方法论。谢亚子：验证，资源获取，方法论。程正婷：撰写 – 审稿与编辑，监督，项目管理。崔金荣：撰写 – 审稿与编辑，监督，项目管理。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家自然科学基金（编号62566014）和贵州省科学技术基金（编号QianKeHeJiChu ZD [2025] 033）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作和预备知识

相关工作与预备知识

方法论

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题