基于生成模型的混合语义增强方法在迁移式零样本学习中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Generative Model-Based Mixed-Semantic Enhancement for Transductive Zero-Shot Learning

【字体：大中小】 时间：2026年01月26日 来源：Pattern Recognition 7.6

编辑推荐：

　　零样本学习中的生成模型依赖辅助信息存在语义偏差和泛化能力不足问题，本文提出混合语义增强框架，通过双向视觉-属性对齐机制和语义-视觉映射优化，显著提升跨域生成性能。

淮洲琦|刘阳|韩俊聪|张磊

西安电子科技大学电信工程学院，陕西，710071，中国

摘要

零样本学习（ZSL）旨在解决识别和分类训练期间未见过的类别实例的关键挑战。尽管基于生成模型的方法在ZSL方面取得了显著成功，但它们主要依赖于前向生成策略，并且过度依赖辅助信息，这阻碍了模型的泛化和鲁棒性。为了克服这些限制，我们提出了一个受插值特征提取启发的混合语义增强框架。这种新颖的方法通过整合真实的语义线索来合成丰富的辅助信息，从而改进了从语义描述到视觉特征的映射。增强的特征合成能力能够更好地区分模糊的类别，同时保持类别间的关系。此外，我们建立了视觉特征和辅助信息之间的双向对齐。这种跨模态交互机制不仅通过特征一致性约束加强了生成器的训练过程，还促进了不同模态之间的动态信息交换。在四个基准数据集上的广泛实验表明，我们的方法在性能上有显著提升，突显了其在推进生成式ZSL模型方面的鲁棒性和有效性。

引言

零样本学习（ZSL）[1]，[2] 的主要目标是使机器学习模型能够在训练样本和标签极其有限的情况下对以前未见过的类别进行分类和推断。与传统的监督学习不同，后者要求所有测试类别都必须存在于训练数据中，而在收集每个类别的足够样本不切实际或不可能的情况下，ZSL至关重要。现有的ZSL方法可以大致分为生成式[3]和非生成式方法[4]。在非生成式方法中，关系推理方法利用类别关系的先验知识来推断未见类别的特征。另一方面，语义向量映射方法构建了一个共享的语义空间（例如属性[5]或文本描述[6]），以连接已见和未见类别。这些模型首先学习已见类别的视觉特征和语义表示之间的映射，然后将这种知识转移到未见类别的识别中。然而，大多数非生成式方法严重依赖预定义的语义关联、关系推理和手工制作的映射规则，这使得它们难以自动捕捉底层数据分布，而这是生成式方法更自然能够实现的。

生成模型在ZSL中受到了越来越多的关注，特别是它们合成训练样本和建模未见数据分布的能力。与专注于学习类别间决策边界的判别模型不同，生成模型旨在通过建模输入特征及其对应标签的联合概率分布来捕捉数据中的潜在结构和内在模式。这使它们能够生成逼真的合成样本，并深入理解数据的固有特征，因此在数据合成、异常检测和半监督学习等任务中特别有价值。生成模型可以根据生成过程中是否使用标签信息分为无条件和有条件两类。常见的例子包括生成对抗网络（GANs）[7]和变分自编码器（VAEs），这两种方法都被用来为未见类别生成伪样本，从而将ZSL转化为一个标准的监督学习问题。尽管取得了有希望的结果，但这些方法仍然面临挑战，例如分类性能依赖于生成样本的质量以及训练生成模型的内在复杂性。

上述讨论的生成模型表现出令人赞赏的性能。然而，它们面临着提高生成器输出质量的挑战。为了提高生成结果的质量和可靠性，研究人员采用了一系列精心设计的监督机制。其中，条件判别器的应用尤为重要，因为它们可以准确评估生成的图像是否真实反映了现实世界野生动物的本质特征。这确保了类内数据分布与其对应的现实世界对应物之间的精确对齐。同时，存在一个根本性的挑战：如何有效地将已见类别的联合数据-辅助分布中编码的知识转移到未见类别中，从而准确建模这些未见类别的分布，并最终实现高质量的图像生成。为了解决这个问题，Xian等人[8]提出了一种巧妙的解决方案，该方案巧妙地引入了判别器，并同时学习未见数据的一般分布。这种方法显著改善了未见类别的生成效果。尽管其简单，但在近似未见类别的条件分布方面表现出显著的有效性。为了解决辅助数据驱动生成过程中的挑战，研究人员采用了各种策略来提高辅助信息的质量。例如，通过整合多种类型的辅助数据（例如文本、音频、标签、属性）实现了多模态信息融合[9]，利用多模态学习方法来增强生成模型的条件约束。这种方法有助于缓解对单一辅助信息来源的依赖。此外，诸如词嵌入（例如Word2Vec [10]或GloVe [11]）和知识图谱等技术丰富了辅助信息的语义表示，从而使生成模型更好地理解未见类别的语义关系。为了减少对标注数据的依赖，人们探索了弱监督和无监督学习框架。具体来说，弱监督方法采用部分标注和伪标注等技术来促进生成模型的训练。

然而，主流方法仍然受到前向生成范式的限制，在这种范式中，图像合成严格遵循从辅助数据推断出的条件分布。虽然概念上很简单，但这种方法存在两个主要限制。首先，合成未见类别图像的指导不足：例如，f-VAEGAN-D2 [8]采用从“语义嵌入到CNN特征”的单向链，仅从类别级别的语义生成视觉特征，缺乏“视觉特征到语义属性”的反向验证路径，这可能导致生成的特征与边缘分布对齐，而偏离核心的语义判别属性。该过程是单向操作的，没有实时反馈，无法动态调整参数以应对类内高方差未见实例，从而导致复杂类别生成时细节缺失或语义不对齐。其次，生成质量过度依赖于辅助信息的可靠性。例如，SABR-T [12]对语义嵌入的质量非常敏感；其特征-语义映射和已见-未见类别知识转移机制容易因注释噪声或语义嵌入中的信息丢失而失败，从而降低未见类别特征生成的准确性。此外，控制弱传递约束的核心超参数需要针对特定数据集进行交叉验证以确定最佳值，导致鲁棒性范围狭窄。在跨数据集进行泛化时，这可能会引发过度传递或传递不足，大大限制了模型的适应性。

基于对上述生成范式的分析，为了解决生成结果的质量过度依赖于辅助信息可靠性的问题，本研究提出了一个混合语义增强框架。该框架结合了插值特征提取的思想，通过融合真实的语义线索来合成高质量的辅助信息，从而优化了“语义-视觉”映射。为了解决合成未见类别图像指导不足的问题，我们构建了一个双向视觉-属性对齐机制。通过引入回归器和属性判别器，该机制实现了“辅助信息 - 视觉特征 - 辅助信息”的闭环，使生成器能够输出与真实未见类别更加一致的高质量视觉特征。混合语义增强框架采用了轻量级的架构设计，参数规模简洁，在训练和推理阶段都保持了极低的计算开销。同时，它表现出出色的兼容性，可以无缝集成到主流生成框架中，而无需大规模重建原始模型。图1示意性地比较了传统生成架构和我们的增强框架。主要创新包括：

•

引入了属性判别器，通过对未见类别的合成属性进行对抗性验证来完善回归器训练，有效解决了特征真实性的挑战。

•

开发了一种结构化的混合语义增强协议，通过策略性地整合真实的语义信号来加强特征-语义映射，从而生成更具辨别力的特征表示。

•

在四个基准数据集上的广泛实验表明了该框架的优越性，在跨领域生成任务中取得了比现有技术更显著的改进。

章节片段

归纳式零样本学习

归纳式零样本学习（IZSL）不同于传统的监督学习范式。该框架旨在通过从观察到的类别（训练集）到先前未见类别（测试集）的知识转移，建立特征表示和标签之间的关联。

方法论

如图2所示，我们的模型可以大致分为三个组成部分。最上层部分主要关注使用可见类别样本进行训练，其中损失函数通过判别器D和回归器定义，构成了模型的核心组成部分。中间部分强调使用未见类别进行训练，同时利用回归器和D^u。为了进一步增强回归器的训练，我们引入了D^a来增强合成结果的真实性

数据集和指标

我们使用四个在ZSL研究中常用的基准数据集来评估我们的方法：Caltech UCSD Birds 200-2011 (CUB) [33]、SUN Attribute 数据集 [34]、aPY（带属性的动物，Pascal-Yahoo）[5] 和 Animals with Attributes (AWA2) [35]。CUB和SUN是细粒度数据集，而aPY和AWA2是粗粒度数据集。更多细节见表1。对于评估指标，ZSL使用平均每类Top-1准确率（T1）。GZSL使用T1的调和平均值（H）来衡量已见（S）和未见（U）

结论

在本文中，我们提出了一种基于生成模型的新型混合语义增强方法。通过整合真实语义信息，这种方法加强了从语义描述到视觉特征的映射。这使得能够合成更具辨别力的特征，并提高了对模糊类别的识别能力。此外，我们将对齐方法整合到了现有的生成模型框架中。这种方法将视觉特征转换为语义描述，

CRediT作者贡献声明

淮洲琦：撰写 – 原始草稿，软件，调查，数据管理。刘阳：撰写 – 审阅与编辑，方法论，资金获取。韩俊聪：撰写 – 审阅与编辑，可视化，方法论。张磊：撰写 – 审阅与编辑，方法论，形式分析。

利益冲突声明

我们声明与提交的工作没有任何商业或关联利益冲突

致谢

这项工作部分得到了中国国家自然科学基金（项目编号62376207）的支持，部分得到了教育部社会计算与认知智能重点实验室（项目编号SCCI2024TB01，大连理工大学）的支持，部分得到了西安电子科技大学跨学科探索专项基金（项目编号TZJH2024045）的支持，还得到了安徽省机器视觉检测与感知重点实验室开放研究基金的支持

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

归纳式零样本学习

方法论

数据集和指标

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行