SynHOI：一种多粒度GAN合成器，用于生成式零样本场景识别（HOI）任务

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：SynHOI: Multi-granularity GAN synthesizer for generative zero-shot HOI detection

【字体：大中小】 时间：2026年02月05日 来源：Neurocomputing 6.5

编辑推荐：

　　零样本人类-物体交互检测中，基于GANs的多粒度特征合成框架SynHOI通过生成对抗网络解决未见类别的视觉特征缺失问题。采用跨域组合转移策略，融合 seen 类别的语义特征和空间特征，结合双对比学习机制（ICCS和ICCD）提升生成特征的区分性和多样性。在HICO-DET和V-COCO数据集上验证，显著优于依赖外部知识的方法，且 seen/unseen 检测性能平衡最优。

严彩霞|寇艳|刘川

西安交通大学计算机科学与技术学院，中国陕西省西安市710049

摘要

零样本人对象交互（HOI）检测作为一个新的挑战出现，其目标是在不依赖特定先验训练数据的情况下精确识别人对象交互。现有的基于视觉-语义映射的方法通过从外部来源转移知识或探索组合技术来应对这一挑战。然而，由于缺乏未见类别的训练样本，这些方法往往会出现对现有可见数据的过拟合问题，并且无法很好地泛化到长尾分布中的新颖和多样的HOI类别。因此，在这项工作中，我们提出根据相应类别的语义嵌入来合成未见HOI类别的视觉特征，使模型能够在视觉领域学习到可见和未见到的HOI实例。为了实现这一目标，我们利用生成对抗网络（GANs）的力量开发了一种创新的未见HOI合成器。考虑到零样本HOI任务设置的灵活性和复杂性，我们设计了一个多粒度GAN合成器来生成组合HOI特征以及主体-动词和对象的基本元素，然后将它们融合起来为未见HOI分类器提供丰富的训练数据。为了进一步提高HOI特征合成的质量，我们定制了簇间和簇内的对比学习以及组合增强生成策略，以促进GANs的学习过程。广泛的实验表明，所提出的方法可以为各种未观察到的HOI类别合成适当的视觉特征，因此在多个零样本HOI检测设置中表现良好。

引言

人对象交互（HOI）检测是计算机视觉中的一个复杂任务，其目标是识别和理解视觉场景中人与对象之间的关系[1]、[2]、[3]、[4]、[5]、[6]。它涵盖了广泛而复杂的交互类型，例如一个人拿杯子、推购物车或坐在椅子上，这些可以表示为

人、对象、动作

三元组。HOI检测的重要性在于其在各种应用中的重要性，包括监控、机器人技术、增强现实和辅助技术。现有方法在解决这一任务方面取得了显著进展[7]、[8]、[9]、[10]。然而，现实世界场景中交互的长尾分布带来了一个关键限制[11]。虽然一些常见的交互（例如“一个人拿杯子”）在数据集中得到了很好的表示，但大多数交互在训练期间是罕见的甚至从未见过的（例如“一个人修理望远镜”）。这种长尾分布对现有的HOI检测方法构成了重大挑战，因为它们通常是在一组有限的标记频繁交互上进行训练的。因此，这些方法难以泛化到罕见或未见过的类别，从而限制了它们在现实世界应用中的有效性，其中多样化和新颖的交互很常见。

为了解决这一限制，零样本HOI检测作为一个有前景的研究方向出现了[12]、[13]、[14]、[15]、[16]。零样本方法不依赖于标记示例，而是专注于学习交互的通用理解，从而能够推断出未见过的HOI三元组。这是通过将视觉特征映射到基于视觉-语义对齐器的共享语义空间来实现的，其中可以通过预训练的类别词嵌入来建立可见和未见交互之间的关系，如图1(a)所示。在推理阶段，对于新的未见实例，模型通过学习到的对齐器映射它们的视觉特征，并通过与类别嵌入的相似性度量进行比较来确定HOI类别，从而实现零样本检测。此外，一些方法结合了外部知识库[12]、[13]、组合技术[17]、[18]或基于图的推理[19]来进一步增强模型的泛化能力。尽管这些基于视觉-语义映射的零样本HOI检测方法具有潜力，但它们仍然面临着未见类别缺乏视觉特征的挑战，这很容易导致对可见类别的显著偏差。

为了弥补零样本场景中未见类别特征的缺失，生成对抗网络（GANs）[20]、[21]、[22]、[23]、[24]被用来创建模拟真实数据的合成特征，允许模型在真实数据和合成数据的组合上进行训练[25]、[26]、[27]、[28]、[29]、[30]、[31]。尽管它们有效，但大多数现有的基于GAN的零样本学习模型是为图像分类[25]、[26]、[27]、[28]或对象检测任务[29]、[32]、[33]、[34]、[35]设计的，因此难以满足更为复杂的零样本HOI检测任务的需求。具体来说，与其他生成式零样本学习任务相比，零样本HOI检测任务有几个独特的挑战：1) 它涵盖了广泛而复杂的任务设置和视觉特征类型，使得单个GAN模型无法满足任务要求。2) 在视觉上极其相似的HOI特征可能对应于具有显著语义差异的交互类别，例如“一个人拿杯子”和“一个人从杯子喝水”。3) 在同一交互类别内，可能存在各种动作变化和姿势，模型需要生成能够覆盖这些变化的视觉特征。4) HOI的语义理解通常需要足够的背景知识和上下文信息，这大大挑战了模型从可见类别到未见类别的泛化能力。

为了解决上述挑战，我们开发了第一个基于GAN的特征合成框架，用于零样本HOI检测，称为SynHOI。与依赖外部知识或手动特征工程的先前方法不同，我们的SynHOI利用GAN的生成能力为未见类别合成多样且具有代表性的HOI特征，从而减轻了对可见类别的偏见。如图1(b)所示，我们方法的核心是设计一个基于GAN的特征合成器，以满足零样本HOI检测的特定任务要求。考虑到在HOI任务设置下需要合成的视觉特征的多样性，我们为合成器构建了一个多粒度网络架构，其中开发了三个不同的GAN来分别生成HOI特征、人空间特征和对象特征。然后将这些合成特征融合起来，为未见HOI分类器提供丰富的训练数据。为了解决零样本HOI检测中上述独特的挑战，我们为SynHOI设计了对比组合联合增强的GAN训练策略。由于HOI实例的多标签性质，我们根据它们的视觉相似性将HOI类别分为不同的簇。在此基础上，我们设计了两种簇级对比策略来增强生成特征的可区分性和多样性。更具体地说，对合成视觉特征执行簇间对比分离（ICCS）损失以确保不同簇的可区分性，而簇内对比发散（ICCD）损失则鼓励生成特征在每个簇内的变异性。此外，由于HOIs的组合性质，我们设计了一个跨域组合转移（CDCT）组件。它组合了与未见类别相关的可见类别的视觉元素特征，然后将它们整合到合成器的训练过程中，从而增强了其跨域生成能力。

我们的贡献可以总结如下：

•
我们揭示了基于视觉-语义映射的零样本HOI检测范式中的过拟合问题，并建立了第一个基于GAN的特征生成框架，从根本上解决了未见HOI类别样本不足的问题。
•
我们开发了一个基于多粒度的GAN架构，用于同时生成HOI、人空间和对象特征，这些特征的融合可以为未见HOI分类器提供丰富的训练样本。
•
我们设计了三种对比组合联合增强的GAN训练策略，以实现簇间区分性、簇内多样性和跨域泛化特征合成。
•
在HICO-DET和V-COCO基准测试上的广泛实验表明，我们的SynHOI具有优越的检测性能，甚至超过了依赖于预训练CLIP模型外部知识的方法。此外，在所有比较方法中，它在可见和未见类别的检测性能之间取得了最佳平衡。

部分摘录

HOI检测

HOI检测领域经历了显著的增长，当前的方法主要分为两类：一类是单阶段HOI检测[8]、[36]、[37]、[38]、[39]；另一类是两阶段HOI检测[8]、[36]、[37]、[38]、[39]。单阶段方法旨在一次性检测人对象交互，无需单独的区域提议步骤。这些方法在计算资源和速度方面通常更高效，因为它们直接预测交互以及人和

问题表述

让

和

分别表示人空间动作和对象类别集。我们可以通过计算

和

的笛卡尔积来推导出所有可能的HOI标签，即

，并将其子集作为HOI标签集

。正式地，每个人对象交互实例可以定义为一个四元组

，其中

表示参与交互的人和对象的边界框，

是人动作类别，

表示对象的类别。给定一组包含人和

实验设置

数据集描述。我们在两个广泛使用的基准测试上评估了我们的模型，即HICO-DET [63]和V-COCO [64]。具体来说，HICO-DET包含47,776张图像，其中包括38,118个人对象对用于训练和9,658张用于测试。它包含600个HOI三元组类别，这些三元组由80个对象类别和117个动作类别组成。V-COCO是MS COCO数据集的一个子集，包含10,396张图像，并为29个动作类别提供注释。这些配对分布不均

结论

在本文中，我们首次提出了基于GAN的特征生成框架，用于零样本HOI检测，旨在从根本上解决未见HOI样本不足的问题。具体来说，我们的方法为这项任务定制了一个多粒度GAN合成器，该合成器利用GAN的强大生成能力为未见类别合成多样且具有代表性的HOI特征。鉴于零样本HOI检测任务中存在的独特挑战，我们提出了

CRediT作者贡献声明

严彩霞：撰写——原始草稿，验证，监督，项目管理，方法论，资金获取，概念化。寇艳：撰写——原始草稿，可视化，验证，资源，方法论，调查，形式分析，数据管理。刘川：撰写——审稿与编辑，可视化，验证，资源，方法论。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本工作得到了新一代人工智能-国家科技重大项目（编号2025ZD0123003）、国家自然科学基金（项目编号62302384、62172326和62137002）、教育部创新研究团队（编号IRT17R86）、中国大学创新基金（编号2021FNA04003）以及中国工程科学技术知识中心项目的支持。

严彩霞于2015年获得中国西安交通大学计算机科学与技术学士学位，并于2022年获得同一专业的博士学位。她曾是美国匹兹堡卡内基梅隆大学计算机科学学院的访问学者。她目前是西安交通大学计算机科学与技术学院的助理教授。她的研究兴趣包括零样本学习、视觉分析和自动化

热点排行

新闻专题

联系信箱：

粤ICP备09063491号