人类物体交互检测旨在识别和理解图像中以人类为中心的动作及其交互对象,从而深入解读行为语义和潜在意图。这项任务的核心目标是从视觉场景中检测出人类、对象、交互三元组。典型的技术过程包括三个关键步骤:提取人类和对象的视觉特征、配对人类-对象关系以及预测特定的交互类别。
HOI检测任务的主要挑战是在某些复杂场景中的鲁棒性有限,以及对罕见和不确定交互的泛化能力有限。在拥挤或复杂的场景中,遮挡和小对象等问题使得准确定位和正确关联人类-对象对变得更加困难。现有的主要模型和方法在面对需要多步推理的罕见交互或复合交互时仍存在局限性。早期的HOI检测方法主要基于卷积神经网络(CNN)架构,例如Gao, Zou, & Huang (2018); Gkioxari, Girshick, Dollár, & He (2018); Hou, Yu, Qiao, Peng, & Tao (2021); Liao et al. (2020); Wang et al. (2020b); Zhong, Qu, Ding, & Tao (2021)。这些方法通常依赖于精心设计的手动结构和复杂的两阶段处理范式来完成HOI三元组的匹配和识别。然而,这种对结构设计和分段处理策略的依赖不仅增加了模型设计的复杂性,也在一定程度上限制了模型的推理效率。
近年来,随着Transformer架构(Vaswani et al. 2017)在计算机视觉领域的广泛应用,其核心的自注意力和交叉注意力机制展示了强大的全局特征建模能力。基于Transformer的一阶段检测框架由于其端到端的特性和高效的全局上下文捕获能力,在对象检测和实例分割等各种视觉任务中取得了突破性进展。受这一技术浪潮的推动,出现了许多基于Transformer架构的HOI检测方法,如图1(a)所示。此外,Hong, Lee, Kumar, Ahn, & Lee (2025); Qiao et al. (2025)在将HOI任务扩展到视频领域方面也取得了显著进展。
在基于Transformer的视觉任务研究中,注意力机制作为核心组件吸引了大量研究兴趣,其优化通常是提高模型性能的关键。然而,对于建模空间关系至关重要的位置嵌入却相对较少受到深入讨论。一种常用的位置编码是最初由DETR(Carion et al. 2020)为对象检测提出的基于正弦的位置编码。它使用正弦和余弦函数根据图像块或特征图的长度和宽度尺度进行计算。虽然这种编码能够捕获几何位置信息,但它缺乏人类和对象在语义内容中的空间关系。受PETRv2(Liu et al. 2023)的启发,我们提出了内容感知位置嵌入(CAPE)模块。与基于固定坐标的位置编码不同,CAPE动态生成了反映场景中隐含空间关系的内容条件位置嵌入。CAPE部分受到图像特征的语义内容的引导,提取关于人类和对象空间排列的上下文线索。得到的嵌入分别添加到视觉特征嵌入中,然后输入到实例解码器和交互解码器中,带有不同的语义感知空间相关性,而不是显式的几何偏移。这种设计使模型能够利用动态适应每个图像的空间信息特征,特别适合需要紧密结合语义和空间理解的任务,如图4所示。
在建模人类-对象交互时,现有方法(Chen et al. 2021; Kim et al. 2021; Zhang et al. 2021)通常首先构建人类-对象对,然后细化交互特征。现有方法中的交互解码器同时使用人类和对象的所有实例特征,这往往导致不正确的人类-对象配对。为了解决这个问题,我们设计了一个基于认知的推理解码器(CIRD)。CIRD模块首先定位人体,然后将其与相关对象关联起来,最后推断交互类型。通过明确解耦人类和对象的角色,并以级联方式顺序处理它们,解码器可以更精确地建模复杂的交互语义,从而提高关系识别的准确性和鲁棒性。
在本文中,我们提出了一个新颖的双增强HOI检测框架,如图1(b)所示,该框架整合了位置感知和认知增强模块。对于位置感知增强,我们引入了一个内容感知位置嵌入模块。该模块使用具有不同大小并行卷积核的多尺度上下文提取器来捕获不同范围的环境特征。接下来是一个增强注意力机制,它结合了通道和空间注意力来强调关键语义区域。更重要的是,我们引入了动态生成的系数,根据输入特征的语义内容自适应地调整位置嵌入的强度,从而在内容和位置信息之间实现最佳平衡。这个系数可以通过独立的权重网络为不同的任务进行配置,例如实例识别和交互检测,实现细粒度的、特定于任务的优化。对于认知增强,我们提出了一个基于认知的推理解码器架构。它由两个特别设计的解码器组成:人类姿态感知模块首先推理以人类为中心的交互关系,其输出特征随后传递给对象可供性感知模块进行进一步细化。这种级联设计在交互推理过程中明确解耦了人类和对象的角色,模拟了人类感知交互的认知过程。此外,我们在后处理阶段加入了CLIP多模态模型。利用其强大的文本编码器,我们为对象、动作和交互生成了语义明确的文本嵌入。这些嵌入与相应的检测到的视觉特征精确对齐,显著增强了交互分类的语义区分能力。
我们的贡献可以总结如下:
1)我们提出了一个双增强HOI检测框架,该框架整合了内容感知位置嵌入(CAPE)模块和基于认知的推理解码器(CIRD)。通过利用动态位置嵌入和逐步的关系推理,该框架显著增强了模型建模复杂交互场景的能力。
2)CAPE模块通过基于语义内容动态生成位置表示来克服传统静态位置编码的局限性,以捕获复杂的空间相关性。CIRD明确解耦了交互中人类和对象的角色,并以级联和逐步的方式处理它们的关系,从而实现更细粒度和更鲁棒的交互语义区分。
3)我们设计了一个三元组对齐模块(TAM),该模块利用CLIP进行多级和多模态对齐。该模块在对象、动作和交互之间建立了视觉特征和文本嵌入之间的精确对应关系,有效地利用了语言模型的语义先验知识。
4)在V-COCO和HICO-DET上的广泛实验表明,我们的方法达到了最先进的性能,在V-COCO上的准确率为70.11%,在HICO-DET上的Full mAP为39.77%。此外,零样本实验和在我们自己构建的数据集上的验证证实了模型在处理未见对象时的强大泛化能力。