双重增强型人类对象交互检测:基于内容的位置嵌入与受认知启发的推理

《Expert Systems with Applications》:Dual-Enhanced Human Object Interaction Detection: Content-Aware Positional Embedding and Cognition-Inspired Reasoning

【字体: 时间:2026年03月06日 来源:Expert Systems with Applications 7.5

编辑推荐:

  人-物交互检测中的位置感知增强与认知推理解码器设计,通过动态内容感知位置嵌入和分步交互推理模块提升复杂场景下的检测性能,实验表明在V-COCO和HICO-DET数据集上分别达到70.11%和39.77%的mAP。

  
张浩军|杨月泉|曹志强|余俊志|王旭
中国扬州大学信息工程学院(人工智能学院)

摘要

人类物体交互(HOI)检测是机器人系统理解人类活动并有效与世界互动的关键能力。然而,大多数现有方法通常依赖于静态的位置嵌入,或者无法充分建模交互的层次语义,这限制了它们在复杂场景中的性能。在本文中,我们提出了一个双增强HOI检测框架(DEHOI),该框架整合了位置感知增强和认知增强。对于位置感知增强,我们引入了一个内容感知位置嵌入(CAPE)模块,该模块通过多尺度上下文提取器融合来自不同感受野的特征,并采用结合通道和空间维度的增强注意力机制来关注关键区域。此外,我们还引入了动态生成的系数,根据输入内容自适应地调整位置嵌入的强度,从而在内容信息和位置信息之间实现最佳平衡,以用于实例识别和交互检测等任务。对于认知增强,我们设计了一个基于认知的推理解码器(CIRD),它具有级联的双流结构,分别以逐步的方式建模人类交互和交互对象关系。通过解耦交互主体和对象,它能够实现交互语义的细粒度推理。实验结果表明,我们的方法在V-COCO和HICO-DET基准数据集上取得了显著的性能提升。具体来说,我们的模型在V-COCO上的APoles1上的准确率为70.11%,比之前的模型提高了约2.0%;在HICO-DET的已知对象设置下,准确率达到39.77%,比之前的方法提高了约1.3%。消融研究证实了CAPE和CIRD模块的有效性。

引言

人类物体交互检测旨在识别和理解图像中以人类为中心的动作及其交互对象,从而深入解读行为语义和潜在意图。这项任务的核心目标是从视觉场景中检测出人类、对象、交互三元组。典型的技术过程包括三个关键步骤:提取人类和对象的视觉特征、配对人类-对象关系以及预测特定的交互类别。
HOI检测任务的主要挑战是在某些复杂场景中的鲁棒性有限,以及对罕见和不确定交互的泛化能力有限。在拥挤或复杂的场景中,遮挡和小对象等问题使得准确定位和正确关联人类-对象对变得更加困难。现有的主要模型和方法在面对需要多步推理的罕见交互或复合交互时仍存在局限性。早期的HOI检测方法主要基于卷积神经网络(CNN)架构,例如Gao, Zou, & Huang (2018); Gkioxari, Girshick, Dollár, & He (2018); Hou, Yu, Qiao, Peng, & Tao (2021); Liao et al. (2020); Wang et al. (2020b); Zhong, Qu, Ding, & Tao (2021)。这些方法通常依赖于精心设计的手动结构和复杂的两阶段处理范式来完成HOI三元组的匹配和识别。然而,这种对结构设计和分段处理策略的依赖不仅增加了模型设计的复杂性,也在一定程度上限制了模型的推理效率。
近年来,随着Transformer架构(Vaswani et al. 2017)在计算机视觉领域的广泛应用,其核心的自注意力和交叉注意力机制展示了强大的全局特征建模能力。基于Transformer的一阶段检测框架由于其端到端的特性和高效的全局上下文捕获能力,在对象检测和实例分割等各种视觉任务中取得了突破性进展。受这一技术浪潮的推动,出现了许多基于Transformer架构的HOI检测方法,如图1(a)所示。此外,Hong, Lee, Kumar, Ahn, & Lee (2025); Qiao et al. (2025)在将HOI任务扩展到视频领域方面也取得了显著进展。
在基于Transformer的视觉任务研究中,注意力机制作为核心组件吸引了大量研究兴趣,其优化通常是提高模型性能的关键。然而,对于建模空间关系至关重要的位置嵌入却相对较少受到深入讨论。一种常用的位置编码是最初由DETR(Carion et al. 2020)为对象检测提出的基于正弦的位置编码。它使用正弦和余弦函数根据图像块或特征图的长度和宽度尺度进行计算。虽然这种编码能够捕获几何位置信息,但它缺乏人类和对象在语义内容中的空间关系。受PETRv2(Liu et al. 2023)的启发,我们提出了内容感知位置嵌入(CAPE)模块。与基于固定坐标的位置编码不同,CAPE动态生成了反映场景中隐含空间关系的内容条件位置嵌入。CAPE部分受到图像特征的语义内容的引导,提取关于人类和对象空间排列的上下文线索。得到的嵌入分别添加到视觉特征嵌入中,然后输入到实例解码器和交互解码器中,带有不同的语义感知空间相关性,而不是显式的几何偏移。这种设计使模型能够利用动态适应每个图像的空间信息特征,特别适合需要紧密结合语义和空间理解的任务,如图4所示。
在建模人类-对象交互时,现有方法(Chen et al. 2021; Kim et al. 2021; Zhang et al. 2021)通常首先构建人类-对象对,然后细化交互特征。现有方法中的交互解码器同时使用人类和对象的所有实例特征,这往往导致不正确的人类-对象配对。为了解决这个问题,我们设计了一个基于认知的推理解码器(CIRD)。CIRD模块首先定位人体,然后将其与相关对象关联起来,最后推断交互类型。通过明确解耦人类和对象的角色,并以级联方式顺序处理它们,解码器可以更精确地建模复杂的交互语义,从而提高关系识别的准确性和鲁棒性。
在本文中,我们提出了一个新颖的双增强HOI检测框架,如图1(b)所示,该框架整合了位置感知和认知增强模块。对于位置感知增强,我们引入了一个内容感知位置嵌入模块。该模块使用具有不同大小并行卷积核的多尺度上下文提取器来捕获不同范围的环境特征。接下来是一个增强注意力机制,它结合了通道和空间注意力来强调关键语义区域。更重要的是,我们引入了动态生成的系数,根据输入特征的语义内容自适应地调整位置嵌入的强度,从而在内容和位置信息之间实现最佳平衡。这个系数可以通过独立的权重网络为不同的任务进行配置,例如实例识别和交互检测,实现细粒度的、特定于任务的优化。对于认知增强,我们提出了一个基于认知的推理解码器架构。它由两个特别设计的解码器组成:人类姿态感知模块首先推理以人类为中心的交互关系,其输出特征随后传递给对象可供性感知模块进行进一步细化。这种级联设计在交互推理过程中明确解耦了人类和对象的角色,模拟了人类感知交互的认知过程。此外,我们在后处理阶段加入了CLIP多模态模型。利用其强大的文本编码器,我们为对象、动作和交互生成了语义明确的文本嵌入。这些嵌入与相应的检测到的视觉特征精确对齐,显著增强了交互分类的语义区分能力。
我们的贡献可以总结如下:1)
我们提出了一个双增强HOI检测框架,该框架整合了内容感知位置嵌入(CAPE)模块和基于认知的推理解码器(CIRD)。通过利用动态位置嵌入和逐步的关系推理,该框架显著增强了模型建模复杂交互场景的能力。
  • 2)
    CAPE模块通过基于语义内容动态生成位置表示来克服传统静态位置编码的局限性,以捕获复杂的空间相关性。CIRD明确解耦了交互中人类和对象的角色,并以级联和逐步的方式处理它们的关系,从而实现更细粒度和更鲁棒的交互语义区分。
  • 3)
    我们设计了一个三元组对齐模块(TAM),该模块利用CLIP进行多级和多模态对齐。该模块在对象、动作和交互之间建立了视觉特征和文本嵌入之间的精确对应关系,有效地利用了语言模型的语义先验知识。
  • 4)
    在V-COCO和HICO-DET上的广泛实验表明,我们的方法达到了最先进的性能,在V-COCO上的准确率为70.11%,在HICO-DET上的Full mAP为39.77%。此外,零样本实验和在我们自己构建的数据集上的验证证实了模型在处理未见对象时的强大泛化能力。
  • 相关工作

    相关工作

    目前,根据架构,HOI检测方法可以分为两类:基于CNN的网络和基于Transformer的网络。以下是这两种方法的相关工作的简要回顾。

    方法

    本节详细介绍了我们提出的双增强HOI检测框架,该框架整合了位置感知和认知增强。如图2所示,该框架首先使用CNN主干网络和Transformer编码器从输入图像中提取全局上下文特征。这些特征随后被输入到实例解码器和交互解码器中。多级解码过程产生实例特征和交互特征,

    数据集和评估指标

    数据集。我们主要在两个基准数据集HICO-DET(Chao, Wang, He, Wang, & Deng 2015)和V-COCO(Gupta & Malik 2015)上进行实验,以评估我们的方法。这两个数据集包含了涵盖室内和室外工作、休闲和社交活动的各种图像。我们的方法适用于多样化和开放领域的日常环境。HICO-DET包含47,776张图像,其中38,118张用于训练,9,658张用于测试。它包括80个对象类别和117个动作

    讨论

    关于位置嵌入。尽管位置嵌入在Transformer中至关重要,但其在HOI检测中的作用尚未得到充分探索。现有方法通常依赖于DETR的固定几何嵌入。我们提出了一个CAPE模块,从全局特征生成语义感知的位置信息。消融研究(表7)证实了CAPE的有效性。有趣的是,完全用我们的语义感知版本替换几何嵌入会降低性能。我们发现,几何和

    结论

    在这项研究中,我们提出了一个双增强HOI检测框架,该框架整合了位置感知增强和认知增强,以改善复杂场景中的人类-对象交互识别。对于位置感知增强,我们引入了一个内容感知位置嵌入模块,该模块通过多尺度上下文提取器融合来自不同感受野的特征,并采用结合通道和空间维度的增强注意力机制来关注关键区域。

    CRediT作者贡献声明

    张浩军:撰写——原始草案、软件、方法论、调查、可视化、验证、数据整理。杨月泉:撰写——审阅与编辑、方法论、概念化、监督、资金获取、调查。曹志强:撰写——审阅与编辑、项目管理、资金获取。余俊志:监督、资金获取。王旭:形式分析。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号