《Patient Education and Counseling》:Fine-grained Mutual Geometric Features Enhanced Human-Object Interaction Detection
编辑推荐:
人机交互检测中,提出基于边缘感知和几何中位数的EGE-EMMA-ERSA框架,通过边缘检测提取细粒度几何特征,中位数投影生成稳定互相关锚点,结合位置感知自注意力动态融合特征,有效建模复杂长程空间交互,在V-COCO和HICO-DET数据集上显著提升性能,尤其在处理不规则物体和非标准姿态场景效果突出。
Ri Liu|Lin Bai|Shengjie Lin|Xiaoyu Jiang
广西大学计算机、电子与信息学院,中国南宁市530004
摘要
现有的人机交互(HOI)检测方法通常依赖于浅层几何特征(如中点或人体姿态)来建模交互。然而,这些方法难以捕捉几何细节和复杂的空间关系,常常忽略了人/物实例与周围场景布局之间的内在联系。为了解决这些问题,我们提出了一个新颖的框架,通过三项关键技术创新来提升HOI检测能力:(i) 边缘感知几何提取(EGE);(ii) 边缘-中值互锚(EMMA);(iii) 边缘-关系自注意力(ERSA)。EGE模块通过边缘检测捕捉细粒度几何细节,保留了边界框表示中常常丢失的精确空间关系。EMMA模块通过边缘检测提取细粒度边界特征并计算中值投影,生成几何上稳定的互锚,这些锚点作为捕捉相互上下文的参考点,克服了传统基于边界框或中心点方法的局限性。ERSA模块通过位置感知注意力自适应融合EGE特征和EMMA特征,实现对关键区域的有针对性特征增强,同时动态建模长距离空间布局,显著提高了对复杂交互模式的感知能力。实验结果表明,在V-COCO和HICO-DET数据集上,尤其是在涉及不规则形状物体或长距离交互的场景中,该方法性能大幅提升。这项工作为人机交互检测的空间关系建模提供了新的见解,并凸显了基于边缘检测和中值方法的潜力。
引言
人机交互(HOI)检测旨在定位和识别人与物体之间的交互,预测形式为“人、物体、交互”的三元组。这项任务通过探索实体之间的关系,扩展了物体检测的功能,有助于更深入地理解视觉场景。它在许多领域中都至关重要,特别是在客户行为分析和患者监测方面。然而,HOI检测仍然是一项具有挑战性的任务,因为现有方法常常忽略了对准确建模人机关系至关重要的细粒度几何细节和空间布局,尤其是在场景形状不规则或交互距离较远的情况下。
传统的HOI检测方法通常依赖浅层几何特征(如边界框、中点或人体姿态)来表示交互。然而,这些表示方法存在关键局限性:边界框[1]忽略了物体的精细几何结构,人体姿态[2]无法反映物体结构,而中点[3]对空间异常值非常敏感。此外,它们常常将人-物特征与周围空间布局分离,从而忽略了建模复杂交互所需的内在关系线索。最近的进展表明,基于边缘的几何线索[4][5]可以在物体检测和人体动作识别等任务中提供细粒度的结构细节,这表明它们在HOI检测中具有潜力。如图1所示,传统方法通常用人体姿态(a)来近似空间结构,而边缘线索(b)能更好地捕捉轮廓变化和空间布局。同样,虽然许多方法将人和物体之间的中点作为交互中心(c),但在长距离或遮挡情况下,这样的中点并不稳定。相比之下,基于中值的锚点(d)提供了更稳健且语义上更有意义的定位。这些观察结果突显了基于边缘和中值的策略在提高HOI检测的空间精度和稳健性方面的未开发潜力。为了利用这些几何线索并解决当前的限制,我们提出了一个新颖的HOI检测框架。首先,边缘感知几何提取(EGE)模块通过边缘检测提取细粒度边界信息,捕捉不规则物体和非标准姿态的细微轮廓变化。与之前专注于物体轮廓或部分特征[6]的HOI方法相比,所提出的EGE通过密集的边缘检测编码细粒度几何细节,从而对不规则物体形状和非标准人体姿态实现了更有效的空间结构建模。其次,边缘-中值互锚(EMMA)模块通过将边缘点投影到坐标轴上并计算中值来定义互锚,确保了对异常值的鲁棒性。最后,边缘-关系自注意力(ERSA)模块通过自注意力结合EGE特征和EMMA特征,建模几何关系和长距离空间布局,提升了长距离空间布局和整体HOI检测性能。这种基于边缘引导和中值锚点的设计解决了基于稀疏点或中点的交互表示的不稳定性问题,使得在不规则物体形状、非标准人体姿态和长距离空间交互情况下能够进行更稳健的HOI建模。
我们的广泛实验评估显示,所提出的方法在多个基准数据集上取得了显著的性能提升。特别是在涉及不规则形状物体和长距离空间布局的具有挑战性的场景中,它始终以较大的优势超越了现有的最先进方法。这些结果凸显了我们方法的有效性和稳健性。
我们的主要贡献如下:
•我们提出了一个EGE模块,通过边缘检测编码人和物体实例的细粒度几何细节,显著增强了空间结构建模能力。该方法有效捕捉了物体轮廓的细微变化,在涉及不规则形状物体或非标准人体姿态的场景中表现出色。
•我们提出了一个EMMA模块,通过提取边缘点和计算中值投影来构建几何上一致的表示,生成稳健的互锚。这一过程将局部细粒度特征与全局上下文相结合,同时在复杂交互场景中确保稳定性。
•我们开发了一个ERSA模块,通过自适应注意力权重动态整合EGE的边缘几何和EMMA的互锚。该设计在训练过程中保留了关键的边缘和交互特征,同时建模长距离空间布局,显著提高了对复杂交互模式的感知能力。实验结果证实了ERSA在具有挑战性的场景中的有效性,特别是在长距离空间布局和复杂交互模式方面。
部分摘录
一步法
一步法[7][8]旨在通过在一个统一框架内联合建模人、物体及其交互,直接预测交互三元组。IP-Net[9]和PPDM[3]将HOI检测转化为关键点检测和分组问题,分别检测关键点和人-物实例,然后匹配它们以识别交互的动作类别。UnionDet[10]尝试直接检测人-物对的联合区域,但存在局限性
方法
HOI检测在计算机视觉中仍然是一项具有挑战性的任务,因为它不仅需要建模人和物体的外观,还需要建模它们之间的几何关系。现有方法通常依赖于浅层几何线索(如中点或人体姿态),这些线索无法捕捉细粒度的空间结构,忽略了与场景布局的内在联系。为了克服这些限制,我们提出了一个由三个组件组成的新颖的边缘感知框架:
实验
在本节中,我们首先介绍了HOI数据集V-COCO和HICO-DET,然后介绍了实验设置和实现细节。接下来,我们将我们的框架与最先进的方法进行比较,以验证其有效性。之后,我们提供了定性分析,进一步证明了所提出的互锚在不同交互场景中的稳定性和稳健性。最后,我们进行了一系列消融研究,以调查各个组件的贡献
结论
在本文中,我们提出了一个新颖的两阶段HOI检测框架,该框架包含三个关键模块:EGE、EMMA和ERSA。这些模块共同使得框架能够捕捉细粒度几何细节和复杂的空间上下文,从而显著提高了HOI检测性能。EGE模块通过精确的边缘检测增强特征提取,保留了传统边界框方法常常忽略的空间细微差别。同时,EMMA
CRediT作者贡献声明
Ri Liu:撰写——原始草案,方法论。Lin Bai:软件。Shengjie Lin:软件。Xiaoyu Jiang:软件。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(61966003)的财政支持。