通过具有视觉-语言模型的人机交互感知情绪识别技术，揭示可信的情绪状态

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Patient Education and Counseling》：Towards Revealing Trustworthy Emotion States via Human-object Interaction-aware Emotion Recognition with Vision-language Model

【字体：大中小】 时间：2026年02月28日 来源：Patient Education and Counseling 3.1

编辑推荐：

　　人类与物体交互中的无意识情绪识别是人工智能领域的重要挑战，传统方法易受社交伪装影响。本文提出新型任务HAER（人类与物体交互-意识情绪识别），构建首个包含完整交互过程和独立场景的数据集HAER-Set，并设计基于预训练视觉语言模型（VLM）的HAER-Net框架，通过时空特征编码揭示动态交互与隐藏情绪的映射关系。实验验证了框架在HAER-Set上的有效性，为安全关键场景提供可靠的情绪理解方案。

李思源|李新德|胡传飞

中国江苏省南京市东南大学网络科学与工程学院，210096

摘要

基于视觉内容的人类情感理解是通用人工智能的一个重要但极具挑战性的组成部分。传统的情绪识别技术，如面部表情分析，容易受到社会伪装的影响，即个体故意调节或伪造自己的情感表现。因此，被伪装的情感表达会误导识别系统，导致不可靠的情绪识别结果，使系统面临情感驱动的欺骗和安全风险。受认知神经科学的启发，我们研究了人机交互（HOI）的视觉内容，这些内容可以在无意识情感的行为过程中传递情感线索。具体来说，我们引入了一个新的数据集，称为HAER-Set，用于人机交互-情感识别（HAER），该数据集关注HOI特定行为与情感状态之间的关系。HAER-Set的吸引力特性，如“完整性”和“隔离性”，有助于研究人员深入研究HOI感知的情感状态。同时，为了解决HOI特定样本稀缺的问题，我们提出了一个基于预训练视觉语言模型（VLM）的HAER框架，称为HAER-Net，用于探索HOI动态行为背后的情感状态。广泛的实验表明，所提出的框架在HAER-Set上的优越性，验证了HOI特定行为在理解隐藏的人类情感方面的潜力。

引言

从视觉内容中理解人类情感在许多计算机视觉应用中受到了广泛关注，例如医疗保健[1]、人机交互[2]和机器人技术[3]。在计算机视觉领域，随着深度学习技术[4]、[5]、[6]的出现，已经对面部[7]和姿势[8]等多种视觉特征进行了建模，实现了可接受的性能。然而，在复杂情况下，面部和姿势表情可能不可靠。由于社会伪装[9]、[10]，这些“可控”的视觉特征可能无法反映隐藏的情感状态。这种被伪装和欺骗性的情感表达可能会误导情感识别系统，从而在安全和信任至关重要的应用中引入系统级漏洞[11]。

受认知神经科学的启发[12]，我们关注在无意识情感行为过程中传递的情感线索，例如人机交互（HOI）。如图1(a)所示，这个人在互动行为中并未意识到自己的情感状态，但他的行为明显受到了情感的影响。由于无意识情感的行为干预难以通过主观意识来控制，我们认为可以通过建模这些视觉特征来潜在地揭示被伪装的情感状态。

最近，一些研究探索了可以通过视觉上下文[14]、[15]、[16]（如手势、周围环境和互动对象）来提高情感识别性能的方法。然而，如图1(b)所示，这些方法存在以下两个局限性：

•

首先，HOI的行为在时空维度上可以提供丰富的上下文。现有的方法基于静态图像（HECO [16]）或弱HOI感知视频（GroupWalk [15]）进行建模，因此没有全面考虑HOI的动态表现。

•

其次，在这些方法中，HOI的行为仅被归类为视觉上下文的一个子类，HOI与情感状态之间的映射关系没有系统地揭示出来。

因此，一个关键问题仍然存在：

为了解答这个问题，我们首先提出了一种新的任务，称为人机交互-情感识别（HAER），它在动机上与其他相关任务（如上下文感知情感识别[14]不同。上下文感知情感识别旨在对一个人周围的视觉上下文进行建模以进行情感识别，而HAER则关注HOI特定行为与情感状态之间的关系。对于HAER而言，更注重分析HOI的动态特性，因为HOI的不完整过程可能导致对情感状态的模糊理解。例如，一个人拿着刀，根据他是要切蛋糕还是挥舞刀，可能会传达出不同的情感状态。然后，为了弥合HAER与实际应用之间的差距，我们构建了HAER-Set，这是一个专门针对HOI的人类情感数据集，其中包含了视频级别的情感类别和帧级别的交互上下文。HAER-Set中的视频展示了HOI特定上下文的完整性和隔离性，这在包括互动对象、人物和情感状态的真实场景中非常接近。此外，我们提出了一个基于预训练视觉语言模型（VLM）的HAER框架，称为HAER-Net，它包括交互上下文提取、时空特征编码和情感识别。首先通过先前的处理提取视频中人物和对象的位置等HOI特定上下文，然后采用双 stem 架构进行特征编码，以时空维度表示特征，最后通过分类器识别情感状态的离散类别。所提出框架的洞察力在于关注HOI特定的时空表示，探索HOI动态行为背后的情感状态。同时，预训练的VLM提供了强大的表示能力，以应对HOI特定样本稀缺的挑战。总之，主要贡献如下：

•

首次提出了一个名为HOI感知情感识别（HAER）的任务，旨在揭示给定视频中HOI动态行为与情感状态之间的映射关系。据我们所知，我们是首批对HOI特定表示的动态特性进行建模的研究者之一。

•

HAER-Set是第一个展示HOI完整过程的人机交互特定情感数据集，用于弥合HAER与实际应用之间的差距。

•

我们提出了一个关注HOI特定时空表示的HAER新框架，探索HOI动态行为背后的情感状态。

•

实验结果和可视化展示了所提出框架的有效性，验证了HOI特定行为在理解人类情感方面的潜力。

小节片段

上下文感知情感数据集

为了研究视觉上下文与情感状态之间的关系，研究人员构建了一些上下文感知情感数据集，例如EMOTIC [17]、CAER [14]、GroupWalk [15] 和 HECO [16]。EMOTIC 和 HECO 包含人物及其周围场景的图像，其中人物的情绪状态用离散和连续标签进行标注。GroupWalk 记录了人物在街道、楼梯等场景中的行走情况

数据准备和情感标注

为了提取HOI特定的视频片段，我们选择了不同类型的电视节目和电影以确保数据多样性。总共有4部属于3个类型的剧集，共185集。我们首先手动将视频分割成多个片段，这些片段仅包含人物与对象的互动。需要注意的是，这里的人物不被视为互动对象，因为我们关注的是没有社会伪装的情况下的互动。因此，不考虑人物之间的对话

动机和框架概述

由于捕捉HOI特定上下文的成本高昂，限制了可用于HAER的训练数据量，如果训练数据不能充分反映HOI的多样性，模型可能会退化。一个直觉是引入预训练视觉语言模型（VLM）的强大表示能力，例如CLIP [20]，它已成为视觉表示学习的有希望的替代方案。然而，有两个问题需要解决。

设置

评估协议。在HAER-Set上验证了所提出的HAER-Net的实验，其中20%的HAER-Set片段被用作测试集，其余部分作为训练集。使用分类准确性来评估HAER-Net的性能。此外，实验结果基于5折交叉验证的平均性能进行报告。

实现细节。实验在配备NVIDIA Tesla A100 GPU的工作站上进行。

结论

在本文中，我们提出了一种新的任务，称为人机交互-情感识别（HAER），以及一个新的数据集（HAER-Set），其吸引力特性（完整性和隔离性）有助于研究人员深入研究HOI感知的情感状态。同时，我们提出了一个名为HAER-Net的新框架，专注于HOI特定的时空表示，探索HOI动态行为背后的情感状态。实验结果

CRediT作者贡献声明

李思源：撰写 – 审稿与编辑、可视化、验证、方法论、正式分析、数据管理、概念化。李新德：项目管理、资金获取。胡传飞：撰写 – 原稿撰写、正式分析、数据管理、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言