基于阶段感知的视觉-语言融合技术用于动作识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Phase-aware Vision-language Fusion for Action Recognition

【字体：大中小】 时间：2026年03月16日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　多模态动作识别中存在模态差异与时序不匹配问题，本文提出相位-频率融合策略，通过相位感知模块提取局部相位特征，结合DFT频率融合模块捕捉全局频域依赖，实现跨模态动态对齐，实验表明在HMDB51和NTU RGB+D数据集上精度分别提升1.1%和1.2%。

作者：杨曼|黄泽南|王伟|肖伟东|李晓超

单位：厦门大学微电子与集成电路系，中国福建省厦门市361005

摘要

多模态动作识别面临的主要挑战在于不同模态之间的差异，包括嵌入分布不匹配和时间错位。为了解决这些问题，我们提出了一种基于相位-频率的多模态融合策略，该策略将多模态信号视为波形，并利用相位调制来聚合特征。通过利用相位差异来减轻模态间的差异。具体来说，相位感知模态融合模块从集成信号中提取局部相位特征，而频率融合模块应用离散傅里叶变换（DFT）来捕获全局频率特征。局部相位和全局频率信息的结合产生了高度区分性和鲁棒性的多模态表示，从而增强了跨模态对齐。在HMDB51和NTU RGB+D数据集上的广泛实验表明，我们的方法优于现有的最先进方法。

引言

视觉-语言模型（VLMs）在动作识别领域取得了显著的成功[1],[2]。与忽略标签语义特征的单模态模型相比，视觉-语言模型考虑了标签的语言语义表示，并利用它们来指导视觉模型提取多模态的视觉-语言表示，这已被实验证明可以提高动作识别性能[3],[4]。然而，标签文本的语言表示与包含主要动作语义的视频帧对齐起来具有挑战性。CLIP[3]和BIKE[4]文本编码器都是在静态图像-文本对上训练的，它们倾向于强调与静态信息相关的语言特征，如背景、演员身体轮廓和服装颜色，而不是与运动信息相关的高度抽象的语言特征[5]，这导致了视觉-语言表示的错位。为了解决这个问题，提出了一种用于视频动作识别的视觉引导的层次迭代融合（VgHIF）方法[2]，该方法通过不同层次上的视觉和语言表示之间的相关性注意力来对齐特征。尽管改善了模态间的交互，但仍需要进一步探索以更好地弥合静态语言语义和视频帧中随时间变化的运动信息之间的差距。

提出了基于相位感知的方法来构建动态注意力或融合模型，用于帧[6]、关键区域[7]或令牌[8]，其中幅度项表示语义强度，相位项表示每个向量之间的关系。WaveNet[6]提出了基于小波的MLP用于RGB-T模态中的显著对象检测，同时融合RGB和热红外特征的低频成分以包含跨模态特征。DANet[7]在复数域中对像素特征进行编码，并利用相位成分在相邻像素之间构建动态注意力，从而捕获步态识别的局部运动模式。Wave-MLP[8]在图像块（令牌）中使用相位项动态调节MLP权重，从而根据语义内容聚合令牌。这种有效模拟动态特征之间交互的机制为解决VLMs中的对齐挑战提供了有希望的途径。

受到上述观察的启发，我们引入了可学习的相位参数来模拟模态间的差异，并实现自适应融合，以解决视觉和语言模态之间的错位问题。具体来说，典型的跨模态对齐方法（如CLIP和BIKE）主要依赖于静态的视觉-语言对应关系。这种依赖性往往导致忽略了时间动态性，从而导致语义的错位，如图1(a)所示。例如，基线模型固定地关注静态的剑对象，因此将动作错误地分类为“剑”，未能捕捉到动态的“锻炼”动作。这说明了时间-语义的错位：虽然静态的语言表示与空间外观对齐，但它们未能捕捉到视频的动态演变。如图1b中的红色框所示，与典型的跨模态VLM方法相比，我们的相位感知方法将视觉和文本嵌入表示为具有相位成分的复杂值。幅度项表示语义强度，相位项表示视觉和文本模态之间的关系。相位成分将语言表示与视觉输入对齐，帮助模型理解主要动作的视觉信息。因此，与典型方法相比，我们的方法在“剑锻炼”视频的第11-15个关键帧内实现了更高的跨模态相似性得分，如图1所示。这种设计实现了更好的跨模态对齐，并强调了局部时间线索。

整个框架包括两个关键组成部分：一个用于局部特征建模的相位感知模态融合模块和一个用于捕获全局跨模态依赖性的频率融合模块。本文的主要贡献总结如下：

1) 我们提出了一个相位感知模态融合模块，它通过可学习的相位参数将时域特征转换为频率表示。幅度保留了模态特定的语义，而相位编码了模态间的关系。

2) 我们通过引入一个嵌入级的相位对齐定理来证明相位对齐设计的合理性，该定理为每个嵌入建立了最大化模态间实部相关性的最佳相对相位偏移。

3) 通过在频率融合模块中执行离散傅里叶变换（DFT），所提出的方法捕获了全局跨模态依赖性，并在频率域中整合了时空信息和文本线索。

4) 我们在NTU RGB+D和HMDB51数据集上评估了所提出的框架。综合结果表明，该方法优于传统的基线方法，验证了其在建模动作识别的多模态表示方面的有效性。

部分内容摘录

视觉-语言模型

视觉-语言模型（VLMs）通过利用语义知识指导视觉表示学习，在动作识别领域取得了显著的成功[1],[2]。与忽略标签语义特征的单模态模型相比，视觉-语言模型考虑了标签的语言语义表示，并利用它们来指导视觉模型提取多模态的视觉-语言表示，这已被实验证明可以提高动作识别性能[3],[4]。然而，标签文本的语言表示与包含主要动作语义的视频帧对齐起来具有挑战性。在静态图像-文本对上训练的CLIP[3]和BIKE[4]文本编码器倾向于强调与静态信息相关的语言特征，如背景、演员身体轮廓和服装颜色，而不是与运动信息相关的高度抽象的语言特征[5]，这导致了视觉-语言表示的错位。为了解决这个问题，提出了一种用于视频动作识别的视觉引导的层次迭代融合（VgHIF）方法[2]，该方法通过不同层次上的视觉和语言表示之间的相关性注意力来对齐特征。尽管改善了模态间的交互，但仍需要进一步探索以更好地弥合静态语言语义和视频帧中随时间变化的运动信息之间的差距。

提出了基于相位感知的方法来构建帧[6]、关键区域[7]或令牌[8]的动态注意力或融合模型，其中幅度项表示语义强度，相位项表示每个向量之间的关系。WaveNet[6]提出了基于小波的MLP用于RGB-T模态中的显著对象检测，同时融合RGB和热红外特征的低频成分以包含跨模态特征。DANet[7]在复数域中对像素特征进行编码，并利用相位成分在相邻像素之间构建动态注意力，从而捕获步态识别的局部运动模式。Wave-MLP[8]在图像块（令牌）中使用相位项动态调节MLP权重，从而根据语义内容聚合令牌。这种有效模拟动态特征之间交互的机制为解决VLMs中的对齐挑战提供了有希望的途径。

受到上述观察的启发，我们引入了可学习的相位参数来模拟模态间的差异，并实现自适应融合，以解决视觉和语言模态之间的错位问题。具体来说，典型的跨模态对齐方法（如CLIP和BIKE）主要依赖于静态的视觉-语言对应关系。这种依赖性往往导致忽略了时间动态性，从而导致语义的错位，如图1(a)所示。例如，基线模型固定地关注静态的剑对象，因此将动作错误地分类为“剑”，未能捕捉到动态的“锻炼”动作。这说明了时间-语义的错位：虽然静态的语言表示与空间外观对齐，但它们未能捕捉到视频的动态演变。如图1b中的红色框所示，与典型的跨模态VLM方法相比，我们的相位感知方法将视觉和文本嵌入表示为具有相位成分的复杂值。幅度项表示语义强度，相位项表示视觉和文本模态之间的关系。相位成分将语言表示与视觉输入对齐，帮助模型理解主要动作的视觉信息。因此，与典型方法相比，我们的方法在“剑锻炼”视频的第11-15个关键帧内实现了更高的跨模态相似性得分，如图1所示。这种设计实现了更好的跨模态对齐，并强调了局部时间线索。

总体框架包括两个关键组成部分：一个用于局部特征建模的相位感知模态融合模块和一个用于捕获全局跨模态依赖性的频率融合模块。本文的主要贡献总结如下：

1) 我们提出了一个相位感知模态融合模块，它通过可学习的相位参数将时域特征转换为频率表示。幅度保留了模态特定的语义，而相位编码了模态间的关系。

2) 我们通过引入一个嵌入级的相位对齐定理来证明相位对齐设计的合理性，该定理为每个嵌入建立了最大化模态间实部相关性的最佳相对相位偏移。

3) 通过在频率融合模块中执行离散傅里叶变换（DFT），所提出的方法捕获了全局跨模态依赖性，并在频率域中整合了时空信息和文本线索。

4) 我们在NTU RGB+D和HMDB51数据集上评估了所提出的框架。综合结果表明，该方法优于传统的基线方法，验证了其在建模动作识别的多模态表示方面的有效性。

方法介绍

视觉-语言模型

视觉-语言模型（VLMs）通过利用语义知识指导视觉表示学习，在动作识别领域取得了显著的成功[1],[2]。与忽略标签语义特征的单模态模型相比，视觉-语言模型考虑了标签的语言语义表示，并利用它们来指导视觉模型提取多模态的视觉-语言表示，这已被实验证明可以提高动作识别性能[3],[4]。然而，标签文本的语言表示与包含主要动作语义的视频帧对齐起来具有挑战性。在静态图像-文本对上训练的CLIP[3]和BIKE[4]文本编码器倾向于强调与静态信息相关的语言特征，如背景、演员身体轮廓和服装颜色，而不是与运动信息相关的高度抽象的语言特征[5]，这导致了视觉-语言表示的错位。为了解决这个问题，提出了一种用于视频动作识别的视觉引导的层次迭代融合（VgHIF）方法[2]，该方法通过不同层次上的视觉和语言表示之间的相关性注意力来对齐特征。尽管改善了模态间的交互，但仍需要进一步探索以更好地弥合静态语言语义和视频帧中随时间变化的运动信息之间的差距。

提出了基于相位感知的方法来构建帧[6]、关键区域[7]或令牌[8]的动态注意力或融合模型，其中幅度项表示语义强度，相位项表示每个向量之间的关系。WaveNet[6]提出了基于小波的MLP用于RGB-T模态中的显著对象检测，同时融合RGB和热红外特征的低频成分以包含跨模态特征。DANet[7]在复数域中对像素特征进行编码，并利用相位成分在相邻像素之间构建动态注意力，从而捕获步态识别的局部运动模式。Wave-MLP[8]在图像块（令牌）中使用相位项动态调节MLP权重，从而根据语义内容聚合令牌。这种有效模拟动态特征之间交互的机制为解决VLMs中的对齐挑战提供了有希望的途径。

受到上述观察的启发，我们引入了可学习的相位参数来模拟模态间的差异，并实现自适应融合，以解决视觉和语言模态之间的错位问题。具体来说，典型的跨模态对齐方法（如CLIP和BIKE）主要依赖于静态的视觉-语言对应关系。这种依赖性往往导致忽略了时间动态性，从而导致语义的错位，如图1(a)所示。例如，基线模型固定地关注静态的剑对象，因此将动作错误地分类为“剑”，未能捕捉到动态的“锻炼”动作。这说明了时间-语义的错位：虽然静态的语言表示与空间外观对齐，但它们未能捕捉到视频的动态演变。如图1b中的红色框所示，与典型的跨模态VLM方法相比，我们的相位感知方法将视觉和文本嵌入表示为具有相位成分的复杂值。幅度项表示语义强度，相位项表示视觉和文本模态之间的关系。相位成分将语言表示与视觉输入对齐，帮助模型理解主要动作的视觉信息。因此，与典型方法相比，我们的方法在“剑锻炼”视频的第11-15个关键帧内实现了更高的跨模态相似性得分，如图1所示。这种设计实现了更好的跨模态对齐，并强调了局部时间线索。

整体框架包括两个关键组成部分：一个用于局部特征建模的相位感知模态融合模块和一个用于捕获全局跨模态依赖性的频率融合模块。本文的主要贡献总结如下：

1) 我们提出了一个相位感知模态融合模块，它通过可学习的相位参数将时域特征转换为频率表示。幅度保留了模态特定的语义，而相位编码了模态间的关系。

2) 我们通过引入一个嵌入级的相位对齐定理来证明相位对齐设计的合理性，该定理为每个嵌入建立了最大化模态间实部相关性的最佳相对相位偏移。

3) 通过在频率融合模块中执行离散傅里叶变换（DFT），所提出的方法捕获了全局跨模态依赖性，并在频率域中整合了时空信息和文本线索。

4) 我们在NTU RGB+D和HMDB51数据集上评估了所提出的框架。综合结果表明，该方法优于传统的基线方法，验证了其在建模动作识别的多模态表示方面的有效性。

实验部分

数据集和实验

我们在HMDB51[24]和NTU RGB+D[25]数据集上评估了我们的方法。对于NTU RGB+D数据集，我们采用了跨受试者（CS）和跨视图（CV）评估协议，以便与最先进的方法进行全面比较。

所有实验都在PyTorch环境中使用单个GeForce RTX 3090 GPU进行。视频处理器的输入大小为224×224，每个剪辑包含16帧。训练进行了20个周期，批量大小为

B = 8 ，学习率被初始化为

结论

我们提出了一个基于相位感知的视觉-语言融合框架，通过建模模态间的相位关系和全局频率依赖性来增强视频和文本表示之间的对齐。在NTU RGB+D和HMDB51上的实验结果表明，我们的方法分别达到了95.3%和84.1%的top-1准确率，比相应的基线方法提高了1.1%和1.2%。实验结果表明，将局部相位特征与全局频率建模相结合有效地强调了

CRediT作者贡献声明

杨曼：撰写——原始草稿，验证，软件，方法论，调查，数据管理。黄泽南：撰写——原始草稿，验证，软件，调查，数据管理，概念化。王伟：可视化，验证，项目管理。肖伟东：撰写——审稿与编辑，项目管理。李晓超：撰写——审稿与编辑，验证，监督，项目管理，资金获取，形式分析，概念化。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

李晓超报告获得了国家外国专家项目的财政支持。李晓超报告获得了厦门未来产业科技项目的财政支持。李晓超报告获得了福建产业学术合作创新的财政支持。如果有其他作者，他们

致谢

本工作部分得到了国家外国专家项目H20240900、厦门未来产业科技项目3502220241019、福建产业学术合作创新项目（授权号2022H6004）以及厦门大学集成电路（IC）设计与测量重点实验室的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号