PE-CLIP：一种参数高效的微调方法，用于视觉语言模型在动态面部表情识别任务中的性能提升

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition

【字体：大中小】 时间：2026年01月20日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　动态面部表情识别中，基于CLIP的参数高效微调框架PE-CLIP通过引入时空动态适配器（TDA）和共享适配器（ShA），结合多模态提示学习（MaPLe）优化文本与视觉模态对齐，在保持高精度的同时大幅减少可训练参数，在DFEW、FERV39K和AFEW数据集上达到SOTA性能。

要查看此由AI生成的摘要，您必须拥有高级访问权限。

了解更多登录

摘要

像CLIP（对比语言-图像预训练）这样的视觉语言模型（VLMs）的出现为各种视觉问题提供了吸引人的解决方案，包括动态面部表情识别（DFER）。然而，大多数提出的方法面临主要挑战，特别是与编码器的全精细调优效率低下和模型复杂性相关的问题。此外，一些提出的方法由于以下原因表现不佳：（i）文本和视觉表示之间的对齐不佳；（ii）时间建模效果不佳。为了解决这些挑战，我们提出了PE-CLIP，这是一个参数效率高的精细调优（PEFT）框架，它优雅地适配了CLIP以用于动态面部表情识别，在保持高准确性的同时显著减少了可训练参数的数量。在其核心，为了提高效率和性能，PE-CLIP引入了两个专门的适配器：时间动态适配器（TDA）和共享适配器（ShA）。时间动态适配器是一个基于GRU的模块，具有动态缩放机制，可以捕捉序列依赖性，同时自适应地调整每个时间特征的贡献，以强调最具信息量的特征并减少无关变化。共享适配器是一个轻量级适配器，它在文本和视觉编码器中改进表示，确保特征处理的一致性，同时保持参数效率。此外，我们利用多模态提示学习（MaPLe），它为视觉和基于动作单元的文本描述输入引入了可学习的提示，进一步提高了模态之间的语义对齐，并使CLIP能够高效地适应动态任务。我们在两个基准数据集DFEW、FERV39K和AFEW上评估了我们的PE-CLIP，与最先进的方法相比，它取得了具有竞争力的性能，同时需要的可训练参数更少。通过在参数效率和性能之间取得最佳平衡，PE-CLIP在资源高效的DFER领域树立了新的标杆。所提出的PE-CLIP的源代码将在https://github.com/Ibtissam-SAADI/PE-CLIP公开提供。

摘要

要查看此由AI生成的简单语言摘要，您必须拥有高级访问权限。

联系信箱：

粤ICP备09063491号

摘要

摘要

摘要

热点排行