PE-CLIP:一种参数高效的微调方法,用于视觉语言模型在动态面部表情识别任务中的性能提升

《ACM Transactions on Multimedia Computing, Communications, and Applications》:PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition

【字体: 时间:2026年01月20日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  动态面部表情识别中,基于CLIP的参数高效微调框架PE-CLIP通过引入时空动态适配器(TDA)和共享适配器(ShA),结合多模态提示学习(MaPLe)优化文本与视觉模态对齐,在保持高精度的同时大幅减少可训练参数,在DFEW、FERV39K和AFEW数据集上达到SOTA性能。

  
要查看此由AI生成的摘要,您必须拥有高级访问权限。
了解更多 登录

摘要

摘要

像CLIP(对比语言-图像预训练)这样的视觉语言模型(VLMs)的出现为各种视觉问题提供了吸引人的解决方案,包括动态面部表情识别(DFER)。然而,大多数提出的方法面临主要挑战,特别是与编码器的全精细调优效率低下和模型复杂性相关的问题。此外,一些提出的方法由于以下原因表现不佳:(i)文本和视觉表示之间的对齐不佳;(ii)时间建模效果不佳。为了解决这些挑战,我们提出了PE-CLIP,这是一个参数效率高的精细调优(PEFT)框架,它优雅地适配了CLIP以用于动态面部表情识别,在保持高准确性的同时显著减少了可训练参数的数量。在其核心,为了提高效率和性能,PE-CLIP引入了两个专门的适配器:时间动态适配器(TDA)和共享适配器(ShA)。时间动态适配器是一个基于GRU的模块,具有动态缩放机制,可以捕捉序列依赖性,同时自适应地调整每个时间特征的贡献,以强调最具信息量的特征并减少无关变化。共享适配器是一个轻量级适配器,它在文本和视觉编码器中改进表示,确保特征处理的一致性,同时保持参数效率。此外,我们利用多模态提示学习(MaPLe),它为视觉和基于动作单元的文本描述输入引入了可学习的提示,进一步提高了模态之间的语义对齐,并使CLIP能够高效地适应动态任务。我们在两个基准数据集DFEW、FERV39K和AFEW上评估了我们的PE-CLIP,与最先进的方法相比,它取得了具有竞争力的性能,同时需要的可训练参数更少。通过在参数效率和性能之间取得最佳平衡,PE-CLIP在资源高效的DFER领域树立了新的标杆。所提出的PE-CLIP的源代码将在https://github.com/Ibtissam-SAADI/PE-CLIP公开提供。

摘要

要查看此由AI生成的简单语言摘要,您必须拥有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号