MEDP:一种多模态增强的动态原型学习方法,用于少量样本下的动态场景图生成

《Knowledge-Based Systems》:MEDP: Multimodal-Enhanced Dynamic Prototype learning for few-shot dynamic scene graph generation

【字体: 时间:2026年06月06日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  王学教|黄子恒|孟伟良|王长波|何高奇摘要当前的动态场景图生成(DSGG)方法依赖于密集的注释数据,但这些数据成本高昂,并且在细粒度关系预测方面存在显著局限性。尽管少样本学习能够利用少量注释样本实现快速适应,但视频场景中对象-谓词组合的多样性导致了特征的高度异质性,而动态场景的时

  
王学教|黄子恒|孟伟良|王长波|何高奇

摘要

当前的动态场景图生成(DSGG)方法依赖于密集的注释数据,但这些数据成本高昂,并且在细粒度关系预测方面存在显著局限性。尽管少样本学习能够利用少量注释样本实现快速适应,但视频场景中对象-谓词组合的多样性导致了特征的高度异质性,而动态场景的时间复杂性又增加了谓词预测的难度。因此,本文提出了一种用于多模态增强动态原型学习(MEDP)的少样本学习DSGG方法。该方法主要包括两个关键模块:(1)多模态特征增强(MFE),通过视觉语言模型生成场景的文本描述,并将其与帧级视觉特征融合,以增强动态场景图的表示能力;此外,MEDP学习还利用时间建模来捕捉视频中的动态变化和长时间依赖关系,从而提升模型对时间背景的理解能力。(2)动态原型匹配(DPM)通过基于对象类别和位置编码动态建模每个原型,在少样本环境下实现谓词匹配;它在文本、帧和序列层面计算关系实例原型,并通过加权融合谓词预测结果来组合这些原型。实验表明,该方法在少样本DSGG任务中表现出显著的泛化能力和稳定性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号