MEDP：一种多模态增强的动态原型学习方法，用于少量样本下的动态场景图生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：MEDP: Multimodal-Enhanced Dynamic Prototype learning for few-shot dynamic scene graph generation

【字体：大中小】 时间：2026年06月06日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　王学教|黄子恒|孟伟良|王长波|何高奇摘要当前的动态场景图生成（DSGG）方法依赖于密集的注释数据，但这些数据成本高昂，并且在细粒度关系预测方面存在显著局限性。尽管少样本学习能够利用少量注释样本实现快速适应，但视频场景中对象-谓词组合的多样性导致了特征的高度异质性，而动态场景的时

王学教|黄子恒|孟伟良|王长波|何高奇

摘要

当前的动态场景图生成（DSGG）方法依赖于密集的注释数据，但这些数据成本高昂，并且在细粒度关系预测方面存在显著局限性。尽管少样本学习能够利用少量注释样本实现快速适应，但视频场景中对象-谓词组合的多样性导致了特征的高度异质性，而动态场景的时间复杂性又增加了谓词预测的难度。因此，本文提出了一种用于多模态增强动态原型学习（MEDP）的少样本学习DSGG方法。该方法主要包括两个关键模块：（1）多模态特征增强（MFE），通过视觉语言模型生成场景的文本描述，并将其与帧级视觉特征融合，以增强动态场景图的表示能力；此外，MEDP学习还利用时间建模来捕捉视频中的动态变化和长时间依赖关系，从而提升模型对时间背景的理解能力。（2）动态原型匹配（DPM）通过基于对象类别和位置编码动态建模每个原型，在少样本环境下实现谓词匹配；它在文本、帧和序列层面计算关系实例原型，并通过加权融合谓词预测结果来组合这些原型。实验表明，该方法在少样本DSGG任务中表现出显著的泛化能力和稳定性。

相关新闻

生物通微信公众号

微信

新浪微博

我要投稿

搜索
国际
国内
人物
产业
热点
科普

联系信箱：

粤ICP备09063491号

摘要

热点排行