
-
生物通官微
陪你抓住生命科技
跳动的脉搏
EvoCap:通过自进化视频大型语言模型(video-LLMs)结合知识整合技术来提升视频字幕生成质量
《Knowledge-Based Systems》:EvoCap: Enhancing video captioning via self-evolving video-LLMs with knowledge consolidation
【字体: 大 中 小 】 时间:2026年05月20日 来源:Knowledge-Based Systems 7.6
编辑推荐:
杨柳胡 | 吴敏业 | 余俊青 | 陈一平(Phoebe Chen) | 杨伟•我们提出了EvoCap,这是一个用于无注释视频字幕生成的知识整合框架。•EvoCap使视频大型语言模型(Video-LLMs)能够通过验证过的伪标签积累来学习未标注的视频内容。•跨模态一致性验证提供了