EvoCap:通过自进化视频大型语言模型(video-LLMs)结合知识整合技术来提升视频字幕生成质量

《Knowledge-Based Systems》:EvoCap: Enhancing video captioning via self-evolving video-LLMs with knowledge consolidation

【字体: 时间:2026年05月20日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  杨柳胡 | 吴敏业 | 余俊青 | 陈一平(Phoebe Chen) | 杨伟•我们提出了EvoCap,这是一个用于无注释视频字幕生成的知识整合框架。•EvoCap使视频大型语言模型(Video-LLMs)能够通过验证过的伪标签积累来学习未标注的视频内容。•跨模态一致性验证提供了

  
杨柳胡 | 吴敏业 | 余俊青 | 陈一平(Phoebe Chen) | 杨伟
  • 我们提出了EvoCap,这是一个用于无注释视频字幕生成的知识整合框架。
  • EvoCap使视频大型语言模型(Video-LLMs)能够通过验证过的伪标签积累来学习未标注的视频内容。
  • 跨模态一致性验证提供了一种无需人工注释的可靠自我监督信号。
  • 该框架提高了字幕的准确性、时间连贯性以及幻觉控制能力。
  • EvoCap在四种不同的视频大型语言模型上均取得了稳定的提升效果,其性能可与有监督的微调方法相媲美。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号