EvoCap：通过自进化视频大型语言模型（video-LLMs）结合知识整合技术来提升视频字幕生成质量 - 生物通

今日动态返回首页

会员注册登录生物通快讯免费订阅

生物通首页 > 今日动态 > 正文

EvoCap：通过自进化视频大型语言模型（video-LLMs）结合知识整合技术来提升视频字幕生成质量

《Knowledge-Based Systems》：EvoCap: Enhancing video captioning via self-evolving video-LLMs with knowledge consolidation

【字体：大中小】 时间：2026年05月20日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　杨柳胡 | 吴敏业 | 余俊青 | 陈一平（Phoebe Chen） | 杨伟•我们提出了EvoCap，这是一个用于无注释视频字幕生成的知识整合框架。•EvoCap使视频大型语言模型（Video-LLMs）能够通过验证过的伪标签积累来学习未标注的视频内容。•跨模态一致性验证提供了

　　

杨柳胡 | 吴敏业 | 余俊青 | 陈一平（Phoebe Chen） | 杨伟

•
我们提出了EvoCap，这是一个用于无注释视频字幕生成的知识整合框架。
•
EvoCap使视频大型语言模型（Video-LLMs）能够通过验证过的伪标签积累来学习未标注的视频内容。
•
跨模态一致性验证提供了一种无需人工注释的可靠自我监督信号。
•
该框架提高了字幕的准确性、时间连贯性以及幻觉控制能力。
•
EvoCap在四种不同的视频大型语言模型上均取得了稳定的提升效果，其性能可与有监督的微调方法相媲美。

相关新闻

生物通微信公众号

微信

新浪微博

搜索
国际
国内
人物
产业
热点
科普

热搜：转录增强|伪标签学习|时间对齐|跨模态融合|微小字幕生成|算法性能优化

热点排行

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱：

粤ICP备09063491号