用于零样本视频片段检索的弹性语义伪文本嵌入

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Resilient Semantic Pseudo-Text Embedding for Zero-Shot Video Moment Retrieval

【字体: 时间:2026年02月27日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  针对零样本视频时刻检索难题,提出基于视觉引导扰动的语义伪文本建模方法RSPT。通过注入随机噪声生成初始伪文本,自适应学习噪声权重构建多视角语义嵌入,并设计质量感知对比损失强化语义边界。实验表明RSPT在Charades-STA和ActivityNet-Captions上显著优于基线方法。

  
要查看此由人工智能生成的摘要,您必须拥有高级访问权限。

摘要

摘要

随着视频数据的爆炸性增长,视频片段检索(VMR)因其能够在未剪辑的视频中定位语义相关的片段而受到越来越多的关注。然而,现有的VMR方法通常依赖于标注的视频-文本对应关系或时间标注,这两种方法都需要大量的人工工作,并且扩展成本较高。更糟糕的是,手动标注中的主观性常常会在训练数据中引入不一致性,进一步复杂化了问题。在本文中,我们研究了零样本视频片段检索(ZS-VMR)问题,并开发了一种新的方法——弹性语义伪文本建模(RSPT)。RSPT的核心是通过视觉引导的扰动来构建语义丰富的伪文本嵌入。具体来说,RSPT首先通过向视觉特征中注入随机噪声来生成初始伪文本,然后通过建模这些伪文本与视觉特征之间的相关性来学习自适应的噪声权重。这使得可以从多个角度生成多样且语义对齐的表示。为了确保与视觉语义的一致性并抑制无关噪声,RSPT引入了一种质量感知的对比损失,以规范伪文本的语义边界。在Charades-STA和ActivityNet-Captions上的广泛实验表明,RSPT的性能优于现有的竞争基线,验证了其有效性。代码可在https://github.com/dmcsy/RSPT获取。

人工智能摘要

人工智能生成的摘要(实验性)

此摘要是使用自动化工具生成的,未经文章作者的撰写或审核。它旨在帮助发现、帮助读者评估相关性,并协助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要,后者仍然是文章的权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。这样做将有助于改进和未来重新生成的版本。

要查看此由人工智能生成的通俗语言摘要,您必须拥有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号