自适应协作式提示与不确定性感知的隐式知识增强方法在跨模态检索中的应用
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Adaptive Co-Operative Prompting and Uncertainty-Aware Implicit Knowledge Enhancement for Cross-Modal Retrieval
【字体:
大
中
小
】
时间:2026年02月27日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
针对跨模态检索中存在的模态间信息不对称和单模态分布多样性问题,提出ACKE方法。通过不确定性感知的激励潜力(UAIP)策略利用生成式大模型多视角描述并基于Dempster-Shafer理论量化语义不确定性,自适应协同提示(ACP)策略构建动态提示池实现模态深度语义协同,有效缓解对齐偏差并提升检索精度,在Flickr30K和MS-COCO上验证有效。
摘要 AI摘要要查看此由AI生成的摘要,您必须具有高级访问权限。
摘要 摘要 随着互联网多媒体数据的快速增长,跨模态检索技术受到了广泛关注。由于跨模态关系本身的复杂性和非直观性,使用跨模态数据对预训练的大型多模态模型(LMMs)进行调优已成为主流方法。然而,跨模态数据通常存在模态间信息不对称性和模态内分布多样性。面对这些挑战,现有方法往往学习到模糊且不对称的跨模态关联,从而引入语义噪声。此外,它们对现实世界内容的高度多样性适应性有限,进一步阻碍了最佳检索性能的实现。为了解决这些问题,本文提出了适应性协同知识增强(ACKE)方法,该方法包括不确定性感知激励潜力(UAIP)和自适应协同提示(ACP)策略。UAIP利用生成式LMMs生成多视角描述,以丰富语义信息,并采用Dempster-Shafer理论(DST)来量化语义不确定性并调整贡献权重,从而减少不准确的关系映射并平衡信息不对称性。ACP构建了一个提示池,其中动态选择特定实例的视觉提示并将其转换为文本提示,这些提示共同引导模态编码器达成深度语义共识,从而减轻由模态内分布多样性引起的一致性偏差并提高准确性。我们在两个广泛使用的数据集Flickr30K和MS-COCO上进行了大量实验,证明了所提方法的有效性。代码可在https://github.com/nynu-BDAI/ACKE获取。
AI摘要 AI生成的摘要(实验结果) 此摘要是由自动化工具生成的,并非由文章作者编写或审核。它旨在帮助发现、评估相关性,并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要,后者仍是文章的正式摘要。完整文章是权威版本。点击此处了解更多 。
点击此处 对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
要查看此由AI生成的通俗语言摘要,您必须具有高级访问权限。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号