用于虚拟对象定位的多模态大型语言模型

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Multimodal Large Language Model for Virtual Object Grounding

【字体: 时间:2026年02月27日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  提出虚拟物体接地(VOG)任务,构建包含92,000+样本的VirtualSeg数据集,基于LLaVA-7B改进的VirLLaVA模型通过双接地模块和可学习标记实现文本到图像的虚拟物体精准定位,实验验证其有效性。

  
要查看此由 AI 生成的摘要,您必须具有高级访问权限。

摘要

摘要

我们提出了一种新的任务,即虚拟对象定位(VOG)。该任务旨在预测图像中适合插入虚拟对象的位置,这些虚拟对象需与给定的文本描述相匹配。VOG 任务可以解决图像编辑中对象插入的区域约束问题,从而确保图像中无关区域的一致性。为了支持这项任务,我们构建了虚拟分割数据集(VirtualSeg),该数据集包含超过 92,000 个样本,这些样本是通过四步数据集构建流程从 VrR-VG 自动生成的。该流程利用 CLIP 自动过滤掉低质量的数据样本,从而保证了 VirtualSeg 的质量。此外,我们还提出了 VirLLaVA 模型,这是一个基于 LLaVA-7B 构建的新型虚拟对象定位框架。通过为 MLLM 背骨配备两序列的可学习令牌和一个双重定位模块,并在训练过程中指导模型逐步学习如何定位虚拟对象,我们的方法使模型能够根据文本和视觉输入来推理它们的位置。实验表明,VirLLaVA 在虚拟对象定位方面显著提高了性能,同时也为一致性和自动化的图像编辑提供了有希望的方向。代码和数据集可在 https://github.com/Royxia0818/MLLM_for_VOG 获取。

AI 摘要

AI 生成的摘要(实验性)

此摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现、帮助读者评估相关性,并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要,后者仍是论文的官方摘要。完整文章才是权威版本。点击此处了解更多

点击 此处 对此摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由 AI 生成的简单语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号