VIP-Doc：视觉提示指南——助力细粒度文档理解，提升阅读型大语言模型的用户体验

《Expert Systems with Applications》：VIP-Doc :Visual Prompts Guide Fine-Grained Document Understanding for Reader Friendly VLLM

【字体：大中小】 时间：2026年02月17日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对现有视觉大语言模型在识别文档视觉提示上的不足，提出VIP-Doc模型。通过双编码器架构和三阶段训练策略，VIP-Doc实现文档图像中视觉提示的精准理解与生成，支持OCR、摘要、翻译等五项任务，实验表明其性能优于GPT-4o等现有模型，显著提升交互可信度与效率。

谢佩金|王德鑫|孙林|张向正|谢云和|钱顺|孙成杰|刘炳全

哈尔滨工业大学，哈尔滨，150001，中国

摘要

文档中的常见视觉提示——如下划线、删除线、高亮显示、彩色字体和文本框——有助于提高可读性和结构清晰度，从而帮助读者识别关键信息。当这些视觉元素有效地整合到文档布局中时，可以促进更高效和准确的信息处理。然而，我们的评估表明，当前的视觉大型语言模型（VLLMs）在理解文档方面仍存在局限性，包括专有的商业模型如GPT-4o和Qwen-VL-Max——它们在识别以视觉提示形式呈现的人工标注输入时仍存在不足。这一限制阻碍了灵活的用户交互和细粒度的文档理解。为了解决这一挑战，我们构建了一个专门的基准测试，并引入了VIP-Doc，这是一个专门用于处理文档内视觉提示的视觉大型语言模型（VLLM）。通过采用特别设计的双编码器架构和三阶段训练策略，VIP-Doc成为第一个能够同时理解和将视觉提示与文档图像关联起来的VLLM，并且可以直接将视觉提示输出到文档页面上。在五个任务中的实验结果——OCR、摘要、翻译、关联和带关联的问题回答——表明VIP-Doc在理解视觉标记方面比现有的VLLMs表现更为出色。VIP-Doc及其相关基准测试的引入为未来的研究奠定了坚实的基础，使得文档理解更加细致，并促进了更加自然和有效的人机交互。

引言

想象一下，你可以使用一支智能阅读笔和配套的垫子，在文档图像上动态标记你感兴趣的区域，输入你的需求，如OCR、摘要、翻译或问题回答，与模型进行一场创造性的互动！

生成式大型语言模型在自然语言处理（NLP）领域的成功从根本上改变了人机交互方式，使用户能够通过自然语言输入与模型进行交流（Aaron Hurst, & Adam, Hugo Touvron, & Kevin Stone, Intelligence, Zhang, Roller, Goyal等人）。这些模型通过处理基于语言的提示和指令来理解用户意图，从而能够在多个领域执行各种任务（Alayrac, Donahue, Luc, Miech, Barr, Hasson, Leutenegger, Dieleman, Botvinick, Simonyan等人，Chen, Ramesh, Pande, Ramesh, Bosma, Yu, Le, Wu, Misra, Shazeer等人，Chiang, Li, Lin, Sheng, Wu, Zhang, Zheng, Zhuang, Zhuang, Gonzalez, Stoica, & Xing, Li, Li, Xiong, Hoi等人，Wang, Liu, Li, Yin, Xiong, Zhang, Wang, Hu, Shah, Agrawal等人）。尽管最近的进展已经将大型语言模型扩展到多模态领域——有效地赋予了它们“眼睛”来解释视觉信息——但交互范式仍然主要是单模态的。这些模型仍然主要依赖于文本指令来执行任务，如视觉问答（VQA）和图像字幕等标准应用所示。它们在细粒度参考和理解来自视觉模态的输入提示方面能力有限。

与自然图像场景不同，文档图像通常包含明确的视觉注释，如背景高亮、下划线、彩色强调、边界框和删除线。这些视觉标记提供了强大的线索，帮助读者高效地定位重要区域并区分有效和无效的内容。常见的标记形式——用黄色高亮强调关键信息、用下划线突出特定短语、用边界框隔离相关内容、用删除线标记过时或不正确的文本——在提高可读性、组织信息和快速理解方面起着核心作用。

这种手动注释在学术同行评审、法律分析和财务审计等领域尤其有价值，专家们经常在这些领域高亮或下划出关键证据。将这些人类生成的信号纳入模型中，可以使模型更好地符合用户意图，从而提高准确性和可解释性。然而，虽然这些线索提供了额外的语义信息，但也引入了新的挑战：模型必须能够在密集的文本布局中精确地定位细粒度的视觉标记，并支持交互式的、用户驱动的引用行为，这大大增加了理解文档的难度。

当前的先进文档VLLMs表现出强大的通用理解能力（Blecher, Cucurull, Scialom, & Stojnic, Hu, Xu, Zhang, Ye, Yan, Zhang, Jin, Huang, & Zhou, Liu, Yang, Liu, Li, Ma, Zhang, & Bai, Wang, Bai, Tan, Wang, Fan, Bai, Chen, Liu, Wang, Ge, Fan, Dang, Du, Ren, Men, Liu, Zhou, Zhou, & Lin, Wei, Kong, Chen, Zhao, Ge, Yang, Sun, Han, & Zhang, Wei, Liu, Chen, Wang, Kong, Xu, Ge, Zhao, Sun, Peng等人，Zhang, Sun, Chen, Xiao, Shao, Zhang, Chen, & Luo），但它们主要被训练为通过文本输入来解释参考区域作为坐标。它们缺乏直接推理用户绘制的视觉标记的能力，并且在遵循需要准确定位图像中细粒度用户定义的感兴趣区域（ROIs）的指令时遇到困难。

由于高质量、细粒度文档数据集的稀缺，将视觉提示与文档页面关联起来的潜力在很大程度上尚未被探索。为了解决这一差距，我们引入了一个大规模、高质量、细粒度、多任务的基准测试，以及一个简单而高效的解决方案：VIP-Doc。

如图1所示，我们的VIP-Doc具备理解和生成文档视觉提示的能力，允许用户在执行OCR、摘要、翻译和带有视觉证据的问答之前，用阅读笔自由标记屏幕上的感兴趣区域。左侧面板展示了一个模型解释并参考用户提供的视觉提示的场景。用户通过鼠标或触控笔在文档图像上应用视觉注释（例如黄色高亮）来强调特定内容，然后将这个带有注释的图像输入模型，用户通过自然语言表达（例如，“用黄色高亮的内容”）来启动任务，如摘要。相反，右侧面板展示了一个生成性场景，其中模型主动关联视觉提示。在问题回答任务中，VIP-Doc不仅提供正确的文本答案，还通过图像中的红色框标识并高亮显示相应的区域，从而将其回答与视觉证据关联起来。

现有的专注于文档的模型仍然缺乏这样的能力。即使与先进的专有系统如GPT-4o和Qwen-VL Max相比，也存在明显的局限性。如图2所示，在引用任务中，这些模型可以正确解释OCR输出以及摘要或翻译指令，但它们无法理解用于定位的视觉指针提示。因此，它们经常将查询定位到错误的区域。

同样，在问题回答场景中（图3），当前模型通常能产生正确的文本答案，但无法将这些答案与其在文档中的支持证据关联起来。这严重削弱了它们预测的可信度和可验证性。相比之下，VIP-Doc不仅提供了答案，还提供了精确的答案支持区域，通过提供明确的视觉证据大大提高了可靠性，并实现了更高效的人类验证。

与最近的VLLMs相比，VIP-Doc在三个关键方面具有明显优势：(1) 细粒度理解。 VIP-Doc能够根据视觉提示准确定位目标区域，实现针对文档的中心任务的精确和上下文感知的交互。(2) 增强的交互性。它支持在文档图像上进行直接视觉注释——类似于用笔绘制——促进了更直观、灵活和协作的交互范式。(3) 更高的可信度。在视觉问答中，VIP-Doc的区域感知训练使其能够在图像上直接高亮显示证据区域，提高了答案验证的准确性，并增加了模型预测的透明度和可信度。

总之，我们的贡献有三个方面：

我们提出了一个基于直接使用的视觉提示的新文档理解基准测试，揭示了当前VLLMs的局限性。

通过双编码器架构和三阶段训练过程，VIP-Doc获得了理解和生成文档视觉提示的能力。

VIP-Doc在多个任务中优于所有相关模型，并为在以文档为中心的场景中与VLLMs交互建立了更用户友好和可靠的范式。

本文的其余部分组织如下。第2节简要概述了相关工作。第3节介绍了我们的基准测试的构建和相关任务的定义。第4节详细介绍了我们提出的方法：我们首先在第4.1节详细介绍了双视觉编码器，然后在第4.2节介绍了三阶段训练过程。第5节讨论了实验结果和实现细节。最后，第6节总结了本文。

附录提供了支持主文的补充材料：A节提供了训练配置；B节深入分析了视觉提示引导的OCR结果；C节和D节分别介绍了引用任务消融和问答任务消融；E节讨论了双编码器设计消融；F节验证了我们合成数据的一致性；G节展示了额外的定性示例；H节总结了局限性和未来方向。

部分片段

文档理解模型

文档理解需要结合文本、布局和视觉元素进行推理。传统的基于OCR的流程首先识别文本，然后执行下游的NLP任务，但它们受到错误传播的影响，并且在处理具有多样布局、字体和图形结构的文档时遇到困难。随着多模态视觉语言模型的兴起，端到端的文档理解变得越来越可行。

无需OCR的模型可以直接解释文档像素

新的基准测试和任务安排

高质量的数据能够带来出色的模型。为了填补数据空白，我们首先提出了一个围绕文档视觉提示构建评估和训练过程的新基准测试。我们在第3.1节按任务类别介绍了这个基准测试。

然后我们以渐进的方式设计评估任务，从简单的场景逐步过渡到更复杂的场景。该基准测试包括五个任务，按顺序介绍：(1) 整页通用OCR，(2) 视觉

方法

如图4所示，VIP-Doc训练框架基于双视觉编码器架构，并使用严格结构化的三阶段优化策略进行训练。这种结构设计使模型能够有效地整合多层次的视觉特征，同时逐步学习将视觉提示与下游任务对齐。

实施细节

在本节中，我们详细描述了我们的训练和推理设置。对于开源模型，所有实验都在配备8×A100 GPU（80GB）的单节点服务器上进行，我们使用它来支持训练和推理。对于闭源模型，我们使用OpenAI和Qwen提供的批量推理API。为了确保公平比较，我们保持了关键参数——如最大令牌长度、视觉像素分辨率和其他与模型无关的参数

结论

这项工作首次系统地研究了基于视觉提示的文档理解在VLLMs领域中的应用。虽然之前的努力（如VIP-LLaVA）主要是为自然图像设计的，但我们将这一范式扩展到了更具挑战性的领域——文本密集、结构多样且语义复杂的文档图像。我们的研究揭示了一个显著且之前未被充分探索的差距：尽管现有的文档导向模型具有强大的通用推理能力，但

未引用的表格

表B.7和表B.8。

CRediT作者贡献声明

谢佩金：调查、概念化、方法论、验证、撰写——原始草稿，撰写——审阅与编辑、数据整理。王德鑫：概念化、方法论、监督、资源。孙林：概念化、方法论、监督、资源。张向正：概念化、方法论、监督、资源。谢云和：概念化、方法论、监督、资源。钱顺：概念化、方法论、监督。孙成杰：

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

摘要

引言