想象一下,你可以使用一支智能阅读笔和配套的垫子,在文档图像上动态标记你感兴趣的区域,输入你的需求,如OCR、摘要、翻译或问题回答,与模型进行一场创造性的互动!
生成式大型语言模型在自然语言处理(NLP)领域的成功从根本上改变了人机交互方式,使用户能够通过自然语言输入与模型进行交流(Aaron Hurst, & Adam, Hugo Touvron, & Kevin Stone, Intelligence, Zhang, Roller, Goyal等人)。这些模型通过处理基于语言的提示和指令来理解用户意图,从而能够在多个领域执行各种任务(Alayrac, Donahue, Luc, Miech, Barr, Hasson, Leutenegger, Dieleman, Botvinick, Simonyan等人,Chen, Ramesh, Pande, Ramesh, Bosma, Yu, Le, Wu, Misra, Shazeer等人,Chiang, Li, Lin, Sheng, Wu, Zhang, Zheng, Zhuang, Zhuang, Gonzalez, Stoica, & Xing, Li, Li, Xiong, Hoi等人,Wang, Liu, Li, Yin, Xiong, Zhang, Wang, Hu, Shah, Agrawal等人)。尽管最近的进展已经将大型语言模型扩展到多模态领域——有效地赋予了它们“眼睛”来解释视觉信息——但交互范式仍然主要是单模态的。这些模型仍然主要依赖于文本指令来执行任务,如视觉问答(VQA)和图像字幕等标准应用所示。它们在细粒度参考和理解来自视觉模态的输入提示方面能力有限。
与自然图像场景不同,文档图像通常包含明确的视觉注释,如背景高亮、下划线、彩色强调、边界框和删除线。这些视觉标记提供了强大的线索,帮助读者高效地定位重要区域并区分有效和无效的内容。常见的标记形式——用黄色高亮强调关键信息、用下划线突出特定短语、用边界框隔离相关内容、用删除线标记过时或不正确的文本——在提高可读性、组织信息和快速理解方面起着核心作用。
这种手动注释在学术同行评审、法律分析和财务审计等领域尤其有价值,专家们经常在这些领域高亮或下划出关键证据。将这些人类生成的信号纳入模型中,可以使模型更好地符合用户意图,从而提高准确性和可解释性。然而,虽然这些线索提供了额外的语义信息,但也引入了新的挑战:模型必须能够在密集的文本布局中精确地定位细粒度的视觉标记,并支持交互式的、用户驱动的引用行为,这大大增加了理解文档的难度。
当前的先进文档VLLMs表现出强大的通用理解能力(Blecher, Cucurull, Scialom, & Stojnic, Hu, Xu, Zhang, Ye, Yan, Zhang, Jin, Huang, & Zhou, Liu, Yang, Liu, Li, Ma, Zhang, & Bai, Wang, Bai, Tan, Wang, Fan, Bai, Chen, Liu, Wang, Ge, Fan, Dang, Du, Ren, Men, Liu, Zhou, Zhou, & Lin, Wei, Kong, Chen, Zhao, Ge, Yang, Sun, Han, & Zhang, Wei, Liu, Chen, Wang, Kong, Xu, Ge, Zhao, Sun, Peng等人,Zhang, Sun, Chen, Xiao, Shao, Zhang, Chen, & Luo),但它们主要被训练为通过文本输入来解释参考区域作为坐标。它们缺乏直接推理用户绘制的视觉标记的能力,并且在遵循需要准确定位图像中细粒度用户定义的感兴趣区域(ROIs)的指令时遇到困难。
由于高质量、细粒度文档数据集的稀缺,将视觉提示与文档页面关联起来的潜力在很大程度上尚未被探索。为了解决这一差距,我们引入了一个大规模、高质量、细粒度、多任务的基准测试,以及一个简单而高效的解决方案:VIP-Doc。
如图1所示,我们的VIP-Doc具备理解和生成文档视觉提示的能力,允许用户在执行OCR、摘要、翻译和带有视觉证据的问答之前,用阅读笔自由标记屏幕上的感兴趣区域。左侧面板展示了一个模型解释并参考用户提供的视觉提示的场景。用户通过鼠标或触控笔在文档图像上应用视觉注释(例如黄色高亮)来强调特定内容,然后将这个带有注释的图像输入模型,用户通过自然语言表达(例如,“用黄色高亮的内容”)来启动任务,如摘要。相反,右侧面板展示了一个生成性场景,其中模型主动关联视觉提示。在问题回答任务中,VIP-Doc不仅提供正确的文本答案,还通过图像中的红色框标识并高亮显示相应的区域,从而将其回答与视觉证据关联起来。
现有的专注于文档的模型仍然缺乏这样的能力。即使与先进的专有系统如GPT-4o和Qwen-VL Max相比,也存在明显的局限性。如图2所示,在引用任务中,这些模型可以正确解释OCR输出以及摘要或翻译指令,但它们无法理解用于定位的视觉指针提示。因此,它们经常将查询定位到错误的区域。
同样,在问题回答场景中(图3),当前模型通常能产生正确的文本答案,但无法将这些答案与其在文档中的支持证据关联起来。这严重削弱了它们预测的可信度和可验证性。相比之下,VIP-Doc不仅提供了答案,还提供了精确的答案支持区域,通过提供明确的视觉证据大大提高了可靠性,并实现了更高效的人类验证。
与最近的VLLMs相比,VIP-Doc在三个关键方面具有明显优势:(1) 细粒度理解。 VIP-Doc能够根据视觉提示准确定位目标区域,实现针对文档的中心任务的精确和上下文感知的交互。(2) 增强的交互性。它支持在文档图像上进行直接视觉注释——类似于用笔绘制——促进了更直观、灵活和协作的交互范式。(3) 更高的可信度。在视觉问答中,VIP-Doc的区域感知训练使其能够在图像上直接高亮显示证据区域,提高了答案验证的准确性,并增加了模型预测的透明度和可信度。
总之,我们的贡献有三个方面:
1.我们提出了一个基于直接使用的视觉提示的新文档理解基准测试,揭示了当前VLLMs的局限性。
2.通过双编码器架构和三阶段训练过程,VIP-Doc获得了理解和生成文档视觉提示的能力。
3.VIP-Doc在多个任务中优于所有相关模型,并为在以文档为中心的场景中与VLLMs交互建立了更用户友好和可靠的范式。
本文的其余部分组织如下。第2节简要概述了相关工作。第3节介绍了我们的基准测试的构建和相关任务的定义。第4节详细介绍了我们提出的方法:我们首先在第4.1节详细介绍了双视觉编码器,然后在第4.2节介绍了三阶段训练过程。第5节讨论了实验结果和实现细节。最后,第6节总结了本文。
附录提供了支持主文的补充材料:A节提供了训练配置;B节深入分析了视觉提示引导的OCR结果;C节和D节分别介绍了引用任务消融和问答任务消融;E节讨论了双编码器设计消融;F节验证了我们合成数据的一致性;G节展示了额外的定性示例;H节总结了局限性和未来方向。