用于照片中桌面推理的基准和方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于照片中桌面推理的基准和方法

《Pattern Recognition》：A Benchmark and Method for Photographed Table Reasoning

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition 7.6

编辑推荐：

　　多模态模型在真实照片表格推理中面临显著性能差距，本研究构建首个大规模PCTR-16K数据集（含4989张照片表格及16318个问题），并提出SCoT框架及7个表格结构理解任务，使LLaVA-Llama3.1在PCTR-16K上准确率从44.58%提升至64.11%。

康晓强|王子木|子晓晨|金晓波|黄开柱|尹飞|王秋风

西安交通大学利物浦大学先进技术学院，中国苏州

摘要

随着大型语言模型（LLMs）和多模态LLMs（MLLMs）的进步，表格推理取得了显著进展。然而，大多数现有研究主要集中在文本或渲染后的表格上，而这些表格与现实世界中拍摄到的表格存在显著差异，尤其是在光照不均、模糊或视角倾斜等次优条件下。这种差异导致当前的MLLMs在现实场景中的应用受到限制。为了解决这一关键问题，我们首次开展了关于拍摄表格的多模态推理的全面研究。我们提出了一个新的数据集Photographed Chinese Table Reaisoning（PCTR-16K），其中包含4,989张拍摄的表格和16,318个问题，涵盖9个主题和3个难度级别。该数据集是首个专门为评估在真实条件下拍摄的表格上的推理能力而设计的基准测试集。为了提高MLLMs对拍摄表格的推理能力，我们提出了结构感知链式思维（SCoT）方法，将表格识别和推理统一为一个端到端的生成过程。为了增强SCoT所需的结构感知能力，我们在微调过程中进一步加入了七个辅助的表格结构理解（TSU）任务。这些任务在表格布局和语义的多个维度上提供了细粒度的监督。在各种MLLMs上的广泛实验表明，我们提出的SCoT和多视图TSU任务显著提高了对拍摄表格的识别和推理能力。例如，LLaVA-Llama3.1在PCTR-16K基准测试中的准确率提高了19.53%（从44.58%提高到64.11%），证明了其在真实世界表格推理中的有效性。该数据集将在https://github.com/PremiLab-Math/PCTR-16k上公开。

引言

表格数据是表示结构化信息最普遍的格式之一，在从科学研究[1]和金融[2]到教育[3]和商业智能[4]等多个领域发挥着重要作用。对于模型来说，有效地理解和推理表格数据仍然具有挑战性，因为这需要解释结构化的布局、异构的内容类型以及复杂的数值关系。大型语言模型（LLMs）和多模态LLMs（MLLMs）的最新进展在表格推理方面展现出了巨大的潜力，推动了该领域的进步[3]，[5]。

现有的表格推理研究大多基于文本表示，其中表格被序列化为特定的格式。像WTQ [6]和FeTaQA [7]这样的经典基准测试通常依赖于HTML结构。为了处理分层数据或混合内容，HybridQA [8]和HiTab [9]等数据集采用了JSON格式。最近，TabMWP [10]和TabFact [11]采用了轻量级的Markdown表示方式，以提高与LLMs的兼容性（见图1中的左侧表格）。虽然这些表示方式简单易处理，但它们无法保留人类直观感知的视觉信息。与文本表格推理并行，文档分析社区长期以来一直重视视觉表格表示。大规模数据集如TableBank [12]和PubTabNet [1]在这一领域发挥了重要作用。此外，还提出了用于表格检测[13]和端到端结构识别[14]的强大方法。近年来，研究社区开始考虑在实际条件下由相机拍摄的“野生”表格，这得益于TAL [15]、WTW [16]和TabRecSet [17]等数据集的支持。最近的研究还探索了多模态表格推理。例如，郑等人[5]通过大规模指令调优来提升通用能力，而Kim等人[18]建立了视觉问答的基准测试。然而，这些研究中使用的表格都是高质量渲染或合成的图像（见图1中的中间表格）。实际上，表格经常在光照不均、模糊或视角倾斜等次优条件下被拍摄（见图1中的右侧表格，更多示例见图4）。这些视觉退化对文档对齐和识别任务构成了严重挑战[19]。这些因素往往会在表格识别过程中引入错误，进而影响推理过程。这种差异在实际应用中导致了性能的大幅下降。

为了解决这一差距，我们提出了一个针对拍摄表格的多模态推理任务，其中表格是在真实条件下拍摄的，这对有效的推理提出了重大挑战。此外，我们开发了一个新的数据集Photographed Chinese Table Reaisoning（PCTR-16K），其中包含4,989张拍摄的表格和16,318个问题，涵盖九个主题和三个难度级别。与现有的表格推理数据集相比，PCTR-16K具有以下特点：

(1)

真实的拍摄表格。 PCTR-16K是首个专门针对拍摄表格的多模态推理的数据集。所有表格都是在包含视觉噪声（例如，光照变化、视角倾斜和模糊）的真实条件下拍摄的。

(2)

多样且具有挑战性的问题。 PCTR-16K包含九个主题，问题类型多样，难度级别分为三个级别，以模拟现实世界场景，主要来源于学生作业和考试试卷。

(3)

全面的注释。 PCTR-16K中的每个样本都包含一个问题、答案、主题、问题类型、难度级别以及逐步解决方案，为模型训练和评估提供了详细的注释。

为了解决拍摄表格的推理问题，我们提出了结构感知链式思维（SCoT），这是一种将表格识别和推理无缝整合到统一过程中的端到端方法。SCoT不是将它们视为独立步骤，而是将任务构建为一个单一的生成序列，模型首先生成表格的结构化文本表示（例如Markdown），然后在此基础上进行逐步推理（见图6）。这种方法使得在训练过程中可以同时优化感知和推理能力。为了进一步提高SCoT的识别能力，我们引入了七个表格结构理解（TSU）任务，例如表格大小检测和单元格提取。

我们在各种MLLMs上进行了广泛的实验，包括闭源模型（例如OpenAI o4-mini和Gemini 2.5 Pro）和开源模型（例如LLaVA [20]、Qwen2-VL [21]和MiniCPM-V [22]），在PCTR-16K和其他现有数据集上进行了测试。如图1所示，尽管人类在所有表格推理任务上的表现相似（>90%），但MLLMs在拍摄表格上的推理难度要大得多。相比之下，模型在基于文本或高质量渲染的表格上的推理表现相当甚至更优，这突显了创建拍摄表格推理数据集的重要性。为了证明我们提出的SCoT和七个多视图TSU任务的有效性，我们进行了全面的消融研究。结果显示，在具有挑战性的多模态条件下，表格感知和推理能力得到了显著提升。例如，LLaVA-Llama3.1在PCTR-16K基准测试中的准确率从44.58%提高到了64.11%。此外，我们的方法将LLaVA-Llama3.1和DeepSeek-VL的表格结构解析性能分别提高了7.43%和12.96%，至77.03%和93.22%。

我们的主要贡献可以总结如下：

•

我们首次开展了关于拍摄表格的多模态推理的全面研究，为研究设置和实际应用之间的差距架起了桥梁。

•

我们构建了一个专门的拍摄表格推理数据集PCTR-16K。它包含4,989张拍摄的中文表格和16,318个问题，涵盖九个主题和三个难度级别，为评估MLMMs在这项任务上的表现提供了全面的分析。

•

我们提出了一种结构感知链式思维（SCoT）方法，以增强MLMMs的表格推理能力。我们还在MLMMs的微调过程中引入了七个多视图表格结构理解（TSU）任务。

•

PCTR-16K基准测试揭示了闭源和开源MLMMs在现实场景中的显著性能差异。在各种MLMMs上的广泛实验验证了我们SCoT和TSU任务的有效性，展示了持续的改进，并提供了详细的失败模式分析，以指导未来的研究方向。

章节片段

表格识别

表格识别是计算机视觉和文档理解中的基本任务，涉及一系列子任务，包括表格检测、结构识别和内容提取。早期研究主要集中在从数字生成的文档（如PDF或HTML页面）中识别表格。PubTabNet [1]、FinTabNet [23]和TableBank [12]提供了用于表格检测和结构识别的大规模注释数据集，

数据集

在这项工作中，我们扩展了现有的表格识别数据集，以解决拍摄表格的多模态推理问题。现有的表格推理数据集主要关注文本表示（例如HTML、Markdown）或高质量渲染的图像，这些方法无法捕捉到现实世界场景的挑战。为了弥合这一差距，我们构建了Photographed Chinese Table Reasoning（PCTR-16K）数据集，其中包含拍摄的表格、相关问题和全面的

方法论

为了解决拍摄表格的多模态推理的复杂性，我们提出了两种协同策略：结构感知链式思维（SCoT）（§4.1）和七个多视图表格结构理解（TSU）任务（§4.2），专门用于增强多模态表格推理。我们的方法采用了一个端到端的学习框架，同时优化表格识别和推理，确保即使在具有挑战性的真实世界视觉场景下也能保持强大的性能。

实验设置

模型我们评估了各种闭源和开源MLMMs在PCTR-16K上的性能。闭源模型包括Gemini 2.5 Pro [38]和OpenAI o4-mini²。评估的开源模型包括MiniGPT-4 [39]、DeepSeek-VL [40]、Qwen-VL [41]、Qwen2-VL [21]、InternLM-XComposer (IXC) [42]、IXC 2 [43]、mPLUG-Owl2 [44]、mPLUG-DocOwl 1.5 [45]、LLaVA v1.5 [46]、LLaVA-Llama3.1、Vary-toy [47]、Monkey [48]和MiniCPM-V 2.6 [22]

局限性

尽管我们的工作有所贡献，但我们承认未来研究中需要解决几个局限性：

数据集分布不平衡我们的PCTR-16K数据集在多个维度上存在类别不平衡。数学问题约占数据集的70%，而其他主题（如地球科学和经济学）的代表性较低。同样，71.9%的问题被归类为简单问题，只有3.5%被归类为难题。这种不平衡可能会影响

讨论

在本节中，我们解释了实验结果的意义，并讨论了它们如何解决多模态表格推理的挑战。我们还概述了未来研究的方向。

结果解读我们的实验揭示了关于野外表格推理性质的四个关键见解。首先，最先进的MLMMs与人类表现之间存在显著差距。尽管人类在基准测试中的准确率接近完美（96.15%），即使是顶级闭源模型

结论

我们推出了PCTR-16K，这是首个专门针对拍摄表格的多模态推理的大规模基准测试集。通过模拟现实世界条件（如光照不均和视角扭曲），我们揭示了现有MLMMs的局限性。为了解决这个问题，我们提出了结构感知链式思维（SCoT）框架以及辅助的表格结构理解（TSU）任务。广泛的实验表明，我们的方法显著提高了感知和

未引用的引用

缺失的引用表格A.11。

CRediT作者贡献声明

康晓强：写作 – 审稿与编辑，撰写原始草稿，可视化，软件，资源，项目管理，方法论，调查，资金获取，正式分析，数据管理，概念化。王子木：写作 – 审稿与编辑。子晓晨：数据管理。金晓波：监督。黄开柱：监督。尹飞：监督。王秋风：写作 – 审稿与编辑，监督。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能影响本文所述的工作。

致谢

我们感谢所有匿名审稿人的宝贵意见。这项工作得到了国家自然科学基金（编号：62436009和62276258）、江苏省科技计划BK20251812、顶尖人才奖励项目（RDF-TP-0019）以及多模态人工智能系统国家重点实验室开放研究基金的支持。

联系信箱：

粤ICP备09063491号

摘要

引言