《Ain Shams Engineering Journal》:PsOCR: Benchmarking large multimodal models for optical character recognition in low-resource pashto language
编辑推荐:
为解决低资源语言光学字符识别(OCR)的数据稀缺与技术瓶颈,本研究针对普什图语(Pashto)构建了首个大规模合成数据集PsOCR,并系统评估了Llama、GPT-4o、Gemini等前沿大语言多模态模型(LMMs)的零样本(zero-shot)OCR能力。研究发现,Gemini表现最佳,开源模型中Qwen-7B脱颖而出,为提升类似波斯-阿拉伯文字脚本的OCR性能提供了关键见解和基准资源。
随着数字化转型的深入,将海量纸质和图片文档转化为可编辑、可检索的文本成为一项基础而关键的任务,这项技术便是光学字符识别(OCR)。对于英文、中文等高资源语言,OCR技术已相当成熟,准确率很高。然而,全球有超过7000种语言,其中许多“低资源语言”由于缺乏大规模标注数据,其OCR性能远不尽如人意。普什图语便是这样一个典型代表:作为阿富汗的官方语言和巴基斯坦的第二大语言,有超过5000万人使用,但其文字属于复杂的波斯-阿拉伯文字脚本家族。这种文字从右向左书写,字母在词中不同位置有不同形态,大量使用连字和变音符号,且词边界模糊。这些特性使得传统OCR引擎和依赖大量标注数据的深度学习方法在该语言上举步维艰。数据的极度稀缺,成为横亘在技术发展与实际应用之间的一道高墙。
为了打破这一僵局,来自华南理工大学智能制造研究院吴贤明智能製造学院的研究人员Ijazul Haq、Yingjie Zhang和Muhammad Saqib开展了一项开创性研究。他们意识到,合成数据是解决低资源语言数据荒的有效途径。于是,他们创造性地构建了名为“PsOCR”的大规模合成普什图语OCR数据集。这个数据集体量惊人,包含100万张图像,并提供了单词、行和文档三个级别的精细标注。为了模拟真实世界的复杂性,研究团队在数据生成中引入了前所未有的多样性:涵盖了1000种独特的字体家族、变化的字体大小(11-30px)、丰富的色彩方案(包括明暗主题,约6.6万种颜色组合)以及多种文档布局(如文本对齐方式、行高、内边距等)。如此庞大且多样的数据集,为训练和评估OCR模型提供了宝贵的资源。基于此,研究人员进一步精心策划了一个包含1万张图像的基准测试子集,用于系统评估当前最先进的大语言多模态模型在普什图语OCR上的零样本能力。
这项研究评估的模型阵容堪称“全明星”,包括四个开源模型:Meta的Llama-3.2-11B-Vision-Instruct、微软的Florence-2-large、以及阿里巴巴的通义千问Qwen2.5-VL的3B和7B版本;以及四个专有(闭源)模型:X-AI的Grok-2-vision、Anthropic的Claude-3-7-Sonnet、OpenAI的GPT-4o以及谷歌的Gemini-2.0-flash。所有评估均在零样本设置下进行,意味着模型未经任何针对普什图语的专门训练或微调,直接接受测试,以检验其固有的跨语言OCR潜力。
为了全面衡量模型性能,研究采用了双轨制评估指标。一方面是衡量转录精确度的传统OCR指标:字符错误率(CER)和词错误率(WER),数值越低越好。另一方面是衡量文本整体相似度的自然语言处理指标:BLEU、METEOR和词袋(BoW)相似度,数值越高越好。
实验结论清晰而富有启发性。在众多模型中,谷歌的Gemini展现了最强的零样本OCR能力,取得了最低的CER(0.10)和WER(0.31),以及在文本相似度指标上的最高分,综合表现最佳。在专有模型中,GPT-4o和Claude也表现出色。特别值得一提的是,在开源模型阵营中,阿里巴巴的通义千问Qwen-7B脱颖而出,其性能(CER 0.34, WER 0.73)甚至接近了一些专有模型,成为了开源领域的一个强劲基线。相比之下,Llama和Grok模型在本任务中错误率较高。所有模型都呈现出一个共同趋势:WER普遍高于CER,这揭示了即使字符识别相对准确,但在普什图语这种连笔书写、词边界模糊的语言中,正确分割和识别完整的单词仍然是更大的挑战。
这项研究的重要意义在于,它首次为低资源普什图语OCR建立了大规模公共数据集和系统化评估基准,填补了该领域的空白。它首次对主流LMMs在该任务上的零样本能力进行了横向对比,为研究者和开发者选择模型提供了关键依据。结果表明,当前的LMMs,尤其是Gemini和Qwen-7B,已经对波斯-阿拉伯文字脚本展现出了令人印象深刻的识别潜力,这为未来不依赖海量标注数据、利用大模型先验知识解决低资源语言OCR问题指明了新方向。该论文已发表在《Ain Shams Engineering Journal》上。
研究人员为开展此项研究,主要采用了以下几项关键技术方法:首先,通过整合Common Crawl网络爬虫数据、开源网站内容及既有文本资源,构建了大规模的普什图语文本语料库,并进行了清洗和分块预处理。其次,利用Python脚本将文本块自动转换为HTML页面,并通过随机应用层叠样式表(CSS)引入字体、颜色、大小、布局等多样性,再使用Selenium库渲染并截图,生成了100万张合成图像。最后,针对选定的七个LMMs(四个开源,四个专有),在零样本设置下通过精心设计的提示词(prompt)进行API调用或本地推理,使用字符错误率(CER)、词错误率(WER)及BLEU等多种指标,系统评估了它们在该合成数据集基准子集上的OCR性能。
研究结果
1. 模型性能对比
实验数据清晰揭示了各模型的表现差异。在转录准确性方面,Gemini以CER 0.10和WER 0.31位居榜首。GPT-4o(CER 0.30, WER 0.60)和Claude(CER 0.36, WER 0.67)紧随其后。在开源模型中,Qwen-7B表现最佳(CER 0.34, WER 0.73),而Qwen-3B、Florence和Llama依次递减。Grok模型错误率最高。文本相似度指标的结果趋势与此一致,Gemini同样获得最高分。这表明,在零样本设置下,专有模型总体优于开源模型,但Qwen-7B显著缩小了这一差距。
2. 深入结果分析
通过分析不同图像属性对模型性能的影响,研究获得了更细致的发现:
- •
图像属性影响:图像文件大小和宽高比的影响微乎其微。字体大小则有明确影响,所有模型在较大字体上表现更好。行高是影响最大的因素之一,过小的行间距(≤20px)会严重损害Qwen、Claude和GPT-4o等模型的性能。文本对齐方式影响不大,但符合普什图语从右向左书写习惯的“右对齐”和“两端对齐”略好于“左对齐”。文本长度对大多数模型影响较小,但GPT-4o在长文本上性能下降。主题(明/暗)和颜色对比度的影响不显著。
- •
字体家族的显著影响:字体多样性是影响OCR性能的最强因素。模型在不同字体上的表现波动很大,这凸显了字体变化是普什图语OCR面临的主要挑战之一。研究还对比了模型在表现最好的前十种字体上的性能。
研究结论与意义
本研究成功构建了首个面向低资源普什图语的大规模合成OCR数据集PsOCR及相应的评估基准,并首次系统评估了前沿LMMs在该任务上的零样本性能。核心结论是,谷歌的Gemini模型展现了最佳的零样本普什图语OCR能力,而开源的Qwen-7B模型是其中表现最出色的,为相关研究和应用提供了强大的开源基础。
研究的意义是多层次的。在实践层面,PsOCR数据集的发布极大缓解了该领域的数据稀缺问题,为开发与评估普什图语OCR模型提供了关键资源。在技术洞察层面,研究揭示了LMMs在处理复杂波斯-阿拉伯文字脚本时已具备显著的零样本潜力,特别是Gemini和Qwen-7B的表现,证明了通过利用大模型的多语言和多模态先验知识,可以绕过对语言特定标注数据的严重依赖,为低资源语言OCR提供了新的解决方案范式。同时,研究也明确了当前模型面临的挑战,如词错误率普遍高于字符错误率,以及对某些字体和过小行间距的敏感性,这为未来的模型改进指明了方向。
讨论部分指出了本研究的局限性,例如数据集仅包含合成文本、背景单一、未添加图像扭曲增强等,这可能会影响模型在真实复杂场景下的鲁棒性。基于这些工作,作者团队展望了未来的研究方向,包括开发普什图语视觉问答(VQA)数据集、构建大规模手写普什图语OCR数据集,以及在PsOCR数据集中增加更真实的背景图案和光照条件,以进一步提升数据集的真实性和模型的实用价值。这项工作为推进波斯-阿拉伯文字脚本乃至其他低资源语言的文档分析与理解奠定了坚实的基础。