使用布局分析、光学字符识别(OCR)和生成式人工智能(Generative AI)自动化从大型报纸语料库中提取结构化数据

【字体: 时间:2026年03月14日 来源:Journal on Computing and Cultural Heritage

编辑推荐:

  针对历史报纸数字化中的OCR和布局分析挑战,提出集成OCR、布局分析和生成式AI的解决方案,以《马赛快报》35,703期报纸为案例,实现船到达数据的高效提取与存储,F1分数达96%,但需进一步优化OCR技术。

  
要查看此由人工智能生成的摘要,您必须具有高级访问权限。

摘要

摘要

历史报纸是宝贵的资源,它们记录了当时的文化、社会、经济和政治状况,为了解过去的事件和日常生活提供了独特的视角。然而,由于传统研究方法的局限性(这些方法依赖于对单个页面或文章的手动检查),这些档案的潜力尚未得到充分利用。数字档案通过提高可访问性开始解决这一问题,但缺乏有效的工具来解析和分析内容,仍然限制了它们在大规模历史研究中的实用性。光学字符识别(OCR)技术在将扫描图像转换为可搜索文本方面发挥着基础性作用。然而,仅靠OCR无法充分处理历史报纸的复杂性,因为历史报纸通常具有质量下降的图像、不一致的排版和复杂的布局。同时,有效地分割和排序报纸内容对于从特定报纸部分生成结构良好且逻辑清晰的数据至关重要。本文重点介绍了一个解决这些挑战的流程的开发,以每日报纸《Le Sémaphore de Marseille》(1827年至1944年期间的35,703期)作为案例研究。所提出的系统结合了布局分析、OCR和基于生成式人工智能的信息提取技术,从扫描图像中提取特定数据元素(如船舶到港数据),并将它们存储在机器可读的格式中以供进一步分析。这种结构良好的输出使历史学家能够更高效地分析历史贸易模式、经济趋势和地区互动,并且范围更广。对关键流程组件的评估显示了该系统的有效性,在段落分割和信息提取方面达到了96%的F1分数,同时也指出了OCR组件需要进一步改进的地方。

人工智能摘要

人工智能生成的摘要(实验性)

此摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现内容、帮助读者评估其相关性,并协助来自相关研究领域的读者理解该研究。它旨在补充作者提供的摘要,后者仍是文章的官方摘要。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由人工智能生成的通俗语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号