
-
生物通官微
陪你抓住生命科技
跳动的脉搏
使用布局分析、光学字符识别(OCR)和生成式人工智能(Generative AI)自动化从大型报纸语料库中提取结构化数据
【字体: 大 中 小 】 时间:2026年03月14日 来源:Journal on Computing and Cultural Heritage
编辑推荐:
针对历史报纸数字化中的OCR和布局分析挑战,提出集成OCR、布局分析和生成式AI的解决方案,以《马赛快报》35,703期报纸为案例,实现船到达数据的高效提取与存储,F1分数达96%,但需进一步优化OCR技术。
此摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助发现内容、帮助读者评估其相关性,并协助来自相关研究领域的读者理解该研究。它旨在补充作者提供的摘要,后者仍是文章的官方摘要。完整文章才是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
要查看此由人工智能生成的通俗语言摘要,您必须具有高级访问权限。