SEADUNet:一种利用EMCAM注意力机制和SCP进行多语言古代文献图像二值化的方法
《ACM Transactions on Multimedia Computing, Communications, and Applications》:SEADUNet: A Multilingual Ancient Document Image Binarization using EMCAM Attention Mechanism and SCP
【字体:
大
中
小
】
时间:2026年03月16日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
针对多脚本古文档图像二值化的挑战,提出SEADUNet模型,结合多尺度卷积注意力特征融合模块和空间通道重建卷积技术,在MADIBD2024-16数据集上取得F-Measure 95.54%等优异性能,验证了其高效性和泛用性。
摘要 AI摘要要查看此由AI生成的摘要,您必须具有高级访问权限。
摘要 摘要 作为历史和文化研究的宝贵资源,古代手稿亟需进行数字化处理并采取保护措施,以应对纸张老化、墨水褪色和物理损坏等退化威胁。光学字符识别(OCR)是古代手稿数字化的重要保护方法,而降噪和二值化处理对识别准确性有着显著影响。多语言古代文献图像的二值化面临诸多挑战,包括保存介质的多样性、不当的存储方式、不同语言之间的书写风格差异以及噪声的复杂性。为了解决这些问题,本文提出了一种名为SEADUNet的新二值化方法,该方法将多尺度卷积注意力特征融合模块(EMCAM)与空间-通道重构卷积技术无缝结合。该技术利用独特的多尺度深度卷积块显著增强特征映射效果,同时关注图像中的重点区域。EMCAM模块通过使用组卷积和深度卷积,展现出高效性和良好的可扩展性。为了推动这一领域的研究进展,多语言古代文献图像二值化数据集(MADIBD2024-16)收录了3,200对标注图像,涵盖16种不同的历史文字,训练集与测试集的比例为8:2,为评估文档二值化算法提供了标准化的基准。实验结果表明,该方法在新建立的数据集上实现了95.54%的F-Measure(FM)、95.98%的伪F-Measure(p-FM)、20.67分贝的峰值信噪比(PSNR)以及2.59的互易失真度(DRD)。与传统方法和前沿技术相比,该架构在处理多语言古代文献图像的二值化方面表现出色。此外,对其他古代文字二值化数据集的额外验证也证明了该架构的通用性和实用性。
AI摘要AI生成的摘要(实验结果) 此摘要是通过自动化工具生成的,未经过文章作者的撰写或审核。它旨在辅助发现、帮助读者评估文章的相关性,并帮助相关领域的读者理解研究内容。它是对作者提供的摘要的补充,作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多 。
点击此处 对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
要查看此由AI生成的通俗语言摘要,您必须具有高级访问权限。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号