AF-CANet：无需数据增强、基于课程设置的注意力机制UNet框架，用于少量样本文档布局分析

《Pattern Recognition Letters》：AF-CANet: Augmentation-Free, Curriculum-Guided Attention UNet Framework for Few-shot Document Layout Analysis

【字体：大中小】 时间：2026年05月11日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　Hadia Showkat Kawoosa|Sahana Rangasrinivasan|Srirangaraj Setlur|Puneet Goyal|Venu Govindaraju 美国纽约州布法罗市布法罗大学计算机科学与工程学院，邮编14260 摘要像素级文档布局分

Hadia Showkat Kawoosa|Sahana Rangasrinivasan|Srirangaraj Setlur|Puneet Goyal|Venu Govindaraju

美国纽约州布法罗市布法罗大学计算机科学与工程学院，邮编14260

摘要

像素级文档布局分析（DLA）是处理历史手稿和手写文献时的关键步骤，这些文献面临注释有限和类别严重不平衡等挑战。现有的少样本方法通常依赖于手工制作的数据增强和标准的语义分割模型。此外，缺乏预训练权重进一步限制了模型在多种 scripts 上的泛化能力。在本文中，我们提出了一种无需数据增强的、基于课程训练的注意力机制 U-Net 模型 AF-CANet，用于少样本 DLA。与依赖手工增强或大规模预训练的现有方法不同，AF-CANet 引入了高效扩张通道注意力（Efficient Dilated Channel Attention）模块来捕捉丰富的多尺度全局语义特征，并采用跨数据集的课程学习策略在有限监督下提升泛化能力。我们的模型在 DIVA-HisDB 基准测试中表现优于现有方法，分别在 F1 分数和 IoU 分数上实现了 8.96% 和 8.8% 的提升，且无需外部数据增强。全面的消融研究验证了各个组件的贡献。

引言

随着历史档案数字化程度的提高，文档图像分析（DIA）受到了广泛关注，因为人工检查既耗时又不切实际[1]。DIA 的一个基本预处理步骤是文档布局分析（DLA），它将文档页面分割成具有语义意义的区域，如正文、注释、装饰和背景[2]、[3]。DLA 在 DIA 流程中起着关键作用，特别是对于历史手稿，它为后续任务（如光学字符识别、文本行分割和自动转录[3]、[4]）提供了必要的结构信息。

历史文档的像素级 DLA 面临独特挑战，包括布局不规则、多位作者的贡献以及因墨水褪色和渗透造成的内容退化[5]。此外，这类文档的注释工作劳动强度大，通常需要专家知识，导致真实标记数据稀缺[6]、[7]。完全监督的深度学习方法在这种情况下往往表现不佳，因此少样本学习成为更实际的选择。在这种背景下，少样本方法旨在仅使用少量标注页面来学习有效的分割方法[8]。

尽管手写文档的少样本 DLA 相对较少被探索，但最近的研究显示出有希望的结果[9]、[10]。例如，许多方法引入了结合动态实例生成和分割细化的框架，以更好地利用有限标注的数据[6]、[9]、[10]。在此基础上，最近开发了新的基准测试来评估不同手稿的少样本 DLA 性能，突出了适应未见过的布局和退化程度的难度。

尽管取得了进展，现有方法仍存在关键局限性。它们通常依赖于手工制作的数据增强，这增加了复杂性并限制了模型在增强领域之外的泛化能力。此外，大多数方法依赖于为自然图像设计的标准分割模型，这些模型对于历史手稿不规则、杂乱的布局效果不佳。缺乏专为 DLA 定制的预训练权重进一步限制了它们在不同脚本和退化程度下的泛化能力。

为克服这些挑战，我们提出了一种无需数据增强的 U-Net 模型，该模型通过高效扩张通道注意力（EDCA）模块进行增强，并使用基于类别权重的 Dice 损失进行训练，以实现准确的像素级 DLA。为了提高模型在多种手稿风格下的泛化能力，我们引入了一种基于课程的训练策略，逐步在不同数据集之间传递知识。这种设计在不依赖外部增强的情况下捕捉了丰富的多尺度上下文，同时有效处理了类别不平衡和有限监督问题。

•
我们提出了 AF-CANet，这是一种无需数据增强、基于课程训练的注意力机制 U-Net，用于在少样本监督下进行像素级 DLA，有效解决了历史手稿中的关键问题，包括注释有限、类别不平衡和布局变化。
•
我们设计了 EDCA-UNet，这是一种增强了高效扩张通道注意力（EDCA）模块的 U-Net，该模块通过多尺度注意力捕捉全局上下文并强化空间信息特征。模型通过加权 Dice 损失进行优化，以解决类别不平衡问题。
•
我们引入了一种基于课程的训练策略，可以在不同数据集（CSG18、CSG863 和 CB55）之间传递知识，使模型在少样本监督下学习到可泛化的特征并提高性能。
•
我们在三个 DIVA-HisDB 基准测试中评估了我们的方法：少样本、多样本和二值化设置，结果显示相比基线有持续的性能提升。针对少样本设置的全面消融研究进一步验证了框架中每个组件的贡献。

本文的其余部分如下：第 2 节介绍相关工作，第 3 节描述方法论，第 4 节详细说明数据集和结果，第 5 节总结结论和未来工作。

章节片段

方法论

我们提出了 AF-CANet，它包括三个主要组件：(i) 增强了高效扩张通道注意力（EDCA）模块的 U-Net 变体 EDCA-UNet，用于捕捉丰富的多尺度语义特征；(ii) 为处理 DLA 中的强烈类别不平衡而设计的加权 Dice 损失（WDL）；(iii) 一种跨数据集的课程训练策略，以促进在不同文档类型间的更好泛化。最后，应用了一个细化步骤来进一步提高准确性。

数据集描述

我们在 DIVA-HisDB 数据集[24]上评估了我们的方法，这是一个具有挑战性的历史文档集合，用于 DLA 任务。该数据集包含来自三份中世纪手稿（CSG18、CSG863 和 CB55）的 150 张高分辨率标注页面，这些手稿具有多样的布局、行间注释和退化现象。每张页面被像素级划分为四个语义类别：正文、注释、装饰和背景。按照标准分组，每份手稿使用 2 张页面进行

结论与未来展望

在这项工作中，我们提出了一种无需数据增强的、基于课程训练的注意力机制 U-Net 模型 AF-CANet，用于在有限监督下进行像素级文档布局分析。通过结合高效扩张通道注意力和跨数据集的课程训练，该方法解决了历史文档中的类别不平衡、布局变化和注释稀缺问题。AF-CANet 在少样本设置中取得了有竞争力的性能，在某些情况下甚至优于现有方法，且无需依赖大量

未引用文献

表 5。

CRediT 作者贡献声明

Hadia Showkat Kawoosa: 撰写——原始草稿、可视化、验证、方法论、形式分析、数据整理、概念化。Sahana Rangasrinivasan: 撰写——原始草稿、验证、调查、形式分析、概念化。Srirangaraj Setlur: 撰写——审阅与编辑、验证、监督、软件资源、方法论、形式分析、概念化。Puneet Goyal: 撰写——审阅与编辑、验证、监督、概念化。Venu Govindaraju:

利益冲突声明

作者声明没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

摘要

引言