HiTextSpotter:一种用于场景文本检测的层次关系图推理网络

《Knowledge-Based Systems》:HiTextSpotter: Hierarchical Relation Graph Reasoning Network for Scene Text Spotting

【字体: 时间:2026年05月07日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  李家良 | 徐灿辉 青岛科技大学信息科学与技术学院,中国山东省青岛市266061 **摘要** 作为一项基础任务,端到端文本检测旨在将文本检测和识别集成到一个统一的框架中。由于文本的多样性和背景噪声,这被认为是一个具有挑战性的任务。现有的文本检测方法使用实例级别的局部特征或

  李家良 | 徐灿辉
青岛科技大学信息科学与技术学院,中国山东省青岛市266061

**摘要**
作为一项基础任务,端到端文本检测旨在将文本检测和识别集成到一个统一的框架中。由于文本的多样性和背景噪声,这被认为是一个具有挑战性的任务。现有的文本检测方法使用实例级别的局部特征或整体级别的全局特征表示来进行文本检测,但没有捕捉到多个粒度之间的内在层次关系。从混合的角度来看,我们提出了一种新颖的层次关系图推理网络(HiTextSpotter)用于场景文本检测,以丰富不同粒度的文本表示并利用图结构捕捉层次关系。HiTextSpotter 包括全局和局部特征提取网络(GLFE)、多粒度图关系推理网络(MGRR)和任务预测头。GLFE 主要提取多粒度特征,包括来自具备可变形注意力机制的 Transformer 编解码器的全局级特征,以及通过 Top-K 贝塞尔中心曲线提议生成的细粒度局部文本实例级和组件级特征。在 MGRR 中,实例级图用于学习上下文信息及实例之间的关系,组件级图用于捕获几何属性以实现详细的表示。此外,引入了一个自适应门控融合模块来整合不同粒度的层次特征。最后,将这些增强后的特征输入 Transformer 解码器,其中可学习的显式点查询捕获文本语义和位置以获得最终结果。在三个公开可用的场景文本基准数据集 Total-Text、ICDAR 2015、SCUT-CTW1500 以及官方地图基准数据集 ICDAR24 MapText 上进行的广泛实验表明,我们的方法在检测和识别方面取得了优异的性能。

**引言**
众所周知,文本语义和关系对于理解各种实际应用场景(如自动驾驶、图像检索、社交媒体分析、地理和历史研究 [1]、[2]、[3]、[4]、[5]、[6]、[7]、[8])至关重要。过去几十年中,人们一直在研究文本检测和识别技术,即文本检测器。由于文本在大小、纵横比、字体风格、视角 distortion 和形状等方面的多样性 [9],在无约束条件下进行文本检测仍然具有挑战性。尽管许多早期工作依赖于启发式规则和特定的手工制作的特征进行文本检测 [10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18],但流程的复杂性和不灵活性限制了其在场景文本领域的应用 [3]。
在深度学习研究中,大多数传统的文本检测方法遵循检测-识别范式,大致可分为两类:自下而上方法和自上而下方法。由于自下而上方法具有同质性和局部性的特点 [19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29],它们与一般对象检测不同,专注于组件级粒度,首先生成子文本的密集预测图,然后根据哪些组件属于同一个文本实例将它们组合在一起 [3]。这些方法对子文本组件的属性和文本的几何分布非常敏感。相比之下,自上而下方法 [2]、[9]、[30]、[31]、[32]、[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40]、[41] 在实例级别预测整个文本,提取文本对象的整体上下文信息。检测后,这两种方法都需要额外的连接器(如感兴趣区域 (RoI) 操作)来进行特征对齐。ABC-Net [35] 将贝塞尔曲线引入场景文本检测领域,以处理任意形状的场景文本,从而提高了检测的准确性。
得益于 DEtection TRansformer (DETR) 在对象检测方面的显著改进,类似 DETR 的文本检测方法 [42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]、[51] 可同时完成文本检测和识别,无需额外的连接器。为了应对任意大小场景文本的普遍性,类似 DETR 的框架采用了可变形注意力机制进行多尺度卷积特征图的处理。具体来说,TESTR [45] 为检测和识别任务分别使用两个解码器。为了更好地协调这两个任务,DeepSolo [46] 让点查询收集语义和位置信息,实现了最先进的性能。最近的类似 DETR 的研究从多个角度引入了创新 [1]、[47]、[50]、[51]、[52],包括增强的协调机制、粗粒度到细粒度的学习、去噪训练策略和自适应阅读顺序建模。回顾以往的文本检测器,它们都是基于单一粒度预测位置和内容的。具体来说,自下而上方法在子文本组件粒度上定位文本,这种细粒度的检测单元使模型对文本的几何分布非常敏感。此外,组件级单元可以组装成文本实例级别的粒度。自上而下方法主要关注实例级别,能够更好地表示整体上下文信息。而大多数最新的类似 DETR 的方法在全局图像特征上检测文本实例。因此,利用来自实例和组件的个别或部分上下文或利用全局特征的整体信息都非常重要。基于上述观察,我们期望模型能够利用不同粒度尺度之间的内在结构关系和固有上下文信息。与单粒度建模方法相比,多粒度建模架构在系统地研究三个不同抽象层次(即全局语义、实例表示和组件特征)之间的层次内在关联和协同作用方面表现出更强的能力。具体来说,我们建议利用组件级特征来构建子文本单元的复合表示,同时使用实例级嵌入通过结构化语义建模建立文本间的关系模式。此外,全局级特征用于通过整合上下文信息来进行整体场景推理。这种层次框架使不同粒度能够协同补偿单个粒度层次上的信息稀缺性。值得注意的是,Glass [53] 从共享的骨干网络中提取全局特征,并从高分辨率词区域图像中单独计算局部特征,但它可能忽略了不同实例之间的内在交互。HGR-Net [54] 从混合角度出发,利用了实例和组件级别的文本属性和交互作用,但缺乏从注意力机制进行全局场景推理的能力。受上述问题的启发,多粒度模型应如图 1 所示进行设计。理想情况下,一个层次架构包括三个关键组成部分:全局上下文感知、实例关系探索和组件部分表示。受 DRRG [28] 的启发,图卷积网络被应用于执行关系推理,并因其天生适合推断图上节点之间的关系而具有优势。
在本文中,我们提出了一种新颖的统一层次关系图推理网络(HiTextSpotter)用于场景文本检测,它不仅在不同层次提取全面的特征表示,还采用多粒度图学习器进行独立且稳健的交互建模。HiTextSpotter 架构包括两个关键子网络:全局和局部特征提取网络(GLFE)和多粒度图关系推理网络(MGRR),以及任务预测头。首先,GLFE 使用共享的多尺度卷积特征图从 Transformer 编解码器中提炼全局级特征,关注整体上下文。它还通过 Top-K 贝塞尔提议提取局部文本实例级特征,以及细粒度组件级特征来表示部分信息。这种多级视觉表示可能有助于加深对文本图像结构的理解。然后,MGRR 由三个关键组件组成:实例关系图学习模块、组件级图学习模块和自适应门控融合模块。具体来说,实例级图用于捕获文本间关系和上下文属性,而组件级图关注文本内的空间几何信息。为了特征融合,引入了一个动态自适应门控融合机制,以便无缝整合这些不同的特征。最后,层次特征被输入到一个 Transformer 解码器中,使可学习的显式查询能够学习位置和语义信息以实现最终预测。

**结论**
本文的贡献可以总结如下:
• 我们提出了层次关系图推理网络(Hierarchical Relation Graph Reasoning Network),这是一种新颖的端到端可训练网络,用于文本检测,它在场景文本和地图文本基准测试中展示了多粒度特征建模的有效性。
• 全局和局部特征提取网络(GLFE)生成层次特征以实现内在的上下文表示。具体来说,从共享的多尺度特征图中提取的层次特征包括整个图像的全局特征、文本区域的个别实例级特征以及表示子文本部分空间信息的细粒度组件级特征。
• 多粒度图关系推理网络(MGRR)设计了用于文本间关系的实例关系图学习模块和用于几何和空间属性的组件级图学习模块。然后,多个层次的特征被自适应和动态地融合。

**相关工作**
文本检测和识别任务有着悠久的研究历史。深度学习时代之前的研究主要依赖于特征设计 [3]。在检测方面,大多数研究使用连接组件分析(CCA)[10]、[11]、[12]、[13] 或基于滑动窗口(SW)的分类 [15]、[16]、[17]、[18]。基于 CCA 的方法最初通过多样化的技术(如颜色聚类或极端区域检测)来细化候选组件。随后,非文本...

**方法论**
我们的 HiTextSpotter 包括三个不同的流水线,包括全局和局部特征提取网络(GLFE)、多粒度图关系推理网络(MGRR)和任务预测头。此外,所提出的架构如图 2 所示。在 GLFE 中,接收到多尺度特征图后,集成特征提取模块提取层次特征表示。具体来说,全局表示由带有多尺度特征的 Transformer 编解码器编码。

**实验**
我们进行了一系列综合实验来评估所提方法的有效性。这些实验是在历史地图数据集 ICDAR24 MapText [8] 以及三个场景文本数据集上进行的,包括任意方向的数据集 ICDAR 2015 (IC15) [67] 和两个任意形状的数据集 SCUT-CTW1500 [68] 和 Total-Text [69]。

**结论**
我们提出了 HiTextSpotter,这是一种新颖的端到端可训练的文本检测框架。与以前的方法不同,我们的 HiTextSpotter 不仅通过多粒度特征提取模块生成不同粒度的特征,还利用图卷积在多粒度图关系推理模块中对这些特征进行建模。具体来说,实例级图学习所有文本实例之间的关系,从而避免了重复注意力和遗漏的问题。

**作者贡献声明**
李家良:撰写 – 原稿、软件、方法论、数据整理。
徐灿辉:撰写 – 审阅与编辑、资源管理、项目协调、资金获取。

**利益冲突声明**
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

**致谢**
本工作部分得到了中国国家自然科学基金(项目编号 62471272、61806107 和 62201314)以及数字出版技术国家重点实验室开放项目的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号