基于图的 radicals 结构树表示方法在零样本汉字识别中的应用
《Pattern Recognition》:Graph-based radical structure tree representation for zero-shot Chinese character recognition
【字体:
大
中
小
】
时间:2026年02月23日
来源:Pattern Recognition 7.6
编辑推荐:
零样本中文字符识别中,本文提出基于图结构的偏旁结构树表示(GRSTR)方法,通过构建自上而下的有向偏旁结构树增强结构感知,设计方向感知位置编码解决位置模糊问题,结合图神经网络(GNN)实现字符的 canonical 表示,并在四个基准数据集上验证其有效性。
董永生|吴博辉|马金文|李学龙
河南科技大学信息工程学院,洛阳,471000,中国
摘要
表意描述序列(IDS)被广泛用于零样本中文字符识别。然而,现有的基于IDS的方法无法有效捕捉 radicals(部首)和结构组件之间的内在关系。为了解决这个问题,本文提出了一种基于图的 radicals 结构树表示(GRSTR)方法用于零样本中文字符识别。具体来说,我们首先构建了一个自上而下的有向 radicals 结构树,以增强中文字符中 radicals 级别表示的结构意识。此外,我们提出了一种方向感知的位置编码方法,用于 radicals 结构树,以更好地区分同一子树内节点之间的空间关系,并减少由于缺乏方向线索而产生的位置歧义。最后,我们在四个现有的基准数据集上进行了实验:手写中文字符、场景中文字符、印刷艺术中文字符和古代中文字符。实验结果表明,我们提出的 GRSTR 在零样本中文字符识别任务上的性能优于几种代表性方法。
引言
零样本中文字符识别(ZCCR)[1] 近年来受到了越来越多的关注,并在各种实际应用中发挥着重要作用。随着深度学习的发展,中文字符识别技术也受到了广泛关注。根据国家标准 GB 18030-20221,总共有 87,887 个中文字符,尽管其中大多数字符很少使用。只有大约 3,755 个字符是常用的,这些字符通常足以满足日常交流的需要。由于许多中文字符使用频率较低,因此很难收集相应的训练数据。大量的字符类别和少量的样本使得中文字符识别变得具有挑战性。尽管高性能的生成模型可以根据标准印刷模板合成中文字符,但生成复杂字符仍可能引入人工痕迹或无法完全捕捉到稀有字符的结构细微差别。ZCCR 仍然是一个有意义的研究方向。它使模型能够在不需要大量训练数据的情况下识别未见过的字符。使用大型数据集进行训练会增加计算成本和训练开销。
传统的中文字符识别方法[2] 仅限于预测训练集中存在的类别。这种限制降低了模型的泛化能力。为了克服传统中文字符识别的局限性,最近的研究采用了[1]中的方法,通过将中文字符分解为更基本的元素来结合辅助信息。利用辅助信息有助于处理未见过的字符类别。辅助信息可以分为三类: radicals 信息[3]、[4]、[5]、笔划信息[6]、[7]和字形信息[8]、[9]、[10]。在这些方法中,基于字形信息的方法通常具有最高的识别准确率,其次是基于 radicals 的方法。然而,在古代字符识别的背景下,获取古代中文字符的标准化字形[11]、[12]往往很困难。虽然基于笔划的方法也与字形无关,但它们的准确率相对较低,这限制了它们的应用。相比之下,基于 radicals 的方法虽然通常不如基于字形的方法准确,但提供了一个有前景的替代方案。它们不依赖于字形的可用性,只需要将字符预先分解为 radicals。这使得它们特别适合于识别字形数据稀缺或不可用的古代字符。因此,为了开发一种适用于现代和古代中文字符的字符识别方法,我们采用了 radicals 信息作为我们提出的 GRSTR 的基础。
许多研究人员广泛利用 radicals 信息来开发中文字符识别方法。Wang 等人[13]引入了一个具有密集连接架构的 radicals 分析网络,称为 DenseRAN。它将字符图像解码为 radicals,标志着向结构表示迈出的重要一步。Yu 等人[14]提出了一个类似于对比语言-图像预训练(CLIP)的框架,该框架有效地将字符图像与其对应的表意描述序列(IDS)表示(CCR-CLIP)对齐。然而,CCR-CLIP 使用 Transformer[15]和前瞻性掩码来编码 IDS,这忽略了中文字符内部组件之间的结构依赖性。Formation Tree-Clip(FT-CLIP)[16]通过将 IDS 模拟为层次树来解决这一限制,其中每个 radicals 被视为一个叶节点。信息向上传播到根节点,形成全面的字符级嵌入。尽管 FT-CLIP 捕捉到了 radicals 和结构关系,但其自下而上的聚合过度强调了结构组件,从而淡化了单个 radicals 的语义贡献。因此,零样本中文字符识别(ZCCR)的一个关键挑战是有效捕捉 IDS 中 radicals 和结构组件之间的复杂关系。
近年来,图神经网络(GNNs)在中文字符表示领域展示了巨大的潜力。例如,Formation Graph Attention Network(FGAT)[17]首次使用图注意力网络(GAT)[18]来提取字符表示,以用于下游任务。Chinese Heterogeneous Graph Attention(CHGAT)[19]通过将中文字符和拼音信息结合到 GAT 框架中,进一步推动了这一方向的发展,从而显著提高了性能。受这些进展的启发,我们研究用 GNNs 替换基于 Transformer 的编码器来捕捉更丰富的结构特征,旨在学习中文字符的规范表示。
为了克服有效捕捉 IDS 中 radicals 和结构组件之间复杂关系的挑战,我们提出了一种基于图的 radicals 结构树表示(GRSTR)方法用于零样本中文字符识别。我们使用 IDS 将中文字符转换为树结构。在这种结构中,根节点和非叶节点代表字符的结构组件,而叶节点代表 radicals。为了更好地捕捉 radicals 和结构信息之间的关系,我们提出了一个自上而下的有向 radicals 结构树。这种架构使得结构信息能够在图神经网络中从非叶节点传播到叶节点,从而将结构特征融入 radicals 并增强 radicals 级别特征的结构意识。为了验证自上而下的有向 radicals 结构树的有效性,我们进行了消融研究,比较了自上而下的有向 radicals 结构树与自下而上和双向 radicals 结构树。一些中文字符具有相同的结构组成,但 radicals 的相对位置不同。为了解决这种位置变化引起的歧义,我们提出了一种方向感知的位置编码方法,以区分具有相同根和 radicals 组成但方向不同的子树。此外,由于不同层次级别的节点贡献了不同类型的信息,我们设计了一种层次感知的位置编码方法,以充分利用这种差异。为了探索这两种位置编码方法中哪种更好,我们进行了消融研究,比较了方向感知的位置编码和层次感知的位置编码。我们将带有位置编码的自上而下的有向 radicals 结构树输入到基于 GNN 的树编码器中,以获得中文字符的规范表示。在训练过程中,我们使用对比损失来优化模型,通过将中文字符的规范表示与其通过图像编码器获得的相应视觉特征表示进行比较。在推理过程中,我们首先通过树编码器获取所有候选中文字符的表示。对于每个输入字符图像,我们计算其视觉特征与所有候选规范表示之间的相似度得分,得分最高的候选者即为识别结果。实验结果表明,我们提出的 GRSTR 在多个数据集上取得了有竞争力的性能。
我们的主要贡献总结如下:
•我们提出了一种基于图的 radicals 结构树表示(GRSTR)方法用于零样本中文字符识别。我们提出的 GRSTR 基于中文字符的 IDS 构建图形,并利用 GNNs 获得规范的字符嵌入。由此产生的表示通过更有效地捕捉 radicals 和结构信息来提高 ZCCR 的性能。
•我们提出了一种自上而下的有向 radicals 结构树。它使得结构信息可以通过 GNNs 中的有向消息传递从高级节点流向低级节点。这种设计提高了 radicals 级别表示的结构意识。
•我们提出了一种方向感知的位置编码方法,用于模拟同一子树内节点之间的相对空间关系。这种编码有助于 GNNs 区分结构相似但在空间上不同的配置,从而提高模型学习细粒度结构差异的能力。
•广泛的实验表明,我们提出的 GRSTR 通过获得中文字符的规范表示来提高 ZCCR 任务的识别准确率。
相关工作
相关工作
随着深度学习的发展,基于深度学习的识别方法迅速进步。多列深度神经网络(MCDNN)[20] 继承了八个模型,使用 CNNs 进行中文字符识别,并在手写字符识别方面实现了超越人类水平的性能。在 [21] 中,设计了一种实例损失,以更严重地惩罚异常实例并基于难度减少分类方差,从而提高了相关字符的识别效果
方法论
在本节中,我们描述了我们提出的用于零样本中文字符识别的 GRSTR 的详细信息。我们首先描述了 GRSTR 的整体框架,然后介绍了自上而下的有向 radicals 结构树,最后介绍了方向感知的位置编码。
实验
在本节中,我们评估了我们提出的 GRSTR 在零样本中文字符识别任务中的表现,并将其与几种代表性方法进行了比较,以展示其有效性。我们首先介绍了实验设置,然后对未见过的和见过的字符识别任务进行了比较,最后进行了消融研究并提供了详细讨论。
结论
在本文中,我们提出了一种基于图的 radicals 结构树表示(GRSTR)方法,用于 ZCCR,利用中文字符内部的固有结构关系。通过研究 radicals 结构树中节点的方向性,我们提出了三种类型的有向 radicals 结构树。实验结果表明,自上而下的有向 radicals 结构树取得了最佳性能。为了提高 radicals 中节点之间的信息传输效率
CRediT 作者贡献声明
董永生:写作——审阅与编辑、资源、方法论、调查、形式分析、概念化。吴博辉:写作——原始草稿、验证、方法论、调查、形式分析、数据管理。马金文:写作——审阅与编辑、方法论、调查、形式分析、概念化。李学龙:写作——审阅与编辑、方法论、调查、形式分析、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系,这些利益或关系可能会影响本文报告的工作。
致谢
本工作部分得到了中国国家自然科学基金(项目编号 62471175)和河南省自然科学基金(项目编号 232300421023)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号