利用带边权重的图注意力网络进行局部和全局图建模,以实现手写数学表达式的识别

《Pattern Recognition》:Local and Global Graph Modeling with Edge-weighted Graph Attention Network for Handwritten Mathematical Expression Recognition

【字体: 时间:2026年03月05日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出一种基于图注意力机制的手写数学表达式识别新方法,通过Edge-weighted Graph Attention Mechanism(EGAT)整合节点和边特征,结合局部(LGM)和全局(GGM)图建模策略,将在线手写数学表达式识别转化为图结构标注任务,有效捕捉符号形状、空间关系及上下文信息,在CROHME数据集上显著提升符号检测、关系分类和整体表达式识别性能。

  
谢叶静|理查德·扎尼比|哈罗德·穆谢尔
法国南特大学,南特中央理工学院,法国国家科学研究中心(CNRS),LS2N,UMR 6004,南特,F-44300

摘要

在本文中,我们提出了一种基于图建模技术的新型手写数学表达式识别(HMER)方法。我们引入了一个端到端模型,该模型采用了一种加权图注意力机制(EGAT),旨在同时进行节点和边的分类。该模型有效地整合了节点和边的特征,有助于预测符号类别及其在数学表达式中的关系。此外,我们提出了一种针对局部(LGM)和全局(GGM)信息的笔画级图建模方法,将端到端模型应用于在线HMER任务,将识别问题转化为图结构中的节点和边标记任务。通过捕获局部和全局图特征,我们的方法确保了对表达式结构的全面理解。通过这些组件的结合,我们的系统在符号检测、关系分类和表达式级别识别方面表现出优越的性能。

引言

数学表达式(ME)[2]在科学研究、工程、教育等多个领域中至关重要。与结构化但直观性较差的编辑工具和标记语言(例如LaTeX)不同,手写数学表达式(HME)[3]对人类来说更友好,但由于书写风格和习惯的差异,机器识别起来更加困难。手写数学表达式识别(HMER)将手写数学内容转换为标记语言,以便于处理和渲染,具有广泛的应用潜力,但也面临重大挑战。与光学字符识别(OCR)[4]相比,HMER不仅需要处理手写的变异性,还需要处理数学符号的复杂二维结构。HMER可以分为在线模式和离线模式:离线数据来自扫描仪、相机或智能手机的静态图像,而在线数据是由数字设备(例如平板电脑、笔)捕获的时间轨迹序列,根据笔的按下和抬起事件进行分割。在这项工作中,我们专注于在线HMER,因为它保留了时间和笔画级别的细节,其中每个笔画的形状及其空间关系为识别提供了有价值的信息。与基于像素的离线数据相比,在线数据包含的信息较少,因此处理速度更快。
现有的HMER深度学习架构通常基于编码器-解码器模型,如图1上半部分所示,第2.1节提供了对其的全面回顾。这种结构未能充分利用数学布局中固有的图结构,使得捕捉和使用符号之间的关系变得困难。此外,它们在潜在空间中运行,而这个潜在空间与输入数据(如单个笔画)并不直接对齐。受这些限制的启发,我们进一步探索了基于图的HME表示方法,用于在线数据的端到端笔画级别识别,利用大规模的笔画级注释数据集[5],如图1下半部分所示。
图结构在HMER[6]中起着重要作用,因为输入的HME及其输出的ME表示都可以有效地建模为图结构,而图神经网络(GNNs)[7]非常适合处理图结构数据。特别是,ME表示可以表示为带有笔画级别注释的笔画标签图(SLGs)[8],其中节点对应于属于特定符号的笔画,边捕捉这些笔画之间的空间关系。与LaTeX等顺序标记语言相比,SLGs提供了明确的、可解释的表示,直接保留了二维布局。
在我们之前的工作[1]中,我们提出了一种笔画级图标记方法,该方法使用加权图注意力机制联合嵌入节点和边特征。与仅关注节点特征的传统方法不同,这种方法能够在单次迭代中统一预测节点和边的属性。实验表明,该模型有效地融合了特征并捕获了结构信息,尽管其在表达式级别的整体性能仍然有限。为了解决这个问题,在这项工作中,我们通过新的消息传递和特征融合策略改进了端到端模型,并结合了先进的优化技术,将图建模从局部扩展到全局级别。本文的主要贡献如下:
  • 我们通过集成融合的消息传递、消息连接、残差连接和辅助输出机制,增强了端到端模型,引入了加权图注意力机制(EGAT),专门用于节点和边的联合分类。
  • 在我们之前的局部图建模(LGM)基础上,我们扩展到了全局图建模(GGM),将EGAT应用于在线HMER作为图标记任务,从而利用了局部和全局图特征。
  • 我们对系统进行了详细评估,其在符号检测、关系分类和表达式级别识别方面取得了优异的性能。
  • 本文的其余部分组织如下。第2节回顾了HMER和图神经网络(GNNs)的相关工作。第3节介绍了所提出的方法论,包括基于EGAT的端到端模型(第3.1节)和HMER的笔画级图建模(第3.2节)。第4节报告了实验结果,第5节给出了结论。

    章节摘录

    相关工作

    在本节中,我们回顾了数学识别和图神经网络的相关工作。

    方法论

    如图1所示,我们的方法由两个主要组成部分构成。第3.1节介绍了一个通用的端到端图学习框架,该框架以包含节点和边特征的图作为输入。通过消息传递和特征融合,它可以在单次前向传递中预测所有节点和边的标签。第3.2节介绍了一种针对HMER的建模策略,其中HME表示为具有节点和边特征的图,真实标签也被重新表述为具有相同结构的图

    实验

    在本节中,我们展示了基于加权图注意力网络的端到端框架的实验结果。这包括用于局部图建模的LGM-EGAT和用于全局图建模的GGM-EGAT。

    结论

    在本文中,我们提出了一种用于在线HMER的新型笔画级图建模方法。通过将HMER转化为节点和边的联合分类任务,我们的方法有效地捕捉了局部结构依赖性和全局上下文。我们引入了一个端到端架构,促进了节点和边特征的深度融合,确保了数学表达式的连贯表示。在CROHME 2019和2023数据集上的实验结果表明了显著的性能提升

    CRediT作者贡献声明

    谢叶静:撰写——原始草稿、可视化、方法论、形式分析、概念化。理查德·扎尼比:撰写——审阅与编辑。哈罗德·穆谢尔:撰写——审阅与编辑、监督、概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号