《Engineering Applications of Artificial Intelligence》:Towards neural-symbolic grammatical inference for endangered languages using integrating graph neural networks and instruction-tuned language models
编辑推荐:
濒危语言语法推断的神经符号方法结合图神经网络与指令微调BERT,解决低资源语言数据不足和黑箱问题,实验在AlexEBall数据集上准确率达99.01%,优于传统方法。
马努·辛格(Manu Singh)|尼哈·古普塔(Neha Gupta)|希瓦·泰亚吉(Shiva Tyagi)|阿希玛·拉尼(Ashima Rani)|维诺德·库马尔(Vinod Kumar)|苏尔比·夏尔玛(Surbhi Sharma)
印度北方邦加济阿巴德ABES工程学院计算机科学与工程系,邮编201009
摘要
濒危语言的快速消失对文化保护和语言多样性构成了严峻挑战。传统的语法归纳技术由于可用的标注数据有限而难以有效处理这类语言。为了解决这些问题,本研究提出了一种基于神经符号人工智能(AI)的语法推理框架。该框架将图神经网络(GNN)与指令调优的语言模型相结合,用于资源匮乏语言中的AI驱动语法归纳。该框架利用少样本关系图卷积网络(FS-R-GCN)将语法错误的文本转换为关系图,然后通过Transformer(BERT)AI模型的指令调优双向编码表示来处理这些图表示及原始错误句子,从而生成语法正确的替代方案。这种指令调优的语言模型通过识别语法不一致性并为BERT模型提供结构指导来辅助推理过程。在AlexEBall/Endangered_Languages_Capstone_Proj_1数据集上的实验结果表明,与现有方法相比,所提出的方法在准确率(99.01%)、精确度(98.70%)和F1分数(98.00%)方面均有显著提升。
引言
语法规律的自动学习,也称为语法推理,是自然语言处理(NLP)的核心问题(Zhong和Yue,2022)。尽管在英语等资源丰富的语言方面取得了进展,但对于濒危语言而言,这仍然是一个重大挑战。由于缺乏数字资源、标准化脚本和标注语料库,传统语法归纳方法的应用受到严重限制,因为预计全球7000种语言中有一半将在本世纪内消失(Qin,2022)。传统的语法推理技术可以分为三类:基于规则的算法、统计算法和基于深度的算法。基于规则的系统依赖于以语言形式表达的显式规则(Zhang,2022),这些方法易于解释,但缺乏灵活性,难以适应多种语言系统。统计模型利用概率和共现趋势来归纳语法规则(Isaak,2023;Li等人,2020),但这类模型在资源匮乏的环境中表现不佳。
相比之下,基于深度的方法依靠词向量嵌入来设计深度学习(DL)框架,以统一的方式纠正文本错误,无需针对特定错误类型进行定制(Song和Shan,2025)。这一范式已在几乎所有语法相关评估中取得了基准级别的成绩(Barbadilla-Martínez等人,2025)。先前的神经架构进展,特别是循环神经网络(RNN)(Alkhammash等人,2024)及其长短期记忆版本(LSTM)(Barbadilla-Martínez等人,2024),已经展示了捕捉语言结构内在序列依赖性的能力。最近,基于Transformer的架构在语法错误纠正、句法分析和机器翻译方面超越了早期方法(Mei等人,2024;Sun等人,2025)。然而,DL模型对数据需求量大,往往像“黑箱”一样难以理解,无法提供对语言学研究和保护至关重要的可解释性语法洞察(Wu和Liang,2024;Eyraud和Ayache,2024)。
为克服这些局限性,神经符号语法推理应运而生。这种方法结合了符号系统的结构化、规则驱动的透明性与神经网络的表示能力(Allman等人,2025;D'Angelo和d'Aloisio,2024)。像自动机理论和无上下文语法这样的符号形式化方法允许在不知道解决方案的情况下系统地、清晰地处理已知问题(Guan等人,2024)。相比之下,神经模型在从原始数据中提取分布式表示方面表现出色(Imran等人,2024)。然而,神经模型仍存在显著局限性,例如需要大规模标注数据,而这对于濒危语言来说往往不可获得;同时,符号系统在处理噪声或非结构化输入时缺乏灵活性(Magalh?es等人,2023)。此外,大多数现有框架都是为资源丰富的语言设计的(Ali等人,2025;Christian,2025),因此本研究提出了一种针对濒危语言的神经符号语法推理框架,将图神经网络(GNN)与指令调优的语言模型相结合。所提出的方法利用GNN在建模关系和层次依赖性方面的优势,以及指令调优的LLM的自适应泛化能力,以克服数据稀缺问题,提高语法推理的可解释性和鲁棒性。该方法的主要贡献包括:
?提出了一种结合GNN和指令调优语言模型的语法推理框架。
?开发了一种FS-R-GCN模型,用于将语法错误的文本转换为捕捉句法依赖性和词元级关系的结构化关系图。
?使用一组指令调优的BERT模型。该模型接受原始错误句子和结构指导作为输入指令,基于其预训练的知识和精细调整的语法纠正能力推荐语法正确的替代方案。
?这种混合方法确保即使是资源匮乏的语言模式也能通过关系图解析有效捕获。同时,指令调优的BERT模型利用先进的上下文意识对短语进行优化和纠正。
本文结构如下:第2节详细回顾了该领域的现有技术;第3节描述了所提出的方法;第4节提供了结果和讨论;第5节总结了主要发现,并指出了未来研究的方向。
相关研究
基于语法错误纠正(GEC)和基于语法的推理的最新研究可以大致分为四个方向:以数据为中心和合成方法、基于语法的归纳学习、可解释的和上下文感知的GEC,以及多语言和特定语言的框架。
提出的方法
在加速语言灭绝的背景下,保护濒危语言是当务之急。神经符号语法推理通过结合神经网络的模式识别能力和符号方法的可解释性及规则基础清晰度,提供了一种有前景的方法。这种混合范式使得从有限的语言输入中自动学习语法结构成为可能。即使是稀疏的语言样本也能被系统地转换
结果与讨论
结论
本研究提出了一种神经符号语法推理模型,该模型结合了少样本关系图卷积网络和指令调优的BERT模型,用于处理濒危语言和资源匮乏语言的语法问题。该框架生成错误句子的关系图,并通过指令驱动的微调改进语法结构,生成正确且符合上下文的替代方案。实验分析表明
CRediT作者贡献声明
马努·辛格(Manu Singh):撰写——审稿与编辑、调查、资金获取、形式分析。尼哈·古普塔(Neha Gupta):软件开发、资源管理、项目协调。希瓦·泰亚吉(Shiva Tyagi):可视化、验证、方法论。阿希玛·拉尼(Ashima Rani):项目协调、方法论、形式分析、数据管理。维诺德·库马尔(Vinod Kumar):软件开发、方法论、资金获取。苏尔比·夏尔玛(Surbhi Sharma):初稿撰写、验证、软件开发。
资金信息
本手稿的撰写未获得任何资助。
利益冲突声明
不存在利益冲突。