利用检索增强生成技术和本地数据改进阿姆哈拉语法律问题回答系统

《Knowledge-Based Systems》:Improving Amharic legal question answering with Retrieval-Augmented Generation and locally-sourced data

【字体: 时间:2026年05月20日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  Elshaday Desalegn|Natanim Berhanu|Seble Hailu|Terefe Feyisa|Tewodros Legesse|Yonas Bekele|Yohannes Adigeh|Zinawork Assefa摘要检索增强生成(Retrieval-

  
Elshaday Desalegn|Natanim Berhanu|Seble Hailu|Terefe Feyisa|Tewodros Legesse|Yonas Bekele|Yohannes Adigeh|Zinawork Assefa

摘要

检索增强生成(Retrieval-Augmented Generation,RAG)作为一种提高大型语言模型(LLMs)事实依据的有效方法已经崭露头角,但在资源匮乏且形态复杂的语言中,其有效性仍需进一步研究。本文提出了专为阿姆哈拉语法律问答(Legal Question Answering,QA)设计的RAG框架RAG-C,该框架整合了语义分块、多语言上下文嵌入和高效的向量检索技术。
我们利用公开可获得的埃塞俄比亚联邦最高法院撤销判决(法律判例)构建了一个82.4 MB的阿姆哈拉语语料库,并补充了阿姆哈拉语维基百科和新闻资源。我们通过自动评估指标(RAGAS、F1、BLEU、EM)和人类评估,对500对问答数据进行了测试。RAG-C在所有评估维度上均表现出色,其中上下文相关性达到0.797,准确性达到0.833,F1分数达到0.772,优于BM25等传统基线和零样本语言模型。人类评估进一步证实了该模型在事实准确性(4.5/5)和整体质量(4.4/5)方面的提升。
我们的分析表明,嵌入质量是影响检索性能的关键因素,而语义分块技术有助于提高形态复杂文本中的上下文连贯性。我们还指出了检索深度、模型扩展性和延迟之间的关键权衡,并强调了与语料库覆盖范围和统计测试相关的局限性。
这些结果表明,精心设计的RAG流程能够显著提升资源匮乏语言中的问答性能,为在高资源环境之外构建可靠、基于事实的自然语言处理(NLP)系统提供了可扩展的途径。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号