利用检索增强生成技术和本地数据改进阿姆哈拉语法律问题回答系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Improving Amharic legal question answering with Retrieval-Augmented Generation and locally-sourced data

【字体：大中小】 时间：2026年05月20日 来源：Knowledge-Based Systems 7.6

编辑推荐：

摘要

检索增强生成（Retrieval-Augmented Generation，RAG）作为一种提高大型语言模型（LLMs）事实依据的有效方法已经崭露头角，但在资源匮乏且形态复杂的语言中，其有效性仍需进一步研究。本文提出了专为阿姆哈拉语法律问答（Legal Question Answering，QA）设计的RAG框架RAG-C，该框架整合了语义分块、多语言上下文嵌入和高效的向量检索技术。

我们利用公开可获得的埃塞俄比亚联邦最高法院撤销判决（法律判例）构建了一个82.4 MB的阿姆哈拉语语料库，并补充了阿姆哈拉语维基百科和新闻资源。我们通过自动评估指标（RAGAS、F1、BLEU、EM）和人类评估，对500对问答数据进行了测试。RAG-C在所有评估维度上均表现出色，其中上下文相关性达到0.797，准确性达到0.833，F1分数达到0.772，优于BM25等传统基线和零样本语言模型。人类评估进一步证实了该模型在事实准确性（4.5/5）和整体质量（4.4/5）方面的提升。

我们的分析表明，嵌入质量是影响检索性能的关键因素，而语义分块技术有助于提高形态复杂文本中的上下文连贯性。我们还指出了检索深度、模型扩展性和延迟之间的关键权衡，并强调了与语料库覆盖范围和统计测试相关的局限性。

这些结果表明，精心设计的RAG流程能够显著提升资源匮乏语言中的问答性能，为在高资源环境之外构建可靠、基于事实的自然语言处理（NLP）系统提供了可扩展的途径。

联系信箱：

粤ICP备09063491号

摘要

热点排行