MAFQA：面向多步推理的阿拉伯教法问答应答基准数据集构建与评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Data》：MAFQA: A Dataset for Benchmarking Multi-Hop Arabic Fatwa Question Answering Manal Ali Al-Qahtani, Bader Fahad Alkhamees and Mourad Ykhlef

【字体：大中小】 时间：2026年03月21日 来源：Data 2

编辑推荐：

　　本文针对阿拉伯教法（fatwa）问答领域缺乏能够评估模型多步推理能力的数据集这一关键问题，研究团队构建了首个面向多步推理的阿拉伯教法问答基准数据集MAFQA。该研究通过整合专家指导与自动化技术，开发了一套半自动化的数据集构建流程，并利用阿拉伯专用及多语言大语言模型进行了系统性评测。结果显示，AraT5-base和AraBART等模型在多步推理的分解与生成任务中表现优异，为开发可靠的伊斯兰教法自动问答系统提供了重要的数据支撑与模型评估基准。其意义在于填补了阿拉伯宗教领域复杂推理问答数据集的空白，为阿拉伯自然语言处理技术在关键领域的可靠应用奠定了基础。

在数字化时代，人们期望人工智能能够像专家一样，对复杂的问题进行抽丝剥茧般的思考并给出可靠的答案。然而，在一些专业性极强、容错率极低的领域，例如宗教教法（Fatwa）咨询，现有的问答模型却常常“力不从心”。它们可能给出前后矛盾的答案，或者干脆无法理解那些需要结合多个条件、引用多重权威证据才能解答的复杂问题。对于阿拉伯语世界的伊斯兰教法问答而言，这种挑战尤为突出。现有的数据集大多侧重于简单的信息检索或分类，难以支撑模型去学习教法解答中那种环环相扣、引经据典的多步推理逻辑。这使得开发既准确又可靠的阿拉伯教法自动问答系统，成了一个亟待攻克的难题。

为了破解这一难题，由Manal Ali Al-Qahtani、Bader Fahad Alkhamees和Mourad Ykhlef组成的研究团队，进行了一项开创性的工作。他们意识到，问题的核心在于缺乏一个能够精准衡量模型“思考”能力的“考场”。于是，他们决心亲手打造这样一个考场——一个专门用于评测多步推理阿拉伯教法问答模型的数据集。这项研究成果以论文形式发表在学术期刊《Data》上。

为构建这个高质量的数据集，研究人员采用了一套融合专家智慧与自动化技术的半自动化流程。首先，他们从一个广泛的、源自权威伊斯兰机构的真实教法记录库中筛选出复杂的咨询案例。随后，通过一个结构化的分解框架，利用大型语言模型（LLM）进行语义特征提取和自动推理模式分类，并借助预设的模板来生成子问题和子答案。最后，所有生成的内容都经过了基于规则的验证和人工专家的严格审核，以确保其语境正确、逻辑连贯且符合教法学原理。

MAFQA数据集构建

本研究详细阐述了MAFQA（Multi-hop Arabic Fatwa Question Answering）数据集的构建方法论。其核心是一个端到端的半自动化工作流，该流程结合了自动化语言分析与人工专家标注，旨在保证数据集的复杂性、主题相关性和教法学准确性。整个构建过程遵循一个算法，从预处理真实的复杂教法记录开始，对每个记录，首先利用LLM驱动的模块提取其语义特征并自动分类其推理模式，然后根据预定义的、与推理模式关联的问题生成模板，结构化地分解出子问题（Subquestion, SQ）和子答案（Subanswer, SA）。接着，通过基于规则的验证与锚定模块，以及最终的人工标注者审核，确保每个数据实例包含原始的复杂问题、对应的合成答案、结构化推理链以及相关的模式与模板信息，从而形成一个高质量、可用于训练和评估的多步问答数据实例。

实验结果与模型评估

研究团队利用构建的MAFQA数据集，对多种先进的阿拉伯语专用模型、多语言模型和指令调优模型进行了广泛的基准测试。评估主要围绕两个核心任务展开：问题分解（Question Decomposition, QD）和生成式问答（Generative QA）。性能评估采用了一套全面的指标，包括词汇相似度、语义对齐度、相关性和答案忠实度等。实验结果表明，在绝大多数评估指标上，阿拉伯语专用模型（如AraT5-base, AraBART）的表现 consistently 优于通用的多语言模型（如mT5, mBART）。特别是在衡量答案是否严格基于所提供上下文的“忠实度”指标上，阿拉伯语专用模型优势明显。这证实了针对特定语言和领域进行优化的模型，在处理像阿拉伯教法多步推理这类复杂任务时，具有更强的能力。研究还进行了细致的定量与定性分析，揭示了不同模型在应对各类复杂推理模式时的优缺点。

本研究成功构建并发布了MAFQA数据集，这是首个公开的、专门针对多步推理阿拉伯教法问答的基准数据集。它填补了当前阿拉伯自然语言处理资源，特别是宗教领域资源中的一个显著空白。通过系统性的模型评测，研究明确了阿拉伯语专用模型在此类复杂推理任务上的优势，为未来开发更精准、可靠的阿拉伯宗教领域问答系统指明了方向——即需要深度融合领域知识、语言特性与先进的模型架构。这项工作不仅为计算伊斯兰教法研究提供了关键的基础资源，也为推动阿拉伯自然语言处理技术向更深层次的理解与推理迈进奠定了坚实的基石。

联系信箱：

粤ICP备09063491号

热点排行