《Journal of Bodywork and Movement Therapies》:PlainQAFact: Retrieval-augmented Factual Consistency Evaluation Metric for Biomedical Plain Language Summarization
编辑推荐:
幻觉生成导致医学领域平铺直叙摘要(PLS)的事实一致性评估难题,本研究提出基于检索增强问答(QA)的双阶段评估方法PlainQAFact,并构建细粒度标注数据集PlainFact。实验表明,传统评估方法在处理需要背景补充的复杂解释时表现不足,而新方法通过区分简化句与扩展句,结合领域知识检索有效提升了评估精度。
作者:周志文(Zhiwen You)| 郭月(Yue Guo)
美国伊利诺伊大学厄巴纳-香槟分校信息科学学院,香槟市,邮编61820,伊利诺伊州
摘要
大型语言模型(LLMs)生成的幻觉性输出在医学领域存在风险,尤其是对于需要做出健康相关决策的普通读者而言。现有的自动事实一致性评估方法(如基于蕴含关系和问答(QA)的方法)在处理简单语言总结(PLS)时遇到困难,因为这些方法难以处理“详细解释”现象——即为了增强理解而引入的科学摘要中不存在的外部内容(例如定义、背景信息、示例)。为了解决这个问题,我们提出了PlainQAFact ,这是一种基于细粒度、人工标注的数据集PlainFact 训练而来的自动事实一致性评估指标,可用于评估来源简化句和详细解释句的事实一致性。PlainQAFact 首先对句子类型进行分类,然后应用一种结合检索功能的QA评分方法。实证结果表明,现有的评估指标在处理PLS中的事实一致性时表现不佳,尤其是在涉及详细解释的情况下,而PlainQAFact 在所有评估场景中都表现优于这些指标。我们进一步分析了PlainQAFact 在不同外部知识来源、答案提取策略、答案重叠度测量以及文档粒度水平下的有效性,从而完善了其整体事实一致性评估能力。总体而言,我们的工作提出了一种针对生物医学PLS任务中详细解释的、具有句子意识的、结合检索功能的评估指标,为医学领域提供了新的基准和实用的评估工具。PlainQAFact 和PlainFact 的相关信息可访问以下链接:
https://github.com/zhiwenyou103/PlainQAFact
引言
用简单语言传达生物医学科学知识对于提高健康信息的可访问性和健康素养至关重要[1]、[2]。近年来,大型语言模型(LLMs)在生物医学文本的简单语言总结(PLS)方面取得了显著进展[3]、[4]、[5]、[6]。然而,确保这些总结的事实一致性仍然是一个重大挑战。不一致性的一个主要来源是“详细解释”:这些内容(如定义、背景信息和示例)虽然有助于理解,但并未明确出现在原始的科学摘要(即来源)中[7]、[8]、[9]。虽然这些详细解释对于有效沟通至关重要,但它们引入了无法直接与来源核对的外部内容,从而增加了自动事实一致性评估的复杂性。
PLS中的事实一致性通常通过人工评估和自动指标相结合的方式进行评估[3]、[10]。尽管人工评估可靠[11],但其成本高昂且难以扩展,尤其是在需要领域专业知识的生物医学领域。常用的事实一致性评估指标可以有效地验证来源支持的内容,但无法评估添加信息的事实一致性[12]。然而,这些指标严重依赖于高质量的参考摘要,而这些摘要在PLS中往往并不可用。最近基于提示的评估技术显示出一定的潜力[13]、[14],但它们对详细解释中的事实变化的敏感性仍然有限[12]。
缺乏合适的基准数据集进一步阻碍了事实一致性评估的进展。许多现有数据集是由LLM生成的摘要构建的,或者使用基于规则的扰动来模拟非事实内容。例如,FactPICO为随机对照试验摘要的简单语言总结提供了专家注释,重点关注PICO元素和证据推理[9],但它仅对添加的内容进行事实性标注,而由LLM生成的简化句子则未进行标注,因此可能存在不准确的情况。相比之下,APPLS使用基于规则的转换来扰动人工编写的摘要[12],但无法确保结果输出保持连贯或符合事实。这些局限性凸显了需要基于人工编写的摘要的高质量、句子级注释的必要性。
为了解决这些挑战,我们首先引入了一个新的专家标注数据集PlainFact ,其中包含与科学摘要对齐的人工编写的简单语言总结。每个句子都标注了其类型(详细解释与来源简化)、功能角色以及与来源的对应关系(第3.1节)。在此基础上,并结合之前在一般领域基于QA的评估指标的研究[15]、[16],我们提出了一种针对PLS事实一致性的定向检索基评估指标PlainQAFact (图1)。这是一种双阶段的基于QA的评估指标,仅对详细解释部分应用检索功能(第3.2节)。在多个PLS数据集上的实验结果证明了该指标的有效性,尤其是在评估复杂、详细的解释内容时(第4节、第5节)。总体而言,我们的工作提出了一种专门用于评估PLS事实一致性的自动评估指标。此外,我们还为社区提供了一个新的基准,以支持对简化和详细内容的细致评估。这些贡献旨在促进医学领域更可靠、更安全的简单语言交流(见表1)。
现有事实性评估方法的局限性
评估简单语言生成的主要方法是将自动指标与人工评估相结合[3]、[10]。虽然人工评估提供了全面的分析[11],但其高昂的成本和时间要求使其不适用于大规模数据集。在生物医学PLS中评估事实一致性尤其具有挑战性,因为这需要领域专业知识。常用的基于蕴含关系[17]、[18]、相似性[19]、模型[21]和QA[15]、[16]的指标通常用于事实性评估
方法
我们首先介绍了PlainFact 数据集的整理流程(第3.1节)。基于这个数据集,我们提出了PlainQAFact ,这是一种用于PLS任务事实一致性评估的双阶段、结合检索功能的QA评分框架(第3.2节)。
实验
我们在三个公开可用的数据集上进行了主要实验,包括PlainFact 、CELLS [28]和FareBio [47]。为了验证我们提出的PlainQAFact 在PLS任务中的有效性,我们将其与五种广泛使用的事实一致性评估指标和两种基于LLM的评估工具进行了比较。
结果与分析
我们首先在FactPICO数据集[9]上进行了初步研究,以调查现有事实一致性评估指标在PLS任务上的表现。初步研究附录F揭示了两个主要局限性:首先,FactPICO中许多由LLM生成的简单语言总结包含不完整或不合逻辑的句子,这表明需要一个基于高质量、人工编写的简单语言总结的基准;其次,现有的自动事实一致性指标对...
讨论与结论
我们的研究通过提供一个领域专家标注的生物医学PLS基准PlainFact 和一个新颖的、结合检索功能的QA基础事实一致性评估指标PlainQAFact ,推动了PLS领域中对幻觉现象的评估。与现有的生物医学领域语料库不同,后者要么缺乏详细内容的细粒度标签[58],要么仅关注文本简化(例如FactPICO [9]),PlainFact 能够捕捉到句子级别的差异,包括简化与...
CRediT作者贡献声明
周志文(Zhiwen You): 撰写——审稿与编辑、撰写——初稿、可视化、验证、软件开发、方法论设计、调查、形式分析、数据整理、概念构建。郭月(Yue Guo): 撰写——审稿与编辑、撰写——初稿、监督、概念构建。
未引用的参考文献
Philipsborn等人[55],Lopez等人[56]
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作使用了NCSA通过Advanced Cyberinfrastructure Coordination Ecosystem: Services & Support (ACCESS)计划分配的Delta GPU(分配号:[CIS240504]),该计划得到了美国国家科学基金会 的资助(资助编号:#2138259、#2138286、#2138307、#2137603、#2138296)。