编辑推荐:
针对大语言模型在实时信息处理中的幻觉问题,本文提出ACTD双策略检索增强生成方法。通过自我知识判断模块确定是否需要检索,任务分解模块细化复杂问题,以及基于答案候选的自我知识优化模块提升知识融合效果,显著降低幻觉并提高事实推理能力,在NQ、HotpotQA等数据集上优于现有方法。
Jinxin Lv|Zijie Li|Jianhou Gan|Wenqi Ren|Shuyu Chen|Jun Wang
教育部民族教育信息化重点实验室,云南师范大学,中国昆明市聚贤街768号,650500
摘要
大型语言模型(LLMs)在问答任务中表现出色,但它们对参数化知识的过度依赖使它们容易产生幻觉,尤其是在处理实时信息时。从安全角度来看,这些幻觉可以被视为损害系统可靠性的异常现象,需要有效的恢复策略。检索增强生成(RAG)通过从外部知识库中检索相关信息来增强LLMs,有效缓解了幻觉问题。然而,无差别的检索或包含不相关的段落可能会在RAG过程中引入冗余或错误的参考文本,从而可能损害模型性能。为了解决这个问题,我们提出了一种基于答案候选项和任务分解(ACTD)的双策略检索增强方法。该方法首先通过评估模型的参数化知识来确定是否需要检索,然后分别处理不同类型的问题。对于需要检索的问题,该方法使用任务分解来检索更相关的段落;对于不需要检索的问题,该方法通过评估候选答案来优化答案生成过程。实验表明,ACTD方法优于现有的检索增强生成方法。当使用Llama3-8B作为生成模型时,ACTD在NQ和HotpotQA等单跳和多跳问答数据集上表现出色,显著提高了基于事实的推理能力,同时有效减少了由幻觉引起的异常。
引言
随着互联网技术的发展,像ChatGPT这样的生成式人工智能模型在自然语言处理、信息检索和人机交互中发挥了重要作用。这些模型广泛应用于搜索引擎、内容生成、在线客户服务和智能问答等互联网应用中,为信息检索、个性化推荐和基于知识的推理提供了更高效的解决方案。目前,大型语言模型(LLMs)因其出色的知识推理和智能问答能力而受到关注。然而,尽管LLMs的参数数量不断增加,但它们的参数化知识仍然有限。一个重要问题是,经过微调后的大型模型无法涵盖最新的知识。当遇到涉及最新信息的问题时,LLMs经常生成看似合理但实际上不正确或不存在的信息,这种现象被称为幻觉[1]、[2]。幻觉的机制源于模型在生成过程中倾向于优先考虑语言连贯性而非事实准确性,依赖于训练数据中的统计模式而非真正的语义理解,以及参数化知识存储与生成过程中的有效知识检索之间存在根本性的脱节。更重要的是,幻觉不仅仅是生成错误答案的问题——它们从根本上削弱了模型的可信度。这个问题在高风险领域尤为明显。在金融领域,研究表明,幻觉表现为时间敏感数据的错误生成:例如,当被问及某国在特定年份的最大进口来源时,没有检索增强的模型会基于历史模式做出错误判断。这种错误的财务数据或市场趋势预测可能会误导分析师的投资决策,导致重大的财务决策失误[3]。
为了解决这一挑战,研究人员提出了检索增强生成(RAG)方法来应对幻觉问题。该技术允许集成外部知识库,从而检索与问题相关的非参数化知识(通常是文本)。通过将问题和这些非参数化知识作为提示输入到大型模型中,问答过程得到了额外知识的补充,最终提高了答案的准确性。然而,现有的RAG方法面临三个主要挑战:(1)过度检索问题 [4],即在没有首先评估大型语言模型是否能够使用其自身的参数化知识进行回答的情况下检索外部知识,常常导致冲突或不相关的信息;(2)错误检索风险 [5],即可能会检索到不相关的文档或段落,从而影响模型输出的质量;(3)知识融合挑战 [6],涉及如何有效地将参数化知识与检索到的非参数化知识结合起来,包括何时使用每种来源以及如何组合它们。解决这些问题——确保准确的检索和强大的知识融合——对于提高基于RAG的问答质量至关重要。
为了有效应对现有RAG方法面临的挑战,我们引入了一种创新的双策略检索增强生成方法,即ACTD方法。该方法通过自知识判断模块、自知识优化模块和任务分解模块系统地处理不同类型的问题,优化了模型对参数化和外部知识的利用,以提高问答性能。自知识判断模块确定是否需要检索外部知识,有效缓解了过度检索问题;自知识优化模块通过整合候选答案来提高模型利用参数化知识的能力;任务分解模块在执行外部知识检索之前将问题分解为多个子问题。这一模块促进了外部知识的整合,增强了模型处理复杂多跳查询的能力。
与传统的RAG方法相比,ACTD方法更有效地将大型语言模型的参数化知识与外部知识库中的非参数化知识结合起来,从而优化了生成答案的质量。此外,通过任务分解,ACTD有助于检索更细粒度的相关段落,增强了模型处理复杂问题的能力。总体而言,这构成了一个强大且高效的检索增强生成框架。实验结果表明,我们的方法在处理复杂问答任务方面显著优于现有方法。本工作的主要贡献总结如下:
- •
我们引入了ACTD方法,通过自知识判断模块、自知识优化模块和任务分解模块的工作流程设计,能够更有效地处理各种类型的问题,并优化RAG中参数化和外部知识的利用过程。
- •
我们整合了提出的自知识优化模块和自知识判断模块,以提高大型模型对参数化知识的利用,同时有效解决了过度检索问题。此外,通过采用任务分解,模型检索到更细粒度的相关段落,从而更好地解决问题。
- •
所提出的ACTD方法在NQ [7]、TriviaQA [8]和PopQA [9]数据集上表现出色。平均而言,ACTD在精确匹配(EM)方面比Iter-RetGen [10]提高了0.75个百分点,在平均F1分数方面比ReaRAG [11]提高了1.70个百分点。这些结果突显了该方法的稳健性和潜力,ACTD在所有数据集中均获得了最高的平均排名。此外,还进行了消融研究以验证每个模块的贡献。
部分摘录
检索增强生成
检索增强生成(RAG)是一种通过向大型语言模型提供从外部知识源检索的相关信息来增强文本生成的方法,有效减少了知识密集型任务中的幻觉现象[12]。目前,该领域的研究可以分为三类:基于微调的RAG、基于推理的RAG和基于预训练模型的RAG[13]。其中,Self-RAG [4]代表了一种基于微调的RAG方法
方法
鉴于RAG方法面临的三个主要挑战,并借鉴了之前的有影响力的工作,特别是SKR [27]、SURE [35]和Self-Ask [36],我们采用了一种分而治之的策略,针对不同类型的问题应用不同的模块化解决方案,旨在优化RAG过程并提高性能。我们提出了一种新颖的双策略检索增强生成方法,该方法结合了答案候选项和任务分解(ACTD),增强了大型语言模型的回答能力
实验
本节首先介绍实验设置和用于比较的基线模型。随后,我们通过实验研究以下问题:
•Q1:所提出的ACTD方法与现有的RAG方法在广泛使用的问答数据集上的表现如何?
•Q2:ACTD的自知识优化模块和任务分解模块的有效性如何?
•Q3:最近邻居的数量K和数量
结论
ACTD方法提出了一种创新的解决方案,用于解决大型语言模型(LLMs)在问答任务中常见的幻觉引起的异常和推理不足问题。ACTD由三个核心组件组成——自知识判断模块、基于答案候选项的自知识优化模块和任务分解模块——这些组件动态判断模型是否能够用其内部知识解决问题,并选择生成的最佳路径
CRediT作者贡献声明
Jinxin Lv:撰写 - 原始草稿、可视化、验证、方法论、概念化。Zijie Li:撰写 - 原始草稿、方法论。Jianhou Gan:撰写 – 审稿与编辑、监督、项目管理、资金获取。Wenqi Ren:撰写 – 审稿与编辑。Shuyu Chen:撰写 – 审稿与编辑。Jun Wang:撰写 – 审稿与编辑。
CRediT作者贡献声明
Jinxin Lv:撰写 – 原始草稿、可视化、验证、方法论、概念化。Zijie Li:撰写 – 原始草稿、方法论。Jianhou Gan:撰写 – 审稿与编辑、监督、项目管理、资金获取、概念化。Wenqi Ren:撰写 – 审稿与编辑。Shuyu Chen:撰写 – 审稿与编辑。Jun Wang:撰写 – 审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了中国国家自然科学基金[编号62166050]、云南省重大科技项目[编号202402AD080002]和云南省基础研究项目[编号202401AT070122]的支持。