一种基于查询感知的多路径知识图谱融合方法,用于提升大型语言模型中的检索增强生成能力

《Expert Systems with Applications》:A Query-Aware Multi-Path Knowledge Graph Fusion Approach for Enhancing Retrieval-Augmented Generation in Large Language Models

【字体: 时间:2026年03月04日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对现有RAG方法依赖相似性匹配而忽略知识图谱内在关联的问题,提出QMKGF框架。通过多路径子图构建整合一跳、多跳及重要性关联,结合查询感知的注意力奖励模型筛选高相关性三元组,再通过子图融合与查询扩展增强语义对齐,显著提升生成质量。实验在HotpotQA等数据集上ROUGE-1达64.98%,较基线提升9.81%。

  
魏启凯|宁焕生|韩春龙|丁建国
北京科技大学计算机与通信工程学院,中国北京

摘要

检索增强生成(RAG)作为一种有前景的方法,逐渐被用于提高大型语言模型(LLMs)生成内容的准确性和事实一致性。然而,现有的RAG研究主要集中在使用基于相似性的匹配方法来检索孤立片段,而忽略了这些片段之间的内在联系。这一限制阻碍了RAG任务的性能。为了解决这个问题,我们提出了QMKGF,一种基于查询的多路径知识图谱融合方法,用于增强检索增强生成。首先,我们设计了提示模板,并利用通用LLMs提取实体和关系,从而高效地生成知识图谱(KG)。基于构建的KG,我们引入了一种多路径子图构建策略,该策略结合了一跳关系、多跳关系和基于重要性的关系,旨在提高检索到的文档与用户查询之间的语义相关性。接下来,我们设计了一个基于查询的注意力奖励模型,根据子图三元组与查询的语义相关性对其进行评分。然后,我们选择得分最高的子图,并从其他与查询高度语义相关的子图中添加额外的三元组来丰富该子图。最后,利用更新后的子图中的实体、关系和三元组来扩展原始查询,从而增强其语义表示并提高LLMs生成的质量。我们在HotpotQA、MuSiQue、SQuAD、IIRC和Culture数据集上评估了QMKGF。在HotpotQA数据集上,我们的方法取得了64.98%的ROUGE-1分数,比BGE-Rerank方法高出9.81个百分点(从55.17%提高到64.98%)。实验结果证明了QMKGF方法的有效性和优越性。

引言

近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域表现出色,广泛应用于各种人工智能任务中(Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray等人,2022年;Wu, Wu, Li, Qin, & Wang, Xu, Chen, Hu, Li, 2025年;Zhu, Zhao, Ge, Li, Wang, Yang, 2025年)。尽管LLMs的生成能力越来越强,但它们产生的输出往往看似合理,但实际上并不准确——这种现象通常被称为“幻觉”(Fu, Liu, Zhang, Jiang, Mei, Guan, 2025年;Zhao, Zhang, Yu, Wang, Geng, Fu, Yang, Zhang, & Cui)。
为了解决这个问题,检索增强生成(RAG)作为一种有效的解决方案应运而生(Gao, Xiong, Gao, Jia, Pan, Bi, Dai, Sun, Wang, & Wang, Zhao, Zhang, Yu, Wang, Geng, Fu, Yang, Zhang, Jiang, & Cui)。通过结合外部知识来源为生成提供上下文支持,RAG显著减轻了LLMs中常见的幻觉现象,并大幅提高了生成内容的事实准确性和可靠性(Yu等人,2024年)。由于其能够提高事实一致性,RAG已被广泛应用于法律(Cui, Li, Yan, Chen, & Yuan, 2023年)、健康(Wu, Zhu, & Qi, 2024b年)和旅游(Wei等人,2024b年)等多个领域。图1展示了基于RAG的方法与仅使用LLM的方法之间的对比。绿线表示仅使用LLM的情况,模型直接从查询生成答案,而不进行任何外部检索。红线代表基于RAG的方法,其中使用用户查询从文档语料库中检索相关片段,指导LLM生成更准确的响应。
根据知识结构的组织方式,现有的RAG方法可以分为基于文档检索的方法和基于图结构的方法。基于文档检索的RAG通常采用查询扩展(Wang, Yang, & Wei, 2023年)或重排序机制来提高相关内容的精确度和召回率。例如,网易有道(NetEase Youdao, 2023年)提出了BCEmbedding方法,该方法采用两阶段 approach:第一阶段使用嵌入进行高效初始检索,第二阶段应用奖励模型(RM)(Gao, Schulman, & Hilton, 2023a年)对检索结果进行细粒度的语义重排序,从而提高整体检索质量。Xiao, Liu, Zhang, & Muennighof(2023年)引入了BGE-Rerank模型,对嵌入模型检索到的前k个文档进行重排序,以提高检索到的文档与查询之间的相关性。这种改进最终提升了RAG任务的性能。然而,这些方法严重依赖于基于相似性的查询到片段的匹配,可能会引入不相关的内容并影响响应的准确性。虽然这些方法对于简单任务有效,但在处理复杂查询时往往效果不佳(Jiang等人,2023年)。
相比之下,基于图结构的RAG检索方法利用图增强或路径引导机制来提高检索结果的语义相关性。代表性工作包括GraphRAG(Edge等人,2024年)、QCG-rerank(Wei等人,2024a年)、LightRAG(Guo, Xia, Yu, Ao, & Huang, 2024年)、CG-RAG(Hu等人,2025年)、GFM-RAG(Luo等人,2025年)和KG2RAG(Zhu, Xie, Liu, Li, & Hu, 2025a年),这些方法通过整合实体之间的语义关系来提高内容检索质量。然而,现有的基于图的RAG方法通常依赖于单条路径,这限制了检索内容的范围并影响了最终生成输出的多样性。一方面,当前方法通常基于固定规则或结构距离构建子图,忽略了不同语义路径之间的信息承载能力差异。这使得在检索过程中难以平衡语义多样性和路径重要性,导致引入了片段化且结构同质的信息。另一方面,直接结合多条路径可能会导致语义冗余和噪声积累,从而削弱模型识别关键信息的能力。因此,如果能够开发出一种既能从多条路径中提取高质量信息,又能实现语义聚合和过滤的机制,那么就有潜力在图信息整合过程中提高生成质量并减少冗余和噪声。
为了解决上述挑战,我们提出了QMKGF,一种基于查询的多路径知识图谱融合方法。该方法通过结合知识图谱的结构和查询的语义来提高检索内容的相关性和生成响应的质量。具体来说,知识图谱中的实体通常有多条相邻路径,每条路径代表不同的潜在语义关联。我们首先从输入查询中提取关键实体,并使用它们作为锚点在知识图谱中进行多路径语义扩展,从而检索出更有助于回答原始查询的信息。考虑到不同路径中语义关系的多样性(如一跳关系、多跳关系或基于重要性的关系),我们设计了一种多路径子图构建机制来全面捕获相关的语义证据。然而,许多路径或三元组可能与查询缺乏精确的语义对齐,可能会在检索过程中引入不相关或噪声信息。为了解决这个问题,我们引入了一个基于查询的注意力奖励模型,根据三元组与查询的语义相关性对其进行细粒度评分。与传统基于向量相似性的方法相比,我们的注意力模型具有更强的查询意识,从而减少了由语义不匹配引入的噪声。然后,我们选择与查询最相关的子图作为骨干,并从其他路径中融合高相关性的三元组,形成一个紧凑的、语义对齐的融合子图。这个融合子图随后用于扩展查询,进一步提高文档检索的相关性,最终提高LLMs的响应质量。我们在五个基准数据集上评估了QMKGF:HotpotQA、Musique、SQuAD、IIRC和Culture。在HotpotQA数据集上,我们的方法取得了64.98%的ROUGE-1分数,比BGE-Rerank方法高出9.81个百分点(从55.17%提高到64.98%)。实验结果表明,QMKGF显著优于现有方法,并在提高答案准确性方面显示出明显优势。
总结来说,本文的贡献如下:
  • 1.
    开发了一种多路径KG子图构建方法,结合了一跳关系、多跳关系和基于重要性的关系,以捕获多样化和显著的知识路径。
  • 2.
    引入了一种基于查询的注意力奖励模型,能够根据三元组与输入查询的语义相关性对其进行细粒度评分。
  • 3.
    提出了一种子图融合策略,选择得分最高的子图,并整合来自其他子图的语义相关三元组,从而得到一个更具信息量和查询对齐性的KG子图。
  • 4.
    提出了一种基于KG的查询扩展方法,通过从最终子图中获取实体、关系和三元组来丰富原始查询,从而提高RAG输出的质量和事实一致性。

相关工作

近年来,大型语言模型(LLMs)在理解和文本生成方面表现出色,尤其是在开放领域问答任务中(Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray等人,2022年;Touvron, Lavril, Izacard, Martinet, Lachaux, Lacroix, Rozière, Goyal, Hambro等人)。它们已被广泛应用于问答系统(Li, Hou, Ravi, Huang, Gan, 2025年;Wei, Yang, Wang, Mao, Xu, & Ning, Xiao, Li等人)等领域。

方法论

在本节中,我们将详细介绍QMKGF的总体架构,如图2所示。该模型由四个主要组成部分构成:实体映射、子图构建、子图融合和子图利用。1) 对于实体映射,我们首先设计提示来利用LLMs提取KG,并构建实体向量数据库。然后,从查询中提取潜在实体,并通过将它们与实体向量匹配来将其映射到KG中的实际实体。

实验设置

在本节中,我们将介绍数据集、基线模型、实验设置和指标。

结果

在本节中,我们通过与其他代表性基线的比较分析来评估提出的QMKGF模型。随后,我们进行了消融研究,以调查我们框架内关键组件和设计选择的影响。

结论

在本文中,我们提出了QMKGF,这是一个旨在提高LLMs性能的新框架。为了捕捉与查询相关的语义丰富结构,我们开发了一种多路径子图构建策略。随后,引入了一个基于查询的注意力奖励模型,根据三元组与查询的语义相关性对其进行评分,从而指导选择高质量三元组进行知识图谱融合。最后,利用更新后的子图来扩展原始查询。

作者声明

魏启凯:方法论、形式分析、软件开发、初稿撰写、可视化。宁焕生:监督、资金获取、审稿与编辑。韩春龙:形式分析、验证、审稿与编辑。丁建国:撰写、审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号