直接检索增强优化：知识选择与语言模型的协同作用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Information Systems》：Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models

【字体：大中小】 时间：2026年03月01日 来源：ACM Transactions on Information Systems

编辑推荐：

　　RAG通过整合大语言模型与检索器提升知识增强任务的事实性，但现有方法缺乏端到端训练。本文提出DRO框架，交替进行文档排列估计和重加权最大化，通过变分方法和重要性采样实现检索器与生成器的联合训练，理论分析表明其等价于强化学习的策略梯度方法，实验在五个数据集上验证了5%-15%的性能提升。

要查看此由 AI 生成的摘要，您必须具有高级访问权限。

了解更多登录

摘要

检索增强生成（Retrieval-augmented Generation，RAG）将大型语言模型（LLMs）与检索器相结合，以利用外部知识，从而提高 LLM 在基于知识的任务中的事实准确性。为了优化 RAG 的性能，大多数先前的研究分别对检索器进行微调以适应固定的 LLM，或者训练 LLM 使用现成的检索器获取的文档，但这些方法缺乏端到端的训练监督。最近的研究通过联合训练这两个组件来克服这一限制，但依赖于过于简化的文档独立性假设，这被批评为与现实世界情况相差甚远。因此，有效优化整体的 RAG 性能仍然是一个关键挑战。我们提出了一个直接的检索增强优化框架，名为 DRO，它能够实现两个关键组件的端到端训练：（i）生成式知识选择模型；（ii）LLM 生成器。DRO 通过两个阶段交替进行：（i）文档排列估计；（ii）重新加权最大化，通过变分方法逐步改进 RAG 组件。在估计阶段，我们将文档排列视为一个潜在变量，并通过应用重要性采样策略直接从选择模型中估计其分布。在最大化阶段，我们使用重要性权重来校准优化期望值，并同时训练选择模型和 LLM 生成器。我们的理论分析表明，DRO 与强化学习中的策略梯度方法类似。在五个数据集上进行的广泛实验表明，DRO 的性能优于最佳基线，在精确度（EM）和 F1 分数上提高了 5%–15%。我们还对 DRO 的稳定性、收敛性和方差进行了定性分析。

AI 摘要

AI 生成的摘要（实验结果）

此摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助发现新信息、帮助读者评估相关性，并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要，后者仍然是论文的官方总结。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由 AI 生成的通俗语言摘要，您必须具有高级访问权限。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号