CATS-RAG：一种用于技术问答（Technical QA）中检索与生成（Retrieval and Generation, RAG）任务的上下文增强三元组合成方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：CATS-RAG: Contextual Augmented Triplet Synthesis for RAG in Technical QA

【字体：大中小】 时间：2026年02月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对技术领域QA系统数据稀缺和模型调优困难的问题，提出CATS-RAG框架。通过链式思维提示生成高质量问答三元组，并在检索生成器微调时引入高相似度干扰文档，有效提升模型鲁棒性。实验表明，在TechQA和Microsoft QA数据集上，检索准确率分别提高4.3%和6.5%，生成准确率提升1.7%和11.9%。

韩国大学工业与管理工程系，首尔松北区Anam-ro 145号，邮编02841，大韩民国

摘要

大型语言模型（LLMs）被广泛用于构建问答（QA）系统，其中检索增强生成（RAG）技术常被用来提高答案的准确性。然而，在特定领域中，要实现高性能通常需要对RAG流程中的组件（如检索器和生成器）进行微调，因为仅靠提示或索引工程可能无法充分捕捉领域特定知识。此外，在技术领域中获取文档-问题-答案三元组（document-question-answer triples）以进行微调尤其具有挑战性。本文提出了用于技术问答中RAG的上下文增强三元组合成方法（CATS-RAG），该框架旨在扩展领域相关数据，并在可用数据有限的情况下提高RAG的准确性。CATS-RAG包括两个核心组件：QA数据集生成以及RAG中检索器和生成器的微调。在数据生成方面，链式思维提示（chain-of-thought prompting）方法使LLMs能够仅从提供的文档中生成三元组。在微调阶段，通过使用来自检索集的高度相似文档以及概率性地省略作为干扰项的“黄金文档”（golden documents），即使检索到不相关的文档，也能提高答案的稳健性。在TechQA和Microsoft QA上的实验表明，CATS-RAG在检索和生成方面都取得了持续的改进。平均而言，CATS-RAG在TechQA上将检索器性能提高了4.3%，在Microsoft QA上提高了6.5%；生成器性能分别提高了1.7%和11.9%。这些结果证明，在监督有限的专业问答环境中，CATS-RAG能够提供可靠的性能提升。

引言

在复杂领域中使用问答（QA）系统可以显著提高运营效率、系统稳定性和用户体验（Mutabazi等人，2021年；Swathi等人，2024年）。QA系统能够实时提供详细且与上下文相关的知识，从而更快地解决问题，同时减少对大量文档的依赖。此外，它们有助于为新用户或经验不足的用户填补知识空白，简化入职流程，并通过自动化处理常规查询来减轻人工操作员的负担。

最近，使用大型语言模型（LLMs）的QA系统受到了广泛关注。LLMs在大量自然语言数据上进行了训练，具有很高的推理能力（Brown等人，2020年）。特别是，LLMs在一般信息处理和自然语言生成任务中表现出色。这些能力使QA系统能够提供快速准确的答案，提高了其在不同行业的实用性。然而，传统的LLMs往往难以对领域特定查询提供准确答案。这一限制源于在领域特定数据上的训练不足，这增加了生成不准确信息的可能性（Gao等人，2023年；Kandpal等人，2023年）。

检索增强生成（RAG）技术作为一种有前景的解决方案应运而生（Lewis等人，2020年）。RAG通过整合外部信息，检索与给定查询最相关的外部文档，并基于这些文档生成响应，从而提高了LLMs的可靠性和准确性。这种方法显著提高了响应的可靠性，对于构建领域特定的QA系统非常有价值。然而，在专业领域中实现RAG模型的高性能通常需要领域特定数据，在某些情况下还需要对检索器和生成器进行微调（Zhang等人，2024年）。不幸的是，构建领域特定的QA数据集往往面临挑战，因为这些数据稀缺且需要专家参与。因此，获取高质量的相关数据对于有效训练专业领域的RAG模型至关重要。

生成QA数据集是解决在专业领域训练QA系统时数据可用性有限这一挑战的关键方法。现有研究通常侧重于从技术文档中提取可回答的部分，但这种基于提取的方法严重依赖于预定义的答案范围或手动标注的候选答案，这限制了它们捕捉源文档的完整语义结构或上下文丰富性的能力（Luo等人，2023年；Lee等人，2023年；Lee等人，2020年；Shakeri等人，2020年）。使用LLMs的基于生成的方法提供了一种有前景的替代方案，实现了端到端的问答对生成，具有更大的灵活性和上下文深度。尽管最近的研究探索了基于生成的问答生成（QAG）方法，但很少有研究专注于为微调RAG模型而专门设计文档-问题-答案（DQA）三元组。因此，这些方法未能满足训练领域特定应用RAG模型的具体需求（Kumar等人，2024年；Lee等人，2024年）。

本研究提出了一种有效的方法来生成用于训练QA RAG模型的数据集。通过应用提示工程技术，所提出的方法生成高质量的QA数据集，并通过链式思维（CoT）提示（Wei等人，2022年）构建逻辑丰富的QA数据集。这种方法仅使用技术文档即可构建高质量的数据集。此外，本研究还引入了一种针对RAG中检索器和生成器的微调策略，使用最相关的文档和生成的数据集。该技术涉及在检索过程中选择与查询最相似的文档，并添加最相似的文档进行额外训练。通过这种方式，该方法提高了模型的稳健性和性能，使得即使在专业领域也能实现强大的QA系统。实验结果表明，CATS-RAG在多个数据集上均取得了持续的改进，在TechQA上将检索器性能提高了4.3%，在Microsoft QA上提高了6.5%；生成器性能分别提高了1.7%和11.9%。本文的贡献如下：

(1)

我们提出了一种基于CoT的提示工程的QA数据集生成方法，用于技术文档，解决了理解复杂上下文和保持逻辑连贯性的固有挑战。基于CoT的方法增强了LLMs的逻辑推理能力，使它们能够从提供的文档中高效生成QA对。

(2)

我们提出了一种针对RAG中检索器和生成器的微调技术，该技术在训练过程中使用高度语义相似的干扰项来提高QA系统的稳健性。这种方法确保即使检索器选择了上下文无关的文档，生成器也能仅根据提供的查询准确回答问题。在这种条件下进行训练使生成器能够提供更稳健且上下文适当的响应。

部分摘录

问答生成方法

QAG是一种从给定文档生成问题和答案对的任务。它是传统问题生成概念的扩展，涉及生成答案和创建相关问题的复杂任务（Ushio等人，2023年）。已经提出了几种不同的方法来提高QAG的性能。对于使用语言模型的QAG任务，通常使用几种主要方法。管道式QAG使用单独的模型独立执行答案提取和

提出的方法

在本节中，我们介绍了我们的方法论CATS-RAG框架，它包括两个主要组件：数据生成和RAG中检索器和生成器的微调。首先，数据生成组件通过使用LLMs来增强数据，解决了特定领域数据集不足的挑战。这涉及生成针对目标领域的合成数据集。接下来，微调组件使用数据生成阶段创建的数据集来微调

预处理

为了评估所提出的CATS-RAG的性能，我们使用了两个技术领域的数据集：TechQA和Microsoft QA（MSQA）（Castelli等人，2020年；Yang等人，2023年）。TechQA数据集包含801,998条技术笔记、600个训练样本、310个开发样本和490个评估样本，这些数据来自IBM开发者论坛上的真实用户查询。在这些数据集中，我们重点关注了450个可回答的训练样本和160个开发样本，并使用BART模型对技术笔记进行了总结以提高可用性。

局限性和未来工作

尽管效果显著，CATS-RAG仍存在一些局限性。首先，QA生成方法不支持多文档推理，限制了该框架生成需要整合多文档信息的答案的能力，而这在现实世界的技术QA场景中很常见。其次，微调生成器模型需要大量的计算时间和资源，这可能限制了在计算资源有限环境中的可扩展性

结论

我们介绍了CATS-RAG，这是一个旨在解决在数据集有限的专业领域中构建强大QA系统挑战的框架，特别是在技术领域。CATS-RAG展示了一种有效的方法来增强领域特定数据并微调RAG模型以实现高性能。数据生成组件使用摘要和CoT提示（包括答案候选选择、问题构建和答案生成）来生成

未引用的参考文献

Deng等人，2023年。

利益冲突声明

作者声明他们没有已知的可能影响本文报告工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言