评估用户在基于RAG（Retrieval-Augmented Generation）的生成式AI工具上的表现：一项关于AI辅助信息检索的情景实验

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers in Human Behavior》：Evaluating User Performance on RAG-Based Generative AI Tools: A Scenario-Based Experiment on AI-Assisted Information Retrieval

【字体：大中小】 时间：2026年02月20日 来源：Computers in Human Behavior 8.9

编辑推荐：

　　本研究基于任务-技术适配理论，通过2×2实验设计，比较RAG增强生成式AI系统与标准LLM在信息检索任务中的用户表现，评估准确度、相关性和完整性等指标，揭示RAG在不同任务复杂度下的适用性，为高精度场景的AI工具设计提供实证依据。

阿克蒂莱克·萨金巴耶娃（Aktilek Sagynbayeva）|阿金·皮奥（Ajin Pyo）|尹尚赫（Sang-Hyeak Yoon）|杨成秉（Sung-Byung Yang）

韩国首尔东大门区庆熙大学研究生院，庆熙大学路26号，邮编02447

摘要

生成式人工智能（GenAI）的最新进展使用户能够通过对话界面与AI模型进行交互。然而，由于这些模型依赖于预训练的静态数据集，它们往往难以提供准确或最新的信息，尤其是在专业领域。检索增强生成（RAG）通过将大型语言模型与外部实时数据源集成来克服这一限制。虽然以往的研究主要关注系统层面的评估，但对以用户为中心的性能结果的关注较少。本研究通过探讨基于RAG的工具如何影响用户在信息搜索任务中的表现来填补这一空白。在任务-技术适配（TTF）理论的指导下，我们进行了一个2×2的情景实验，调整了RAG功能和任务复杂性。参与者使用标准的大型语言模型（LLM）或RAG增强系统完成搜索任务。用户表现从准确性、完整性和相关性三个方面进行评估。研究结果有望为RAG系统的实际价值提供实证见解，并为知识密集型应用的GenAI工具设计提供参考。

引言

像ChatGPT和Claude这样的生成式人工智能（GenAI）工具已在教育、医疗保健、法律和内容创作等多个领域迅速普及。这些系统正在重塑个人和组织搜索、分析和生成信息的方式。根据麦肯锡（McKinsey）2024年的数据，大约72%的公司至少在一个业务功能中使用了GenAI。

GenAI的整合也改变了信息检索领域。传统的搜索系统依赖于关键词匹配和静态数据库，而GenAI系统则利用能够理解自然语言查询并生成上下文相关响应的大型语言模型（LLM）（Li等人，2025年；Shin等人，2025年）。因此，研究人员、分析师和政策制定者越来越多地使用GenAI不仅来检索信息，还用来解释和综合信息（Kumar等人，2024年）。

尽管有这些优势，GenAI工具仍面临显著的限制。大多数GenAI工具是在通用数据集上训练的，缺乏对当前或特定领域信息的访问能力。一个更为紧迫的问题是“幻觉”现象，即AI模型产生的响应看似合理但实际上是不正确的（Huang等人，2025年）。在医疗保健和法律等高风险领域，这种不准确性可能会产生严重后果（Varshney等人，2023年）。这些挑战削弱了用户的信任，并限制了GenAI技术的更广泛采用。

尽管已经开发出检索增强生成（RAG）来应对这些限制，但以往的研究主要集中在系统层面的评估上，关注的是事实准确性和基准性能等指标。然而，目前尚不清楚这些技术改进是否能在实际应用中转化为用户表现的提升。随着组织越来越依赖GenAI工具来处理关键决策任务，这种以用户为中心的实证研究缺口尤为显著。RAG通过允许生成模型在生成过程中检索外部最新信息来增强其能力（Gu?u & Popescu，2024年；Lewis等人，2020年）。

虽然这种方法在FEVER和HotPotQA等基准数据集上显示出事实准确性的提升（Gao等人，2024年；Wang等人，2025年），但以往的研究主要集中在使用准确性或基准分数等技术指标的系统层面评估上。然而，这些评估并不一定能反映RAG在实际环境中对用户中心结果（如任务成功率、决策质量和信息有效使用）的影响。此外，关于RAG如何影响用户的信心、决策质量和认知过程，以及这些关系如何随任务复杂性变化的问题仍然存在。只有少数研究在生态学上有效的环境中对这些问题进行了探讨（Arslan等人，2024年；Asai等人，2024年）。

本研究旨在通过探讨RAG增强型GenAI系统在特定领域、对准确性要求高的环境中的用户表现来填补这些空白。基于任务-技术适配（TTF）框架，本研究考察了RAG功能和任务复杂性如何相互作用以影响用户结果。具体而言，通过三个直接反映标准LLM核心局限性的以用户为中心的指标来评估信息质量：准确性（用于评估幻觉减少和事实正确性）、相关性和完整性（用于衡量检索信息的全面性）。这些指标共同构成了一个综合框架，用于评估基于RAG的系统如何解决传统GenAI的固有弱点，并提高用户在信息检索任务中的表现。

与以往主要依赖基准数据集和自动化指标的研究不同，本研究采用了基于情景的实验设计来观察用户与GenAI系统的真实交互。这种方法能够探索用户在真实任务条件下的不同系统架构下的互动情况，克服了标准化数据集往往无法反映实际信息需求或用户行为的局限性。

本研究在三个关键方面为文献做出了贡献。首先，它通过将系统设计特征与用户表现结果进行实证关联，推进了人机交互研究。其次，它为在准确性要求高的领域采用GenAI的组织提供了可操作的见解。第三，它强调了评估AI时不仅要考虑技术基准，还要考虑其支持人类表现的能力。通过应用TTF框架，本研究不仅探讨了RAG是否提高了输出质量，还探讨了它在减少认知负担的同时如何有效支持用户管理复杂信息检索任务。这种方法在技术能力和人类任务表现之间架起了桥梁，为研究人员和实践者提供了理论上有依据且实际相关的见解。

本研究的目标有三个：（1）比较使用基于RAG的系统与标准GenAI系统在信息检索任务中的用户表现。（2）探讨任务复杂性对用户表现和参与度的调节作用。（3）评估系统架构（RAG与非RAG）对信息检索质量和效率的影响。

研究结果对于设计面向用户的AI系统的开发者、评估替代AI架构的产品经理以及制定GenAI采用策略的IT决策者来说具有特别的价值。对于那些信息准确性至关重要的专业领域也是如此。例如，医疗IT专家、法律技术开发者和教育技术设计师可以从本研究中获得洞察，以更好地理解基于RAG的系统在准确性和可靠性至关重要的环境中的表现。在这些情境下，AI生成的信息中的错误（如错误的医疗建议、有缺陷的法律引用或误导性的教育反馈）可能会产生严重后果。通过提供RAG在真实用户环境中的有效性实证证据，本研究有助于更负责任和基于证据的GenAI工具整合到专业实践中。

章节摘录

生成式AI及其在信息检索中的作用

GenAI的最新进展改变了多个领域的信息检索方式。传统的搜索引擎通常依赖于稀疏检索技术，如词频-逆文档频率（TF-IDF）、BM25和向量空间模型，这些模型根据文档与用户查询的词汇相似性对文档进行排名（Cuconasu等人，2024年；Sauchuk等人，2022年）。

这些系统遵循概率排名原则，按估计的相关性降序排列结果。

概念框架

在TTF理论的指导下，本研究开发了一个研究框架，以考察基于RAG的生成式AI系统在不同任务复杂性下的表现。该概念模型将任务复杂性确定为主要任务特征，将RAG功能确定为核心技术特征，它们的相互作用影响了信息质量的三个维度：准确性、相关性和完整性。

该框架研究了三个主要方面

研究设计和参与者

为了验证假设，本研究采用了2（RAG功能：RAG与非RAG）× 2（任务复杂性：高 vs. 低）的全因子设计。实验旨在根据TTF框架，考察RAG功能和任务复杂性如何影响AI输出质量——通过准确性、相关性和完整性来衡量。

在数据收集之前，已获得机构审查委员会（IRB，ID KHSIRB-25-209）的伦理批准。

评分者间一致性和可靠性

编码过程遵循了一个透明、多阶段的过程。为了确保专家编码评估的一致性，对所有因变量和任务条件进行了评分者间一致性（IRA）和评分者间可靠性（IRR）的评估。使用Rwg指数（LeBreton & Senter，2008）进行评估，其平均值高于0.98，远高于强一致性的0.70阈值（James等人，1984年）（见表5）。进一步使用...

结果讨论

本研究考察了RAG功能对信息检索任务中用户表现的影响，并考虑了任务复杂性的调节作用。基于TTF理论的情景实验设计提供了实证证据，表明与标准LLM相比，RAG功能在现实的知识密集型任务环境中表现更优。主要发现是RAG功能在所有因变量上都具有显著的主效应，表明...

结论

本研究在理论和实践方面都做出了几项重要贡献。它是首批评估RAG系统以用户为中心的表现的实证研究之一。在方法论上，该研究通过具有高评分者间可靠性的专家编码评估展示了严谨性，并将TTF理论应用于新兴AI系统的背景中。这些元素共同使本研究成为AI评估和信息系统研究的重要贡献。

CRediT作者贡献声明

尹尚赫（Sang-Hyeak Yoon）：调查、方法论、验证、可视化、写作——审阅与编辑。阿金·皮奥（Ajin Pyo）：调查、方法论、验证、可视化、写作——审阅与编辑。杨成秉（Sung-Byung Yang）：写作——审阅与编辑、验证、监督、资源管理、项目管理、调查、数据整理、概念化。阿克蒂莱克·萨金巴耶娃（Aktilek Sagynbayeva）：写作——初稿撰写、可视化、验证、软件开发、项目管理、方法论、调查

未引用的参考文献

Arazy和Kopak，2011年；Bateman等人，1998年；Batini和Scannapieco，2016年；Cosijn和Ingwersen，2000年；Fitzgerald和Galloway，2001年；Flanagin和Metzger，2007年；Gu?u和Popescu，2024年；Knight和Janice，2005年；Pipino等人，2002年；Rieh，2002年；Savolainen，2011年；Stvilia等人，2007年；Xu等人，2006年。

利益冲突声明

无

手稿准备过程中生成式AI和AI辅助技术的声明

在准备本工作时，作者使用了ChatGPT来提高可读性和语法。使用该工具后，作者根据需要审查和编辑了内容，并对发表文章的内容负全责。

利益冲突声明

? 作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

无

阿克蒂莱克·萨金巴耶娃（Aktilek Sagynbayeva）（aktilek.sagynbayeva@khu.ac.kr）在庆熙大学研究生院获得了硕士学位。她的研究兴趣包括生成式AI、社交媒体和商业分析。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号