像ChatGPT和Claude这样的生成式人工智能(GenAI)工具已在教育、医疗保健、法律和内容创作等多个领域迅速普及。这些系统正在重塑个人和组织搜索、分析和生成信息的方式。根据麦肯锡(McKinsey)2024年的数据,大约72%的公司至少在一个业务功能中使用了GenAI。
GenAI的整合也改变了信息检索领域。传统的搜索系统依赖于关键词匹配和静态数据库,而GenAI系统则利用能够理解自然语言查询并生成上下文相关响应的大型语言模型(LLM)(Li等人,2025年;Shin等人,2025年)。因此,研究人员、分析师和政策制定者越来越多地使用GenAI不仅来检索信息,还用来解释和综合信息(Kumar等人,2024年)。
尽管有这些优势,GenAI工具仍面临显著的限制。大多数GenAI工具是在通用数据集上训练的,缺乏对当前或特定领域信息的访问能力。一个更为紧迫的问题是“幻觉”现象,即AI模型产生的响应看似合理但实际上是不正确的(Huang等人,2025年)。在医疗保健和法律等高风险领域,这种不准确性可能会产生严重后果(Varshney等人,2023年)。这些挑战削弱了用户的信任,并限制了GenAI技术的更广泛采用。
尽管已经开发出检索增强生成(RAG)来应对这些限制,但以往的研究主要集中在系统层面的评估上,关注的是事实准确性和基准性能等指标。然而,目前尚不清楚这些技术改进是否能在实际应用中转化为用户表现的提升。随着组织越来越依赖GenAI工具来处理关键决策任务,这种以用户为中心的实证研究缺口尤为显著。RAG通过允许生成模型在生成过程中检索外部最新信息来增强其能力(Gu?u & Popescu,2024年;Lewis等人,2020年)。
虽然这种方法在FEVER和HotPotQA等基准数据集上显示出事实准确性的提升(Gao等人,2024年;Wang等人,2025年),但以往的研究主要集中在使用准确性或基准分数等技术指标的系统层面评估上。然而,这些评估并不一定能反映RAG在实际环境中对用户中心结果(如任务成功率、决策质量和信息有效使用)的影响。此外,关于RAG如何影响用户的信心、决策质量和认知过程,以及这些关系如何随任务复杂性变化的问题仍然存在。只有少数研究在生态学上有效的环境中对这些问题进行了探讨(Arslan等人,2024年;Asai等人,2024年)。
本研究旨在通过探讨RAG增强型GenAI系统在特定领域、对准确性要求高的环境中的用户表现来填补这些空白。基于任务-技术适配(TTF)框架,本研究考察了RAG功能和任务复杂性如何相互作用以影响用户结果。具体而言,通过三个直接反映标准LLM核心局限性的以用户为中心的指标来评估信息质量:准确性(用于评估幻觉减少和事实正确性)、相关性和完整性(用于衡量检索信息的全面性)。这些指标共同构成了一个综合框架,用于评估基于RAG的系统如何解决传统GenAI的固有弱点,并提高用户在信息检索任务中的表现。
与以往主要依赖基准数据集和自动化指标的研究不同,本研究采用了基于情景的实验设计来观察用户与GenAI系统的真实交互。这种方法能够探索用户在真实任务条件下的不同系统架构下的互动情况,克服了标准化数据集往往无法反映实际信息需求或用户行为的局限性。
本研究在三个关键方面为文献做出了贡献。首先,它通过将系统设计特征与用户表现结果进行实证关联,推进了人机交互研究。其次,它为在准确性要求高的领域采用GenAI的组织提供了可操作的见解。第三,它强调了评估AI时不仅要考虑技术基准,还要考虑其支持人类表现的能力。通过应用TTF框架,本研究不仅探讨了RAG是否提高了输出质量,还探讨了它在减少认知负担的同时如何有效支持用户管理复杂信息检索任务。这种方法在技术能力和人类任务表现之间架起了桥梁,为研究人员和实践者提供了理论上有依据且实际相关的见解。
本研究的目标有三个:(1)比较使用基于RAG的系统与标准GenAI系统在信息检索任务中的用户表现。(2)探讨任务复杂性对用户表现和参与度的调节作用。(3)评估系统架构(RAG与非RAG)对信息检索质量和效率的影响。
研究结果对于设计面向用户的AI系统的开发者、评估替代AI架构的产品经理以及制定GenAI采用策略的IT决策者来说具有特别的价值。对于那些信息准确性至关重要的专业领域也是如此。例如,医疗IT专家、法律技术开发者和教育技术设计师可以从本研究中获得洞察,以更好地理解基于RAG的系统在准确性和可靠性至关重要的环境中的表现。在这些情境下,AI生成的信息中的错误(如错误的医疗建议、有缺陷的法律引用或误导性的教育反馈)可能会产生严重后果。通过提供RAG在真实用户环境中的有效性实证证据,本研究有助于更负责任和基于证据的GenAI工具整合到专业实践中。