在患者报告结局测量工具开发中利用大语言模型:实践机遇、注意事项与人在回路路线图

《Journal of Patient-Reported Outcomes》:Leveraging large language models in patient-reported outcome measure development: practical opportunities, cautions, and a human-in-the-loop roadmap

【字体: 时间:2026年06月03日 来源:Journal of Patient-Reported Outcomes 2.9

编辑推荐:

  背景 患者报告结局(Patient-Reported Outcome,PRO)测量工具开发涉及多个语言密集型阶段,包括概念领域定义、候选条目生成、定性优化,以及在心理测量学(psychometric)评估之前开展认知访谈。大语言模型(Large Langua

  
背景

患者报告结局(Patient-Reported Outcome,PRO)测量工具开发涉及多个语言密集型阶段,包括概念领域定义、候选条目生成、定性优化,以及在心理测量学(psychometric)评估之前开展认知访谈。大语言模型(Large Language Models,LLMs)可能为支持这些质性开发活动提供新的机会,尽管其在既有PRO开发框架中的角色仍未被充分界定。

目的

本评论提出一条务实的“人在回路”(human-in-the-loop)路线图,用于将LLMs整合进PRO开发的质性阶段,同时保留内容效度(content validity)与心理测量学严谨性(psychometric rigor)的既有标准。

方法路径

基于饮食行为测量(Eating Behavior Measurement,EBM)项目开发实例,以及来自PRO科学、调查方法学和心理测量研究的新兴文献,研究人员概述了LLMs在PRO测量工具质性开发工作流中的若干边界清晰的应用场景。这些应用包括:加速既有条目池的综合整理(“领域制图”);在由人工界定的构念内生成候选条目;根据认知访谈结果支持条目的迭代修订;开展用于构念一致性判断的语义连贯性检查;以及辅助候选条目的发展阶段适配或情境适配。在上述应用中,LLMs发挥的是结构化起草与分析工具的作用,而非效度裁决者。文章还进一步讨论了确认偏倚、语义循环性、透明性、可重复性及构念漂移等实际风险,并提出通过人工监督和模型三角互证加以缓解的策略。

结论

LLMs并不能替代质性探究、专家判断或经验性心理测量学验证。相反,当其被置于边界明确、以人为中心的测量框架内使用时,可能有助于支持更系统化、可扩展的质性开发工作流。对于PRO科学而言,核心挑战并不在于是否采用这些工具,而在于如何在不损害该领域所依赖的证据标准的前提下,负责任地整合这些工具。
本文发表于《Journal of Patient-Reported Outcomes》,是一篇围绕大语言模型(Large Language Models,LLMs)在患者报告结局(Patient-Reported Outcome,PRO)测量工具开发中的应用边界、方法定位与治理原则展开的评论性论文。文章聚焦于PRO量表开发早期高度依赖语言处理的质性阶段,讨论LLMs如何在不取代传统内容效度建构与心理测量学验证流程的前提下,被整合进现实研究工作流之中。研究背景在于,PRO测量开发通常起始于患者经验表达,再经由概念提炼、领域定义、候选条目撰写、专家评审、认知访谈和后续定量验证,形成具有可解释性与测量学质量的工具。这一过程本质上是从生活经验到操作化构念的多轮语言转换,工作量大、判断要求高、迭代频繁。与此同时,LLMs作为生成式人工智能(artificial intelligence,AI)中的自然语言工具,已展现出强大的文本生成、归纳、聚类和改写能力,因此为PRO开发中的早期质性工作提供了潜在助力。

当前存在的问题在于,尽管已有研究与评论开始关注生成式AI可能改变量表设计、施测与解释方式,但LLMs在既有PRO开发框架中的合理定位仍不清晰。尤其是在强调内容效度、认知访谈和经验性验证的PRO科学中,若将LLMs误当作效度判定者,可能带来方法学失真。研究人员因此开展本研究,旨在提出一条务实、可操作、以人工监督为核心的“人在回路”整合路线图,明确LLMs只能作为结构化起草与辅助分析工具,而不能替代专家判断、质性研究和心理测量学检验。论文的重要意义在于,它不是抽象讨论AI前景,而是将LLMs置于具体的PRO开发环节中,界定可用之处、不可越界之处及风险缓解机制,从而为该领域在方法创新与证据标准之间建立平衡提供参考。

研究人员主要依据EBM项目的开发经验展开论述。EBM是一个持续推进的多领域儿科测量开发项目,关注儿童及其家庭中的进食、喂养和用餐行为。文章说明,在这一项目中,研究人员并未让AI决定构念是否存在,也未让AI判定条目是否有效,而是将其用于若干边界明确的任务:帮助梳理领域结构,识别测量不足区域,起草候选条目,依据家庭认知访谈反馈提出修订版本,并通过“反向推断”条目所指向的操作性定义来检查条目集合是否在语义上回指预期构念。最终结论是:LLMs不能替代PRO开发中的核心证据生产过程,但若在人工主导、透明记录、反复审查和后续经验验证的框架内使用,能够使早期质性开发更加系统、明确且可扩展。

研究人员采用的关键技术方法主要包括:其一,基于文献综述、既有量表回顾、专家输入及在可能条件下的概念引出(concept elicitation)完成人工主导的构念界定;其二,结合EBM项目对80余个既有量表和1,400余条条目进行整理,借助LLMs开展“领域制图”、语义聚类、候选操作性定义草拟与条目起草;其三,通过认知访谈(样本来源为家庭/照护者反馈)对条目可理解性、污名感、发展适宜性等进行评估,并使用LLMs辅助提出修订措辞;其四,采用语义连贯性检查、跨模型三角互证及后续标准心理测量学验证作为质量控制思路。

研究结果部分可概括如下。

A practical place to start is the earliest phase of measure development: understanding the existing measurement landscape.

研究人员指出,LLMs最现实的切入点,是量表开发最初阶段对既有测量版图的理解。在许多研究领域中,开发团队需要回顾大量历史量表,从中抽取数百至数千条目,识别哪些内容已被充分测量、哪些内容测量不一致、哪些构念尚未被覆盖。EBM项目中,研究人员回顾了80多个现有测量工具和1,400多条条目,用以描绘该领域的构念分布。文章认为,这类“领域制图”任务非常适合LLMs加速完成。通过总结大规模条目集、提出候选构念簇、标示语义重叠并生成操作性定义草案,LLMs能够减少人工初筛负担,使研究团队将更多精力投入理论判断与批判性评估。由此得出的结论是,LLMs可用于既有条目生态的系统梳理,但不能替代理论基础与研究者判断。

A second and more obvious use case is candidate item generation.

在候选条目生成方面,研究人员认为LLMs的重要价值不只在于“能够写条目”,而在于能够扩展候选条目空间。文章结合EBM经验指出,当既有量表存在概念空缺,或历史条目措辞与目标构念不够匹配时,LLMs可作为结构化头脑风暴工具,帮助研究人员围绕人工明确定义的构念生成更多可能的表达方式。例如,既有量表中常见对特定餐次、特定日期由谁喂养儿童的狭窄提问,而研究人员借助LLMs探索了更能反映底层构念的广义条目,如儿童是否通常独自进食、是否在照护者陪同下进食、是否参与稳定的用餐惯例。类似地,研究人员未局限于统计具体食物摄入数量,而是围绕照护者是否感知营养性食物可获得、被提供并纳入日常喂养实践来起草候选条目。由此可见,LLMs能够帮助形成不同措辞、调节阅读水平并暴露构念定义是否足够精确,从而支持条目开发前端工作。

A third use case is item revision.

在条目修订方面,文章强调认知访谈仍是现代PRO开发不可或缺的核心程序,因为其能够揭示受试者如何理解条目语言、提取相关经验、形成判断并映射至答案选项。LLMs在此阶段可作为“有限职责”的起草伙伴,依据访谈发现快速生成替代表达、补充情境示例,或提出更符合发展阶段的条目版本。在EBM项目中,研究人员在修订有关照护者提供“健康”食物选择的条目时发现,来自文献和专家讨论的若干措辞对家庭而言带有较强评价性和判断感。于是借助LLMs生成不同版本,再经过专家评审与家庭反馈评估,最终发现“nutritious”比“healthy”更少污名化、也更少评判意味,从而影响了最终措辞选择。这里得出的结论是,LLMs可以提高条目修订效率并丰富替换方案,但所有修订仍须经由真实受访者反馈与专家审定。

A fourth use case, and one we found especially useful, is semantic coherence checks for construct alignment.

研究人员特别强调语义连贯性检查在构念对齐中的用途。在实际应用中,研究团队不仅用LLMs生成条目,还把不带构念标签的条目集合重新输入模型,要求模型反向推断其所代表的操作性定义。这一过程并非“AI验证”,而是一种上游语义检查。如果原本意在测量“情绪性喂养”的条目被模型推断为“工具性喂养”,或者两个理论上不同的子领域被推断出几乎相同的定义,那么这提示条目措辞可能未能清晰地区分构念。文章还援引相关心理测量研究指出,LLM嵌入(embeddings)能够从条目语义中恢复先验因子结构,基于LLM的构念映射也可补充人工内容效度判断。然而作者明确区分:语义相似性、概念接近性和语义聚类并不等同于维度性、不变性、信度或构念效度。故而,语义连贯性检查的定位只能是定量测量前的上游质性辅助。

A fifth use case is adaptation and tailoring.

在适配与定制方面,文章指出,PRO开发团队常需根据发展阶段、疾病情境、照护场域、应答者类型、识字水平或文化语境对量表进行修改。LLMs可帮助团队较快生成适配草案。例如,评估儿童对饥饿和饱腹线索识别的条目,在婴幼儿照护者版本中可能应强调“转头拒食”“拒绝喂入口”“把食物推开”等可观察行为,而在年长儿童中则更适合直接表述儿童是否会口头表达饥饿、饱腹或食物偏好。研究人员据此认为,LLMs有助于生成发展适配的措辞和情境示例,但人工审查仍然必不可少,因为任何适配都可能在无意中改变构念含义、语气或难度。所有LLM生成的适配版本都必须接受与其他修订条目相同的质性评估、可翻译性审查及经验测试。

在风险与治理方面,文章系统总结了LLMs用于PRO早期质性开发时的主要隐患。首先,模型可能“幻觉化”构念、压缩相邻领域的有意义区分、复制训练数据中的偏倚,并生成表面流畅但概念空洞的措辞。EBM经验表明,一些模型建议虽然看似合理,却存在语义不精确、构念偏移或发展不适宜等问题;某些修订甚至将照护者喂养构念泛化为一般育儿行为,削弱了概念特异性。其次,存在确认偏倚风险,即研究者可能将模型生成的语义聚类或操作性定义草案误认为真正的构念结构。再次,若在同一会话环境中反复使用同一模型进行条目生成和后续语义检查,还会出现语义循环性。为减轻这些问题,研究人员提出应将模型输出视为暂定草稿,必须经过独立理论审查、专家裁决和反复修订;在条件允许时,可采用新会话、盲法提示或不同模型架构开展二次语义评估,并通过模型三角互证比较GPT类模型、CoPilot、Claude、Gemini等输出的一致性。作者同时强调,PRO开发还有独特的数据隐私议题,因为认知访谈文本和开放式回答常含有患者或照护者的逐字叙述,输入商业LLM平台可能涉及数据保留、训练复用、机构政策和伦理审查(IRB)一致性问题。即便去标识化后,叙事材料仍可能带有情境识别信息,因此需重视数据治理、安全部署与处理流程记录。

在方法流程层面,论文提出了一条清晰的“人在回路”路线图。研究人员主张,首先仍应完成传统概念工作,包括文献综述、现有量表回顾、专家输入及尽可能的概念引出;其后可借助LLMs总结历史条目池、识别语义簇并草拟候选操作性定义;仅在构念已由人工清晰界定之后,再使用模型生成候选条目或替代表达;随后必须依次接受专家评审、可读性与可翻译性审查以及目标人群认知访谈;如有需要,再让模型基于访谈结果提出修订版本或执行语义连贯性检查;最后才进入定量心理测量学检验阶段,评估维度性(dimensionality)、局部依赖(local dependence)、差异项功能(differential item functioning,DIF)、信息量(information)、响应性(responsiveness)与可解释性(interpretability)。这一顺序保留了当代PRO开发框架的核心原则,即效度来自累积证据,而非仅由措辞优雅与否决定。

讨论部分的核心在于,研究人员并不主张因风险而放弃LLMs,而是主张以结构化方式谨慎整合。文章反复强调,问题不在于是否使用LLMs,而在于如何在既有效度框架内负责任地整合它们。基于EBM项目的经验,作者认为LLMs最有前景的定位,不是自主量表设计者,也不是心理测量权威,而是能够帮助研究团队更广泛地搜索、更快速地起草、比较更多备选方案,并更有意识地审视条目集合的语义结构。对于一个以将生活经验转化为有效测量为核心任务的领域而言,这种能力具有实际意义。但前提始终是:不能牺牲PRO科学赖以成立的证据标准、透明性和可审计性。

研究结论部分可译为:大语言模型(LLMs)并不能替代质性探究、专家判断或经验性心理测量学验证。相反,当其在边界明确、以人为中心的测量框架内使用时,可能有助于支持更系统化且更具可扩展性的质性开发工作流。对PRO科学而言,核心挑战并非是否采用这些工具,而是如何在不损害本领域所依赖的证据标准的前提下,负责任地整合这些工具。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号