《International Journal of Medical Informatics》:Artificial intelligence applications using patient-generated health data for pre-care processes in elective healthcare: a systematic review
编辑推荐:
目的:人工智能(Artificial Intelligence,AI)可利用患者生成健康数据(Patient-Generated Health Data,PGHD)支持预护理流程,如分诊、症状评估和病史采集。既有系统综述分别考察了人工智能临床决策支持、患者生成
目的:人工智能(Artificial Intelligence,AI)可利用患者生成健康数据(Patient-Generated Health Data,PGHD)支持预护理流程,如分诊、症状评估和病史采集。既有系统综述分别考察了人工智能临床决策支持、患者生成健康数据应用以及面向特定数据模态的人工智能,但尚无研究聚焦其在预护理中的交叉领域。本研究旨在描绘所采用的人工智能方法与患者生成健康数据模态,综合技术、临床、运营、用户体验与公平性等结局领域的研究结果,并识别部署障碍及报告缺口。
方法:本系统综述依据PRISMA 2020声明开展,并预先在PROSPERO注册(CRD420251134235)。研究人员检索了PubMed、MEDLINE和Web of Science数据库中发表于2020年1月至2025年6月的研究,纳入评估利用患者生成健康数据支持择期医疗预护理流程之人工智能应用的文献。偏倚风险采用与各研究设计相适配的经验证工具进行评估。鉴于各结局领域存在异质性,采用叙述性综合进行分析。
结果:共纳入21项研究,所分析的患者生成健康数据包括自由文本(38%)、问卷(33%)、语音记录(14%)、可穿戴设备数据(10%)和图像(5%)。多数研究采用经典机器学习(Machine Learning,ML)(67%),43%的研究涉及深度学习,且大语言模型(Large Language Models,LLMs)于近期开始出现。模型性能显示出一定前景,曲线下面积(Area Under the Curve,AUC)范围为0.64–0.98,中位数为0.78。然而,该证据存在严重局限:95%的研究具有较高偏倚风险,仅6%的评估进行了外部验证,仅1项研究测量了临床结局。仅14%的研究评估了公平性。没有任何研究证明患者获益,也没有研究描述常规临床部署。
结论:当前证据表明,该领域已建立“概念可行性证明”,但尚未形成“获益有效性证明”。在能够为部署提供正当性依据之前,该领域需要从算法开发转向前瞻性验证、临床结局测量及公平性评估的方法学转变。
1. 引言
文章指出,受限于临床接触时间,医疗人员常常难以在有限会诊过程中完整收集、整合并解释与患者相关的信息。预护理流程主要包括症状评估、病史采集、分诊、筛查和风险评估,其核心功能是在正式就诊前完成信息整理,从而改善临床准备度以及医患沟通质量。随着数字健康技术的发展,患者可通过电子问卷、患者门户、可穿戴设备和语音记录应用远程提交健康信息,推动患者生成健康数据(Patient-Generated Health Data,PGHD)在医疗前端流程中的应用拓展。文章认为,医疗专业人员总体上认可PGHD的潜在价值,因为其有助于弥补就诊前的信息缺口;但若要在大规模场景下将PGHD转化为可执行的预护理支持,往往需要借助人工智能(Artificial Intelligence,AI)进行自动化分析。尽管如此,临床采纳仍受到数据可靠性、安全性及工作流整合等问题的限制,且对下游临床影响的证据仍较缺乏。作者据此提出研究必要性:既往综述分别讨论了AI临床决策支持、PGHD应用以及特定PGHD模态上的AI方法,但尚未系统整合“基于PGHD的AI支持择期医疗预护理流程”这一交叉领域。因此,本综述聚焦于非紧急、计划性医疗中的预护理应用,目标包括描绘AI方法与PGHD模态分布、综合多维结局,以及识别部署障碍与研究设计和报告缺口。
2. 方法
2.1. 方案与注册
本研究依照PRISMA 2020规范实施,并已于PROSPERO完成前瞻性注册,注册号为CRD420251134235。该部分表明研究在方案制定和执行层面遵循系统综述规范,有助于提高方法透明度和可重复性。
2.2. 纳入与排除标准
纳入研究需满足三个核心条件:其一,研究必须在医疗场景中开展,且仅使用PGHD。文中将PGHD界定为由患者本人,或由其家庭成员和照护者代为创建、记录或收集,并通过数字方式共享给医疗服务提供者的健康相关数据,包括健康史、症状、生物特征、治疗依从性、生活方式信息及患者报告结局。其二,研究需描述一个明确的AI应用之开发或评估,该应用旨在支持或执行择期医疗中的预护理流程,且该流程发生于直接临床接触之外,覆盖从初始症状到首次治疗前的路径。其三,研究应为同行评议的原始研究,可采用定量、定性或混合方法设计,但至少需报告1项相关结局。排除标准包括:非医疗情境、急诊或急性照护、精神科应用、使用非PGHD数据、仅提出理论模型而无实现、非英文文献等。该标准强调研究对象需严格聚焦PGHD与预护理交叉场景。
2.3. 信息来源与检索策略
研究人员在信息专家协助下构建检索策略,并应用于PubMed、MEDLINE和Web of Science Core Collection。检索式围绕三个概念模块展开:AI、PGHD及其输入模态,以及包括分诊、症状评估和病史采集在内的预护理流程;同时结合医学主题词与自由词,并通过布尔逻辑AND连接。时间限定为2020年1月至2025年6月,旨在捕捉包括Transformer架构在内的当代AI方法及其临床应用趋势。
2.4. 研究筛选
检索结果导入Rayyan系统综述软件后进行去重。两位研究者在完成随机样本校准后,独立开展题名摘要筛选及全文筛选,并依据既定纳入排除标准进行判断。出现分歧时通过讨论解决,必要时由第三位研究者参与裁决。该流程体现了双人独立筛选的规范化实施。
2.5. 数据提取
研究团队构建了标准化Excel数据提取表,并先在3项研究中试运行后迭代修订。数据提取覆盖52个类别,包括研究特征、人群信息、PGHD特征、AI方法学、数字基础设施、结局指标、实施因素及监管背景等。由1名研究者完成全部提取,另1名研究者对4项随机抽取研究进行独立核查。文中还特别区分“研究层面”和“评估层面”数据结构:若同一研究对多个预测任务或多种验证策略进行性能评估,则可贡献多个“评估”,以便更细粒度地汇总性能证据。变量标准化采用演绎编码与归纳编码相结合的方法。
2.6. 偏倚风险评估
针对不同研究设计,作者采用适配的验证工具进行偏倚风险评估。19项预测模型研究使用PROBAST(Prediction model Risk Of Bias ASsessment Tool),1项非随机干预研究使用ROBINS-I(Risk Of Bias In Non-randomized Studies of Interventions),1项将AI输出与临床参考标准比较的研究采用经调整的QUADAS-2(Quality Assessment of Diagnostic Accuracy Studies),另1项观察性队列研究使用Newcastle-Ottawa Scale。各领域风险分为低、高或不明确,总体风险取最高等级。该设计反映出作者力求在异质研究设计中实现相对一致的质量评价。
2.7. 综合方法
鉴于纳入研究在数据模态、算法、验证方式和结局指标方面存在显著异质性,作者采用符合SWiM报告规范的叙述性综合。综合框架首先从PGHD模态、AI范式和预护理用途三个维度对研究进行描述性刻画,再围绕模型性能、临床/健康结局、运营/经济结局、用户观点以及公平性/公正性等五个预设领域汇总结果。由于多数领域研究数不足,作者并未进行效应合并,而更侧重于评估“报告完整性”和证据强度。
3. 结果
3.1. 研究筛选
数据库初检共识别5147条记录,去除1998条重复文献后,对3149条记录进行题名与摘要筛选,排除3066条。对83篇全文进一步评估后,最终纳入21项研究。主要排除原因为未使用PGHD、未涉及预护理流程、发表类型不符、传感器类型非常规、未明确使用AI、未描述独立AI应用、无结局报告、重复发表及非择期照护等。作者说明部分研究同时满足多个排除条件,因此原因计数可超过排除文献总数。
3.2. 研究特征
纳入研究来自10个国家,其中美国占比最高,其次为西班牙,中国、韩国和德国次之。地域分布主要集中于北美、欧洲和东亚,仅有1项来自澳大利亚、1项为多国研究,拉丁美洲、非洲、中东及南亚均未见代表。研究覆盖11个单一医学专科,另有4项跨多个专科;其中神经病学最常见,耳鼻喉科、内分泌学和感染病学次之。文章特别指出,证据分布高度碎片化,多个专科仅由单篇研究代表,且心脏病学、肿瘤学、骨科和皮肤病学等高负荷专科缺席。样本量从7例至43,352例不等,中位数为1247;部分研究分析的是消息、录音等数据样本而非唯一参与者。绝大多数研究为回顾性设计,仅2项为前瞻性研究。
3.3. 偏倚风险评估
总体上,21项研究中有20项表现为高偏倚风险或存在显著顾虑,占95%。在19项接受PROBAST评估的预测模型研究中,全部被判定为高风险。最主要的问题集中在分析域,包括样本量相对于候选预测变量不足、外部验证极度缺乏,以及内部验证方式有限。参与者选择方面的问题也较常见,表现为样本代表性不足。另有采用ROBINS-I、QUADAS-2和Newcastle-Ottawa Scale评估的研究,亦显示出中度风险或特定领域不足。作者将这一结果与其他临床机器学习系统综述比较,指出本领域高偏倚风险比例甚至更高。
4. 叙述性综合结果
4.1. 患者生成健康数据模态
21项研究共涉及5类PGHD模态。问卷和调查数据较常用于症状评估、风险预测及筛查;自由文本和患者门户消息使用最广,主要借助自然语言处理(Natural Language Processing,NLP)从非结构化患者沟通中提取临床信息;语音/音频记录多用于神经系统功能评估;可穿戴传感器数据来自商业设备;另有1项研究使用智能手机采集图像。仅1项研究整合了多种PGHD模态。视频数据、被动/环境感知数据以及社会决定因素数据未被纳入,且多模态融合能否提高性能尚未得到检验。
4.2. 人工智能方法与算法
作者依据既有分类法,将算法分为经典机器学习、深度学习和大语言模型(Large Language Models,LLMs)三类。经典机器学习最常见,占67%;深度学习出现在43%的研究中;部分研究同时使用多类方法。常见经典算法包括随机森林、支持向量机(Support Vector Machine,SVM)、逻辑回归和朴素贝叶斯。深度学习中以卷积神经网络(Convolutional Neural Networks,CNNs)和BERT变体较常见。多数研究并非只测试单一算法,而是比较多个模型的表现。监督学习占主导地位,仅1项研究采用无监督方法。预训练模型在少数研究中出现,其中包括LLM应用。作者还指出,将LLM单列为分析类别,主要是由于其作为基础模型(foundation model)的使用方式及其特有评估挑战,如幻觉、输出波动和基准缺失。
4.3. 预护理流程中的应用类型
研究共涉及13类预护理用途,且多数研究并不局限于单一功能。最常见的是诊断支持,其次为筛查、资源优化、缩短诊断时间、分诊和转诊优化。其他较少出现的功能包括风险预测、自我评估、治疗推荐、病史采集、预约安排及健康素养识别。整体上看,AI在预护理中的功能定位较广,但应用分散,尚未形成某一场景中的稳定证据体系。
4.4. 人工智能性能
作者从21项研究中提取了52个模型评估单元。由于原始研究采用的评价指标差异较大,作者为每个评估提取一个主要指标用于综合。AUC最常见,其次为F1类指标、准确率以及人工评价指标。AUC范围为0.64–0.98,中位数为0.78;F1指标范围为0.48–0.99,中位数为0.79;准确率范围为0.55–0.75。虽然这些结果整体上显示模型具有一定区分能力,但作者强调,单纯高性能并不足以说明临床实用价值。尤其是参考标准高度异质,既包括病历中的临床诊断,也包括患者自报、专家共识及自动算法生成标签,因此不同研究间的同类指标并不具有直接可比性。更重要的是,绝大多数研究仅在开发数据内部进行验证,外部验证极少,前瞻性验证更为罕见。在家庭环境中采集的PGHD具有设备差异、环境波动和患者异质性等特点,若仅依赖开发集验证,模型在真实场景中的性能很可能被高估。此外,校准指标极少报告,仅10%的研究涉及此项;95%置信区间也普遍缺失,导致难以判断估计精度。
4.5. 结局报告完整性
除AI技术性能外,其他结局领域的报告均较为稀缺。临床和健康结局方面,仅1项研究考察了患者健康结果,且未显示统计学显著获益;没有研究评估照护路径变化、真实临床中的诊断准确性、到达适宜照护的时间,或患者安全结局。运营与经济结局方面,仅少数研究报告了节省时间或资源利用等运营指标,而正式卫生经济学评价完全缺失。用户视角方面,只有4项研究涉及可用性问卷等自报结局,且多为非盲法。公平性与公正性方面,仅3项研究按人口学亚组分析模型表现,但均未使用如PROGRESS-Plus之类的系统公平性评估框架;数字接入障碍和健康素养影响也仅在极少数研究中被考察。作者据此认为,当前文献在患者价值、系统价值与社会公平层面的证据极不充分。
4.6. 实施状态与障碍
实施状态报告并不一致,但总体看,绝大多数研究仍停留在回顾性开发和验证阶段,仅2项进行了前瞻性评估,且没有任何研究描述常规临床部署。作者发现,文献更多报告的是研究方法自身的局限,而非通过实施科学方法识别出的真实部署障碍。最常被研究者承认的问题包括数据质量与完整性、泛化能力、外部效度不足、数据不平衡以及算法偏倚。相比之下,与实际落地更相关的障碍,例如性能不确定性、可用性以及监管问题,报告较少。部分文章提出易用性、既有基础设施和可及性可作为促进因素,但这些多属作者主张而非经验证的实施发现。值得注意的是,没有研究采用利益相关者访谈、工作流分析或组织就绪度评估等实施科学方法,因此从“技术可行”到“临床可部署”之间仍存在明显鸿沟。
4.7. 监管与伦理考量
在监管与伦理方面,纳入研究主要停留于程序性合规报告,如伦理审批、知情同意和数据匿名化,而缺乏对实质性监管路径的讨论。虽然多数研究报告了伦理批准,但知情同意和匿名化的报告比例并不高,且有部分研究完全未说明监管背景。文章指出,可信临床AI的国际共识建议明确适用法规,包括美国食品药品监督管理局(Food and Drug Administration,FDA)软件作为医疗器械(Software as a Medical Device,SaMD)路径和欧盟医疗器械法规(Medical Device Regulation,MDR)要求,同时应建立上市后监测、风险管理与技术文档。然而,本综述中没有研究涉及FDA批准、CE标志、上市后监测或相关技术文档。另有相当比例研究未引用任何报告规范,如TRIPOD、STROBE或FUTURE-AI,从而限制了复现性与证据整合。
5. 讨论
5.1. 主要发现总结
作者认为,本综述显示PGHD驱动的AI预护理应用已在技术上证明可行,涵盖多种数据模态、算法范式与临床场景,模型性能表面上较为可观。然而,真正与患者和卫生系统相关的结果几乎未被测量,外部验证和前瞻性验证严重不足,偏倚风险普遍较高,尚无常规部署证据。因此,现阶段只能认为该领域已完成“概念验证”,尚不能证明其带来临床获益。
5.2. 优势与局限
作者指出,本综述在方法学上采用了多数据库检索、双研究者筛选、适配性偏倚工具和适用于高度异质证据的叙述性综合,具有一定严谨性。同时,聚焦“预护理中的PGHD-AI”这一交叉主题,使其能够揭示一般AI综述难以识别的特殊问题。但作者也承认局限,包括纳入研究设计与结局高度异质、英文限制、仅纳入纯PGHD研究导致外推性受限,以及研究流程中数据提取和偏倚评估主要由单一研究者完成。时间窗口限定在2020–2025年虽然有助于体现当前技术发展,但也意味着算法频率分布只是截至2025年6月的阶段性快照。
5.3. 与既有文献比较
文章将本综述结果与AI临床决策支持、可穿戴设备AI、症状检查器和NLP等领域的既有系统综述对照,指出验证不足、高偏倚和真实世界证据缺乏是跨领域共性问题。本研究的独特贡献在于整合了这些文献交叉处的PGHD预护理应用,并进一步显示该领域在外部验证和临床获益证据方面甚至更为薄弱。作者还援引NICE证据标准框架,指出当前纳入研究均未达到能够支持影响临床决策的最佳实践要求。
5.4. 启示
作者认为,PGHD基础上的AI确有潜力处理多模态信息并发现人工难以高效识别的模式,但其能否改善照护取决于模型在不同人群、设备和采集环境中的稳定性,及其在数字素养差异下的公平表现。未来研究应优先开展多中心、前瞻性、真实条件下的外部验证,并将临床结局、照护路径结局、工作流整合、患者接受度和设备差异纳入评估。公平性问题尤其关键,因为该类技术既可能通过远程评估扩大服务可及性,也可能因算法偏倚和数字鸿沟加剧不平等。对于医疗机构而言,当前更适合采用带有前瞻性结局监测的结构化试点,而非直接常规推广。
5.5. 结论
文章最终指出,基于PGHD的AI在择期医疗预护理流程中的应用目前仅证明了技术可行性,尚未证明临床获益。要缩小技术前景与患者获益之间的差距,至少需要三方面改进:第一,从单中心回顾性开发转向多中心、前瞻性、真实环境下的外部验证;第二,将患者健康结局和照护路径结局作为最低限度的评价内容,并与现行实践进行基准比较;第三,采用预先规定的公平性评估框架,并一致使用TRIPOD-AI、FUTURE-AI等报告标准。在这些关键缺口被弥补之前,PGHD驱动的预护理AI部署更应被视为研究活动,而非既定的临床常规实践。