《LabMed Discovery》:Adoption paradox of artificial intelligence in computational pathology: a three-stage maturity model from algorithms to clinical integration
编辑推荐:
基础模型和多模态模型现已在病理学的多种诊断、预后及生物标志物任务中达到专家级水平。然而,仅有少数人工智能(AI)系统应用于常规临床实践,且已投入临床使用的产品与研究原型存在显著差异。研究人员将这一错配定义为计算病理学的采用悖论。研究人员首先概述从任务特异性深度
基础模型和多模态模型现已在病理学的多种诊断、预后及生物标志物任务中达到专家级水平。然而,仅有少数人工智能(AI)系统应用于常规临床实践,且已投入临床使用的产品与研究原型存在显著差异。研究人员将这一错配定义为计算病理学的采用悖论。研究人员首先概述从任务特异性深度学习到大尺度单模态基础模型、多模态系统以及早期智能体架构的技术全景。随后,研究人员审视了实际进入临床领域的产品,识别出四种产品原型:数字病理平台、人群规模细胞学筛查、外科病理学辅助检测和定量免疫组织化学(IHC)评分。通过三阶段成熟度模型——算法能力(Stage 1)、系统整合(Stage 2)和机构采用(Stage 3),研究人员分析了阻碍各阶段转换的结构性壁垒。三大相互关联的壁垒解释了这一鸿沟:(1)数据与基础设施脆弱性[前分析变异性、扫描仪诱导的域迁移、格式碎片化、标注稀缺、手动质量控制(QC)];(2)工作流程错配(病理学家的认知节律、自动化偏见、情境依赖性延迟);(3)机构信任赤字(浅层可解释性、不完整的前瞻性验证、不明确的报销机制、未解决的责任归属,以及针对生成式/自适应系统的监管缺口)。研究人员为每个阶段概述了系统级路径,包括基础设施优先、人工智能(AI)工作流嵌入式智能和适应性治理。核心论点是,下一阶段的进展将较少依赖架构新颖性,而更多依赖于将能力转化为临床效益的缓慢机构性工作。该框架为监管机构、开发者和医疗机构提供了可操作的视角,以诊断特定AI系统为何仍为原型,以及需要何种条件将其推入常规使用。
2 算法成熟度与临床转化
2.1 病理学AI的进展
2.1.1 任务特异性系统
任务特异性系统代表了病理学AI开发最成熟的阶段。其在多个推理尺度上运行,从像素级分割到切片级和患者级预测,反映了全切片图像(WSI)的分层结构。其应用涵盖既定的诊断辅助任务和更具探索性的转化任务。
已建立的任务集中在具有明确临床终点的任务。在像素和细胞层面,染色归一化已成为跨机构模型鲁棒性的关键决定因素,后续自监督归一化策略表明协调染色外观显著影响泛化性能。实例分割核与肿瘤细胞已成为定量病理学的核心组成部分:DCAN引入了轮廓感知多任务学习,HoVer-Net展示了异质性组织中的稳健核分割与分类,Cellpose通过广义向量流表示扩展了跨数据集适应性。在区域和切片层面,弱监督多实例学习无需逐像素标注即可实现准确的肿瘤检测,前列腺癌症分级评估(PANDA)挑战赛表明前列腺癌活检的AI分级可跨国家队列达到病理学家共识水平。定量IHC分析是另一部署导向领域,针对人表皮生长因子受体2(HER2)和程序性死亡配体1(PD-L1)等临床可行动生物标志物的自动化评分系统共享明确的终点、结构化真实值和可测量的重现性改进,构成了病理学AI应用中部署准备度最高的类别。
探索性任务方面,转化应用延伸至分子推断、预后建模和模态转换。Kather等关于微卫星不稳定性直接从H&E切片预测的奠基性工作确立了基因组改变留下可检测形态学特征的重要发现,后续研究将其扩展至非小细胞肺癌的突变预测。生存预测已从Beck等的手工设计形态特征基础工作,发展为弱监督深度学习架构,将切片级别表征与多种癌症类型的总生存期和无复发生存期相关联。虚拟染色是该领域的生成式扩展,Christiansen等引入的计算标记以及Rivenson等针对虚拟H&E-to-IHC转化的改进工作,配合对抗和扩散架构,旨在减轻实验室负担并实现多重生物标志物评估。由于评价常依赖于代理相似性指标而非直接生化等效性,跨机构验证和标准化评估框架对临床转化至关重要。
2.1.2 基础和多模态系统
过去两年见证了计算病理学基础模型的快速扩展。然而,这种扩展是否转化为临床部署的有意义增益,抑或仅是回顾性基准上的数值提升,是近期才开始获得经验审视的独立问题。
核心方法论挑战在于将基于Transformer的架构适应于WSI的十亿像素尺度。层级自监督策略表明,通过多分辨率表征学习可将视觉Transformer(ViT)扩展至十亿像素输入,同时保留局部形态学和全局组织上下文。多个大单模态病理学基础模型遵循此设计:UNI基于约3.07亿参数的ViT-L/16骨干网络构建;Prov-GigaPath使用约11.3亿参数的ViT-G/14视觉编码器和LongNet切片级组件;CHIEF定位于临床诊断和预后;Virchow采用约6.32亿参数的ViT-H/14骨干网络,在单一大型美国癌症中心的约150万张WSI上训练。
视觉-语言和多模态基础模型将此项工作扩展至跨模态推理。OpenPath表明从医学社交媒体策划的病理图像-文本对可支持视觉-语言对齐与数据高效迁移;CONCH开发了在生物医学语料库上训练的病理学特异性视觉-语言基础模型。更新颖的多模态全切片基础模型在预训练期间整合临床报告、基因组谱或转录组信号:TITAN大规模对齐WSI与报告及合成字幕,MUSK探索精准肿瘤学的统一掩码建模。智能体系统代表进一步步骤,PathChat集成病理视觉编码器与大语言模型以支持多模态诊断对话,多智能体对话框架协调语言模型智能体以模拟协作临床推理的各个方面。这些副驾驶式架构将计算病理学从孤立预测推向交互式决策支持,尽管报告的收益基于回顾性评价,尚未在前瞻性工作流程研究中得到验证。
更关键的问题是基础模型在实际部署中是否优于任务特异性系统,抑或仅在基准上表现更佳。de Jong等评估了10个公开可用的病理基础模型,发现每个模型在嵌入空间中对医疗机构起源的编码均强于生物学信号;虽大多数最先进模型在公共数据集上达到AUC>0.9,但仅单一模型的鲁棒性指数勉强超过1,这对评估私有数据集和非标准图像格式上的模型效能至关重要。Campanella等提供了涵盖多器官癌症检测和生物标志物预测的补充性临床基准,证实在病理数据上的自监督预训练优于ImageNet预训练,但发现在自监督基础模型家族内扩大规模仅带来约8%的相对增益且存在显著的任务间变异。计算成本进一步强化了审慎态度:3.07亿参数的ViT-L/16在现代GPU上可行,而超过10亿参数的ViT-G/14使GPU内存和每瓦片推理时间增加约三倍;对于典型20× WSI包含数万个前景瓦片,十亿像素级基础模型对许多社区病理实验室施加的延迟和存储要求难以承受,除非配备专用基础设施、模型蒸馏或混合边缘-云架构。
2.2 临床部署现状
2.2.1 监管格局和批准系统
研究人员系统查询了FDA上市前数据库[510(k)、De Novo]、欧盟Eudamed和IVDR指定机构清单、中国国家药品监督管理局(NMPA)医疗器械技术审评中心注册数据库、PMDA医疗器械注册清单和MHRA体外诊断注册册,汇总了截至2026年3月的部署格局。各辖区内限定为具有明确病理成像预期用途的器械,排除仅与单一用途研究仪器捆绑的软件。
监管分类在不同法域间存在差异,但 converge于这些工具构成中高度临床风险、需要结构化上市前证据的原则。FDA提供De Novo分类和510(k)途径;欧盟在IVDR下将大多数病理AI归类为C类或D类器械,需经指定机构合格评定,AI法案增加了人工监督和后市场监测要求;NMPA将此类系统归类为Ⅲ类器械,强制多中心试验同时为首创技术提供加速审评通道。尽管路径日趋明确,研究文献中仅少数模型进入临床使用,批准产品聚集为四种可识别原型:数字病理平台(如PathAI AISight Dx、Philips IntelliSite、Sectra、Roche Navify)作为基础设施级而非纯算法产品,嵌入图像管理层而非作为独立模块附加;人群规模细胞学筛查(如Sunvision Tech/Wondfo、Yice Tech/Dian Diagnostics、Anbiping LBP)采用细胞级检测后接病例级风险分层的双阶段架构,以高阴性预测值(NPV)的分流中心模式运行,依托液基标本制备的标准化和Bethesda报告系统的普遍使用;外科病理学辅助检测(如Paige Prostate、Ibex Prostate Detect、Lunit SCOPE、Aiforia Suite)基于瓦片级弱监督WSI分析,生成疑似癌的热图/警报,采用优先敏感性的第二读取工作流;定量IHC评分(如Mindpeak的HER2/Ki-67/PD-L1、Visiopharm AI模块)提供与既定临床报告框架对齐的标准化评分,因终点精确、人工评分观察者间变异有据可查,特别适合监管批准和LIS整合。
一致模式清晰可见:进入临床使用的产品范围狭窄、任务特异、设计为嵌入现有工作流。监管批准并不自动转化为常规嵌入,许多获批产品仍处于试点或有限部署阶段,受采购经济、整合开销和AI辅助解读专用报销代码缺失的制约而非算法缺陷。
2.2.2 研究能力与部署范围对比
研究侧与部署侧之间存在鲜明反差,构成采用悖论的实证基础。研究方面,病理基础模型扩展至数十亿参数,在数十个下游任务中验证;部署方面,表1中每个产品均在单一预设任务上运行,使用监管批准后不更新的冻结模型,无跨任务泛化、无自由文本临床病史或基因组数据摄取、无自然语言输出解释。这一分歧反映了临床转化的结构性现实:真实世界数据基础设施的成本与脆弱性、AI输出与病理实践认知节律对齐的难度,以及使监管机构和机构对难以限定行为系统保持谨慎的治理约束。
3 从模型到诊所的结构性壁垒
3.1 数据与基础设施脆弱性
数据变异性是临床转化最直接的技术障碍,沿数据生成链传播。前分析条件(固定时间、切片厚度、染色浓度)即使从相同样本也产生显著不同的染色和形态特征,与扫描仪诱导域迁移复合:不同制造商的全切片扫描仪采用专有光学传感器、色彩校准管道和重建算法,从同一玻片生成系统性差异的颜色空间和对比度轮廓。实证工作确认跨医疗中心的显著性能下降主要由扫描仪和位点特异性技术变异而非生物学差异驱动。数字病理生态系统也因专有文件格式而碎片化,缺乏与LIS和电子健康记录的固兼容性。标注稀缺是额外瓶颈:高质量像素级标注成本高且受显著观察者间变异影响,弱监督和多实例学习通过利用切片级标签减轻负担但以空间精度换取可扩展性。广泛使用的数据集如癌症基因组图谱(TCGA)主要来自欧洲血统人群和有限学术中心,引入系统性人群和机构偏倚。QC实践基本仍属回顾性和手动的,开源工具如HistoQC和GrandQC已开始自动化此层,但跨机构将质量指标与下游模型性能链接并整合共享QC基准至部署仍是未解决的基础设施问题。
3.2 工作流和人-系统错配
技术集成摩擦方面,计算工具必须在病理学家的主要查看和报告界面内运行,与LIS的双向整合因格式碎片化和LIS供应商间缺乏标准化应用程序接口(API)而技术挑战。基础规模模型的计算需求进一步约束实时处理十亿像素WSI需要许多机构无法提供的高性能基础设施,中型医院日产约3000张切片可能年积累PB级数据。
认知节律和自动化偏见方面,病理学家遵循特征性的由粗到细阅读节律:初始低倍概览、候选感兴趣区域识别、选择性高倍检查,整合临床病史。眼动追踪研究使此模式明确化:经验丰富的病理学家比新手更早注视诊断关键区域并产生更高效的搜索轨迹;病例最初数秒内的整体观察本身是 expertise 标志;诊断过程是假设生成和靶向复查的迭代循环而非干净的低-高倍递进。忽略此节律的AI输出容易时机不当:在病理学家形成初始低倍印象前呈现的热图可能过早锚定注意力,而在签发开始后呈现的热图则很少被重温。自动化偏见即在时间压力下接受算法建议而不充分审查的倾向,在病理工作负荷条件下风险升高:长签发列表、重复病例类型和阴性发现的主导基线率使自信的阴性提示不太可能受到质疑,在受训者中尤为明显。相反,过多假阳性警报诱发警报疲劳后临床医生将模型输出作为类别驳回。有效界面设计必须在视觉和语义上区分算法建议与确定性诊断结论。
情境依赖性部署要求方面,不同临床环境施加根本不同的系统设计要求:筛查工作流(宫颈细胞学、胃活检分流)以高吞吐量、标准化形态和数小时批次处理容忍为特征;诊断工作流(外科病理学签发、会诊病例)涉及较低吞吐量但较高复杂性,需要交互式参与和处理模糊表现的能力;术中工作流(冰冻切片评估)要求亚5分钟周转,对当前基础规模模型构成延迟约束,除非架构优化或模型蒸馏。单一部署架构不太可能有效服务所有三种情境;整合策略应显式情境分段而非将临床部署视为单一类别。
3.3 机构信任和治理约束
可解释性和不确定性方面,临床信任受限于许多深度学习模型的不透明性。病理学家需要超越注意力热图的可解释性,将预测与可识别的组织学特征相关联。显式不确定性量化必须区分高置信度预测与需人工审查的模糊病例。
验证缺口方面,大多数当前验证框架依赖回顾性数据集,提供有限的临床效用证据,可掩盖重要患者亚组中临床意义的失败即隐藏分层现象,可在单一诊断类别内产生超过20%的性能差异。监管 clearance 要求的证据常低于证明临床收益所需的严格程度。
经济壁垒和报销方面,模型开发成本由研究机构和产业承担,而部署和维护成本由医院承担;美国缺乏AI辅助病理解读的永久现行操作术语(CPT)代码意味着实验室将这些费用作为无报销开销吸收,中国则通过集中定价机制将合格AI辅助诊断纳入可报销医疗服务。
法律责任和问责方面,随着AI系统日益影响诊断推理,可归因于算法设计、训练数据或部署配置的错误挑战传统医疗失职框架。欧盟AI法案现将临床AI归类为受合格评定、后市场监督和潜在缺陷设计责任约束的监管产品。
生成式和自适应系统的治理挑战方面,生成模型的风险特征显著变化:误分类图像是离散错误,而流畅但事实错误的报告或看起来正确但误表征生物标志物状态的虚拟染色可静默传播至临床记录并影响下游决策。幻觉是研究最多的失效模式,PathChat在提供相关临床上下文时约87%的多选题诊断准确率、PathMMU上60余个最先进视觉语言模型(VLM)的最佳约64%得分、PathGLS框架报告幻觉报告相比仅2% BERTScore的40%敏感性下降,均暴露了传统自然语言处理(NLP)指标标记虚构的不足。虚拟染色的评估同样存在局限:多数研究使用结构相似性指数(SSIM)、峰值信噪比(PSNR)、均方误差(MSE)和Fréchet inception距离(FID)等像素级指标,这些指标存在三方面不适于临床使用的问题:奖励视觉相似而非生物学正确性;标准参考与源H&E存在数十像素错位使像素对齐损失固有偏倚;即使高保真输出也可能扭曲小细胞群体信号、有丝分裂像或罕见生物标志物模式。充分评估需要生物学等效性代理而非图像相似性指标,包括针对同切片的每细胞生物标志物一致性验证。研究人员提出AI生成病理学报告的五种强制验证组件:来源锚定、阴性发现抑制、生物标志物交叉核对、带结构化编辑追踪的强制病理学家签核,以及定期对抗性审计。对于虚拟染色,输出必须通过同切片IHC一致性阈值、病理学家非劣效研究和下游任务等效检查后方可批准,参数包括PSNR、PCC、SSIM和MS-SSIM,通过盲法人工评价验证病理学家非劣效研究和虚拟染色的真实应用潜力。
持续学习系统提出相关但不同的治理问题:自适应模型可应对概念漂移但引入不受控行为改变风险。FDA 2024年PCCP终稿指导是最具体的监管回应,但其范围仍较狭窄。
4 缩小差距:系统级路径
4.1 基础设施优先AI
可靠临床推理需以标准化、质量控制的数据环境为前提。基础设施优先策略包含四个相互依赖组件:采用OME-NGFF和DICOM等供应商中性格式减少对专有文件生态系统的依赖;以ISO 15189等实验室认证框架对齐的SOP治理前分析变量;将染色归一化作为补充协调策略,由下游任务性能而非仅感知相似性指标评估归一化质量;将QC从回顾性人工审查转变为扫描管道内嵌入的自动化实时评估,采用分层框架而非二元接受/拒绝过滤器——满足所有阈值的切片进入自动化分析、局部瑕疵切片带区域特定质量注释影响模型置信度、关键失败切片推迟至人工审查并附明确解释,跨机构共享QC基准实现循证阈值校准;将多中心评估从回顾性测试演进为前瞻性基线研究,表征包括扫描仪类型、染色方案和病例混合组成在内的定义变异轴上的机构特异性性能特征,联邦学习为协作模型开发提供不中心化敏感数据的实用路径。
4.2 工作流嵌入式智能
临床整合失败常非因模型准确性而是AI输出与病理实践操作节律的错配。高吞吐量设置中AI驱动病例分流通过预测复杂性分层提供最直接的操作价值;AI作为与病理学家由粗到细推理对齐的辅助决策层,在决策点提供参考区域、鉴别建议或概率热图。关键设计原则有二:AI输出应出现在主要切片查看和报告环境内以最小化上下文切换;算法建议必须在视觉和语义上与确定性诊断结论明确区分。显式不确定性表征对临床信任至关重要,空间不确定性图叠加于WSI可突出低置信度区域或输入特征超出训练分布的区域,指导病理学家注意力和延期决策。无论模型准确性如何,病理学家必须保留对最终诊断决策的明确权威;覆盖机制应无摩擦且有记录,结构化覆盖数据的纵向追踪作为概念漂移或系统性失败的早期预警信号。
4.3 适应性治理与持续学习
静态一次性验证无法保证动态临床环境中部署模型的安全性。机器学习操作(MLOps)提供临床AI生命周期管理的操作骨干,包括自动化性能监测、输入输出分布漂移检测、结构化版本控制和审计追踪记录。阴影部署使新模型在活临床数据上不影响力决策地运行,实现临床暴露前的前瞻性性能评估;随后分阶段推出——AI输出首先以咨询方式展示给有限数量病理学家并系统收集反馈,满足预定接受标准后扩大部署。FDA、EU IVDR/AI法案和NMPA的监管框架日益认可真实世界证据在后市场监督中的作用,性能仪表板应经适当分层向实验室主任开放,因聚合指标可能掩盖跨人群、组织类型或扫描仪配置的差异,人口统计学公平性审计应作为标准实践以检测算法偏倚。PCCP框架在初始授权时规定允许的修改类型及其所需验证方案,病理AI的PCCP应定义允许的修改类别(扫描仪特异性再校准、染色归一化更新、阈值调整)、每类的最低验证证据、触发完全重新提交的性鞥护栏、以及全面的版本文档化。对于虚拟染色和自动化报告起草等生成式应用,PCCP还应规定输出验证方案,包括生成输出与真实输出间的最低一致性阈值、生成内容的强制人工审查率、以及幻觉率超过预定界限时暂停生成功能的明确标准。可持续采用还取决于已证实的卫生经济价值,成本效益分析应前瞻性测量周转时间、错误率变化和下游临床影响,增量成本效果比(ICER)为关键参考指标。病理学培训课程必须整合计算素养:病理学家需解读模型行为、不确定性和失效模式的技能,AI开发者需理解临床推理模式,这种双向教育方法是可持续人机协作互信的基础。成功部署还取决于劳动力准备度,病理学家需AI辅助工作流解读、不确定性评估和自动化偏见识别的实际能力,AI开发者需理解诊断推理模式和实验室操作,机构应建立涉及病理学家、实验室IT人员、数据科学家和监管专员的多学科实施团队,结构化培训项目、分阶段用户入职和纵向反馈收集可减少采用阻力并改善安全协作。
5 结论
计算病理学已达到真正的技术前景。在数百万张切片上训练的基础模型现可泛化至数十种诊断任务;视觉-语言系统使用自然语言查询从数字档案检索罕见病例;早期智能体架构已开始模拟病理学家日常执行的多步骤推理。然而,嵌入常规临床工作流的AI系统数量仍然惊人地少,且已到达患者的产品与研究文献中庆祝的研究原型鲜有相似。本文试图解释原因。通过三阶段成熟度模型组织,该领域呈现清晰模式:Stage 1算法能力已基本实现;Stage 2系统整合仍是主要瓶颈,障碍是结构性而非算法性的;Stage 3机构采用要求超越技术障碍的经济可持续性、长期可治理性以及准备好与计算工具协作的员工队伍。提出的系统级路径直接应对这些转化:基础设施优先策略创造模型可靠运行的数据环境;工作流嵌入式智能确保AI输出对齐而非扰乱临床实践;适应性治理通过监管护栏内安全演进维持采用。其价值在于协调而非任何单一组件。需强调若干观察:监管批准和临床采用是被广泛低估的运营鸿沟隔开的不同里程碑;生成式AI的出现引入了与判别性分类质性的不同风险特征,需要尚不成熟的验证方案;经济可持续性不可假设,若无报销路径和成本效益证据,即使验证良好的系统也将难以超越试点部署;全球医疗基础设施的异质性意味着在资源充足的学术中心成功的部署模型可能在县级医院失败,情境特异性设计而非一刀切部署至关重要。研究人员预期下一阶段进展将较少由架构新颖性定义,而更多由构建将能力转化为患者利益的机构性、经济性和监管性脚手架这一更缓慢、更不可见的工作所定义。