《Diagnostics》:Prioritising Data Quality Governance for AI in Prostate Cancer: A Methodological Proof-of-Concept Study Using Neural Networks for Risk Stratification
Vanessa Talavera-Cobo,
Jose Enrique Robles-Garcia,
Francisco Guillen-Grima,
Andres Calva-Lopez,
Mario Tapia-Tapia,
Luis Labairu-Huerta,
Francisco Javier Ancizu-Marckert,
Laura Guillen-Aguinaga,
Daniel Sanchez-Zalabardo and
Bernardino Mi?ana-Lopez
编辑推荐:
摘要
背景:精确的D’Amico风险分层是前列腺癌(PCa)管理的先决条件。这项概念验证研究的目的是建立一个方法学框架,将经过验证的临床列线图与严格的数据质量治理相结合,以生成可靠的人工神经网络(ANNs),即使在样本量较小的情况下也可实现。方法:研究人员对来
摘要
背景:精确的D’Amico风险分层是前列腺癌(PCa)管理的先决条件。这项概念验证研究的目的是建立一个方法学框架,将经过验证的临床列线图与严格的数据质量治理相结合,以生成可靠的人工神经网络(ANNs),即使在样本量较小的情况下也可实现。方法:研究人员对来自单一中心的49例患者组成的精选队列进行了回顾性分析。使用11个变量训练了一个多层感知器(MLP),变量包括ISUP活检分级和Briganti列线图。模型开发遵循基于FAIR(可发现、可访问、可互操作、可重用)原则的主动数据质量协议指导——即DQG-AI框架(人工智能就绪数据质量治理,于Clínica Universidad de Navarra开发),该框架对准确性、一致性和有效性进行了严格检查,以确保数据达到“人工智能就绪”标准。对三种数据划分方案(20/80、34/66和39/61)进行了敏感性分析。结果:从初始的76例患者中,通过应用DQG-AI框架,创建了一个包含49例患者的高度精选队列。在此“人工智能就绪”数据集上训练的MLP,在20/80划分方案下,在一个非常小但精炼的内部测试集(N = 9)上,对高风险与中风险组实现了数学上完美的区分(AUC 1.000;100%准确率)。研究人员将此结果解释为精选数据集和验证约束的方法学产物,而非真实模型性能的指标。该完美准确率不意味着可推广的临床实用性,而是在经过必要的、与验证相关的排除后,在一个单一、非常小的测试子集(N = 9)上获得的最佳情况值。其宽泛的置信区间(66.4–100%)以及软件驱动的、在训练集中未出现因子水平的测试案例剔除,都明确排除了任何关于真实世界性能的推断。因此,本研究的概念验证成果是DQG-AI框架本身,而非报告的模型准确率。结论:本研究的主要贡献在于,有效阐述了DQG-AI框架作为一种严格、可重复的方法,用于生成“人工智能就绪”的泌尿外科数据集。尽管MLP在风险区分上显示出稳健的内部信号,但其完美准确率是一种理想的、不可推广的情况。需要进行外部验证的最重要成果是DQG-AI框架,而非模型的性能指标。为此,研究人员提出了一项预设的三阶段多中心验证路线图(单中心队列扩展 → 系统内跨地点验证 → 西班牙多中心外部验证),其最低目标是基于“每个预测因子至少10个事件”的基准,纳入约220例可评估患者,以实施外部验证。
研究背景、问题与动机
前列腺癌(PCa)是全球男性癌症发病和死亡的主要原因,精准的风险分层是平衡早期检测与过度治疗的关键。当前,D’Amico分类和Briganti列线图等已确立的工具提供了PCa风险评估框架,但它们通常依赖线性或逻辑回归,可能过度简化了多参数磁共振成像(mpMRI)结果、前列腺特异性抗原(PSA)动力学和组织学分级之间复杂的非线性相互作用。在临床实践中区分中危与高危患者存在显著的“灰色地带”,这一区分至关重要,直接影响是否需要采用剂量递增放疗或扩大盆腔淋巴结清扫等积极干预措施。人工神经网络(ANNs),特别是多层感知器(MLP),因其能够整合异构临床预测因子并进行非线性映射,有望作为现有列线图的非线性精炼层。然而,医学人工智能的“可重复性危机”表明,模型性能的瓶颈通常不在于算法的复杂性,而在于“人工智能就绪”数据的可用性及其支撑临床可信度的质量治理。垃圾进、垃圾出(Garbage-In, Garbage-Out, GIGO)原则意味着,在嘈杂或不一致数据上训练的算法无法生成可靠预测。因此,解决数据准备过程中的方法学缺陷与解决临床缺陷同等重要。
本研究旨在开发和验证一个优先考虑数据质量治理的方法学框架,用于创建AI驱动的癌症诊断工具。以前列腺癌D’Amico风险分层为测试案例,评估主动的、基于FAIR(可发现、可访问、可互操作、可重用)原则的数据治理是否能使一个小的单中心队列在训练ANN时产生稳定且可解释的信号。具体分目标包括:1)数据质量治理:实施基于FAIR的“人工智能就绪”协议,测试优先考虑数据质量而非样本量是否能在小队列中产生稳定的诊断信号;2)列线图整合:量化将Briganti列线图和ISUP活检分级整合到MLP中所获得的预测权重增益,并与传统临床分期进行比较;3)模型稳定性:对三种数据划分方案(20/80、34/66、39/61)进行敏感性分析,找出最小化交叉熵误差的配置。
关键技术与方法
研究人员开展了一项回顾性研究,对来自单一中心(2022-2024年)的前列腺癌诊断患者队列进行分析。初始样本包含49例临床病例。研究的核心是应用一个名为DQG-AI(人工智能就绪数据质量治理)的主动数据质量治理框架。该框架基于FAIR原则,通过一套可操作的质量维度(准确性、完整性、一致性、时效性、有效性、完整性)和具体的验证规则,对从初始机构数据库(N=76)提取的数据进行严格筛选和预处理,最终形成一个包含49例患者的“人工智能就绪”队列。随后,研究人员使用IBM SPSS Statistics v29软件构建了一个MLP模型。模型输入层包含11个临床变量(经1-of-c编码和归一化后扩展为43个输入单元),包括ISUP活检分级、Briganti列线图评分、PSA密度、年龄、前列腺体积、临床TNM分期、mpMRI结果(mrT, mrN)等。网络架构包括一个由软件自动优化的单隐层(6-9个神经元,使用双曲正切激活函数)和一个输出层(根据数据划分动态输出风险类别)。模型在三种不同的训练/测试划分方案(20/80, 34/66, 39/61)下进行训练和评估。在验证阶段,由于SPSS MLP软件的数学限制,测试集中任何在训练集中未出现过的分类因子水平的病例会被自动剔除,从而产生了“精炼”的测试子集(分别为9、15、16例)。模型性能通过准确率、受试者工作特征曲线下面积(AUC)、敏感性、特异性等指标评估,并与使用相同预测变量的精确逻辑回归模型进行基准比较。整个研究流程强调可重复性,使用了固定随机种子,并将完整的模型架构以预测模型标记语言(PMML/XML)格式作为补充材料提供。
研究结果
3.1. 队列治理与作为数据质量函数的模型性能
应用DQG框架后,从初始的76例患者中筛选出49例符合“人工智能就绪”标准的患者。在模型验证阶段,进一步的软件驱动剔除产生了最终可评估样本(20/80: 43例,34/66: 44例,39/61: 41例)。20/80模型在其精炼测试集(N=9)上取得了100%的准确率和近乎为零的测试交叉熵误差,AUC达到1.000。34/66和39/61模型的测试准确率分别为86.7%和93.8%,交叉熵误差较高。但研究人员强调,20/80模型的完美指标是精选数据和受限验证的方法学产物,不代表真实世界的泛化性能。
3.2. 区分能力:框架提取信号的特征
所有三种划分方案的模型在区分高风险与中风险组时,AUC均高于0.99,其中20/80模型达到1.000,表明在精炼数据集上具有完美的区分能力。34/66模型在低风险类别上也显示AUC为1.000,但由于训练集中低风险病例过少(仅2例),其预测实用性有限。结果一致表明,该框架在过滤噪声的同时,有效保留了用于风险区分的临床信号。
3.3. 最优模型分类:框架信号的详细视图
20/80模型在训练集(N=34)和独立的精炼测试集(N=9)上均实现了100%的准确分类,无任何误判。这证明了在通过框架严格筛选、且临床特征分布与训练集高度相似的“理想”患者子集中,区分高风险与中风险的信号极为清晰。
3.4. 自变量重要性:框架保留的临床信号
对20/80模型的变量重要性分析显示,ISUP活检分级是最重要的预测因子(标准化重要性100%),其次是Briganti列线图(99.3%)。PSA密度的重要性(70.2%)高于绝对PSA值(54.2%)。多参数磁共振成像的mrT分期重要性(39.1%)高于传统的临床TNM分期(29.1%)。这个层级结构与临床认知一致,表明DQG框架在数据治理过程中没有扭曲临床现实,而是准确地保留了关键的预测信号,特别是那些集成度高、信息丰富的指标。
3.5. 比较基准:非线性信号保留的证据
与使用相同预测变量的精确逻辑回归模型相比,MLP展现了显著差异。逻辑回归仅识别出ISUP分级为独立显著预测因子,而Briganti列线图和PSA密度则未显示统计显著性。MLP则成功整合了所有重要变量,实现了完美分类。这表明MLP可能捕捉到了Briganti列线图的复合信号结构以及PSA密度与前列腺体积等变量间的非线性交互作用,而这些是线性模型在小样本条件下无法有效捕捉的。然而,这种“AI溢价”也可能部分归因于小样本过拟合。
讨论与结论总结
讨论部分明确区分了两个评估维度:1)框架评估:评估DQG-AI协议本身作为可重复、可转移、临床连贯的“人工智能就绪”数据集生产程序的价值;2)模型性能评估:评估所得MLP的区分度、校准度和临床效用。本研究为前者提供了可采纳的证据,而明确声明后者(特别是基于N=9精炼测试集的完美指标)的证据不可采纳,不能作为可泛化临床性能的声称依据。
核心讨论点包括:
- 1.
小样本背景下完美指标的脆弱性:100%准确率和AUC 1.000源于多重因素:a) 测试集是“精炼”的,剔除了所有训练集中未见的罕见临床表型(临床离群值),导致评估存在选择偏倚;b) 模型可能存在过参数化(约400个可训练参数对34个训练样本);c) 基于小样本的宽置信区间(66.4-100%)反映了统计不稳定性。
- 2.
“AI溢价”:信号检测还是过拟合? MLP相对于逻辑回归的优越表现,可能部分源于其捕获非线性协同作用的能力,也可能部分源于对小样本的过拟合。这需要外部验证来澄清。
- 3.
数据质量作为战略要务:研究强调,遵循FAIR原则的严格数据治理是克服医学AI可重复性危机的关键。提供了详细的AI就绪标准操作程序和DQG检查单,以促进透明度和可重复性。
- 4.
局限性与未来方向:主要局限包括小样本量、选择偏倚、变量重要性缺乏不确定性量化、使用固定随机种子等。未来研究需进行大规模、多中心的外部验证,对分类变量进行全面的独热编码,整合不确定性量化方法(如Bootstrap、SHAP),并评估对全部三个D’Amico风险类别的分类能力。
- 5.
临床转化:一个谨慎的框架,而非可部署工具:当前模型远未准备好用于临床。研究提出了一个预设的三阶段多中心验证路线图,为未来的潜在转化奠定了基础:
- •
阶段A(单中心队列扩展):在原始开发中心将队列扩大至≥220例可评估患者(≥110例高危事件),以启用三类分类器并进行严格的训练/验证/测试划分。
- •
阶段B(系统内跨地点验证):在相同医疗系统内的另一地理位置上进行验证,以隔离患者群体异质性的影响。
- •
阶段C(全国多中心验证):在拥有不同电子健康记录系统和临床实践的多个西班牙医院进行验证,这是对DQG框架可移植性的最终测试。
- 6.
与现有工具的比较与定位:本研究提出的MLP并非旨在替代已验证的列线图或最新的基于mpMRI的深度学习模型。其定位是一个表格化的、检测后D’Amico风险分层层,核心贡献在于其FAIR基础的DQG协议,该协议使得在小型单中心队列上进行非线性建模成为可能。该框架与模型架构无关,原则上可应用于图像队列结构化元数据的治理。
结论(根据原文翻译):
本研究证明,严格的、基于FAIR的数据质量治理能够从一个小的队列中产生清晰、可理解的临床信号,从而支持算法开发。但它也提供了一个发人深省的警示:同样的治理机制在产生这种干净信号的同时,也可能产生一个经过如此精心筛选的验证样本,以至于性能指标(如本文报告的100%准确率)因必要但严格的排除标准而变得在数学上完美却在临床上无意义。因此,本项工作的可交付成果——即请读者评估、复现并最终挑战的对象——是透明的、可重复的、基于FAIR的DQG框架本身。MLP、AUC 1.000以及相关的变量重要性层级,只是将该框架应用于一个小型单中心队列所产生的说明性副产品;它们不是可部署的成果,并且鉴于精炼的N=9测试样本,不能被视作可泛化的性能证据。
在此明确界限内,这项概念验证研究在开头定义的特定意义上应被视为成功的:它确立了基于FAIR的DQG协议可以被操作化、具有可重复性,并且能使一个非线性模型从一个小的单中心队列中恢复出临床连贯的变量重要性层级。相反,本研究明确未能证实其在临床上优于现有列线图,也未能产生一个可部署的算法;这两个终点按设计被推迟到第4.6节概述的多阶段验证路线图中。区分这两种“成功”本身,就是本项工作对当前医学AI可重复性辩论的一项贡献。
任何由该框架生成的模型,其真正的试金石将是它在大型、未经选择、多中心的、代表临床实践完全异质性的人群上的表现。