跨机构膝骨关节炎KL分级：一种基于严格患者分层与多任务深度学习架构的可重复评估框架

《Annals of the New York Academy of Sciences》：Cross-Institutional Five-Class Kellgren–Lawrence Grading of Knee Osteoarthritis via Multitask Deep Learning

【字体：大中小】 时间：2026年03月16日 来源：Annals of the New York Academy of Sciences 4.8

编辑推荐：

　　本文系统介绍了KL-FuseNet，一种融合全局与局部特征的多任务深度学习架构，用于自动化Kellgren-Lawrence (KL) 分级。研究通过严格的、患者层面的数据分割，在内部骨关节炎行动倡议(OAI)数据集和独立中国队列中进行了验证，并对比了零样本迁移与选择性微调的性能。结果表明，该模型内部一致性高（二次Cohen's kappa (QWK): 0.881），在克服了因数据泄露和领域偏移导致的泛化性不足问题后，经过少量目标域数据微调，能够显著提升跨机构的评估性能（外部准确率达80.0%，QWK达0.950），为在不同医疗机构间部署可复现的自动化膝关节骨关节炎严重程度评估工具提供了可行路径。

引言

膝骨关节炎(KOA)是最常见的关节炎形式，是全球范围内导致残疾的主要原因。X线平片是其诊断和监测的主要影像学手段，而Kellgren-Lawrence (KL) 分级系统是基于关节间隙变窄、骨赘形成和软骨下硬化等特征的五点序数分级金标准。然而，手动KL分级具有高度主观性，评估者自身和评估者间的可靠性差异较大，导致不一致性，尤其影响相邻分级，削弱了临床和研究成果。深度学习已被广泛用于自动化KL分级，但许多研究未强制执行严格的、患者层面的数据分割，这可能导致当来自同一受试者的相关图像（如双侧膝关节或重复检查）被分配到训练和评估的不同分区时，出现性能高估。此外，数据集中类别不平衡（极端等级如KL0和KL4占主导）以及不同机构间在扫描仪、采集协议、图像质量和患者人口统计学特征方面的差异导致的领域偏移，进一步对模型的临床部署提出了挑战。

方法

数据集与分割

研究使用了来自两个队列的膝后前位X线片。内部OAI子数据集包含来自4130名独特患者的8260张图像，具有共识KL分级（0-4）。通过移除末尾的L/R字符提取患者ID，并应用患者层面的分层分割（种子=42）以70/15/15的比例分配，确保了训练、验证和测试分区间的零患者重叠。外部验证使用了一个独立的单中心队列，包含在南方医科大学第三附属医院于2020-2021年间通过飞利浦“DigitalDiagnost”系统采集的3162张后前位固定屈膝X线片。经过严格的两阶段共识标注流程，最终保留了2295张来自独特患者的标注图像。

图像预处理与数据增强

OAI图像被调整为224 x 224像素，并使用ImageNet均值和标准差进行归一化，然后沿中线分割为权重共享的左右两半。外部队列图像在调整大小前进行了去黑边处理。几何和光度增强一致地应用于全局/左/右三路数据流。测试时推理使用了测试时数据增强(TTA=8)。

模型架构

KL-FuseNet是一个三流、多任务的PyTorch网络。全局流使用ConvNeXt-Base；两个补丁流共享一个ResNet-50编码器。特征通过广义均值池化(GeM)进行聚合，然后被送入三个线性头部：(1) 序数头部，使用二元交叉熵(BCE)训练；(2) 标签分布(LD)头部，使用Softmax和KL散度训练；(3) 二元头部，为KL≥2使用带logits的BCE训练。

训练过程

优化使用AdamW，具有两个参数组（骨干网络学习率(LR) = 1e^-4；头部为2倍学习率），权重衰减1e^-4，带3个epoch热身期的余弦学习率调度，混合精度训练，并基于验证集QWK进行早停（耐心=12）。组合损失函数为 ?_train= λ_ord?_ord+ λ_ld?_ld+ λ_bin?_bin，损失权重均设为1.0。

外部微调

评估了两种迁移场景：(1) 使用OAI训练的模型进行零样本推断；(2) 在外部目标域上进行选择性微调。微调协议使用外部训练/验证分区（共1950张图像）对模型的所有参数进行解冻和重新训练，外部测试集保持完全不可见直至最终评估。

比较基线

与三个强基线进行比较：(1) Flat5C-ConvNeXt：仅使用全局ConvNeXt-Base流的五类扁平分类器；(2) Flat5C-NFNetF4：使用NFNet-F4的高容量五类扁平分类器；(3) DualHead-4C：一个将KL0和KL1等级合并的多流模型。

评估与分析

报告了二次加权Cohen's kappa (QWK)、准确率、宏平均F1和平均绝对误差(MAE)。同时提供了各类别的精确度/召回率、混淆矩阵、多类别受试者工作特征曲线(ROC)和针对临床显著骨关节炎(KL≥2)的二元ROC。通过梯度加权类激活映射(Grad-CAM)进行可解释性分析。

结果

总体性能

在内部OAI测试集上，KL-FuseNet实现了QWK 0.881、准确率0.703、宏平均F1 0.724和MAE 0.313，在临床显著骨关节炎(KL≥2)检测上达到了曲线下面积(AUC) 0.981，表现优于基线模型。学习曲线显示稳定收敛。混淆矩阵显示，97%的误分类是相邻等级错误，这在临床上重要性较低。各类别指标显示，该模型在明确的OA等级（KL0、KL3、KL4）上表现出色，但在早期等级（KL1）上表现中等，这与早期OA的临床模糊性一致。

外部队列性能

在零样本迁移到完整外部数据集时，模型实现了QWK 0.916、准确率0.697。在对外部测试分区（n=345）进行零样本评估时，性能有所下降：QWK 0.907、准确率0.661，显示了显著的领域差距。然而，在仅使用外部训练/验证分区（n=1950）进行选择性微调后，在相同的测试集上性能大幅提升：QWK达到0.950，准确率提升至0.800，宏平均F1提升至0.783，MAE降至0.206，KL≥2的AUC为0.984。微调特别改善了KL1的检测性能（F1从0.582提升到0.723）。

定性评估

梯度加权类激活映射(Grad-CAM)可视化显示，模型对较高等级的注意力集中在胫股关节边缘、骨赘和关节间隙变窄区域，而对较低等级的注意力则集中在整体关节排列上。

讨论

本研究提出的KL-FuseNet框架在严格的、患者层面的评估下，成功超越了标准的五分类和高容量基线模型。外部验证协议量化了模型在遭遇不同扫描仪和人群时的部署挑战。零样本性能与内部验证相比的下降反映了跨站点性能退化的常见模式。然而，选择性微调仅需使用1950张外部图像，就使性能得到显著恢复，QWK达到0.950，准确率达到0.800，这证明了使用适度的机构特定数据可以弥合领域差距，这与迁移学习原理和临床部署研究一致。

与以往研究相比，KL-FuseNet在患者层面的严格评估下，其内部QWK匹配或超越了多个已建立的基准。其外部微调后的QWK是目前报道的最高值之一。研究强调了那些未使用患者层面分割的研究可能会因数据泄露而高估性能10-20个百分点。本研究工作的贡献在于解决了三个持续存在的差距：(1) 在防止数据泄露的同时保持高QWK的严格患者层面评估；(2) 量化的跨站点性能，展示了从零样本到微调部署的14个百分点的准确率提升；(3) 为机构实施提供了具体的适应协议。

伦理考量与公共视角

临床部署医疗人工智能(AI)引发了关于算法偏见、跨人口亚组的不同影响以及透明度的重要关切。虽然我们的评估包括严格的、患者层面的分割和跨机构测试，以减轻常见的方法学缺陷，但对跨亚组和临床环境的公平性进行更广泛的评估，将需要具有足够丰富人口统计学元数据和前瞻性评估的多站点队列。因此，我们将这项工作定位为决策支持而非自主诊断系统，并强调在模型集成到真实世界临床工作流程中时，需要进行透明报告、外部验证和持续监测。

局限性

首先，尽管外部队列代表了一个具有不同设备和协议的独立临床站点，但外部验证仅来源于一家使用飞利浦DigitalDiagnost的中国医院。其次，KL-1性能的变化凸显了早期等级检测的挑战。第三，有效微调所需的最小数据量要求尚不明确。第四，评估集中于标准的五级KL量表。最后，静态图像的回顾性评估需要在临床工作流程中进行前瞻性验证，以评估其节省时间、诊断信心和对临床决策的影响。

结论

KL-FuseNet是一个三流、多任务框架，在严格的、患者层面的评估下，结合了全局和局部线索以及序数、标签分布和二元目标。通过强制执行严格的数据分割和全面的外部验证，该研究提供了现实主义的性能评估，解决了文献中普遍存在的方法学缺陷。该方法提供了强大的域内一致性和有竞争力的跨站点性能，零样本与微调结果之间的显著差距定量地证明了医学影像中的领域适应挑战。该框架为临床部署提供了一个高效且可解释的解决方案，在保持完整五级粒度的同时，证明了机构特定适应对于现实世界实施的必要性。

热点排行

新闻专题