基于可解释性机器学习和临床影像数据预测膝关节骨关节炎进展

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Osteoarthritis and Cartilage Open》：Predicting Knee Osteoarthritis Progression Using Explainable Machine Learning and Clinical Imaging Data

【字体：大中小】 时间：2026年06月06日 来源：Osteoarthritis and Cartilage Open 2.8

编辑推荐：

　　目的：评估可解释性人工智能模型在利用定量MRI和临床数据预测膝关节骨关节炎（KOA）进展中的价值，针对两种结局：复合终点（影像学进展合并疼痛进展）和单独影像学进展终点。方法：研究人员分析了来源于美国国立卫生研究院骨关节炎生物标志物联盟基金会（FNIH）的600

目的：评估可解释性人工智能模型在利用定量MRI和临床数据预测膝关节骨关节炎（KOA）进展中的价值，针对两种结局：复合终点（影像学进展合并疼痛进展）和单独影像学进展终点。方法：研究人员分析了来源于美国国立卫生研究院骨关节炎生物标志物联盟基金会（FNIH）的600名参与者，该队列嵌套于骨关节炎倡议（OAI）的病例对照队列中。参与者被分为复合进展者（n=194）、单独影像学进展者（n=103）、单独疼痛进展者（n=103）和非进展者（n=200）。输入特征包括人口统计学数据、Kellgren-Lawrence（K/L）分级（K/L分级）、关节间隙宽度（JSW）、西安大略和麦克马斯特大学骨关节炎指数（WOMAC）疼痛评分，以及基线和24个月变化值的膝关节骨关节炎相关定量MRI容积测量，包括软骨、骨髓病变（BMLs）、骨赘、关节积液-滑膜炎（ES）和Hoffa滑膜炎（HS）。数据按分层比例分为80%训练集和20%保留测试集，训练集内采用10折交叉验证进行模型调优。五种分类器包括随机森林（RF）、极端梯度提升（XGBoost）、逻辑回归（LR）、决策树和多层感知器（MLP）。研究人员应用了多种可解释性方法，包括Gini重要性、SHAP值、回归系数和置换重要性。结果：单独影像学进展使用纵向变化特征预测最为准确（随机森林AUC=0.87）。仅基线特征也展现出良好的预测性能（AUC=0.80）。复合进展的预测难度较大（AUC=0.66-0.70）。跨模型分析显示，关键可解释性因素包括内侧股骨软骨丢失、内侧胫骨和股骨BMLs、内侧骨赘和ES容积。结论：基于定量MRI的可解释性机器学习能够实现KOA进展的可解释性预测。本研究是首个在FNIH/OAI队列中整合纵向定量MRI特征与跨多种分类器的模型无关解释的研究。

膝关节骨关节炎（KOA）是全球范围内导致残疾的主要原因之一，2020年估计影响超过4.54亿40岁以上人群，且由于人口老龄化、肥胖率上升及久坐生活方式的普及，其发病率和患病率预计将持续攀升。该疾病给患者和社会带来沉重负担，包括慢性疼痛、功能障碍、生活质量下降及巨额医疗支出。KOA临床管理面临的核心挑战在于其进展的异质性：部分患者病情长期稳定，而另一些患者则出现关节结构和症状的快速恶化。更为复杂的是，影像学改变与患者报告症状之间往往存在弱相关性——许多严重关节间隙狭窄（JSN）患者疼痛轻微，而部分疼痛显著者仅表现轻度影像学异常。这种结构-症状分离现象给临床决策和临床试验疗效评估带来极大困扰，例如疾病修饰性骨关节炎药物（DMOAD）试验常因单纯依赖结构性终点而未能显示获益，即使患者报告症状缓解。

传统诊断工具以X线平片最为常用，因其可及性强、成本效益高，但对早期软骨丢失和软组织异常敏感性不足。Kellgren-Lawrence（K/L）分级系统虽广泛应用，但分级粒度粗且存在观察者间变异。磁共振成像（MRI）能更详细显示软骨、软骨下骨、半月板和骨髓病变（BMLs）等结构，但可及性较低、检查耗时，且单独MRI生物标志物常缺乏足够的个体化预后预测能力。鉴于KOA进展反映多种生物学过程，单一模态评估存在固有限制。机器学习（ML）方法能够整合临床和影像学数据，识别传统统计方法无法捕捉的复杂关联。既往KOA研究在预测影像学或症状性进展方面已显示潜力，但多数依赖半定量影像学、单时间点特征或低可解释性模型。

为应对上述不足，美国国立卫生研究院骨关节炎生物标志物联盟基金会（FNIH）项目提出了基于放射学和疼痛变化的标准化四分类进展框架，为KOA预测模型的训练与评估提供了重要参考。本研究旨在利用FNIH队列开发和评估可解释性ML模型，以预测KOA进展，聚焦于两个核心目标：（1）利用基线和纵向数据区分放射学与症状性进展者与其他亚型；（2）借助可解释性工具识别对预测最重要的影像学和临床特征。通过整合多模态数据与透明算法，研究旨在改善KOA预后建模，支持个体化诊疗和精准临床试验设计。

研究采用的技术方法涵盖以下关键方面：样本来源于FNIH项目嵌套OAI的600例病例对照队列，按复合进展、单独影像学进展、单独疼痛进展和非进展四组分层；特征集包括人口统计学、K/L分级、最小关节间隙宽度（JSW）、WOMAC疼痛评分，以及基于MRI骨关节炎软件评分系统（MOSS）的半自动定量测量——软骨容积（Cart）、骨髓病变（BML）、骨赘（Ost）、关节积液-滑膜炎（ES）和Hoffa滑膜炎（HS），涵盖内侧与外侧胫股间室及髌股关节；分析框架包括横断面（基线特征）和纵向（基线至24个月变化值）两种设计，各执行二元分类任务；采用五种监督学习算法（随机森林、XGBoost、L2正则化逻辑回归、决策树、多层感知器），数据按80/20分层分割，训练集内行10折交叉验证调参，测试集独立评估；可解释性方法包括Gini不纯度重要性、XGBoost的SHAP值、逻辑回归系数及MLP的置换重要性。

主要研究结果按分析任务分述如下。

**3.1 主要分析（复合影像学+疼痛进展者 vs 其他）**

横断面模型（基线特征）：基线特征对复合终点的预测能力有限，各模型ROC-AUC处于0.55-0.66范围。XGBoost表现最优（AUC=0.66，准确率0.69），随机森林紧随其后（AUC=0.65，准确率0.68）。可解释性分析显示，随机森林Gini排序强调内侧间室BML、内侧股骨软骨和总ES为最具信息量的特征；XGBoost SHAP蜂群图进一步提供方向性：较大的内侧胫骨/股骨BML和较高ES使预测倾向于复合进展者（正SHAP值），而较大的内侧股骨软骨具有保护作用（负SHAP值）。逻辑回归系数与之一致，年龄和多个间室BML呈正相关，内侧股骨软骨及外侧/滑车BML呈负相关。

纵向模型（基线至24个月变化）：引入纵向变化特征后AUC略有提升（0.68-0.70）。逻辑回归和XGBoost均达AUC=0.70，随机森林0.69，MLP 0.68，但灵敏度仍偏低（0.26-0.31）。变化特征主导模型：内侧股骨软骨变化、总ES变化、内侧股骨骨赘变化位居前列，同时包括内侧股骨BML变化和总BML变化。SHAP分析显示更大的软骨丢失（更负的变化值）、更大的内侧胫骨BML变化和ES增加推动预测向进展方向，而较小的软骨丢失具有保护作用。逻辑回归中内侧股骨软骨变化呈现大幅负系数，强化了软骨保留的保护性关联。

**3.2 次要分析（所有影像学进展者 vs 无影像学进展）**

横断面模型：单独影像学终点判别优于复合终点。随机森林达AUC=0.80（准确率0.74，精确率0.97，灵敏度0.49，F1=0.65）。MLP（AUC=0.75）和决策树（AUC=0.72）表现良好。可解释性方面，Gini排序将内侧股骨软骨、内侧股骨BML、总ES和年龄列为首要预测因子；内侧间室骨赘和胫骨骨赘亦有贡献。SHAP显示较大的内侧胫骨/股骨BML和较高骨赘负荷增加影像学进展概率，较高的内侧股骨软骨降低风险。

纵向模型：纵向影像学分类维持强劲性能，随机森林达最优判别力AUC=0.87（准确率0.76，精确率0.97，灵敏度0.53）。XGBoost和逻辑回归分别为AUC=0.80和0.75。Gini排序再次将内侧股骨软骨变化置于首位，依次为内侧胫骨骨赘变化、内侧股骨骨赘变化和内侧胫骨BML变化；总ES变化亦具影响力。SHAP方向性一致：更大的软骨丢失、BML增加（尤其胫骨内侧）和骨赘（内侧间室）增加驱动影像学进展预测；较小的软骨丢失（或容积增加）使预测偏离进展。逻辑回归显示内侧股骨软骨变化的大幅负系数，以及总ES变化和内侧胫骨骨赘变化的正系数。

**3.3 跨任务主导预测因子总结**

跨模型和任务，最一致的预测因子为内侧股骨软骨、内侧胫骨/股骨BML负荷、骨赘负荷和ES。这些特征的纵向变化对影像学进展尤为信息丰富。鉴于部分影像学生物标志物存在生物学关联和统计学相关性，研究强调基于跨可解释性方法收敛性识别稳定预测模式，而非单特征排序。

**3.4 结构进展与疼痛进展分离的敏感性分析**

进一步比较单独影像学进展者与非进展者（G2 vs G4）、以及单独疼痛进展者与非进展者（G3 vs G4）的配对分析显示：纵向模型对结构进展实现良好判别（最优AUC=0.82），主要由软骨丢失和BML增加驱动；而对单独疼痛进展判别有限（AUC=0.40-0.47），提示结构性MRI特征尚不能完全捕捉持续性疼痛的机制。

**3.5 定量MRI相对于临床变量的增量预测价值**

比较三种建模策略发现：仅临床变量模型判别力有限（AUC 0.47-0.48）；纳入定量MRI特征改善性能，尤其影像学结局（AUC最高0.73）；整合临床和影像学特征的机器学习模型达最高判别，尤以纵向影像学进展为著（随机森林AUC=0.87）。ROC曲线显示添加定量MRI后一致改善，机器学习在纵向分析中较逻辑回归提供额外判别增益。

讨论部分系统阐述了研究发现的意义与局限。研究首次将可解释性ML模型应用于FNIH队列的完全定量MRI特征预测KOA进展，纵向变化特征联合五种ML分类器实现了结构性进展的强判别（AUC最高0.87），且特征排序具跨模型一致性。复合终点预测性能较低（AUC 0.66-0.70），与既往FNIH/OAI研究及KOA结构-症状分离的已知特征相符。影像学能很好解释结构进展，但持续性疼痛反映中枢敏化、活动模式、合并症、心理社会因素等未捕获过程，提示针对症状进展需多模态策略。模型解释的生物学信号 converged（汇聚）于内侧股骨软骨水平及丢失、内侧胫骨/股骨BML负荷、内侧间室骨赘和ES，纵向变化特征携带最强结构结局信号，尤其软骨丢失和BML/骨赘增加。ES反复出现于有影响力预测因子中，与炎症活动关联结构恶化的既往报告一致，而HS重要性较不稳定。

研究强调特征重要性解释应视为模型行为总结而非因果机制证据，相关预测因子可能反映关联结构过程而非独立生物标志物。该工作主要贡献在于澄清定量MRI生物标志物在多变量模型中的预后结构，而非提出新算法。局部解释方法可支持个体患者风险解读，但需前瞻性评估其对决策的影响。

临床与试验设计意义方面：鉴于复合终点判别力有限及MRI额外成本负担，模型不太可能支持仅为预测而获取MRI的广泛人群筛查；更实际的应用场景为MRI已获患者的试验富集或纵向监测。纵向内侧股骨软骨变化、内侧BML/骨赘和ES变化为识别影像学恶化高风险膝关节提供基础；患者层面解释可 Clarify（阐明）模型标记风险的依据（软骨丢失 vs BML增长 vs 滑膜炎），支持针对性随访或辅助管理。方法学上，FNIH富集病例对照设计增强生物标志物发现效力，但判别指标需重新校准方可推广至一般人群筛查；特征相关性可能影响基于树的重要性排序，故强调跨方法收敛性；灵敏度在多数模型中偏低，与既往KOA预后研究一致。

研究局限性包括：FNIH数据集富集进展者可能影响模型向更广泛OAI队列的可推广性；缺乏外部验证；症状预测需非影像学模态；部分变量（如HS）可能受益于重新定义或改进测量；未完全捕捉非线性交互或时间趋势。未来方向应测试多模态模型、扩展定量软骨测量范围、评估具体用例的校准和决策曲线效用，并推进共享定量影像流程和跨队列特征协调以支持可转移性验证。

研究结论指出：据研究所知，这是首个在FNIH队列中应用可解释ML模型结合完全定量MRI特征预测KOA进展的研究。利用软骨、BML、骨赘和ES纵向变化的模型实现了结构性进展的强判别（AUC最高0.87），且特征排序在五种ML分类器中保持一致。尽管基于症状的结局预测性能较低，结果支持可解释ML在预测KOA进展中的应用，尤其在使用纵向成像数据时。这些发现通过将可解释性技术（SHAP、置换重要性和系数）与既定影像学生物标志物整合，扩展了既往FNIH/OAI研究，可支持未来的试验富集、风险分层和多模态建模工作。该研究应视为基于定量影像的预后建模研究而非算法创新，模型为评估既定生物标志物如何联合关联进展风险提供了结构化途径，同时保持对其局限性的透明度，从而为生物标志物研究和多模态预测框架设计提供参考。

联系信箱：

粤ICP备09063491号

热点排行