开发针对痴呆症患者的、基于机器学习的WHODAS 2.0简版测试

《Journal of the Formosan Medical Association》：Developing machine learning-enhanced WHODAS 2.0 short forms for persons with dementia

【字体：大中小】 时间：2026年05月04日 来源：Journal of the Formosan Medical Association 2.5

编辑推荐：

　　林功宏|王一晴|李世杰|池文洲|刘镇轩|谢敬霖台北医学大学护理学院国际老年学与长期护理博士项目，台湾台北 **摘要** 痴呆症患者的残疾评估对于护理计划至关重要，但世界卫生组织发布的《残疾评估量表2.0》（WHODAS 2.0）内容繁杂，耗时较长，可能限制其在临床

　　林功宏|王一晴|李世杰|池文洲|刘镇轩|谢敬霖
台北医学大学护理学院国际老年学与长期护理博士项目，台湾台北

**摘要**
痴呆症患者的残疾评估对于护理计划至关重要，但世界卫生组织发布的《残疾评估量表2.0》（WHODAS 2.0）内容繁杂，耗时较长，可能限制其在临床中的应用。本研究基于机器学习（ML）技术开发了WHODAS 2.0的简化版本，并对其可靠性、同时效度和反应性进行了评估。

**方法**
利用51,245名痴呆症患者的数据（训练集：n = 31,952；验证集：n = 19,293），我们通过极端梯度提升（Extreme Gradient Boosting）和自助法（bootstrap）项目选择算法，在锁定式训练/验证流程中开发了两种基于ML的简化版本——ML-WHODAS-16和ML-WHODAS-10。将它们的表现与完整的WHODAS-32版本以及经过调整后的12项简化版本（Standard-12）进行了比较。同时，还通过官方残疾严重程度等级的变化来检验其纵向效度。

**结果**
两种ML简化版本的内部一致性均较高（ML-WHODAS-16为α = 0.96，ML-WHODAS-10为α = 0.93），与完整版WHODAS-32的同步效度也非常优秀（r = 0.98）。与Standard-12相比，这些简化版本的误差更小，Bland–Altman偏差可忽略不计，并满足预设的等效性标准（±0.5分以内）。基于锚点的纵向效度显示，两种简化版本的测量结果与残疾严重程度等级（anchor）具有较好的一致性（r = 0.66–0.67；标准化响应均值 = 0.37–0.40）。ML-WHODAS-16和ML-WHODAS-10的最小临床重要差异分别为9.26和9.95分。

**结论**
ML-WHODAS-16和ML-WHODAS-10显著降低了评估负担，同时仍能准确反映完整版WHODAS-32的评估结果，尤其适用于群体评估和纵向监测。这些发现支持将其作为痴呆症残疾评估中实用且负担较低的替代工具。然而，在确认其个体间互换性之前，仍需进行外部验证、针对更复杂临床结果的验证、正式的非劣效性测试以及基于临床标准的纵向阈值评估。

**背景**
世界卫生组织《残疾评估量表2.0》（WHODAS 2.0）是一种广泛用于评估残疾的工具，可评估个体在活动参与方面的限制和挑战[1,2]。该量表将残疾分为六个关键领域：认知、行动能力、自我照顾、社交能力、日常生活活动及参与度[1,2]，并提供反映整体残疾程度的总分。这种结构有助于临床医生和研究人员生成标准化的残疾档案并清晰量化残疾程度。

WHODAS 2.0能为痴呆症患者的残疾状况提供宝贵信息，对护理计划制定具有重要意义：首先，其评分可预测患者入住长期护理机构的风险（评分越高，入住可能性越大[3]；其次，它能识别受痴呆症影响最严重的特定残疾领域，突出日常生活活动、人际互动和认知功能的障碍[4]；此外，该量表还能通过性别和年龄相关模式指导资源分配（例如，男性总体残疾程度较高，而女性随着年龄增长残疾程度恶化更快[4]）。

尽管WHODAS 2.0设计全面，但36项完整版本耗时较长（通常需要约20分钟完成）。对于未就业的受访者，可省略4项与工作相关的项目，形成32项版本。然而，这仍需较长时间，限制了其在许多临床环境中的实用性。为此开发了12项简化版本（每个领域2项[1]）。不过，该简化版本在痴呆症患者中的适用性存在两个主要限制：一是其设计为通用简化版本而非针对痴呆症的专用版本[1]，因此需进一步验证其适用性；二是其评分与原始36项或32项版本的直接可比性较差[1]，影响研究结果的普遍性和可比性。因此，亟需针对痴呆症特点对WHODAS 2.0进行定制或验证。

为解决这些问题，开发了CAT-WHODAS 2.0（计算机自适应测试版本）[5]，适用于痴呆症患者。该版本通过自适应测试算法根据个体功能状况选择题目，提高评估精度的同时保持效率。但受限于计算机使用条件，其适用范围有限。此外，CAT-WHODAS 2.0的评分与完整版WHODAS-32的评分不可直接比较，给纵向监测和数据汇总带来挑战。因此，本研究旨在为无法或不适合使用CAT-WHODAS的环境提供一种静态、低负担的替代方案。

近年来，机器学习（ML）技术在健康评估中受到关注，因其具备出色的项目选择和预测建模能力[6,7,8]：ML技术能识别最具信息量的项目，准确估计各领域和总体残疾评分，从而开发出保持测量稳定性的简化版本[6,7]。先前研究证明，ML方法可有效简化冗长评估流程，不牺牲评估准确性，显著提升临床效率和可行性[6,7]。例如，针对帕金森病患者开发的WHODAS 2.0简化版本（ML-WHODAS）包含18项，其 convergent validity 和评分与完整版高度一致[6]，但该版本专为帕金森病患者设计，可能无法充分反映痴呆症的独特特征和功能障碍[9]。这些发现表明，ML技术在提升残疾评估的实用性和测量稳定性方面具有巨大潜力。

本研究旨在利用ML技术为痴呆症患者开发WHODAS 2.0的简化版本，并评估其可靠性、同时效度和反应性，以确保其适用性和测量可靠性。

**方法说明**
本研究遵循《多变量预测模型透明报告框架（TRIPOD）+ AI声明》[10]，为使用机器学习方法的临床预测模型提供最新指导。

**参与者**
数据来自台湾残疾人数据库（TDPD），该数据库由卫生福利数据科学中心维护，涵盖2012至2022年的数据，包含获得残疾证书的个体信息[11,12]。符合条件的参与者需满足以下条件：（1）初次申请残疾证书时被诊断为痴呆症（ICD-9-CM编码290.0–290.4、294.1、331.0–331.2或331.7-331.9；或ICD-10-CM编码F01.50、F01.51、F02.80、F02.81、F03.90、G13.8、G30.0、G30.1、G30.8、G30.9、G31.01、G31.09、G31.1、G31.2、G31.83、G31.85、G31.89或G31.9）；（2）接受过主要护理者的WHODAS 2.0评估。根据数据清洗规则，排除WHODAS数据缺失超过5%的个体。为分析反应性，我们将连续五年随访期间的数据合并（间隔1至5年）。

**研究流程**
研究采用严格“锁定”策略以防止数据泄露并提高可重复性（图1）：
1. 数据分割：参与者被随机分配到训练集（60%）和验证集（40%），分割后不再调整。
2. 数据填补：仅对训练集使用IterativeImputer进行缺失数据处理。
3. 项目选择：基于可靠性（Cronbach's alpha）、同时效度（ML-WHODAS与WHODAS评分的Pearson相关系数）和反应性（ML-WHODAS与WHODAS评分变化量的Pearson相关系数），逐步添加项目，直至各项指标达到0.70（良好）或0.80（优秀）阈值[14,15]。
4. 模型训练：使用完整训练数据集训练XGBoost模型。
5. 验证：使用验证数据集评估ML-WHODAS的可靠性、同时效度和反应性。

**数据与工具**
WHODAS 2.0包含36项，评估六个领域：认知、行动能力、自我照顾、社交能力、日常生活活动和参与度[2]。评分采用5点李克特量表（1=无困难，5=严重困难）。鉴于参与者多为失业状态，本研究使用不含工作相关项目的32项版本。WHODAS 2.0在残疾人群中具有较高的可靠性和有效性[18,19]。

**分析方法**
1. 描述性统计：使用独立样本t检验分析连续变量差异，卡方检验分析分类变量差异。
2. XGBoost：采用XGBoost算法分析连续数值结果，训练七个回归器以预测六个领域和总分。
3. 可靠性：使用Cronbach's alpha评估内部一致性。
4. 同时效度：使用Pearson相关系数评估ML-WHODAS与WHODAS评分的同步效度。
5. 数据分析软件：使用Google Colab Python 3.12、xgboost 3.1.3、scikit-learn 1.6.1、pandas 2.2.2等工具进行数据分析。

**结论**
ML-WHODAS-16和ML-WHODAS-10降低了评估负担，同时保持与完整版WHODAS-32的高度一致性，特别适用于群体评估和纵向监测。这些发现支持将其作为痴呆症残疾评估的实用替代工具。但需进一步验证其个体间互换性。MAE衡量的是误差的平均幅度，而不考虑其方向；MAE值越低，表示ML-WHODAS和WHODAS分数之间的一致性越高。为了进一步评估与完整WHODAS-32的一致性，进行了Bland–Altman分析以估计平均偏差和95%的一致性界限（LoA）。我们还使用了双单侧检验（TOST）来评估统计等效性。由于没有为转换后的WHODAS-32总分在代理评估痴呆症的情况下建立的临床等效性边际，我们预先指定了一系列逐渐严格的界限（±0.5、±1.0、±2.0、±3.0、±4.0和±5.0分）在0-100的范围内，以测试在逐渐严格的条件下的稳健性。这些界限对应于总分数范围的0.5%–5.0%，并且是作为研究者定义的敏感性阈值预先指定的，而不是临床建立的决策边际。最严格的界限（例如，±0.5和±1.0）代表了非常严格的分析容忍度，而上限（±5.0）被选为一个保守的小差异阈值。只有当两个单侧检验都显著时（p < 0.05），才得出统计等效的结论。最后，生成了校准图来评估预测分数和观察分数之间的对齐情况，并使用密度叠加图来比较总体分数分布。此外，还计算了平均绝对百分比误差（MAPE），作为MAE和RMSE的基于百分比的补充指标，用于总分预测。MAPE是在观察到的非零总分中计算的，总体和按严重程度分层的MAPE值在补充表中报告。

2.4.5. 反应性
使用皮尔逊相关系数（Pearson's r）检查了ML-WHODAS的变化分数与残疾严重程度等级的变化分数之间的相关性。皮尔逊相关系数大于0.70被认为是良好的反应性，大于0.80则被认为是优秀的。此外，为了评估变化幅度，还计算了ML-WHODAS和WHODAS的标准化反应均值（SRM）[15]。如果ML-WHODAS的SRM与WHODAS的SRM相当，则认为ML-WHODAS在检测残疾变化方面与WHODAS具有相同的反应性。为了补充这些基于分布的分析，还使用同一登记系统内官方残疾严重程度等级的变化作为行政锚点，检查了基于锚点的反应性。根据官方残疾严重程度等级是否随时间恶化，参与者被分类为稳定或恶化。对于每个分数版本，在训练和验证集中计算了具有临床意义的恶化的最小临床重要差异（MCID）值。使用接收者操作特征（ROC）分析和ROC曲线下面积（AUC）来量化临床意义的恶化的区分度。对于每个版本，通过最大化Youden指数来确定最佳临界值，并计算相应的敏感性和特异性。通过报告每个时间间隔的临床意义恶化的MCID、SRM和皮尔逊相关系数（Pearson's r），进一步总结了1年、2年、3年、4年和5年的随访间隔的反应性。为了检查随访间隔内的亚组一致性，我们还按基线残疾严重程度带（轻微、中度、重度和危急）总结了每个间隔的特定反应性，报告了样本大小、皮尔逊相关系数（Pearson's r）和标准化反应均值。样本量较小的单元格进行了描述性解释。

2.4.6. 领域级性能、可解释性和亚组公平性
由于ML-WHODAS的领域分数是使用保留项目的信息预测的，而不仅仅是来自固定的领域内项目集的评分，因此传统的领域特定内部一致性系数不足以完全描述当前模型中的领域级证据。为了提供关于领域级性能和可解释性的描述性证据，而不是正式的心理测量验证，我们实施了三项补充分析。首先，使用自助法（1000次重采样）评估了领域级性能的稳定性，生成了平均性能指标（MAE、RMSE和R2）及其95%置信区间（CI）。其次，进行了Shapley Additive Explanations（SHAP）分析，以量化特征贡献，特别是检查保留项目和WHODAS领域如何对模型预测做出贡献。为了进一步描述最终模型中的特征-反应关系，我们为总分数模型和认知与参与领域分数模型中选定的高重要性保留项目生成了部分依赖图和个体条件期望（ICE）曲线。这些事后可解释性分析是在锁定的验证集上进行的。第三，进行了亚组公平性分析，以评估由年龄、性别、教育水平和残疾严重程度定义的各层之间的预测误差。这项亚组分析旨在描述不同人口统计层之间的误差一致性，不应被解释为正式的差异项目功能或测量不变性分析。

2.4.7. 基于锚点的临床意义恶化的区分度
为了补充反应性分析，我们进一步评估了每个分数版本是否能够区分由基线和随访之间官方残疾严重程度等级的恶化定义的临床意义恶化。这种基于锚点的分析被视为使用同一登记系统内的内部行政锚点进行的次要纵向有效性评估，而不是在独立数据集中的外部验证。使用ROC分析来估计区分度（AUC），并使用Youden指数确定最佳临界值。

2.5. 资金来源声明
作者声明他们没有为这项工作获得任何资金支持。

2.6. 伦理考虑和参与同意
本研究获得了机构审查委员会（IRB）的知情同意豁免。之所以给予豁免，是因为研究涉及对完全去标识化的回顾性数据集的二次分析，这不会对参与者构成风险，并确保没有数据可以与可识别的个人关联。

3. 结果
3.1. 参与者特征
训练集包括31,952名参与者，而验证集包括19,293名参与者（表1）。为了评估两个数据集之间的平衡，我们检查了p值和效应大小。尽管由于样本量大，统计测试显示人口统计变量之间存在显著差异（p < 0.05），但这些差异的幅度可以忽略不计。具体来说，所有比较的效应大小都很小（Cohen's d < 0.2和Cramér's V < 0.1）。
表1. 训练集和验证集中的参与者特征
特征训练集（n = 31,952）验证集（n = 19,293）
p值效应大小
年龄，岁（均值 ± 标准差）80.98 ± 9.41 80.96 ± 9.70 0.77 0.003 (Cohen's d)
WHODAS-32总分（均值 ± 标准差）55.56 ± 23.22 58.78 ± 24.42 <0.001 ?0.136 (Cohen's d)
性别，n (%) <0.001 0.048 (Cramér's V)
男性 12,297 (38.5) 8366 (43.4)
女性 19,655 (61.5) 10,927 (56.6)
严重程度，n (%) <0.001 0.046 (Cramér's V)
轻微 4,772 (14.9) 2,762 (14.3)
中度 8,709 (27.3) 4,798 (24.9)
重度 7,208 (22.6) 4,666 (24.2)
危急 3,759 (11.8) 2,668 (13.8)
缺失/未知 750 (23.5) 4,399 (22.8)
教育，n (%) 0.012 0.018 (Cramér's V)
文盲 5,251 (16.4) 3,280 (17.0)
小学 15,702 (49.1) 9,241 (47.9)
初中 2,421 (7.6) 1,531 (7.9)
高中 1,287 (4.0) 815 (4.2)
大学及以上 279 (0.9) 201 (1.0)
缺失/未知 701 (21.9) 422 (21.9)
注：连续变量以均值 ± 标准差表示，分类变量以n (%)表示。集合间的差异使用独立样本t检验（连续变量）和χ2检验（分类变量）进行测试。效应大小分别为连续变量的Cohen's d和分类变量的Cramér's V。标记为“缺失/未知”的行表示该变量的数据不可用。

3.2. 项目选择
在ML-WHODAS项目选择步骤中，选择了10项和16项版本的ML-WHODAS，因为它们满足了预定义的心理测量标准。所有可靠性、同时有效性和反应性指标在训练组参与者中都达到了预设的标准（0.70和0.80）。ML-WHODAS-10包含10个项目，分布在六个领域：认知（2项）、行动能力（3项）、自我照顾（1项）、社交（1项）、日常生活活动（2项）和参与（1项）。ML-WHODAS-16包含16个项目，领域分配如下：认知（2项）、行动能力（5项）、自我照顾（1项）、社交（3项）、日常生活活动（4项）和参与（1项）（表2）。保留项目数量与最终心理测量属性（可靠性和有效性）之间的关系在补充图S2中说明。
表2. 选定的ML-WHODAS简式项目的领域
WHODAS领域项目代码项目描述
ML-WHODAS-10 D1.1 集中注意力 ?
ML-WHODAS-16 D1.6 对话 ?
行动能力 D2.1 长时间站立 ?
ML-WHODAS-10 D2.2 从坐姿起身 ?
ML-WHODAS-16 D2.3 在家中移动 ?
ML-WHODAS-10 D2.4 出门 ?
ML-WHODAS-16 D2.5 长距离行走 ?
自我照顾 D3.2 穿衣 ?
ML-WHODAS-10 D3.3 与他人相处 ?
ML-WHODAS-16 D4.1 与陌生人交往 ?
ML-WHODAS-10 D4.2 维持友谊 ?
ML-WHODAS-16 D4.3 与亲近的人相处 ?
日常生活活动 D5.1 家庭责任 ?
ML-WHODAS-10 D5.2 重要家务任务 ?
ML-WHODAS-16 D5.3 所有必要的家务工作 ?
ML-WHODAS-10 D5.4 家务工作的速度 ?
参与 D6.1 参与社区活动 ?
注：项目是使用结合自助法XGBoost特征重要性和确保领域覆盖的平衡选择逻辑混合策略选定的。

3.3. 可靠性
关于验证组中最终ML-WHODAS简式的可靠性，10项ML-WHODAS的Cronbach's α为0.93（表3），而16项ML-WHODAS的Cronbach's α为0.96。相比之下，WHODAS 2.0的Cronbach's α为0.97。
表3. WHODAS简式的可靠性和同时有效性（验证集）
版本 Cronbach's α (95% CI) r MAE RMSE 偏差 LoA（下限，上限）
WHODAS-32（完整版） 0.97 (0.97–0.97) 1.00 0.00 0.00 0.00
ML-WHODAS-16 0.96 (0.95–0.96) 0.98 3.58 4.55 [-8.89, 8.95]
ML-WHODAS-10 0.93 (0.93–0.93) 0.98 4.08 5.19 [-10.15, 10.19]
Standard-12（11项） 0.93 (0.92–0.93) 0.97 4.33 5.83 [-7.66, 12.83]
注：Cronbach's α表示内部一致性。r是与完整WHODAS-32分数的皮尔逊相关系数。MAE = 平均绝对误差；RMSE = 均方根误差。偏差是简式与WHODAS-32之间的平均有符号差异。LoA = Bland–Altman一致性界限（下限，上限）。

3.4. 同时有效性
ML-WHODAS-16的皮尔逊相关系数为0.98，MAE为3.58，RMSE为4.55，优于Standard-12（皮尔逊相关系数为0.97，MAE为4.33，RMSE为5.83）（表3）。尽管ML-WHODAS-10的误差略高（MAE为4.08，RMSE为5.19），但它也与完整WHODAS-32有很强的相关性（皮尔逊相关系数为0.98）。Bland–Altman分析（表3和补充图S1）显示Standard-12系统性地高估了残疾程度，平均偏差为2.59分（LoA：?7.66至12.83）。相比之下，两种ML简式的平均偏差可以忽略不计：ML-WHODAS-16为0.03分（LoA：?8.89至8.95），ML-WHODAS-10为0.02分（LoA：?10.15至10.19）。双单侧检验的结果（表4）进一步显示，两种ML-WHODAS-16和ML-WHODAS-10在所有预设的界限（包括±0.5分）上都满足等效性标准。相比之下，Standard-12在±0.5、±1.0或±2.0分上不满足等效性标准，仅在±3.0分或更宽的界限上满足等效性标准。
表4. 与WHODAS-32的统计等效性的双单侧检验（验证集）
版本 ±0.5 ±1.0 ±2.0 ±3.0 ±4.0 ±5.0
ML-WHODAS-10 <0.001 <0.001 <0.001 <0.001 <0.001
ML-WHODAS-16 <0.001 <0.001 <0.001 <0.001 <0.001
Standard-12 1.00 1.00 0.875 <0.001 <0.001 <0.001
注：单元格报告了简式分数与WHODAS-32在每个等效界限下的TOST p值。当两个单侧检验在预设的alpha水平上都显著时，得出统计等效的结论。
校准图（图2）和密度叠加图（图3）显示预测的WHODAS-32总分与观察到的WHODAS-32总分在分数范围内紧密对齐，并且总分分布有大量重叠。作为MAE和RMSE的基于百分比的补充指标，ML-WHODAS-16的总体总分MAPE为7.64%，ML-WHODAS-10为8.83%，Standard-12为8.52%（补充表S3）。按严重程度分层的MAPE值在基线残疾严重程度带内相对稳定（补充表S4），ML-WHODAS-16的范围为5.26%至11.52%，ML-WHODAS-10的范围为5.96%至13.66%，Standard-12的范围为5.07%至12.44%。在所有三个分数版本中，MAPE通常随着基线残疾严重程度的增加而降低。

下载：下载高分辨率图像（548KB）
下载：下载全尺寸图像
图2. 验证集中预测的WHODAS-32总分与观察到的WHODAS-32总分的校准图。
下载：下载高分辨率图像（229KB）
下载：下载全尺寸图像
图3. 验证集中预测的WHODAS-32总分与观察到的WHODAS-32总分的密度叠加图。

3.5. 反应性
反应性分析显示，ML-WHODAS简式的变化分数与原始WHODAS的变化分数在随访总结中具有中等到高的相关性（表5）。不同时间间隔内，ML-WHODAS-10的皮尔逊相关系数范围为0.63至0.78，ML-WHODAS-16的范围为0.62至0.76（表5）。两种ML-WHODAS简式的变化模式与原始WHODAS的变化模式非常相似。对于总分，ML-WHODAS-10的SRM（0.30至0.61）和ML-WHODAS-16的SRM这些发现表明，在内部验证框架内，ML-WHODAS的简短形式与完整的WHODAS-32在追踪纵向变化方面大体相似，不仅在变化分数的相关性和SRM（标准化反应测量）上如此，而且在基于锚点的临床意义恶化的分析中也是如此。然而，由于这些分析是基于同一登记系统中的行政锚点进行的，因此应将其解释为支持性而非决定性的证据，不应将其解释为外部验证或基于更严格临床结果的证据。此外，本研究没有进行正式的非劣效性测试，也没有预先指定的纵向误差阈值。补充表S5和补充图S9总结了ML基础简短形式在基线残疾严重程度区间内的特定皮尔逊相关系数（Pearson’s r）和SRM。对于ML-WHODAS-16，不同严重程度的皮尔逊相关系数范围为0.28至0.46，SRM范围为0.11至0.50；对于ML-WHODAS-10，相应的范围为0.28至0.47和0.11至0.50。例如，在3年期间，ML-WHODAS-16的皮尔逊相关系数范围为0.32至0.36，ML-WHODAS-10的皮尔逊相关系数范围为0.32至0.40，而SRM范围分别为0.29至0.40和0.31至0.40。然而，由于某些4年期的数据量相对较少，特别是在“临界”严重程度组（n=35），因此4年的估计值变化较大，应谨慎解读。

3.6. 领域级表现、可解释性和亚组公平性
对于ML-WHODAS-16，认知领域的平均R2值为0.87（95%置信区间：0.86–0.87），平均绝对误差（MAE）为6.03（见补充表S1）。所有领域的MAE范围从0.00到10.30。值得注意的是，生活活动领域的误差为零（MAE=0.00）。这一零误差结果反映了所有原始的生活活动项目都保留在了ML-WHODAS-16中，因此在当前评分框架下，该领域的得分信息得到了完全保留。相比之下，ML-WHODAS-10的表现略有波动，领域级MAE范围从0.80到10.30。尽管项目数量大幅减少，但整体领域级误差水平仍然较低。

可解释性通过SHAP摘要图（图4、图5）进一步进行了检验，这些图表展示了各个项目对总分的贡献。补充表S2总结了各领域的SHAP结果。在两种ML简短形式中，移动能力、生活活动和认知领域始终是主要的贡献者，共同占总SHAP重要性的50%以上。具体来说，移动能力的贡献范围为22.3%至22.7%，生活活动为19.3%至20.3%，认知为14.6%至17.4%。ML-WHODAS-16和ML-WHODAS-10模型的详细SHAP交互摘要分别见补充图S3和S4。

下载：下载高分辨率图像（301KB）
下载：下载全尺寸图像
图4. ML-WHODAS-16的SHAP摘要图。
下载：下载高分辨率图像（263KB）
下载：下载全尺寸图像
图5. ML-WHODAS-10的SHAP摘要图。

对于选定的保留项目，补充图S5–S8提供了部分依赖图和ICE曲线。这些图表显示了在总分模型以及认知和参与领域得分模型中，特征与响应之间的单调且临床上合理的关系。例如，在认知领域模型中，当项目得分从0增加到4时，D1.1的部分依赖性从大约55增加到71，D1.6的部分依赖性从大约56增加到72。在参与领域模型中，D6.1的部分依赖性在同一项目得分范围内从大约41增加到53。在总分模型中也观察到了类似的单调增加；例如，在ML-WHODAS-10模型中，D6.1的PDP从大约51增加到62，而在ML-WHODAS-16模型中，D3.2的PDP从大约54增加到63。

关于人口统计学公平性，ML-WHODAS-16的MAE在性别（女性：3.52；男性：3.46）和年龄组（例如，65–75岁：3.52；>85岁：3.56）之间保持稳定（见表6）。同样，教育水平的误差率也相当。关键的是，不同残疾严重程度水平的误差率也保持一致。对于ML-WHODAS-16，RMSE在“轻微”严重程度组为4.27，在“临界”严重程度组为4.67。

表6. 公平性分析：各亚组的MAE（RMSE）（验证集）。
亚组类别 n ML-WHODAS-10 ML-WHODAS-16
标准-12 <65 12 38 4.10 (5.23) 3.57 (4.52) 3.50 (4.77)
65–75 27 71 4.02 (5.10) 3.52 (4.48) 3.84 (5.31)
75–85 83 10 3.83 (4.88) 3.42 (4.33) 3.92 (5.40)
>85 69 74 3.95 (5.02) 3.56 (4.51) 3.86 (5.33)
性别女性 10 92 3.94 (5.01) 3.52 (4.46) 3.87 (5.34)
性别男性 83 66 3.90 (4.95) 3.46 (4.39) 3.85 (5.30)
教育水平文盲 32 80 3.98 (5.00) 3.55 (4.44) 3.77 (5.24)
小学 32 41 3.88 (4.96) 3.44 (4.39) 3.91 (5.38)
初中 15 31 3.96 (5.05) 3.52 (4.46) 3.57 (4.90)
高中 81 15 3.87 (4.93) 3.48 (4.39) 3.57 (5.01)
大学及以上 20 14 4.02 (5.03) 3.57 (4.45) 3.91 (5.39)
严重程度轻微 27 62 3.82 (4.98) 3.29 (4.27) 3.78 (5.24)
中等 47 98 3.86 (4.96) 3.42 (4.38) 4.09 (5.50)
严重 46 66 3.93 (4.97) 3.57 (4.51) 3.82 (5.26)
临界 26 68 4.08 (5.02) 3.75 (4.67) 3.33 (4.79)

注：数值为每个亚组层内MAE（RMSE）与WHODAS-32的比较。MAE = 平均绝对误差；RMSE = 均方根误差。

3.7. 基于锚点的临床意义恶化的区分
使用同一登记系统内的官方残疾严重程度等级的恶化作为内部行政锚点，ML-WHODAS-16的AUC为0.60，ML-WHODAS-10为0.61，完整的WHODAS-32为0.61，Standard-12在验证集中的AUC也为0.60（表7）。使用最大化Youden指数的截止值，ML-WHODAS-16的敏感性为0.51，特异性为0.65；ML-WHODAS-10的敏感性为0.47，特异性为0.70；WHODAS-32的敏感性为0.59，特异性为0.58；Standard-12的敏感性为0.53，特异性为0.64。

4. 讨论
本研究旨在使用机器学习（ML）算法开发WHODAS 2.0的简短形式，以提高痴呆症患者残疾评估的效率和可行性。提出了两个基于ML的版本：ML-WHODAS-10包含10个项目，ML-WHODAS-16包含16个项目。这两个版本分别将项目数量减少了约69%和50%，同时保留了完整WHODAS-32的整个评分范围。这两种简短形式在总分水平上表现出良好的心理测量性能，包括高内部一致性、接近的分数可比性和响应性。这些发现表明，ML-WHODAS-10和ML-WHODAS-16提供了比完整版本更高效且实用的替代方案，尽管正式的领域级心理测量验证尚未完成。

关于ML-WHODAS的可靠性，ML-WHODAS-10和ML-WHODAS-16的Cronbach's α值分别为0.93和0.96。这些发现与本研究中WHODAS 2.0的Cronbach's α值0.97相符。这些值表明ML-WHODAS简短形式具有出色的内部一致性和可靠性。然而，需要注意的是，无法计算特定领域的Cronbach's α值。这一限制源于基于ML的评分系统的配置，其中领域得分不是仅从分配给每个领域的项目派生出来的。相反，所有项目都通过ML算法对每个领域的得分做出了贡献。这种方法不同于传统的评分方法，传统方法中每个领域都包含一组设计用于评估特定潜在结构的固定项目[15]。按领域分组项目可以评估每个领域内的内部一致性，并计算特定领域的Cronbach's α值。因此，在ML-WHODAS简短形式中无法独立评估各个领域的内部一致性。尽管项目数量大幅减少，但在整体量表水平上观察到的强内部一致性仍然支持了ML-WHODAS简短形式的可靠性。

关于同时效性，两种ML-WHODAS简短形式与完整的WHODAS-32分数表现出非常强的关联，如高皮尔逊相关系数（ML-WHODAS-16和ML-WHODAS-10的皮尔逊相关系数≥0.98）所示。这些结果与之前关于基于ML的简短形式的研究一致。例如，基于ML的积极和消极综合征量表的简短形式与其原始版本表现出高相关性[7]。这一发现表明，尽管项目数量大幅减少，但信息损失很小。同样，基于ML的中风影响量表与其全量表对应物具有可比的同时效性，各领域的r2值≥0.87[20]。这些发现强调了ML方法在保持有效性的同时显著减少评估负担方面的有效性。本研究观察到的高相关性支持了ML可以用来开发具有出色同时效性的简短形式的结论，因为它们能够有效再现原始全量表的分数。因此，在当前的内部验证框架内，ML-WHODAS-10和ML-WHODAS-16似乎是评估痴呆症患者残疾的低负担替代方案。

ML-WHODAS简短形式与完整WHODAS-32之间的分数差异很小，表明在当前验证框架内分数具有很好的可比性。具体来说，ML-WHODAS-16的误差较低，MAE值范围为0.00至10.30。“生活活动”领域的误差为零（MAE=0.00），因为该领域的所有原始项目都保留在了ML-WHODAS-16中。相比之下，ML-WHODAS-10的表现略有波动，MAE值范围为0.80至10.30。尽管项目数量大幅减少，但整体误差水平仍然较低[21]。比较这两个版本表明，当更详细的领域级估计是优先考虑时，ML-WHODAS-16可能更合适。结合Bland–Altman、TOST和校准结果，这些发现支持ML-WHODAS简短形式与完整WHODAS-32在内部验证集内的分数可比性，特别是在群体级评估和纵向监测方面。然而，鉴于观察到的不一致性限制以及缺乏外部验证，这些简短形式尚不能被视为所有个体级临床决策的完全可互换替代品。此外，本研究中使用的等效界限是研究者定义的敏感性阈值，而不是临床确定的决策界限。

两个单侧检验确认ML-WHODAS-16和ML-WHODAS-10在±0.5点的最严格范围内达到了与完整WHODAS-32的统计等效性（p<0.001）。这与Standard-12版本形成对比，后者在更紧的±3.0点范围内未能证明等效性。此外，校准分析（图2）表明分数范围内的对齐度很高，分层误差分析（表6）确认测量准确性在不同人口统计群体以及所有残疾严重程度水平上保持稳定。这些发现表明，基于ML的简短形式在时间受限的情况下提供了有效且实用的替代方案，特别是在群体级评估方面。然而，尽管系统偏差可以忽略不计，临床医生在解释个体水平分数时应注意到可能存在轻微的差异。

基于SHAP的全局重要性分析确定移动能力、生活活动和认知是模型预测的主要贡献者，共同占总特征重要性的50%以上。这种领域模式在痴呆症中是临床上合理的，因为在痴呆症中，认知衰退与早期复杂日常功能的损害密切相关，而随着疾病严重程度的增加，功能依赖性往往会扩大，通常包括更多基本功能和与移动能力相关的限制[[22]，[23]，[24]]。由于SHAP提供了基于Shapley值的加性特征归属，这些结果清晰且临床上可解释地总结了模型如何权衡WHODAS相关的功能领域，包括认知、移动能力和生活活动[21]。这些发现与痴呆症中临床意义上的领域相关性一致；然而，它们不应被视为领域级结构有效性的正式证据。相反，它们提供了关于领域贡献和模型可解释性的支持性描述性证据。

与常用的Standard-12版本的直接比较突显了机器学习方法的方法学优势。虽然Standard-12表现出足够的同时效性（皮尔逊相关系数=0.97），但它表现出系统性的正偏差（偏差=2.59）和较高的预测误差（MAE=4.33），而ML-WHODAS-16的皮尔逊相关系数=0.98；偏差=0.03；MAE=3.58。此外，Standard-12未能在更严格的±2.0点范围内满足统计等效性标准，而基于ML的版本即使在±0.5点范围内也达到了等效性。这些发现表明，虽然传统的固定项目简短形式仍然是一个可行的筛查工具，但基于ML的方法似乎提供了更高的精确度和更低的系统误差。然而，这种比较是在相对于传统固定简短形式的背景下进行的，而不是相对于CAT-WHODAS的比较性能。因此，这些发现支持基于ML的简短形式作为有前景的静态替代方案，但并未确立其相对于CAT-WHODAS的优越性。

这些纵向结果为基于ML的简短形式的响应性提供了支持性证据。在后续的总结中，ML-WHODAS-16的变化分数之间的皮尔逊相关系数（Pearson’s r）范围为0.62至0.76，而ML-WHODAS-10的变化分数之间的皮尔逊相关系数范围为0.63至0.78；标准化反应系数（SRM）的范围分别为0.28至0.65和0.30至0.61。这些数值与完整的WHODAS-32（皮尔逊相关系数=0.59–0.69；标准化反应系数=0.24–0.50）和Standard-12（皮尔逊相关系数=0.59–0.76；标准化反应系数=0.27–0.51）大致相当，表明在群体层面具有相似的纵向追踪能力，但并不等同于具有相同的临床效用。在验证集中，基于同一登记系统内的内部管理锚点的临床意义恶化的最小变化距离（MCID）估计值为ML-WHODAS-16为9.26，ML-WHODAS-10为9.95，而完整的WHODAS-32为7.31。MCID阈值在较长的随访间隔内通常较大，这表明较大的分数变化与较长时间内的管理意义恶化相关。基于ML的简短形式与完整的WHODAS-32在反应性上的广泛可比性可能归因于它们分数输出的相似性[25]。进一步的按严重程度分段的补充分析显示，反应性在基线严重程度区间内基本保持稳定，特别是在1年、2年、3年和5年的随访总结中。然而，由于4年组样本量相对较小（N=51），且某些严重程度特定的单元格特别稀少，因此应对相应的区间特定估计值持谨慎态度。总体而言，这些发现支持了群体层面的内部纵向有效性，但并未证明其与完整的WHODAS-32具有相同的临床效用。

本研究发现了ML-WHODAS-16和ML-WHODAS-10在心理测量属性和行政效率之间的权衡。ML-WHODAS-16在心理测量属性上略优，但包含更多的项目；而ML-WHODAS-10项目较少，但心理测量属性略低。这种权衡源于ML-WHODAS-10由于项目数量减少而牺牲了一些来自痴呆症患者的信息[25]。因此，ML-WHODAS-10在残疾评估方面的可靠性和有效性没有达到ML-WHODAS-16的水平。这种内在的权衡表明了两个版本的适用性存在差异。ML-WHODAS-16更适合时间限制较少的环境，如研究设置。相比之下，ML-WHODAS-10特别适合时间有限的临床环境，如住院病房或门诊诊所。

在验证集中，官方残疾严重程度等级的临床意义恶化的AUC分别为0.61（WHODAS-32）、0.60（ML-WHODAS-16）、0.61（ML-WHODAS-10）和0.60（Standard-12）（表7）。尽管不同版本的AUC相似，但整体区分度仍然较低。虽然ML简短形式的整体区分度（AUC）与完整的WHODAS-32相当，但对最佳切点的分析显示，检测临床恶化的敏感性略低（0.47–0.51 vs. 0.59），但特异性较高（0.65–0.70 vs. 0.58）。这些ROC结果量化了同一登记系统内内部管理终点的排名顺序区分度；然而，它们不构成外部验证，也不证明对于更困难的、更具临床意义的结局（如机构化、住院或护理转换）的性能，因此应被视为初步的内部决策证据，而不是临床效用的决定性证明。它们也没有证明与完整的WHODAS-32具有相同的临床效用。在这种情况下，ML-WHODAS简短形式可以被视为常规残疾评估和纵向监测的高效、低负担选项，特别是在受访者负担或时间限制限制使用完整工具的环境中。

基于ML的简短形式的实施前景令人鼓舞，但仍处于初步阶段。根据项目数量的大致比例减少，预计ML-WHODAS-16和ML-WHODAS-10的行政时间分别可减少到大约10分钟和6分钟；然而，这些估计是间接的，不应被视为实证的时间数据。实际行政时间应在未来的实施研究中得到确认。因此，预计ML-WHODAS-10（项目减少约69%）将进一步减少行政负担，但这一实际优势仍有待实证验证。为了支持未来的实施和研究复制，我们准备了一个基于Google Colab的评分工具，其中包含了预训练的模型参数。为了提高透明度，最终模型设置、随机种子和软件环境现在在手稿中明确报告。分析代码、评分代码和分数转换脚本通过GitHub仓库（https://github.com/lghtmu/ml-whodas-short-forms）单独提供。代码仓库是公开可用的。相比之下，原始登记数据不是公开可用的，仍受适用的数据使用和隐私法规的约束。

本研究有几个局限性。首先，WHODAS 2.0的简短形式是专门为痴呆症患者开发的，因此将研究结果推广到其他人群是不合适的。其次，分析基于的是完整的WHODAS-32的32个项目版本，而不是36个项目版本。这是由于“生活活动”领域中排除了四个与“工作或学校活动”相关的项目。这些项目被省略是因为研究队列中的大部分人不再从事工作或教育活动。因此，结果可能对仍在参与工作或学校活动的人的适用性有限。第三，尽管我们严格使用了锁定的保留验证集，但本研究没有包括来自不同医疗系统或国家的完全独立的测试集。当前的验证设计通过确保在处理缺失数据、项目选择或模型训练期间无法访问验证集来减少乐观偏差；然而，它并不能替代真正的外部验证。虽然我们增加了基于官方残疾严重程度等级恶化的决策导向的内部验证，但这种分析不应被视为外部验证的替代品，也不能证明对于更困难的纵向结局（如机构化、住院或护理转换）的性能，因为这些结局在当前的次级登记数据集中没有以足够协调的形式存在。此外，由于XGBoost超参数是预先指定的，而不是通过正式的调整框架选择的，因此没有单独的搜索空间或提前停止规则可供报告。未来的研究应优先考虑独立的外部验证，并在数据可用时检查更困难的结局。第四，本研究没有将ML简短形式与WHODAS 2.0的计算机化自适应测试（CAT）版本进行比较。这种排除是由于缺乏准确模拟CAT算法所需的特定项目库校准参数（例如，Rasch项目难度和阈值）。这种缺失也限制了当前研究相对于CAT-WHODAS的比较定位，因为直接的比较证据尚未可用。未来的研究应优先考虑基于ML的静态简短形式与CAT administration之间的比较研究，以评估它们的相对效率和精度。第五，尽管进行了额外的可解释性、亚组分析和基于锚点的分析，我们没有获得特定领域的可靠性系数，也没有进行正式的差异项目功能或测量不变性分析、正式的非劣效性测试，或痴呆症亚型和地区特定的分析。我们也没有建立预先指定的纵向误差阈值，也没有包括超出SRM的更广泛的基于分布的反应性指标。这些限制主要是由于建模框架、可用的登记变量以及缺乏建立的纵向误差或非劣效性阈值所致。因此，当前的研究结果为领域层面的性能和纵向有效性提供了支持性但不完整的证据，但没有提供正式的心理测量不变性、相同的临床效用或完整的非劣效性框架。

总之，开发了两个基于ML的简化版本的WHODAS 2.0评估工具，显示出足够的内在一致性、同时效度和反应性，适用于评估痴呆症患者的残疾情况。ML-WHODAS简短形式提供了高效、心理测量上稳健的测量方法，可能在时间有限的临床环境中增强残疾评估，特别是在CAT administration不切实际时作为静态、低负担的选项。然而，它们的更广泛实施前景仍处于初步阶段，有待实证的行政时间数据和实际实施研究来确认。需要与CAT-WHODAS进行直接的比较评估，以澄清它们的相对效率、精度和实际定位。

伦理考虑和参与同意
由于本研究使用的数据已去标识化并且是回顾性收集的，因此不需要获得知情同意，这对参与者没有风险。这些数据无法与任何可识别的个人关联。

出版同意
不适用。

资金来源
作者声明他们没有为这项工作获得任何资金支持。

热点排行