编辑推荐:
本文探讨了利用智能家居和人工智能(AI)技术,结合联邦学习(FL)框架,在保护患者隐私的前提下,通过居家环境下采集的加速度计步态数据预测帕金森病(PD)运动症状严重程度的前景。研究通过模拟FL系统,与需要共享患者数据的传统机器学习(ML)方法进行对比,并利用可解释AI(XAI)技术分析了特征重要性变化,提出了“服务器端训练”和“客户端数据”等优化策略,旨在为未来兼顾数据隐私与个性化医疗的智能健康监测系统发展提供洞见。
引言
帕金森病(Parkinson's disease, PD)是一种全球患病率预计将持续增长的神经退行性疾病,其核心运动症状包括运动迟缓、震颤和步态障碍。目前,对PD症状严重程度的评估主要依赖于运动障碍协会统一帕金森病评定量表(Movement Disorder Society Unified Parkinson’s Disease Rating Scale, MDS-UPDRS)等临床量表。然而,这些评估存在主观性强、评估者间差异大、无法捕捉症状日常波动等局限性。为应对这些挑战,智能家居与可穿戴传感器技术相结合,为持续、被动地监测PD症状变化提供了新途径。
传统的机器学习方法通常需要将敏感的、包含视频、加速度计等数据在内的患者信息从家中传输到中央服务器进行处理,引发了严重的隐私担忧。联邦学习(Federated Learning, FL)作为一种潜在的解决方案应运而生。在该框架下,神经网络(Neural Network, NN)在患者家中的设备(客户端)上进行本地训练,形成本地模型。仅有代表模型参数的“权重”被传输到中央服务器,通过联邦平均(FedAvg)等算法聚合为全局模型,而原始患者数据无需离开本地。这种方法既能使中心系统从大量参与者中学习,又能严格保护患者隐私,同时还允许为每位参与者提供个性化的本地模型。
材料与方法
本研究对一项现有的前瞻性队列数据——ICICLE-PD及其嵌套的ICICLE-GAIT研究数据进行了分析。共纳入89名PD参与者,他们在长达6年的研究期间,每隔18个月在家中将三轴加速度计佩戴于下背部,连续记录7天。从加速度数据中,提取了步数、步行时间、步长、步速、节奏、变异性和不对称性等共88项日常数字步态指标,并连同参与者的年龄、性别和身体质量指数(Body Mass Index, BMI)一起,共91个参数作为模型输入。预测目标为MDS-UPDRS Part III(运动检查部分)评分。
研究构建了全连接神经网络作为基准模型。在传统机器学习设置中,数据通过基于参与者的10折交叉验证进行拆分、填充缺失值并进行标准化。在联邦学习模拟中,每位参与者被视为一个独立的客户端,在本地训练模型。客户端从自身数据中留出20%用于本地评估。本地模型的权重通过FedAvg聚合为全局模型,随后全局模型被分发回各客户端,以较低的学习率在本地数据上进行个性化微调,形成个性化模型。整个过程在Flower框架中模拟运行了100轮。
结果
数据与基线模型表现
参与者主要为男性(67.4%),首次评估(第18个月)时平均年龄为69岁。MDS-UPDRS Part III评分范围在10至70分之间,表明参与者大多处于轻至中度PD运动症状阶段。传统机器学习模型的平均绝对误差(Mean Absolute Error, MAE)为10.43分,预测评分与真实评分之间的皮尔逊相关系数r为0.26。
联邦学习模型的性能对比
联邦学习全局模型的MAE为10.22分,略优于传统模型。然而,其相关系数r降至0.17,组内相关系数(Intraclass Correlation, ICC)为负值,表明模型存在欠拟合,其预测值集中分布在40分左右,无法有效覆盖整个真实评分范围。相比之下,个性化后的本地模型表现优异,平均MAE仅为4.83分,显示了强大的个性化预测能力。
可解释AI揭示的关键挑战
为探究联邦学习全局模型欠拟合的原因,研究采用了沙普利加性解释(SHapley Additive exPlanations, SHAP)分析特征重要性。在传统模型中,参与者的性别和年龄是最重要的特征,其中男性和高龄倾向于预测更高的MDS-UPDRS Part III评分。然而,在联邦学习全局模型中,性别的重要性大幅下降,年龄和BMI的重要性上升。对本地模型的分析揭示了根本原因:由于每位客户端的数据仅来自单一参与者,性别等特征在本地数据中缺乏变化(即对单个参与者而言是恒定值),导致本地模型“忽略”了这些特征,进而在全局模型聚合时削弱了它们的影响力。
探索解决方案:服务器端训练与客户端数据
为解决本地数据缺乏代表性的问题,研究探索了两种数据共享策略。服务器端训练策略随机保留8%的参与者数据,在中央服务器端用于对FedAvg后的全局模型进行微调。此举将全局模型的MAE提升至9.81分,改善了欠拟合,并使性别特征的重要性在全局模型中得到了部分恢复,但本地模型的平均MAE略微上升至5.86分。
客户端数据策略则更进一步,将这8%的参与者数据添加到每位客户端的本地训练集中,但在个性化微调时,给予客户端自身数据的权重是额外数据的4倍,以确保模型既能学习到特征的重要性,又不失个性化。该策略取得了最佳全局表现:MAE降至9.26分,相关系数r提升至0.43。SHAP分析显示,性别、年龄和BMI重新成为全局和本地模型中最重要的特征,特征重要性排序在两类模型间也更为一致。
然而,这种全局性能的提升是以牺牲本地性能为代价的。客户端数据策略下,本地模型的平均MAE上升至6.83分,个性化预测能力下降。这表明,在智能家居临床试验场景中,改进的策略虽然可能为后加入研究的新参与者提供更准确的全局模型,但会略微降低对已有参与者新数据的预测精度。
讨论与局限性
本研究揭示了在医疗数据边缘设备联邦学习应用中的一个关键挑战:由于本地数据(单一参与者)缺乏某些重要特征(如性别)的内部变异,导致这些特征在模型训练中被忽视,从而损害了全局模型的泛化能力。尽管“客户端数据”策略有效缓解了这一问题,但它本质上是一种有限的数据共享,并在个性化与泛化之间引入了新的权衡。
本研究存在若干局限性。首先,使用的是非为本研究设计的现有数据,MDS-UPDRS评分每18个月才评估一次,被作为同一周内每天步态数据的标签,这无法反映症状的日常波动,可能导致模型性能不理想。其次,参与者均为新诊断且认知功能经过筛查的PD患者,数据缺乏极轻度和极重度PD病例,可能影响模型的泛化能力。此外,模拟中客户端本地测试数据可能包含与训练数据相同的MDS-UPDRS评分,可能高估了本地模型的性能。
结论
这项探索性研究通过模拟分析,评估了利用联邦学习框架基于真实世界步态数据预测帕金森病症状严重程度的可行性。研究发现,尽管传统联邦学习在保护隐私的前提下能达到与传统机器学习相近的预测误差,但其全局模型存在欠拟合问题。通过可解释AI技术,研究揭示了本地数据缺乏特征是导致该问题的重要原因。提出的“服务器端训练”和“客户端数据”策略,通过巧妙地引入有限的共享数据,成功恢复了关键人口学特征的重要性,并提升了全局模型的性能,但这在一定程度上降低了个性化本地模型的精度。这项工作表明,联邦学习为实现一个既重视患者隐私又能提供个性化服务的智能家居健康监测系统带来了希望,但如何在隐私、个性化与模型泛化能力之间取得最佳平衡,仍是未来需要深入探索的方向。