《Sleep Medicine Reviews》:Machine learning to diagnose, classify and predict phenoconversion in isolated REM sleep behavior disorder
编辑推荐:
快速眼动(REM)睡眠行为障碍(RBD),特别是其特发性/孤立性(iRBD)形式,是α-突触核蛋白病(包括帕金森病、路易体痴呆和多系统萎缩)的前驱标志。机器学习(ML)为改善这一高危人群的诊断和风险分层提供了机会。研究人员遵循PRISMA指南,对2014年至2
快速眼动(REM)睡眠行为障碍(RBD),特别是其特发性/孤立性(iRBD)形式,是α-突触核蛋白病(包括帕金森病、路易体痴呆和多系统萎缩)的前驱标志。机器学习(ML)为改善这一高危人群的诊断和风险分层提供了机会。研究人员遵循PRISMA指南,对2014年至2025年9月期间的PubMed、Embase(Ovid)和Medline(Ovid)数据库进行了系统综述。在确定的335条记录中,去除重复后剩下202条,其中75项针对临床诊断为RBD或iRBD的成人、应用并验证了ML模型的研究被纳入。五十八项研究涉及诊断,四项研究涉及RBD表型,十三项评估了向显性α-突触核蛋白病表型转换的预测。在诊断研究中,报告的使用多导睡眠图、脑电图、神经影像学、分子和行为标志物的准确率范围约为63%至99.7%,中位值约为90%。表型转换模型(通常使用多巴胺能成像或多模态特征)的曲线下面积(AUC)高达约0.94,但通常依赖于小型、单中心队列,且表型转换的定义不一致,外部验证有限。研究中使用了多种多样的ML算法(约30种),最常见的是支持向量机、随机森林和逻辑回归。总的来说,ML方法在iRBD的可扩展诊断和风险分层方面显示出潜力,但进展受到方法学偏倚、终点不一致、数据不平衡以及缺乏可解释的、经过外部验证的模型的制约。研究人员概述了为使未来的ML工具具有临床可解释性和可转化性所需的方法学重点。
1. 引言
本文献系统综述聚焦于机器学习在孤立性快速眼动睡眠行为障碍领域的应用。iRBD被认为是帕金森病等α-突触核蛋白病的重要前驱标志,其诊断依赖视频多导睡眠图这一昂贵且复杂的金标准,存在普及障碍。机器学习作为人工智能的一个分支,能够从数据中学习模式并进行推断,为iRBD的辅助诊断、表型细分及预测其向显性疾病转换提供了新的技术途径。本综述旨在系统梳理2014年至2025年9月间相关研究,评估ML在iRBD诊断、表型分类及预测表型转换三方面的应用现状、性能与挑战。
2. 方法
2.1. 搜索策略与选择标准
本系统综述严格遵循PRISMA指南。检索范围覆盖PubMed、Embase(Ovid)和Medline(Ovid)数据库,时间跨度为2014年至2025年9月。检索策略 deliberately 设计得较为宽泛,以涵盖包括线性模型、树模型、核方法、神经网络及“监督学习”等在内的多种ML相关关键词,旨在最小化遗漏不常见模型家族的风险。研究问题基于PICOS框架,主要围绕三点:ML在诊断或筛查iRBD/RBD中的应用;ML在RBD表型分类中的应用;以及ML预测iRBD/RBD向显性α-突触核蛋白病表型转换的性能。纳入标准包括:原创性研究、英文撰写、应用并验证了ML模型的人类研究。排除标准包括动物研究、指南、未使用合适诊断工具、测量方法不明确或缺乏模型验证步骤的研究。由两名评审员独立筛选文献,分歧通过讨论解决。
2.2. 数据提取
由两名评审员独立从每篇纳入文章中提取数据,包括研究基本信息、国家、类型、目的、使用的生物标志物、样本量、患者年龄、方法、主要发现及批判性评价。文章随后根据所用生物标志物亚型(如分子、生理、影像或临床评估)进行分类和分组。
2.3. 研究目标
为最大化研究的普适性和可扩展性,从两个维度对纳入研究进行分类:一是根据ML模型使用的生物标志物性质(如神经影像、分子);二是根据每项研究的主要目标,分为三大类:RBD的诊断、RBD表型分类、以及预测RBD向显性α-突触核蛋白病的表型转换。此处“RBD表型”指RBD内部的临床或生物标志物定义的亚型,而非病因学分类。
2.4. 模型评估
主要使用分类准确率来比较ML模型的性能,同时也报告了灵敏度、F1分数和特异性等其他指标。对每个生物标志物类别,总结了其最佳性能特征及相应的模型性能指标。
2.5. 质量评估与偏倚风险分析
使用有效公共卫生实践项目质量评估工具对纳入的观察性研究进行独立质量评价。评价维度包括选择偏倚、研究设计、盲法、数据收集方法、混杂因素和退出/失访。根据评分给出“强”、“中”、“弱”的全局评级。此外,还根据Cochrane系统综述指南改编的评估标准进行了偏倚风险分析,重点关注数据库内部方法学一致性和模型开发的描述充分性。
3. 结果
3.1. 研究特征
最终纳入75项研究,其中58项聚焦诊断,4项聚焦表型分类,13项聚焦预测表型转换。使用的生物标志物涵盖神经影像与生理特征、分子标志物和行为评估。具体而言,生理特征研究包括多导睡眠图(PSG)全指标或组合、单独肌电图(EMG)、单独心电图(ECG)和单独脑电图(EEG)等。行为研究使用了非运动与运动症状评估,如认知、步态参数和言语功能障碍。就ML模型而言,支持向量机(SVM)是最常用的算法,占32%,其次是随机森林(RF,占26.7%)和逻辑回归(占21.3%)。总体而言,较高的报告性能常与小型单中心数据集、深入的特征工程或应用于高维信号的深度学习以及仅内部验证同时出现。
3.2. RBD诊断
在58项诊断研究中,报告的准确率范围从63%到99.7%,中位准确率约为91%。多项仅使用ECG的研究报告了非常高的准确率(高达99.7%),但这些发现大多来自小型数据集且主要为内部交叉验证,存在性能估计过于乐观和普适性降低的风险。相比之下,基于多通道PSG的方法更 consistently 与诊断金标准进行验证。没有系统性的趋势表明任何数据模态在准确率上优于其他模态。研究也探索了成本较低的工具,如体动记录仪,使用决策树集成模型能以高灵敏度和特异性检测iRBD。嗅觉丧失被认为是帕金森病的早期症状,在iRBD患者中发生率高达72%,可作为识别高危患者的窗口。
3.3. 分类RBD表型
仅有4项研究专注于RBD内部表型亚型的分类。报告的准确率范围在84.2%到86%之间。这些研究中的“表型”指的是iRBD/RBD内部由临床或生物标志物定义的亚组,例如是否伴有轻度认知障碍、基于影像的萎缩模式等。识别此类亚型具有临床意义,因为某些特征(如嗅觉缺陷和轻度认知障碍)与未来向显性α-突触核蛋白病表型转换的较高风险相关。
3.4. 预测RBD的表型转换
13项研究评估了向显性α-突触核蛋白病表型转换的预测。在报告了AUC的研究中,其值范围从0.56到0.94。使用多巴胺能成像(特别是多巴胺转运体单光子发射计算机断层扫描和正电子发射断层扫描)的模型通常显示出比单模态临床测量更强的预后性能,这与早期黑质纹状体受累一致。预测时间跨度和随访时长在不同队列间差异很大。
3.5. 机器学习方法
在75项纳入研究中,共识别出32种不同的算法家族。支持向量机是最常用的算法家族,其次是随机森林和逻辑回归。按研究目标分层,支持向量机在诊断研究中占模型使用次数的最大份额,而逻辑回归在表型转换研究中最常见。表型分类研究应用的算法集较小且异质性高。
3.6. 方法学质量评估结果
质量评估显示,几乎所有研究都表现出中等的选择偏倚,而盲法偏倚在88%的研究中被评为弱。总体而言,根据全局评级,8%的研究偏倚风险为“强”,49%为“中”,43%为“弱”。研究质量评级与阳性发现之间没有明显的关联。少数被归类为高风险的研究是由于缺乏验证和详细的算法开发描述所致。
4. 讨论
本系统综述表明,ML在iRBD诊断中普遍报告了较高的性能,其中PSG衍生信号和EEG特征最 consistently 支持 robust 的分类。表型和表型转换研究数量较少且异质性更高,但多巴胺能成像和多模态方法实现了最强的预后性能。然而,所有研究目标的性能估计常常受到类别不平衡、小型单中心队列、异质性终点和有限外部验证的限制。目前绝大多数研究集中在RBD诊断上,这反映了与之相关的临床风险和对症治疗的可及性。随着针对神经退行性疾病的疾病修饰疗法正在开发,未来应优先开发能够预测表型转换的算法。例如,有研究利用基于EEG的ML模型,在随机生存森林和K最近邻模型框架下,成功预测了表型转换的时间和亚型,EEG减慢是重要贡献特征。从临床角度看,高预测性能本身并不足够,模型还需要提供可解释性。未来的模型应提供透明的特征重要性或事后解释,而非作为不透明的“黑箱”。
4.1. ML研究的方法学注意事项
对于特定数据模态存在方法学注意事项。例如,大多数MRI研究是单中心横断面设计,样本量小,缺乏外部验证。在一些睡眠ML研究中,另一个值得关注的问题是基于数据片段而非个体受试者来计算分类性能,这可能高估模型泛化能力。在临床转化方面,没有一种数据模态在诊断RBD方面显示出系统性更优的性能。尽管表型分类和表型转换研究数量少,但在这些类别中也没有一致的模态层面趋势。这鼓励了继续开发具有成本效益的诊断、表型和表型转换系统。在ML层面,仅有限的研究测试了临床可靠性。定义“表型转换”的异质性是预测模型面临的重要挑战,需要可重复的定义。将表型转换视为生存问题而非简单二元终点,能更好地处理删失数据和不等随访,更符合临床对风险的思考。从生态学角度看,使用数字化测试形式的研究提供了具有成本效益的方法,但家庭环境记录的数据质量可能更易变,捕获的信号信息可能不如实验室多导睡眠图全面。
5. 结论
综上所述,本领域的发展重点包括:第一,需要大型、前瞻性、多中心队列以及标准化的PSG、影像和行为协议,以实现ML模型的稳健外部验证并减少特定地点偏倚。第二,未来工作应就表型转换的可重复定义和具有临床意义的里程碑达成共识,并结合适当的生存时间模型。第三,可解释的ML方法以及输入特征和决策规则的清晰报告,对于临床采纳和监管接受至关重要。第四,应系统性地对心电图、体动记录仪和基于智能手机的运动及言语测试等可扩展、低成本的生物标志物与视频多导睡眠图和先进成像进行基准测试,以评估它们是否能真正减少对昂贵检查的依赖。总之,当前的研究结果令人鼓舞,但方法学上的考虑限制了其可重复性。未来的研究应侧重于前瞻性多中心方案,以开发更集成、优化和精细的、可在临床环境中实施的RBD机器学习模型。