综述:快速眼动睡眠行为障碍中的机器学习与深度学习:一项范围综述与报告质量分析

《Sleep Medicine Reviews》:Machine and deep learning in REM sleep behavior disorder: a scoping review and analysis of reporting quality

【字体: 时间:2026年05月07日 来源:Sleep Medicine Reviews 9.7

编辑推荐:

  快速眼动(REM)睡眠行为障碍(RBD)是一种异态睡眠,其孤立形式尤为引人关注,因为它是α-突触核蛋白病(alpha-synucleinopathy)的早期阶段。机器学习(ML)和深度学习(DL)模型为自动检测、表型转化预测及分型提供了潜力。本范围综述确定了7

  
快速眼动(REM)睡眠行为障碍(RBD)是一种异态睡眠,其孤立形式尤为引人关注,因为它是α-突触核蛋白病(alpha-synucleinopathy)的早期阶段。机器学习(ML)和深度学习(DL)模型为自动检测、表型转化预测及分型提供了潜力。本范围综述确定了75项在RBD中应用ML/DL的研究,并使用APPRAISE-AI工具评估了其方法和报告质量。大多数研究(73.3%)侧重于RBD检测,主要使用多导睡眠图(PSG)数据;16%的研究关注表型转化的预测,其中影像数据是最常用的模态。样本量普遍较小(大多数研究仅纳入20-100名个体)。根据APPRAISE-AI评分,80%的研究具有中等的方法学和报告质量。常见的缺陷包括数据和代码共享缺乏透明度(23.3%),以及超参数调优(17.1%)、偏倚评估(26.9%)和误差分析(0.66%)的报告不佳。32%的研究观察到数据泄漏(data leakage)。这些问题阻碍了临床转化,并阻碍了研究小组之间的渐进式进展。如果没有透明的报告和共享资源,复制和模型比较几乎变得不可能。未来的工作应采用开放科学原则和严格的验证,以推进睡眠医学中基于人工智能的工具。

1. 引言

人工智能(AI)指基于机器学习的系统,能够根据输入生成分类、预测等决策。相较于基于规则的系统,机器学习(ML)和深度学习(DL)算法能够直接从数据中学习模式。ML/DL在医疗保健领域的角色正在急剧扩大,包括睡眠医学与研究。在睡眠研究的各个子领域中,快速眼动(REM)睡眠行为障碍(RBD)的研究特别适合受益于ML和DL的应用。首先,RBD的诊断是一项耗时的任务,需要记录多导睡眠图(PSG)上的REM睡眠期肌肉失弛缓(RWA)并仔细分析夜间视频,因此ML/DL算法可能提供快速、客观的分析以支持临床诊断。其次,孤立性RBD(iRBD)患者被认为处于α-突触核蛋白相关神经退行性变的早期阶段(即帕金森病PD、路易体痴呆DLB和多系统萎缩MSA),但单一的生物标志物仍缺失。ML/DL算法可能有助于识别预测表型转化的新型生物标志物或组合。最后,RBD在很大程度上仍未被充分诊断,在经过适当验证后,应用于可穿戴设备和非侵入性技术收集的数据的ML/DL算法可能用于目标人群的筛查。
尽管ML/DL在医疗领域应用广泛,但近期综述指出了多个医学领域(包括肿瘤学、神经影像学和泌尿学)中ML/DL研究报告质量的担忧。对于ML/DL应用而言,以全面、可重复和透明的方式报告方法和结果至关重要。据研究人员所知,尚无研究评估睡眠医学领域ML/DL研究的报告质量。为了提高医学中ML/DL研究的质量,最近提出了若干指南。其中,APPRAISE-AI脱颖而出,成为唯一经过实证证明其可靠性(显示低评估者间可靠性)且具有方法论稳健性的工具,也是唯一显示出与独立研究质量指标(如3年引用率)强相关的框架。鉴于RBD领域的ML/DL应用主要针对临床决策支持(如筛查、诊断和预测表型转化时机及表型),APPRAISE-AI工具提供了最严格且经过充分验证的框架来评估这些研究的报告质量。本综述旨在评估在RBD队列中应用ML/DL的文献研究,并使用APPRAISE-AI框架批判性评价其方法和报告质量,最终通过此批判性评估强调当前研究的优势和局限性,并确定未来改进的关键领域。

2. 方法

本研究注册于osf.io并遵循系统综述和Meta分析扩展版(PRISMA-ScR)指南报告。研究人员检索了PubMed和Web of Science中截至2025年4月30日发表的在RBD研究领域应用ML/DL的研究。纳入标准包括:专注于经视频PSG诊断为RBD的人群;使用ML/DL将RBD作为输入变量或模型结果;排除综述、评论、社论、无摘要、非英文、无法获取全文或未使用ML/DL模型的研究。此外,仅纳入ML/DL模型主要关注RBD作为预测因子或结果的研究。研究选择采用两级流程,初始筛选基于标题和摘要在Rayyan平台上进行,随后进行全文筛选。
对于每项纳入的研究,提取了一般描述性研究特征,包括发表年份、研究人群国家、样本量、ML/DL模型目的、算法类型、输入数据和主要发现。使用APPRAISE-AI工具评估纳入研究的人工智能方法和报告质量。该工具包含24个项目,满分100分,分为六个主要领域:临床相关性(最多4分)、数据质量(最多24分)、方法学实施(最多20分)、结果的稳健性(最多20分)、报告质量(最多12分)和可重复性(最多20分)。根据总分,研究被分为非常低、低、中等、高和非常高五个质量等级。为了减少评估者间差异,三名主要作者随机选取三项研究进行校准,之后每位剩余研究由一名主要作者评估,且主要作者不评估自己的研究以确保公平性。
数据综合部分,描述了研究随时间的分布、国家的频率、样本量的分类(iRBD、未特指RBD、伴RBD的PD、其他突触核蛋白病、对照组)。对于ML/DL模型,综合了目的(RBD检测、表型转化预测、分型或其他)、算法/架构类型和输入数据类别(PSG数据、体动记录仪、影像数据、其他电生理信号、其他生物标志物如运动、认知、嗅觉、自主神经、眼科和生物体液)。对于AI报告质量,使用APPRAISE-AI总分分布评估总体质量,并对各领域和项目的得分进行了标准化处理以进行可视化展示。

3. 结果

检索共产生2025条记录,经筛选最终纳入75项研究。这些研究呈现出明显的随时间增加的趋势,主要来源于欧洲和北美,意大利(22.7%)、丹麦(17.3%)、英国(14.7%)、美国(13.3%)和德国/韩国(各12%)贡献最大。样本量差异很大,大多数研究的患者群体规模较小,iRBD队列中32%的研究样本量为21-50人,24%为51-100人。
关于ML/DL模型的主要目的,绝大多数研究(73.3%)集中在RBD检测上,凸显了开发自动化诊断工具的努力;一小部分但不断增长的研究(16%)致力于表型转化预测,通常依赖纵向和回顾性数据集;仅有少数研究(9.3%)探索了分型。为了实现这些目标,超过一半的研究采用了传统ML方法(如逻辑回归、随机森林、支持向量机),深度学习(DL)方法占12%,生存模型占8%。输入数据类型多种多样,最常使用的是PSG数据(36%),其中肌电图(EMG)最常见(21.3%),其次是脑电图(EEG)(16%)、眼电图(EOG)(12%)和心电图(ECG)(8%)。影像数据也被频繁使用(21.3%),其中正电子发射断层扫描(PET)最受欢迎(8%)。此外,还使用了体动记录仪(5.3%)、语音记录(9.3%)以及其他神经退行性生物标志物(21.3%)。在使用PSG数据的研究中,绝大多数(88.9%)旨在自动检测RBD,性能通常超过80%的准确率,但样本量普遍较小。影像学研究目的更多样,50%用于检测RBD,37.5%用于预测表型转化,且队列通常较大。
关于AI报告质量,80%的研究具有中等总体评分,20%具有高评分。更详细的分析显示,标准化得分最高的领域是报告质量(72.8?±?2.0%)和临床相关性(70.3?±?3.2%),单项得分最高的是参考标准的确定(99.6?±?0.4%)、队列特征描述(88.3?±?2.2%)和临床实践实施的考量(80.0?±?4.6%)。得分最低的领域是结果的稳健性(34.2?±?1.6%)和可重复性(32.5?±?1.2%)。单项平均标准化得分最低的是误差分析(0.66?±?0.66%)、超参数调优(17.1?±?2.8%)、透明度(23.3?±?1.0%)、偏倚评估(26.9?±?2.8%)和模型评估(41.9?±?2.0%)。值得注意的是,32%的纳入研究存在数据泄漏,这跨越了从逻辑回归到随机森林再到深度学习方法的各种ML建模类型。总APPRAISE?AI评分与报告的样本量呈正相关(r?=?0.37,?p?=?0.0013)。

4. 讨论

本范围综述概述了在RBD研究中应用ML/DL模型的75项研究,显示出近年来出版物数量增加的趋势。研究主要来自欧洲和北美,大多采用经典ML算法,PSG是主要的输入模态,检测RBD是主要目的。就方法和报告质量而言,大多数研究显示中等质量,且与样本量相关。报告质量和临床相关性得分较高,但结果的稳健性和可重复性得分较低。
这种增长反映了AI在临床研究中的广泛应用。然而,地域偏差明显,可能限制了对其他地区的推广。大多数研究专注于RBD检测并使用PSG数据,反映了对睡眠实验室诊断工具的迫切需求。尽管算法性能一致超过80%的准确率,但均未在反映真实RBD患病率的普通睡眠实验室人群中进行测试。虽然ML/DL在体动记录仪和语音信号中的应用显示出筛查潜力,但尚未在普通人群中进行研究。值得注意的是,没有检测研究调查不同客观模态的多模态整合。少数ML/DL模型旨在预测iRBD患者的表型转化,大多数使用影像数据作为输入,但是否影像数据是最佳预后生物标志物尚不确定。只有少数研究关注RBD表型识别,这反映在少数使用无监督学习的研究中。
在AI方法和报告质量方面,临床相关性和报告质量领域得分较高,表明研究者高度重视队列描述和模型在临床实践中的潜在应用。“参考标准”项目得分极高,归因于严格的纳入标准(仅纳入经PSG确认的RBD患者)。然而,尽管纳入标准严格,但这并不保证研究人群的同质性,特别是在RWA的演示方法上存在定性与定量的差异。同样,对照人群的定义可能存在高度异质性,限制了算法的普适性。
普遍存在的一个局限是数据和模型可用性的缺乏透明度。很少有研究公开代码或预训练模型,超参数调优策略的细节往往缺失或描述不足。这种缺乏透明度阻碍了复制,并使其他研究小组难以在此基础上开展工作。另一个关键缺陷是几乎完全缺乏严格的误差分析和偏倚评估。只有一项研究进行了误差分析,仅26.9%的研究报告了任何形式的偏倚评估。这种遗漏限制了对模型失败原因的理解,这对于提高模型的普适性和临床安全性至关重要。同样,只有少数研究报告了模型校准,而这在临床环境中尤为重要。
最令人担忧的发现是数据泄漏的高发生率,在32%的研究中被识别出来。最常见的泄漏形式包括在包括测试集在内的整个数据集上进行特征选择。还观察到基于测试集性能进行超参数调优的情况,以及来自同一受试者的数据同时包含在训练集和测试集中的情况。这些做法人为夸大了报告的准确性,并可能产生对模型可靠性的错误信心。在检测iRBD和预测表型转化的背景下,这种扭曲尤其成问题,因为它们掩盖了哪些算法或输入模态真正具有临床效用。
基于研究结果,提出了若干建议以提高未来AI研究的质量、透明度和影响力:更广泛地采用开放科学实践,包括详细记录模型开发过程、共享源代码和数据集;未来的检测研究应考虑反映真实RBD患病率的人群;通过整合多模态数据(如PSG和神经影像)进一步增强ML/DL的潜力;RBD研究界应优先协调和标准研究队列,建议使用现有的开源自动RWA检测算法以确保一致的量化;研究必须采用严格的验证程序,明确避免数据泄漏;系统的误差分析、偏倚评估和模型校准应成为标准组成部分;鼓励作者遵循APPRAISE?AI等工具,编辑委员会应考虑实施严格的程序以确保AI方法和报告的质量。

5. 结论

本范围综述强调了在RBD中应用ML和DL的兴趣日益增长,同时也指出了显著的方法学差距。大多数研究将ML/DL模型应用于PSG数据进行RBD检测。MD/DL模型的预后用途主要涉及影像数据,而在体动记录仪和语音记录中的应用显示出作为筛查方法的潜力。根据APPRAISE?AI工具,大多数研究的方法和报告质量仅为中等,主要缺陷在于透明度、可重复性、偏倚评估和误差分析。值得注意的是,近三分之一的研究存在数据泄漏,破坏了模型的可信度和转化潜力。这些局限性限制了当前模型的临床应用,并阻碍了该领域的协作进展。未来的研究应采用开放科学原则、实施严格的验证协议并遵循结构化报告指南(如APPRAISE?AI),同时在反映真实RBD患病率的更大人群中验证检测模型,整合多种模态数据,并使用协调的方案定义队列,最终推动稳健、可推广且具有临床实用价值的AI工具的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号