综述：人工智能支持儿童神经发育障碍诊断的伞状综述

《Frontiers in Psychiatry》：Artificial intelligence support for diagnosis of neurodevelopmental disorders during childhood: an umbrella review

【字体：大中小】 时间：2026年03月18日 来源：Frontiers in Psychiatry 3.2

编辑推荐：

　　本篇伞状综述系统梳理了2015-2025年间关于AI辅助诊断儿童神经发育障碍的系统评价与荟萃分析，涵盖自闭症谱系障碍（ASD）、注意力缺陷/多动障碍（ADHD）、特定学习障碍等多种疾病。综述发现，尽管AI模型（尤其是机器学习与深度学习）展现出高诊断效能（准确率可达99%），但大多数研究存在方法学质量低下、缺乏外部验证与标准化等共性局限。文章强调了AI在识别生物标志物和辅助早期诊断方面的巨大潜力，同时指出未来临床转化亟需解决现有瓶颈，为相关领域研究提供了全面、严谨的循证依据和明确的发展方向。

在临床与医疗环境中，对神经发育障碍进行早期诊断面临着巨大的临床挑战。这些挑战主要源于症状重叠、共病率高、症状演变具有变异性以及外部社会情境因素的影响。传统的诊断手册（如DSM-5-TR或ICD-11）在应对这些复杂性时，使得精准鉴别诊断变得尤为困难。在此背景下，人工智能（AI）作为一种前景广阔的辅助工具应运而生，有望提升诊断准确性并促进临床与研究场景下的筛查。

人工智能的机遇与现状

对儿童神经发育障碍诊断AI应用的首次全面性伞状综述，旨在综合现有系统评价和荟萃分析的证据。该研究聚焦于12岁以下儿童群体，涵盖了从发育迟缓早期识别（如ASD）到学龄期障碍诊断（如ADHD、特定学习障碍）这两个关键窗口期。研究团队在PubMed、PsycINFO和Web of Science三大数据库进行了系统性检索，时间跨度为2015年1月至2025年8月。

研究全景：趋势、地域与焦点

从初步检索到的148项研究中，最终有64项系统评价和/或荟萃分析被纳入。研究发现，相关出版物的数量自2017年起显著增长，并在2024年达到顶峰，反映出该领域日益增长的研究兴趣。从地理分布看，美国、中国、英国、印度和韩国是相关研究的主要产出地，显示了研究资源与AI技术发展的地域集中性，但欧洲、拉丁美洲等其他地区的参与也表明该议题正日益全球化。

在研究的疾病谱系中，自闭症谱系障碍占据了绝对主导地位，占纳入研究的53%（31项），其次是注意力缺陷/多动障碍，占24%（14项）。特定学习障碍和其他神经发育障碍（如智力障碍、交流障碍）的研究相对较少。这种分布可能与不同障碍的临床复杂性、社会关注度及可用生物标志数据的多寡有关。

技术核心：模型与数据

应用于诊断的AI模型多样，但呈现出清晰的模式。经典的机器学习模型，如支持向量机（SVM）、随机森林、k-近邻算法（k-NN）和决策树，被广泛应用于神经影像数据（如MRI、fMRI）的分析，同时也见于脑电图（EEG）/脑磁图（MEG）、语音、运动传感等数据。深度学习模型，特别是卷积神经网络和递归神经网络，在神经影像处理、EEG信号分析以及语音和运动分析中显示出明显的扩展趋势，擅长处理复杂的多维问题。

更先进的架构，如Transformer和图神经网络，已开始应用于神经影像和文本数据处理，尽管目前使用频率仍低于传统模型。此外，混合与数据融合方法作为一种有前景的替代方案出现，旨在整合多种信息源，以开发更具综合性和鲁棒性的模型。这些趋势表明，AI技术的创新是对当前生物标志物多维性本质的必要响应。

诊断效能：希望与差异

AI模型在不同神经发育障碍中展现出差异化的诊断效能。

对于自闭症谱系障碍，多种AI模型均被证实具有较高的诊断效能。尤其是在神经影像和电生理数据分析中，机器学习、深度学习模型通常能取得超过90%的准确率。然而，在基于面部表情、视线追踪等多模态数据的研究中，准确率可能低至66%。方法学的异质性和缺乏标准化限制了这些发现向临床的推广。

对于注意力缺陷/多动障碍，纳入研究的平均效能范围在80%至92%之间。经典机器学习模型（如SVM、决策树）显示出最高的效能，而深度学习模型在此领域的证据相对较少，Transformer类模型则尚无有效性证据。效能受样本和方法程序变异性影响较大。

对于特定学习障碍，尽管相关研究数量较少，但结果较为一致，报告了中等程度的效能，准确率在70%至88%之间，但其临床验证仍处于初期阶段。

90%, indicating strong discriminative performance in distinguishing individuals with the disorder from controls under study conditions. Moderate Efficacy (score = 1): Accuracy 70%–89%, indicating acceptable but variable performance that may require optimization for clinical use. Not Applicable/Insufficient Data (score = 0): No quantitative accuracy data reported, or studies were exclusively qualitative. These thresholds were established based on conventional benchmarks in diagnostic test evaluation literature and the distribution of accuracy values observed across included studies. Ratings reflect performance under research conditions and should not be directly extrapolated to clinical settings without external validation.">

面临的挑战与局限

尽管技术进展和诊断性能看似充满希望，但该领域在迈向临床转化的道路上仍面临一系列严峻挑战。对纳入研究的批判性分析指出了几个反复出现的局限性。

•
缺乏外部验证是公认的最主要障碍，多达32项研究提及了此问题。模型通常在单一数据集上表现良好，但未在独立、未见过的群体中进行充分测试，其泛化能力存疑。
•
标准化缺失紧随其后，在数据收集、模型开发和报告实践方面均缺乏统一标准，这导致研究间难以比较和整合。
•
样本量小与多样性不足是另一个普遍问题，限制了模型在不同人口、文化和临床环境中的适用性。
•
方法与评价指标的高度异质性使得跨研究比较和得出确定性结论变得困难。
•
模型偏差与过拟合风险也常被提及，这通常与验证协议不充分以及对单中心数据集的依赖有关。
•
伦理与监管问题开始受到关注，约12项研究讨论了透明度、可解释性及监管监督在未来发展中的重要性。

方法学质量的警示

使用AMSTAR-2工具对纳入研究进行方法学质量评估的结果，进一步印证了上述挑战。绝大多数被纳入的系统评价/荟萃分析本身的方法学质量被评为“极低”（80%）或“低”（14%）。仅有5%的研究达到了高质量标准，而这些高质量研究全部聚焦于ASD和/或ADHD。这一评估结果深刻表明，不仅原始AI研究存在局限，对这些研究进行综合评价的二次研究本身，在方案注册、全面检索策略、偏倚风险评估等关键方法学环节也存在显著缺陷，这影响了证据整体的可靠性和强度。

结论与未来方向

综上所述，人工智能在支持神经发育障碍的生物标志物识别和诊断方面展现出巨大的潜力。现有的证据表明，尤其是在ASD和ADHD的诊断中，AI模型可以达到较高的准确率。然而，这种潜力目前仍主要停留在研究阶段，距离广泛的临床落地应用尚有距离。

未来的发展必须致力于解决当前的核心局限性：开展方法学上严谨的研究，进行充分的外部验证和前瞻性验证；推动数据收集、处理流程和报告规范的标准化工

作；建立更大规模、更多样化的共享数据集；同时积极应对模型可解释性、算法公平性及数据隐私等伦理与监管问题。只有通过这些系统性的努力，人工智能才能真正转化为辅助临床决策、促进儿童神经发育障碍早期精准诊断的可靠工具。

热点排行

新闻专题