迈向自动化新生儿脑电图分析：一项可靠深度学习流程的多中心验证

【字体：大中小】 时间：2026年02月27日 来源：Frontiers in Neuroscience 3.2

编辑推荐：

　　本研究重点介绍了名为“NeoNaid”的自动化新生儿脑电图（EEG）分析软件工具，其整合了功能性大脑年龄（FBA）估计与睡眠分期两大核心任务，并创新性地集成了质量控制系统。文章通过对比内部（鲁汶）与外部（牛津）两所独立医院的临床数据集，验证了该算法在应对记录系统、电极配置差异时的良好泛化能力，以及质量控制在减少极端误差、提升结果可靠性方面的重要作用。这项工作强调了可信度与泛化能力对于推动自动化新生儿脑电分析临床应用的关键意义。

引言

新生儿脑电图（EEG）是评估新生儿脑功能的金标准，在新生儿重症监护室（NICU）中是一种宝贵的监测工具。它凭借高时间分辨率和多通道记录，提供了关于大脑成熟、睡眠阶段以及癫痫发作等病理活动的丰富信息。然而，新生儿EEG信号复杂，解读极具挑战，且记录通常长达数小时，导致视觉分析既需要专业知识又非常耗时。这些因素限制了EEG在临床中的常规使用。

近十年来，一系列数据驱动和人工智能（AI）方法被开发出来以协助新生儿EEG解读，包括癫痫自动检测、背景分级、睡眠分期和功能性大脑年龄（FBA）估计等。此外，一项名为Babacloud的云服务也已部署，实现了从上传的EEG记录中自动计算新生儿EEG摘要指标（包括大脑状态测量和伪迹检测）的分析流程。为了提高EEG深度学习的鲁棒性和泛化能力，近期研究还展示了自监督和多任务训练策略的强大潜力。此类策略允许模型使用来自不同队列的多个数据集进行训练，这些数据集可能是无标签的，或针对不同任务进行标注。通过不将训练限制在单一特定任务的数据上，这种方法能够整合异构数据集并从更大、更多样化的数据收集中学习，从而改善泛化能力。

在新生儿EEG的多种AI应用中，睡眠分期和FBA估计对于评估神经发育尤为重要，也是本研究的重点。睡眠组织是神经发育的重要标志，自动睡眠分期可以提供连续、客观的测量，而这对于临床医生而言通常是难以手动完成的。类似地，FBA估计通过比较EEG衍生的年龄估计值与婴儿的孕后年龄（PMA），提供了大脑成熟的定量测量。FBA与PMA之间的偏差可能提示非典型发育并具有预后价值。两者结合，可以支持临床决策和新生儿神经发育的长期研究。

尽管潜力巨大，但临床采用仍存在显著障碍。大多数已发布的模型仅在内部测试数据上进行验证，引发了人们对它们在不同医院、记录系统或电极配置数据上鲁棒性的担忧。此外，长时间NICU记录不可避免地包含由运动、电极接触不良或生理干扰引起的伪迹。主要在干净数据上训练的模型可能在这些片段上失败。对于临床应用而言，自动化EEG工具不仅需要准确，还必须在实践中可用且在多样化数据集上可靠。最后，为了被临床实践采纳，工具必须易于使用并提供辅助解读的软件。

为满足这一需求，研究团队开发了NeoNaid，这是一个将用于新生儿EEG分析的多任务深度学习模型集成到用户友好图形界面中的软件工具。该工具自动处理长时程EEG记录，并提供稳健的、具有临床相关性的EEG解读，包括睡眠分期和FBA估计。其底层AI模型基于团队先前发表的工作构建，并在一个大型内部新生儿EEG数据集上训练。更重要的是，NeoNaid实施了旨在提高工具在临床实践中使用时的可靠性和可信度的质量控制流程。这些流程通过检测伪迹、分布外输入或高模型不确定性，来标记可能产生不可靠预测的EEG片段。

本研究重点验证NeoNaid作为新生儿EEG分析工具的性能，强调质量控制和外部验证。研究在两个独立数据集上评估NeoNaid：一个来自鲁汶的内部队列和一个来自牛津的外部队列。这种跨中心验证对于评估泛化能力和建立真实世界临床应用中的信任至关重要。

材料与方法

1.
使用NeoNaid进行自动化EEG分析

NeoNaid是一个内部开发的自动化新生儿EEG分析软件工具。它将预处理、基于深度学习的预测和质量控制流程集成在一个为临床使用设计的图形用户界面中。NeoNaid的一个关键特性是处理可变输入配置的能力。底层模型采用通道无关架构，各通道独立处理后，通过基于注意力的机制聚合各通道的预测。

NeoNaid的输入是原始多通道EEG记录。预测以30秒非重叠片段为单位生成。对于输入EEG中的每个通道，NeoNaid产生四个主要输出：指示输入中哪些样本可能是噪声的伪迹掩码；睡眠阶段预测：安静睡眠（QS）、活动睡眠（AS）或清醒；功能性大脑年龄（FBA）估计；以及用于下游聚合的注意力权重。计算完这些逐通道输出后，注意力权重用于通过加权平均的方式，将逐通道的睡眠和FBA预测聚合成单一的全局输出。该机制允许NeoNaid优先考虑信息丰富的信号并减轻噪声信号的影响。

软件核心是一个多任务深度学习模型，通过整合团队先前发布的模型开发而成。其架构基于先前发布的卷积神经网络，包含一个共享编码器，连接到多个输出头，每个任务一个。与先前的单任务模型不同，NeoNaid在多任务设置下训练，能够同时从针对不同任务标注的不同新生儿EEG数据集中进行有监督学习。训练数据包括来自124个记录（具有FBA估计的年龄标签）约1326小时EEG，来自132个记录（具有睡眠标注）565小时EEG，以及来自73个记录（具有伪迹标注）44小时EEG。

2.
数据集

研究使用两个独立的新生儿EEG数据集评估NeoNaid：一个在比利时鲁汶大学医院收集的内部数据集（数据集A）和一个在英国牛津约翰·拉德克利夫医院记录的外部数据集（数据集B）。这些数据集在采集硬件、电极配置和本地记录协议上存在差异，使得研究者能够评估算法在不同记录条件下的泛化能力。内部数据集A与用于开发NeoNaid算法的数据来自同一家医院，但数据集A中的所有记录均独立于开发数据，因此代表未见过的案例。

数据集A包含来自在比利时鲁汶大学医院NICU监测的17名新生儿的33个EEG记录。队列包括足月和早产儿，记录时的孕后年龄（PMA）范围从27.3周到47周。EEG使用BrainRT EEG系统采集，采样率为250或256 Hz。电极按照改良的10-20系统放置，包括以下通道：Fp1、Fp2、C3、C4、T3、T4、O1和O2，以Cz作为参考电极。

数据集B包含来自在牛津大学医院NHS信托基金会新生儿护理单元记录的24名新生儿的38个EEG记录。记录时的PMA范围从29.4周到41.4周。与数据集A相比，数据集B使用不同的EEG系统和配置。EEG使用SynAmps RT 64通道头盒和放大器以及CURRYscan7神经成像套件记录，采样率为2000 Hz。电极配置包括FCz、C3、C4、Cz、CPz、T3、T4和Oz，以Fz作为参考。

为确保数据集间的一致性并减少不同参考电极的影响，EEG记录通过使用两个数据集中均存在的电极对转换为一个共同的双极配置。在此之后，信号进行带通滤波并下采样至64 Hz。然后将记录分割为30秒非重叠时段。在每个记录内，通过所有片段的标准偏差中位数对通道振幅进行归一化。这些预处理步骤确保了采集系统间的一致性，并由NeoNaid软件自动执行。

3.
质量控制

NeoNaid的一个核心特性是其质量控制算法，该算法在下游解读前评估每个30秒EEG片段的可靠性。此过程涉及评估三个独立的可靠性标准：伪迹含量、新颖性检测（用于检测分布外输入）以及（不）确定度水平。

伪迹：每个片段基于模型专用检测头识别为噪声的样本百分比分配一个伪迹分数。伪迹含量超过50%的片段被标记为不可靠，从而防止模型在脑活动基本被掩盖的片段上产生预测。

新颖性：分布外输入通过将新颖性检测模型应用于片段中的每个通道来自动识别。NeoNaid中的新颖性检测模型是一个隔离森林，使用一组九个频谱特征作为输入，预测每个通道在每个片段中是内点还是新颖点。被NeoNaid标记为新颖点的通道从模型的通道聚合中排除，减少了它们对全局预测的影响。此外，如果一个片段中超过一半的通道被标记为新颖点，则整个片段被标记。

不确定度：NeoNaid的输出之一是通道级注意力权重。归一化前，这些通道特定的注意力权重反映了模型对每个通道输入的确定程度。为识别所有通道都被视为不确定的片段，计算每个片段跨通道的最大未归一化注意力权重。当此最大注意力权重低于预定义阈值时，该片段被标记为不可靠。该阈值在NeoNaid开发期间使用独立校准数据集中观察到的最大注意力权重的第1百分位数定义并固定。除了基于注意力的标记外，对于睡眠分期输出，QS概率接近0.5的片段也被标记为不确定。

这三个标准共同提供了针对不可靠预测的保守保障。然后，NeoNaid将片段级输出和质量标记聚合成临床可解读的结果。对于FBA，通过取可靠片段的中位数获得单一的稳健估计；对于睡眠分期，通过平滑概率并使用简单的启发式规则对短时不可靠区间进行插值，构建连续睡眠图。

4.
性能指标

功能性大脑年龄：对于每个记录，全局FBA估计定义为通过质量控制的所有片段级预测的中位数。性能用量化绝对误差，定义为全局FBA估计与婴儿记录时PMA之间的绝对差值。误差越低表示性能越好。保留的片段级估计的四分位距（IQR）被报告为预测置信度的度量，IQR越宽表示预测确定性越低。

睡眠分期：对于睡眠分析，评估NeoNaid检测QS的能力。为此，模型的AS和清醒预测被合并为一个单一类别，代表非安静睡眠类。被标记为不可靠的片段上的预测被排除。性能用科恩卡巴（Cohen’s kappa）分数衡量，分数越高表明预测睡眠阶段与专家标注之间的一致性越好。

5.
分析

分析旨在评估质量控制的影响以及NeoNaid跨数据集的泛化能力。研究者将完整处理流程应用于两个数据集：数据集A（内部）和数据集B（外部）。比较了两种方法：包含所有片段级预测的朴素方法和排除被质量控制标记的片段的稳健方法。

质量控制的效果：首先量化了两个数据集中质量控制标记的发生率。对于FBA估计，性能被评估为EEG记录时长的函数，因为稳健方法的效果在较短时长的EEG中最为明显。为模拟不同的EEG时长，从每个记录中提取从30秒到1小时的子时段。对于每个时长，每个记录随机选择1000个子时段。计算每个时长的中位数FBA和相应的性能指标，从而评估记录长度和质量控制流程的纳入如何影响预测误差。对于睡眠分期，使用朴素和稳健两种方法计算完整记录上安静睡眠检测的科恩卡巴分数并比较性能。

跨中心验证：最后，在完整的EEG记录上验证稳健方法论（即包含质量控制）。记录级结果以两种方式分析和可视化。首先，分别报告每个通道的FBA和睡眠性能指标，以及在聚合各通道预测后获得的全局结果。其次，展示性能随PMA的变化，以研究预测准确性是否系统性地受到新生儿年龄的影响。

结果

1.
NeoNaid质量控制减少误差

研究者首先调查了质量控制流程如何影响自动化分析。对于FBA，内部数据集中位数拒绝率为21.5%，外部数据集为16.1%。睡眠分期的拒绝率较低，中位数分别为2.0%（内部）和2.4%（外部），这主要是由于启发式后处理（对短时不可靠区间进行插值，并在预测清醒周期期间保留含有高振幅运动伪迹的片段）。

分析三个质量控制标准的拒绝率，片段最常被标记为伪迹。在FBA数据中，内部数据集22.9%和外部数据集19.6%的片段被标记为伪迹；睡眠数据观察到类似比率。新颖性检测贡献较小，在内部和外部数据的FBA片段中分别标记了1.1%和2.4%，睡眠片段中分别标记了4.1%和3.4%。在FBA中被标记为不确定的片段贡献率为3.3%（内部）和7.2%（外部），在睡眠中为4.6%（内部）和2.2%（外部）。总体而言，中心间数据质量相当，尽管采集系统和协议存在差异，外部数据并未显示出分布外。

接下来，研究者在两个数据集中调查了质量控制对FBA性能的影响。总体而言，稳健方法（应用片段拒绝）和朴素方法（不应用）产生了相似的中位数FBA误差值。这是预期的，因为使用中位数作为聚合指标减少了对异常片段的影响。尽管如此，稳健方法始终显示出产生极端异常值的可能性更低，特别是在较短记录中，这证明了其在最小化风险方面的价值。FBA估计的中位数IQR最初随数据长度增加，然后在使用约20分钟可用数据后趋于稳定。这表明，在可用数据少于20分钟非拒绝EEG的记录中，IQR值应谨慎解读，因为有限的数据可用性可能低估了实际潜在分布的IQR。

安静睡眠检测性能显示，在已经相对干净和有标注的睡眠数据上，质量控制带来了适度的性能改进。由于不可用的片段未被专家标注，因此未包含在性能评估中。虽然在此评估设置中质量控制的好处不那么显著，但其主要价值在于防止在实践中遇到低质量数据时产生不可靠预测。

2.
NeoNaid的跨中心验证

研究者使用完整记录的稳健方法调查了两个数据集的结果，以验证NeoNaid的跨中心泛化能力。使用稳健方法，数据集A的平均绝对FBA误差为0.60周，数据集B为0.69周。误差在1周以内的记录百分比在数据集A为79%，数据集B为74%。此外，在数据集A中，70%的记录的真实PMA落在每片段预测的IQR内，而在数据集B中为58%。

对于安静睡眠检测，两个数据集的性能都很高。在数据集A中，记录级卡巴分数平均为0.86，在数据集B中平均为0.79。当将分析限制在单个通道，特别是C3、Cz和C4周围的双极导联时，获得了可比较的结果。当汇集所有记录时，数据集A的总体卡巴分数为0.874，数据集B为0.831。

FBA和安静睡眠检测的性能在通道间相对一致，这表明即使在有限或单通道输入的情况下，软件也能提供可靠的结果。然而，虽然组合所有通道在性能中位数上并非总是优于最佳单个通道，但它通常有助于减少异常记录中的误差，提供更好的鲁棒性。

最后，研究者评估了模型性能与婴儿年龄的比较。对于FBA模型，FBA误差与PMA之间没有显著的线性相关性，表明模型在所有年龄段表现均等。相反，对于睡眠分期，存在安静睡眠性能随年龄增长而改善的趋势。在数据集B的一个案例中，模型未能检测到任何安静睡眠，而专家标注指示了一段15分钟的安静睡眠时段，导致卡巴分数为零。该15分钟的安静睡眠时段包含多个高振幅伪迹，导致模型将其误分类为清醒。

讨论

本研究目的有二：第一，评估质量控制流程在改善自动化新生儿EEG分析可靠性方面的贡献；第二，在来自两个医院设置的独立数据集上验证NeoNaid的性能。

研究发现，质量控制减少了极端误差并提供了透明的置信度度量，特别是对于较短或噪声较多记录中的功能性大脑年龄估计。NeoNaid的集成质量控制框架通过伪迹检测、新颖性检测和基于注意力的确定性评分来评估每个EEG片段的可靠性。结果表明，该框架通过降低极端误差的可能性同时保留有效信息，改善了自动化新生儿EEG分析的可靠性。虽然平均性能指标仅发生适度变化，但这些保障措施在最小化风险方面被证明是有价值的，尤其是在较短或较低质量的记录中。因此，这些流程增加了对NeoNaid生成输出的临床信任。

NeoNaid在独立的外部数据集上进行验证时保持了性能，尽管存在采集硬件、配置和协议的差异。此外，外部数据未被质量控制流程识别为分布外。这项跨中心验证提供了初步证据，表明该方法可以在临床环境中泛化，解决了采用自动化新生儿EEG分析的一个重要障碍。

NeoNaid的一个关键特性是它不局限于特定的配置或通道数量。模型在单个双极导联上操作时与完整五通道设置相比，产生了可比较的结果。这对于通道可用性有限的临床场景尤其重要，例如振幅整合脑电图（aEEG）监测，其中可能只能获取一个或两个通道。这种灵活性进一步增强了NeoNaid在不同监测环境中的临床适用性。

性能未随PMA发生显著变化，尽管在低于30周或高于40周PMA的记录中观察到略微较大的误差趋势。这种模式可能反映了在这些极端年龄范围内可用的训练和验证数据有限，而非系统性偏差。相反，睡眠分期性能随年龄增长而明显改善。年龄较大的新生儿安静睡眠检测的卡巴分数较高，而年龄较小的婴儿表现稍低。这可能是因为在早期发育阶段，活动睡眠和安静睡眠之间的区分不太明显。

与先前研究进行比较，NeoNaid的FBA性能优于或可媲美较早的模型。类似地，NeoNaid在安静睡眠检测中的性能也与先前报道卡巴分数高达0.77的模型保持一致。

NeoNaid对临床和研究应用均有价值。在临床实践中，自动睡眠分期和FBA估计有助于监测大脑发育，特别是对于早产儿。伴随FBA估计的IQR提供了实用的置信度度量，帮助临床医生更有效地解读结果。内置的质量控制指示器可以提醒用户注意不可靠的片段，降低因伪迹或信号退化而导致误判的风险。对于研究人员，NeoNaid提供了一种可扩展的解决方案，用于以标准化方式标注大型EEG数据集。它在研究神经发育轨迹、睡眠-觉醒组织以及对治疗干预的反应时尤其有用。

本研究存在若干局限性。外部数据集中的记录数量相对较少，限制了泛化主张的统计效力。睡眠标注由不同中心的评估者完成，缺乏正式的评估者间可靠性评估，这可能引入偏差。此外，外部记录持续时间较短，缺乏伴随的生理或视频数据，这使标注更具挑战性。最后，外部验证仅限于单一中心。未来的工作将侧重于扩大合作，纳入更多外部数据集和更广泛的人群，以进一步验证和完善NeoNaid平台。

总而言之，研究表明NeoNaid是自动化新生儿EEG分析的稳健工具，在具有不同记录设置的两个数据集中保持了性能。其集成的质量控制流程减少了极端误差并提高了可信度，解决了临床采用的关键要求。这代表了向更广泛地在新生儿EEG中使用AI工具迈出的重要一步，因为在新生儿EEG中，采集设置的差异很常见且难以标准化。最终，这些结果支持了NeoNaid在NICU实践和新生儿脑监测大规模研究中的潜力。

热点排行