基于深度学习高效参数集成技术的胎儿健康状态检测方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Public Health》：Fetal health state detection method based on parameters efficient ensembling of deep learning

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Public Health 3.4

编辑推荐：

　　摘要背景：心电图（CTG）的分类可以帮助产科医生评估胎儿的健康状况。然而，传统的胎儿心率监测数据在手动解释时存在很强的主观性问题，而深度学习模型在处理表格数据时表现较差。方法：本研究提出了PLE-TabM，这是一种结合了分段线性编码（PLE）和高效权重集成的表格深度学习模型。

　　摘要
背景：心电图（CTG）的分类可以帮助产科医生评估胎儿的健康状况。然而，传统的胎儿心率监测数据在手动解释时存在很强的主观性问题，而深度学习模型在处理表格数据时表现较差。
方法：本研究提出了PLE-TabM，这是一种结合了分段线性编码（PLE）和高效权重集成的表格深度学习模型。我们使用公共的CTG数据集作为研究对象。PLE用于提高特征段间隔的感知能力，而TabM则整合了多个多层感知器（MLP）弱分类器。
结果：胎儿健康状况分类的实验结果表明，PLE-TabM算法的性能超过了传统的机器学习方法。其准确率达到95.77%，宏平均F1分数达到93.83%。同时，使用梯度SHapley加性解释（Gradient SHAP）来分析影响分类的特征重要性。最后，该算法在50名临床患者上进行了验证。
结论：本研究将高效的表格学习与可解释性分析相结合，并应用于CTG分类问题，提供了一种可靠且客观的工具，以帮助产科医生进行胎儿监测和临床决策。

1 引言
围产期护理是现代产科的核心重点。胎儿心电图监测是评估子宫内胎儿健康状况和识别胎儿窘迫潜在风险的主要无创方法。它整合了诸如胎儿心率变异性、加速、减速和子宫收缩等指标。它可以反映胎儿的氧合状态和自主神经系统的功能，在指导剖宫产时机选择和临床干预期间的监测中起着关键作用。然而，CTG的传统解释在很大程度上依赖于临床医生的经验，导致观察者之间的差异显著。特别是在正常、可疑和病理模式之间的区分不明确的情况下，这种主观性往往导致过度干预或漏诊，这两种情况都会对母婴结果构成风险。同时，在不同国家和地区，临床环境中诊断胎儿窘迫的标准也有所不同。Kling等人（3）比较了包括FIGO（4）、NICE（5）和SWE（6）在内的主要CTG解释标准的临床效果，结果显示NICE 2022版标准在评估胎儿宫内状况方面具有最高的诊断敏感性。
在表格数据分类任务中，XGBoost经常在Kaggle的机器学习竞赛中脱颖而出（7）。Chen等人（8）提出了一种基于随机森林的WRF算法，该算法可以在正负样本不平衡的CTG数据集上进行分类。Feng等人（9）整合了多种基本机器学习方法，实现了95.39%的准确率。Abiyev等人（10）提出在神经网络中添加模糊规则进行分类。与传统机器学习方法相比，多模态大语言模型（LLM）也展示了它们解释CTG信号和图像的能力。Psilopatis等人（11）和Gumilar等人（12）使用多个LLM代理进行了CTG图像的识别实验，结果表明直接将提示输入LLM并不能获得良好的结果。Sun和Hu（13）为各个代理预设了LB、AC、DP等指标以分别识别它们，然后使用聚合代理生成综合解释。与单一LLM相比有显著改进，但实时预测能力不足。Redman等人（14）开发了一个名为OxSys的数据驱动型胎儿窘迫报警系统。Afridi等人（15）、Jebadurai等人（16）和Kadhim等人（17）专注于特征选择，实验结果表明特征选择后可以减少预测中的噪声。Alotaiby（18）使用共同空间模式（CSP）从原始胎儿心率监测信号中提取特征进行分类。Al-Nussairi（19）展示了多阶段深度学习框架在医学诊断中的应用。
集成学习是一种有效的策略，可以提高深度学习模型的性能。Mahanty等人（20）提出了一种结合增强型xception和快照集成的方法用于阿尔茨海默病检测。Berrones-Reyes等人（21）提出了一种结合深度卷积神经网络和模糊集成建模技术的乳腺癌检测方法。Mahanty等人（22）结合模糊集成和迁移学习模型用于COVID-19 CT图像检测。不同的集成策略对模型性能有显著影响。Low等人（23）比较了多数投票和Choquet模糊积分在COVID-19检测中的效果。
总之，传统机器学习方法的准确率都高于90%。XGBoost通常依赖于表格数据分类任务中的特征工程优化，而没有特征工程的MLP算法通常表现不如XGBoost。一般来说，简单的机器学习方法如朴素贝叶斯和随机森林具有可解释性，而深度学习方法往往不具备。在以患者安全为核心标准的临床医学领域，分类算法需要同时具备高精度的预测性能和可解释性。
在本研究中，将一种高效的MLP集成方法TabM与PLE算法相结合。TabM用于整合多个MLP弱分类器，以提高模型的整体性能，而PLE用于捕捉不同分段间隔中CTG特征的位置信息。通过与RF、MLP和XGBoost等先进模型的比较，本文引入了梯度SHAP分析技术来解释模型的预测行为。我们的主要贡献包括三个部分：（1）证明PLE算法可以捕获CTG特征的分段位置信息；（2）集成后，MLP的性能优于传统机器学习方法；（3）使用梯度SHAP解释模型的预测行为，显示出与临床诊断标准的一致性。
本文的其余部分组织如下：第2节用于分析数据集中的特征。第3节介绍了所使用的技术。第4节介绍了与其他机器学习方法的比较和消融实验。第5节进行了实验结果的分析。最后，第7节总结了整篇文章。

2 数据集描述
2.1 特征描述
本文使用的数据集来自加利福尼亚大学（24），该数据集包含2,126个胎儿心率监测样本。使用SisPorto 2.0程序（25）处理原始CTG信号，并将其转换为表格特征数据。这些记录由三位专家根据其产后分布进行分类。该数据集有21列特征数据和1列标签数据，每列的含义如表1所示。
表1 特征描述最小值最大值平均值标准差
LBFHR（每分钟跳动次数） 106 160 133.30 9.84
AC（每秒加速次数） 0.00 0.02 0.00
FM（每秒胎儿运动次数） 0.00 0.48 0.01
UC（每秒子宫收缩次数） 0.00 0.01 0.00
DLL（每秒轻度减速次数） 0.00 0.01 0.00
DSS（每秒重度减速次数） 0.00 0.00 0.00
DPP（每秒持续性减速次数） 0.00 0.01 0.00
ASTV（异常短期变异性时间百分比） 128 74 7.01 17.21
MSTV（短期变异性平均值） 71 1.34 0.89
ALTV（异常长期变性时间百分比） 09 19.88 18.48
MLTV（长期变性平均值） 05 08.21 5.70
宽度直方图宽度 318 070.45 38.96
最小值直方图最小值 50 15 99 3.58
最大值直方图最大值 122 238 164.03 17.94
Nmax 直方图峰值 018 4.07 2.95
N零直方图零值 010 0.32 0.71
模式直方图模式 60 187 137.45 16.38
均值直方图均值 73 182 134.61 15.59
中位数直方图中位数 77 186 138.09 14.47
方差直方图方差值 02 69 18.81 28.98
趋势直方图趋势 –1 10.32 0.61
NSP（胎儿状态：0：正常，1：可疑，2：病理） 02––
图1显示了三类胎儿平均心率的分布特征。蓝色代表的正常样本分布范围最广，平均值覆盖80–180区间，最高密度峰出现在130–140区间，表明大多数正常样本的平均值集中在这个区间。红色代表的病理样本分布显著向左移动，它们仅覆盖60–110的平均值区间，密度峰出现在90–100区间。这种分布与正常样本只有很小重叠，这表明低平均值是病理样本的典型特征。因此，平均值在区分病理样本和正常样本方面具有很好的区分能力。
图1 这张图显示了平均特征内核密度估计（KDE），表明平均值可以有效区分不同类别。
基线：指任何10分钟内的平均胎儿心率，其中波动范围在每分钟5次以内。基线反映了胎儿的基本心率状态，由自主神经系统调节。
加速：指胎儿心率基线的突然显著增加，从开始到峰值的时间少于30秒。加速通常由胎儿运动或子宫收缩引起，表明胎儿在子宫内有良好的储备能力。
胎儿运动：胎儿运动指胎儿在子宫内的身体活动，如肢体运动和躯干扭转。如果胎儿运动减少或消失，则需要警惕胎儿在子宫内的缺氧可能性。
子宫收缩：在胎儿心率监测过程中监测到的子宫平滑肌收缩次数是评估分娩进展的重要指标。过多的子宫收缩可能对胎儿产生潜在影响，而收缩过少则表明分娩过程停滞。
减速：胎儿心率基线的暂时下降，分为三种类型：轻度减速、重度减速和持续性减速。
短期变性：指胎儿心率基线在几秒内的快速不规则波动，特征是高于和低于基线的快速振荡。缺乏短期变性可能表明胎儿严重缺氧或神经系统抑制。
长期变性：胎儿心率在基线周围长期缓慢的大规模周期性波动。
2.2 数据预处理
数据集被分为训练集、验证集和测试集。训练集占80%（1,700个样本），验证集占10%（213个样本），测试集也占10%（213个样本）。验证集用于提前停止训练和参数调整。测试集仅在测试阶段使用。我们的提前停止策略是当验证集的性能10个周期内没有改善时立即停止训练。
正常样本的比例为77.8%，其余为可疑和病理样本。这主要是由于在现实世界医疗场景中，正常婴儿占绝大多数，而异常婴儿代表低概率事件。这种数据分布导致训练模型更倾向于学习大量的正常样本，从而丧失了对稀疏标签样本的泛化能力。
为了解决样本不平衡问题并使模型能够从稀疏样本中充分学习，本文使用SMOTE过采样算法处理训练集中的可疑和病理样本。与KMeans、ADASYN和其他改进方法相比，SOMTE的简单算法更适合CTG数据预测。SMOTE是一种过采样技术，通过计算每个少数样本的k个最近邻并从中随机选择一个。最近邻根据样本之间的欧几里得距离计算得出。设可疑和病理样本为xi，最近邻样本为xj，α为[0, 1]之间的随机数。使用公式1生成合成新样本xnew。通过重复应用此过程，可以在稀疏区域附近合成大量样本。与随机复制原始样本相比，这种方法保留了空间特征分布，同时扩展了数据集。应用这种方法提高了可疑和病理样本的模型准确性。通过SMOTE过采样算法扩展的训练集数据分布如图2b所示，三个类别中的样本数量均为1,326个。数据集扩展前的t-SNE分布如图2a所示，显示出可疑和病理样本数量较少。数据集扩展后的t-SNE分布如图2b所示，病理样本和可疑样本的数量与正常样本一致。
xnew=xi+α*(xj?xi)
数据处理流程首先是分割训练集、验证集和测试集，然后在每个集上标准化。最终，对训练集进行了SMOTE过采样处理。图2(a)展示了使用t-SNE算法进行维度降维后原始数据的聚类分布。(b)展示了使用t-SNE算法进行维度降维后过采样数据的聚类分布。

3 方法
3.1 高效的MLP集成
本文中采用的TabM（26）网络基于MLP架构。通过共享部分权重来实现学习任务中的高效训练，从而提高模型的性能和训练速度。单个MLP容易在训练集上过拟合，并在测试集上失去泛化能力。直接训练多个具有不同随机数种子的MLP，然后对预测结果进行投票，可以增强模型的泛化能力。然而，这种方法会导致多个MLP的参数数量增加。与单个MLP相比，训练时间会线性增长。这种简单的集成方法也有一个缺点：在对单个MLP进行超参数调整后，整个集成模型并不一定是最佳的。在本文中，通过共享模型内部隐藏层的主要权重来提高训练效率。此外，还引入了适配器来增加子模型的多样性，从而提升集成模型的整体性能。

如图3a所示，TabM由多个模块组成。每个模块包含一个线性层、一个激活函数和一个Dropout层。其中，激活函数增强了模型对非线性数据的拟合能力。第i个模块的计算公式如方程2所示。TabM模型通过连接多个模块来增强模型在多个维度上的拟合能力。连接的计算方法如方程3所示。
Blocki(x) = Dropout(Relu(Linear(x)))
(2)
TabM(x) = Blockn(...Block1(x))
(3)

在集成阶段，k个MLP层被集成到一个模块中，其中i表示该模块中的第i个MLP层。任何线性层表示为Linear(x) = Wx + b，其中W代表权重，b代表偏置。在传统的深度集成中，线性表示为Linear(xi) = Wixi + bi，其中每个MLP有自己的权重Wi和bi。在TabM中，每个MLP共享一个公共的权重矩阵W。第i个MLP的私有权重使用ri构建，其中⊙表示逐元素乘法。具体的计算过程如方程4所示。

图3(a)展示了PLE-TabM模型的整体结构，输入为每批数据的k个副本。(b)展示了如何将单个特征编码到五个区间中。
Linear(xi) = W(ri⊙xi) + b
(4)

在训练阶段，训练特征需要k个副本。假设每个批次读取m个数据，特征维度为d。原始批次的大小为(m, d)。复制后，数据大小变为(m, k, d)。在输出层，TabM模型输出一个维度为(k, n)的特征矩阵。这里，n表示类别的数量。在计算损失函数时，TabM使用交叉熵函数计算k个弱分类器的平均损失，然后通过反向传播优化集成模型的权重。

3.2 特征嵌入
在传统的表格任务中，数值特征通常直接输入到神经网络中。本文在输入层和TabM之间引入了PLE，以编码不同区间内的特征，从而捕获数值在特定范围内的位置信息。对于给定的特征列x，其数据范围为[b0, bT]，这个范围可以被划分为总共T个区间。原始特征x可以根据其区间进行嵌入，如方程5所示。每个区间有一个可学习的特征向量vt，其中位置信息et作为权重，偏置表示为b0。如方程6所示，经过数值特征的线性学习和位置特征的嵌入后，可以计算出新的编码PLE(x)。

图3b展示了在五个子区间的情况下，单个特征的嵌入情况。

(5)
PE(x) = [e1, e2,?, eT],
et = ?? ??? ??
0, x < bt ? 1 且 t > 1
1, x ≥ bt 且 t > 1
x ? bt ? 1
否则
PE(x) = [e1, e2,?, eT],
et = {0, x < bt ? 1 且 t > 1
1, x ≥ bt 且 t > 1
x ? bt ? 1
否则

(5)
PLE(x) = Linear(PE(x)) = b0 + ∑i=1 et · vt
(6)

3.3 Gradient SHAP解释方法
Gradient SHAP是一种基于梯度和输入特征积分的模型解释方法。其核心思想是通过整合输入样本和背景数据之间的模型梯度路径来确定特征的重要性。(27, 28) 在本研究中，使用Gradient SHAP来解释PLE-TabM分类器的预测结果。设提出的PLE-TabM网络模型为F，其中x∈Rn表示当前输入，x′∈Rn表示背景数据。本文中的背景数据是训练集。对于输入特征向量x和背景数据x′，第i个特征的组合梯度可以用方程7表示。这里?F/?xi表示F(x)沿第i维度的梯度。

4 实验结果
PLE-TabM在胎儿CTG数据集上进行了50次迭代训练。具体的超参数设置如表2所示。输出层使用Softmax将三维向量转换为三个类别。损失函数使用交叉熵。所有实验都在配备AMD R5 5500 CPU和RTX 5080 16G GPU的台式机上运行。在训练过程中，评估指标在测试数据集上进行评估。评估指标的变化过程如图4所示。可以看出，经过15次训练后，模型趋于收敛。

表2 参数设置
优化器 Adam
权重衰减 1 × 10?4
批量大小 64
耐心参数 10
学习率 2 × 10?3
k 3
m个区间数量 24
n个模块数量 2
d个嵌入维度 8

图4(a–d)分别展示了训练过程中验证数据集上的准确率、精确度、召回率和F1分数。(e)展示了训练速度与基线模型的比较。(f)展示了训练后的数据集混淆矩阵。混淆矩阵直观地表示了预测结果和真实标签之间的对齐情况，提供了模型分类结果的直观反映。模型训练完成后，在图4f中展示了模型在测试集上的混淆矩阵。在这些结果中，有4个疑似样本被预测为正常样本，7个正常样本被预测为疑似样本。可以看出，正常样本在疑似样本中容易产生混淆，这意味着模型在区分少量疑似样本和正常样本时不够准确。

4.1 消融研究
在复杂的神经网络中，不同的组件和超参数共同作用以提升模型的整体性能。本文对超参数进行了消融实验，改变的参数包括TabM网络的深度n、单个模块中集成的MLP数量k、PLE嵌入分区的数量t以及PLE嵌入特征向量的维度d。这种实验有助于分析哪些超参数对模型有关键影响。本文还对组件进行了消融实验，以验证PLE和TabM的有效性。

如表3所示，模型中不同模块的数量对模型的整体性能有不同的影响。当n=1时，模型的性能较差。这表明它无法揭示数据中的复杂模式。当n=2时，所有模型的指标都达到最佳。当n=3时，损失值上升到0.6381，表明过深的结构可能导致过拟合，从而降低模型的性能。

表3
实验编号 N个模块数量损失准确率召回率 F1分数
1 10 0.636 0.90 14 0.84
2 32 0.84 77 0.89 64 0.86
3 64 0.60 11 0.95 77 0.93 33 0.94 64 0.93
4 33 10 0.90 61 0.84 0.90 78 0.86 59

表3显示了模块数量对分类性能的影响。加粗的值表示最高的分类性能（损失、准确率、精确率和F1分数）。

如表4所示，模型中不同数量的MLP集成对整体性能有不同的影响。当k=1时，模型退化为单个MLP。准确率和F1分数最差。这表明单个MLP弱分类器对数据的拟合效果有限。随着k值从1增加到32，可以观察到准确率和F1分数逐渐提高。这表明适度增加模块中集成的MLP数量可以提高模型对不同特征空间的适应性。

表4
实验编号 k值损失准确率召回率 F1分数
1 10 0.68 0.80 80.86 50.80 0.87 53 0.81
2 12 0.60 33 0.95 77 0.93 33 0.94 64 0.93
3 16 0.61 10 0.94 84 0.91 76 0.94 24 0.92
4 24 0.61 14 30.92 96 0.87 86 0.93 43 0.90 13
5 32 0.60 11 0.95 77 0.93 33 0.94 64 0.93

表4显示了集成MLP层数量对分类性能的影响。加粗的值表示最高的分类性能（损失、准确率、精确率和F1分数）。

如表5所示，PLE嵌入分区的数量对模型的整体性能有影响。当t=24时，所有模型的指标都达到最佳，这表明分区数量足够细，同时避免了过度分区导致的性能下降。当t=32时，模型性能下降。过多的分区减少了每个分区的样本数量，并增加了嵌入层参数，从而导致过拟合。

表5
实验编号 t值损失准确率召回率 F1分数
1 8 0.61 27 0.94 84 0.91 76 0.94 24 0.60 43 0.94 22
2 16 0.60 43 0.94 24 0.92 72 23 0.60 11 0.95 77 0.93 33
3 24 0.62 15 0.93 90 0.91 13 0.95 77 0.93 33

表5显示了PLE嵌入分区数量对分类性能的影响。加粗的值表示最高的分类性能（损失、准确率、精确率和F1分数）。

如表6所示，PLE嵌入向量的长度对模型的整体性能有影响。当d=8时，模型的综合性能最佳，表明八维向量足以表示特征。当d的维度从8增加到32时，核心指标持续下降。这表明过高的特征嵌入维度会增加模型的参数，使模型对数据噪声更加敏感。

表6
实验编号 d值损失准确率召回率 F1分数
1 8 0.60 11 0.95 77 0.93 33 0.94 64 0.93 21
2 16 0.60 11 0.95 77 0.93 32 0.61 40 0.92 63
3 24 0.60 11 0.95 77 0.93 32 0.61 40 0.92 63

为了验证本文提出的方法，我们选择了三种机器学习算法：随机森林（RF）、XGBoost和多层感知器（MLP）进行比较。XGBoost和RF使用默认参数进行训练。MLP使用两个隐藏层，分别包含128和64个神经元，超参数与TabM一致。如表7所示，与单个MLP模型相比，本研究中使用的TabM算法的准确率提高了5%，宏平均F1分数提高了9%。结合smote过采样算法和PLE特征嵌入的TabM算法称为PLE-TabMsmote。实验结果表明，与PLE-Tabm相比，PLE-TabMsmote的准确率提高了0.5%，宏平均F1分数提高了0.7%。

表7
实验编号模型准确率精确率召回率 F1分数
1 随机森林 0.93 43 0.93 14 0.85 10.88
2 XGBoost 0.94 84 0.93 81 0.89 50.85 42
3 TabM 0.90 61 10.82 18 0.87 94 0.84 65
4 PLE-TabM 0.95 31 0.92 94 0.93 12
5 PLE-TabMsmote 0.95 77 0.93 33 0.94 64 0.93 83

表8展示了模型在正常、疑似和病理三个类别上的分类性能和整体指标。在所有类别中，正常和病理类别的准确率、召回率和F1分数都表现出色。疑似类别的性能略低，但仍然保持高水平。整体分类效果稳定可靠。

表8
类别准确率精确率召回率 F1分数
正常 0.96 39 0.98 16 0.96 39
疑似 0.93 10 81 0.81 82 0.93 12
病理 0.94 44 1.0 0.94 44 0.97 14
宏平均 – 0.93 33 0.94 64 0.93 83

表8显示了所有类别的性能指标。加粗的值表示最高的分类性能。

4.2 对比分析
在模型收敛速度方面，本文比较了三种算法：RF、XGBoost和MLP。为了清晰地观察模型的收敛速度，这里只比较了前10次迭代。如图4e所示，本文提出的PLE-TabM模型在前10次迭代中的表现优于其他算法。图表表明，RF和XGBoost的收敛速度略慢，而单个MLP模型在前10次训练迭代中的准确率逐渐下降。

在模型收敛速度方面，本文比较了RF、XGBoost和MLP算法。为了清晰地观察模型的收敛速度，这里只比较了前10次迭代。如图4e所示，MLP和XGBoost的收敛速度略慢于提出的算法，而RF模型的收敛速度快于PLE-TabM。

表9显示，PLE-TabM相比现有的分类模型有了显著改进。与MLP相比，其准确率提高了3.24%。与XGBoost相比，其准确率提高了2.77%。与Feng等人（9）的研究相比，该研究的准确率提高了0.38%，F1分数提高了1.34%。表9列出了相关研究的年份、方法以及评估指标。

| 论文 | 年份 | 方法 | 评估指标 |
|------|------|-----------------|------------------------|
| Mushtaq和Veningston (29) | 2024 | 随机森林 | 准确率 93% |
| Salini等人 (30) | 2024 | KNN | 准确率 90% |
| Sirisha等人 (31) | 2024 | XGBoost | 准确率 93% |
| Agarwal和Mohan (32) | 2019 | SVM | 准确率 92.39% |
| Agarwal和Mohan (32) | 2019 | MLP | 准确率 92.53% |
| Feng等人 (9) | 2023 | 集成分类器 | 准确率 95.39% F1分数 92.49% |
| 我们的研究 | 今年 | PLE-TabM | 准确率 95.77% F1分数 93.83% |

**与相关工作的比较**：**粗体数字表示在所有相关研究中表现最佳，具有最高的准确率和F1分数**。

**4.3 基于梯度SHAP分析**：图5展示了三种胎儿心电监测分类方法的特征重要性图表。这些图表通过SHAP值说明了每个指标对模型分类结果的贡献。每个点代表单个CTG样本中某个特征的SHAP值。水平轴表示该特征对模型输出的影响程度：接近0的值表示与参考分布的偏差较小，而极端值表示该特征有显著影响。左侧垂直轴显示了核心CTG指标（如UC、AC和ASTV），颜色梯度表示原始特征值的大小。红色代表较高的特征值，蓝色代表较低的特征值。这些图表为理解模型行为提供了宝贵见解，有助于识别每个胎儿状态类别中最具影响力的特征。从图6可以看出，AC、ASTV、UC、MSTV和FM在区分正常和病理状态方面贡献最大；此外，MEAN、ALTV、AC、ASTV和DP对病理胎儿心电监测的影响也最大。

**图5(a–c)**显示了正常、可疑和病理状态下的前10个重要特征。特征位置越高，其对预测结果的影响越大。

**图6(a)和(b)**表明这两个特征对预测结果有共同的影响。

**4.4 初步临床可行性评估**：为了评估PLE-TabM的实际应用潜力，我们使用了2025年1月至6月期间从杭州红十字医院收集的50份回顾性CTG记录进行了初步可行性研究。如表10所示，参考标准由三位具有十年以上经验的产科医生根据FIGO 2015指南独立制定。PLE-TabM的预测结果在50例中有45例与专家共识一致，准确率为95%。这一准确率表明PLE-TabM具有一定的临床应用价值。尽管样本量较小，限制了这些结果的普遍性，但这种一致性仍显示出良好的临床可行性。需要更大样本量的前瞻性多中心研究来验证PLE-TabM的临床有效性和普遍性。

**表10** | 项目 | 详情 | 数据来源 |
|--------|------|--------|-----------|
| | | 50份来自杭州红十字医院（2025年1月–6月）的回顾性CTG记录 |
| 包含标准 | | 1. 单胎妊娠，具有20分钟的完整CTG记录 |
| | | 2. 妊娠年龄大于37周 |
| | | 3. 有明确的产后结果 |
| | | |
| 类别分布 | | 正常：35例（70%） |
| | | 可疑：10例（20%） |
| | | 病理：5例（10%） |
| 真实值 | | 由三位具有十年以上经验的资深产科医生根据FIGO 2015指南达成共识 |

**5 讨论**：

**5.1 模型可解释性分析**：图5a显示，AC、FM、ASTV和UC是影响正常状态的关键特征。这四个特征的SHAP值分布较为分散，表明它们的贡献差异较大。高AC值与较高的SHAP值相关，显著增加了归为正常状态的概率，这与AC直接反映胎儿宫内储备能力相符。相反，高ASTV值会降低这种概率，因为ASTV是胎儿神经系统状态的关键指标。FM作为胎儿活力的直观指标，任何异常都会直接提示胎儿状况的潜在风险。

**图5b**显示，在可疑状态的模型预测结果中，AC、Nmax和ASTV是关键区分特征，因为它们是评估胎儿状态的主要维度。低AC值对应较高的SHAP值，增加了被分类为可疑状态的可能性；高Nmax和ASTV值始终与正的SHAP值一致，表明这些指标的高水平会增加可疑预测的权重。

**图5c**显示，在病理状态的模型预测中，ALTV、ASTV、AC和Mean是关键影响特征，这与临床诊断逻辑中胎儿缺氧和神经抑制的情况一致。在病理条件下，ASTV和ALTV会增加，可能表明胎儿神经系统受到抑制或存在宫内缺氧，因此它们的SHAP值也会相应增加。低AC值和低Mean值与高SHAP值一起，在预测病理状态时具有最高权重，因为在病理条件下，AC会下降，胎儿心率会偏离正常的110–160 bpm范围。此外，高DP值（表示宫缩期间的严重减速）也会增加异常预测的概率，因为这些减速是胎儿缺氧的直接表现。

**5.2 特征间的相互作用**：图6a是正常状态下ASTV和AC相互作用的SHAP散点图：红色点代表高AC值，集中在ASTV较低且SHAP值为正的区域；蓝色点代表低AC值，集中在ASTV较高且SHAP值为负的区域。这表明ASTV和AC之间存在相互作用：低ASTV和高AC的组合会增强模型对正常状态的预测，而高ASTV和低AC的组合则会削弱这一预测。

**图6b**是病理胎儿心电监测状态下Mean和DP相互作用的SHAP散点图：随着Mean值从60增加到160，SHAP值从正变为负，表明该特征与模型输出呈负相关。具体来说，较低的Mean（60–110）会对预测有正向贡献，使模型更可能将情况分类为病理；较高的Mean（110–160）会有负向贡献，使模型更可能将情况分类为正常。代表高DP值的红色点聚集在Mean较低且SHAP值为正的区域，验证了低Mean值和高DP值与高病理概率相关，并推动模型倾向于预测病理状态。

**6 限制**：本文仅基于单一数据集的研究，因此样本代表性不足。尚未进行多次重复实验，模型的稳定性也需要验证。该算法尚未封装成可运行的桌面程序，无法应用于实时CTG数据预测。

**7 结论**：随着机器学习算法在医学领域的应用不断深入，学术界和临床界对算法的需求已从单纯追求预测准确率转变为探索黑盒模型的可解释性。本文提出的PLE-TabM算法实现了95.77%的准确率和93.83%的F1分数，优于传统的机器学习方法。SHAP解释结果进一步证实了PLE-TabM在胎儿心电监护数据分类任务中符合临床实践标准。本文创新性地结合了高效表格学习与可解释性分析，并将其应用于CTG问题，能够满足临床胎儿心率监测对精确判断和透明逻辑的核心需求，在胎儿心率监测的智能辅助诊断领域具有很高的临床应用价值。

联系信箱：

粤ICP备09063491号

热点排行