基于机器学习的多维度血氧测量技术用于阻塞性睡眠呼吸暂停筛查：研发与外部验证

《JMIR Medical Informatics》：Machine Learning–Based Multidimensional Oximetry for Obstructive Sleep Apnea Screening: Development and External Validation

【字体：大中小】 时间：2026年05月11日 来源：JMIR Medical Informatics 3.8

编辑推荐：

　　许元荃|罗海通|丁荣|高天明|王浩安|吴鹏良|李宁上海交通大学医学院瑞金医院呼吸与重症监护医学科 **背景** 阻塞性睡眠呼吸暂停（OSA）全球影响近十亿人，对公共健康构成严重威胁。亟需有效且易于获取的OSA风险识别方法。 **目的** 本研究旨在开发并

　　许元荃|罗海通|丁荣|高天明|王浩安|吴鹏良|李宁
上海交通大学医学院瑞金医院呼吸与重症监护医学科

**背景**
阻塞性睡眠呼吸暂停（OSA）全球影响近十亿人，对公共健康构成严重威胁。亟需有效且易于获取的OSA风险识别方法。

**目的**
本研究旨在开发并外部验证一个基于多参数脉搏血氧饱和度（SpO2）的机器学习模型，用于OSA筛查，并评估其在不同性别和年龄亚组中的性能、可解释性和稳健性。

**方法**
在4156名接受筛查的参与者中，2195人接受了多导睡眠图检查（内部队列），446人接受了家庭睡眠呼吸暂停测试（外部队列）。使用八个由SpO2衍生的参数（包括氧饱和度下降指数（ODI）、缺氧负荷（HB）和ST90% [睡眠时间中SpO2<90%的比例]）来构建模型。训练了六种机器学习算法，以F1分数作为主要指标，曲线下面积作为次要指标。通过Shapley加性解释和内在特征重要性分数来评估模型的可解释性。

**结果**
观察到脉搏血氧饱和度指数与OSA概率之间存在非线性参数-风险关系。四参数ODI-HB-MinSpO2-ST90模型表现最佳（F1分数=0.9516，曲线下面积=0.9879），优于所有单参数模型。Shapley加性解释分析确定ODI、HB和MinSpO2是关键预测因子。ODI-HB-MinSpO2-MeanSpO2配置在女性和年轻亚组中表现更优，而ODI-HB-MinSpO2-ST90模型在男性和老年参与者中仍保持最佳性能。分类提升算法在多个指标上优于其他算法，并在亚组和外部验证分析中表现出稳健性。

**结论**
基于分类提升算法的多参数脉搏血氧饱和度模型为OSA筛查提供了一个简单且准确的工具。按性别和年龄分层的策略可进一步提高其临床适用性。

**引言**
阻塞性睡眠呼吸暂停（OSA）全球影响近十亿人[1]，未经治疗的OSA显著增加了并发症负担和交通事故风险[2]。尽管多导睡眠图（PSG）仍是诊断金标准，但其高昂的成本和操作复杂性限制了其广泛应用[3,4]。现有的筛查工具（如STOP-BANG问卷或单一生理参数）的诊断准确性有限，接收者操作特征曲线（AUC）值介于0.55至0.83之间[5,6]。因此，利用易于获取的生理参数开发稳健的OSA筛查工具仍然是当务之急。

OSA的病理生理特征是上气道反复塌陷，导致夜间间歇性缺氧。脉搏血氧饱和度指标（包括氧饱和度下降指数（ODI）、睡眠时间中SpO2<90%的比例（ST90）和最低氧饱和度（MinSpO2）为PSG提供了可行替代方案[7]，但这些指标仅反映了一个维度的夜间缺氧情况，从而限制了其临床效用[8]。ODI量化了缺氧事件的频率，并与PSG衍生的呼吸暂停-低通气指数（AHI）相关，但未能捕捉缺氧持续时间或深度[9]。ST90反映了累积缺氧负荷（HB），但无法区分不同的缺氧模式（如单次长时间缺氧与多次短暂缺氧[9]。MinSpO2可以识别瞬时最低值，但无法描述累积缺氧暴露[6]。新的综合HB指标结合了缺氧深度、持续时间和频率，在预测OSA相关并发症方面表现出优于AHI和ODI的性能[8]，尽管在同一数据集中的直接比较仍少见[10]。SpO2的熵和频域分析可以捕捉传统指标忽略的动态夜间波动[11,12]。然而，大多数现有研究单独评估参数或关注线性关联，未充分探索多维度特征整合和非线性关系[4,13,14]。因此，利用互补脉搏血氧饱和度指标的多参数模型可能提高OSA筛查的稳健性[4,15,16]。

机器学习（ML）在OSA诊断方面具有巨大潜力。尽管深度学习模型（如OxiNet）能够实现高精度的AHI估计[17]，但其“黑箱”特性影响了临床可解释性，从而限制了实际应用[18,19]。传统ML算法在不同队列中的表现不一致，支持向量机（SVM）和随机森林（RF）的表现也各不相同[20,21]。极端梯度提升（XGBoost）模型在中度至重度OSA中的准确率有限（敏感性72.5%，特异性62.8%[22]）。最小二乘提升法在AHI估计中展示了集成方法的优势，但未能解决社区队列和临床队列之间的泛化问题[23]。最新证据表明，分类提升（CatBoost）在OSA分类中表现优于XGBoost、LightGBM和RF[24,25]，但其应用于基于脉搏血氧饱和度的OSA筛查的研究较少[10]。

本研究有三个主要目标：（1）通过评估多参数脉搏血氧饱和度指标利用ML开发一个简洁可靠的OSA筛查工具；（2）在独立的外部队列中验证模型在社区和临床人群中的普适性（进行家庭睡眠呼吸暂停测试HSAT）；（3）评估不同性别和年龄亚组中的性能差异，以指导个性化筛查策略。

**研究设计和人群**
我们在2022年6月至2024年7月期间，连续招募了在上海交通大学医学院瑞金医院睡眠中心接受实验室PSG检查的疑似OSA成人患者。同期，我们还招募了接受HSAT的社区参与者。纳入标准包括年龄≥18岁、明显打鼾以及提供知情同意。排除标准包括：（1）可能导致低氧血症的慢性疾病，如心力衰竭、慢性阻塞性肺病、慢性肾病；（2）长期使用影响睡眠的药物，包括镇静催眠药、抗抑郁药和抗精神病药；（3）其他并发睡眠障碍，如上呼吸道阻力综合征、不安腿综合征或嗜睡症；（4）既往OSA治疗史；（5）数据不完整。参与者流程图见图1。

**伦理考虑**
研究方案符合《赫尔辛基宣言》并获得瑞金医院伦理委员会批准（批准编号：2018-107）。由于研究采用回顾性设计，所有数据均已去标识化，伦理委员会免除了知情同意的要求。所有数据均按照机构研究数据管理标准安全存储，且未向参与者提供报酬。

**PSG和HSAT**
参与者在研究前至少24小时内避免使用镇静剂、酒精和含咖啡因饮料。实验室PSG使用Alice 6系统（Philips Respironics，美国穆里斯维尔）进行，标准监测包括脑电图、颏下肌电图、双耳电图、心电图、脉搏血氧饱和度、经鼻气流（通过热敏电阻和压力传感器）、胸腹部努力程度、打鼾和体位。HSAT使用Alice NightOne设备（Philips Respironics，美国穆里斯维尔）记录鼻气流、呼吸努力程度和指尖SpO2。经过手动审查后，数据量超过4小时的记录被视为有效。两名经过认证的睡眠专家根据AASM评分手册[3]独立评估PSG和HSAT数据：呼吸暂停定义为≥90%的气流减少持续≥10秒，低通气定义为≥30%的气流减少持续≥10秒并伴有≥4%的SpO2下降。AHI计算为每小时睡眠中的呼吸暂停和低通气总次数，OSA定义为AHI≥5次/小时。

**脉搏血氧饱和度参数的定义和计算**
**信号处理总结**
在PSG和HSAT期间，以500 Hz的采样率收集SpO2信号，并降采样至1 Hz以提高计算效率。提取了八个参数以量化夜间缺氧的不同方面：

- **平均SpO2（MeanSpO2）和最低SpO2（MinSpO2）**：睡眠期间的平均和最低SpO2值，反映整体氧合状态和最严重的缺氧情况[26]。
- **氧饱和度下降指数（ODI）**：每小时睡眠中≥4%下降的缺氧事件次数，其中TST是总睡眠时间（小时）。ODI是呼吸紊乱频率的关键指标，可作为AHI的替代指标[27]。
- **T90和ST90**：SpO2<90%的总体时间和百分比：量化临床显著缺氧的累积暴露[27]。
- **缺氧负荷（HB）**：与呼吸事件相关的SpO2下降曲线下面积的标准化总值，其中AUCi是由“Trapping Rain Water”算法识别的第i次缺氧事件的面积，TRT是总记录时间。HB整合了缺氧的频率、深度和持续时间，代表总氧债[28]。

**注意熵（AttnEn）**
AttnEn是SpO2信号波形变异性的复杂度度量[29]，其中Pi是相邻局部极值之间的间隔分布。较高的熵反映了严重OSA典型的片段化、不稳定的缺氧模式。

**总频谱功率（TotalPower）**
在超昼夜带（0.014-0.035 Hz）内整合Lomb–Scargle功率谱图功率，对应于30-70秒的呼吸周期。该频段的功率升高表明OSA特有的重复性振荡缺氧动态[30,31]。算法步骤如下：（1）事件识别：分析脉搏血氧饱和度（SpO2）信号以检测所有局部最小值，从而确定每次缺氧事件的最低饱和度。（2）窗口初始化：从每个最低值开始，进行双向搜索以界定事件窗口（Winstart和Winfinish）。边界设置在恢复到先前峰值到最低值幅度≥75%的最近峰值处。（3）边界调整：根据平均事件持续时间进一步调整搜索窗口，以确保时间一致性。（4）基线确定：每个事件的基线定义为事件发生前100秒窗口内的最大SpO2值。（5）面积积分：通过积分基线和定义窗口内的SpO2信号之间的差异来计算每个事件的曲线下面积（AUC）。（6）缺氧负荷（HB）计算：将所有单个AUC相加得到总缺氧面积，然后除以总记录时间得到HB。

**ML模型的建立和验证**
**数据预处理**
为了减轻特征幅度的差异导致的偏差，首先通过Z分数标准化对数据进行预处理，将每个特征的均值转换为0，标准差转换为1：
其中μ和σ分别表示特征的均值和标准差。这一步确保了基于距离的计算稳定性和梯度优化。随后，使用合成少数类过采样技术（SMOTE）[32,33]解决类别不平衡问题。SMOTE通过在实例xi和其k个最近邻居中的随机选择一个邻居x?i之间插值来合成少数类样本。

**算法介绍**
本研究评估了多种ML模型，分为三类：（1）基于线性和核的模型；（2）集成学习方法；（3）梯度提升决策树，以平衡可解释性和预测性能。对于线性和基于核的模型，逻辑回归（LR）是临床二元分类的基础模型。它通过应用Sigmoid函数将线性输出映射到0到1的概率范围内：
其中P是预测概率，β0是偏置，βi是系数，xi表示输入特征。其透明性和低计算成本使其成为医学研究中的标准基准[34,35]。
SVM通过最大化类别间的边际来构建最佳分隔超平面。其决策函数为：
w·x + b = 0
其中w是法向量，x是输入特征，b是偏置。该模型通过在约束yi（w·xi + b）≥1的情况下进行训练，确保正确分类且边际至少为1。SVM在高维空间表现优异，并可通过核函数捕捉非线性模式，因此被广泛采用[36]。
对于集成学习方法，RF是一种bagging集成方法，通过聚合多棵决策树的预测来减少过拟合。每棵树在数据的自助样本和随机特征子集上训练。最终预测通过多数投票获得：
其中?是最终预测结果，ht(x)表示t棵树的预测，T是树的总数。通过跨树木平均处理，随机森林（RF）提高了稳定性和准确性，使其适用于高维数据，并在实践中得到广泛应用[37]。对于梯度提升决策树，这种方法通过迭代组合弱学习器（通常是决策树）来最小化一个正则化目标函数：其中 l(yi, ?i) 表示损失函数，Ω(fj) 控制模型复杂性；θ 表示参数。三种主要的变体，包括 XGBoost、LightGBM 和 CatBoost，共享这一框架，但在优化和实现上有所不同：XGBoost 使用二阶梯度近似和显式正则化，特别是在处理结构化或稀疏数据时具有高精度和效率[38,39]。LightGBM 采用叶节点增长策略和基于梯度的采样以及特征捆绑，能够在大规模数据集上进行更快训练[40]。CatBoost 为分类特征进行了优化，使用有序目标统计量和对称树来防止预测偏移，并有效处理高维分类变量[41]。

建模过程遵循了两阶段设计：内部开发与交叉验证，然后是独立的外部验证（图1）。在内部阶段，对2195名受试者进行了预处理，并使用5折交叉验证进行评估。为了防止数据泄露，SMOTE 仅应用于训练折叠，而验证集保持原始类别分布。在固定的随机种子下训练了六种机器学习算法以确保可重复性，超参数详见表1。模型选择基于验证折叠的平均性能。随后在完整的内部数据集（n=2195）上重新训练性能最佳的模型，不再使用 SMOTE 以保持原始数据分布。然后在一个独立的外部队列（n=446）上评估所选模型的泛化能力。这个外部数据集上的性能反映了模型在真实世界阻塞性睡眠呼吸暂停（OSA）筛查中的稳健性。

表1. 用于阻塞性睡眠呼吸暂停筛查的6种机器学习模型的超参数。

模型 | 超参数
----|--------|
SVM | a‘C’: 1.0, ‘gamma’: ‘scale’, ‘kernel’: ‘rbf’
RF | b‘criterion’: ‘gini’, ‘max_features’: ‘sqrt’, ‘n_estimators’: 100
LR | c‘C’: 1.0, ‘penalty’: ‘l2’, ‘tol’ : 1e–4
XGBoost | d‘learning_rate’: 0.3, ‘reg_lambda’:1, ‘n_estimators’: 100, ‘booster’: ‘gbtree’
LightGBM | e‘learning_rate’: 0.1, ‘n_estimators’: 100, ‘boosting_type’: ‘gbdt’
CatBoost | f‘learning_rate’: 0.03, ‘n_estimators’: 100, ‘loss_function’: ‘Logloss’, ‘l2_leaf_reg’: 3

模型评估指标
预测性能通过准确性、敏感性、特异性、F1分数、AUC、阳性预测值（PPV）和阴性预测值（NPV）来量化。具体公式如下：
其中 TP 表示真正例，TN 表示真负例，FP 表示假正例，FN 表示假负例。鉴于临床队列中的类别不平衡，选择了 F1分数作为主要评估指标，因为它平衡了 PPV 和敏感性（召回率）。在不平衡的临床设置中，AUC 可能会过高估计性能，因为它反映了整体区分能力，同时掩盖了对少数类的低敏感性。与不受阈值影响的 AUC 不同，F1分数直接捕捉了少数样本的误分类成本，从而确保了跨类别的诊断准确性。AUC 被报告为整体区分能力的补充指标[42]。

统计分析
所有分析均使用 Python（版本 3.11；Python 软件基金会）进行。连续变量以中位数和 IQR 表示，分类变量以频率和百分比表示。使用 Anderson–Darling 检验来评估正态性。组间差异通过 Kruskal–Wallis H 检验进行评估，随后进行 Dunn 的事后检验（显著性阈值 P<.05）。为了检查连续预测变量与二元结果之间的线性和非线性关联，在 LR 框架内拟合了限制立方样条（RCS）回归。似然比检验将 RCS 模型与线性规范进行比较，并使用样条曲线来可视化剂量-反应关系。为了进一步解释模型预测，使用 Shapley 加性解释（SHAP）来量化每个特征的贡献。最后，对这些血氧参数按性别和年龄进行了分层分析。

研究参与者特征
在4156名接受筛查的参与者中，2641人被纳入最终分析：2195人接受了 PSG 检查，构成了内部开发队列，446人接受了 HSAT 检查，构成了外部验证队列（图1）。内部队列包括943名非 OSA 患者和1252名 OSA 患者。与非 OSA 组相比，OSA 组年龄更大，男性比例更高，经历的缺氧事件更频繁，缺氧持续时间更长。外部队列包括76名非 OSA 患者和370名 OSA 患者。这些 OSA 患者的 AHI、ODI、ST90、T90 和 HB 值较高，同时氧饱和度较低，但他们比非 OSA 患者年轻，两组之间的性别分布没有显著差异。人口统计和临床特征在表2中总结。小提琴图（图3）显示外部验证队列的中位年龄更高（60.0岁 vs 45.0岁），夜间缺氧更加严重，突显了两个队列之间的疾病严重程度和生理特征的差异。这些差异为多参数血氧模型的通用性在各种临床情景中的验证提供了坚实的基础。

表2. 内部开发和外部验证队列中非阻塞性睡眠呼吸暂停和阻塞性睡眠呼吸暂停患者的基线特征。

结果
在4156名接受筛查的参与者中，2641人被纳入最终分析：2195人接受了 PSG 检查，构成了内部开发队列，446人接受了 HSAT 检查，构成了外部验证队列（图1）。内部队列包括943名非 OSA 患者和1252名 OSA 患者。与非 OSA 组相比，OSA 组年龄更大，男性比例更高，经历的缺氧事件更频繁，缺氧持续时间更长。外部队列包括76名非 OSA 患者和370名 OSA 患者。这些 OSA 患者的 AHI、ODI、ST90、T90 和 HB 值较高，同时氧饱和度较低，但他们比非 OSA 患者年轻，两组之间的性别分布没有显著差异。人口统计和临床特征在表2中总结。小提琴图（图3）显示外部验证队列的中位年龄更高（60.0岁 vs 45.0岁），夜间缺氧更加严重，突显了两个队列之间的疾病严重程度和生理特征的差异。这些差异为多参数血氧模型的通用性在各种临床情景中的验证提供了坚实的基础。

表2. 内部开发和外部验证队列中非阻塞性睡眠呼吸暂停和阻塞性睡眠呼吸暂停患者的基线特征。

特征 | 内部开发队列 | 外部验证队列
--------|--------|
年龄（岁），中位数（IQR） | 45.00 (36.00-57.00) | 45.00 (35.00-57.00) | 46.00 (37.00-57.00) |
男性比例（%） | 1651 (75.22) | 684 (71.77) | 967 (77.86) |
AHI（事件/小时），中位数（IQR） | 8.20 (2.10-34.10) | 1.80 (0.90-3.00) | 19.40 (9.03-37.48) |
ODI（事件/小时），中位数（IQR） | 12.80 (3.80-37.90) | 3.30 (1.70-5.40) | 23.85 (10.40-45.28) |
MinSpO2（%），中位数（IQR） | 86.00 (78.00-90.00) | 90.00 (88.00-92.00) | 82.00 (75.00-86.00) |
MeanSpO2（%），中位数（IQR） | 95.00 (93.00-96.00) | 96.00 (95.00-96.00) | 94.00 (92.00-95.00) |
ST90（%），中位数（IQR） | 0.44 (0.02-5.12) | 0.02 (0-0.11) | 2.91 (0.32-13.80) |
T90（分钟），中位数（IQR） | 2.00 (0.10-23.70) | 0.10 (0.00-0.50) | 14.50 (1.53-65.52) |
HB（%·分钟），中位数（IQR） | 3.90 (0.90-16.40) | 0.70 (0.20-1.70) | 5.18 (2.32-9.70) |
AttnEn（中位数（IQR） | 2.19 (1.78-2.84) | 1.74 (1.54-1.97) | 2.70 (2.25-3.37) |
TotalPower（dB），中位数（IQR） | 38.17 (35.83-40.81) | 37.61 (35.62-40.64) | 46.95 (45.56-49.16) |

单参数血氧模型的性能
我们使用6种机器学习算法评估了8个与OSA相关的血氧参数的预测性能。鉴于内部队列中OSA组和非OSA组之间的类别不平衡，选择F1分数作为主要指标来平衡精确度和召回率，同时使用AUC来评估整体区分性能[43]。模型性能存在显著异质性，F1分数范围从0.5332到0.9269，AUC值从0.5660到0.9808。值得注意的是，ODI和HB表现出最强的区分能力。图4A总结了按F1分数排名的前4个单参数血氧模型。SVM模型在ODI上取得了最佳性能（F1分数=0.9269，AUC=0.9712），而LightGBM模型在HB上表现最好（F1分数=0.9043，AUC=0.9590）。相比之下，MeanSpO2和TotalPower的区分能力相对较弱，F1分数分别为0.7073（LR模型）和0.6713（CatBoost模型）。

多参数血氧模型的性能
我们构建并评估了多参数血氧模型，包括28个双参数、56个三参数和70个四参数组合，表现最佳的模型在图4B-D中展示。在双参数模型中，CatBoost训练的ODI-HB模型取得了最佳性能（F1分数=0.9472，AUC=0.9865；表3，图4B）。ODI-HB-MinSpO2模型在三参数类别中表现最好（F1分数=0.9496，AUC=0.9869；表3，图4C），而四参数ODI-HB-MinSpO2-ST90模型获得了最高的整体区分能力（F1分数=0.9516，AUC=0.9879），显著优于单参数血氧模型（表3，图6）。CatBoost在所有评估指标上均表现出一致的优越性（表3）。值得注意的是，增加5个或更多血氧参数只带来了边际提升，这强调了选择具有信息量和互补性的特征的重要性，而不是无区别地增加输入维度。

表3. 使用多参数血氧进行阻塞性睡眠呼吸暂停筛查的机器学习算法比较。

特征集和机器学习模型
AUC | F1分数 | 准确率 | 敏感性 | 特异性 | PPV | NPV
----|--------|--------|--------|--------|------|
ODI-HB | 0.9865 | 0.9472 | 0.9408 | 0.9412 | 0.9537 |
LightGBM | 0.9280 | 0.9361 | 0.9280 | 0.9332 | 0.9396 |
XGBoost | 0.9812 | 0.9344 | 0.9262 | 0.9300 | 0.9213 |
RF | 0.9794 | 0.9360 | 0.9280 | 0.9316 | 0.9234 |
LR | 0.9809 | 0.9217 | 0.9134 | 0.8881 | 0.9496 |
SVM | 0.9774 | 0.9297 | 0.9226 | 0.9066 | 0.9434 |
ODI-HB-MeanSpO2 | 0.9869 | 0.9496 | 0.9435 | 0.9420 | 0.9575 |
LightGBM | 0.9848 | 0.9432 | 0.9367 | 0.9413 | 0.9540 |
XGBoost | 0.9831 | 0.9427 | 0.9358 | 0.9372 | 0.9487 |
RF | 0.9803 | 0.9446 | 0.9380 | 0.9348 | 0.9550 |
LR | 0.9816 | 0.9248 | 0.9180 | 0.8921 | 0.9517 |
SVM | 0.9796 | 0.9267 | 0.9194 | 0.9018 | 0.9423 |
ODI-HB-MinSpO2-ST90 | 0.9879 | 0.9516 | 0.9458 | 0.9444 | 0.9592 |
LightGBM | 0.9862 | 0.9451 | 0.9385 | 0.9388 | 0.9520 |
XGBoost | 0.9842 | 0.9436 | 0.9367 | 0.9380 | 0.9496 |
RF | 0.9856 | 0.9512 | 0.9453 | 0.9444 | 0.9465 |
LR | 0.9811 | 0.9236 | 0.8970 | 0.9412 | 0.9525 |
SVM | 0.9815 | 0.9285 | 0.9212 | 0.9050 | 0.9423 |

分层分析按性别和年龄进行时，发现不同人口统计群体之间存在显著的性能差异。在男性亚组中，最佳模型（ODI-HB-MinSpO2-ST90）的F1分数为0.9460，AUC为0.9853，CatBoost的表现优于其他算法（表4，图7A）。在女性亚组中，表现最佳的组合是ODI-HB-MinSpO2-MeanSpO2（F1分数=0.9543，AUC=0.9919；表4，图7B），这表明OSA相关的缺氧模式存在性别特定差异。在年龄分层分析中，较年长的亚组表现出更好的整体性能（F1分数=0.9398-0.9701，AUC=0.9913-0.9933），其中ODI-HB-MinSpO2-ST90是最佳模型，而较年轻的亚组表现稳定但略低（F1分数=0.9163-0.9467，AUC=0.9774-0.9863），更倾向于ODI-HB-MinSpO2-MeanSpO2（图7C-D）。在所有亚组中，CatBoost始终保持较高的分类性能（表4）。在内部开发队列中，针对阻塞性睡眠呼吸暂停筛查的最佳预测模型在性别和年龄亚组中的表现。特征集：
亚组a | AUC | F1分数 | 准确率 | 敏感性 | 特异性 | 阳性预测值（PPV） | 阴性预测值（NPV） | ODI-HB-MinSpO2-ST90
--- | --- | --- | --- | --- | --- | --- | ---
男性 | 0.985 | 30.946 | 0.937 | 60.933 | 80.943 | 80.958 | 70.9102
ODI-HB-MinSpO2-MeanSpO2 | 0.991 | 90.954 | 30.954 | 10.9527 | 0.9554 | 0.9572 | 0.9532
ODI-HB-MinSpO2-ST90（≥60岁） | 0.994 | 20.970 | 10.9657 | 0.9664 | 0.9647 | 0.9741 | 0.9552
ODI-HB-MinSpO2-MeanSpO2（<60岁） | 0.986 | 30.9467 | 0.9404 | 0.9384 | 0.9429 | 0.9552 | 0.9224

所有亚组模型均使用CatBoost作为最佳分类器。
a：接收者操作特征曲线下的面积（AUC）。
b：阳性预测值（PPV）。
c：阴性预测值（NPV）。
d：氧饱和度下降指数（ODI）。
e：缺氧负担（HB）。
f：最低SpO2（MinSpO2）。
g：SpO2<90%的睡眠时间百分比（ST90）。

图7. 不同年龄和性别亚组中4参数氧饱和度测量模型的F1分数热图。(A) 男性亚组；(B) 女性亚组；(C) 年长亚组（≥60岁）；(D) 年轻亚组（<60岁）。每个亚组显示前4个F1分数最高值，颜色越深表示分类性能越好。

注意：
En：注意力熵（AttnEn）；
CatBoost：分类提升算法（CatBoost）；
HB：缺氧负担（HB）；
LightGBM：轻量级梯度提升机（LightGBM）；
LR：逻辑回归（LR）；
MinSpO2：最低SpO2；
ODI：氧饱和度下降指数（ODI）；
OSA：阻塞性睡眠呼吸暂停（OSA）；
RF：随机森林（RF）；
ST90：SpO2<90%的睡眠时间百分比。

模型可解释性：
为阐明最佳4参数模型的预测机制，我们将SHAP分析与标准化特征重要性得分结合起来。SHAP值量化了每个特征的边际贡献，并揭示了氧饱和度测量参数与OSA风险之间的非线性关系（图8A），而标准化得分反映了相对贡献权重（图8B）。在内部队列中，ODI、HB和MinSpO2成为前三大预测因子，其重要性得分分别为0.437、0.320和0.137（图8B）。亚组分析显示，性别和年龄层之间的贡献模式存在差异（图8C-J）。值得注意的是，男性和老年亚组中ODI、HB、MinSpO2和ST90的表现更为突出（图8C、D、G、H），其中ODI在老年亚组中的贡献最高（重要性得分：0.511）。相反，年轻和女性亚组则以ODI-HB-MinSpO2-MeanSpO2为主，其中MeanSpO2取代了ST90作为更强预测因子（图8E、F、I、J），尤其是在女性中，MeanSpO2的贡献强度超过MinSpO2（图8F）。

下载：高分辨率图像（156KB）
下载：完整尺寸图像

图8. 不同性别和年龄亚组中氧饱和度测量参数的可解释性分析。(A, C, E, G, I) SHAP摘要图，展示了特征贡献；点的颜色表示特征的重要性（红色：高，蓝色：低），水平位置表示SHAP值。(B, D, F, H, J) 标准化特征重要性得分。结果包括所有参与者（A,B）、男性亚组（C,D）、女性亚组（E,F）、老年亚组（≥60岁）（G,H）和年轻亚组（<60岁）（I,J）。

外部验证：
为了评估模型的泛化能力，我们在独立的外部队列上测试了模型性能。CatBoost算法表现出良好的泛化能力，单参数配置下的F1分数为0.9667，并且随着氧饱和度测量参数复杂性的增加，性能仍然保持较高（表5）。特别是最佳4参数氧饱和度测量模型（ODI-HB-MinSpO2-ST90）的F1分数为0.9838，AUC为0.9881（表5，图9D），表明该模型捕捉到了OSA的共有病理生理特征，而不仅仅是过度拟合内部队列的数据。亚组分析进一步验证了性别和年龄分层模型在外部分队列中的稳健性（表6）。性别优化模型的F1分数分别为：男性亚组（ODI-HB-MinSpO2-ST90）0.9848，女性亚组（ODI-HB-MinSpO2-MeanSpO2）0.9799，AUC均超过0.98（图9E, F）。年龄分层模型在各个亚组中的F1分数也均超过0.98（图9G, H）。这些结果验证了基于CatBoost的氧饱和度测量模型在多种OSA筛查应用中的优异泛化能力（表6）。

表5. 多参数氧饱和度测量模型在外部验证中的表现。所有亚组模型均使用分类提升算法（CatBoost）作为最佳分类器。

外部验证：
所有亚组模型均使用分类提升算法（CatBoost）作为最佳分类器。
特征集：
AUC | F1分数 | 准确率 | 敏感性 | 特异性 | 阳性预测值（PPV） | 阴性预测值（NPV） | ODI
--- | --- | --- | --- | --- | ---
d0 | 0.987 | 70.9667 | 0.9462 | 0.9405 | 0.9737 | 0.9943 | 0.7708
e0 | 0.9861 | 0.9727 | 0.9552 | 0.9622 | 0.9211 | 0.9834 | 0.8333
f0 | 0.9863 | 0.9810 | 0.9686 | 0.9784 | 0.9211 | 0.9837 | 0.8974
g0 | 0.9881 | 0.9838 | 0.9731 | 0.9838 | 0.9211 | 0.9838 | 0.9211

下载：高分辨率图像（211KB）
下载：完整尺寸图像

图9. 外部验证中不同参数组合和人口亚组的F1分数热图。(A-D) 所有参与者的性能按参数复杂性划分：(A) 单参数，(B) 2参数，(C) 3参数，(D) 4参数模型。(E-H) 4参数氧饱和度测量模型在不同亚组中的表现：(E) 男性，(F) 女性，(G) 年长（≥60岁），(H) 年轻（<60岁）。热图显示了每种参数组合在6种机器学习算法中的前4个最高F1分数。颜色越深表示F1分数越高，分类性能越好。

讨论：
主要发现和模型开发：
本研究首次全面评估了用于OSA筛查的多参数氧饱和度测量指标。通过使用6种机器学习算法，我们开发并严格验证了一个综合多参数模型，克服了传统单参数或双参数方法的固有局限[44,45]。通过新颖的算法-参数匹配框架，我们建立了一个结合ODI、HB、MinSpO2和ST90的CatBoost模型。该模型在外部验证中表现出稳健的性能，为OSA筛查提供了高效且高精度的工具。此外，我们的发现阐明了氧饱和度测量参数在性别和年龄特定亚组中的异质性贡献，填补了人口特异性研究中的关键空白[46]，并为个性化风险分层奠定了基础。

模型泛化和氧饱和度测量参数性能：
我们使用了来自PSG的大型内部开发集和来自HSAT的独立外部验证集，后者包括患有严重夜间低氧血症的老年患者，代表了不同的临床表型。这种社区和临床数据的结合提高了模型的泛化能力，可能简化OSA的诊断[4,23]。与先前的报告一致，HSAT在患有严重OSA的老年患者中显示出高诊断准确性和与PSG的强相关性[47]。正如预期的那样，OSA组主要为男性，其氧饱和度测量特征更为严重[1,22,23]。单参数氧饱和度测量模型的预测性能存在显著差异，ODI和HB成为最强的预测因子。ODI量化了每小时低氧饱和度事件的频率，并且与AHI强相关，作为无论睡眠阶段或身体位置如何的独立OSA严重程度预测因子[48,49]。尽管ODI>20事件/小时的敏感性很高（96.6%）对于严重OSA，但其对轻度疾病的AUC仅为0.62，表明其独立使用的实用性有限[50,51]。相比之下，HB结合了低氧饱和度的深度和持续时间，更好地捕捉了间歇性低氧血症的累积生理负担[44,46,52]。值得注意的是，RCS分析显示MeanSpO2风险曲线在88%-92%范围内趋于平稳，表明平均值无法捕捉到短暂的低氧饱和度事件，缺乏辅助参数时缺乏诊断敏感性[53]。TotalPower反映了整体信号波动，但没有与呼吸事件的特定机制联系[54]。这些非线性参数-风险关系解释了线性模型（如LR）的表现不佳[10,23,44,55]。ODI和HB的陡峭阈值效应表明，即使是轻度OSA也可能引发显著的风险增加，支持了缺氧暴露存在临界阈值的假设[56,57]。

氧饱和度指数之间的多维度协同作用：
我们进一步量化了多个氧饱和度指数之间的相互作用。虽然ODI跟踪事件频率，但它忽略了低氧饱和度的深度和持续时间，无法捕捉OSA异质性的生理细微差别[10,57]。我们的2参数ODI-HB CatBoost模型的F1分数为0.9472。通过同时考虑时间和强度维度，这种协同作用解释了为什么ODI作为最强预测因子需要HB的整合来提高性能[57,58]。我们的主要模型ODI-HB-MinSpO2-ST90（F1分数=0.9516，AUC=0.9879）的优越性能源于这些参数的互补性。MinSpO2捕捉到了严重的低氧饱和度低点[16]，而ST90量化了夜间低氧血症的持续时间[59]。这4参数的组合有助于全面的多维度OSA表型分析，涵盖了低氧事件的频率、深度、持续时间和累积负担[57,60]。在基准测试中，我们的模型性能优于Kong等人提出的多参数氧饱和度测量方法（AUC=0.939）和Gutiérrez-Tobal等人开发的最小二乘提升模型（AUC=0.889-0.924）[8,23]。此外，结合人口统计学、问卷调查和面部照片的集成模型获得的AUC范围为0.88至0.89[1,61]，而我们的仅基于氧饱和度测量的方法在没有辅助临床数据的情况下也实现了更高的准确率。这表明多参数氧饱和度指数作为PSG的有效替代指标，比传统临床标记包含更多直接的病理生理信息[4]。

预测模型和机器学习算法的基准测试：
机器学习算法在OSA筛查中的表现各不相同[62]。LR的AUC约为0.77[63]，而SVM在对轻度OSA的诊断中表现出最高准确率[62]。RF在预测严重OSA方面的准确率为84.4%，但对复杂特征交互作用不敏感[62,64]。相比之下，梯度提升框架在处理异质性交互作用、类别不平衡和缺失数据方面表现出色[4,23]。通过实施有序提升，CatBoost有效减轻了梯度偏差，从而增强了模型的稳健性，并一致优于XGBoost和LightGBM等现有基准模型[4,65,66]。我们的研究是首次将CatBoost应用于多参数氧饱和度测量基的OSA筛查，强调了其在解决复杂非线性关系方面的能力[24,25]。值得注意的是，增加5个或更多的氧饱和度测量参数并未提高性能。无选择的特征添加会导致多重共线性和过拟合，而没有带来额外收益[4]。通过优先选择核心参数而非堆叠特征，我们的模型确保了稳健性和临床可行性，为开发便携式筛查设备提供了基础[7,23]。

性别和年龄特定的性能差异：
鉴于OSA的显著表型异质性，现有模型通常未能充分考虑性别差异，导致女性患者常被漏诊[67-69]。为此，我们按性别和年龄进行了分层分析。在男性和老年亚组中，ODI-HB-MinSpO2-ST90模型表现最佳，这与我们的整体发现一致。这一结果可能归因于我们的样本主要来自男性（中位年龄45岁）。相反，ODI-HB-MinSpO2-MeanSpO2配置在女性中表现更好。Pati?o等人[70]报告称，尽管AHI值较低，女性的平均SpO2下降幅度与男性相当，而Poka-Mayap等人[71]确认女性OSA患者的平均SpO2水平显著更低，表明女性OSA表型可能与持续的低氧血症更密切相关。这可能反映了女性对缺氧的更高敏感性，因为在亚临床AHI阈值下SpO2的波动就足以导致内脏器官损伤[56]。值得注意的是，在老年人中，ODI-HB-MinSpO2-ST90模型的AUC高达0.9950，优于年轻参与者。这种提高的准确性可能源于老年人较低的缺氧耐受性和年龄带来的SpO2变异性[72]。

模型可解释性和外部验证的稳健性：
以往基于机器学习的OSA诊断研究主要集中在预测性能上，经常忽略参数贡献的量化，从而限制了基于氧饱和度测量模型的临床信任度和采用[17,19,23]。我们通过SHAP值和特征重要性分析解决了这一“黑箱”问题，证实了ODI和HB的核心作用，并揭示了不同亚组间特征权重的显著变化。值得注意的是，女性亚组中MeanSpO2的重要性显著增加，强化了关于性别特定生理特征的假设，即持续的低氧血症可能在女性表型中更为显著[56,69,71]。此外，我们的基于CatBoost的模型在独立的外部验证集中保持了出色的性能，性别和年龄特定的模型显示出持续的稳定性，这归因于CatBoost在减轻梯度偏差方面的能力[73]。尽管外部验证队列中的非OSA对照组规模相对较小（n=76），但在不同人群中保持的高精度表明了跨队列的强大泛化潜力[7,23,74]。这种稳健性表明，基于机器学习的多参数氧饱和度测量可以简化OSA筛查流程，并减少对资源密集型PSG的依赖[75]。

局限性：
本研究存在一些局限性。首先，尽管样本量大，但参与者来自单一中心，且均为因疑似OSA而就诊的个体，可能导致OSA患病率高于普通人群，从而提高了检测概率，可能高估了诊断性能。其次，缺乏纵向随访，无法评估模型的时间一致性和长期预测能力。第三，我们的研究样本在种族和民族多样性方面存在不足。由于皮肤色素沉着可能会在SpO2测量中引入系统性的偏差，这可能会限制该模型对肤色较深人群的普适性[76]。最后，由于采用单中心设计且缺乏基于社区的前瞻性验证，该模型的外部有效性也受到限制。

总结来说，我们开发并验证了一种基于CatBoost的多维血氧测量模型，能够实现精准的OSA（睡眠呼吸暂停）筛查。尽管ODI-HB-MinSpO2-ST90组合在一般人群中表现最佳，但将ST90替换为MeanSpO2后，在女性和年轻亚组中表现更为优越。通过整合涵盖频率、深度和持续时间的夜间低氧血症指标，我们的方法克服了单参数筛查的局限性，提供了超越传统AHI（呼吸暂停指数）中心方法的多维生理评估。这些模型可以轻松集成到便携式监测设备或可穿戴技术中，以促进OSA的早期诊断。未来的研究应优先考虑多中心前瞻性试验和多民族验证研究，以建立标准化的个性化OSA风险分层方案。

热点排行