
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通过数据汇集和迁移学习实现多源数据整合,可以提高深度学习模型在预测重症监护病房(ICU)患者死亡率和住院时长方面的泛化能力和针对性:一项基于四个数据库的外部验证研究
《Critical Care》:Multi-source data integration through pooling and transfer learning improves generalizability and specialization of deep learning models for ICU mortality and length of stay prediction: a four-database external validation study
【字体: 大 中 小 】 时间:2026年05月20日 来源:Critical Care 9.3
编辑推荐:
摘要背景大多数用于重症监护的人工智能预测模型都是在单一数据源上进行训练和验证的,这限制了它们在外部环境中的可靠性。本研究评估了这些模型在多个国际数据库中对重症监护病房(ICU)患者死亡率和剩余住院时间(RLoS)预测的泛化能力和专业化程度,并探讨了多种多数据源策略,以降低外部应用
大多数用于重症监护的人工智能预测模型都是在单一数据源上进行训练和验证的,这限制了它们在外部环境中的可靠性。本研究评估了这些模型在多个国际数据库中对重症监护病房(ICU)患者死亡率和剩余住院时间(RLoS)预测的泛化能力和专业化程度,并探讨了多种多数据源策略,以降低外部应用时的性能损失。
我们采用时间点卷积(TPC)架构,在四个统一的BlendedICU数据库(eICU-CRD、MIMIC-IV、AmsterdamUMCdb、HiRID)上进行了外部验证,每个数据库中提取了近20,000名独特患者的数据。比较了四种训练方式:仅在AmsterdamUMC(N = 3,574)或MIMIC-IV(N = 10,915)上进行训练、数据合并以及迁移学习(两种方式的数据量均为N = 14,489)。性能评估指标包括死亡率的AUROC和AUPRC、RLoS的MAPE以及一个综合指标(Mcomposite)。
内部验证结果一致性地高估了模型的外部性能,在外部数据库中MAPE增加了多达51.8%,而AUROC下降了多达13.8%。某些特定于该医疗机构的特征(如药物使用情况)成为了降低模型通用性的“障碍”。数据合并被证明是更优的策略,其泛化能力提升了最多8.0%(通过Mcomposite指标衡量),并且在专业化方面与迁移学习相当或表现更佳——尤其是在RLoS预测上(MAPE分别为84.49和89.24,置信区间不重叠)。
仅使用单一数据源进行训练会削弱模型的临床适用性。跨多个国际数据库合并数据是实现模型泛化和专业化的最有效策略,这支持了“数据驱动的AI”发展理念。我们倡导地方ICU数据集的开放共享以及开源、可定制模型的发展,以促进独立的临床验证工作。
大多数用于重症监护的人工智能预测模型都是在单一数据源上进行训练和验证的,这限制了它们在外部环境中的可靠性。本研究评估了这些模型在多个国际数据库中对重症监护病房(ICU)患者死亡率和剩余住院时间(RLoS)预测的泛化能力和专业化程度,并探讨了多种多数据源策略,以降低外部应用时的性能损失。
我们采用时间点卷积(TPC)架构,在四个统一的BlendedICU数据库(eICU-CRD、MIMIC-IV、AmsterdamUMCdb、HiRID)上进行了外部验证,每个数据库中提取了近20,000名独特患者的数据。比较了四种训练方式:仅在AmsterdamUMC(N = 3,574)或MIMIC-IV(N = 10,915)上进行训练、数据合并以及迁移学习(两种方式的数据量均为N = 14,489)。性能评估指标包括死亡率的AUROC和AUPRC、RLoS的MAPE以及一个综合指标(Mcomposite)。
内部验证结果一致性地高估了模型的外部性能,在外部数据库中MAPE增加了多达51.8%,而AUROC下降了多达13.8%。某些特定于该医疗机构的特征(如药物使用情况)成为了降低模型通用性的“障碍”。数据合并被证明是更优的策略,其泛化能力提升了最多8.0%(通过Mcomposite指标衡量),并且在专业化方面与迁移学习相当或表现更佳——尤其是在RLoS预测上(MAPE分别为84.49和89.24,置信区间不重叠)。
仅使用单一数据源进行训练会削弱模型的临床适用性。跨多个国际数据库合并数据是实现模型泛化和专业化的最有效策略,这支持了“数据驱动的AI”发展理念。我们倡导地方ICU数据集的开放共享以及开源、可定制模型的发展,以促进独立的临床验证工作。