《Engineering Applications of Artificial Intelligence》:Identifying pertinent cohorts and addressing imbalance for robust intensive care survival analysis
编辑推荐:
本研究针对ICU数据集的生存分析提出创新框架ICD-Balancer,通过指数评分系统筛选关键亚群并优化特征选择,结合SMOTE与条件GAN生成多模态合成数据,有效缓解类别不平衡问题,显著提升分类和回归模型的预测性能,并在MIMIC-III数据集上验证其有效性。
阿韦斯·艾哈迈德(Awais Ahmed)|曾晓阳(Xiaoyang Zeng)|徐瑞(Rui Xi)|侯梦舒(Mengshu Hou)|穆罕默德·阿夫扎尔(Muhammad Afzal)|赛义德·阿提克·沙(Syed Attique Shah)
中国电子科技大学计算机科学与工程学院,中国成都市西高新技术区西园大道,611731
摘要
对重症监护室(ICU)数据进行生存分析有助于我们了解各种因素如何影响患者的生存时间,从而指导临床决策和治疗计划。目前的ICU分析算法通常缺乏鲁棒性,且在处理大型长尾临床数据集时难以手动识别出虽小但有效的子集,可能导致错误和误导性的结果。传统上,合成少数样本过采样技术(SMOTE)适用于表格数据,但在生成离散特征方面存在困难。此外,现有的基于生成的平衡方法通常表现不如SMOTE,并且容易发生模式崩溃,而这对于ICU分析至关重要。为了解决这些问题,本研究首先引入了一种新颖的队列优先级技术来筛选出真正相关的队列。队列优先级是一种基于特征选择的方法,它根据提出的指数评分系统在数据集中识别相关队列。为了解决不平衡问题,我们提出了一种创新的条件生成对抗网络(cGAN)与SMOTE结合的方法,称为“ICD-Balancer”,利用生成对抗网络的力量重新平衡类别分布,并采用了Gumbel-Softmax和Gumbel-Sigmoid来生成多模态表格特征,从而提高了分类任务的总体性能。比较结果表明,我们提出的方法在解决类别不平衡方面非常有效,我们的指数评分系统在增强特征选择过程中也具有实用性。这项研究推进了特征选择优化和解决类别不平衡问题的最新技术,具有广泛的应用前景,适用于需要鲁棒和可解释数据分析的各种表格医疗数据。
引言
自动化生存分析(SA)在医疗保健中至关重要,因为电子健康记录(EHRs)产生了大量患者数据(Kuo等人,2025年;Murray等人,2023年;Shickel等人,2017年;Dash等人,2019年)。有效分析这些数据对于提高医疗质量和降低成本至关重要,特别是在ICU领域。病例严重程度、ICU类型、护理质量、医院资源和患者人口统计等因素会导致ICU生存率的显著差异(Vigneron等人,2021年;Lavrentieva等人,2023年;TEAM研究调查人员和ANZICS临床试验组,2022年)。预测患者结果,尤其是死亡率和住院时间,对于评估疾病严重程度、评估治疗方法、制定干预措施和制定医疗政策至关重要。
近年来,通过利用大规模健康数据和机器学习模型,医疗保健取得了显著进展(Palomares等人,2021年),这改善了决策并提高了患者护理质量,特别是在重症监护室(ICU)(Ben-Israel等人,2020年;Ravì等人,2016年)。特别是,利用包含结构化、非结构化和半结构化信息的大型健康数据已成为医疗保健领域的一个有前景且吸引人的方向(Liu等人,2023a)。这些数据包括离散和连续等多种形式。Johnson等人(2016年)引入的MIMIC-III数据集是一个大型公开可用的ICU患者电子健康记录数据集,已成为众多医疗分析的基础。多项研究(Shickel等人,2021年;Purushotham等人,2018年;Sadeghi等人,2018年)证明了机器学习模型在预测死亡率和评估医疗风险方面的有效性。MIMIC-III数据集及相关研究为医疗分析和机器学习提供了宝贵的见解,具有显著潜力,有助于改善患者结果和医疗保健服务。例如,Johnson等人(2017年)比较了梯度提升和逻辑回归模型在预测ICU死亡率方面的性能,使用从MIMIC-III数据集中提取的简化特征集。他们的发现表明,梯度提升在预测准确性方面优于逻辑回归。
深度学习的最新进展(Jiang等人,2023年;Duan等人,2023年;Jentzer等人,2023年;Kessler等人,2023年;Morid等人,2023年)进一步激发了将这些技术应用于医疗保健的兴趣。值得注意的研究(Toma?ev等人,2019年;Dong等人,2021年;Sadeghi等人,2018年;Pellegrini等人,2022年)在多种医疗应用中展示了有希望的结果,包括ICU死亡率预测、再入院风险评估、早期败血症检测以及各种医疗状况的诊断。例如,在一项关于预测住院时间和严重程度分类的研究中(Moya-Carvajal等人,2023年),使用了SHAP(Shapley Additive Explanations)技术来突出预测住院时间的显著差异。Basnet等人(2023年)的另一项研究引入了RIMD-LSTM,这是一种基于深度学习的循环网络,具有专门设计的衰减机制,用于处理缺失值和代表性不足的类别。尽管生存数据具有有前景的分析能力,但由于数据的时间性和条件性,生成用于生存分析的合成数据仍然具有挑战性;此外,数据通常存在类别不平衡问题,某些患者队列代表性不足(Kuo等人,2025年)。
虽然像SMOTE(合成少数样本过采样技术)这样的传统方法在生成表格数据合成样本方面非常有效,但它们在处理离散特征时存在困难,并且在捕捉复杂交互作用方面存在局限性。另一方面,机器学习技术的最新进展,特别是生成对抗网络(GANs)及其条件变体(cGANs),在生成高质量合成数据方面显示出潜力,可以缓解这一问题。这些模型以及扩散增强方法提供了创新的方法来创建模仿真实临床数据集复杂性的数据分布。然而,现有方法在生成离散和分类特征以及准确捕捉复杂特征交互作用方面存在显著局限性。不幸的是,当前方法也缺乏平衡长尾数据的综合策略,也没有结合鲁棒的特征选择方法,从而导致算法鲁棒性问题。基于这些局限性,我们提出了“ICD-Balancer”,这是一种创新方法,首先使用指数评分提取相关队列(特征子集),然后结合cGAN,创建了一个综合框架,在该框架中,我们通过使用Gumbel-Softmax和Gumbel-Sigmoid改进了传统的SMOTE,生成多分类二进制和连续特征,使其适用于生存分析。
本研究的核心思想是引入一个用于多模态ICU数据的多任务预测和分析的创新框架“ICD-Balancer”。为了实现这一目标,“ICD-Balancer”面临一些挑战。第一个也是最重要的挑战是在解决ICU数据集固有的数据不平衡问题的同时选择最佳特征集。关键问题是识别对准确生存预测最相关和最有影响力的特征,并有效管理患者结果和临床变量的偏斜分布。为了解决这一挑战,“ICD-Balancer”设计了一个指数评分系统,以识别大型表格长尾数据中最有效的子组,无论是公共的还是私有的。完成这一过程后,“ICD-Balancer”专注于提取有价值的信息,而不是处理整个数据集,因为这可能非常耗费资源。ICU数据的第二个也是普遍存在的挑战是其不平衡性,这会导致错误的决策和误导性的结果。如表1所示,以前的研究仅生成离散或连续数据,“ICD-Balancer”提出了一种包含离散和连续数据变量的合成数据生成方法,以平衡类别分布并减少偏差。最后,“ICD-Balancer”使用分类和回归机器学习模型来预测医院死亡率和住院时间。除了传统模型外,它还探索了应用于表现最佳模型的混合集成技术,并使用GridSearchCV优化超参数。总之,这项研究强调了将机器学习模型和新型评分系统集成到重症监护研究中的潜力,进一步处理不平衡问题。这种集成显著改善了患者结果和医疗质量,同时优化了计算资源的使用。
本工作的主要贡献如下:
- •
我们为大型表格医疗数据集中的EHR数据设计了一种新颖的指数评分系统,用于找到强大且相关的队列。该评分系统审查元数据,找到表格之间的主键-次键关系,然后根据每个表格中主键-次键的交叉出现情况应用评分。这种设计有效地筛选出相关队列,节省了计算成本和时间资源。
- •
我们提出了一种多模态表格数据生成方法,通过结合条件生成对抗网络来解决重症监护队列中的数据不平衡问题。该方法使用SMOTE样本和随机变量作为输入,输出多分类二进制和连续特征。此外,我们提出了一种强大的Gumbel-Sigmoid技术,有效生成ICU数据集中常见的二进制特征,提高了算法方差的鲁棒性。
- •
基于上述工作,我们引入了一个用于多模态ICU数据的多任务预测和分析的创新框架“ICD-Balancer”。在MIMIC-III公共数据集上进行了广泛的实验,证明了我们提出的方法在特征选择优化和解决类别不平衡方面的先进性。此外,结果揭示了“ICD-Balancer”在鲁棒的重症监护生存分析中的可行性。
本研究的其余部分组织如下:第2节简要介绍了文献工作,第3节详细介绍了所提出系统的组成部分及其实现。随后,在第4节中,我们评估了所提出的方法并进行了性能比较分析。在第5节中,我们对工作进行了总结。最后,在第6节中总结了我们的工作。
相关工作
相关工作
本节首先讨论了合成数据生成方法的一般概述,然后重点介绍了基于生成对抗网络(GANs)的工作,最后强调了条件GAN方法。
提出的框架图
图1所示的框架图提供了一个系统的整体描述,展示了几个相互关联的组成部分。系统的基本组成部分是评分系统,其次是“ICD-Balancer”。
此外,图2详细介绍了“ICD-Balancer”中使用的架构细节。原始数据表示为系统的输入,表明它是过程的初始阶段。“多模态”一词的使用意味着
结果与评估
本节展示了研究的结果和评估,重点介绍了使用选定队列表的实现。我们彻底分析了选定的队列表,以深入了解数据的特征和组成。选定的队列在表2中呈现。后续章节讨论了对选定队列的深入分析,并进一步展示了多任务和“ICD-Balancer”的影响。
讨论
在这项研究中,我们对重症监护室(ICU)数据进行了生存分析,这使我们了解了各种因素如何影响患者的生存时间,从而指导临床决策和治疗计划。我们进一步发现,现有研究在处理大型长尾临床数据集中的队列或子集时存在困难,这对算法的鲁棒性构成威胁和挑战,可能导致错误和误导性的结果。在这方面,我们研究了这些问题
结论与未来工作
本研究对生存分析领域做出了重要贡献,解决了队列识别和不平衡问题。主要贡献包括开发了一个队列优先级评分系统,使我们能够将大型数据集分解为更小、更易于管理的子队列。与此同时,我们提出了一种使用条件GAN处理数据不平衡的简单方法。我们通过使用Gumbel-Softmax改进了传统的SMOTE
CRediT作者贡献声明
阿韦斯·艾哈迈德(Awais Ahmed):写作 – 审稿与编辑,撰写原始草稿,可视化,验证,方法论,形式分析,数据整理。曾晓阳(Xiaoyang Zeng):写作 – 审稿与编辑,方法论,概念化。徐瑞(Rui Xi):写作 – 审稿与编辑,验证,形式分析。侯梦舒(Mengshu Hou):写作 – 审稿与编辑,监督,项目管理。穆罕默德·阿夫扎尔(Muhammad Afzal):写作 – 审稿与编辑。赛义德·阿提克·沙(Syed Attique Shah):写作 – 审稿与编辑,形式分析。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了中国国家重点研发计划(项目编号:2023YFB3308602)的支持。