《Artificial Intelligence in Medicine》:GHOSTS: Validated generation of synthetic hospital time series
编辑推荐:
机器学习(ML)在支持、改进和自动化医院临床决策方面具有巨大潜力。然而,由于数据保护法规的限制,基于大量常规数据的模型训练受到阻碍。生成模型可以通过学习合成目标人群的医院数据来确保数据隐私,从而遵守隐私法。特别是,使用已建立的技術对重症监护期间采集的临床时间序
机器学习(ML)在支持、改进和自动化医院临床决策方面具有巨大潜力。然而,由于数据保护法规的限制,基于大量常规数据的模型训练受到阻碍。生成模型可以通过学习合成目标人群的医院数据来确保数据隐私,从而遵守隐私法。特别是,使用已建立的技術对重症监护期间采集的临床时间序列进行建模具有挑战性,这主要是由于采样间隔不均匀所致。在此,研究人员介绍了GHOSTS(Generator of Hospital Time Series),这是一种新颖的方法,能够生成真实的异构患者轨迹,包括具有不均匀采样间隔的时间序列和静态患者属性。为了实现这一目标,GHOSTS引入了新的正则化器和利用低维汇总统计的后处理模块。此外,研究人员还提出了用于合成医院时间序列的新型基准测试套件GHOSTS-Bench。研究人员在来自MIMIC-IV和eICU重症监护数据集的大型患者队列数据上训练了GHOSTS。除了测量生成数据的质量(以衡量真实数据分布的保真度以及其时空动态特征的保存情况)外,研究人员还测量了在生成数据上训练的ML模型如何在真实数据上解决临床预测任务。研究人员观察到,在这些标准方面,GHOSTS优于两种最先进的方法,即DoppelGANger和HALO。研究人员公开了GHOSTS模型、合成数据语料库以及实现GHOSTS和GHOSTS-Bench的Python代码。这些资源将成为未来开发用于重症和围手术期护理的强大预测模型的重要工具。
该研究聚焦于利用生成对抗网络(GAN)解决医疗电子健康记录(EHR)数据因隐私法规难以共享的问题,特别是针对重症监护室(ICU)中常见的不均匀采样时间序列数据。研究人员提出了名为GHOSTS(Generator of Hospital Time Series)的新型生成模型,旨在生成高质量的合成医院时间序列数据。通过对抗训练机制,结合创新的损失函数设计与后处理流程,研究人员成功合成了既符合隐私要求又具备高度临床实用性的异构患者轨迹数据。实验结果表明,GHOSTS在多项定量指标上均优于现有的先进模型,为医学人工智能的发展提供了新的数据基础设施。该研究成果发表于《Artificial Intelligence in Medicine》。
关键技术方法概述:研究人员采用了基于Wasserstein GAN(WGAN)结合梯度惩罚(GP)的架构作为基础。为解决ICU数据特有的不均匀采样和特征异构性问题,在损失函数中引入了三个新颖的正则化项,分别基于离散余弦变换(DCT)、一阶差分算子和Haar小波变换,以强制生成的时序数据具备分段常数特性。此外,设计了一个后处理模块以对齐真实数据的量化分布。研究使用了MIMIC-IV和eICU两个大型公共重症监护数据库的脱敏数据作为训练集,并通过超参数优化确定最终模型配置。评估阶段构建了GHOSTS-Bench基准,从保真度(faithfulness)、多样性(diversity)、效用(utility)和隐私(privacy)四个维度进行综合评价。
研究结果:
- 1.
引言(Introduction):研究人员指出,尽管ML在预测急性肾损伤等严重临床结局中表现出色,但医疗数据共享受限于GDPR和HIPAA等法规。现有生成模型在处理ICU数据时面临挑战,因为ICU数据包含静态属性、连续值特征和离散特征,且大多数生命体征以不一致的间隔进行不均匀采样。研究人员确立了合成数据的四大关键质量指标:保真度、多样性、下游任务效用和隐私性。
- 2.
方法(Methods):研究人员详细描述了GHOSTS的架构。该模型是对DoppelGANger(DG)的扩展,采用多层感知机(MLP)生成静态属性,长短期记忆网络(LSTM)生成时间序列。其核心创新在于损失函数(公式4),除标准的WGAN-GP损失外,增加了基于Γ矩阵的DCT正则项(鼓励频谱稀疏性)、基于Δ矩阵的一阶差分正则项(鼓励时间域的分段恒定,即总变差去噪)以及基于H矩阵的Haar变换正则项。此外,为防止模式崩溃(mode collapse),判别器中加入了小批量判别(MBD)层。
- 3.
结果(Results):通过GHOSTS-Bench评估,研究人员发现GHOSTS在MIMIC和eICU数据集上的表现均优于DoppelGANger和HALO。具体而言,在保真度方面,GHOSTS生成的舒张压等生理指标的边缘分布与真实数据高度一致;在效用方面,基于GHOSTS数据训练的下游预测模型在真实数据测试集上的性能显著优于基线模型;在隐私方面,通过成员推理攻击(MIA)评估,GHOSTS展现了更强的抗攻击能力。
- 4.
讨论(Discussion):研究人员讨论了GHOSTS的优势与局限性。虽然GHOSTS在捕捉非平稳采样动态方面取得了进展,但仍难以完美复制某些复杂的生理耦合关系。后处理模块虽改善了数值分布的量化对齐,但也指出了完全自动化生成符合所有临床约束的数据的难度。尽管如此,该研究提供的开源代码和合成数据集(MIMIC-GHOSTS-DB)仍极大地推动了该领域的可复现性研究。
研究结论:本文提出的GHOSTS模型通过引入针对医疗时间序列特性的新型正则化器和后处理技术,有效解决了现有生成模型在处理不均匀采样ICU数据时的不足。经GHOSTS-Bench基准验证,该模型在生成数据的真实性、多样性及下游任务效用方面均达到先进水平,同时满足了严格的隐私保护要求。这一成果为医疗机构在不违反隐私法规的前提下共享和利用数据提供了可行的技术方案,对加速重症监护领域的机器学习模型开发具有重要推动作用。