高保真合成数据在百万糖尿病患者队列中复现临床预测性能:迈向隐私保护的医疗数据协作新纪元

《Advanced Science》:High-Fidelity Synthetic Data Replicates Clinical Prediction Performance in a Million-Patient Diabetes Cohort

【字体: 时间:2026年03月17日 来源:Advanced Science 14.1

编辑推荐:

  本期推荐一篇探讨临床研究中合成数据实用性的重要论文。文章聚焦糖尿病队列,利用双重对抗自编码器生成大规模纵向合成数据,并通过多维度评估验证了其在慢性肾病预测任务中的性能与生物医学合理性,为构建隐私安全、协作共享的医疗数据生态系统提供了关键证据。

  
摘要
合成患者数据为临床研究提供了一条前景广阔的途径,但其有效性取决于能否保持统计保真度、生物医学合理性和患者隐私。为解决这一问题,研究采用了双重对抗自编码器,基于来自安达卢西亚人口健康数据库的近百万糖尿病患者的真实世界临床数据生成纵向合成数据集。通过多方面的评估,衡量了合成数据在机器学习任务(预测慢性肾病发病)中的效用,并评估了所生成疾病轨迹的生物医学合理性。研究结果显示,仅用合成数据训练的模型展现出与用真实数据训练的模型相当的预测性能,并且在特征重要性排名上表现出稳定性,这表明了其临床一致性。然而,对算法偏见和按性别分层的特定领域分析揭示了标准指标无法辨别的不一致性,而数据增强并未带来性能提升,因为庞大的源人群已达到“数据饱和”。这些发现表明,虽然合成数据可以复现预测性能,但必须构建一个结合机器学习效用与特定领域生物医学评估的稳健验证框架。这项工作支持将合成数据用于大规模、隐私保护的研究,以构建协作的医疗数据生态系统。
引言
医院的数字化推动了医疗保健系统成为最高产的数据生产者之一。据估计,超过30%的现有数据是在医疗环境中产生的。这些丰富的数据源为新生物医学知识的创造奠定了基础,使研究人员能够从真实世界的患者经历和结果中获取见解,推动了现实世界证据领域的发展。在推动电子健康记录二次使用的同时保护敏感的医疗数据,医疗机构采用了去标识化技术来创建匿名数据集。然而,去标识化虽然降低了隐私风险,但不能完全防止再识别攻击或与外部数据源的链接攻击。实际上,当患者轨迹被充分观察时,它们保留了独特的特征,增加了再识别的风险。
一种更有效的隐私保证策略是通过从真实的电子健康记录中学习来合成逼真的数据。缺乏与原始患者记录直接关联的合成记录,在缓解隐私攻击方面被证明非常有效。采用差分隐私可进一步确保私人信息被限制性披露。
生成对抗网络在合成各种临床应用中的电子健康记录方面取得了显著成功。在表格数据中最广泛使用的基于GAN的方法包括条件表格GAN和表格变分自编码器。最近,去噪扩散概率模型作为一种更稳定的替代方案出现,而大型语言模型在生成逼真的电子健康记录数据方面表现出色。通过利用预训练中丰富的医学知识和微调过程中捕捉的细微临床语义,LLMs能生成具有上下文连贯性的记录,并能通过提示定制,只需最少的后处理。
然而,尽管取得了这些进展,电子健康记录中的核心数据源,即描述患者按时间顺序排列的医疗状况的集合值序列集合,尚未得到足够的关注。本研究的重点是生成封装了分配给患者的医疗实体(如诊断、年龄、性别和就诊日期)的高维离散记录序列的真实合成数据。先前,生成对抗网络或变分自编码器架构已被使用,主要应用于图像等高维连续数据。然而,为高维离散序列,特别是患者结构化记录序列训练这些模型带来了重大挑战。这种复杂性源于采样单词或电子健康记录时固有的不可微操作。最近,为处理集合值医疗记录序列而设计的深度生成模型——双重对抗自编码器被提出,以解决这些复杂性问题。与现有模型要么处理连续潜在分布,要么处理离散数据分布不同,DAAE对抗性地学习两者,在保持全局真实特征的同时,增强了生成序列的多样性和真实性。
大多数生成合成患者纵向数据的尝试都使用了MIMIC数据库,该数据库包含超过5万名患者的连续重症监护测量数据。然而,重症监护数据库旨在捕获高密度、急症护理事件。虽然对于ICU特定任务具有无可估量的价值,但这些数据集在模拟普通人群健康所特有的长期疾病轨迹方面的能力有限。相比之下,大型行政临床数据库提供了更广泛的时间范围,涵盖了不同的患者群体和丰富的跨医学专业和医疗环境的信息,提供了对真实世界临床实践、患者结果和疾病轨迹的更全面、更整体的视角。具体来说,安达卢西亚是欧洲第三大地区,拥有850万居民,拥有其人口健康数据库,这是一个大型数据库,患者的临床数据在过去20年中得到了累积性的结构化整合。目前,BPS存储了来自安达卢西亚公共卫生系统超过1500万用户的详细临床数据,其主要目标之一是促进和支持临床研究。此类研究可以在安全处理环境中进行,例如安达卢西亚医学证据生成平台。
特别是,BPS包含超过100万糖尿病患者的电子健康记录,本研究利用这些数据生成了合成患者轨迹。与急症护理数据库不同,这个队列因其系统性特征,可作为建模慢性多病纵向进展的代表性案例研究。这些轨迹捕捉了合并症向不同严重程度终点的连续演变,包括肾衰竭、失明、心血管事件和死亡。利用这些模式进行早期风险预测对于未来的预防医学至关重要,有助于实施改善患者生活质量和优化医疗资源分配的干预措施。
在本研究中,我们利用双重对抗自编码器合成了从安达卢西亚人口健康数据库中提取的近100万真实世界糖尿病患者衍生的纵向数据集。我们建立了一个全面的评估框架,以评估数据在机器学习任务(预测慢性肾病发病)中的效用,并将分析扩展到标准指标之外,以阐明模拟疾病轨迹的生物医学合理性。具体而言,我们的目标是:(i)衡量生成记录的保真度、结构和隐私性;(ii)调查生成过程中潜在的算法偏见和特定领域的不一致性,这些通常无法通过标准指标检测到;(iii)确定在合成队列上训练的模型是否能够达到与在真实数据上训练的模型相当的预测性能,同时在特征排名上保持稳定性;以及(iv)复制端到端的过程,以解释生成模型和预测模型的随机性。最终,我们的目标是证明构建一个稳健的验证框架对于合成数据生成至关重要。因此,通过验证一个能够最小化再识别风险、同时忠实保留原始数据丰富性的糖尿病大型队列的可靠代理,这项工作旨在支持将合成数据用于研究,从而实现一个更具协作性的医疗数据生态系统。
方法
数据来源
真实的纵向数据提取自安达卢西亚人口健康数据库。这些数据集来源于安达卢西亚公共卫生系统患者的电子健康记录。安达卢西亚生物医学研究协调伦理委员会批准了本研究。
设计与患者选择
本研究旨在使用一个回顾性队列,涵盖2003年至2022年间在安达卢西亚被诊断为1型或2型糖尿病(ICD-10代码E10和E11)的所有患者。具体而言,仅选择了性别和糖尿病诊断年龄记录正确的患者。同时,只保留了成年(≥18岁)时诊断为糖尿病的患者。还考虑了包括慢性疾病和其他相关病理在内的80种合并症的其他编码。其他合并症的观察期涵盖任何先前和后续的诊断。最后,年龄和性别等人口统计数据通过为每个特定值分配一个标签进行编码。
安全数据管理
数据管理程序遵循安达卢西亚卫生部关于医疗数据二次使用的规定以及欧洲健康数据空间法规,避免任何可能损害隐私的环节。具体流程包括:研究获得数据访问委员会批准后,向BPS请求电子健康记录;BPS团队提取数据并对其进行假名化处理;BPS将假名化数据传输至PAGEM安全处理环境用于生成真实世界证据;在PAGEM内进行数据分析;研究完成后,数据从PAGEM基础设施中移除。
患者模拟策略
患者数据编码
从BPS提取的纵向患者数据被编码为有序的就诊序列,包括患者就诊时的年龄及相应的诊断。因此,每个患者的特征由其性别和一系列年龄-诊断事件构成,包括糖尿病诊断以及在研究期间观察到的其他先前或后续的合并症或终点(例如,视网膜病变、肾衰竭)。虽然简单,但这些患者轨迹包含了关于合并症如何发展,最终导致糖尿病诊断,以及患者随后如何通过其他病症和症状向不同严重程度的终点(包括肾衰竭、失明、心血管并发症,在某些情况下,死亡)进展的丰富信息。
生成对抗训练
本研究使用双重对抗自编码器来学习集合值医疗记录序列。与现有模型要么处理连续潜在分布,要么处理离散数据分布不同,DAAE对抗性地学习两者,在保持全局真实特征的同时,增强了生成序列的多样性和真实性。尽管其他近期有前景的生成架构(如Transformer或扩散模型)也可考虑,但将这些方法应用于离散的、集合值的电子健康记录数据集仍然需要复杂的定位和语义建模,且性能有限。因此,如前所述,这些模型更广泛地应用于具有更短、更规则、更受控结构的连续纵向临床数据(例如,MIMIC中的重症数据)。相比之下,DAAE提供了稳定的对抗训练,并能有效处理不规则的时间模式和多标签就诊结构,这使其成为适合我们数据集和计算约束的实用选择。
该模型在配备32GB显存的NVIDIA Tesla V100 GPU上进行训练。配置包括批量大小为256,L2正则化,以及一个用于序列到序列自动编码器的门控循环单元层。生成模型的优化器是差分隐私随机梯度下降,已被证明可以保证隐私而不泄露。此外,没有采用早停策略,以符合原始实现。相反,我们采用了500个epoch的固定epoch策略。这种固定epoch策略不会降低模型性能,并具有双重目的:(i)通过DP-Adam优化器减少隐私泄露,以及(ii)确保跨复制的稳健性和一致性,避免因验证损失中的瞬态噪声而导致次优停止。因此,该方案为收敛提供了一个可控且可复现的框架。
合成数据预处理
对于每次生成运行,使用双重对抗自编码器生成包含800,000个个体的合成队列,该模型基于真实的训练数据集。这个合成数据集经过审查和预处理,以保留高质量的样本。最初,排除了没有糖尿病诊断或相关性别的个体,并移除了空就诊或仅包含年龄标签的就诊。此外,对于慢性病诊断,仅保留每个患者的首次发生记录。关于年龄,如果在单个就诊中存在多个年龄标签,则只保留最高值。另一方面,如果就诊缺少年龄标签,则使用前后两次就诊的平均年龄来推断年龄。这个预处理管道产生的一组样本构成了我们所谓的“精炼合成队列”。
模型评估
为了验证我们的模型,我们将真实数据集分割为80%的训练集和20%的测试集。我们通过两种方式评估模型的稳健性。首先,在“单次分割,多次复制”分析中,我们使用不同的随机种子从相同的数据分割生成了五个合成队列,以评估模型固有的随机性如何影响结果。其次,在“多次分割,单次复制”分析中,我们创建了五个不同的训练/测试分割,并为每个分割生成一个合成队列,这有助于评估模型对所使用的特定训练数据的独立性。
评估生成模型稳健性的指标
为了严格评估生成的合成队列的质量、保真度和效用,我们采用了多维度的评估策略。第一类指标直接评估生成数据集本身的统计特性和结构。这些指标评估合成数据对原始数据分布和相关性以及其生成相同结构(如数据范围、变量类型等)能力的保真度。第二类指标旨在量化从生成数据集中重新识别真实个体或泄露其敏感属性的风险。评估的重点是确保模型没有记忆或泄露训练数据中的私人信息,从而保护原始队列参与者的隐私。第三类指标通过测量预测性机器学习模型的性能来评估合成数据的实际、真实世界效用。这涉及在不同数据集(仅真实数据、仅合成数据以及两者的组合)上训练模型,并在保留的真实数据集上对其进行测试。这种“用合成数据训练,用真实数据测试”范式作为一个基准,用于确定合成数据是否保留了构建有效预测工具所必需的复杂模式和关系。
评估合成队列保真度与质量的指标
这套指标已使用SDMetrics Python包实现。我们提供了两种不同的评分系统:一种是正确评估生成模型在原始数据集上的性能,另一种是分析合成队列相对于其预期用途(即,预处理后)的质量。从现在开始,应用预处理管道后产生的样本被称为“精炼合成队列”,以便于识别。
  • 边界依从性分数:此指标评估合成数据中的数值和日期时间列是否遵守真实数据所建立的最小和最大边界。它计算合成行中值落在原始数据观测范围内的百分比。只有当缺失值在原始数据中也存在时才被视为有效。得分为1.0表示所有合成值都在真实数据的边界内,表示完全依从。
  • 类别依从性分数:此指标验证合成数据中的分类和布尔列仅使用原始数据中存在的类别。它计算属于真实数据中观测到的类别集合的合成数据点的比例。如果原始数据集中存在缺失值,则将其视为有效类别。得分为1.0表示完全依从,意味着模型没有发明任何新类别。
  • 柯尔莫哥洛夫-斯米尔诺夫互补分数:此指标使用两样本柯尔莫哥洛夫-斯米尔诺夫检验比较真实数据和合成数据之间连续(数值或日期时间)列的分布。对于每一列,它测量真实数据和合成数据累积分布函数之间的最大差异。最终得分是所有连续列上1 - (最大差异)的平均值。得分为1.0表示分布相同,较低的得分表示存在差异。
  • 相关性相似性分数:此指标评估合成数据在多大程度上保留了真实数据中发现的数值列之间的成对相关性。它为两个数据集计算皮尔逊相关系数矩阵,并计算这两个矩阵之间的绝对差值。最终得分是1减去这些差值的平均值。得分为1.0表示相关结构被完美复现,较低的得分表明模型未能捕捉变量之间的线性关系。
  • 列联相似性分数:此指标评估合成数据在多大程度上捕捉了离散列对之间的关联。它为真实和合成数据集中所有分类列对计算基于列联的关联度量(克莱姆V值)。最终得分是1减去这些关联值之间平均绝对差值。得分为1.0意味着分类变量之间的关联被完美复制。当将数值列与分类列配对时,它首先将数值列离散化为分箱。
  • 总变差互补分数:此指标比较真实数据和合成数据之间离散(分类或布尔)列的概率分布。对于每一列,它计算总变差距离,即类别频率绝对差值总和的一半。最终得分是所有离散列上1 - TVD的平均值。得分为1.0表示分布相同,较低的得分表示类别概率存在差异。
  • 切片瓦瑟斯坦距离:此指标评估超出成对相关性的合成数据与真实数据之间的多元分布对齐。特征在计算度量之前被归一化到[0, 1]区间,该度量沿1000个随机方向使用1D瓦瑟斯坦距离的平均值进行计算。
  • 共现相关性:此自定义设计的指标比较了真实队列和合成队列之间合并症共现频率,同时保留了它们出现的时间顺序。具体来说,对于每一对合并症,CoC测量一种病症在患者轨迹中出现在另一种病症之后的频率,并计算真实和合成共现频率之间的皮尔逊相关系数。
评估患者再识别风险的指标
这套指标已使用SDMetrics Python包实现,但成员推断攻击除外,它使用Synth–MIA实现。威胁模型假设攻击者可以访问每条记录的性别和诊断时年龄,而MIA是在零知识假设下进行的。
  • 泄露保护分数:此指标通过模拟对整个数据集的最坏情况攻击来直接量化再识别风险。它假设对手知道个体的特定属性集,并试图推断一个敏感属性。该指标计算与基线(例如,简单猜测最常见的类别)相比,合成数据在多大程度上帮助对手改进其猜测。最终得分衡量数据的安全性,其中较高的分数表示敏感信息被泄露的风险较低。
  • 泄露保护估计分数:此指标通过对数据的多个随机子样本运行相同的模拟攻击并对结果进行平均来估计DPS。对于非常大的数据集,这种方法在计算上更高效。最终得分表示数据相对于随机猜测基线的安全性,其中1.0的分数表示合成数据提供的泄露保护等同于完全随机的数据,0.0表示高风险泄露。
  • 新行合成:此指标旨在量化生成数据的新颖性。其主要目的是评估模型是真正创建新的数据点,还是仅仅复制原始训练数据集中的行。对于合成数据集中的每一行,该指标在真实数据集中识别最相似的行并计算新颖性得分。最终得分是匹配行比例的补数,其中如果值相同(分类变量),在容差范围内(数字或基于日期的变量),或缺失值在相同位置,则称合成行与真实行匹配。连续变量的阈值设置为0.01,遵循SDMetrics的建议值。
  • 成员推断攻击:此指标通过模拟对手试图确定特定患者记录是否用于训练模型的场景来评估再识别风险。我们使用受试者工作特征曲线下面积来衡量此攻击的成功率。AUC为0.5表示攻击者的表现不比随机猜测好,这证实了模型没有记忆独特的训练样本。相反,显著高于0.5的AUC将表明潜在的数据泄露和隐私受损。需要注意的是,攻击者的得分可以被任意定向,低于0.5的AUROC值表示排名反转(反相关)而不是泄露增加。为了解释,必要时我们报告方向不变度量|AUROC-0.5|和相对于随机的绝对优势|AUROC-0.5|。
算法偏见分析
首先,我们通过比较性别内部和跨复制间的真实和合成数据,评估了合成队列中潜在的性别偏见,重点关注患病率、分布保真度和性别特异性信号的迁移性。对于每种疾病(特征),我们计算了(i)真实和合成数据中按性别的患病率以及女性-男性差异(pp);(ii)通过比较合成与真实分布的性别KS统计量(总结为跨运行的平均和最大KS);(iii)性别偏见增量,定义为合成队列与真实队列之间女性比例的百分点差异;(iv)特征放大,即跨运行的特征特异性患病率偏移[(女性中(合成-真实)- 男性中(合成-真实)]与性别偏见增量之间的相关性;(v)在两个迁移设置中使用逻辑回归的性别可预测性:从真实到合成和从合成到真实。
然后,我们定量分析了合并症患病率对合成数据生成质量的影响。具体而言,我们研究了合成队列和真实队列之间的相对患病率误差如何随原始合并症患病率的变化而变化。我们旨在确定一个经验性的患病率阈值,低于该阈值的合并症可能表现出相当大的误差,应谨慎生成。
性别驱动的合并症模式
为了比较不同年龄组间诊断的性别特异性发生率,进行了分层分析,按复制状态(真实世界和模拟集)进行分区。对于每个复制,计算了男性和女性在5岁年龄间隔内的每人诊断率。这是通过计算每个年龄分箱内的诊断总数,并将该计数除以该复制中相应性别的总人数来实现的。比较的主要指标是女性和男性诊断率之间的绝对差值。使用Wald近似法为此差值计算了95%置信区间,以评估统计显著性。
为了定量评估原始数据与每个合成复制之间的轨迹相似性,我们使用了动态时间规整。DTW是一种用于测量两个时间序列之间相似性的成熟算法,对时间轴的偏移或延迟具有鲁棒性。这使其特别适用于评估合成复制是否捕捉了生物医学模式的整体形状,即使该模式略有延迟。我们使用fastdtw Python库和标准欧几里得距离来计算原始轨迹与每个合成复制轨迹之间的不相似性得分。较低的DTW距离表示两个轨迹之间的相似度更高。
真实世界场景中的静态预测性能
终点预测分析使用scikit-learn Python库进行,而模型拟合则使用interpret Python库进行。
为了评估合成数据的实际、真实世界效用,我们测量了机器学习模型在临床相关任务中的性能:预测糖尿病患者诊断后慢性肾病的发病。为确保临床真实性,移除了年龄不递增和在糖尿病诊断前已有终点的个体,并且模型仅限于使用糖尿病诊断时可用的患者病史。我
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号