电子健康记录中缺失种族与民族数据的处理：整合个体与社区指标的研究

《Microorganisms》：Handling Missing Race and Ethnicity in an EHR-Based Study Through Integration of Individual Measures and Neighborhood Sociodemographic and Socioeconomic Measures Chaohua Li, Abdolreza Mosaddegh, Lilly Immergluck, Samuel Owusu, Sadia Firoza Chowdhury and Peter Baltrus

【字体：大中小】 时间：2026年03月17日 来源：Microorganisms 4.2

编辑推荐：

　　本研究对比了逻辑回归、随机森林、KNN和MICE四种方法，整合个体与社区人口社会经济数据，在儿科电子健康记录中填补缺失的种族与民族信息，旨在评估方法性能并减少缺失数据带来的研究偏差。结果发现KNN和逻辑回归在填补种族数据时表现最佳，而随机森林在填补民族数据时表现出最佳的综合性能，强调了方法选择和透明性的重要性。

电子健康记录中缺失种族与民族数据的处理：整合个体与社区指标的研究

1. 引言

在生物医学数据集，如电子健康记录中，人口统计学字段（如年龄、性别、种族、民族和社会经济地位）经常缺失、不完整或记录不准确。这些缺失的数据会引入偏差，降低临床研究分析和模型性能的准确性。其中，种族、民族和社会经济状况的推断尤为困难，因为它们与临床特征的关联较弱。准确地填补这些人口学属性具有重要的伦理学和方法学意义，因为错误分类可能加剧医疗数据中固有的结构性偏见。近年来，机器学习方法越来越多地用于处理高维临床和背景数据，以改进传统统计插补技术的局限性。本研究旨在比较四种常用方法——逻辑回归、随机森林、K-最近邻和链式方程多重插补——在儿科电子健康记录队列中填补缺失种族和民族信息的性能，强调将填补值视为分析代理而非自我报告信息的替代，并关注方法的透明度、亚组特定评估和治理保障。

2. 材料与方法

本研究数据来源于一项纳入2002年1月1日至2015年12月31日期间在亚特兰大儿童医疗保健系统旗下两家独立儿科医院接受治疗的金黄色葡萄球菌感染儿童的研究项目。个体层面数据包括性别、年龄和保险类型。社区层面数据来自2006-2010年美国社区调查五年数据，包括白种人/黑种人/西班牙裔人口百分比、年龄小于19岁的人口百分比、≥3岁人口中K-12教育入学率、≥3岁人口中托儿所或学前教育入学率、拥有高中文凭的人口百分比、拥有学士学位的人口百分比、拥有研究生或专业学位的人口百分比、劳动力人口百分比、家庭收入中位数、房屋价值中位数、拥挤家庭百分比、低于联邦贫困线的人口百分比以及基尼指数。社区数据通过联邦信息处理标准代码与个体层面数据合并。

研究比较了四种统计/机器学习方法在填补种族和民族方面的性能：(1) 多变量逻辑回归，(2) 随机森林模型，(3) K-最近邻模型，(4) 链式方程多重插补模型。所有个体层面和社区层面的测量值均被纳入每种方法。为了评估插补性能，分析数据集仅限于种族和民族完整且所有其他测量值也完整的患者。从该子集中，预留15%的数据作为测试集，其余85%用于训练三个插补模型。对于MICE，则将训练集和测试集的预测因子合并，将测试集的种族和民族设为缺失，然后应用MICE进行填补。

模型的具体设置如下：逻辑回归用于填补民族（二分类）和种族（多分类）；随机森林使用500棵树，每次分裂随机抽样5个变量，最小终端节点大小为1；KNN分类器基于10个最近的训练观测值进行预测，使用欧几里得距离和多数投票原则；MICE使用变量特定模型进行插补，种族使用多项逻辑回归，民族使用二项逻辑回归，生成一个包含10次迭代的插补数据集。

性能评估采用两个指标：准确率和加权F₁分数。准确率等于预测模型正确分类的观测值比例。加权F₁分数被定义为类别特定F₁分数的类别频率加权平均值，其中每个F₁分数是精确率和召回率的调和平均数。此外，还评估了灵敏度、特异度、阳性预测值和阴性预测值作为补充指标。

3. 结果

研究共确定了5309名在2002年至2015年间接受治疗的金黄色葡萄球菌感染儿童。其中，196人种族缺失，1608人民族缺失。分析表明，缺失种族或民族与多种个体及社区层面的社会经济特征显著相关，表明缺失并非完全随机。

在种族填补方面，KNN和逻辑回归的总体表现最佳，准确率分别为0.839和0.838，加权F₁分数分别为0.823和0.822。其次是随机森林，MICE表现最差。然而，类别特定性能差异很大。在“其他”种族类别中，所有方法的性能都 consistently poor。

在民族填补方面，KNN方法获得了最高的总体准确率，其次是随机森林和逻辑回归。MICE方法的准确率相对较低。加权F₁分数也呈现类似模式，随机森林的加权F₁分数最高。补充诊断指标显示，所有方法的特异度和阴性预测值都很高，而西班牙裔民族的灵敏度相对较低。

4. 讨论

本研究比较了四种常用方法在儿科电子健康记录数据中填补缺失种族和民族的性能。研究观察到，整合个体层面特征与社区层面的人口社会经济指标可以提高插补的准确性。对于民族填补，KNN和随机森林模型表现最佳；对于种族填补，逻辑回归和KNN等更简单的方法表现相当甚至更好，这表明增加模型复杂度并不总是能提高性能。

研究发现，缺失种族和民族在拥有公共保险计划、居住在贫困率较高、家庭更拥挤、收入不平等程度较高的社区的儿童中更为常见。这种缺失模式表明，数据可能是随机缺失的。尽管种族和民族的总体插补性能理想，但对于某些亚组（如民族中的“西班牙裔”和种族中的“其他”）的插补准确性 consistently low，这凸显了在存在类别不平衡时，使用加权F₁分数等补充指标的重要性。

本研究的结果与之前评估医疗数据中种族和民族填补方法的研究基本一致并有所延伸。研究表明，当有丰富的个体层面和背景数据时，机器学习方法通常优于传统的参数化或完全条件插补方法。然而，更简单的模型在某些情况下也能有竞争力。填补种族和民族可能对少数群体产生不成比例的影响，如果未经审慎使用，可能会强化结构性不平等。因此，方法的透明度和可追溯性至关重要。

本研究的优势包括使用了跨越十多年的儿科电子健康记录队列，整合了个体层面临床信息和社区层面的人口社会经济指标，并使用一致的预测因子和评估指标对多种插补方法进行了头对头比较。局限性包括研究人群来自单一都市区的两家医院，可能限制结果的普适性；插补基于随机缺失的假设，但不可排除非随机缺失的可能性；以及“西班牙裔”民族和“其他”种族类别的样本量有限，可能限制了分类性能。

尽管填补种族和民族可以在缺失与观察到的协变量相关时减少因完全案例分析而产生的偏差，但它也可能通过差异化的错误分类引入新的偏差，特别是对于较小或异质的类别。因此，建议将填补的种族和民族主要用于研究的敏感性分析和偏差评估，而不是用于个体层面的临床决策。使用时，研究者应报告亚组特定的性能，量化不确定性，并评估关于健康差异的结论在完全案例分析和插补分析中是否稳健。

总之，本研究证明，在儿科电子健康记录数据中，种族和民族插补方法的性能取决于所要填补的人口学属性以及建模和评估指标的选择。整合个体和社区层面信息的机器学习方法可以实现 strong performance，但没有一种方法在所有结果或亚组中 consistently outperformed others。这些发现强调了选择插补方法、报告亚组特定性能以及使用考虑类别不平衡的指标的重要性。改进对缺失种族和民族数据的处理对于产生有效和公平的儿科健康研究至关重要，未来的工作应包括来自更广泛医疗系统的外部验证，以及探索深度学习等新兴方法。

热点排行

新闻专题