MIGEE:一个面向大规模数据集缺失值填补与纵向分析的综合R软件包

《Journal of Computational Science》:MIGEE: A Comprehensive package for missing data imputation and longitudinal analysis in large-scale datasets

【字体: 时间:2026年06月07日 来源:Journal of Computational Science 3.7

编辑推荐:

  本研究介绍了MIGEE,一个将多种多重填补策略、纵向数据建模与可视化整合于单一简洁工作流中的R软件包。该软件包实现了六种填补方法[预测均值匹配(Predictive Mean Matching, PMM)、k近邻(k-Nearest Neighbors, kN

  
本研究介绍了MIGEE,一个将多种多重填补策略、纵向数据建模与可视化整合于单一简洁工作流中的R软件包。该软件包实现了六种填补方法[预测均值匹配(Predictive Mean Matching, PMM)、k近邻(k-Nearest Neighbors, kNN)、正态线性回归(norm)、随机森林(Random Forest, RF)、无边界正态回归(norm.nob)及随机抽样(sample)],并支持下游分析中的线性模型与混合效应模型。与传统需要手动协调mice、lme4和ggplot2等多个软件包的工作流不同,MIGEE将整个填补–建模–可视化流程简化为单次函数调用,消除了中间数据重塑步骤(如长格式与宽格式转换),并确保了填补输出与建模输出之间的结构一致性。这使得用户编写代码量减少超过80%(从早先跨七个手动步骤的50余行代码缩减至单次函数调用中的约10行代码),并将七个概念上不同的流程步骤整合为一,去除了手动工作流中通常需要的多种预处理操作。该软件包使用包含11,761行12个变量的纵向临床数据集进行评估,数据来自2000名患者的重复测量时间记录。在该数据集上,所有填补方法均成功保持了不完整变量的均值与变异性,均值差异低于0.2个单位且标准差差异低于0.5个单位,表明偏倚可忽略且处理效应估计稳定。MIGEE简化了复杂的纵向工作流,降低了计算负担,并支持生物医学与人群健康应用中的可重复研究。MIGEE软件包已在CRAN公开发布,链接为:https://doi.org/10.32614/CRAN.package.MIGEE。
## 研究背景与问题提出

纵向设计(Longitudinal design)是生物医学、流行病学及人群研究的核心方法,个体重复观测值的引入使数据结构复杂化并产生特定的缺失模式。缺失数据仍是持续存在的方法学挑战,其产生源于失访(dropout)、不依从、漏访、记录错误或随访丢失。处理不当时,缺失会降低统计效能、偏倚参数估计并损害科学结论的效度。完全案例分析(Complete-case analysis)等传统方法丢弃部分观测个体,仅在数据完全随机缺失(Missing Completely at Random, MCAR)假设下才能避免偏倚结果,因此基于原则的填补方法在纵向研究中日益重要。

大规模纵向数据集进一步加剧了这些挑战:重复测量增加了间歇性缺失、单调缺失(monotone dropout)及协变量依赖型缺失的可能性,同时在填补和建模阶段产生计算需求。长宽格式转换、拟合混合效应模型及缺失模式可视化均增加了额外的复杂性。诊断性可视化至关重要,因其有助于识别时间依赖性缺失、信息性缺失及协变量关联。

现有多种填补策略可用于连续型和分类型纵向数据,包括PMM、kNN、norm、RF、norm.nob及sample等方法,这些方法在分布假设、计算复杂度和非线性关系稳健性方面存在差异。更高级的基于模型的方法如多层多重填补、贝叶斯层次模型及联合建模框架为复杂纵向结构提供了额外灵活性。机器学习方法,特别是基于随机森林的方法如missForest及相关集成方法,因最小调参需求和强预测性能而获得关注。深度学习技术如生成对抗网络、去噪自编码器、变分自编码器及时间感知循环模型也为缺失数据填补提供了新途径。文献计量学证据显示,2015至2025年间纵向研究中多重填补的发表量大致翻倍,机器学习方法在近期贡献中占比日益增加。

尽管方法学不断进步,大多数现有工具仍处于割裂状态,研究人员需组合多个软件包以完成填补、结构转换、混合效应建模和缺失可视化。典型手动工作流需要:分别加载mice、lme4和ggplot2;手动使用tidyr或base-R进行长宽格式重塑;确保填补模型框架与分析模型框架引用相同变量结构;在单独步骤中调用可视化层并自定义美学参数。这种碎片化工作流不仅繁琐,还易引入结构不一致的错误。

## MIGEE软件包的开发目的与核心贡献

为解决上述局限,研究人员开发了MIGEE(Impute Missing Values and Fitting Linear Mixed Effect Model),旨在简化纵向数据分析的R软件包。MIGEE的核心贡献并非提出新算法,而是将六种已建立的填补方法整合至单一可重复工作流中,并纳入长宽格式转换、线性及混合效应建模、以及基于热图的缺失模式可视化,从而减少方法学碎片化并简化应用研究人员的工作流程。

该软件包的主要研究目标包括三个方面:一是方法学整合,证明六种填补方法在10%至50%缺失率下均能保持填补均值在完整数据值±0.2单位内、标准差在±0.5单位内,且下游线性模型(Linear Model, LM)和线性混合效应模型(Linear Mixed-effects Model, LME)的处理效应估计在统计上保持一致;二是增强可及性,评估MIGEE的单次调用流程是否将用户编写代码量减少超过80%,从而降低技术门槛并促进可重复性;三是知情决策,评估集成缺失热图能否正确区分单调缺失模式(与信息性非随机缺失,即Missing Not At Random, MNAR一致)与分散模式(与MCAR或随机缺失,即Missing At Random, MAR一致),以指导填补方法的选择。

## 关键技术方法

MIGEE的技术架构围绕"单次调用"设计理念构建。软件包内部整合了六个核心功能模块:结构转换模块负责长格式(long format)与宽格式(wide format)数据的自动双向转换;缺失分析模块计算缺失比例并生成可视化输出;六种填补引擎(PMM、kNN、norm、RF、norm.nob、sample)通过统一接口调用;建模模块支持LM和LME两种分析模型;诊断模块生成缺失模式热图(heatmap)以辅助MNAR/MAR机制判断;输出模块自动同步填补与建模的数据结构一致性。

评估数据集为一项纵向临床数据(logdata),包含2000名患者的11,761行观测和12个变量,涵盖ID标识、随访时间(Days)、人口学特征(Age、Gender)及重复测量临床指标。敏感性分析通过mice软件包的ampute()函数在上述数据的八种缺失配置(缺失率10%、20%、25%、30%、35%、40%、45%、50%)下模拟MAR机制的缺失数据,以评估各方法在信息丢失不同程度下的稳健性。

## 研究方法与结果

**模拟数据集特征**。Logdata数据结构为每个受试者多行重复观测的标准纵向格式,ID变量为整型唯一标识,Days记录临床事件时间,Age和Gender提供人口学基线信息。该数据集为后续所有分析的基础框架。

**敏感性分析与方法稳健性评估**。在所有缺失配置下,六种填补方法均成功保持了不完整变量的均值与变异性特征。具体而言,均值差异维持在0.2单位以下,标准差差异控制在0.5单位以内,证实各方法引入的偏倚可忽略,且处理效应估计保持稳定。这一结果表明MIGEE集成的填补引擎在常见缺失情境下具有可靠的统计性能,能够为下游推断提供可信的数据基础。

软件包将传统需要七个手动步骤、超过50行代码的工作流压缩至单次函数调用(约10行代码以内),消除中间数据重塑需求,并通过内部交叉验证确保填补与建模输出的结构一致性。代码量的实质性缩减降低了编程 expertise 门槛,特别有利于生物医学领域编程经验有限的应用研究人员。

## 讨论与研究意义

MIGEE的提出回应了纵向数据分析中方法工具碎片化这一持续性局限。现有R生态系统中,mice软件包提供专门针对纵向数据的复杂两层填补方法,能够尊重数据的层次结构;pan软件包(常通过mitml接口访问)基于多元正态模型实现联合多层多重填补;rbmi等包也在相关领域提供支持。然而,这些工具各自专注于流程的特定环节,研究人员仍需在多个包之间手动协调。

MIGEE通过将填补、建模和可视化整合至单一框架,直接解决了现有工具的方法学碎片化问题。其强调工作流整合、计算效率和实用可用性的设计理念,反映了健康与生物医学领域应用研究中的持续性需求。软件包的设计使研究人员能够根据数据结构和缺失机制灵活选择和比较填补策略,而无需深入掌握多个包的技术细节。

该软件包的临床实用性体现在:对于包含数千次重复测量的大规模纵向队列,传统手动工作流的复杂性和错误风险显著增加,MIGEE的自动化流程能够有效降低这种操作风险。集成的缺失模式热图可视化工具可直接输出时间依赖性缺失的空间分布特征,辅助研究人员在填补前判断MCAR/MAR假设的合理性,进而选择适当的填补方法——例如,单调缺失模式提示可能存在MNAR机制,需要更谨慎的方法选择或敏感性分析。

## 研究结论

本研究介绍了MIGEE,一个将多种多重填补策略、线性与混合效应建模以及诊断性可视化整合至单一可及框架的R软件包,用于纵向数据分析。通过将PMM、kNN、norm、RF、norm.nob和sample六种填补方法整合于一个连贯且可重复的流程中,MIGEE使研究人员能够根据数据结构和底层缺失机制灵活选择和比较填补策略。该软件包显著减少了用户代码量和手动步骤,同时保持了统计方法的严谨性和输出的结构一致性,为生物医学和人群健康领域的纵向数据分析提供了简化的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号