《PROTEOMICS》:Practical Impact of Imputation and Batch-Effect Correction for Proteomics/Peptidomics Differential-Abundance Analysis
编辑推荐:
这篇综述以超过1000例样本的大规模临床尿液肽组学队列为实证,系统评估了填补(Gaussian、? LOD、KNN)与批次效应校正(ComBat、MNN)方法的选择及其交互作用对下游差异分析结果(疾病相关肽DAPs)产生的实质性影响。研究发现,在当前数据集特征下,填补方法选择影响有限,而批次效应校正(尤其是不含协变量的ComBat)会显著削弱乃至移除关键生物信号,突显了预处理策略需根据数据集特性审慎定制,避免技术处理掩盖真实生物学发现的必要性。
引言
基于质谱(MS)的蛋白质组学是生物医学研究中识别和测量生物样本中蛋白质与肽段的有效方法,在生物标志物发现与精准医疗中占据核心地位。然而,技术挑战依然存在,其中缺失值和批次效应尤为突出。缺失值可能由完全随机缺失(MCAR)、随机缺失(MAR)或非随机缺失(MNAR)等机制造成,而批次效应则源于样本在不同中心、不同日期或使用不同仪器处理时引入的非生物变异,两者均可能掩盖真实的生物学信号。为应对这些问题,填补和批次效应校正方法被广泛应用。例如,针对MNAR的Gaussian和? LOD填补,针对MAR的K近邻(KNN)填补,以及用于批次校正的经验贝叶斯ComBat和互近邻(MNN)算法。虽然已有大量研究对这些方法进行独立评估,但它们在真实世界大规模临床数据集中的实际影响、相互作用以及对下游分析结果的影响仍未得到充分阐明。
方法
本研究利用一个包含1,050份样本(来自13个批次,包含慢性肾病(CKD)患者和健康对照)的毛细管电泳质谱(CE-MS)尿液肽组学数据集,系统评估了三种常用填补方法(Gaussian、? LOD、KNN)与三种批次效应校正方法(ComBat、包含疾病状态作为协变量的ComBat、MNN)组合成的12种预处理流程。所有分析均在R语言环境中完成。数据集在基于胶原片段面板进行归一化后,被随机等分为发现集和验证集。通过主成分分析(PCA)、箱线图和相关热图评估批次效应。差异丰度分析采用非参数曼-惠特尼U检验,并经过本杰明-霍奇伯格校正,最终仅在发现集和验证集中均显著且变化方向一致的肽段被定义为验证的疾病相关肽(DAPs)。使用杰卡德相似指数(J)评估不同流程间DAPs列表的重叠程度。
结果
- 1.
样本分布与批次效应评估:PCA结果显示,单纯使用不同的填补方法(Gaussian、? LOD、KNN)对数据的全局方差结构影响甚微。在没有进行批次校正的情况下,同一批次内的样本表现出一定的聚类趋势,但批次效应相对温和。应用批次校正后,样本在PCA图中的混合程度增加,尤其是ComBat校正后,批次间的区分几乎消失,但同时疾病状态相关的样本也呈现分散分布,提示生物信号可能被一同削弱。
- 2.
对显著肽段的影响:研究发现,在不进行批次校正的情况下,不同填补方法(包括零填充基线)得到的验证DAPs数量高度相似(约1614-1661个),验证率也相近(约79%-82%)。然而,一旦引入批次效应校正,无论使用哪种填补方法,验证的DAPs数量均大幅下降。其中,MNN校正尚能保留一部分DAPs(数量因所用填补方法而异,从330到876个不等),而不含协变量的ComBat校正则几乎移除了绝大部分生物信号,验证的DAPs数量骤降至50个以下,验证率低于52%。当在ComBat模型中包含疾病状态(CKD)作为协变量后,被移除的生物信号得到显著恢复,验证的DAPs数量回升至750个以上。
- 3.
方法间一致性分析:杰卡德相似指数热图清晰显示,所有不进行批次校正的流程(零填充、Gaussian、? LOD、KNN)彼此之间DAPs列表重叠度很高(J ≥ 0.69)。而MNN校正流程与其他非校正流程的重叠度较低(J ≈ 0.15–0.3)。标准的(未调整的)ComBat校正流程与所有其他流程的重叠度极低(J < 0.1),几乎产生了完全不同的结果集,这强烈支持了其过度移除变异(包括生物信号)的假设。包含CKD协变量的ComBat校正流程则与其它方法恢复了中等程度的重叠(J ≈ 0.2–0.8)。
讨论
本研究揭示了在大型CE-MS尿液肽组学数据集中,预处理选择对下游分析结果的深远影响。核心发现是:填补与批次效应校正并非独立作用,而是存在交互,共同影响最终结果。尽管在本数据集(以MNAR缺失为主,并采用了胶原校准肽归一化)中,不同填补方法对最终的DAPs列表影响有限,但相同的批次校正方法作用于不同填补后的数据,会产生显著差异的结果。例如,Gaussian和KNN填补在不校正时结果相似,但经MNN校正后,二者产生的DAPs数量却相差甚远。
更重要的是,研究结果对常规预处理实践提出了重要警示:在批次效应相对温和且与生物组别存在关联的数据集中,不加区分地应用强力的批次效应校正方法(尤其是未包含关键生物协变量的ComBat)具有高风险,可能导致有意义的生物学差异被错误地“校正”掉。相反,采用更温和的校正方法(如MNN)或在模型中纳入已知的生物状态信息(如疾病状态)有助于在去除技术噪声的同时,更好地保留生物信号。对已知CKD生物标志物肽的检测结果也支持了这一结论:未调整的ComBat错过了大部分已知标志物。
结论
在这项尿液肽组学研究中,在特定的缺失机制和归一化策略下,缺失值填补方法的选择对差异丰度分析结果影响甚微。然而,批次效应校正却显著减少了被识别为与疾病(CKD)显著相关的肽段数量,且在此数据集中未见明确的额外益处。其中,无指导的ComBat校正导致了疾病信号的大幅削减,而更温和的MNN或包含CKD指导的ComBat校正则仅造成中等程度的DAPs丢失。一个关键启示是,相似的仅填补结果在与批次校正结合后,可能产生截然不同的下游结果。
综上所述,填补与批次校正的作用相互关联,其交互会影响下游分析,因此应被联合考量而非孤立看待。预处理策略应根据每个数据集的具体特征(如批次效应强度、生物协变量的可用性)进行定制。对于像本研究这样批次众多且平衡良好的数据集,采用以处理缺失值为重点的最小化预处理策略,可能足以避免有意义生物信息的不必要损失。这项研究强调了审慎评估预处理步骤的必要性,并建议在可能的情况下提供数据的轻度处理版本,以便读者更好地评估这些选择的影响。