通过重采样策略评估变量重要性的稳定性,以提高代谢组学模型的可解释性和可靠性
《Analytica Chimica Acta》:Assessing variable importance stability using resampling strategies to enhance model interpretability and reliability in metabolomics
【字体:
大
中
小
】
时间:2026年02月16日
来源:Analytica Chimica Acta 6
编辑推荐:
本研究提出基于稳定性指数和诊断图的VISA方法,结合自助抽样与置换法评估高维代谢组学数据中PLS回归模型VIP评分的可靠性。该方法有效区分真相关变量与随机噪声,显著提升筛选变量集的效率与准确性,为代谢组学提供更稳健的分析工具。
朱利安·博卡德(Julien Boccard)|塞尔日·鲁达兹(Serge Rudaz)
瑞士日内瓦大学药学科学院
摘要
背景
作为代谢组学中知识发现的基石,多变量分析能够评估变量(如测量信号)与观察对象或样本之间的关系,从而有助于解码和更深入地理解所研究的过程。矩阵分解方法被广泛用于发现数据趋势和相关分组,同时基于变量对模型成分的贡献来突出潜在相关的变量。然而,代谢组学数据集固有的高维度性引发了关于所得系数可靠性的疑问,因此需要有效的解决方案。
结果
本文提出了一种新方法,用于评估偏最小二乘回归模型中变量重要性的稳定性。偏最小二乘回归是代谢组学中常用的一个标准,用于突出相关变量子集。该方法结合了自助重采样和排列技术,基于稳定性指数和诊断图提供了一种高效且通用的工具。所提出的策略利用了自助复制过程中收集的所有变量重要性值来构建实证分布(包括原始分布和排列后的分布),从而增强了评估的稳健性。通过合成数据集和代表性实际案例研究的结果表明,该方法能够评估有意义变量的可靠性,并去除由于不同实验配置而产生的无信息信号。与现有方法的比较表明了其优势,强调了其提供更稳定信息变量子集的能力,提高了代谢组学研究的可解释性。
意义
由于该方法计算效率高且不依赖于数据分布的假设,因此它是一种简单、通用且适用范围广泛的方法。这类方法的广泛应用无疑将有助于获得更一致和可重复的结果,最终促进对代谢模式的理解。
引言
代谢组学现在被认为是一种强大的方法,通过尝试提供特定时间观察到的代谢物的全局概览来评估生物系统的生化表型[1]。代谢组学数据集通常包含大量信息,但要捕捉代谢过程的复杂性和动态特性,需要适应性强的计算方法来获得有意义的见解[2]。在这种情况下,多变量分析(特别是矩阵分解方法)被广泛用于发现数据趋势和相关分组[3]。输入数据可能包括可靠的、对解释有价值的变量,但也包括与研究问题无关的变异信号,例如分析噪声、其他细胞过程或人为干扰[4],[5]。偏最小二乘(PLS)回归允许高效处理高维度数据集,这些数据集包含大量可能共线的变量(峰值、化学位移、离子特征等),且观测数量有限。一旦获得满意的多变量模型,就可以根据变量在构建模型成分中的权重对它们进行排序,从而为突出和优先考虑感兴趣的变量子集提供决策工具。此外,已经证明了PLS降维原理与变量选择之间的联系[6],[7]。
简而言之,最小最优子集旨在识别产生最佳预测性能的最少变量数量。目标是通过仅保留最具影响力的变量来实现效率和简洁性,从而降低计算复杂性[8]。在这方面,已经提出了包括稀疏方法、贝叶斯方法和Shapley加性解释(SHAP)分析在内的不同策略,以在高维环境中可靠地突出最具预测性的生物标志物[9],[10],[11]。
相比之下,所有相关子集应包括所有与响应有关的变量,以确保不会遗漏任何潜在有用的信息[12]。这旨在提供对数据的全面理解,特别是在变量之间的相关性重要且对解释有价值时。即使对于严格正的分布,寻找所有相关子集也被证明是渐进式不可行的[8],基于重采样和排列的启发式算法已成为获得有价值解决方案的有效策略。这包括涉及重复双交叉验证的建模工作流程[13],[14],以及更广泛的集成方法[15]。
投影中的变量重要性(VIP)得分[16]可用于在PLS模型中高效地对变量进行排序,并已在代谢组学社区中被广泛采用为首选指标。实践中,通常应用大于1(VIP>1)的规则作为起点,以突出感兴趣的变量,同时将其他变量从进一步分析和解释中移除[17]。该方法假设VIP得分高于平均值的变量与模型相关。然而,当1的阈值被认为不合适时,用户通常会调整这一阈值。这表明VIP的高度相对性和局限性,因为一刀切的逻辑并不适用于代谢组学中收集的数据集的多样性,无论是从响应相关信号的比例、变量之间的相关性强弱还是信噪比的角度来看[18]。此外,这种评估必须谨慎进行,因为不适当的变量选择或删除可能导致模型过拟合和不稳定[19]。
已经提出了针对高维数据的有效方法来评估系数的稳定性,特别是在PLS回归的背景下[20]。使用蒙特卡洛重采样(MC-UVE)[21]消除无信息变量包括通过可靠性指数来评估数据集中每个变量的相关性,该指数是通过为随机子集计算重复PLS模型得到的贝塔系数来计算的。包括集成投票[22]或自助重采样[23]在内的扩展方法已被提出,以进一步提高变量消除过程的可靠性。这些方法主要应用于分析化学中的光谱数据处理,但在代谢组学中也越来越受欢迎[23],[24],[25]。结合自助重采样和排列也被报道为一种有前景的策略,通过从初始数据集中随机抽取观测值并进行替换,然后依次排列每个变量来评估其重要性[26]。尽管这种方法可以获得更多信息,但由于需要处理的变量数量增加,因此需要估计大量模型,这可能导致计算时间过长。因此,有必要限制自助循环的次数,以将计算时间控制在合理范围内。这种计算负担可能阻碍了此类策略在代谢组学中的更广泛采用。
本研究提出了一种基于计算效率高的自助重采样和排列组合的新工作流程,用于在高维环境中评估变量的稳定性和可靠性,这些评估基于PLS回归模型的VIP得分。这种数据驱动的策略——基于稳定性指数和诊断图——不需要对数据分布做出假设。实践证明,它高效且适用于广泛的应用场景。
部分内容
变量重要性稳定性评估(VISA)工作流程
所提出的策略结合了自助重采样和变量子集的排列,以区分真正可靠的变量和由于随机变异或模型过拟合而显得重要的变量。这是通过将给定变量的实际VIP分布与其在零假设下获得的对应分布进行比较来实现的。在每次自助复制中,部分变量会被排列,以引入显著的扰动,同时保持大部分相关结构
PLS回归模型和重要变量子集
该比较框架用于使用VISA以及两种现有方法(即VIP>1和OVAT)来评估PLS模型中的变量重要性。特别关注方法学方面,特别是不同数据集的特征(例如观测数量和变量数量、相关性),而不是数据的生物学解释,这些已在参考文献中详细说明。以下参数用于描述每个初始数据集
结论
在处理多重共线性时,VIP得分是评估和排序PLS回归模型中最具影响力变量的有效标准。虽然它提供了直接评估,适用于快速探索性筛选,但这一指标只是相对的,并不能准确反映模型的预测质量。此外,数据集中的小波动可能导致变量贡献发生显著变化。在这种情况下,VISA构成了
CRediT作者贡献声明
塞尔日·鲁达兹(Serge Rudaz):撰写——审稿与编辑、撰写——初稿、验证、监督、资源管理、项目管理、方法论、研究、资金获取、概念化。朱利安·博卡德(Julien Boccard):撰写——审稿与编辑、撰写——初稿、可视化、验证、软件开发、资源管理、项目管理、方法论、研究、数据分析、数据管理、概念化
利益冲突声明
? 作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号