
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SurvMarker:一个R软件包,用于利用基于PCA的加权分数来识别与生存相关的分子特征
《BMC Bioinformatics》:SurvMarker: an R package for identifying survival-associated molecular features using PCA-based weighted scores
【字体: 大 中 小 】 时间:2026年05月10日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要 背景 从高维分子数据中识别预后分子特征是癌症和其他复杂疾病生物标志物发现的核心。主成分分析(PCA)被广泛用于生存研究中的降维,但从主成分(PCs)中选择单个特征仍然具有挑战性,且通常依赖于任意的阈值。为了解决这一局限性,我们开发了SurvMarker,这是一个R包,它
从高维分子数据中识别预后分子特征是癌症和其他复杂疾病生物标志物发现的核心。主成分分析(PCA)被广泛用于生存研究中的降维,但从主成分(PCs)中选择单个特征仍然具有挑战性,且通常依赖于任意的阈值。为了解决这一局限性,我们开发了SurvMarker,这是一个R包,它使用基于PCA的评分框架来优先考虑与生存相关的分子特征。
SurvMarker将PCA应用于标准化后的分子数据,利用多元Cox比例风险模型共同评估PCs,并通过汇总与生存相关的PCs的绝对载荷对特征进行排名。特征显著性通过带有假发现率控制的经验性零假设框架进行评估。在合成全局零假设和基于排列的零假设模拟中,SurvMarker在假阳性控制方面表现出与LASSO Cox、Elastic Net Cox和Partial Least Squares Cox相当的或更好的性能,尤其是在小样本量(n小)、大参数数量(p大)的设置中,同时保持了校准良好的零假设p值分布。在TCGA-LAML队列中,SurvMarker在这些方法中对基因表达数据的预测性能最佳,C指数为0.78,总体时间依赖性AUC为0.882,并且对miRNA表达数据也有类似的适用性。与基于稀疏PCA和固定每个PC阈值的方法相比,SurvMarker也实现了更好的预测性能,并在不同PC设置下产生了更紧凑、更稳定的特征集。
SurvMarker提供了一个强大、可解释且可复制的框架,用于从高维数据中识别与生存相关的分子特征。通过结合基于生存的PC选择、跨PC的加权特征聚合以及基于经验性零假设的推断方法,它提高了假发现控制能力、稳定性和生物学相关性,为多种组学数据的生物标志物发现提供了一个实用的工具。
从高维分子数据中识别预后分子特征是癌症和其他复杂疾病生物标志物发现的核心。主成分分析(PCA)被广泛用于生存研究中的降维,但从主成分(PCs)中选择单个特征仍然具有挑战性,且通常依赖于任意的阈值。为了解决这一局限性,我们开发了SurvMarker,这是一个R包,它使用基于PCA的评分框架来优先考虑与生存相关的分子特征。
SurvMarker将PCA应用于标准化后的分子数据,利用多元Cox比例风险模型共同评估PCs,并通过汇总与生存相关的PCs的绝对载荷对特征进行排名。特征显著性通过带有假发现率控制的经验性零假设框架进行评估。在合成全局零假设和基于排列的零假设模拟中,SurvMarker在假阳性控制方面表现出与LASSO Cox、Elastic Net Cox和Partial Least Squares Cox相当的或更好的性能,尤其是在小样本量(n小)、大参数数量(p大)的设置中,同时保持了校准良好的零假设p值分布。在TCGA-LAML队列中,SurvMarker在这些方法中对基因表达数据的预测性能最佳,C指数为0.78,总体时间依赖性AUC为0.882,并且对miRNA表达数据也有类似的适用性。与基于稀疏PCA和固定每个PC阈值的方法相比,SurvMarker也实现了更好的预测性能,并在不同PC设置下产生了更紧凑、更稳定的特征集。
SurvMarker提供了一个强大、可解释且可复制的框架,用于从高维数据中识别与生存相关的分子特征。通过结合基于生存的PC选择、跨PC的加权特征聚合以及基于经验性零假设的推断方法,它提高了假发现控制能力、稳定性和生物学相关性,为多种组学数据的生物标志物发现提供了一个实用的工具。