融合插补与特征选择的高维蛋白标志物数据提升生存风险预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Enhancing survival risk prediction through imputation and feature selection in high-dimensional protein biomarker data

【字体：大中小】 时间：2026年03月23日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究旨在解决高维蛋白标志物数据在纵向生存研究中面临的普遍缺失和小样本量难题。研究人员通过整合无监督随机森林插补、LASSO惩罚Cox回归和随机生存森林，构建了一套可重复的分析流程。结果表明，该策略能在不泄露信息的前提下稳定识别预后生物标志物，为生物标志物驱动的生存分析提供了实用透明的框架。

在精准医学的征途上，科学家们寄希望于生物标志物——这些来自血液或组织的分子“信使”——来预测疾病的进程和患者的命运。这就像是为每个病人绘制一张专属的生命航线图。然而，绘制这张地图的过程充满荆棘。当研究聚焦于成百上千种蛋白质这类“高维”数据时，挑战接踵而至：数据常常大面积缺失，仿佛地图上布满了空白；而能够用于分析的患者样本数量又往往有限，这极易导致构建出的预测模型“水土不服”，在新数据面前表现糟糕。这种不稳定性严重阻碍了可靠的预后生物标志物的发现与应用。为了破解这一困局，一项研究应运而生，旨在开发并验证一套稳健、可重复的分析流程，以提升基于高维蛋白标志物数据的生存风险预测能力。该研究成果发表在《Scientific Reports》期刊上。

为开展这项研究，作者主要采用了几个关键技术方法。研究利用了一个公开可用的癌症患者蛋白质组学数据集。首先，采用基于无监督随机森林的插补方法处理缺失值，此方法仅利用协变量内部结构，不引入结局信息，以防止信息泄露。接着，使用带最小绝对收缩与选择算子(LASSO)的惩罚Cox回归进行特征降维与选择。之后，应用随机生存森林(RSF)对初步筛选的特征进行精炼和稳定性评估，以捕捉潜在的非线性效应和交互作用。最后，通过单变量和多变量Cox比例风险模型对最终选定的生物标志物进行分析，以支持临床解释和风险分层。

Abstract

该研究提出并评估了一个用于生存风险预测的可重复分析流程，该流程整合了成熟的缺失数据处理、特征选择和生存时间建模方法。利用癌症患者的公开蛋白质组学数据，研究表明这一顺序建模策略能够识别稳定的预后生物标志物，同时凸显了小样本高维生存数据背景下过拟合的挑战。

Introduction

蛋白质分子生物标志物在精准医学的预后建模和风险分层中扮演重要角色。然而，涉及高维生物标志物数据的纵向生存研究常面临普遍的数据缺失和有限的样本量，这会损害模型的稳定性和可解释性。

Materials and methods

Study cohort and biomarker data：研究使用了一个公开可用的蛋白质组学数据集。

Missing data imputation：采用基于无监督随机森林的插补方法处理缺失值，该方法利用协变量内部结构而不纳入结局信息，以降低信息泄露风险。

Feature selection：随后使用带最小绝对收缩与选择算子(LASSO)的惩罚Cox回归来降低特征维度。

Model refinement and stability assessment：接着使用随机生存森林(RSF)进行精炼和稳定性评估，以捕捉非线性效应和交互作用。

Prognostic modeling：最终选定的生物标志物通过单变量和多变量Cox比例风险模型进行检查，以支持临床可解释性和风险分层。

Results

Dataset characteristics and missing data patterns：公开数据集展现了高维蛋白质生物标志物数据中典型的缺失模式。

Performance of imputation and feature selection：无监督随机森林插补有效处理了缺失数据，LASSO-Cox回归成功实现了特征降维。

Stable biomarker identification：结合RSF的稳定性评估，该流程识别出了一小组稳定的候选预后生物标志物。

Prognostic model development and evaluation：基于选定生物标志物构建的多变量Cox模型在训练集上显示出预后区分能力，同时也揭示了在小样本情境下模型性能评估的挑战。

Discussion

Summary of findings：本研究展示了一个整合了缺失值插补、特征选择和生存建模的实用工作流程，能够从高维蛋白质组学数据中识别潜在的预后生物标志物。

Methodological considerations：工作流程强调使用不引入结局信息的插补方法来防止信息泄露，并采用顺序特征选择与稳定性评估来应对高维小样本数据中的过拟合风险。

Limitations and future directions：研究的主要局限在于使用了单一的公开数据集，样本量有限，且缺乏独立的外部验证队列。未来的工作需要更大的、多样化的队列来验证已识别生物标志物的普遍性，并探索更先进的插补与建模技术。

Conclusion and implications：该研究提出的工作流程作为一个实用且透明的框架，旨在促进生物标志物驱动的生存分析，而非提出一种新的统计方法。它强调了在利用高维生物标志物数据进行预后建模时，严格的数据预处理、特征选择和模型验证至关重要，这对于推动可重复的精准医学研究具有实际意义。

联系信箱：

粤ICP备09063491号

热点排行