双重注意力双向长短期记忆网络结合基因组特征分析提升结直肠癌患者预后生存预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of the Egyptian National Cancer Institute》：Dual-attention bidirectional LSTM with feature genomic analysis improves prognostic survival prediction in colorectal cancer patients

【字体：大中小】 时间：2026年05月23日 来源：Journal of the Egyptian National Cancer Institute 1.8

编辑推荐：

　　结直肠癌（CRC）的发病率与死亡率持续升高，因此亟需对患者的预后生存时间进行准确预测，以实现更优的管理、早期筛查及生存期延长。该研究利用癌症基因组图谱（TCGA）公共数据集，对413例结直肠癌患者样本中39对病变组织及其对应正常组织的长链非编码RNA（lncR

结直肠癌（CRC）的发病率与死亡率持续升高，因此亟需对患者的预后生存时间进行准确预测，以实现更优的管理、早期筛查及生存期延长。该研究利用癌症基因组图谱（TCGA）公共数据集，对413例结直肠癌患者样本中39对病变组织及其对应正常组织的长链非编码RNA（lncRNA）进行差异分析，鉴定出458个差异表达lncRNA（DELncRNA）。单因素Cox回归分析显示，其中23个DELncRNA与总生存期（OS）显著相关。随后，研究人员进一步采用最小绝对收缩与选择算子（LASSO）算法对这23个DELncRNA进行筛选，以确定其特征系数。研究中采用一种带有双重注意力机制的自适应挖掘方法，以探索不同因素与生存时间之间的相关属性，并建立了双向长短期记忆（BiLSTM）神经网络用于生存预测。该模型在江南大学结直肠癌数据集上得到验证，结果表明其对患者生存具有可靠预测能力，并可为临床决策提供有价值的支持。该模型对患者3年、3–6年及6年生存期预测的曲线下面积（AUC）均接近1.00，显著优于其他对照试验。

该文发表于《Journal of the Egyptian National Cancer Institute》，聚焦于结直肠癌（CRC）患者预后生存预测问题，旨在将统计学筛选与深度学习建模相结合，构建兼具特征选择能力与非线性表征能力的预测框架。研究背景在于，CRC在全球范围内具有较高发病率和死亡率，尽管临床治疗持续进步，但患者总体5年生存率仍不理想，因此建立准确、稳定且可用于临床辅助决策的预后模型具有现实意义。既往CRC生存预测主要依赖两类方法：一类是单因素/多因素Cox回归、Kaplan-Meier分析与LASSO等统计分析方法，能够识别与预后相关的风险因素，但对复杂非线性关系的刻画能力有限，且结论更偏向相关性描述；另一类是机器学习与深度学习等智能分析方法，虽然适合处理高维复杂数据，但常面临数据质量依赖性强、特征选择困难、可解释性不足等问题。因此，该研究尝试整合二者优势，以lncRNA表达谱和生存信息为基础，建立双重注意力双向长短期记忆网络模型，从而提升CRC患者预后生存分层预测能力。

研究人员首先基于TCGA数据库下载CRC的RNA表达谱和临床资料。原始RNA表达数据包括482例CRC组织与42例非肿瘤组织，结合纳入与排除标准后，最终保留413例CRC患者用于分析。其中，39对肿瘤组织与配对癌旁正常组织被用于差异表达分析。研究以|log₂FC|＞3.0且p＜0.01为阈值，筛选得到458个差异表达长链非编码RNA（DElncRNA）。随后，以这458个DElncRNA为基础，针对413例CRC样本开展单因素Cox回归分析，评估lncRNA表达与总生存期（OS）之间的预后关联，最终识别出23个与OS显著相关的DElncRNA。之后，研究进一步借助LASSO算法对这23个lncRNA进行压缩和筛选，以获取其特征系数，为后续建模提供优化后的候选特征。

在此基础上，研究并未直接将全部候选变量输入预测网络，而是引入灰色关联分析（GRA）对影响生存时间的关键因子进行相关性排序。结果显示，LINC02163、PLUT和LINC01169与生存时间呈极强相关，AL137800.1和AC055717.2呈强相关，AC093817.2、BX470102.1、AC025154.2、FEZF1-AS1以及AC005256.1呈中等相关。由此，研究人员选取前10个lncRNA作为主要影响因素，作为后续深度学习模型的主要输入特征。该策略的核心逻辑在于，在高维转录组特征中进一步聚焦与生存结局最相关的变量，从而提高模型学习效率并降低冗余信息干扰。

方法概括：研究采用TCGA 413例CRC患者作为特征筛选总体队列，其中全部样本用于差异表达分析、单因素Cox回归与LASSO筛选；从TCGA中随机选取51例作为模型训练集；另以江南大学22例CRC独立数据集作为外部测试集。主要技术方法包括DESeq2差异表达分析、单因素Cox回归、LASSO特征筛选、灰色关联分析（GRA）降维，以及融合特征注意力机制与时间注意力机制的双向长短期记忆（BiLSTM）网络建模，并通过混淆矩阵、ROC曲线和AUC评估预测性能。

研究结果部分可概括如下。

Data processing result
研究人员从TCGA获取CRC RNA表达谱与临床信息后，纳入413例CRC组织样本和39例非肿瘤组织样本。对39对配对肿瘤/正常组织使用R软件包DESeq2进行lncRNA差异表达分析，在|logFC|＞3.0、P＜0.01条件下，共筛得458个DElncRNA。此后，对458个DElncRNA实施单因素Cox回归分析，输出风险比（HR）、95%置信区间上下限及p值等指标，并在p＜0.01阈值下识别出23个与OS密切相关的DElncRNA。最后，通过LASSO对这23个lncRNA进行可视化和系数分析，明确其相对贡献，为后续预测模型提供输入基础。该部分结果说明，研究成功从大规模转录组数据中筛选出与CRC患者生存密切相关的lncRNA特征集。

Prediction results
为适配分类预测框架，研究将死亡事件样本按生存时间划分为3个类别：生存＜3年、3–6年和＞6年；删失样本仅选取生存＞6年的患者，并采用one-hot编码构建标签。研究强调，将删失样本统一归入“＞6年生存组”是右删失分类任务中的一种处理策略，目的是避免对未观测到的死亡事件进行强制性错误标注。该步骤将连续生存时间问题转化为三分类预后预测问题，为后续神经网络训练提供监督标签。

Comparative experiment results
在对比实验中，研究以TCGA来源训练集51例患者训练模型，以江南大学队列22例患者进行外部预测验证，训练参数为1000个epochs、学习率0.01，并采用Adam优化器。研究将所提出的双重注意力BiLSTM（DABiLSTM）与BP神经网络、卷积神经网络（CNN）及标准LSTM进行比较。结果显示，DABiLSTM在训练过程中表现出更优的损失下降趋势和准确率提升趋势，收敛更稳定，最终准确率也最高。测试集混淆矩阵分析表明，DABiLSTM仅对3年预后标签产生2次错误预测，最终准确率为90.9%；CNN准确率为86.4%；BP准确率为81.8%；LSTM准确率为77.3%。该结果表明，融合双重注意力机制后，模型在小样本外部验证场景下仍表现出较优的分类预测能力。

Ablation experiment results
为验证双重注意力机制的作用，研究进一步设计消融实验，比对不含注意力机制的BiLSTM、仅含特征注意力的FABiLSTM、仅含时间注意力的TABiLSTM以及完整DABiLSTM。结果表明，注意力机制的引入会在一定程度上降低训练迭代速度，即DABiLSTM在损失函数与训练准确率曲线上的迭代速度最慢，而未使用注意力机制的BiLSTM收敛最快。但在测试集验证中，带注意力机制的模型总体预测性能更优，其中DABiLSTM表现最佳。这说明，双重注意力结构虽然提高了模型复杂度和训练成本，但能够更充分地挖掘输入特征重要性及时间相关性，从而增强预后预测精度。进一步的ROC曲线分析显示，在3年、3–6年及6年生存期预测中，DABiLSTM的AUC接近1.00，优于所有比较模型。

Discussion
讨论部分指出，该研究的主要贡献在于将深度学习与双重注意力机制引入CRC生存预测，并结合TCGA数据中的lncRNA特征实现较高预测性能。研究认为，DABiLSTM优于BP、CNN和标准LSTM的原因，在于其能够动态分配输入因素和时间序列的权重，从而自适应挖掘多因素与生存时间之间的相关关系。研究还进一步结合灰色关联分析结果指出，LINC02163、PLUT和LINC01169是最具生存预测相关性的lncRNA，其在模型中的高注意力权重与其病理生物学影响具有一致性。与此同时，论文也明确讨论了若干局限。首先，将所有删失样本划入＞6年生存组虽然符合分类任务中右删失处理的常见做法，但可能引入标签噪声和偏倚。其次，训练样本量较小，尤其训练集仅51例、外部验证集仅22例，且高特征维度与小样本比例可能导致过拟合风险。再次，研究采用单次训练/测试划分而未进行交叉验证，因此对模型稳定性和泛化能力的评估仍有限。研究据此提出，未来可考虑采用DeepSurv或基于Cox的神经网络等生存专用深度学习模型，并整合更大规模、多中心队列以及免疫微环境、多组学、影像学和治疗史等数据，以进一步提高模型的泛化性与临床适用性。

研究结论部分可译为：在该研究中，研究人员整合统计分析与智能分析方法，利用单因素Cox回归分析对数据集中的基因进行初步筛选，从而评估lncRNA表达谱与患者总生存期（OS）之间的预后关系。随后，研究人员在长短期记忆（LSTM）网络基础上进一步加入双重注意力机制，以挖掘与结直肠癌患者相关的数据特征。通过对江南大学结直肠癌数据集的分析，研究证实了所提出双重注意力机制LSTM方法在预测结直肠癌患者预后生存方面的有效性。该方法能够利用深度学习技术从构建的数据集中提取特征变量，并实现对结直肠癌患者预后生存的快速且准确预测。这一方法可为患者提供关键预后信息，并为医务人员制定医疗决策提供重要辅助支持。

联系信箱：

粤ICP备09063491号

热点排行