《Journal of the Egyptian National Cancer Institute》:Dual-attention bidirectional LSTM with feature genomic analysis improves prognostic survival prediction in colorectal cancer patients
编辑推荐:
结直肠癌(CRC)的发病率与死亡率持续升高,因此亟需对患者的预后生存时间进行准确预测,以实现更优的管理、早期筛查及生存期延长。该研究利用癌症基因组图谱(TCGA)公共数据集,对413例结直肠癌患者样本中39对病变组织及其对应正常组织的长链非编码RNA(lncR
结直肠癌(CRC)的发病率与死亡率持续升高,因此亟需对患者的预后生存时间进行准确预测,以实现更优的管理、早期筛查及生存期延长。该研究利用癌症基因组图谱(TCGA)公共数据集,对413例结直肠癌患者样本中39对病变组织及其对应正常组织的长链非编码RNA(lncRNA)进行差异分析,鉴定出458个差异表达lncRNA(DELncRNA)。单因素Cox回归分析显示,其中23个DELncRNA与总生存期(OS)显著相关。随后,研究人员进一步采用最小绝对收缩与选择算子(LASSO)算法对这23个DELncRNA进行筛选,以确定其特征系数。研究中采用一种带有双重注意力机制的自适应挖掘方法,以探索不同因素与生存时间之间的相关属性,并建立了双向长短期记忆(BiLSTM)神经网络用于生存预测。该模型在江南大学结直肠癌数据集上得到验证,结果表明其对患者生存具有可靠预测能力,并可为临床决策提供有价值的支持。该模型对患者3年、3–6年及6年生存期预测的曲线下面积(AUC)均接近1.00,显著优于其他对照试验。
该文发表于《Journal of the Egyptian National Cancer Institute》,聚焦于结直肠癌(CRC)患者预后生存预测问题,旨在将统计学筛选与深度学习建模相结合,构建兼具特征选择能力与非线性表征能力的预测框架。研究背景在于,CRC在全球范围内具有较高发病率和死亡率,尽管临床治疗持续进步,但患者总体5年生存率仍不理想,因此建立准确、稳定且可用于临床辅助决策的预后模型具有现实意义。既往CRC生存预测主要依赖两类方法:一类是单因素/多因素Cox回归、Kaplan-Meier分析与LASSO等统计分析方法,能够识别与预后相关的风险因素,但对复杂非线性关系的刻画能力有限,且结论更偏向相关性描述;另一类是机器学习与深度学习等智能分析方法,虽然适合处理高维复杂数据,但常面临数据质量依赖性强、特征选择困难、可解释性不足等问题。因此,该研究尝试整合二者优势,以lncRNA表达谱和生存信息为基础,建立双重注意力双向长短期记忆网络模型,从而提升CRC患者预后生存分层预测能力。
研究人员首先基于TCGA数据库下载CRC的RNA表达谱和临床资料。原始RNA表达数据包括482例CRC组织与42例非肿瘤组织,结合纳入与排除标准后,最终保留413例CRC患者用于分析。其中,39对肿瘤组织与配对癌旁正常组织被用于差异表达分析。研究以|log
2FC|>3.0且p<0.01为阈值,筛选得到458个差异表达长链非编码RNA(DElncRNA)。随后,以这458个DElncRNA为基础,针对413例CRC样本开展单因素Cox回归分析,评估lncRNA表达与总生存期(OS)之间的预后关联,最终识别出23个与OS显著相关的DElncRNA。之后,研究进一步借助LASSO算法对这23个lncRNA进行压缩和筛选,以获取其特征系数,为后续建模提供优化后的候选特征。
在此基础上,研究并未直接将全部候选变量输入预测网络,而是引入灰色关联分析(GRA)对影响生存时间的关键因子进行相关性排序。结果显示,LINC02163、PLUT和LINC01169与生存时间呈极强相关,AL137800.1和AC055717.2呈强相关,AC093817.2、BX470102.1、AC025154.2、FEZF1-AS1以及AC005256.1呈中等相关。由此,研究人员选取前10个lncRNA作为主要影响因素,作为后续深度学习模型的主要输入特征。该策略的核心逻辑在于,在高维转录组特征中进一步聚焦与生存结局最相关的变量,从而提高模型学习效率并降低冗余信息干扰。
方法概括:研究采用TCGA 413例CRC患者作为特征筛选总体队列,其中全部样本用于差异表达分析、单因素Cox回归与LASSO筛选;从TCGA中随机选取51例作为模型训练集;另以江南大学22例CRC独立数据集作为外部测试集。主要技术方法包括DESeq2差异表达分析、单因素Cox回归、LASSO特征筛选、灰色关联分析(GRA)降维,以及融合特征注意力机制与时间注意力机制的双向长短期记忆(BiLSTM)网络建模,并通过混淆矩阵、ROC曲线和AUC评估预测性能。
研究结果部分可概括如下。
Data processing result
研究人员从TCGA获取CRC RNA表达谱与临床信息后,纳入413例CRC组织样本和39例非肿瘤组织样本。对39对配对肿瘤/正常组织使用R软件包DESeq2进行lncRNA差异表达分析,在|logFC|>3.0、P<0.01条件下,共筛得458个DElncRNA。此后,对458个DElncRNA实施单因素Cox回归分析,输出风险比(HR)、95%置信区间上下限及p值等指标,并在p<0.01阈值下识别出23个与OS密切相关的DElncRNA。最后,通过LASSO对这23个lncRNA进行可视化和系数分析,明确其相对贡献,为后续预测模型提供输入基础。该部分结果说明,研究成功从大规模转录组数据中筛选出与CRC患者生存密切相关的lncRNA特征集。
Prediction results
为适配分类预测框架,研究将死亡事件样本按生存时间划分为3个类别:生存<3年、3–6年和>6年;删失样本仅选取生存>6年的患者,并采用one-hot编码构建标签。研究强调,将删失样本统一归入“>6年生存组”是右删失分类任务中的一种处理策略,目的是避免对未观测到的死亡事件进行强制性错误标注。该步骤将连续生存时间问题转化为三分类预后预测问题,为后续神经网络训练提供监督标签。
Comparative experiment results
在对比实验中,研究以TCGA来源训练集51例患者训练模型,以江南大学队列22例患者进行外部预测验证,训练参数为1000个epochs、学习率0.01,并采用Adam优化器。研究将所提出的双重注意力BiLSTM(DABiLSTM)与BP神经网络、卷积神经网络(CNN)及标准LSTM进行比较。结果显示,DABiLSTM在训练过程中表现出更优的损失下降趋势和准确率提升趋势,收敛更稳定,最终准确率也最高。测试集混淆矩阵分析表明,DABiLSTM仅对3年预后标签产生2次错误预测,最终准确率为90.9%;CNN准确率为86.4%;BP准确率为81.8%;LSTM准确率为77.3%。该结果表明,融合双重注意力机制后,模型在小样本外部验证场景下仍表现出较优的分类预测能力。
Ablation experiment results
为验证双重注意力机制的作用,研究进一步设计消融实验,比对不含注意力机制的BiLSTM、仅含特征注意力的FABiLSTM、仅含时间注意力的TABiLSTM以及完整DABiLSTM。结果表明,注意力机制的引入会在一定程度上降低训练迭代速度,即DABiLSTM在损失函数与训练准确率曲线上的迭代速度最慢,而未使用注意力机制的BiLSTM收敛最快。但在测试集验证中,带注意力机制的模型总体预测性能更优,其中DABiLSTM表现最佳。这说明,双重注意力结构虽然提高了模型复杂度和训练成本,但能够更充分地挖掘输入特征重要性及时间相关性,从而增强预后预测精度。进一步的ROC曲线分析显示,在3年、3–6年及6年生存期预测中,DABiLSTM的AUC接近1.00,优于所有比较模型。
Discussion
讨论部分指出,该研究的主要贡献在于将深度学习与双重注意力机制引入CRC生存预测,并结合TCGA数据中的lncRNA特征实现较高预测性能。研究认为,DABiLSTM优于BP、CNN和标准LSTM的原因,在于其能够动态分配输入因素和时间序列的权重,从而自适应挖掘多因素与生存时间之间的相关关系。研究还进一步结合灰色关联分析结果指出,LINC02163、PLUT和LINC01169是最具生存预测相关性的lncRNA,其在模型中的高注意力权重与其病理生物学影响具有一致性。与此同时,论文也明确讨论了若干局限。首先,将所有删失样本划入>6年生存组虽然符合分类任务中右删失处理的常见做法,但可能引入标签噪声和偏倚。其次,训练样本量较小,尤其训练集仅51例、外部验证集仅22例,且高特征维度与小样本比例可能导致过拟合风险。再次,研究采用单次训练/测试划分而未进行交叉验证,因此对模型稳定性和泛化能力的评估仍有限。研究据此提出,未来可考虑采用DeepSurv或基于Cox的神经网络等生存专用深度学习模型,并整合更大规模、多中心队列以及免疫微环境、多组学、影像学和治疗史等数据,以进一步提高模型的泛化性与临床适用性。
研究结论部分可译为:在该研究中,研究人员整合统计分析与智能分析方法,利用单因素Cox回归分析对数据集中的基因进行初步筛选,从而评估lncRNA表达谱与患者总生存期(OS)之间的预后关系。随后,研究人员在长短期记忆(LSTM)网络基础上进一步加入双重注意力机制,以挖掘与结直肠癌患者相关的数据特征。通过对江南大学结直肠癌数据集的分析,研究证实了所提出双重注意力机制LSTM方法在预测结直肠癌患者预后生存方面的有效性。该方法能够利用深度学习技术从构建的数据集中提取特征变量,并实现对结直肠癌患者预后生存的快速且准确预测。这一方法可为患者提供关键预后信息,并为医务人员制定医疗决策提供重要辅助支持。