《Neurocomputing》:Interpretable approaches for decorrelated sparse survival regression
编辑推荐:
本文提出了一种创新的去相关稀疏生存回归(DSSR)方法,旨在解决传统生存分析模型在肿瘤预后预测中混淆分级(grading)和分期(staging)信息的问题。研究人员开发了三种算法(线性规划、二次规划和进化策略),通过引入稀疏性、非负性和去相关性约束,从病理特征中推导出与分期指标不相关、易于医学专家解读的肿瘤分级方案。实验结果表明,该方法在模拟和真实癌症数据集上均能有效解耦分级与分期信息,为罕见肿瘤类型的预后评估提供了新的可解释机器学习工具。
在肿瘤医学领域,准确评估患者预后是制定治疗方案的关键。目前,临床实践主要依赖两个核心评估体系:肿瘤分期(staging)和分级(grading)。分期描述肿瘤在体内的扩散程度,如TNM分期系统;而分级则反映肿瘤细胞本身的恶性程度,与扩散程度无关。然而,当应用生存分析模型预测患者生存时间时,这两种信息往往被混为一谈——任何与生存相关的特征都会被模型利用,无论其反映的是分期还是分级信息。这导致预测结果虽然准确,但医学解释性差,无法清晰区分“肿瘤的侵略性”(分级)和“肿瘤的扩散程度”(分期)。为了解决这一根本矛盾,本研究提出了一个名为“去相关稀疏生存回归”(Decorrelated Sparse Survival Regression, DSSR)的新颖机器学习问题,并开发了相应的算法。
为了验证DSSR方法的有效性,研究人员在模拟数据和真实临床数据上进行了测试。在模拟实验中,他们成功展示了DSSR方法能够有效分离出真实的肿瘤分级风险评分,而传统模型(如Weibull AFT、Cox回归等)的预测评分则与分期指标高度相关。在真实的膀胱癌数据集(包含272名患者)上,DSSR方法同样表现出了更好的泛化能力。尽管传统模型在训练集上表现优异(c-index约0.9),但在交叉验证测试集上其预测效能急剧下降至接近随机水平(c-index 0.53–0.56),表明存在严重过拟合。相比之下,DSSR方法(特别是基于CMA-ES的版本)取得了0.64的c-index,并且其预测评分与分期指标的相关性显著降低。这表明DSSR通过强约束获得了更稳健、更专注于肿瘤生物学本质(分级)的预测模型。这项研究为从复杂病理特征中推导出可解释、可临床应用的肿瘤分级方案提供了新的技术路径。相关研究成果已发表在《Neurocomputing》期刊上。
本研究采用的关键技术方法主要包括三类生存回归算法:基于线性规划的DSSR(linprog)、基于二次规划的DSSR(quadprog)和基于协方差矩阵自适应进化策略的DSSR(CMA-ES)。这些方法在线性风险评分模型的基础上,引入了针对患者生存时间排序一致性的约束(最大化一致性指数c-index)、模型稀疏性约束(L1正则化)以及风险评分与已知分期指标之间的去相关性约束。此外,研究还采用了权重量化(weight quantization)和评分量化(score quantization)技术,将连续的模型权重和最终风险评分离散化为有限的等级,从而极大增强了模型的最终可解释性,使其更接近临床常用的分级系统(如低、中、高风险)。实验所用膀胱癌数据集包含272例经病理学专家评估的鳞状膀胱癌患者样本,其中87例具有生存时间随访数据。
3. Method
研究人员提出了DSSR这一新问题,其目标是学习一个线性风险评分模型,该模型需要满足多个条件:首先,模型应能预测患者的生存时间;其次,模型应尽可能稀疏(即使用尽可能少的特征),便于医学专家分析;第三,模型应融入生物医学先验知识(例如,对有序特征施加单调性约束);最后,也是最重要的,模型预测的风险评分必须与 staging 指标(如TNM分期)去相关,从而确保评分主要反映的是肿瘤的分级(grading)信息。
3.2. Linear DSSR
线性DSSR方法将问题形式化为一个线性规划问题。它在标准生存分析排序约束的基础上,增加了三项关键改进:1)对具有生物学单调性先验的有序特征权重施加非负约束;2)引入L1正则化项以促进模型稀疏性;3)通过引入松弛变量并添加到目标函数中,惩罚风险评分与 staging 指标之间的线性相关性。
3.3. Quadratic DSSR
二次DSSR方法将问题形式化为一个二次规划问题。与线性版本的主要区别在于,它直接最小化风险评分与所有 staging 指标之间相关系数的平方和,而不是仅仅惩罚最大的那个相关性。这有助于使模型与所有 staging 指标的整体相关性都保持较低水平。
3.4. Evolutionary strategies
由于线性规划和二次规划方法无法直接处理非线性相关性以及直接优化一致性指数(c-index),研究还采用了基于协方差矩阵自适应进化策略(CMA-ES)的DSSR方法。该方法的损失函数直接结合了三部分:负的一致性指数(需最大化)、权重向量的L1范数(控制稀疏性)以及风险评分与 staging 指标之间的斯皮尔曼相关系数绝对值(控制去相关性)。CMA-ES能够处理更复杂的非线性约束,但计算成本较高。
3.5. Weight quantization
为了进一步提升模型的可解释性,研究者提出了权重量化方法。该方法将学习到的连续权重值近似到预设的离散水平上(例如,将权重限制为0, 1, 2三个整数值)。研究比较了简单的舍入取整和一种基于混合整数线性规划(mILP)的优化舍入策略,后者在调整舍入方向(向上或向下)时以尽可能保持模型性能(c-index)为目标。
3.6. Score quantization
最后,研究应用了评分量化。在权重量化的基础上,通过穷举搜索确定最佳阈值,将连续的风险评分划分为少数几个风险等级(如低、中、高三级),从而得到一个与临床传统分级系统类似的、易于理解的评分方案。
4. Experiments
实验部分在模拟数据和两个真实世界癌症数据集(SurGen结直肠癌数据集和膀胱癌数据集)上验证了所提方法。
4.2. SurGen cancer dataset
在SurGen结直肠癌数据集上的实验表明,传统的AFT模型和Cox模型虽然能取得较高的c-index(约0.7),但其预测的风险评分与 staging 指标存在显著相关(斯皮尔曼相关系数约0.5),未能实现分级与分期的解耦。而所有DSSR变体都能将这种相关性成功降低至接近零的水平,同时保持了合理的预测性能(c-index约0.6)。
4.3. Bladder cancer dataset
在膀胱癌数据集上的结果尤为引人注目。该数据集样本量小且存在大量右删失数据,传统模型表现出严重的过拟合,其交叉验证c-index降至0.53–0.56。相比之下,DSSR模型,尤其是CMA-ES版本,取得了0.64的c-index,并且显著降低了与 staging 的相关性。此外,DSSR模型学到的权重向量更加稀疏(超过50%的权重为零),权重值在有序特征上也呈现出符合医学预期的单调递增趋势,而传统模型的权重则波动剧烈,难以解释。通过权重和评分量化,研究者最终得到了一个仅包含三个风险等级的分级方案,其c-index仍能达到0.73,并且Kaplan-Meier曲线显示出显著的分层效果。
本研究通过提出并系统解决DSSR这一新问题,为从高维病理特征中推导可解释的肿瘤分级方案提供了可行的机器学习框架。研究结果表明,通过有目的地引入稀疏性、单调性和去相关性约束,生存分析模型可以摆脱对 staging 信息的依赖,更纯粹地反映肿瘤的生物学侵袭性(分级),从而增强模型的可解释性和临床实用性。特别是在小样本、多特征的临床场景下,DSSR方法通过强正则化展现了优于传统模型的泛化性能。尽管在预测精度上可能略有牺牲,但换取了模型可靠性和可解释性的显著提升。这项工作为开发下一代可解释、可信赖的医疗人工智能辅助诊断工具迈出了重要一步,尤其对于缺乏标准分级方案的罕见肿瘤具有重要价值。未来研究可探索将DSSR与更复杂的非线性模型结合,并在更多样化的临床数据集上进行验证。