乳腺癌与甲状腺癌共患风险的多因素机器学习预测模型构建与验证

《Frontiers in Oncology》:Development and validation of a multifactorial risk prediction model for breast cancer patients with co-occurring thyroid cancer: a retrospective matched case-control study

【字体: 时间:2026年03月18日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本研究针对乳腺癌(BC)与甲状腺癌(TC)共患这一临床难题,首次构建并验证了一套基于机器学习的多因素风险预测模型。研究整合了放疗史、促甲状腺激素(TSH)水平、雌激素受体(ER)状态、甲状腺癌家族史及诊断年龄等关键风险因子,通过LASSO回归进行特征选择,并比较了XGBoost等多种算法的性能。最终XGBoost模型在独立测试集中展现出优异的区分度(AUC-ROC = 0.874),为乳腺癌患者的个性化甲状腺癌风险分层与精准监测提供了强有力的量化工具。

  
研究设计与患者队列
本研究是一项单中心、回顾性、1:1匹配的病例对照研究,旨在构建并验证一个预测乳腺癌(BC)患者发生共患甲状腺癌(TC)风险的多因素机器学习模型。研究对象来自北京安贞南充医院/首都医科大学及南充市中心医院2012年1月1日至2025年3月31日期间的患者数据库。最终分析队列由400名BC患者组成,其中200名为BC-TC共患患者(病例组),200名为仅有BC的患者(对照组)。病例与对照组按照诊断年份(±1年)和年龄(±3岁)进行匹配。严格的纳入与排除标准确保了两组患者的可比性,例如所有入选患者均经组织病理学确认诊断,并排除了患有其他恶性肿瘤或已知遗传性癌症综合征的患者。样本量的计算基于先验效应量分析,并满足临床预测模型开发所需的每个变量≥10个结局事件的准则,确保了研究的统计效能。
基线特征与风险因素识别
对两组患者基线特征的分析揭示了关键差异。与单纯BC患者相比,BC-TC共患患者在BC诊断时更年轻(平均48.9岁 vs. 56.3岁),有乳腺癌放疗史的比例显著更高(42.0% vs. 14.5%),雌激素受体(ER)阳性比例更高(84.5% vs. 63.0%),Luminal A型分子亚型占比更高(50.5% vs. 30.0%),且促甲状腺激素(TSH)水平更高(平均2.86 μIU/mL vs. 1.92 μIU/mL)。这些差异在统计学上均具有高度显著性(p < 0.001)。
为从众多候选变量中筛选出最具预测价值的精简特征集,研究采用了LASSO(最小绝对收缩和选择算子)逻辑回归。该算法通过引入惩罚项,将不相关或冗余变量的系数压缩至零,从而有效处理多重共线性并实现变量选择。在10折交叉验证确定最优惩罚参数λ后,LASSO最终保留了6个具有非零系数的关键预测因子:诊断年龄、放疗史、TSH水平、ER状态、甲状腺癌家族史和乳腺癌分子亚型。这6个变量随后被纳入多元逻辑回归模型,以计算其调整后的比值比(aOR),结果证实它们均为BC-TC共患的独立风险因素。其中,放疗史的关联强度最高(aOR = 3.42, 95% CI: 2.14–5.46),其次为甲状腺癌家族史(aOR = 3.05)、ER阳性状态(aOR = 2.47)、TSH水平升高(每增加1 μIU/mL, aOR = 2.01)以及更年轻的诊断年龄(每减少1岁, aOR = 1.07)。此外,与非Luminal A亚型(特别是三阴性和HER2富集型)相比,Luminal A亚型患者发生共患TC的风险更高。
机器学习模型开发与优化
基于上述6个关键预测因子,研究团队开发并优化了四种机器学习算法:L1正则化逻辑回归(LR-L1)、随机森林(RF)、极端梯度提升(XGBoost)和支持向量机(SVM)。整个数据集(N=400)被随机分为训练集(80%, n=320)和独立的测试集(20%, n=80)。为获得最佳模型性能,研究者使用贝叶斯优化结合5折交叉验证对每个算法的超参数进行了精细调优。特征重要性分析在四种模型中显示出高度一致性,放疗史、TSH水平和诊断年龄被一致认为是影响力排名前三的预测因子。
模型性能评估与验证
在独立的测试集上,XGBoost模型表现最为出色,其受试者工作特征曲线下面积(AUC-ROC)达到0.874(95% CI: 0.836–0.934),显著优于逻辑回归和SVM模型。在通过最大化约登指数确定的分类阈值(概率=0.42)下,XGBoost模型的准确率为86.7%,灵敏度为83.3%,特异度为90.0%。
进一步的模型评估显示,XGBoost模型具有良好的校准度,其预测概率与观察到的实际事件频率高度一致。决策曲线分析表明,在20%至80%的阈值概率范围内,使用该模型进行风险分层指导临床决策(如加强监测)所带来的临床净获益,优于“对所有患者筛查”或“不对任何患者筛查”的策略。
亚组分析揭示了一个重要发现:在有放疗史的患者中,XGBoost模型的预测性能尤为突出(AUC = 0.921),显著高于无放疗史的患者(AUC = 0.833)。此外,模型在预测有临床意义的甲状腺癌(肿瘤>1 cm)和甲状腺微小癌(PTMC, ≤1 cm)方面表现相当,说明其捕捉的是真实的肿瘤发生风险,而非仅仅反映监测强度带来的检出偏倚。通过1000次Bootstrap重抽样进行内部验证,得到的乐观校正AUC为0.865,证实了模型的稳定性。
讨论与结论
本研究的发现与既往关于BC与TC共患机制的认知相呼应。放疗作为最强的风险因素,其关联得到了生物学支持,即电离辐射可直接导致甲状腺滤泡细胞DNA损伤并可能上调钠碘同向转运体(NIS)表达。TSH的促有丝分裂作用、ER阳性状态所暗示的雌激素信号通路与甲状腺癌发生(如通过RET/PTC重排)的交互作用,以及年轻诊断年龄所代表的更长潜在激素暴露时间,共同构成了复杂的风险网络。传统的逻辑回归模型虽然提供了可解释的比值比,但其在捕捉这些因素之间潜在的非线性关系和交互作用方面存在局限。相比之下,XGBoost等机器学习算法能够自动学习这些复杂模式,从而实现了更优的预测性能。
本研究构建的XGBoost模型成功整合了放疗暴露、激素谱和肿瘤生物学特征,为BC患者的TC共患风险提供了个体化的量化分层工具。该工具在独立测试集中展现出优秀的区分度、校准度和临床实用性,有助于优化高风险患者的监测策略,平衡早期发现与医疗资源合理使用。然而,本研究作为单中心回顾性研究,其结论有待在多中心、前瞻性队列中进行外部验证。未来研究可进一步整合基因组学等分子特征,以深入阐明所识别风险因素的生物学机制,并持续提升预测模型的精度与普适性。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号