
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用大规模蛋白质组数据与深度学习技术进行唾液中头颈部癌症的检测
《npj Digital Medicine》:Leveraging population-scale proteomic data with deep learning for head and neck cancer detection in saliva
【字体: 大 中 小 】 时间:2026年05月04日 来源:npj Digital Medicine 15.1
编辑推荐:
摘要寻找可靠的生物标志物以实现早期癌症检测仍然是一个挑战,尤其是在处理数据量有限或数据异质性较高的情况下。本文提出了一个基于深度学习的概念验证框架,用于利用血液蛋白质组学数据来分类癌症。该框架通过样本类型迁移和合成数据增强技术,提高了模型的性能和泛化能力。模型使用了来自英国生物银
寻找可靠的生物标志物以实现早期癌症检测仍然是一个挑战,尤其是在处理数据量有限或数据异质性较高的情况下。本文提出了一个基于深度学习的概念验证框架,用于利用血液蛋白质组学数据来分类癌症。该框架通过样本类型迁移和合成数据增强技术,提高了模型的性能和泛化能力。模型使用了来自英国生物银行(UK Biobank)的13,208例泛癌患者和39,806例对照者的血浆蛋白质组数据进行了训练。为了解决类别不平衡问题并丰富特征空间,我们训练了一个卷积神经网络(CNN-Synth),该网络利用通过变分自编码器生成的合成泛癌样本来进行癌症检测。在另一项头颈癌病例对照研究中(n = 156),使用独立的唾液样本数据对模型进行了评估。结果表明,CNN-Synth(AUC = 0.88)的性能优于未使用合成数据的模型(AUC ≤ 0.77)。Shapley加性解释技术指出了一些知名的癌症标志物作为关键特征。这些结果强调了样本类型迁移和合成数据增强方法的有效性,但还需要进一步验证。