《Talanta》:Non-invasive screening for ovarian cancer by combining serum SERS with interpretable machine learning models
编辑推荐:
卵巢癌早期筛查方法研究:通过血清SERS结合LightGBM-DNN双模型优化特征选择,构建非侵入性诊断模型,准确率达92.03%,并有效区分恶性肿瘤与良性肿瘤。
高宇|吴丽吉·哈西|张艳华|韩霞|韩思清鳌
哈尔滨工业大学郑州研究院,中国郑州450000
摘要
早期识别恶性卵巢肿瘤对于制定治疗决策和提高患者生活质量至关重要。作为全球第三大常见妇科癌症,卵巢癌的诊断仍然具有挑战性,这主要是由于当前筛查技术成本高昂、可及性有限以及存在辐射暴露风险。本研究将表面增强拉曼光谱(SERS)与特征选择技术和深度学习框架相结合,基于血清成分分析构建了一种卵巢癌检测诊断模型。目标是实现高效且精确的非侵入性筛查方法。首先从临床确诊的卵巢癌患者、健康个体及卵巢子宫内膜异位症患者的血清样本中收集了高质量SERS光谱数据。随后,采用Light Gradient Boosting Machine(LightGBM)算法作为基础分类器进行两阶段特征选择,同时考虑了模型的内在特征重要性评分和SHapley Additive exPlanation(SHAP)值。最后,通过反向传播训练深度神经网络(DNN),优化神经元连接的权重和偏置,从而提升了整个网络模型的预测性能。特征选择后,DNN算法在五折交叉验证中对于健康个体、卵巢癌和潜在恶性卵巢子宫内膜异位症三种类型的识别准确率达到了92.03%。在独立测试集的评估中,准确率仍高达86.96%。此外,与传统机器学习算法相比,DNN的分类性能也更为优越。上述研究结果表明,将血清SERS与强大的LightGBM-DNN算法相结合为临床卵巢癌筛查提供了一种有前景的策略。
引言
卵巢癌(OC)是妇科中最常见的恶性肿瘤之一,位于盆腔深处。由于其早期症状隐匿,该疾病常常在晚期才被诊断出来,导致死亡率惊人地高[1]。目前,卵巢癌的诊断结合了临床表现、实验室检测、影像学检查和探查性剖腹手术[2]。然而,影像学检查和剖腹手术由于辐射水平高、具有侵入性且高度依赖医务人员经验,不利于疾病的早期发现[3]。尽管癌抗原125(CA-125)有助于卵巢癌的筛查,但其准确性较低,假阳性率较高,不足以用于早期卵巢恶性肿瘤的筛查[4]。此外,CA-125水平升高也出现在其他疾病中,如子宫内膜异位症(卵巢子宫内膜异位瘤)[4],[5]。因此,降低卵巢癌死亡率并提高治愈率的关键在于寻找早期诊断和筛查的方法。因此,开发一种新型卵巢癌筛查方法至关重要,以便尽早发现疾病,从而便于患者的临床管理。
拉曼光谱技术基于分子振动,能够从生物样本中获取独特的分子“指纹”数据。然而,拉曼信号强度通常较弱,这限制了其发展和广泛应用。近年来,将SERS与多种机器学习方法结合使用,在快速、无标记的疾病诊断方面展现出巨大潜力[6],[7],[8],[9],[10],[11],[12],[13]。例如,Tan等人开发了一种超小型纳米级3D SERS传感器,用于肿瘤干细胞来源的细胞外囊泡(EVs)的分子分析。他们利用人工神经网络区分了三种癌症(乳腺癌、肺癌和结直肠癌)和非癌来源的EVs,实现了100%的灵敏度和特异性[14]。Mi等人开发了一种新的SERS基底材料,结合DNN机器学习算法后,实现了系统性红斑狼疮的无标记诊断,准确率高达94.4%[7],[15]。Zhao等人设计了三种具有不同表面特性的基底材料,从血清中获取全面信息,并通过判别分析成功实现了宫颈癌的100%准确率分类[16]。Kim等人利用外泌体与机器学习算法结合,同时诊断了六种早期癌症,诊断准确率超过95%[17]。
上述研究展示了拉曼光谱在疾病诊断中的应用价值。然而,由于生物分子的拉曼光谱特征非常复杂,存在多个光谱峰,且生物样本的组成也非常复杂,这给准确提取有意义的信息带来了巨大挑战。传统的逐峰分析方法无法理解高度复杂的SERS光谱。一些研究直接使用SERS光谱中的所有特征峰来训练分类模型[9],[12];另一些研究则将经过主成分分析(PCA)降维后的光谱数据作为分类模型的输入[18],[19]。尽管PCA是一种经典的无监督降维方法,但在降维过程中可能会丢失关键的光谱信息,从而无法完全反映原始数据的特征。此外,胶体基底材料的长期储存或环境变化可能导致纳米粒子聚集,降低稳定性[20]。同时,由于光谱采集过程中的外部环境影响,原始光谱中的一些波数特征可能成为“冗余特征”,但这些冗余特征对分类并不特别重要,从而限制了分类准确性。因此,开发适用于微量血清检测的SERS基底材料,并结合特征选择方法来识别最相关的光谱特征,对于提高模型区分能力至关重要[21],[22]。
为了解决这些问题,本文提出了一种微量液体血清SERS检测方法,如图1所示的示意图。由于用柠檬酸钠合成的银纳米粒子不仅制备简单,而且具有优异的生物相容性,本研究采用了界面组装的AgNPs方法来增强SERS信号。具体而言,将涂有AgNPs的纸基SERS基底直接浸入从40名健康个体(HC)、40名卵巢癌患者(OC)和21名卵巢子宫内膜异位症患者(OEM)收集的血清样本中,然后进行SERS光谱采集。经过基于LightGBM内置特征重要性评分和SHAP值的双重特征选择后,将SERS光谱数据输入DNN模型,实现卵巢癌的自动化分类,从而减少了对主观评估的依赖。研究结果表明,结合双重特征选择的LightGBM-DNN模型在健康对照组和卵巢癌患者中的分类准确率高达99.81%。尽管卵巢子宫内膜异位瘤是良性妇科肿瘤,但它们与卵巢癌发生在相同的解剖位置,症状相似,并且具有恶性潜能。因此,使用DNN算法对来自恶性肿瘤患者、良性肿瘤患者和健康受试者的血清SERS光谱进行分类,准确率超过86%,显著优于传统的机器学习方法。实验中使用的所有样本均来自临床样本,凸显了该方法在卵巢癌早期检测中的潜在应用价值。
实验化学物质
实验中使用了去离子水。二氯甲烷、硝酸银(AgNO3)、正己烷、柠檬酸钠、抗坏血酸(AA)和结晶紫(CV)均购自北京Inokai科技有限公司。
制备含Ag纳米粒子的纸基SERS基底
首先,按照Qin等人建立的方案[23],通过柠檬酸钠还原法合成银纳米粒子(AgNPs)。将42毫克(42 mg)的AgNO3溶解在245毫升(245 mL)的水溶液中,该溶液中还含有24.5毫克(24.5 mg)的抗坏血酸(AA)和221毫克(221 mg)的柠檬酸钠。
含Ag纳米粒子的纸基SERS基底的表征
图2A展示了通过柠檬酸钠还原在柔性纤维素基底上高效合成银纳米粒子的物理组装过程。扫描电子显微镜(图2B和2E)的形态学表征显示,这些纳米结构呈准球形,尺寸在60-80纳米之间。光学吸收分析(图2F)显示在447纳米处有一个明显的等离子体共振峰。对比SEM图像显示了未经改性的基底
讨论
SERS技术与液体活检和机器学习的结合已成为卵巢癌(OC)的一种潜在诊断方法,有效弥补了传统侵入性检测方法(如组织活检)的局限性以及低特异性生物标志物(如CA-125)的不足。近期研究通过优化SERS基底、扩大临床样本量和改进机器学习算法,提高了诊断准确性。
目前,
结论
本研究利用SERS结合LightGBM-DNN双模型特征选择和分类算法,区分了健康个体和卵巢癌患者的血清样本。该方法创新性地区分了恶性肿瘤(OC)和具有恶性潜能的良性肿瘤。模型首先使用LightGBM的内置特征重要性评分进行初步特征选择,然后进一步利用SHAP算法筛选出107个具有诊断价值的光谱特征
CRediT作者贡献声明
高宇:撰写——原始草稿、软件开发、实验研究、数据分析。吴丽吉·哈西:撰写——审稿与编辑、实验研究、资金筹集、数据分析。张艳华:方法学设计、实验研究、数据管理。韩霞:资源协调、实验研究、数据管理。韩思清鳌:软件开发、方法学设计、资金筹集
利益冲突声明
作者声明没有已知的利益冲突或个人关系可能影响本文的研究结果。
致谢
本研究得到了国家自然科学基金(项目编号:82160806)和内蒙古自治区自然科学基金(项目编号:2024LHMS08035)的支持。