一种基于变压器和3D卷积神经网络(CNN)的特征融合网络,具备对拉曼光谱数据的解释能力,用于提升甲状腺癌的诊断水平
《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:A transformer and 3D CNN-based feature fusion network with interpretable ability for Raman spectra analysis: improving the diagnosis of thyroid Cancer
【字体:
大
中
小
】
时间:2026年02月23日
来源:Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3
编辑推荐:
甲状腺癌早期诊断中,本研究创新性地构建了基于Transformer和3D-CNN的多模态融合模型RaMF,通过动态交叉注意力机制整合1D拉曼光谱特征与GASF/MTF/RP等2D变换的时空特征,实现94.7%的识别准确率,显著优于单模态模型。
余孙|范丹丹|贾长静|李庆龙|马佩|张学典|陈慧
教育部光学技术与医学仪器重点实验室,上海科技大学,上海200093,中国
摘要
准确区分良性与恶性甲状腺病变仍然是一个重大的临床挑战。拉曼光谱技术能够提供无标记的细胞分子指纹,但诊断光谱模式的识别仍然具有挑战性。虽然人工智能已被应用于将拉曼数据作为一维(1D)信号进行分析,但这些方法可能会忽略波数之间的微妙非线性关系,尤其是在成分在光谱上相似的情况下。将1D光谱数据转换为二维(2D)表示可以保留振幅和位置相关性,从而揭示潜在的时间和结构特征。然而,这种转换可能会导致信息丢失,其程度取决于所采用的编码策略。为了解决这个问题,我们提出了一个新颖的多模态深度学习框架,该框架协同整合了1D光谱和2D时空特征,这是基于拉曼技术的甲状腺癌检测中的首次应用。我们的模型独特地结合了Transformer来捕捉1D光谱中的全局依赖性,以及3D-CNN从多个2D光谱转换中提取局部空间模式。这些双模态特征通过多头交叉注意力机制进行自适应融合,实现了动态特征整合。该多模态模型在甲状腺病变识别方面的准确率达到了94.7%,优于分别只有91.0%和89.4%的单模态Transformer和3D-CNN模型。值得注意的是,多模态模型通过识别关键拉曼峰对分类决策的贡献,提高了模型的可解释性。因此,将SERS与可解释的深度学习相结合,为甲状腺癌诊断建立了一种新的方法,实现了卓越的诊断性能和显著提高的模型可解释性。
引言
甲状腺癌的特点是甲状腺细胞的恶性增殖,是全球内分泌系统中最常见的恶性肿瘤[1]。尽管其发病率在不同地区有所差异,但甲状腺癌仍位列全球十大常见癌症之一。重要的是,如果在早期发现该疾病,五年相对生存率显著提高,这凸显了准确高效诊断策略的迫切需求[2]、[3]。目前的诊断方案主要依赖于组织病理学检查和成像技术。然而,这些方法容易受到病理学家之间的差异影响,并且通常需要耗费时间整合多种诊断工具,限制了它们的可扩展性和客观性。拉曼光谱(RS)作为一种无标记的分析技术,已成为癌症检测的有希望的方法。通过利用入射光的不弹性散射,RS可以检测到由分子振动能量转换引起的散射光子波长变化,从而从生物样本中获取分子“指纹”信息[4]。这些振动信号对特定生物分子的存在和相对丰度非常敏感。因此,RS能够检测到与癌变相关的微妙分子变化,使其成为非侵入性识别甲状腺癌的强大工具[5]。
然而,将拉曼光谱作为诊断工具使用面临挑战,因为光谱特征复杂,且难以确保不同操作者之间的诊断一致性。随着人工智能、机器学习和深度学习模型的最新进展,它们在从高维光谱数据中提取复杂模式方面展现了显著的能力[6]、[7]、[8]、[9]。例如,Dubey等人[10]使用基于SVM的模型进行乳腺癌检测,准确率达到90.6%;Zhang等人[11]利用PCA-DFA和PCA-SVM进行诊断和亚型分类。最近,我们的团队[12]应用了一维(1D)卷积神经网络(CNN)来分析外泌体的无标记SERS光谱,实现了97.88%的非小细胞肺癌(NSCLC)亚型准确率。尽管取得了这些进展,传统的1D拉曼光谱分析往往忽略了波数之间的微妙非线性关系,尤其是在光谱重叠的干扰物存在的情况下。因此,当前模型未能充分利用拉曼序列中的结构相关性,这表明需要更复杂的特征提取机制。为了解决这些限制,越来越多的研究致力于将1D拉曼光谱转换为2D表示,以便利用强大的基于图像的深度学习技术。Qi等人[13]、[14]应用短时傅里叶变换(STFT)将拉曼光谱转换为时频图像,并使用CNN进行肺组织分类。Cheng等人[15]开发了一个结合GAF的2D-CNN模型用于乳腺癌筛查,显著提高了诊断准确性。尽管这些方法有用,但2D光谱转换方法存在编码依赖的数据丢失或伪影问题。标准的2D-CNN处理单个2D输入,无法捕捉多个编码表示之间的交叉编码相关性。同时,当前方法忽略了1D光谱特征和2D时空模式的互补性,导致拉曼光谱数据利用不足。所有这些事实都突显了需要结合多模态拉曼特性的混合架构以实现稳健分类的必要性。
在这项研究中,我们提出了一个名为Raman多模态融合模型(RaMF)的新颖多模态深度学习框架,用于分析和识别甲状腺癌细胞的拉曼光谱。我们的框架结合了Transformer架构来处理1D拉曼光谱并利用其全局上下文建模,以及3D-CNN从通过Gramian角和场(GASF)、马尔可夫转换场(MTF)和递归图(RP)转换的多个2D编码拉曼图像中提取时空和通道间模式。一种新颖的多头交叉注意力机制动态融合了两种模态的特征,减少了信息丢失并增强了区分能力。双重注意力可视化提高了模型的可解释性,而融合的特征使得甲状腺癌的拉曼光谱特征能够得到全面表征。据我们所知,这是首次在基于拉曼的多模态诊断框架中整合Transformer和3D-CNN。实验结果证实了我们的模型优于单模态基线模型,展示了其在甲状腺癌筛查和精准医疗应用中的稳健性、可解释性和可扩展性。
数据集构建
数据集构建
人类滤泡状甲状腺癌细胞(FTC-133)和正常甲状腺上皮细胞(Nthy3–1)的原始拉曼高光谱数据集来源于Mendeley数据存储库[16],该数据库提供了多种甲状腺细胞系的高分辨率高光谱拉曼图像。根据数据集文档,所有光谱在公开发布前都经过了预处理,以确保光谱保真度,包括波数校准和宇宙射线校正。FTC-133细胞系是由
拉曼光谱的预处理
尽管原始拉曼高光谱数据集已经进行了波数校准和宇宙射线校正,但仍存在显著的基线漂移,这是拉曼光谱中常见的伪影,可能是由于荧光背景、仪器响应或样本特异性效应造成的。为了解决这个问题,我们应用了非对称加权惩罚最小二乘(airPLS)算法。这种无需参数的稳健技术通过迭代计算自适应权重来区分
结论
本研究提出了一种新颖的多模态深度学习框架RaMF,通过协同整合Transformer架构和3D-CNN的互补优势,实现了甲状腺癌细胞的准确分类。实验结果表明,所提出的多模态框架在包括准确率、召回率和F1分数在内的多个评估指标上显著优于其单模态对应模型(即单独的Transformer和3D-CNN模型)。统计分析使用
伦理声明
本研究未涉及人类受试者或患者数据。所有使用的数据都是公开可用的、模拟的或已匿名处理,不包含个人标识符。因此,不需要伦理批准和知情同意。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(NSFC)(编号:62275156)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号