血清拉曼光谱结合PCA-CNN模型用于乙型肝炎、肝硬化和肝细胞癌的诊断
《Vibrational Spectroscopy》:Serum Raman spectroscopy combined with PCA-CNN model for the diagnosis of hepatitis B, liver cirrhosis, and Hepatocellular Carcinoma
【字体:
大
中
小
】
时间:2026年02月22日
来源:Vibrational Spectroscopy 3.1
编辑推荐:
血清拉曼光谱结合PCA-CNN模型实现了乙肝、肝硬化、肝癌及健康对照的四分类诊断,交叉验证准确率达83.79%,显著优于传统SVM方法。研究构建了含327例样本的数据库,通过PCA降维(保留95%方差)和1D-CNN分类,提出非侵入式、高灵敏度的肝疾病筛查新方案。
白云王|梁张|吴国华|尹龙飞|龙学文|梅婷|唐一舒
北京邮电大学理学院,中国北京100876
摘要
癌症对全球公共卫生构成了严重威胁,早期和准确的诊断对于改善患者预后和降低死亡率至关重要。在这项研究中,我们使用了血清拉曼光谱结合PCA-CNN模型来诊断三种类型的肝脏疾病,包括乙型肝炎、肝硬化和肝细胞癌。建立了一个包含这三种疾病和健康对照组的血清拉曼光谱数据库。与SVM和PCA-LDA等传统方法相比,PCA-CNN具有更高的效率和准确性。基于收集的327个样本,PCA被用来提取具有95%贡献率的特征,1D-CNN模型用于四分类。经过五折交叉验证后,总体加权平均准确率为83.79%。当精确度为0.85、特异性为0.95、F1值为0.84、AUC为0.94时,其性能至少比SVM等传统分类方法提高了4%。这为多种选定肝脏疾病的快速无创识别提供了一种新方法,并有助于临床诊断。
引言
目前,全球肝脏疾病的负担持续增加。根据世界卫生组织2022年的报告,每年约有200万人死于慢性乙型肝炎、肝硬化和肝细胞癌等晚期肝脏疾病[1]。中国HBV的流行率仍然很高,乙型肝炎发展为肝硬化的比例尤为突出,占所有肝脏疾病死亡的86%[2]。然而,当前的诊断系统主要依赖于影像学检查、血清甲胎蛋白和侵入性活检,这使得在纤维化早期或肿瘤直径较小时(<2厘米)难以检测到病变[3]。此外,由于病因多样,纤维化、炎症和肿瘤谱系之间存在重叠,导致传统生物标志物的特异性不足。迫切需要一种早期、无创和客观的新技术来解决这一问题[4]。进一步的研究表明,在亚太地区,即使结合AFP、PIVKA-II和超声方法,肝细胞癌的早期误诊率仍高达35%,且成本效益比也不理想[5]。因此,开发低成本和高灵敏度的替代策略已成为当务之急。
具体来说,这种基于血清拉曼光谱的PCA-CNN检测方法被明确定位为高风险人群中肝脏疾病的无创、可扩展的早期筛查工具,主要针对慢性乙型肝炎病毒(HBV)感染者——这些人患肝硬化(LC)和肝细胞癌(HCC)的风险较高[2]、[5]。与侵入性肝活检(传统的金标准,但受到采样偏差、患者不配合以及不适合大规模人群筛查的限制)和高成本成像方式(例如,增强CT/MRI,在资源有限的环境中常规筛查成本过高)[3]、[6]不同,我们的方法仅需5微升血清,就能在几分钟内快速实现四类区分(慢性乙型肝炎[HB]、LC、HCC和健康对照组)。这一设计直接符合世界卫生组织(WHO)的全球癌症控制战略,该战略强调需要低成本、可获得的无创筛查解决方案来减轻HBV流行地区的疾病负担[1]。除了人群级筛查外,该检测方法还作为一种补充的临床分诊工具,用于解决一个公认的未满足的需求:即对于甲胎蛋白(AFP)水平不确定(20–400 ng/mL)或影像学检查结果不明确的患者[5]、[6]。
血清拉曼光谱(RS)作为一种新的生物检测方法,具有无标记、无创和高灵敏度等显著优势,为癌症疾病的早期诊断和分类提供了新的可能性。与传统诊断方法相比,拉曼光谱技术无需标记、操作简单且成本相对较低[7]。研究表明,拉曼光谱技术对胃癌、结直肠癌和阿尔茨海默病的血清光谱诊断和液体活检非常有用[8]、[9]、[10]。此外,将拉曼光谱与深度学习结合后,拉曼人工智能模型在肝细胞癌血清分类中的总体准确率超过了90%,显著优于传统单次AFP检测的60%灵敏度[11]。
在乙型肝炎、肝硬化和肝细胞癌的连续疾病谱研究中,学者们尝试使用拉曼光谱进行分期。例如,黄等人使用785纳米的拉曼光谱结合SVM对178名慢性乙型肝炎患者进行分类,准确率为88.3%[12]。Saleem等人指出,基于血清的拉曼指纹识别可以以98.82%的准确率区分乙型肝炎(n=24)和健康对照组(n=10)[13]。2023年,孟等人提出了一种结合高斯卷积神经网络的血清拉曼光谱方法来分类肝癌患者和对照组,准确率为96.95%[14]。然而,大多数现有研究仅关注两级分类,缺乏同时覆盖“乙型肝炎-肝硬化-健康-肝细胞癌”四种分类的系统性评估,也缺乏统一的光谱预处理和深入的学习过程。本研究旨在通过建立一个使用一维卷积神经网络并通过PCA降维的无创血清拉曼诊断模型来填补这一空白。
在这项研究中,我们展示了RS结合PCA-CNN模型在诊断乙型肝炎、肝硬化和肝细胞癌方面的潜力。首先,使用PCA降维提取血清样本的光谱特征,贡献率为95%,然后将这些特征输入1D-CNN模型进行四分类。贝叶斯算法用于找到模型的最佳参数,而五折交叉验证用于评估模型性能并获得最终的分类准确率。据我们所知,这是首次使用血清拉曼光谱结合卷积神经网络实现乙型肝炎、肝硬化、肝细胞癌和健康对照组的明确四分类。
样本制备和收集
本研究的血清样本来自重庆医科大学第一附属医院。该医院共收集了327份血清样本。本研究得到了重庆医科大学第一附属医院伦理委员会的批准(伦理批准编号:2021-759)。根据医院的临床诊断,其中73例为乙型肝炎,68例为肝硬化,106例为肝细胞癌(队列包括28例
PCA特征降维
原始拉曼光谱的维度高达1800个波数点,直接将其输入1D-CNN会显著增加参数数量,导致参数数量爆炸性增长。因此,在输入分类模型之前,对训练集进行主成分分析(PCA),将高维光谱投影到保留95%累积解释方差的低维子空间中[23]。
设光谱矩阵为
结果与讨论
在本研究中,选择了400-4000厘米?1范围内的血清样本光谱进行分析,这包括了完整的指纹区域(400-1800厘米?1)和其他生物分子信息的高频区域[18]。图3显示了乙型肝炎(HB)、肝硬化(LC)、肝细胞癌(HCC)和健康对照组(HE)患者的平均拉曼光谱,阴影区域代表标准差。四种血清拉曼光谱的特征峰主要是
模型评估与分析
为了进一步评估PCA-CNN模型对肝脏疾病的诊断能力,图5和图6展示了嵌套五折交叉验证下每层的分类混淆矩阵热图和ROC曲线。
图5中的PCA-CNN五折混淆矩阵热图进一步证实了上述定量结论。对角线元素的高浓度亮度表明绝大多数样本被正确召回;非
结论
在这项工作中,我们提出并验证了一种非侵入性和快速的检测流程,该流程结合了532纳米血清拉曼光谱和混合PCA-CNN架构,同时区分乙型肝炎(HB)、肝硬化(LC)、肝细胞癌(HCC)和健康对照组(HE)。通过将PCA(保留95%的方差)嵌入嵌套五折交叉验证框架中,我们将1800维的光谱向量降维为33个正交特征,减少了噪声
资助
本研究得到了国家自然科学基金(NSFC)(62475020)的支持。
CRediT作者贡献声明
唐一舒:撰写——审阅与编辑、资源管理、数据整理。梅婷:撰写——审阅与编辑、监督、调查。梁张:撰写——初稿、数据整理。白云王:撰写——初稿、验证、软件、方法学、数据分析、数据整理。尹龙飞:撰写——审阅与编辑、数据分析。吴国华:撰写——审阅与编辑、调查、资金获取。龙学文:撰写——审阅与编辑、资金获取。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号