一种可靠的轮廓检测方法,用于结合图像分类和实例分割的二维气相色谱分析,以实现对挥发性化合物的全面分析

《Talanta》:A reliable contour detection method for volatomics analysis with comprehensive two-dimensional gas chromatography leveraging image classification and instance segmentation

【字体: 时间:2026年03月05日 来源:Talanta 6.1

编辑推荐:

  GC×GC分析中重叠轮廓的深度学习解决方案通过ResNet18和YOLO 11l融合实现自动化峰检测,有效降低传统方法中的假阴性率。

  
传林·王|思凡·罗|娟·李|敏·何
湘潭大学化学工程学院制药工程系,中国湘潭市411105

摘要

综合二维气相色谱(GC × GC)为挥发性有机化合物(VOC)的剖析提供了无与伦比的分辨能力。然而,现有的轮廓检测方法在应用于这些复杂样品时,由于轮廓重叠,经常会出现假阴性结果,严重阻碍了准确的定量分析。即使经过优化,这些方法也难以解决这种模糊性。本研究提出了一个混合深度学习框架,通过整合图像分类和实例分割技术,来克服GC × GC分析中由轮廓重叠引起的假阴性问题。该框架包括四个关键步骤:(1)使用改进的PeakCET v2算法(结合拉普拉斯算子)构建初始轮廓图;(2)利用ResNet18对单峰和多峰轮廓进行分类;(3)通过YOLO 11l分割重叠的轮廓;(4)评估分割结果以识别独立的轮廓。ResNet18的分类准确率达到98.59%,优于其他模型。YOLO 11l组件展示了出色的分割能力,mAP50超过87%,在测试的架构中获得了最高的mAP50-95。针对多种玫瑰油数据集的验证证实了该方法的通用性和稳健性。通过显著减少对人工处理的依赖,这种ResNet18–YOLO 11l流程为处理复杂的GC × GC数据提供了一种自动化且高效的解决方案。

引言

挥发性有机化合物(VOC)由生物体自然释放或通过化学反应产生,在生物学[1]、化学[2]、临床诊断[3]和治疗[4]中扮演着关键角色。挥发性有机化合物分析(Volatomics)[5]是一个新兴的跨学科领域,涉及对VOC谱型的系统分析,包括其组成、浓度和排放模式[6],以及它们与植物压力[7]、食品风味[8]、中药(TCM)功效[9]和疾病进展[10]等不同条件之间的关联。分析技术的进步,特别是气相色谱和质谱技术,大大扩展了挥发性有机化合物分析的范围和实际应用价值。
气相色谱-质谱(GC-MS)仍然是VOC分析的基石[11],它结合了气相色谱(GC)的分离能力和质谱(MS)的识别精度。然而,一维(1D)GC-MS在分析含有数百到数千种化合物的复杂生物或天然产物样品时常常面临局限性;由此产生的共洗脱现象经常影响分析准确性。为了解决这个问题,综合二维气相色谱(GC × GC)应运而生,它利用两个具有正交固定相的色谱柱和调制器,在两个维度上分离化合物,从而显著提高了色谱容量和分辨率。因此,GC × GC-MS在从石化分析[12]和环境监测[13]到生命科学[14]、食品科学[15]以及中药[16,17]等多个领域都发挥了重要作用。
尽管GC × GC具有诸多优势,但它会产生庞大而复杂的数据集。一个色谱图,即一维和二维保留时间及信号强度的三维矩阵,可能包含数千个峰。当与高频质谱结合使用时,每个样品的数据文件通常会超过几GB,使得手动分析变得不切实际[18]。包括基线校正[19]、噪声过滤[20]、反卷积(并行因子分析和多变量曲线解析)[[21], [22], [23], [24]]、时间偏移校正[25]、定量[26]、分类[27]和基于瓦片的成对分析[28]在内的复杂数据处理流程是准确检测峰值的必要条件。然而,特别是在低浓度或高度复杂的样品中,由于信号失真、背景干扰和基线漂移等问题,挑战依然存在。传统方法(如阈值处理或分水岭算法[29])常常会产生假阳性或假阴性结果[30]。例如,Bartoň等人[31]将感兴趣区域(ROIs)与分水岭算法结合使用,从质谱数据中提取峰值,试图绕过传统的信号处理和对齐步骤;然而,这种方法需要对复杂矩阵进行大量的参数优化。因此,基于像素的化学计量学已成为GC × GC-MS数据分析的一种创新替代方法[32]。我们之前的工作[33]引入了一种基于轮廓检测的算法,利用GC × GC峰值的“山峰”或“斑点”模式,在低信噪比下提高了灵敏度。然而,该方法在处理轮廓重叠时存在问题,经常将不同的特征误分类为单一实体,从而增加了假阴性的数量并影响了定量分析。有效解决这种特征重叠问题需要强大的图像识别和分割策略。
最近,许多人工智能工具被应用于GC × GC数据处理。Mathema等人[34]开发了基于卷积神经网络(CNN)和生成对抗网络(GANs)的CRISP深度学习架构,展示了生成模型在分类糖尿病肾病患者的GC × GC-TOFMS图像方面的实用性。同样,深度神经网络(DNN)和CNN也被用于预测GC × GC-HRMS中的保留时间[35],当与高分辨率质谱数据结合使用时,能够实现准确的类固醇识别。这些研究突显了深度学习在提高GC × GC工作流程自动化和精度方面的巨大潜力。此外,先进的CNN架构(如ResNet[36])和基于Transformer的模型(如Vision Transformers(ViT)[37])在从类图像数据中提取层次空间特征方面表现出色。这些方法特别适用于原始的GC × GC色谱图,因为其中的轮廓模式类似于可识别的视觉对象。虽然CNN已被用于色谱图分析[[38], [39], [40], [41], [42], [43]],但先进的实例分割技术在解决GC × GC TIC图像中的轮廓重叠问题方面仍未得到充分利用,这成为挥发性有机化合物研究中的一个关键空白。
在本研究中,我们使用改进的PeakCET v2算法(结合拉普拉斯算子)提取的初始轮廓被定义为感兴趣区域(ROIs)。为了有效解决峰值重叠问题,我们提出了一种结合基于ResNet18的图像分类和基于YOLO 11的实例分割的混合深度学习流程。此外,我们还对比分析了不同的边缘检测算子(如Canny、Prewitt)以及各种规模的深度学习架构(包括CNN变体、ViT和YOLO 11模型)。

章节片段

理论与方法

所提出的方法包括四个连续阶段:(1)使用PeakCET v2算法生成ROI图像(补充图S1);(2)使用CNN模型(ResNet18或其他模型)对这些轮廓进行二值分类;(3)利用YOLO 11对重叠特征进行实例分割;(4)评估分割结果以分离独立的轮廓。该方法的整体工作流程如图1所示。详细的实验配置包括硬件规格

基于不同算子的初始轮廓检测

在PeakCET v2中,自动化阈值处理与多种边缘检测算子结合使用,以确保无偏的特征提取。如补充图S5–S7所示,无论色谱图的复杂性或信号强度如何,拉普拉斯算子和Canny算子的表现始终优于Prewitt算子,其中拉普拉斯算子的表现略优于Canny算子。此外,补充图S7还表明,拉普拉斯算子生成的轮廓线是完美封闭的

结论与未来展望

本研究建立了一个用于自动检测和解决GC × GC TIC指纹中重叠轮廓的稳健框架,这是可靠化合物识别的关键前提。通过结合ResNet18进行二值峰值分类和YOLO 11l实例分割架构,所提出的流程有效规避了传统方法(如PeakCET)中固有的假阴性问题。实验验证证实了

CRediT作者贡献声明

传林·王:撰写——原始草案、软件开发、方法论设计、数据整理。思凡·罗:资源提供。娟·李:项目管理、数据整理。敏·何:撰写与编辑、监督、方法论设计、资金获取、数据整理、概念构思。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了湖南省2011年化学工程与技术协同创新中心(环境友好性和资源高效利用)、湖南省自然科学基金(项目编号:2024JJ7540;2023JJ60378)以及湖南省大学生创新创业培训计划(项目编号:S202210530048)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号