基于机器学习的三维荧光光谱识别与成分分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》：Three-dimensional fluorescence spectroscopy recognition and component analysis based on machine learning

【字体：大中小】 时间：2026年02月27日 来源：Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3

编辑推荐：

　　三维荧光光谱结合机器学习实现污染检测与成分分析，提出共享编码U-Net模型，通过数据增强和改进的神经网络架构，在复杂混合物中保持稳定性能，较传统PARAFAC方法实现单样本快速分析，适用于实验室及环境监测。

王卓航|郭兰英|李哲|刘一凡|程坤|杨伟|王晓辉

中国北京邮电大学电子工程学院，工作安全智能监测重点实验室，北京 100876

摘要

三维激发-发射矩阵（EEM）荧光光谱技术在荧光物质识别中受到了广泛关注，因为它具有低成本、操作方便和高灵敏度的优点。然而，具有相似光谱的杂质污染会严重影响识别的准确性和可靠性。在这项研究中，我们提出了一种将机器学习与三维EEM光谱相结合的有效方法，以实现样品的污染检测和成分分析。使用荧光分光光度计在模拟污染环境中收集了EEM荧光光谱数据。通过多种算法（包括K-最近邻（KNN）、随机森林（RF）和卷积神经网络（CNN）架构）评估了各种污染物的检测和识别效果。通过使用PARAFAC衍生的光谱轮廓作为参考目标，训练了一种改进的U形网络（U-Net）架构，即共享编码器U-Net（SE-UNet），从而实现了对污染样品中各种荧光成分的分析。分析性能使用均方根误差（RMSE）、归一化均方根误差（NRMSE）、余弦相似度和强调峰值区域的加权平均绝对误差（WMAE）进行评估。在相对简单的二元组分情况下，所有深度学习模型都取得了相当的准确率。随着混合物组成的复杂性增加，优化的SE-UNet表现出比基于基线卷积神经网络（CNN）或视觉几何组（VGG）架构的模型更稳定的性能和更强的泛化能力，同时与迭代批量并行因子分析（PARAFAC）方法相比，它能够实现快速的单样本推断。该框架为实验室和环境监测场景中的污染分析提供了一种实用且可扩展的解决方案。

引言

样品的成分检测是化学工程领域中产品质量和可靠性的关键问题。即使微量污染物也会显著干扰样品的性质[1]。样品污染通常来源于外部环境因素，如空气中的灰尘、水中的杂质、试剂交叉污染和设备残留物。受污染的样品会导致分析结果不准确，从而影响后续的产品和应用。因此，开发准确的污染样品检测技术是必要的。值得注意的是，基于荧光信号的检测方法由于具有高灵敏度、高分辨率和低成本而引起了极大的兴趣[2]。已经开发了许多荧光检测技术用于污染样品的识别和分析[3]、[4]。

在荧光成分检测领域，三维激发-发射矩阵（EEM）荧光光谱技术凭借其大量的激发/发射（Ex/Em）对及其对应的强度信息，能够实现对复杂样品的准确识别和成分分析。EEM荧光光谱技术已被用于识别河流中的溶解有机物来源，证明了其在复杂水系统中检测污染物的能力[5]。然而，原始的三维EEM光谱数据包含大量的激发/发射数据和复杂的强度信息，这些信息容易受到荧光信号重叠和背景噪声的干扰。因此，基于EEM光谱的目标信息提取面临重大挑战。为了解决这个问题，已经采用了主成分分析（PCA）[6]和并行因子分析（PARAFAC）[7]等方法来探索三维EEM光谱中的目标信息。值得注意的是，PARAFAC模型不仅可以估计样品组合中独立荧光团的数量，还可以评估荧光团的相对浓度，从而实现复杂荧光成分的有效分解[8]。PARAFAC模型是一种相对全面的分析三维荧光光谱的方法，可以确定成分数量、识别成分并反演浓度，已被广泛用于荧光EEM分析。不幸的是，PARAFAC的实用性受到严重限制，因为该模型假设所有批次样品的成分集是均匀的。这种脆弱的假设在实际复杂样品污染情况下经常受到挑战。此外，确定成分数量的最关键步骤是主观的且非自动化的，依赖于依赖经验的诊断方法，如核心一致性或分半分析。考虑到批次依赖性、手动干预及其耗时性质，PARAFAC模型难以满足快速、单样本和自动化分析的需求。因此，开发将PARAFAC的分析精度转移到能够即时推断的深度学习框架中的方法是必要的。

机器学习作为一种高效的人工智能手段，已广泛应用于图像处理和自然语言处理等多个领域[9]、[10]。由各种成分的激发波长、发射波长和荧光强度组成的EEM荧光光谱与灰度图像具有结构相似性[11]。同时，基于CNN的深度学习架构也已开发用于一维光谱学习任务（例如拉曼光谱）[12]。结合机器学习方法和EEM光谱技术的样品成分分析逐渐成为一个有吸引力的研究热点[13]。胡等人使用机器学习算法实现了对掺假油类型的精确识别，有效区分了山茶籽油及其掺杂物[14]。杜等人将机器学习与EEM荧光光谱结合，用于检测化妆品中的有毒添加剂和重金属[15]。机器学习与光谱分析的有效结合在物质识别和检测方面展现了巨大潜力。徐等人[11]和阮等人[16]分别将卷积神经网络（CNN）模型和视觉几何组-11（VGG11）模型应用于河水污染成分分析，从而实现了污染物的快速检测。然而，这些研究通常将三维EEM荧光光谱扩展为一维向量，这会导致光谱中重要空间特征的丢失[11]、[16]。该模型可能缺乏混合物中各成分光谱之间的约束关系及相关成分的强度贡献。因此，旨在污染检测和光谱成分分析的框架应更加关注原始光谱特征。

在这项研究中，我们建立了一个基于机器学习和三维EEM光谱的样品污染快速检测成分分析框架。收集了几种常见荧光物质的纯样品和受污染样品的三维EEM光谱以创建数据集。通过PARAFAC解析的成分图和相对轮廓被用作高维参考目标（伪真实值）进行模型训练。然后建立了几种典型的分类和回归模型，以快速确定样品的纯度并预测光谱组成。这些基于PARAFAC的目标与实际物理浓度的定量可靠性得到了严格验证。为了解决数据集样本量小的问题，采用了数据增强方法来扩展数据集。在污染物检测过程中，分别采用了多种机器学习模型进行比较分析。根据光谱特征和成分约束对各种成分分析模型进行了针对性改进。使用改进的U形网络（UNet）架构和共享编码器进一步定量分析了混合物中每个成分的荧光强度贡献。该优化模型在基于模拟污染环境和公共数据集的混合物成分分析中表现出良好的性能。与传统的PARAFAC方法相比，优化模型可以通过输入单个EEM光谱快速检测污染并分析污染成分，为环境和实验室污染的快速检测提供了一种可靠的策略。

样本制备

荧光样品含有三种不同的荧光染料：8-羟基芘-1,3,6-三磺酸三钠盐（HPTS）、香豆素6（C6）和荧光素异硫氰酸酯（FITC）。准备了不同浓度（0.2 ppm、0.4 ppm、0.6 ppm、0.8 ppm、1 ppm、2 ppm、4 ppm、6 ppm和8 ppm）的HPTS、C6和FITC乙醇溶液，用于荧光检测。然后，依次选择上述两种样品并按不同的质量比例（1:9、2:8、3:7、4:6、5:5、6:4、7:3、8:2）混合。

三维EEM荧光光谱的特性

选择了具有相似波长范围的荧光染料C6、FITC和HPTS作为单一纯样品。由于染料的荧光在高浓度条件下容易淬灭，它们的荧光强度会偏离与浓度的线性响应关系。这种非线性关系严重违反了PARAFAC方法的核心假设，即荧光强度与浓度之间存在线性比例关系

结论

总之，本研究结合了机器学习和三维EEM荧光光谱技术，提出了一个用于污染检测和成分分析的框架。通过整合数据增强策略和分类模型，该框架能够有效检测荧光物质的污染。在相对简单的二元组分混合物中，所有模型（包括基线CNN、VGG11、UNet和SE-UNet）都取得了相当的预测准确率。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（62571054和62175266）和中央高校基本科研业务费（2024ZCJH08）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号