基于多尺度自注意力机制和三维EEM荧光光谱的水污染源解析深度学习模型:重点关注EEM区域特征分析

《Journal of Hand Therapy》:A Deep Learning Model Based on Multi-scale Self-attention Mechanism and 3D EEM Fluorescence Spectroscopy for Water Pollution Source Apportionment: Emphasis on EEM Regional Feature Analysis

【字体: 时间:2026年02月20日 来源:Journal of Hand Therapy 1.8

编辑推荐:

  水质监测与污染源解析中,基于3D EEM光谱与多尺度自注意力机制的机器学习模型,通过优化网络结构和多窗口尺度(25-100nm)荧光特征提取,发现50nm尺度在分类精度(88.89%)与模型复杂度间取得最佳平衡,并揭示中分辨率特征优于传统高分辨率假设的“维度悖论”。该模型兼具高解释性,为复杂水源分类提供新方法。

  
莫启明|郑雄凯|刘文伟|杜晓东|卢桂宁
华南理工大学环境与能源学院,广州510006,中国

摘要

评估水质对公共健康和环境可持续性至关重要。虽然激发-发射矩阵(EEM)光谱技术能够提供溶解有机物质(DOM)的“指纹”信息,但其高维数据给分析带来了挑战,并限制了传统的污染源分配方法。本研究开发了一种深度学习模型,将3D EEM光谱技术与多尺度自注意力机制相结合,用于分类五种水源:鱼塘养殖废水、地下水、地表水、工业废水和模拟废水。该模型通过系统化的架构优化和多尺度荧光区域整合(FRI)特征工程(窗口尺寸25-100纳米)得以实现。值得注意的是,多尺度分析揭示了一个“维度悖论”:中等尺度的50纳米特征始终优于高分辨率的25纳米特征,这挑战了“更高光谱分辨率必然带来更好模型性能”的传统假设。使用50纳米窗口的自注意力模型实现了最佳的性能-复杂性平衡,测试准确率为88.89%。主要发现包括:地表水的最佳特征为Ex = 300-350纳米/Em = 250-300纳米;地下水、鱼塘养殖废水和工业废水的最高权重特征为Ex = 300-350纳米/Em = 300-350纳米;而450-500纳米/Em = 450-500纳米的特征则成为地下水分类的独特标志。这种方法将模型从一个“黑箱”转变为一个可解释的科学工具,为水质监测和污染源分配提供了有效的方法。

引言

加速的工业化和城市化导致了来自多种来源的复杂水污染问题,如养殖废水、地下水渗漏和工业排放[1]、[2]。有效管理这些复杂的水生环境对公共健康和生态系统可持续性至关重要。然而,传统的监测方法(如化学需氧量(COD)和生化需氧量(BOD)虽然能够量化总体污染水平,但不适合解决这一挑战[3]。这些方法通常速度慢、成本高,并且缺乏进行污染源分配所需的特异性,从而阻碍了有针对性的治理策略。因此,迫切需要快速且可靠的替代技术来实现准确的污染源识别[4]、[5]。
近年来,EEM荧光光谱技术成为一种特别有前景的工具,它提供了一种高效且非破坏性的方法,能够捕捉DOM的独特“指纹”[6]。与传统监测方法相比,EEM操作简便,能产生丰富的光谱数据,为污染源分配开辟了新的途径[7]。然而,EEM数据固有的高维度性构成了分析上的瓶颈。为了突出我们提出方法的优势,将其与传统的并行因子分析(PARAFAC)进行比较是有意义的。尽管PARAFAC是一种广泛使用的工具[8]、[9],但其应用可能计算量大,依赖于主观专家决策,并且对数据质量敏感[10]、[11]。这些局限性凸显了需要更先进、自动化和数据驱动的解决方案,例如我们的机器学习框架,以充分发挥EEM在多源分类中的潜力。
机器学习(ML)的出现为克服与EEM数据处理相关的上述挑战提供了强大的分析框架[12]。在各种ML方法中,多层感知器(MLPs)作为前馈神经网络的一种,由于其在处理高维非线性数据集方面的有效性而展示了巨大的潜力[13]。综述文章进一步强调了MLPs在水处理和水质预测中的广泛应用[14]。例如,MLPs结合遗传算法已被用于高精度预测全规模市政污水处理厂的废水浓度[15]。尽管MLPs在水质分析中具有广阔的应用前景,尤其是在应用于EEM数据时,现有研究仍存在一些显著局限性。首先,专门针对EEM分析进行污染源分配的MLP研究相对较少。目前该领域主要由其他成熟技术主导,例如支持向量机(SVM)和随机森林(RF)常用于水体分类[16],而PARAFAC仍是分解荧光成分的最主流先进技术。这表明在MLPs的应用方面缺乏系统的探索和优化[17]。其次,许多现有的基于机器学习的EEM研究缺乏对模型架构的系统优化。通常,神经网络架构的选择是基于经验,没有详细的超参数调整过程或不同配置的比较分析[18]。第三,传统的EEM数据特征工程方法通常依赖于少数固定指标(如腐殖化指数(HIX)),这些方法往往过于简化[19]。此外,在复杂矩阵中,它们的有效性可能会受到严重影响,因为重叠信号和淬灭效应可能导致指数值模糊或误导[20]。这需要一种更全面的特征提取方法,以保留光谱数据的内在结构信息。最后,目前缺乏关于不同空间尺度上特征重要性的深入分析,了解哪个特征尺度最具信息量对于阐明污染源与其光谱指纹之间的复杂关系至关重要[21]。更为关键的是,涉及多种水样类型(如养殖废水、地下水、地表水、一般废水和模拟废水)的联合分类研究非常有限。这凸显了在复杂多源污染场景下解决污染源分配问题的显著差距。
为了克服这些局限性,自注意力机制为EEM光谱特征提取提供了一种创新的技术途径。这种深度学习技术可以自适应地学习特征之间的依赖关系,在处理复杂光谱数据时相比传统MLPs具有明显优势[22]、[23]。与传统方法不同,自注意力机制动态计算不同光谱区域的权重分布,从而能够识别出对污染源分类最相关的关键光谱特征组合[24]、[25]。在多尺度特征分析中,自注意力机制可以捕捉不同窗口尺寸下的全局特征依赖性,从而实现更准确的特征表示,并可能提高多源水污染源分配的分类性能[26]。该机制不仅增强了模型理解复杂光谱模式的能力,还提供了特征级别的可解释性,为不同污染源的光谱指纹特征提供了科学见解。基于这一理论基础,并受到已识别研究差距的启发,本研究提出了一个增强有多尺度自注意力机制的MLP框架。该框架专为五种不同水样类型的精确分类和污染源分配而设计。该框架的新颖性和贡献体现在几个关键方面:首先,建立了系统化的模型架构优化框架,比较了1至5层MLP架构的性能,并系统评估了三种学习率调度策略:平台下降调度器、余弦退火调度器和带温重启的余弦退火调度器,为模型的稳健开发奠定了坚实基础[27]。其次,构建了一个基于固定25纳米积分区域的FRI特征工程系统,实现了从高维光谱数据到结构化特征表示的有效转换。与PARAFAC等方法相比,FRI避免了复杂的分解过程,计算效率提高了大约十倍,并有效保留了DOM的光谱“指纹”特征。这使得它非常适合作为机器学习模型的输入[28]。第三,将自注意力机制集成到3D EEM荧光光谱分析中。通过设计特征注意力层,实现了特征级别的自适应权重分配,使模型能够自主学习不同光谱区域的重要性[29]。第四,开发了一种多尺度FRI技术,系统比较了四种不同窗口尺寸(25纳米、50纳米、70纳米和100纳米)对特征提取和后续分类性能的影响。第五,本研究创新性地实现了多种水污染源的联合分配分析,构建了一个涵盖五种不同水样类型的综合识别系统:鱼塘养殖废水、地下水、地表水、工业废水和模拟废水。众多高影响力评论指出,工业和农业排放是全球水质退化的主要驱动因素[30]、[31],这凸显了进行此类综合研究的必要性。同样重要的是,选择这些类别是因为它们的化学特征重叠,使用传统方法难以区分。例如,养殖废水和受污染的地表水都富含蛋白质类和腐殖质类荧光DOM[32],导致光谱轮廓非常相似,需要应用先进的机器学习方法进行准确区分。这代表了超越传统研究(仅关注单一水体类型)的突破。通过将EEM与机器学习有机结合,特别是采用自注意力机制进行智能光谱特征分析和选择,本研究为复杂水生环境系统的精确管理提供了科学依据和技术支持。

章节摘录

样本收集

如图1(第1部分)所示,水样采集自中国南部一个高度发达的工业和农业中心的多个地点。采样策略旨在涵盖该地区最具代表性的水体和污染源:地表水、鱼塘养殖废水、地下水、工业废水和模拟废水。所有采样活动都在晴朗天气进行,避免了大雨后的72小时周期

不同层数MLP性能比较

为了确定最佳网络架构,采用控制变量方法对1-5层MLP模型进行了系统比较分析。以25纳米FRI特征向量作为输入,所有架构的超参数配置保持一致,以确保实验的严谨性(表S4)。
如图3和表S5所示,网络深度与分类性能之间的关系是非单调的。3层架构实现了最高的准确率87.98%(图3a)

结论

本研究成功展示了将3D EEM荧光光谱技术与多尺度自注意力机制相结合在污染源分配方面的强大能力。该方法得到了88.89%的测试准确率,并提供了对不同水源光谱特征的可解释性见解(表S11中的比较)。这一发现表明,在50纳米的中等尺度上存在最佳特征分辨率

环境影响

在复杂水生环境中准确分配污染源是有效环境管理的关键挑战。传统的监测工具往往速度慢,缺乏识别溶解有机物质(DOM)所需的特异性,而DOM是水质的关键指标。我们的研究引入了一种深度学习模型,将“黑箱”方法转变为一个可解释的科学工具。通过准确分类水污染源并识别其

未引用参考文献

[79]、[80]、[81]、[82]、[83]

CRediT作者贡献声明

刘文伟:形式分析。杜晓东:写作——审稿与编辑、资金获取、概念化。卢桂宁:监督、资金获取。莫启明:写作——审稿与编辑、原始草稿撰写、可视化、验证、方法论、形式分析、数据整理、概念化。郑雄凯:形式分析。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了国家自然科学基金(编号42277380,资助人G.-N. L.)和中国博士后科学基金(2024M750948,资助人X.-D. D.)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号