《Water Research X》:Transferable soft-sensors for predicting nitrate in diverse watersheds
编辑推荐:
本研究针对传统硝酸盐传感器成本高、维护频繁且灵敏度低的问题,开发了一种可迁移软传感器框架(PR-TR)。该框架利用电导率(EC)、温度、浊度等易测参数,通过迁移学习实现数据稀缺流域的硝酸盐浓度预测。结果表明,对于特征分布差异<100%的流域,仅需15个数据点微调即可达到Nash-Sutcliffe效率系数(NSE)0.51,显著优于传统人工神经网络(ANN)和多元线性回归(MLR)。该研究为水资源管理提供了低成本、高效率的监测方案,对富营养化防控具有重要意义。
随着人口增长和人类活动加剧,水体中氮、磷等营养盐含量显著上升,引发藻类过度繁殖、水体透明度下降等富营养化问题,直接威胁水生生态系统健康及饮用水安全。传统硝酸盐检测依赖现场传感器或实验室分析,但存在成本高昂、维护频繁、灵敏度不足等局限,难以实现大范围高频监测。尽管机器学习模型已应用于水质预测,但多数需依赖大量历史数据,且在跨流域迁移时泛化能力不足。如何利用少量易测参数(如电导率、温度、浊度)实现硝酸盐的精准预测,成为当前水环境管理的核心挑战。
为此,莫纳什大学研究团队在《Water Research X》发表研究,提出一种可迁移软传感器框架(PR-TR),通过预训练模型库和站点相似性度量,实现数据稀缺流域的硝酸盐浓度预测。研究以澳大利亚亚拉河(Yarra River)、丹德农溪(Dandenong Creek)及英国恩本河(Enborne River)等流域为案例,验证了框架在跨区域应用中的有效性。
关键技术方法
研究基于流域的易测参数(电导率、温度、溶解氧饱和度、pH、悬浮固体、浊度、流量),构建包含511个预训练人工神经网络(ANN)的模型库。通过欧氏距离(Euclidean Distance)计算目标站点与预训练站点的特征分布相似性,以相对差异度(<100%为低差异阈值)指导模型选择。采用对数转换和标准化处理数据,通过迁移学习微调模型,使用Nash-Sutcliffe效率系数(NSE)评估性能,并结合SHAP(SHapley Additive exPlanations)分析特征重要性。
研究结果
3.1 站点相似性决定模型迁移效果
对于特征分布相对差异<100%的站点(如BR、MR、MC、CC),PR-TR框架仅需15个本地数据点微调即可实现NSE 0.31–0.51,显著优于ANN和MLR。例如BR站点更新后对72个测试数据预测NSE达0.53。相反,高差异站点(如RC、ER)需更多数据(RC需50点)和调整学习率(0.01)以提升性能,表明相似性度量可有效预测迁移难度。
3.2 电导率与温度为核心预测因子
SHAP分析显示,电导率(EC)和温度是对硝酸盐预测贡献最大的参数,符合硝酸盐溶解态特性及温度驱动生物地球化学过程的物理机制。其他参数如流量和浊度在不同流域中重要性各异,反映水文与污染源的差异性。
3.3 学习率与数据量协同影响模型适应性
高差异站点(如ER)需提高学习率(0.01)以增强模型适应性,而低差异站点适用标准学习率(0.001)。增加微调数据量虽未显著提升平均NSE,但可降低性能波动,提高预测稳定性。
结论与意义
本研究提出的PR-TR框架通过量化流域间特征差异,实现了软传感器在数据稀缺场景下的高效迁移。其核心价值在于:
- 1.
实践指导性:相对差异度阈值(100%)为模型部署前的可行性评估提供直观指标;
- 2.
资源节约性:对相似流域仅需极少量标注数据(15点)即可达成可靠预测,大幅降低监测成本;
- 3.
机制可解释性:通过SHAP解析驱动因子,增强模型在水文管理中的可信度。
该研究为跨流域水质监测提供了可推广的解决方案,对富营养化预警和动态管理具有重要实践意义。