桥接源头与风险：一种结合多尺度地理信息模型（PMF）与无监督机器学习的框架，用于跨境喜马拉雅河流中的重金属管理

《Ecological Indicators》：Bridging source and risk: a combined PMF and unsupervised machine learning framework for heavy metal management in a transboundary himalayan river

【字体：大中小】 时间：2026年05月10日 来源：Ecological Indicators 7.4

编辑推荐：

　　穆罕默德·法伊萨尔 | 冯武 | 穆罕默德·瓦西姆·布塔 | 沙恩-海德尔·苏姆罗 | 穆罕默德·纳伊姆 | 张宇中
中国华北水利水电大学水资源学院，郑州450046

**摘要**
在数据稀缺的跨界流域中管理水质往往具有挑战性。这种困难源于过度依赖单一方法进行源分配，以及缺乏结构化、数据驱动的集成。本研究引入了一个综合框架，将受体模型与无监督机器学习相结合。该框架支持源解释，揭示复杂的污染模式，并识别具有成本效益的监测指标。该框架使用包含八种重金属（Cr、Ni、Cu、Zn、Pb、Hg、As和Cd）和四种物理化学参数（pH、EC、TDS、TH）的全面数据集进行了应用。数据收集自气候敏感的杰赫勒姆河沿岸的15个地点，覆盖两个季节。正矩阵分解（PMF）显示，城市化和工业排放是全年主要污染源（占41.15%）。无监督机器学习通过模式识别支持这一结论。主成分分析（PCA）分别对干季和湿季进行了分析，解释了总方差的86.7%和84.3%，其中Zn、Pb、Cd、Cu、Cr和Hg在PC1上有较强的载荷（0.75–0.85），表明它们是城市-工业污染的指标。K-means聚类将站点系统地分为三类：城市-工业热点、农业区和背景区。相关性分析表明，易于测量的参数（总硬度TH和电导率EC）可以作为特定金属污染的有用筛查指标（Zn和Ni的相关性r > 0.35）。在这些机器学习得出的模式基础上进行的健康风险评估表明，As和Ni对儿童存在显著的致癌风险（风险系数CR > 10^-4），且风险最高的是城市-工业集群。该框架展示了一种结构化的方法，可以用于从描述性污染核算转向预测性、具有成本效益和基于证据的管理。在经过局部验证后，该方法可适用于其他数据稀缺的河流流域。

**1. 引言**
喜马拉雅地区拥有跨界河流流域，这些流域是数百万人的关键水源，用于农业、工业和生活用途（Baranwal等人，2024年）。然而，近年来快速的城市化、农业集约化和工业化导致重金属污染加剧（Jaiswal和Kumar，2025年）。重金属的持久性和毒性增加了生物积累的可能性（Edo等人，2024年）。准确识别污染源是良好水资源管理的关键。正矩阵分解等受体模型已成为污染源识别的常用工具（Ren等人，2023年；Zhang等人，2024年）。然而，这种方法仍存在重大缺陷：研究人员根据分析需求分别使用PMF和传统污染指数（Chauhan等人，2025年；Proshad等人，2023年）。这些输出通常作为重要管理决策的基础，但往往缺乏独立且结构化的整合（French和Shim，2025年）。对于数据匮乏的跨境流域来说，这是一个特别严重的问题，因为这些流域的监测资源有限，错误的干预措施可能产生重大影响。虽然有一些研究将PMF与机器学习结合使用，但很少有框架真正利用无监督机器学习来识别与PMF得出的源解释相匹配的数据驱动模式。流域管理者的行动可能带来社会和经济影响。此外，传统方法主要是描述性的（什么和哪里），可能无法提供预测性、实用且具有成本效益的监测工具。

世界各地的研究人员利用不同的方法工具来确定不同水环境中重金属污染的程度和水质。水质指数、污染指数和健康风险评估代码等指示性方法已被广泛用于评估水质适宜性和量化金属污染可能引起的健康风险（Ayejoto等人，2024年；Egbueri等人，2023b；Egbueri等人，2023a）。人类健康风险评估模型、聚类算法和污染源识别方法已被证明是重要的统计和多变量工具，可以帮助分类水质并区分地质因素和人为因素（Agbasi等人，2023年；Agbasi和Egbueri，2022年；Egbueri和Agbasi，2022a）。图形和水质化学方法（如Piper图、Gibbs图和相关性矩阵）被用于可视化水质变化，并确定硅酸盐风化、蒸发岩溶解和离子交换等关键水文地质过程（Boualem和Egbueri，2024年；Bouselsal等人，2024年；Singh等人，2023年）。机器学习算法在水质预测和监测中也得到了更广泛的应用，其中多元线性回归（MLR）、径向基函数神经网络（RBF-NN）、多层感知器神经网络（MLP-NN）和自适应神经模糊推理系统（ANFIS）在水质指数和健康风险预测方面表现出高准确率（Agbasi和Egbueri，2024年；Egbueri和Agbasi，2022b；Khan等人，2023a）。将地理空间方法与遥感和地理信息系统（GIS）相结合，可以实现含水层补给潜力、水质分布和季节变化的空间分析，并识别污染源和空间趋势（Aswal等人，2024年；Khan等人，2023b；Singh等人，2024年）。机器学习与多元统计的结合也可以解决一些方法论问题（Zhu等人，2023年）。例如，PCA和K-means聚类已被应用于水质研究（Erfani等人，2023年；Maione等人，2022年）。PCA和K-means聚类是模式识别工具，提供探索性一致性测试，但不是源剖面的机械验证工具。本研究将这些技术纳入了一种通用方法中。PCA与受体模型结果结合使用，提供了额外的维度降低和特征/交互作用识别。该方法提供了无监督的数据驱动视角，以了解季节性和源相关趋势。同样，K-means聚类用于将采样站点分为不同的污染类型（城市-工业热点、农业区和背景区）。研究结果提供了数据驱动的无监督空间趋势组合，可以与其他模型（如PMF）结合使用（Bashir等人，2025年；Xu等人，2023年）。通过整合，源分配的可解释性得到了提升。此外，该综合框架能够形成可执行的知识。相关性分析能够建立易于测量的参数（如pH、EC、TDS和TH）与目标污染物之间的关系。与某些重金属具有统计学显著关联的参数可以用作可能的替代指标，在确认性分析之前可以快速且低成本地进行筛选（Moeinzadeh等人，2023年；Rajeev等人，2025年）。这种方法有助于推动从描述性核算向综合管理的范式转变。

像杰赫勒姆河这样具有跨界性质、独特水文特征和异质人为问题的河流，是这种综合结构的良好示例。历史研究记录了金属浓度的升高，并通过应用传统污染指数测量了相关健康风险（Proshad等人，2023年；Ren等人，2023年）。然而，迄今为止，还没有使用定量受体模型和无监督机器学习对该跨界系统进行全面的源分配实验。本研究旨在证明如何应用机器学习技术框架来全面评估水生生态系统中的重金属污染问题。目标是：（1）使用无监督机器学习（PCA和K-means聚类）识别时空污染模式；（2）通过PMF量化源贡献并与机器学习得出的模式进行比较；（3）利用常规测量的水质参数开发具有成本效益的监测指标；（4）评估与重金属暴露相关的致癌和非致癌健康风险。通过将传统的受体模型方法与最新的数据科学方法相结合，该框架是一种更系统、透明和实用的方法，有助于保护杰赫勒姆河流域及其他监测不足的重要流域的水质。

**2. 材料与方法**
**2.1. 研究区域和战略站点选择**
杰赫勒姆河是喜马拉雅地区的主要跨界河流系统之一，发源于印度查谟和克什米尔邦的Verinag泉，流经巴基斯坦的阿扎德克什米尔地区（Akbar和Gupta，2024年）。该流域具有亚热带高地气候，具有季节性差异。年平均降水量为800–1200毫米，其中约70%集中在雨季（7月至9月）。夏季气温为20–35摄氏度，冬季气温在低海拔地区为0–5摄氏度，在高海拔地区低于0摄氏度。
该流域最常见的地质结构是前寒武纪变质岩（片岩和gneiss）、古生代沉积岩（石灰岩和砂岩）以及第四纪冲积层。上游集水区包括火成岩侵入体和矿化区域，这些地质结构增加了砷和汞等元素的自然背景含量。本研究调查了河流的70公里段落，选择该段落是因为其对水质的影响，以及其土地利用梯度的代表性。这种梯度对于精确的源分配研究非常重要。梯度还有助于分析该地区的异质性，从人口密集区到原始水源区。为了分析该地区的异质性，建立了15个采样点（S1-S15）（见表S1），如图1所示。

**2.2. 综合分析框架**
提出了该方法（图2），以支持后续的机器学习框架。这种方法不仅基于统计标准，还基于客观的无监督模式识别来确定源分配结果。

**2.2.1. 为机器学习准备数据的系统采样和实验室分析**
在干旱季节（2022年12月至2023年3月）和湿润季节（2023年7月至9月）以系统化的方式收集了水样。机器学习相关性分析用于定义具有成本效益的监测指标。重金属和水质参数的浓度以战略方式进行了计算（Bustos-Terrones等人，2025年；Das，2025a）。现场的电导率（EC）和pH值使用校准的多参数探针进行测定。EC值用于计算总溶解固体（TDS）。TDS的计算公式如下：
TDS = EC × k，其中k为转换因子，取值为0.65（基于杰赫勒姆河的主要离子成分）。为了量化总硬度（TH），在实验室中使用标准程序进行了乙二胺四乙酸（EDTA）滴定（Valiallahi和Yazdani，2025年）。研究了八种对环境和健康有害的重金属（Cr、Ni、Cu、Zn、Pb、Hg、As和Cd）。每个地点收集了三个重复样本以确保数据可靠性。使用10% HNO?和去离子水仔细清洗设备（Be?ta等人，2025年）。使用预处理的聚乙烯试管在20至30厘米深度采集样本（Apetogbor等人，2023年）。样本立即用HNO?酸化至pH值小于2，储存于4°C，然后过滤（0.45 μm）并进行分析。Hg和Pb的检测限分别为0.00001 mg/L和0.001 mg/L，重金属浓度通过电感耦合等离子体质谱（ICP-MS）测定，该方法符合EPA Method 200.8（Akoury等人，2022年；Song等人，2022年）。使用认证参考物质（NIST 1640a），方法整合显示回收率为92–107%，线性度优异（R2 = 0.999），校准范围为0.1–100 μg/L。

**2.2.2. 可靠的机器学习应用的质量保证**
通过符合ISO/IEC 17025:2017标准的全面质量保证系统确保了数据的完整性，以便用于高级分析（Panagiotidou等人，2024年）。分析包括现场空白样、10%样本的重新分析（相对百分比差异为15–20%）以及批内/批间精度（相对标准偏差小于15%）。这是进行结构化机器学习评估所需的严格质量保证/质量控制（QA/QC）。机器学习和多元分析框架
这种结合方案利用无监督学习方法深入探讨了污染的性质和分布，超越了传统的描述性统计方法（Liu等人，2022a；Zhu等人，2023）。涉及机器学习的分析是在R版本4.4.3中使用factoextra、FactoMineR和corrplot包进行的。数据标准化使得所有分析中的变量具有相同的权重。

2.3.1 通过PCA进行模式发现
标准化的重金属浓度数据经过PCA处理，减少了维度，图形化显示了变化趋势，并提供了采样地点之间季节性和来源相关分组量的定量洞察（Guagliardi等人，2022；Sylvie等人，2024）。

2.3.2 通过K-means聚类进行客观站点分类
K-means聚类被用来客观地对15个采样站点进行分组。这种方法基于它们重金属浓度剖面的相似性，提供了空间污染模式的数据驱动整合。轮廓分析被用来确定最佳聚类数，以最大化簇内相似性和簇间差异（Punhani等人，2022）。

2.3.3 通过相关性分析识别预测代理变量
创建了皮尔逊相关性矩阵来测量重金属浓度与水质参数（pH、EC、TDS、TH）之间的关系（Zou等人，2024）。这种分析的特别目的是识别统计上显著的代理变量，以便在资源受限的跨界环境中实施成本效益高的监测政策。

2.3.4 使用随机森林（RF）来确定特征重要性和代理变量
为了识别成本效益高的监测代理变量，使用了RF来确定常规测量的水质参数（EC、TH、TDS、pH）对关键指示金属（Zn、Ni、Cu、Pb）浓度的重要预测因子。为每种金属分别构建了RF模型，使用常规参数作为预测因子。变量重要性通过均方误差百分比增加（%IncMSE）来排名。这项分析并非为了高精度预测，而是为了识别可用于筛查的有用低成本指标。数据集包含30个观测值、15个站点和2个季节。数据被随机分为训练集（70%的数据）和测试集（30%的数据）以评估模型在未见数据上的性能。我们使用了500棵自助树，每次分裂时考虑的变量数量（mtry）是通过袋外（OOB）误差估计确定的。每个预测变量根据其重要性进行了排名，重要性以均方误差的百分比变化（%IncMSE）表示。该指标衡量了当变量被置换时模型准确性的下降程度。对于预测Zn、Ni、Cu和Pb浓度的RF模型，测试集R2值在0.47到0.58之间，其中EC和TH基于（%IncMSE）一致被列为最重要的预测因子。

2.3.5 使用多元线性回归进行代理变量开发
在创建实用监测工具时，使用了多元线性回归（MLR），其中总硬度（TH）和电导率（EC）被用作Zn浓度的预测因子。选择这些参数是因为它们有可能成为成本低廉的重金属污染代理指标，因为这些参数是定期测量的。在R版本4.4.3中使用了逐步法（stepwise method）来开发MLR模型，p < 0.05作为包括和/或保留变量的显著性水平。决定系数（R^2）和p值被用来评估模型性能。通过常规的、低成本的测量来估算Zn浓度，得出了相应的方程式，从而实现了分层次的监测方法。

2.4 使用正矩阵分解（PMF）进行源分配
PMF 5.0模型被用来估计和分配各种污染源的贡献（Chen等人，2024）。数学模型如下：
(2) X_{ij} = ∑_{k=1}^{p} G_{ik} × F_{kj} × E_{ij}
(3) Q = ∑_{i=1}^{n} ∑_{j=1}^{m} E_{ij} × U_{ij}
其中X_{ij}表示金属浓度，G_{ik}代表源的贡献，F_{kj}表示金属浓度，E_{ij}表示残差矩阵。不确定性使用以下公式量化：
(4) U_{ij} = \frac{5}{6} × (MDL_{c} ≤ MDL) + δ × (c - MDL)
U_{ij}表示不确定性程度，δ表示误差分数，c表示浓度，MDL表示检测限。为了确保所有拟合系数超过0.7，并且Q_robust与Q_true的比率超过90，仔细评估了模型诊断。
应用PMF模型时遵循了美国环保署（US EPA）的标准。首先，计算了每种金属的信噪比（S/N）。六种金属（Cr、Ni、Cu、Zn、Pb和As）的信噪比很强（S/N > 2.0）。然而，Hg和Cd的信噪比较弱（分别为S/N = 1.8和1.9），它们被归类为“弱”类别，并被赋予了较低的权重3。检查了包含3、4和5个因素的解决方案。选择4因素解决方案的三个主要原因如下：首先，因素剖面在物理意义上是合理的，并且与杰赫勒姆河流域已知的污染源相匹配。其次，模型诊断结果良好：Q_robust/Q_true大于0.90，Q/Q_expected比率接近于最佳值1.0（表S2）。第三，缩放后的残差随机分布，没有明显的模式，表明模型拟合良好。进行了20次自助法运行以了解答案的稳定性。一致性很高：所有元素都符合基础解决方案，且没有超过10%的因素贡献不明显。这些发现表明所选的四个因素的解决方案既可解释又稳定。

2.5 健康风险评估
评估了水中金属引起的非癌症健康危害（HQs）和癌症危害（CR）。HQ是衡量通过摄入或皮肤接触暴露于污染物风险的无量纲指标。危害指数（HI）提供了所有重金属非癌症风险的累积度量。HQ或HI值大于1表示可能对人类健康构成风险，小于1则表示风险可以忽略不计。对于这项研究，基于成人儿童的口服摄入（HQ_ingestion）和从地表水中的皮肤吸收（HQ_dermal）计算了HQ值。这些预测有助于评估水源的安全性以及重金属水平是否可能对人类，特别是对弱势群体（如儿童）构成风险（Eid等人，2024；Emmanuel等人，2022）。使用以下公式进行健康风险评估：
(5) HQ_ingestion = C_w × I_RW × E_F × E_DBW × A_T × R_f × 10^3
(6) HQ_dermal = C_w × S_A × K_p × E_T × E_V × E_DBW × A_T × R_f × G_IABS × 10^6
(7) HI = ∑ HQ_ingestion + HQ_dermal

致癌风险（CR）指的是由于长期暴露于化学污染物（通常超过70年）而导致的致癌概率。如果某个地点的累积风险大于10^-4，则建议采取行动。当累积风险在10^-6到10^-4之间时，需要采取补救措施。对于综合癌症风险<10^-6的污染物，通常不需要制定基于风险的清理目标。
(8) CR_ingestion = C_w × I_FW × C_SFoAT × 10^3
(9) CR_dermal = C_w × K_p × 0.001 × E_event × DFW × C_SFoAT × G_IABS × 10^3
TCR = CR_ingestion + CR_dermal
参数的分类见表S2。这些计算中使用的RfD和SF见表S3。

3. 结果与讨论
3.1 机器学习整合空间和季节性模式
ML分析应用于在旱季和雨季对15个地点的地表水中的八种重金属（Cr、Ni、Cu、Zn、Pb、Hg、As、Cd）进行测量的综合数据集。表1显示了在无监督算法中使用的基础浓度数据。一般理化水质参数（pH、EC、TDS、TH和主要离子）的季节性变化显示出了明显的季节性。大多数参数在雨季的浓度较低，这与水文稀释一致（表S4）。还存在强烈的季节性稀释效应，金属在雨季的平均值低于旱季。空间分析表明存在相当大的变异性。

表1. 杰赫勒姆河地表水中重金属浓度的描述性统计（mg/L）
| 重金属 | 旱季范围（mg/L） | 旱季平均值±标准差（mg/L） | 雨季范围（mg/L） | 雨季平均值±标准差（mg/L） |
|--------|--------------|------------------|------------------|-------------------|
| Cr | 0.022–0.045 | 0.031 ± 0.005 | 0.015–0.035 | 0.023 ± 0.004 |
| Ni | 0.014–0.030 | 0.020 ± 0.003 | 0.010–0.025 | 0.016 ± 0.002 |
| Cu | 0.018–0.040 | 0.026 ± 0.004 | 0.012–0.032 | 0.021 ± 0.003 |
| Zn | 0.055–0.140 | 0.092 ± 0.015 | 0.040–0.120 | 0.073 ± 0.012 |
| Pb | 0.030–0.080 | 0.051 ± 0.010 | 0.020–0.070 | 0.041 ± 0.008 |
| Hg | 0.0001–0.0005 | 0.0002 | 0.0008–0.0004 | 0.00019 ± 0.0001 |
| As | 0.006–0.020 | 0.0123 ± 0.002 | 0.004–0.015 | 0.0084 ± 0.002 |

PCA双绘图（图3）解释了旱季数据的86.7%的总方差（PC1：68.5%，PC2：18.2%）和雨季数据的84.3%（PC1：66.8%，PC2：17.5%）。需要注意的是，双绘图显示采样站点在PC1上有明显的、有组织的分离，城市工业站点位于正侧，背景站点位于负侧。这一视觉数据支持了原始浓度数据中的季节性稀释效应的发现，即季节性水文是决定水质的主要因素之一（Paudel等人，2024）。向量载荷还按可能的来源对金属进行了聚类。根据（Egbueri和Agbasi，2022c）的分类方案，其中>0.75的载荷被认为是强的，0.50–0.75被认为是中等的，0.30–0.50被认为是弱的。Zn、Pb、Cd、Cu、Cr和Hg呈强正相关，表明它们有共同的人为来源。Ni和As显示出中等载荷模式，表明它们的贡献是混合的（Liu等人，2022b）。完整的载荷矩阵（表S5）定量支持了图3中观察到的模式。在旱季，PC1对Zn（0.85）、Pb（0.82）、Cd（0.80）、Cu（0.78）、Cr（0.76）和Hg（0.75）有较强的正向载荷，这将与城市工业指标相关联。另一方面，EC（0.78）、TDS（0.80）和TH（0.82）在PC2上有较高的正向载荷，这是次级人为影响的指标。在雨季，PC1主要由Zn（0.84）、Pb（0.83）、Cu（0.81）、Hg（0.79）和Cd（0.78）主导，而PC2主要由EC（0.75）、TDS（0.77）和TH（0.79）主导。

下载：下载高分辨率图片（437KB）
下载：下载全尺寸图片

图3. 旱季和雨季的PCA双绘图

K-means聚类算法根据它们的重金属剖面将15个采样地点无监督地分为三个独立的簇（图4），分别对旱季和雨季进行了处理。簇1（S1-S3）被识别为“背景”站点，两个季节的金属浓度一直较低。簇2（S4-S5、S9-S10、S13）被标记为“农业影响”，Ni和Cu有中等程度的升高（Zhang等人，2023）。簇3（S6-S8、S11-S12、S14-S15）被明确识别为“城市工业热点”，Zn、Pb、Cd、Cu和Cr的水平显著升高。在雨季，由于稀释效应，聚类模式相同，但浓度和幅度较小。这种数据驱动的聚类与基础浓度数据中的空间污染模式一致，并为进一步分析源分配奠定了坚实基础。当k = 3时，平均轮廓宽度为0.62，而k = 2时为0.51，k = 4时为0.58。这表明三个簇提供了最明显且分离良好的分组。

下载：下载高分辨率图片（995KB）
下载：下载全尺寸图片

图4. 基于重金属浓度的旱季和雨季K-means聚类

3.2 在机器学习整合背景下的PMF源分配
由于PMF结果与ML模式的整合，它们提供了额外的背景信息。基于稳健的模型诊断选择了四因素解决方案：Q/Q_expected比率为0.94（最接近理想值1.0），Q_robust/Q_true > 0.90，以及高自助法稳定性（96%的映射成功率），详见表2。该解决方案提供了最可解释的源剖面，同时保持了良好的统计性能。PMF确定了杰赫勒姆河地表水中四种主要的重金属来源。全年占主导地位的来源是因素4（旱季：41.15% ± 2.5%，雨季：41.12% ± 2.5%），其特征是Zn、Pb和Cd的高载荷。这一因素归因于城市化、工业活动和车辆排放（Li等人，2024；Ma等人，2024a；Tian等人，2023）。这一PMF因素与K-means中的“城市工业”簇之间的一致性为这一来源分配提供了强有力的证据。重要的是，定义K-means中的“城市工业热点”的金属（Zn、Pb、Cd）也是这一PMF因素中的主要金属，显示出互补的见解。

表2. PMF模型诊断
| 准则 | 三因素解决方案 | 四因素解决方案 | 五因素解决方案 |
|-----------|---------|-----------------|--------------|
| Q/Q_expected | 1.12 | 0.94 | 0.89 |
| Q_robust/Q_true | 0.85 | 0.92 | 0.88 |
| 可解释性 | 中等 | 高 | |
| 过拟合 | 无 | 清晰的源分离 |
| 自助法映射 | 82% | 96% | 88% |
| 基础因素稳定性 | | | |

在旱季，Ni和Cu主导了因素2（37.12% ± 3.0%），反映了农业径流。这与“农业影响”簇一致。来源之间的复杂关系通过地质信号（因素3中的Hg和As）的持续存在以及工业排放（因素1）在雨季作用的增加进一步得到了证明（Baranwal等人，2024；Jaiswal和Kumar，2025）。虽然主成分分析（PMF）和机器学习（ML）能够识别出广泛的污染源群体，但基于个别金属特征，可以对城市-工业因素（第4因子）进行更详细的解读。锌（Zn）和铅（Pb）的高浓度可以归因于城市径流和工业排放的结合。锌的信号表明了轮胎磨损和镀锌腐蚀的存在，而铅则反映了历史沉积物和老旧油漆的影响。镉（Cd）则暗示了城市地区存在工业活动（如电镀、电池制造或化学品生产）。地质生成因素（第3因子，即砷（As）和汞（Hg）反映了喜马拉雅山脉的自然地质特征，然而人类活动（如有机污染和矿渣排放）也可能将这些元素释放到水中。主成分分析的结果得到了无监督聚类的支持，该聚类将具有相似污染特征的站点独立分组。交叉制表量化了K均值聚类和主要PMF因子之间的一致性（表3）。所有位于“城市工业热点”区域的站点都主要受到城市-工业PMF因子的影响。同样，所有背景区域站点也与地质生成因素相符。大多数受农业影响的站点与农业PMF因子相关联，这支持了观测结果与PMF因子之间的定量一致性。这种一致性证明了使用基于数据的整合方法而非定性比较进行主成分分析的有效性。

**表3. K均值聚类结果与主要PMF污染源分配的交叉制表：**

| K均值聚类 | 站点ID | 主要PMF因子（干季） | PMF因子解释 | 背景 |
|---------|---------|-------------|--------------|-------|
| S1 | 因子3 | 地质生成 | | |
| S2 | 因子3 | 地质生成 | | |
| S3 | 因子3 | 地质生成 | | |
| S4 | 因子2 | 农业 | | |
| S5 | 因子2 | 农业 | | |
| S9 | 因子2 | 农业 | | |
| S10 | 因子4 | 城市-工业 | | |
| S13 | 因子2 | 农业 | | |
| 城市工业热点 | S6 | 因子4 | | |
| S7 | 因子4 | 城市-工业 | | |
| S8 | 因子4 | 城市-工业 | | |
| S11 | 因子4 | 城市-工业 | | |
| S12 | 因子4 | 城市-工业 | | |
| S14 | 因子4 | 城市-工业 | | |
| S15 | 因子4 | 城市-工业 | | |

交叉制表显示无监督聚类结果与PMF污染源分配之间有很高的一致性。站点S10是一个例外：在K均值聚类结果中被归类为受农业影响，但实际上它主要与城市-工业PMF因子相关（Li等人，2025年；Ma等人，2024b年）。这表明S10可能是一个过渡性或混合使用的区域，其总体金属成分中镍（Ni）和铜（Cu）的含量较低，但主成分分析显示存在显著的城市-工业点源污染（Bashir等人，2025年；Liu等人，2024年）。这些结果表明，K均值聚类和PMF分析这两种方法可以很好地结合使用：K均值聚类根据站点组成的相似性进行分组，而PMF分析则衡量每种污染源对总污染的贡献程度。S10案例说明了同时使用这两种方法来确定受多种污染源影响的区域的重要性，这对于有针对性的环境管理非常有帮助。

**图5. 水质参数特征重要性分析，用于识别污染指标**

**3.3. 开发具有成本效益的监测替代指标**

本研究的一个重要成果是识别出了可测量的水文和化学参数，这些参数可以作为监测重金属的有效指标，特别是在资源有限的跨境流域管理中。对干季和湿季的数据进行了皮尔逊相关系数分析，相关系数大于0.75的被认为是强相关的，0.50–0.75的为中等相关，小于0.50的为弱相关（Yassin等人，2024年），表S6和S7展示了详细的相关数值。结果显示常规参数（电导率（EC）和总硬度（TH）与重金属（锌（Zn）、铬（Cr）和镍（Ni）之间存在密切关系，相关系数介于0.79到0.83之间）。TH/EC与个别重金属之间的高相关性对于实际监测至关重要。这些相关性可能存在统计学上的原因，但这可能是由于人为过程和基本地球化学过程的共同作用。高浓度的EC和TH通常由导致金属释放的相同过程引起，例如工业和市政污水排放。此外，构成总硬度的Ca2+和Mg2+离子可以通过阳离子交换在颗粒和沉积物上的吸附位点上取代重金属，从而增加水中溶解金属的浓度（Das，2025b；Wojtkowska，2023年）。因此，TH和EC可以用来综合衡量人为因素和地质化学因素对金属迁移的影响。

在跨境流域中，使用ICP-MS对所有八种重金属进行常规分析通常既昂贵又复杂，因为大多数监测机构需要定期执行这项任务。低成本的、标准化的TH和EC测量可以用于预测镍（Ni）、铜（Cu）和锌（Zn）等金属的含量。作为第一步，通过引入多元线性回归（MLR）模型来估计锌的浓度。选择锌作为首个模型是因为其在本研究中的含量较高，并且与TH和EC有很强的关联性（DeForest等人，2023年；Liang等人，2024年；Lv等人，2024年）。该模型具有统计学意义（p<0.001）：

\[Zn(mg/l) = 0.012 + 0.002×TH + 0.001×EC\]

该模型解释了锌浓度65%的变异，表明TH和EC可用于定性筛选和定量预测。这种方法允许采用分层监测策略：首先通过TH/EC筛选确定需要进一步ICP-MS分析的重点区域，从而更高效地利用资源。虽然该模型尚未在其他独立数据集上进行测试，但初步结果显示预测性监测方法是有效的。特征重要性分析表明，EC和TH是预测锌、镍、铜和铅的重要指标（测试集R2：0.58–0.50）。

**3.4. 健康风险评估与管理意义**

**3.4.1. 传统健康风险评估**

使用美国环保署（EPA）的标准方程分别对干季和湿季的致癌风险（CR）以及非致癌危害进行了评估，评估结果以危害商数（HQ）和危害指数（HI）的形式呈现（表S8和S9）。结果显示杰赫勒姆河（Jhelum River）流域内的健康危害存在较大的地理差异（图6A和B）。

**图6.**
6A. 致癌风险空间分布。
6B. 非致癌危害指数。
6C. 使用K均值聚类的风险分级分类。
6D. 基于风险的分级地图。

像砷（As）、铬（Cr）、镍（Ni）和镉（Cd）这样的重金属具有相当的致癌潜力，其空间分布各不相同（图6A）（Shi等人，2023年）。特别是在下游的城市工业区域，采样点数量较多，这些区域的风险超过了10??的阈值，表明可能存在公共卫生问题。非致癌危害对不同人群的脆弱性也有显著差异，儿童的危害指数显著高于成人（图6B）（Ramires等人，2023年；Shetty等人，2024年）。基于机器学习的结果制定了相应的风险分级地图（图6D）。该地图显示癌症及其他疾病的风险超出了安全限值，城市工业区域与高风险区域重合，这有助于有针对性地采取缓解措施，从而有效降低这些区域的癌症和疾病风险。

**3.4.2. 使用机器学习衍生的模式进行空间风险优先级排序**

无监督的机器学习衍生污染模式被用来系统地确定管理行动的优先级。K均值聚类（图6C）在研究区域内识别出三种不同的风险类型：高风险的（城市工业）、中等风险的（混合土地利用）和低风险的（上游地区，人为影响较小）。

**3.4.3. 管理意义与成本效益监测**

特征重要性分析进一步支持了实用监测策略。分析证实，EC和TH是低成本预警系统的优秀水质指标。

**3.5. 局限性与未来展望**

本研究存在一些局限性，这些局限性指出了未来研究的方向。虽然采样设计为双季节设计，可以识别趋势，但无法解释长期内的年际变化。尽管PMF和ML使用了相同的数据，但没有与沉积物金属分析或同位素追踪等独立方法进行外部整合，这限制了研究结果的稳健性和其在更广泛背景下的适用性。虽然本案例中预测指标（TH和EC）具有实用性，但应在其他流域进行测试以验证其适用性。未来的研究应包括这些参数的实时传感器网络，以便用于动态监测和预警系统的开发。尽管该框架是为杰赫勒姆河设计的，但它与恒河（Ganges）或湄公河（Mekong）等流域的传统基于主成分分析的研究有所不同，因为它结合了无监督机器学习来进行基于代理的监测，从而能够制定更加适应性和响应性的洪水管理策略，这些策略考虑了每个流域的独特特征，如降雨模式、地形和社会经济因素对洪水风险和响应的影响。

**4. 总结与结论**

本研究提出了一种方法，利用机器学习发现污染原因并评估重金属对人类健康的危害程度。这种跨学科方法超越了单一方法，为数据较少的水域提供了更高效、更易于理解且更实用的水质管理方法。这些主要发现与引言中提到的目标相符：

**4.1. 无监督机器学习模式整合**

无监督机器学习算法为检测和整合污染趋势提供了有效方法。PCA在干季和湿季分别解释了86.7%和84.3%的总体变异，其中锌（Zn）、铅（Pb）、镉（Cd）、铜（Cu）和汞（Hg）在PC1上的载荷显著（0.75–0.85），明确指出了城市工业污染源。K均值聚类将15个采样点客观地分为三个数据驱动的组：背景组、农业影响组和城市工业热点组，为后续分析提供了数据驱动的空间分类。

**4.2. 可信的污染源分配**

在机器学习衍生模式的背景下解释时，主成分分析模型得出了可解释且内部一致的结果。城市化和工业排放（41%）是全年主要的污染源。这一发现得到了K均值聚类分析结果的验证，证明了受体模型和无监督学习的结合提高了污染源分配的合理性。

**4.3. 可操作的监测策略**

该框架通过识别低成本的监测指标，证明了其实用价值。研究发现，易于量化的参数（如EC和TH）是可靠的筛查指标（r>0.35），可用于预测镍（Ni）、铜（Cu）和锌（Zn）等重金属。这一发现对于资源有限的机构尤其重要，因为它允许设计分层监测策略，利用低成本的EC和TH测量来快速筛查需要深入分析的区域。

**4.4. 面向风险的管理**

结合健康风险评估和空间模式，通过机器学习实现了风险的优先级排序。研究发现，城市工业区域的致癌性和非致癌性风险显著升高，尤其是儿童暴露于砷（As）和铬（Cr）的情况下。通过减少工业废物和改善这些区域的城市污水处理，管理者可以更有效地利用清理资源。

总体而言，本研究提出了一个可以应用于其他数据不足的河流系统的框架，尽管需要根据具体地点进行调整。该框架还为数据资源有限的跨境流域提供了结构化的管理方法。数据驱动的污染源识别有助于跨境对话，而低成本的代理系统则实现了资源分配更加公平和共享的监测。

**作者贡献声明**

- Muhammad Faisal：撰写、审稿与编辑、原始草稿撰写、可视化、验证、方法论设计、调查、数据分析、概念化。
- Feng Wu：监督、资源提供、项目管理、资金筹集。
- Muhammad Waseem Boota：撰写、审稿与编辑。
- Shan-e-hyder Soomro：撰写、审稿与编辑。
- Muhammad Naeem：可视化。
- Yuzhong Zhang：可视化。

**资金说明**

本研究未获得公共、商业或非营利部门的任何特定资助。

热点排行