《Journal of Environmental Sciences》:Spatial prediction and interactive driving source identification of regional soil arsenic elements based on integrated learning architecture
编辑推荐:
土壤砷污染空间异质性与驱动机制研究:集成机器学习模型揭示自然-人为交互作用对砷分布的影响,发现SILT_RD、NDVI、人口密度等单因子及土壤质地×蒸发量等交互因子主导砷迁移,为精准修复提供科学依据。
王俊磊|彭世奇|李敖|张乃明|鲍莉
中国云南省昆明市云南农业大学资源与环境学院,邮编650201
摘要
土壤重金属污染是一个全球性的环境挑战,对生态系统和公共健康都构成威胁。其空间异质性和多因素驱动机制为空间预测和来源分配带来了重大障碍。我们整合了多种机器学习模型和多源环境数据,揭示了目标区域内土壤中砷(As)污染的空间异质性和交互驱动机制。结果表明,砷浓度(7.997–13.8 mg/kg)存在显著的空间变化,高浓度区域集中在中北部地区。尽管整体生态风险较低,但仍识别出局部砷-锑(As-Sb)共污染风险区。对多种预测模型的比较评估显示,基于集成树的方法具有最高的准确性和稳定性,显著优于传统的线性方法(R2提升超过0.25)。纳入复杂非线性关系(交互特征)显著提高了预测性能。特征重要性分析表明,淤泥密度×道路密度(SILT_RD)、归一化植被指数(NDVI)、人口密度(PD)、坡度(SLOP)和蒸散量×黏土(ET_CLAY)是最具影响力的因素,这表明自然变量在控制重金属迁移和再分布方面起着关键作用,而工业、交通和农业活动等人造因素则是重要的污染源。值得注意的是,诸如降水量×黏土(降水×黏土)、有机物×蒸散量(有机物×蒸散量)等交互效应的得分超过0.43,强调了土壤性质、水文特征和人类活动在塑造土壤重金属空间分布中的重要作用。本研究为土壤重金属污染的预测和管理提供了科学依据。
引言
土壤中的潜在有毒元素(PTEs)是具有高毒性、生物累积性和抗降解性的持久性污染物(Clemente等人,2025年;Hao等人,2025年)。这些元素的过度积累会破坏土壤结构,降低土壤功能,从而减少作物产量和质量(Mohamoud等人,2025年;Stefania等人,2025年)。此外,PTEs可通过吸入、摄入或食物链传递进入人体,对人类健康构成严重风险(Ran?elovi?等人,2025年;Zhang等人,2025年)。近年来,随着社会经济活动的快速发展,PTEs在工业、采矿和农业生产系统中广泛扩散和富集(Wang等人,2025a;Xu等人,2025a),显著增加了土壤污染的潜在风险。因此,这一问题已成为全球环境关注的重点(Kazapoe等人,2025年;Yang等人,2025a)。在这些元素中,砷(As)因其极高的毒性、强致癌性和高致死性而被认为是典型的土壤PTE(Siddig等人,2025年;Xu等人,2025b)。
目前,关于土壤金属元素环境风险的研究主要集中在总浓度分析上(Luo等人,2025年;Qi等人,2025年;Sun等人,2025年),而对其特定化学形态的研究相对较少。然而,不同形态金属的环境风险差异很大(Li等人,2022a,2024a;Liu等人,2024年)。此外,不同金属物种之间的转化受多种因素影响,它们相对比例的变化可能导致迁移模式和环境行为的显著差异(Deng等人,2025年;Fan等人,2023年)。例如,在土壤环境中,可交换部分和水溶性部分通常具有较高的迁移性,而残余部分则通常更难移动(Gabarrón等人,2018年;Jia等人,2021年)。通过阐明驱动土壤金属形态转化的关键调控因素,可以设计有针对性的控制策略,提高稳定效率,准确评估生物可利用性风险,并为受污染土壤的精准修复提供科学依据。
关于土壤重金属空间分布的研究通常基于特定区域的土壤采样数据(即点态浓度测量),并结合地统计技术如逆距离加权法和普通克里金法,以及受体模型(Guo等人,2022年;Lei等人,2022年)。这些方法用于估计和预测重金属的区域分布模式,并评估潜在污染源(Qu等人,2024年;Wu等人,2025年;Zhou等人,2024年)。然而,传统方法在很大程度上依赖于现有采样数据来估计未采样区域的浓度。它们的预测准确性常常受到空间异质性和复杂非线性关系的限制(Bi等人,2024年;Xu等人,2024年),并且在整合多种环境因素(如温度、人口密度、海拔)对重金属分布的综合影响方面能力有限(Huang等人,2022年;Zhang等人,2020年;Zhao等人,2023年)。
为克服这些限制,近年来越来越多地应用机器学习技术进行土壤重金属的空间预测和来源分配。机器学习算法能够捕捉变量之间的复杂非线性关系,揭示潜在模式,从而显著提高预测准确性,并有助于识别关键污染源和主要影响因素(Ju等人,2025年;Ta?an等人,2024年;Wang等人,2025b)。然而,单个机器学习模型存在某些局限性,如对超参数调整的敏感性、泛化能力有限以及依赖于特定的数据结构(Ma等人,2024年;Yang等人,2025b)。在此背景下,集成学习成为研究热点。其核心概念是结合多个基础学习器的预测结果,以弥补单个模型的不足,从而提高鲁棒性和泛化能力(Liang等人,2025年;Zhang等人,2025b)。常见的集成策略包括加权平均、投票和堆叠,有效利用模型互补性,减少预测误差并提高整体性能(Barkhordari和Qi,2025年;Xu等人,2025c)。在本研究中,我们引入了一组多样化的基础学习器——包括线性模型、树模型和非线性算法——作为比较基准,旨在全面评估它们在土壤重金属空间预测中的优势和局限性。预期这些结果将为模型选择和优化建模策略提供实证依据。
值得注意的是,土壤是一个高度复杂且动态变化的环境系统,其中重金属的积累和形态转化很少由单一独立因素控制。相反,它们受到多种相互作用因素的共同影响,包括土壤性质、植被条件、地形和人为干扰。这些过程的特点是复杂的非线性相互作用,共同决定了重金属的出现、迁移和转化行为。这种相互作用往往难以通过传统的加性或单因素分析方法捕捉。以往的研究主要关注单一环境因素在控制土壤重金属污染的空间分布和来源中的作用(Korkan?等人,2024年;Li等人,2025a),而对这些因素之间的交互效应关注较少。例如,土壤质地与交通活动之间的相互作用会显著影响金属的吸附和再分布(Wang等人,2025c),而水热条件和地形的综合效应可能会加剧重金属的迁移和淋溶(Jarsj?等人,2020年)。重金属的环境行为不是由孤立因素控制的,而是由多种因素之间的协同和非线性相互作用塑造的(Li等人,2024b;Liu等人,2022年;Yan等人,2025年)。探索这些交互机制不仅提供了对污染驱动力的更现实理解,还提高了预测模型的准确性和可解释性,为复杂污染情景下的风险评估和精准修复提供了新的方法论视角。
本研究聚焦于云南省西北部的一个选定区域,以土壤中砷的形态及其主要相关元素为核心研究内容。通过系统的野外采样、实验室分析和数据收集,共获得了98个土壤样本。此外,还将人为因素(如道路密度、人口密度和GDP)与自然因素(包括数字高程模型(DEM)、径流、降水量和温度)相结合。通过结合空间预测、指数分析、形态分析、交互分析和集成学习,本研究超越了传统方法的局限性,发展了一个更加多维和以机制为导向的框架。具体目标是:(1)描述研究区域内土壤金属元素的化学形态和分布模式,并结合区域环境条件,应用集成模型进行空间预测和系统风险评估;(2)基于多源数据和模型输出,识别和量化控制砷富集和形态转化的关键驱动因素和交互特征。本研究旨在为土壤中潜在有毒元素的空间预测、科学来源分配和有效管理提供新的视角和方法论支持,并为中国西南部及其他具有类似复杂地质条件的地区提供可转移的生态风险管理范例。
研究区域概述
研究区域位于中国云南省西北部(图1)。该地区地形特征是西北部海拔较高,东南部海拔较低,周围环绕着玉龙雪山和老君山等高山。海拔范围从1257米到5437米。该地区具有亚热带季风气候,年平均气温为13–20°C,年平均降水量约为1000毫米,其中大部分降水发生在6月。
数据统计与分析
对研究区域内96个土壤样本中的砷(As)和38个样本中的相关元素进行分析(表1)发现,砷、金(Au)、锑(Sb)、钴(Co)、镍(Ni)和钨(W)的平均浓度分别为51.8 mg/kg、14.3 μg/kg、7.9 mg/kg、27.0 mg/kg和8.5 mg/kg。其中,砷的浓度范围较广(3.31–366.0 mg/kg),中位数为28.0 mg/kg,约37.5%的样本超过了农业土壤的国家筛选阈值,表明存在局部砷污染。
结论
本研究系统地阐明了土壤砷污染的空间异质性、驱动机制和生态风险。就污染水平而言,研究区域内的砷总体浓度相对较低,但识别出局部高风险区域,需要采取有针对性的管理措施。相关性和形态分析表明,砷、锑和钨之间存在显著的地球化学关联,表明它们可能与采矿活动有关。
作者贡献声明
本手稿由所有作者共同撰写。王俊磊:撰写初稿、数据分析、软件处理。彭世奇:数据整理。李敖:数据可视化。张乃明:资金筹集、项目管理、资源协调、审稿。鲍莉:资金筹集、监督、资源协调。所有作者均已批准手稿的最终版本。
作者贡献声明
王俊磊:撰写初稿、数据可视化、验证、软件开发、概念构建。彭世奇:数据整理。李敖:概念构建。张乃明:项目管理、资金筹集。鲍莉:撰写与编辑、项目管理、资金筹集。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究工作。
致谢
本研究得到了国家自然科学基金-云南省联合基金(编号U2002210)和云南省科技创新人才与平台计划(编号202405AM340004)以及云南省化污土壤修复与安全利用野外科学观测研究站的资助。所有作者感谢云南农业大学的鲍莉副教授的支持。