在水环境敏感地区推动城市再生水利用发展的关键因素:基于双重机器学习和因果森林的耦合因果推断

《Journal of Hydrology》:Driving factors of urban reclaimed water development in water-environment-sensitive regions: Coupled causal inference with double machine learning and causal forest

【字体: 时间:2026年05月10日 来源:Journal of Hydrology 6.3

编辑推荐:

  王传义 | 吴风平 | 史向增 | 杨文通 | 刘新宇 江南大学商学院,中国江苏省南京市江宁区富城西路8号,211100 **摘要** 在全球水资源短缺和生态压力下,再生水已成为提高用水效率和缓解水资源压力的关键途径。然而,其因果机制和异质性响应仍需进一步探索。本研

  王传义 | 吴风平 | 史向增 | 杨文通 | 刘新宇
江南大学商学院,中国江苏省南京市江宁区富城西路8号,211100

**摘要**
在全球水资源短缺和生态压力下,再生水已成为提高用水效率和缓解水资源压力的关键途径。然而,其因果机制和异质性响应仍需进一步探索。本研究开发了一个六维指标体系,并提出了一个结合双重机器学习与因果森林框架的模型,通过嵌入城市和年份固定效应来控制不可观察的异质性,从而增强因果推断的稳健性。以京津冀城市群为例,研究identified了九个核心驱动因素,包括再生水投资、人均可支配收入、管道长度和水行业就业人数,这表明基础设施条件和社会经济背景的重要性。不同城市之间的响应特征明显:资源主导型城市表现出边际收益递减的趋势,而边缘城市则具有后发优势。发展效应还揭示了“高效窗口”之后的“衰减阶段”,这可能与政策时机和城市发展阶段有关。这些发现为制定差异化的、动态的再生水策略提供了方法论创新和实践指导。

**引言**
随着水资源短缺加剧和水污染问题恶化,促进城市再生水发展已成为实现水资源循环利用和可持续发展的关键途径(Kalantari等人,2019年;Xu等人,2025a年,2025b年)。特别是在水环境敏感地区,再生水不仅在缓解供需不平衡方面发挥着关键作用,还为绿色转型、促进水公平和实现循环经济做出了贡献(Abenza等人,2024年;Feldman,2017年)。通过在城市群内建立高效和协调的再生水发展机制,可以实现区域资源共享和生态共建(Chen等人,2025年),同时为应对气候变化和实现联合国可持续发展目标(SDG 6)提供有力支持(Liu等人,2025a年,2025b年)。因此,探索城市群中再生水发展的驱动机制并构建科学合理的识别框架已成为当代城市治理和资源管理的关键研究方向(Abenza等人,2024年)。

当前关于再生水的研究主要集中在发展潜力评估、资源配置效率和政策实施效果上(Jin等人,2025年;Villacorta-Ranera等人,2025年;Xu等人,2025a年,2025b年)。构建综合评估系统以描述不同地区的资源可用性与经济发展需求之间的不平衡具有重要意义(Liu等人,2025a年,2025b年)。例如,Li等人(2020年)建立了一个以再生水供需关系为中心的系统动态模型,并设计了再生水-自来水-社会经济系统的耦合模型来评估综合发展能力。Chen等人(2017年)进一步表明,再生水发展水平与传统水资源状况和社会经济发展密切相关。此外,在评估城市再生水发展时,公共和社会因素是不可忽视的关键维度(Ramm & Smol,2024年)。Rezaei等人(2019年)在评估城市再生水系统管理能力时强调了经济、环境和社会维度全面可持续性的必要性。Fu等人(2023年)考虑了再生水发展对社会、经济和生态的影响,提出了一个多维度协调和多源资源分配模型。从多维度耦合的角度来看,Li等人(2023年)开发了水-经济-环境-再生水系统的耦合协调模型,为探讨再生水利用如何促进城市综合发展提供了宝贵的见解和参考。总体而言,现有研究为理解再生水发展提供了多维分析框架。

然而,在描述评估系统与城市再生水发展之间的复杂关系时,大多数研究采用基于静态相关性的方法(Kalantari等人,2019年),如主成分分析(PCA)(Xu等人,2024年)、层次分析法(AHP)(Hu等人,2025年)和灰色关联分析(Xu等人,2025a年,2025b年),或以预测为主的机器学习模型,如LSTM和xgboost(Chen等人,2022年;Lundberg等人,2020年)。虽然这些方法有助于性能评估和预测,但Künzel等人(2019年)指出,它们在解释机制和确定因果路径方面存在不足,难以提供指导再生水政策优化的因果证据。此外,许多研究表明,尽管黑盒预测模型具有较高的拟合准确性,但它们解释复杂驱动机制的能力有限,从而限制了其提供可操作因果证据的能力(Athey和Imbens,2017年;Ekanayake等人,2022年)。

为解决这些挑战,近年来越来越多的因果推断方法被引入水资源治理研究,包括差异-in-differences(Chen等人,2025年)、回归不连续性、倾向得分匹配(Emmons等人,2024年)和贝叶斯网络学习(Nadkarni & Shenoy,2001年)。此外,Zhang等人(2024年)提出了一种结合LSTM与因果推断和时频分析的水质预测新框架,而Dai等人(2025年)应用因果网络预测大空间尺度上的短期干旱指数。这些方法在识别政策冲击和估计发展效应方面表现出了较强的解释力(Graham,2025年)。然而,传统的因果推断方法在处理高维异质变量、非线性机制和复杂时空结构时依赖于严格的模型假设和干预设计(Zhao & Song,2026年)。相比之下,将机器学习与因果推断相结合的方法(如双重机器学习(DML)和因果森林)代表了当前因果识别的研究前沿(Zhang等人,2024年)。这些方法在处理高维协变量、检测异质效应和提高模型稳健性方面表现出色,并已在经济学、医学和政策评估中得到广泛应用(Shikalgar等人,2024年;Song等人,2025年;Zhao等人,2025年)。例如,Huang等人(2025年)采用带有正交化残差和交叉拟合的DML有效消除了由协变量选择引起的因果估计偏差;Hoffman & Mast(2019年)应用因果森林灵活捕捉不同城市、时期或个体间的因果效应异质性。在此基础上,Guo等人(2024年)结合DML和因果森林构建了一个新的因果框架,增强了高维非线性建模和个体水平效应识别的能力,特别适用于具有显著政策异质性和复杂高维变量的问题,其中将因果效应纳入决策制定至关重要。Liu等人(2025a年,2025b年)的研究表明,扩展的因果推断特别适合于具有空间和阶段异质性的治理问题,如再生水发展。然而,关于水资源管理的相关研究仍然较少,尤其是在再生水领域(Molina和García-Aróstegui,2023年;Tang等人,2025年)。更重要的是,Ahmad等人(2026年)指出,大多数因果机器学习方法基于观测数据独立同分布的假设,这使得它们难以适应存在时间和区域特定结构 disturbance 的城市面板数据(Adeyeye等人,2025年;Su等人,2024年)。特别是,在历史路径依赖性和政策时机效应的条件下,这些未观察到的因素可能导致估计结果偏差(Li等人,2024年)。

为克服这些限制,Sommervoll和Sommervoll(2019年)将空间固定效应计量经济学模型嵌入机器学习框架中,控制了由区域特征引起的非独立同分布问题,从而提高了对空间聚合偏差的稳健性。类似地,An等人(2025)将残差化技术与具有时空关注机制的机器学习模型结合,用于预测城市空气污染浓度,有效减少了年度特定协变量和时间依赖性的干扰,从而提高了准确性。基于这些见解,本研究将DML与因果森林方法结合,将残差化技术与城市和年份固定效应嵌入因果框架中,以识别城市面板结构中再生水发展的驱动因素。这种方法不仅消除了由时间不变城市特征和年度特定协变量引起的混杂,提高了因果推断的稳健性(Godolphin,2009年),还将因果机器学习的适用范围扩展到复杂的异质性背景,为区域政策评估和异质性响应的识别提供了方法论支持(Zhang等人,2025年)。

本文在三个方面填补了现有研究的空白:
(1)本文以再生水发展为焦点,构建了一个涵盖六个维度的驱动因素指标体系——政治、社会、经济、环境-空间、基础设施和技术创新——系统地描述了再生水发展的多种机制,并为因果推断提供了明确的机制和互补结构。
(2)通过将双重机器学习与因果森林方法相结合,并嵌入带有城市和年份固定效应的残差化机制,本文在面板数据结构下识别了再生水发展的因果驱动因素。该方法可以有效控制不可观察的城市异质性和年度特定协变量,提高因果效应估计的稳健性,并扩展了因果机器学习在再生水研究中的应用范围。
(3)从空间和时间维度出发,本文描绘了城市再生水发展的异质性响应路径,揭示了不同类型城市对关键变量的响应差异以及发展的“时间效应窗口”。这为制定差异化和动态政策提供了理论基础,并增强了因果研究在区域水资源管理中的实际指导和应用价值。

本文的其余部分安排如下:第2节介绍本文的模型。第3节描述案例研究结果。第4节进一步讨论和分析研究发现。第5节提出结论和未来的研究方向。

**研究框架**
为了科学识别水环境敏感地区城市再生水发展的关键机制,本文构建了一个多维驱动因素指标体系,并应用因果推断来识别具有因果效应的变量,从而为实现高质量的区域再生水发展和最佳资源配置提供关键途径。城市再生水系统的发展受到多种因素的相互作用影响。

**平均处理效应:总体因果效应**
为了识别城市再生水发展的主要驱动因素,本研究以再生水利用为结果变量,将19个相关指标视为处理变量。使用双重机器学习(DML)方法,估计了每个指标的平均处理效应(ATE)及其置信区间。

**结果的分类**
我们采用定义1对ATE大小进行分类,并使用置信区间来评估统计显著性。

**稳健性的安慰剂测试**
为了进一步验证模型识别的因果效应的稳健性,本文引入了安慰剂测试作为一种补充分析工具(Castillo等人,2017年)。具体来说,结果变量“城市再生水利用”被替换为一个理论上不应受驱动因素直接影响的变量——“公共图书馆数量”——并应用相同的双重机器学习(DML)和因果森林方法。结果在结论部分呈现。

**基于因果推断和机器学习方法**
本研究系统地识别了与再生水发展相关的关键驱动因素,并以京津冀城市群为例,揭示了发展响应的空间和时间异质性。主要结论如下:
(1)通过将双重机器学习与因果森林方法相结合,识别出了七个具有统计显著或相对较强估计效应的核心因素。

**作者贡献声明**
王传义:撰写——原始草稿、可视化、验证、监督、软件、方法论。
吴风平:撰写——审稿与编辑、资源、项目管理、调查、资金获取、正式分析、数据整理。
史向增:可视化、软件、资源、方法论、调查、正式分析。
杨文通:软件、资源、调查、正式分析、数据整理、概念化。
刘新宇:可视化、验证、监督。

**利益冲突声明**
作者声明没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

**致谢**
本研究得到了国家自然科学基金的支持:水环境敏感区域再生水分配方法研究(项目编号42271303)。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号