在数据匮乏的地区，利用半监督机器学习框架预测城市雨水径流的质量

《Journal of Hydrology》：Prediction of urban stormwater runoff quality in data-deficient areas using a semi-supervised machine learning framework

【字体：大中小】 时间：2026年05月04日 来源：Journal of Hydrology 6.3

编辑推荐：

　　海滨严|David Z. 朱|Mark R. Loewen|文明张|Bert Van Duin|Khizar Mahmood
中国南京河海大学环境学院水循环与水安全国家重点实验室，210098

**摘要**
城市雨水质量建模对于有效的水资源管理至关重要。机器学习（ML）提供了一种强大的工具，可以捕捉降雨、土地利用和污染物行为之间的复杂非线性相互作用，但其性能往往受到有限标记数据的限制，这里标记的数据是指具有观测到的事件平均浓度（EMC）测量的降雨事件。本研究开发了一种半监督随机森林（RF）框架，通过结合标记数据和丰富的未标记数据来提高数据不足的城市流域的雨水质量预测能力，未标记数据指的是那些输入特征可用但缺乏EMC观测值的降雨事件。首先使用来自多个城市流域的不同输入变量和训练数据集构建了三个监督模型（RF-M1、RF-M2和RF-M3），以确定最佳配置。表现最佳的监督模型（RF-M3）整合了多流域数据集和特定流域变量，尽管训练准确性略有下降，但在验证和测试性能上有所提高，显示出更好的泛化能力和减少过拟合现象。然后使用该模型为未标记数据生成伪标签，形成了半监督模型（RF-Semi）的基础。应用于加拿大卡尔加里的四个城市流域的结果表明，RF-Semi在验证和测试数据集中的总悬浮固体（TSS）的Nash–Sutcliffe效率（NSE）值分别为0.85和0.62，在总氮（TN）中分别为0.38和-0.03，在总磷（TP）中分别为0.68和0.62。通过利用丰富的降雨数据来丰富训练空间，半监督框架有效地减少了了对标记样本的依赖，并在研究条件下提高了预测性能。降雨特征始终是最具影响力的预测因子。所提出的方法为数据不足地区的雨水质量预测提供了实用的解决方案，适用于降雨和流域特征相似的其他地区。

**1. 引言**
城市化通过雨水径流向接收水体贡献了大量污染物负荷，对环境和公共健康构成严重威胁（Li等人，2016年）。为了支持排水系统的规划、评估和设计，雨水质量模型在城市水资源管理中发挥着关键作用（Gironás等人，2010年；Liu等人，2013年）。这些模型大致可以分为两类：基于过程的模型，如PCSWMM，它基于物理原理模拟水文和水质过程；以及数据驱动的模型，后者依赖于统计或机器学习（ML）方法从数据中学习复杂关系（Wijesiri等人，2020年）。基于过程的模型可以提供城市径流和污染物传输的详细模拟（Rossman，2010年），但它们需要大量的输入数据——包括气象条件、流域特征和排水系统配置——并且涉及复杂的校准和验证步骤（Fletcher等人，2013年）。对全面校准和验证数据的需求往往限制了它们的应用，尤其是在数据稀缺的城市地区（Chow等人，2012年）。相比之下，机器学习模型因其能够使用较少的输入变量来建模复杂、非线性关系而受到关注（Granata等人，2017年；Ahmed等人，2019年；Behrouz等人，2022年）。由于数据需求较少，这些模型已成为过程驱动模型的简化替代方案，主要依赖于天气、土地利用和水质数据。ML的主要建模目标是建立易于测量的输入变量与特定水质参数之间的预测关系。例如，已经开发出有效的ML模型，使用降雨、径流和土地利用数据来预测雨水出口处的总悬浮固体（TSS）的事件平均浓度（EMC）（Moeini等人，2021年）。当有足够的训练数据时，数据驱动模型可以捕捉环境系统中固有的复杂非线性关系（Xu等人，2020年）。例如，一种机器学习方法利用包含来自大约300个城市流域的5000多个雨水样本的国家雨水质量数据库（NSQD）来预测城市径流中的污染物EMC（Behrouz等人，2022年）。结果表明，机器学习是估计城市流域EMC的强大工具。然而，ML模型的有效性在很大程度上取决于高质量训练数据的可用性（Zhi等人，2021年）。收集雨水质量数据既费力又昂贵，导致大多数城市流域的数据稀缺（McKenzie等人，2013年）。这一限制可能导致ML模型过拟合和泛化能力差（Zhu等人，2022年）。此外，ML模型通常缺乏可解释性和透明度，使得难以理解它们是如何进行预测的以及哪些因素影响了它们的输出（Rudin等人，2019年）。这可能会限制决策者对ML模型的信任和接受度。

半监督机器学习可能是解决城市雨水质量建模中数据稀缺问题的一个有前景的解决方案（van Engelen和Hoos等人，2020年）。半监督学习是一种利用标记数据和未标记数据进行模型训练的机器学习范式（Berthelot等人，2019年）。在这种情况下，标记数据指的是输入特征和相应目标输出都可用的样本，而未标记数据指的是仅观察到输入特征但目标输出缺失的样本。通过利用丰富的未标记数据（如降雨数据）以及少量带有水质观测值的标记样本，半监督学习可以在减少对广泛水质监测需求的同时提高模型性能（Sohn等人，2020年；Van等人，2020年；Wang等人，2024年）。在半监督机器学习框架中，随机森林（RF）算法是一个合适且强大的候选者（Liu等人，2020年）。RF不仅能够在半监督范式下运行，而且对于环境系统中常见的复杂非线性关系也提供了稳健的预测性能（Wang等人，2021年）。此外，RF还提供了关于变量重要性的宝贵见解，有助于识别哪些水文和气象因素（如降雨强度、前期干旱天数）对雨水质量影响最大，从而增强了模型的可解释性（Yang等人，2023年）。与半监督分类不同，将半监督学习应用于回归问题在理论上是非平凡的，因为回归任务不涉及输入空间中的明确类别边界或低密度分离（Chapelle等人，2005年）。在这种情况下，只有在满足某些条件时，未标记数据才有益，例如标记和未标记输入分布之间的近似一致性、输入-输出关系的结构规律性以及对伪标签不确定性的有效控制。否则，滥用伪标签可能会放大模型偏差并恶化回归性能，特别是在分布变化的情况下（Zhou等人，2021年）。因此，不应预先假设半监督回归的有效性，而需要基于理论考虑和数据特征仔细证明。尽管半监督学习已在各个领域成功应用，但其在预测城市流域雨水径流质量方面的应用仍然有限。因此，本研究提出了一种基于随机森林的半监督机器学习框架，用于数据不足地区的城市雨水质量预测。该框架应用于加拿大卡尔加里的四个城市流域，以预测TSS、TN和TP的EMC。除了评估模型在训练、验证和测试数据集上的性能外，我们还分析了降雨特征和流域特征的重要性，以提高模型的可解释性。结果为在数据有限条件下增强模型泛化能力提供了实际见解，并展示了半监督学习在研究流域范围内的潜力。

**2. 研究地点和数据收集**
**2.1. 研究地点**
研究地点包括位于加拿大阿尔伯塔省卡尔加里的四个城市流域，分别是Royal Oak（RO）、Rocky Ridge（RR）、Cranston（CR）和Auburn Bay（AB）流域，如图1所示。卡尔加里处于半干旱、寒冷温带气候区，冬季寒冷，夏季温和至温暖。表1列出了研究区域的流域特征。这四个城市流域具有不同的土地利用和土地覆盖特征。RR和RO相距仅300米，是较小的郊区流域，面积分别为14公顷和15公顷。它们主要由单户住宅区组成，RR占72%，RO占51%。RO稍微多样化一些，包含7.3%的多户住宅区。两个流域都有显著的交通和开放空间组成部分，RR的不透水性水平为48%，RO为51%。土地覆盖类型主要由沥青或混凝土、景观区域和屋顶组成。RR和RR都有一个湿地来接收产生的径流。

**下载：**下载高分辨率图像（437KB）
**下载：**下载全尺寸图像

**图1. 研究地点地图：**
(a) 卡尔加里四个流域的位置（谷歌地图，2023年）；
(b) RR流域；
(c) RO流域；
(d) CR流域；
(e) AB流域。

**表1. 研究区域的流域特征。**
| 流域 | RO | RR | CR | AB |
|------|----|----|----|----|
| 面积（公顷） | 14 | 15 | 11 | 92 | 23 |
| 不透水性（%） | 48 | 51 | 52 | 85 |
| 土地利用（%） | 单户住宅 | 72 | 51 | 58 | 47 |
| 多户住宅 | 0.0 | 7.3 | 3.4 | 3.1 |
| 交通 | 18 | 28 | 19 | 20 |
| 开放空间 | 10 | 14 | 13 | 18 |
| 机构 | 0.0 | 0.0 | 3.7 | 6.1 |
| 商业 | 0.0 | 0.0 | 3.1 | 5.9 |
| 土地覆盖（%） | 道路 | 25 | 37 | 26 | 28 |
| 屋顶 | 23 | 16 | 21 | 23 |
| 景观区域 | 52 | 49 | 51 | 46 |
| 碎石路 | 0.0 | 0 | 0 | 2.2 | 3.3 |

相比之下，CR和AB面积更大且城市化程度更高，相距约1.5公里。CR的面积为119公顷，不透水性为52%，而AB的面积为223公顷，不透水性为58%。两个流域都混合了多种土地利用类型，包括商业、机构和多户住宅区。CR和AB的一个独特特点是存在碎石路，分别占其面积的2%和3%。CR产生的径流流入一个单一的湿地，而AB有一个上游池塘，收集来自69公顷区域的径流，并将其输送到一个更大的湿地，该湿地还接收来自剩余154公顷区域的径流。

**2.2. 野外测量**
在四个研究城市的下游端，设置了雨水池或人工湿地作为终端处理系统，旨在捕获流域内产生的所有地表径流并通过排水网络输送。为了收集水文和水质数据，在这些雨水池和人工湿地的入口处安装了气象站、流量计和自动采样器。野外监测在2018年和2019年的无冰期（5月至10月）进行。气象站包括一个HOBO RX300远程监测站和一个HOBO RG3-M数据记录器（Onset Computer Corp.，美国）。使用翻斗式雨量计测量降雨量，当累计降雨量达到0.2毫米时激活，并每五分钟记录一次数据。流量计和自动采样器在入口处测量流量并收集水样。表2提供了2018年和2019年两年野外项目期间在雨水池和人工湿地入口处使用的设备详细信息。设置包括ISCO 6712自动采样器（Teledyne ISCO，美国），配备了ISCO 750面积流量模块和ISCO 2150面积流量模块。这些流量模块传感器安装在入口管道中，根据管道直径和测量的水深及流速自动计算进流量。

**表2. 2018年和2019年两年野外项目期间在雨水池和人工湿地入口处安装的设备**
| 流域 | 2018年设备数量 | 2019年设备数量 |
|------|------------|------------|
| RR | 11个HOBO RX300自动采样器 | 11个 |
| RO | 11个HOBO RX300自动采样器 | 11个 |
| CR | 11个HOBO RX300自动采样器 | 11个 |
| AB | 11个HOBO RX300自动采样器 | 11个 |

流量计以五分钟为间隔记录流量。ISCO 6712自动采样器配备了24×1升的采样瓶，用于收集水样。水样用于分析悬浮固体和营养物质（氮和磷）浓度。每个自动采样器与ISCO 750 AV流量模块或ISCO 2150流量模块配对使用。考虑到ISCO 6712的最大收集容量，并在径流事件期间优化水质样本体积，使用了三种流量控制配置：低（针对约5毫米至10毫米的降雨事件）、高（针对高达20毫米的降雨事件）和极端（超过20毫米的降雨事件）。通过监测天气和预期降雨量来选择合适的流量控制设置。相应地调整了ISCO 6723单元的触发水位。

对于每次降雨事件，在降雨-径流期间收集了多个等份样本，并将它们合并成一个代表该事件的复合样本。由于等份收集没有覆盖整个水文图（例如，偶尔会错过早期或晚期时段），因此得到的复合样本大约捕获了75%的事件径流量。为了保持样本质量，复合样本瓶在收集后一天内冷却并送往实验室。在RR、RO、CR和AB流域分别记录了15次、13次、18次和11次事件，总共57次事件。表3总结了在四个流域监测的雨水事件中，TSS（总悬浮固体）、TN（总氮）和TP（总磷）的EMC（化学浓度）的统计信息。表3. 在四个流域监测的雨水事件中，TSS、TN和TP的EMC的统计信息。
统计指标 | TSS (mg/L) | TN (mg/L) | TP (mg/L)
--- | --- | --- | ---
最小值 | 110.4 | 10.0 | 3.7
最大值 | 593 | 33.7 | 40.6
中位数 | 115 | 13.2 | 10.1
平均值 | 143 | 15.1 | 10.2
标准差 | 138 | 0.75 | 0.16
变异系数 | 0.96 | 0.50 | 0.77

3. 半监督机器学习框架
3.1. 半监督回归的理论依据和前提条件
与分类任务不同，回归问题不涉及明确的类别边界或低密度分离，因此半监督学习（SSL）在回归中的适用性并不是预先保证的。尽管如此，先前的研究表明，当未标记的数据提供了关于输入空间结构的信息而不是类别标签时，SSL在回归中具有理论意义（Xu等人，2021年）。特别是，半监督回归依赖于局部平滑性的假设，即具有相似输入特征的样本倾向于产生相似的响应值，这使得数据密集区域中的未标记数据能够约束回归函数并指导更平滑的插值（Zhou等人，2021年）。在这种情况下，未标记样本可以帮助揭示预测因子的潜在结构规律性，并减少模型方差，从而提高泛化性能，这已在关于半监督回归和工业过程建模的现有研究中讨论过。
基于上述理由，半监督回归的有效性取决于几个前提条件。首先，标记和未标记样本应大致来自相同的输入分布；否则，伪标记可能会在分布偏移下引入系统偏差。其次，标记样本应合理代表输入空间中的主导模式，确保回归函数基于可靠的真实信息。第三，当采用伪标记策略时，需要明确的质量控制，因为回归模型可能表现出有限的不确定性校准，不准确的伪标记在重新训练期间可能会被放大。这些前提条件定义了半监督回归在理论上得到证明的条件，并激发了本研究中随后对数据适用性的评估。
半监督学习通常从一个小标记数据集开始训练一个基础模型，然后使用该模型为未标记数据分配伪标签。这些伪标记样本被重新加入训练过程，使模型能够从更全面的数据分布表示中学习。本研究提出了一个半监督机器学习框架，如图2所示，用于数据不足地区的雨水质量预测。该框架结合了降雨和流域特征以及有限的水质观测数据来构建多个监督模型。选择表现最佳的监督模型（RF-M3）来为未标记数据生成伪标签。然后这些伪标记样本被纳入重新训练过程，形成最终的半监督模型。整个框架包括以下步骤：（1）使用不同的输入特征和数据集组合构建监督模型；（2）基于最佳监督模型生成未标记样本的伪标签；（3）使用标记和伪标记数据进行重新训练，以开发最终的半监督模型。以下各部分详细介绍了每个步骤，以确保对研究方法和途径的全面理解。
下载：下载高分辨率图像（289KB）
下载：下载全尺寸图像
图2. 半监督机器学习框架图

3.2. 数据适用性评估
3.2.1. 标记样本和未标记样本之间的输入分布一致性
半监督回归的一个基本前提是，标记样本和未标记样本来自相似的输入特征分布。如果两个数据集之间存在显著的分布差异，伪标记可能会引入系统偏差并扭曲学习到的回归函数。因此，在应用半监督学习之前，明确评估了标记样本和未标记降雨事件之间的输入分布一致性。
在本研究中，采用了Kolmogorov–Smirnov（K–S）检验来检查每个与降雨相关的输入变量，标记样本和未标记样本是否遵循相似的分布。K–S检验是一种非参数方法，比较两个样本的经验累积分布函数，并对分布的位置和形状差异敏感。这使其特别适用于水文变量，因为水文变量通常表现出偏斜、重尾或非高斯特性。
对于七个降雨变量中的每一个，都应用了K–S检验来评估标记样本和未标记样本来自相同潜在分布的零假设。这种逐变量比较为评估标记数据集和未标记数据集之间的潜在协变量偏移提供了定量基础，这是随后应用半监督回归的关键考虑因素。

3.2.2. 输入空间结构和降雨类型特征
除了边际分布一致性之外，半监督回归的有效性还取决于输入特征空间中是否存在有意义的结构规律性。虽然回归问题不涉及明确的类别标签，但半监督学习隐含地依赖于一种放宽的聚类假设，即输入空间中接近的样本预计会产生相似的响应值或有限的输出变异性。在这种假设下，位于与标记样本相同高密度区域内的未标记样本可以提供有关输入空间几何形状的有用信息，并支持回归函数的更平滑插值。
为了检查这种结构的存在，首先对标准化的降雨变量进行了主成分分析（PCA），以降低维度同时保留数据中的主要方差模式。PCA使得可以在低维空间中可视化数据分布，并有助于识别降雨事件之间的潜在分组行为。基于PCA转换的特征，随后进行了k均值聚类，将降雨事件划分为具有相似输入特征的有限数量的簇。
进行这种分析的理由是，如果降雨事件可以在输入空间中被划分为具有连贯水文特征的簇，并且如果这些簇对应于相对同质的响应行为，那么半监督回归所需的局部平滑性假设就更有可能成立。在这种情况下，未标记样本有助于划定这些簇的边界和内部结构，在数据密集区域为回归表面提供额外的约束。因此，基于PCA的可视化结合k均值聚类提供了一种实用的方法，用于评估输入空间结构是否支持在回归背景下使用半监督学习。

3.3. 使用不同输入特征和数据集组合开发监督模型
为了便于理解建模过程，图3提供了本研究中采用的数据集结构、输入-输出变量、模型配置和训练工作流程的全面概述。它从作为数据源的四个流域（CR、AB、RO和RR）开始，并将输入变量分类为降雨和流域特征，以TSS、TN和TP的EMC作为预测目标。基于逐步包含不同的变量组，构建了三个监督模型——RF-M1、RF-M2和RF-M3。然后对这些模型进行了超参数调整、训练和评估。该图还展示了未标记数据集在半监督RF-Semi模型开发中的整合。
下载：下载高分辨率图像（315KB）
下载：下载全尺寸图像
图3. 提出的监督和半监督RF模型框架

3.3.1. 基础模型的选择：随机森林
所提出的半监督学习框架是模型不可知的，可以适应多种机器学习算法。在本研究中，我们选择了RF算法作为监督学习和半监督学习阶段的基础模型。RF表现出对抗过拟合的韧性，这是机器学习模型中的一个常见缺陷，尤其是在数据集有限的情况下（Díaz-Uriarte和De Andrés，2006年）。过拟合可能导致模型在训练数据上表现良好，但在测试数据上失败。RF的结构涉及自助法数据和构建多个决策树，可以避免这个问题，确保强大的泛化能力。城市雨水数据集通常由于不同特征之间的各种相互作用而表现出非线性关系。RF模型可以利用现有数据并捕捉输入和输出数据之间的复杂非线性关系（Boulesteix等人，2012年）。尽管RF是一个机器学习模型，但它可以提供变量重要性的洞察（Gr?mping，2015年）。这种可解释性对于理解哪些因素最显著影响雨水质量预测非常重要。

3.3.2. 输入特征的选择
选择输入变量是开发有效机器学习模型的关键步骤。降雨和流域特征是影响EMC预测的最重要因素（Behrouz等人，2022年）。在本研究中，考虑的降雨特征包括：前驱干旱天数（ADD）、总降雨量（RT）、平均降雨强度（RI-avg）、降雨持续时间（RD）、最大降雨强度（RI-max）、降雨强度达到峰值的时间（T-peak）以及最初30分钟的总降雨量（RT-30）。流域特征主要是分类变量，突出了流域的物理和人为属性。它们包括流域面积（CA）、不透水性（Imp）以及详细的土地利用和覆盖类别。土地利用包括单户住宅（SFR）、多户住宅（MFR）、商业（CO）、机构（IN）、开放空间（OS）和交通（TR）。土地覆盖包括道路（Road）、屋顶（Roof）、景观（LS）和砾石（Gravel）。
本研究使用了从加拿大阿尔伯塔省卡尔加里市的四个城市流域收集的标记样本，如第2.2节所述。每个标记样本包括一组降雨特征和三种污染物的EMC：TSS、TN和TP。这些标记数据用于训练和评估监督随机森林模型的性能。

3.3.3. 监督模型设计
为了系统地评估数据组成和特征集对模型性能的影响，我们设计了三个不同的监督RF模型。这些模型（RF-M1、RF-M2和RF-M3）的配置和具体目标在表4中进行了总结。
表4. 监督RF模型的配置和目的
模型名称 | 输入特征 | 训练数据 | 主要设计目的
--- | --- | --- | ---
RF-M1 | 降雨特征 | 来自Cranston流域的所有标记数据（最受监测的站点） | 作为基线模型，仅使用来自单个流域的降雨数据建立预测能力。
RF-M2 | 降雨特征 | 来自所有四个流域的标记样本 | 评估增加降雨数据的量和多样性（多流域）是否改善了模型的泛化能力，而不添加流域特征。
RF-M3 | 降雨 + 流域特征 | 来自所有四个流域的标记样本 | 评估包含流域特征是否增强了模型在不同站点的泛化能力和预测能力。
所有三个模型都仅在标记数据上进行训练——即具有相应观测EMC的降雨事件。逐步增加数据（跨站点）和更多特征（流域特征）可以评估模型复杂性和泛化能力的发展。在这一步中确定的最佳表现监督模型（RF-M3）作为后续半监督学习框架中的基础学习器。

3.3.4. 监督模型训练和评估
2019年的数据集被选为训练和验证的主要数据集，因为它包含更多的降雨事件及其相应的观测数据，这对于稳定训练和验证数据驱动的模型（如随机森林）至关重要。此外，本研究的建模目标是事件平均浓度（EMC），代表事件尺度的水质响应，而不是具有强时间记忆的连续过程。因此，预计2018年和2019年之间的潜在年际遗留效应对基于单个事件的预测影响有限。此外，对降雨特征的检查表明，2018年和2019年的整体降雨条件是可比的，支持使用2018年的数据集作为独立测试集。
对于每个RF模型，考虑了三个关键超参数：树的数量（NumTrees）、每棵树的最大分裂次数（MaxNumSplits）和最小叶大小（MinLeafSize）。这些参数对模型复杂性、泛化能力和计算效率有重要影响（Tyralis等人，2019年）。具体来说，NumTrees控制集合中决策树的总数，影响模型的鲁棒性和方差减少能力（Probst和Boulesteix，2017年）。MaxNumSplits决定了每棵树允许的最大二分次数，控制其深度和捕捉复杂模式的能力。MinLeafSize设置了形成终端叶节点所需的最小观测数量，从而影响过拟合风险和模型的可解释性。
为了确定最佳超参数组合，在2019年数据集上使用了遗传算法（GA）结合5折交叉验证。在这种设置中，GA迭代搜索超参数空间，每个候选解决方案使用五折的平均均方根误差（RMSE）进行评估。这种策略通过结合性能指标和进化优化机制来平衡预测准确性和过拟合控制（Yang等人，2023年）。
一旦确定了最佳超参数，就使用整个2019年数据集重新训练了RF模型。对于模型验证，数据集被随机分为训练集（80%）和验证集（20%）。在训练之后，模型使用了一个独立的2018年测试集进行了评估，该测试集在训练和验证过程中均未使用。这一步骤对于评估模型在之前未见数据上的泛化性能至关重要。模型性能通过两个广泛接受的指标进行了定量评估：RMSE，它反映了预测误差的平均幅度；以及Nash–Sutcliffe效率（NSE），它表示模型解释的观测数据中方差的比例，接近1的值表示更高的预测能力。表现最佳的监督模型（RF-M3）将被用作半监督学习模型的基础模型。

3.4. 伪标记数据的生成
半监督学习的成功取决于伪标记的准确性（Lee等人，2013年）。选择高置信度的伪标记作为训练目标有助于确保模型从正确的预测中学习，而不是从不确定的预测中学习（Zhou，2021年）。在像随机森林这样的集成方法中，不同模型之间的预测方差可以作为置信度的指标（Sohn等人，2020年）。在这项研究中，我们采用了一种基于集成的方法来选择高置信度的伪标记。具体来说，我们通过稍微调整超参数——即树的数量、最大深度和最小叶大小——在它们的最优值周围的一个指定范围内，生成了一个由27个RF模型组成的集成。集成中的每个模型独立预测未标记样本的污染物浓度。为了评估这些模型之间的一致性水平，我们计算了每个未标记样本的集成预测的变异系数（CV）。CV量化了预测的相对分散程度，并作为置信度的代理：较低的CV值表示集成模型之间有更高的置信度和一致性。根据这一标准，仅对未标记的数据集计算CV，CV值低于定义阈值的样本被选为高置信度的伪标记数据。然后使用所有集成模型对每个选定样本的平均预测值作为其伪标记。这些伪标记样本随后与原始标记数据集结合，形成了一个丰富的训练集，为训练最终的半监督模型提供了基础。

3.5. 半监督模型的训练
如3.2节所述，生成了高置信度的伪标记数据后，这些伪标记样本与原始标记数据集结合，形成了一个丰富的训练数据集。半监督模型是基于从RF-M1到RF-M3中根据验证性能选出的表现最佳的监督模型构建的。半监督模型的训练和验证过程遵循与监督模型相同的程序，其中保留了验证集以监控模型的稳定性，并确保包含伪标记样本不会导致过拟合或性能下降，这是基于自我训练的半监督学习中的常见做法。为了确保性能提升是由于加入了伪标记数据而不是进一步的模型调整，半监督模型使用与最佳RF模型相同的超参数进行训练。这种策略隔离了数据丰富化对模型泛化的影响，并提供了监督框架和半监督框架之间的公平比较。此外，保持一致的模型设置有助于可重复性，并突出了所提出的半监督学习方法在数据不足条件下的鲁棒性。然后使用独立的2018年数据集评估了半监督模型的性能，该数据集作为测试集。评估指标包括RMSE和NSE，与监督模型中使用的评估方法一致。监督模型和半监督模型之间的比较有助于评估伪标记数据在数据有限情况下提升模型性能的附加价值。

4. 结果与讨论
4.1. 监督RF模型的性能
为了评估不同监督随机森林模型在预测总悬浮固体（TSS）、总氮（TN）和总磷（TP）事件平均浓度（EMCs）方面的准确性，图4和图5分别显示了RF-M1、RF-M2和RF-M3模型的Nash-Sutcliffe效率（NSE）和RMSE值。

对于TSS预测，RF-M1模型在训练期间获得了较高的NSE（0.90），表明其拟合能力很强（图4）。然而，在测试期间其NSE急剧下降到-0.76，相应的RMSE上升至127 mg/L，表明由于输入特征有限而发生了严重的过拟合。RF-M2模型包括了额外的降雨相关变量，在训练期间NSE有所降低（0.88），但测试性能显著改善（NSE = 0.37，RMSE = 88 mg/L），显示出更好的泛化和稳定性。RF-M3模型进一步结合了流域特征，在测试中获得了最佳的整体性能（NSE = 0.55，RMSE = 75 mg/L），反映了流域异质性在预测TSS水平中的重要性。TN预测对所有模型来说仍然具有挑战性。RF-M1的NSE从0.90（训练期间）急剧下降到-1.81（测试期间），表明模型未能在新数据中捕捉到TN的模式。RF-M2和RF-M3的测试NSE没有显著改善（分别为-0.21和-0.30），尽管RMSE值有所下降。这表明城市径流中的TN浓度可能受到高度变化或未观察到的因素（例如，微生物活动、肥料残留物）的影响，使得使用现有输入难以建模。所有三个模型在TP方面的表现都相对较好。RF-M1在训练期间获得了最高的NSE（0.91），但其测试NSE（0.54）仍然表明了可接受的泛化能力。RF-M2在训练期间的性能略有下降，但在测试期间NSE降低（NSE = 0.21）。RF-M3再次改善了测试性能（NSE = 0.46），并且RMSE最低（0.13 mg/L），表明流域级别的信息在改进TP预测中也起着重要作用。由于RF-M1是使用单个流域的降雨数据进行训练和验证的，导致其验证数据集有限且代表性不足，因此它被排除在最终模型选择之外。因此，只有使用多流域数据开发的RF-M2和RF-M3被视为候选基础模型。从验证结果来看，RF-M3在TSS和TP预测方面优于RF-M2，而两种模型在TN预测方面的预测能力都有限，表明使用现有输入很难对TN进行建模。除了验证性能外，测试结果还一致显示RF-M3在所有水质变量上的性能优于RF-M2。综合这些结果表明，RF-M3在验证准确性和整体泛化性能之间提供了更好的平衡，因此被选为后续半监督框架的基础监督模型。

4.2. 半监督学习的数据适用性评估
4.2.1. 标记样本和未标记样本之间的输入分布一致性
图6展示了标记样本和未标记样本的七个降雨变量的边际分布，表5总结了相应的双样本Kolmogorov–Smirnov（K–S）测试结果。总体而言，标记样本和未标记样本的分布在大多数降雨描述符上都有相当大的重叠，特别是在低到中等值范围内，大多数事件都集中在这个范围内。这表明两个数据集在输入特征空间上具有相似的特征。与这一视觉观察结果一致，K–S测试显示大多数变量（包括RD、RI-max、RI-avg、RT-30和T-peak）没有统计学上的显著差异（α = 0.01），表明标记样本和未标记样本主要来自相似的输入分布。

除了统计证据外，标记样本和未标记样本之间的一致性还得到了它们共同数据来源的支持。两个数据集都是在同一水文时期（2018–2019年）收集的，因此对应于相似的气候和降雨条件。因此，预计两个数据集在输入特征空间中具有相似的潜在分布特征。相比之下，来自不同水文年份或明显不同气候条件的降雨事件通常表现出明显的分布变化，这可能会大幅扩展数据空间并引入噪声而不是信息结构。本研究中的可比数据来源为观察到的输入分布一致性提供了额外的物理基础。

4.2.2. 输入空间结构和降雨类型特征
按照3.2节中描述的程序，对降雨变量应用了PCA和K-means聚类，以检查输入特征空间是否具有聚集结构。PCA结果表明，RD、RI-avg和ADD是与雨水质量变化最相关的降雨描述符，因此选择了这些变量来表示简化的特征空间。如图7所示，降雨事件可以根据RD、RI-avg和ADD在简化的特征空间中一致地分为四种不同的降雨类型（类型I–IV），表明不同事件组之间存在明显的分离。

4.2.3. 伪标记样本的选择
伪标记策略旨在利用监督模型对未标记数据的高置信度预测作为补充标记样本，从而增强模型在数据不足情况下的学习能力。为了确保只包含可靠的预测，变异系数（CV）被用作伪标记选择的关键标准。如图8所示，计算了27个RF-M3模型集成中每个降雨事件的CV。CV反映了每个事件预测浓度（TSS、TN和TP）的相对变异性，较低的CV值表示模型之间的一致性更高，因此对预测的信心也更高。在所有三个参数中，CV值低于相应阈值的样本被保留下来。应用基于CV的过滤标准后，65个伪标记样本中有55个被保留。这些保留的伪标记样本随后与标记数据结合，用于训练RF-Semi模型。这一高保留率（85%）表明，集成RF-M3模型对未标记数据的预测相对一致。这些保留的样本随后被整合到训练数据集中，以构建半监督模型（RF-Semi），目的是通过学习观察到的和可靠推断的数据来提高泛化性能。这种基于CV的过滤方法为伪标记选择提供了一种透明且可量化的方法，有助于减少引入可能降低模型性能的噪声或不确定标签的风险。

4.3 半监督RF模型的性能
为了评估引入伪标记的好处，将半监督随机森林模型（RF-Semi）的性能与监督模型在三个关键水质参数（TSS、TN和TP）上进行了比较。模型性能在训练集、验证集和测试集上进行了评估，如图5和图6所示。
对于TSS，RF-Semi模型的性能显著优于所有监督模型。它在测试集上获得了最高的NSE值0.62（图5a），明显优于RF-M1（-0.76）、RF-M2（0.37）和RF-M3（0.55）。此外，TSS测试的RMSE降低到了69 mg/L（图6a），是所有模型中最低的。这表明该模型具有更强的预测能力和对未见事件的泛化能力。这种性能提升可以归因于模型能够结合伪标记的降雨事件并做出一致的预测，从而有效地丰富了学习数据集，而无需新的真实标签。如图9a中的事件时间序列所示，RF-Semi更紧密地跟随观察到的波动，并捕捉到了风暴事件中的主要浓度峰值，直观地展示了其改进的泛化能力。

下载：下载高分辨率图像（277KB）
下载：下载全尺寸图像
图9. 半监督RF模型在测试集上对（a）TSS、（b）TN和（c）TP的观测值与预测值的比较。

对于TP，也观察到了类似的趋势。RF-Semi在测试集上的NSE值为0.62（图5c），高于RF-M1（0.54）、RF-M2（0.21）和RF-M3（0.46），同时将RMSE降低到了0.11 mg/L（图6c）。NSE和RMSE的一致改进表明半监督模型能够更好地捕捉雨水径流中TP浓度的动态变化。时间序列比较（图9c）显示RF-Semi更好地再现了时间趋势和峰值TP浓度，而监督模型则倾向于低估多个高值事件。

相比之下，TN的预测仍然是一个挑战。尽管RF-Semi在训练（0.79）和验证（0.38）期间的表现令人满意，但在测试集上的NSE仅为-0.03（图5b），仅略优于RF-M3（-0.30）。TN的RMSE也略微下降到0.92 mg/L（图6b），表明伪标记带来了一些好处，但还需要进一步改进。与图9b中的时间序列一致，TN的预测值与观测值之间的偏差仍然较大，表明伪标记对此参数的额外帮助有限。

为了进一步调查这种不一致性的根本原因，进行了额外的分析，以检查降雨特征与不同水质变量之间的关系。如图10所示，PCA双图表明TSS和TP与降雨相关变量（如RI-avg、RI-max和RT-30）更为接近，而TN与这些变量的对齐程度较低，表明其与选定输入特征的关系不那么直接。

下载：下载高分辨率图像（158KB）
下载：下载全尺寸图像
图10. 降雨指数和雨水质量指数的PCA双图。

这种模式进一步得到了相关性分析（图11）的支持，其中TSS和TP与降雨强度指标（例如，TSS的RI-avg为0.61，TP的RI-avg为0.57）显示出中等到较强的相关性，而TN的相关性则相对较弱（例如，与RI-avg的相关性为0.26，与RI-max的相关性为0.18）。这些结果表明，降雨变量对TSS和TP的预测信号比TN更强。

此外，跨流域的组成分析（图12）进一步揭示了这些差异。TP主要与颗粒形式（例如TPP）相关，这些颗粒形式与悬浮固体（TSS）密切相关，并且可以通过降雨驱动的径流过程有效迁移。这与观察到的TP、TSS和降雨强度变量之间的强相关性一致。相比之下，TN主要由有机氮成分（例如TON）主导，这些成分在不同流域间的变异性较大，与降雨驱动的传输指标的对应关系较弱。

综合这些结果，降雨特征与TN之间的关系较弱且结构不那么明确。因此，仅使用降雨和流域描述符时，TN的预测性能本质上更为有限。这也解释了为什么半监督框架在TSS和TP上的改进更为显著。

总体而言，RF-Semi模型在TSS和TP上的预测性能更优，特别是在测试阶段，表明在测试数据集中TSS和TP的泛化能力得到了提高。通过利用55个通过基于CV的一致性阈值过滤的伪标记降雨事件，模型在数据不足的条件下显著扩展了有效的训练样本空间。这种丰富使模型能够更好地捕捉底层数据结构，减少过拟合，提高TSS和TP的预测准确性和稳定性。这些结果证明了半监督学习在数据有限条件下提高模型性能的价值。

4.4 伪标记的消融实验和诊断分析
为了系统地评估伪标记在所提出框架中的作用，进行了一系列消融和诊断分析。目的是量化伪标记样本对模型泛化的贡献，检查它们在极端水质条件下的影响，并研究被过滤策略保留或丢弃的样本的特征。
在相同的实验设置下构建了三种模型配置，包括相同的训练-验证-测试数据分割。第一个模型是仅使用标记数据的监督基线模型（RF-M3）。第二个模型包含了所有伪标记样本，没有任何过滤（RF-M3-All），代表了伪标记的直接应用。第三个模型对应于所提出的半监督框架（RF-Semi），其中仅使用基于变异系数（CV）标准选择的高置信度伪标记样本进行模型重新训练。
这种受控设计使得可以直接比较不同伪标记策略下的模型性能，从而区分伪标记包含和过滤的效果。此外，还对极端水质事件进行了专门分析，以评估在高值条件下的模型行为。最后，检查了保留和丢弃的伪标记样本的分布，以了解过滤过程的机制。

4.4.1 消融实验的结果
在不同模型上独立测试数据集上评估了性能。消融实验的结果总结在表7中。
表7. 伪标记策略在测试数据集上的消融分析。

评估指标模型参数 TSS TN TP NSE
RF-M3 0.55 -0.30 0.46
RF-M3-All 0.22 -0.04 0.14
RF-Semi 0.62 -0.03 0.62
RMS RF-M3 75 1.03 0.13
RF-M3-All 131 0.43 0.15
RF-Semi 69 0.92 0.11

独立测试数据集的结果显示，不进行质量控制的伪标记包含（RF-M3-All）会导致模型性能明显下降。例如，对于TSS，NSE大幅下降，而RMSE增加，表明未过滤的伪标记引入了噪声和偏差到训练过程中。TP也观察到了类似的趋势，证实了简单添加伪标记数据会扭曲学习到的回归关系。
相比之下，所提出的RF-Semi模型在多种污染物上始终表现出最佳性能。对于TSS和TP，NSE和RMSE相对于RF-M3都有所改善，表明选择性地包含高置信度的伪标记可以提高预测准确性。这一改进在独立测试数据集上也得到了验证，表明这种提升反映了泛化的增强而非过拟合。
这些结果表明，伪标记在回归任务中的有效性取决于伪标记样本的质量。当包含低质量样本时，模型性能可能会下降，而所提出的过滤策略有助于确保只包含可靠的伪标记，从而提高泛化能力。

4.4.2 极端水质事件下的性能
为了进一步评估模型在具有挑战性条件下的鲁棒性，对极端水质事件进行了专门分析，这些事件定义为测试数据集中观测值的前20%。这些事件通常对应于高强度或前期干旱天数较多的区域（图10），在这些区域预测不确定性往往更高。使用平均绝对百分比误差（MAPE）和平均相对误差（MRE）评估了不同模型在极端水质事件下的性能，如表8所示。
表8. 不同模型在极端水质事件（测试样本的前20%）下的性能。

结果表明，RF-M3-All在极端条件下的表现最差，MAPE显著更高，低估偏差也更严重。这表明未过滤的伪标记在具有挑战性的预测场景中放大了预测误差，并可能扭曲学习到的回归关系。
相比之下，所提出的RF-Semi模型在极端条件下对TSS和TP的表现最佳。对于TSS，预测准确性（MAPE）和偏差（MRE）都有所提高，RF-M3中观察到的系统性低估得到了有效缓解。对于TP，低估的幅度显著减少，整体预测误差也降低了。这些结果表明，过滤策略有助于在困难预测条件下保持模型的可靠行为。对于TN，所有模型的表现都相对较弱，尽管RF-Semi仍比RF-M3和RF-M3-All有所改进。

总体而言，这些结果表明，在极端水质条件下，未经过滤的伪标记往往会增加预测误差和偏差，而所提出的过滤策略则提高了准确性并减轻了系统性低估。这表明半监督框架在具有挑战性的场景中保持了稳定的性能。

4.4.3 伪标记样本的特征
为了进一步研究过滤策略的作用，分析了标记样本（训练样本）、测试样本、测试样本中的极端水质事件以及伪标记样本（保留和丢弃的样本）在特征空间中的分布（图13）。
下载：下载高分辨率图像（128KB）
下载：下载全尺寸图像
图13. 特征空间中标记样本、测试样本、极端水质事件和伪标记样本（保留和丢弃的样本）的分布。

保留的伪标记样本通常与标记样本和测试样本混合得很好，表明半监督模型主要是增强了现有数据结构，而不是引入了人为模式。这表明保留的伪标记与从标记数据中学到的关系一致（见图14）。
下载：下载高分辨率图像（351KB）
下载：下载全尺寸图像
图14. RF-Semi模型预测（a）TSS；（b）TN；（c）TP的变量重要性。

相比之下，丢弃的伪标记样本在特征空间中的位置没有明显或一致的模式。它们分布在不同的区域，没有形成与特定降雨条件或极端值相关的明显簇。这一观察表明，过滤过程不是由单个输入变量（如RD、RI-avg或ADD）的简单阈值控制的。
相反，过滤是由预测不确定性驱动的，通过集成模型之间的预测变异性来量化的。当伪标记样本的预测值在集成成员之间表现出高度不一致时，这些样本会被移除，反映了学习到的输入-输出关系的不稳定性。因此，过滤机制在预测空间中起作用，而不是在原始特征空间中。
这意味着预测不确定性不仅仅由降雨变量的大小或事件的极端性决定，而是由输入和输出之间映射的复杂性决定。因此，一些极端事件即使与稳定和一致的预测相关也可能被保留，而一些中等强度的事件如果表现出高预测变异性则可能被丢弃。
总体而言，所提出的过滤策略可以解释为一种基于不确定性的选择机制，它排除了不可靠的伪标记，同时保留了稳定的伪标记。这种机制有助于防止噪声较大的监督信号被纳入模型，并降低训练过程中偏差放大的风险，从而有助于提高模型的泛化能力。4.5 变量重要性变量重要性（图10）揭示了半监督随机森林模型中每个输入变量对预测总悬浮固体（TSS）、总氮（TN）和总磷（TP）事件平均浓度（EMCs）的贡献。降雨持续时间（RD）是预测TSS EMCs的最重要变量，占38.5%的重要性，其次是之前的干燥天数（ADD），占24.8%（图10a）。这表明降雨长度和事件前的干燥期显著影响雨水中的TSS浓度，可能是由于悬浮颗粒的积累和随后的冲刷作用（Salim等人，2019年）。详细的土地利用/土地覆盖类别，如单户住宅（SFR）和交通（TR），对预测TSS的重要性较低。总降雨量（RT）对预测TN EMCs的重要性最高（28.7%）（图10b），表明降雨总量对氮素径流有显著贡献。RD和ADD也很重要，表明降雨持续时间和事件前的条件是影响氮素传输的关键因素（Murphy等人，2015年）。对于TP预测（图10c），RT再次起到重要作用（25.8%），其次是最大降雨强度（RI-max）占13.0%和平均降雨强度（RI-avg）占13.3%。这强调了降雨强度与降雨量在预测TP浓度方面的关键性，因为强降雨会导致径流增加和磷负荷增加（Li等人，2015年）。集水区面积（CA）和不透水性（Imp）对TP也有明显的重要性，而对TSS和TN则不那么明显，这表明集水区的大小可能比氮或悬浮固体对磷水平的影响更大。Behrouz等人（2022年）报告称，与土地利用相关的特征是预测TP EMCs的有效变量。总之，降雨特征被一致认为是三种污染物最重要的预测因子。这种模式反映了基于过程的雨水质量控制以及建模框架的结构。降雨是城市雨水质量在事件尺度上的主要驱动因素，控制着污染物的积累、冲刷、稀释和传输过程。鉴于本研究的目标变量是事件平均浓度（EMCs），它们代表了风暴事件层面的综合响应，因此降雨描述符预计会对模型预测产生主导影响。此外，降雨变量在不同的风暴事件中会有所不同，因此为基于事件的预测提供了主要的动态信息来源。相比之下，集水区特征（如土地利用组成、不透水性和集水区面积）对于给定的集水区是恒定的，主要代表背景空间差异而不是事件间的变化。因此，降雨变量贡献了大部分预测信号，而集水区变量在模型中起上下文修饰作用。观察到的变量重要性反映了不同输入相关预测信号的相对强度。这与TSS和TP等污染物的模型性能更强一致，这些污染物与降雨驱动的过程有更明确的关系，而TN则不然。5. 模型局限性和未来工作尽管提出的半监督框架表现令人鼓舞，但仍需承认几个局限性。首先，半监督回归的适用性本质上是条件性的。正如本研究讨论的，整合未标记数据的有效性取决于关键前提条件是否得到合理满足——例如输入分布的一致性、结构化的输入空间组织和可靠的伪标签选择。如果这些条件被违反，包含未标记样本可能带来的好处有限，甚至会降低模型性能。因此，在将提出的框架应用于其他数据集或研究区域之前，必须严格评估数据的适用性。其次，本研究基于从四个集水区收集的两年期间的降雨和水质数据。尽管使用未标记数据大大扩大了有效训练集并提高了这些集水区内的模型性能，但训练模型在其他地区的泛化能力仍然有限。气候制度、降雨特征、土地利用和底层表面条件的差异可能导致分布变化，从而挑战模型的直接转移。因此，当新地区的降雨模式和集水区特征与本研究考虑的相似时，模型更有可能表现出令人满意的表现。未来的工作应通过整合来自更多集水区的观测数据和更长的监测期来扩展训练数据的空间和时间覆盖范围。这样的努力将有助于丰富训练数据集中表示的降雨-径流-水质关系的多样性，并提高模型的鲁棒性和可转移性。尽管当前框架仍面临实际限制，但本研究的结果展示了其在数据稀缺环境中进行EMC预测的数据高效方法的潜力。6. 结论本研究开发了一个基于随机森林的半监督机器学习框架，用于在数据稀缺条件下预测城市雨水中的总悬浮固体（TSS）、总氮（TN）和总磷（TP）的事件平均浓度（EMCs）。该框架旨在通过整合多个城市集水区的标记和伪标记样本来应对数据不足地区的挑战。结果表明，机器学习是雨水质量建模的有效方法，能够捕捉降雨、集水区特征和污染物传输过程之间的非线性相互作用。然而，仅依赖单个集水区的降雨变量导致了过拟合，表现为在训练数据集上的表现良好（例如TSS的NSE为0.90），但在未见数据上的泛化能力较差（测试集中的NSE为-0.76）。这突显了在狭窄数据集上训练的ML模型的局限性，并强调了需要更多样化的输入特征和更广泛的训练数据覆盖范围。为了解决这个问题，整合多集水区数据集和特定集水区特征显著提高了模型的泛化能力，尽管训练性能略有下降。结合这些特征的RF-M3模型在验证和测试期间始终优于简单模型。在此基础上，通过基于变异系数（CV）阈值选择的55个未标记降雨事件进一步丰富了训练样本空间。这种半监督学习方法在预测准确性方面取得了显著改进，特别是对于TSS和TP，测试NSE达到了0.62。这表明从伪标签中获得的额外信息使模型能够更好地捕捉底层数据结构，并减少对稀缺标记数据的依赖。对预测因子重要性的分析显示，降雨特征——特别是降雨持续时间、强度、总降雨量和之前的干燥天数（ADD）——是所有三种污染物中最有影响力的因素。这一发现强调了水文动态在风暴事件期间污染物迁移和传输中的重要性。总之，提出的框架提高了与降雨驱动过程密切相关的污染物的预测性能，特别是TSS和TP，而对于TN的改进有限。这表明框架的有效性依赖于具体条件，并表明可能需要额外的过程相关输入才能准确预测氮相关参数。这些见解为在数据不足的城市环境中改进雨水质量建模提供了宝贵的指导，并支持开发在类似水文和集水区条件下具有潜在适用性的数据高效预测工具。未引用的参考文献Wijesiri等人（2020年）。CRedI作者贡献声明Yan Haibin：写作——原始草稿、可视化、验证、软件、方法论、调查、正式分析、数据管理、概念化。Zhu David Z.：写作——审阅与编辑、监督、项目管理、调查、资金获取、概念化。Loewen Mark R.：写作——审阅与编辑、监督、项目管理、调查、资金获取、概念化。Zhang Wenming：写作——审阅与编辑、监督、调查。Van Duin Bert：写作——审阅与编辑、资源管理、调查、概念化。Mahmood Khizar：写作——审阅与编辑、资源管理、资金获取、概念化。

热点排行