针对《利用机器学习和空间聚类方法在印度范围内划定空气污染区域并估算PM2.5浓度的新型框架》一文的反驳意见

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Environmental Science & Technology》：Rebuttal to Correspondence on “A Novel Framework for Airshed Delineation and PM2.5 Estimation across India Using Machine Learning and Spatial Clustering”

【字体：大中小】 时间：2026年03月13日 来源：Environmental Science & Technology 11.3

编辑推荐：

　　本文针对审稿人Qing的批评意见，澄清了印度空气shed框架的数据聚合方法、多算法聚类验证及过渡区界定，强调方法与MERRA-2数据尺度一致，验证过程客观，过渡区反映空间混合，结论稳健。

我们感谢Qing对我们工作的关注(1)，以及他们认识到我们提出的基于数据的印度空气流域框架的新颖性。然而，一些批评似乎源于一些假设，这些假设并没有完全反映研究的目标或范围，而且手稿及其支持信息中已经澄清的一些观点似乎被忽视了。特别是，作为方法论局限性证据的引用并没有证实所归因于它的主张。因此，我们在下面澄清这些问题，并证明所采用的方法论选择适用于区域尺度分析，而且本研究的结论仍然具有可靠性。

MERRA-2分辨率和数据聚合方法

Qing对将高分辨率数据集（例如DEM、GHSL和NDVI）聚合到较粗的MERRA-2网格（约50公里）及其对局部污染过程的影响表示担忧。我们澄清说，我们的研究并不是为了解决诸如山谷尺度捕获或城市内部变化这样的微观现象，而是为了识别与MERRA-2气溶胶和气象场的本征分辨率一致的中观尺度、动态连接的污染区域。这一限制在论文的最后一段中已经提到，我们指出局部排放特征可能无法被完全捕捉到，未来结合更高分辨率数据集的工作可以细化过渡区域并解决更细尺度的影响。

在多源环境分析中，跨尺度重采样是一个不可避免的步骤，广泛使用的方法包括块均值聚合、面积加权平均、最近邻转移和插值。每种方法在保真度、平滑度和计算效率方面都有权衡。与旨在改进像素级PM_2.5估计的研究不同，我们的目标是区域空气流域的划分。因此，选择了块均值聚合方法，以保持与MERRA-2系统的主导空间尺度的一致性。

Qing进一步声称Xiao等人(2)证明，将高分辨率地形数据聚合到大于10公里的网格中会在山区引入高达30%的误差，影响空气流域的划分。我们审查了引用的工作，但未能找到这样的说法。因此，这一主张没有得到参考文献的支持。

聚类验证和透明度

Qing认为我们的聚类验证缺乏外部验证和透明度。然而，验证程序在支持信息中有明确的描述。下面提供简要的澄清。

算法选择和聚类一致性

Qing指出算法之间的一致性没有量化。然而，在支持信息的S3.2和S3.4部分，我们解释了选择最佳聚类结果来定义最终空气流域划分的基础。(1) 对2020-2022年的多个k值应用了三种算法：k-均值、高斯混合模型（GMM）和谱聚类（SC），选择过程由Davies–Bouldin（DB）指数客观指导，而不是主观偏好。没有优先考虑任何单一算法，而是保留了在DB标准下表现最好的配置。

使用多种算法是因为没有一种聚类方法能够有效解决所有问题。(3) 这些方法强调不同的数学结构，如方差最小化（k-均值）、概率密度（GMM）和图连通性（SC），这自然会导致边界的适度变化。尽管存在这些差异，但在不同算法和年份中始终出现相同的主要中观区域，包括印度-恒河平原、喜马拉雅带、干旱的西北部、中央高原和印度半岛。这些重复出现的结构构成了我们最终空气流域解释的基础。

我们的目标是确定最具物理意义的聚类解决方案，而不是量化算法之间的一致性。Rand或Jaccard指数等指标用于评估分区之间的相似性，而DB指数用于评估聚类的内在质量（紧凑性和分离度），这与研究目标一致。未来工作可以探索算法间的比较，但这超出了预期的范围。

针对观测到的污染源的外部验证

Qing指出没有针对观测到的污染特征进行验证。然而，在我们研究的第2.6节(1)中，我们明确提到了用于聚类验证的三步方法。除了DB指数和时间稳定性外，第三种方法是每个识别出的空气流域内主要PM_2.5来源的一致性。来源解释在3.3和3.4节中使用随机森林特征重要性进行了讨论，并与已发表的文献进行了比较。

Qing引用Singh等人的研究(4)来说明在印度-恒河平原上来源主导性的对比。然而，该研究将生物质燃烧、车辆排放和二次气溶胶确定为主要贡献者，这些模式与我们的分析中确定的来源结构一致。因此，这种不一致性的说法没有得到引用证据的支持。

因此，这里不适用这一担忧，因为该框架明确将聚类结构与物理上可解释的驱动因素和文献支持的来源特征联系起来，确保了其在区域空气质量评估和政策考虑中的相关性。

过渡区划分和方法论澄清

Qing的发现表明过渡区是主观合并到相邻聚类中的。这种解释并不反映我们的方法论。在最终的空气流域地图（图5）中，过渡区域被明确保留为独立的空间实体，代表不同制度之间逐渐混合的区域。合并仅在模型评估期间进行，以便进行统计比较，而不是重新定义物理上的空气流域边界。

我们还在局限性部分进一步指出，这些过渡区域的范围受到可用气溶胶数据粗分辨率的影响，使用更细分辨率的数据可能会减少这种影响。因此，它们的包含代表了空间不确定性的透明表达，而不是方法论上的弱点。

Qing还引用了Khan等人的研究(5)，该研究认为需要统计阈值来定义过渡区。然而，经过仔细审查，该研究并没有提出任何普遍接受的定量规则来定义这些区域；相反，这个术语是在我们的工作中引入的，用于描述具有逐渐环境梯度的区域。

结论

我们研究中的方法论选择(1)与MERRA-2系统的物理尺度、空气流域划分的中观目标以及国家尺度的数据整合相一致。通过使用多种算法、多年评估和定量验证指标，证明了聚类的稳健性，同时保留了过渡区域以反映空间混合。这些元素构成了一个内部一致、可重复且对区域空气质量管理具有物理意义的框架。未来使用更高分辨率气溶胶产品或独立清单的研究可能会完善该框架，但它们的缺失并不会使当前结果无效。在不同方法和年份中识别出的空气流域的稳定性，以及聚类内污染源特征的一致性和PM_2.5模型的强劲性能，表明所提出的方法为印度基于空气流域的空气质量评估提供了科学上可辩护的基础。

总体而言，这种方法具有稳健性和科学严谨性。通讯作者引用的参考文献并不支持归因于它们的主张，表明了对文献的误解。此外，评论似乎反映了对手稿及其支持信息的不完整阅读，其中提供了详细的解释、额外的分析和关于局限性的讨论。

作者信息

通讯作者
- Manoranjan Sahu - 印度理工学院孟买分校环境科学与工程系气溶胶和纳米粒子技术实验室，印度孟买400076；印度理工学院孟买分校气候研究跨学科项目，印度孟买400076；印度理工学院孟买分校机器智能与数据科学中心，印度孟买400076；https://orcid.org/0000-0002-4750-851X；电子邮件：mrsahu@iitb.ac.in
作者
- Mohd Zaid - 印度理工学院孟买分校环境科学与工程系气溶胶和纳米粒子技术实验室，印度孟买400076
注释
作者声明没有竞争性财务利益。

参考文献

本文引用了5篇其他出版物。

1
Zaid, M.; Sahu, M. 利用机器学习和空间聚类进行印度空气流域划分和PM_2.5估计的新框架。《环境科学与技术》2025, 59 (39, 21248– 21264, DOI: 10.1021/acs.est.5c10087
Google Scholar
该参考文献没有相应的记录。

2

Xiao, Q.; Chang, H. H.; Geng, G.; Liu, Y. 利用卫星数据预测中国历史PM_2.5浓度的集成机器学习模型。《环境科学与技术》2018, 52 (22, 13260– 13269, DOI: 10.1021/acs.est.8b02917

Google Scholar

该参考文献没有相应的记录。

3

Xu, R.; Wunsch, D. C. 聚类分析的最新进展。《国际智能计算与控制论杂志》2008, 1 (4, 484– 508, DOI: 10.1108/17563780810919087

Google Scholar

该参考文献没有相应的记录。

4

Singh, A.; Rastogi, N.; Patel, A.; Singh, D. 印度-恒河平原上环境颗粒物污染物大小分段的季节性：使用PMF进行来源分配。《环境污染》2016, 219, 906– 915, DOI: 10.1016/j.envpol.2016.09.010

Google Scholar

该参考文献没有相应的记录。

5Khan, A. A.; Kumar, P.; Gulia, S.; Khare, M. 通过空气流域方法管理空气污染的批判性回顾。《可持续视野》2024, 9, 100090 DOI: 10.1016/j.horiz.2024.100090
Google Scholar
该参考文献没有相应的记录。

被引用情况

本文尚未被其他出版物引用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号