利用新型的两阶段机器学习和迁移学习模型，以低成本解决方案实现高分辨率的室内外城市PM2.5日变化动态监测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BUILDING AND ENVIRONMENT》：High resolution indoor-outdoor urban PM2.5 daily dynamics with low cost solution using novel two-stage model of machine and transfer learning

【字体：大中小】 时间：2026年01月28日 来源：BUILDING AND ENVIRONMENT 7.6

编辑推荐：

　　PM2.5暴露评估|机器学习模型|室内外动态|LightGBM|知识蒸馏

欧长红|王震|卢卓凯|高畅|李浩|蔡耀明|郭金源|李飞|张景东

中南财经政法大学环境与健康研究中心，中国武汉430073

摘要

为了准确且经济高效地管理居民的实际PM2.5暴露情况，本研究采用了机器学习和深度学习方法来评估不同情景下的城市PM2.5的室内外动态变化。提出了一个两阶段预测框架：首先，利用LightGBM结合气溶胶光学厚度、气象变量和土地利用信息来估算室外PM2.5浓度；随后，通过迁移学习（TL）和基于贝叶斯神经网络的知识蒸馏（KD）技术，利用移动监测获得的代表性室内数据来预测室内PM2.5浓度。最终生成了2021年至2023年武汉市1公里分辨率的日室内和室外PM2.5浓度数据并进行了分析。结果表明，LightGBM（R2=0.86）和TL（R2=0.74）的预测性能良好，而KD方法相比TL平均减少了60%的模型参数数量。武汉市的年平均室内和室外PM2.5浓度分别为36.62 μg/m3和40.24 μg/m3，工业区和市中心被确定为污染热点。研究发现室内外浓度之间存在三阶段非线性关系，且当室外浓度下降时，室内外浓度差也会减小。该框架预测的居民暴露量与仅依赖固定监测站数据的结果存在约17%的差异，暴露量的空间异质性高达20 μg/m3。这项研究为高精度PM2.5评估、暴露健康研究以及基于健康考虑的全国室内外空气质量标准调整提供了在准确性和成本之间的平衡方案。

引言

PM2.5暴露对人类健康构成重大威胁，全球每年导致约420万人过早死亡，另有380万人的死亡与室内空气污染有关[[1], [2], [3]]。系统性的PM2.5治理需要巨额公共支出。例如，要将PM2.5浓度控制在10 μg/m3的目标水平，中国预计需要花费51.55万亿元人民币[4]。因此，政策制定者和公众都在寻求既能有效控制PM2.5污染又能降低治理成本的策略，以长期降低健康风险[5]。准确的污染预测和暴露评估有助于识别关键的PM2.5来源和传播途径，从而支持有针对性的环境健康管理政策[6]。这一挑战在城市地区尤为突出，因为城市中存在多种暴露情景。仅依赖室外PM2.5监测来评估个人暴露情况可能会导致实际暴露水平偏差超过20%[7]。

城市PM2.5暴露源于与人类活动相关的复杂且异质性的排放源。不同城市功能区的室外PM2.5浓度差异显著，例如商业区和住宅区的浓度相差可达20 μg/m3[8]，而现有的固定监测网络往往无法充分捕捉这些差异[9,10]。因此，土地利用和功能分区常被用作反映室外PM2.5空间变异性的代理指标[11]。对于城市居民而言，室内环境是PM2.5暴露的主要来源，他们每天有12-20小时在住宅和工作场所度过，导致平均每日暴露浓度可能与公开监测站数据相差超过10 μg/m3[12,13]。室内PM2.5浓度受室外污染的渗透影响显著，在某些情况下这一比例高达90%[14]，但由于建筑结构和通风条件的限制，室内PM2.5动态并不完全遵循室外模式[15]。因此，仅基于室外监测的暴露评估常常存在系统偏差，例如普遍高估了普通人群的暴露量，而低估了长期处于污染室内环境中的个体的暴露量[7,16]。这些发现促使中国最近调整了空气质量管理策略，包括设定更严格的室内PM2.5标准[17]。最近的政策讨论还建议未来可能进一步加强对PM2.5浓度的控制[18]。然而，目前对复杂室内外情景下PM2.5暴露的评估主要依赖于环境监测方法，如选定地点部署的便携式传感器或志愿者携带的监测设备[19,20]。尽管这些方法在局部范围内有效，但成本较高且空间覆盖范围有限，难以实现全面的城市监测。因此，迫切需要能够在大空间尺度上估算多情景室内和室外PM2.5浓度的替代方法，以改进暴露评估并降低监测成本[21,22]。

近年来，由于机器学习和深度学习能够捕捉异构数据集之间的复杂非线性关系，这些方法在空气污染预测和暴露评估中的应用日益增多[23,24]，从而扩展了传统监测网络的空间覆盖范围并提高了污染地图的分辨率。对于室外PM2.5的估算，结合气溶胶光学厚度（AOD）和土地利用特征已被广泛认为是高分辨率城市评估的可靠且经济有效的策略[25,26]。AOD与PM2.5浓度具有强相关性，并提供高空间分辨率，即使在监测覆盖不足的区域也能进行污染估算；同时，土地利用信息间接反映了排放特征和多样的室外暴露情景[1,26]。因此，通常使用XGBoost和LightGBM等机器学习算法对AOD-PM2.5关系进行建模[27,28,23]。准确估算室内PM2.5浓度对于大规模居民暴露评估至关重要。现有研究主要依赖室内外（I/O）比率或流体动力学模型来估算室内污染水平[29,30]。室内和室外PM2.5之间的非线性关系在不同浓度范围内会导致较大不确定性，而流体动力学模型通常需要详细的建筑参数，这限制了其跨地区的通用性[[31], [32], [33]]。最近的研究越来越多地将机器学习和深度学习技术应用于室内PM2.5预测，显示出良好的暴露评估性能[34,35]。然而，大多数现有模型包含详细的室内活动和建筑相关变量（如烹饪、通风和建筑面积），这虽然能在家庭或社区层面实现准确预测，但由于成本和活动监测的复杂性，可能限制了其在更大空间尺度上的应用[12,34]。为了解决这一问题，戴等人[36]提出了一种仅使用室外PM2.5测量值和气象变量即可预测室内PM2.5浓度的机器学习框架，无需依赖室内活动数据。尽管这种方法通过气象条件隐式考虑了建筑物的渗透效应，但其预测性能仍受地区建筑特征和居民生活习惯差异的影响，需要重新训练模型以实现跨地区的稳健应用[37]。迁移学习（TL）和知识蒸馏（KD）通过将源模型的知识转移到目标领域，提供了高效的模型适应方案，所需数据量较少，同时KD还能减轻模型计算复杂度[[38], [39], [40]]。这些技术共同为多情景PM2.5估算和暴露评估提供了实用的基础。

为了实现低成本和高分辨率的城市室内外PM2.5动态特征分析，本研究提出了一个结合机器学习、迁移学习和知识蒸馏的两阶段预测框架。选择中国中部具有复杂排放源和显著时空PM2.5变化性的特大城市武汉作为案例研究。此前在武汉代表性社区进行的研究证明了高分辨率暴露评估的可行性，并揭示了人口暴露与常规监测数据之间的显著差异[13]，为进一步的大规模应用奠定了坚实基础。该两阶段预测框架的具体目标包括：（i）基于LightGBM算法，结合AOD、气象变量和土地利用信息，开发高精度室外PM2.5估算模型；（ii）通过结合代表性室内监测数据和基于贝叶斯神经网络的迁移学习及知识蒸馏，建立可扩展的室内PM2.5预测模型；（iii）利用该框架生成2021年至2023年武汉市的1公里分辨率日室内和室外PM2.5浓度数据，分析时空模式、室内外非线性关系以及与固定监测数据的暴露偏差。该框架将为高分辨率室内外PM2.5评估提供可复制的解决方案，并为其他城市的精准城市空气污染管理和以健康为导向的政策制定提供技术支持。

部分摘录

AOD-PM2.5和OUT-IN概述

本研究开发了一个两阶段预测框架，用于估算城市环境中的高分辨率室外和室内PM2.5浓度，如图1所示。该框架由两个相互连接的组件组成：室外PM2.5估算模块（AOD–PM2.5）和室内PM2.5预测模块（OUT–IN（室外到室内）。

PM2.5预测性能

表1展示了不同室内和室外PM2.5预测模型的性能。在AOD–PM2.5模块中，LightGBM的拟合精度（R2=0.86，RMSE=11.42）显著优于线性模型（R2=0.55，RMSE=20.64），也略优于随机森林模型（R2=0.84，RMSE=11.68）。除了预测精度外，LightGBM还以其高效的训练特性而著称，适合大规模空间预测任务。

结论

本研究开发了一个结合室外和室内PM2.5预测的两阶段机器学习框架，实现了城市PM2.5浓度的高分辨率时空评估，以武汉作为案例区域。2021年至2023年间，估算的平均PM2.5浓度比固定监测站的数据低约5 μg/m3，年空间变化幅度达到15 μg/m3。室外PM2.5受多种因素影响，

数据可用性

本研究使用和/或分析的数据集可应相应作者的要求提供。

作者贡献声明

欧长红：撰写——原始草案，方法论。王震：验证，正式分析。卢卓凯：验证，正式分析。高畅：验证，正式分析。李浩：验证，正式分析。蔡耀明：验证，正式分析。郭金源：撰写——审稿与编辑。李飞：撰写——审稿与编辑，监督，方法论。张景东：验证，项目管理。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号