PM2.5暴露对人类健康构成重大威胁,全球每年导致约420万人过早死亡,另有380万人的死亡与室内空气污染有关[[1], [2], [3]]。系统性的PM2.5治理需要巨额公共支出。例如,要将PM2.5浓度控制在10 μg/m3的目标水平,中国预计需要花费51.55万亿元人民币[4]。因此,政策制定者和公众都在寻求既能有效控制PM2.5污染又能降低治理成本的策略,以长期降低健康风险[5]。准确的污染预测和暴露评估有助于识别关键的PM2.5来源和传播途径,从而支持有针对性的环境健康管理政策[6]。这一挑战在城市地区尤为突出,因为城市中存在多种暴露情景。仅依赖室外PM2.5监测来评估个人暴露情况可能会导致实际暴露水平偏差超过20%[7]。
城市PM2.5暴露源于与人类活动相关的复杂且异质性的排放源。不同城市功能区的室外PM2.5浓度差异显著,例如商业区和住宅区的浓度相差可达20 μg/m3[8],而现有的固定监测网络往往无法充分捕捉这些差异[9,10]。因此,土地利用和功能分区常被用作反映室外PM2.5空间变异性的代理指标[11]。对于城市居民而言,室内环境是PM2.5暴露的主要来源,他们每天有12-20小时在住宅和工作场所度过,导致平均每日暴露浓度可能与公开监测站数据相差超过10 μg/m3[12,13]。室内PM2.5浓度受室外污染的渗透影响显著,在某些情况下这一比例高达90%[14],但由于建筑结构和通风条件的限制,室内PM2.5动态并不完全遵循室外模式[15]。因此,仅基于室外监测的暴露评估常常存在系统偏差,例如普遍高估了普通人群的暴露量,而低估了长期处于污染室内环境中的个体的暴露量[7,16]。这些发现促使中国最近调整了空气质量管理策略,包括设定更严格的室内PM2.5标准[17]。最近的政策讨论还建议未来可能进一步加强对PM2.5浓度的控制[18]。然而,目前对复杂室内外情景下PM2.5暴露的评估主要依赖于环境监测方法,如选定地点部署的便携式传感器或志愿者携带的监测设备[19,20]。尽管这些方法在局部范围内有效,但成本较高且空间覆盖范围有限,难以实现全面的城市监测。因此,迫切需要能够在大空间尺度上估算多情景室内和室外PM2.5浓度的替代方法,以改进暴露评估并降低监测成本[21,22]。
近年来,由于机器学习和深度学习能够捕捉异构数据集之间的复杂非线性关系,这些方法在空气污染预测和暴露评估中的应用日益增多[23,24],从而扩展了传统监测网络的空间覆盖范围并提高了污染地图的分辨率。对于室外PM2.5的估算,结合气溶胶光学厚度(AOD)和土地利用特征已被广泛认为是高分辨率城市评估的可靠且经济有效的策略[25,26]。AOD与PM2.5浓度具有强相关性,并提供高空间分辨率,即使在监测覆盖不足的区域也能进行污染估算;同时,土地利用信息间接反映了排放特征和多样的室外暴露情景[1,26]。因此,通常使用XGBoost和LightGBM等机器学习算法对AOD-PM2.5关系进行建模[27,28,23]。准确估算室内PM2.5浓度对于大规模居民暴露评估至关重要。现有研究主要依赖室内外(I/O)比率或流体动力学模型来估算室内污染水平[29,30]。室内和室外PM2.5之间的非线性关系在不同浓度范围内会导致较大不确定性,而流体动力学模型通常需要详细的建筑参数,这限制了其跨地区的通用性[[31], [32], [33]]。最近的研究越来越多地将机器学习和深度学习技术应用于室内PM2.5预测,显示出良好的暴露评估性能[34,35]。然而,大多数现有模型包含详细的室内活动和建筑相关变量(如烹饪、通风和建筑面积),这虽然能在家庭或社区层面实现准确预测,但由于成本和活动监测的复杂性,可能限制了其在更大空间尺度上的应用[12,34]。为了解决这一问题,戴等人[36]提出了一种仅使用室外PM2.5测量值和气象变量即可预测室内PM2.5浓度的机器学习框架,无需依赖室内活动数据。尽管这种方法通过气象条件隐式考虑了建筑物的渗透效应,但其预测性能仍受地区建筑特征和居民生活习惯差异的影响,需要重新训练模型以实现跨地区的稳健应用[37]。迁移学习(TL)和知识蒸馏(KD)通过将源模型的知识转移到目标领域,提供了高效的模型适应方案,所需数据量较少,同时KD还能减轻模型计算复杂度[[38], [39], [40]]。这些技术共同为多情景PM2.5估算和暴露评估提供了实用的基础。
为了实现低成本和高分辨率的城市室内外PM2.5动态特征分析,本研究提出了一个结合机器学习、迁移学习和知识蒸馏的两阶段预测框架。选择中国中部具有复杂排放源和显著时空PM2.5变化性的特大城市武汉作为案例研究。此前在武汉代表性社区进行的研究证明了高分辨率暴露评估的可行性,并揭示了人口暴露与常规监测数据之间的显著差异[13],为进一步的大规模应用奠定了坚实基础。该两阶段预测框架的具体目标包括:(i)基于LightGBM算法,结合AOD、气象变量和土地利用信息,开发高精度室外PM2.5估算模型;(ii)通过结合代表性室内监测数据和基于贝叶斯神经网络的迁移学习及知识蒸馏,建立可扩展的室内PM2.5预测模型;(iii)利用该框架生成2021年至2023年武汉市的1公里分辨率日室内和室外PM2.5浓度数据,分析时空模式、室内外非线性关系以及与固定监测数据的暴露偏差。该框架将为高分辨率室内外PM2.5评估提供可复制的解决方案,并为其他城市的精准城市空气污染管理和以健康为导向的政策制定提供技术支持。