一种基于易出错的环境暴露模拟来估算健康影响的方法：以一项关于出生体重和细颗粒物的多国研究为例

《GeoHealth》：A Method to Estimate Health Effects Based on Error-Prone Simulated Environmental Exposure: An Application to a Multi-Country Study on Birthweight and Fine Particulate Matter

【字体：大中小】 时间：2026年05月02日 来源：GeoHealth 3.8

编辑推荐：

　　摘要地球系统模型提供了时空连续的环境暴露数据，但由于测量误差的不确定性，在环境流行病学中仍未能得到充分应用。我们开发了一种新的潜在变量方法来校正这种由时空误差协方差特征的测量误差。该方法是通过比较第六阶段耦合模型比较项目（CMIP6）的月度细颗粒物（PM2.5）模拟结果与来自

　　摘要

地球系统模型提供了时空连续的环境暴露数据，但由于测量误差的不确定性，在环境流行病学中仍未能得到充分应用。我们开发了一种新的潜在变量方法来校正这种由时空误差协方差特征的测量误差。该方法是通过比较第六阶段耦合模型比较项目（CMIP6）的月度细颗粒物（PM2.5）模拟结果与来自5,661个全球站点的基于站点的监测数据得出的。为了展示该框架的实用性，我们将这些暴露数据与132次人口与健康调查中的出生体重记录进行了关联。结果显示，模型与观测数据之间存在不同程度的相关性（r = 0.40–0.68），并且不同地球系统模型对出生体重的影响估计值也有很大差异，从每增加10 μg/m3 PM2.5导致0.01克（95%置信区间：-0.85–0.87克）的减少到15.11克（12.69–17.54克）的减少。在校正测量误差后，最佳估计值显示每增加10 μg/m3 PM2.5导致出生体重减少3.34克（2.57–4.11克）的更精确和一致的结果。这些发现表明，PM2.5暴露与出生体重之间的负相关关系对于CMIP6基础暴露数据中嵌入的不同水平的测量误差是稳健的，并且在校正测量误差的环境流行病学中可以帮助避免由于偏差和一致性改进而导致的效应误估。

通俗语言总结

气候模型常用于模拟环境条件（如空气污染）以进行健康研究，但这些计算机模拟结果与现实世界测量数据之间往往存在差异。本研究介绍了一种新的统计方法，通过将模拟数据与全球数千个地面监测站的观测数据相比较来识别和校正这些“测量误差”。我们使用这种方法分析了细颗粒物（PM2.5）对新生儿出生体重的影响，发现未经误差校正的不同气候模型得出了截然不同的结果。然而，在应用校正方法后，结果变得一致，证实了暴露于较高水平的PM2.5会导致出生体重降低。这种新方法使研究人员能够更准确地利用气候模型数据评估环境健康风险。

1 引言

地球系统模型（ESMs）的模拟对于研究气候或其他环境暴露（如非最佳温度、空气污染和野火）对健康的影响非常有用。这些模拟可以在现实世界条件和反事实情景下生成时空连续的场，用于暴露评估。以常用的温度和细颗粒物（PM2.5）模拟为例，它们已被广泛用于预测气候变化对健康的影响，考虑到未来的社会经济路径和气候强迫情景。例如，最近的研究利用CMIP6输出预测了2021年至2100年不同社会经济路径（SSPs）气候情景下的全球PM2.5浓度及相关过早死亡率。研究表明，未来的健康负担对所选择的缓解路径高度敏感，不同情景下的PM2.5相关死亡率有显著差异（Chen等人，2023年）。其次，ESM模拟被用来识别驱动因素，如特定的排放部门或公认的气候模式（例如ENSO），这些因素是历史环境变化和疾病负担的原因。例如，一项研究使用社区地球系统模型（CESM）来识别由ENSO在变暖气候中驱动的热浪和野火强度的增加，强调了陆气反馈在这些极端事件预测中的作用（Fasullo等人，2018年）。另一项研究使用CESM来考察在不同SSPs下PM2.5对进一步的气候、土地利用和排放变化的响应。结果表明，生物质燃烧和人为排放是所有SSPs中地表PM2.5的主要驱动因素，存在显著的区域差异（Bhattarai等人，2024年）。第三，ESMs还可以生成控制暴露的反事实情景，以揭示对人类健康的因果效应。例如，一项建模研究使用CESM和耦合模型第3版（CM3）模拟了高温室气体情景下21世纪气候和臭氧（O3）及PM2.5浓度的进一步变化。研究结果表明，减少空气污染排放可以缓解但无法防止与气候变化相关的死亡率增加。此外，ESM模拟在评估野火烟雾和尘埃颗粒等暴露方面具有巨大潜力，而这些暴露通过地面监测网络尚未得到充分测量。例如，最近的一项研究将基于深度学习的火灾模型（DL-fire）整合到汉堡版Jena生物圈-大气耦合方案4（JSBACH4）地表模型中，该模型属于二十面体非静力地球系统模型（ICON-ESM）框架。这种混合建模方法提高了全球燃烧面积比例的模拟精度，在评估期间（2011–2015年）与观测数据的月度相关性达到0.8。这种整合展示了将机器学习与ESMs结合以增强野火预测能力的潜力（Son等人，2024年）。中国科学院ESM版本2（CAS-ESM2）已被用于模拟东亚的全球尘埃循环和特定尘埃事件。通过实施先进的尘埃排放参数化，该模型有效地捕捉了尘埃风暴的强度和持续时间。对于像东亚这样的地区，尘埃事件可能对健康和环境产生重大影响（Wu等人，2021年）。在多种ESM产品中，耦合模型比较项目（CMIP）的数据因其透明度、公众可访问性、组织结构、良好的维护和丰富性而被广泛用于理解气候和环境变化的健康影响。CMIP是世界气候研究计划下的一个国际气候建模项目（Meehl等人，1997年）。它已成为气候科学的基础元素之一，通过协调开发和传播历史、当代和未来气候情景下的全球ESM模拟（Eyring等人，2016年）。特别是，每个ESM都记录了多种变体模拟。经过五个连续阶段的发展，CMIP已成为国际多模型气候研究的关键框架，推动了气候科学的变革性进展，并为全球气候评估提供了关键输入（Meehl等人，2000年，2007年；Taylor等人，2012年）。作为该框架的最新阶段，CMIP6提供了更新的标准化模拟集合，作为评估模型性能和理解全球环境变化的关键基准（Eyring等人，2016年）。与其他ESM模拟一样，尽管设计严谨，基于CMIP6的暴露数据在历史流行病学研究中很少与健康结果相关联，这进一步降低了它们在健康影响评估或预测中的有效性。主要障碍在于使用ESM模拟作为暴露替代物的测量误差（Deser等人，2012年）。从概念上讲，测量误差来源于两个不同的来源。首先，预测误差源于ESMs的固有局限性，这些模型依赖于复杂大气过程的简化参数化，导致模拟网格单元浓度与实际环境条件之间的差异。其次，暴露分配误差源于ESM网格单元的粗分辨率与个体暴露的细尺度变化之间的空间不匹配。总体而言，这两个来源扩大了预测浓度与实际暴露水平之间的差距。如果忽略测量误差，可能会显著影响对健康效应的统计推断（R. Carroll等人，2006年；Gustafson，2003年；Kipnis等人，2003年；Prentice，1996年；Shalabh，2011年；White等人，2008年）。效应大小可能会被高估或低估。甚至由于忽略测量误差，关联的方向也可能被逆转。具体来说，对于CMIP模拟，不同的ESM模拟可能会引入不同水平的测量误差。因此，CMIP6提供了一个机会来探索不同水平的ESM误差对健康影响的估计程度。此外，ESMs因其独特的预测未来轨迹和模拟反事实情景的能力而不可或缺，这些预测的可信度也取决于模型是否准确代表现实世界的暴露水平。历史CMIP6数据可以作为验证错误结构的关键测试，并展示校正方法对未来应用的有效性。更重要的是，由于测量误差无法完全避免，在过去十年中，已有大量研究专注于校正易受误差影响的暴露效应估计。提出的方法包括回归校准（R. J. Carroll & Stefanski，1990年；Gleser，1990年）、模拟外推（SIMEX）（Cook & Stefanski，1994年）、工具变量（R. J. Carroll & Stefanski，1994年；Fuller，1987b，1987c；L. A. Stefanski & Buzas，1995年）、矩方法（Shalabh，2011年）、多重插补（Cole等人，2006年）和贝叶斯校正（Mallick & Gelfand，1996年；Müller & Roeder，1997年；Richardson & Gilks，1993年；Schmid & Rosner，1993年；Stephens & Dellaportas，1992年）。大多数传统方法基于独立同分布误差的假设，未能捕捉大气模型中固有的复杂误差结构。近年来，该领域在超越这些简单假设方面取得了显著进展。例如，Bergen等人提出了基于回归的方法来校正PM2.5组分暴露的测量误差，利用空间相关性，强调了在校正暴露预测模型中的空间结构以避免有偏的健康推断的重要性（Bergen等人，2013年）。同时，贝叶斯框架也取得了显著发展，提供了灵活的不确定性量化解决方案。Comess等人引入了一种灵活的贝叶斯核密度估计方法来传播不确定性，有效处理非高斯后验分布（Comess等人，2023年）。Park等人和李等人开发了两阶段贝叶斯框架，利用Vecchia近似法，实现了大规模数据集的有效误差校正（Lee等人，2024年；Park等人，2026年）。这些努力还扩展到了因果推断领域，提出了一种同时校正暴露和混杂因素中测量误差的统一方法（Kim，2024年）。尽管有这些方法论突破，但仍存在关键差距。许多这些先进方法针对的是区域领域或特定队列研究，未能适应ESM模拟中固有的全球时空相关误差。此外，现有方法主要关注单一来源的暴露表面。它们在模拟CMIP6数据中嵌入的测量误差方面效率较低，因为未能利用来自多个ESM及其变体的集合模拟。为了解决这些差距，我们提出了一种最优估计器，该估计器明确量化并调整了多个CMIP6模拟中的时空结构化测量误差。为了展示其用途，我们将其应用于将CMIP6模拟的PM2.5浓度与出生体重减少联系起来。我们选择这种暴露-结果对的原因如下：首先，许多先前的研究已经很好地确定了这种关联，为我们的示范分析提供了预期；其次，结果（即出生体重）可以通过连续的因变量来测量，从而可以轻松将其纳入时空高斯模型中的测量误差；最后，有一个关于个体水平出生体重的公开可用数据集，我们的先前研究已经使用过该数据集，使得示范分析可重复。具体来说，我们建立了一个协方差函数来量化误差的时空相关性，这些误差是通过CMIP6模拟与观测之间的差异来测量的。真实暴露被纳入一个同时测量暴露-结果关联和测量误差的似然函数中。此外，我们的最优估计器还通过统计模拟进行了验证，并与传统方法进行了比较。

2 方法

2.1 数据获取和预处理

在这项研究中，我们从10个ESMs生成的76个CMIP6模拟中获取了历史PM2.5浓度数据，分别是MIROC6、MIROC-ES2H、GISS-E2-1-H、GISS-E2-1-G、GISS-E2-2-G、MRI-ESM2-0、MIROC-ES2L、NorESM2-MM、MPI-ESM-1-2-HAM和NorESM2-LM。详细列表记录在支持信息S1的表S1中。本研究中使用的月度PM2.5浓度直接来自CMIP6变量mmpm2p5（如果可用的话）。根据Turnock等人（2020年）的说法，这个诊断变量代表了建模中心计算的各个气溶胶组分质量（BC、OA、硫酸盐、硝酸盐和细颗粒物/海盐）的总和。我们提取了2000年1月至2014年12月每个网格单元的PM2.5浓度数据的月平均值。地面PM2.5浓度观测被视为暴露评估的金标准，并用于验证模拟浓度。我们提取了由政府机构（如欧洲环境署或美国、中国和澳大利亚的环境保护机构）维护的5,661个站点收集的每日PM2.5浓度数据（Riley等人，2019年；Yu等人，2023年）。为了确保时间一致性，我们按月份汇总了原始记录，并将时间序列限制在2000年至2014年期间。如果某个站点一个月内的有效日测量次数≤20次，则该汇总值被视为缺失。每个月度观测值都与根据时间戳（年-月）和空间网格从CMIP6数据库中提取的76个模拟结果配对。具体来说，我们使用基于每个监测站特定地理坐标的双线性插值重采样方法，提取了相应的模拟PM2.5浓度数据。个体水平的出生体重记录和相关协变量来自132次人口与健康调查（DHS）。这些调查都具有全国代表性，采用分层两阶段集群抽样设计进行收集。DHS数据集的详细信息在我们之前的研究中已有介绍（Lu等人，2025年；Tong等人，2024年；Xue等人，2023年）。健康结果是出生体重。相关协变量包括婴儿性别（女性或男性）、是否为独生、是否进行剖宫产、母亲年龄、母亲教育水平、母亲体重指数（≤18.5、>18.5至25.0、>25.0至30.0或>30.0 kg/m2）、婚姻状况（离婚、与伴侣同居、已婚、从未结婚、分居或丧偶）、是否接受产前护理、居住在城市或农村、生育次数（初产妇或多产妇）、家庭户主性别（女性或男性）、是否有医疗保险覆盖、家庭规模、烹饪燃料类型（农作物、动物粪便、沼气、木炭、煤炭、电力、煤油、液化天然气、天然气、木材或其他）、饮用水来源（瓶装水、自然水、管道水、雨水、水箱水、井水或其他）以及厕所设施类型（堆肥式、冲水式或无）。我们筛选了2000年1月至2014年12月之间的个体记录，排除了出生体重或地理信息缺失的观测值。缺失的协变量随后通过链式方程的多重插补方法进行了填补。在后续分析中，我们采用了时空流行病学方法来评估出生体重与PM2.5暴露之间的关联。所有CMIP6模拟数据都使用双线性插值方法重新网格化为2.5°×2.0°的标准空间分辨率。为了与CMIP6模拟数据匹配，我们首先将每个个体分配到2.5°×2.0°网格的相应单元格中，并通过出生月份进行时间对齐。为了最小化小样本量固有的随机变异性和异常值的影响，并确保统计推断的稳健性，如果一个时空单元（网格/月份）内的有效个体记录少于10条，则将这些记录排除在外。我们构建了一个随机森林回归模型，从所有个体水平协变量（不包括PM2.5浓度）来预测出生体重。具体来说，通过网格搜索优化了两个超参数：树的数量（ntree）和每个节点分割的变量数量（mtry），其中ntree的范围是400到2000，以100为增量；mtry的范围是6到10，以1为增量。模型的性能通过10折交叉验证中的均方根误差（RMSE）进行评估，具体结果见支持信息S1中的图S1。对于每个个体，预期出生体重是根据随机森林预测得出的，其与实际出生体重的差异被视为出生体重异常。最后，将一个时空单元内所有个体水平异常值的平均值作为与PM2.5浓度相关联的结果变量。

2.2 PM2.5测量误差的时空高斯模型

为了模拟第i个CMIP6产品（Xi）中模拟的PM2.5浓度所包含的测量误差，我们假设了一个如下所示的高斯时空模型：

其中Xi表示与无误差值（μ）配对的易出错的第i个模型模拟结果向量；ai和bi分别表示校准的模拟特定斜率和截距；Σ表示方差-协方差矩阵；其元素Σ(j, k)由协方差函数C(?|θ)参数化；hj,k和uj,k分别表示相应的空间和时间距离。我们使用地面观测值作为无误差值（μ），并基于最小二乘残差来拟合协方差函数。通过计算不同空间和时间距离组合下的残差之间的相关系数来量化经验协方差函数。具体来说，空间距离（h）使用哈弗辛公式计算，时间距离（u）按月间隔进行评估。经验协方差是通过将相关系数乘以残差的方差来计算的。我们使用了六个候选函数（见支持信息S1中的文本S1），通过非线性最小二乘（NLS）方法来拟合时空协方差函数（Bevilacqua等人，2010年；Gneiting，2002年；Gneiting等人，2006年）。最优函数的选择是基于最小化NLS模型得出的残差标准误差来确定的。为了得到稳定的估计值，我们假设所有来自不同ESM及其变体的模拟都具有统一的协方差函数。最后，最优协方差函数如下估计：

或者，为了评估共享误差结构假设的稳健性，我们通过拟合特定于ESM的协方差函数进行了敏感性分析。

2.3 带有测量误差校正的关联模型

为了将出生体重与妊娠晚期的PM2.5暴露关联起来，我们首先采用了几种传统方法作为比较。暴露水平是通过分娩月份的PM2.5浓度来近似的。这些方法包括：(a) 将出生体重异常与某个ESM模拟的浓度相关联的模型；(b) 将出生体重异常与所有模拟的平均值相关联的平均暴露模型；(c) 通过随机效应元分析将所有特定于模拟的关联汇总起来的平均效应模型。平均效应模型也被称为两阶段模型。通过将关联模型和测量误差的时空高斯模型结合在似然函数中，开发出了具有校准测量误差的最优估计器。关联模型将出生体重异常与一个潜在变量联系起来，以反映无误差暴露（μ），该潜在变量进一步通过测量误差模型与所有模拟联系起来。回归系数和潜在暴露变量是通过最大似然方法迭代估计的。通过Hessian矩阵的负定性确认了优化程序的有效性（见支持信息S1中的文本S2）。不确定性使用Fisher信息矩阵进行量化，并根据渐近正态性得出95%置信区间（CIs）。我们进行了敏感性分析，比较了三种基于多重暴露评估健康效应的模型，即：(a) 我们具有测量误差校正的最优估计器；(b) 平均暴露模型；(c) 平均效应模型。这三种模型应用于一组特定的ESM模拟（即由同一ESM生成的不同变体模拟）。为了确保足够的统计功效，我们只选择了具有≥10个模拟变体的ESM。因此，我们选择了四个ESM，分别是GISS-E2-1-G、MIROC6、MIROC-ES2L和MRI-ESM2-0。预计更好的模型能够在不同的ESM特定子集中生成更一致的估计值。为了进一步验证最优估计器，我们进行了500次迭代的统计模拟。之前分析中估计的参数被用作统计模拟中的伪真实值。在每次迭代中，我们随机抽取6,000个网格单元作为调查地点，并使用校正后的参数引入测量误差。通过三种模型评估健康效应。所有分析都是使用R软件（版本4.4.3）和“geosphere”、“caret”以及“ranger”包进行的。

3 结果

模拟浓度与地面观测的PM2.5浓度有相当好的一致性，但不同ESM及其变体之间的一致性程度有所不同，显示出异质的测量误差。所有模拟都表现出正相关，相关系数范围从0.40（MIROC-ES2L r24i1p1f2）到0.68（MIROC6 r7i1p1f1）（见支持信息S1中的表S2）。平均所有模拟后，相关系数进一步提高到0.70（见图1a）。对于后续敏感性分析中使用的四个ESM，相关系数分别为0.59（GISS-E2-1-G）、0.66（MIROC6）、0.51（MIROC-ES2L）和0.61（MRI-ESM2-0）。这四种模型的详细散点图见支持信息S1中的图S2。从时间上看，RMSE值显示出季节性模式，冬季RMSE较高，夏季RMSE较低，这一趋势在2000年至2014年间总体上是稳定的（见图1b）。测量误差的空间分布见监测站点的图1c。在北美，东部和西部沿海地区的RMSE值相对较低，而中部地区的RMSE值适中。在整个欧洲，RMSE值相对较低。在东亚，大多数站点的RMSE值较低，除了中国北部的少数站点。对于非洲和拉丁美洲等其他地区，监测站点的分布较为稀疏，相应的RMSE值相对较高，表明模拟的准确性有限。研究发现误差在时空上具有自相关性。基于所有误差的集合，估计的协方差函数见图1d。随着时间滞后的增加，该协方差函数迅速减小。敏感性分析进一步表明，不同ESM之间的协方差函数变化不大（见支持信息S1中的图S3）。

模型模拟中PM2.5测量误差的特征：(a) 所选模拟平均值与监测观测值之间的相关性；(b) 测量误差的时间分布；(c) 基于所有模拟集合的测量误差的时空协方差函数。多种传统方法（包括依赖于单个模拟的传统模型、平均暴露模型和平均效应模型）表明，PM2.5浓度的增加与出生体重的减少有关。估计效应的大小各不相同，这可能是由于测量误差的异质性造成的。首先，不同ESM或其变体之间的效应估计存在显著差异（见图2a）。对于妊娠晚期每增加10 μg/m3的PM2.5暴露，估计的出生体重减少量从0.01 g（NorESM2-MM r1i1p1f1的?0.85–0.87 g）到15.11 g（MIROC6 r6i1p1f1的12.69–17.54 g）不等。两种效应估计之间的差异通过Wald检验被认定为统计学上显著（P值<0.05）。同一模型的不同变体之间的模拟显示出相似的效应估计。其次，基于所有模拟的平均值，每增加10 μg/m3的PM2.5暴露对出生体重的减少效应重新估计为5.59 g（4.18–7.00 g）。第三，基于所有特定于模拟的估计的元分析，汇总效应为4.49 g（3.56–5.43 g），这与平均暴露模型的结果没有显著差异（Wald检验P值=0.21）。

模拟得出的PM2.5暴露对出生体重影响的估计：(a) 从选定模拟中得出的每增加10 μg/m3的PM2.5暴露对出生体重减少的估计。阴影背景表示来自所有模拟集合的估计值；其他条形图表示来自单个模拟的估计值。(b) 三种方法的效应估计验证：校准估计模型、平均暴露模型和平均效应模型，预指定的真实效应用虚线表示。(c) 三种模型的特定于ESM的集合估计：校准估计模型、平均暴露模型和平均效应模型。在校准测量误差后，妊娠晚期每增加10 μg/m3的PM2.5暴露对出生体重的减少重新估计为3.34 g（2.57–4.11 g），略低于平均暴露模型或平均效应模型的估计值。统计模拟显示，经过误差校正的最优估计器的性能优于前两种模型（见图2b），因为它生成了无偏估计。相比之下，平均暴露模型和平均效应模型分别高估了效应67.2%（10.0–124.4%）和34.4%（?7.3–76.2%）。由于测量误差的异质性可能导致估计效应的不一致性，因此校正这些误差可以提高稳定性。在没有校正的情况下，使用平均暴露模型或平均效应模型得出的估计值分布广泛，估计值范围分别扩大到13.4 g（10.0–16.8 g）和12.6 g（11.6–13.5 g）（见图2c）。相比之下，应用最优估计器显著提高了一致性。对于这些特定ESM（即MIROC-ES2L、GISS-E2-1-G、MRI-ESM2-0和MIROC6），校正后的出生体重减少量分别为0.87 g（0.49–1.24 g）、1.84 g（1.42–2.27 g）、3.35 g（2.54–4.17 g）和7.98 g（6.81–9.15 g）。因此，效应估计的范围显著缩小到7.11 g（5.57–8.66 g）。我们的结果表明，校准环境暴露中的测量误差可以有效减少模型之间的结构差异，减少偏差并提高健康效应估计的稳健性。

4 讨论

本研究提出了一种校正暴露数据集中测量误差的新框架，这种策略可以广泛应用于任何具有内在不确定性的数据源。据我们所知，这是第一项使用全球可用的关于时空相关性的空气污染预测进行正式测量误差校正的研究，填补了以往主要关注区域分析或特定队列的研究所留下的关键空白。我们的发现强调了调整测量误差的重要性，以便生成无偏且稳健的环境暴露健康效应估计，这些估计是由ESM及其扩展模型评估得出的。我们的研究再次证实了PM2.5暴露与出生体重降低之间的关联。此外，我们还表明，即使在不同的测量误差水平下，这种关联的方向也是稳定的，这增强了关于PM2.5导致出生体重降低的证据力度。在这项研究中，我们选择了CMIP6模拟作为测量误差特征描述和校正的目标，而不是之前流行病学研究中广泛使用的基于卫星的数据融合产品。我们的选择基于以下三个原因：首先，由于已知的测量误差存在，ESM模拟在研究中的使用仍然不足。CMIP6的独特集合属性，包括多个模型和大量的变体模拟，提供了严格描述测量误差所需的大量数据。ESM中固有的差异创造了一个环境，在这个环境中，我们可以证明我们的潜在变量方法能够有效地协调多样且容易出错的输入。其次，ESM为各种环境变量生成了时空连续的场，如特定颗粒成分、灰尘和温度，而这些变量往往缺乏全球性的、受观测限制的对应物。在PM2.5上验证我们的框架建立了一个可以扩展到其他缺乏融合数据的变量的协议。最后，CMIP6为在SSPs下预测未来健康影响提供了基础。根据观测结果校准历史模拟对于最小化未来风险评估的不确定性至关重要，这是历史卫星数据无法实现的。为了全面了解我们估计的可靠性，区分三种不确定性来源是很重要的：统计变异性、暴露数据选择和模型结构。首先，统计不确定性代表了随机抽样误差，使用从Fisher信息矩阵得出的95%置信区间进行了量化。其次，关于暴露数据选择的不确定性源于ESM之间的结构差异。正如我们的结果所示，未经校正的效应估计在不同ESM之间差异很大。然而，我们的方法通过缩小这一范围并在不同的模拟输入下产生一致的估计，展示了其稳健性。第三，与模型结构相关的不确定性源于测量误差框架中所做的假设，特别是时空高斯假设和协方差函数的选择。虽然我们根据拟合优度优化了协方差函数并通过敏感性分析进行了验证，但我们承认其他结构假设可能会影响误差模式的描述。在流行病学研究中很少应用校正测量误差的方法（Jurek等人，2006年；Shaw等人，2018年）。人们普遍认为测量误差的效应是使暴露效应的估计偏向于零假设，因此在测试无效应的零假设时会忽略测量误差（R. J. Carroll，2014年）。但如果忽略测量误差，真实的效应大小总是会被低估（J. Hausman，2001年；J. A. Hausman等人，1995年）。因此，校正测量误差对于避免有偏推断至关重要，特别是在复杂的建模框架中。尽管有这些理论进展，但由于经过验证的方法和可用软件工具的有限性，实际应用仍然具有挑战性（Keogh等人，2020年）。我们的研究为时空误差结构提供了一个校正框架，从而增强了环境流行病学应用中的分析能力。为了为CMIP6选择适当的测量误差校正策略，有必要批判性地评估现有方法论中固有的权衡。近几十年来已经开发了几种方法。其中，回归校准是最常用的经验方法。回归校准的基本原理是用真实暴露对易出错的暴露测量和其他协变量的回归来替代真实暴露，这一过程称为校准函数（R. J. Carroll，2014年）。它的相对简单性和直观性使其在各种模型中得到广泛应用，包括线性（R. J. Carroll & Stefanski，1990年；Gleser，1990年）、比例风险（Prentice，1982年）、广义线性（Armstrong，1985年；Fuller，1987a）和逻辑斯蒂（Rosner等人，1989年，1990年）模型。然而，当校准函数指定得当时，它在性能上表现良好，但当误差模型偏离经典加性假设时，其准确性会降低（R. Carroll等人，2006年；Shalabh，2011年）。SIMEX与回归校准具有相同的简单性，它是一种基于模拟的方法。它通过模拟额外的误差方差并将结果外推到无误差情景来处理测量误差，并提供直观的图形诊断（Cook & Stefanski，1994年；L. A. Stefanski & Cook，1995年）。然而，它对计算资源要求较高，并且需要敏感性分析来验证外推过程。特别是，其性能对外推模型的选择非常敏感（R. Carroll等人，2006年）。工具变量方法通过使用与真实暴露相关但独立于测量误差的外部变量来处理测量误差（Fuller，1987b）。这种方法避免了直接估计测量误差方差的需要，当没有重复或验证数据时非常有用（R. J. Carroll，2014年）。然而，这些方法也面临挑战，包括识别有效工具的难度以及由于工具较弱而导致的偏差风险（Andrews等人，2019年）。矩估计方法通过矩方程估计参数来避免分布假设（Stefanski & Boos，2002年），但它不适合推断高维参数（R. Carroll等人，2006年）。多重插补将测量误差视为缺失数据问题，并在随机缺失假设下提供灵活性（Cole等人，2006年）。然而，如果插补模型未能充分捕捉误差产生的机制，它可能会传播偏差（Little & Rubin，2019年）。基于最大似然的方法由于其灵活性而适用于测量误差校正。当结果模型和暴露误差模型可以同时指定时，最大似然方法提供了一个通用的框架来校准测量误差（R. J. Carroll，2014年）。特别是，贝叶斯模型可以被视为似然模型的扩展。它们从似然函数开始，并为所有未知参数添加先验概率分布。本研究选择了最大似然参数模型，因为CMIP6数据库的集合属性提供了详细描述测量误差的独特机会。该方法在适应时空自相关模型方面具有优势，这适用于描述嵌入在环境数据中的误差。为了降低计算复杂性，设计了一种两步估计策略，只保留目标参数进行迭代优化。值得注意的是，这种方法允许理论上扩展到包括完整似然估计中的其他协变量。虽然本研究假设了固定的真实暴露，但另一种规范可以包括真实暴露的分布假设。如上所述，我们的模型可以在贝叶斯框架下轻松修改，这在时空统计中也经常使用。尽管各种校准测量误差的方法具有不同的优点和局限性，但只有少数研究在特定设置中比较了它们的性能。Messer等人比较了三种方法，即回归校准、多重插补和最大似然，应用于逻辑斯蒂回归。他们发现，在大样本量下，最大似然的性能优于其他两种方法（Messer & Natarajan，2008年）。Thoresen等人在基于逻辑斯蒂模型的模拟研究中也比较了最大似然和回归校准。他们发现两种方法的性能都很好，但回归校准提供了计算便利性（Thoresen & Laake，2000年）。Cole等人在Cox比例风险模型的生存分析中比较了回归校准和多重插补。他们发现多重插补校准的性能取决于样本量（Cole等人，2006年）。因此，这些方法之间的选择在很大程度上取决于性能、计算负担和分析目标。未来的研究需要开发专门针对ESM模拟（如CMIP6）的先进方法。需要提到这项研究中的某些局限性。首先，协方差函数的准确性取决于验证数据集的代表性。尽管地面监测站提供了参考测量数据，但它们的全球分布不均匀，与健康记录的覆盖范围存在空间不匹配。我们的方法从观测丰富的区域将误差协方差结构外推到监测数据稀少或没有监测数据的区域，鉴于排放源、气溶胶组成和大气过程的区域差异，这是一个强有力的假设。然而，CMIP6模拟是基于物理和化学原理生成的，而不是基于地面监测数据、数据融合或机器学习产品的。生成过程与地面监测站的位置或密度无关。时空协方差的相关性主要由大气传输机制和模型的空间分辨率驱动，这两者都是全球适用的物理属性。因此，从观测丰富的区域估计协方差参数并将这种结构转移到监测数据稀少或没有监测数据的区域是合理的。其次，时空协方差建模需要高质量的有效验证数据，这对于数据集有限的研究可能并不总是可行的。第三，将研究区域划分为固定网格并在这个聚合级别进行参数估计可能会影响暴露评估的准确性。这种方法简化了PM2.5的空间变异性，可能在异质性高的区域引入误分类。然而，重要的是要注意，所提出的特征描述和校正框架在方法论上是可以泛化的。理论上，它可以直接应用于更细的网格或所有个体级别的样本，以提高精度。当前网格大小的选择是为了在方法论严谨性和实际应用之间取得平衡。最后，这里使用的最大似然估计方法引入了计算复杂性，需要高级优化算法。尽管高性能计算的进步缓解了与数据存储相关的限制，但将复杂的误差校正算法应用于全球集合的计算成本仍然是一个关键约束。具体来说，我们的最优估计器需要大量的矩阵运算。在每个模型的原始分辨率下进行这种分析在计算上是禁止性的。因此，我们通过将模拟重新划分为标准化分辨率（2.5° × 2.0°）来解决精度和可行性之间的权衡。这种方法显著降低了计算负担，使我们能够高效地实施严格的校准框架，同时保留了必要的区域空间模式。所提出的方法提供了一个新颖的框架，而这些局限性指出了改进的方向，特别是在可扩展性和参数估计效率方面。

5 结论
PM2.5与出生体重之间的负相关是稳健的，而来自CMIP6模型的PM2.5模拟与地面监测数据相比，在不同水平上表现出不可忽视的测量误差。通过开发和应用一种新的潜在变量方法，该方法考虑了时空结构化的经典测量误差，估计的效果显示出更好的一致性。进一步的研究可以将这种方法扩展到其他环境暴露和健康结果，并提高参数估计的效率。

致谢
本工作得到了中国国家自然科学基金（42422507）、北京自然科学基金（JQ24052）以及中国西藏自治区科学技术项目（XZ202501ZY0072）的支持。

利益冲突
作者声明与本研究无关的利益冲突。

数据可用性声明
所有数据都是公开可用的。健康数据来自人口与健康调查（DHS）计划。由于调查数量众多，具体国家、调查年份和个别数据集标识符的完整列表在支持信息S1的表S3中提供。这些数据可以在注册后通过https://dhsprogram.com/data/available-datasets.cfm下载，选择支持信息S1表S3中列出的具体调查。PM2.5的地面观测数据可以在（Xu等人，2025年）获取。CMIP6数据集是从地球系统网格联盟（ESGF）门户获取的，本研究包括了由10个ESM生成的历史PM2.5模拟，即MIROC6、MIROC-ES2H、GISS-E2-1-H、GISS-E2-1-G、GISS-E2-2-G、MRI-ESM2-0、MIROC-ES2L、NorESM2-MM、MPI-ESM-1-2-HAM和NorESM2-LM（Bentsen等人，2019年；Hajima等人，2019年；NASA-GISS，2018年，2019a年，2019b年；Neubauer等人，2019年；Seland等人，2019年；Tatebe & Watanabe，2018年；Watanabe等人，2021年；Yukimoto等人，2019年）。

热点排行