动态事后基线：提升森林经营碳抵消信度的科学框架

《Environmental Science & Technology》：Dynamic Ex-Post Baselines for Enhancing the Credibility of Improved Forest Management Carbon Offsets

【字体：大中小】 时间：2026年02月24日 来源：Environmental Science & Technology 11.3

编辑推荐：

　　本文构建了动态事后基线评估框架，综合运用合成控制、统计匹配与机器学习方法，基于卫星观测对中国五个改进森林管理IFM项目进行实证分析，揭示了传统静态基线系统性低估自然碳固存、导致过量签发碳信用的问题。研究结果为完善基于自然的解决方案NCS协议、提升全球自愿碳市场VCM的环境完整性提供了循证依据。

动态事后基线：提升森林经营碳抵消信度的科学框架

引言

森林作为关键的基于自然的气候解决方案NCS，其碳抵消项目主要分为造林、再造林和植被恢复ARR，减少毁林和森林退化所致排放REDD，以及改进森林管理IFM。其中，IFM通过延长采伐期、优化立木度等实践，预计到2030年每年可贡献高达16吉吨CO₂的负排放，约占所有NCS固存的一半。随着IFM项目在自愿和合规碳市场中变得日益重要，对其影响评估的严谨性及所声称气候效益的环境完整性的持续担忧也随之而来。

IFM项目的核心挑战在于建立可信的基线以证明额外性，即确保碳固存超出照常情景。当前的IFM基线主要依赖于历史平均值、植被生长模型和区域平均值，存在科学方法局限、方法论不一致导致逆向选择以及监测缺陷三大问题，共同损害了项目的可信度。为解决这些挑战，利用因果推理框架的事后方法提供了一种变革性方案。这些方法从合成控制、匹配等统计技术，到可捕捉复杂生态系统动态和非线性关系的机器学习算法，能够利用大量数据训练更好地反映现实世界森林管理情景的预测模型。此类数据驱动方法的有效性从根本上得益于遥感技术的整合，可提供训练这些模型、追踪森林动态和实现可核查碳核算所需的大量、独立且透明的观测数据。

本研究通过将像素级卫星数据与一套数据驱动方法（合成控制、统计匹配、随机森林和极端梯度提升XGBoost）整合到一个因果推理框架中，推进了IFM基线方法。我们将这些方法应用于中国的五个IFM项目，以精细构建若无项目干预可能发生的碳储量变化的事后动态反事实。通过将此实证基线既与项目自我报告的基线比较，也与观测到的碳储量变化比较，我们评估了传统基线方法的有效性、项目实施的实际影响以及相应碳信用的完整性。

方法

分析框架

碳抵消项目（包括IFM项目）的减排量信用生成通常遵循三个阶段：项目设计与注册、实施与监测、核查与签发。本研究开发了一种使用事后方法结合遥感数据集与因果推理框架的可信基线识别方法。我们将此方法应用于中国的五个IFM项目，将估计的基线碳储量变化（年增量）与项目期间的观测值进行比较。

研究始于项目筛选与数据收集。我们系统评估了在中国根据核证碳标准VCS、清洁发展机制CDM及早期CDM衍生方法注册的大约150个林业自愿减排项目。最终分析样本包括五个项目：三个在CDM下注册，两个使用CDM衍生方法开发。我们提取了五个样本项目的项目设计文件中包括地理位置、基线和项目情景的估计碳储量、管理活动和树木参数等关键信息。与自我报告的碳储量相关的地上生物量AGB被计算为我们的核心关注变量。基于卫星的AGB数据被收集和处理，并通过在选定林区进行样地内手动测量AGB提供交叉验证基准，验证了其可靠性。

利用卫星数据，我们通过以下方式构建基线：在项目层面运作的合成控制法，优化控制组的加权组合以最小化处理组和对照组在干预前时期的特征差异；在像素层面运作的统计匹配法，使用协变量匹配确保对照组特征分布在项目实施前与项目组密切匹配；以及利用像素级数据与XGBoost和随机森林的机器学习算法。我们通过安慰剂检验和误差指标评估了反事实基线的预测性能。

利用这些已建立的基线，我们进行了三方面的评估。首先，为评估传统基线方法的有效性，我们将项目自我报告的事前基线与我们实证的事后估计进行了对比。其次，为评估项目的额外性，我们将观测到的碳储量与实证反事实轨迹进行了比较。最后，为确定已签发碳信用的完整性，我们分析了基于自我报告基线的申领信用与基于实证基线的实际减排成果之间的差异。

协变量选择与对照组预筛选

为构建稳健的反事实基线，我们选择了十个关键协变量来控制影响森林管理结果的混杂因素。选择依据是对相关领域24项关键研究的系统综述，并针对IFM的具体情境进行了调整。协变量包括：1 地理与气候条件（年降水量、光照条件、坡度、海拔），作为森林生长农业潜力和地形限制的关键指标；2 市场可达性与人类活动（到最近道路的距离、到最近城镇的距离），与人类活动和市场需求相关，是项目运营可行性和采伐压力的常见指标；3 生态与管理背景（土壤有机碳、归一化植被指数NDVI、地上生物量、土地利用类型、森林经营类型），对于捕捉生态系统健康、碳固存潜力和不同经营模式的碳储量轨迹至关重要。

为确保科学有效性和代表性，同时平衡计算复杂度，我们对对照组选择实施了三步预筛选。首先，将潜在控制区域限制在与项目地相同的行政区划内，以确保地理相似性并最小化区域偏差。其次，排除项目地5公里范围内的区域，以避免空间相关性偏差。第三，根据世界保护区数据库和中国的保护区数据排除已建立的保护区，以减轻其他保护措施的混杂效应干扰项目效果评估。

经过此预筛选过程，我们采用合成控制法、统计匹配和机器学习算法来建立基线情景。鉴于五个项目在不同年份实施，我们选择每个项目实施年份前的五年作为模型训练的干预前时期。

数据来源

项目数据

我们的分析样本包含五个项目，详细信息如表1所示。其中两个项目（项目1-2）根据方法学AR-CM-003-V01开发，该方法学源自CDM的造林和再造林框架，并使用相同的工具识别基线情景和证明额外性。另外三个项目（项目3-5）在CDM的“退化土地再造林”方法学（AR-AM0001）下注册。这些方法学的一个关键特征是，基线碳储量变化是在项目设计文件中事前确定的，并在整个项目计入期内保持不变。基线碳储量变化的计算从根本上依赖于树木总生物量在不同时间段之间的变化，应用树种的加权平均含碳率。基线生物量估算则通常通过生长模型和将材积转换为生物量的异速生长方程来预测地上生物量，再通过树种特定的根冠比（通常来源于IPCC默认值）推导地下生物量。

卫星数据

本研究的核心变量，木本地上生物量，使用了廖等人开发的500米分辨率年度数据集（2001-2020年）进行量化，该数据集整合了MODIS、GEDI激光雷达、Hansen树木覆盖和SRTM地形数据。额外协变量则利用各种卫星数据集来捕捉环境因素和人类活动对森林生物量及森林管理项目开发的潜在影响，详见表2。

反事实基线设定

我们设计了四种数据驱动方法来构建动态事后反事实情景，作为五个IFM项目的基线情景。为评估这些方法是否能检测到有意义的碳储量变化，我们将其应用于同一区域内具有可比森林特征但未受IFM干预的潜在控制区域。由于这些区域未受干预，观测到的碳储量变化应与其反事实估计值匹配，误差最小。对于每个项目，我们通过比较干预前五年内的估计碳储量与观测碳储量来验证反事实方法，然后将经过验证的方法应用于构建干预后期基线预测。

合成控制法

合成控制法使用控制单元的加权线性组合来构建反事实框架，该过程包括两步优化来确定潜在控制单元（捐赠者）的最佳权重。首先，给定变量重要性矩阵V，求解权重W以最小化对照组的预测变量（协变量X₀）与处理组平均预测变量（X₁）之间的差异。其次，通过选择V来最小化干预前期合成控制组与实际处理组结果值之间的均方预测误差MSPE，确定最优权重W，使得合成对照组的结局变量轨迹（Z₀W）在干预前时期紧密逼近处理组的结局轨迹（Z₁）。本研究采用了项目级分析框架，为五个样本项目分别构建合成控制。

统计匹配

统计匹配基于干预前协变量识别与处理单元相似的非干预单元，模拟反事实，并确保处理组和对照组之间的可比性。本研究采用马氏距离最近邻匹配来识别控制单元。与SCM的项目级对照组不同，本研究实施了像素级匹配策略。五个项目区域及其预先识别的控制区域根据地卫星导出的地上生物量数据被栅格化为500米分辨率的像素。此栅格化过程产生了2,672个项目像素和1,867,582个控制像素，从而能够为项目区域识别统计上相似的控制像素。像素匹配过程涉及两个阶段。首先对分类协变量（具体是土地利用类型和森林经营类型）进行精确匹配。然后，基于最小距离原则，采用有放回的一对一最近邻马氏距离匹配，最终为所有项目像素找到了匹配，约有2,500个独特的控制像素用于后续分析。

机器学习

机器学习与因果推理的整合已成为经济学研究的重要进展，广泛应用于森林分类、土地类型识别和地上生物量估计。本研究采用随机森林和XGBoost算法，通过倾向得分匹配框架为IFM项目构建基于像素的基线情景。我们将其表述为一个二元分类问题，训练模型根据可观测特征区分项目像素与非项目像素，生成的预测概率作为倾向得分，以识别最可比的控制像素作为反事实。具体而言，来自项目区域和70%的预筛选潜在控制区域的像素作为训练数据，已识别的协变量作为预测因子，二元指标“像素是否属于项目区域”作为结局变量（项目区域=1，非项目区域=0）。通过10折交叉验证训练和评估两个模型。训练好的分类器应用于其余30%的控制区域，根据分类概率识别出森林条件和环境特征与项目区域最相似的像素。从这些伪项目像素中，我们选择其地上生物量与项目区域分布密切匹配的像素作为反事实基线，确保碳储量水平的可比性。鉴于数据集不平衡（项目像素少于非项目像素），我们应用合成少数类过采样技术SMOTE来平衡训练数据。通过使用随机搜索方法优化模型超参数以提高预测精度。

性能评估与验证

为确保反事实基线的可靠性，我们进行了涵盖预测有效性、协变量平衡和测量不确定性的综合评估。首先在干预前时期的不同时间段内评估了每种方法的预测有效性，将时间段划分为训练和测试阶段，以验证基于早期历史数据训练的模型是否能准确预测后续观察到的干预前值。模型性能通过平均绝对百分比误差MAPE和均方根预测误差RMSPE进行评估，量化预测值与观测到的干预前值之间的差异。通过加权MAPE（针对合成控制）和标准化均值差（针对其他方法）评估处理组和对照组之间的协变量平衡，确保均值差异相对于合并标准差保持在可接受的阈值内。

为量化方法的不确定性并评估项目影响的统计显著性，我们遵循既定的排列检验框架进行了安慰剂检验。对于每个项目和每种估计方法，我们随机选择1000个与项目地面积相同的控制区域作为伪处理单元。然后对这些安慰剂单元应用相同的基线估计程序，计算“安慰剂效应”作为在没有实际干预的情况下观测到的AGB与反事实估计值之间的差异。因此，这些安慰剂效应的分布代表了每种方法固有的估计不确定性，偏差反映了自然变异性和模型拟合误差。因此，只有当实际项目影响超过安慰剂分布的95百分位数时，才被认为具有统计显著性。我们进行了两项互补分析：一是直接比较，检验实际干预效果是否显著偏离安慰剂效应分布，不确定性由1000次试验中安慰剂效应的标准误差量化；二是RMSPE比率分析，比较干预后与干预前的预测误差，这有助于区分真正的处理效应与在整个时期持续存在的较差模型拟合。对于每个单元（实际项目或安慰剂），比率计算为干预后时期RMSPE与干预前时期RMSPE之比。我们将项目的RMSPE比率与从1000个安慰剂单元得出的比率分布进行比较。具有真正额外性的项目应表现出比伪处理对照更高的RMSPE比率，因为处理效应会贡献于干预后的误差。隐含p值计算为安慰剂比率超过项目比率的比例。如果项目的RMSPE比率排在安慰剂分布的前5%，则在5%水平上达到统计显著性。

此外，我们通过采用遥感数据中固有的20%测量误差的保守假设来处理测量误差，这与现有文献和我们实地验证观察结果一致。为构建最终的不确定性区间，我们将测量不确定性与从安慰剂检验分布得出的方法不确定性相结合，计算其平方和的平方根（假设独立），然后根据此组合标准误差计算95%置信区间。

结果

使用事后方法识别基线情景

我们首先通过时间推移测试评估预测有效性，将干预前时期分为训练段（前3年）和测试段（剩余2年加干预年），评估基于早期数据训练的模型是否能预测后期值。所有方法都表现出经过良好校准的性能和较低的预测误差：平均而言，合成控制实现了2%的训练MAPE和3%的测试MAPE；XGBoost和随机森林表现出出色的泛化能力，测试集准确率超过96%，假阳性率低于6%，测试MAPE为3%，但由于偶尔的极端预测误差而显示出最高的RMSPE；统计匹配略胜一筹，匹配组的平均MAPE低于2%，尽管由于像素级方差，单个像素的MAPE约为10%。

接着，我们评估了五个项目平均的干预前拟合性能。所有方法在估计的反事实与观测到的项目AGB之间都表现出高度一致性：合成控制保持了较强的精度，总体MAPE为2%，RMSPE最低（0.0015）；统计匹配表现出最稳定的性能，匹配组平均MAPE为1%；机器学习方法实现了2%的总体MAPE，测试集准确率超过90%。在协变量平衡方面，机器学习方法表现出最高的精度，大多数SMD在0.16以内，关键变量低于0.06；统计匹配也实现了有效的对齐，尽管少数变量显示出轻微偏差，反映了多变量匹配过程中固有的权衡。

总体而言，计量经济学方法在透明解释和平行趋势建立方面表现出色，而机器学习方法则利用其卓越的高维数据处理能力实现了更强的协变量平衡。这种互补优势与Athey和Imbens关于整合计量经济学和机器学习方法进行因果推理的提议相一致。预测有效性测试、干预前拟合评估和协变量平衡评估结果的趋同性证实，我们的反事实情景能够可靠地捕捉独立于项目干预的自然森林动态，为基线设定和额外性评估提供了坚实基础。

IFM项目的实施效果与不确定性分析

根据事后反事实框架，我们的基线估计准确地追踪了所有项目干预前的AGB动态。观测到的项目AGB与估计的反事实基线之间的差异验证了基线的准确性，在干预前时期，所有方法的差异都接近于零。干预后出现了适度的分歧，但不同方法和项目之间存在显著差异：合成控制估计显示出最大的偏差，而统计匹配产生的估计通常更为保守；项目1显示出下降趋势，表明可能存在负面影响，而项目2-5显示出延迟的影响出现，发生在2012年之后，而不是声称的干预年份，这与之前关于中国自愿碳市场发展的研究结果一致。尽管存在这些视觉模式，但绝对幅度仍然不大，项目3-5的年差异通常低于5万吨，因此需要进一步的显著性检验来区分真正的处理效应与方法不确定性和自然变异性。

因此，我们通过安慰剂检验和排列检验进行了严格的统计推断，从每个项目的控制池中随机选择1000个伪处理单元，并应用相同的基线构建程序，在原假设（无干预影响）下生成安慰剂效应的无效分布。

将实际效果与安慰剂分布的直接比较以及RMSPE比率分布的评估揭示了显著的方法学差异。合成控制在某些情况下显示出更宽的不确定性界限，反映了其在凸包约束下固有的敏感性。统计匹配在所有项目和时期内产生的标准误相对较小且稳定。随机森林和XGBoost在干预前拟合极佳，但显示出对样本量的敏感性，较小项目的干预后方差被放大，表明过拟合；这进一步反映在它们的RMSPE比率分布中，在小型项目中，尽管干预后方差适中，但异常小的干预前误差夸大了比率。为评估统计显著性，我们检验了实际项目效果在直接比较和RMSPE比率框架下是否都排在安慰剂分布的极端尾部（前5%）。以统计匹配方法为例，项目1-5在1000个安慰剂效应的平均干预后AGB差异中分别排名第1001、136、652、919和664位，这表明分别有100.0%、13.5%、65.1%、91.8%和66.3%的随机选择控制区域表现出比实际项目区域更强的干预后“效应”——这远远超过如果存在真正处理效应时的预期。相应地，这些项目的RMSPE比率分别为2.41、3.91、7.58、1.36和4.28，在其各自的安慰剂分布中分别排名第60、52、89、690和375位，没有一个超过在5%水平上达到统计显著性所需的95百分位数阈值。所有方法都出现了相似的模式：在任一方法下，没有一个项目在直接比较和RMSPE比率测试中同时排名超过95百分位数，所有隐含p值都大于0.05。

基于两种框架和所有四种方法的综合安慰剂检验，我们不能拒绝五个IFM项目中任何一个无显著处理效应的原假设。这些结果表明，观测到的项目区域碳储量变化并未显著超出自然动态和基线估计不确定性的预期，这对这些早期IFM项目所声称的减排量的额外性提出了重要质疑，并强调了为碳信用完整性进行严格反事实评估的必要性。

项目自我报告基线与相关碳信用的完整性

为评估项目报告基线方法的可信度，我们通过分析其幅度和趋势，将自我报告的基线碳储量变化与我们的反事实估计进行了比较。在幅度方面，项目1和2的基线碳储量变化在绝对值上与我们的反事实估计基本一致。相比之下，根据CDM退化土地再造林方法学开发的项目3-5，假设其声称的退化林地产生极少的基线碳固存，报告了极低的年度基线碳储量变化：分别仅为13吨/年、126吨/年和656吨/年。而我们的卫星观测估计值则高出许多，分别约为20,000吨/年、8,000吨/年和60,000吨/年。尽管承认碳核算方法可能存在系统性差异——鉴于项目设计文件缺乏详细的数据来源或监测方法，但如此极端的差异无法仅用方法学差异来解释。相反，它们反映了基线方法学中的缺陷假设，不适当地假设了那些表现出显著自然生长潜力的地点具有可忽略的自然碳固存潜力。在趋势方面，项目报告的基线呈现出过度简化的模式，项目3-5采用简单的线性轨迹。相比之下，我们的动态反事实估计捕捉了复杂的现实世界动态，而这些动态在项目报告的事前基线中是缺失的，这表明传统基线方法中的静态假设在温室气体减排核算中引入了系统性误差。

在识别出系统性基线问题后，我们通过比较项目的事前预测与我们的实证估计，评估了这些问题对申领减排量的影响。项目所有者报告的预测温室气体清除量是预测的实际碳储量变化与自我报告基线之间的差值，而我们的估计则使用卫星观测的项目变化减去我们通过四种方法得出的事后反事实基线。对于项目1、3、4和5，项目报告值始终超过我们的估计值，并且在大多数年份落在我们的不确定性区间之外——该区间结合了方法不确定性的95%置信区间和20%的测量不确定性。具体而言，项目1显示出主要为负的实证估计（每年-19,050 ± 20,200吨AGB），表明碳固存实际上下降而非增加，累计高估到2020年达到168 ± 87万吨。项目5表现出相似模式，申领量（每年35,540吨）超过我们的估计（每年9,970 ± 8,490吨）约每年25,600吨。项目2是唯一一个实证碳汇估计偶尔超过事前预测的案例，然而它也是唯一未能成功注册的项目——这表明低估的基线和夸大的减排预测可能有助于项目获批。总体而言，五个项目的事前预测清除量平均为每年32,200吨AGB，超过我们的估计（每年5,650吨）3.7倍。

最关键的是，项目3和5基于事后监测获得了实际的信用签发。这些事后值由第三方核查员使用相同的事前基线进行核查，代表了每个监测期结束时签发的累计信用。已签发的信用持续低于事前预测，证实事后核查纠正了一些高估，但仍远高于我们的实证置信区间，表明存在持续的过量签发。项目3在两个监测期内签发了约135,400吨AGB，而我们的2006-2018年估计值为51,020吨。项目5显示出更大的差异：第一个时期（2008-2012）签发了约16,800吨AGB，尽管我们的估计值为负（-13,960吨）；截至2017年的累计签发量达到168,290吨AGB，而我们的估计值为65,420吨。总体而言，已签发信用超过我们的实证估计1.7倍，这表明尽管事后核查与事前预测相比减少了过量签发，但未能纠正根本性的基线虚高问题。

这些分析揭示了IFM碳信用实践中的系统性完整性问题。项目报告的基线通过有缺陷的方法学假设和静态预测，低估了自然森林碳固存，且未能捕捉森林对环境变化的动态响应。这些缺陷在信用产生流程中传播：夸大事前预测，在核查中持续存在，并导致过量签发的信用。此外，在我们的样本中，乐观的事前预测与成功注册同时出现的模式，表明审批过程中可能存在逆向选择，值得未来用大样本进行调查。我们的研究结果表明，当前的基线方法和核查程序不足以确保IFM碳信用的环境完整性。

讨论

我们对五个中国IFM项目的分析揭示了有缺陷的基线方法学，以及在申请和签发阶段对减排量的系统性高估。这些发现与越来越多的关于森林抵消过量签发问题的全球证据一致。检查REDD+项目的研究已确定基线虚高是一个根本性挑战，导致避免毁林带来的碳效益被大幅高估。特别是针对IFM项目，对加州抵消计划的研究记录了由于基线构建的方法学缺陷导致约30%的过量签发，揭示了无论是否参与抵消，大多数森林都在积累碳，并且几乎没有发现管理变革或额外性的证据。尽管采用了不同的方法学，但这些发现共同强调了为评估基于森林的干预措施而建立标准化动态基线的迫切需要。

我们的研究在三个关键方面扩展了这一全球证据基础。首先，我们首次为中国根据CDM方法学开发的IFM项目提供了基线完整性的实证评估，这些方法学在全球范围内塑造了后续的抵消标准。其次，我们通过整合四种不同的事后方法推进了方法学应用，而先前的研究通常只采用单一方法。这种多方法框架能够通过标准化的安慰剂检验，明确评估模型依赖的反事实不确定性，这是任何单一方法都无法获得的。过度签发模式在所有具有不同结构假设和空间尺度的四种方法中表现一致，这表明根本性挑战在于基线构建范式，而非分析技术的选择。第三，通过证明这些先进的事后方法可以利用公开可用的卫星数据在精细空间分辨率上应用，我们的发现支持了大规模实施严格的动态基线框架。尽管我们的样本量有限，但我们的发现与跨越不同协议、生态区和森林管理情境的大量证据的一致性表明，潜在的挑战源于当前基线方法学的基本局限性，而非特定情境的失败。

本研究中发现的系统性差异是由多个相互关联的因素造成的，而非单一原因。首先，基线设定偏差是一个重要因素。现有的IFM协议通常采用静态基线方法，使用历史或区域数据以及模拟模型，这可能不足以捕捉动态的森林生长轨迹，且

热点排行