用于地上生物量估算的多阶段混合建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于地上生物量估算的多阶段混合建模

《Remote Sensing Applications: Society and Environment》：Multi-Stage Hybrid Modeling for Aboveground Biomass Estimation

【字体：大中小】 时间：2026年05月22日 来源：Remote Sensing Applications: Society and Environment 3.8

编辑推荐：

　　准确的地上生物量（Aboveground Biomass, AGB）估算对于森林监测、碳储量评估以及气候变化减缓至关重要。传统的实地测量方法虽然可靠，但劳动密集且难以规模化。遥感数据，特别是多光谱影像和光探测与测距（Light Detection and Ra

准确的地上生物量（Aboveground Biomass, AGB）估算对于森林监测、碳储量评估以及气候变化减缓至关重要。传统的实地测量方法虽然可靠，但劳动密集且难以规模化。遥感数据，特别是多光谱影像和光探测与测距（Light Detection and Ranging, LiDAR）数据，提供了可规模化的替代方案，但面临高特征维度、冗余性以及不同森林条件下泛化能力有限等挑战。为管理这些复杂数据集并实现高预测精度，机器学习模型已被证明高度有效。然而，独立使用时，这些模型常遇到两个实际挑战：特征权重分配的可解释性有限，以及预测结果因训练数据子集不同而产生显著变化。本研究提出了一种两阶段混合集成框架，用于利用LiDAR衍生结构指标和Landsat5影像进行AGB估算。该两阶段设计通过首先系统探索多种特征-模型组合以生成多样化预测来应对上述局限。在第二阶段，采用元学习方法最优组合这些预测，从而减少单个模型偏差，同时提供透明且可解释的模型权重。第一阶段，多种特征选择技术为随机森林（Random Forest, RF）和极端梯度提升（eXtreme Gradient Boosting, XGB）回归器精炼输入变量；其输出在第二阶段元模型中进行组合。线性回归（Linear Regression, LR）、RF和XGB也作为基线模型通过10折交叉验证进行比较。在加拿大安大略省Petawawa研究林（Petawawa Research Forest, PRF）数据集上的测试表明，该框架在高维LiDAR数据上实现了R²超过0.87的分数，提高了AGB稳健估算的准确性、泛化能力和计算效率。

本研究旨在解决森林地上生物量（Aboveground Biomass, AGB）估算中的关键挑战，开发了一种两阶段混合集成建模框架，相关成果发表于《Remote Sensing Applications: Society and Environment》。

研究背景方面，森林生态系统作为关键碳汇，其AGB的准确量化对全球碳动态和气候变化缓解策略至关重要。传统实地测量方法如直接测树和异速生长方程虽精度高，但耗时耗力，难以大规模推广。遥感技术，特别是多光谱卫星影像和光探测与测距（Light Detection and Ranging, LiDAR）数据，为大尺度生物量评估提供了可扩展的非侵入式替代方案。多光谱平台如Landsat可生成归一化植被指数（Normalized Difference Vegetation Index, NDVI）、土壤调节植被指数（Soil Adjusted Vegetation Index, SAVI）等植被指数；LiDAR则能提供森林垂直结构的精确三维测量，包括高度百分位数和冠层复杂度信息。然而，现有研究仍面临高特征维度、跨模态冗余、模型过拟合以及单阶段模型泛化能力受限等问题。尽管随机森林（Random Forest, RF）、极端梯度提升（eXtreme Gradient Boosting, XGB）等集成技术能有效捕捉非线性特征-生物量关系，但多数研究依赖静态特征集和单阶段模型，限制了其在不同森林类型和传感器组合间的泛化能力。卷积神经网络（Convolutional Neural Networks, CNNs）虽具优势，但存在可解释性差、需要大量标注数据等局限，制约了其在生物量估算业务化应用中的实用性。基于上述背景，研究人员提出了一种结构化的两阶段混合集成框架，以系统性应对特征冗余、模型过拟合和泛化不足等挑战。

本研究采用的关键技术方法主要包括以下方面。数据集方面，研究基于加拿大安大略省Petawawa研究林（Petawawa Research Forest, PRF）的四个数据集：PRF-Landsat5-9（9个原始光谱特征）、PRF-Landsat5-54（含二次多项式特征的54个特征）、PRF-LiDAR-36（36个LiDAR结构特征）以及PRF-LiDAR-702（含多项式扩展的702个高维LiDAR特征）。建模策略上，第一阶段采用四种特征选择方法（基于RF的重要性排序、递归特征消除（Recursive Feature Elimination, RFE）、基于XGB的重要性排序以及RF-XGB混合方法），结合RF和XGB回归器构建多样化的基学习器池，并通过超参数网格优化（GridSearchCV）和多项式特征扩展（二阶多项式及交互项）增强特征表达能力；第二阶段采用三种集成策略，即随机模型平均、基于交叉验证性能的Top-k模型平均，以及基于线性回归的元模型堆叠（stacking），通过特征选择后的基学习器预测作为元特征，训练线性回归元学习器实现预测融合。主要使用Python实现，采用10折交叉验证进行评估。

研究结果部分，"探索性特征分析"显示，Landsat数据集中多光谱波段（如B7、B5）及AGE、SITE_INDEX等立地因子最具信息价值，而多项式交互特征如AGE*SITE_INDEX、B5*B7在扩展特征集中贡献显著；LiDAR数据集中，垂直变异性（zsd）、高度百分位数（zq65、zq75、zq90）及交互项如zmax*zq55为关键预测因子。相关性热图揭示了光谱特征和LiDAR结构特征内部存在中等至高度的共线性，凸显了特征选择的必要性。

"基线模型评估"表明，RF在低维至中等维度的Landsat数据集（R²达0.76）和36维LiDAR数据集（R²=0.84）上表现稳健；XGB在PRF-Landsat5-54上表现最优（R²=0.76）；而LR在高维PRF-LiDAR-702上出现严重失效（测试R²=-1.87），揭示了线性模型处理高维非线性数据的局限性。

"第一阶段：特征选择与基模型结果"表明，PRF-Landsat5-9上RF结合RFE或RF特征选择（5个特征）达到最优R²=0.7699；PRF-Landsat5-54上XGB配合RFE_RF选择20个特征达到R²=0.7884；PRF-LiDAR-36上XGB基于自身重要性选择10个特征达到R²=0.8193；PRF-LiDAR-702上RF结合RF_XGB混合选择方法使用70个特征达到最高R²=0.8698，为所有数据集最优表现。研究结果表明，特征选择方法与模型类型的适配性对预测精度至关重要：低维Landsat数据适合递归方法，高维LiDAR数据则更受益于集成式特征选择。

"第二阶段：元模型集成"显示，随机平均作为基准方法，性能与较优基模型持平但方差较大；Top-k平均在PRF-Landsat5-54上略有提升，但在PRF-LiDAR-36上改进有限，提示高预测冗余场景下平均策略的局限性；线性回归元模型在PRF-Landsat5-9上基于19个元特征达到R²=0.7699，在PRF-Landsat5-54上基于30个元特征达到R²=0.7782，在PRF-LiDAR-36（33个元特征，R²=0.8176）和PRF-LiDAR-702（8个精选元特征，R²=0.8592）上均实现了预测的系统性整合与方差缩减。

"第一阶段与第二阶段模型比较"揭示了两阶段模型的核心优势互补关系：尽管第二阶段在点精度上与第一阶段最优模型相近甚至略低（PRF-Landsat5-54：0.7884 vs 0.7783；PRF-LiDAR-702：0.8698 vs 0.8592），但其在预测稳定性方面表现突出。PRF-Landsat5-9上第二阶段R²分布的变异性降低约13.1%；PRF-Landsat5-54上变异系数从10.67%降至7.82%（改进26.6%）；PRF-LiDAR-36上变异系数从27.65%降至26.22%（改进5.2%）；PRF-LiDAR-702上变异系数从30.98%大幅降至21.82%（改进29.6%）。测试集MSE和MAE在两阶段间保持紧密对齐，证实集成策略在不牺牲精度的前提下增强了泛化一致性。

"与现有技术对比"部分，与Sch?fer等人（3D CNN结合RF，基于167个样地加合成增强，在PRF上RF达R²=0.85、CNN达R²=0.87）相比，本研究基于249个LiDAR样地和624个Landsat样地的真实观测，避免了体素化和预训练CNN的复杂性，以RF_XGB选择的70个LiDAR特征达到R²=0.8698（第一阶段），验证了可解释集成模型结合充分特征工程在复杂生物量预测任务中可与深度学习竞争。元模型阶段R²=0.8592虽略低，但显著提升了操作效率与模型透明度。

"洞察与关键发现"指出，特征选择对高维数据尤为关键，LiDAR结构指标持续优于Landsat光谱指数，确认LiDAR为高精度生物量制图的首选数据源，而Landsat在LiDAR覆盖不足时仍具大区域监测价值。多项式特征交互使模型能够识别简单模型无法捕捉的复杂生物物理模式。两阶段堆叠集成架构在可解释性与预测性能间取得平衡，促进了跨维度数据集上的可扩展建模。

讨论与结论部分，研究结论指出：两阶段混合集成框架通过系统性特征工程和元学习策略，有效提升了AGB估算的准确性、泛化能力和可解释性。LiDAR衍生结构指标对性能贡献显著（R²>0.87），PRF-Landsat5光谱特征的加入增强了集成模型的泛化表现。统计显著性分析确认所有阶段模型均显著优于无技能基线（p<0.05）。第二阶段的核心价值在于将强基学习器整合为更稳定的预测系统，尤其在高维LiDAR特征上实现了方差的大幅缩减。研究局限性包括：对高质量LiDAR数据的依赖、仅在单一森林类型（PRF）验证限制了向不同冠层结构或干扰历史生物群的推广、空间自相关可能导致交叉验证估计略偏乐观，以及两阶段集成引入的额外计算复杂度对实时或超大规模业务化监测构成挑战。未来研究方向涵盖：跨生态系统的框架迁移性评估、采用置换重要性获取更无偏的特征贡献估计、探索LiDAR与光学数据在特征层面的真正融合、引入SHapley Additive exPlanations（SHAP）或Local Interpretable Model-agnostic Explanations（LIME）增强可解释性，以及通过模型蒸馏或轻量级集成近似降低计算开销，以提升森林碳监测和气候变化应用中的业务化可扩展性。

联系信箱：

粤ICP备09063491号

热点排行